如何用正则表达式提取 HTML 标签内容

发布时间：2025-01-23 19:20:37 作者：小樊
来源：亿速云阅读：140

要使用正则表达式提取 HTML 标签内容，请遵循以下步骤：

导入正则表达式库：在 Python 中，您需要导入 re 库。

import re

编写正则表达式模式：为了匹配 HTML 标签，您可以使用以下正则表达式模式：

<[^>]+>

这个模式的解释如下：

<：匹配尖括号 <。
[^>]+：匹配任意字符（除了 >）一个或多个，直到遇到 >。
>：匹配尖括号 >。

使用 re.findall() 函数提取 HTML 标签内容：将 HTML 字符串和正则表达式模式作为参数传递给 re.findall() 函数，它将返回一个包含所有匹配项的列表。

示例代码：

import re

html_string = '''
<div>
    <p>这是一个段落。</p>
    <span>这是一个内联元素。</span>
</div>
'''

pattern = r'<[^>]+>'
tags = re.findall(pattern, html_string)

print(tags)

输出结果：

['<div>', '<p>这是一个段落。</p>', '<span>这是一个内联元素。</span>', '</div>']

请注意，这个正则表达式可能无法处理所有 HTML 文档，特别是那些包含 JavaScript 代码或特殊字符的文档。在这种情况下，建议使用 HTML 解析库（如 BeautifulSoup 或 lxml）来处理 HTML 文档。

如何用正则表达式提取 HTML 标签内容

相关阅读