Python中怎么利用正则表达式提取文本

发布时间：2021-07-10 14:21:14 作者：Leah
来源：亿速云阅读：528

# Python中怎么利用正则表达式提取文本

正则表达式（Regular Expression）是处理文本数据的强大工具，Python通过内置的`re`模块提供了完整的正则表达式支持。本文将介绍如何利用`re`模块从文本中提取目标内容。

## 一、基础方法

### 1. re.findall() 提取所有匹配
```python
import re

text = "订单号：12345, 金额：¥200; 订单号：67890, 金额：¥500"
order_ids = re.findall(r"订单号：(\d+)", text)  # 提取所有订单号
print(order_ids)  # 输出: ['12345', '67890']

2. re.search() 提取首个匹配

result = re.search(r"金额：¥(\d+)", text)
if result:
    print(result.group(1))  # 输出: 200

二、进阶技巧

1. 命名分组提取

pattern = r"订单号：(?P<id>\d+).*?金额：¥(?P<amount>\d+)"
match = re.search(pattern, text)
if match:
    print(match.group('id'))     # 输出: 12345
    print(match.group('amount')) # 输出: 200

2. 多行模式匹配

multi_text = """姓名: 张三
电话: 13800138000
地址: 北京市"""
phone = re.search(r"电话:\s*(\d+)", multi_text).group(1)
print(phone)  # 输出: 13800138000

三、实用场景示例

1. 提取网页中的URL

html = '<a href="https://example.com">链接</a>'
urls = re.findall(r'href="(https?://[^"]+)"', html)
print(urls)  # 输出: ['https://example.com']

2. 提取日志中的时间戳

log = "[2023-08-15 14:30:22] 用户登录成功"
timestamp = re.search(r"\[(.*?)\]", log).group(1)
print(timestamp)  # 输出: 2023-08-15 14:30:22

四、注意事项

复杂正则表达式建议添加注释：

pattern = r"""
    (?P<year>\d{4})-  # 年
    (?P<month>\d{2})- # 月
    (?P<day>\d{2})    # 日
"""

特殊字符需要转义，如\.表示真实的点号
性能考虑：对大量文本建议预编译正则

compiled_re = re.compile(r'\d+')

通过合理使用正则表达式，可以高效完成各种文本提取任务。建议结合在线正则测试工具（如regex101）进行调试。 “`

Python中怎么利用正则表达式提取文本

2. re.search() 提取首个匹配

二、进阶技巧

1. 命名分组提取

2. 多行模式匹配

三、实用场景示例

1. 提取网页中的URL

2. 提取日志中的时间戳

四、注意事项

相关阅读