怎么用python提取字符串中的数字

发布时间：2022-01-28 13:35:25 作者：iii
来源：亿速云阅读：9145

# 怎么用Python提取字符串中的数字

## 目录
1. [引言](#引言)
2. [基础方法](#基础方法)
   - [2.1 使用isdigit()方法](#21-使用isdigit方法)
   - [2.2 遍历字符串](#22-遍历字符串)
3. [正则表达式方法](#正则表达式方法)
   - [3.1 re.findall()基础用法](#31-refindall基础用法)
   - [3.2 匹配不同数字格式](#32-匹配不同数字格式)
4. [处理复杂场景](#处理复杂场景)
   - [4.1 带符号的数字](#41-带符号的数字)
   - [4.2 科学计数法](#42-科学计数法)
   - [4.3 数字与单位组合](#43-数字与单位组合)
5. [性能优化](#性能优化)
   - [5.1 编译正则表达式](#51-编译正则表达式)
   - [5.2 方法选择建议](#52-方法选择建议)
6. [实战案例](#实战案例)
   - [6.1 日志文件分析](#61-日志文件分析)
   - [6.2 网页数据抓取](#62-网页数据抓取)
7. [常见问题](#常见问题)
8. [总结](#总结)

## 引言

在数据处理和文本分析中，从字符串中提取数字是一项常见但关键的任务。Python作为数据处理的首选语言，提供了多种高效的方法来完成这项工作。本文将全面介绍Python中提取字符串数字的各类方法，包括基础字符串操作、正则表达式高级技巧以及处理特殊场景的解决方案。

## 基础方法

### 2.1 使用isdigit()方法

`isdigit()`是字符串对象的内置方法，用于检测字符串是否只包含数字字符（0-9）：

```python
text = "订单12345金额678元"
digits = [char for char in text if char.isdigit()]
result = ''.join(digits)
print(result)  # 输出: 12345678

注意事项： - 只能识别0-9的数字字符 - 无法识别负数符号、小数点等特殊字符 - 对于全角数字（如”１２３”）会返回False

2.2 遍历字符串

手动遍历字符串是最基础的方法，适合简单场景：

text = "温度25.6℃ 湿度70%"
numbers = []
current_num = ""

for char in text:
    if char.isdigit() or char == '.':
        current_num += char
    elif current_num:
        numbers.append(float(current_num))
        current_num = ""

# 处理最后可能存在的数字
if current_num:
    numbers.append(float(current_num))

print(numbers)  # 输出: [25.6, 70]

适用场景： - 数字格式简单且统一 - 不需要处理复杂符号 - 对性能要求不高的小规模数据处理

正则表达式方法

3.1 re.findall()基础用法

正则表达式是处理复杂模式匹配的利器：

import re

text = "服务器内存使用率85%，CPU负载2.5"
numbers = re.findall(r'\d+\.?\d*', text)
print(numbers)  # 输出: ['85', '2.5']

模式说明： - \d+ 匹配1个或多个数字 - \.? 匹配0或1个小数点 - \d* 匹配0个或多个数字

3.2 匹配不同数字格式

扩展正则表达式以处理更多数字格式：

text = "收入:+123.45元 支出:-78.90 USD 科学计数:1.23e-4"
pattern = r'[-+]?\d*\.?\d+(?:[eE][-+]?\d+)?'
numbers = re.findall(pattern, text)
print(numbers)  # 输出: ['+123.45', '-78.90', '1.23e-4']

模式解析： - [-+]? 可选的正负号 - \d*\.?\d+ 整数或小数部分 - (?:[eE][-+]?\d+)? 可选的科学计数法部分

处理复杂场景

4.1 带符号的数字

处理包含货币符号、千位分隔符的数字：

text = "价格: $1,234.56 ¥789.00"
pattern = r'[$¥]?[,\d]+\.?\d+'
numbers = re.findall(pattern, text)
cleaned = [num.replace('$', '').replace('¥', '').replace(',', '') 
           for num in numbers]
print(cleaned)  # 输出: ['1234.56', '789.00']

4.2 科学计数法

精确匹配科学计数法表示的数字：

text = "常量: 6.022e23 1.6E-19"
pattern = r'[-+]?\d*\.?\d+(?:[eE][-+]?\d+)'
numbers = re.findall(pattern, text)
print(numbers)  # 输出: ['6.022e23', '1.6E-19']

4.3 数字与单位组合

提取带单位的数字并保留关联：

text = "距离: 5km 重量: 2.5kg"
pattern = r'(\d+\.?\d*)\s*([a-zA-Z]+)'
matches = re.findall(pattern, text)
print(matches)  # 输出: [('5', 'km'), ('2.5', 'kg')]

性能优化

5.1 编译正则表达式

对于需要重复使用的模式，预编译可提升性能：

import re

texts = ["数据1: 123", "数据2: 456", ...] * 1000
pattern = re.compile(r'\d+')

# 单次编译多次使用
for text in texts:
    numbers = pattern.findall(text)

性能对比： - 编译后速度可提升2-5倍 - 在循环处理大量文本时效果显著

5.2 方法选择建议

场景	推荐方法	时间复杂度
简单数字提取	isdigit()	O(n)
固定格式数字	字符串方法	O(n)
复杂模式匹配	正则表达式	O(n)
超大规模数据	编译后的正则	O(n)

实战案例

6.1 日志文件分析

处理服务器日志中的状态码和响应时间：

log = """
[2023-01-01 12:00:00] GET /api 200 345ms
[2023-01-01 12:00:01] POST /login 404 210ms
"""

# 提取状态码和响应时间(毫秒)
pattern = r'\b(\d{3})\s(\d+)ms'
matches = re.findall(pattern, log)
for status, time in matches:
    print(f"状态码: {status}, 响应时间: {time}ms")

6.2 网页数据抓取

从HTML中提取产品价格信息：

html = """
<div class="price">￥1,299.00</div>
<span class="discount">8.5折</span>
"""

# 提取价格和折扣
price = re.search(r'￥([\d,]+\.\d{2})', html).group(1)
discount = re.search(r'(\d\.\d)折', html).group(1)

print(f"价格: {price.replace(',', '')}, 折扣: {float(discount)*10}%")

常见问题

Q1: 如何区分数字编号和真正需要计算的数值？ A: 结合上下文判断，或使用更精确的正则模式，例如：

# 只匹配特定格式的数值
pattern = r'\b\d+\.\d{2}\b'  # 匹配xx.xx格式的价格

Q2: 处理混合编码文本时数字提取失败？ A: 先统一编码：

text = "数据：１２３".encode('utf-8').decode('unicode-escape')

Q3: 超大文本内存不足怎么办？ A: 使用流式处理：

with open('large_file.txt') as f:
    for line in f:
        numbers = re.findall(pattern, line)
        process(numbers)

总结

Python提供了从简单到复杂的多种数字提取方案： 1. 对于简单需求，isdigit()和基本字符串操作足够高效 2. 正则表达式是处理复杂模式的终极武器 3. 性能关键场景应考虑预编译正则表达式 4. 特殊格式需要定制化解决方案

选择合适的方法需要综合考虑：数据规模、数字格式复杂度、性能要求和开发效率。掌握这些技术后，你将能轻松应对各类文本数据中的数字提取需求。

扩展学习： - 官方re模块文档：https://docs.python.org/3/library/re.html - 正则表达式可视化工具：https://regex101.com/ - Pandas文本处理：pd.Series.str.extract() “`