如何用python提取txt文件中的特定信息并写入Excel

发布时间：2021-11-29 09:09:24 作者：柒染
来源：亿速云阅读：698

# 如何用Python提取txt文件中的特定信息并写入Excel

## 引言

在日常数据处理工作中，我们经常需要从文本文件（如`.txt`）中提取特定信息，并将其结构化地存储到Excel表格中。Python凭借其强大的文本处理和Excel操作库，能够高效完成这类任务。本文将详细介绍使用Python实现这一过程的完整方案，涵盖以下关键技术点：

1. 文本文件的读取与解析
2. 正则表达式提取目标信息
3. 使用pandas库构建DataFrame
4. 将数据导出为Excel文件
5. 异常处理与性能优化

---

## 一、环境准备

### 1.1 安装必要库
```bash
pip install pandas openpyxl

pandas：数据处理核心库
openpyxl：Excel操作支持库

1.2 示例文本文件

假设我们有一个data.txt文件，内容如下：

[2023-08-01] 用户登录: ID=U1001, 设备=Mobile, 耗时=2.3s
[2023-08-01] 交易完成: 订单=ORD2023080112, 金额=¥150.00
[2023-08-02] 错误报告: 模块=支付, 代码=ERR_408
...

二、文本信息提取

2.1 基础文件读取

with open('data.txt', 'r', encoding='utf-8') as f:
    lines = f.readlines()

2.2 使用正则表达式提取

不同日志类型的提取模式示例：

import re

# 定义匹配模式
patterns = {
    'login': r'用户登录: ID=(.*?), 设备=(.*?), 耗时=(.*?)s',
    'order': r'交易完成: 订单=(.*?), 金额=¥(.*?)',
    'error': r'错误报告: 模块=(.*?), 代码=(.*?)'
}

def parse_line(line):
    for log_type, pattern in patterns.items():
        match = re.search(pattern, line)
        if match:
            return (log_type, *match.groups())
    return None

2.3 完整提取流程

data = []
date_pattern = r'\[(.*?)\]'

for line in lines:
    # 提取日期
    date_match = re.search(date_pattern, line)
    if not date_match:
        continue
        
    # 解析日志内容
    parsed = parse_line(line)
    if parsed:
        data.append({
            'date': date_match.group(1),
            'type': parsed[0],
            **dict(zip(
                ['id', 'device', 'duration'] if parsed[0] == 'login' else 
                ['order_id', 'amount'] if parsed[0] == 'order' else 
                ['module', 'error_code'],
                parsed[1:]
            ))
        })

三、数据处理与Excel导出

3.1 构建DataFrame

import pandas as pd

df = pd.DataFrame(data)

# 数据类型转换
df['date'] = pd.to_datetime(df['date'])
df['amount'] = df['amount'].str.replace('¥', '').astype(float)

3.2 数据清洗

# 处理缺失值
df = df.dropna(subset=['date'])

# 去除前后空格
df = df.applymap(lambda x: x.strip() if isinstance(x, str) else x)

3.3 Excel导出

with pd.ExcelWriter('output.xlsx', engine='openpyxl') as writer:
    # 按日志类型分工作表存储
    for log_type, group in df.groupby('type'):
        group.to_excel(writer, sheet_name=log_type, index=False)
    
    # 添加汇总表
    df.to_excel(writer, sheet_name='汇总', index=False)
    
    # 设置单元格格式
    workbook = writer.book
    for sheetname in writer.sheets:
        worksheet = writer.sheets[sheetname]
        worksheet.column_dimensions['A'].width = 15

四、高级技巧

4.1 处理大文件

使用生成器避免内存溢出：

def read_large_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        while True:
            line = f.readline()
            if not line:
                break
            yield line

4.2 多线程处理

from concurrent.futures import ThreadPoolExecutor

def process_chunk(chunk):
    return [parse_line(line) for line in chunk]

with ThreadPoolExecutor() as executor:
    results = list(executor.map(process_chunk, chunks))

4.3 添加Excel样式

from openpyxl.styles import Font, Alignment

def format_excel(writer):
    workbook = writer.book
    for sheet in workbook.worksheets:
        # 设置标题样式
        for cell in sheet[1]:
            cell.font = Font(bold=True)
            cell.alignment = Alignment(horizontal='center')

五、完整代码示例

import re
import pandas as pd
from openpyxl.styles import Font, Alignment
from concurrent.futures import ThreadPoolExecutor

def main(input_file, output_file):
    # 读取文件
    with open(input_file, 'r', encoding='utf-8') as f:
        lines = f.readlines()
    
    # 解析数据
    data = parse_data(lines)
    
    # 创建DataFrame
    df = pd.DataFrame(data)
    
    # 导出Excel
    export_to_excel(df, output_file)

def parse_data(lines):
    # [之前的解析代码]
    pass

def export_to_excel(df, output_file):
    # [之前的导出代码]
    pass

if __name__ == '__main__':
    main('data.txt', 'result.xlsx')

六、常见问题解决

6.1 编码问题

使用chardet检测文件编码：

import chardet

with open('file.txt', 'rb') as f:
    encoding = chardet.detect(f.read())['encoding']

6.2 性能优化

使用polars替代pandas处理超大数据集
禁用Excel自动过滤以提升写入速度

6.3 格式保留

对于特殊格式（如电话号码），在导出前转换为文本格式：

df['phone'] = df['phone'].astype(str).str.zfill(11)

结语

本文详细介绍了使用Python从txt文件中提取信息并写入Excel的完整流程。关键点包括： 1. 灵活运用正则表达式进行模式匹配 2. 使用pandas进行结构化数据处理 3. 通过openpyxl实现精细的Excel格式控制 4. 采用多线程和生成器优化处理效率

实际应用中，读者可根据具体需求调整解析逻辑和输出格式。这种自动化处理方法相比手动操作可提升90%以上的工作效率，特别适合需要定期执行的报表生成任务。 “`