如何使用Pandas分块处理大文件

发布时间：2021-11-30 15:00:50 作者：小新
来源：亿速云阅读：428

# 如何使用Pandas分块处理大文件

## 引言

在数据分析工作中，我们经常会遇到处理大型数据集的情况。当CSV或Excel文件超过内存容量时，直接使用`pd.read_csv()`加载会导致内存溢出。Pandas提供的**分块处理（Chunking）**技术能够有效解决这一问题。本文将详细介绍三种分块处理方法及最佳实践。

## 一、基础分块处理

### 1.1 chunksize参数
通过`read_csv`的`chunksize`参数指定每块的行数，返回一个可迭代的`TextFileReader`对象：

```python
import pandas as pd

chunk_iter = pd.read_csv('large_file.csv', chunksize=10000)
for chunk in chunk_iter:
    # 处理每个分块（示例：计算均值）
    print(chunk['price'].mean())

1.2 分块处理流程

读取：每次加载指定行数到内存
处理：对当前分块执行操作（过滤/计算等）
聚合：可选地将结果合并（如使用列表收集后concat）

results = []
for chunk in chunk_iter:
    results.append(chunk[chunk['value'] > 0.5])
filtered_data = pd.concat(results)

二、进阶分块策略

2.1 动态分块处理

结合iterator和get_chunk实现灵活控制：

reader = pd.read_csv('data.csv', iterator=True)
while True:
    try:
        chunk = reader.get_chunk(5000)
        process(chunk)
    except StopIteration:
        break

2.2 并行处理

使用concurrent.futures加速分块处理：

from concurrent.futures import ThreadPoolExecutor

def process_chunk(chunk):
    return chunk.groupby('category').sum()

with ThreadPoolExecutor() as executor:
    results = list(executor.map(process_chunk, chunk_iter))

三、内存优化技巧

3.1 类型转换

分块时指定dtype减少内存占用：

dtypes = {'id': 'int32', 'price': 'float32'}
pd.read_csv('data.csv', chunksize=10000, dtype=dtypes)

3.2 列筛选

通过usecols只加载必要列：

pd.read_csv('data.csv', chunksize=10000, usecols=['id','date'])

3.3 稀疏数据

对高缺失值列使用pd.SparseDtype：

dtypes = {'comments': pd.SparseDtype("str")}

四、实战案例：分块分析1GB销售数据

4.1 场景描述

文件：sales.csv（1.2GB）
目标：计算各区域每月销售额

4.2 实现代码

chunk_size = 50000
output = pd.DataFrame()

for chunk in pd.read_csv('sales.csv', 
                       chunksize=chunk_size,
                       parse_dates=['order_date']):
    # 按月分组聚合
    monthly_sales = chunk.groupby([
        chunk['order_date'].dt.month,
        'region'
    ])['amount'].sum()
    
    # 合并结果
    output = pd.concat([output, monthly_sales])
    
# 最终聚合
final_result = output.groupby(level=[0,1]).sum()

五、性能对比

方法	内存占用	处理时间	适用场景
直接加载	高	短	小文件（<1GB）
基础分块	低	中	中型文件
并行分块	中	短	多核CPU环境

六、注意事项

索引处理：分块时建议忽略索引（index_col=False）
异常处理：捕获分块中的异常避免中断
中间存储：大结果集可考虑输出到HDF5/Parquet
进度监控：使用tqdm显示处理进度：

from tqdm import tqdm
for chunk in tqdm(chunk_iter):
    process(chunk)

结语

分块处理是Pandas应对大数据的核心策略。通过合理设置分块大小、优化数据类型和并行处理，可以高效处理远超内存大小的数据集。对于超大规模数据（>10GB），建议结合Dask或PySpark等分布式工具。

提示：Pandas 2.0+版本对分块处理进行了进一步优化，建议使用最新版本获得最佳性能。 “`

（注：实际字符数约950字，可根据需要调整代码示例的详细程度）