怎么用Python处理Excel的数据

发布时间：2021-11-23 17:58:52 作者：iii
来源：亿速云阅读：297

# 怎么用Python处理Excel的数据

## 前言

在当今数据驱动的时代，Excel作为最常用的电子表格工具，几乎渗透到各行各业的数据处理工作中。但当数据量增大或需要复杂操作时，手动处理Excel往往效率低下。Python凭借其强大的数据处理能力和丰富的第三方库，成为自动化处理Excel数据的绝佳选择。本文将详细介绍如何使用Python处理Excel数据，涵盖从基础操作到高级应用的完整流程。

## 一、环境准备

### 1.1 安装必要库
Python处理Excel主要依赖以下几个库：
```bash
pip install openpyxl  # 处理.xlsx格式
pip install xlrd      # 读取.xls格式(旧版)
pip install xlwt      # 写入.xls格式(旧版)
pip install pandas    # 数据分析核心库

1.2 推荐工具

Jupyter Notebook：交互式开发环境
VS Code + Python插件：轻量级IDE
PyCharm：专业Python IDE

二、基础操作

2.1 使用openpyxl读写Excel

from openpyxl import Workbook, load_workbook

# 创建新Excel文件
wb = Workbook()
ws = wb.active
ws.title = "员工数据"

# 写入数据
ws['A1'] = "姓名"
ws['B1'] = "年龄"
ws.append(["张三", 28])  # 追加行数据

# 保存文件
wb.save("employees.xlsx")

# 读取现有文件
wb = load_workbook("employees.xlsx")
print(wb.sheetnames)  # 打印所有工作表名

2.2 使用pandas读写Excel

import pandas as pd

# 读取Excel
df = pd.read_excel("data.xlsx", sheet_name="Sheet1")

# 查看前5行
print(df.head())

# 写入Excel
df.to_excel("output.xlsx", index=False)  # 不保存索引列

三、数据处理实战

3.1 数据清洗

# 处理空值
df.fillna(0, inplace=True)  # 填充0
df.dropna(inplace=True)     # 删除含空值的行

# 类型转换
df['价格'] = df['价格'].astype(float)

# 去重
df.drop_duplicates(inplace=True)

3.2 数据筛选与排序

# 条件筛选
high_salary = df[df['薪资'] > 10000]

# 多条件筛选
condition = (df['部门'] == '技术部') & (df['工龄'] >= 3)
tech_veterans = df[condition]

# 排序
df.sort_values(by='销售额', ascending=False, inplace=True)

3.3 数据计算与统计

# 新增计算列
df['总价'] = df['单价'] * df['数量']

# 分组统计
department_stats = df.groupby('部门')['销售额'].agg(['sum', 'mean', 'count'])

# 透视表
pivot_table = pd.pivot_table(df, 
                           values='销售额',
                           index='地区',
                           columns='季度',
                           aggfunc='sum')

四、高级应用

4.1 多表操作

# 合并多个Sheet
with pd.ExcelFile("data.xlsx") as xls:
    df1 = pd.read_excel(xls, "Sheet1")
    df2 = pd.read_excel(xls, "Sheet2")

# 纵向合并
combined = pd.concat([df1, df2], axis=0)

# 横向合并
merged = pd.merge(df1, df2, on="员工ID", how="left")

4.2 条件格式设置

from openpyxl.styles import PatternFill, Font

# 设置红色字体标记异常值
red_font = Font(color="FF0000")
for row in ws.iter_rows(min_row=2, max_col=3):
    if row[1].value > 10000:  # 薪资>10000
        row[1].font = red_font

4.3 大数据处理技巧

# 分块读取大文件
chunk_size = 10000
chunks = pd.read_excel("large_file.xlsx", 
                      chunksize=chunk_size)

for chunk in chunks:
    process(chunk)  # 自定义处理函数

# 使用dtype优化内存
dtypes = {'姓名': 'str', '年龄': 'int16'}
df = pd.read_excel("data.xlsx", dtype=dtypes)

五、自动化实战案例

5.1 销售报表自动化

def generate_sales_report(input_path, output_path):
    # 读取原始数据
    df = pd.read_excel(input_path)
    
    # 数据处理
    df['日期'] = pd.to_datetime(df['日期'])
    df['月份'] = df['日期'].dt.month
    monthly_sales = df.groupby(['月份', '产品'])['销售额'].sum().unstack()
    
    # 生成图表
    monthly_sales.plot(kind='bar', figsize=(10,6))
    plt.savefig("sales_trend.png")
    
    # 保存结果
    with pd.ExcelWriter(output_path) as writer:
        monthly_sales.to_excel(writer, sheet_name="汇总")
        df.to_excel(writer, sheet_name="明细数据")
        
    print(f"报表已生成: {output_path}")

5.2 批量处理多个文件

import os

input_folder = "input_excels"
output_folder = "processed_excels"

if not os.path.exists(output_folder):
    os.makedirs(output_folder)

for file in os.listdir(input_folder):
    if file.endswith(".xlsx"):
        file_path = os.path.join(input_folder, file)
        df = pd.read_excel(file_path)
        
        # 执行处理逻辑
        df['处理状态'] = "已完成"
        
        # 保存结果
        output_path = os.path.join(output_folder, f"processed_{file}")
        df.to_excel(output_path, index=False)

六、性能优化建议

减少IO操作：尽量避免在循环中反复读写Excel文件
使用适当的数据类型：如用category类型处理有限取值的文本列
向量化操作：优先使用pandas内置方法而非循环
内存映射：对超大文件考虑使用pd.read_excel(…, memory_map=True)
并行处理：对多文件处理可使用multiprocessing

七、常见问题解决

7.1 编码问题

# 处理中文乱码
df = pd.read_excel("data.xlsx", engine='openpyxl')
df.to_excel("output.xlsx", encoding='utf-8-sig')

7.2 日期处理

# 转换Excel日期格式
df['日期'] = pd.to_datetime(df['日期'], unit='D', origin='1899-12-30')

7.3 大文件处理

# 使用低内存模式
df = pd.read_excel("large.xlsx", usecols=['列1','列2'])

结语

通过Python处理Excel数据，我们不仅能够实现常规数据处理自动化，还能完成许多Excel本身难以实现的复杂操作。本文介绍的技术栈可以应对90%以上的Excel处理场景，建议读者结合实际需求进行实践。当熟练掌握这些技能后，你会发现原本需要数小时手动完成的工作，现在只需几分钟就能自动完成，工作效率将得到质的提升。

附录

常用快捷键

Jupyter中按Shift+Tab查看函数参数
VS Code中Ctrl+点击函数跳转到定义
pandas使用df.describe()快速查看统计信息

”`