如何利用Pandas进行数据清洗工作

发布时间：2025-05-10 15:54:46 作者：小樊
来源：亿速云阅读：134

Pandas是一个强大的Python数据分析库，它提供了大量的功能来帮助我们进行数据清洗工作。以下是一些常用的Pandas数据清洗步骤和技巧：

import pandas as pd

df = pd.read_csv('your_data.csv')  # 读取CSV文件
# 或者
df = pd.read_excel('your_data.xlsx')  # 读取Excel文件

删除包含缺失值的行或列

df.dropna()  # 删除包含缺失值的行
df.dropna(axis=1)  # 删除包含缺失值的列

填充缺失值

df.fillna(value=0)  # 用0填充缺失值
df.fillna(df.mean())  # 用均值填充缺失值

转换数据类型

df['column_name'] = df['column_name'].astype('int')  # 将列转换为整数类型
df['column_name'] = pd.to_datetime(df['column_name'])  # 将列转换为日期时间类型

删除重复值

df.drop_duplicates()  # 删除重复的行

筛选数据

df[df['column_name'] > 10]  # 筛选出某列大于10的行

排序数据

df.sort_values(by='column_name', ascending=True)  # 按某列升序排序

合并数据框

merged_df = pd.merge(df1, df2, on='common_column')  # 按公共列合并两个数据框

连接数据框

concatenated_df = pd.concat([df1, df2], axis=0)  # 沿着行方向连接两个数据框

聚合数据

grouped_df.mean()  # 计算每组的均值
grouped_df.sum()  # 计算每组的和

创建数据透视表

pivot_table = df.pivot_table(values='value_column', index='row_column', columns='column_column', aggfunc='mean')

使用Pandas内置的绘图功能

df.plot(kind='bar', x='column_name', y='value_column')

df.to_csv('cleaned_data.csv', index=False)  # 保存为CSV文件
df.to_excel('cleaned_data.xlsx', index=False)  # 保存为Excel文件

通过以上步骤，你可以使用Pandas进行基本的数据清洗工作。根据具体的数据集和分析需求，你可能需要灵活运用这些技巧。

相关阅读