Python Pandas如何进行数据预处理

发布时间：2026-01-27 15:58:22 作者：小樊
来源：亿速云阅读：101

Python的Pandas库是一个强大的数据处理和分析工具，它提供了许多功能来帮助你进行数据预处理。以下是一些常用的数据预处理步骤和相应的Pandas操作：

导入数据：使用pandas.read_csv(), pandas.read_excel(), pandas.read_sql()等函数导入数据。
```
import pandas as pd

df = pd.read_csv('data.csv')  # 导入CSV文件
```

查看数据：使用head(), tail(), info(), describe()等方法来查看数据的基本情况。

print(df.head())  # 查看前5行数据
print(df.info())  # 查看数据类型和非空值计数

处理缺失值：使用isnull(), notnull(), dropna(), fillna()等方法处理缺失值。

print(df.isnull().sum())  # 查看每列缺失值的数量
df = df.dropna()  # 删除包含缺失值的行
df = df.fillna(value=0)  # 用0填充缺失值

数据类型转换：使用astype()方法转换数据类型。

df['column_name'] = df['column_name'].astype('int')  # 将列转换为整数类型

重命名列：使用rename()方法重命名列。

df.rename(columns={'old_name': 'new_name'}, inplace=True)

选择数据：使用列名或条件来选择数据。

subset = df[['column1', 'column2']]  # 选择特定列
filtered_df = df[df['column'] > 0]  # 根据条件筛选行

排序数据：使用sort_values()方法对数据进行排序。
```
sorted_df = df.sort_values(by='column_name', ascending=False)
```

合并数据：使用concat(), merge()等方法合并多个数据集。

merged_df = pd.concat([df1, df2], axis=0)  # 垂直合并
merged_df = pd.merge(df1, df2, on='key_column')  # 根据键列合并

分组数据：使用groupby()方法对数据进行分组，并应用聚合函数。

grouped = df.groupby('column_name')
summary = grouped.mean()  # 计算每组的平均值

应用函数：使用apply()和lambda函数对数据进行自定义操作。

df['new_column'] = df['column'].apply(lambda x: x * 2)  # 将列中的每个值乘以2

处理异常值：通过统计分析或可视化来识别异常值，并使用适当的方法（如截断、替换或删除）进行处理。
```
q_low = df['column'].quantile(0.01)
q_hi  = df['column'].quantile(0.99)
df_filtered = df[(df['column'] > q_low) & (df['column'] < q_hi)]
```
特征工程：创建新的特征或修改现有特征，以提高模型的性能。
```
df['new_feature'] = df['column1'] / df['column2']
```

这些是数据预处理中的一些基本步骤。实际的数据预处理过程可能会更复杂，需要根据具体的数据集和分析目标进行调整。

相关阅读