如何利用Pandas进行数据清洗

发布时间：2025-02-17 21:24:50 作者：小樊
来源：亿速云阅读：127

使用Pandas进行数据清洗主要包括以下几个步骤：

1. 导入必要的库

import pandas as pd

2. 加载数据

df = pd.read_csv('your_data.csv')  # 或者其他格式，如Excel, SQL等

3. 查看数据概览

print(df.head())  # 查看前几行数据
print(df.info())  # 查看数据类型和缺失值情况
print(df.describe())  # 查看数值型数据的统计信息

4. 处理缺失值

4.1 检查缺失值

print(df.isnull().sum())

4.2 填充缺失值

使用固定值填充：
```
df.fillna(value=0, inplace=True)
```

使用均值、中位数或众数填充：

df['column_name'].fillna(df['column_name'].mean(), inplace=True)

使用前向填充或后向填充：

df.fillna(method='ffill', inplace=True)  # 前向填充
df.fillna(method='bfill', inplace=True)  # 后向填充

4.3 删除缺失值

df.dropna(inplace=True)  # 删除包含缺失值的行
# 或者删除特定列的缺失值
df.dropna(subset=['column_name'], inplace=True)

5. 处理重复值

print(df.duplicated().sum())  # 查看重复值的数量
df.drop_duplicates(inplace=True)  # 删除重复行
# 或者删除特定列的重复值
df.drop_duplicates(subset=['column_name'], inplace=True)

6. 数据类型转换

df['column_name'] = df['column_name'].astype('int')  # 转换为整数类型
df['column_name'] = pd.to_datetime(df['column_name'])  # 转换为日期时间类型

7. 字符串处理

7.1 去除空格

df['column_name'] = df['column_name'].str.strip()

7.2 替换字符

df['column_name'] = df['column_name'].str.replace('old_value', 'new_value')

7.3 分割字符串

df[['new_column1', 'new_column2']] = df['column_name'].str.split(',', expand=True)

8. 数据标准化和归一化

8.1 标准化（Z-score标准化）

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df[['column_name']] = scaler.fit_transform(df[['column_name']])

8.2 归一化（Min-Max归一化）

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df[['column_name']] = scaler.fit_transform(df[['column_name']])

9. 数据合并和连接

# 合并两个DataFrame
merged_df = pd.merge(df1, df2, on='common_column', how='inner')

# 连接两个DataFrame
concatenated_df = pd.concat([df1, df2], axis=0)  # 垂直连接
concatenated_df = pd.concat([df1, df2], axis=1)  # 水平连接

10. 保存清洗后的数据

df.to_csv('cleaned_data.csv', index=False)

通过以上步骤，你可以有效地使用Pandas进行数据清洗，确保数据的质量和一致性。

如何利用Pandas进行数据清洗

1. 导入必要的库

2. 加载数据

3. 查看数据概览

4. 处理缺失值

4.1 检查缺失值

4.2 填充缺失值

4.3 删除缺失值

5. 处理重复值

6. 数据类型转换

7. 字符串处理

7.1 去除空格

7.2 替换字符

7.3 分割字符串

8. 数据标准化和归一化

8.1 标准化（Z-score标准化）

8.2 归一化（Min-Max归一化）

9. 数据合并和连接

10. 保存清洗后的数据

相关阅读