Python数据分析如何清洗数据

发布时间：2025-04-21 11:51:46 作者：小樊
来源：亿速云阅读：129

在Python中进行数据分析时，数据清洗是一个非常重要的步骤。以下是一些常用的数据清洗方法和技巧：

1. 导入必要的库

import pandas as pd
import numpy as np

2. 加载数据

df = pd.read_csv('your_data.csv')  # 假设数据存储在CSV文件中

3. 查看数据

print(df.head())  # 查看前几行数据
print(df.info())  # 查看数据类型和缺失值情况
print(df.describe())  # 查看数据的统计描述

4. 处理缺失值

4.1 检查缺失值

print(df.isnull().sum())

4.2 删除缺失值

df.dropna(inplace=True)  # 删除包含缺失值的行
# 或者删除特定列的缺失值
df.dropna(subset=['column_name'], inplace=True)

4.3 填充缺失值

df.fillna(value=0, inplace=True)  # 用0填充缺失值
# 或者用均值、中位数等填充
df.fillna(df.mean(), inplace=True)

5. 处理重复值

df.drop_duplicates(inplace=True)  # 删除重复行

6. 数据类型转换

df['column_name'] = df['column_name'].astype('int')  # 将列转换为整数类型
df['column_name'] = pd.to_datetime(df['column_name'])  # 将列转换为日期时间类型

7. 字符串处理

7.1 去除空格

df['column_name'] = df['column_name'].str.strip()

7.2 替换字符

df['column_name'] = df['column_name'].str.replace('old_value', 'new_value')

7.3 分割字符串

df[['new_column1', 'new_column2']] = df['column_name'].str.split('separator', expand=True)

8. 数值处理

8.1 处理异常值

# 使用Z-score方法检测异常值
from scipy import stats
df = df[(np.abs(stats.zscore(df.select_dtypes(include=[np.number]))) < 3).all(axis=1)]

8.2 归一化/标准化

from sklearn.preprocessing import MinMaxScaler, StandardScaler

scaler = MinMaxScaler()
df[['column_name']] = scaler.fit_transform(df[['column_name']])

# 或者标准化
scaler = StandardScaler()
df[['column_name']] = scaler.fit_transform(df[['column_name']])

9. 特征工程

9.1 创建新特征

df['new_feature'] = df['column1'] + df['column2']

9.2 特征选择

from sklearn.feature_selection import SelectKBest, f_classif

selector = SelectKBest(f_classif, k=10)
X_new = selector.fit_transform(df.drop('target', axis=1), df['target'])

10. 保存清洗后的数据

df.to_csv('cleaned_data.csv', index=False)

通过以上步骤，你可以有效地清洗数据，使其更适合进行后续的分析和建模。

Python数据分析如何清洗数据

1. 导入必要的库

2. 加载数据

3. 查看数据

4. 处理缺失值

4.1 检查缺失值

4.2 删除缺失值

4.3 填充缺失值

5. 处理重复值

6. 数据类型转换

7. 字符串处理

7.1 去除空格

7.2 替换字符

7.3 分割字符串

8. 数值处理

8.1 处理异常值

8.2 归一化/标准化

9. 特征工程

9.1 创建新特征

9.2 特征选择

10. 保存清洗后的数据

相关阅读