Python中缺失值怎么处理

发布时间：2021-12-02 15:48:37 作者：iii
来源：亿速云阅读：226

# Python中缺失值怎么处理

## 1. 缺失值的概念与影响

### 1.1 什么是缺失值
缺失值（Missing Value）是指数据集中某些字段的值出现空缺或未记录的情况，在Python中通常表示为：
- `NaN`（Not a Number，浮点数缺失）
- `None`（Python对象缺失）
- `NaT`（时间类型缺失）

### 1.2 缺失值的常见来源
1. 数据采集时的设备故障
2. 人为录入遗漏
3. 数据转换过程中的错误
4. 某些字段不适用于特定记录

### 1.3 缺失值的影响
- 导致计算异常（如`np.mean`遇到NaN会返回NaN）
- 降低模型训练效果
- 影响统计分析结果

## 2. 检测缺失值

### 2.1 基础检测方法
```python
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'A': [1, 2, np.nan, 4],
    'B': ['a', None, 'c', 'd'],
    'C': [True, False, None, True]
})

# 检查整个DataFrame
print(df.isnull())

# 统计每列缺失值数量
print(df.isnull().sum())

# 检查特定列
print(df['A'].isnull())

2.2 可视化检测

import matplotlib.pyplot as plt
import seaborn as sns

# 缺失值热力图
sns.heatmap(df.isnull(), cbar=False)
plt.show()

# 缺失值条形图
df.isnull().sum().plot(kind='bar')
plt.show()

3. 处理缺失值的常用方法

3.1 删除缺失值

3.1.1 删除包含缺失值的行

# 删除任何包含NaN的行
df_drop = df.dropna(axis=0)

# 删除所有值都为NaN的行
df_drop_all = df.dropna(how='all')

# 删除在特定列有缺失值的行
df_drop_col = df.dropna(subset=['A'])

3.1.2 删除包含缺失值的列

# 删除任何包含NaN的列
df_drop_cols = df.dropna(axis=1)

3.2 填充缺失值

3.2.1 固定值填充

# 用0填充
df_fill_zero = df.fillna(0)

# 用字符串填充
df_fill_str = df.fillna('missing')

# 不同列用不同值填充
df_fill_dict = df.fillna({'A': 0, 'B': 'unknown', 'C': False})

3.2.2 统计值填充

# 用列均值填充
df_fill_mean = df.fillna(df.mean())

# 用列中位数填充
df_fill_median = df.fillna(df.median())

# 用列众数填充（适用于分类变量）
mode_B = df['B'].mode()[0]
df_fill_mode = df.fillna({'B': mode_B})

3.2.3 前后值填充

# 前向填充（用上一个有效值）
df_ffill = df.fillna(method='ffill')

# 后向填充（用下一个有效值）
df_bfill = df.fillna(method='bfill')

3.3 插值法填充

# 线性插值
df_interp = df.interpolate()

# 时间序列插值
df['A'] = df['A'].interpolate(method='time')

3.4 高级填充方法

3.4.1 KNN填充

from sklearn.impute import KNNImputer

imputer = KNNImputer(n_neighbors=2)
df_knn = pd.DataFrame(imputer.fit_transform(df.select_dtypes(include=[np.number])), 
                     columns=df.select_dtypes(include=[np.number]).columns)

3.4.2 随机森林填充

from sklearn.ensemble import RandomForestRegressor

# 对数值列A进行填充
known = df[df['A'].notnull()]
unknown = df[df['A'].isnull()]

X = known.drop('A', axis=1)
y = known['A']

model = RandomForestRegressor()
model.fit(X, y)
predicted = model.predict(unknown.drop('A', axis=1))
df.loc[df['A'].isnull(), 'A'] = predicted

4. 特殊场景处理

4.1 时间序列数据

# 时间序列的前后填充
df['value'] = df['value'].fillna(method='ffill').fillna(method='bfill')

# 时间加权插值
df['value'] = df['value'].interpolate(method='time')

4.2 分类数据

# 添加"未知"类别
df['category'] = df['category'].fillna('Unknown')

# 使用最高频类别
most_frequent = df['category'].mode()[0]
df['category'] = df['category'].fillna(most_frequent)

4.3 多变量联合处理

# 根据其他列的值来填充
df['income'] = df.apply(
    lambda row: row['income'] if not pd.isnull(row['income']) 
                else row['age'] * 1000, 
    axis=1
)

5. 处理缺失值的最佳实践

先分析缺失模式：了解缺失是随机还是系统性
评估删除影响：删除前检查会损失多少数据
选择合适方法：数值/分类数据采用不同策略
考虑数据分布：填充方法可能改变数据分布
记录处理过程：维护数据清洗的文档

6. 常见错误与避免方法

盲目删除：可能导致重要数据丢失
- 解决方案：先评估删除比例
不当填充：用均值填充偏态分布数据
- 解决方案：先检查数据分布
忽略缺失原因：未分析缺失机制
- 解决方案：进行缺失模式分析
测试集污染：用测试集统计量填充
- 解决方案：只使用训练集统计量

7. 总结

Python提供了丰富的缺失值处理工具，从简单的删除、填充到复杂的机器学习方法。选择哪种方法取决于： - 数据性质（数值/分类） - 缺失比例 - 后续分析目的 - 计算资源

实际工作中通常需要尝试多种方法，并通过交叉验证评估效果。记住：没有放之四海而皆准的方法，只有最适合当前数据和问题的解决方案。 “`

注：本文代码示例需要以下库： - pandas - numpy - scikit-learn - matplotlib - seaborn

可以通过pip install pandas numpy scikit-learn matplotlib seaborn安装这些依赖库。