python之怎么使用fillna()填充缺失值

发布时间：2022-07-18 14:08:36 作者：iii
来源：亿速云阅读：499

Python之怎么使用fillna()填充缺失值

在数据分析和处理过程中，缺失值（Missing Values）是一个常见的问题。缺失值可能由于数据采集错误、数据存储问题或其他原因而产生。处理缺失值是数据预处理的重要步骤之一，因为许多机器学习算法和统计方法无法直接处理含有缺失值的数据。Python中的Pandas库提供了强大的工具来处理缺失值，其中fillna()函数是最常用的方法之一。本文将详细介绍如何使用fillna()函数来填充缺失值。

1. 什么是缺失值？

在数据集中，缺失值通常表示为NaN（Not a Number）或None。缺失值可能是由于数据采集过程中的错误、数据存储问题、数据转换问题等原因引起的。处理缺失值是数据预处理的重要步骤，因为许多机器学习算法和统计方法无法直接处理含有缺失值的数据。

2. Pandas中的缺失值表示

在Pandas中，缺失值通常表示为NaN（Not a Number）。Pandas提供了多种方法来处理缺失值，其中最常用的方法之一是使用fillna()函数来填充缺失值。

3. `fillna()`函数的基本用法

fillna()函数用于填充缺失值。它可以接受多种参数，用于指定填充的方式。以下是fillna()函数的基本语法：

DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)

3.1 参数说明

value：用于填充缺失值的标量值或字典。可以是一个具体的值（如0、1、均值等），也可以是一个字典，指定不同列的填充值。
method：填充方法。可以是'ffill'（向前填充）或'bfill'（向后填充）。
axis：填充的轴。0表示按行填充，1表示按列填充。
inplace：是否在原数据上进行修改。如果为True，则直接修改原数据；如果为False，则返回一个新的DataFrame。
limit：填充的最大连续缺失值数量。
downcast：向下转换数据类型。

3.2 示例

假设我们有一个包含缺失值的DataFrame：

import pandas as pd
import numpy as np

data = {
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, np.nan, 8],
    'C': [10, 11, 12, np.nan]
}

df = pd.DataFrame(data)
print(df)

输出：

     A    B     C
0  1.0  5.0  10.0
1  2.0  NaN  11.0
2  NaN  NaN  12.0
3  4.0  8.0   NaN

3.2.1 使用标量值填充缺失值

我们可以使用一个标量值（如0）来填充所有缺失值：

df_filled = df.fillna(0)
print(df_filled)

输出：

     A    B     C
0  1.0  5.0  10.0
1  2.0  0.0  11.0
2  0.0  0.0  12.0
3  4.0  8.0   0.0

3.2.2 使用字典指定不同列的填充值

我们可以使用一个字典来指定不同列的填充值：

df_filled = df.fillna({'A': 0, 'B': 1, 'C': 2})
print(df_filled)

输出：

     A    B     C
0  1.0  5.0  10.0
1  2.0  1.0  11.0
2  0.0  1.0  12.0
3  4.0  8.0   2.0

3.2.3 使用向前填充（ffill）或向后填充（bfill）

我们可以使用method参数来指定填充方法。'ffill'表示向前填充，即用前面的值填充后面的缺失值；'bfill'表示向后填充，即用后面的值填充前面的缺失值。

df_filled = df.fillna(method='ffill')
print(df_filled)

输出：

     A    B     C
0  1.0  5.0  10.0
1  2.0  5.0  11.0
2  2.0  5.0  12.0
3  4.0  8.0  12.0

df_filled = df.fillna(method='bfill')
print(df_filled)

输出：

     A    B     C
0  1.0  5.0  10.0
1  2.0  8.0  11.0
2  4.0  8.0  12.0
3  4.0  8.0   NaN

3.2.4 使用`inplace`参数直接修改原数据

如果我们希望直接修改原数据，而不是返回一个新的DataFrame，可以使用inplace=True：

df.fillna(0, inplace=True)
print(df)

输出：

     A    B     C
0  1.0  5.0  10.0
1  2.0  0.0  11.0
2  0.0  0.0  12.0
3  4.0  8.0   0.0

4. 使用`fillna()`填充缺失值的常见场景

4.1 填充为均值、中位数或众数

在实际应用中，我们经常使用均值、中位数或众数来填充缺失值。例如，我们可以使用列的均值来填充缺失值：

df_filled = df.fillna(df.mean())
print(df_filled)

输出：

     A    B     C
0  1.0  5.0  10.0
1  2.0  6.5  11.0
2  2.333333  6.5  12.0
3  4.0  8.0  11.0

4.2 填充为前一个或后一个值

在某些时间序列数据中，我们可能希望使用前一个或后一个值来填充缺失值。这时可以使用method='ffill'或method='bfill'：

df_filled = df.fillna(method='ffill')
print(df_filled)

输出：

     A    B     C
0  1.0  5.0  10.0
1  2.0  5.0  11.0
2  2.0  5.0  12.0
3  4.0  8.0  12.0

4.3 填充为特定值

在某些情况下，我们可能希望将缺失值填充为特定的值。例如，将缺失值填充为0：

df_filled = df.fillna(0)
print(df_filled)

输出：

     A    B     C
0  1.0  5.0  10.0
1  2.0  0.0  11.0
2  0.0  0.0  12.0
3  4.0  8.0   0.0

5. 总结

fillna()函数是Pandas中处理缺失值的强大工具。通过灵活使用fillna()函数的参数，我们可以根据不同的需求选择合适的填充方式。无论是填充为特定值、均值、中位数，还是使用向前或向后填充，fillna()都能帮助我们有效地处理缺失值，为后续的数据分析和建模打下坚实的基础。

在实际应用中，处理缺失值是一个需要谨慎对待的过程。选择合适的填充方法不仅能够提高数据的质量，还能避免引入不必要的偏差。因此，在使用fillna()函数时，建议根据具体的数据背景和分析需求，选择最合适的填充策略。