Pandas里怎样进行数据统计与描述

发布时间：2025-02-17 21:30:47 作者：小樊
来源：亿速云阅读：150

在Pandas中，可以使用多种方法进行数据统计和描述。以下是一些常用的方法和示例：

1. 描述性统计

Pandas提供了describe()方法，可以生成数据的描述性统计信息，包括计数、均值、标准差、最小值、四分位数和最大值。

import pandas as pd

# 创建一个示例DataFrame
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
}
df = pd.DataFrame(data)

# 使用describe()方法
print(df.describe())

2. 计数

可以使用count()方法来计算每列的非空值数量。

print(df.count())

3. 唯一值和频率

使用nunique()方法可以计算每列的唯一值数量，使用value_counts()方法可以计算每个唯一值的频率。

print(df.nunique())
print(df['A'].value_counts())

4. 最大值和最小值

使用max()和min()方法可以找到每列的最大值和最小值。

print(df.max())
print(df.min())

5. 百分位数

使用quantile()方法可以计算数据的百分位数。

print(df.quantile([0.25, 0.5, 0.75]))

6. 相关性

使用corr()方法可以计算数值列之间的相关系数。

print(df.corr())

7. 分组统计

使用groupby()方法可以进行分组统计。

# 创建一个包含分组的示例DataFrame
data = {
    'A': ['foo', 'bar', 'foo', 'bar'],
    'B': [1, 2, 3, 4],
    'C': [10, 20, 30, 40]
}
df = pd.DataFrame(data)

# 按列'A'分组，并计算每组的均值
grouped = df.groupby('A')
print(grouped.mean())

8. 自定义统计函数

可以使用agg()方法应用自定义统计函数。

# 计算每列的最大值和最小值
print(df.agg(['max', 'min']))

9. 缺失值处理

使用isnull()和notnull()方法可以检查缺失值，使用fillna()方法可以填充缺失值。

# 检查缺失值
print(df.isnull())

# 填充缺失值
df_filled = df.fillna(0)
print(df_filled)

这些方法和示例涵盖了Pandas中进行数据统计和描述的基本操作。根据具体需求，可以组合使用这些方法来完成更复杂的数据分析任务。