Pandas中如何进行数据筛选

发布时间：2025-09-11 12:30:05 作者：小樊
来源：亿速云阅读：86

在Pandas中，数据筛选可以通过多种方式实现，主要包括以下几种方法：

1. 使用布尔索引

布尔索引是最常用的数据筛选方法。你可以创建一个布尔数组，然后使用这个数组来筛选DataFrame或Series。

import pandas as pd

# 创建一个示例DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
})

# 筛选出列'A'大于2的行
filtered_df = df[df['A'] > 2]
print(filtered_df)

2. 使用`query`方法

query方法允许你使用字符串表达式来筛选数据，这在处理复杂条件时非常有用。

# 使用query方法筛选列'A'大于2且列'B'小于40的行
filtered_df = df.query('A > 2 and B < 40')
print(filtered_df)

3. 使用`loc`和`iloc`

loc和iloc是Pandas中用于基于标签和整数位置进行数据选择的方法。

使用`loc`

loc用于基于标签的选择。

# 筛选出列'A'大于2的行，并返回所有列
filtered_df = df.loc[df['A'] > 2]
print(filtered_df)

# 筛选出列'A'大于2且列'B'小于40的行，并返回所有列
filtered_df = df.loc[(df['A'] > 2) & (df['B'] < 40)]
print(filtered_df)

使用`iloc`

iloc用于基于整数位置的选择。

# 筛选出第2行到第4行的数据（不包括第4行）
filtered_df = df.iloc[1:3]
print(filtered_df)

# 筛选出第2列到第3列的数据（不包括第3列）
filtered_df = df.iloc[:, 1:3]
print(filtered_df)

4. 使用`isin`方法

isin方法用于筛选出列中值在给定列表中的行。

# 筛选出列'A'中值为2或4的行
filtered_df = df[df['A'].isin([2, 4])]
print(filtered_df)

5. 使用`between`方法

between方法用于筛选出列中值在指定范围内的行。

# 筛选出列'A'中值在2到4之间的行
filtered_df = df[df['A'].between(2, 4)]
print(filtered_df)

6. 使用`groupby`和聚合函数

虽然这不是直接的数据筛选，但groupby和聚合函数可以用于基于分组条件的数据筛选。

# 按列'A'分组，并计算每组的平均值
grouped_df = df.groupby('A').mean()
print(grouped_df)

通过这些方法，你可以灵活地筛选和处理Pandas中的数据。选择哪种方法取决于你的具体需求和数据的复杂性。

Pandas中如何进行数据筛选

1. 使用布尔索引

2. 使用query方法

3. 使用loc和iloc

使用loc

使用iloc

4. 使用isin方法

5. 使用between方法

6. 使用groupby和聚合函数