如何用Pandas进行数据抽样与采样

发布时间：2025-02-17 21:36:47 作者：小樊
来源：亿速云阅读：155

在Python的Pandas库中，数据抽样（sampling）是一种常用的技术，用于从一个大的数据集中随机选择一部分数据进行操作，而不是处理整个数据集。这可以节省内存和处理时间，尤其是在处理大型数据集时。Pandas提供了几种不同的方法来进行数据抽样，包括简单随机抽样、分层抽样、系统抽样等。

以下是一些常用的Pandas数据抽样方法：

sample() 方法：这是最常用的抽样方法，它允许你从DataFrame中随机抽取指定数量的行。

import pandas as pd

# 创建一个示例DataFrame
df = pd.DataFrame({
    'A': range(1, 101),
    'B': range(101, 201)
})

# 随机抽取5行
sample_df = df.sample(5)
print(sample_df)

sample_n() 方法：这是sample()方法的一个别名，功能相同。
sample_fractions() 方法：如果你想按照数据集的比例来抽样，可以使用这个方法。它接受一个字典，其中键是列名，值是你想要从该列中抽取的样本比例。
```
# 从每列中抽取50%的数据
sample_df = df.sample_fractions({'A': 0.5, 'B': 0.5})
print(sample_df)
```
stratified sampling：如果你的数据集有不同的类别，并且你想要确保每个类别都在样本中得到代表，你可以使用分层抽样。Pandas没有内置的分层抽样方法，但你可以使用groupby()和apply()方法来实现。
```
# 假设df有一个名为'category'的列，我们想要从每个类别中抽取相同比例的数据
sample_df = df.groupby('category').apply(lambda x: x.sample(frac=0.5))
print(sample_df)
```
systematic sampling：系统抽样是一种抽样方法，其中第一个样本是随机选择的，然后按照固定的间隔（周期）选择后续样本。Pandas没有内置的系统抽样方法，但你可以使用其他方法来实现这一逻辑。

请注意，当你对数据进行抽样时，最好设置一个随机种子，以确保每次运行代码时都能得到相同的抽样结果。这可以通过random_state参数来实现。

# 设置随机种子
sample_df = df.sample(5, random_state=1)

这些是Pandas中一些基本的数据抽样方法。根据你的具体需求，你可能需要结合使用这些方法或者编写自定义的抽样逻辑。

如何用Pandas进行数据抽样与采样

相关阅读