pandas的排序、分组groupby及cumsum累计求和的方法

发布时间：2022-05-17 13:40:56 作者：iii
来源：亿速云阅读：649

pandas的排序、分组groupby及cumsum累计求和的方法

在数据分析和处理过程中，pandas库提供了强大的功能来处理和操作数据。本文将介绍如何使用pandas进行数据排序、分组（groupby）以及累计求和（cumsum）的方法。

1. 数据排序

pandas提供了sort_values方法用于对数据进行排序。我们可以根据一个或多个列的值进行升序或降序排序。

示例代码

import pandas as pd

# 创建一个示例DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Age': [25, 30, 35, 40, 45],
    'Salary': [50000, 60000, 70000, 80000, 90000]
}

df = pd.DataFrame(data)

# 按照Age列进行升序排序
df_sorted = df.sort_values(by='Age')

print(df_sorted)

输出结果

      Name  Age  Salary
0    Alice   25   50000
1      Bob   30   60000
2  Charlie   35   70000
3    David   40   80000
4      Eva   45   90000

多列排序

我们也可以根据多个列进行排序。例如，先按Age升序排序，再按Salary降序排序：

df_sorted = df.sort_values(by=['Age', 'Salary'], ascending=[True, False])

2. 数据分组（groupby）

pandas的groupby方法允许我们根据某些条件对数据进行分组，并对每个组进行聚合操作。

示例代码

# 创建一个示例DataFrame
data = {
    'Department': ['HR', 'IT', 'HR', 'IT', 'HR'],
    'Employee': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Salary': [50000, 60000, 70000, 80000, 90000]
}

df = pd.DataFrame(data)

# 按Department分组，并计算每个部门的平均工资
grouped = df.groupby('Department')['Salary'].mean()

print(grouped)

输出结果

Department
HR    70000.0
IT    70000.0
Name: Salary, dtype: float64

多列分组

我们也可以根据多个列进行分组。例如，按Department和Employee分组：

grouped = df.groupby(['Department', 'Employee'])['Salary'].sum()

3. 累计求和（cumsum）

pandas提供了cumsum方法用于计算累计求和。累计求和是指从数据的开始到当前行的累积总和。

示例代码

# 创建一个示例DataFrame
data = {
    'Month': ['Jan', 'Feb', 'Mar', 'Apr', 'May'],
    'Sales': [100, 200, 300, 400, 500]
}

df = pd.DataFrame(data)

# 计算Sales列的累计和
df['Cumulative Sales'] = df['Sales'].cumsum()

print(df)

输出结果

  Month  Sales  Cumulative Sales
0   Jan    100               100
1   Feb    200               300
2   Mar    300               600
3   Apr    400              1000
4   May    500              1500

分组累计求和

我们还可以结合groupby和cumsum来计算每个组的累计求和。例如，按Department分组并计算每个部门的累计工资：

df['Cumulative Salary'] = df.groupby('Department')['Salary'].cumsum()

4. 综合应用

在实际应用中，我们经常需要将排序、分组和累计求和结合起来使用。例如，我们可以先对数据进行排序，然后按某个列进行分组，最后计算每个组的累计求和。

示例代码

# 创建一个示例DataFrame
data = {
    'Department': ['HR', 'IT', 'HR', 'IT', 'HR'],
    'Employee': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Salary': [50000, 60000, 70000, 80000, 90000]
}

df = pd.DataFrame(data)

# 按Department分组，并按Salary降序排序
df_sorted = df.sort_values(by=['Department', 'Salary'], ascending=[True, False])

# 计算每个部门的累计工资
df_sorted['Cumulative Salary'] = df_sorted.groupby('Department')['Salary'].cumsum()

print(df_sorted)

输出结果

  Department Employee  Salary  Cumulative Salary
2         HR  Charlie   70000              70000
4         HR      Eva   90000             160000
1         IT      Bob   60000              60000
3         IT    David   80000             140000
0         HR    Alice   50000             210000

5. 总结

本文介绍了如何使用pandas进行数据排序、分组（groupby）以及累计求和（cumsum）的方法。这些功能在数据分析和处理中非常有用，能够帮助我们更好地理解和分析数据。通过结合这些方法，我们可以轻松地对数据进行复杂的操作和分析。

希望本文对你理解和使用pandas有所帮助！

pandas的排序、分组groupby及cumsum累计求和的方法

pandas的排序、分组groupby及cumsum累计求和的方法

1. 数据排序

示例代码

输出结果

多列排序

2. 数据分组（groupby）

示例代码

输出结果

多列分组

3. 累计求和（cumsum）

示例代码

输出结果

分组累计求和

4. 综合应用

示例代码

输出结果

5. 总结

相关阅读