Python Pandas数据合并pd.merge怎么使用

发布时间：2022-08-27 11:28:07 作者：iii
来源：亿速云阅读：264

Python Pandas数据合并pd.merge怎么使用

在数据分析和处理过程中，数据合并（Merge）是一个非常常见的操作。Pandas库提供了强大的数据合并功能，其中pd.merge()函数是最常用的工具之一。本文将详细介绍pd.merge()的使用方法，并通过多个示例帮助你掌握这一强大的功能。

什么是数据合并？

数据合并是指将两个或多个数据集按照某些条件组合在一起，形成一个新的数据集。在数据分析中，数据合并通常用于将不同来源的数据整合在一起，以便进行更全面的分析。

例如，假设你有两个数据集：一个包含客户信息，另一个包含订单信息。通过将这两个数据集合并，你可以得到一个包含客户信息和订单信息的完整数据集，从而更好地分析客户的购买行为。

pd.merge()函数的基本语法

pd.merge()函数的基本语法如下：

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, 
         left_index=False, right_index=False, suffixes=('_x', '_y'))

参数说明：

left：左侧的DataFrame。
right：右侧的DataFrame。
how：合并类型，默认为'inner'，可选值有'left'、'right'、'outer'。
on：用于合并的列名，必须同时存在于左右两个DataFrame中。
left_on：左侧DataFrame中用于合并的列名。
right_on：右侧DataFrame中用于合并的列名。
left_index：如果为True，则使用左侧DataFrame的索引作为合并键。
right_index：如果为True，则使用右侧DataFrame的索引作为合并键。
suffixes：用于处理重复列名的后缀，默认为('_x', '_y')。

合并类型

pd.merge()支持多种合并类型，主要包括内连接、左连接、右连接和外连接。下面我们将详细介绍每种合并类型。

内连接（Inner Join）

内连接是pd.merge()的默认合并类型。它只保留两个DataFrame中键值匹配的行。

import pandas as pd

# 创建两个DataFrame
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'C', 'D', 'E'], 'value': [5, 6, 7, 8]})

# 内连接
result = pd.merge(df1, df2, on='key')
print(result)

输出结果：

  key  value_x  value_y
0   B        2        5
1   C        3        6
2   D        4        7

左连接（Left Join）

左连接保留左侧DataFrame中的所有行，并在右侧DataFrame中匹配的行。如果右侧DataFrame中没有匹配的行，则结果中对应的值为NaN。

# 左连接
result = pd.merge(df1, df2, on='key', how='left')
print(result)

输出结果：

  key  value_x  value_y
0   A        1      NaN
1   B        2      5.0
2   C        3      6.0
3   D        4      7.0

右连接（Right Join）

右连接保留右侧DataFrame中的所有行，并在左侧DataFrame中匹配的行。如果左侧DataFrame中没有匹配的行，则结果中对应的值为NaN。

# 右连接
result = pd.merge(df1, df2, on='key', how='right')
print(result)

输出结果：

  key  value_x  value_y
0   B      2.0        5
1   C      3.0        6
2   D      4.0        7
3   E      NaN        8

外连接（Outer Join）

外连接保留两个DataFrame中的所有行，并在没有匹配的行中填充NaN。

# 外连接
result = pd.merge(df1, df2, on='key', how='outer')
print(result)

输出结果：

  key  value_x  value_y
0   A      1.0      NaN
1   B      2.0      5.0
2   C      3.0      6.0
3   D      4.0      7.0
4   E      NaN      8.0

合并键的选择

在实际应用中，合并键的选择非常重要。合并键可以是单个列或多个列的组合。

单键合并

单键合并是指使用一个列作为合并键。例如：

# 单键合并
result = pd.merge(df1, df2, on='key')
print(result)

多键合并

多键合并是指使用多个列作为合并键。例如：

# 创建两个DataFrame
df1 = pd.DataFrame({'key1': ['A', 'B', 'C', 'D'], 'key2': ['W', 'X', 'Y', 'Z'], 'value': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key1': ['B', 'C', 'D', 'E'], 'key2': ['X', 'Y', 'Z', 'W'], 'value': [5, 6, 7, 8]})

# 多键合并
result = pd.merge(df1, df2, on=['key1', 'key2'])
print(result)

输出结果：

  key1 key2  value_x  value_y
0    B    X        2        5
1    C    Y        3        6
2    D    Z        4        7

处理重复列名

当两个DataFrame中存在相同的列名时，pd.merge()会自动为这些列添加后缀以区分它们。默认情况下，后缀为'_x'和'_y'。

# 处理重复列名
result = pd.merge(df1, df2, on='key', suffixes=('_left', '_right'))
print(result)

输出结果：

  key  value_left  value_right
0   B           2            5
1   C           3            6
2   D           4            7

合并时的索引处理

在某些情况下，你可能希望使用DataFrame的索引作为合并键。可以通过设置left_index和right_index参数来实现。

# 使用索引作为合并键
df1.set_index('key', inplace=True)
df2.set_index('key', inplace=True)

result = pd.merge(df1, df2, left_index=True, right_index=True)
print(result)

输出结果：

     value_x  value_y
key                  
B          2        5
C          3        6
D          4        7

实际应用示例

示例1：合并销售数据

假设你有两个数据集：一个包含客户信息，另一个包含订单信息。你可以通过pd.merge()将这两个数据集合并，以便分析客户的购买行为。

# 创建客户信息DataFrame
customers = pd.DataFrame({
    'customer_id': [1, 2, 3, 4],
    'name': ['Alice', 'Bob', 'Charlie', 'David']
})

# 创建订单信息DataFrame
orders = pd.DataFrame({
    'order_id': [101, 102, 103, 104],
    'customer_id': [1, 2, 3, 5],
    'amount': [100, 200, 300, 400]
})

# 合并客户信息和订单信息
result = pd.merge(customers, orders, on='customer_id', how='left')
print(result)

输出结果：

   customer_id     name  order_id  amount
0            1    Alice     101.0   100.0
1            2      Bob     102.0   200.0
2            3  Charlie     103.0   300.0
3            4    David       NaN     NaN

示例2：合并多个数据集

在某些情况下，你可能需要合并多个数据集。可以通过多次调用pd.merge()来实现。

# 创建第三个DataFrame
payments = pd.DataFrame({
    'payment_id': [201, 202, 203, 204],
    'order_id': [101, 102, 103, 105],
    'amount': [50, 100, 150, 200]
})

# 合并客户信息、订单信息和支付信息
result = pd.merge(customers, orders, on='customer_id', how='left')
result = pd.merge(result, payments, on='order_id', how='left')
print(result)

输出结果：

   customer_id     name  order_id  amount_x  payment_id  amount_y
0            1    Alice     101.0     100.0       201.0      50.0
1            2      Bob     102.0     200.0       202.0     100.0
2            3  Charlie     103.0     300.0       203.0     150.0
3            4    David       NaN       NaN         NaN       NaN

总结

pd.merge()是Pandas库中非常强大的数据合并工具，支持多种合并类型和灵活的合并键选择。通过本文的介绍和示例，你应该已经掌握了pd.merge()的基本用法。在实际的数据分析工作中，灵活运用pd.merge()可以帮助你高效地整合和处理数据，从而更好地进行数据分析和挖掘。

Python Pandas数据合并pd.merge怎么使用

Python Pandas数据合并pd.merge怎么使用

目录

什么是数据合并？

pd.merge()函数的基本语法

合并类型

内连接（Inner Join）

左连接（Left Join）

右连接（Right Join）

外连接（Outer Join）

合并键的选择

单键合并

多键合并

处理重复列名

合并时的索引处理

实际应用示例

示例1：合并销售数据

示例2：合并多个数据集

总结

相关阅读