python怎么进行数据合并concat/merge

发布时间：2022-09-19 09:48:16 作者：iii
来源：亿速云阅读：311

Python怎么进行数据合并concat/merge

在数据分析和处理过程中，数据合并是一个常见的操作。Python中的Pandas库提供了多种数据合并的方法，其中最常用的两种是concat和merge。本文将详细介绍这两种方法的使用场景、语法以及示例代码，帮助读者更好地理解和掌握数据合并的技巧。

1. `concat`方法

concat方法主要用于沿指定轴将多个数据框（DataFrame）或系列（Series）连接在一起。它可以用于简单的行或列的拼接，也可以处理更复杂的合并操作。

1.1 基本语法

pandas.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=True)

objs: 要连接的对象列表或字典，通常是DataFrame或Series。
axis: 连接的轴，0表示按行连接，1表示按列连接。
join: 连接方式，’outer’表示外连接（默认），’inner’表示内连接。
ignore_index: 是否忽略原始索引，默认为False。
keys: 用于创建多层索引的键。
levels: 指定多层索引的级别。
names: 指定多层索引的名称。
verify_integrity: 是否检查新索引的重复项，默认为False。
sort: 是否对非连接轴进行排序，默认为False。
copy: 是否复制数据，默认为True。

1.2 示例代码

1.2.1 按行连接

import pandas as pd

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2']})

df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'],
                    'B': ['B3', 'B4', 'B5']})

result = pd.concat([df1, df2], axis=0)
print(result)

输出：

    A   B
0  A0  B0
1  A1  B1
2  A2  B2
0  A3  B3
1  A4  B4
2  A5  B5

1.2.2 按列连接

result = pd.concat([df1, df2], axis=1)
print(result)

输出：

     A    B    A    B
0   A0   B0   A3   B3
1   A1   B1   A4   B4
2   A2   B2   A5   B5

1.2.3 内连接与外连接

df3 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'C': ['C0', 'C1', 'C2']})

result_outer = pd.concat([df1, df3], axis=1, join='outer')
result_inner = pd.concat([df1, df3], axis=1, join='inner')

print("外连接：\n", result_outer)
print("内连接：\n", result_inner)

输出：

外连接：
     A   B    A    C
0  A0  B0   A0   C0
1  A1  B1   A1   C1
2  A2  B2   A2   C2
内连接：
     A   B    A    C
0  A0  B0   A0   C0
1  A1  B1   A1   C1
2  A2  B2   A2   C2

2. `merge`方法

merge方法主要用于基于一个或多个键将两个数据框进行合并。它类似于SQL中的JOIN操作，可以根据指定的键将两个表中的数据进行匹配和合并。

2.1 基本语法

pandas.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

left: 左侧的DataFrame。
right: 右侧的DataFrame。
how: 合并方式，’inner’（默认）、’outer’、’left’、’right’。
on: 用于连接的列名或索引级别。
left_on: 左侧DataFrame中用于连接的列名或索引级别。
right_on: 右侧DataFrame中用于连接的列名或索引级别。
left_index: 是否使用左侧DataFrame的索引作为连接键。
right_index: 是否使用右侧DataFrame的索引作为连接键。
sort: 是否对合并后的数据进行排序，默认为False。
suffixes: 用于重叠列名的后缀。
copy: 是否复制数据，默认为True。
indicator: 是否添加一个列来指示合并的来源。
validate: 检查合并的类型，’one_to_one’、’one_to_many’、’many_to_one’、’many_to_many’。

2.2 示例代码

2.2.1 内连接

left = pd.DataFrame({'key': ['K0', 'K1', 'K2'],
                     'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']})

right = pd.DataFrame({'key': ['K0', 'K1', 'K3'],
                      'C': ['C0', 'C1', 'C3'],
                      'D': ['D0', 'D1', 'D3']})

result = pd.merge(left, right, on='key', how='inner')
print(result)

输出：

  key   A   B   C   D
0  K0  A0  B0  C0  D0
1  K1  A1  B1  C1  D1

2.2.2 外连接

result = pd.merge(left, right, on='key', how='outer')
print(result)

输出：

  key    A    B    C    D
0  K0   A0   B0   C0   D0
1  K1   A1   B1   C1   D1
2  K2   A2   B2  NaN  NaN
3  K3  NaN  NaN   C3   D3

2.2.3 左连接

result = pd.merge(left, right, on='key', how='left')
print(result)

输出：

  key   A   B    C    D
0  K0  A0  B0   C0   D0
1  K1  A1  B1   C1   D1
2  K2  A2  B2  NaN  NaN

2.2.4 右连接

result = pd.merge(left, right, on='key', how='right')
print(result)

输出：

  key    A    B   C   D
0  K0   A0   B0  C0  D0
1  K1   A1   B1  C1  D1
2  K3  NaN  NaN  C3  D3

2.2.5 多键合并

left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

result = pd.merge(left, right, on=['key1', 'key2'], how='inner')
print(result)

输出：

  key1 key2   A   B   C   D
0   K0   K0  A0  B0  C0  D0
1   K1   K0  A2  B2  C1  D1
2   K1   K0  A2  B2  C2  D2

3. `concat`与`merge`的区别

concat主要用于沿指定轴将多个数据框或系列连接在一起，适用于简单的行或列的拼接。
merge主要用于基于一个或多个键将两个数据框进行合并，适用于更复杂的合并操作，类似于SQL中的JOIN操作。

4. 总结

concat和merge是Pandas中常用的数据合并方法，分别适用于不同的场景。concat适用于简单的行或列的拼接，而merge适用于基于键的复杂合并操作。掌握这两种方法的使用技巧，可以大大提高数据处理的效率和灵活性。

在实际应用中，根据数据的特点和需求选择合适的合并方法，可以更高效地完成数据分析和处理任务。希望本文的介绍和示例代码能够帮助读者更好地理解和掌握concat和merge的使用方法。