Python Pandas中DataFrame.drop_duplicates()怎么删除重复值

发布时间：2022-07-12 09:46:50 作者：iii
来源：亿速云阅读：319

Python Pandas中DataFrame.drop_duplicates()怎么删除重复值

在数据分析和处理过程中，处理重复数据是一个常见的任务。重复数据可能会导致分析结果不准确，因此需要对其进行清理。Pandas 是 Python 中一个强大的数据处理库，提供了多种方法来处理重复数据。其中，DataFrame.drop_duplicates() 是一个非常实用的函数，用于删除 DataFrame 中的重复行。本文将详细介绍如何使用 drop_duplicates() 函数来删除重复值。

1. `drop_duplicates()` 函数简介

drop_duplicates() 是 Pandas 中用于删除 DataFrame 中重复行的函数。它可以根据指定的列或所有列来识别重复行，并删除这些重复行，只保留第一次出现的行（默认行为）。该函数的基本语法如下：

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)

参数说明

subset: 可选参数，用于指定要考虑的列。默认值为 None，表示考虑所有列。如果指定了列名或列名的列表，则只考虑这些列中的重复值。
keep: 可选参数，用于指定保留哪些重复行。默认值为 'first'，表示保留第一次出现的行。其他可选值包括 'last'（保留最后一次出现的行）和 False（删除所有重复行）。
inplace: 可选参数，布尔值。如果为 True，则直接在原 DataFrame 上进行修改，不返回新的 DataFrame。默认值为 False，表示返回一个新的 DataFrame。
ignore_index: 可选参数，布尔值。如果为 True，则在删除重复行后重新索引 DataFrame。默认值为 False。

2. 使用 `drop_duplicates()` 删除重复值

2.1 删除所有列中的重复行

默认情况下，drop_duplicates() 会考虑所有列中的重复值。以下是一个简单的示例：

import pandas as pd

# 创建一个包含重复行的 DataFrame
data = {
    'A': [1, 2, 2, 3, 4],
    'B': [5, 6, 6, 7, 8],
    'C': [9, 10, 10, 11, 12]
}
df = pd.DataFrame(data)

# 删除重复行
df_no_duplicates = df.drop_duplicates()

print(df_no_duplicates)

输出结果：

   A  B   C
0  1  5   9
1  2  6  10
3  3  7  11
4  4  8  12

在这个例子中，第二行和第三行是重复的，drop_duplicates() 删除了第三行，保留了第二行。

2.2 删除指定列中的重复行

有时候，我们可能只关心某些列中的重复值。可以通过 subset 参数指定要考虑的列。例如：

# 删除列 'A' 和 'B' 中的重复行
df_no_duplicates = df.drop_duplicates(subset=['A', 'B'])

print(df_no_duplicates)

输出结果：

   A  B   C
0  1  5   9
1  2  6  10
3  3  7  11
4  4  8  12

在这个例子中，drop_duplicates() 只考虑了列 'A' 和 'B' 中的重复值，因此第三行被删除。

2.3 保留最后一次出现的重复行

默认情况下，drop_duplicates() 会保留第一次出现的重复行。如果希望保留最后一次出现的重复行，可以将 keep 参数设置为 'last'。例如：

# 保留最后一次出现的重复行
df_no_duplicates = df.drop_duplicates(keep='last')

print(df_no_duplicates)

输出结果：

   A  B   C
0  1  5   9
2  2  6  10
3  3  7  11
4  4  8  12

在这个例子中，drop_duplicates() 保留了第三行，删除了第二行。

2.4 删除所有重复行

如果希望删除所有重复行（即不保留任何重复行），可以将 keep 参数设置为 False。例如：

# 删除所有重复行
df_no_duplicates = df.drop_duplicates(keep=False)

print(df_no_duplicates)

输出结果：

   A  B   C
0  1  5   9
3  3  7  11
4  4  8  12

在这个例子中，所有重复的行都被删除了。

2.5 在原 DataFrame 上直接修改

默认情况下，drop_duplicates() 会返回一个新的 DataFrame，而不会修改原 DataFrame。如果希望在原 DataFrame 上直接修改，可以将 inplace 参数设置为 True。例如：

# 在原 DataFrame 上直接删除重复行
df.drop_duplicates(inplace=True)

print(df)

输出结果：

   A  B   C
0  1  5   9
1  2  6  10
3  3  7  11
4  4  8  12

在这个例子中，原 DataFrame df 被直接修改，删除了重复行。

2.6 重新索引 DataFrame

在删除重复行后，DataFrame 的索引可能会变得不连续。如果希望重新索引 DataFrame，可以将 ignore_index 参数设置为 True。例如：

# 删除重复行并重新索引
df_no_duplicates = df.drop_duplicates(ignore_index=True)

print(df_no_duplicates)

输出结果：

   A  B   C
0  1  5   9
1  2  6  10
2  3  7  11
3  4  8  12

在这个例子中，删除重复行后，DataFrame 的索引被重新设置为从 0 开始的连续整数。

3. 总结

DataFrame.drop_duplicates() 是 Pandas 中一个非常实用的函数，用于删除 DataFrame 中的重复行。通过合理设置 subset、keep、inplace 和 ignore_index 等参数，可以灵活地处理重复数据。掌握这个函数的使用方法，可以大大提高数据处理的效率和准确性。

Python Pandas中DataFrame.drop_duplicates()怎么删除重复值

Python Pandas中DataFrame.drop_duplicates()怎么删除重复值

1. drop_duplicates() 函数简介

参数说明

2. 使用 drop_duplicates() 删除重复值

2.1 删除所有列中的重复行

2.2 删除指定列中的重复行

2.3 保留最后一次出现的重复行

2.4 删除所有重复行

2.5 在原 DataFrame 上直接修改

2.6 重新索引 DataFrame

3. 总结

相关阅读

1. `drop_duplicates()` 函数简介

2. 使用 `drop_duplicates()` 删除重复值