pandas根据列去重的方法是使用drop_duplicates()
函数。该函数能够返回一个新的DataFrame,其中的重复值已经被删除。
具体用法如下:
df.drop_duplicates(subset=[列名], keep='first', inplace=True)
subset
参数用于指定要检查重复的列名或列名列表。默认情况下,该参数为None
,表示检查所有列。keep
参数用于指定保留哪一个重复值。可选值有first
、last
和False
。默认为first
,表示保留第一个出现的重复值;last
表示保留最后一个出现的重复值;False
表示删除所有重复值。inplace
参数用于指定是否在原DataFrame上进行修改。默认为False
,表示返回删除重复值后的新DataFrame;若设置为True
,则在原DataFrame上进行修改,并返回None
。示例:
import pandas as pd
# 创建一个包含重复值的DataFrame
data = {'A': [1, 2, 2, 3, 4, 4],
'B': ['a', 'b', 'b', 'c', 'd', 'd']}
df = pd.DataFrame(data)
# 根据列'A'去重
df.drop_duplicates(subset=['A'], keep='first', inplace=True)
print(df)
输出结果:
A B
0 1 a
1 2 b
3 3 c
4 4 d
在上述示例中,根据列’A’去重后,保留了第一个出现的重复值。