Python数据分析之Pandas Dataframe怎么合并和去重

发布时间:2022-05-23 09:23:52 作者:iii
来源:亿速云 阅读:966

这篇文章主要介绍“Python数据分析之Pandas Dataframe怎么合并和去重”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python数据分析之Pandas Dataframe怎么合并和去重”文章能帮助大家解决问题。

一、之 Pandas Dataframe合并

Pandas 提供了merge()方法来进行合并操作,使用语法如下:

pd.merge(left, right, how="inner", on=None, left_on=None, right_on=None,
left_index=False, right_index=False, sort=False)

常用的参数说明:

例如,对下面两个 DataFrame 对象执行合并操作:

import pandas as pd
data = {"name": ["Alice", "Bob", "Cindy", "David"], "age": [25, 23, 28, 24], "gender": ["woman", "man", "woman", "man"]}
df1 = pd.DataFrame(data)
df1

Python数据分析之Pandas Dataframe怎么合并和去重

data = {"name": ["Alice", "Bob", "Cindy", "Emilie"], "city": ["beijing", "beijing", "jinan", "shanghai"]}
df2 = pd.DataFrame(data)
df2

Python数据分析之Pandas Dataframe怎么合并和去重

使用name作为连接键:

merge_pd = pd.merge(df1, df2, on="name")
merge_pd

结果输出如下:

Python数据分析之Pandas Dataframe怎么合并和去重

设置为左连接:

merge_pd = pd.merge(df1, df2, on="name", how="left")
merge_pd

结果输出如下:

Python数据分析之Pandas Dataframe怎么合并和去重

在进行数据分析时,数据的质量可能并不理想,有可能包含一些重复数据,那我们就要进行数据的“去重”操作,删除重复的数据,保留唯一的数据项,从而提高数据集整体的精确度,同时也可以节省空间、提升读写性能等,接下来就来介绍一下 Pandas Dataframe 的去重操作。

二、去重操作

Pandas 提供了drop_duplicates()方法进行数据的去重操作,具体使用格式如下:

df.drop_duplicates(subset=None, keep="first", inplace=False, ignore_index=False)

参数说明如下:

例如,对下面 DataFrame 对象进行去重操作:

Python数据分析之Pandas Dataframe怎么合并和去重

可以看到该DataFrame 对象中索引为1、3的行是重复的,下面进行去除:

保留第一次出现的重复项

df.drop_duplicates(inplace=True)
df

结果输出如下:

Python数据分析之Pandas Dataframe怎么合并和去重

删除所有重复项

df.drop_duplicates(keep=False, inplace=True)
df

结果输出如下:

Python数据分析之Pandas Dataframe怎么合并和去重

ignore_index参数使用

df.drop_duplicates(inplace=True, ignore_index=True)
df

Python数据分析之Pandas Dataframe怎么合并和去重

ignore_index设置为True后,通过结果可以看到,行索引进行了重排。

当然drop_duplicates()方法也可以根据指定列名去重,给subset传递参数即可,例如根据name列进行去重:

df.drop_duplicates(subset=["name"], inplace=True)

关于“Python数据分析之Pandas Dataframe怎么合并和去重”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识,可以关注亿速云行业资讯频道,小编每天都会为大家更新不同的知识点。

推荐阅读:
  1. MySQL如何去重
  2. 怎么在Python中使用Dataframe 指定多列去重

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

python pandas dataframe

上一篇:微信小程序实现授权登录之怎么获取用户信息

下一篇:微信小程序如何实现时间轴

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》