python验证多组数据之间有什么差异

发布时间:2022-01-04 13:21:22 作者:小新
来源:亿速云 阅读:407

这篇文章主要介绍python验证多组数据之间有什么差异,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!

一、方差分析

1.单因素方差分析

python验证多组数据之间有什么差异

通过箱线图可以人肉看出10组的订单量看起来差不多,为了更科学比较10组的订单量有无显著差异,我们可以利用方差分析

from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
model = ols('orders~C(label)',data=need_data).fit()
anova_table = anova_lm(model, typ = 2)
print(anova_table)

python验证多组数据之间有什么差异

结果显示,p值为0.62大于0.05,不能拒绝原假设,所以这10组的订单量分布没有显著差异。

二、卡方检验

如果是比较多组之间的非连续值指标是否存在差异呢?

如检查上面10组的男女比例是否存在显著差异

python验证多组数据之间有什么差异

计算各组观察频数:

data2=data1.melt(id_vars=['性别'],value_name='观察频数')
data2.head()

python验证多组数据之间有什么差异

计算总体的男女比例:

rate=(data2.groupby(['性别'])['观察频数'].sum()/data2.groupby(['性别'])['观察频数'].sum().sum()).reset_index()
rate.columns=['性别','rate']
rate

python验证多组数据之间有什么差异

计算各组用户总数:

group_sum=data2.groupby(['组别'])['观察频数'].sum().reset_index()
group_sum.columns=['组别','组内用户数']
group_sum

python验证多组数据之间有什么差异

计算卡方值:

import math
data3=pd.merge(data2,group_sum,on=['组别'],how='left')
data3=pd.merge(data3,rate,on=['性别'],how='left')
data3['期望频数']=data3['组内用户数']*data3['rate']
data3['卡方值']=data3.apply(lambda x: math.pow((x.期望频数-x.观察频数),2)/x.期望频数,axis=1)
data3.head()

python验证多组数据之间有什么差异

本案例的自由度为(10-1)*(2-1)=9,选取显著性水平为0.05,查卡方分布表得临界值为18.31
因为7.01<18.31,所以不能拒绝原假设,即各组的性别分布不存在显著性差异。

以上是“python验证多组数据之间有什么差异”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注亿速云行业资讯频道!

推荐阅读:
  1. FAT NTF和ReFS之间的差异
  2. Junit 多组测试数据测试

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

python

上一篇:ACDSee Photo Studio 6 Mac工具有什么用

下一篇:JS的script标签属性有哪些

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》