机器学习模型的度量选择怎么理解

发布时间:2021-12-27 13:45:33 作者:iii
来源:亿速云 阅读:117

本篇内容主要讲解“机器学习模型的度量选择怎么理解”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“机器学习模型的度量选择怎么理解”吧!

定义

在讨论每种方法的优缺点之前,我们先了解一下分类问题中使用的基本术语。如果你已经熟悉这个术语,可以跳过这个部分。

机器学习模型的度量选择怎么理解

机器学习模型的度量选择怎么理解

机器学习模型的度量选择怎么理解

ROC-AUC评分

ROC-AUC得分的概率解释是,如果随机选择一个正案例和一个负案例,根据分类器,正案例高于负案例的概率由AUC给出。

机器学习模型的度量选择怎么理解

从数学上讲,它是由灵敏度曲线(TPR)下的面积计算的。

FPR(1-特异性)。理想情况下,我们希望具有高灵敏度和高特异度,但在实际情况下,敏感性和特异度之间始终存在权衡。

ROC-AUC的一些重要特征是

Log损失

对数损失是一种精度测量,它结合了以下二进制类表达式给出的概率置信度的概念:

机器学习模型的度量选择怎么理解

它考虑了你的预测的不确定性,基于它与实际标签的差异。在最坏的情况下,假设你预测的概率都是0.5。因此,对数损失将变成-log(0.5)=0.69。

因此,我们可以说,考虑到实际的概率,任何高于0.6的都是一个非常糟糕的模型。

案例1

Log损失与ROC和F1度量的比较

机器学习模型的度量选择怎么理解

以案例1为例,模型1在预测绝对概率方面做得更好,而模型2预测的概率值是有序递增的。让我们用实际分数来验证一下:

机器学习模型的度量选择怎么理解

如果考虑到log丢失,模型2给出的log损失最高,因为绝对概率与实际标签有很大差异。但这与F1和AUC评分完全不一致,根据该评分模型2具有100%的精确率。

此外,你可以注意,对于不同的阈值,F1得分会变化,在默认阈值为0.5时,F1更喜欢模型1而不是模型2。

从上述示例得出的推论:

案例2

他们如何处理类别不平衡的情况?

机器学习模型的度量选择怎么理解

这两个模型的唯一不同之处是它们对观测13和14的预测。模型1在对观测值13(标签0)进行分类方面做得更好,而模型2在对观测值14(标签1)进行分类方面做得更好。

我们的目标是看哪个模型能更好地捕捉到不平衡类分类的差异(标签1数据量少)。在欺诈检测/垃圾邮件检测这样的问题中,正例的标签总是很少,我们希望我们的模型能够正确地预测正例,因此我们有时会更喜欢那些能够对这些正例进行正确分类的模型

机器学习模型的度量选择怎么理解

显然,在这种情况下,log损失是失败的,因为根据log丢失,两个模型的性能是相同的。这是因为log损失函数是对称的,并且不区分类。

F1度量和ROC-AUC评分在选择模型2方面均优于模型1。所以我们可以使用这两种方法来处理类不平衡。但我们必须进一步挖掘,看看他们对待类别不平衡的方式有哪些不同。

机器学习模型的度量选择怎么理解

在第一个例子中,我们看到很少有正标签。在第二个例子中,几乎没有负标签。让我们看看F1度量和ROC-AUC如何区分这两种情况。

机器学习模型的度量选择怎么理解

ROC-AUC评分处理少数负标签的情况与处理少数正标签的情况相同。这里需要注意的一件有趣的事情是,F1的分数在模型3和模型4中几乎是一样的,因为正标签的数量很大,它只关心正标签的错误分类。

从以上例子得出的推论:

你什么时候会选择F1度量而不是ROC-AUC?

当你有一个数量小的正类,那么F1的得分更有意义。这是欺诈检测中的常见问题,因为正标签很少。我们可以通过下面的例子来理解这个陈述。

例如,在大小为10K的数据集中,模型(1)预测100个真正例数据中有5个正例数据,而另一个模型(2)预测100个真正例数据中的90个正例数据。显然,在这种情况下,模型(2)比模型(1)做得更好。让我们看看F1得分和ROC-AUC得分是否都能捕捉到这种差异

是的,F1成绩的差异反映了模型的表现。

ROC-AUC也给模型1打了一个不错的分数,这并不是一个很好的性能指标。因此,对于不平衡的数据集,在选择roc-auc时要小心。

你应该使用哪种度量来进行多重分类?

我们还有三种类型的非二分类:

在这个博客里,我们只讨论第一类。

机器学习模型的度量选择怎么理解

正如你在上表中看到的,我们有两种类型的指标-微平均和宏平均,我们将讨论每种指标的利弊。多个类最常用的度量是F1度量、平均精度、log损失。目前还没有成熟的ROC-AUC多类评分。

多类的log损失定义为:

机器学习模型的度量选择怎么理解

如果存在类别不平衡问题,则采用微平均法。

到此,相信大家对“机器学习模型的度量选择怎么理解”有了更深的了解,不妨来实际操作一番吧!这里是亿速云网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

推荐阅读:
  1. OSI模型的理解
  2. AI怎么训练机器学习的模型

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

机器学习

上一篇:如何进行Glibc堆块的向前向后合并与unlink原理机制探究

下一篇:C语言怎么绘制圣诞水晶球

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》