手机版 欢迎访问it开发者社区(www.mfbz.cn)网站

当前位置: > 开发

机器学习中——常见二元分类性能指标(准确率、精确率、召回率、F1值、ROC AUC得分)

时间:2021/5/2 15:37:22|来源:|点击: 次

接下来以垃圾信息分类器作为例子说明:

文章目录

      • 一、垃圾短信分类器
      • 二、二元分类性能指标
        • 1. 准确率
        • 2. 精准率和召回率
        • 3.F1值
        • 4.ROC AUC

一、垃圾短信分类器

对于垃圾短信分类器,当分类器将一条短信正确地预测为垃圾短信时为真阳性;当分类器将一条短信正确地预测为非垃圾短信时为真阴性;当非垃圾信息被预测为垃圾信息时为假阳性;当垃圾信息被预测为非垃圾信息时为假阴性;

垃圾信息非垃圾信息
预测为垃圾信息真阳性(TP)假阳性(FP)
预测为非垃圾信息假阴性(FN)真阴性(TN)

二、二元分类性能指标

1. 准确率

准确率用来衡量分类器预测正确的比例。但它不能区分假阳性错误和假阴性错误。

2. 精准率和召回率

精准率表示阳性预测结果为正确的比例,在垃圾短信分类器中,精准率表示被分类为垃圾短信的信息实际上为垃圾短信的比例。
真阳性+真阴性 真阳性+真阴性+假阳性+假阴性 \frac{\text{真阳性+真阴性}}{\text{真阳性+真阴性+假阳性+假阴性}} 真阳性+真阴性+假阳性+假阴性真阳性+真阴性

召回率表示真实的阳性实例被分类器辨认出的比例,在医学领域有时也被称为敏感性。在垃圾短信分类器中,召回率表示

真阳性 真阳性+假阴性 \frac{\text{真阳性}}{\text{真阳性+假阴性}} 真阳性+假阴性真阳性
召回率为1表示,分类器没有做出任何假阴性预测。

单独来看,精准率和召回率并没有意义,它们都是关于分类器性能的不完整视角。

3.F1值

F1值时精准率和召回率的调和平均值。F1值会对精准率和召回率不平衡的分类器进行惩罚。
模型有时会使用F0.5和F2得分来衡量性能,两种得分分别偏向于精准率和召回率。

4.ROC AUC

受试者操作特征(ROC)曲线,可以对一个分类器的性能进行可视化。和准确率不同,ROC曲线对类别分布不平衡的数据集不敏感。和精确率、召回率不同,ROC曲线表明了分类器对所有阈值的性能。ROC曲线描绘了分类器召回率和衰退之间的关系。
衰退(假阳性率)是假阳性数量除以所有阴性数量的值,
F P F P + T N \frac{FP}{FP+TN} FP+TNFP

AUC是ROC曲线以下部分的面积,它将ROC曲线归纳为一个用来标示分类器预计性能的值。
在这里插入图片描述

Copyright © 2002-2019 某某自媒体运营 版权所有