- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
在Excel中作ROC曲线
在Excel中作ROC曲线 分类模型尝试将各个实例(instance)划归到某个特定的类,而分类模型的结果一般是实数值,如逻辑回归,其结果是从0到1的实数值。这里就涉及到如何确定阈值(threshold value),使得模型结果大于这个值,划为一类,小于这个值,划归为另一类。 考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True positive),正类被预测成负类则为假负类(false negative)。 列联表如下表所示,1代表正类,0代表负类。 预测 1 0 合计 实际 1 True Positive(TP) False Negative(FN) Actual Positive TP+FN 0 False Positive(FP True Negative TN Actual Negative FP+TN 合计 ? Predicted Positive TP+FP Predicted Negative FN+TN TP+FP+FN+TN 从列联表引入两个新名词。其一是真正类率 true positive rate ,TPR , 计算公式为TPR TP / TP + FN ,刻画的是分类器所识别出的正实例占所有正实例的比例。另外一个是负正类率 false positive rate, FPR ,计算公式为FPR FP / FP + TN ,计算的是分类器错认为正类的负实例占所有负实例的比例。还有一个真负类率(True Negative Rate,TNR),也称为specificity,计算公式为TNR TN / FP + TN 1 ? FPR。 在一个二分类模型中,对于所得到的连续结果,假设已确定一个阀值,比如说0.6,大于这个值的实例划归为正类,小于这个值则划到负类中。如果减小阀值,减到0.5,固然能识别出更多的正类,也就是提高了识别出的正例占所有正例的比类,即TPR,但同时也将更多的负实例当作了正实例,即提高了FPR。为了形象化这一变化,在此引入ROC。 Receiver Operating Characteristic,翻译为接受者操作特性曲线,够拗口的。曲线是由两个变量的组合,1-specificity和Sensitivity. 由于1-specificity FPR,即负正类率。Sensitivity即是真正类率,True positive rate,反映了正类覆盖程度。这个组合以1-specificity对sensitivity,即是以代价 costs 对收益 benefits 。 下表是一个逻辑回归得到的结果。将得到的实数值按大到小划分成10个个数相同的部分。 Percentile 正例数 1-特异度 % 敏感度 % 10 6180 4879 2.73 34.64 20 6180 2804 9.80 54.55 30 6180 2165 18.22 69.92 40 6180 1506 28.01 80.62 50 6180 987 38.90 87.62 60 6180 529 50.74 91.38 70 6180 365 62.93 93.97 80 6180 294 75.26 96.06 90 6180 297 87.59 98.17 100 6177 258 100.00 100.00 其正例数为此部分里实际的正类数。也就是说,将逻辑回归得到的结果按从大到小排列,倘若以前10%的数值作为阀值,即将前10%的实例都划归为正类,6180个。其中,正确的个数为4879个,占所有正类的4879/14084*100% 34.64%,即敏感度;另外,有6180-4879 1301个负实例被错划为正类,占所有负类的1301/47713*100% 2.73%,即1-特异度。以这两组值分别作为x值和y值,在excel中作散点图。得到ROC曲线如下 对角线反映的是随机选择的结果,此对角线作为对照线。到底该怎样选择阀值呢,这涉及到了AUC Area Under the ROC Curve,ROC曲线下的面积 。
您可能关注的文档
最近下载
- 海信日立空调工程安装操作标准.pdf VIP
- 2021-2027全球及中国红外探测器芯片行业研究及十四五规划分析报告.docx VIP
- 2025-2026学年小学美术二年级上册(2024)岭南版(2024)教学设计合集.docx
- 02s404防水套管图集.docx VIP
- NASA认知负荷评估量表(TLX).docx VIP
- 20以内加减法练习题(a4).pdf VIP
- 光纤通信考试题及答案.doc VIP
- 天津市南开区2024-2025学年九年级上学期期末语文试题(含答案).pdf VIP
- 2025年公路水运安全员证考试题库答案.docx
- (推荐!)《ISO 37001-2025反贿赂管理体系要求及使用指南》专业深度解读和应用培训指导材料之7:9绩效评价(2025A1).docx VIP
文档评论(0)