- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
8南宁职业技术学院
NCVTNANNINGCOLLEGEFORVOCATIONALTECHNOLOGY
厨
数据挖掘与机器学习
DATAMININGA°NDMACHINELEARNING
评估与优化电商平台运输行为预测
电商平台用户购买预测——逻辑回归
电商平台运输预测模型已经建立,通过各种指标(例如准确率、召回率、精确率等)
来评价模型的性能,并找出模型存在的不足之处。
在了解模型不足的地方之后,可以采用类不平衡问题处理等方法改进模型,以优化模型,提高模型预测效果,贯彻高质量发展精神。
不断地优化模型,使其在预测电商客户运输行为方面的准确率和效果不断提高。
评估与优化电商平台运输行为预测
任务描述
使用sklearn.metrics模块对逻辑回归模型进行评价。
使用imblearn库解决类不平衡问题。
评估与优化电商平台运输行为预测
任务要求
Part1相关知识
·混淆矩阵、准确率与召回率·ROC曲线
·样本平衡
混淆矩阵(ConfusionMatrix)是模式识别领域中一种常用的表达形式,描绘样
本数据的真实属性与识别结果类型之间的关系,是评价分类器性能的一种常用方法,并且可以将分类问题的结果进行可视化。
以一个二分类任务为例,可将样本根据真实类别与预测的分类结果的组合划分为真正例(TruePositive,TP)、假正例(FalsePositive,FP)、真反例(True
Negative,TN)和假反例(FalseNegative,FN)共4种情形,并对应其样本数,
则有总样本数=TP+FP+FN+TN。
评估与优化电商平台运输行为预测
混淆矩阵
预测结果
正类反类
TPFN
FPTN
分类结束后的混淆矩阵如表所示。
真实结果
正类
反类
TP:正确地将正样本预测为正样本的分类数
FP:错误地将负样本预测为正样本的分类数
评估与优化电商平台运输行为预测
TN:正确地将负样本预测为负样本的分类数
FN:错误地将正样本预测为负样本的分类数
混淆矩阵
准确率(Accuracy)是指分类器正确分类的样本数与总样本数之比,它可以展
示分类器的整体分类效果。准确率定义如式所示。
准确率取值范围为[0,1],取值越高表示分类模型效果越好,完美分类的准确率为1,完全随机猜测的准确率为分类的类别数的倒数。
评估与优化电商平台运输行为预测
准确率
召回率(Recall),是指分类器正确分类的正样本数与实际正样本数之比,它可以展
示分类器对于正样本的分类效果,用于评估模型对正类的识别能力。计算公式如公式所示。
召回率的取值范围为[0,1],取值越大表示模型在预测正样本方面的能力越强,即能够更准确地将正样本识别出来。
当召回率为1时,表示模型能够将所有正样本都识别出来,没有遗漏,这是理想的情况。
评估与优化电商平台运输行为预测
召回率
classification_report是一个用于生成分类报告的类,用于评估分类模型的性能。
它计算并打印出准确率、召回率、F1-score和support等指标。
评估与优化电商平台运输行为预测
分类报告
该曲线下的面积(AUC)为
0.93,而面积的大小与每种方法的优劣密切相关,可反映分类器正确分类的统计概率,因此,其值越接近1说明
该算法效果越好。
1.0
接收者操作特征曲线(ReceiverOperatingCharacteristiccurve,ROC曲线)是一种非常有效的模
型评价方法,可为选定临界值给出定量提示。
ROC曲线
0.20406
假正率
正确地将正例预测为正例的比率为纵坐标
错误地将负例预测为正例的比率为横坐标
1.0-
0.8
0.6
o.4
0.2
0.0-
0.0
评估与优化电商平台运输行为预测
area=0.93
0.8
ROC曲线
真正率
在Python中,使用sklearn.metrics模块中的roc_curve类中的roc_curve函数可
以计算ROC曲线,其基本使用格式如下。
fpr,tpr,thresholds=roc_curve(y_true,y_score,pos_label=None,
您可能关注的文档
- 《汽车节能与新能源技术应用》高职PPT完整全套教学课件.pptx
- 《嵌入式系统原理与开发》课件_第5章.pptx
- 《数据挖掘与机器学习》 课件2.2.4 数据合并.pptx
- 《数据挖掘与机器学习》 课件2.3.1 基本语法和常用参数.pptx
- 《数据挖掘与机器学习》 课件2.3.3 绘制饼图与柱形图、分析农产品数量情况.pptx
- 《数据挖掘与机器学习》 课件3.1.1 一元线性回归.pptx
- 《数据挖掘与机器学习》 课件3.3 优化建筑工程混凝土抗压强度检测模型.pptx
- 《数据挖掘与机器学习》 课件4.1.1 哑变量处理.pptx
- 《数据挖掘与机器学习》 课件5.1.1 数据标准化.pptx
- 《数据挖掘与机器学习》 课件5.1.2 数据降维、处理玻璃成分数据.pptx
文档评论(0)