网站大量收购独家精品文档,联系QQ:2885784924

《数据挖掘与机器学习》 课件4.3 评估与优化电商平台用户购买预测.pptx

《数据挖掘与机器学习》 课件4.3 评估与优化电商平台用户购买预测.pptx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

8南宁职业技术学院

NCVTNANNINGCOLLEGEFORVOCATIONALTECHNOLOGY

数据挖掘与机器学习

DATAMININGA°NDMACHINELEARNING

评估与优化电商平台运输行为预测

电商平台用户购买预测——逻辑回归

电商平台运输预测模型已经建立,通过各种指标(例如准确率、召回率、精确率等)

来评价模型的性能,并找出模型存在的不足之处。

在了解模型不足的地方之后,可以采用类不平衡问题处理等方法改进模型,以优化模型,提高模型预测效果,贯彻高质量发展精神。

不断地优化模型,使其在预测电商客户运输行为方面的准确率和效果不断提高。

评估与优化电商平台运输行为预测

任务描述

使用sklearn.metrics模块对逻辑回归模型进行评价。

使用imblearn库解决类不平衡问题。

评估与优化电商平台运输行为预测

任务要求

Part1相关知识

·混淆矩阵、准确率与召回率·ROC曲线

·样本平衡

混淆矩阵(ConfusionMatrix)是模式识别领域中一种常用的表达形式,描绘样

本数据的真实属性与识别结果类型之间的关系,是评价分类器性能的一种常用方法,并且可以将分类问题的结果进行可视化。

以一个二分类任务为例,可将样本根据真实类别与预测的分类结果的组合划分为真正例(TruePositive,TP)、假正例(FalsePositive,FP)、真反例(True

Negative,TN)和假反例(FalseNegative,FN)共4种情形,并对应其样本数,

则有总样本数=TP+FP+FN+TN。

评估与优化电商平台运输行为预测

混淆矩阵

预测结果

正类反类

TPFN

FPTN

分类结束后的混淆矩阵如表所示。

真实结果

正类

反类

TP:正确地将正样本预测为正样本的分类数

FP:错误地将负样本预测为正样本的分类数

评估与优化电商平台运输行为预测

TN:正确地将负样本预测为负样本的分类数

FN:错误地将正样本预测为负样本的分类数

混淆矩阵

准确率(Accuracy)是指分类器正确分类的样本数与总样本数之比,它可以展

示分类器的整体分类效果。准确率定义如式所示。

准确率取值范围为[0,1],取值越高表示分类模型效果越好,完美分类的准确率为1,完全随机猜测的准确率为分类的类别数的倒数。

评估与优化电商平台运输行为预测

准确率

召回率(Recall),是指分类器正确分类的正样本数与实际正样本数之比,它可以展

示分类器对于正样本的分类效果,用于评估模型对正类的识别能力。计算公式如公式所示。

召回率的取值范围为[0,1],取值越大表示模型在预测正样本方面的能力越强,即能够更准确地将正样本识别出来。

当召回率为1时,表示模型能够将所有正样本都识别出来,没有遗漏,这是理想的情况。

评估与优化电商平台运输行为预测

召回率

classification_report是一个用于生成分类报告的类,用于评估分类模型的性能。

它计算并打印出准确率、召回率、F1-score和support等指标。

评估与优化电商平台运输行为预测

分类报告

该曲线下的面积(AUC)为

0.93,而面积的大小与每种方法的优劣密切相关,可反映分类器正确分类的统计概率,因此,其值越接近1说明

该算法效果越好。

1.0

接收者操作特征曲线(ReceiverOperatingCharacteristiccurve,ROC曲线)是一种非常有效的模

型评价方法,可为选定临界值给出定量提示。

ROC曲线

0.20406

假正率

正确地将正例预测为正例的比率为纵坐标

错误地将负例预测为正例的比率为横坐标

1.0-

0.8

0.6

o.4

0.2

0.0-

0.0

评估与优化电商平台运输行为预测

area=0.93

0.8

ROC曲线

真正率

在Python中,使用sklearn.metrics模块中的roc_curve类中的roc_curve函数可

以计算ROC曲线,其基本使用格式如下。

fpr,tpr,thresholds=roc_curve(y_true,y_score,pos_label=None,

文档评论(0)

乐毅淘文斋 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8121131046000040

1亿VIP精品文档

相关文档