- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于数据挖掘技术的二手车性能评估模型研究.doc
基于数据挖掘技术的二手车性能评估模型研究 摘 要:近来年我国二手车市场发展迅速,但市场不够规范,主要依靠人为判断,评估不客观,甚至在鉴定评估过程中,有故意隐瞒车辆质量问题、以次充好等欺骗消费者现象,给二手车市场造成不良影响。本文利用数据挖掘技术中的决策树、logistic回归和神经网络对205个二手车数据进行分析,利用相关数据资料分别建立不同的二手车性能评估模型,实现了对二手车性能的多种复杂混合因素一定程度上的定量分析。 关键词:二手车性能评估;数据挖掘;决策树;logisticl回归;神经网络 一、二手车评估的现状和发展 虽然2011年的二手车销量为433万辆,是2000年25万的16.3倍。但是还不到新车销量的1/4,这说明我国二手车市场还存在很大的发展空间。而鉴定评估缺乏科学统一的标准,对二手车市场的发展都有较大影响。与传统主观简单的评估方法相比,评估模型优势明显。在数据挖掘技术中主要的预测模型有决策树、Logistic回归和神经网络三种。决策树模型是一个逐层分隔的形式,而Logistic回归属于广义线性模型,神经网络模型提供了一个灵活的拟合形式。 二、二手车性能评估模型的构建 1.数据预处理、数据探索与数据清理 数据挖掘技术对数据有一定要求,所以要先进行不完整数据、噪音数据、不一致数据的预处理。主要有数据清洗、数据集成与转换、数据约减等三个过程。本文所用205个实验数据、包含11个变量,数据量较少。 表 原始实验数据属性 下面对表中各变量进行分析处理: (1)数据特征探索:利用insight节点,对各变量及目标变量进行可视化分析,探索各变量的关系、含义和特点,为建模做准备。发现各变量缺失比例在2%以下,因此缺失变量可以忽视;(2)设定目标变量。建立target,当Performance Cost等于1时表示这是一个性能高的二手车;Performance Cost等于0时表示该二手车的性能比较低。建模的目标就是要从数据中挖掘出性能高与低的二手车的不同特征,在模型审批过程中能自动将二者区分开来;(3)变量price与Performance Cost高度线性相关,因此rejected。highway mpg与city mpg高度相关,重复了,因此拒绝其中一个,本模型是拒绝的highway mpg;(4)观察目标变量的分布,可以看到性能高的二手车与性能低的二手车的比例分别为62%与38%。因此在数据分区的时候选择用分层抽样;(5)分层抽样。训练集与验证集的比例分别为60%,40%;(6)数据的转换。通过观察数据的分布可以看到engine size,Compression ratio,horsepower,price变量不是类似于正态分布的,因此对其进行正态化处理;(7)虽然缺失数据比例很小,但是为了建模的严谨,还是添加了replacement节点,用决策树方法对缺失的数据进行处理。 2.模型的建立 (1)决策树 因为决策树本身具有处理缺失值的能力,可直接将未经过缺失数据替换的原始数据作为输入数据。本文采用熵不纯性的降低作为节点划分标准,采用二叉树进行建模,设置树:j最大深度为6,最小叶子观测数为5。从模型输出结果得,SAS自动设置的模型中当生成有6个叶子节点的决策树时,训练样本集细分误分率为9.09%,检验样本集细分误分率为7.14%。 决策树模型的综合评价:输出结果得出在“性能高的二手车”历史记录中有87.5%的预测值为“性能高的二手车”。在“性能高的二手车”纪录中有12.5%的预测值为“性能低的二手车”。模型将3.846%的“性能低的二手车”预测为“性能高的二手车”;将历史纪录中96.154%的“性能低的二手车”预测为“性能低的二手车”。由评价结果可知,该决策树对性能低的二手车的正确判断率达了96.154%的较高水平,而对性能高的二手车的正确判断率也达到了87.5%,该决策树对性能低的二手车的预测准确率更理想。 (2)logistic回归建模 借助回归节点建立模型,采用logistic回归方法,回归方式设置为backward,input coding选择GLM。从模型输出结果图得出,误分率标准表明,训练样本集误分率为9.92%,检验样本集误分率为11.9%。 Logistic模型的预测准确率:模型将84.375%的“性能好的二手车”预测为“性能好的二手车”,将15.625%的“性能好的二手车”预测为“性能差的二手车”。有90.385%的“性能差的二手车”被预测为“性能差的二手车”,剩下9.615%的“性能差的二手车”被预测为“性能好的二手车”。可见回归模型对性能好的二手车预测的准确率没有决策树模型高。 (3)神经网络
文档评论(0)