基于决策树城镇居民生活质量模型.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于决策树城镇居民生活质量模型

基于决策树城镇居民生活质量模型   【摘要】应用决策树方法获取提高城镇居民生活质量的规律性认识。通过对城镇居民的数据样本进行分析挖掘和分类,建立基于居民满意度的决策树分类模型,根据该模型生成规则集,从而发现居民生活质量与主要因素间潜在的规则性知识,为如何提高城镇居民生活满意提供可参考的依据。   【关键词】数据挖掘;城镇居民生活质量;决策树;技术服务      一、概述   生活质量是“对于生活及其各个方面的评价和总结”。随着信息技术的发展和信息化建设的不断深入,在大规模的管理信息系统建设完成后,应用这些系统产生了大量的数据,数据应用和信息资源开发的需求应运而生。如何利用已有的数据,确定生活各个方面的相对重要性,我们便可以进一步揭示各种社会的、经济的和心理的因素对人们、对生活的总的评价的影响。   二、决策树算法   决策树算法是数据挖掘中常用的分类技术。本文应用决策树方法,从国民经济数据中提取评价居民生活质量的规则。决策树的算法:首先,通过从训练集中选择实例的一个自己来创建决策树;然后,算法使用这些自己构建一个决策树;剩下的训练及实例用于检验所见决策树的准确度。目前大多数的决策树学习算法是ID3算法的变体,本文应用基于ID3算法的决策树生成算法如下:(1)计算每一属性的信息增益。(2)以具有最高信息增益的属性作为集合的检验属性。(3)用检验属性生成节点并标记。(4)对于检验属性的每个值生成分叉。   重复以上整个过程,用每个分支节点关联的训练样例选取在该点被测试的最佳属性,如此自上而下地构造决策树。生成的决策树的每个内部节点代表对一个属性的测试,分支代表测试的每个结果,树的每个叶节点代表一个类别。其中,信息增益的计算方法如下:   设是n维有穷向量,其中,是有穷离散符号集;E中的元素e=()叫作例子。假设向量空间E中的正例集PE和反例集NE的大小分别为p和n,ID3算法基于下列2个假设:   (1)在向量空间E上的一棵正确决策树对任意例子的分类概率与E中正比例的概率一致。   (2)一棵决策树能对一个例子做出正确类别判断所需的期望信息比特为   该算法选择使Gain(A)最大的属性A作为分枝属性,这种方法使生成的决策树平均深度较小,从而有较快的分类速度,但这个标准易偏向于取值较多的属性,为此,本文采用信息增益率的选择方法。增益率定义为:   其中,IV(A)=E(A)是关于属性A的取值的信息度量。利用增益率选取特征能真正实现先选取信息量大的属性作为判定属性,得出的结果比信息增益更令人满意。   本文采用的规则提取方法是:(1)从根节点到每个叶节点分别为一条规则。(2)沿每一路径中检验属性的合取作为规则的前提部分,而每一路径的叶节点为规则的结论部分。   三、模型的建立   由于居民生活统计数据的大量、多维、动态、不完整、不确定等特性,就居民生活质量而言,在大量的数据中发现其内部所特有的规律难度较大。取某个具有代表性的省份,城镇数据覆盖范围较小,只涉及到整个国家居民的部分内容,区域经济特色鲜明,其数据具有明显的区域性。针对此类数据进行数据挖掘具有必要性和可行性,据此发现的隐含规则具备较高的可信度。   本文针对江苏省城镇居民的调查数据,通过深入分析其数据特点,将数据挖掘技术应用于探究居民生活主观满意度过程中,建立基于决策树的提高人民生活质量的模型,如下图1所示。   模型以江苏省城镇居民生活满意度调查数据库为操作对象,通过数据预处理、模型建立及验证和结果分析等,归纳总结出提升居民生活质量的关键因素。其中,数据预处理是指收集现有原型数据,然后进行熟悉数据的各种活动;预测模型是在数据预处理的基础上,通过决策树算法构建适用于居民生活质量的分析与决策模型;最后通过对模型进行分析说明。   (一)数据预处理   本文以江苏省居民城镇调查的数据为例,利用决策树技术挖掘影响居民生活满意度的潜在因素。数据记录主要来源统计网站。经过数据清理和数据交换,从调查的城镇的320个居民家庭的5000多条符合条件的数据中随机选取2/3的数据作为学习样本,选取的测试属性包括年龄(T)、性别(S)、收入代表的经济情况(SRSP)和周围环境因素(HJYS)。对收入水平和环境因素设置2个阈值,离散化为高、低2个等级,再经过重点选样得到训练集。表1为居民调查的部分训练集。   (二)模型建立   建模是数据挖掘的核心环节,是利用已知的数据和知识建立一种数据分析模型。本文根据上文提出的决策树生成算法,运用决策树模型对居民对生活的满意度进行分类。   训练集中决策属性为居民满意度的共有53个记录,其中,42个为主观满意;11个为主观不满意,如表2所示。本文满意于不满意的定义原则是:经过实地调研,居民对生活满意度的回答为非

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档