数据挖掘(分类算法的研究).docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘之分类方法的研究 摘要:对分类算法中需要解决的关键问题进行了分析;综述了不同分类算法的思想和特性,决策树分类算法能够很好地处理噪声数据,但只能对规模较小的训练样本集有效;贝叶斯分类算法精度高、速度快、错误率低、但分类不够准确;并且针对决策树分类算法的缺点进行了改进。 关键字:数据挖掘,分类算法,决策树 数据挖掘的主要分类算法 数据挖掘的分类算法有多种,本文重点描述决策树、贝叶斯分类算法的特性及其新发展。 2.1 决策树分类算法 决策树分类算法也称为贪心算法,采用自顶向下的分治方式构造,它从一组无次序、无规则的事例中推理出决策树表示形式的分类规则,是以实例为基础的归纳学习方法。决策树分类算法对噪声数据有很好的健壮性,能够学习析取表达式,是最为广泛使用的分类算法之一[1]。决策树的每个内部节点(非叶节点)表示在一个属性上的测试,每个分枝代表一个测试输出,每个叶节点代表类或类分布,树的顶层节点是根节点。决策树算法通过将样本的属性值与决策树相比较,来对未知样本进行分类。 首先根据训练数据集来构建决策树,建立决策树模型,这实际上是一个从数据中获取知识,进行机器学习的过程[2]。树代表训练样本的单个根节点开始,使用分类属性(如果是量化属性,则需要进行离散化),递归地通过选择相应的测试属性来划分样本,一旦一个属性出现在一个节点上,就不在该节点的任何后代上出现,测试属性是根据某种启发信息或者是统计信息来进行选择(如信息增益)。第二个阶段是树剪枝,树剪枝试图检测和剪去训练数据中的噪声和孤立点,尽量消除模型中的异常。剪枝后的树变小、复杂度降低,在正确地对独立检验数据分类时效果更快更好。 决策树的优点:? 1、决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。? 2、对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。? 3、能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。? 4、决策树是一个白盒模型。如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。? 5、易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。 6、在相对短的时间内能够对大型数据源做出可行且效果良好的结果。? 7、可以对有许多属性的数据集构造决策树。? 8、决策树可很好地扩展到大型数据库中,同时它的大小独立于数据库的大小。?? 决策树的缺点:? 1、对于那些各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。? 2、决策树处理缺失数据时的困难。? 3、过度拟合问题的出现。? 4、忽略数据集中属性之间的相关性。 2.2 贝叶斯分类算法 贝叶斯( Beyes) 分类算法基于概率统计学的贝叶斯定理,是一种在先验概率与类条件概率已知的情况下,预测类成员关系可能性的模式分类算法,如计算一个给定样本属于一个特定类的概率,并选定其中概率最大的一个类别作为该样本的最终类别。 贝叶斯分类算法的关键是使用概率表示各种形式的不确定性。对于大型数据集,从理论上讲,精确度高,运算速度快,具有最小的错误率,是贝叶斯算法的最大优点,但实际情况下,因其假定的不准确性,导致缺乏可用的数据,就需要足够大的样本。针对该缺陷,出现了一些降低独立性假设的贝叶斯改进分类算法,如半朴素贝叶斯算法、压缩候选的贝叶斯信念网络构造算法、TAN 算法等[5]。贝叶斯分类算法还可以用来对不直接使用贝叶斯定理的其他分类算法提供理论判据。基于聚类分析思想,提出一种合理性、可信度都优于朴素贝叶斯缺损数据的修补算法。利用贝叶斯和决策树分类算法的优点,将贝叶斯的先验信息法与决策树分类的信息增益法相结合的混合分类算法,在处理不一致或者不完整数据时,比单纯使用贝叶斯或决策树进行的分类运算速度更快,准确率更高。 2.5 其他分类算法 本文主要针对数据挖掘的几种分类算法进行阐述,详细讨论了决策树、贝叶斯分类算法的研究发展,并着重分析了决策树分类方法的优点及存在的缺陷。在数据挖掘应用中,用户要根据数据的特点,选择合适的分类算法或混合交互分类算法。在今后的工作中,为进一步提高分类的准确率、降低计算复杂度,更应该综合多领域技术,将分类算法与多学科相互交叉相互渗透,使之向着更多样化方向发展。 最后,感谢两个月来陶老师对我们的谆谆教诲,她带我们走进了一个新的学科领域,为我今后对数据挖掘的研究打下了坚实的基础。

文档评论(0)

yaobanwd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档