- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术研究 0 为决策服务的信息和知识 作为一个新兴的多学科领域,数据采集和多学科多领域的研究越来越重要。随着信息技术的迅速发展, 各行各业都积累了海量异构的数据资料。这些数据往往隐含着各种各样有用的信息, 仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息, 迫切需要将这些数据转化成有用的信息和知识, 从而达到为决策服务的目的。数据挖掘分析得到的信息和知识现在已经得到了广泛的应用, 例如商务管理、生产控制、市场分析、工程设计和科学探索等。数据挖掘是一个多学科领域, 它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等必威体育精装版技术的研究成果。本文主要介绍了数据挖掘的几种主要算法及其改进, 并对国内外的研究现状及研究热点进行了总结, 最后指出其发展趋势。 1 研究背景 1.1 早期研究内容 目前数据挖掘是人工智能和数据库领域的研究热点, 数据挖掘是发现数据库中隐含知识的重要步骤。数据挖掘出现于20世纪80年代末, 早期主要研究从数据库中发现知识 (Knowlegde Discovery in Database, KDD) , 数据挖掘的概念源于1995年在加拿大召开了第一届知识发现和数据挖掘国际会议。数据挖掘作为一种多学科综合的产物, 综合利用人工智能、机器学习、模式识别、统计学、数据库、可视化技术等, 自动分析数据并从中得到潜在隐含的知识, 从而帮助决策者做出合理并正确的决策。 1.2 数据仓库类 数据挖掘的对象可以是任何类型的数据源, 可以是关系数据库, 此类包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、Web数据, 此类包含半结构化数据甚至是异构型数据的数据源。发现知识的方法可以是数字的、非数字的, 也可以是归纳的, 最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。 1.3 描述对象关联分析方法 目前数据挖掘的主要功能包括概念描述、关联分析、分类、聚类和偏差检测等。概念描述主要用于描述对象内涵并且概括此对象相关特征, 概念描述分为特征性描述和区别性描述, 特征性描述描述对象的相同特征, 区别性描述描述对象的不同特征;关联分析主要用来发现数据库中相关的知识以及数据之间的规律, 关联分为简单关联、时序关联、因果关联;分类和聚类就是根据需要训练相应的样本来对数据分类和合并;偏差分析用于对对象中异常数据的检测。 1.4 对数据分析的意义 数据挖掘主要分3个阶段:数据准备、数据挖掘、结果的评价和表达。数据准备主要是完成对大量数据的选择、净化、推测、转换、数据的缩减, 数据准备阶段的工作好坏将影响到数据挖掘的效率和准确度以及最终模式的有效性, 在数据准备阶段可以消除在挖掘过程中无用的数据, 从而提高数据挖掘的效率和准确度;数据挖掘的工作首先需要选择相应的挖掘实施算法, 例如决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等, 然后对数据进行分析, 从而得到知识的模型;结果评价和表达主要是确定知识的模式模型是否有效以便发现有意义的模型。 2 挖掘方法的主要方法 2.1 改进算法的提出 决策树法是数据挖掘的分类功能中一种比较常用的方法。决策树法起源于概念学习系统CLS, 然后发展到ID3方法, ID3算法是由Quinlan首先提出, 该算法是以信息论为基础, 以信息熵和信息增益度为衡量标准。ID3算法的主要思想是:首先计算各属性的信息增益, 然后选取具有最高增益的属性作为给定集合的测试属性。所以造成ID3用信息增益选择属性时偏向选择取值多的属性, 但是取值多的属性不一定找到最优解, 为了克服此问题, 出现了改进算法———C4.5算法。C4.5算法不但克服了ID3偏向选择取值多的属性这一缺点, 还实现了对连续属性的离散化处理和对不完整数据的处理。虽然C4.5算法在速度和预测精度等方面占有优势, 但是由于C4.5在构造树的过程中, 需要对数据集进行多次的顺序扫描和排序, 导致该算法在性能方面较为低效。针对C4.5算法效率不高的问题, 很多学者提出了针对改进措施:一种有效的C4.5的改进模型R-C4.5, 该决策树模型通过合并分类较差的分支, 减少了无意义的分支进一步的划分, 有效避免了碎片的产生, 在保持模型预测准确率的同时, 有效改进了树的健壮性。而从C4.5在连续值属性离散化方面的局限性来看, C4.5算法在对连续值属性进行离散化处理时, 为了找到较好的划分点, C4.5算法需要测试所有潜在的划分信息增益, 这样就大大降低了该算法分类的效率。基于Fayyad和Irani对C4.5算法的改进, 调整了其对连续值属性惩罚的基础, 指定一个阈值a, 通过a值的判定与增益率的判定, 决定是否继续构造节点。此外, 考虑到有新样本添加到数据库中的情况, 按照
文档评论(0)