- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术与关联规则挖掘算法探讨.doc
数据挖掘技术与关联规则挖掘算法探讨 摘 要决策者想要从浩瀚如烟的数据中寻找有效信息一般会采用数据挖掘技术,该技术大大解放了决策者的劳动力,有效缩减了数据的寻找时间,伴随着科学技术的日渐发达,关联规则挖掘算法被提出,该算法的出现能够有效发现各种有趣的项目集在繁杂的数据之中产生的关联性,决策者在该算法的帮助下能够更加深入的了解数据信息,本文将简要分析和探讨数据挖掘技术与关联规则挖掘算法。 【关键词】数据挖掘 技术 关联规则挖掘 算法 数据挖掘技术的提出使得决策者能够在最短的时间内对数据信息进行高效筛选,进而挑选出对决策最为有用的信息,数据挖掘技术包含着诸多内容,而关联规则挖掘算法就是其中之一,关联规则挖掘算法能够为决策者分析出各数据信息之间的深层关系和隐含信息,帮助决策者作出更加正确科学的决策,由此可见研究数据挖掘技术和关联规则挖掘算法拥有深远的意义。 1 数据挖掘技术的概述 数据挖掘技术顾名思义,就是对信息进行深入挖掘处理的一种新型技术,在数据挖掘技术的推动之下,决策者摒弃了以只能比较低端的进行联机查询为主的传统技术,选用能够合理准确分析和预测数据信息,从而能够使得决策者做出更加准确的判断与合理的决策的数据挖掘技术。数据挖掘技术的构成主要包括预测、关联、差异、广义等范围的知识挖掘。比较常见的数据挖掘方法有当代数学分析法、证据理论法、不确定性推理法、神经网络Neural Network探索性分析法、遗传算法Genetic Algorithm、信息聚类分析法等等。 2 关联规则挖掘算法的概述 2.1 关联规则挖掘算法的定义 数据挖掘技术中的一项重要组成部分就是关联规则挖掘,而关联规则现在也是数据挖掘中最为典型也是最受欢迎的一种。关联规则挖掘算法的概念最早可以追溯到1993年,是由Agrawal等人用来对用户购买模式进行有效反映时创立提出的一种算法。关联规则挖掘现在主要用于寻找和挖掘数据库中各项目集之间关联性以及内在关系,构成关联规则挖掘算法主要有两个极为重要的步骤,分别是找寻所有频繁项集和形成强烈的关联规则,首先找寻所有频繁项集又具体是指寻找满足最小支持度的频繁项目集,而形成强烈的关联规则具体指的是依据频繁项集中的最小可信度进而形成关联规则。在关联规则挖掘算法被提出之后,近十几年中陆陆续续还有无数的专家学者投入到关联规则挖掘算法的研究之中,他们将许多数学思维和方法引入其中,好比说随即采样等等,不仅极大地丰富了关联规则挖掘算法的内容,与此同时还大大提升了算法的准确度和高效性。 2.2 经典频繁集算法 Apriori算法可以算得上是关联规则挖掘中的典型算法,关联规则挖掘中的Apriori算法为了能够尽量简化运算方法减少计算量,将关联规则分为两部分从而完成计算,首先Apriori算法要求所有的频繁项集必须是由迭代检索从数据库有哪些信誉好的足球投注网站得出,其次Apriori算法要求其中所有的频繁项集中需要形成强烈的能够满足用户最低信任度的关联规则。由此我们也可以看出,Apriori算法中的关键其实就是对所有频繁项集进行深入的挖掘或是分析,当然,在Apriori算法中也存在弊端,比如说候选集的数量比较庞大,再比如数据库需要被反复扫描等等,因此该算法并不完美,还有提升与改善的空间。 2.3 数据集划分算法 Partition算法认为只是基于逻辑的角度是可以将整个数据库划分成若干个数据块,且各个数据块之间相互独立并且能够存入内存,使得外存在被访问时所需I/O费用能够被有效缩减。该算法将每一个基于逻辑角度下划分的数据块看成是生成的一个独立的频集,借助频繁项集的性质把这些逻辑角度下的数据块生成的各个独立频繁集,通过合并的方式将其统一成为一个庞大的候选项集,对数据库中所有计算项集的支持度进行扫描从而完成最后的全局计数。虽然在Partition算法仅仅只需要扫描两次数据库,但是最后产生出来的候选项集仍然数量庞大。同样采用数据库划分理念的还有DIC算法,与Partition算法基本相同的是DIC算法也需要对数据库进行划分,但是不是划分为数据块而是划分成为几个分区,但是在这些分区的开始部分上需要仔细进行标记,候选项在进行数据库扫描时将被逐一添加在这些标记上。数据集划分算法的并行度非常高,通常只需要对数据库进行两次左右的扫描即可,这样I/O操作次数将明显减少,算法的效率将得到大大提升。 2.4 增量式更新算法 当各类信息数据之间的隐含内容和内在关联性已经被挖掘出来之后,而在数据库或参数上又发现了信息数据之间又有新的关联性,那么就需要对一致的关联规则进行删除确保数据信息的时效性,此时需要用增量式更新算法完成“除旧更新”的工作,现阶段绝大多数的增量式算法都是在Apriori算法的基础上进行适当
您可能关注的文档
最近下载
- 附件视频监控存储升级项目要求及参数.doc VIP
- 【高中地理】区域地理:天气与气候,气温及分布规律课时2课件 2023-2024学年高二人教版(2019)地理选择性必修1.pptx VIP
- 2025年安全金融知识题库及答案.docx VIP
- 施工方案管理培训课件.docx VIP
- 【高中地理】区域地理:天气与气候,气温及分布规律课时1课件2023-2024学年高二人教版(2019)地理选择性必修1.pptx VIP
- 全新IMPA船舶物料指南(第7版)电子版.xls VIP
- 东方财富杯金融安全知识题库.docx VIP
- 2025年必威体育精装版详版征信报告个人信用报告样板模板word格式新版可编辑.docx
- 孙氏太极拳(孙禄堂原著孙剑云整理).pdf VIP
- 车辆抵押借款合同范本协议(2025版).docx VIP
文档评论(0)