- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘取样方法及数据结构探究
数据挖掘取样方法及数据结构探究 摘要:取?邮且恢址浅Mㄓ玫慕?似技术。取样方法在数据挖掘研究中能显著减小数据处理规模,使数据挖掘算法更加大规模的作用到数据流中。对数据结构的研究也成为了数据挖掘取样方法的中心。本文主要阐述了数据挖掘领域中取样方法的灵活性,并且对数据挖掘取样方法的发展和面临的挑战做出了展望
关键词:数据挖掘 取样方法 数据结构
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2016)12-0106-01
正是由于数据库技术的广泛应用和快速的发展,数据库所能储存的数据也顺应时代潮流越来越大。如何采用适当的技术来降低数据流的规模成为一个重要的问题,特别是最近的某些领域广泛应用数据流信息,比如通信管理和网络监测,为了维护数据结构的动态稳定性,取样成为了最通用的近似技术。取样在保证一定的精确度下,使得数据挖掘算法广泛应用到数据流中去。目前常用的概要结构设计方法有小波方法、直方图方法、Hash等
1 数据挖掘中的取样方法
1.1 A/R Sampling
A/R Sampling算法主要是通过挖掘算法从数据流中不定向抽选一个候选元素,然后通过把此元素与所要求的条件作出对比,只有符合条件的元素才会接受,作为样本集,不符合的拒绝,重复此循环
1.2 精确取样方法
精确取样用元素代码表示在样本集中仅仅出现一次的元素,而用value,count来表示重复出现的元素,当中的value是表示元素所对应的代码,count则表示元素出现的次数数量。一般情况,元素是否放入样本集是有条件的,假如元素没有在样本集里出现过则就可以直接放入样本集,但是如果元素已经存在于样本集中了,那么就在数量count上加1。这样,当样本集容量已满时,样本集中的每个元素数据都会按照原始对应参数来进行对比然后删除,保持数据的存放性
1.3 计数取样方法
计数取样是在精确取样方法基础上转变过来的,在处理样本集溢出情况时,在删除数据之前要和原数据进行比较,然后通过新参数分之一来判断数据时候要减1。当数据的数量值为0时,就不再对该数据进行操作
1.4 分出取样方法
分层取样实际上是将数据信息曾经分布的情况用作参考来对目前的数据进行分层的,这样,对于那些分布多的层就会采取更多的取样点,大大提高了数据挖掘算法的准确性。同时对于每一层的数据而言,则采用均匀的取样技术进行随机的采取点
1.5 国会取样方法
国会取样可以说是是均匀随机取样方法的基础上结合了偏倚取样技术,因为对于每个分组都会独立取样,不同的是取样的概率是不同的。比如,对于某些较大的分组,就会对元素的取样率大大增加,反过来说,对于某些较小的分组,对元素的取样率就大大减少,这种兼顾性就突破了均匀取样的局限性
1.6 Distinct Sampling
Distinct Sampling相当于取样方法的综合说法,从按类型方面来看,属于聚集流的有哪些信誉好的足球投注网站处理查询中的唯一值取样方法。通过对数据中的唯一的元素进行逐一的扫描再逐一的加入的样本集的方法进行取样,这样就大大提高了对于唯一的个体数目的评估正确性
2 数据挖掘在取样方法中的发展
取样方法在统计计算、数据处理和挖缺信息中普遍存在,在某些知识发展的方面扮演着无法替换的功能角色。在数据挖掘取样方法中的应用案例非常之多,比如房地产的数据分析和用户需求统计中一般采用均匀随机的抽样方法来搜集大数据。在对数据结构的构建中采用的数据挖掘算法也很多。例如CURE和CLARANS,通过算法再加上取样方法的预处理能力,在专业人士的分析统计下,算法和取样方法都得到了最大化的发挥
自适应取样是针对有穷非负数数据的一种评估方法,我们可以任意调节取样样本的大小,通过数据挖掘方面的整理,可以实现用最小的样本解决更小的误差遗留问题。为了顺应需求节约取样的成本,二阶段取样的评估方法出现了。大概含义如下:在挖掘样本对象时,有时候会出现一些大成本的取样对象,为了解决这种烦恼,可以寻找一种辅助的取样对象来减少成本的代价。通过这个辅助对象的比例来推断出原来那个大成本的取样对象。这样不但解决了成本问题,而且目标精确度也会提高
取样技术在数据集中的主要方面就是管理和挖掘:(1)针对数据集的处理模型中数据结构的需要里需要均匀取样方法和计数取样方法。(2)针对数据流在某些近似的查询过程中需要国会取样方法和Distinct Sampling等。(3)针对数据集运用的偏倚取样技术,这样能够解决一些应用过程中的数据管理、分配、评判问题的分析
3 数据挖掘取样方法面对的挑战
通过研究发现,传统的取样方法在数据挖掘领域中得到了深远的发展,取样技术在数据库的搜查处理、关于频繁元素的挖掘和数据挖掘算法
您可能关注的文档
最近下载
- 信息系统等保安全方案.doc VIP
- 兴业银行信息技术专员岗位笔试选择题附笔试高分技巧.docx VIP
- 化工设计概论与化工制图课件第四章化工设备常用零部件简介.pptx VIP
- 高等教育5化工制图cad化工设备图中焊缝结构的表达.pptx VIP
- 化工设计概论与化工制图课件第七章车间布置设计.pptx VIP
- 新概念英语入门级6-10单元测试卷.pdf VIP
- 化工设计概论与化工制图课件第八章管道设计.pptx VIP
- 化工设计概论与化工制图课件第十章管道布置图.pptx VIP
- 化工制图cad8管道布置图.pptx VIP
- 统编版语文一年级下册2吃水不忘挖井人 课件(共54张PPT).pptx VIP
文档评论(0)