- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
_数据挖掘和知识发现的技术、方法及应用.doc
HYPERLINK /yingzhe/archive/2006/11/24/571147.html 数据挖掘和知识发现的技术、方法及应用
概念
基于Internet的全球信息系统的发展使我们拥有了前所未有的丰富数据。大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。数据丰富、知识贫乏已经成为一个典型问题。Data Mining(数据挖掘)的目的就是有效地从海量数据中提取出需要的答案,实现“数据-〉信息-〉知识-〉价值”的转变过程。
Data Mining(数据挖掘)是指用非平凡的方法从海量的数据中抽取出潜在的、有价值的知识(模型或规则)的过程。该术语还有其他一些同义词:数据库中的知识发现(Knowledge discovery in databases)、信息抽取(Information extraction)、信息发现(Information discovery)、智能数据分析(Intelligent data analysis)、探索式数据分析(exploratory data analysis)、信息收获(information harvesting)、数据考古(data archeology)等。
数据挖掘的发展历程大致如下:
?1989 IJCAI会议: 数据库中的知识发现讨论专题
–Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991)
?1991-1994 KDD讨论专题
–Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)
?1995-1998 KDD国际会议 (KDD’95-98)
–Journal of Data Mining and Knowledge Discovery (1997)
?1998 ACM SIGKDD, SIGKDD’1999-2002 会议,以及SIGKDD Explorations
?数据挖掘方面更多的国际会议
–PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc.
?
Data Mining(数据挖掘)是数据库研究、开发和应用最活跃的一个分支,是多学科的交叉领域,它涉及数据库技术、人工智能、机器学习、神经网络、数学、统计学、模式识别、知识库系统、知识获取、信息提取、高性能计算、并行计算、数据可视化等多方面知识。
数据挖掘技术从一开始就是面向应用的,它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。例如加拿大BC省电话公司要求加拿大SimonFraser大学KDD研究组,根据其拥有十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。这样一来,就把人们对数据的应用,从低层次的末端查询操作,提高到为各级经营决策者提供决策支持。这种需求驱动力,比数据库查询更为强大。同时,这里所说的数据挖掘,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领域的,同时还要能够易于被用户理解,最好能用自然语言表达发现结果。因此数据挖掘的研究成果是很讲求实际的。
技术
Data Mining(数据挖掘)主要任务有数据汇总、概念描述、分类、聚类、相关性分析、偏差分析、建模等。具体技术包括:
统计分析(statistical analysis)
??? 常见的统计方法有回归分析(多元回归、自回归等)、判别分析(贝叶斯分析、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)和探索性分析(主元分析法、相关分析法等)。其处理过程可以分为三个阶段:搜集数据、分析数据和进行推理。
决策树(decision tree)
决策树是一棵树,树的根节点是整个数据集合空间,每个分节点是对一个单一变量的测试,该测试将数据集合空间分割成两个或更多块。每个叶节点是属于单一类别的记录。首先,通过训练集生成决策树,再通过测试集对决策树进行修剪。决策树的功能是预言一个新的记录属于哪一类。
决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。
通过递
您可能关注的文档
最近下载
- 绵阳南山2025年高中自主招生数学真卷 .pdf VIP
- 学生公寓引进社会化服务安装自助吹风机项目147.docx
- 粤语学习必威体育精装版最全教程.ppt VIP
- 2025上海市六年级升七年级暑假数学衔接讲义 第32讲 图形的运动 暑假综合检测二(解析版)(1).docx VIP
- 压力容器制造质量保证手册+程序文件+表格-符合TSG 07-2019特种设备质量保证管理体系.pdf
- 深海鱼油(syt)课件.ppt
- 《做温暖的教育者》读书分享+课件.pptx VIP
- GB50907-2013 抗爆间室结构设计规范.docx VIP
- 部编版语文一年级上册第八单元教材解读大单元集体备课.pptx VIP
- 大功率充电中压直挂充电技术的发展.pdf VIP
文档评论(0)