_数据挖掘和知识发现的技术、方法及应用.docVIP

_数据挖掘和知识发现的技术、方法及应用.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
_数据挖掘和知识发现的技术、方法及应用.doc

HYPERLINK /yingzhe/archive/2006/11/24/571147.html 数据挖掘和知识发现的技术、方法及应用 概念 基于Internet的全球信息系统的发展使我们拥有了前所未有的丰富数据。大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。数据丰富、知识贫乏已经成为一个典型问题。Data Mining(数据挖掘)的目的就是有效地从海量数据中提取出需要的答案,实现“数据-〉信息-〉知识-〉价值”的转变过程。 Data Mining(数据挖掘)是指用非平凡的方法从海量的数据中抽取出潜在的、有价值的知识(模型或规则)的过程。该术语还有其他一些同义词:数据库中的知识发现(Knowledge discovery in databases)、信息抽取(Information extraction)、信息发现(Information discovery)、智能数据分析(Intelligent data analysis)、探索式数据分析(exploratory data analysis)、信息收获(information harvesting)、数据考古(data archeology)等。 数据挖掘的发展历程大致如下: ?1989 IJCAI会议: 数据库中的知识发现讨论专题 –Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) ?1991-1994 KDD讨论专题 –Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) ?1995-1998 KDD国际会议 (KDD’95-98) –Journal of Data Mining and Knowledge Discovery (1997) ?1998 ACM SIGKDD, SIGKDD’1999-2002 会议,以及SIGKDD Explorations ?数据挖掘方面更多的国际会议 –PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc. ? Data Mining(数据挖掘)是数据库研究、开发和应用最活跃的一个分支,是多学科的交叉领域,它涉及数据库技术、人工智能、机器学习、神经网络、数学、统计学、模式识别、知识库系统、知识获取、信息提取、高性能计算、并行计算、数据可视化等多方面知识。 数据挖掘技术从一开始就是面向应用的,它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。例如加拿大BC省电话公司要求加拿大SimonFraser大学KDD研究组,根据其拥有十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。这样一来,就把人们对数据的应用,从低层次的末端查询操作,提高到为各级经营决策者提供决策支持。这种需求驱动力,比数据库查询更为强大。同时,这里所说的数据挖掘,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领域的,同时还要能够易于被用户理解,最好能用自然语言表达发现结果。因此数据挖掘的研究成果是很讲求实际的。 技术 Data Mining(数据挖掘)主要任务有数据汇总、概念描述、分类、聚类、相关性分析、偏差分析、建模等。具体技术包括: 统计分析(statistical analysis) ??? 常见的统计方法有回归分析(多元回归、自回归等)、判别分析(贝叶斯分析、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)和探索性分析(主元分析法、相关分析法等)。其处理过程可以分为三个阶段:搜集数据、分析数据和进行推理。 决策树(decision tree) 决策树是一棵树,树的根节点是整个数据集合空间,每个分节点是对一个单一变量的测试,该测试将数据集合空间分割成两个或更多块。每个叶节点是属于单一类别的记录。首先,通过训练集生成决策树,再通过测试集对决策树进行修剪。决策树的功能是预言一个新的记录属于哪一类。 决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。 通过递

文档评论(0)

qspd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档