11第11章--数据挖掘简介.docxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

PAGE291

第11章数据挖掘简介MACROBUTTONMTEditEquationSection2SEQMTEqn\r\hSEQMTSec\hMACROBUTTONMTEditEquationSection2SEQMTEqn\r\hSEQMTSec\hMACROBUTTONMTEditEquationSection2SEQMTEqn\r\hSEQMTSec\hMACROBUTTONMTEditEquationSection2SEQMTEqn\r\hSEQMTSec\hMACROBUTTONMTEditEquationSection2SEQMTEqn\r\hSEQMTSec\hMACROBUTTONMTEditEquationSection2SEQMTEqn\r\hSEQMTSec\hMACROBUTTONMTEditEquationSection2SEQMTEqn\r\hSEQMTSec\hMACROBUTTONMTEditEquationSection2SEQMTEqn\r\hSEQMTSec\hMACROBUTTONMTEditEquationSection2SEQMTEqn\r\hSEQMTSec\hMACROBUTTONMTEditEquationSection2SEQMTEqn\r\hSEQMTSec\hMACROBUTTONMTEditEquationSection2SEQMTEqn\r\hSEQMTSec\h

数据挖掘是一个多学科交叉领域,涉及数据库技术、机器学习、统计学、神经网络、模式识别、知识库信息提取、高性能计算等诸多领域,并在工业、商务、财经、通讯、医疗卫生、生物工程、科学研究等众多行业得到广泛应用。本章在介绍数据挖掘一般概念的基础上,简要介绍统计学习中的Logistic回归。

11.1数据挖掘的一般概念

现代计算机、通信和网络计算正在改变着整个人类生活方式以及社会生产经营和管理方式,其中大量的信息在给人们的生活、工作带来方便的同时也带来许多问题。例如,信息过量,难以消化;信息真假难以辨识;信息安全难以保证;信息方式不一致,难以统一处理;信息的有效提取变得更困难,需要的时间成倍增加;信息之间的关联及因果更加难以把握等等。人们开始考虑如何才能不被信息淹没,能及时从中发现有用的信息,提高信息利用率。数据挖掘(datamining)正是在这样的背景下产生的。具体地讲,由于超大数据库的出现(比如商业数据仓库和计算机自动收集的数据记录)、先进的计算技术、对海量数据的快速访问以及较难的统计方法运用于分析计算等等因素,激发了数据挖掘的开发、应用和研究的发展。

11.1.1数据挖掘的概念及知识分类

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提出隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是一类深层次的数据分析方法。数据分析本身已经有很长历史,只不过过去数据收集和分析的主要目的是用于科学研究,加之由于以前计算机技术的局限,对大数据量处理进行的复杂数据分析方法受到很大限制。现在各行各业均实现业务自动化,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯商业运作而产生的;分析这些数据不再是单纯为了研究的需要,更重要的是为商业决策提供真正有价值的信息,进而提高管理水平、生产效率和利润等等。但所有企业面临的一个共同的问题是:企业数据量非常大,而其中真正对自己有价值的信息却很少,因此,从大量的数据中经过深层次分析获得有利于商业运作、提高竞争力的信息很有必要。

数据挖掘发现的知识最常见的可分为以下四类:

(1)广义知识

广义知识(generalization)指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物的共同性质,是对数据的概况、提炼和抽象。

(2)关联知识

它是反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性进行预测。最为著名的关联规则发现方法是Agrawal提出的Apriori算法。关联规则的发现可分为两步,第一步是迭代识别所有的频繁项目集,要求频繁项目的支持率不低于用户设定的最低值;第二步是从频繁项目集中构造可信度不低于用户设定值的规则。识别和发现所有频繁项目集是关于关联规则发现算法的核

文档评论(0)

180****1080 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档