- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
知识发现及其在数字图书馆的应用.doc
知识发现及其在数字图书馆的应用
[论文关键词]知识发现 实现技术 图书馆
[论文摘要]本文在对知识发现的定义、功能、基本过程及其主要的技术实现方法进行简要概念的同时,重点阐述了知识发现技术在数字图书馆网站建设、馆藏资源建设、书库的科学管理、提高用户满意度及为用户提供个性化服务等几方面的应用
随着数据库技术的迅速发展和数据库管理系统的广泛应用,即数字化信息时代的到来,人们对客观世界的认识愈来愈全面,相应地,积累的数据也越来越多。快速增长的海量数据存放在大型和大挝数据库中。在这些浩如烟海的数据中隐藏着许多有用的信息。目前的数据库系统虽然高效地实现了对这些数据的录入、修改、统汁、查询等功能,但简单的数据查询检索机制和统it-学分析方法只能满足某些低层次的需求,而无法发现数据库中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,大量的数据并未得到充分利用,这种现象常常被称为数据丰富但信息贫乏。人们迫切需要高性能的数据分析工具来全面、深入、有效地处理数据,从大量数据资源中挖掘出对数据高度概括和抽象的一般知识,对其进行高层次的分析.以便更好地利用这些数据来帮助自己做出正确的决策,知识发现正是在这样的应用需求环境下产生并迅速发展起来的,它的出现为自己和智能地把少量的数据转换为有用的信息和知汉提供了手段
1知识发现概述
1.1知识发现的定义及特点
知识发现一词是在1989年8月于美国底特律召开的第十一届国际联合人工智能学术会议上正式提出来的。知识发现(I~lowledgeDiscoveryinDatabase,简称KDD)的定义有几种版本,目前被广泛认可的是由Fayyad提出的:知识发现是指识别出存在于数据库中有效的、新颖的、具有潜在效用的并最终可被人理解的模式的特定过程。它是一种高级的处理过程,与传统的信息检索相比,知识发现所得到的信息具有先前未知的、有效的和可实用三个特征。
1.2知识发现的功能
知识发现不仅是面向特定数据库的简单检索、查询、调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。通过知识发现,有价值的知识、规划或高层次的信息就能从数据库的相关数据集合中抽取出来,并从不同角度显示,从而使大型数据库作为一个丰富可靠的资源为知识归纳服务,一个KDD系统应该能够同时有哪些信誉好的足球投注网站、发现多种模式的知识,以满足用户的期望和实际需要,且能够挖掘出多种层次的模式水平,还应允许用户指导、挖掘、有哪些信誉好的足球投注网站有价值的模式信息。可具体描述为以下几方面:
1.2.1概念描述
就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。
1.2.2关联分析
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析的目的是找出数据库中隐藏的关联网,形成带有可信度的规则。
1.2.3自动预测趋势与行为
就是对大型数据库进行扫描,找寻潜在的预测信息,辨认出那些隐藏的模式,以便能够分类识别未知数据的归属或类型,即将未知事例映射到某种离散类型之一。
1.2.4聚类分析
主要是根据事物的特征对其进行聚类或分类,即所谓物以类聚,以期从中发现规律和典型模式。
1.2.5偏差检测
数据库中常有一些带有偏差的异常记录,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法就是通过对以上异常记录的分析,对差异和极端特例进行描述。
1.3知识发现的基本过程
知识发现的整个过程包括在指定的数据库中用数据采掘算法提取模型,以及围绕数据采掘进行的预处理和结果表达等一系列的计算步骤。具体分为以下9个步骤:
①用户调查,确定确究目标和用户需求;
②搜集数据,创建目标数据集:选择一个数据集中在变量或者数据样本的子集上,接着进行的数据挖掘就是在此生成的数据集上进行的。数据可以来自于现有事务处理系统,也可以从数据仓库中得到;
③数据清理和预处理:对搜集到的数据进行再加工,除去错误和冗余数据,处理丢失数据,更新数据和时间信息并将其准备成数据采掘工具所需的表达式;
④数据简化和投影:找出能实现数据挖掘目的的有用的特征,通过降低维数和数据转换以减少变量的有效数目,或者寻找变量的等价表示;
⑤根据数据挖掘的目的,确定适当的数据挖掘方法;
⑥根据所要挖掘的模式类型,选择适当的数据挖掘算法;
⑦进行数据挖掘,挖掘出用户感兴趣的模式,并表达成易于理解的形式如分类规则或决策树、回归、聚类等;
⑧评价和解释发现
文档评论(0)