基于SASEM图书借阅数据关联规则数据挖掘.docVIP

基于SASEM图书借阅数据关联规则数据挖掘.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于SASEM图书借阅数据关联规则数据挖掘

基于SASEM图书借阅数据关联规则数据挖掘   [摘要] 通过SAS/EM数据挖掘工具对高校图书馆积累大量的读者图书借阅数据进行关联规则挖掘,发现图书借阅数据间的关联关系,并将这些隐藏在数据背后的重要信息形成知识。以此指导以下两方面的工作:①图书借阅工作,为读者提供个性化服务,提高图书资源的利用率;②图书采购工作,加强图书采购的目的性,优化图书资源结构。   [关键词] 关联规则 图书借阅数据 SAS/EM 数据挖掘      随着数据库技术的迅速发展以及数据库管理系统在图书馆的广泛应用,图书馆积累了大量的读者图书借阅历史数据。这些数据背后隐藏着许多重要的信息,但是图书馆的图书管理系统无法发现这些数据中存在的关系和规则,无法预测读者的信息需求,缺乏挖掘数据背后隐藏知识的手段,很难帮助读者找到所需要的信息资源。本文通过SAS/EM(SAS enterprise miner)数据挖掘工具对图书借阅数据进行相关的关联数据挖掘,发现读者的图书借阅数据间的关联关系,并将这些隐藏在数据背后的重要信息形成知识,以指导图书馆的借阅和采购工作。      1 SAS/EM数据挖掘工具      美国SAS研究所于1976年推出的大型国际统计分析系统SAS(statisticalanalysissystem)是一个用来整理数据、对数据进行统计分析和打印报告的大型组合式软件包。1985年SAS研究所推出微机版,此后该软件一直在不断更新版本,本次数据挖掘采用SAS 9.1.3版本。   SAS对数据进行关联规则分析是通过SAS/EM模块中的Association节点实现的。SAS/EM是一个界面图形化、由菜单驱动的、对用户非常友好且功能强大的SAS数据挖掘集成软件。   SAS/EM采用Apriori算法,利用k项集来探索k+1项集,再根据按照目标数据的性质、特点而设定的最小支持度(min_sup)和最小可信度(min_conf)产生规则。所以,利用SAS/EM进行关联规则分析的关键就是确定三个参数,即产生规则的项集最大数目(items)、最小支持度和最小可信度[1]。   在SAS/EM关联规则分析结果中包含满足要求的所有规则(rules)以及每条规则的支持度(support(%))、可信度(confidence(%))、作用度(lift,可信度与期望可信度的比值)等一些信息。在分析结果中,每条规则的支持度表示同时满足规则前件和规则后件的例数占总例数的比例,每条规则的可信度表示在所有满足规则前件的例数中满足规则后件所占的比例。   利用SAS/EM模块中的Association 节点对图书借阅数据进行相关的关联数据挖掘,希望通过SAS数据挖掘模式来发现、认识图书借阅数据间的相关性,提高图书资源的利用率,为读者提供一定的个性化服务。      2 SAS/EM图书借阅数据关联规则数据挖掘过程      2.1 图书借阅数据的获取及数据预处理   数据挖掘的实现是以大容量数据库为前提的。因此数据的可靠性、完整性、有效性就显得至关重要,这是数据挖掘成功的最基本保障[2]。数据准备是否做好也将影响到数据挖掘的效率、准确度以及最终模式的有效性[3]。这些数据一般存储在数据库系统中,是长期积累的结果,往往不适合直接在这些数据上面进行知识挖掘,需要做数据准备工作。数据准备一般包括数据的选择、净化、推测、转换(离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等)、数据缩减(减少数据量),减少数据冗余、噪声等因素对数据挖掘项目的影响。数据预处理是提高挖掘效率的重要步骤之一,大约占到整个数据挖掘过程的60%―80%时间[4]。   2.1.1 图书借阅数据的获取 进行图书借阅数据关联规则数据挖掘所使用的数据来自湖南师范大学图书馆图书管理系统ILASII系统数据库,取2006年10月至2007年10月共12个月的湖南师范大学商学院2006级研究生的借阅数据共2 112条。笔者将从图书管理系统中导出的数据以文本方式保存后导入到SQL Server 2000中,通过SQL查询语句进行数据转换、合并、筛选,去除图书馆业务数据中与数据挖掘不相关的冗余项,保存与数据挖掘相关的如操作日期、读者证号、索取号、文献条码号等重要属性,如表1所示。   2.1.2 图书借阅数据预处理对于图书借阅数据挖掘来说,读者借阅历史基本数据中只有读者证号、索取号数据对图书借阅数据挖掘有用,因此在对所获得的数据进行关联规则挖掘之前,需要利用SQL语言对读者证号、索书号数据进行预处理。   将SQL Server 提取的数据以文本方式保存并取名为JYZHSQH52,然后导入Excel表以JYZHSQH52.xsl保存到读者借阅数据预处理

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档