浅析开源软件在数字图书馆数据挖掘应用.pdfVIP

浅析开源软件在数字图书馆数据挖掘应用.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅析开源软件在数字图书馆数 据挖掘中的应用 4 口乔 鸿/山东师范大学管理学院济南25001 口余锦风/北京大学信息管理系北京100871 摘要:数字图书馆新阶段的发展目标是以用户为中心的知识型服务,新型服务模式的基础是对用户需求, 用户行为等信息的准确了解和把握。数据挖掘可以在用户知识发现方面大有作为。然而,当前数字图书馆系 统的商业化软件架构给数据挖掘工作造成T很多障碍,特别是数据收集、数据整理等步骤,都由于商业软件 的闭源一眭质使得很多深层次的数据分析、数据挖掘工作难以顺利开展。本文探讨了开源软件在数据挖掘中的 应用优势以及可能的应用方向。 关键诃:开源软件 数字图书馆 数据挖掘 1 当前数字图书馆数据挖掘存在的 源利用情况的研究.一般的数字图书馆在这方面的 问题 工作鲜有进行。 以与信息服务质量密切相关的用户数据为例. 随着数字图书馆的发展.“以用户为中心”的战 有研究者在2005年4月针对不同类型图书馆进行的 略思想越来越得到认同.因此,这方面的实践工作 抽样调查结果显示,大多数馆在这方面的工作近乎 也在逐渐增加,与传统图书馆的服务方式相比较, 空白Ⅲ。究其原因。除了.挖掘目标和专业技术人员的 数字图书馆需要更加关注网络用户、虚拟用户的信 缺乏.一个很大的障碍就是数据收集.整理问题。 息需求。而以用户为中心进行资源建设.提供信息 服务的基础,则建立在对用户行为和用户需求的了 2问题及根源 解上。现代信息技术,数据库技术的进步为此提供 了良好的软硬件和技术基础,特别是数据挖掘技 我们知道.数据挖掘的基础是数据仓库和数据 术.已经成为数字图书馆拓展服务深度和广度.提 集市.如果没有与所关心主题有关的高质量的数据 供有效的知识型服务的关键措施之一。例如,南加 或信息.缺乏良好的数据基础.挖掘工作就会遇到 利福尼亚大学(Univ日sity酣ScuthernCalifornia,USC)麻烦,产生较大的误差甚至挖掘出错误的结论或逻 of Li- 于2004年9月启动的的”Data Oigital Mining 辑关系。 Data” bra。yusage 项目, 致力于数字图书馆使用数 数据收集,整理的困难主要表现为:【1)由于 据的挖掘,以建立有意义的数据关系,该课题目前 本地缓存.代理服务器和防火墙的存在,使得Web 仍在进行中…。 日志中的数据并不准确,并不能真实地反映用户的浏 但由于种种原因.当前我国数字图书馆领域的 览行为,用户浏览行为的异步并发模式也往往无法 数据挖掘实践并不乐观.相关研究几乎都停留在理 正确反映”I但)数据项少,不够充分全面.挖掘不 论和倡导阶段,除了几个大型馆有相关的课题做支 出有价值的信息;(3)数据的导八导出,数据清洗, 撑.做了一些工作.如清华大学图书馆针对电子资 数据集成以及格式转换工作比较困难。另外,很多 加i2006年增刊 时候由于缺乏战略指导.收集、保存的数据量少.构 在应用中受到欢迎。 不成一个有效的数据仓库。 目前已经有很多企业向业界提供”整体开源软 例如,在We

文档评论(0)

ygeorcgdw + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档