- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据时代图书馆服务浅析
大数据时代图书馆服务浅析 摘 要:大数据与云计算是近两年IT界最为流行的两个关键词,各大IT厂商也都看到了大数据所蕴含的商业价值并展开了一定的产品研发与商业应用。在大数据时代,图书馆的数据处理及服务将会发生显著的变化,从大量的数据集中去分析和挖掘潜在的价值,以便图书馆决策层及时做出相应的建设方案调整将成为图书馆的一大主要业务,图书馆服务也将随着图书馆服务策略的调整而做出服务方式、途径等方面的改变。 关键词:大数据 云计算 数据处理 数据分析 信息服务 图书馆服务 数据挖掘 中图分类号:G253 文献标识码: A 文章编号: 1003-6938(2012)04-0120-03“大数据”(Big data)是IT界继“Web2.0”、“数据挖掘”和“云计算”之后近两年最流行的词,大数据革命也正以Apache Hadoop为中心如火如荼的进行着,IBM、EMC、Oracle、VMware和Microsoft等商业机构已看到了在这场革命中蕴含的商业价值,并基于云计算等平台开发了诸如BigInsights产品[1]的数据计算、数据收集等服务。实际应用方面,EMC和VMware已经做出了表率,EMC中国区总裁蔡汉辉介绍说,中信银行在实施了EMC提供的大数据解决方案以后,取得了不错的效益,如中信银行在2011年大概有1200多个营销活动,以前他们举办一个营销活动大概需要两周左右的时间做配置。但是通过运用EMC提供的大数据解决方案后,只需要2~3天就可以配置成功[2]。美国政府也预测到了这场革命中的战略价值,奥巴马政府于2012年3月29日宣布推出“大数据的研究和发展计划”,意在推进和改善联邦政府部门的数据收集、组织和分析工具及技术,以提高从大量的、复杂的数据集合中获取知识和洞见的能力[3],把大数据上升到了国家战略的高度。但对于社会中以知识存贮、利用与开发为己任的图书馆来说,在这个“大数据”时代如何提高海量增长的文献数据处理能力,搜寻新的数据计算、知识发现及信息服务的新途径,是图书馆界学术研究的一大思考所在,而要真正解决这个问题,就要理性的认识“大数据”及其带给我们的环境与改变,逐层分析这些图书馆可以利用的理念、技术与工具,实现图书馆读者信息服务能力的提升,进而推???我国图书馆事业的发展。 1 大数据概述 大数据目前尚没有统一的定义,部分业界专家如《著云台》的分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多的时间和金钱[4]。因此,大数据通常被认为是一种数据量很大、数据形式多样化的非结构化数据[5]。 1.1 大数据的特点 随着对大数据研究的进一步深化,IT界对大数据的特点有了较为全面和统一的认识,即:(1)大数据的种类繁多,并在编码方式、数据格式、应用特征等多个方面存在差异性,多信息源并发形成了大量的异构数据;(2)通过各种设备产生的海量数据,其数据规模极为庞大,远大于目前互联网上的信息流量,PB级别将是常态;(3)涉及到感知、传输、决策、控制开放式循环的大数据,对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值;(4)数据持续到达,且只有在特定时间和空间中才有意义;(5)通过数据库处理持久存储的数据不再适用于大数据处理,需要有新的方法来满足异构数据统一接入和实时数据处理的需求[5]。 1.2 大数据的应用领域与范围 尽管大数据的概念形成较早,但对其技术的研发还是近几年才发展起来的,从目前来看,大数据技术主要涵盖的领域有可视化分析、数据挖掘算法、预测性分析能力、语义引擎、数据质量和数据管理等,具体来说,目前主要有包括分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等。技术及应用的不普及与不成形使得大数据的技术门槛较高,因此目前在该领域展开竞争的大都是在数据存储、分析等领域有着传统优势的IT厂商。如Oracle发布了Oracle大数据机、VMware推出了虚拟化架构+云平台的开源项目Serenget、EMC推出了EMC Hadoop等。IBM在大数据领域的优势则较为全面,而机器人“沃森”在人机大战中获胜,更成为IBM为其大数据分析解决方案加分的例证,此外,IBM还研发出了一系列大数据分析计算软件,如基于云端Hadoop的分析软件InfoSphere BigInsights、针对iPad用户推出的全新移动分析应用软件Cognos Mobile、拥有映射功能的全新预测分析软件SPSS Statistics 20.0、全新的后台数据筛选及维护软件InfoSphere Information Server8.7等[6]。对其核心技术如Hadoop的应用也主要是在
文档评论(0)