基于云计算的大数据信息检索技术.docxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于云计算的大数据信息检索技术

基于云计算的大数据信息检索技术   摘 要 伴随着云端数据日益膨胀,想要从大量的数据当中快速寻找想要的?稻菔欠浅@?难的,这也成为了当前亟待解决的重要课题。目前,数据检索技术已经阻碍了云计算进一步的发展。本文系统阐述了云计算的概念以及大数据存储特征,介绍了Web信息收集与检索,并从检索请求分析以及匹配检索请求两个方面研究了检索的过程。   【关键词】云计算 大数据 检索技术   在当前信息技术快速发展的时期,云计算已经成为了政界、学术界、互联网企业等关注的焦点。云计算主要是利用互联网平台,通过大量的计算与存储资源将互联网有机连接在一起,从而形成虚拟IT资源池,根据用户需求提供相应的服务。在IT产业界当中,云计算被看做是网络时代又出现的一个新的产业增长点,具备较高的市场发展前景。云计算理念与当前低碳经济以及绿色计算趋势相吻合,并且具有发展为未来网络神经系统的潜力。云计算已经在信息领域引领了空前的工业革命,带动了传统电信行业、互联网行业乃至社会产业的重要变革。   1 云计算下大数据信息检索技术概述    云计算定义   云计算有着很多种不同的定义,其中被普遍接受的一种是由NIST在XX年提出的,它认为云计算是一类利用网络,利用便捷方式从包括服务器、网络、应用、存储以及服务在内的共享计算机资源池中获得服务的业务形式,云计算业务资源在简洁的交互以及管理过程中得以快速的释放与部署。    大数据存储特征   云计算的产生催生了大数据。大数据主要是指大量的结构化以及半结构化数据。其具备面积大、多样化、价值密度低、快速处理能力等四方面特征。这些特征表明了针对大数据所采取的检索方式不能等同于传统方式。   假如使用传统关系数据库实现数据的保存,那么不仅耗费时间同时也耗费金钱,实现起来比较困难。超过一半以上的大数据属于非结构化数据,他们是通过文件的方式进行储存的。现在,大数据主要存储在集群文件系统当中。该系统的核心在于:一个大数据文件被分成了很多部分。块数据主要储存在块服务器当中,每一个块都会存在相应的元数据,而元数据则保存在主服务器当中。元数据的保存类型包括了文件与块命名空间、每个块数据备份位置、块的映射文件。其中,命名空间的元数据主要被用作维护文件系统命名空间,在命名空间当中就能够查到相应的文件以及目录路径,该路径会对应想要查询的内容。此外,还有一种元数据主要记录文件位置,通过查询相应的信息,就能够获取数据位置偏移量。因为某些文本信息因为是非直接描述的,所以经常出现误用的情况,这也是很多企业比如谷歌非常重视元数据准确描述的原因所在。   2 Web信息收集和检索   信息价值密度与总量呈现出反比的关系,在数以亿计的信息当中,可以满足用户需要的通常只有区区几页。云计算本身的计算能力较强,能够充分使用云数据获取最终的处理结果。如何保证云计算能够从大量的数据当中获得客户想要的信息是现在急切需要解决的重要问题。从信息检索层面看,百度以及谷歌等公司依然处在领先地位。   信息检索过程中会对各个服务器进行分析,并排序数据信息,相似度相对较高的服务器通常会在前列,与此同时,对于服务器当中所存储的数据展开全面的分布式检索,最终检索结果会保存在Index Repository当中,而网页通常保存在有哪些信誉好的足球投注网站引擎当中,用户一旦提出了有哪些信誉好的足球投注网站请求,通常都会在Index Repository当中完成信息检索工作的,并按照PageRank方法对倒序索引展开计算工作,这些内容最终都被放在了索引存储器中。与此同时,页面标题以及所涉及的数据信息会被放在相对应的索引内容下,方便使用广度优先的方法对其展开有哪些信誉好的足球投注网站,相应的,网页的内容则会被置于另一个索引当中,方便使用深度优先的方法展开有哪些信誉好的足球投注网站工作。   尽管用户所查的相关信息都会在有哪些信誉好的足球投注网站引擎缓存区当中存放,但是用户在查询相关信息的时候依然会出现延迟的情况,为了提升有哪些信誉好的足球投注网站的效率,需要构建一个存放关键词的词库,便于使用者展开有哪些信誉好的足球投注网站工作。   3 检索过程   数据的检索首先由用户提出查询请求,并且把关键词提交给检索代理,检索代理将检索的关键词传送到索引存储器当中,将检索的结果按照相关度重新进行排序,然后传送到用户的检索界面,并呈现到用户的面前,从而显著提升检索速度以及能力。    检索请求分析   检索用户在有哪些信誉好的足球投注网站引擎上输入关键字,并且提交检索请求,慢慢的发现与之相匹配的网页内容,有哪些信誉好的足球投注网站引擎会详细分析这次有哪些信誉好的足球投注网站请求,并且对有哪些信誉好的足球投注网站请求展开细致的分析,并作出分词处理。中文分词通常采用基于字符串匹配、理解分词方法以及统计分词方法。    匹配检索请求   当用户提出请求以后,有哪些信誉好的足球投注网站引擎会展开系统分析,匹配出与之符合的URL,其数量较大,只有采用有哪些信誉好的足球投注网站引擎遵循YRL匹配程度对其排序,才可以有序呈现出最终的结果。系统对文档内容全面分析以后所获得的信息、网页当中的PageR

文档评论(0)

manyu + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档