- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《数据库理论与技术》课程论文
——关于云数据管理索引数据的研究
论文题目:云数据索引技术研究
学生姓名:
学生学号:
学生班级:
摘 要
随着“大数据”时代的到来,互联网数据规模的急剧扩张给信息获取带来巨大的挑战,主要表现为支持全文信息检索索引面临存储和可扩展性等方面的压力。而云计算或者说云存储技术的出现和发展为大规模数据索引的构建和存储提供了一种新的解决方案。然而现有的云数据管理系统也存在不足之处,其只能支持基于主键的快速查询,因缺乏索引、视图等机制,所以不能提供高效的多维查询、join等操作,这限制了云计算在很多方面的应用。本文主要对云数据管理的索引技术的相关工作进行了深入调研,并作了对比分析,指出了其各自的优点及不足;最后指出了在云计算环境下针对大数据索引技术的若干挑战性问题。
绪论
研究背景和意义
随着互联网的快速发展,我们已经进入“大数据”时代,在这个背景下,数据呈现出规模大、多样性、以及速率快的特性。到2011年底,互联网的数据信息已经达到1.8ZB,在最近十年内增长了近44倍[1]。而其中半结构化和非结构化数据(如社交网络中的日志,博客等)每年以80%的速率增长,这些都对传统的数据管理系统带来巨大的挑战[2]。
自2004年以来,Google公司先后提出了Google File System[3]、BigTable[4]和MapReduce[5]等技术,随着这三大关键性技术的提出,云计算作为一种新的海量数据存储、管理、分析模式应运而生,并得到业界众多大公司的广泛应用和深入研究,云计算已经成了海量数据处理的一个标准解决方案。同时也产生了很多优秀的分布式数据存储和管理系统,如雅虎的PUNUS[6]、Amazon的Dynamo[7]、开源的HBase等。基于Key-Value存储的云数据管理技术具有高可扩展性、高可用性和容错性等特点,能够实现对海量数据的高效存储和处理。
面对海量和迅速更新的互联网数据,尤其是半结构化和非结构化数据,如何快速有效的获得用户感兴趣的信息变得越来越重要,许多互联网公司和研究机构都在尝试降低信息查找难度和提高查询质量,这一类研究统称为信息检索(Information Retrieval)。简单来讲,信息检索就是获得数据并将数据中的信息重新组织,存储,查询返回结果给用户的过程。其工作流程仍可以大致的分为三个阶段:信息的自动获取(爬取),信息的组织与存储(索引)和信息的查询(检索)。本文主要对云数据管理的索引技术的相关工作进行了深入调研,并作了对比分析,指出了其各自的优点及不足;对我们在云计算环境下针对海量物联网数据的多维索引技术研究工作进行了简单介绍,最后指出了在云计算环境下针对大数据索引技术的若干挑战性问题。
本文主要内容如下:第二节主要对学术界关于云数据管理中的索引技术进行了归纳总结,并根据其采用的索引方案不同进行了分类;第三节主要对工业界及不同类型应用中的索引技术进行了分析,包括NoSQL数据库中的索引技术、海量数据处理中的索引技术、不同应用领域中的索引技术等,其中对轨迹数据、空间数据和图数据中的索引技术进行了详细分析;第四节主要是对我们在云计算环境下针对海量物联网数据的多维索引技术的研究工作进行了介绍;第五节指出了云计算环境下针对大数据的索引技术中存在的若干挑战性问题;最后对本文进行了总结。
国内外研究现状与技术发展趋势
Google一直引领信息检索技术的潮流,不管是“三驾马车”(GFS[3],BigTable[4],MapReduce[5])组成的云计算平台还是PageRank网页链接分析技术都引起了很多关注。Google Caffeine是Google内部必威体育精装版使用的一种索引模式,它只更新在互联网上所发现的新网页到现有的索引中,并且可以实时的将必威体育精装版结果呈现给用户。文献[8]指出全球最大的社交网络FaceBook使用HBase完成存储每月超过1350亿条信息的FaceBook Message,并在HBase上为其构建索引,文章详细分析了HBase在处理海量数据时所具有的优势。FaceBook的LiN最早在2009 年发布了HIndex系统,该系统利用HBase作为存储层构建分布式倒排索引,以解决分布式索引构建过程中需要面临的容错、可扩展性以及负载均衡等问题[9]。
在实际应用中,除了对rowkey的查询之外,还有很多针对非rowkey的多维查询需求。如在基于位置的服务中,我们经常需要针对某个对象的经度、纬度、时间等属性进行多维查询;在图片共享服务中,我们可以对图片的拍摄时间、拍摄地点、图片主题等属性进行查询;在电子商务网站中,商品的数量往往达到数十亿、甚至上百亿,并且每件商品都有几十个甚至上百个属性,如名称、类别、价格、上架时间等。用户往往需要从多个不同的角度对商品进行查询,
文档评论(0)