海量数据处理十个专题.doc

下载文档 降价啦

4
0
约1.29万字
约 30页
2017-08-18 发布于安徽
举报
版权申诉
保障服务

海量数据处理十个专题.doc

1、本文档共30页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

海量数据处理专题（一）——开篇发表于?2010 年 9 月 24 日大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。本贴从解决这类问题的方法入手，开辟一系列专题来解决海量数据问题。拟包含以下几个方面。Bloom Filter Hash Bit-Map 堆(Heap) 双层桶划分数据库索引倒排索引（Inverted Index）外排序 Trie树 MapReduce 海量数据处理专题（二）——Bloom Filter 发表于?2010 年 9 月 24 日【什么是Bloom Filter】 Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，采用Bloom Filter的数据结构，可以通过极少的错误换取了存储空间的极大节省。?这里有一篇关于Bloom Filter的详细介绍，不太懂的博友可以看看。【适用范围】可以用来实现数据字典，进行数据的判重，或者集合求交集【基本原理及要点】对于原理来说很简单，位数组外加k个独立hash函数。Bloom filter提供两种基本的操作，将元素加入集合和判断某一元素是否属于该集合，一下说明如何操作：将一个元素加入集合：首先将要加入集合的元素用k个hash函数进行hash，得到k个hash index，然后在集合的位数组中将这k个hash index的位置置1，下面用两幅图来描述这个过程。 bloom filter位数组（集合）的初始状态 bloom-filter-插入元素 bloom-filter-判断元素是否属于集合【Bloom Filter的不足】很明显上面这个查找过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字，因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改进就是 counting Bloom filter，用一个counter数组代替位数组，就可以支持删除了。发表于?2010 年 9 月 24 日【什么是Hash】 Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入（又叫做预映射， pre-image），通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。 HASH主要用于信息安全领域中加密算法，它把一些不同长度的信息转化成杂乱的128位的编码,这些编码值叫做HASH值. 也可以说，hash就是找到一种数据内容和数据存放地址之间的映射关系。数组的特点是：寻址容易，插入和删除困难；而链表的特点是：寻址困难，插入和删除容易。那么我们能不能综合两者的特性，做出一种寻址容易，插入删除也容易的数据结构？答案是肯定的，这就是我们要提起的哈希表，哈希表有多种不同的实现方法，我接下来解释的是最常用的一种方法——拉链法，我们可以理解为“链表的数组”，如图：左边很明显是个数组，数组的每个成员包括一个指针，指向一个链表的头，当然这个链表可能为空，也可能元素很多。我们根据元素的一些特征把元素分配到不同的链表中去，也是根据这些特征，找到正确的链表，再从链表中找出这个元素。元素特征转变为数组下标的方法就是散列法。散列法当然不止一种，下面列出三种比较常用的。 1，除法散列法最直观的一种，上图使用的就是这种散列法，公式：index = value % 16学过汇编的都知道，求模数其实是通过一个除法运算得到的，所以叫“除法散列法”。 2，平方散列法求index是非常频繁的操作，而乘法的运算要比除法来得省时（对现在的CPU来说，估计我们感觉不出来），所以我们考虑把除法换成乘法和一个位移操作。公式：index = (value * value) 28如果数值分配比较均匀的话这种方法能得到不错的结果，但我上面画的那个图的各个元素的值算出来的index都是0—