- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于HADOOP字符串JOIN问题研究
唐振坤 2012年7月26日 基于Hadoop的字符串Join问题 Outline 1、问题定义 2、相关背景 3、想法工作 4、实验 5、结论 6、后续思路 2 1.问题定义 给定一组字符串,要判断出哪些字符串是相似的? 应用: Web有哪些信誉好的足球投注网站引擎爬取网页时的重复网页检测 去除重复数据后的文档聚类 文档抄袭、剽窃检测 基于查询相似性的用户推荐 DNA序列分析 …… 3 1.问题定义 4 1.问题定义 字符串相似性Join: 给定一组基于字符串为特征的数据集,找出其中相似的字符串,并Join相似的记录。 类型: 按操作不同:Self-Join、R-S Join 按应用不同:Jaccard Constraints、Ed Constraints 5 2.相关背景 相关算法: All-Pairs PPJoin、PPJoin+、Ed-Join Pass-Join PPJoin based on MapReduce 6 2.相关背景 Pass-Join: Partition-based method[1]: Partition SubstringSelection Verify [1] Li, G. and Deng, D. and Wang, J. and Feng, J. (2011). Pass-Join : A Partition-based Method for Similarity Joins. Proceedings of the VLDB Endowment, 5(3), 253--264. 7 2.相关背景 Pass-Join: Partition-based method 求ed(R=“abcde”,S=“bcfde”)?≦\tau,\tau=2 划分阶段: 子串选择阶段: √ √ ╳ bcfde bcfde bcfde bcfde bcfde 8 2.相关背景 基于Hadoop的Join操作[1]: Reduce-Side Join Map-Side Join Memory-Backed Join [1] Lin, J., Dyer, C. (2010). Data-intensive text processing with MapReduce. Synthesis Lectures on Human Language Technologies (Vol. 3, pp. 1-177). Morgan Claypool Publishers. Key s1 K1 Abc K2 bcd Key s2 K1 123 K1 789 K2 456 Join Key s1 s2 K1 Abc 123 K1 Abc 789 K2 bcd 456 = 9 2.相关背景 Reduce-Side Join Mapper [Key,Value] K1, Abc@ K2, bcd@ K1, 123# K1, 789# K2, 456# Grouper K1, (Abc@,123#,789#) K2, (bcd@,456#) Reducer K1,Abc,123 K1,Abc,789 K2,bcd,456 10 2.相关背景 Memory-Backed Join 在Mapper处理前将小的数据表完全读入内存 读入内存放入Map中 K1 - Abc K2 - bcd Mapper K1,Abc,123 K1,Abc,789 K2,bcd,456 小数据表已经读入内存 11 3.想法 三步连接: 划分片段并生成反向索引列表 子串选择并生成候选对 候选对验证 12 3.想法 生成反向索引列表 13 3.想法 子串选择并生成候选对 14 3.想法 连接字符串并验证(Reduce-Side Join) 15 3.想法 问题: 阶段太多,生成反向索引与子串选择阶段独立,可合并 候选对生成过大,连接时读入不可行 16 3.想法 划分片段与子串选择 字符串连接验证 17 3.想法 划分片段与子串选择 18 3.想法 字符串连接验证(Memory-Backed Join) 19 3.想法 在Map端划分片段与子串选择 在Reduce端连接并验证 20 4.实验 21 5.结论 1、MapReduce适合于批量处理,不适合多遍迭代的复杂算法 2、产生中间输出影响MapReduce性能 3、多利用Hadoop内置的Combiner及排序优化算法性能 4、MapReduce处理分区不合理会遭遇数据倾斜问题 22 6.后续思路 1、先用前缀过滤将所有字符串分组,在每台机器上再调用串行PassJoin算法 2、深入Mapreduce Join算法,再仔细地看下map-side join的效率及实现如何 3、考虑如何均匀分配发送至Reducer上的候选对,使得运行时
有哪些信誉好的足球投注网站
文档评论(0)