- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分布式平台下基于开销估算的多数据集连接方法-计算机软件与理论专业论文
独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 必威体育官网网址□ ,在 年解密后适用本授权书。 本论文属于 不必威体育官网网址? (请在以上方框内打“√”) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日 华中科技大学硕士学位论文 华 中 科 技 大 学 硕 士 学 位 论 文 I I 摘要 分布式计算的发展为大数据的分析和处理提供了一个新的平台。MapReduce 是一种能够在分布式系统中实现大规模数据并行运算的分布式计算框架。但是 MapReduce 自身的不足限制了它处理多数据集连接的能力。如何改进现有的利用 MapReduce 处理多数据集连接的方法,提高 MapReduce 处理数据集连接的效率, 对于提高数据的查询、分析效率,更好地支持大数据的分析处理具有重要的意义。 分析 MapReduce 计算框架中 Map 阶段和 Reduce 阶段的数据处理过程,在现 有连接开销模型的基础上,细化 Map 阶段和 Reduce 阶段中的数据排序、压缩等 过程,加入 map 函数和 reduce 函数部分的计算开销。给出利用概率分布函数估算 连接结果数据量的方法,使模型能更好地服务于连接计划的规划。 以开销估算模型为基础,设计一个结合贪心和动态规划策略的多数据集连接 方法。首先利用预等值连接减少参与非等值连接的数据集的数据量,降低后续处 理非等值连接所需的开销;其次,利用 ThetaJoin 分步连接和二路 ThetaJoin 连接 组处理所有非等值连接;最后,利用贪心和动态规划将等值连接分解成多个子模 块,并为每个子模块选择合适的连接方案。这种启发式的连接方法利用开销模型 分析现有连接方法在处理不同连接场景时的优劣,将任务进行分解,为每个子任 务选择合适的连接方法,实现以减少局部连接的开销来提高整个连接任务效率的 目的。 设计不同的连接场景,在搭建的 Hadoop 并行计算平台上对多种不同的连接 方法进行实验。实验结果表明,设计的连接方法比其余的连接方法更能适应不同 的连接场景,具有更高的效率,更好的有效性。 关键词:分布式,连接计划,开销模型,贪心,动态规划 II II Abstract Distributed computing provides a new platform for big data analysis and processing. MapReduce is an important programming model, it is often used for processing large datasets in a parallel or distributed computing environment. However, because of some disadvantages of this programming model, it is inefficient to perform join operations in MapReduce when mulitiple datasets are involved. How to improve the existing methods which use MapReduce to process multiple datasets joins, has significance to improve the efficiency of data query and analysis. Considering the time cost of join processing, sorting and compression in a MapReduce job, a time cost evaluation model is extended for calculating the time cost of a MapReduce job. And in order to make the model more useful, how to
您可能关注的文档
- 公路路面平整度检测关键技术研究-仪器科学与技术专业论文.docx
- 公路车辆-桥梁系统耦合振动性能研究-结构工程专业论文.docx
- 公路车辆安全行驶速度研究-交通运输工程;交通运输规划与管理专业论文.docx
- 公路车速限制方法与管理控制技术分析-交通运输工程专业论文.docx
- 公路车速限制方法与管理控制技术研究-交通运输工程专业论文.docx
- 公路边坡石笼挡土墙支护技术数值模拟研究-建筑与土木工程专业论文.docx
- 公路边坡地震灾害预防技术研究-岩土工程专业论文.docx
- 公路软岩隧道小型拱形塌方腔体稳定性及处治措施研究-岩土工程专业论文.docx
- 公路边坡抗震稳定性的敏感性因素分析-岩土工程专业论文.docx
- 公路过湿粘土施工性能改善及施工技术研究-交通运输工程专业论文.docx
- 《GB/T 29025.1-2025粒度分析 电阻法 第1部分:小孔管法》.pdf
- 《GB/T 37034.2-2025航空电子过程管理 防伪 第2部分:来源于非授权经销商电子元器件的管理》.pdf
- 中国国家标准 GB/T 37034.2-2025航空电子过程管理 防伪 第2部分:来源于非授权经销商电子元器件的管理.pdf
- GB/T 6113.102-2025无线电骚扰和抗扰度测量设备和测量方法规范 第1-2部分:无线电骚扰和抗扰度测量设备 传导骚扰测量的耦合装置.pdf
- GB/T 13609-2025天然气 气体取样.pdf
- 中国国家标准 GB/T 13609-2025天然气 气体取样.pdf
- 《GB/T 13609-2025天然气 气体取样》.pdf
- GB/T 19629-2025医用电气设备 X射线诊断影像中使用的电离室和(或)半导体探测器剂量计.pdf
- 《GB/T 19629-2025医用电气设备 X射线诊断影像中使用的电离室和(或)半导体探测器剂量计》.pdf
- 中国国家标准 GB/T 19629-2025医用电气设备 X射线诊断影像中使用的电离室和(或)半导体探测器剂量计.pdf
最近下载
- 公共危机管理概论完整版ppt整本书教学教程最全电子教案(必威体育精装版.pptx VIP
- 溃疡性结肠炎中医诊疗专家共识(2023).pptx VIP
- 小学课后延时服务建立良好的学习习惯.pptx VIP
- 2025年证券公司高级管理人员水平评价测试历年参考题库含答案详解(5套).docx VIP
- 2025年证券公司高级管理人员水平评价测试历年参考题库含答案详解.docx VIP
- 马克思主义哲学名著导读 第一编 马克思恩格斯的哲学名著.ppt VIP
- 大学生职业生涯规划人物访谈范例和报告.pdf VIP
- 项目全过程工程造价咨询招标文件模板.docx VIP
- 药剂学(本)形考任务1-3参考答案.docx VIP
- 2026北京中考英语听说考试应试技巧 课件.pdf
有哪些信誉好的足球投注网站
文档评论(0)