面向大数据处理的并行计算模型及性能优化-计算机软件与理论专业论文.docxVIP

下载本文档

10
0
约13.48万字
约 158页
2019-01-15 发布于上海
举报
版权申诉

面向大数据处理的并行计算模型及性能优化-计算机软件与理论专业论文.docx

1、本文档共158页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向大数据处理的并行计算模型及性能优化-计算机软件与理论专业论文

优秀毕业论文精品参考文献资料研究生优秀毕业论文中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文，是本人在导师指导下进行研究工作所取得的成中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文，是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外，论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均己在论文中作了明确的说明。作者签名：噩趱签字日期：塑匝!蔓!塑中国科学技术大学学位论文授权使用声明作为申请学位的条件之一，学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权，即：学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅，可以将学位论文编入《中国学位论文全文数据库》等有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。必威体育官网网址的学位论文在解密后也遵守此规定。口公开口必威体育官网网址——年作者签名：坠基导师签名：签字日期：蛰痤!墨酉签字日期：塑匹!曼丑万方数据摘要摘摘要摘要随着大数据时代的来临，从并行机体系结构、计算资源扩展能力到工业界应用模式都在发生显著变化。上述变化为并行计算提供新的发展机遇，同时也带来巨大的研究挑战。其中架构在硬件和软件之间的并行计算模型是推动大数据发展的核心技术之一。目前工业界已经研究和开发多种大数据编程模型，并广泛应用在TB级甚至PB级的数据处理与分析上，而学术界正在尝试和探索更抽象的大数据计算模型，来反映当前并行机的属性，揭示大数据任务中计算、通信和访存行为的本质特征，对各种主流大数据处理系统进行统一的理论分析，从而指导大数据应用调优。本文从传统并行计算模型、大数据编程模型和大数据计算模型的相关研究中，总结出大数据计算模型在理论上需要解决的三个基本问题：模型的三要素 (机器参数、执行行为、成本函数)问题、扩展性与容错性问题和性能优化问题。本文围绕着这三个问题，一方面从理论上研究大数据计算模型及其性能优化方法，另一方面在实际的大数据案例中应用这些性能优化方法。具体而言，本文的主要研究内容、贡献和创新点可概况为以下几点： 1．抽象出一个大数据计算模型：提出了一个面向大数据处理的并行计算模型p-DOT。p-DOT模型分为P阶段，每个阶段都由数据层D、计算层O和通信层T共同组成，采用矩阵的形式化描述；选取输入数据规模W和机器数n作为主要的两个参数，依照模型所定义的计算、通信和I／O行为共同构造出时间成本函数，并以此推导出对一个给定的大数据任务和给定的环境负载，任务最短运行时间所需的机器数n8和输入数据规模的开方何成正比。同时，p-DOT 模型具有扩展性和容错性，对于一个软件框架，如果其任何一个任务均可用 p-DOT模型表示，那么该框架的处理范式是可扩展和可容错的。 2．证明模型的成本函数、扩展性和容错性：对于时间成本函数，通过对机器内存大小、机器数和任务执行时问的限制，使构造出的函数更接近于实际，并通过大规模的MPI和MapReduce实验证明该函数及其推论的正确性；对于扩展性，采用传统并行计算性能评测标准中的等效率函数，证明了基于p-DOT模型的处理范式是可扩展的，但不是强可扩展的；对于容错性，在输入数据D都存放在永久性存储设备的前提条件下，证明了基于p-DOT模型的处理范式是可容错的。 3．设计基于模型的优化方法并应用：针对P．DOT模型的数据层D、计算层 O和通信层T，分别设计了利用数据复本、利用多核技术和利用部分同步策略的性能优化方法。一方面，从理论上证明了1)利用数据复本不仅是大数据任务容错性的必要条件，也能有效地提高任务的I／O访存性能；2)利用多核技术能在不增大通信开销的同时，有效地提高任务的计算性能；3)在任务的收敛条件 T 万方数据摘要与原始的不超过阈值摘要与原始的不超过阈值e时，利用部分同步策略能有效地提高任务的通信性能。另一方面，选择了三个实际的大数据案例1)地震前兆台网系统中对关系型地震大数据的查询服务、2)人脸识别系统中利用SVM线性分类器的训练问题、3) 深度学习系统中利用卷积神经网络的训练问题，在案例中应用基于模型的优化方法来提升性能，并通过实验证明优化后的加速性能。关键词：大数据计算模型，性能优化，数据复本，多核技术，部分同步，地震前兆台网，人脸识别，深度学习 II 万方数据 ABSTRACTABSTRACT ABSTRACT ABSTRACT Entering the era of big data，the parallel machine architectures，sca