轻量级可重构分布式神经网络系统研究.pdfVIP

轻量级可重构分布式神经网络系统研究.pdf

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

西华大学硕士学位论文

摘要

近年来,深度学习技术在各个领域都得到了广泛的研究和应用。但是随着模型规模

的不断增大,更大模型的运行所需内存和运算速度也成指数级增长,这已经超出了目前

硬件资源的极限,成为了一个尖锐的问题。为解决这个问题,一些研究人员提出了使用

专用电路、硬件并行、数据并行或模型并行等加速方法。然而这些方法只是对现有神经

网络模型的优化,不能从模型结构的角度来解决大模型对硬件资源的需求。

本研究提出了一种使用多子网构建分布式神经网络模型的方法。该分布式神经网络

模型在设计时由多个子网构成,各个子网之间仅具有较少的通信数据量,子网间可以通

过组合与嵌套实现各种网络层次关系。在部署时,不同硬件可以分配不同的子网,子网

所需的存储资源和计算资源可以分散到各个设备上,同时由于各个子网间较少的通信数

据量,最终因通信而造成的性能损失很小。

为了实现分布式神经网络模型的分布式推理、发现网络中的推理设备并分配运算任

务,本研究实现了一个分布式神经网络推理平台。该平台包括推理服务器和推理请求客

户端两部分。客户端可以自动发现网络中的推理服务并按照一定策略自动分配子网。平

台还可以通过底层接口兼容多种推理库,以实现在各种硬件上的移植。

分布式神经网络由于其特殊的子网结构,可能会对神经网络的输出效果产生影响,

因此本研究对子网结构的神经网络在输出精度方面进行了实验。实验使用了参数数量相

似的传统神经网络与使用子网构建的三子网神经网络、五子网神经网络进行了对比。实

验结果显示,子网化神经网络与传统神经网络相比在精度上的差异很小,三子网和五子

网在精度上分别落后传统神经网络约0.0074和0.0075。且在测试集Loss上子网化神经

网络略微优于传统神经网络,三子网和五子网Loss比传统神经网络分别更低0.0178和

0.0075。这证明了在参数量相似的情况下,子网化神经网络可以构建出精度与传统神经

网络相近的模型。

由于分布式神经网络在推理过程中需要在各个设备间传输信息,可能会推理性能造

成影响。所以在分布式神经网络推理平台的基础上,对构建出的传统神经网络,三子网、

五子网神经网络的推理速度和内存卸载效果进行了实验。结果表明调用两台推理服务器

时,均比其中一台设备单独推理的速度更快。并且在实验中性能较弱的设备能够很好地

调用性能较强的设备提供的计算资源,实现了2倍以上的推理速度提升。在分布式推理

的帮助下,三子网和五子网神经网络的推理速度均比传统神经网络快。

综上,本研究提出了一个由多个子网构成神经网络模型的方法,并且实现了配套的

分布式神经网络推理平台,为解决大模型与硬件资源的矛盾提供了一种方法。

关键词:神经网络;分布式;推理平台;并行计算;

I

轻量级可重构分布式神经网络系统研究

Abstract

Inrecentyears,deeplearningtechnologyhasbeenwidelystudiedandappliedinvarious

fields.However,asthemodelsizecontinuestoincrease,therequiredmemoryand

computationalspeedforlargermodelsgrowexponentially,whichhasexceededthelimitof

currenthardwareresourcesandbecomeasharpproblem.Tosolvethisproblem,some

researchershaveproposedaccelerationmethodssuchasusingdedicatedcircuits,hardware

parallelism,dataparallelism,ormodelparalle

您可能关注的文档

文档评论(0)

精品资料 + 关注
实名认证
文档贡献者

温馨提示:本站文档除原创文档外,其余文档均来自于网络转载或网友提供,仅供大家参考学习,版权仍归原作者所有,若有侵权,敬请原作者及时私信给我删除侵权文

1亿VIP精品文档

相关文档