启用边缘设备上混合视觉变压器(ViT)网络的高效硬件加速-计算机科学-深度学习-视觉变换器-硬件加速.pdfVIP

启用边缘设备上混合视觉变压器(ViT)网络的高效硬件加速-计算机科学-深度学习-视觉变换器-硬件加速.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

启用边缘设备上混合视觉变压器(ViT)网络

的高效硬件加速

JorenDumoulin,PouyaHoushmand,VikramJainandMarianVerhelst

MICAS,ESAT,KULeuven

Email:joren.dumoulin@kuleuven.be

摘要—混合视觉变换器结合了传统神经网络(NN)和视觉

变换器(ViT)的元素,以实现轻量级且准确的检测。然而,在

资源受限的边缘设备上有效部署它们仍面临若干挑战。这些混合

模型面临着广泛多样的NN层类型和大型中间数据张量的问题,

本阻碍了高效的硬件加速。为了在边缘执行它们,本文提出了贯穿

硬件调度堆栈的创新:a.)在最低级别,可配置的PE阵列支持

译所有混合ViT层类型;b.)层内时间循环重新排序,使硬件能够

中支持归一化和softmax层,并最小化片上数据传输;c.)进一步

1的调度优化采用跨倒置瓶颈层融合来大幅减少离芯片内存传输。

v该加速器在28nmCMOS中实现,在每秒25.6GMACs时

1

5达到1.39TOPS/W的峰值能效。

6

4I.介绍

1

.EURAL网络模型在计算机视觉方面,在准

7图1.算法的循环表示及其相应的优化以实现网络工作负载的有效硬件执行。

0N确性、规模和复杂性方面经历了显著的进步Parfor表示for循环的并行执行。

5

2[1]–[4]。为了在日益复杂的任务上追求不断提高的准

:

v确率,这些模型中的参数数量可以轻易达到数十亿,使数据流和广泛并行计算特性的定制处理器在CNN推理

i

x得它们在边缘设备上的存储和使用变得不切实际。因中[14]–[24]。然而,迄今为止尚未发表任何关于开发混

r

a此,同时出现了一个平行的发展趋势,重点在于提高模合网络架构的研究,这些网络的硬件加速潜力仍有待

型的能量效率和吞吐量[5]–[7]。这些紧凑型模型需要相发掘。

对较少的参数(5M)和计算(2G),从而实现更快、用于基准测试的目标混合模型是EdgeNext-S[11],

更高效的推理。虽然这些发展最初主要探索的是传统的它代表了一大类边缘混合ViTs,并显示在图2中。该模

卷积神经网络(CNNs)[3],[6],视觉变压器(ViT)[2]型展示了多种类型的层——卷积、矩阵乘法、深度可分

被提出作为高性能应用中CNN的一种有前景的替代方离、逐点、元素级——需要一个可重构的加速架构。

案。尽管原始的ViT模型在边缘执行场景中缩小规模在本工作中,我们介绍了一种用于混合ViT网络

的效果不佳[8],[9],最近一种更高效的ViT模型正在的硬件加速器,在三个不同级别的抽象中进行了创新,

出现。混合型ViTs[8],[10],[11]结合了视觉变换器和总结如图1所示。第II节介绍了可重构的空间映射,以

卷积神经网络的特性,在非常小的模型尺寸下实现了令最大化处理元素之间的数据复用,无论层类型如何。一

人印象深刻的准确性,超越了CNN网络[8]。种提高内存效率的时间循环优化在第III节中提出,而

除了神经网络模型,硬件平台也可以进行优化以第IV节进一步优化了执行计划,以最小化倒瓶颈

在边缘实现高效推理。由于传统的CPU不适用于高效层的外部数据传输。

执行神经网络负载[12],[13],因此开发了利用确定性最后,在第V节中,我们展示并评估了一个可参数

化、可编程的加速器实现。间映射和(表示为)之间交

替。这种替代数据流极大地增强了对深度卷积核的支

II.可重构

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档