基于自定义算法的 Transformer 注意力层容错机制-计算机科学-基于算法的容错-注意力加速器-线故障检测.pdf

基于自定义算法的 Transformer 注意力层容错机制-计算机科学-基于算法的容错-注意力加速器-线故障检测.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于自定义算法的Transformer注意力层容错

机制

VasileiosTitopoulos,KosmasAlexandridis,GiorgosDimitrakopoulos

IntegratedCircuitsLab,ElectricalandComputerEngineering,DemocritusUniversityofThrace,Xanthi,Greece

摘要—变换器和大型语言模型(LLMs)借助注意力机制彻

底改变了众多AI应用,推动了对专用硬件加速器的需求。这些

加速器面临的一个主要挑战是高效检测由随机硬件故障引起的

错误。传统的基于算法的容错(ABFT)技术验证单独的矩阵乘

法,但在处理完整的注意力机制时表现不佳,特别是由于中间的

softmax归一化操作。本工作提出了Flash-ABFT,这是一种

新颖的方法,在注意力层中计算查询、键和值矩阵的整个三矩阵

乘积的在线校验和,包括softmax操作,并使用单一检查完成。

这种方法通过消除冗余检查显著减少了开销,同时保持了高故障

本检测准确性。实验结果表明,Flash-ABFT仅造成5.3%的硬

译件面积开销和不到1.9%的能量开销,使其成为一种成本效益高

且可靠的注意力加速器错误检测解决方案。

中IndexTerms—基于算法的容错,注意力加速器,在线故

障检测,能源效率。

1图1.仅包含编码器的变压器层。例如,BERT-base[5]由十二个这样的层次

v组成。

6I.介绍

7变换器是一种用于自然语言处理[1],[2]和计算机

6

6视觉任务的深度学习模型[3]。这一进步的关键创新是制。通过利用分块并将在线softmax计算与矩阵操作结

1注意力机制[4],它使模型能够专注于输入数据的相关合,它促进了并行执行并减少了内存流量。这些功能使

7.部分。FlashAttention能够减少执行延迟,并简化长序列的处

0Transformer网络由编码器和解码器块组成[4],主理,同时保持准确性。

5要包含矩阵乘法以及softmax、归一化和GELU操作。除了性能和能效,现代加速器还必须确保可靠

2图1描绘了一个只有编码器的Transformer的一层[5],性[14]。本研究解决了注意力加速器的一个关键架

:

v[6]。输入嵌入首先通过线性变换投影到Query()、构挑战:如何在存在随机硬件故障的情况下验证注意力

iKey()和Value()矩阵。然后,矩阵和矩阵内核的在线正确性,同时将此类检查的成本降至最低。

x

r相乘并进行缩放,以计算每个嵌入的邻居的重要性。结管理随机硬件故障[15],[16]需要专门的硬件模块进行

a果通过softmax运算符传递,输出与矩阵相乘以计故障检测[17]。这些故障应在线检测到,理想情况下在

算注意力矩阵。为了完成自注意力机制,输出被归一化发生后的几个周期内完成,以促进快速恢复。

并加到注意力块的输入上。自注意力块后面是一个前馈基于算法的容错(ABFT)[18]提供了一种有效的

块,该块由两个完全连接层组成,并且这两个层之间有方法来检测矩阵计算中的错误[19],通过比较实际输

一个GELU激活函数。解码器和编码器模块具有类似出校验和与预测值。ABFT也被定制用于特定的计算,

的结构。它们的区别在于解码器包含两个自注意力块后如CNNs[20],[21]、GCNs[22]或Transformer的注意

跟一个前馈块[4]。力层。在后一种情况下,整个注意力计算没有被检查。

处理变压器模型中长序列的需求不断增加,突显了相反,每个涉及查询矩阵、键矩阵和值矩阵的

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档