- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于自定义算法的Transformer注意力层容错
机制
VasileiosTitopoulos,KosmasAlexandridis,GiorgosDimitrakopoulos
IntegratedCircuitsLab,ElectricalandComputerEngineering,DemocritusUniversityofThrace,Xanthi,Greece
摘要—变换器和大型语言模型(LLMs)借助注意力机制彻
底改变了众多AI应用,推动了对专用硬件加速器的需求。这些
加速器面临的一个主要挑战是高效检测由随机硬件故障引起的
错误。传统的基于算法的容错(ABFT)技术验证单独的矩阵乘
法,但在处理完整的注意力机制时表现不佳,特别是由于中间的
softmax归一化操作。本工作提出了Flash-ABFT,这是一种
新颖的方法,在注意力层中计算查询、键和值矩阵的整个三矩阵
乘积的在线校验和,包括softmax操作,并使用单一检查完成。
这种方法通过消除冗余检查显著减少了开销,同时保持了高故障
本检测准确性。实验结果表明,Flash-ABFT仅造成5.3%的硬
译件面积开销和不到1.9%的能量开销,使其成为一种成本效益高
且可靠的注意力加速器错误检测解决方案。
中IndexTerms—基于算法的容错,注意力加速器,在线故
障检测,能源效率。
1图1.仅包含编码器的变压器层。例如,BERT-base[5]由十二个这样的层次
v组成。
6I.介绍
7变换器是一种用于自然语言处理[1],[2]和计算机
6
6视觉任务的深度学习模型[3]。这一进步的关键创新是制。通过利用分块并将在线softmax计算与矩阵操作结
1注意力机制[4],它使模型能够专注于输入数据的相关合,它促进了并行执行并减少了内存流量。这些功能使
7.部分。FlashAttention能够减少执行延迟,并简化长序列的处
0Transformer网络由编码器和解码器块组成[4],主理,同时保持准确性。
5要包含矩阵乘法以及softmax、归一化和GELU操作。除了性能和能效,现代加速器还必须确保可靠
2图1描绘了一个只有编码器的Transformer的一层[5],性[14]。本研究解决了注意力加速器的一个关键架
:
v[6]。输入嵌入首先通过线性变换投影到Query()、构挑战:如何在存在随机硬件故障的情况下验证注意力
iKey()和Value()矩阵。然后,矩阵和矩阵内核的在线正确性,同时将此类检查的成本降至最低。
x
r相乘并进行缩放,以计算每个嵌入的邻居的重要性。结管理随机硬件故障[15],[16]需要专门的硬件模块进行
a果通过softmax运算符传递,输出与矩阵相乘以计故障检测[17]。这些故障应在线检测到,理想情况下在
算注意力矩阵。为了完成自注意力机制,输出被归一化发生后的几个周期内完成,以促进快速恢复。
并加到注意力块的输入上。自注意力块后面是一个前馈基于算法的容错(ABFT)[18]提供了一种有效的
块,该块由两个完全连接层组成,并且这两个层之间有方法来检测矩阵计算中的错误[19],通过比较实际输
一个GELU激活函数。解码器和编码器模块具有类似出校验和与预测值。ABFT也被定制用于特定的计算,
的结构。它们的区别在于解码器包含两个自注意力块后如CNNs[20],[21]、GCNs[22]或Transformer的注意
跟一个前馈块[4]。力层。在后一种情况下,整个注意力计算没有被检查。
处理变压器模型中长序列的需求不断增加,突显了相反,每个涉及查询矩阵、键矩阵和值矩阵的
您可能关注的文档
- 时间约束的视频推理分割及自动化基准构建-计算机科学-视频分析-数字孪生表示-大语言模型.pdf
- 推进风险和质量保证:一种用于提高法规遵从性的 RAG 聊天机器人-计算机科学-大语言模型-检索增强生成-超参数分析.pdf
- 生成有哪些信誉好的足球投注网站解释使用大型语言模型-计算机科学-大语言模型-可解释的信息检索.pdf
- VulGuard:一种用于评估即时漏洞预测模型的统一工具-计算机科学-即时漏洞预测-自动化工具-软件开发.pdf
- 增强冯·诺依曼架构以实现智能未来-计算机科学-计算机架构-通用智能机器.pdf
- 基于目标的多 LiDAR 多相机外参标定系统-计算机科学-激光雷达-自动驾驶-计算机视觉.pdf
- 基于超低功耗边缘/物联网节点的 Split-Learning TinyML 实验研究-计算机科学-深度学习推理-高效人工智能.pdf
- 量子退火超参数分析在生产环境中用于最优传感器布置-计算机科学-机器学习-量子计算.pdf
- SASH:解码图中的社区结构-计算机科学-机器学习-算法.pdf
- 术前规划中的语义分割在经导管主动脉瓣置换中的应用-计算机科学-机器学习-语义分割-手术规划.pdf
- 2025至2030全球及中国呼吸系统疾病药物行业项目调研及市场前景预测评估报告.docx
- 2025至2030中国工业和烧烤木炭行业项目调研及市场前景预测评估报告.docx
- 2025至2030全球及中国基于模型的企业行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2025至2030全球及中国酒店数字营销软件行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2025至2030抛釉机市场产业运行态势及投资规划深度研究报告.docx
- 2025至2030中国重金属中毒药物行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2025至2030中国教学专用投影机行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2025至2030扫描器行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2025至2030颜料纸行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2025至2030中国摩托车电池行业运营态势与投资前景调查研究报告.docx
文档评论(0)