- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
一种支持抽象和优化的深度学习加速器高级编译器集
成方法
SamiraAhmadifarsani,
DanielMueller-Gritschneder,and
UlfSchlichtmann
TechnicalUniversityofMunich,Arcisstr.21,80333Munich,Germany
{samira.ahmadifarsani,ulf.schlichtmann}@tum.de
TUWien,1040Vienna,Austria
本daniel.mueller-gritschneder@tuwien.ac.at
译
中摘要域特定架构在边缘计算平台上的深度学习应用日益增多,突显了硬
1件加速器的效率。然而,将定制加速器集成到现代机器学习(ML)编译
v
8器中仍然是一个复杂的挑战,因为需要对编译层进行重大修改和专门的调
2度技术。现有的框架提供了部分解决方案,并要求用户导航复杂的编译器
8
4内部。
0在本文中,我们介绍了一种基于TVM的编译集成方法,该方法针对基于
.
7GEMM的深度学习加速器。我们的方法抽象了编译器集成的复杂性,使
0得无需深入了解底层编译器即可无缝集成加速器。此外,我们扩展并集成
5
2了设计空间探索工具,特别是CoSA,以自动化高效的张量调度,并考虑
:不均匀映射和双缓冲等因素。我们的框架在Gemmini加速器上进行了基
v
i准测试,显示出与专门的手动实现工具链相当的性能。
x
r
a
Keywords:深度学习加速器·机器学习编译器·张量调度。
1介绍
领域特定架构在边缘计算中的深度学习证明了其有效性,通过定制的计
算引擎和内存层次结构提供了增强的功耗性能。空间架构,如谷歌的TPU
和Gemmini[5],使用针对GEMM操作优化的脉动阵列,在基于张量的任务
中表现出色。为了解决片上内存有限的问题,加速器通常用软件管理的暂存
区替换缓存,并依赖显式的DMA基础传输。它们通常与通用处理器配对,
这些通用处理器负责管理不支持的任务并通过自定义指令进行控制协调。
2S.Ahmadifarsanietal.
尽管硬件设计工具取得了进步,但在自定义加速器上部署深度学习模型
仍受到复杂软件工具链需求的阻碍。诸如TVM[3]和TinyIREE[8]这样的
机器学习编译器为CPU和GPU提供了强大的支持,但集成新加速器需要
对编译器进行深入修改。一个关键挑战是张量调度,它控制计算和数据移
动。虽然一些编译器使用基于有哪些信誉好的足球投注网站的策略(例如Ansor[10]),这些策略回退
到为加速器使用的模板,需要针对每个固有功能手动调整。
本文提出了一种基于GEMM的硬件加速器编译器集成方法,通过抽象
低级编译复杂性简化了集成过程。我们的主要贡献是:
–我们利用已建立的设计空间探索(D
您可能关注的文档
- 鲁棒的不完全模态对齐通过标记最优传输进行眼科疾病分级和诊断-计算机科学-眼科成像-最优传输.pdf
- 支持抽象论辩的基于案例推理-计算机科学-机器学习-案例推理.pdf
- 猫皇家-对机器人信任的艺术探究-计算机科学-机器人-艺术-人机交互.pdf
- 面向实例优化的 LLM 在 OLAP 数据库中的案例-计算机科学-大语言模型-实例优化.pdf
- 涌现语义超越标记嵌入-带有冻结视觉 Unicode 表示的 Transformer 语言模型-计算机科学-大语言模型-自然语言处理.pdf
- 音乐飞回标枪-重复使用扩散模型进行数据增强和音频操作-计算机科学-扩散模型-音频处理.pdf
- 语义一致的离散扩散用于三维生物图建模-计算机科学-计算机视觉-医学图像.pdf
- 空间与语义嵌入集成在常规视频中的立体声音事件定位与检测-计算机科学-音视频机器学习-音频理解.pdf
- Spec-TOD-一个专用于高效任务导向对话系统的指令微调 LLM 框架-计算机科学-面向任务的对话-大语言模型.pdf
- 在电池储能系统优化中考虑子系统老化变异-计算机科学-电池储能系统-优化.pdf
- 2025至2030年中国电子身份识别器行业投资前景及策略咨询研究报告.docx
- 2025至2030年中国电子实验设备行业投资前景及策略咨询研究报告.docx
- 2025至2030年中国电子文档管理系统行业投资前景及策略咨询报告.docx
- 2025至2030年中国电子硬盘行业投资前景及策略咨询研究报告.docx
- 2025至2030年中国LED用衬底材料行业市场需求分析及发展趋向分析报告.docx
- 2025至2030年中国氨基葡萄糖盐酸盐行业投资前景及策略咨询研究报告.docx
- 2025年一级建造师培训建设工程项目管理考点总结8854392902整理By阿拉蕾.doc
- 2025至2030年中国钢桶烘干生产线行业投资前景及策略咨询研究报告.docx
- 2025至2030年中国存储卡行业市场运行状况及发展前景展望报告.docx
- 2025至2030年中国甘草甜素行业投资前景及策略咨询研究报告.docx
最近下载
- 承建单位工作联系函模板.docx VIP
- 电梯施工合同范本(2025版).docx VIP
- 胸痛中心(胸痛救治单元)建设应知应会试题含答案.doc VIP
- 2025年入党积极分子发展对象考试试卷及参考答案详解【考试直接用】.docx VIP
- 工程管理笔试题.doc VIP
- 学校外来人员查验登记、车辆准入、物品出入制度.docx VIP
- 口腔科医务人员职业暴露.ppt VIP
- 高中STEM教育数字资源整合与生物实验教学的创新实践教学研究课题报告.docx
- 湖北省武汉市部分学校2024-2025学年高一上学期11月期中调研数学试题含答案.pdf VIP
- 2025年入党积极分子发展对象考试试卷及参考答案详解(新).docx VIP
文档评论(0)