[GPU计算]CUDA基本介绍汇编.pptVIP

下载本文档

21
0
约5.51千字
约 71页
2022-02-13 发布于广东
举报
版权申诉

[GPU计算]CUDA基本介绍汇编.ppt

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

DUAL-Issue 并发每二周期可以发射一次指令 FPU和SFU指令延迟是四周期某些情况下可以让FPU和SFU并发执行，实现超标量理论处理能力峰值没有计算dual-issue 双精度浮点计算不能dual-issue CUDA架构GPU硬件特点硬件资源模块化，根据市场定位裁减高度并行存在TPC SM 两层每个SM又有8SP SM内存在高速的shared memory和同步机制原子操作有利于实现通用计算中的数据顺序一致性 shared memory Texture cache constant cache等高速片内存储器有助于提高数据访问速度，节省带宽如何选购硬件目前（202X. 12）只有CUDA能够完全发挥新一代GPU的全部计算能力。Nvidia的G80以上的GPU能够支持CUDA。 GT200系列不仅性能更强，而且具有很多实用的新特性 Tesla专用流处理器拥有更大的显存和更高的核心频率，通过降低显存频率，屏蔽不需要的图形单元和改善散热获得了更好的稳定性，适合服务器或者集群使用适合的应用 GPU只有在计算高度数据并行任务时才能发挥作用。在这类任务中，需要处理大量的数据，数据的储存形式类似于规则的网格，而对这写数据的进行的处理则基本相同。这类数据并行问题的经典例子有：图像处理，物理模型模拟（如计算流体力学），工程和金融模拟与分析，有哪些信誉好的足球投注网站，排序。在很多应用中取得了1-2个数量级的加速不适合的应用需要复杂数据结构的计算如树，相关矩阵，链表，空间细分结构等，则不适用于使用GPU进行计算。串行和事务性处理较多的程序并行规模很小的应用，如只有数个并行线程需要ms量级实时性的程序需要重新设计算法和数据结构或者打包处理 CUDA 执行模型重点是将CPU做为终端(Host)，而GPU做为服务器(Server)或协处理器(Coprocessor)，或者设备（Device），从而让GPU来运行一些能够被高度线程化的程序。 CUDA的基本思想是尽量得开发线程级并行(Thread Level Parallel)，这些线程能够在硬件中被动态的调度和执行。 CUDA执行模型调用核程序时CPU调用API将显卡端程序的二进制代码传到GPU grid运行在SPA上 block运行在SM上 thread运行在SP上 grid block thread Kernel不是一个完整的程序，而只是其中的一个关键并行计算步 Kernel以一个网格(Grid)的形式执行，每个网格由若干个线程块（block）组成，每一个线程块又由最多512个线程(thread)组成。 grid block thread 一个grid最多可以有65535 * 65535个block 一个block总共最多可以有512个thread，在三个维度上的最大值分别为512, 512和64 grid block thread grid之间通过global memory交换数据 block之间不能相互通信,只能通过global memory共享数据,不要让多个block写同一区段内容（不保证数据一致性和顺序一致性）同一block内的thread可以通过shared memory和同步实现通信 block间粗粒度并行，block内thread细粒度并行 warp Warp是硬件特性带来的概念，在CUDA C语言中是透明的（除vote函数），但应用中不能忽略一个warp中有32个线程，这是因为SM中有8个SP，执行一条指令的延迟是4个周期，使用了流水线技术一个half warp中有16个线程，这是因为执行单元的频率是其他单元的两倍，每两个周期才进行一次数据传输 SIMT编程模型 SIMT是对SIMD（Single Instruction, Multiple Data，单指令多数据）的一种变形。两者的区别在于：SIMD的向量宽度是显式的，固定的，数据必须打包成向量才能进行处理；而SIMT中，执行宽度则完全由硬件自动处理了。（每个block中的thread数量不一定是32）而SIMT中的warp中的每个线程的寄存器都是私有的，它们只能通过shared memory来进行通信。分支性能与现代的微处理器不同，Nvidia的SM没有预测执行机制-没有分支预测单元(Branch Predicator)。在需要分支时，只有当warp中所有的线程都计算出各自的分支的地址，并且完成取指以后，warp才能继续往下执行。如果一个warp内需要执行N个分支，那么SM就需要把每一个分支的指令发射到每一个SP上，再由SP根据线程的逻辑决定需不需要执行。这是一个串行过程，此时SIMT完成分支的时间是多个分支时间之和。存储