- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DUAL-Issue 并发 每二周期可以发射 一次指令 FPU和SFU指令延迟 是四周期 某些情况下可以让FPU和SFU并发执行,实现超标量 理论处理能力峰值没有计算dual-issue 双精度浮点计算不能dual-issue CUDA架构GPU硬件特点 硬件资源模块化,根据市场定位裁减 高度并行 存在TPC SM 两层 每个SM又有8SP SM内存在高速的shared memory和同步机制 原子操作有利于实现通用计算中的数据顺序一致性 shared memory Texture cache constant cache等高速片内存储器有助于提高数据访问速度,节省带宽 如何选购硬件 目前(202X. 12)只有CUDA能够完全发挥新一代GPU的全部计算能力。Nvidia的G80以上的GPU能够支持CUDA。 GT200系列不仅性能更强,而且具有很多实用的新特性 Tesla专用流处理器拥有更大的显存和更高的核心频率,通过降低显存频率,屏蔽不需要的图形单元和改善散热获得了更好的稳定性,适合服务器或者集群使用 适合的应用 GPU只有在计算高度数据并行任务时才能发挥作用。在这类任务中,需要处理大量的数据,数据的储存形式类似于规则的网格,而对这写数据的进行的处理则基本相同。这类数据并行问题的经典例子有:图像处理,物理模型模拟(如计算流体力学),工程和金融模拟与分析,有哪些信誉好的足球投注网站,排序。 在很多应用中取得了1-2个数量级的加速 不适合的应用 需要复杂数据结构的计算如树,相关矩阵,链表,空间细分结构等,则不适用于使用GPU进行计算。 串行和事务性处理较多的程序 并行规模很小的应用,如只有数个并行线程 需要ms量级实时性的程序 需要重新设计算法和数据结构或者打包处理 CUDA 执行模型 重点是将CPU做为终端(Host),而GPU做为服务器(Server)或协处理器(Coprocessor),或者设备(Device),从而让GPU来运行一些能够被高度线程化的程序。 CUDA的基本思想是尽量得开发线程级并行(Thread Level Parallel),这些线程能够在硬件中被动态的调度和执行。 CUDA执行模型 调用核程序时CPU调用API将显卡端程序的二进 制代码传到GPU grid运行在SPA上 block运行在SM上 thread运行在SP上 grid block thread Kernel不是一个完整的程序,而只是其中的一个关键并行计算步 Kernel以一个网格(Grid)的形式执行,每个网格由若干个线程块(block)组成,每一个线程块又由最多512个线程(thread)组成。 grid block thread 一个grid最多可以有65535 * 65535个block 一个block总共最多可以有512个thread,在三个维度上的最大值分别为512, 512和64 grid block thread grid之间通过global memory交换数据 block之间不能相互通信,只能通过global memory共享数据,不要让多个block写同一区段内容(不保证数据一致性和顺序一致性) 同一block内的thread可以通过shared memory和同步实现通信 block间粗粒度并行,block内thread细粒度并行 warp Warp是硬件特性带来的概念,在CUDA C语言中是透明的(除vote函数),但应用中不能忽略 一个warp中有32个线程,这是因为SM中有8个SP,执行一条指令的延迟是4个周期,使用了流水线技术 一个half warp中有16个线程,这是因为执行单元的频率是其他单元的两倍,每两个周期才进行一次数据传输 SIMT编程模型 SIMT是对SIMD(Single Instruction, Multiple Data,单指令多数据)的一种变形。 两者的区别在于:SIMD的向量宽度是显式的,固定的,数据必须打包成向量才能进行处理;而SIMT中,执行宽度则完全由硬件自动处理了。 (每个block中的thread数量不一定是32) 而SIMT中的warp中的每个线程的寄存器都是私有的,它们只能通过shared memory来进行通信。 分支性能 与现代的微处理器不同,Nvidia的SM没有预测执行机制-没有分支预测单元(Branch Predicator)。 在需要分支时,只有当warp中所有的线程都计算出各自的分支的地址,并且完成取指以后,warp才能继续往下执行。 如果一个warp内需要执行N个分支,那么SM就需要把每一个分支的指令发射到每一个SP上,再由SP根据线程的逻辑决定需不需要执行。这是一个串行过程,此时SIMT完成分支的时间是多个分支时间之和。 存储
有哪些信誉好的足球投注网站
文档评论(0)