计算机系统结构第六章 向量流水线技术.pptVIP

计算机系统结构第六章 向量流水线技术.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机系统结构第六章 向量流水线技术

2003.3.1 计算机系统结构 本章将讨论向量处理机。向量处理机结构目前已成为解决数值计算问题的一种最重要的高性能结构。 绝大多数向量处理机都采用流水线结构。当一条流水线不能达到所要求的性能时,设计者往往采用多条流水线(超标量)。这种处理机不仅能处理单条流水线上的数据,还能并行地处理多条流水线上独立无关的数据。 ? 向量处理机的向量运算吞吐量性能比同价格的串行处理机 高1~2个数量级; ? 向量处理机吞吐量的提高只是对特定结构的问题有效,即局限 于那些可以转化为向量运算的问题。 20世纪80年代出现了许多以流水线运算部件为基础的向量处理机。 本章的目的在于描述向量处理机的一般结构,并讨论算法和结构如何配合才能高效地处理多类计算机的问题。 6.1 向量处理机的基本概念 一个用FORTRAN语言编写的程序: DO 100 I=1,N 100 B(I)= B(I)+C(I) 6.1 向量处理机的基本概念 有四个长度为N的向量A、B、C、D。现要完成下面的运算: D=A*(B+C) (1) 横向处理方式——标量处理机处理方式 先算D(1)=A(1)*(B(1)+C(1)) 再算D(2)=A(2)*(B(2)+C(2)) … 最后算D(N)=A(N)*(B(N)+C(N)) 6.1 向量处理机的基本概念 对整个向量按相同的运算处理完后,再执行别的运算。 先算:K(1:N)=B(1:N)+C(1:N) 再算:D(1:N)=A(1:N)*K(1:N) 6.2 向量处理机的结构 (1)设法维持连续的数据流(提供连续的A和B)。 (2)设法降低对存储器的压力。 2. 向量处理机采取的技术措施: (1)提高存储器的带宽。例STAR-100,32体。 (2)增设高速中间存储器——向量寄存器。例YH-1,8组 向量寄存器,每组128个单元(每个单元64位)。 3. 向量处理机的两种不同结构(根据采用的技术措施分) (1)存储器——存储器结构 (2)寄存器——寄存器结构 6.2 向量处理机的结构 ? 第一种结构是依靠主存来保证流水线所需要的操作数。因此主存必须具有至少和运算器所要求带宽一样高的带宽。这就要求主存或者存取速度足够快,或者分为多个独立的存储模块,或者两者都具备。 ? 第二种结构是通过容量比主存小得多的中间存储器即寄存器来保证很高的带宽。这样,低速存取的主存就不会妨碍流水结构运算器的连续运行。第二种结构的另一好处是流水结构运算器可以重叠进行,因为高速寄存器的带宽足以满足几个流水结构运算部件的带宽要求。 (2) 链接技术(369) 前一条指令的结果不必送回存储器直接作为后一条指令的操作数,甚至可在前一条指令完成之前就使用其结果。 例6.1:若要进行向量运算: D=A×( B+C ),假设向量长度<=64,且B和C已由存储器取至V0和V1,则下面 3条向量指令就可完成上述运算: V3 ← A V2 ← V0+V1 V4 ← V2*V3 第一、二条指令因既无向量寄存器使用冲突,也无功能部件使用冲突,所以这两条指令可并行执行。 第三条指令与第一、二条指令均存在先写后读的相关冲突,因而可将第三条指令与第一、二条指令链接执行,如图所示。 由于同步的要求,数据进入和流出每个功能部件,包括访存都需要1拍时间。 假设向量长度为N,若这三条指令全部用串行方法,则执行时间为: [ (1+6+1)+N-1]+[(1+6十1)+N-1]+[(1+7+1)+N-1] = 3N+ 22拍 若前两条指令并行执行,第三条指令串行执行,则执行时间为: [(1+ 6+1)+ N-1]+[( 1+7+ l)+ N-1] = 2N+ 15拍 若采用链接技术,则执行时间为: (1+ 6+1)+(1+7+ 1)+(N-l) = N+16拍 (3) 冲突及其分类 6.3 向量处理机的性能评价(P386) 6.3.1.2 不使用链接技术的指令组时间(第18行开始) 不使用链接技术的时空图与各编队时间 6.3.1.3 考虑分段开采的指令组时间(P387倒数第15行开始) 6.3.1.4 使用链接技术的指令组时间(P3

文档评论(0)

jiupshaieuk12 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6212135231000003

1亿VIP精品文档

相关文档