- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
14向量流水处理机
第十四讲 向量流水处理机;向量处理的基本概念 向量流水处理机的结构 提高向量流水处理机性能的方法;向量处理的基本概念;向量处理方式;向量处理方式;水平处理法;纵向处理法;纵向处理法;纵横处理法;纵横处理法;向量处理的基本概念 向量流水处理机的结构 提高向量流水处理机性能的方法;基本结构;向量流水处理机的结构;存储器-存储器结构;加法流水线部件;向量计算C=A+B的时空图;功能部件4 功能部件3 功能部件2 功能部件1 存储体M8 存储体M7 存储体M6 存储体M5 存储体M4 存储体M3 存储体M2 存储体M1;具有延迟缓冲器的向量流水线结构 然而实际情况并非总和上述理想化的情况一样。假如结果向量C的第一个元素C1不是存放在我们想存放的模块M5而是在模块M6,那么将出现存储模块的读写冲突。为了消除争用存储器的现象,可在运算流水线的输入端和输出端增加可变延迟缓冲器??如图所示。显然,有了输入输出缓冲器,可以实现向量操作无冲突地进行;寄存器--寄存器结构;主;对于向量运算来说,中间存储器是8个向量寄存器(V),每个向量寄存器有64个分量,每个分量为一个64位寄存器。 执行向量指令时,流水结构运算器在一个时钟周期内从两个V寄存器得到一对操作数,完成某种操作后用一个时钟周期时间把结果送入另一个V寄存器。注意,此处的向量运算流水线是从向量寄存器而不是从主存储器获得数据。同样,从流水线输出的结果向量也是送回向量寄存器。而另一方面,主存储器与V寄存器之间的数据传送以成组传送方式进行。 对标量运算来说,有两级中间存储器。速度很快的一级是8个64位的S寄存器,它是标量寄存器。主存与T寄存器之间以成组传送方式进行数据交换。;中间存储器的优点;向量处理的基本概念 向量流水处理机的结构 提高向量流水处理机性能的方法;提高向量流水处理机性能的方法;一、多功能部件并行操作;二、链接技术;由于这两条指令间对V1向量寄存器存在先写后读相关,通常必须等加法指令做完后才可开始乘法指令。但如果使向量寄存器V1在同一时钟周期内,既接收一个功能部件送来的运算结果,又可把这一结果作为下一个向量指令运算所需的源操作数传送给另一个功能部件,那就可使这两个部件链接起来进行操作。通常把这种链接称为超级向量操作。当链接进入充分流水操作状态后,在1个时钟周期就可同时获取两个操作结果。;链接条件:;例:用链接技术进行向量运算:D=A×(B+C)??? 假设向量长度≤64,且向量B、C已由存储器取至V0和V1。解:用下面3条向量指令可完成上述运算: ??????????????????? LV??????? V3, M(A)???????? ; V3←A??????????????????? ADDV????? V2, V0, V1?????? ; V2←V0+V1??????????????????? MULV????? V4,V2, V3????? ; V4←V2×V3 第1、2条指令无向量寄存器使用冲突,也无功能部件使用冲突,因而可以并行执行。 第3条指令与第1、2条指令均存在先写后读相关冲突,因而可将第3条指令与第1、2条指令链接执行。 由于同步的要求,数据进入、流出每个功能部件,包括访问储存器,都需1个时钟周期时间。;访存与浮点加并行, 再与浮点乘链接 LD V3,A ADDV V2,V0,V1 MULV V4,V2,V3;浮点加;若三条指令串行执行,即每次只有前条指令结束,才执行后继指令,那么三条指令执行的总时间为: [(1+6+1)+N-1]+[(1+6+1)+N-1]+[(1+7+1)+N-1] = 3N+22(拍) 若第一、二条指令并行与第三条串行: [(1+6+1)+N-1]+[(1+7+1)+N-1]=2N+15(拍) 若第一,二条指令并行与第三条链接: [(1+6+1)+(1+7+1)+(N-1)]=N+16(拍) 可以看出采用并行与链接后,可以很有效的改善性能。 ;三、分段开采技术;例:A和B为长度N的向量。 for (i=1; iN; i++) a[i]=5*b(i)+c; 当向量长度N为64或更小时,计算A数组的7条指令序列是: 1:S1?5.0 在标量寄存器内设置常数 2:S2?C 将常数C装入标量寄存器 3:VL?N 在VL寄存器内设置向量长度 4:Vo?B 将B向量读入向量寄存器 5:V1?S1 ? Vo B数组的每个分量乘常数 6:V2?S2+V1 C和5 ? B(x)相加 7:A?V2 将结果向量存入A数组;当N超过64时,要采用向量循环开采技术。 在进入循环前,把N
有哪些信誉好的足球投注网站
文档评论(0)