标量流水技术.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
标量流水技术

* * 前面提到的转移预测方法可以减少直接由转移指令而导致的流水线的停顿,但该方法仍不能充分开发指令级的并行性。一种更好的方法是通过猜测转移的方向并按猜测的方向取指令并加以执行。为了保持精确的中断和防止因猜测转移方向而导致的机器状态错误,在猜测指令的执行过程中必须增加一个称为提交(Commit)的步骤。猜测机制允许一条猜测指令预先执行,并允许其执行的结果通过旁路方法为其他指令所使用,但不允许猜测指令在提交步骤之前将执行结果写入目标寄存器或存储单元,即不允许对它们的内容进行更新,直到确定该猜测指令已不再具有猜测性为止(即此时的控制相关性已经解除)。 实现猜测执行的一个重要前提是:允许指令以乱序方式执行,但指令的提交则必须是按序的。在指令提交前应防止如更新或异常那样的行为发生,因为当猜测方向出现错误时,将导致机器状态的改变。引入猜测机制后,必须将指令的执行和指令的提交这两者区分开。只要指令的执行结果不被提交,机器的状态就不会改变,但为了存放指令猜测的执行结果,必须另外增加一个硬件缓冲器来存放执行结果,通常称该硬件缓冲器为排序缓冲器(Reorder Buffer),它在指令执行结束和指令提交之间保存指令的执行结果。 * 在前面提及的Tomasulo算法的动态调度处理器中,也可扩展成具有猜测执行的能力,此 时只要再增加一个排序缓冲器即可实现。 * 该方法是1983年由美国耶鲁大学的Fisher教授教授首先提出的,它与超标量方法有许多相似之处,但它以一条长指令来实现多个操作并行执行,以减少对M?M的访问。超标量计算机已有不少商品化了,例 Intel公司i 860,IBM公司的RS6000芯片,以及Motorola的881110 RISC μP等。 * * 设LOAD/STORE、FADD需1个周期完成。而FMUL需要2个周期,则上述指令串行操作共需14个周期方可完成。 * 6条长指令6个周期 上一句已求得k,此处可用k值。 全局压缩在基本块间移动是受一定限制的,而且为了保持程序原来的语义,某些代码操作移动后,通常还需要增加一些辅助操作。 * 基本模块 ADD R0,R1,R2 // R0←R1+R2 IF R2=0 THEN IF R2=0 THEN ┆ ADD R0,R1,R2 ┆ * VLIW的技术在进入21世纪后又得到了进一步的延伸,2001年Intel公司与HP公司联合研发了安腾(Itanium)处理器,2002年下半年又推出安腾2处理器。2003年,安腾2处理器的主频已达到1.5 GHz,采用0.13?m工艺。2004年,又将L3 Cache从原来的4MB提升到9MB。2007年推出的新款芯片采用双核和0.09?m工艺。 * * * 该循环中每个循环体是互相独立的,因此可以并行执行。用汇编语言可表示成如下形式, 这里假设R1中存放的是数组元素的地址,数组元素以双精度(8B)表示; F2中存放的是s; R2中存放的是要操作的最后一个数组元素的地址(可事先计算得到) 。 * R1中存放的是数组元素的地址,数组元素以双精度(8B)表示; F2中存放的是s; R2中存放的是要操作的最后一个数组元素的地址。 * 安腾处理器是IA-64体系架构的第一个实现版本,目前流行的是安腾2处理器。安腾2中共有9个流水功能部件:2个整数部件、2个访存(Load.Store)部件、3个分支部件和2个浮点部件。流水线由10级组成,分为前端、指令传送、操作数传送和执行4个主要部分。前端部分含有IPG(指令指针生成)、Fetch(取指)和Rotate(旋转)3个阶段, 完成的主要操作是: * * 其中,第1条指令对r1和r2进行相等比较,p1和p2为条件寄存器,若比较结果相等,便 置p1为真,p2为假,否则反置。此后,第2和第3两条指令同时执行,由于p1和p2两者互 为真伪,因此必有一条执行。条件执行指令的使用可以使原来指令序列中的控制相关转化成数 据相关,消除了分支,增加了指令中的并行性开发。 应注意的是,条件执行指令虽然有利于替换短控制流,消除不可预测的分支并减少全局代码调度的开销,但它也存在如下不足之处: 条件执行指令会造成数据冲突的停顿。由于上述原因,许多系统结构(如MIPS、Alpha、PowerPC、SPARC以及Intelx86)仅支持简单的条件执行指令(如条件赋值Move指令),例如对于如下的if语句: * 这种简单的条件赋值指令可以消除一般的分支,从而使控制相关变为数据相关,增大了基本指令块,有利于并行性的进一步开发。对于较复杂的分支情况,则需要系统结构支持完

文档评论(0)

zhuliyan1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档