- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4.6 主存 采用简单的多体交叉存储器 在存储系统中采用多个DRAM,并利用它们潜在的并行性。 多体较长存储器结构:总线和Cache的宽度都较窄,但存储器按交叉方式工作。 把存储芯片组织为多个体,并让它们并行工作,从而能一次读或写多个字。 存储体的宽度通常是一个字,这样就无需改变总线的宽度和Cache。但同时向几个体发送地址能使它们同时进行读访问。 4.6 主存 性能举例:(参照前面的假设) 失效开销=4+24+4×4=44(周期) 带宽=0.4(字节/周期) 存储器的各个体一般是按字交叉的 交叉存储器(interleaved memory) 通常是指存储器的各个体是按字交叉的 字交叉存储器非常适合于处理: Cache读失效(因为调块时块中的各个字是顺序读出的),写回法Cache中的写回(不仅读出是顺序的,写也是顺序的) 4.6 主存 地址到存储体的映象方法: 假设四个存储体的地址是在字一级交叉的,即存储 体0中每个字的地址对4取模都是0,体1中每个字的地址 对4取模都是1,依此类推。 0 4 8 12 地址 体0 1 5 9 13 地址 体1 2 6 10 14 地址 体2 3 7 11 15 地址 体3 4.6 主存 例5.14 假设某台计算机的特性及其Cache的性能为: (1) 块大小为1个字; (2) 存储器总线宽度为1个字; (3) Cache失效率为3%; (4) 平均每条指令访存1.2次; (5) Cache失效开销为32个时钟周期; (6)平均CPI(忽略Cache失效)为2。 试问多体交叉和增加存储器宽度对提高性能各有何作用? 4.6 主存 如果当把Cache块大小变为2个字时,失效率降为2%;块大小变为4个字时,失效率降为1%。根据前面给出的访问时间,求在采用2路、4路多体交叉存取以及将存储器和总线宽度增加一倍时,性能分别提高多少? 解 在改变前的计算机中,Cache块大小为一个字, 其CPI为: 2+(1.2×3%×32) = 3.15 当将块大小增加为2个字时,在下面三种情况下的CPI分别为 32位总线和存储器,不采用多体交叉: 2+(1.2×2%×2×32) = 3.54 4.4 减少Cache失效开销 4.4.4 非阻塞Cache技术 采用尽早重启动技术时,CPU在继续执行之前,仍需等待请求字到达。有些流水方式的机器允许指令乱序执行(后面的指令可以跨越前面的指令先执行),CPU无须在Cache失效时停顿。 非阻塞Cache:Cache失效时仍允许CPU进行其他的命中访问。即允许“失效下命中”。 这种“失效下命中”的优化措施在Cache失效时,不是完全拒绝CPU的访问,而是能处理部分访问,从而减少了实际失效开销。 4.4 减少Cache失效开销 如果更进一步,让Cache允许多个失效重叠,即支持“多重失效下的命中”和“失效下的失效”,则可进一步减少实际失效开销。(此种方法的前提是:存储器必须能够处理多个失效) 可以同时处理的失效个数越多,所能带来的性能上的提高就越大。 下图给出了对于不同的重叠失效个数,数据Cache的平均存储器等待时间(以周期为单位)与阻塞Cache平均存储器等待时间的比值。 所考虑的Cache采用直接映像,容量为8kB,块大小为32B。测试程序为18个SPEC92程序。前14个测试程序为浮点程序,后4个为整数程序。 4.4 减少Cache失效开销 4.4 减少Cache失效开销 例5.11 对于上图描述的Cache,在2路组相联和“一次失效下命中”这两种措施中,哪一种对浮点程序更重要?对整数程序的情况如何? 假设8KB数据Cache的平均失效率为:对于浮点程序,直接映象Cache为11.4%,而2路组相联Cache为10.7%;对于整数程序,直接映象Cache为7.4%,2路组相联Cache为6.0%。并且假设平均存储器等待时间是失效率和失效开销的积,失效开销为16个时钟周期。 4.4 减少Cache失效开销 解 对于浮点程序,平均存储器等待时间为: 失效率直接映象 × 失效开销 = 11.4 % × 16 = 1.84 失效率2路组相联 × 失效开销 = 10.7 % × 16 = 1.71 1.71/1.84≈0.93 即2路组相联映像cache的平均存储器等待时间是直接映像Cache的93%,而支持“一次失效下命中”技术的直接映像Cache的平均存储器等待时间是直接映
文档评论(0)