- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七章课件文件
Computer School, NUDT Fall, 2009 * Origin体系结构 Computer School, NUDT Fall, 2009 * 4处理器系统 Computer School, NUDT Fall, 2009 * 16处理器系统 Computer School, NUDT Fall, 2009 * 128处理器构成的Origin 2000系统由4个立方体组成,在立方体之间传送数据多经过了一级路由器。 在结点内部实现的是SMP(对称多处理器)结构,由于只有两个处理器,所以不存在SMP结构的总线瓶颈问题。在结点之间实现的是大规模并行处理结构。 * 并行计算机的发展原因: 要获得超过单处理器的性能,最直接的方法就是把多个处理器连在一起 体系结构改进能否持续下去?通过复杂度和硅技术的提高得到的性能提升正在减小; 并行计算机应用软件已有缓慢但稳定的发展。 重点:中小规模的机器(处理器的个数不超过128)的多处理机设计技术。 * * * MIMD的优点(灵活性/COTS) MIMD机器分类:集中式共享存储器结构(Centralized Shared-Memory Architecture)。,也称为对称式共享存储器结构(SMP, Symmetric shared-memory MultiProcessor)机器或者UMA(Uniform Memory Access)机器。 分布式存储器结构的机器。支持较大数目的处理器,存储器必须分布到各个处理器上,而非采用集中式,否则存储器系统将不能满足处理器带宽的要求。系统中每个结点包含了处理器、存储器、I/O以及互连网络接口。 * 两种方案: 1.DSM :一个处理器如果具有访问权,就可以访问任何一个其他的局部存储器, DSM机器被称为NUMA(Non-Uniform Memory Access)机器,这是因为其访问时间依赖于数据在存储器中的存放位置。 2.整个地址空间由多个独立的地址空间构成,它们在逻辑上也是独立的,远程的处理器不能对其直接寻址。在这种机器的不同处理器中,相同的物理地址指向不同存储器的不同单元。 * 对于共享地址空间的机器,用load和store指令中的地址隐含地进行数据通讯,因而可称为共享存储器机器。 对于多个地址空间的机器,数据通讯要通过处理器间显式地传递消息完成,因而这种机器常称为消息传递机器。 * 多处理机中远程访问的较大延迟。在现有的机器中,处理器之间的数据通信大约需要50~10000个时钟周期,这主要取决于通信机制、互连网络的种类和机器的规模。 * 对共享数据,不同处理器的Cache都保存有对应存储器单元的内容,因而在操作中就可能产生数据的不一致,称为Cache一致性(Coherence)问题 * 如果对某个数据项的任何读操作均可得到其必威体育精装版写入的值,则认为这个存储系统是一致的。包括了存储系统行为的两个不同方面: 第一个方面是指返回给读操作的是什么值(what), 第二个方面是指什么时候才能将已写入的值返回给读操作(when) * 三条已充分地保证了一致性,什么时候才能获得写进去的值仍是一个重要的问题。 * 近十年来,这两种协议均得到了发展,但在目前的应用中,写作废协议使用比较广泛。 * 这两种协议和目录、监听协议的关系? * 当某个处理器进行写数据时,必须先获得总线的控制权,然后将要作废的数据块的地址放在总线上。其它处理器一直监听总线,它们检测该地址所对应的数据是否在它们的Cache中。若在,则作废相应的数据块。获取总线控制权的顺序性保证了写的顺序性,因为当两个处理器要同时写一个单元时,其中一个处理器必然先获得总线控制权,之后它使另一处理器上对应的拷贝作废,从而保证了写的严格顺序性。 * 基于总线一致性协议的实现通常采用在每个结点内嵌入一个Cache状态控制器,该控制器根据来自处理器或总线的请求,改变所选择的数据块的状态。 * 对远程存储器访问的巨大延迟与对本地Cache访问的短延迟相比,突出地反映出了这些缺点。例如,Cray T3E本地访问延迟为两个时钟周期,并且可被流水化,而一次远程访问则需约400个时钟周期(T3E-900, 450MHz Alpha)。 * 而当系统的规模变大时,它又是致命的弱点。此外,监听的访问量与处理器个数的平方(N2)成正比,即使总线的带宽随系统规模线性增长(N),而实际的性能还是下降到1/N。 * 仍旧采用在监听Cache中所做的简单假设:对共享数据进行写总会产生一次写失效;处理器封锁该数据直到写操作完毕。因为处理器间不是总线连接,又要避免广播。 假设消息接收和处理的顺序与消息发送顺序相同。但实际情况并不一定如此,从而会产生其它的复杂性。 * 注意请求的完备性。
文档评论(0)