计算机系统结构第八章并行处理机(广工)技术总结.pptVIP

计算机系统结构第八章并行处理机(广工)技术总结.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * 8.3.3 CM-2计算机 Thinking Machines的Connection Machine CM-2是细粒度SIMD计算机, 1990年 由数千个位片PE组成 峰值处理速度超过10Gflops 程序从前端开始执行,需要并行数据操作时,发送微指令到后端处理阵列 定序器(sequencer)分解这些微指令并且把它们广播给阵列中的所有数据处理器(data processor) 前端机和处理阵列间有3条交换数据计算结果的通路 广播总线(broadcasting) 全局组合总线(global combining) 标量存储器总线(scalar memory bus) 通过广播总线把数据或指令同时传送到所有数据处理器 前端机通过全局组合总线对来自各处理器的数据进行求和、最大值、逻辑或等运算--从二进制向量还原、重构二进制数据 前端机每次通过标量总线从与数据处理器相连的存储器读取32位数据、或每次将32位数据写入与数据处理器相连的存储器 VAX和Symbolics机都可用作前端机和主机 34p466 * 图8.11 CM-2的系统结构 * 1 处理阵列 CM-2是一台数据并行计算的后端机 处理阵列包含4K到64K个位片数据处理器(或PE) 数据处理器由定序器控制 定序器对来自前端机的微指令进行译码,然后把毫微指令广播到阵列中各个处理器 前端机 定序器 处理器 指令 微指令 毫微指令 所有处理器可同时访问它们的存储器,以锁步方式执行广播来的指令 处理器之间通过寻径、NEWS网格(NEWS gird)或扫描机构(scanning mechanism) 相互交换数据 这些网络也与I/O接口相连 称为数据穹(data vault)的大容量存储器子系统与I/O相连 数据穹是基于磁盘的海量存储系统,用来存放程序文件和大数据库。可存储多达60G字节的数据 * 1 处理阵列 每个处理器结点包括32个位片数据处理器、一个可选的浮点加速器和处理器之间通信的接口 每个数据处理器用3个输入和2个输出的位片ALU、锁存器和存储器接口实现 ALU可执行位串全加操作和布尔逻辑操作 每个结点有一对处理器芯片,共享一组存储器芯片 每个处理芯片有16个处理器 称为Pairs的并行指令系统包括许多毫微指令 用于存储器的装入和存储、算术和逻辑运算、寻径器控制、NEWS网格控制、超立方体接口控制、浮点运算、I/O和诊断操作 每个存储器芯片由一对处理器芯片的32个处理器共享-不划分到位 存储器数据路径宽度22位(16位数据--16P每个1位和6位ECC) 18位存储器地址允许32个处理器共享2^18=256K个存储器字(512K字节数据) 浮点芯片一次执行32位的操作--对应两个芯片的32个P(32位)。中间计算结果可存入存储器供后续运算使用 整数算术运算直接由32个处理器以位串方式执行 * 两个处理器芯片、一组存储器和浮点芯片组成的CM-2处理结点 * 2 寻径器、NEWS网格和扫描机构 (1) 寻径器 每个处理器芯片包含一个用于处理器之间数据寻径的专门硬件 所有处理器芯片上的寻径器结点连成一个布尔n-立方体 CM-2最大配置4096个寻径器结点,连成一个12维超立方体 每个寻径器结点与12个其它寻径器结点相连接,其中包括它的对偶结点在内 同一结点上的16个处理器在发送消息给12-立方体另一顶点上的任一处理器时具有相同的能力 * 例 12-立方体的每个顶点上的处理器编号为0到15 4096个顶点的超立方体的寻径器编号为0到4095 第7号寻径器结点上的第5号处理器在整个系统中的编号为16x7+5=117要发送一个消息给处理器361。处理器361位于第22号结点的第9号处理器(16x22+9=361) 寻径器结点 7=(000000000111)2 寻径器结点22=(000000010110)2 这两个二进制编号在维0和维4不同 这一消息一定通过维0和维4到达它的目的结点 如果不存在争用超立方体连线现象,消息从寻径器结点7开始 沿维0方向传到寻径器结点6=(00000000110)2 再沿维4方向传到寻径器结点22 如果寻径器点7号的另一消息正在使用维0方向的连线,为避免发生通道冲突 沿维4方向传到寻径器结点23=(000000010111)2 再沿维0方向到达最终的目的结点 * (2) NEWS网格 每个处理器芯片中的16个物理处理器可以排列成8x2,1x16,4x4,4x2x2或2x2x2x2等形式的2维,3维,4维网格 规定每个物理处理器有64个虚拟处理器。可想象这64个虚拟处理器在芯片中排列成8x8网格---?intel的超线程 NEWS网格 基于各种不同配置网格的每个处理器都有东、南、西、北4个邻居这一基础

文档评论(0)

502992 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档