第六章并行处理机和相联处理机.pptVIP

下载本文档

10
0
约8.51千字
约 72页
2017-04-25 发布于四川
举报
版权申诉

第六章并行处理机和相联处理机.ppt

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第六章并行处理机和相联处理机

第 6 章并行处理机和相联处理机 ;6.1 并行处理机原理 ;图 6.2 具有集中式共享存贮器的并行处理机构形 ; 2. 并行处理机的特点 并行处理机的单指令流多数据流处理方式和由它产生的特殊结构是以诸如有限差分、矩阵、信号处理、线性规划等一系列计算问题为背景发展起来的。这些计算问题的共同特点是可以通过各种途径把它们转化成为对数组或向量的处理，而并行处理机正好利用多个处理单元对向量或数组所包含的各个分量同时计算，从而获得很高的处理速度。与同样擅长于向量处理的流水线处理机相比，并行处理机利用的是资源重复，而不是时间重叠；利用并行性中的同时性，而不是并发性。它的每个处理单元要同等地担负起各种运算功能，但其设备利用率却可能没有多个单功能流水线部件那样高。因此，只有在硬件价格有了大幅度下降及系统结构有了较大改进的情况下，并行处理机才能具有较好的性能价格比。并行理机主要是靠增大处理单元个数来提高运算速度，比起向量流水线处理机主要依靠缩短时钟周期来说，速度提高的潜力要大得多。 ;6.1.2 并行处理机的算法 ; PUi为处理部件，包含 64 位的算术处理单元PEi、所带的局部存贮器PEMi和存贮器逻辑部件MLU。64个处理部件PU0~PU63 排列成 8×8 的方阵。任何一个PUi只与其上、下、左、右 4个近邻PUi-8(mod 64)、PUi+8(mod 64)、PUi-1(mod 64)和PUi+1(mod 64)直接相连。循此规则，上、下方向上同一列两端的PU相连构成一个环，左、右方向上每一行的右端PU与下一行的左端PU相连，最下面一行右端的PU与最上面一行左端PU相连，从而形成一种闭合的螺线形状，所以又称闭合螺线阵列。在这个阵列中，步距不等于±1 或±8 的任意处理单元之间的通信，可以用软件方法寻找最短路径进行，其最短距离都不会超过 7 步。 ; 例如，要将PU63的信息传送到PU10，最快可经PU63→PU7→PU8→PU9→PU104 步即可实现，而要将PU9的信息传送到PU45，最快可经PU9→PU1→PU57→PU56→PU48→PU47→PU46→PU45 7 步实现。普遍来讲，个处理单元组成的阵列中，任意两个处理单元之间的最短距离不会超过 步。 ; 2. 阵列处理机的算法举例 1) 有限差分问题 求解场方程时，常使用有限差分法。它是把一个有规则的网格覆盖在整个场域上，用网格点上的变量值写出差分方程组来代替场方程进行计算。在解决物理问题时，如果将描述平面场的拉普拉斯方程 ;并代入原方程，即可得有限差分计算公式 ; 2) 矩阵加 在阵列处理机上，解决矩阵加法是最简单的一维情形。若有两个 8×8 的矩阵A、B相加，所得结果矩阵C也是一个 8×8 的矩阵。只需把A、B居于相应位置的分量存放在同一个PEM内，且在全部 64 个PEM中，令A的分量均为同一地址α，B的分量单元均为同一地址α+1，而结果矩阵C的各个结果分量也相应存放于各PEM同一地址α+2的单元内，如图 6.4 所示。这样，只需用下列3条ILLIAC Ⅳ的汇编指令就可以一次实现矩阵相加： ;LDA ALPHA ; 全部(α)由PEMi送PEi的累加器RGAi ADRN ALPHA+1 ; 全部(α+1)与(RGAi)进行浮点规舍加，结果送RGAi STA ALPHA+2 ; 全部(RGAi)由PEi送PEMi的α+2单元这里， 0≤i≤63。 ;图 6.4 矩阵相加的存贮器分配举例 ; 3) 矩阵乘 由于矩阵乘是二维数组运算，故它比循环加要复杂一些。设A、B和C为3个 8×8 的二维矩阵。若给定A和B，则为计算C=A*B的 64 个分量，可用下列公式 ; 在SISD计算机上求解这个问题，可执行用FORTRAN语言编写的下列程序 ; 需要经过I、J、K三重循环完成。每重循环执行 8 次，总共需要512次乘、加的时间，此外每次还应包括执行循环控制、判别等其他操作需花费的时间。而如果在SIMD阵列处理机上运算，则可用 8 个处理单元并行计算矩阵C(I，J)的某一行或某一列，即将J循环或I循环转化成一维的向量处理，从而消去了一重循环。 以消去J循环为例，可执行用FORTRAN语言编写的下列程序 DO 10 I=0, 7 C(I,J)=0 DO 10 K=0, 7 10 C(I,J)