Intel Sandy Bridge内核架构全面解析.doc

下载文档 降价啦

13
0
约6.23千字
约 18页
2018-06-21 发布于河南
举报
版权申诉
保障服务

Intel Sandy Bridge内核架构全面解析.doc

1、本文档共18页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Intel Sandy Bridge内核架构全面解析

Intel Sandy Bridge内核架构全面解析昨天，IDF 2010上Intel对下代处理器架构Sandy Bridge(官方简称SNB)的一些技术特点做了深入阐述，并展示了美丽的晶圆和芯片照片。今天，我们就深入新架构内部，看看它有何神奇之处。　　SNB是Intel 2011年的一次重大架构更新，官方称为“2011年第二代Intel Core处理器家族”，主要针对性能级和主流市场，而高端领域暂时继续交给Gulftown Core i7-900系列六核心，入门级领域则要到明年底甚至2012年才会升级。　　SNB首批产品将于2011年初发布并上市，同时涵盖桌面和笔记本，架构方面也基本相同，具体型号和规格如下：　　除了处理器，配套的芯片组、主板、散热器等也会一并更新，其中芯片组是6系列，桌面上主要有P67、H67、H61等型号，原生支持最多两个SATA 6Gbps接口，但没有原生USB 3.0，仍需要依赖第三方控制器，另外还有PCI-E 2.0 5GT/s高速总线。　　6系列主板的插座将改为LGA1155，不兼容当前的LGA1156。　　原装散热器也随着处理器功耗的降低而瘦身，特别是45W低功耗版本会搭配半高式矮版散热器。　前端从高级层面角度看，SNB架构只是一次进化，但是如果看看Nehalem/Westmere以来晶体管变化的规模，绝对是一次革命。　　Core 2引入了一种叫作循环流检测器(LSD)的逻辑块，检测到CPU执行软件循环的时候就会关闭分枝预测器、预取/解码引擎，然后通过自身缓存的微指令(micro-ops)供给执行单元。这种做法通过在循环执行的时候关闭前端节省了功耗，并改进了性能。　　SNB里又增加了一个微指令缓存，用于在指令解码时临时存放。这里没有什么严格的算法，指令只要在解码就会放入缓存。预取硬件获得一个新指令的时候，会首先检查它是否存在于微指令缓存中，如是则由缓存为其余的管线服务，前端随之关闭。解码硬件是x86管线里非常复杂的部分，关闭它能够节约大量的功耗。如果这种技术也能引入到Atom处理器架构中，无疑也能使之受益匪浅。　　这个缓存是直接映射的，能存储大约1.5K微指令，相当于6KB指令缓存。它位于一级指令缓存内，大多数程序的命中率都能达到80％左右，而且带宽也相比一级指令缓存更高、更稳定。真正的一级指令和数据缓存并没有变，仍然都是32KB，合计64KB。　　这看起来有点儿像Pentium 4的追踪缓存，但最大的不同是它并不缓存追踪，而更像是一个指令缓存，存储的是微指令，而非x86指令(macro-ops)。　　与此同时，Intel还完全重新了一个分支预测单元(BPU)，精确度更高，并在三个方面进行了创新。　　第一，标准的BPU都是2-bit预测器，每个分支都使用相关可信度(强/弱)进行标记。Intel发现，这种双模预测器所预测的分支几乎都是强可信度的，因此SNB里多个分支都使用一个可信度位，而不是每个分支对应一个可信度位，结果就是在分支历史表中同样的位可以对应更多分支，进而提高预测精确度。　　第二，分支目标同样做了翻新。之前的架构中分支目标的大小都是固定的，但是大多数目标都是相对近似的。SNB现在支持多个不同的分支目标大小，而不是一味扩大寻址能力、保存所有分支目标，因而浪费的空间更少，CPU能够跟踪更多目标、加快预测速度。　　第三，提高分枝预测器精度的传统方法是使用更多的历史位，但这只对要求长指令的特定类型分支有效，SNB于是将分支按照长短不同历史进行划分，从而提高预测精度。物理寄存器文件(PRF)和执行改进　　类似于AMD的推土机、山猫，Intel SNB也使用了物理寄存器文件。Core 2、Nehalem架构中，每个微指令需要的每个操作数都有一份拷贝，这就意味着乱序执行硬件(调度器/重排序缓存/关联队列)必须要非常大，以便容纳微指令和相关数据。Core Duo时代是80-bit，加入SSE指令集后增至128-bit，现在又有了AVX指令集，按照趋势会翻番至256-bit。　　RPF在寄存器文件中存储微指令操作数，而微指令在乱序执行引擎中只会携带指向操作数的指针，而非数据本身。这就大大降低了乱序执行硬件的功耗(转移大量数据很费电的)，同时也减小了流水线的核心面积，数据流窗口也增大了三分之一。　　核心面积的精简正是AVX指令(SNB最主要革新之一)集得以实现并保证良好性能的关键所在。以最小的核心面积代价，Intel将所有SIMD单元都转向了256-bit。　　AVX支持256-bit操作数，相当消耗晶体管与核心面积，而RPF的使用加大了乱序执行缓冲，能够很好地满足更高吞吐量的浮点引擎。