- 1、本文档共21页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
龙芯464E架构设计
中国科学 信息科学 年 第 卷 第 期
中国 与 专刊 论文
龙芯 处理器核架构设计
*
吴瑞阳 汪文祥 王焕东 胡伟武
计算机体系结构国家重点实验室 中国科学院计算技术研究所 北京
中国科学院计算技术研究所 北京
中国科学院大学 北京
龙芯中科技术有限公司 北京
通信作者
收稿日期 接受日期
国家科技重大专项 核高基批准号
、国家自然科学基金 批准号
和国家高技术研究发展计划 计划 批准号 资助
摘要 龙芯 是龙芯公司必威体育精装版推出的高性能处理器核架构 在本文中 将介绍 架构的
核心特性 相比于之前的 架构 重点强化了访存性能和分支预测准确率 实现了 指
令集和虚拟机支持 增大了处理器中各项队列的项数 并增大了 容量和 容量 访存子系
统拥有 级 结构 每一级都采用 替换策略 可以支持多核缓存一致性协议 经过上述强
化设计 处理器核已成为一个创新性的高性能处理器核架构
关键词 处理器核 多核处理器 分支预测 访存性能 缓存一致性
引言
多年来, 龙芯高性能处理器芯片一直采用龙芯 2F 芯片设计的 GS464 处理器核IP(intellectual
property), 该IP 使用 64 位数据宽度, 支持 4 发射和乱序发射、动态流水线技术, 并支持多核一致性
扩展. 该处理器核历经多个版本的流片, 龙芯3A 、龙芯3B 等多款芯片都使用了这个架构. 然
而, 在多年的使用中, GS464 架构的一些性能问题逐渐显现出来, 尤其是低效率的流式访存性能和较
低的分支预测准确率. 因此, 针对上一款处理器核架构的缺陷, 调研了IBM 公司的Power7 、Intel 公
司的Ivy Bridge 以及ARM 公司的Cortex-A9 等多款世界尖端芯片的设计规格, 龙芯公司于2012
年开始研发GS464E 处理器核IP. 该处理器核的设计采用多项创新技术, 重点解决积垢已久的性能瓶
颈. 使用该处理器核的龙芯3A1500 四核处理器已于2014 年流片.
GS464E 处理器核架构的主要特点有:
该处理器核重点提升了单线程的执行性能. 在本次设计中, 优化了分支预测准确率, 采用了双访
存部件的设计, 使用近期最少使用 (least recently used, LRU) 替换算法的一级数据Cache, 设计了一套
激进的预取策略, 降低定点指令相关带来的延迟, 并采用更大的发射队列、重定序队列及更大的牺牲
Cache (Victim Cache). 上述设计大幅提高了单线程程序的性能.
引用格式 吴瑞阳 汪文祥 王焕东 等 龙芯 处理器核架构设计 中国科学 信息科学
中国科学 信息科学 第 卷 第 期
片上共享Cache (shared cache, SCache) 在维持于每个 SCache 体 1 MB 容量不变的情况下, 设
计为 16 路组相联, 使用LRU 替换策略, 并采用标识部分 (tag) 和数据部分 (data) 分开读取的设计以
控制其功耗. 新的SCache 设计提高了多核多任务下的片上末级Cache 性能.
定义了LoongISA 指令集结构, 该指令集将应用于龙芯公司即将设计的多款处理器. 该指令集
包含了MIPS DSP 指令集 , 实现了虚拟机支持, 并设计有X86 及ARM 的二进制翻译加速指令. 为
了在16 KB 每路的一级Cache 的情况下支持4 KB 的页大小, 还加入了硬件抗别名 (anti-alias) 支持.
在处理器核与片上末级 Cache 之间、以及片上末级 Cache 和内存系统之间, 都采用AXI 接口,
与之前的 GS464 处理器系列兼容, 可以很容易地更换另一种处
文档评论(0)