在65nm FPGA的设计中如何获得更高的性能.doc

在65nm FPGA的设计中如何获得更高的性能.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
在65nm FPGA的设计中如何获得更高的性能

在65nm FPGA设计中如何获得更高的性能随着系统复杂度不断增加以及功能需求越来越苛刻,利用当今的FPGA实现最大的性能越来越具挑战性。在FPGA系统设计中要最大化系统性能,需要平衡性能-效率组件,包括逻辑结构、片上存储器、DSP模块和I/O带宽。本文将探讨FPGA设计师如何受益于必威体育精装版的FPGA构建模块来满足他们要求的更高系统级性能。我们会用实例来研究新的65纳米结构的特点,量化期望逻辑和算术功能性能改善。 要支持期望的性能等级,硬IP模块是必要的,这种性能等级可能受到结构之外的潜在瓶颈限制,例如片上存储器缓存、DSP模块或I/O。为此,要提供不同设计基准的分析来更好地理解新产品的影响以及技术创新,以及更好地对期望值进行量化。 逻辑结构性能 自从1980年中期推出第一块FPGA以来,绝大多数的FPGA的逻辑结构都是基于相同的基本4输入查找表(LUT)架构。今天高性能65纳米FPGA,例如Xilinx Virtex-5系列,提供了真正的基于6输入LUT(6-LUT)的架构,具有独立(非共享)的输入。在65纳米节点转换到6-LUT架构能提供最有效的关键路径延时与可利用的硅片面积折衷,关键路径延时是逻辑结构性能的决定性因素(图1)。 在65纳米的FPGA中,互连时序延时超过关键路径延时的50%。赛灵思在其65纳米FPGA中开发了一个新的互连模式,通过在很少的跳转来达到更多的地方以使延时最小。新的模式大大地增加了在两跳或三跳中可获得的逻辑连接数量。而且,这种互连方法的更为正规的布线模式更易于布局布线软件来发现最优的路径。尽管对FPGA设计师透明,但这些互连特点转换为更高的总体性能和更简单的设计布线。 更清楚展示这种好处的实例是典型的复用器(MUX)设计。在90纳米的FPGA中实现一个8:1 MUX需要四个4-LUT,而65纳米架构只需要两个6-LUT。这样可以获得更佳的性能和更高的逻辑利用率。 65纳米工艺技术和新的进位链结构的结合还能提供更高的算术运算性能。在表1中可以很容易地看到对关键路径延时的影响。 分布式存储器功能,例如LUT RAM或ROM还从其它方面受益于更大的6-LUT架构。新的纵横比允许小存储器功能非常密集的包装,获得如表2中描述的很大的性能好处。采用6-LUT架构的改良逻辑结构提供的性能改善以及互连结构很重要,但仅仅是开端。 表1:在采用Virtex-5 FPGA实现设计时,各算术功能显示出路经延时显著降低 表2:基于LUT的RAM/ROM实现也显示出采用Virtex-5 FPGA的显著改善 Block RAM性能 片上存储器的性能对于获得更高系统性能来说也非常关键,因为广泛用来存储算法过程之间的数据。无论是基于LUT的分布式存储器、Block RAM或FIFO,片上存储器用于相对较小的缓存存储。不同的应用需要不同的存储器大小以及存取时间。选择正确的存储器层级以及完全利用片上存储器可以大大地提高系统性能。例如,分布式LUT RAM非常适合于更小尺寸(4Kb)和快速的时钟到数据输出,而Block RAM可以提供更大缓存,频率高达550MHz。 采用65纳米,Block RAM时钟速度增长10%,达到550MHz。然而,为获得当前绝大多数应用期望的性能,Block RAM不能仅仅更快-还需要更大。Block RAM的大小倍增到36KB。这种更大的块(包含两个18Kb的存储器)将支持简单双端口模式的72比特的数据字,这样Block RAM带宽倍增。而且,新的架构提供了专门的连接,使设计师能将两个相邻的36KB Block RAM在Block RAM对列中层叠起来,这样来实现72KB的存储器,运行在最大550MHz速度下。 DSP性能 很多图像、信号和数据处理应用需要能在更高速度下实现数学算法的增强并行特性的专用逻辑。某些必威体育精装版的FPGA产品使设计师能配置DSP片段来实现复用器、计数器、乘法累加器、加法器和很多其它功能,这些都不需要占用逻辑结构资源。 为了满足对DSP性能似乎无止尽的需求,65纳米DSP模块的性能得到增加,在时钟速度和精度上提高,时钟速度增加到550MHz,与90纳米相比,精度从18×18比特增加到25×18比特。DSP48也针对加法器链的实现进行了优化,一种非常强大的功能使得效率非常高的高性能滤波器的创新得以实现。 每个DSP48的输入输出上的专用布线资源允许任意数量的片段在队列中被“链接在一起”。这种专用的布线资源能确保在链条中的每一个DSP48片段在不占用任何的结构布线或逻辑资源的条件下全速运行,就像其它FPGA所要求的一样。这些改善减少了一半的实现普通高精度功能所需要的资源。例如,在90纳米的FPGA中,实现35×25比特乘法需要四个DSP48,但是对于65纳米F

您可能关注的文档

文档评论(0)

skvdnd51 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档