Board logo

标题: 在65nm FPGA设计中如何获得更高的性能 [打印本页]

作者: caopengly    时间: 2007-3-3 22:40     标题: 在65nm FPGA设计中如何获得更高的性能

随着系统复杂度不断增加以及功能需求越来越苛刻,利用当今的FPGA实现最大的性能越来越具挑战性。在FPGA系统设计中要最大化系统性能,需要平衡性能-效率组件,包括逻辑结构、片上存储器、DSP模块和I/O带宽。本文将探讨FPGA设计师如何受益于最新的FPGA构建模块来满足他们要求的更高系统级性能。我们会用实例来研究新的65纳米结构的特点,量化期望逻辑和算术功能性能改善。

要支持期望的性能等级,硬IP模块是必要的,这种性能等级可能受到结构之外的潜在瓶颈限制,例如片上存储器缓存、DSP模块或I/O。为此,要提供不同设计基准的分析来更好地理解新产品的影响以及技术创新,以及更好地对期望值进行量化。

逻辑结构性能

自从1980年中期推出第一块FPGA以来,绝大多数的FPGA的逻辑结构都是基于相同的基本4输入查找表(LUT)架构。今天高性能65纳米FPGA,例如Xilinx Virtex-5系列,提供了真正的基于6输入LUT(6-LUT)的架构,具有独立(非共享)的输入。在65纳米节点转换到6-LUT架构能提供最有效的关键路径延时与可利用的硅片面积折衷,关键路径延时是逻辑结构性能的决定性因素(图1)。

在65纳米的FPGA中,互连时序延时超过关键路径延时的50%。赛灵思在其65纳米FPGA中开发了一个新的互连模式,通过在很少的跳转来达到更多的地方以使延时最小。新的模式大大地增加了在两跳或三跳中可获得的逻辑连接数量。而且,这种互连方法的更为正规的布线模式更易于布局布线软件来发现最优的路径。尽管对FPGA设计师透明,但这些互连特点转换为更高的总体性能和更简单的设计布线。


作者: caopengly    时间: 2007-3-3 22:41

更清楚展示这种好处的实例是典型的复用器(MUX)设计。在90纳米的FPGA中实现一个8:1 MUX需要四个4-LUT,而65纳米架构只需要两个6-LUT。这样可以获得更佳的性能和更高的逻辑利用率。

65纳米工艺技术和新的进位链结构的结合还能提供更高的算术运算性能。在表1中可以很容易地看到对关键路径延时的影响。

分布式存储器功能,例如LUT RAM或ROM还从其它方面受益于更大的6-LUT架构。新的纵横比允许小存储器功能非常密集的包装,获得如表2中描述的很大的性能好处。采用6-LUT架构的改良逻辑结构提供的性能改善以及互连结构很重要,但仅仅是开端。


表1:在采用Virtex-5 FPGA实现设计时,各算术功能显示出路经延时显著降低


表2:基于LUT的RAM/ROM实现也显示出采用Virtex-5 FPGA的显著改善


作者: caopengly    时间: 2007-3-3 22:43

Block RAM性能

片上存储器的性能对于获得更高系统性能来说也非常关键,因为广泛用来存储算法过程之间的数据。无论是基于LUT的分布式存储器、Block RAM或FIFO,片上存储器用于相对较小的缓存存储。不同的应用需要不同的存储器大小以及存取时间。选择正确的存储器层级以及完全利用片上存储器可以大大地提高系统性能。例如,分布式LUT RAM非常适合于更小尺寸(<4Kb)和快速的时钟到数据输出,而Block RAM可以提供更大缓存,频率高达550MHz。

采用65纳米,Block RAM时钟速度增长10%,达到550MHz。然而,为获得当前绝大多数应用期望的性能,Block RAM不能仅仅更快-还需要更大。Block RAM的大小倍增到36KB。这种更大的块(包含两个18Kb的存储器)将支持简单双端口模式的72比特的数据字,这样Block RAM带宽倍增。而且,新的架构提供了专门的连接,使设计师能将两个相邻的36KB Block RAM在Block RAM对列中层叠起来,这样来实现72KB的存储器,运行在最大550MHz速度下。

DSP性能

很多图像、信号和数据处理应用需要能在更高速度下实现数学算法的增强并行特性的专用逻辑。某些最新的FPGA产品使设计师能配置DSP片段来实现复用器、计数器、乘法累加器、加法器和很多其它功能,这些都不需要占用逻辑结构资源。

为了满足对DSP性能似乎无止尽的需求,65纳米DSP模块的性能得到增加,在时钟速度和精度上提高,时钟速度增加到550MHz,与90纳米相比,精度从18×18比特增加到25×18比特。DSP48也针对加法器链的实现进行了优化,一种非常强大的功能使得效率非常高的高性能滤波器的创新得以实现。

每个DSP48的输入输出上的专用布线资源允许任意数量的片段在队列中被“链接在一起”。这种专用的布线资源能确保在链条中的每一个DSP48片段在不占用任何的结构布线或逻辑资源的条件下全速运行,就像其它FPGA所要求的一样。这些改善减少了一半的实现普通高精度功能所需要的资源。例如,在90纳米的FPGA中,实现35×25比特乘法需要四个DSP48,但是对于65纳米FPGA中更宽的DSP48模块,则只需要两个。


图1:在65纳米工艺中6-LUT架构提供了关键路径延时与裸片面积的最优折衷


作者: caopengly    时间: 2007-3-3 22:44

I/O性能

正如性能测试基准所显示的,FPGA可以处理数据的速度只与器件的I/O带宽条件相关,即大量数据移入移出器件的速度。当使用外部存储器对接口进行缓存时,速度必须是数据处理速度的两倍以上,因为数据必须在FPGA之外写入,以及读入到FPGA。

65纳米FPGA相对于前一代的90纳米器件的I/O带宽增加了,包括每个管脚数据速度,以及更大封装可用的管脚数。例如,在像DDR2 SDRAM这样流行的存储器接口上,每个管脚的带宽从534Mbps增加到667Mbps,当考虑到并发开关输出(SSO)要求,数据I/O的数量也从432个增加到576个。这些实质性的改善是由于65纳米技术带来的每个封装更多的I/O数量嵌入到每个I/O模块的硬IP数量,以及先进的封装技术能提供更佳电源与地分布,从而使SSO噪声最小。

设计基准与分析

为评估FPGA逻辑结构实现的性能改善,赛灵思利用其集成软件环境(ISE)实现了一组客户设计,这些设计都用VHDL或Verilog写成。某些特定设计单元,例如存储器和FIFO使用直接存储器组件实例或综合推论来实现,但是其中很多也是采用EDIF模块实现,EDIF模块由CoreGenerator产生,CoreGenerator是ISE软件的一部分。

对于这些测试基准,利用来自Synplicity公司的Synplify Pro,使用严格的、真实约束条件以时序驱动的方式有效地测试性能。这样做以确保所有的特殊优化和逻辑复制得到实行。

在更多的布局布线工作下,可以完成在ISE中的实现。时钟按5%的增量紧紧重复,直到设计不能满足设计约束。其结果是获得比上一代的90纳米Virtex-4 FPGA实现的设计的平均性能高30%,如图2所示。


图2:基于74个采用Xilinx ISE 8.2i的用户设计比较


作者: caopengly    时间: 2007-3-3 22:46

具有最大改进的设计拥有大量的逻辑,例如关键路径实现了一个大的、通常很复杂的逻辑等式。一般地,对于在关键路径中的大量逻辑,ASIC原型设计具有很少的寄存器。这些类型的设计展现了65纳米结构的重大改进。

例如,在设计套件中的第二个最大的改进(53%)是视频应用的用户设计。乘法器大小需要非常完美地适合65纳米FPGA的DSP48片断。90纳米上的相同实现需要两个乘法器以及一个加法器,使关键路径对于设计中指定的延时更慢。

表现出适当改善的设计不是具有较少的逻辑,就是提供很少使用硬IP模块的机会或改进性能的进位链结构。

在另外一个实例中,其中一个设计表现出一般改进,在这个实例中只有5%,因为设计得到很好的管线处理而且在90纳米的设计中逻辑的层次就很少,因此减少逻辑层次的机会很少。分析显示为改进这种特定的设计,Block RAM需要进行完全的管线处理,因为它会增加关键路径的延时。当其两级管线都使用时,Block RAM只全速运行。

本文小结

在对更高性能的研究中,当前FPGA设计师必须评估最新的FPGA技术。很明显,像基于6-LUT架构的赛灵思公司65nm Virtex-5 FPGA这样的新产品,更快的布线、紧凑地连接到更高性能的硬IP模块和I/O,与前一代的架构相比,性能得到很大的提高。






欢迎光临 电子技术论坛_中国专业的电子工程师学习交流社区-中电网技术论坛 (http://bbs.eccn.com/) Powered by Discuz! 7.0.0