如何采用FPGA协处理器实现算法加速

金牌会员

Rank: 6 Rank: 6

UID: 1062083
性别: 男

1^#

打印

字体大小: tT

yuchengze发表于 2016-8-22 09:23 | 只看该作者

如何采用FPGA协处理器实现算法加速

设计工程师, 计算机, 处理器, 嵌入式, 最大的

今的设计工程师受到面积、功率和成本的约束，不能采用GHz级的计算机实现嵌入式设计。在嵌入式系统中，通常是由相对数量较少的算法决定最大的运算需求。使用设计自动化工具可以将这些算法快速转换到硬件协处理器中。然后，协处理器可以有效地连接到处理器，产生“GHz”级的性能。　　本文主要研究了代码加速和代码转换到硬件协处理器的方法。我们还分析了通过一个涉及到基于辅助处理器单元(APU)的实际图像显示案例的基准数据均衡决策的过程。该设计使用了在一个平台FPGA中实现的一个嵌入式PowerPC。
　　协处理器的意义
　　协处理器是一个处理单元，该处理单元与一个主处理单元一起使用来承担通常由主处理单元执行的运算。通常，协处理器功能在硬件中实现以替代几种软件指令。通过减少多种代码指令为单一指令，以及在硬件中直接实现指令的方式，从而实现代码加速。
　　最常用的协处理器是浮点单元(FPU)，这是与CPU紧密结合的唯一普通协处理器。没有通用的协处理器库，即使是存在这样的库，将依然难以简单地将协处理器与一个CPU(例如Pentium 4)连接。Xilinx Virtex-4 FX FPG
A拥有一个或两个PowerPC，每个都有一个APU接口。通过在FPGA中嵌入一个处理器，现在就有机会在单芯片上实现完整的处理系统。
　　带APU接口的PowerPC使得在FPGA中得以实现一个紧密结合的协处理器。因为频率的需求以及管脚数量的限制，采用外部协处理器不大可行。因此可以创建一个直接连接到PowerPC的专用应用协处理器，大大地提高了软件速度。因为FPGA是可编程的，你可以快速地开发和测试连接到CPU的协处理器解决方案。
　　协处理器连接模型
　　协处理器有三种基本的形式：与CPU总线连接的、与I/O连接的和指令流水线连接(Instruction Pipeline Connection)。此外，还存在一些这些形式的混合形式。
　　1. CPU总线连接
　　处理器总线连接加速器需要CPU在总线上移动数据以及发送命令。通常，单个数据处理就需要很多的处理器时钟周期。因为总线仲裁以及总线驱动的时钟是处理器时钟的分频，所以会降低数据处理速度。一个与总线连接的加速器可以包含一个存储器存取(DMA)引擎。在增加额外的逻辑情况下，DMA引擎允许协处理器工作在位于连接到总线的存储器上的数据块，独立于CPU。
　　2. I/O连接
　　与I/O连接的加速器直接连接到一个专用的I/O端口。通常通过GET或PUT函数提供数据和控制。因为缺少了仲裁、控制复杂度降低以及连接器件较少，因此这些接口的驱动时钟通常比处理器总线更快。这种接口的一个较好的例子如Xilinx Fast Simplex Link(FSL)。FSL是一种简单的FIFO接口，可以连接到Xilinx MicroBlaze软核处理器或Virtex-4 FX PowerPC。与处理器总线接口中的数据移动相比，通过FSL移动的数据具有较低的延时和更高的数据速率。
　　3. 指令流水线连接
　　指令流水线连接加速器直接连接到CPU的计算内核。通过与指令流水线连接，CPU不能识别的指令可以由协处理器执行。操作数、结果以及状态直接从数据执行流水线向外传递，或接收。单个运算可以实现两个操作数的处理，同时返回一个结果和状态。
　　作为一个直接连接的接口，连接道指令流水线的加速器可以用比处理器总线更快的时钟驱动。Xilinx通过APU接口实现这种协处理器连接模型，对于典型的双操作数指令，在数据控制和数据传输上可以缩减10倍的时钟周期。APU控制器还连接到数据缓存控制器，通过它可以执行数据加载/存储操作。因此，APU接口能在每秒内移动数百兆字节，接近DMA速度。
　　I/O连接加速器或指令流水线连接加速器可以与总线连接加速器结合起来。在增加额外的逻辑条件下，可以创建一个加速器，这个加速器运行在一个位于总线连接存储器上的数据块上，通过一个快速、低延时的接口接收命令并返回状态。
　　在本文中介绍的C-HDL工具组可以实现总线连接和I/O连接加速器，它还能实现连接到PowerPC的APU接口的加速器。尽管APU连接是基于指令流水线的，C-HDL工具组实现了一种I/O流水线接口，该接口具有I/O连接加速器的典型性能。

收藏分享评分

回复引用

订阅 TOP

返回列表