首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

TMS320C5000性能介绍-数字信号处理器(3)

TMS320C5000性能介绍-数字信号处理器(3)

'C54x CPU的指令流水线有六级,每个周期有六条指令在工作,它们处于整个执行过程的不同阶段,如图9所示。

图9 流水线不同工作阶段操作内容

流水线的工作全部为单字指令连续执行时(理想情况)如图10 所示。

图10 流水线正常工作时做业情况

  第二部分:TMS320C54xx性能介绍(二)

  TMS320C55是TI公司最新推出的定点DSP芯片系列,它比'C54x的性能有很大提高,而且功耗大大降低,是目前TI公司推出的功率最小的DSP芯片,适用于便携式超低功率场合。
  TMS320C55x主要特点:
  图1是'C55x的功能结构图,它的主要特点如下:

图1 TMS320C55x功能结构框图

  超低功耗设计:
  在硬件结构中采用双MAC,有4个40bit的累加器,因而在一个周期内可完成更多的任务。

  有更多的"自动并行"指令。为发挥附加的硬件功能,有的指令隐含或装有并行化的能力;另一些指令通过'C55x DSP核的最佳汇编器和C编译器自动安排成并行运行。

  用户可自行编程达到并行操作,以便充分利用'C55x DSP芯片的性能。

  附加新的指令,扩展硬件处理能力。例如双16位的算术运算、双MAC、条件移位、条件加或减、比例并选择极值、偶或奇对称的FIR滤波、并行移位和存储、寄存器比较或交换等一系列新的指令。

  先进的高级功率管理能力。其一是自动断电能力,'C55x DSP核连续的对内存、外设和核心功能单元进行监视,自动的对不工作单元断电;其二是用户可以自己配置IDLE休闲域,'C55x有64种休闲方式,通过改变休闲域寄存器对应的状态位就可以改变对应部件电源的通断。
  通过增加硬件和操作的并行性,极大的提高了处理器的处理能力。
  可变指令长度增加代码密度:指令长度为8/16/24/40/48 bit,选择不同长度可使编码密度达到最佳和有效地利用总线;指令预取由16 bit增加到32 bit;片上指令缓存单元自动的不包装指令,以便最有效地利用每一周期。

  附加总线和扩充地址增加数据流量:'C55x有一组程序总线,3组读总线,2组写总线,每组总线中的地址线有24 bit,因而极大的扩充了寻址能力。

  外部存储器接口性能比'C54x有很大提高:采用双字宽(32 bit)及高速低价格同步存储器,使存储器操作与CPU操作具有相同的速率。同时有自动断电功能,电源只在使用时接通。

  指令高速缓存减少外部存储器访问:'C55x是第一个采用指令高速缓存的器件,允许几条指令同时加载到高速缓存器中,CPU不必对每条指令都去访问存储器,并且在时钟速率下利用指令,增加速度,降低功耗。

  改进的控制代码,改善了控制代码的密度:'C55x 增加了几个控制代码的附件,包括新的指令缓存单元、数据存储器和ALU。对条件执行的两种可能性都有准备,使得一旦条件出现,DSP立即响应。

  高级仿真缩短调试周期:代码与'C54x兼容,维护消费者的软件投资。

  TMS320C55x结构概述

'C55x结构主要由下列各部分组成:

图2 指令缓冲单元(1单元)框图
一个32×16-bit 指令缓冲队列:缓冲可变长度指令和实现块重复操作。

两个17-bit×17-bit MAC:在单周期内实现双MAC操作。

一个40-bit ALU:执行高精度算术和逻辑运算。

一个40-bit 桶形移位寄存器:可以把40-bit结果左移31 位或右移32位。

一个16-bit ALU:和主ALU并行执行简单算术运算。

图3 程序流单元(P单元)框图
四个40-bit 累加器:保持计算结果和减少所需存储器数量。

十二条独立总线:并行地对不同操作单元同时提供处理指令和操作数。

图4 地址数据流单元(A单元框图)
  指令缓冲单元功能
  它对应用程序的指令进行缓存和解码,包含了解释'C55x可变长度指令的解码逻辑。指令缓存单元使各种计算单元的任务流量维持一个常数, 以便增加DSP的效率。(见图2)
  程序流单元功能
  当程序执行时,这个单元用来保存执行点的轨迹。此单元包括使循环有效的硬件以及用于预测转移、条件执行、流水线保护的专用硬件。当程序的控制发生变化时,例如转移和调用子程序时,这个硬件能使处理器所需周期数减少,从而可提高处理效率。(见图3)
  地址数据流单元功能
  在程序执行期间,这个单元提供数据访问的地址指针。此单元可以使'C55x 实现有效的寻址模式。管理五条数据总线的专用硬件用来保持各个计算单元有恒定的数据流。由于有一个通用的ALU作简单的算术运算,使得地址数据流单元可进一步增加'C55x 结构的指令并行性。(见图4)
  数据计算单元功能
  这个单元是CPU的心脏,完成对被处理数据的算术运算。它包括两个MAC(乘法累加器)、主ALU(40-bit)、4个40-bit的累加寄存器,其附加的功能部件有桶形移位寄存器、舍入与饱和控制以及有效完成Viterbi计算的专用硬件。由此单元给出的指令的并行性是'C55x处理效率高低的关键。(见图5)

  TMS320C54x和TMS320C55x性能比较

继承事业,薪火相传
返回列表