ARM多核Cortex-A9处理器解剖

论坛元老

Rank: 8 Rank: 8

UID: 1029342
性别: 男

1^#

打印

字体大小: tT

yuyang911220发表于 2015-10-22 20:40 | 只看该作者

ARM多核Cortex-A9处理器解剖

手提电脑, 娱乐设备, 处理器, 游戏机, 消费者

许多主流处理器应用对性能的要求都日益提高，以实现更快的数据速率、更多的媒体服务和更多新功能(如利用丰富动态用户界面的加密和安全等功能)。在此类应用中，消费者需求是促进产品开发的主要驱动力，因此降低终端产品成本就成了制造商面临的一大挑战。这并不仅仅是竞争问题：同时也关乎在发展中国家开辟新市场的工作，这些国家的可支配收入要比西方世界少得多。在应用领域，既要求低成本又要求高性能的实例不在少数，比如：联网手提电脑及其他便携式设备、手机、PDA、机顶盒应用、游戏机以及车载信息娱乐设备等等，不一而足。
消费者不但希望产品功能更强大，也期望便携式产品的电池使用寿命更长。如今，全天候使用已经成为最低要求，为了达到这一要求，电话、智能电话和PDA厂商们必须着眼如何有效率地提升产品性能、增加产品功能。
拿智能电话来说，其性能要求既包括待机时的非活动状态，也包括游戏时的高度活动状态。因此，其系统架构必须能够有效支持产品性能的“两极”。
采用多核处理器架构不但能够解决峰值性能的要求，而且其设计也能够大大降低功耗。多核设备具有性能可扩展性高和功耗低的特点，为设计提供了极大的灵活性。
最新开发的ARM Cortex-A9处理器是ARM处理器系列中性能最高的一款产品，该款处理器采用了广受支持的ARM v7架构，充分实现了其丰富性。Cortex-A9处理器的设计是基于最先进的推测型八级流水线，该流水线具有高效、动态长度、多发射超标量及无序完成特征，这款处理器的性能、功效和功能均达到了前所未有的水平，完全能够满足消费、网络、企业和移动应用等领域尖端产品的要求。
Cortex-A9微架构提供两种选项：可扩展的Cortex-A9 MPCoreTM多核处理器和较为传统的Cortex-A9单核处理器。可扩展的多核处理器和单核处理器(两款不同的独立产品)支持16、32或64KB四路组相联一级缓存的配置，具有无与伦比的灵活性，皆能达到特定应用和市场的要求。

满足多重市场的要求
Cortex- A9处理器为包括手机、高端消费类电子和企业产品在内的多种市场应用提供了一种具有可扩展性的解决方案，因为该款处理器满足了以下各项要求：1. 降低功耗、提升功效和性能；2. 提升峰值性能，适应各种要求最为严苛的应用，开发不同设备时可复用软件和工具；3. 两款Cortex-A9处理器皆具有完美的应用兼容性；4. 媒体处理引擎(MPE)或浮点运算单元(FPU)还能加强特定应用中的性能表现，进一步扩大了这两款处理器的市场应用范围。
两款处理器的应用设计配置均具有极大的灵活性，允许根据具体应用和特定市场的要求进行定制。
先进的微架构
Cortex- A9微架构的设计不但着眼于解决超高频设计的效率低下问题，而且把目标定为在不增加嵌入式设备硅成本的前提下最大限度地提升处理效率。通过综合技术，这种处理器设计能使设备的时钟频率超过1GHz，而且提供了较高的功效水平，满足了长时间电池供电工作的要求。
流水线性能介绍
Cortex- A9处理器最主要的流水线性能包括以下几条：第一，先进的取指及分支预测处理，可避免因访问指令的延时而影响跳转指令的执行；第二，最多支持四条指令 Cache Line预取挂起，这可进一步减少内存延时的影响，从而促进指令的顺利传输；第三，每个周期内可连续将两至四条指令发送到指令解码，确保充分利用超标量流水线性能。Fast-loop模式：执行小循环时提供低功耗运行；第四，超标量解码器可在每个周期内完成两条完全指令的解码；第五，支持指令预测执行：通过将物理寄存器动态地重新命名至虚拟寄存器池来实现。
第六，提升了流水线的利用效率，消除了相邻指令之间的数据依赖性，减少了中断延时；第七，支持寄存器的虚拟重命名：以一种有效的、基于硬件的循环展开方法，提高了代码执行效率，而不会增加代码大小和功耗水平；第八，四个后续流水线中的任何一个均可从发射队列中选择执行指令—提供了无序分配，进一步提高了流水线利用效率，无需借助于开发者或编译器指令调度。确保专为上一代处理器进行优化的代码能够发挥最大性能，也维护了现有软件投资。
第九，每周期支持两个算术流水线、加载-存储(load- store)或计算引擎以及分支跳转的并行执行；第十，可将有相关性load-store指令提前传送至内存系统进行快速处理，进一步减少了流水线暂停，大幅提高了涉及存取复杂数据结构或C++函数的高级代码的执行效率；第十一，支持四个数据Cache Line的填充请求：而且还能通过自动或用户控制预取操作，保证了关键数据的可用性，从而进一步减少了内存延时导致的暂停现象；第十二，支持无序指令完成回写：允许释放流水线资源，无需受限于系统提供所需数据的顺序。
Cortex-A9 MPCore技术
Cortex-A9 MPCore多核处理器是一种设计定制型处理器，以集成缓存一致的方式支持1到4个CPU内核。可单独配置各处理器，设定其缓存大小以及是否支持FPU、 MPE或PTM接口等。此外，无论采用何种配置，处理器都可应用一致性加速口，允许其他无缓冲的系统控制外设及加速器(如DMA引擎或加密加速器)核与一级处理器缓存保持缓存一致。另外还集成了一种符合GIC架构的综合中断及通信系统，该系统配有专用外设，其性能和软件可移植性都更上一层楼，适当配置后，可支持0(legacy bypass 模式)到224个独立中断资源。这种处理器可支持单个或两个64位AMBA3 AXITM互联接口。
Cortex-A9 MPCore多核处理器采用了通过硅验证的ARM MPCore技术的增强版，实现了可扩展型多核处理：
侦测控制单元(SCU)
SCU 是ARM多核技术的中央情报局，负责为支持MPCore技术的处理器提供互联、仲裁、通信、缓存间及系统内存传输、缓存一致性及其他多核功能的管理。同时，Cortex-A9 MPCore处理器还率先向其他系统加速器及无缓冲的DM A驱动控制外设开启此类功能，通过处理器缓存层次的共享，有效地提高了性能、减少了整个系统的功耗水平。不仅如此，利用这种系统来维持每个操作系统驱动中的软件一致性，软件复杂性就大大降低了。
加速器链接埠
这个与AMBA 3 AXI兼容的Slave接口位于SCU之上，为多种系统Master接口提供了一个互联接口；出于总体系统性能、功耗或软件简化等方面的考虑，最好直接将这些Master接口与Cor tex-A9 MPCore处理器相连。这是个标准的AMBA 3 AXI Slave接口，支持所有标准读写事务，对所接部件无任何附加一致性要求。
然而，指向某个一致内存区的读取事务要与SCU发生作用，以检测所需信息是否已经存储在处理器的一级缓存之中。若检测出确已存储，相应信息将被直接返回给发出请求的组件。如果一级缓存中不存在该信息，在最终传给主内存之前也可能检测二级缓存。对于指向一致内存区的写入事务，SCU会在把写入事务传送至内存系统之前强制确保一致性。也可选择性地将事务分配给二级缓存，以避免直接写入片外内存所带来的功耗及性能影响。
通用中断控制器(GIC)
该 GIC采用了最近标准化和架构的中断控制器，为处理器间通信及系统中断的路由选择及优先级的确定提供了一种丰富而灵活的解决办法。最多支持224个独立中断，通过软件控制，可在整个CPU中对每个中断进行分配、确定其硬件优先级并在操作系统与信任区软件管理层之间进行路由。这种路由灵活性加上对中断虚拟进入操作系统的支持，是进一步提升基于半虚拟化管理器解决方案功能的关键因素之一。
先进的总线接口单元
Cortex-A9 MPCore处理器增强了处理器与系统互联之间的接口性能，其先进特色功能最大限度地提高了系统性能，为各种系统集成芯片设计理念创造了更大的灵活性。
这种处理器支持单个或两个64-b i t AMBA 3 AXI Master接口的设计配置，可以按CPU的速度全负荷地将事务传送至系统互联之中，最高速度可达12G B/s以上。另外，第二接口也可定义某种事务过滤，只处理全局地址空间的一部分；也就是说，可在处理器内部直接对地址空间进行切分，进一步加强了系统设计的灵活性。
而且每个接口还支持不同的CPU-总线频率比(包括同步半时钟比)，不但提高了设计灵活性，而且为需要考虑DVFS或高速集成内存的设计增加了系统带宽。同时为完整的A RM智能能量管理 (IEM)功能提供了良好的支持。

收藏分享评分

继承事业，薪火相传

回复引用

订阅 TOP

返回列表