- UID
- 1023166
- 性别
- 男
- 来自
- 燕山大学
|
解读ARM GPU的三个发展趋势
随着智能手机平板电脑进入视网膜屏高清时代,GPU的重要性日益凸显,用户在使用这些电子设备时,首先关注的是高清视频、3D游戏以及flash动画的体验,而这些体验和GPU性能有直接联系,一款性能出色的GPU不但可以给用户以最佳体验,更兼顾低功耗特性,在CPU核战已无悬念的情况下,未来GPU将如何发展?近日,电子创新网总编张国斌独家采访了ARM公司媒体处理部门战略营销副总裁Kevin Smith,就ARM GPU未来发展进行了交流,归纳为ARM GPU的三个发展趋势。
趋势一:关注可扩展性,GPU核战爆发在即
在PC领域,曾经爆发过有关CPU与GPU谁更重要的口水大战,现在看来,两者都重要,因为它们架构不同、侧重不同,CPU和GPU都是具有高速运算能力的芯片,CPU更像“通才”——指令运算+数值运算,GPU更像“专才”——图形计算,不同类型的运算速度决定了它们的能力。因此CPU更擅长像操作系统、系统软件和通用应用程序这类拥有复杂指令调度、循环、分支、逻辑判断的程序任务,而GPU则擅长图形类和非图形类的高度并行数值计算。因此,在一部手机或者平板中,两者需要均衡搭配才能发挥出最大效能。
到目前为止,ARM共发布了人Mali100、Mali300、Mali400、Mali450和Mali T600等五个系列的GPU,在MaliT600以后,ARM GPU在结构上发上了很大改变,以桌面应用看齐,在性能上有很大提升。
Mali400结构功能图
Mali-t604功能图
Kevin Smith介绍说实际上在发布T600系列时,ARM已经考虑到了与未来64位处理器的兼容问题,所以Mali-T600的第二代支持64位双精度,可以与ARM最新的A50系列64位处理器紧密关联。“另外,T600系列采用了这色器内核架构和三管道体系,更容易实现多核,这比其他架构GPU更有优势。” Kevin Smith强调。“未来ARM会重点优化T600系列产品,例如我们最新发布的T624\T628\T678就比T604在同等裸片面积性能提升50%!”
他解释说性能的提升源自对架构的增强,例如这三款系列GPU可在同样的内核面积下提供更高的时钟频率、更高的IPC(每时钟周期指令数)、更高的能效,所以每个型号的性能都可以提升50%。
另外,这三款GPU也首次次支持ASTC(适应性可扩展纹理压缩):这是一种由ARM开发、Khronos Group已将其纳入OpenGL ES规范的纹理压缩技术,能在系统级别提高效率,并改进纹理质量和弹性,“而且,ARM GPU也是率先支持OpenGL ES 3.0版新标准的处理器。”他指出,“我们的GPU支持OpenGL Full Profile的GPU计算,不但支持OpenGL ES 1.1/2.0/3.0、DX 11/11 FL 9_3,此外还支持Google RenderScript计算语言。实际上已经向桌面应用看齐。也向GPGPU更迈进了一步。当然,这也是增强兼容性的举措,我们的策略是就是支持公开的各类标准和API。”
Mali-T678功能框图
由于GPU的并行架构更适合实现多核,因此为未来多核GPU将是一大亮点,Kevin表示依托ARM的独特优势,未来不管是16核还是24核均可以轻易实现。
ARM GPU的扩展性示意图
在我采访Imagination时,他们也勾勒了一幅未来处理器发展的蓝图,显然,多核GPU是亮点。
未来处理器发展的蓝图
那么2013年,主流的GPU产品将是多是核心?Kevin认为8核GPU会出现但将是高端市场,主流市场仍将是四核为主,不过他认为明年市场上GPU跨度较大,从单核到双核到四核到8核都有出现,满足市场从低到高的需求。
近日,谷歌Nexus 10平板电脑已经面市,它的真实面貌。该机采用一块10英寸屏幕,分辨率高达2560×1600像素,像素密度为300ppi,超过了iPad4和新iPad,它采用了1.7GHz主频的三星Exynos 5250双核处理器,配备2GB RAM,集成Mali T604四核GPU,Kevin强调这样高端机型足以说明ARM GPU可以支持高端应用。
在GPU的发展策略上,Kevin介绍说ARM会坚持以较小的面积实现更高的性能,即坚持高能效的策略,同时,会考虑高性能方向,向桌面GPU看齐。
以下是各类GPU的功耗对比,可以看出,ARM GPU在单位功耗方面的性能突出,能达到每瓦48GFLOPS的特性,原高于桌面GPU的能效。
处理器 | 类型 | GFLOPS (32bit) | GFLOPS (64bit) | Watt (TDP) | GFLOPS/Watt (32bit) | FLOPS/Watt (64bit) | Adapteva Epiphany-IV | Epiphany | 100 | N/A | 2 | 50 | N/A | Movidius Myriad | ARM SoC: LEON3+SHAVE | 15.28 | N/A | 0.32 | 48 | N/A | ZiiLabs | ARM SoC | 58 | N/A | ? | 20? | N/A | Nvidia Tesla K10 | X86 GPU | 4577 | 190 | 225 | 20.34 | ? | ARM + MALI T604 | ARM SoC | 8 + 68 | N/A | 4? | 19? | N/A | NVidia GTX 690 | X86 GPU x 2 | 5621 | 234? | 300 | 18.74 | 0.78 | GeForce GTX 680 | X86 GPU | 3090 | 128 | 195 | 15.85 | 0.65 | AMD Radeon HD 7970 GHz | X86 GPU | 4300 | 1075 | 300+ | 14.3 | 3.58 | Intel Knight's Corner (Xeon Phi) | X87? | 2000? | 1000 | 200? | 10? | 5? | AMD A10-5800K + HD 7660D | X86 SoC | 121 + 614 | ? | 100 | 7.35 | ? | Intel Core i7-3770 + HD4000 | X86 SoC | 225 + 294,4 | 112 + 73.6 | 77 | 6.74 | 2.41 | NVIDIA CARMA (complete board) | ARM + GPU | ? + 200 | ? | 40 | 5.00 | ? | IBM Power A2 | Power CPU | 204? | 204 | 55 | 3.72? | 3.72 | Intel Core i7-3770 | X86 CPU | 225 | 112 | ? | ? | ? | AMD A10-5800K | X86 CPU | 121 | 60? | ? | ? | ? |
趋势二:关注一致性,与CPU融合
在PC处理器领域,AMD以融合CPU和GPU的APU开创了新的PC处理器领域,在移动处理器领域,这个趋势仍将延续,从近日Imagination对MIPS的收购已经显现端倪。Kevin也认同这个趋势,“ARM的GPU不但注重图形处理更看重通用计算,未来CPU与GPU要走融合的道路,所以ARM在布局GPU时就考虑与未来CPU的搭配,比如我们的GPU是支持64位处理器的,所以未来处理器升级到64位我们都可以支持。”他指出,“ARM考虑到是让用户用最快的方式实现低功耗高性能处理器,未来融合CPU与GPU的Soc内部会采用ARM的AMBA总线。”
实际上,在ARM的的Mali-T600 系列 GPU 内的有个作业管理器,它可以任务管理从 CPU 卸载到 GPU,并在活动着色器内核之间实现无缝负载平衡。这个功能估计已经为未来的CPU与GPU融合埋下了伏笔,通过 ARM 的一致性和互连技术,计算任务在异类系统中进行共享处理时,可以轻松跨越 CPU、GPU 和其他可用计算资源,更高效地访问数据。
他强调ARM GPU还关注通用计算,因此,未来也将压缩DSP市场,CEVA是否感受到了压力?
从支持64位处理里来看,未来采用融合CPU与GPU的处理器将是A50系列处理器,按照某些芯片厂商的估计,预计2014年此类芯片可以面市。
趋势三:工艺升级,2014年ARM处理器采用finFET技术?
很多人认为ARM处理器在传统工艺上的升级空间已经不大,在英特尔大张旗鼓地宣传3D晶体管技术的时候,ARM 其实也也已经开始了下一代工艺技术的研发,Kevin透露ARM的PIP(物理IP)部门早与TSMC以及Global Foundries合作开始了下一代工艺finFET晶体管工艺技术的研发,这是前所未有的,预计新的工艺技术将在TSMC的16nm工艺 和Global Foundries上的14nm上实现,而新工艺可能会用于ARM下一代64位处理器上。
在具体产品发展上,在ARM公布了最新的A50系列处理器后,已经有AMD、博通(Broadcom)、Calxeda、海思半导体、三星及意法半导体等七家公司获得A53与A57处理器授权,其中,STE声称将在2014年出货A53处理器,这是否意味着2014年ARM处理器将采用finFET工艺技术?
在今年1月召开的2012国际电子器件会议(IEDM)上,TSMC已经展示有关finFET晶体管工艺技术,台积电将提供的16nm工艺金属布线部分直接沿袭20nm工艺,将晶体管部分换成16nm工艺的FinFET。与20nm工艺相比,可使晶体管的工作速度提高20%~25%,使耗电量降低35%。由于金属布线部分在20nm工艺和16nm工艺间通用,因此两工艺的芯片面积相同。与intel的工艺不同,台积电的finFET晶体管掺入了锗材料。
TSMC展示有关finFET晶体管工艺技术
以下为采用主要GPU的处理器性能对比
GPU | 应用芯片 | 应用设备 | 运算能力(GFLOPS at 200 MHz) | GFLOPS in SoC | PowerVR SGX543MP4+ | PSVita | PlayStation Vita | 25.6 | 25.6+ | PowerVR SGX543MP2 | Apple A5 | Apple iPhone 4S | 12.8 | 16
at 250 MHz* | Mali-400 MP4 | Exynos 4210 | Samsung Galaxy S II | 7.2 | 9.9
at 275 MHz | "Kal-El" GeForce | Tegra 3 | ASUS Transformer Prime | 4.8 | 9.6
at 400 MHz* | PowerVR SGX540 | OMAP4460 | Galaxy Nexus | 3.2 | 6.1
at 384 MHz | Adreno 220 | MSM8260 | HTC Sensation | N/A | N/A | ULP GeForce | Tegra 2 | Motorola Xoom | 3.2 | 5.3
at 333 MHz | PowerVR SGX540 | OMAP4430 | Motorola Droid Razr | 3.2 | 4.8
at 304 MHz | ULP GeForce | Tegra 2 | LG Optimus 2X | 3.2 | 4.8
at 300 MHz | PowerVR SGX540 | Hummingbird | Samsung Galaxy S | 3.2 | 3.2
at 200 MHz | Adreno 205 | MSM8255 | HTC Titan | N/A | N/A | PowerVR SGX535 | Apple A4 | iPhone 4 | 1.6 | 1.6
at 200 MHz* | PowerVR SGX530 | OMAP3630 | Motorola Droid X | 1.6 | 1.6
at 200 MHz | Adreno 200 | QSD8250 | HTC HD7 | N/A | N/A |
|
|