首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

深度学习的三种硬件方案:ASIC,FPGA,GPU分析

深度学习的三种硬件方案:ASIC,FPGA,GPU分析

目前来说,GPU贵,功耗高,运行效率比FPGA高,易使用。FPGA功耗,单颗性能是低的,单颗FPGA的硬件设计挑战没有GPU大,但是总体性价比和效率不占优;Intel收购Altera是否可以通过其工艺实力,给其带来极具的功能提升,我们还在长期的期待过程中。FPGA如果实现深度学习功能,还需要大批量使用,才能实现完整的功能,且需要与CPU相结合。
另外一个问题是,FPGA的大规模开发难度偏高,从业人员少。我们可以通过ARM战胜MIPS、以及STM32的迅速发展可以看到,一个好的生态环境,更多的从业人口,比技术、性价比本身更利于其发展。所以易用性是几个并行技术发展的一个重要考量维度。
FPGA犹如乐高,其灵活性,根据实际应用的需求,构建我所需要的硬件组件。但是乐高本身就是一种浪费:其功耗性能比,可变布线资源、多余的逻辑资源,其实都是浪费。所以你如果用乐高做一个机器人跟一个专门为格斗而开发的机器人对抗,结果可想而知。


FPGA在深度学习的应用场景,存在的价值在于其灵活性。DNN是深度神经网络系统的统称,实际使用的时候,使用几层网络,最终结果用什么样的筛选策略,在不同的应用和不同的设计框架下面,对硬件的诉求并不相同。
要看设计者的建模方案。GPU的一个缺点是,他的组件模块是乘法器、加法器。虽然深度学习的参数都是数学模型,需要对RTL级别的变化,但是GPU的硬件资源是以乘法器、加法器这样量级的硬件单元组成的。如果GPU的预先配置与使用者的模型相差甚远。例如:加法器配置15个,乘法器配置15个。但实际使用的时候,乘法器使用量是15个,但是加法器只需要2个。这就浪费了13个加法器的资源。而FPGA是以查找表和触发器子单元,组合成任意运算单元。
但是换种角度来看FPGA本身就是一种浪费。
当然ASIC是能效最高的,但目前,都在早期阶段,算法变化各异。想搞一款通用的ASIC适配多种场景,还是有很多路需要走的。但是,在通信领域,FPGA曾经也是风靡一时,但是随着ASIC的不断发展和蚕食,FPGA的份额和市场空间已经岌岌可危。如果深度学习能够迅速发展,有可能这个过程会比通信领域过程更短。
人机大战落幕后的两个月,谷歌硬件工程师 Norm Jouppi 才公开了其加速硬件的存在。在博客中,他解释道,谷歌给数据中心装备这些加速器卡已经有超过一年的时间。虽然谷歌对技术细节严格保密,但已透露它们专为谷歌开源项目 TensorFlow 而优化;它采取了:ASIC。
谷歌发布了人工智能芯片:Tensor Processing Unit,这是ASIC
据知情人士说,TPU已经在谷歌的数据中心运行了一年时间,由于谷歌严守TPU的秘密,所以TPU一直不为外界所知。这位知情人士说,从目前的运行效果来看,TPU每瓦能耗的学习效果和效率都比传统的CPU、GPU高出一个数量级,达到了摩尔定律预言的七年后的CPU的运行效果。这位知情人士不无煽情的说,请忘掉CPU、GPU、FPGA吧。
如此看来,在深度学习方面,TPU可以兼具桌面机与嵌入式设备的功能,也就是低能耗高速度。
据报道,TPU之所以具有良好的机器学习能力,是因为这种芯片具有比较宽的容错性,这就意味着,达到与通用芯片相同的学习效果,TPU不需要通用芯片那样多的晶体管,不需要通用芯片上那样多的程序操作步骤,也就是说,相同数量的晶体管,在TPU上能做更多的学习工作。
谷歌研发TPU并非要取代CPU或者FPGA,谷歌认为,TPU是介于CPU和ASIC (application-specific integrated circuit:应用集成电路)之间的芯片。ASIC用于专门的任务,比如去除噪声的电路,播放视频的电路,但是ASIC明显的短板是不可更改任务。通用CPU可以通过编程来适应各种任务,但是效率能耗比就不如ASIC。一如前边所言,在机器学习方面,TPU兼具了CPU与ASIC的特点,可编程,高效率,低能耗.
最后说说,异构处理器:
什么是异构多核处理器?简单地说异构多核处理器指的是在CPU里集成了 CPU与【其他模块】一起同步工作,【也就是说 一块cpu 里不单有 CPU运算模块 还有其他运算模块 例如 GPU,FPGA,DSP等等。
AMD,Nvidia以及赛灵思公司都在进行异构多核处理器的研发
这是AMD的异构多核处理器

AMD在异构多核处理器发展方面是不遗余力,早在2012年就成立了“异构系统架构基金会”(HSA Foundation),首批会员是AMD、 ARM、Imagination Technologies、 联发科和德州仪器(TI)是“异构系统架构基金会”的创始成员。
瞧瞧,英特尔的老对手ARM和AMD都在里面呢
HSA联盟发展了两年也有一些新成员加入,但是总的来说对英特尔威胁不大,直到 ,直到,赛灵思推了zynq的时候。

看看它的内部结构:
1、四核A53处理器 CPU
2、一个GPU Mali-400MP
3、一个Cortex-R5 CPU
4、电源管理单元,AMS单元
5、H.265(HEVC)视频编解码器
6、安全模块
7、UltraScale FPGA 单元;
这其实就是一款异构处理器,如前所述,它是一款ASIC就级的异构处理器!而且是64位,采用16nm FinFET工艺的处理器!而且是采用FPGA实现硬加速的处理器!但是这个ARM是不是偏弱了一点?做深度学习还是欠把火后。
Intel收购Altera,应该最终的目的也是要在异构处理器上面做出更多的文章吧。X86+FPGA,看起来好像很美。但是X86和FPGA结合就更符合模型么?目前也没有应用,更没有看到成熟的芯片推出。两个巨无霸的整合,可以说是用脚趾头都能想到很多的困难。Intel这口也许吃得太大了,吞得很痛苦。不是每个公司都有很强大执行力的,历史包袱在所难免。
返回列表