首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

人机交互新算法——揭秘神经网络的应用

人机交互新算法——揭秘神经网络的应用

神经网络是什么
  
  别以为名字中带“网络”二字,神经网络就是一种设备,事实上神经网络是一种模拟人脑结构的算法模型。其原理就在于将信息分布式存储和并行协同处理。虽然每个单元的功能非常简单,但大量单元构成的网络系统就能实现非常复杂的数据计算,并且还是一个高度复杂的非线性动力学习系统。
  
  神经网络的结构更接近于人脑,具有大规模并行、分布式存储和处理、自组织、自适应和自学能力。神经网络的用途非常广泛,在系统辨识、模式识别、智能控制等领域都能一展身手。而现在最吸引IT巨头们关注的就是神经网络在智能控制领域中的自动学习功能,特别适合在需要代入一定条件,并且信息本身是不确定和模糊的情况下,进行相关问题的处理,例如语音识别。
  
  神经网络的发展史
  
  神经网络的起源要追溯到上世纪40年代,心理学家麦克库罗克和数理逻辑学家皮兹首先提出了神经元的数学模型。此模型沿用至今,并且直接影响着这一领域研究的进展。因而,他们两人就是神经网络研究的先驱。随着计算机的高速发展,人们以为人工智能、模式识别等问题在计算机面前都是小菜一碟。再加上当时电子技术比较落后,用电子管或晶体管制作出结构复杂的神经网络是完全不可能的,所以神经网络的研究一度陷于低潮当中。到了20世纪80年代,随着大规模集成电路的发展,让神经网络的应用成为了可能。而且人们也看到了神经网络在智能控制、语音识别方面的潜力。但是这一技术的发展仍然缓慢,而硬件性能的发展以及应用方式的变化,再加上谷歌、微软、IBM等大公司的持续关注,神经网络终于又火了起来。本该在上世纪80年代就出现的诸多全新语音技术,直到最近才与我们见面,神经网络已经成为最热门的研究领域之一。
  
  机器同声传译成真
  
  在国际会议上,与会人员来自世界各地,同声传译就成了必不可少的沟通方式。但是到目前为止,同声传译基本上都是靠人来完成的,译员在不打断讲话者演讲的情况下,不停地将其讲话内容传译给听众。用机器进行同声传译,这个往往只出现在科幻电影中的设备,却成为了现实。
  
  在2012年底天津召开的“21世纪的计算-自然而然”大会上,微软研究院的创始人里克·雷斯特在进行主题演讲时,展示了一套实时语音机器翻译系统。这个系统在里克.雷斯特用英文演讲时,自动识别出英文字词,再实时翻译成中文,先在大屏幕上显示出来,同时用电脑合成的声音读出。最令人惊奇的是,与常见的合成语音声调非常机械不同。在演示之前,雷斯特曾经给这套系统输入过自己长达1个多小时的录音信息,所以由电脑合成的中文语音并不是机械声,而是声调听上去和雷斯特本人一致。
  
  这套实时语音机器翻译系统就是基于神经网络算法,由微软和多伦多大学历时两年共同研发。这个被命名为“深度神经网络”的技术,模仿由不同层次神经元构成的人脑,组成一个多层次的系统。整个系统共分为9层,最底层用来学习将要进行分析的语音有哪些特征,上一层就将这些分析进行组合,并得出新的分析结果,这样经过多次分析处理之后,增加了识别的准确性。而最上面的一层用来分析出听到的声音究竟是哪个音组,再通过和已注明音组的语音库里的数据进行比对,从而将正确的结果反馈出来。经过如此复杂精密的处理之后,系统对于语音的识别能力就会有显着的提升,其性能优于以往的办法。
  
  根据微软的测试,运用了这种“深度神经网络”技术的实时语音翻译器,相比旧系统出错率至少降低30%,最好的情况下能达到8个单词仅错1个,这是一个非常不错的成绩了。这个实时语音翻译器已经能支持包括普通话在内的26种语言,不过这个实时语音翻译器目前还不成熟,使用之前必须先在系统中输入1个小时以上的音频资料,让系统识别发言人声音中那些细微的差别,从而建立起语音数据库,才能发出与发言人相近的声音。虽然离面世还有一段距离,不过已经可以看到机器同声传译的并不是遥不可及的事情了。
  
  改进Android系统
  
  如果说微软的实时语音翻译器离我们有点遥远,那么不妨看看谷歌运用神经网络对于Android系统的改进吧。手机CPU性能的不断增强,除了带来更好的游戏性能,也让手机系统获益良多。代号为“果冻豆”的Android 4.1系统界面变得更为流畅,使用需要海量计算工作的神经网络也成为了可能。
  
  Android 4.1系统的语音系统的一大改进就是采用了神经网络算法。当用户对着Android手机发出语音指令之后,就会由神经网络算法来进行处理,同样是先由软件挑出用户语音中组成单词的不同元音和辅音。然后由另外的软件对挑出的信息进行组合、分析,并进行猜测,再给出新的信息。这条语音指令经过分析的次数越多,系统得出的结论也就越接近于用户的本来意思。
  
  除了语音分辨准确率大幅提高之外,语音系统还拥有学习的能力。在收集了用户的语音信息之后,系统也会用更倾向于人类的声音来反馈用户的指令,而不是用机械的合成语音。也就是说,Android 4.1的语音系统的人机交互变得更为自然,用户越来越不像是跟机器人对话。而且通过这个全新的语音系统,也有更多APP被开发了出来,丰富了应用。更换算法之后,Android的语音识别率提升了25%。这在一定程度上缓解了现有的语音功能存在的语音系统学习能力差、语音识别能力不强以及机器合成语音太机械等问题。负责这个项目的科学家凡豪克表示,“这个项目在某种程度上让我们感到惊喜,表明我们只需要改变下模式就能取得相当大的改善。”
  
  事实上要用神经网络的算法打造这样一个语音系统并不是一件容易的事。首先是用Android系统收集了大量用户的语音指令,然后将声音频谱进行分解并送到谷歌的8台专用服务器中。接下来就是分析这些海量的数据,拥有享誉业界的狄恩及其工程师团队的谷歌,非常擅长于进行数据的处理工作。在分析这些样本时,研究人员们确定了使用神经网络这种算法。对于每一种语言,谷歌可能都会构建出数种工作模式,例如处理用英语发出搜索请求等。
  
  未来的应用
  
  尽管神经网络现在已经被广泛用于语音识别领域,但是其用途肯定不限于此。下一步,神经网络最有可能进入图像软件领域。与分辨声音的过程类似,神经网络在分析图像时,每一层的图像探测器会首先寻找图像中的一些特征,例如图像的边缘。当探测完成之后,另一层的软件就会将这些边缘结合起来,就会形成图像的边角等特征。然后如此反复下去,识别的图像特征就会越来越清晰、明确,到了最后一层就将所有图像特征结合起来,与数据库中的数据进行对比,就能得出图片里的物体究竟是什么的结论。前面提到的谷歌狄恩研究小组就采用这种方法,开发出了一套软件,已经可以通过自学分辨出网络视频里的猫。或许未来这套软件将会推广到图片搜索领域,谷歌街景利用这一算法就能区分出不同事物的特征。
  
  此外,神经网络在医学领域也有施展拳脚的空间,多伦多大学的一个研究团队,已经成功地用神经网络分析出药物分子在实际环境中可能的作用方式。
继承事业,薪火相传
返回列表