可以预料的语音识别的未来

金牌会员

Rank: 6 Rank: 6

UID: 1062083
性别: 男

1^#

打印

字体大小: tT

yuchengze发表于 2017-4-25 11:01 | 只看该作者

可以预料的语音识别的未来

人工智能, 语音识别, 信息技术, 模式识别, 消费电子

语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。对语音识别未来发展，各位大咖也有一些精彩论点。科大讯飞研究院副院长——王士进王士进表示，语音识别是人机交互里很重要的模块，从PC时代到现在的移动互联时代，人机交互由鼠标键盘走向智能手机、Pad等的多点触摸。到了智能硬件时代，交互则更加多元，不仅有触摸，还有基于语音、视觉的交互。原本是以机器为中心的人机交互，逐渐走向以人为中心的自然交互。
他认为，在将来万物互联的浪潮下，以语音为主，键盘、触摸、视觉、手势为辅的交互时代很快会到来。
提到传统的语音交互，王士进列举了几个缺点：第一，交互距离要近;第二，发音必须标准;第三，环境必须安静;第四，人机不能持续对话。
科大讯飞在2015年提出AIUI，旨在解决上述问题同时期望在人工智能时代提供一种智能的人机交互界面。AIUI提供远场唤醒和识别降噪方案，兼容全国近17种方言，可以进行全双工交互和基于业务场景的多轮对话，同时结合讯飞超脑的认知智能使得机器进行更智能的交互。
AIUI实现了软硬一体化、云端一体化、技术服务一体化，通过三个一体化提供人机智能交互整体解决方案，使得用户可以快速切换到新的业务场景。
在提到基于AIUI交互技术的一些商业化尝试时，王士进列举了几种：
在交流方面，科大讯飞在05年推出了听见智能会议这款产品。一般来说，会议场景的同传准确率为80%左右，而智能会议转写准确率则能达到90%以上，之后，其在医疗和司法系统进行了应用。另外，科大讯飞还推出了便携翻译机，易于随身携带，方便远程实时交流。
在电视方面，最早的电视是用数字加上下左右按键控制仅有的十几个台，而现在的智能电视后台对接海量资源，通过讯飞智能电视助手可以进行方便的语音交互，节省时间。
在汽车方面，由于人在驾驶时候手不能离开方向盘，故把语音引入代替手进行交互会方便许多。实际上相比其他应用场景，语音识别由于汽车场景的噪音更强，面临更大挑战，而科大讯飞也在基于车载的语音识别做了许多优化，更在宝马、奔驰、通用举行的全球车载语音识别比赛取得第一名，有效的支撑了车载场景的交互。
在机器人方面，机器人与人的语音交互满足自然交互、个性化服务以及基于业务场景的整合服务，可以方便的任意打断，在理解用户的需求下进行精准的内容推荐和服务。
语音识别和自然语言理解都是基于统计和概率体系，所以商业化过程建议选择人受到一定限制(如车载)或者很难做百分之百正确(如会议同传)的场景，然后随着技术的进一步成熟，可以进入到更多的场景。
最后，王士进总结道，“语音识别和人机交互技术在进行技术优化的同时更要结合应用场景，最终可使得技术完善，产业更好的发展。”
百度语音技术部声学技术负责人——李先刚
提到这些年对手机百度语音搜索的不断优化过程，李先刚认为要做好这样一个产品，先要收集相关数据，然后将语音识别应用推广到相关产品线上供用户使用，用户使用后反馈回来数据形成完整链条，最终达到非常完美的状态。
他把输入法在语音识别中的作用表述为：输入法这一场景对语音识别性能提升有非常大的帮助。
而今年，百度在语音技术方面的进展包括基于GramCTC的端对端语音识别系统以及端对端说话人识别技术。
基于CTC的端对端语音识别系统是目前主流的工业系统，在2015年底，百度实现了CTC端对端语音识别系统的上线。而今年，百度进一步提出了GramCTC算法。
主流的说话人识别技术使用经典的DNN-IVECTOR技术，其框架基于统计模型，并将DNN引入此框架去学习。
可以看到的是，语音识别已走向大数据和端对端的道路，百度也将把说话人识别技术向此发展，进一步提升相关性能。
李先刚表示，人脸识别与说话人识别有技术共性，二者之间的差异仅仅只是人脸识别对象可以是固定尺寸的图片，而语音的时长会有很多变化。因此，百度说话人识别技术借鉴了目前人脸识别最好的方法——度量学习，搭建了端对端度量学习的说话人识别系统。百度内部的实验显示，基于端对端的说话人技术显著提升了说话人识别的性能。
从商业化的角度分析语音识别，可将其应用分为两个维度，第一个是近场和远场，第二个是人配合机器说话和人对人说话的不同说话风格。经过这样划分会发现很多语音场景其实是处在不同的语音象限里面，目前业界所做的近场人对机器说话的识别准确率可达90%以上，但另外几个场景所做不尽人意。
在李先刚看来，随着语音技术的推进，辅之商业化情景必将推动产品和技术的发展。

收藏分享评分

回复引用

订阅 TOP

注册会员

Rank: 2

UID: 1061125

2^#

kuangcui1125发表于 2017-4-28 09:39 | 只看该作者

随着技术的进一步成熟，可以进入到更多的场景。

[url=https://www.gxcpcb.com]深圳PCB抄板[/url][url=https://www.gxcpcb.com]电路板抄板[/url]

回复引用

TOP

返回列表