关于中国智能语音的产业格局和发展趋势

金牌会员

Rank: 6 Rank: 6

UID: 1062083
性别: 男

1^#

打印

字体大小: tT

yuchengze发表于 2017-4-25 10:42 | 只看该作者

关于中国智能语音的产业格局和发展趋势

第三方软件, 语音识别, Bruce, 中国, 智能

语音识别技术的应用可以分为两个发展方向：一个方向是大词汇量连续语音识别系统，主要应用于计算机的听写机，以及与电话网或者互联网相结合的语音信息查询服务系统，这些系统都是在计算机平台上实现的;另外一个重要的发展方向是小型化、便携式语音产品的应用，如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用，这些应用系统大都使用专门的第三方软件来实现，特别是近几年来迅速发展的语音信号处理专用芯片(Application Specific Integrated Circuit，ASIC)和语音识别片上系统(System on Chip，SOC)的出现。
继科大讯飞、捷通华声之后，行业内又涌现出思必驰、云知声、出门问问等后起之秀，在教育、客服、电信等传统行业之外，开辟出了车载、家居、医疗、智能硬件等语音技术应用新天地。
与此同时，自然语言处理(NLP)作为人机交互技术的重要一环，也为此提供了助力。Siri的推出打开了语音交互的先河，不仅催生了一批语音语义创业公司，还激发了百度、搜狗等大型互联网公司在语音语义技术上的投入。
由于NLP和语义理解技术能够让机器理解人的意图和需求，并把相应内容反馈给用户，因此在客服行业得到了广泛应用，有效降低了人力成本，提高了企业运营效率。
那么，中国智能语音语义产业主要涉及哪些技术?技术发展水平如何?存在哪些问题?有哪些应用领域、玩家和商业模式?行业格局和未来发展趋势又将如何呢?本文将为您一一解答。
一、技术篇：语音识别和NLP技术仍不成熟
智能语音语义包含语音合成、语音识别和自然语言处理(NLP)三项主要技术。
语音合成技术发展最早，应用已较为普遍，除了合成音仍偏机械之外，基本不存在太大技术问题;语音识别在2012年卷积神经网络(CNN)应用之后，准确率大幅提升，已经在C端、B端得到了广泛应用，但效果和体验还不够理想;NLP技术虽然在搜索引擎中早有应用，但在人机交互领域仍属于浅层处理。
语音识别“鲁棒性“问题显著
在生物学中，有个术语叫做“鲁棒性”，是指系统在扰动或不确定的情况下，仍能保持它的特征行为。这一问题在语音识别领域也存在。
语音识别整个过程包含语音信号处理、静音切除、声学特征提取、模式匹配等多个环节。由于语音信号的多样性和复杂性，系统只能在一定限制条件下才能获得满意效果。在真实使用场景中，考虑到远场、方言、噪音、断句等问题，准确率会大打折扣。目前业内普遍宣称的97%识别准确率，更多的是人工测评结果，只在安静室内的进场识别中才能实现。
要解决语音识别鲁棒性问题，需要在技术和产品两方面进行优化。一方面，在语音增强、麦克风阵列以及说话人分离等多项技术领域持续投入，并结合后端语义，促进对上下文的理解，从而提升识别效果;另一方面，需要从产品设计上进行优化，比如通过进一步交互，使语音识别变得更为准确。
语义分析仍是浅层处理
NLP技术大致包含三个层面：词法分析、句法分析、语义分析，三者之间既递进又相互包含。
词义消歧是NLP技术的最大瓶颈。机器在切词、标注词性、并识别完后，需要对各个词语进行理解。由于语言中往往一词多义，人在理解时会基于已有知识储备和上下文环境，但机器很难做到。虽然系统会对句子做句法分析，可以在一定程度上帮助机器理解词义和语义，但实际情况并不理想。
目前，机器对句子的理解还只能做到语义角色标注层面，即标出句中的句子成分和主被动关系等，它属于比较成熟的浅层语义分析技术。未来要让机器更好地理解人类语言，并实现自然交互，还是需要依赖深度学习技术，通过大规模的数据训练，让机器不断学习。当然，在实际应用领域中，也可以通过产品设计来减少较为模糊的问答内容，以提升用户体验。
由于人工智能技术对数据依赖性极高，因此，这一领域的技术进步和产业化推进是一种协同关系——通过工程化的方法提升技术效果和体验，从而促进产业化应用，再根据实际应用中的数据和反馈，反过来推动技术实现突破。那么，智能语音语义在产业化方面都有哪些应用领域，又存在哪些问题?
二、应用篇：C端提升体验，B端提升效率
以问答和聊天为服务形式，智能语音语义在多个使用场景和行业领域都有广泛应用，我们可以简单从C端和B端两个方向分别来看。

收藏分享评分

回复引用

订阅 TOP

返回列表