Board logo

标题: 3D语音处理技术成就类Siri应用 [打印本页]

作者: 520503    时间: 2013-11-14 23:06     标题: 3D语音处理技术成就类Siri应用

关键字:3D语音处理   类Siri   噪声抵消  
由于近来平板电脑、计算机、智能电视机和其它消费电子设备用的语音控制接口的兴起,语音质量成为了一个热门话题。如果没有可以理解的语音,自动语音识别功能就不能正确工作,无法用作可靠的输入设备。这个问题还与噪声环境纠缠在一起,而噪声环境可能严重地降低语音的质量,甚至会使语音控制功能完全不可工作。
传统噪声抵消技术需要折衷考虑噪声抑制程度和语音质量:噪声抑制水平越高,语音失真的可能性也越大。为了尽量减少这种折衷,工程师开发出了噪声抑制算法来减少噪声电平,这种技术在固定噪声场合具有很好的效果,但在街道噪声和类似其它非固定噪声的场合,性能并不理想。

随着智能手机上引入第二个麦克风,噪声抵消技术向前迈进了一大步。手机上的两个麦克风工作在与人类听觉系统相似的方式。然而,这个功能并不能提供足够的噪声抵消水平来消除语音呼叫或语音控制场合的所有背景噪声,例如在开车或乘坐公共交通工具、甚至在音乐声很大的家里时。

增加用于高级噪声抵消的传感器

除了标准的两个音频麦克风外,高级噪声抵消技术使用了一个新增的传感器,然后应用3D-Vocal算法执行多个语音处理任务,包括回波和背景噪声抵消、响度均衡和一般语音增强。消除背景噪声可以显著提高智能手机、平板电脑和其它移动设备中的自动语音识别(ASR)和语音呼叫应用的准确率。

下图1.0显示了一个高级噪声抵消技术如何影响有噪声语音的例子。上面的波形代表有噪声的语音,是语音和环境噪声叠加的产物(S+N),而下面的波形是经过3D语音处理后得到的干净语音信号。



图1.0:对语音和环境噪声应用典型的3D语音处理技术后的结果。


图2.0显示的是声谱图,上面的图形代表有噪声语音(S+N)的声谱图,下面的声谱图显示的是经过3D语音处理后的语音信号。



图2.0:对语音和环境噪声进行3D处理后的声谱图。


利用传感器和两个麦克风提供的扩展数据集,3D-Vocal算法可以提取出用于表征语音源的特征信号,并区分属于感兴趣语音的声音分量与环境噪声。图3.0中的框图显示了高级噪声抵消技术中的音频处理路径。



图3.0:3D语音处理框图。


3D语音处理框图中的各个模块说明如下:

3D-Vocal(频谱-时间分析):接收来自麦克风阵列和VSensor的所有信号,并对组合信息执行专门的频谱-时间处理。3D-Vocal数据中的一些相关图案与环境噪声有关,其它图案则被识别为用户语音。3D-Vocal频谱-时间处理功能将用户语音从预测的环境噪声中分离出来,并为语音/噪声特征提取模块提供一些参考信息。

特征提取:包含要馈入其它模块的语音/噪声数据。提取出的特征包含了有关用户语音和环境噪声的频谱-时间、实时信息。这些信息可以用来从用户语音中滤除环境噪声,实现回波抵消性能增强等功能。

环境噪声抵消:抵消各种固定和非固定、相关和非相关的环境噪声。环境噪声抵消算法使用特征提取信息和3D-Vocal模块的输出信息。

均衡:均衡接收信号的频谱分布,使其匹配ASR处理或语音呼叫的要求。





欢迎光临 电子技术论坛_中国专业的电子工程师学习交流社区-中电网技术论坛 (http://bbs.eccn.com/) Powered by Discuz! 7.0.0