语音识别技术的基本原理及应用

论坛元老

Rank: 8 Rank: 8

UID: 872339

1^#

打印

字体大小: tT

520503发表于 2015-1-19 22:46 | 只看该作者

语音识别技术的基本原理及应用

语音识别, 技术, 声学, 通信

语音识别作为信息技术中一种人机接口的关键技术，具有重要的研究意义和广泛的应用价值。介绍了语音识别技术发展的历程，具体阐述了语音识别概念、基本原理、声学建模方法等基本知识，并对语音识别技术在各领域的应用作了简要介绍。
语言是人类相互交流最常用、最有效、最重要和最方便的通信形式，语音是语言的声学表现，与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展，语音识别技术也取得突破性的成就，人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛，不仅涉及到日常生活的方方面面，在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术，使人们对信息的处理和获取更加便捷，从而提高人们的工作效率。

1 语音识别技术的发展

语音识别技术起始于20世纪50年代。这一时期，语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。

20世纪60年代，语音识别研究取得实质性进展。线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题，并通过语音信号的线性预测编码，有效地解决了语音信号的特征提取。

2O世纪70年代，语音识别技术取得突破性进展。基于动态规划的动态时间规整(Dynamic Time Warping，DTW)技术基本成熟，特别提出了矢量量化(Vector Quantization，VQ)和隐马尔可夫模型(Hidden Markov Model，HMM)理论。

20世纪80年代，语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别，识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面，由于HMM能够很好的描述语音时变性和平稳性，开始被广泛应用于大词汇量连续语音识别(Large Vocabulary Continous Speech Recognition，LVCSR)的声学建模；在语言模型方面，以N元文法为代表的统计语言模型开始广泛应用于语音识别系统。在这一阶段，基于HMM/VQ、HMM/高斯混合模型、HMM/人工神经网络的语音建模方法开始广泛应用于LVCSR系统，语音识别技术取得新突破。

20世纪90年代以后，伴随着语音识别系统走向实用化，语音识别在细化模型的设计、参数提取和优化、系统的自适应方面取得较大进展。同时，人们更多地关注话者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题。此外，语音识别技术开始与其他领域相关技术进行结合，以提高识别的准确率，便于实现语音识别技术的产品化。

2 语音识别基础

2．1 语音识别概念

语音识别是将人类的声音信号转化为文字或者指令的过程。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域，是一个多学科综合性研究领域。

根据在不同限制条件下的研究任务，产生了不同的研究领域。这些领域包括：根据对说话人说话方式的要求，可分为孤立字(词)、连接词和连续语音识别系统；根据对说话人的依赖程度，可分为特定人和非特定人语音识别系统；根据词汇量的大小，可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

收藏分享评分

回复引用

订阅 TOP

返回列表