语音识别 语音识别以语音为研究对象,它是多媒体音频技术的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。 一.语音识别发展历史 语音识别一直是人类的梦想。《天方夜谈》故事中的“芝麻开门”,就是语音识别技术。最早的机器自动语音识别研究工作开始于20世纪50年代。1952年,当时 AT&T的Bell实验室实现了第一个可识别十个英文孤立数字的语音识别系统Audry系统。 20世纪60年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP, Dynamic Programming)和线性预测分析技术(LP,Linear Prediction),其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。 20世纪70年代,语音识别领域取得了突破。在理论上,LP技术得到进一步发展,动态时间归正技术(DTW, Dynamic time-warping)基本成熟,特别是提出了矢量量化(VQ, Vector Quantization)和隐马尔可夫模型(HMM, Hidden Markov Models)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。 20世纪80年代,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT& T Bell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识。ANN和HMM模型建立的语音识别系统,性能相当。 进入20世纪90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。 我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把语音识别的研究列入“863”计划。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美国、新加坡等地聚集了一批来自中国大陆、台湾、香港等地的学者,研究成果已达到相当的高水平。因此,国内除了要加强理论研究外,更要加快从实验室演示系统到商品的转化。 二.语音识别技术 首先介绍语音识别系统的分类方式及依据。 ●根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连续语音识别系统。 ●根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。 ●根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。 图05-08-1 给出了面向任务的语音识别系统的一般方块图。不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似。 ' x8 D6 `" r6 A3 D6 c2 U
图05-08-1 面向任务的语音识别系统的一般方块图 语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。
+ E7 R$ V3 H7 v1 W6 |. ]+ \9 B2 t" G& p+ ~0 m0 P, w
- q( Y1 `' t+ q4 [2 x, O
|