语音识别

五散人 · 发表于 2015-8-7 14:24:15

语音识别

语音识别以语音为研究对象，它是多媒体音频技术的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言（如人在说话时的表情、手势等行为动作可帮助对方理解），其最终目标是实现人与机器进行自然语言通信。

一．语音识别发展历史

语音识别一直是人类的梦想。《天方夜谈》故事中的“芝麻开门”，就是语音识别技术。最早的机器自动语音识别研究工作开始于20世纪50年代。1952年，当时 AT&T的Bell实验室实现了第一个可识别十个英文孤立数字的语音识别系统Audry系统。

20世纪60年代，计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划（DP, Dynamic Programming）和线性预测分析技术（LP，Linear Prediction），其中后者较好地解决了语音信号产生模型的问题，对语音识别的发展产生了深远影响。

20世纪70年代，语音识别领域取得了突破。在理论上，LP技术得到进一步发展，动态时间归正技术（DTW, Dynamic time-warping）基本成熟，特别是提出了矢量量化（VQ, Vector Quantization）和隐马尔可夫模型（HMM, Hidden Markov Models）理论。在实践上，实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。

20世纪80年代，语音识别研究进一步走向深入，其显著特征是HMM模型和人工神经元网络（ANN）在语音识别中的成功应用。HMM模型的广泛应用应归功于AT＆ T Bell实验室Rabiner等科学家的努力，他们把原本艰涩的HMM纯数学模型工程化，从而为更多研究者了解和认识。ANN和HMM模型建立的语音识别系统，性能相当。

进入20世纪90年代，随着多媒体时代的来临，迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM、Apple、AT＆T、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。

我国语音识别研究工作一直紧跟国际水平，国家也很重视，并把语音识别的研究列入“863”计划。鉴于中国未来庞大的市场，国外也非常重视汉语语音识别的研究。美国、新加坡等地聚集了一批来自中国大陆、台湾、香港等地的学者，研究成果已达到相当的高水平。因此，国内除了要加强理论研究外，更要加快从实验室演示系统到商品的转化。

二．语音识别技术

首先介绍语音识别系统的分类方式及依据。

●根据对说话人说话方式的要求，可以分为孤立字（词）语音识别系统，连接字语音识别系统以及连续语音识别系统。

●根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。

●根据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

图05-08-1 给出了面向任务的语音识别系统的一般方块图。不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似。

图05-08-1 面向任务的语音识别系统的一般方块图

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取。

五散人 · 发表于 2015-8-7 14:24:35

（1）语音识别单元的选取
选择识别单元是语音识别研究的第一步。语音识别单元有单词（句）、音节和音素三种，具体选择哪一种，由具体的研究任务决定。
单词（句）单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。
音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有1300多个音节，但若不考虑声调，约有410个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。
音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母（包括零声母有22个）和韵母（共有28个）构成，且声母和韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。
（2）特征参数提取技术语音信号中含有丰富的信息，但如何从中提取出对语音识别有用的信息呢？特征提取就是完成这项工作，它对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。对于非特定人语音识别来讲，希望特征参数尽可能多地反映语义信息，尽量减少说话人的个人信息（对特定人语音识别来讲，则相反）。从信息论角度讲，这是信息压缩的过程。
线性预测分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。
Mel参数和基于感知线性预测（PLP, Perceptual Linear Prediction）分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。
也有研究者尝试把小波分析技术应用于特征提取，但目前性能难以与上述技术相比，有待进一步研究。
（3）模式匹配及模型训练技术
模型训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。
语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术、隐马尔可夫模型和人工神经元网络（ANN, Artificial Neural Network）。
DTW是较早的一种模式匹配和模型训练技术，它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统，目前已被HMM模型和ANN替代。
HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性，其中一个是隐蔽的（不可观测的）具有有限状态的Markov链，另一个是与Markov链的每一状态相关联的观察矢量的随机过程（可观测的）。隐Markov链的特征要靠可观测到的信号特征揭示。这样，语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述，而信号随时间的变化由隐Markov链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点，HMM模型可分为离散隐马尔可夫模型（采用离散概率密度函数，简称DHMM, Discrete HMM）和连续隐马尔可夫模型（采用连续概率密度函数，简称CHMM, Continuous HMM）以及半连续隐马尔可夫模型（SCHMM，集DHMM和CHMM特点）。一般来讲，在训练数据足够时，CHMM优于DHMM和SCHMM。
已研究出有效的算法进行HMM模型的训练和识别。这些算法还在不断被完善，以增强HMM模型的鲁棒性。
人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的，但ANN又不具有HMM模型的动态时间归正性能。因此，现在已有人研究如何把二者的优点有机结合起来，从而提高整个模型的鲁棒性。
三．困难与对策
目前，研究工作进展缓慢，主要表现在理论上一直没有突破。虽然各种新的修正方法不断涌现，但其普遍适用性都值得商榷。
具体来讲，困难主要表现在：
● 语音的多变性，表现在风格、语音质量、讲话速率、上下文环境和重读等的变化性很大（图05-08-2）。
图05-08-2 语音的变化性
● 语音识别系统的适应性差，主要体现在对环境依赖性强，即在某种环境下采集到的语音训练系统只能在该环境下应用，否则系统性能将急剧下降；另外一个问题是对用户的错误输入不能正确响应，使用不方便。
● 高噪声环境下语音识别进展困难，因为此时人的发音变化很大，像声音变高，语速变慢，音调及共振峰变化等等，这就是所谓Lombard效应，必须寻找新的信号分析处理方法。
● 语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别，还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。
● 我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚；其次，把这方面的现有成果用于语音识别，还有一个艰难的过程。
● 语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决，识别速度、拒识问题以及关键词（句）检测技术（即从连续语音中去除诸如“啊”、“唉”等语音，获得真正待识别的语音部分）等等技术细节要解决。
为了解决这些问题，研究人员提出了各种各样的方法，如自适应训练，基于最大互信息准则（MMI）和最小区别信息准则（MDI）的区别训练和“矫正”训练；应用人耳对语音信号的处理特点，分析提取特征参数，应用人工神经元网络……所有这些努力都取得了一定成绩。
不过，如果要使语音识别系统性能有大的提高，就要综合应用语言学、心理学、生理学以及信号处理等各门学科有关知识，只用其中一种是不行的。
四．语音识别的应用
目前世界各国都加快了语音识别应用系统的研究开发，并已有一些实用的语音识别系统投入商业运营。在美国，语音识别系统的销售额逐年上升，由于使用了语音识别系统，为企业赢得了巨额收入。
比较典型而成功的语音识别系统有AT＆T于1992年开发的VRCP系统。该系统是有五个单词（collect，person，third number，operator和calling card）的非特定人小词汇量语音识别系统，现已应用于AT＆T通信网上，可以实现自动话务员协助式呼叫，代替话务员完成五种呼叫类型，即
● collect call（受话人付费电话），命令字col1ect
● person-person-call（定人呼叫），命令字person
● third-party-billing-call（第三方付费电话），命令字third number
● operator-assisted call（话务员协助呼叫），命令字operator
● credit card call（信用卡呼叫），命令字calling card
为使用户使用方便，系统配有语音提示告诉用户如何使用。该系统所具有的关键词检测技术可从句子中查找到五个命令字中的一个，从而使用户在讲话时更加自然，如可以讲“collect call please”，整个系统的正确识别率超过99％。
此外，已经实用的系统还有AT ＆ T 800语音识别服务系统，NTT ANSWER语音识别银行服务系统，Northen Telecom股票价格行情系统，使得原本手工操作的工作用语音就可方便地完成。
下面再介绍一种称为VASTP的缝纫机声控装置。
由四川大学学者和美国学者共同开发的VASTP（Voice Assisted Sewing Technology Product）是一种缝纫机声控装置，是语音识别技术在服装工业中的具体应用。它接受操作人员的语音命令，用来控制缝纫机的有关操作，从而解放了操作人员的双脚，实现了现代服装生产流水线工人的离线操作，减轻了工作强度，并为残疾人提供了在服装制造业就业的机会。
VASTP所采用的相关语音技术如下：
（1）采用与说话人有关的孤立词模式匹配法语音识别技术
语音输入经过一个滤波器组（ASA16芯片）获取短时谱语音信号。滤波器组将200Hz~7000Hz范围的频率分成16个通道滤波器，每个滤波器由一个2阶Butterworth带通滤波器、一个半波校正器和一个衰减频率为25Hz的2阶低通滤波器组成；由一个16通道采样、保持多路选择器，采样间隔为6.25ms的频度读取16个语音谱特征参数。识别词汇可达1000词，如“slow”、“medium”、“fast”、“trim”、“raise”、“stop”等。
（2）采用噪声压缩及自适应软件处理技术
由于工作现场的噪声大，且其变化范围也大，因而需要采用噪声压缩及自适应软件处理技术。语音输入经头盔或抗噪声话筒或喉头话筒，输入到一个增益可编程的放大器，其增益由一个8位增益控制的寄存器控制，可作手动、自动实时增益控制，以适应不同灵敏度的话筒和不同噪声的幅度。最后用自适应技术改善噪声环境下的识别性能。
（3）采用音素合成（SS1263A芯片）和ADPCM语音波形编码（NEC 7759芯片）两种语音合成技术
前者是基于音素的语音合成器，通过仔细设计语音合成规则，可直接实现任意英语文本的文语转换。它使用64个音素符号（由字母、数字组成），其中34个用于美式英语的基本音，27个用于表示基本音的变音，还有3个表示无声状态。芯片为每个音素提供了8个运行时可编程的参数。用不同音素及其可编程参数来控制音变、幅度和音长等，可以得到不同的词组或短语的语音。后者用ADPCM编码，在PROM或Flash的不同组及组号、序号存入单词或短语语音，由该装置的CPU来选择组号及序号，重放相应的内容。后者比前者语音质量好，但存储量较大，并需经过前期处理，使用不如前者灵活。
从语音识别技术的发展可以看出，科学技术推动了社会发展，满足人们的需求，社会需求也反过来推动科学技术发展。多媒体时代的来临，迫切要求解决自动语音识别的难题，必然推动语音识别理论和应用研究的进展。在二十一世纪初，语音识别技术将会在理论上和应用上都取得突破性进展。到那时，我们将体会到语音识别带来的种种便利。
四．未来展望
IDC预计，到2005年全球市场对电话语音处理设备的需求将达到35亿美元，为此，IBM、AT&T、朗讯和飞利浦等许多大公司都在争先恐后地进行语音识别技术研究。
IBM的称为“超人类语音识别”的项目已于2001年启动，计划于2010年完成。总体目标是使机器语音识别能力赶上并超越人类，期望在21世纪头十年结束之前，生产出能够自动理解多达20门语言，并能识别这些语言的各种语调变化、口音及上下文环境的机器。该机器还能丝毫不差地转录法律、医疗和法庭证词。IBM公司的100位全职语音识别研究人员中有20名正在专门投入此项研究课题之中。他们正在着手进行音频-视频识别研究，这涉及计算机视觉技术的开发，以便改善语音识别的精确度。另一个研究重点是MALACH项目。在美国国家科学基金会的资助下，IBM正在和其他行业的研究人员并肩工作，试图破解长达10万小时的二战纳粹大屠杀幸存者的谈话录音，这些录音内容纷繁多变，充满各种方言，感情起伏，语调跌宕，还夹杂着各种不同语言。

账号		自动登录	找回密码
密码			快速注册

[音频应用] 语音识别

相关帖子

浏览过的版块

摇滚达人