根据编码的对象,MPEG-4音频标准(ISO/IEC 14496-3)分为自然音频编码和合成音频编码两大类。在自然音频编码方面提供三种编码方案,即参数编码(parametric coding),码本激励线性预测(CELP,code excited linear predictive)编码,时间/频率(T/F,time/frequency)编码。在合成音频编码方面提供了两种编码方案,即结构音频(SA,structured audio)和文语转换(TTS,text-to-speech)。每个编码方案都按照两部分来组织标准的内容:标准部分描述解码的语法和解码过程,附录部分描述编码器和接口。 MPEG-4(ISO/IEC 14496)已建立了两个版本。MPEG-4音频部分促进广泛的应用,这些应用可能包括从智能语音到高质量多声道音频,从自然声音到合成声音。特别是,它支持由下述成分组成的音频对象的高效表示: ·语音信号:能通过使用语音编码工具实现位速在2kbps到24kbps间的语音编码。当允许不同速率的编码时,像平均速率为1.2kbps这样更低的位速也可编码。在通信应用中可能需要低延时。使用HVXC工具时,在回放时,可在用户控制下修改速率和基音周期(pitch)。如果使用CELP工具,回放速度能通过使用另外的效果处理工具达到。 ·合成语音:可伸缩的TTS编码器的位速在200bps到1.2kbps之间。它允许一个文本或带有韵律参数的文本(基音周期轮廓,音素持续期等等)作为输入产生可理解的合成语音。它包括如下功能: n用原始声音的韵律来合成声音 n用音素信息进行唇同步控制 n技巧模式功能:暂停、重放、向前/向后跳 n支持文本的国际语言和方言(如:它能以信号表示所运用语言和方言的位流) n支持国际音素符号 n支持识别说话者的年龄、性别和语速 n支持传送面部动作参数(FAP,facial animation parameter)的书签 ·普通音频信号:通过变换编码技术支持从很低的位速到高质量的普通音频编码。有了这项功能,大范围的位速和带宽都被覆盖了。从位速为6kbps,带宽低于4kHZ开始,也包括了从单声道到各个声道的广播质量音频。 ·合成音频:通过一种结构化的音频解码器(Structured Audio Decoder)实现对合成音频的支持。此解码器使基于乐谱(score-based)的控制信息能应用于由特殊语言描述的乐器。 ·绑定的-复杂度(bounded-complexity)合成音频:这是通过一种结构化的音频解码器实现的,允许对标准化的波表格式语音的处理。 其他功能的例子有速度的控制和对语音信号基音周期的改变,标度用位速、带宽、错误顽健性、复杂度等来描述。说明如下: ·速度改变(speed change)功能能在编码和解码过程中不改变基音周期而改变时间标度。举个例子,它能用于“快进”功能的实现(数据库搜索)或调整一音频序列的长度到一指定的音频序列,或低速回放的练习的舞蹈步伐。 ·基音周期改变(pitch change)功能允许在编码和解码过程中不改变时间标度而改变基音周期。举个例子,它能用于声音转变或卡拉ok类型的应用。这种技术仅用于参数和结构化的音频编码方法。 ·位速伸缩性(bitrate scalability )能将一位流分析成一位速较低的位流。这样,合成的位流也能被解码成一有意义的信号。这种位流分析可能在传输期间或在解码器中发生。 ·带宽伸缩性(Bandwidth scalability)是位速伸缩性的特殊情况,即在传输和解码中,代表频谱的一部分的位流可被丢弃。 ·编码器复杂度伸缩性(Encoder complexity scalability)允许不同复杂度的编码器生成有效和有意义的位流。 ·解码器复杂度伸缩性(Decoder complexity scalability)允许位流被不同级别复杂度的解码器解码。一般地,音频质量与所使用的编码器和解码器的复杂度有关。 ·音频效果(Audio Effects)提供了通过完整的定时精度来处理已解码音频信号的能力,以达到混音,发出回声、立体声等功能。 MPEG-4 音频版本2是对版本1的扩展,在保持版本1全部功能的同时,向MPEG-4标准中加入了新的工具和功能。版本2提供了如下的功能: ·新增的错误顽健性(error robustness) ·低延时且高质量的音频编码 ·好的增益(Grain)伸缩性(伸缩性分辨率小到每频道1kbps) ·允许低速率声音操作的参数音频编码 ·CELP静音压缩,使语音编码中位速更低 ·错误恢复参数语音编码 ·环境立体化——用知觉的和(或)物理的建模技术重建声音环境的可能性 ·一个帮助实时调整编码或可伸缩播放的反向通道(back channel) ·MPEG-4 音频指定的一种低开销(overhead) 传输机制 一.自然声音合成 像 MPEG-1第三层( 也称为mp3)这种传统的高质量音频编码方案已开辟了多种应用,包括在互联网上被广泛地接受。MPEG-4音频的设计建立和扩展了早期音频编码格式,是这些音频编码的的继续。MPEG-4自然音频编码的设计与MPEG-4的理论非常一致。它增加了新的功能,并成为从线性存储或MPEG-1和MPEG-2的流结构转化为对象和展现的典范。这些新功能多数存在于MPEG-4的结构音频和音频BIFS中,与此同时,MPEG-4自然音频中经典音频编码算法的语法也被定义或修正以便实现音频对象的伸缩性和标记。这样,MPEG-4很好的把经典话音和音频编码算法带入了一个新的天地。 # m3 k' W& Y2 b. y. L
|