MPEG-4音频（上）

五散人 · 发表于 2015-8-7 14:31:53

根据编码的对象，MPEG-4音频标准（ISO/IEC 14496-3）分为自然音频编码和合成音频编码两大类。在自然音频编码方面提供三种编码方案，即参数编码(parametric coding)，码本激励线性预测（CELP，code excited linear predictive）编码，时间/频率（T/F，time/frequency）编码。在合成音频编码方面提供了两种编码方案，即结构音频（SA，structured audio）和文语转换（TTS，text-to-speech）。每个编码方案都按照两部分来组织标准的内容：标准部分描述解码的语法和解码过程，附录部分描述编码器和接口。

MPEG-4（ISO/IEC 14496）已建立了两个版本。MPEG-4音频部分促进广泛的应用，这些应用可能包括从智能语音到高质量多声道音频，从自然声音到合成声音。特别是，它支持由下述成分组成的音频对象的高效表示：

·语音信号：能通过使用语音编码工具实现位速在2kbps到24kbps间的语音编码。当允许不同速率的编码时，像平均速率为1.2kbps这样更低的位速也可编码。在通信应用中可能需要低延时。使用HVXC工具时，在回放时，可在用户控制下修改速率和基音周期（pitch）。如果使用CELP工具，回放速度能通过使用另外的效果处理工具达到。

·合成语音：可伸缩的TTS编码器的位速在200bps到1.2kbps之间。它允许一个文本或带有韵律参数的文本（基音周期轮廓，音素持续期等等）作为输入产生可理解的合成语音。它包括如下功能：

n用原始声音的韵律来合成声音

n用音素信息进行唇同步控制

n技巧模式功能：暂停、重放、向前/向后跳

n支持文本的国际语言和方言（如：它能以信号表示所运用语言和方言的位流）

n支持国际音素符号

n支持识别说话者的年龄、性别和语速

n支持传送面部动作参数（FAP，facial animation parameter）的书签

·普通音频信号：通过变换编码技术支持从很低的位速到高质量的普通音频编码。有了这项功能，大范围的位速和带宽都被覆盖了。从位速为6kbps，带宽低于4kHZ开始，也包括了从单声道到各个声道的广播质量音频。

·合成音频：通过一种结构化的音频解码器（Structured Audio Decoder）实现对合成音频的支持。此解码器使基于乐谱（score-based）的控制信息能应用于由特殊语言描述的乐器。

·绑定的－复杂度（bounded-complexity）合成音频：这是通过一种结构化的音频解码器实现的，允许对标准化的波表格式语音的处理。

其他功能的例子有速度的控制和对语音信号基音周期的改变，标度用位速、带宽、错误顽健性、复杂度等来描述。说明如下：

·速度改变（speed change）功能能在编码和解码过程中不改变基音周期而改变时间标度。举个例子，它能用于“快进”功能的实现（数据库搜索）或调整一音频序列的长度到一指定的音频序列，或低速回放的练习的舞蹈步伐。

·基音周期改变（pitch change）功能允许在编码和解码过程中不改变时间标度而改变基音周期。举个例子，它能用于声音转变或卡拉ok类型的应用。这种技术仅用于参数和结构化的音频编码方法。

·位速伸缩性（bitrate scalability ）能将一位流分析成一位速较低的位流。这样，合成的位流也能被解码成一有意义的信号。这种位流分析可能在传输期间或在解码器中发生。

·带宽伸缩性（Bandwidth scalability）是位速伸缩性的特殊情况，即在传输和解码中，代表频谱的一部分的位流可被丢弃。

·编码器复杂度伸缩性（Encoder complexity scalability）允许不同复杂度的编码器生成有效和有意义的位流。

·解码器复杂度伸缩性（Decoder complexity scalability）允许位流被不同级别复杂度的解码器解码。一般地，音频质量与所使用的编码器和解码器的复杂度有关。

·音频效果（Audio Effects）提供了通过完整的定时精度来处理已解码音频信号的能力，以达到混音，发出回声、立体声等功能。

MPEG-4 音频版本2是对版本1的扩展，在保持版本1全部功能的同时，向MPEG-4标准中加入了新的工具和功能。版本2提供了如下的功能：

·新增的错误顽健性（error robustness）

·低延时且高质量的音频编码

·好的增益（Grain）伸缩性（伸缩性分辨率小到每频道1kbps）

·允许低速率声音操作的参数音频编码

·CELP静音压缩，使语音编码中位速更低

·错误恢复参数语音编码

·环境立体化——用知觉的和（或）物理的建模技术重建声音环境的可能性

·一个帮助实时调整编码或可伸缩播放的反向通道（back channel）

·MPEG-4 音频指定的一种低开销（overhead）传输机制

一.自然声音合成

像 MPEG-1第三层（也称为mp3）这种传统的高质量音频编码方案已开辟了多种应用，包括在互联网上被广泛地接受。MPEG-4音频的设计建立和扩展了早期音频编码格式，是这些音频编码的的继续。MPEG-4自然音频编码的设计与MPEG-4的理论非常一致。它增加了新的功能，并成为从线性存储或MPEG-1和MPEG-2的流结构转化为对象和展现的典范。这些新功能多数存在于MPEG-4的结构音频和音频BIFS中，与此同时，MPEG-4自然音频中经典音频编码算法的语法也被定义或修正以便实现音频对象的伸缩性和标记。这样，MPEG-4很好的把经典话音和音频编码算法带入了一个新的天地。

五散人 · 发表于 2015-8-7 14:32:33

（一）自然声音
MPEG-4音频编码器支持数据率介于 2kbps和 64kbps之间的自然声音(natural audio)。MPEG-4自然声音编码定义的工具能被组合进不同的声音编码算法。由于没有单一的编码范例能完全跨越从声音信号的甚低位速编码到高质量的多声道声音编码范围，一套不同的算法被定义来为预期的广泛应用的建立最佳编码效率（图05-05-1）。每一种算法从不同的编码工具中定义，目的是为了使不同算法间的交叠部分最大，并使工具用于产生不同的基本编码算法的灵活性最大。
在自然音频编码方面MPEG-4提供了下述编码方案：
·    HVXC，低速率清晰声音编码器
·    CELP(码本激励线性预测)，电话声音/宽带声音编码器
·    GA，用于中等和高质量的通用声音编码
·    TwinVQ，非常低的位速中提高编码效率的附加编码工具
除了用于基本编码功能的编码工具外，MPEG-4还提供了具有位流伸缩性之类特征的技术。
（一）通用音频编码（基于AAC）
MPEG-4音频的通用音频编码（General Audio Coding）覆盖了从每通道16kbit/s到每通道64kbit/s的位速范围。使用MPEG-4通用音频能获得优于AM到透明声音质量的质量水准。MPEG-4通用音频支持4种音频对象类型。其中，主AAC、 AAC LC和AAC SSR来自MPEG-2的AAC，但加入了一些新的功能以便进一步提高位速效率。第4种音频对象类型AAC LTP是MPEG-4独有的，不向下兼容。图05-05-02指明了如何在处理链中安排MPEG-4 GA编码器的组成模块。
1. 过滤器层和模块交换
从时域到频域中，每个变换编码器的一个重要组件是输入声音信号的转化。MPEG-2 AAC对此支持两种不同的方法。标准的变换是直接正向“修正的离散余弦变换（MDCT，Modified Discrete Cosine Transform ）”。然而，在AAC SSR音频对象类型中，应用了一种不同的转化法，即混合滤波器组。
2. 标准滤波器组
MPEG-4 GA中的滤波器组是由MPEG-2 AAC继承而来，即它是一个MDCT，支持2048点和256点的块长度，能动态切换。与以前所知的变换编码方案相比，长块变换的长度要高得多，改进了静态信号的编码效率。两个块长度中较短的那个是非常小的，提供了暂态信号优化编码能力。MPEG-4 GA还支持块长度为1920/240点的模式，使容易实现MPEG-4音频中语音编码算法的伸缩性。所有模块都与其前后模块有50%的交叠部分。
为了改进频率选择性，输入声音样本在变换之前被加窗处理。MPEG-4 AAC支持两种不同的窗口形状，能动态交换。这两种不同的窗口是正弦形状的窗口和凯萨尔-贝塞尔导出窗（KBD，Kaiser-Bessel Derived），相对于正弦窗来说，KBD改进了远端抑制性能。
时频变换的一个重要特征是信号变换长度的适应选择。这是通过分析输入时间信号的短时变化来控制。
为保证具有不同块长度序列的两个音频通道间的块同步，一行中进行8个短变换，每个交叠50％，并且在短序列的开始和结尾使用特别设计的过渡窗。这样能保持相继的2048点输入样本块之间的间隔。
为进一步处理量化和编码部分中的频谱数据，谱被排列在称为标度因子波段（scalefactor bands）中，大致地反映人类听觉系统的声响标度。
3. 滤波器组和SSR轮廓中的增益控制
在SSR轮廓中，MDCT之前要处理一个包含均匀间隔的4频带多相正交滤波器（PQF，Polyphase Quadrature Filter）和一个增益控制模块。增益控制能减少或增大每个PQF频带的输出以减少前回音（preecho）效应。增益控制完成以后，将在每个PQF频带上运算MDCT，为原始MDCT长度的1/4。
4. 频域预测
频域预测改进了静态信号段的冗余减少。它只被声音对象类型AAC主要模式所支持。由于静态信号几乎都能在长变换块中找到，在短块中就不能被支持。实际实现的预测器是一个第二阶后向自适应格结构，每一个频率线独立运算。可以在标度因子频带基上控制用预测的值代替了原始的那些值，并且决策是基于在此频带上已经得到的预测增益。为提供预测器的稳定性，应用了一个周期性的复位机制，它是通过一个专门的位流元素使编码器和解码器之间同步。要求处理的频域预测幂次和数字不完整的敏感度使得这种工具很难在定点运算的平台上应用。另外，预测器的后向自适应结构使得这种位流对传输错误非常敏感。
5. 长时预测
长时预测（LTP，Long term prediction ）是减少MPEG-4中引入的相继编码帧之间信号冗余的有效工具。这一工具对具有明确基音周期特性的信号特别有效。LTP实现的复杂度远远小于MPEG-2 AAC频域预测的复杂度。因为长时预测器是一个前向自适应预测器（预测系数作为附带信息发送）。它本质上对解码器中数字舍入错误或传输的频谱系数的位错误不很敏感。
6. 量化
在所有变换编码中位率减少主要来自谱值的自适应量化。根据感知模型确定的精度要求，对谱值进行位分配，实现减少不相关。量化处理的关键组成部分是实际中使用的量化功能和由标度因子所获得的噪音波形。在MPEG-4 GA中所用的量化器与MPEG-1/2 第3层中使用的量化器设计类似。它是带有X特性的非线性量化器。这种非线性的量化器比起传统的线性量化器最大的优点就是这种量化器所生成的固有噪音波形。这种量化器的绝对步长是由特定的位流元素所决定的，它能以1.5db步长调节。
7. 标度因子
由于非线性量化器中已有了固有的噪音波形，通常是不能获得可接受的声音质量。为改进编码信号的主观质量，噪音将通过标度因子（scalefactors）进一步地成形。标度因子的工作方式如下：标度因子被用于在某一谱范围内（标度因子波段）放大信号以增加在这些波段内的信噪比。这样它们就隐含地改变了对频率的位分配，因为较高的谱值进行后来的编码通常需要更多的位数。和全局量化器一样，标度因子步长是1.5db。为了在解码器正确地重构原频谱值，标度因子必须在位流中传输。MPEG-4 GA使用一种先进的技术尽可能有效地编码标度因子。首先，它利用这样的事实，即通常从一个标度因子频带变化到另一个频带时标度因子不会改变太多。这样差分编码就显露优越。其次，它利用霍夫曼编码进一步地减少标度因子数据中的冗余。
8. 无噪编码
MPEG-4 GA编码器中的无噪编码核试图优化谱数据编码的冗余减少。谱数据使用霍夫曼代码编码，这是根据最大的量化值从一套可用的代码本中选出的。这套可用的代码本包括一种信号，它在各自的标度因子波段内的所有谱系数都是“0”，意味着这一谱段既没有谱系数也没有标度因子传输。被选出的表单需要在所谓的节_数据（section_data）里传输，生成一定量的间接信息开销。为了在为每个标度因子频谱选择最佳表单和最小化被传输的节_数据元素数量这两者之间找到最佳折中，对谱数据应用了一种有效的编组算法。
9. 立体声联合编码
立体声联合编码（Joint stereo coding）方法是为了在编码立体声信号时利用左右信号共性增加编码效率。MPEG-4 GA包括两种不同的立体声联合编码算法，分别称为中侧（MS，Mid-Side）立体声编码和立体声强度编码。MS立体声对左右通道信号应用一个矩阵，算出这两个原始信号的和与差。只要信号集中在立体声图像的中部，MS立体声就能显著地节约位速。更重要的事实是在解码器中应用逆矩阵，量化噪音变得相关并且在它被信号掩蔽时会落入立体声图像的中部。
立体声强度编码时通过用单个信号代表加上方位信息替换左右信号的方法来再节约位速。这种替换是在较高频率范围内进行心理性的调整，因为人类听觉系统对大约高于2KHz的信号相位是不灵敏的。
强度立体声通过定义一种有损编码方法实现，所以它主要用于低位率。对于高位率的编码只用MS立体声。
10. 暂时噪音成形
传统变换编码方案经常遇到信号在一定时间内变化过快的问题，特别是语音信号。主要原因是在频率上量化噪音的分布能被控制，但在完全变换块中则是常量。如果在这种块中信号特性急剧变化而并不能及时切换为较短的变换长度，例如在基音周期语音信号的情况下，这种量化噪音的等分布将形成可听物。为了克服这一局限，一种被称为暂时噪音成形（TNS，Temporal Noise Shaping）的新特征被引入MPEG-2 AAC。TNS的基本思想是依赖于时域和频域的二重性。TNS用一种预测方法在频域形成时域量化噪音。它运用一个滤波器来滤波原始谱和量化已滤波的信号。另外，量化的滤波器系数在位流中传输。在解码器中这些被用于恢复编码器中的滤波处理，在解码音频信号中引入一个暂时性成形的量化噪音分布。
TNS可被看成是变换的一个后期处理步骤。用生成连续信号自适应滤波器频段的方法代替了传统的两步交换滤波频段方法。在MPEG-2 AAC和MPEG-4 GA中TNS方法的实际实现允许对输入信号的不同谱范围使用多达3个不同的滤波器，进一步加强了这一新方法的灵活性。

五散人 · 发表于 2015-8-7 14:33:00

11. 知觉噪音替换（PNS）

在MPEG-4 GA中引入了一种MPEG-2 AAC没有的新特性，即知觉噪音替换（PNS，Perceptual noise substitution）。它的目的是进一步优化低位速中AAC的位率效率。

知觉噪音替换技术是基于这样一种观察结果，即一种噪音听起来像另一种噪音。这说明一个噪音信号实际的良好结构对于此信号的主观感受是不重要的。因而，不传输噪音信号的实际谱成分，而是用位流告诉说这一频率范围有一个类似某种噪音的信号，并在该频段内的总功率上给予一些附加的信息。PNS能在标度因子基上切换，所以即使只有一些谱范围带有一个噪音结构，PNS也能用于节约位速。在解码器中，将根据位流中标志的功率等级把一个随机生成的噪音插入相应的谱区域。

（二）HVXC和CELP

1 ．MPEG-4自然语音编码工具概述

MPEG-4自然语音编码工具集用语音信号为大量与语音信号有关的应用程序提供了通用编码框架。它的比特率覆盖范围从2kbit/s到23.4kbit/s。覆盖了两种不同输入语音信号带宽，即4kHz和7kHz。MPEG-4自然语音编码工具集包含两种算法：HVXC（Harmonic Vector eXcitation Coding，谐波矢量激励编码）和CELP（Code Excited Linear Predictive coding，代码激励线形预测编码）。HVXC被用于2或4kbit/s的低比特率。比4kbit/s更高的比特率，以及3.85kbit/s，则被CELP覆盖。用这两种算法中任一个的算法延迟可以和用于双向通信的其他任一标准相比，因此，MPEG-4自然语音编码工具集也可用于那些应用。语音数据存储和广播也可能用到MPEG-4自然语音编码工具集。MPEG-4自然语音编码工具集的规格说明总结于表05-05-1。

表05-05-1 MPEG-4自然语音编码工具集的规格说明
HVXC
取样频率	8 kHz
带宽	300 - 3400 Hz
比特率 [bit/s]	2000 and 4000
帧大小	20 ms
延迟	33.5 - 56 ms
特点	多比特率编码，比特率可伸缩性

CELP
取样频率	8 kHz	16 kHz
带宽	300 - 3400 Hz	50 - 700 Hz
比特率 [bit/s]	3850 - 12200! F, J( S) w# Q, X4 O8 y4 m2 v% Z 28 Bitrates	10900 - 23800 / i6 N% l1 G! z, g4 r30 Bitrates
帧大小	10 - 40 ms	10 - 20 ms
延迟	15 - 45 ms	15 - 26.75 ms
特点	多比特率编码，比特率可伸缩性，带宽可伸缩性

MPEG-4以能够根据用户需求进行组合的工具为基础。HVXC由LSP（line spectral pair，线谱对）、VQ（vector quantization，矢量量化）工具和谐波VQ工具组成。RPE（regular pulse excitation，规则脉冲激励）工具、MPE（multipulse excitation，多脉冲激励）工具和LSP VQ工具则组成了CELP。RPE工具仅限于宽带模式，因为它的简明性是以牺牲质量作为代价的。LSP VQ工具是HVXC和CELP所共有的。MPEG-4自然语音编码工具说明见图05-05-5。

（1）MPEG-4自然语音编码工具的功能度

MPEG-4自然语音编码工具不同于其他一些已存在的语音编码标准，如ITU-T G.723.1和G.729，它有以下三个新功能：多比特率编码（一个任意比特率可以通过参数值的简单变化以每步200bit/s被选择），比特率可伸缩编码和带宽可伸缩编码。事实上，这些新功能便是MPEG-4自然语音编码工具的特点。应该指出的是带宽可扩展性只能用于CELP。

（2）多比特率编码

多比特率编码是用相同的编码算法提供灵活的比特率选择。不同的CODECS需要不同比特率。在多比特率编码中，会在多种可用比特率中选择一个比特率，而这建立在通信各方之间的连接之上。CELP中可以选择的比特率小到每步0.2kbit/s。帧长度、每一帧中子帧的数目以及激励码本的选择会因为不同比特率而被改变。如HVXC，2kbit/s或4kbit/s都可作为比特率。

除多比特率编码外，通过精细比特率控制（FRC， fine-rate control），更小步的比特率控制在CELP中可以被使用。而除了多比特率编码外，一些附加的比特率不能通过FRC提供的多比特率编码来使用。根据输入信号特征，比特率可能从一个指定比特率逐帧地发生变更。LP合成滤波器近似算出的谱包络随时间有小偏差时，线性预测系数的传输每两帧会被跳过一次，降低平均比特率。

（3）可伸缩编码

比特率和带宽的可伸缩性对于多播传输是有用的。通过简单地剥离部分位流，比特率和带宽可以被每一个接收器独立选择。可伸缩性使得只需要一个单独的编码器把相同数据传输给多个以不同比特率连接的点。在带移动终端的蜂窝网络和固定多媒体终端的数字网络之间的连接以及多点电话会议的连接中，都可能发现这种情况。这个编码器通过可伸缩编码为所有接收方产生单一公共位流来取代不同比特率的独立位流。

可伸缩位流有一个带核心位流与增强位流的分层结构。比特率控制的形成根据指定比特率调整增强位流的组合来实现的。核心位流至少可以保证以最小化的语音质量对原始语音信号进行重建。而附加的增强位流的使用取决于网络条件，它可以提高解码信号的质量。当使用TwinVX或AAC产生增强位流时，则用HVXC和CELP产生核心位流。它们也可以两者都产生。MPEG-4/CELP中可伸缩性的描述见图05-05-6。

可伸缩性包括比特率可伸缩性和带宽可伸缩性。这些可伸缩性通过把增强位流加入核心位流降低了信号的失真，或者获得更好的高频率成分语音质量。这些增强位流包括输入信号的细节特点或更高频带的成分。例如，图05-05-6的解码器A的输出是从6kbit/s核心位流解码获得的最低质量信号。解码器B的输出是从8kbit/s位流解码获得的高质量信号。解码器C提供的是从12kbit/s位流解码获得的更高质量信号。另一方面，解码器D输出有更宽带宽。这一宽带信号从22kbit/s位流被解码。和解码器C相比，10kbit/s的高频率成分的提供增进了自然度。带宽可伸缩性只能由MPE工具提供。对于比特率可伸缩性，增强位流的单位比特率在窄带中是2kbit/s，宽带中是4kbit/s。在带宽可伸缩编码情况下，增强位流的单位比特率取决于总的比特率，总结如表05-05-2所示。

表05-05-2 带宽可伸缩位流
核心位流 (bit/s)	增强位流 (bit/s)
3850 - 4650	9200；10400；11600；12400
4900 - 5500	9467；10667；11867；12667
5700 - 10700	10000；11200；12400；13200
11000 - 12200	11600；12800；14000；14800

账号		自动登录	找回密码
密码			快速注册

[音频应用] MPEG-4音频（上）

摇滚达人