MPEG-4音频（下）

五散人 · 发表于 2015-8-7 14:30:01

MPEG-4音频（下）

二. 合成声音

MPEG-4的译码器支持乐谱驱动合成（Score Driven Synthesis）和文语转换（TTS，text to speech) 合成。乐谱驱动合成是在乐谱文件或者描述文件控制下生成声音，乐谱文件是按时间顺序组织的一系列调用乐器的命令，合成乐音传输的是乐谱而不是声音波形本身或者声音参数，因此它的数据率可以相当低。随着科学技术突飞猛进的发展，尤其是网络技术的迅速崛起和飞速发展，文-语转换系统在人类社会生活中有着越来越广泛的应用前景，已经逐渐变成相当普遍的接口，并且在各种多媒体应用领域开始扮演重要的角色。TTS编码器的输入可以是文本或者带有韵律参数的文本，编码器的输出数据率可以在200 bps~1.2 kbps范围里。

（一）乐谱驱动合成

乐谱驱动合成又称为音乐合成。在这种方式中，解码是通过一种特殊的合成语言驱动的，这种语言称为结构化音频乐队语言（SAOL ，Structured Audio Orchestra Language），并且已经标准化成为MPEG-4的一部分。SAOL被用于定义一个有“乐器（instruments）”组成的“乐队（orchestra）”（或称为合成器，Synthesizer），这些乐器不是固定在终端设备中，而是从位流（bitstream）里下载下来，用于产生和处理控制数据。一个乐器是一个小的信号处理原语网络，可以模拟一些特定的声音，例如一个真正音乐乐器的声音。这种信号处理网络可以用硬件或软件实现，既包括声音的产生和处理，也包括预存储声音的管理。

下面是一个用SAOL定义的乐队例子，定义一个可以产生复杂的婉转声调的乐器beep，可以在一个结构化音频会话中使用：

global { srate 32000; krate 1000;} instr beep(pitch, amp) { asig out; ksig env; table sound(harm,2048,1,0.5,0,0.2); env = kline(0,0.1,amp,dur-0.1,0); out = oscil(sound,pitch) * amp; output(out);}

MPEG-4并不标准化合成的具体方法，而是标准化描述合成方法的方式。任何现存的或将来开发的声音合成方法都可用SAOL描述，包括波表（wave table），频率调制（FM），添加（additive），物理造型（physical-modeling），粒状合成（granular synthesis），以及这些方法的非参数的混合等。

每一个位流以一个SAOL乐队开始，乐队提供在该会话中需要的乐器。结构化音频位流的流访问单元（streaming access units）包含指令，这些指令规定应如何使用头部中描述的乐器来产生声音。指令用另一种称为结构化音频乐谱语言（SASL, Structured Audio Score Language）来描述。下面是一个这种指令集或乐谱（Score）的例子：

0.0 beep 1.0 440 0.51.0 beep 2.0 220 0.22.0 beep 1.0 264 0.53.0 beep 1.0 440 0.54.0 end

这个乐谱使用前面定义的乐器beep演奏4个音符（notes），对应的音符见

一个乐谱是命令的时间序列集，它在规定时刻调用若干乐器使他们的输出产生一个完整的演奏或产生声音效果。用SASL描写的乐谱被下载下来，可用来产生新的声音，并且还包括附加的修改现存声音的控制信息。乐谱描写使作曲者能更精细地控制最后合成的声音。对于那些不需要这种精细控制的合成过程，可使用MIDI协议控制乐器。

仔细的控制与定制的乐器定义相结合，可以使产生的声音从简单的音频效果如脚步声或关门声，到仿真自然声音如下雨或传统乐器演奏的音乐，到完全合成的声音以形成复杂音频效果或未来派音乐。

解码过程与编码过程有区别。图05-05-18给出了一种方案。

五散人 · 发表于 2015-8-7 14:30:19

对位流解码的第一步是处理和理解头部的SAOL指令。这一阶段位流处理与编译或解释一种高级语言类似。MPEG-4标准规定了SAOL语义——给定的乐器声明预定要产生的声音是明确的，但是不规定实现的确切方法。音频工具结构的解决方案可以用软件、硬件或是硬件/软件二者实现。然而，需要是可编程的，并且不变的硬件（ASIC）工具是很难实现的。SAOL预处理阶段导致了一系列乐器定义，用于配置可重配置合成引擎（econfigurable synthesis engine）。这个引擎的能力和功能在标准上进行了全面的描述。
当头部被接收并处理后，合成便从输入流访问单元开始了。每个访问单元包括一条乐谱线，指导合成进程的某些方面。当每一条谱线被终端接收后，它被分析并作为一个事件被结构化音频调度器登记。维护着事件的一个时间序列化列表，并且在适当的时间调度器触发每个事件。
当一个事件被触发打开一个乐曲，就生成一个乐曲对象实体或乐器。始终维护着一个活动乐曲池，这个池中包含了目前所有活动的乐曲。当译码器执行时，它顺序检查池中每一个乐器实例，形成准备下一轮小量的合成，这些合成由描述该乐器的SAOL代码规定。这个处理为每一个活动乐曲事件产生一个数据框架（这个框架的长度取决于内容作者确定的控制率）。这些框架合起来为所有乐曲产生总的解码输出。
MPEG-4为那些功能性较少的终端和不需要复杂合成的应用则标准化了一种“波表组格式（wavetable bank format）”。利用这种格式，使用波形表合成的声音样本可以被下载下来进行简单处理，例如滤波、反响和合唱效果等。在这种情况，可以通过查看位流精确地确定需要的解码处理的计算复杂性，使用SAOL则无法作到。
(二) 文-语转换
文-语转换是将文本形式的信息转换成自然语音的一种技术，其最终目标是使计算机输出清晰而又自然的声音，也就是说，要使计算机像人一样，根据文本的内容可带各种情调来朗读任意的文本。TTS是一个十分复杂的系统，涉及到语言学、语音学、信号处理、人工智能等诸多的学科。
由于TTS系统具有巨大的应用潜力和商业价值，许多研究机构都在从事这方面的研究。目前的TTS系统一般能够较为准确清晰地朗读文本，但是不太自然。TTS系统最根本的问题便在于它的自然度，自然度是衡量一个TTS系统好坏的最重要指标。因此，研究更好的文语转换方法，提高合成语音的自然度就成为当务之急。
MPEG-4 的TTS 编码器比特率范围是200 bps到1.2 K bps ，使输入一个文本或带韵律参数（基音周期轮廓，音素持续时间等）的文本就能产生可理解的合成声音。它支持参数生成，这些参数可用来使声音与相关联的面部动作同步，国际语言与文本内容同步，国际符号与音素同步等。还可以添加标记，用于在文本里携带控制信息，以便转送给其他需要与该文本同步的成分实现同步。
一个相当完整的TTS系统如图05-05-19所示。尽管现有的TTS系统结构各异，转换方法不同，但是基本上可以分成两个相对独立的部分。在图中，左边的部分是文本到声音的生成，将输入文本转换成没有韵律特征的音素序列，然后由音素形成声音。右边的部分是语音质量控制部分，它通过对文本的理解，生成韵律特征(基频、时长和幅度)，然后用韵律特征控制由音素形成的声音，从而产生相应的合成语音输出。处理过程中要用到词法分析、语法分析、语义分析，甚至自然语言理解等技术。
图05-05-19 TTS系统方框图
（三）文语转换接口
在MPEG-4中，标准化了TTS系统的单个普通接口；这个接口允许声音信息以国际音标（IPA，International Phonetic Alphabet）的方式或者是任何语言的文本（书写）格式传输。
和一个文本到语言合成系统的接口相似，MPEG-4为音素信息和面部活动（FA，facial animation）参数规定了一种联合编码方法。使用这种技术，一个单独的位流可以用来控制TTS接口，而面部活动可视对象解码器。这种扩展的TTSI（ Text-to-Speech Interface，文语转换接口）的功能性包括从传统的TTS到自然的语言编码及应用领域，从简单的TTS到具有TTS的视听呈现以及具有TTS的运动图像配音。
图05-05-20显示了一个MPEG-4 TTSI 解码器的方案图。解码器的体系结构可以用接口的集成来描述。MPEG-4 TTSI的标准的特性根据这些接口来描述，而不是产生的声音或活动画面来描述。
图05-05-20 MPEG-4 TTSI解码过程总揽
三. AudioBIFS
（一）AudioBIFS操作模式
通过包括混合和后期生产多音频源的复杂的能力，MPEG-4能够实现很多先进的应用，例如虚拟现实声音（virtual-reality sound），交互的音乐练习以及适应的声迹。
Audiobifs支持两种主要的操作模式，我们称之为虚拟现实（virtual-reality）和抽象效果（abstract-effects）混合。
在虚拟现实混合中，目标是尽量精确地再创造一个特定的听觉环境。声音的空间呈现应该根据它相对于听者在现实方式的相对位置的空间；运动声音应是具有多普勒频移的；远距离的声音应该使之变弱并且通过低通滤波以仿真空气的吸收特性；以及声源应该根据具体的频率相关定向模式来不一致地辐射声音。这种类型的情景合成最适合对“虚拟世界”的应用和视频游戏，在这些情况中应用的目标是使用户沉浸在合成的环境中。VRML音频模式就包含了这个宗旨，它对一个工具中必须实现的各种各样的声音特性提出了很高的需求。
在抽象效果的混合方式中，目标是给内容作者提供一套丰富的工具，艺术角度考虑能通过这些工具为给定的情况选择正确效果。不仅让传统的媒体例如电影、收音机和电视机的音响设计师们再创造一个虚拟的听觉环境（虽然这是当今电影制片厂的要求），而且还提供“电影应该听起来究竟如何？”的逼真的身体感受。有时候空间效果是要使用的，但是经常是在一种非物理现实的方式下；对于滤波器、回响和其他用来产生各种艺术效果的声音处理技术也是这样，和严格的现实相比更具有强迫性。这种内容生成模式比虚拟现实模式在回放方面要求更规范。
一个MPEG-4总音频系统的标准图如图05-05-21所示。
图05-05-21 MPEG-4音频系统
图 05-05-21表示了demux、decode、AudioBIFS和BIFS层，图示了位流形式的音频帧、译码机和场景综合过程之间的相互作用。
声音被MPEG-4位流运载，这些MPEG-4位流作为几种元素流包含了按一定格式编码的音频。在图05-05-21的声音场景中有四个元素流。每个元素流包含了一个基本的媒体对象，在音频情况下是一个单声道或多声道声音，他们将会组合到总场景中去。在图05-05-21中，用GA编码器（MPEG-4通用音频，用于宽带音乐）编码的流被译码为立体声，其他流被译码为单声道的声音。不同的基本音频对象每个可能使用一个不同的音频译码器，而译码器在同一场景中又可能被使用多次。
在一个复用的表示中多个元素流是被一起传送的。多个复用的流可能从多个服务器传送到一个单独的MPEG接收器或终端。在图05-05-21中绘出了两个复用的MPEG-4位流，每个源于不同的服务器。编码的视频内容也可以被复用成同样的MPEG-4位流。当它们在MPEG-4终端被接收到时，MPEG-4位流被解复用，并且每个基本媒体对象被解码。其结果的声音并不直接播放，而是使用AudioBIFS让他们可用于场景合成。
（二）AudioBIFS节点
BIFS场景图本身也是在复用的MPEG-4位流中传输。BIFS和AudioBIFS媒体对象本身一样是内容的简单部分；在MPEG-4中场景图没有“做成硬件”的概念。内容开发者们有很大的灵活性来以各种各样的方式使用BIFS。在图05-05-21中，BIFS部分和场景图的AudioBIFS部分是分开的，因为它便于想象，但是在两者之间（AudioBIFS仅仅是BIFS 的子集）没有任何技术的不同。
与BIFS其余的功能类似，AudioBIFS包含了一系列在场景图中相互连接的节点。然而，AudioBIFS场景图的概念有些不同，它被称为音频子图（subgraph）。
主（可视的）场景图代表了表现空间中可视化对象的时空位置和它们的特性像颜色、纹理和层次，一个音频子图代表了一个描述数字信号处理操作的信号流图。声音从场景图低部的MPEG-4视频译码器流入；每个“子”节点代表处理从一个或多个“父”节点得来得结果。通过这种处理链，声音流最终到达音频子图的顶部。在中部操作过程的“中间结果”不是使用者要播放的声音，只有每个音频子图的顶部的处理结果被表现出来。
表05-05-3是AudioBIFS节点总结。

五散人 · 发表于 2015-8-7 14:30:45

表05-05-3 AudioBIFS节点

节点名	功能
AudioSource	联接译码器到场景图
Sound	联接音频子图到可视场景
AudioMix	混合多声音声道
AudioSwitch	选择一个声音声道的子集
AudioDelay	延迟一系列音频声道
AudioFX	形成音频效果处理
AudioBuffer	为相互作用回放提供声音缓冲
ListeningPoint	控制虚拟听众的位置
TermCap	询问终端资源

MPEG-4系统标准包含了在AudioBIFS中声音的再抽样、缓冲和同步的规格说明。

四. 音频轮廓

MPEG-4定义了8种音频轮廓。它们是：

（1）语音轮廓（Speech Profile ）。语音轮廓提供一个甚低比特率的参数语音编码器HVXC（Harmonic Vector eXcitation Coding，共振峰矢量激励编码），一个CELP窄带/宽带语音编码器，和一个文语转换接口。

（2）合成轮廓（Synthesis Profile）。合成轮廓提供使用SAOL和波表的乐谱驱动合成以及一个文语转换接口，以产生甚低比特率的声音和语音。

（3）可扩展轮廓（Scalable Profile）。可扩展轮廓是语音轮廓的一个超集，适合于诸如Internet和窄带音频数字广播（NADIB，Narrow band Audio DIgital Broadcasting）等网络的可扩展的语音和音乐编码。比特率范围6Kbps~24Kbps，带宽在3.5 和 9 kHz之间。

（4）主轮廓（Main Profile）。主轮廓是其他轮廓的丰富的超集，包含许多自然和合成音频工具。

（5）高质量音频轮廓（High Quality Audio Profile）。高质量音频轮廓含有包括长时预测（Long Term Prediction）的CELP语音编码器和低复杂度AAC编码器。可扩展编码能够通过AAC的可扩展对象类型完成。新的错误抗御（ER，error resilient）比特流句法可以作为选项使用。

（6）低延迟音频轮廓（Low Delay Audio Profile）。低延迟音频轮廓包含HVXC和CELP语音编码器（可选用ER比特流句法），低延迟AAC编码器，和文语转换接口TTSI。

（7）自然音频轮廓（Natural Audio Profile）。自然音频轮廓包含MPEG-4中所有可用的、而不仅是合成可用的自然音频编码工具。

（8）移动音频网络互联轮廓（Mobile Audio Internetworking Profile）。移动音频网络互联轮廓含有包括TwinVQ 和 BSAC在内的低延迟和可扩展的AAC对象类型。这个轮廓意在扩展通信应用，这些应用使用具有高性能音频编码能力的非MPEG语音编码算法。

需要指出的是MPEG-4版本2支持上述8种轮廓，MPEG-4版本1则只支持前4种轮廓。

账号		自动登录	找回密码
密码			快速注册

[音频应用] MPEG-4音频（下）

相关帖子

摇滚达人

[音频应用] MPEG-4音频 （下）

相关帖子

摇滚达人

[音频应用] MPEG-4音频（下）