MPEG-7音频

五散人 · 发表于 2015-8-7 14:28:28

MPEG-7音频

一．概述

MPEG-7的第3部分“音频”（ISO/IEC 15938-3）包括两部分内容：

a) 音频框架。一组工具的集合和低级描述符，可用于构建更大的面向应用任务的框架。

1) 标量序列（Scalable Series）。一系列特征值的高效表示。这是MPEG-7音频的核心部分。

2) 低级音频描述符（Low level audio descriptors）。主要的低级音频描述符汇集，很多在标量系列上构建。

3) 静音（Silence）。标识静音的描述符。

b) 高级工具（High Level Tools）。一系列不同工具，搭配用于特定应用。这些工具使用音频框架。

1) 音色描述（Timbre Description）。描述乐器声音的知觉特性的描绘方案汇集。

2) 声音识别（Sound Recognition）。描述符和描述方案汇集，定义了一种适宜处理声音效果的通用机制。

3) 口语内容（Spoken Content）。一系列描述方案，表示自动语言识别（ASR，Automatic Speech Recognition）的输出。

4) 旋律轮廓（Melody Contour）。一种能检索音乐数据的描述方案。

5) 旋律（Melody）。旋律的一种更通用的描述框架。

上述内容包含了六种技术: 音频描述框架（包括标量树和低级描述符），音响效果描述工具，乐器音色描述工具，口语内容描述，均匀的静音段，便于用声音查询（query-by-humming）的旋律描述符。

二．MPEG-7音频描述框架

音频框架包含了低级工具，设计来提供构建更高级音频应用的基础。通过为描述结构和为共同注意的音频特征的基本语义学提供一个公共平台，MPEG-7音频建立了一个互操作平台，实现可能建立在该框架上的所有应用的互操作。

有两个基本的方式描述低级音频特征。一种方式是相等间隔进行抽样，或者是使用AudioSegments来对声音中相似的和不相似的区域进行标注。这两种可能性都嵌入在低级描述符类型AudioLLDScalarType 和 AudioLLDVectorType中。这两种类型中的任一描述符都可以作为ScalableSeries中的抽样值，或是作为AudioSegment的概要描述符的一个实例。

一个AudioSegment是一个音频材料的时间间隔，其范围可能从任意短的间隔到一个媒体文档的整个音频部分。一个需要的AudioSegment元素是MediaTime描述符，它标记了段的开始和结束。TemporalMask DS是一个结构，允许指明一个时间上不临近的AudioSegment。一个AudioSegment（具有任意SegmentType）可以多级分解以便描述一颗Segments树。

另一个关键概念是在抽象数据类型AudioDType 和 AudioDSType中。为了使一个音频描述符或描述方案附于一个段，它必须继承这两个类之一。任何从这些类型中继承的描述符都可以实例化，如应用需求的那样描述带一个单独的概要值或一系列抽样值的一个段。

抽样值本身可以通过另一统一接口进一步操作：它们能形成一个标量序列。标量序列允许对包含在序列中的数据渐进地降低抽样，就像应用、带宽或存储需求的那样。按照这种方式标量树也可以存储各种概要值，如描述符值的最小值、最大值和偏差。

低级音频描述符在描述音频中很重要。有十七种时域的和谱的描述符可以在各种应用中使用。它们被粗略地分为以下几组：

· 基本的：瞬间波形和能量值；

· 基本谱的：一个对数-频率功率谱，以及包括谱心、频谱延展性、频谱平坦度等谱特性；

· 信号参数：类周期信号的基本频率和信号谐波；

· 音色时间的：对数表示的起唱的准确性时间（log attack time）和时心；

· 音色谱的：在线性空间专有的谱特征（包括频心），以及信号谐波部分所特有的谱特征（包括谐波谱心、谱离差、谱延展性和谱变化）；

· 谱的基本表示：主要用于声音识别的特征，但作为投射到低维空间以助于压缩和识别也是很有用的。

以上每一种都可以用来描述一个段，这个段携带一个适用于整个段的概要值，或携带一系列的抽样值。音色时间组是个例外，因为它的值只能应用到整个段中。

低级音频描述符一般可以为许多想象得到的应用服务，谱平坦度描述符尤其支持音频信号的顽健匹配功能度。应用包括音频指纹、基于已知工作数据库的音频鉴别以及在没有元数据注解的情况下定位示例音频内容的元数据。

此外，一个简单但是很有用的工具是MPEG-7静音描述符。它把 “无声”的简单语义（例如没有显著的声音）附属到一个音频段。它可能被用来进一步分割音频流或是作为一种指示，暗示不再对段进行操作。

三.高级音频描述工具

粗略地表示了应用领域的四套音频描述工具集成在FCD里：声音识别，乐器音色，口语内容，旋律轮廓。

（一）乐器音色描述工具

音色描述符的目标是描述乐器声音的知觉特性。音色目前在文学中定义为一种知觉特性，它使两种相同基音周期和响度的声音听起来不同。音色描述符工具的目标是用减少的描述符集来描述那些知觉特性。这些描述符与声音的“起唱的准确性（attack）”，“欢快（brightness）”，“圆润（richness）”等概念相关。

在四个详细的乐器声音类中，有两类是很详细的，并且成为核心实验开发的主题。在这点上，和声的、相干的持续音，以及不持续的打击音在FCD中都有表示。持续和声音色描述符组合了上述包括对数表示的起唱的准确性时间描述符在内的音色频谱低级描述符。打击乐器描述符组合了包括谱心描述符在内的音色时间低级描述符。

（二）声音识别工具

声音识别描述符和描述方案是一套用于索引和分类一般声音的工具，直接施用于声音效果。包括支持自动声音鉴别和索引，以及确定声音类分类的工具和确定声音识别器本体的工具。这些识别器可以被用来自动索引和分割声轨。

识别工具使用低级谱基本描述符来作为基础。这些基本功能被进一步划分为组成一个统计模型的状态系列，例如隐马尔可夫（hidden Markov）或高斯（Gaussian）混合模式，模型就在这些可能的状态过渡上训练。这种模型可以处于它自己表示的意思上，有一个标签，按照原始的声音的语义和它相关联，和/或者是与其他模型相关联以便将新的声音输入分类到一个识别系统。

（三）口语内容描述工具

口语内容描述工具允许详细描述在一个音频流中说出的词语。考虑到现在的语音自动识别（ASR，Automatic Speech Recognition）技术的局限性，以及经常会遇到超过词汇表范围的发音，口语内容描述工具以牺牲紧凑性为代价来换取搜索的顽健性。为此，这种工具代表了输出的和可能被视作正常中间结果的语音自动识别（ASR）结果。此工具可以用来为两类广泛的检索方案使用：索引和检索音频流，索引用语音注释的多媒体对象。

口语内容描述工具被区分为两大功能单元：格（lattice），代表了被ASR引擎产生的实际译码；头部，包含了关于被识别的讲话人和识别器的信息。格由音频流中每个讲话人的组合词和单音格组成。通过组合这些格，超出词汇表的问题可以大大减轻，在原始的单词识别错误时仍然可以进行检索。

五散人 · 发表于 2015-8-7 14:29:04

（四）旋律描述工具

旋律轮廓DS是旋律信息的紧缩表示，允许有效和顽健的旋律相似性匹配，例如，在用声音查询的方式下。旋律轮廓DS使用五阶轮廓（代表在临近的音符之间的音程差），在这种轮廓里每个音程都已量化。通过储存每个音符的最近的整个节拍的数目，旋律轮廓DS也代表基本的韵律信息，能极大地提高一个查询的匹配精确性。

对要求更好的旋律描述精确性或旋律重构性的应用，旋律DS支持一个扩展的描述符集和高精确度的音程编码。不只是量化五级分之一，还能保持音符之间精确的基音周期间距（到分或更小）。用与基音周期间距类似的方法，通过编码音符位置之间差值的对数比，来保持韵律信息的精确。对这些核心描述符的阵列是一系列的可选支持描述符，如应用考虑要使用的歌词（lyrics）、调（key）、计量（meter）以及开始音符等。

四.MPEG-7音频工具列表

表05-06-1至4列出了现在已经定义的MPEG-7音频工具。

五散人 · 发表于 2015-8-7 14:29:28

表05-06-1 标量序列（Scalable Series）

序号	名称	说明
1	ScalableSeriesType
2	Scalable Series
3	SeriesOfScalarBinaryType
4	SeriesOfVectorType
5	SeriesOfVectorBinaryType

表05-06-2 低级音频描述符（Low level Audio Descriptors）

序号	名称	说明
1	AudioLLDScalarType
2	AudioLLDVectorType
3	AudioWaveformType
4	AudioSpectrumEnvelopeType
5	AudioPowerType
6	AudioSpectrumCentroidType
7	AudioSpectrumSpreadType
8	AudioSpectrumFlatnessType
9	AudioFundamentalFrequencyType
10	AudioHarmonicityType
11	TimbreDescriptorType
12	LogAttackTimeType
13	HarmonicSpectralCentroidType
14	HarmonicSpectralDeviationType
15	HarmonicSpectralSpreadType
16	HarmonicSpectralVariationType
17	SpectralCentroidType
18	TemporalCentroidType
19	AudioSpectrumBasisType
20	AudioSpectrumProjectionType

表05-06-3 静音（Silence）

序号	名称	说明
1	SilenceHeaderType
2	SilenceType

表05-06-4 高级工具（High Level Tools）

类别	序号	名称	说明
音色（Timbre）	1	InstrumentTimbreType
	2	HarmonicInstrumentTimbreType
	3	PercussiveInstrumentTimbreType
声音识别描述符和描述方案	1	SoundRecognitionFeatures
	2	SoundRecognitionModelType
	3	SoundRecognitionStatePathType
	4	SoundModelStateHistogramType
	5	SoundClassifierType
	6	SoundCategoryType
口语内容（Spoken Content）	1	SpokenContentHeaderType
	2	SpeakerInfoType
	3	SpokenContentIndexEntryType
	4	ConfusionStatisticsType
	5	SpokenContentBlockCountType
	6	SpokenContentNodeCountType
	7	WordType
	8	PhoneType
	9	LexiconType
	10	WordLexiconType
	11	phoneticAlphabetType
	12	PhoneLexiconType
	13	SpokenContentLatticeType
	14	SpokenContentLinkType
旋律轮廓（Melody Contour）	1	MelodyContourType
	2	ContourType
	3	MeterType
	4	BeatType
旋律（Melody）	1	MelodyType
	2	MelodyMeter
	3	MelodyScale
	4	MelodyKey
	5	MelodySequence

账号		自动登录	找回密码
密码			快速注册

[音频应用] MPEG-7音频

相关帖子

浏览过的版块

摇滚达人