|
|
科普常识:常见音频参数解析
( \( U2 c4 p3 l- W 7 g1 u' J) T6 s1 P" N4 q: X
一、音频
' {# G7 |7 x2 q: a7 A! f6 ?: d3 t; Q& O9 y) Q1 g& g b' Q
指人耳可以听到的声音频率在20Hz~20kHz之间的声波。
W" q0 f7 Z' r5 n p' {
6 `) D- I8 g3 m+ T2 f 如果在计算机加上相应的音频卡—就是我们经常说的声卡,我们可以把所有的声音录制下来,声音的声学特性如音的高低等都可以用计算机硬盘文件的方式储存下来。反过来,我们也可以把储存下来的音频文件用一定的音频程序播放,还原以前录下的声音。* O1 |" C, I5 q/ v
% o: a8 Q! Q6 _1 h二、采样频率
% U- W; p$ ^4 @
]4 A9 V0 ]- z8 q6 j, I) B3 y 指每秒钟取得声音样本的次数。声音其实是一种能量波,因此也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电平轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行采样。7 u; p9 i1 m1 f( M8 w- Z
8 S0 r9 H7 ]# {% B. \ 采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,采样频率越高,声音的质量也就越好,声音的还原也就越真实,但同时它占的资源比较多。由于人耳的分辨率很有限,太高的频率并不能分辨出来。22050 的采样频率是常用的,44100已是CD音质,超过48000或96000的采样对人耳已经没有意义。这和电影的每秒24帧图片的道理差不多。如果是双声道(stereo),采样就是双份的,文件也差不多要大一倍。! m, ~. G1 j9 Z c, [, L4 w
1 t- D5 s) I4 A2 e/ B5 t. e% I 根据奈奎斯特采样理论,为了保证声音不失真,采样频率应该在40kHz左右。这个定理怎么得来,我们不需要知道,只需知道这个定理告诉我们,如果我们要精确的记录一个信号,我们的采样频率必须大于等于音频信号的最大频率的两倍,记住,是最大频率。
6 L, X, O8 ]! a0 u3 {9 N, [
5 M3 Q$ A/ ^9 [. `- P, \+ x: C2 r 在数字音频领域,常用的采样率有:1 ?1 I$ f' O" l- ]3 f4 \ P p
% D" g' t. k4 @$ h5 H 8000 Hz - 电话所用采样率, 对于人的说话已经足够
9 Q4 f( F4 p$ o0 l
3 o5 B# o. z3 t& N! r2 `: v7 J' [2 t 11025 Hz - 电话所用采样率2 h1 Y6 g) _$ ~ `9 m
' K9 I7 T- A$ s) ^ 22050 Hz - 无线电广播所用采样率
, C0 H* q' H' a& Y) K0 n/ M2 v! e: r$ ^5 N O
32000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率
' W! [- ]0 y/ k& Y! B2 s9 w% r' q( L1 l
44100 Hz - 音频 CD, 也常用于 MPEG-1 音频(VCD,SVCD,MP3)所用采样率
; u# F# s3 S4 o2 j# w: n3 L
3 h' B; q5 Z7 S! F9 P 47250 Hz - 商用 PCM 录音机所用采样率
" B, c+ t$ Y! U4 {' l( R3 @" T- r+ ~0 W: }" e
48000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率
p! |- `& _: }+ \( @+ n O& J( N9 y. S2 R1 W: Z, m
50000 Hz - 商用数字录音机所用采样率
/ c* f4 w# @! ~, D$ q) b, p/ x- {; r5 d
96000 Hz或者 192000 Hz - DVD-Audio、一些 LPCM DVD 音轨、BD-ROM(蓝光盘)音轨、和 HD-DVD (高清晰度 DVD)音轨所用所用采样率
w1 G9 Q$ i2 S1 F: U8 E- d; R. ~2 l$ M/ l
二、采样位数
4 q( Q# k, s3 W2 i& }# H! B6 g( |& |2 G& c) N* m. c" ~, w
采样位数也叫采样大小或量化位数。它是用来衡量声音波动变化的一个参数,也就是声卡的分辨率或可以理解为声卡处理声音的解析度。它的数值越大,分辨率也就越高,录制和回放的声音就越真实。而声卡的位是指声卡在采集和播放声音文件时所使用数字声音信号的二进制位数,声卡的位客观地反映了数字声音信号对输入声音信号描述的准确程度。常见的声卡主要有8位和16位两种,如今市面上所有的主流产品都是16位及以上的声卡。
( J+ ^8 F! g6 A, N R7 r9 e5 a2 \' `; a) R
每个采样数据记录的是振幅, 采样精度取决于采样位数的大小:% J* W/ U" d4 I1 ^" O$ B
9 B, Z/ v6 I( S3 w6 I! }9 j
1 字节(也就是8bit) 只能记录 256 个数, 也就是只能将振幅划分成 256 个等级;- o# e! P: d$ X# B
1 A( A% @5 T/ Q+ i* a3 P* f 2 字节(也就是16bit) 可以细到 65536 个数, 这已是 CD 标准了;
8 g1 e7 a6 s0 ~& g0 D' S
) v& i! b T* Y9 F6 ~) y 4 字节(也就是32bit) 能把振幅细分到 4294967296 个等级, 实在是没必要了.
3 f, b9 V! B9 ~+ L: N7 M
) A! z2 H+ s6 r+ P& m4 b' E三、通道数
' |1 t* |1 p8 o2 q$ j- t2 e5 R- D% {# L) s
即声音的通道的数目。常见的单声道和立体声(双声道),现在发展到了四声环绕(四声道)和5.1声道。0 ~. l6 q2 \8 B3 d, }
# g' M" g" c/ Q% e5 r& b
1.单身道
* a: r; m8 W% L( ^
e, f- s3 s, ^: k- [" c3 W1 u 单声道是比较原始的声音复制形式,早期的声卡采用的比较普遍。单声道的声音只能使用一个扬声器发声,有的也处理成两个扬声器输出同一个声道的声音,当通过两个扬声器回放单声道信息的时候,我们可以明显感觉到声音是从两个音箱中间传递到我们耳朵里的,无法判断声源的具体位置。
5 }. W" H4 v; I, v5 O. {
5 A) E8 [2 E* n' g0 V2.立体声
% l. x. t! J8 u: Y0 c+ E8 G% r7 u( M& @( f
双声道就是有两个声音通道,其原理是人们听到声音时可以根据左耳和右耳对声音相位差来判断声源的具体位置。声音在录制过程中被分配到两个独立的声道,从而达到了很好的声音定位效果。这种技术在音乐欣赏中显得尤为有用,听众可以清晰地分辨出各种乐器来自的方向,从而使音乐更富想象力,更加接近于临场感受。
+ A3 w z6 t' r% @# T) m1 t n- F, ?6 |. n* d
双声目前最常用途与两个,在卡拉OK中,一个是奏乐,一个是歌手的声音;在VCD中,一个是普通话配音,一个是粤语配音。6 l1 h1 `8 j' A l$ M8 a0 l" s' U
8 |' v. l2 y) Z+ E, `3 o
3.四声环绕
& A* t" f/ E* L z' s8 x" s! v
$ |" W. n$ b) ?( Y1 b 四声道环绕规定了前左、前右,后左、后右四个发声点,听众则被包围在这中间。同时还建议增加一个低音音箱,以加强对低频信号的回放处理(这也就是如今4.1声道音箱系统广泛流行的原因)。就整体效果而言,四声道系统可以为听众带来来自多个不同方向的声音环绕,可以获得身临各种不同环境的听觉感受,给用户以全新的体验。如今四声道技术已经广泛融入于各类中高档声卡的设计中,成为未来发展的主流趋势。
+ P5 q0 a* A5 k+ E d" r8 q {' _& \+ |4 t' t
4.5.1声道
- _1 X0 c0 |. u( z6 N
: Q% w1 c# B1 w6 K8 g: S- V$ a ~ 5.1声道已广泛运用于各类传统影院和家庭影院中,一些比较知名的声音录制压缩格式,譬如杜比AC-3(Dolby Digital)、DTS等都是以5.1声音系统为技术蓝本的,其中“.1”声道,则是一个专门设计的超低音声道,这一声道可以产生频响范围20~120Hz的超低音。其实5.1声音系统来源于4.1环绕,不同之处在于它增加了一个中置单元。这个中置单元负责传送低于80Hz的声音信号,在欣赏影片时有利于加强人声,把对话集中在整个声场的中部,以增加整体效果。
- |9 W1 a. t; j% I9 [
; i$ e6 m9 w9 A2 ]4 ^% Q 目前很多在线音乐播放器,比如说QQ音乐,已经提供5.1声道音乐试听和下载。9 M: O2 P" i+ d1 ^& s
2 \& ^+ ^. U7 h1 ^" l四、帧
+ m l9 m/ f% ]/ l6 {
1 `# C. P/ S7 P 音频的帧的概念没有视频帧那么清晰,几乎所有视频编码格式都可以简单的认为一帧就是编码后的一副图像。但音频帧跟编码格式相关,它是各个编码标准自己实现的。因为如果以PCM(未经编码的音频数据)来说,它根本就不需要帧的概念,根据采样率和采样精度就可以播放了。比如采样率为44.1kHZ,采样精度为16位的双音频,你可以算出比特率是44100*16*2bps,每秒的音频数据是固定的44100*16*2/8 字节。
& ]4 f9 r8 `7 X } u2 \- e4 h. m0 u# y' ]
amr帧比较简单,它规定每20ms的音频是一帧,每一帧音频都是独立的,有可能采用不同的编码算法以及不同的编码参数。/ G/ @& c4 W( p: w. V1 c. J
) S4 l3 {% B8 _$ Z0 q mp3帧较为复杂一点,包含了更多的信息,比如采样率,比特率,等各种参数。
) d( A' v q/ ^
: M( j, ^. l- B* z: Q五、周期3 O$ Z* w! x3 j; S, t
1 V$ o$ o0 h6 h2 C$ X7 r9 } 音频设备一次处理所需要的帧数,对于音频设备的数据访问以及音频数据的存储,都是以此为单位。7 B) z. }6 v: L6 H) x
9 ~+ B* R H4 A! Q六、交错模式$ N9 a0 I; z1 b. c
- T5 f4 s- {7 O% K% U* [( D8 d& I 数字音频信号存储的方式。数据以连续帧的方式存放,即首先记录帧1的左声道样本和右声道样本,再开始帧2的记录。6 B# T# ]. f8 g# X; S
; S) t" o- `7 D3 }6 y
七、非交错模式
- o/ A/ l' R+ ]
$ V E+ A F3 w) ~ 首先记录的是一个周期内所有帧的左声道样本,再记录所有右声道样本。
( t$ P1 h7 w% [/ _% I, n0 V/ g1 {/ _ `% f7 e3 ]$ V
八、比特率6 c' \8 J/ Z2 C
& u! `6 B0 Q- w6 d 比特率也叫码率,指音乐每秒播放的数据量,单位用bit表示,也就是二进制位。 bps就是比特率。b就是比特(bit),s就是秒(second),p就是每(per),一个字节相当于8个二进制位。也就是说128bps的4分钟的歌曲的文件大小是这样计算的(128/8)*4*60=3840kB=3.8MB,1B(Byte)=8b(bit),一般mp3在128比特率左右为益,也大概在3-4 BM左右的大小。
/ }5 t( a* Z' w2 y1 m$ j0 a7 o3 B( @2 T% t/ ^3 f$ @
在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的 WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。
+ f! U- H& A3 R8 K6 G% i
' e, }; n8 r, z: W4 w& q 要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数 bps。一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为 44.1K×16×2 =1411.2Kbps。我们常见的Audio CD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。
+ D. S4 K) `. t8 A1 x9 j
~& N" n, I' S' B" u7 R 双声道的PCM编码的音频信号,1秒钟需要176.4KB的空间,1分钟则约为10.34M,这对大部分用户是不可接受的,尤其是喜欢在电脑上听音乐的朋友,要降低磁盘占用,只有2种方法,降低采样指标或者压缩。降低采样指标是不可取的,因此专家们研发了各种压缩方案。最原始的有DPCM、ADPCM,其中最出名的为MP3。所以,采用了数据压缩以后的码率远小于原始码。 |
|