版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、音頻處理技術(shù)Audio Processing二 音頻處理技術(shù)2.1音頻信號及其概念n聲音處理技術(shù)的歷史2.1 2.1 聲音與聽覺聲音與聽覺n聲音是通過空氣傳播的一種連續(xù)的波,這種連續(xù)聲音是通過空氣傳播的一種連續(xù)的波,這種連續(xù)性表現(xiàn)在兩個方面,一個是時間上的連續(xù)性,另性表現(xiàn)在兩個方面,一個是時間上的連續(xù)性,另一方面是指它在幅度上是連續(xù)的。一方面是指它在幅度上是連續(xù)的。n音頻信號的形式:語音與非語音2.1音頻信號及其概念音頻場景分析音頻場景分析n模擬音頻信號的物理特性2.1音頻信號及其概念n聲音由物體的振動產(chǎn)生,并通過介質(zhì)傳播的連續(xù)波聲波傳遞的是分子的運動聲音傳播需要介質(zhì)空氣中的聲速約為 340
2、米/秒n聲音的頻率頻率:1秒鐘內(nèi)振動的次數(shù)人耳能聽到的聲音: 20Hz20kHz超聲波 20kHz次聲波 20Hzn聲音的幅度幅度:聲音的強弱(能量)周期周期幅度幅度n與聲音有關(guān)的幾個術(shù)語(主觀心理量)2.1音頻信號及其概念n音高、響度、音色為聲音的三要素。n響度響度是人類主觀感覺到的聲音的強弱程度,取決于聲音的幅度。頻率和響度的關(guān)系:等響度曲線。n音高音高取決于聲音的頻率。頻率越高,人耳聽到的聲音就越高,反之亦然,但非線性關(guān)系。 美爾(Mel)n音色音色是由混入基音的泛音所決定的,不同發(fā)音體所發(fā)出的音波都有自己的特異性,可分為純音和復合音。痛閾痛閾聞閾聞閾n聲音信號的三個重要參數(shù)聲音信號的三
3、個重要參數(shù): :頻率頻率(音調(diào))(音調(diào))帶寬帶寬(音色)(音色)振動幅度振動幅度(音強)。(音強)。n聲音強弱體現(xiàn)在聲音強弱體現(xiàn)在振幅振幅大小,其音調(diào)高低體現(xiàn)在大小,其音調(diào)高低體現(xiàn)在占占主導地位的基本頻率主導地位的基本頻率,聲音的渾厚、飽滿程度取,聲音的渾厚、飽滿程度取決于決于帶寬帶寬,即疊加在基頻上的各種不同頻率信號。,即疊加在基頻上的各種不同頻率信號。2.1音頻信號及其概念 基頻與音調(diào)基頻與音調(diào)頻率是指信號每秒鐘變化的次數(shù)。人對聲音頻頻率是指信號每秒鐘變化的次數(shù)。人對聲音頻率的感覺表現(xiàn)為音調(diào)的高低,在音樂中稱為音率的感覺表現(xiàn)為音調(diào)的高低,在音樂中稱為音高。高。音調(diào)是由基頻所決定的,音樂中音
4、階的劃分是音調(diào)是由基頻所決定的,音樂中音階的劃分是在頻率的對數(shù)坐標(在頻率的對數(shù)坐標(20log)上取等分而得的。)上取等分而得的。2.1音頻信號及其概念基頻的高次諧波分量,也稱為泛音。音色是基頻的高次諧波分量,也稱為泛音。音色是由混入基音的泛音的多少(帶寬)所決定的,由混入基音的泛音的多少(帶寬)所決定的,高次諧波越豐富高次諧波越豐富, ,音色就越有明亮感和穿透音色就越有明亮感和穿透力。不同的諧波具有不同的幅值和相位偏移,力。不同的諧波具有不同的幅值和相位偏移,由此產(chǎn)生各種音色效果。由此產(chǎn)生各種音色效果。n 幅度與音強幅度與音強人耳對于聲音細節(jié)的分辨只有在強度適中時人耳對于聲音細節(jié)的分辨只有
5、在強度適中時才最靈敏。人的聽覺響應與強度成對數(shù)關(guān)系。才最靈敏。人的聽覺響應與強度成對數(shù)關(guān)系。一般的人只能察覺出一般的人只能察覺出3 3分貝的音強變化。分貝的音強變化。 諧波與音色諧波與音色2.1音頻信號及其概念用音量來描述音強,在處理音頻信號時,一用音量來描述音強,在處理音頻信號時,一般用動態(tài)范圍來定義,以分貝(般用動態(tài)范圍來定義,以分貝(dB=20logdB=20log)為單位。為單位。 動態(tài)范圍動態(tài)范圍2020log(log(信號的最大強度信號的最大強度/ /信號信號的最小強度的最小強度)(dB)(dB)動態(tài)范圍越大,信號強度的相對變化范圍越動態(tài)范圍越大,信號強度的相對變化范圍越大,音響效
6、果越好。大,音響效果越好。2.1音頻信號及其概念 音頻頻率劃分:音頻頻率劃分:人的聽覺器官能感知的頻率范圍為人的聽覺器官能感知的頻率范圍為2020kHz ,能能感知的聲音幅度范圍在感知的聲音幅度范圍在0120dB之間,而人的發(fā)之間,而人的發(fā)音器官能夠發(fā)出的聲音頻率范圍為音器官能夠發(fā)出的聲音頻率范圍為803.4kHz。n 20kHz: 超聲波(超聲波(ultrasonic)信號)信號語音帶寬語音帶寬音頻音頻(audio)帶寬帶寬 20 300 3K 20K f (Hz)超聲波超聲波次聲波次聲波2.1音頻信號及其概念n聲音質(zhì)量的評價2.1音頻信號及其概念n客觀評價客觀評價n主觀評價主觀評價 評價值
7、的測量 聲源的測量 音質(zhì)的測量 信噪比(SNR, Signal to Noise Ratio) 平均判分(MOS, Mean Opinion Score), 通常使用5分制。n聲音質(zhì)量分級與帶寬聲音質(zhì)量分級與帶寬聲音的質(zhì)量與聲音的帶寬有關(guān),一般來說頻率范圍越寬,聲音質(zhì)量也就越好。聲音類型帶 寬電話語音200Hz3.4kHz調(diào)幅廣播(AM)50Hz7kHz調(diào)頻廣播(FM)20Hz15kHzCD20Hz20kHzn音頻信號的頻帶越寬,所包含的音頻信號分量音頻信號的頻帶越寬,所包含的音頻信號分量越豐富,音質(zhì)越好。越豐富,音質(zhì)越好。300Hz3.4kHz, 電話信號范圍電話信號范圍50Hz7kHz,A
8、M廣播信號范圍廣播信號范圍20Hz15kHz,F(xiàn)M廣播信號范圍廣播信號范圍20Hz20kHz,高保真聲音,高保真聲音(high-fidelity audio)的頻率范圍,帶寬約的頻率范圍,帶寬約20kHz電話電話CD-DA10 20 50 300 3.4K 7K 15K 22K f (Hz)AM廣播廣播FM廣播廣播n音頻信號是一種連續(xù)變化的模擬信號音頻信號是一種連續(xù)變化的模擬信號, ,可用一條連可用一條連續(xù)的曲線來表示,稱為聲波。它不僅在時間上是續(xù)的曲線來表示,稱為聲波。它不僅在時間上是連續(xù)的,而且在幅度上也是連續(xù)的。連續(xù)的,而且在幅度上也是連續(xù)的。n這個模擬信號曲線無論多復雜,在任一時刻都可
9、這個模擬信號曲線無論多復雜,在任一時刻都可分解成一系列正弦波的線性疊加。分解成一系列正弦波的線性疊加。2.2音頻的數(shù)字化0110101111002.2音頻的數(shù)字化n聲音進入計算機的第一步就是數(shù)字化(A/D轉(zhuǎn)換),數(shù)字化實際上就是采樣采樣、量化量化和編碼編碼。 聲音數(shù)字化需要解決兩個問題:聲音數(shù)字化需要解決兩個問題:每秒鐘需要采集多少個聲音樣本,也就是每秒鐘需要采集多少個聲音樣本,也就是采樣頻率(采樣頻率(fsfs)是多少;)是多少;每個聲音樣本的位數(shù)(每個聲音樣本的位數(shù)(bit per sample, bit per sample, bpsbps)應該是多少,也就是量化精度。)應該是多少,也就
10、是量化精度。 圖圖 聲音的采樣和量化聲音的采樣和量化2.2音頻的數(shù)字化n采樣(抽樣,采樣(抽樣,sampling):將聲音信號在時間上離散化,即每隔一段時間抽取一個信號樣本。n采樣頻率采樣頻率(Sampling Rate) 奈奎斯特理論指出:采樣頻率不應低于聲音信號最高頻率的最高頻率的兩倍兩倍,這樣就能把以數(shù)字表達的聲音還原成原來的聲音,稱為無損數(shù)字化。 f fs = 2f = 2fmax * 電話話音信號最高頻率約為3.4kHz,所以采樣頻率取為8kHz。 采樣頻率采樣頻率根據(jù)奈奎斯特理論(根據(jù)奈奎斯特理論(Nyquist theory),采樣頻),采樣頻率不應低于聲音信號最高頻率的兩倍,這
11、樣就率不應低于聲音信號最高頻率的兩倍,這樣就能把以數(shù)字表達的聲音還原成原來的聲音,即能把以數(shù)字表達的聲音還原成原來的聲音,即: fs 2f 或者或者 T T/2可以這樣來理解奈奎斯特理論:聲音信號可以可以這樣來理解奈奎斯特理論:聲音信號可以看成由許許多多正弦波組成的,一個振幅為、看成由許許多多正弦波組成的,一個振幅為、頻率為頻率為f f的正弦波至少需要兩個采樣樣本表示的正弦波至少需要兩個采樣樣本表示。 量化精度量化精度量化精度用每個聲音樣本的位數(shù)(量化精度用每個聲音樣本的位數(shù)(bit/s)表示)表示的,它反映度量聲音波形幅度的精度。的,它反映度量聲音波形幅度的精度。 例如,每個聲音樣本用例如,
12、每個聲音樣本用1616位表示,聲音樣本值位表示,聲音樣本值是在是在0 06553565535的范圍里,它的精度就是輸入信的范圍里,它的精度就是輸入信號的號的1/655361/65536。量化位數(shù)越多,聲音的質(zhì)量越高,需要的存儲量化位數(shù)越多,聲音的質(zhì)量越高,需要的存儲空間也越多;位數(shù)越少,聲音的質(zhì)量越低,需空間也越多;位數(shù)越少,聲音的質(zhì)量越低,需要的存儲空間越少。要的存儲空間越少。2.2音頻的數(shù)字化n量化(量化(quantization):):將連續(xù)的信號幅度離散化。如果幅度的劃分是等間隔的,稱為線性量化,否則為非線性量化。 電壓范圍電壓范圍 量化量化(dec) 編碼編碼(bin) 0.5 0.
13、7 3 011 0.3 0.5 2 010 0.1 0.3 1 001 -0.1 0.1 0 000 -0.3 -0.1 -1 111 -0.5 -0.3 -2 110 -0.7 -0.5 -3 101 -0.9 -0.7 -4 100質(zhì)量采樣頻率(kHz)樣本精度單道聲/立體聲數(shù)據(jù)率(kb/s)頻率范圍(kHz)電話88單道聲642003400AM11.0258單道聲88507000FM22.05016立體聲705.62015000CD44.116立體聲1411.22020000DAT4816立體據(jù)率=采樣頻率量化精度聲道數(shù)n如果不壓縮,音頻采樣的數(shù)據(jù)量可由下式推算
14、:如果不壓縮,音頻采樣的數(shù)據(jù)量可由下式推算:數(shù)據(jù)量數(shù)據(jù)量= =(采樣頻率(采樣頻率每個采樣位數(shù)每個采樣位數(shù)聲道數(shù))聲道數(shù))(kb/s/s)例如,一秒鐘例如,一秒鐘CD高保真立體聲的數(shù)據(jù)量為:高保真立體聲的數(shù)據(jù)量為: (44.1kHz16位位2聲道)聲道) = 1411.2 kb/s = 1411200/8 字節(jié)字節(jié) = 176400字節(jié)字節(jié) = 172.26 KB量化精度的信噪比量化精度的信噪比(signal-to-noise ratio, SNR )表示方法:表示方法:如果用如果用Vsignal 表示信號電壓,表示信號電壓,Vnoise表示噪聲電表示噪聲電壓,則壓,則SNR(單位:分貝,(單
15、位:分貝,dB)用下式計算:用下式計算:)/log(20)/()log(1022NoiseSignalNoiseSignalVV VVSNR例例2.1 假設(shè)假設(shè)Vnoise=1,量化精度為量化精度為1位表示位表示Vsignal=21,它的信噪比它的信噪比 SNR=6dB 例例2.2 假設(shè)假設(shè)Vnoise=1,量化精度為量化精度為16位表示位表示Vsignal=216 ,它的信噪比,它的信噪比SNR=96dB 2.2音頻的數(shù)字化n編碼(編碼(Coding):):是指按把經(jīng)過采樣和量化得到的離散數(shù)據(jù)(脈沖數(shù)字信號)記錄下來,并在有效的數(shù)據(jù)中加入一些用于糾錯、同步和控制的數(shù)據(jù)。n脈沖編碼調(diào)制(PCM
16、,Pulse Code Modulation) 把模擬信號轉(zhuǎn)換為數(shù)字信號的一種調(diào)制方式 。n量化誤差:模擬信號經(jīng)過采樣和量化,然后用有限個二進制代碼代表量化后的幅度,在編碼時引入量化誤差,在解碼時無法消除,即引入了噪聲,降低了信噪比(SNR)。電話采用A率標準,SNR35dB。2.2音頻壓縮編碼與標準n目的:目的:減少存儲空間,盡量保證音質(zhì)。n依據(jù)依據(jù): (a)冗余。冗余。通過識別和去除冗余,達到壓縮目的。 (b)人耳特性。人耳特性。如掩蔽效應,它是指一個強音能抑制一 個同時存在的弱音。 (c)相關(guān)性。相關(guān)性。對聲音波形采樣后,相鄰樣值間存在相關(guān)性。n編碼方式:編碼方式: (a) 波形編碼:P
17、CM、APCM、ADPCM (b) 參數(shù)編碼:語音參數(shù)基音周期、共振峰、語音譜,聲強等。LPC (c) 混合編碼:CELP, MELP2.2 語音編碼語音編碼2.2.1 2.2.1 話音編碼概要話音編碼概要2.2.2 2.2.2 波形編譯碼器波形編譯碼器2.2.3 2.2.3 音源編譯碼器音源編譯碼器2.2.4 2.2.4 混合編譯碼器混合編譯碼器2.2.1 2.2.1 語音編碼概要語音編碼概要n音頻壓縮編碼技術(shù)分類:音頻壓縮編碼技術(shù)分類:n有損編碼中的三種語音編譯碼器有損編碼中的三種語音編譯碼器 波形編譯碼器(波形編譯碼器(waveform codec):根據(jù)人):根據(jù)人耳聽覺特性進行采樣量
18、化,達到壓縮數(shù)據(jù)的耳聽覺特性進行采樣量化,達到壓縮數(shù)據(jù)的目的。如目的。如A律、律、律非均勻量化,將量化誤律非均勻量化,將量化誤差留給出現(xiàn)概率小的采樣值。適用于高質(zhì)量差留給出現(xiàn)概率小的采樣值。適用于高質(zhì)量音頻、音樂信號。聲音質(zhì)量高,但數(shù)據(jù)率也音頻、音樂信號。聲音質(zhì)量高,但數(shù)據(jù)率也很高。很高。 音源(參數(shù))編譯碼器(音源(參數(shù))編譯碼器(source codec):):將音頻信號看成某種模型,利用特征提取方將音頻信號看成某種模型,利用特征提取方法抽取必要的模型參數(shù)和激勵信號的信息,法抽取必要的模型參數(shù)和激勵信號的信息,對這些信息進行編碼。壓縮率很大,但計算對這些信息進行編碼。壓縮率很大,但計算量大
19、,保真度不高,適合于語音編碼。量大,保真度不高,適合于語音編碼?;旌暇幾g碼器(混合編譯碼器(hybrid codec):數(shù)據(jù)率和):數(shù)據(jù)率和音質(zhì)介于上述兩者之間。音質(zhì)介于上述兩者之間。 普通編譯碼器音質(zhì)與數(shù)據(jù)率普通編譯碼器音質(zhì)與數(shù)據(jù)率 數(shù)據(jù)壓縮的主要依據(jù)是人耳朵的聽覺特性,使數(shù)據(jù)壓縮的主要依據(jù)是人耳朵的聽覺特性,使用用“心理聲學模型心理聲學模型”來達到壓縮聲音數(shù)據(jù)的目來達到壓縮聲音數(shù)據(jù)的目的的:q聽覺系統(tǒng)中存在一個聽覺閾值電平聽覺系統(tǒng)中存在一個聽覺閾值電平q聽覺掩飾特性聽覺掩飾特性2.2.2 2.2.2 波形編譯碼器波形編譯碼器 n波形編譯碼的基本想法:不利用生成話音信號的波形編譯碼的基本想法
20、:不利用生成話音信號的任何知識來重構(gòu),而是與原始話音波形盡可能一任何知識來重構(gòu),而是與原始話音波形盡可能一致。致。n該編譯碼器的復雜程度較低,數(shù)據(jù)速率在該編譯碼器的復雜程度較低,數(shù)據(jù)速率在 16kb/s16kb/s以上,質(zhì)量相當高;低于這個數(shù)據(jù)速率時,音質(zhì)以上,質(zhì)量相當高;低于這個數(shù)據(jù)速率時,音質(zhì)急劇下降。急劇下降。n最簡單的波形編碼是脈沖編碼調(diào)制最簡單的波形編碼是脈沖編碼調(diào)制(pulse code modulation, PCM),它僅對輸入信號進行采樣,它僅對輸入信號進行采樣和量化。和量化。 nPCM PCM編碼是對連續(xù)語音信號進行空間采樣、幅度量化及 用適當碼字將其編碼的總稱。 PCM量
21、化:均勻、非均勻、自適應。n均勻量化與非均勻量化:均勻量化與非均勻量化:均勻量化就是采用相同的均勻量化就是采用相同的“等分尺等分尺”來度量采來度量采樣得到的幅度;樣得到的幅度;采用相同的量化間隔,幅度范圍N=2B(B為量化位數(shù))均勻量化脈沖編碼調(diào)制的不足:為滿足聽覺上的效果,要使用較多的量化位數(shù),因而數(shù)據(jù)量大,需要較多的存儲空間。n均勻量化均勻量化PCMn非均勻量化非均勻量化PCM利用語音信號幅度的統(tǒng)計特性,量化區(qū)間在遇到大幅度信號時變大,在遇到小幅度信號時變小。根據(jù)語音抽樣非均勻分布的特點,設(shè)法讓量化階距隨信號的概率密度的減少而增大,或者說把大的量化誤差留給出現(xiàn)概率小的樣值,從而得到較大的信
22、噪比,又保證了足夠大的動態(tài)范圍。人耳對語音信號能量感知呈現(xiàn)對數(shù)規(guī)律。量化前用對數(shù)函數(shù)將幅度壓縮,解碼后再用指數(shù)函數(shù)進行幅度擴張。均勻量化無論對大的輸入信號還是小的輸入均勻量化無論對大的輸入信號還是小的輸入信號一律都采用相同的量化間隔。為了適應信號一律都采用相同的量化間隔。為了適應大幅度輸入信號,同時滿足精度要求,就需大幅度輸入信號,同時滿足精度要求,就需要增加樣本的位數(shù)。要增加樣本的位數(shù)。但是,對話音信號來說,大信號出現(xiàn)的機會但是,對話音信號來說,大信號出現(xiàn)的機會并不多,增加的樣本位數(shù)就沒有充分利用。并不多,增加的樣本位數(shù)就沒有充分利用。為了克服這個不足,出現(xiàn)了非均勻量化的方為了克服這個不足,
23、出現(xiàn)了非均勻量化的方法,也叫做非線性量化。法,也叫做非線性量化。非線性量化的基本思想:對輸入信號進行量非線性量化的基本思想:對輸入信號進行量化時,大的輸入信號采用大的量化間隔,小化時,大的輸入信號采用大的量化間隔,小的輸入信號采用小的量化間隔。的輸入信號采用小的量化間隔。 例如,典型的窄帶話音帶寬限制在例如,典型的窄帶話音帶寬限制在4kHz,采采樣頻率是樣頻率是8kHz。如果要獲得高一點的音質(zhì),。如果要獲得高一點的音質(zhì),樣本精度要用樣本精度要用12 位,其數(shù)據(jù)率為位,其數(shù)據(jù)率為96kb/s;若用非線性量化的對數(shù)量化器(若用非線性量化的對數(shù)量化器(logarithmic quantizer),
24、它產(chǎn)生的樣本精度為它產(chǎn)生的樣本精度為8位,它的位,它的數(shù)據(jù)率為數(shù)據(jù)率為64kb/s時,重構(gòu)的話音信號幾乎與時,重構(gòu)的話音信號幾乎與原始的話音信號沒有什么差別原始的話音信號沒有什么差別。這些波形編譯碼器是在時域里實現(xiàn)的,在時這些波形編譯碼器是在時域里實現(xiàn)的,在時域 里 的 編 譯 碼 方 法 稱 為 時 域 法 (域 里 的 編 譯 碼 方 法 稱 為 時 域 法 ( time domain approach)。)。nm m律律(m m -law)、A律(律(A-law)壓擴()壓擴(companding)m m律壓擴主要用于北美和日本地區(qū)數(shù)字電話通律壓擴主要用于北美和日本地區(qū)數(shù)字電話通信,信,
25、A律主要用于歐洲和中國地區(qū);均為對數(shù)律主要用于歐洲和中國地區(qū);均為對數(shù)或近似對數(shù)非線性量化;或近似對數(shù)非線性量化;對于采樣頻率為對于采樣頻率為8KHz, 樣本精度為樣本精度為13位、位、14位位或者或者16位的輸入信號,使用位的輸入信號,使用m m律壓擴編碼或者律壓擴編碼或者使用使用A律壓擴編碼,經(jīng)過律壓擴編碼,經(jīng)過PCM編碼器之后每個編碼器之后每個樣本的精度為樣本的精度為8位,輸出的數(shù)據(jù)率為位,輸出的數(shù)據(jù)率為64kb/s。這。這個就是個就是CCITT推薦的推薦的G.711標準。標準。其優(yōu)點是編譯碼器簡單,延延時間短,音質(zhì)高;其優(yōu)點是編譯碼器簡單,延延時間短,音質(zhì)高;不足之處是數(shù)據(jù)速率比較高,
26、對傳輸通道的錯不足之處是數(shù)據(jù)速率比較高,對傳輸通道的錯誤比較敏感。誤比較敏感。 2.3音頻壓縮編碼與標準nA 律 (A-law) 歐洲標準n律(-law)北美和日本標準律公式: 其中Xmax是信號x(n)得最大幅度,是控制壓縮程序的參數(shù)(最大量化間隔與最小量化間隔之比),越大壓縮就越厲害。)()1ln(x(n)1ln)(maxmaxnxsignXXnymm對數(shù)對數(shù)PCM(LOG-PCM)對數(shù)對數(shù):壓擴特性壓擴特性 m律壓律壓( (縮縮) )擴擴( (展展) )算法算法 m律壓擴輸入輸出成對數(shù)關(guān)系按照下式確定律壓擴輸入輸出成對數(shù)關(guān)系按照下式確定量化輸入和輸出的關(guān)系:量化輸入和輸出的關(guān)系: 式中:
27、式中:x為輸入信號幅度,規(guī)格化成為輸入信號幅度,規(guī)格化成-1 x 1; sgn(x)為為x的極性;的極性;m為確定壓縮量的參數(shù),它為確定壓縮量的參數(shù),它反映最大量化間隔和最小量化間隔之比,取反映最大量化間隔和最小量化間隔之比,取100 m 500。)1ln(|)|1ln()sgn()(mmmxxxFA律律(A-Law)壓擴按下面的式子確定量化輸入和壓擴按下面的式子確定量化輸入和輸出的關(guān)系:輸出的關(guān)系: 式中:式中:x為輸入信號幅度,規(guī)格化成為輸入信號幅度,規(guī)格化成-1 x 1,sgn(x)為為x的極性;的極性;A為確定壓縮量的參數(shù),它為確定壓縮量的參數(shù),它反映最大量化間隔和最小量化間隔之比。反
28、映最大量化間隔和最小量化間隔之比。 A律壓律壓( (縮縮) )擴擴( (展展) )算法算法1|/1),ln1/(|)|ln1)(sgn(/1|0 ,ln1/()()sgn()(xAAxAxAxAxAxxFAn差分脈沖編碼調(diào)制差分脈沖編碼調(diào)制DPCM (differential pulse code modulation, DPCM)對預測的樣本對預測的樣本值與原始的樣本值之差進行編碼值與原始的樣本值之差進行編碼 。n預測技術(shù)預測技術(shù):用過去的樣本去估算下一個樣本信:用過去的樣本去估算下一個樣本信號的幅度大小,這個值稱為預測值號的幅度大小,這個值稱為預測值 。根據(jù)是認。根據(jù)是認為在話音樣本之間存
29、在相關(guān)性,如果樣本的預為在話音樣本之間存在相關(guān)性,如果樣本的預測值與樣本的實際值比較接近,它們之間的差測值與樣本的實際值比較接近,它們之間的差值幅度的變化就比原始話音樣本幅度值的變化值幅度的變化就比原始話音樣本幅度值的變化小,因此量化這種差值信號時就可以用較少的小,因此量化這種差值信號時就可以用較少的位數(shù)表示值;位數(shù)表示值;預測誤差預測誤差n自適應差分脈沖編碼調(diào)制編碼(自適應差分脈沖編碼調(diào)制編碼(adaptive differential PCM, ADPCM)根據(jù)輸入信根據(jù)輸入信號幅度大小來改變量化步長,并用過去樣本值號幅度大小來改變量化步長,并用過去樣本值估算下一個輸入的預測值的一種編碼技
30、術(shù)。它估算下一個輸入的預測值的一種編碼技術(shù)。它用較小量化步長編碼小的差值,用大的步長編用較小量化步長編碼小的差值,用大的步長編碼大的差值,以克服碼大的差值,以克服DPCM對幅度急劇變化的對幅度急劇變化的輸入信號會產(chǎn)生比較大的噪聲的缺陷。輸入信號會產(chǎn)生比較大的噪聲的缺陷。n在在20世紀世紀80年代,國際電話與電報顧問委員會年代,國際電話與電報顧問委員會(CCITT),現(xiàn)改為國際電信聯(lián)盟(),現(xiàn)改為國際電信聯(lián)盟(ITU-TSS),就制定了數(shù)據(jù)率為),就制定了數(shù)據(jù)率為32kb/s的的ADPCM標標準,它的音質(zhì)非常接近準,它的音質(zhì)非常接近64kb/s的的PCM編譯碼器。編譯碼器。 n頻域法頻域法(fr
31、equency domain approach) 子帶子帶編碼編碼(sub-band coding, SBC)輸入時話音信號被分成好幾個頻帶(子帶),輸入時話音信號被分成好幾個頻帶(子帶),變換到每個子帶中的話音信號都用變換到每個子帶中的話音信號都用ADPCM進進行獨立編碼。在接收端,每個子帶中的信號單行獨立編碼。在接收端,每個子帶中的信號單獨解碼之后重新組合,然后產(chǎn)生重構(gòu)話音信號;獨解碼之后重新組合,然后產(chǎn)生重構(gòu)話音信號;優(yōu)點是每個子帶中的噪聲信號僅僅與該子帶使優(yōu)點是每個子帶中的噪聲信號僅僅與該子帶使用的編碼方法有關(guān)系。對聽覺感知比較重要的用的編碼方法有關(guān)系。對聽覺感知比較重要的子帶信號,可
32、分配比較多的位數(shù),在這些頻率子帶信號,可分配比較多的位數(shù),在這些頻率范圍里噪聲就比較低。對于其他的子帶,由于范圍里噪聲就比較低。對于其他的子帶,由于對聽覺感知的重要性比較低,允許比較高的噪對聽覺感知的重要性比較低,允許比較高的噪聲,于是可以分配比較少的位數(shù)來表示。聲,于是可以分配比較少的位數(shù)來表示。 2.2.3 2.2.3 音源編譯碼器音源編譯碼器 n音源編譯碼的思想是試圖從話音波形信號中提音源編譯碼的思想是試圖從話音波形信號中提取生成話音的參數(shù),使用這些參數(shù)通過話音生取生成話音的參數(shù),使用這些參數(shù)通過話音生成模型重構(gòu)出話音。針對話音的音源編譯碼器成模型重構(gòu)出話音。針對話音的音源編譯碼器稱做聲
33、碼器(稱做聲碼器(vocoder)。)。 n在話音生成模型中,聲道被等效成一個隨時間在話音生成模型中,聲道被等效成一個隨時間變化的濾波器,叫做時變?yōu)V波器(變化的濾波器,叫做時變?yōu)V波器(time-varying filter),它由白噪聲它由白噪聲無聲話音段激無聲話音段激勵,或脈沖串勵,或脈沖串有聲激勵構(gòu)成。有聲激勵構(gòu)成。n需要傳送給解碼器的信息就是濾波器的規(guī)格、需要傳送給解碼器的信息就是濾波器的規(guī)格、發(fā)聲或者不發(fā)聲的標志和有聲話音的音節(jié)周期,發(fā)聲或者不發(fā)聲的標志和有聲話音的音節(jié)周期,并且每隔并且每隔1020ms更新一次。更新一次。n聲碼器的模型參數(shù)既可使用時域的方法也可用頻聲碼器的模型參數(shù)既可
34、使用時域的方法也可用頻域的方法確定,這項任務由編碼器完成。域的方法確定,這項任務由編碼器完成。n聲碼器的數(shù)據(jù)率在聲碼器的數(shù)據(jù)率在 2.4kb/s 左右,產(chǎn)生的語音雖然左右,產(chǎn)生的語音雖然可以聽懂,但其質(zhì)量遠遠低于自然話音??梢月牰滟|(zhì)量遠遠低于自然話音。n增加數(shù)據(jù)率對提高合成話音的質(zhì)量無濟于事,這增加數(shù)據(jù)率對提高合成話音的質(zhì)量無濟于事,這是因為受到聲音生成模型的限制,但由于其保密是因為受到聲音生成模型的限制,但由于其保密性能好,因此這種編譯碼器一直用在軍事上。性能好,因此這種編譯碼器一直用在軍事上。3.4 3.4 混合編譯碼器混合編譯碼器n混合編譯碼的想法是企圖填補波形編譯碼和音混合編譯碼
35、的想法是企圖填補波形編譯碼和音源編譯碼之間的間隔。源編譯碼之間的間隔。n波形編譯碼器雖然可提供高話音的質(zhì)量,但數(shù)波形編譯碼器雖然可提供高話音的質(zhì)量,但數(shù)率低于率低于16kb/s時,在技術(shù)上還沒有解決音質(zhì)的時,在技術(shù)上還沒有解決音質(zhì)的問題;聲碼器的數(shù)據(jù)率雖然可降到問題;聲碼器的數(shù)據(jù)率雖然可降到2.4kb/s 甚至甚至更低,但它的音質(zhì)根本不能與自然話音相比。更低,但它的音質(zhì)根本不能與自然話音相比。n目前最為成功并普遍使用的編譯碼器是時域合目前最為成功并普遍使用的編譯碼器是時域合成成-分析(分析(analysis-by-synthesis, AbS)編譯碼)編譯碼器。包括:線性預測編碼(器。包括:線
36、性預測編碼(linear predictive coding, LPC,碼激勵線性預測(,碼激勵線性預測(code excited linear predictive, CELP) nA b S 編 譯 碼 器 把 輸 入 話 音 信 號 分 成 許 多 幀編 譯 碼 器 把 輸 入 話 音 信 號 分 成 許 多 幀(frames),通常每幀的長度為),通常每幀的長度為20ms。合成濾波。合成濾波器的參數(shù)按幀計算,然后確定各項激勵參數(shù)。器的參數(shù)按幀計算,然后確定各項激勵參數(shù)。 nAbS編碼器是一個負反饋系統(tǒng),通過調(diào)節(jié)激勵信編碼器是一個負反饋系統(tǒng),通過調(diào)節(jié)激勵信號使重構(gòu)的話音與實際的話音最接近
37、,即編碼器號使重構(gòu)的話音與實際的話音最接近,即編碼器通過通過“合成合成”許多不同的近似值來許多不同的近似值來“分析分析”輸入輸入話音信號。話音信號。n在表示每幀的合成濾波器的參數(shù)和激勵信號確定在表示每幀的合成濾波器的參數(shù)和激勵信號確定之后,編碼器就把它們存儲起來或者傳送到譯碼之后,編碼器就把它們存儲起來或者傳送到譯碼器。在譯碼器端,激勵信號饋送給合成濾波器,器。在譯碼器端,激勵信號饋送給合成濾波器,合成濾波器產(chǎn)生重構(gòu)的話音信號。合成濾波器產(chǎn)生重構(gòu)的話音信號。 nCELP編譯碼器在話音通信中取得了很大的成編譯碼器在話音通信中取得了很大的成功,話音的速率在功,話音的速率在4.816kb/s之間。之
38、間。n數(shù)據(jù)率為數(shù)據(jù)率為2.464kb/s的部分編碼器的部分編碼器MOS分數(shù)分數(shù)如下:如下: 編編 碼碼 器器MOS64kb/s脈沖編碼碼調(diào)制脈沖編碼碼調(diào)制(PCM)4.332kb/s自適應差分脈沖編碼調(diào)制自適應差分脈沖編碼調(diào)制(ADPCM)4.116kb/s低時延碼激勵線性預測編碼低時延碼激勵線性預測編碼(LD-CELP)4.08kb/s碼激勵線性預測編碼碼激勵線性預測編碼(CELP)3.73.8kb/s碼激勵線性預測編碼碼激勵線性預測編碼(CELP)3.02.4kb/s線性預測編碼線性預測編碼(LPC)2.5 ITU-T G系列聲音壓縮標準系列聲音壓縮標準nG.7111972年年CCITT為
39、電話質(zhì)量和語音壓縮制定了為電話質(zhì)量和語音壓縮制定了PCM標準標準G.711。其速率為。其速率為64kb/s,使用,使用律或律或A律的非線性量化技術(shù),主要用于公共電話網(wǎng)律的非線性量化技術(shù),主要用于公共電話網(wǎng)中。中。nG.7221988年年CCITT為調(diào)幅廣播質(zhì)量的音頻信號壓縮為調(diào)幅廣播質(zhì)量的音頻信號壓縮制定了制定了G.722標準,它使用子帶編碼標準,它使用子帶編碼(SBC)方案,方案,其濾波器組將輸入信號分成高低兩個子帶信號,其濾波器組將輸入信號分成高低兩個子帶信號,然后分別使用然后分別使用ADPCM進行編碼。進行編碼。G.722能將能將224kb/s的調(diào)幅廣播質(zhì)量的音頻信號的調(diào)幅廣播質(zhì)量的音頻
40、信號壓縮為壓縮為64kb/s,主要用于視聽多媒體和會議電,主要用于視聽多媒體和會議電視等。視等。G.722的主要目標是保持的主要目標是保持64kb/s的數(shù)據(jù)率,的數(shù)據(jù)率,而音頻信號的質(zhì)量要明顯高于而音頻信號的質(zhì)量要明顯高于G.711的質(zhì)量。的質(zhì)量。nG.7231996年年ITU-T通過了通過了G.723標準標準“用于多媒用于多媒體傳輸?shù)捏w傳輸?shù)?.3kb/s或或6.3kb/s雙速率話音編碼雙速率話音編碼”。它采用多脈沖激勵最大似然量化它采用多脈沖激勵最大似然量化(MP-MLQ)算算法,此標準可應用于可視電話及法,此標準可應用于可視電話及IP電話等系統(tǒng)電話等系統(tǒng)中。中。nG.728為了進一步降低
41、壓縮的速率,為了進一步降低壓縮的速率,CCITT于于1992年制定了年制定了G.728標準,使用基于低時延碼本標準,使用基于低時延碼本激勵線性預測編碼激勵線性預測編碼(LD-CELP)算法,其速率算法,其速率為為16kb/s,主要用于公共電話網(wǎng)中。,主要用于公共電話網(wǎng)中。nG.729ITU-T于于1996年年3月通過了月通過了G.729標準,它使標準,它使用用8kb/s的共軛結(jié)構(gòu)代數(shù)碼激勵線性預測的共軛結(jié)構(gòu)代數(shù)碼激勵線性預測(CS-ACELP)算法,此標準將在無線移動網(wǎng)、算法,此標準將在無線移動網(wǎng)、數(shù)字多路復用系統(tǒng)和計算機通信系統(tǒng)中應用。數(shù)字多路復用系統(tǒng)和計算機通信系統(tǒng)中應用。 部分聲音壓縮編
42、碼方法比較部分聲音壓縮編碼方法比較2.3音頻壓縮編碼與標準n自適應PCM量化APCM 自適應PCM量化是指量化器的特性自適應于輸入信號幅度的變化,即一個自適應量化器的量化間隔自適應的改變,并與輸入信號的幅度方差保持相匹配。也可在一個固定的量化器前加一個自適應增益控制,使進入量化器的輸入信號方差保持為固定的常數(shù)。兩種方法是等效的。APCM可進一步提高信噪比(與LOG-PCM相比)。2.3音頻壓縮編碼與標準n壓縮編碼標準: 1972年,ITU G.711標準,8kHz, 16bit,輸入信號經(jīng)律或A律PCM,64kb/s1984年,ITU G.721,采用ADPCM: 適用于3003400Hz窄帶
43、語音信號,32kb/sITU G.722,507000Hz寬帶語音信號,數(shù)據(jù)速率為64kb/s ,ISDN的B通道上傳輸音頻數(shù)據(jù)。1989年開始,ITU 16kb/s,歐洲為GSM制定的RPE-LTP (13kb/s),美國CTLA標準ISO MPEG音頻分三個層次(Layer1,2,3MP1,2,3)n音頻編碼算法 和標準一覽 2.3音頻壓縮編碼與標準nMPEG Audio Layer 3 MP3 “感官編碼技術(shù)感官編碼技術(shù)”:實驗表明,人類能聽到的聲音頻率范圍是20Hz20kHz,但人耳對整個音頻頻段聲音的反應不是平直的,25kHz是人耳最靈敏的頻段。依其特性將整個音頻頻段分成多個分成多個
44、臨界頻帶臨界頻帶,因為人類聽覺系統(tǒng)是依據(jù)頻率來分辨聲音能量的,任何頻率 的細小聲音都會因掩蔽效應而被臨界頻帶內(nèi)音量較高的聲音所覆蓋(掩蔽效應掩蔽效應)。MP3對其不作量化處理,從而去掉那些人類聽覺系統(tǒng)所無法察覺的聲音,達到壓縮的目的。MP3:子帶編碼、輔助子帶編碼、非均勻量化、熵編碼 有損壓縮方式,但它以極小的聲音失真換來較高的壓縮比 l MP1壓縮率1:4l MP2壓縮率1:61:8l MP3壓縮率1:101:122.4常見音頻文件 又稱為波形文件,微軟公司音頻文件,采用又稱為波形文件,微軟公司音頻文件,采用RIFF格式描述。該格格式描述。該格式記錄了聲音的波形,它不對數(shù)據(jù)進行壓縮,所以文件
45、很大,但只要式記錄了聲音的波形,它不對數(shù)據(jù)進行壓縮,所以文件很大,但只要“拾音拾音”設(shè)備足夠好,制作的聲音質(zhì)量可以達到專業(yè)級水平。設(shè)備足夠好,制作的聲音質(zhì)量可以達到專業(yè)級水平。文件大小計算公式:文件大小計算公式:S=RD(r/8) N Creative公司用標準音頻格式,與公司用標準音頻格式,與WAV格式類似,由文件頭和音頻格式類似,由文件頭和音頻數(shù)據(jù)組成。數(shù)據(jù)組成。如:激光唱盤(CD)一分鐘音樂需要的存儲量為:44.110006016/82=10,584,000B(字節(jié))=10.1MB2.4常見音頻文件 采用MPEG Audio 的Layer-3壓縮方案,壓縮比達到1:101:12,用一張M
46、P3 CD可以容納大約10張激光唱片的歌曲,是目前網(wǎng)上常用的音樂格式。 MP4以MPEG2 AAC為基礎(chǔ)發(fā)展而來。它的特點是音質(zhì)更加完美而壓縮比更大(1:15-1:20)。與MP3一樣采用刪除人耳不能分辨頻率的方式減小數(shù)據(jù)量,但是MP4又增加了諸如對立體聲的完美再現(xiàn)、比特流效果音掃描、多媒體控制、降噪等MP3沒有的特性,使得在音頻壓縮后仍能完美的再現(xiàn)CD的音質(zhì)。2.4常見音頻文件 RealNetwork公司的RealAudio格式,它的壓縮比很大,非常適合在網(wǎng)上實時播放,是現(xiàn)在網(wǎng)絡實時播放的主要格式之一。 Audio Interchange File Format, 音頻交換文件格式,是蘋果公
47、司Macintosh平臺及其應用程序支持。 激光唱片的格式,記錄的是波形流,純正、HIFI。采樣位數(shù)多為16位,現(xiàn)在也經(jīng)??吹?0位、24位、36位采樣錄音CDA。缺點是無法編輯和文件長度太大。2.4常見音頻文件 作為音樂工業(yè)的數(shù)據(jù)通信標準,MIDI是一種專業(yè)性的語言,他的科學性、兼容性、復雜程度等各方面都是最高的?;胤判Ч彩亲詈玫?。 微軟開發(fā)中的WMT 4.0(Windows Media Technology)的一個組件。最受人矚目的是其著作權(quán)保護技術(shù)。在WMT 4.0中包括有“著作權(quán)管理”功能,通過它著作權(quán)人可以保護自己的著作權(quán)。在壓縮技術(shù)方面WMAudio著眼于使用28.8kbps的M
48、ODEM達到FM水準的音質(zhì),下載速度比MP3快兩倍左右,而存貯空間只有一半。無論從技術(shù)性能還是壓縮率上,WMA都比MP3好。 附:WAV文件頭格式Typedef struct DWORDrftype; DWORDwbSize; DWORDwftype; DWORDftype; DWORDBlockSize; WORD wFormatTag; WORDnChannels; DWORDnSamplesPerSec; DWORDnAvgBytesPerSec; DWORDnBlockAlign; WORDwBitsPerSample; DWORDdataflag; DWORDfSize; PCMWAVEFORMAT;l WAV文件開始是46個字節(jié)的文件頭,之后是波形數(shù)據(jù)。文件頭如下:n樂器數(shù)字接口(樂器數(shù)字接口(Musical Instrument Digital Interface, MIDI)是用于在音樂合成器)是用于在音樂合成器(music synthesizers)、樂器()、樂器(musical instruments)和計算機之間交換音樂信息的一)和計算機之間交換音樂信息的一種標準協(xié)議。種標準協(xié)議。nMIDI是樂器和計算機使用的一套標準語言和是樂器和計算機使用的一套標準語言和指令。指示樂器(即指令。指示樂器(即MIDI設(shè)備)要做什么,設(shè)備)要做什么,怎么做,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《酒店新員工培訓》課件
- 《教育本質(zhì)》課件
- 《詞類句子成分》課件
- 急性風濕熱的健康宣教
- 兒童牙病的健康宣教
- 垂體性閉經(jīng)的健康宣教
- 孕期水樣分泌物的健康宣教
- 《例解決問題》課件
- 武漢大學金融工程學課件-金融工程
- 腎上腺髓質(zhì)增生的臨床護理
- 2024年公安機關(guān)人民警察高級執(zhí)法資格考試試卷
- 地 理第三章地球的面貌復習課件-2024-2025學年湘教版地理七年級上冊
- 2024-2025學年小學美術(shù)一年級上冊(2024)桂美版(2024)教學設(shè)計合集
- 國際貿(mào)易理論與實務 課件 第7章 區(qū)域經(jīng)濟一體化
- 2024內(nèi)蒙古財經(jīng)大學輔導員公開招聘(列編招聘)3人及歷年高頻難、易錯點500題模擬試題附帶答案詳解
- 安徽省2023-2024學年七年級上學期期末數(shù)學試題(原卷版)
- 醫(yī)院等級創(chuàng)建工作匯報
- 2024至2030年中國3C電子產(chǎn)品租賃行業(yè)市場深度研究及投資規(guī)劃建議報告
- 11G902-1 G101系列圖集常用構(gòu)造三維節(jié)點詳圖
- DL∕T 5372-2017 水電水利工程金屬結(jié)構(gòu)與機電設(shè)備安裝安全技術(shù)規(guī)程
- 溝槽土方開挖施工
評論
0/150
提交評論