




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 第第3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 3.1 基本概念基本概念 3.2 音頻信號數(shù)字化音頻信號數(shù)字化 3.3 音頻信號壓縮編碼音頻信號壓縮編碼 3.4 語音壓縮編碼標準語音壓縮編碼標準 3.5 常見多媒體應(yīng)用的語音編碼器的選擇常見多媒體應(yīng)用的語音編碼器的選擇3.6 IP電話技術(shù)電話技術(shù) 練習(xí)與思考題練習(xí)與思考題 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 3.1 基基 本本 概概 念念 1 聽覺掩蔽 在人類聽覺系統(tǒng)中, 一個聲音的存在會影響人們對其他聲音的聽覺能力, 使一個聲音在聽覺上掩蔽了另一個聲音, 即所謂的“掩蔽效應(yīng)”。 由
2、于掩蔽聲的存在, 使被掩蔽聲的聞域(人剛好可聽到聲音的響度)必須提高的分貝數(shù)被定義為一個聲音對另一個聲音的掩蔽值。 掩蔽效應(yīng)受四種要素的影響: 時間、 頻率、 聲壓級、 聲音品質(zhì)(例如, 純音和噪音)。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 2 頻譜掩蔽 頻譜掩蔽發(fā)生在高電平音調(diào)使附近頻率的低電平聲音不能被人耳聽到的情況下。 當頻率離掩蔽音調(diào)越遠時, 掩蔽效應(yīng)減弱的速度就越快。 可以這樣來解釋這種效應(yīng), 雪橇上的鈴聲可以掩蔽高音碰撞的聲音, 但不能掩蔽低音鼓的聲音。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 3 瞬態(tài)掩蔽 聲音有一個沖擊時間(即幅值隨時間推移而增大的時間段)
3、和一個衰退時間(即幅值隨時間推移而減小的時間段)。 撥小提琴所產(chǎn)生聲音的沖擊和衰退都很快, 而拉小提琴所產(chǎn)生聲音的沖擊和衰退都很慢。 此外, 在沖擊前和衰退后, 聲音都有掩蔽效應(yīng)。 前掩蔽時間為50200 ms, 而后掩蔽時間約為該范圍的1/10。第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 4 失真 失真是用得非常廣泛的概念, 在這里主要用來描述重現(xiàn)聲音和原來聲音的相差程度。 而表示這種相差程度的方法有兩種: (1) 失真的主觀度量。 失真的一個主觀評價指標稱為平均觀點分(Mean Opinion Score, MOS)。 聽眾根據(jù)系統(tǒng)質(zhì)量的好壞使用N分制給系統(tǒng)打分。 例如, 在為HDT
4、V選擇音頻壓縮方案時就使用了這種度量方法。 表3.1-1給出了一種常見的5分制系統(tǒng)。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 表3.1-1 5分制平均觀點分舉例 平均觀點分 質(zhì)量等級 主觀感覺 5 極好 覺察不到 4 好覺察得到,但不難聽 3 一般 有點難聽 2 差 難聽,但不反感 1 極差 難以忍受第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 一方面, MOS確實是度量音頻重現(xiàn)的最低限度: 聽起來感覺怎么樣?另外一方面, 度量的結(jié)果隨聽眾、 測試位置和原材料的不同而不同, 因此, 很難將一組結(jié)果和另一組結(jié)果相比較。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) (2) 失真
5、的客觀度量。 失真的客觀度量是一種可以校準和重現(xiàn)的測試, 它可對原始信號和重現(xiàn)信號之間的差別進行度量。 這里有個問題, 就是失真的絕對大小也許和失真聲音使人厭煩的程度沒有多大關(guān)系。 現(xiàn)實生活中有一個失真的例子, 我們幾乎每天都會碰到, 但它并不是那么令人厭煩, 這個例子就是削波。 如果一個純音(正弦波)通過一個動態(tài)范圍不足的放大器, 那么, 放大器也許會將該正弦波的波峰和波谷拉平, 這樣就產(chǎn)生了一組奇諧波。 對于這種類型的失真, 原始(或基波)信號和失真之間有一種一致的對應(yīng)關(guān)系, 因此, 這種失真并不一定使你感到煩躁。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 5 聲道 單聲道(Mon
6、ophonic)意味著單個聲源, 而立體聲并不表示有兩個聲源, 立體聲(Stereophonic)指的是三維聽覺效果。 為了確定聲源位置, 大腦要將每個耳朵所聽到聲音的三個屬性進行比較, 這三個屬性分別是: (1) 幅值(Amplitude): 如果左耳聽到的聲音比右耳的大, 那么我們就認為聲音在左邊。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) (2) 相位(Phase): 如果人的兩耳聽到的信號具有相同的相位, 那么大腦就認為聲音在中部; 如果兩耳聽到信號有180的相位差, 那么聲音就不包含方向信息了。 (3) 時序(Timing): 聲音的傳播速度為1英尺每毫秒; 如果聲音到達右耳
7、的時間比到達左耳的早, 我們就認為聲源就在右邊。 一般來說, 如果聽眾所處的位置剛好是兩個聲源(例如兩個揚聲器)的中軸線上, 則聽眾就可以享受三維立體聲的效果; 否則聽眾就會失去完全的立體聲效果, 因為他距離其中一個聲源的距離更短。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 聲源位置可以通過添加一個中央通道的方法來確定。 為此, Dolby公司在上個世紀70年代就實現(xiàn)了由四個聲道產(chǎn)生三維立體聲的效果, 這四個聲道分別是: 左聲道、 右聲道、 中央聲道、 環(huán)繞聲道。 為了使聲音更加豐富, 現(xiàn)在的立體聲劇院(包括家庭劇院)都增加了一個超低音聲道, 主要目的是增強低音。 第第3 3章章 音頻
8、信息處理技術(shù)音頻信息處理技術(shù) 3.2 音頻信號數(shù)字化音頻信號數(shù)字化 音頻信息處理主要包括音頻信號的數(shù)字化和音頻信息的壓縮兩大技術(shù), 圖3.2-1為音頻信息處理結(jié)構(gòu)框圖。 音頻信息的壓縮是音頻信息處理的關(guān)鍵技術(shù), 而音頻信號的數(shù)字化是為音頻信息的壓縮作準備的。 音頻信號的數(shù)字化過程就是將模擬音頻信號轉(zhuǎn)換成有限個數(shù)字表示的離散序列, 即數(shù)字音頻序列, 在這一處理過程中涉及到模擬音頻信號的采樣、 量化和編碼。 對同一音頻信號采用不同的采樣、 量化和編碼方式就可形成多種形式的數(shù)字化音頻。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 圖3.2-1 音頻信息處理框圖 模擬音頻信號音頻信號數(shù)字化采 樣
9、量 化編 碼按不同應(yīng)用目標進行數(shù)字壓縮第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) (1) 采樣過程。 模擬音頻信號是一個在時間上和幅值上都連續(xù)的信號。 采樣過程就是在時間上將連續(xù)信號離散化的過程, 采樣一般是按均勻的時間間隔進行的。 目前常見的音頻信號的頻率范圍如圖3.2-2所示, 由圖可見: 電話信號的頻帶為200 Hz3.4 kHz, 調(diào)幅廣播(AM)信號的頻帶為50 Hz7 kHz, 調(diào)頻廣播(FM)信號的頻帶為20 Hz15 kHz, 高保真音頻信號的頻帶為10 Hz20 kHz。 根據(jù)不同的音頻信源和應(yīng)用目標, 可采用不同的采樣頻率, 如8 kHz、 11.025 kHz、 2
10、2.05 kHz、 16 kHz、 37.8 kHz、 44.1 kHz或48 kHz等都是典型的采樣頻率值。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 圖3.2-2 常見音頻應(yīng)用帶寬示意圖 數(shù)字激光唱盤CD10 205020034007 k 15 k 20 k 頻率 / HzFM無線電廣播AM無線電廣播電 話第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) (2) 量化過程。 量化過程是指將每個采樣值在幅度上再進行離散化處理。 量化可分為均勻量化(量化值的分布是均勻的或者說每個量化階距是相同的)和非均勻量化。 量化會引入失真, 并且量化失真是一種不可逆失真, 這就是通常所說的量化噪聲
11、。 (3) 編碼過程。 編碼過程是指用二進制數(shù)來表示每個采樣的量化值。 如果量化是均勻的, 又采用自然二進制數(shù)表示, 這種編碼方法就是脈沖編碼調(diào)制(Pulse Code Modulation, PCM), 這是一種最簡單、 最方便的編碼方法。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 3.3 音頻信號壓縮編碼音頻信號壓縮編碼 從20世紀30年代提出PCM(脈沖編碼調(diào)制)原理以及聲碼器的概念以來, 音頻信息壓縮編碼技術(shù)主要是向基于波形和基于參數(shù)兩個方向發(fā)展的, 從這個角度出發(fā), 音頻信息編碼技術(shù)可分為三類: 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) (1) 波形編碼。 這種方法主
12、要基于語音波形預(yù)測, 它力圖使重建的語音波形保持原信號的波形狀態(tài)。 它的優(yōu)點是編碼方法簡單、 易于實現(xiàn)、 適應(yīng)能力強、 語音質(zhì)量好等, 缺點是壓縮比相對來說較低, 需要較高的編碼速率。 常用的波形法編碼技術(shù)有增量調(diào)制(DM)、 自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)、 子帶編碼(SBC)和矢量量化編碼(VQ)等等。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) (2) 參數(shù)編碼。 這種方法主要基于參數(shù)的編碼方法。 與波形編碼不同的是, 這類編碼方法通過語音信號的數(shù)學(xué)模型對語音信號特征參數(shù)(主要是指表征聲門振動的激勵參數(shù)和表征聲道特性的聲道參數(shù))進行提取及編碼, 力圖使重建的語音信號盡可能保持
13、原信號的語意, 而重建的語音信號波形同原信號的波形可能會有較大的區(qū)別。 基于這種編碼技術(shù)的編碼系統(tǒng)一般稱為聲碼器, 它主要用于在窄帶信道上提供4.8 kb/s以下的低速語音通信和一些對延時要求較寬的應(yīng)用場合(如衛(wèi)星通信等)。 最常用的參數(shù)編碼法為線性預(yù)測編碼(LPC)。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) (3) 混合編碼。 這種方法克服了原有波形編碼與參數(shù)編碼的弱點, 并且結(jié)合了波形編碼的高質(zhì)量和參數(shù)編碼的低數(shù)據(jù)率, 取得了比較好的效果。 混合編碼是指同時使用兩種或兩種以上的編碼方法進行編碼的過程。 由于每種編碼方法都有自己的優(yōu)勢和不足, 若是用兩種, 甚至兩種以上的編碼方法進
14、行編碼, 可以優(yōu)勢互補, 克服各自的不足, 從而達到高效數(shù)據(jù)壓縮的目的。 無論是在音頻信號的數(shù)據(jù)壓縮中, 還是后面章節(jié)將要描述的圖像信號的數(shù)據(jù)壓縮中, 混合編碼均被廣泛采用。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 3.3.1 增量調(diào)制 1 一般增量調(diào)制 增量調(diào)制(DM)是一種比較簡單且有數(shù)據(jù)壓縮功能的波形編碼方法。 增量調(diào)制的系統(tǒng)結(jié)構(gòu)框圖如圖3.3-1所示。 在編碼端, 由前一個輸入信號的編碼值經(jīng)解碼器解碼可得到下一個信號的預(yù)測值。 輸入的模擬音頻信號與預(yù)測值在比較器上相減, 從而得到差值。 差值的極性可以是正也可以是負。 若為正, 則編碼輸出為1; 若為負, 則編碼輸出為0。 這
15、樣, 在增量調(diào)制的輸出端可以得到一串1位編碼的DM碼。 增量調(diào)制編碼過程示意圖如圖3.3-2所示。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 圖3.3-1 增量調(diào)制的系統(tǒng)結(jié)構(gòu)框圖 輸入信號比較器極性判別)(ty譯碼器調(diào)制器脈 沖發(fā)生器信 道第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 圖3.3-2 增量調(diào)制編碼過程示意圖 1 1 1 1 1 110 0 0 0 1 100 0 1 0 0010u(模擬輸入)輸出碼第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 在圖3.3-2中, 縱坐標表示輸入的模擬電壓, 橫坐標表示隨時間增加而順序產(chǎn)生的DM碼。 圖中虛線表示輸入的音頻模擬信號。
16、 從圖3.3-2可以看到, 當輸入信號變化比較快時, 編碼器的輸出無法跟上信號的變化, 從而會使重建的模擬信號發(fā)生畸變, 這就是所謂的“斜率過載”。 可以看出, 當輸入模擬信號的變化速度超過了經(jīng)解碼器輸出的預(yù)測信號的最大變化速度時, 就會發(fā)生斜率過載。 增加采樣速度, 可以避免斜率過載的發(fā)生。 但采樣速度的增加又會使數(shù)據(jù)的壓縮效率降低。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 從圖3.3-2中還能發(fā)現(xiàn)另一個問題: 當輸入信號沒有變化時, 預(yù)測信號和輸入信號的差會十分接近, 這時, 編碼器的輸出是0和1交替出現(xiàn)的, 這種現(xiàn)象就叫做增量調(diào)制的“散粒噪聲”。 為了減少散粒噪聲, 就希望使輸
17、出編碼1位所表示的模擬電壓 (又叫量化階距)小一些, 但是, 減少量化階距 會使在固定采樣速度下產(chǎn)生更嚴重的斜率過載。 為了解決這些矛盾, 促使人們研究出了自適應(yīng)增量調(diào)制(ADM)方法。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 2. 自適應(yīng)增量調(diào)制(ADM) 從前面分析可以看出, 為減少斜率過載, 希望增加階距; 為減少散粒噪聲, 又希望減少階距。 于是人們就想, 若是能使DM的量化階距 適應(yīng)信號變化的要求, 必須是既降低了斜率過載又減少了散粒噪聲的影響。 也就是說, 當發(fā)現(xiàn)信號變化快時, 增加階距; 當發(fā)現(xiàn)信號變化緩慢時, 減少階距。 這就是自適應(yīng)增量調(diào)制的基本出發(fā)點。 第第3 3
18、章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 在ADM中, 常用的規(guī)則有兩種: 一種是控制可變因子 M, 使量化階距在一定范圍內(nèi)變化。 對于每一個新的采樣, 其量化階距為其前面數(shù)值的M倍。 而M的值則由輸入信號的變化率來決定。 如果出現(xiàn)連續(xù)相同的編碼, 則說明有發(fā)生過載的危險, 這時就要加大M。 當0, 1信號交替出現(xiàn)時, 說明信號變化很慢, 會產(chǎn)生散粒噪聲, 這時就要減少M 值。 其典型的規(guī)則為) 1()(2/1) 1()(2kykykykyM(3.3-1) 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 另一類使用較多的自適應(yīng)增量調(diào)制稱為連續(xù)可變斜率增量(CVSD)調(diào)制。 其工作原理如下: 如
19、果調(diào)制器(CVSD)連續(xù)輸出三個相同的碼, 則量化階距加上一個大的增量, 也就是說, 因為三個連續(xù)相同的碼表示有過載發(fā)生。 反之, 則量化階距增加一個小的增量。 CVSD的自適應(yīng)規(guī)則為QkkykykyPkk) 1()2() 1()() 1()(其他 (3.3-2) 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 式中, 可在01之間取值。 可以看到, 的大小可以通過調(diào)節(jié)增量調(diào)制來適應(yīng)輸入信號變化所需時間的長短。 P和Q為增量, 而且P要大于等于Q。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 3.3.2 自適應(yīng)差分脈沖編碼調(diào)制 1. 非均勻PCM(律壓擴方法) 若輸入的音頻信號是話音信
20、號, 使用8 kHz采樣頻率進行均勻采樣, 而后再將每個樣本編碼為8位二進制數(shù)字信號, 則我們就可以得到數(shù)據(jù)率為64 kb/s的PCM信號, 這就是典型的脈沖編碼調(diào)制。 這種編碼方式對輸入的音頻信號進行均勻量化, 不管輸入的信號是大還是小, 均采用同樣的量化間隔。 但是, 對音頻信號而言, 大多數(shù)情況下信號幅度都很小, 出現(xiàn)大幅度信號的概率很小。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 然而, 為了適應(yīng)這種很少出現(xiàn)的大信號, 在均勻量化時不得不增加二進制碼位。 對大量的小信號來說, 這樣多的碼位是一種浪費。 因此, 均勻量化PCM效率不高, 有必要進行改進。 采用非均勻量化編碼的實質(zhì)
21、在于減少表示采樣的位數(shù), 從而達到數(shù)據(jù)壓縮的目的。 其基本思路是, 當輸入信號幅度小時, 采用較小的量化間隔; 當輸入信號幅度大時, 采用較大的量化間隔。 這樣就可以做到在一定的精度下, 用更少的二進制碼位來表示采樣值。 這種對小信號擴展、 大信號壓縮的特性可用下式表示: 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 式中:x為輸入電壓與A/D變換器滿刻度電壓之比, 其取值范圍為11; sgn(x)為x 的極性; 為壓擴參數(shù), 其取值范圍為100500, 越大, 壓擴越厲害。 該壓擴規(guī)則的特性如圖3.3-3所示, 通常將此曲線叫做律壓擴特性。 )1ln()1ln()sgn(xxy(3.3-
22、3) 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 圖3.3-4 律壓擴數(shù)據(jù)格式 b7b6b5b4b3b2b1b0折線編號數(shù)據(jù)位符號位第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 在實際應(yīng)用中, 規(guī)定某個值, 采用數(shù)段折線來逼近圖3.3-3所示的壓擴特性。 這樣就大大地簡化了計算并保證了一定的精度。 例如, 當選擇255時, 壓擴特性用8段折線來代替。 當用8位二進制表示一個采樣時, 可以得到無壓擴的13位二進制數(shù)碼的音頻質(zhì)量。 這8位二進制數(shù)中, 最高位表示符號位, 其后3位用來表示折線編號, 最后4位用來表示數(shù)據(jù)位。 律壓擴數(shù)據(jù)格式如圖3.3-4所示。 第第3 3章章 音頻信息處理
23、技術(shù)音頻信息處理技術(shù) 在解碼恢復(fù)數(shù)據(jù)時, 根據(jù)符號和折線即可通過預(yù)先做好的表恢復(fù)原始數(shù)據(jù)。 另外一種常用的壓擴特性為A律13折線, 它實際上是將律壓擴特性曲線以13段直線代替而成的。 我國和歐洲采用的是A律13折線壓擴法, 美國和日本采用的是律。 對于A律13折線, 一個信號樣值的編碼由兩部分構(gòu)成: 段落碼(信號屬于13折線哪一段)和段內(nèi)碼。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 在非均勻PCM編碼中, 存在著大量的冗余信息。 這是因為音頻信號鄰近樣本間的相關(guān)性很強。 若采用某種措施, 便可以去掉那些冗余的信息, 差分脈沖編碼調(diào)制(DPCM)是常用的一種方法。 第第3 3章章 音頻
24、信息處理技術(shù)音頻信息處理技術(shù) 2. 差分脈沖編碼調(diào)制(DPCM) 差分脈沖編碼調(diào)制的中心思想是對信號的差值而不是對信號本身進行編碼。 這個差值是指信號值與預(yù)測值的差值。 預(yù)測值可以由過去的采樣值進行預(yù)測, 其計算公式如下所示: iiNiNNyayayayay122110(3.3-4)第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 式中,ai 為預(yù)測系數(shù)。 因此, 利用若干個前面的采樣值可以預(yù)測當前值。 當前值與預(yù)測值的差為000yye(3.3-5) 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 差分脈沖編碼調(diào)制就是將上述每個樣點的差值量化編碼, 而后用于存儲或傳送。 由于相鄰采樣點有較大
25、的相關(guān)性, 預(yù)測值常接近真實值, 故差值一般都比較小, 從而可以用較少的數(shù)據(jù)位來表示, 這樣就減少了數(shù)據(jù)量。 在接收端或數(shù)據(jù)回放時, 可用類似的過程重建原始數(shù)據(jù)。 差分脈沖調(diào)制系統(tǒng)的方框圖如圖3.3-5所示。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 圖3.3-5 差分脈沖調(diào)制系統(tǒng)的方框圖 (a) 編碼器; (b) 解碼器 量化器輸 出輸 入信 號信 號y0采樣預(yù)測器0y (a)預(yù)測器濾波(b)第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 由圖3.3-5可見, 只要求出預(yù)測值 , 則實現(xiàn)這種方法就不困難了, 而要得到 , 關(guān)鍵的問題是確定預(yù)測系數(shù)a i。 如何求a i呢?我們定義a
26、 i就是使估值的均方差最小的a i。 估值的均方差可由下式?jīng)Q定: 0y0y)()(222110200NNyayayayEyyE(3.3-6) 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 為了求得均方差最小, 就需對式(3.3-6)中各個a求導(dǎo)數(shù)并使方程等于0, 最后解聯(lián)立方程可以求出ai。 預(yù)測系數(shù)與輸入信號特性有關(guān), 也就是說, 采樣點同其前面采樣點的相關(guān)性有關(guān)。 只要預(yù)測系數(shù)確定, 問題便可迎刃而解。 通常一階預(yù)測系數(shù)ai的取值范圍為0.81。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 3. 自適應(yīng)差分脈沖編碼調(diào)制(ADPCM) 為了進一步提高編碼的性能, 人們將自適應(yīng)量化器
27、和自適應(yīng)預(yù)測器結(jié)合在一起用于DPCM之中, 從而實現(xiàn)了自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)。 其簡化的框圖如圖3.3-6所示。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 自適應(yīng)量化器首先檢測差分信號的變化率和差分信號的幅度大小, 而后決定量化器的量化階距。 自適應(yīng)預(yù)測器能夠更好地跟蹤語音信號的變化。 因此, 將兩種技術(shù)組合起來使用, 從而可以提高系統(tǒng)性能。 從圖3.3-6中可以看出, 在圖3.3-6(a)編碼器框圖中, 實際上也包含著圖3.3-6(b)的解碼器框圖, 兩者的算法是一樣的。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 圖3.3-6 ADPCM編解碼框圖(a) ADP
28、CM編碼器; (b) ADPCM解碼器 量化器自適應(yīng)預(yù)測器量化階自適應(yīng)逆量化器(a)逆量化器量化階自適應(yīng)自適應(yīng)預(yù)測器(b)第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 3.3.3 子帶編碼 聲音信號對人耳的聽覺貢獻與信號頻率有關(guān), 比如人耳對1 kHz附近頻率成分尤其敏感。 再比如實驗發(fā)現(xiàn), 如果講話人發(fā)出無意義的音節(jié), 則聽話人在保留400 Hz6 kHz頻率范圍的語音情況下, 就可聽清此音節(jié); 而上限頻率降低至1.7 kHz時可聽清約一半; 如果講話人發(fā)出的是連續(xù)有意義的句子, 那么只保留頻率范圍為400 Hz3 kHz的語音就可完全聽懂了。 第第3 3章章 音頻信息處理技術(shù)音頻信息處
29、理技術(shù) 與人耳聽覺特性在頻率上分布不均勻相對應(yīng), 人所發(fā)出的語音信號的頻譜也不是平坦的。 事實上, 多數(shù)人的語音信號能量主要集中在頻率為500 Hz1 kHz范圍內(nèi), 并隨著頻率的升高很快衰減。 根據(jù)上述特點, 可以設(shè)想將輸入信號用某種方法劃分成不同頻段上的子信號, 然后區(qū)別對待, 根據(jù)各子信號的特性, 分別編碼。 比如, 對語音信號中能量較大, 對聽覺有重要影響的部分(如500800 Hz頻段內(nèi)的信號)分配較多的碼字, 對次要信號(如話帶中大于3 kHz的信號)則分配較少的碼字。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 各子信號分別編碼后的碼字在接收方被分別解碼, 最后再合成出解碼
30、語音。 因此, 可以設(shè)想, 首先用一組帶通濾波器, 將輸入的音頻信號分成若干個連續(xù)的頻段, 并將這些頻段稱為子帶。 然后, 再分別對這些子帶中的音頻分量進行采樣和編碼。 最后, 再將各子帶的編碼信號組織到一起進行存儲或送到信道上傳送。 在信道的接收端(或在回放時)得到各子帶編碼的混合信號, 將各子帶的編碼取出來, 對它們分別進行解碼, 產(chǎn)生各子帶的音頻分量, 再將各子帶的音頻分量組合在一起, 恢復(fù)原始的音頻信號。 子帶編碼的原理框圖如圖3.3-7所示。 由圖3.3-7可以看出上述的基本原理。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 圖3.3-7 子帶編碼的原理框圖 帶通濾波1綜合器信
31、號輸入輸入輸 出信號輸出帶通濾波2帶通濾波n編碼器編碼器編碼器分配器譯碼器譯碼器譯碼器帶通濾波1帶通濾波2帶通濾波n第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 子帶編碼能夠?qū)崿F(xiàn)較高的壓縮比, 而且具有較高的質(zhì)量, 因此, 得到了比較廣泛的應(yīng)用。 這種編碼常常與其他一些編碼混合使用, 以實現(xiàn)混合編碼。 這一問題留待后面再作說明。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 3.3.4 變換域編碼 在子帶編碼中, 劃分子帶的方法是通過帶通濾波器來完成的。 而另外一種方法就是通過變換域編碼方法, 將輸入信號直接轉(zhuǎn)換到頻域, 然后在頻域劃分各頻段, 根據(jù)不同的頻段能量大小分配碼字然后編碼,
32、 收方解碼后再用相應(yīng)的反變換轉(zhuǎn)換成時域信號。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 與子帶編碼類似, 變換域編碼也是一種“頻域”編碼。 事實上, 只有采用離散傅里葉變換(FFT)或離散余弦變換(DCT), 變換后的各系數(shù)才真正代表頻率分量。 由于DCT接近最佳變換Karhunen-Loeve變換(KLT), 因而語音變換域編碼基本上都采用DCT, 在這個意義上可以稱語音變換域編碼為頻域編碼。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 在語音子帶編碼中, 常用的子帶數(shù)目為24, 寬帶音頻編碼也只不過用32個子帶。 語 音的變換域編碼, 其變換系數(shù), 或稱頻率分量數(shù)目則要大得多
33、, 通常取在123256之間。 變換域編碼將連續(xù)8個輸入語音樣點塊, 經(jīng)線性變換后再進行量化處理, 因此變換域編碼也稱塊編碼。 量化的方法可以采用標量量化, 也可以采用矢量量化。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) KLT變換能夠使變換域編碼性能充分發(fā)揮, 但在使用KLT時, 需要對每個信號輸入塊都求出N個特征矢量, 并以邊信息(Side Information, 或稱為“輔助信息”)的方式傳送到接收端。 另外, KLT在進行變換時需要做N2次乘法加法運算, 不存在快速算法, 因此在實際中并沒有得到應(yīng)用。 事實上, 它只給出一些次優(yōu)而實用的算法在性能上的界限, 在理論研究上起參照
34、作用。 在實際應(yīng)用中, 離散Hadamard變換(DHT)、 離散Walsh Hadamard變換(DWHD)、 離散傅里葉變換(DFT)以及離散余弦變換(DCT)等都得到了應(yīng)用。 特別是, DCT在語音及圖像的變換域編碼中, 由于其性能非常接近于KLT, 又有快速算法, 因此得到了廣泛的應(yīng)用。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) DCT的一個重要優(yōu)點是: 它真正代表了頻域變換, 因此可以很容易根據(jù)人耳的特性來控制各頻率分量的量化誤差, 使得在數(shù)碼率一定的條件下, 獲得最好的主觀編碼質(zhì)量。 DCT的另一個重要優(yōu)點是: 對于自回歸(AR)輸入過程, 并且相鄰樣點有較高的相關(guān)性時,
35、其性能非常接近KLT。 不僅僅對于語音信號, 其他許多信號都能夠用AR模型來描述。 DCT的第三個優(yōu)點是: 它可以借助FFT進行快速計算。 這對具體應(yīng)用, 特別是當N比較大時, 是至關(guān)重要的。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 在語音編碼系統(tǒng)中, 為了適應(yīng)語音信號的非平穩(wěn)性, 通常都要采用自適應(yīng)處理技術(shù)。 變換域編碼將輸入信號塊分解成不同的頻率分量, 去除了大部分樣點之間的相關(guān)性, 因此, 自適應(yīng)技術(shù)主要使用了自適應(yīng)比特分配和自適應(yīng)量化。 自適應(yīng)比特分配用來適應(yīng)短時譜形狀的變化, 而自適應(yīng)量化主要用來適應(yīng)短時譜能量的變化。 在更一般的概念中, 變換的矩陣也可以自適應(yīng), 由于實現(xiàn)
36、上的困難, 在實際應(yīng)用中幾乎都采用固定變換矩陣, 因此, 自適應(yīng)變換域編碼(ATC)一詞通常指自適應(yīng)比特分配和自適應(yīng)量化, 特別是指自適應(yīng)比特分配。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 由于分塊處理, 前向自適應(yīng)更適合變換域編碼, 自適應(yīng)信息需要以邊信息的形式傳送給接收端, 以供解碼用。 由于邊信息占用一部分速率, 因此需要研究高效率的自適應(yīng)方法, 盡量少用一些比特來傳送邊信息, 以省下更多的比特用來對系數(shù)進行量化。 圖3.3-8示出了自適應(yīng)變換域編解碼的框圖, 其中包含了邊信息支路, 它們用來提供自適應(yīng)量階及自適應(yīng)比特分配信息。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù)
37、 圖3.3-8 自適應(yīng)變換編解碼原理框圖 (a) 編碼; (b)解碼 輸入緩沖比特分配量階尺寸譜插值編碼輸出信號輸入變 換量化編碼邊信息提取合路分路(a)編碼輸入解 碼反變換輸出緩沖重建輸出比特分配量階尺寸譜插值(b)第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 3.3.5 矢量量化 矢量量化VQ(Vector Quantization)是一種有損的編碼方案, 其主要思想是將輸入的語音信號按一定方式分組, 把這些分組數(shù)據(jù)看成一個矢量, 對它進行量化。 這就區(qū)別于直接對一個個數(shù)據(jù)作量化的標量量化方法。 矢量量化編碼及解碼的原理框圖如圖3.3-9所示。 第第3 3章章 音頻信息處理技術(shù)音頻信息
38、處理技術(shù) 圖3.3-9 矢量量化編碼及解碼原理框圖 信 號 序列 輸 入構(gòu) 成矢 量傳 送下 標矢 量輸 出接 收下 標搜 索矢 量碼 本查 表矢 量碼 本第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 假定將語音數(shù)據(jù)分組, 每組有 k個數(shù)據(jù)。 這樣, 一組就是一個k 維的矢量。 把每一個組形成的矢量看成一個元素, 又叫碼字, 那么, 語音所分成的組就形成了各自的碼字。 這些碼字排列起來, 就構(gòu)成了一個表, 人們將此表叫做碼本或碼書。 形象一點說, 碼書就類似于漢字的電報號碼本, 電報號碼本里面是復(fù)雜的漢字, 而在這里是一組原始的語音數(shù)據(jù); 電報號碼本里每個漢字旁邊標有只用4位阿拉伯數(shù)字表示
39、的號碼, 而在矢量量化方法里就是每組數(shù)據(jù)所對應(yīng)的下標。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 系統(tǒng)工作原理為: 先將待編碼的序列劃分成一個個等長的段, 每段含有若干個樣點, 這一段段樣點就構(gòu)成一個個矢量。 編碼對象可以是直接的語音輸入序列, 也可以是參數(shù)編碼中語音模型對應(yīng)的激勵序列, 或者是準平穩(wěn)期內(nèi)的語音經(jīng)線性預(yù)測分析產(chǎn)生的一組自回歸(AR)模型參數(shù), 等等。 每一個矢量與已預(yù)先訓(xùn)練(是指某種算法計算)好的一個矢量碼本(Codebook)中的每一個碼字(Codeword, 它與輸入矢量一樣, 也是同維數(shù)的矢量)按某種失真準則進行比較, 求出誤差。 第第3 3章章 音頻信息處理技術(shù)
40、音頻信息處理技術(shù) 碼本中每一個碼字都與輸入矢量產(chǎn)生一個相應(yīng)的誤差, 其中誤差最小的矢量可用來代替輸入矢量, 即輸入的最佳量化值。 只需對碼本中每一個碼字的位置進行編碼即可, 即傳送的不是碼本中對應(yīng)的碼字本身(這對數(shù)據(jù)壓縮毫無意義), 而是它的下標。 傳送下標所用的數(shù)據(jù)量比傳送原始的 k維數(shù)據(jù)要小得多, 從而達到了數(shù)據(jù)壓縮的目的。 在接收端, 也有同樣的碼本, 當接收到對方傳來的矢量下標時, 即可根據(jù)此下標, 在碼本中查出相應(yīng)的碼字作為重建的語音數(shù)據(jù)。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 如果碼本的長度為N , 則下標可用lbN二進制位來表示, 而 k 個數(shù)據(jù)構(gòu)成一個碼字。 所以,
41、 矢量量化編碼的比特壓縮量可達到1/ k lbN。 矢量量化編碼的關(guān)鍵技術(shù)一方面在于設(shè)計一個優(yōu)良的碼本, 即矢量碼本的構(gòu)造問題。 一般可通過反復(fù)迭代、 不斷修正的方法完成, 目前最常用的是一種稱為LBG的算法。 這個算法是三位學(xué)者Y.Linde、 A.Buzo和R.M.Gray共同提出的, 故以它們的名字命名。 采用LGB算法的步驟為: 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) (1) 采集用于構(gòu)造碼本的訓(xùn)練數(shù)據(jù)。 數(shù)據(jù)越多, 采集對象越廣泛, 則訓(xùn)練出的碼本越好。 當然, 數(shù)據(jù)越多, 訓(xùn)練時間越長, 因而必須在性能和訓(xùn)練代價之間尋求一個折衷。 (2) 構(gòu)造初始碼本。 它有許多方法,
42、例如, 常用的隨機碼本、 白噪聲碼本等。 (3) 訓(xùn)練數(shù)據(jù)對已有的碼本進行矢量量化編碼, 對每個碼字形成數(shù)據(jù)聚類。 (4) 根據(jù)量化得到的聚類結(jié)果修正碼字, 即尋找每一類的新的代表性碼字。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) (5) 判斷(3)中量化編碼誤差是否小于規(guī)定數(shù)值, 或者迭代次數(shù)是否超過規(guī)定值, 若是, 訓(xùn)練結(jié)束。 否則轉(zhuǎn)(3)繼續(xù)。 矢量量化編碼的關(guān)鍵技術(shù)的另一個方面是量化編碼準則問題, 這與被編碼對象特性有關(guān)。 舉例來說, 若直接對輸入語音波形進行矢量量化, 則多用最小均方誤差MSE(Mean-Squared-Error)準則: 21)(),(ijjmjiyjsYS
43、d(3.3-7) 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 其中, Yi是碼本中第i個碼字, 每個碼字有m維; wj 是權(quán)函數(shù); d是誤差值。 若矢量量化編碼的對象是語音模型參數(shù), 則MSE(最小均方誤差)準則就不合適了。 因為模型參數(shù)反映的是語音的頻譜特性, 參數(shù)量化誤差最小, 代表語音頻譜量化誤差最?。ǔ菂?shù)間無誤差), 所以在這種場合, 將多數(shù)由參數(shù)來表示的語音頻譜失真作為誤差準則。 最常用的是deYeXeYeXYXdjijjiji1)()()()(ln21),(22(3.3-8) 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 圖3.3-10 二進碼樹編碼原理 第m級第三級
44、第二級第一級第j個第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 圖3.3-10中, 一共有 m 級, 第一級有2 1個碼字, 第二級有2 2個碼字, 第 m級有2 m 個碼字。 輸入矢量首先與第一級兩個碼字比較, 如果圖中上面一個的碼字量化誤差小, 則再與它對應(yīng)的第二級的兩個碼字(如圖中虛線箭頭所指)進行比較, 依次類推, 每次僅與某級的兩個碼字進行比較, 一直到最后一級的第 j個, 即為量化結(jié)果, 量化的路徑如圖3.3-10中 的實線所示。 這樣, 搜索的過程只與2m個碼字進行比較, 而不是普通矢量量化與2 m 個碼字的比較, 計算量大大減少。 當然, 碼本的構(gòu)造也是先構(gòu)造一個碼字, 再
45、構(gòu)造兩個, 兩個再構(gòu)造四個, 依此類推。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) G.723.1和G.729標準中采用的代數(shù)結(jié)構(gòu)碼本, 是使其碼本呈現(xiàn)某種預(yù)先規(guī)定的排列特征(等間隔的脈沖串、 不同碼矢量可以通過別的碼字的移位得到), 另外, 每個碼字中非零元素很少, 可以大大降低求解合成語音時的計算量。 矢量量化編碼不一定是對語音樣值進行處理, 也可以對語音的其他特征進行編碼, 比如G.723.1標準中, 合成濾波器系數(shù)轉(zhuǎn)化為線譜對(Linear Spectrum Pair, LSP)系數(shù)后采用的就是矢量編碼法。 因此, 矢量量化的用途是很廣的。 第第3 3章章 音頻信息處理技術(shù)音頻
46、信息處理技術(shù) 3.3.6 線性預(yù)測編碼 前面我們已介紹過線性預(yù)測編碼(LPC)方法為參數(shù)編碼方式。 參數(shù)編碼的基礎(chǔ)是人類語音的生成模型, 通過這個模型, 提取語音的特征參數(shù), 然后對特征參數(shù)進行編碼傳輸。 在式(3.3-4)和式(3.3-5)中分別給出了預(yù)測方程和預(yù)測誤差。 在DPCM中只用低階進行預(yù)測, 有時甚至取 ai=1 , 即只用前面一個采樣來代替(預(yù)測)當前樣值。 而在LPC中, 對輸入的音頻信號進行分幀(例如, 每10 ms為一幀)提取參數(shù)。 發(fā)送這些參數(shù)以達到數(shù)據(jù)壓縮的目的。 在接收端, 利用所得的參數(shù)進行合成, 重建語音。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 在提
47、取的參數(shù)中, 最重要的是預(yù)測系數(shù) ai 。 求取線性預(yù)測系數(shù)的依據(jù)就是式(3.3-5)的 e20為最小。 也就是說, 要提取在一幀數(shù)據(jù)中使e20為最小的ai。 在實際應(yīng)用中, 通常要取10階或12階預(yù)測系數(shù), 這就需要求出各ai下的e20的最小值。 通過解聯(lián)立方程的方法求出ai 來。 實際上求10階(或12階)預(yù)測系數(shù)需要計算本幀語音信號的協(xié)方差或自相關(guān), 使求取的預(yù)測值盡可能地接近實際值。 除了預(yù)測系數(shù)外, 其他要提取的參數(shù)有音調(diào)、 清音/濁音以及信號的幅度。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) LPC系統(tǒng)將預(yù)測系數(shù)及其他有關(guān)參數(shù)進行編碼并傳送。 在接收端, 利用收到的線性預(yù)測
48、系數(shù)以及其他參數(shù), 使用語音合成器重建原始語音。 一個典型的例子是美國使用的LPC-10算法, 其編碼原理框圖如圖3.3-11所示。 LPC-10與其他LPC的區(qū)別在于它采用了平均幅值差分函數(shù)(AMDF)間隔提取方法和采用協(xié)方差計算短時預(yù)測器系數(shù), 而不是用自相關(guān)方法。 在此系統(tǒng)中, 語音的采樣率為8 kHz, 樣本編碼字長為12位。 以180個采樣值為一幀。 LPC-10對每幀信號采樣值進行處理, 分別計算出10階預(yù)測系數(shù)、 音調(diào)、 幅度及清音或濁音。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 圖3.3-11 LPC-10算法的編碼原理框圖 預(yù)增強反射系數(shù)(RC)語音信號編碼輸出V/
49、UV間隔RMSRCs半間隔同步調(diào)相預(yù)測器分析緩沖區(qū)矩陣加載RMS測試矩陣求逆雙幀緩沖區(qū)參數(shù)編碼間隔和聲音校正聲音/無聲音(V/UV)檢測器AMDF間隔提 取并/串變換和同步生成器低通濾波間隔分析緩沖區(qū)第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 利用迭代法計算協(xié)方差矩陣, 求得10階預(yù)測系數(shù)。 前4個系數(shù)用5 bit表示; 第5到第8個系數(shù)用4 bit表示; 第9個系數(shù)為3 bit; 第10個系數(shù)為2 bit。 這樣, 10個線性預(yù)測系數(shù)共用41 bit來表示。 用7 bit傳送音調(diào)和清音/濁音, 再用5 bit表示幅度, 另外還要加1位同步位。 這樣一來, 原來一幀(180個采樣值)數(shù)據(jù)
50、可用54 bit來傳送, 從而使系統(tǒng)的傳送率為8000/180542.4 kb/s。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 3.4 語音壓縮編碼標準語音壓縮編碼標準 經(jīng)過近二三十年的努力, 人們已在語音信號壓縮編碼方面取得了很大進展, 開發(fā)出了許多壓縮方法, 其中的一些已成為了國際或地區(qū)的編碼標準, 表3.4-1所示是按波形編碼、 參數(shù)編碼和混合編碼三類編碼方法分類的具有代表性的標準。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 表3.4-1 數(shù)字音頻編碼算法、 標準簡表 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 3.4.1 常見音頻編碼標準 1 G.711標準 G.
51、711標準是1972年制定的電話質(zhì)量的PCM語音壓縮標準, 采樣頻率為8 kHz, 每個樣值采用8位二進制編碼, 因此其速率為64 kb/s。 推薦使用A律或律的非線性壓擴技術(shù), 將13位的PCM按A律, 14位的PCM按律轉(zhuǎn)換成8位編碼, 其質(zhì)量相當于12比特線形量化。 標準規(guī)定選用不同解碼規(guī)則的國家之間, 數(shù)據(jù)通路傳送按A律解碼的信號。 使用律的國家應(yīng)進行轉(zhuǎn)換, 標準給出了A編碼的對應(yīng)表。 標準還規(guī)定, 在物理介質(zhì)上連續(xù)傳輸時, 符號位在前, 最低有效位在后。 本標準廣泛用于數(shù)字語音編碼。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 2 G.721標準 G.721標準是ITU-T于1
52、984年制定的, 主要目的是用于64 kb/s的A律和律PCM與32 kb/s的ADPCM之間的轉(zhuǎn)換。 它基于ADPCM技術(shù), 采樣頻率為8 kHz, 每個樣值與預(yù)測值的差值用4位編碼, 其編碼速率為32 kb/s, ADPCM是一種對中等質(zhì)量音頻信號進行高效編碼的有效算法之一, 它不僅適用于語音壓縮, 而且也適用于調(diào)幅廣播質(zhì)量的音頻壓縮和CD-I音頻壓縮等應(yīng)用。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 3 G.722標準 G.722標準旨在提供比G.711或G.721標準壓縮技術(shù)更高的音質(zhì), G.722編碼采用了高低兩個子帶內(nèi)的ADPCM方案, 即使用子帶ADPCM(SB-ADPC
53、M)編碼方案。 高低子帶的劃分以4 kHz為界, 然后再對每個子帶內(nèi)采用類似G.721標準的ADPCM編碼。 它是1988年ITU-T為調(diào)幅廣播質(zhì)量的音頻信號壓縮制定的標準。 G.722能將224 kb/s的調(diào)幅廣播質(zhì)量的音頻信號壓縮為64 kb/s, 主要用于視聽多媒體和會議電視等。 G.722壓縮信號的帶寬范圍為50 Hz7 kHz, 比特率為48 kb/s、 56 kb/s、 64 kb/s。 在標準模式下, 采樣頻率為16 kHz, 幅度深度為14 bit。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 4 G.728標準 G.728標準是一個追求低比特率的標準, 其速率為16 k
54、b/s, 其質(zhì)量與32 kb/s的 G.721 標準相當。 它使用了LD-CELP(低延時碼激勵線性預(yù)測)算法。 該算法考慮了人耳的聽覺特性, 具有以塊為單位的后向自適應(yīng)高階預(yù)測、 后向自適應(yīng)型增益量化、 以矢量為單位的激勵信號量化等特點。 語音輸入為5個取樣值, 附加上激勵信號的波形與增益表達信息10比特, 編碼時延在2 ms以內(nèi)。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 這一點與每一幀取160個樣值, 附加有除激勵信號和波形與增益表達信息外還包括線性預(yù)測系數(shù)、 音調(diào)預(yù)測系數(shù)、 音調(diào)增益輔助信息等信息, 這些信息的基本CELP結(jié)構(gòu)不同。 另外, G.721方案是對每個取樣值進行預(yù)測
55、并自適應(yīng)量化, 而本方案則是對所有取樣值以矢量為單位處理, 并且應(yīng)用了線性預(yù)測和增益自適應(yīng)的最新理論與成果。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 編碼時將事先準備好的激勵矢量的所有組合合成語音, 然后將其結(jié)果與被編碼的輸入信號相比較, 選出聽覺加權(quán)后距離最小的碼元作為信息傳遞。 而合成器則將發(fā)送端編碼傳送所制定的激勵矢量、 3比特增益碼和自身合成過的語音波形一起合成為語音。 ITU-T G.728標準的LD-CELP編碼原理框圖如圖3.4-1所示。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 圖3.4-1 G.728標準的LD-CELP編碼原理框圖 增益輸入語音信 道編 碼
56、激 勵VQ碼本后向增益自適應(yīng)矢量緩存50階LPC預(yù)測器后向LPC分析感覺加權(quán)濾波器均方誤差最小化第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) G.728是低速率(56128 kb/s)ISDN可視電話的推薦語音編碼器, 由于它具有反向自適應(yīng)特性, 可實現(xiàn)低時延, 被認為復(fù)雜度較高。 由于自適應(yīng)反向濾波器, 因而G.728具有幀或包丟失隱藏措施, 對隨機比特差錯有相當強的承受力, 超出任何其他語音編碼器。 并且, 一個碼字中的全部10個比特對比特差錯的敏感度基本相同。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 5 G.729標準 G.729標準是ITU-T為低碼率應(yīng)用設(shè)計而制定的語音
57、壓縮標準, 其碼率為8 kb/s, 算法相對比較復(fù)雜, 采用碼激勵線性預(yù)測(CELP, Code Excitation Linear Prediction)技術(shù), 同時為了提高合成語音質(zhì)量, 采取了一些措施, 具體的算法要比CELP復(fù)雜一些, 通常稱為共軛結(jié)構(gòu)代數(shù)碼激勵線性預(yù)測(CS-ACELP, Conjugate Structure Algebraic Code Excited Linear Prediction)。 G.729標準語音編碼系統(tǒng)的原理框圖如圖 3.4-2所示。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 圖3.4-2 G.729標準語音編碼系統(tǒng)的原理框圖 預(yù)處理固定碼
58、本輸入語音固定碼本增益自適應(yīng)碼本增益LPC信息LPC信息LPC信息傳輸比特流自適應(yīng)碼本線性預(yù)測分析量化和內(nèi)插合 成濾波器感覺加權(quán)濾波基音分析固定碼本搜索增益量化參數(shù)編碼第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) G.729標準的編碼過程如下: (1) 預(yù)處理。 它可對輸入信號進行高通濾波和按一定比例縮小, 以防溢出。 (2) 對10 ms幀長語音段采用Levinson-Durbin算法進行LPC分析(階數(shù)10階), 并將LP系數(shù)轉(zhuǎn)換成線譜對LSP參數(shù), 用VQ技術(shù)量化編碼。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) (3) 將10 ms幀分成兩個5 ms的子幀, 分別求子幀語音模
59、型對應(yīng)的激勵信號。 (4) 第二子幀的信號, 合成濾波器系數(shù)取自第二步運算的結(jié)果, 而第一子幀合成濾波器系數(shù)是通過第二子幀系數(shù)與前一幀系數(shù)內(nèi)插得到的(這樣, 第一子幀合成濾波器系數(shù)不必傳輸了)。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) (5) 開環(huán)基音估計。 即根據(jù)短時預(yù)測產(chǎn)生的預(yù)測誤差, 直接進行估計。 (6) 進行自適應(yīng)碼書搜索, 得到語音中具有準周期特性的激勵。 根據(jù)第(5)步的結(jié)果, 搜索范圍可以很小。 G.729標準采取了一些措施, 使得基音周期還可以取分數(shù)值(1/3樣值精度), 提高了合成語音質(zhì)量。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) (7) 具有代數(shù)結(jié)構(gòu)的
60、固定碼書搜索, 從而得到語音模型的隨機激勵信號。 (8) 兩個碼書的增益(固定碼本增益和自適應(yīng)碼本增益)采用具有共軛結(jié)構(gòu)的兩級碼書進行矢量量化。 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 表3.4-2 8 kb/s CS-ACELP算法比特分配方案 第第3 3章章 音頻信息處理技術(shù)音頻信息處理技術(shù) 6 G.723.1標準 ITU-T頒布的語音壓縮標準中碼率最低的G.723.1標準主要是用于各種網(wǎng)絡(luò)環(huán)境中的多媒體通信的。 它的編碼的流程圖如圖3.4-3所示。 盡管圖3.4-3中流程看起來很復(fù)雜, 但它仍是基于分析合成(A/S)編碼原理的。 它與G.729標準的主要不同在于: 第第3 3章
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 橋梁建設(shè)工地安全生產(chǎn)培訓(xùn)
- 科研創(chuàng)新安全生產(chǎn)培訓(xùn)
- DBT29-93-2004 土壓平衡和泥水平衡頂管工程施工技術(shù)規(guī)程
- 2024-2025學(xué)年高中數(shù)學(xué)課時分層作業(yè)15不等關(guān)系不等關(guān)系與不等式含解析北師大版必修5
- 2024-2025學(xué)年高中生物課時分層作業(yè)3通過神經(jīng)系統(tǒng)的調(diào)節(jié)一含解析新人教版必修3
- 2024-2025學(xué)年高中政治第一單元公民的政治生活第二課第二課時民主決策:作出最佳選擇作業(yè)含解析新人教版必修2
- 2024-2025學(xué)年高中語文第二單元思想之光3狂人日記鞏固提升案魯人版選修中國現(xiàn)當代小說蚜
- 2024-2025學(xué)年高中歷史課時作業(yè)27新興力量的崛起人民版必修1
- 智能材料研究報告-智能材料項目可行性研究報告2024年
- 綦江區(qū)箱包項目申請報告
- 中藥抗骨質(zhì)疏松作用
- 中建綜合支吊架施工方案
- 建筑施工規(guī)范大全
- 幼兒園開學(xué)家長會PPT模板(含完整內(nèi)容)
- 表冷器更換施工方案
- 瀝青集料篩分反算計算表格(自動計算)
- 哲學(xué)與人生(中職)PPT完整全套教學(xué)課件
- 惡性高熱課件
- 一年級語文下冊《我多想去看看》教案
- 真空滅弧室基本知識課件
- 工程EPC總承包項目安全生產(chǎn)管理辦法
評論
0/150
提交評論