03_數(shù)字聲音編碼_第1頁
03_數(shù)字聲音編碼_第2頁
03_數(shù)字聲音編碼_第3頁
03_數(shù)字聲音編碼_第4頁
03_數(shù)字聲音編碼_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、多媒體技術基礎(第3版)第3章 數(shù)字聲音編碼林福宗清華大學 計算機科學與技術系2008年9月第3章 數(shù)字聲音編碼目錄n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n2 2 of 46 of 463.1 聲音簡介3.1.1 聲音是什么3.1.2 聲音的頻率范圍3.2 聲音信號數(shù)字化3.2.1 從模擬過渡到數(shù)字3.2.2 模擬信號與數(shù)字信號3.2.3 聲音信號數(shù)字化3.2.4 聲音質量與數(shù)據(jù)率3.3聲音質量的MOS評分標準3.4 脈沖編碼調(diào)制(PCM)3.4.1 PCM的概念3.4.2 均勻量化3.4.3 非均勻量化3.5 PCM在通信中的應用3.5.1 頻

2、分多路復用3.5.2 時分多路復用3.5.3 數(shù)字通信線路的數(shù)據(jù)傳輸率3.6 增量調(diào)制與自適應增量調(diào)制3.6.1 增量調(diào)制(DM)3.6.2 自適應增量調(diào)制(ADM)3.7 自適應差分脈沖編碼調(diào)制3.7.1 自適應脈沖編碼調(diào)制(APCM)的概念3.7.2 差分脈沖編碼調(diào)制(DPCM)的概念3.7.3 自適應差分脈沖編碼調(diào)制(ADPCM)3.7.4 G.726 ADPCM編譯碼器3.8 G.722 SB-ADPCM編譯碼器3.8.1 子帶編碼(SBC)3.8.2 子帶-自適應差分脈沖編碼調(diào)制(SB-ADPCM)3.9 線性預測編碼(LPC)的概念3.10 GSM聲音簡介3.11 話音編碼標準摘要

3、3.11.1 編碼算法的性能3.11.2 話音編碼標準參考文獻和站點 聲音是什么 聲音是聽覺器官對聲波的感知,而聲波是通過空氣或其他媒體傳播的連續(xù)振動 聲音的強弱體現(xiàn)在聲波壓力的大小上,音調(diào)的高低體現(xiàn)在聲音的頻率上 聲音用電表示時,聲音信號在時間和幅度上都是連續(xù)的模擬信號,如圖3-1所示 聲波具有普通波所具有的特性,例如反射 (reflection)、折射 (refraction)和衍射(diffraction)等 n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n3 3 of 46 of 463.1 聲音簡介圖3-1 聲音是一種連續(xù)的波 Audio是什么

4、 Audio作名詞聲音 通常指頻率在10 Hz和20 000 Hz范圍里的聲音 The part of television or motion-picture equipment that has to do with sound The broadcasting, reception, or reproduction of sound Audible sound A sound signal Audio作修詞音頻 修飾或說明人的聽覺系統(tǒng)可感知的頻率 (1020 000 Hz) Relating to frequencies within the range of perception by

5、 the human ear from about 15 through 20,000 hertz (cycles per second). Of or relating to humanly audible sound. Of or relating to the broadcasting or reception of sound. Of or relating to high-fidelity sound reproductionn20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n4 4 of 46 of 463.1 聲音簡介(續(xù)1) 練習: 如何翻譯

6、下面的術語 audio on demand音樂點播/聲音點播 digital audio數(shù)字聲音 DVD-audio? streaming audio ? audio streaming ? MPEG audio ? audio compression ? 聲音的頻率 高保真聲音(high-fidelity audio): 10 20 000 Hz 聲音(audio): 20 20 000Hz 話音(speech): 3003000/3400 Hz 亞音/次音(subsonic): 20 000 Hzn20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n5 5

7、 of 46 of 463.1 聲音簡介(續(xù)2) 數(shù)字化的概念 采樣和量化 連續(xù)時間的離散化通過采樣來實現(xiàn),就是每隔相等的一段時間采樣一次,這種采樣稱為均勻采樣(uniform sampling) 連續(xù)幅度的離散化通過量化(quantization)來實現(xiàn),就是把信號的強度劃分成一小段一小段,如果幅度的劃分是等間隔的,就稱為線性量化,否則就稱為非線性量化。圖3-2表示了聲音數(shù)字化的概念 n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n6 6 of 46 of 463.2 聲音信號數(shù)字化圖3-2 聲音的采樣和量化 讀者可這樣來理解奈奎斯特理論 聲音信號可看

8、成是由許多正弦波組成的,一個振幅為A、頻率為f的正弦波至少需要兩個采樣樣本表示,因此,如果一個信號中的最高頻率為fmax ,采樣頻率最低要選擇2 fmax 。例如,話音信號的最高頻率約為3.4 kHz,采樣頻率就選為8 kHz n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n7 7 of 46 of 463.2 聲音信號數(shù)字化(續(xù)1)n采樣頻率采樣頻率采樣頻率由根據(jù)奈奎斯特理論(Nyquist theory)確定n奈奎斯特理論指出,采樣頻率不應低于聲音信號最高頻率的兩倍,這樣就能把以數(shù)字表達的聲音還原成原來的聲音,這叫做無損數(shù)字化(lossless di

9、gitization)假設被采樣信號的最高頻率為fmax,則采樣定律可用公式表示為max2sff 采樣精度 度量聲音波形幅度的精確程度,用每個聲音樣本的位數(shù)(即bps)表示 例如每個聲音樣本用16位表示,測得的聲音樣本值是在065535范圍里的數(shù),它的精度是1/65536 精度是在模擬信號數(shù)字化過程中度量模擬信號的最小單位,因此也稱量化階(quantization step size) 01 V的電壓用256個數(shù)表示時,量化階等于1/256 V 樣本位數(shù)的大小影響到聲音的質量,位數(shù)越多,聲音質量越高,所需存儲空間也越多;位數(shù)越少,聲音質量就越低,所需存儲空間也越少 n20222022年年2 2

10、月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n8 8 of 46 of 463.2 聲音信號數(shù)字化(續(xù)2) 其中,Vsignal表示信號電壓,Vnoise表示量化噪聲電壓(模擬信號的采樣值和與它最接近的數(shù)字數(shù)值之間的差值),SNR的單位為分貝(db) n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n9 9 of 46 of 463.2 聲音信號數(shù)字化(續(xù)3)采樣精度的另一種表示方法是信號噪聲比,簡稱為信噪比(signal-to-noise ratio,SNR),并用下式計算210102()10 log 20 log()signalsigna

11、lnoisenoiseVVSNRVV3.2 聲音信號數(shù)字化(續(xù)4) 聲音質量和數(shù)據(jù)率 質量度量質量采樣頻率(kHz)樣本精度(bit/s)單道聲/立體聲(未壓縮的)數(shù)據(jù)率(kb/s)頻率范圍(Hz)電話*88單道聲64.0 2003 400AM11.0258單道聲88.22015000FM22.05016立體聲705.6507000CD44.116立體聲1411.22020000DAT4816立體聲1536.02020000n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n1010 of 46 of 46*電話使用m律編碼,動態(tài)范圍為13位,壓縮后的樣本精

12、度為8位 聲音質量的衡量方法 聲音帶寬法 等級由高到低依次是DAT、CD、FM、AM和數(shù)字電話 客觀質量度量 用信噪比(SNR)表示,詳細計算請參看林福宗和陸達編寫的多媒體與CD-ROM,1995.3清華大學出版社出版 主觀質量度量 度量方法類似于電視節(jié)目中的歌手比賽,由評委對每個歌手的表現(xiàn)進行評分,然后求出平均值 有時同時采取兩種方法評估,有時以主觀質量度量為主n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n1111 of 46 of 463.3 聲音質量的MOS評分標準3.3 聲音質量的MOS評分標準(續(xù)) 主觀平均分(mean opinion sc

13、ore,MOS) 對聲音主觀質量度量比較通用的標準是5分制,各檔次的評分標準見表3-2 分數(shù)質量等級失真級別5優(yōu)(Excellent)無察覺4良(Good)(剛)察覺但不討厭3中(Fair)(察覺)有點討厭2差(Poor)討厭但不反感1劣(Bad)極討厭(令人反感)n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n1212 of 46 of 46表3-2 聲音質量MOS評分標準 脈沖編碼調(diào)制(PCM)的概念 PCM是pulse code modulation的縮寫 概念上最簡單、理論上最完善、最早研制成功、使用最為廣泛、數(shù)據(jù)量最大的編碼系統(tǒng)n2022202

14、2年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n1313 of 46 of 463.4 脈沖編碼調(diào)制(PCM)圖3-3 PCM編碼原理框圖 在圖3-3中 輸入是模擬信號,輸出是PCM樣本。 防失真濾波器:低通濾波器,用來濾除聲音頻帶以外的信號 波形編碼器:可理解為采樣器 量化器:可理解為“量化階大小(step-size)”生成器或者稱為“量化間隔”生成器 PCM實際上是模擬信號數(shù)字化 模擬聲音數(shù)字化的兩個步驟: 第一步是采樣,就是每隔一段時間間隔讀一次聲音的幅度 第二步是量化,就是把采樣得到的聲音信號幅度轉換成數(shù)字值n20222022年年2 2月月2525日日n第第3

15、3章章 數(shù)字聲音編碼數(shù)字聲音編碼n1414 of 46 of 463.4 脈沖編碼調(diào)制(續(xù)1)3.4 脈沖編碼調(diào)制(續(xù)2) 量化的方法 主要有均勻量化和非均勻量化 均勻量化 采用相等的量化間隔/等分尺度量采樣得到的信號幅度,也稱為線性量化。量化后的樣本值Y和原始值X的差E=Y-X稱為量化誤差或量化噪聲n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n1515 of 46 of 46圖3-4 均勻量化3.4 脈沖編碼調(diào)制(續(xù)3) 非均勻量化 大的輸入信號采用大的量化間隔,小的輸入信號采用小的量化間隔 可在滿足精度要求的情況下用較少的位數(shù)來表示 聲音數(shù)據(jù)還原時

16、,采用相同的規(guī)則 采樣輸入信號幅度和量化輸出數(shù)據(jù)之間定義了兩種對應關系 律壓擴算法 A律壓擴算法注:壓擴(companding)n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n1616 of 46 of 46圖3-5 非均勻量化 時分多路復用 PCM編碼早期主要用于話音通信中的多路復用 時分多路復用是在同一條通信線路上使用不同時段“同時”傳送多個獨立信號的通信方法 時分多路復用的核心思想是將時間分成等間隔的時段,為每對用戶指定一個時間間隔,每個間隔傳輸信號的一部分 例如,話音信號的采樣頻率f8000 Hz/s,它的采樣周期125 s,這個時間稱為1幀(f

17、rame)。在這個時間里可容納的話路數(shù)有兩種規(guī)格 24路制 30路制 n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n1717 of 46 of 463.5 PCM在通信中的應用3.5 PCM在通信中的應用(續(xù)1) 24路制的重要參數(shù)如下: 每秒鐘傳送8000幀,每幀125s 12幀組成1復幀(用于同步)。 每幀由24個時間片(信道)和1位同步位組成 每個信道每次傳送8位代碼,1幀有24 8 1193位(位) 數(shù)據(jù)傳輸率R80001931544 kb/s 每一個話路的數(shù)據(jù)傳輸率80008=64 kb/sn20222022年年2 2月月2525日日n第第3

18、 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n1818 of 46 of 46圖3-6 24路PCM的幀結構 30路制的重要參數(shù)如下: 每秒鐘傳送8000幀,每幀125 s 16幀組成1復幀(用于同步) 每幀由32個時間片(信道)組成 每個信道每次傳送8位代碼 數(shù)據(jù)傳輸率:R80003282048 kb/s 每一個話路的數(shù)據(jù)傳輸率80008=64 kb/s 線路利用率 使用時分多路復用技術時,由于當信道無數(shù)據(jù)傳輸時仍給那個信道分配時間槽,因此線路利用率較低 為解決這個問題,開發(fā)了統(tǒng)計時分多路復用技術(statistical time division multiplexing, STDM)。STDM是按

19、照每個傳輸信道的傳輸需要來分配時間間隔的時分多路復用技術,可提高傳輸線路的效率 n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n1919 of 46 of 463.5 PCM在通信中的應用(續(xù)2) 數(shù)字通信線路的數(shù)據(jù)傳輸率 為反映PCM信號復用的復雜程度,通常用“群(group)”這個術語來表示,也稱為數(shù)字網(wǎng)絡的等級 傳輸容量由一次群(基群)的30路(或24路),增加到二次群的120路(或96路),三次群的480路(或384路), 圖3-7表示二次復用的示意圖。圖中的N表示話路數(shù),無論N30還是N24,每個信道的數(shù)據(jù)率都是64 kb/s,經(jīng)過一次復用后的

20、數(shù)據(jù)率就變成2048 kb/s(N30)或1544 kb/s(N24) 在數(shù)字通信中 在北美,具有1544 kb/s數(shù)據(jù)率的線路叫做“T1遠距離數(shù)字通信線路”,提供這種數(shù)據(jù)率的服務級別稱為T1等級 在歐洲,具有2048 kb/s數(shù)據(jù)率的線路叫做“E1遠距離數(shù)字通信線路”,提供這種數(shù)據(jù)率的服務級別稱為E1等級 T1/E1,T2/E2,T3/E3,T4/E4和T5/E5的數(shù)據(jù)傳輸率見表3-3n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n2020 of 46 of 463.5 PCM在通信中的應用(續(xù)3)3.5 PCM在通信中的應用(續(xù)4)時分多路復用示意圖

21、n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n2121 of 46 of 46圖3-7 二次復用示意圖 3.5 PCM在通信中的應用(續(xù)5) T1/E1,T2/E2,T3/E3,T4/E4和T5/E5的數(shù)據(jù)傳輸率n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n2222 of 46 of 46注:在注:在ITUITU的文件中,數(shù)據(jù)率用的文件中,數(shù)據(jù)率用kb/skb/s和和Mb/sMb/s做單位,因此該表沒有做單位,因此該表沒有用用kbpskbps和和MbpsMbps做單位做單位 增量調(diào)制 也稱調(diào)制(delta mo

22、dulation,DM),是一種預測編碼技術 對實際的采樣信號與預測的采樣信號之差的極性進行編碼。如果實際的采樣信號與預測的采樣信號之差的極性為“正”,則用“1”表示;相反則用“0”表示,或者相反 由于DM編碼只須用1位對話音信號進行編碼,所以DM編碼系統(tǒng)又稱為“1位系統(tǒng)” 比較:PCM是對每個采樣信號的整個幅度進行量化編碼n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n2323 of 46 of 463.6 增量調(diào)制與自適應增量調(diào)制圖3-8 DM波形編碼示意圖 自適應增量調(diào)制(ADM) 根據(jù)輸入信號斜率的變化自動調(diào)整量化階的大小,以使斜率過載和粒狀噪聲

23、都減到最小。 在檢測到斜率過載時開始增大量化階,而在輸入信號的斜率減小時降低量化階 例如,宋(Song)在1971描述的ADM技術中提出:每當輸出不變時量化階增大50%;每當輸出值改變時,量化階減小50% 又如,由格林弗基斯(Greefkes)在1970年提出的連續(xù)可變斜率增量調(diào)制(CVSD)的基本方法是:如果連續(xù)可變斜率增量調(diào)制器的輸出連續(xù)出現(xiàn)三個相同值時,量化階加一個大的增量,反之,就加一個小的增量。 Motorola公司于20世界80年代初期開發(fā)了實現(xiàn)CVSD算法的集成電路芯片,如MC3417/MC3517用于一般的數(shù)字通信,MC3418/MC3518用于數(shù)字電話。MC3417/MC34

24、18用于民用,MC3517/MC3518用于軍用 n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n2424 of 46 of 463.6 增量調(diào)制與自適應增量調(diào)制(續(xù)) APCM的概念 APCM是什么 adaptive pulse code modulation的縮寫,自適應脈沖編碼調(diào)制 根據(jù)輸入信號幅度大小來改變量化階大小的一種波形編碼技術 自適應 瞬時自適應,即量化階的大小每隔幾個樣本就改變 音節(jié)自適應,即量化階的大小在較長時間里發(fā)生變化n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n2525 of 46 of

25、 463.7 自適應差分脈沖編碼調(diào)制3.7 自適應差分脈沖編碼調(diào)制(續(xù)1) 改變量化階大小的方法(1) 前向自適應(forward adaptation):根據(jù)未量化的樣本值的均方根值來估算輸入信號的電平,以此來確定量化階的大小,并對其電平進行編碼作為邊信息(side information)傳送到接收端 前向自適應APCM的基本概念如圖3-9 (a)所示n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n2626 of 46 of 46S(k)Sr(k)緩沖器量化器量化階適配器逆量化器邊信道信道(a)前向自適應圖3-9 APCM方塊圖 3.7 自適應差分脈

26、沖編碼調(diào)制(續(xù)2) 改變量化階大小的方法(2) 后向自適應(backward adaptation):從量化器剛輸出的過去樣本中提取量化階信息。由于后向自適應能在發(fā)收兩端自動生成量化階,所以它不需要傳送邊信息。 后向自適應APCM的基本概念如圖3-9 (b)所示n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n2727 of 46 of 46Sr(k)信道量化器量化階適配器逆量化器S(k)量化階適配器(b)后向自適應圖3-9 APCM方塊圖 DPCM的概念 DPCM是什么 APCM中文術語為差分脈沖編碼調(diào)制 differential pulse code

27、modulation的縮寫 利用樣本與樣本之間存在的信息冗余來進行編碼的一種數(shù)據(jù)壓縮技術 基本思想:根據(jù)過去的樣本去估算下一個樣本信號的幅度大小,這個值稱為預測值,然后對實際信號值與預測值之差進行量化編碼,從而就減少了表示每個樣本信號的位數(shù) 它與脈沖編碼調(diào)制(PCM)不同的是,PCM是直接對采樣信號進行量化編碼,而DPCM是對實際信號值與預測值之差進行量化編碼,存儲或者傳送的是差值而不是幅度絕對值,這就降低了傳送或存儲的數(shù)據(jù)量。 可適應大范圍變化的輸入信號 n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n2828 of 46 of 463.7 自適應差分

28、脈沖編碼調(diào)制(續(xù)3)3.7 自適應差分脈沖編碼調(diào)制(續(xù)4) DPCM原理 差分信號d(k):離散輸入信號s(k)和預測器輸出的估算值se(k-1)之差 對d(k)進行量化編碼,得到( )d kn20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n2929 of 46 of 46圖3-10 DPCM方塊圖 ADPCM的概念 ADPCM的中文術語為自適應差分脈沖編碼調(diào)制 adaptive difference pulse code modulation的縮寫 綜合了APCM的自適應特性和DPCM系統(tǒng)的差分特性,是一種性能比較好的波形編碼技術 它的核心想法是: 利用

29、自適應的思想改變量化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值 使用過去的樣本值估算下一個輸入樣本的預測值,使實際樣本值和預測值之間的差值總是最小n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n3030 of 46 of 463.7 自適應差分脈沖編碼調(diào)制(續(xù)5)3.7 自適應差分脈沖編碼調(diào)制(續(xù)6) ADPCM編碼框圖 如圖3-11所示 接收端的譯碼器使用與發(fā)送端相同的算法,利用傳送來的信號來確定量化器和逆量化器中的量化階大小,并且用它來預測下一個接收信號的預測值 n20222022年年2 2月月252

30、5日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n3131 of 46 of 46圖3-11 ADPCM方塊圖 G.722推薦標準 507000 Hz的話音稱為寬帶話音 1988年CCITT制定的,稱為“數(shù)據(jù)率為64 kb/s的7 kHz聲音信號編碼(7 kHz Audio-coding with 64 kb/s)”910 該標準把話音信號的質量由電話質量提高到AM無線電廣播質量,而其數(shù)據(jù)傳輸率仍保持為64 kb/s 在可懂度和自然度方面都比帶寬為3003400 Hz的話音有明顯提高,也更容易識別對方的說話人 采用的技術 子帶編碼(SBC) 自適應差分脈沖調(diào)制(ADPCM)編碼n2022202

31、2年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n3232 of 46 of 463.8 G.722 SB-ADPCM編譯碼器 子帶編碼(sub-band coding,SBC) 用一組帶通濾波器(band-pass filter,BPF)把輸入聲音信號的頻帶分成若干個連續(xù)的頻段,每個頻段稱為子帶。對每個子帶中的聲音信號采用單獨的編碼方案去編碼 在信道上傳送時,將每個子帶的代碼復合在一起;在接收端譯碼時,將每個子帶的代碼單獨譯碼,然后把它們組合起來,還原成原來的聲音信號 好處有兩個 可對每個子帶信號分別進行自適應控制,量化階的大小可按照每個子帶的能量電平加以調(diào)節(jié)。具有較高

32、能量電平的子帶用大的量化階去量化,以減少總的量化噪聲 可根據(jù)每個子帶信號在感覺上的重要性,對每個子帶分配不同的位數(shù),用來表示每個樣本值。n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n3333 of 46 of 463.8 G.722 SB-ADPCM編譯碼器(續(xù)1)3.8 G.722 SB-ADPCM編譯碼器(續(xù)2) 例如,在低頻子帶中,為了保護音調(diào)就要求用較小的量化階、較多的量化級數(shù),即分配較多的位數(shù)來表示樣本值。而話音中的摩擦音和類似噪聲的聲音,通常出現(xiàn)在高頻子帶中,對它分配較少的位數(shù) SBC的方塊圖如圖3-13所示,圖中的編碼/譯碼器可以采用AD

33、PCM,APCM或PCMn20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n3434 of 46 of 46 BPF 1 BPF 2 編碼器 BPF N 編碼器 編碼器 譯碼器 譯碼器 譯碼器 BPF 1 BPF 2 BPF N 分 解 器 復 合 器 編碼 信道 譯碼 x(n) x(n) 圖3-13 子帶編碼方塊圖 聲音頻帶的分割 可用樹型結構的式樣進行劃分 首先把整個聲音信號帶寬分成兩個相等帶寬的子帶:高頻子帶和低頻子帶 然后對這兩個子帶用同樣的方法劃分,形成4個子帶 這個過程可按需要重復下去,以產(chǎn)生2k個子帶,K為分割的次數(shù) 用這種辦法可以產(chǎn)生等帶寬的

34、子帶,也可以生成不等帶寬的子帶 例如,對帶寬為4000 Hz的聲音信號,當K=3時,可分為8個相等帶寬的子帶,每個子帶的帶寬為500 Hz;也可生成5個不等帶寬的子帶,分別為0,500),500,1000),1000,2000),2000,3000)和3000,4000 采用正交鏡像濾波器(quadrature mirror filter,QMF)來劃分頻帶 n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n3535 of 46 of 463.8 G.722 SB-ADPCM編譯碼器(續(xù)3) SB-ADPCM編譯碼器方框圖 n20222022年年2 2月月

35、2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n3636 of 46 of 463.8 G.722 SB-ADPCM編譯碼器(續(xù)4)圖3-17 7 kHz聲音信號64 kb/s數(shù)據(jù)率的編譯碼方塊圖 音頻信 號輸入 outX 發(fā)送正 交鏡象 濾波器 高子帶 ADPCM 編碼器 低子帶 ADPCM 編碼器 高子帶 ADPCM 譯碼器 低子帶 ADPCM 譯碼器 多 路 復 合 器 多 路 分 解 器 數(shù) 據(jù) 插入部件 數(shù) 據(jù) 抽出部件 附加數(shù)據(jù) 0, 8, 16 kbps 附加數(shù)據(jù) 0, 8, 16 kbps 聲音 數(shù)據(jù) 傳送 部件 聲音 數(shù)據(jù) 傳送 部件 音頻信 號輸出 inX HX L

36、X HY LY HI HI LI LI 16 kbps 16 kbps 48 kbps 48 kbps 接收正 交鏡象 濾波器 線性預測編碼(linear predictive coding,LPC) 話音壓縮技術。將話音生成機理模型化為一個離散的、時變的、線性的遞歸濾波器 編碼時使用線性預測分析話音波形產(chǎn)生聲道激勵和轉移函數(shù)的參數(shù),對聲音波形的編碼實際就轉化為對這些參數(shù)的編碼,這就可減少聲音的數(shù)據(jù)量 譯碼時使用線性預測分析得到的參數(shù),通過話音合成器重構話音。合成器實際上是一個離散的隨時間變化的時變線性濾波器,它代表人的話音生成系統(tǒng)模型 時變線性濾波器 分析話音波形時,當作預測器使用 合成話音

37、波形時,當作生成模型使用n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n3737 of 46 of 463.9 線性預測編碼(LPC)的概念 3.9 線性預測編碼(LPC)的概念(續(xù)1) 線性預測器 使用過去的P個樣本值來預測現(xiàn)時刻的采樣值x(n),如圖3-18所示n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n3838 of 46 of 46圖3-18 預測概念3.9 線性預測編碼(LPC)的概念(續(xù)2) 預測值用過去P個樣本值的線性組合表示為102 ( )nn ne nn20222022年年2 2月月2525日

38、日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n3939 of 46 of 460( )( )( )()ppreiie nx nxna x ni121( )(1)(2)() ()preppiixna x na x na x npa x ni 為方便起見,式中采用了負號 殘差誤差即線性預測誤差為一個線性差分方程, 在給定的時間范圍里,如n0, n1,使e(n)的平方和即 為最小,這樣可使預測得到的樣本值更精確。 預測系數(shù) 通過求解偏微分方程,可找到系數(shù)ai的值 如果把發(fā)音器官等效成濾波器,這些系數(shù)ai可以理解成濾波器的系數(shù) 在接收端重構的話音不再具體復現(xiàn)真實話音的波形,而是合成的聲音 n20222

39、022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n4040 of 46 of 463.9 線性預測編碼(LPC)的概念(續(xù)3) GSM編譯碼器簡介 GSM是Global System for Mobile communications的縮寫,可譯成全球數(shù)字移動通信系統(tǒng) GSM算法是1992年柏林技術大學(Technical University Of Berlin)根據(jù)GSM協(xié)議開發(fā)的,這個協(xié)議是歐洲最流行的數(shù)字蜂窩電話通信協(xié)議。 除了ADPCM算法已經(jīng)得到普遍應用之外,還有一種使用較普遍的波形聲音壓縮算法叫做GSM算法,使用這種算法的編碼器稱為GSM編碼器n2022

40、2022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n4141 of 46 of 463.10 GSM編譯碼器簡介 GSM的性能 GSM的輸入:數(shù)據(jù)分成幀(frame),一幀(20毫秒)由帶符號的160個樣本組成,每個樣本為13位或16位的線性PCM(linear PCM)碼 使用的采樣頻率為8 kHz時,如果每個樣本為16位,那么未壓縮的話音數(shù)據(jù)率為128 kb/s GSM的輸出: 一幀(16016位)的數(shù)據(jù)壓縮成260位的GSM幀,相當于13 kb/s。由于260位不是8位的整數(shù)倍,因此編碼器輸出的GSM幀為264位的線性PCM碼 使用GSM壓縮后的數(shù)據(jù)率為:(26

41、4位8000樣本/秒)/160樣本=13.2 千位/秒 GSM的壓縮比:128:13.2 = 9.7,近似于10:1n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n4242 of 46 of 463.10 GSM編譯碼器簡介(續(xù))3.11 話音編碼標準摘要 n20222022年年2 2月月2525日日n第第3 3章章 數(shù)字聲音編碼數(shù)字聲音編碼n4343 of 46 of 46編碼器編碼器MOSMOS分分64 kb/s脈沖編碼調(diào)制(PCM)4.332 kb/s自適應差分脈沖編碼調(diào)制(ADPCM)4.116 kb/s低時延碼激勵線性預測編碼(LD-CELP)4.08 kb/s碼激勵線性預測編碼(CELP)3.73.8 kb/碼激勵線性預測編碼(CELP)3.02.4 kb/s線性預測編碼(LPC)2.5n編碼算法的性能編碼算法的性能 表3-5 部分編碼器的MOS分 1.ITU G系列推薦標準文檔的下載網(wǎng)址:/rec/T-REC-G/en.2.Thomas J. Lynch, Ph.D. Data Compression Techniques and Application.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論