四川大學(xué)計(jì)算機(jī)學(xué)院多媒體基礎(chǔ)語(yǔ)音編碼

上傳人：2*** IP屬地：湖北上傳時(shí)間：2022-02-11 格式：PPT 頁(yè)數(shù)：71 大?。?60KB 積分：30 舉報(bào) 版權(quán)申訴

四川大學(xué)計(jì)算機(jī)學(xué)院多媒體基礎(chǔ)語(yǔ)音編碼_第2頁(yè)

四川大學(xué)計(jì)算機(jī)學(xué)院多媒體基礎(chǔ)語(yǔ)音編碼_第3頁(yè)

四川大學(xué)計(jì)算機(jī)學(xué)院多媒體基礎(chǔ)語(yǔ)音編碼_第4頁(yè)

四川大學(xué)計(jì)算機(jī)學(xué)院多媒體基礎(chǔ)語(yǔ)音編碼_第5頁(yè)

已閱讀5頁(yè)，還剩66頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、陳虎聲音概述v聲音是攜帶信息的重要媒體音樂和解說(shuō)使靜態(tài)圖像更加豐富多彩、音樂和視頻的同步使視頻圖像更具真實(shí)性v傳統(tǒng)計(jì)算機(jī)與人交互是通過(guò)鍵盤和顯示器，人們通過(guò)鍵盤或鼠標(biāo)輸入，通過(guò)視覺接收信息。多媒體計(jì)算機(jī)為計(jì)算機(jī)增加音頻通道，采用人們最熟悉、最習(xí)慣的方式與計(jì)算機(jī)交換信息為計(jì)算機(jī)裝上“耳朵”（麥克風(fēng)），讓計(jì)算機(jī)聽懂、理解人們的講話語(yǔ)音識(shí)別為計(jì)算機(jī)安上嘴巴和樂器（揚(yáng)聲器），讓計(jì)算機(jī)能夠講話和奏樂語(yǔ)音和音樂合成聲音概述聲音是聽覺器官對(duì)聲波的感知，而聲波是通過(guò)空氣或其他媒體傳播的連續(xù)振動(dòng) 聲音的強(qiáng)弱體現(xiàn)在聲波壓力的大小上，音調(diào)的高低體現(xiàn)在聲音的頻率上聲音用電表示時(shí)，聲音信號(hào)在時(shí)間和幅度上都是連

2、續(xù)的模擬信號(hào)，如圖3-1所示聲波具有普通波所具有的特性，例如反射、折射和衍射等聲音概述v人的聽覺器官能感知的聲音頻率大約是2020kHz，在這種頻率范圍里感知的聲音幅度大約在0120dB 語(yǔ)音信號(hào)（speech）：人說(shuō)話的信號(hào)頻率通常為3003400Hz 亞音信號(hào)（subsonic）：小于20Hz的信號(hào) 超聲波信號(hào)（ultrasonic）：高于20KHz的信號(hào)聲音概述v在組合聲音信號(hào)的一系列分量信號(hào)音波中，最低頻的音波稱為基音，其余音波稱為泛音v聲音的三要素：音調(diào)、音色、音強(qiáng) 音調(diào)（音高）：取決于基頻的高低。直觀感受：“唱不上去了”，“跑調(diào)了” 音色：是由混入基音的泛音所決定的，如果中高

3、泛音豐富音色就明亮，反之音色就暗淡。不同的樂器、不同人的語(yǔ)音音色不同音強(qiáng)（響度）：取決于聲音的幅度（分貝）聲音的數(shù)字化v模擬音頻：時(shí)間和幅度上都是連續(xù)的模擬磁性錄音技術(shù)，受電磁性能影響較大v數(shù)字音頻：時(shí)間和幅度上都是離散的計(jì)算機(jī)、數(shù)字CD、數(shù)字磁帶（DAT）A/D轉(zhuǎn)換模擬音頻數(shù)字音頻聲音的數(shù)字化v采樣（sampling）：時(shí)間上的離散化v量化（quantization）：幅度上的離散化聲音的數(shù)字化v采樣定理（Nyquist theory）奈奎斯特理論指出：采樣頻率不應(yīng)低于聲音信號(hào)最高頻率的兩倍，這樣就能把以數(shù)字表達(dá)的聲音還原成原來(lái)的聲音人類聽覺的頻率范圍大約為：2020kHz，為保

4、證不失真，采樣頻率應(yīng)在40kHz左右常用的采樣頻率有：8kHz, 11.025kHz, 22.05kHz, 16kHz, 37.8kHz, 44.1kHz, 48kHzfs = 2fmax聲音的數(shù)字化v采樣精度：度量聲音波形幅度的精確程度，用每個(gè)聲音樣本的位數(shù)(即bps)表示，例如每個(gè)聲音樣本用16位表示，測(cè)得的聲音樣本值是在 065535范圍里的數(shù)，它的精度是1/65536 例如每個(gè)聲音樣本用16位表示，測(cè)得的聲音樣本值是在 065535范圍里的數(shù)，它的精度是1/65536 精度是在模擬信號(hào)數(shù)字化過(guò)程中度量模擬信號(hào)的最小單位，因此也稱量化階(quantization step siz

5、e) 01 V的電壓用256個(gè)數(shù)表示，量化階等于1/256 V聲音的數(shù)字化v樣本位數(shù)的大小影響到聲音的質(zhì)量，位數(shù)越多，聲音質(zhì)量越高，所需存儲(chǔ)空間也越多；位數(shù)越少，聲音質(zhì)量就越低，所需存儲(chǔ)空間也越少電壓范圍電壓范圍量化量化編碼編碼 0.5 0.7 3 011 0.3 0.5 2 010 0.1 0.3 1 001 -0.1 0.1 0 000 -0.3 -0.1 -1 111 -0.5 -0.3 -2 110 -0.7 -0.5 -3 101 -0.9 -0.7 -4 1008位：256個(gè)量化級(jí)（0255）16位：65 536個(gè)量化級(jí)16位量化級(jí)足以表示從人耳剛剛聽得見的極細(xì)微的聲音到

6、感覺難以忍受的巨大噪聲這樣大的聲音范圍聲音的數(shù)字化v采樣精度的另一種表示方法是信號(hào)噪聲比，簡(jiǎn)稱為信噪比v其中，Vsignal表示信號(hào)電壓，Vnoise表示量化噪聲電壓(模擬信號(hào)的采樣值和與它最接近的數(shù) 字?jǐn)?shù)值之間的差值)，SNR的單位為分貝(db) 聲音編碼v聲音信號(hào)經(jīng)過(guò)數(shù)字化以后將產(chǎn)生大量的數(shù)據(jù)。為了降低存儲(chǔ)和傳輸成本，有必要對(duì)數(shù)字音頻數(shù)據(jù)進(jìn)行壓縮編碼如：CD音頻數(shù)據(jù)（未經(jīng)壓縮）：數(shù)據(jù)率：44.11000162 = 1.41M bit/s1小時(shí)CD音頻的數(shù)據(jù)量約為635Mv音頻編碼的可能性聲音信號(hào)中包含大量的冗余信息聲音編碼v從信息保持角度講，只有當(dāng)信源本身具有冗余度（redundan

7、cy），才能對(duì)其進(jìn)行壓縮v時(shí)、頻域信息的冗余如幅度的非均勻分布、樣本間的相關(guān)等等v人的聽覺感知機(jī)理語(yǔ)音最終是給人聽的，要避免做“即使記錄了，人耳也聽不見”的無(wú)用功聲音編碼v編碼算法的評(píng)價(jià) 聲音的清晰度和自然度難以度量，評(píng)價(jià)十分困難具有重要意義v評(píng)價(jià)的主要依據(jù) 音頻質(zhì)量數(shù)據(jù)率計(jì)算復(fù)雜度v音頻編碼目標(biāo) 低碼率、短延時(shí)、高質(zhì)量聲音編碼v音頻質(zhì)量評(píng)價(jià)方法分為兩類：客觀測(cè)量法：信噪比（SNR）主觀測(cè)量法：主觀平均判分法（mean opinion score, MOS），一般采用5分制分?jǐn)?shù)質(zhì)量級(jí)別失真級(jí)別5優(yōu)無(wú)察覺4良（剛）察覺但不討厭3中（察覺）有點(diǎn)討厭2差討厭但不反感1劣極討厭（令人反感

8、）語(yǔ)音的形成原理v肺中的空氣受到擠壓形成氣流，氣流通過(guò)聲門（聲帶）沿著聲道（由咽、喉、口腔等組成）釋放出去，就形成了話音。v 氣流、聲門可以等效為一個(gè)激勵(lì)源，聲道可以等效為一個(gè)時(shí)變?yōu)V波器（共振峰）。v 話音信號(hào)具有很強(qiáng)的相關(guān)性（長(zhǎng)期相關(guān)、短期相關(guān)）。語(yǔ)音的分類v濁音（voiced sounds）：聲道打開，聲帶在先打開后關(guān)閉，氣流經(jīng)過(guò)使聲帶要發(fā)生張馳振動(dòng)，變?yōu)闇?zhǔn)周期振動(dòng)氣流。濁音的激勵(lì)源被等效為準(zhǔn)周期的脈沖信號(hào)。v清音（unvoiced sounds）：聲帶不振動(dòng)，而在某處保持收縮，氣流在聲道里收縮后高速通過(guò)產(chǎn)生湍流，再經(jīng)過(guò)主聲道（咽、口腔）的調(diào)整最終形成清音。清音的激勵(lì)源被等效為一種白噪聲信

9、號(hào)。v爆破音（plosive sounds）：聲道關(guān)閉之后產(chǎn)生壓縮空氣然后突然打開聲道所發(fā)出的聲音。語(yǔ)音技術(shù)的研究熱點(diǎn)v話音壓縮編碼（Speech Coding）v話音識(shí)別（Speech Recognition）v文本話音轉(zhuǎn)換（Text To Speech）語(yǔ)音編譯碼器A/D話音編碼信道編碼信道信道譯碼話音譯碼D/A衡量語(yǔ)音編碼器的參數(shù)v數(shù)據(jù)輸出速率v延遲時(shí)間v話音質(zhì)量v價(jià)格（實(shí)現(xiàn)代價(jià)）語(yǔ)音質(zhì)量等級(jí)劃分v廣播質(zhì)量：帶寬為7000Hz的高質(zhì)量話音v長(zhǎng)途電話質(zhì)量：帶寬為3400Hz，信噪比為30db，有失真v通信質(zhì)量：完全可以聽懂，但和長(zhǎng)途電話質(zhì)量相比有明顯的失真。v合成質(zhì)量：8090的可懂度，聽

10、起來(lái)象機(jī)器講話，失去了講話者的特征語(yǔ)音編碼器的分類v語(yǔ)音編碼的分類基于數(shù)據(jù)的統(tǒng)計(jì)特性進(jìn)行編碼波形編碼：目標(biāo)是使重建語(yǔ)音波形保持原波形的形狀，如PCM、DPCM、APCM、ADPCM等算法。特點(diǎn)：音質(zhì)好、但數(shù)據(jù)率較大基于聲學(xué)參數(shù)進(jìn)行參數(shù)編碼音源編碼：目標(biāo)是使重建音頻保持原音頻特性，如LPC 特點(diǎn)：數(shù)據(jù)率低、質(zhì)量差、保密性好（軍事）混合編碼將波形編碼和音源編碼很好的結(jié)合起來(lái)，如CELPC 特點(diǎn)：在較低的碼率上得到較高的音質(zhì)語(yǔ)音編碼器的對(duì)比v三種編譯碼器的話音質(zhì)量和數(shù)據(jù)率的關(guān)系語(yǔ)音信號(hào)的冗余度v幅度非均勻分布v樣本之間的相關(guān)性v周期之間的相關(guān)性v基音之間的相關(guān)性v靜止系數(shù)（話音間隙）v

11、長(zhǎng)期相關(guān)性（long term correlation）PCM PCM是pulse code modulation的縮寫概念上最簡(jiǎn)單、理論上最完善、最早研制成功、使用最為廣泛、數(shù)據(jù)量最大的編碼系統(tǒng)PCMv圖中輸入是模擬信號(hào)，輸出是PCM樣本。防失真濾波器：低通濾波器，用來(lái)濾除聲音頻帶以外的信號(hào) 波形編碼器：可理解為采樣器量化器：可理解為“量化階大小(step-size)”生成器或者稱為“量化間隔”生成器v PCM實(shí)際上是模擬信號(hào)數(shù)字化模擬聲音數(shù)字化的兩個(gè)步驟：第一步是采樣，就是每隔一段時(shí)間間隔讀一次聲音的幅度第二步是量化，就是把采樣得到的聲音信號(hào)幅度轉(zhuǎn) 換成數(shù)字值PCM時(shí)分

12、多路復(fù)用 PCM編碼早期主要用于話音通信中的多路復(fù)用時(shí)分多路復(fù)用是在同一條通信線路上使用不同時(shí)段 “同時(shí)”傳送多個(gè)獨(dú)立信號(hào)的通信方法時(shí)分多路復(fù)用的核心思想是將時(shí)間分成等間隔的時(shí) 段，為每對(duì)用戶指定一個(gè)時(shí)間間隔，每個(gè)間隔傳輸信號(hào)的一部分例如，話音信號(hào)的采樣頻率f8000 Hz/s，它的采樣周期125 s，這個(gè)時(shí)間稱為1幀(frame)。在這個(gè)時(shí) 間里可容納的話路數(shù)有兩種規(guī)格24路制 30路制PCM時(shí)分多路復(fù)用v 24路制的重要參數(shù)如下：每秒鐘傳送8000幀，每幀 125s 12幀組成1復(fù)幀(用于同步)。每幀由24個(gè)時(shí)間片(信道)和1 位同步位組成每個(gè)信道每次傳送8位代碼， 1幀有

13、24 8 1193位(位) 數(shù)據(jù)傳輸率R8000193 1544 kb/s 每一個(gè)話路的數(shù)據(jù)傳輸率 80008=64 kb/sPCM時(shí)分多路復(fù)用v30路制的重要參數(shù)如下：每秒鐘傳送8000幀，每幀125s 16幀組成1復(fù)幀(用于同步) 每幀由32個(gè)時(shí)間片(信道)組成每個(gè)信道每次傳送8位代碼數(shù)據(jù)傳輸率：R80003282048 kb/s 每一個(gè)話路的數(shù)據(jù)傳輸率80008=64 kb/s v線路利用率使用時(shí)分多路復(fù)用技術(shù)時(shí)，由于當(dāng)信道無(wú)數(shù)據(jù)傳輸時(shí)仍給那個(gè)信道分配時(shí)間槽，因此線路利用率較低為解決這個(gè)問題，開發(fā)了統(tǒng)計(jì)時(shí)分多路復(fù)用技術(shù) (statistical time division m

14、ultiplexing, STDM)。STDM 是按照每個(gè)傳輸信道的傳輸需要來(lái)分配時(shí)間間隔的時(shí)分多路復(fù)用技術(shù)，可提高傳輸線路的效率PCM時(shí)分多路復(fù)用v數(shù)字通信線路的數(shù)據(jù)傳輸率為反映PCM信號(hào)復(fù)用的復(fù)雜程度，通常用“群(group)”這個(gè)術(shù) 語(yǔ)來(lái)表示，也稱為數(shù)字網(wǎng)絡(luò)的等級(jí) 傳輸容量由一次群(基群)的30路(或24路)，增加到二次群的120 路(或96路)，三次群的480路(或384路)，下圖表示二次復(fù)用的示意圖。圖中的N表示話路數(shù)，無(wú)論N 30還是N24，每個(gè)信道的數(shù)據(jù)率都是64 kb/s，經(jīng)過(guò)一次復(fù)用后的數(shù)據(jù)率就變成2048 kb/s(N30)或1544 kb/s(N24) 在數(shù)字通信

15、中在北美，具有1544 kb/s數(shù)據(jù)率的線路叫做“T1遠(yuǎn)距離數(shù)字通信線路”，提供這種數(shù)據(jù)率的服務(wù)級(jí)別稱為T1等級(jí) 在歐洲，具有2048 kb/s數(shù)據(jù)率的線路叫做“E1遠(yuǎn)距離數(shù)字通信線路”，提供這種數(shù)據(jù)率的服務(wù)級(jí)別稱為E1等級(jí) T1/E1，T2/E2，T3/E3，T4/E4和T5/E5的數(shù)據(jù)傳輸率PCM時(shí)分多路復(fù)用PCM時(shí)分多路復(fù)用vT1/E1，T2/E2，T3/E3，T4/E4和T5/E5的數(shù)據(jù)傳輸率增量調(diào)制調(diào)制(delta modulation，DM)，是一種預(yù)測(cè)編碼技術(shù) 對(duì)實(shí)際的采樣信號(hào)與預(yù)測(cè)的采樣信號(hào)之差的極性進(jìn)行編碼。如果實(shí)際的采樣信號(hào)與預(yù)測(cè)的采樣信號(hào)之差的極性為“正”，則用

16、“1”表示；相反則用“0”表示，或者相反由于DM編碼只須用1位對(duì)話音信號(hào)進(jìn)行編碼，所以DM編碼系統(tǒng)又稱為“1位系統(tǒng)” 比較：PCM是對(duì)每個(gè)采樣信號(hào)的整個(gè)幅度進(jìn)行量化編碼增量調(diào)制自適應(yīng)增量調(diào)制根據(jù)輸入信號(hào)斜率的變化自動(dòng)調(diào)整量化階的大小，以使斜率過(guò)載和粒狀噪聲都減到最小。在檢測(cè)到斜率過(guò)載時(shí)開始增大量化階，而在輸入信號(hào)的斜率減小時(shí)降低量化階例如，宋(Song)在1971描述的ADM技術(shù)中提出：每當(dāng)輸出不變時(shí)量化階增大50%；每當(dāng)輸出值改變時(shí)，量化階減小 50% 又如，由格林弗基斯(Greefkes)在1970年提出的連續(xù)可變斜率增量調(diào)制(CVSD)的基本方法是：如果連續(xù)可變斜率增量

17、調(diào)制器的輸出連續(xù)出現(xiàn)三個(gè)相同值時(shí)，量化階加一個(gè)大的增量，反之，就加一個(gè)小的增量。自適應(yīng)增量調(diào)制 Motorola公司于20世界80年代初期開發(fā)了實(shí)現(xiàn)CVSD 算法的集成電路芯片，如MC3417/MC3517用于一般的數(shù)字通信，MC3418/MC3518用于數(shù)字電話。 MC3417/MC3418用于民用，MC3517/MC3518用于軍用APCM 中文術(shù)語(yǔ)為自適應(yīng)脈沖編碼調(diào)制，adaptive pulse code modulation的縮寫根據(jù)輸入信號(hào)幅度大小來(lái)改變量化階大小的一種波形編碼技術(shù) 自適應(yīng) 瞬時(shí)自適應(yīng)，即量化階的大小每隔幾個(gè)樣本就改變音節(jié)自適應(yīng)，即量化階的大小在較長(zhǎng)時(shí)

18、間里發(fā)生變化APCM 前向自適應(yīng)(forward adaptation)：根據(jù)未量化的樣本值的均方根值來(lái)估算輸入信號(hào)的電平，以此來(lái)確定量化階的大小，并對(duì)其電平進(jìn)行編碼作為邊信息(side information)傳送到接收端APCM 后向自適應(yīng)(backward adaptation)：從量化器剛輸出的過(guò)去樣本中提取量化階信息。由于后向自適應(yīng)能在發(fā)收兩端自動(dòng)生成量化階，所以它不需要傳送邊信息DPCM 中文術(shù)語(yǔ)為差分脈沖編碼調(diào)制， differential pulse code modulation的縮寫利用樣本與樣本之間存在的信息冗余來(lái)進(jìn)行編碼的一種數(shù) 據(jù)壓縮技術(shù) 基本思想：根據(jù)過(guò)

19、去的樣本去估算下一個(gè)樣本信號(hào)的幅度大小，這個(gè)值稱為預(yù)測(cè)值，然后對(duì)實(shí)際信號(hào)值與預(yù)測(cè)值之差進(jìn)行量化編碼，從而就減少了表示每個(gè)樣本信號(hào)的位數(shù)DPCM 它與脈沖編碼調(diào)制(PCM)不同的是，PCM是直接對(duì)采樣信號(hào)進(jìn)行量化編碼，而DPCM是對(duì)實(shí)際信號(hào)值與預(yù)測(cè)值之差進(jìn)行量化編碼，存儲(chǔ)或者傳送的是差值而不是幅度絕對(duì) 值，這就降低了傳送或存儲(chǔ)的數(shù)據(jù)量可適應(yīng)大范圍變化的輸入信號(hào)DPCM編碼器量化器預(yù)測(cè)器xkekekxkxk-自適應(yīng)預(yù)測(cè)逆量化器量化階ek產(chǎn)生誤差DPCM譯碼器逆量化器預(yù)測(cè)器ekekxkxk預(yù)測(cè)方程式 v線性預(yù)測(cè)：v 如果ai是常數(shù)，則為時(shí)不變線性預(yù)測(cè)，否則為自適應(yīng)線性預(yù)測(cè)v 最簡(jiǎn)單的預(yù)測(cè)方

20、程：),.,(1321kxxxxfxkk 11)(kiiikxkax1 kkxx最簡(jiǎn)單的DPCMx0121123344x0012112334適應(yīng)差分脈沖編碼調(diào)制 ADPCM的中文術(shù)語(yǔ)為自適應(yīng)差分脈沖編碼調(diào)制 adaptive difference pulse code modulation的縮寫綜合了APCM的自適應(yīng)特性和DPCM系統(tǒng)的差分特性，是一種性能比較好的波形編碼技術(shù) 它的核心想法是：利用自適應(yīng)的思想改變量化階的大小，即使用小的量化階 (step-size)去編碼小的差值，使用大的量化階去編碼大的差值使用過(guò)去的樣本值估算下一個(gè)輸入樣本的預(yù)測(cè)值，使實(shí)際

21、樣本值和預(yù)測(cè)值之間的差值總是最小自適應(yīng)差分脈沖編碼調(diào)制接收端的譯碼器使用與發(fā)送端相同的算法，利用傳送來(lái)的信號(hào)來(lái)確定量化器和逆量化器中的量化階大小，并且用它來(lái)預(yù)測(cè)下一個(gè)接收信號(hào)的預(yù)測(cè)值子帶編碼(sub-band coding，SBC) 用一組帶通濾波器(band-pass filter，BPF)把輸入聲音信號(hào)的頻帶分成若干個(gè)連續(xù)的頻段，每個(gè)頻段稱為子帶。對(duì)每個(gè)子帶中的聲音信號(hào)采用單獨(dú)的編碼方案去編碼在信道上傳送時(shí)，將每個(gè)子帶的代碼復(fù)合在一起；在接收端譯碼時(shí)，將每個(gè)子帶的代碼單獨(dú)譯碼，然后把它們組合起來(lái)，還原成原來(lái)的聲音信號(hào)子帶編碼(sub-band coding，SBC) 好處

22、有兩個(gè) 可對(duì)每個(gè)子帶信號(hào)分別進(jìn)行自適應(yīng)控制，量化階的大小可按照每個(gè)子帶的能量電平加以調(diào)節(jié)。具有較高能量電平的子帶用大的量化階去量化，以減少總的量化噪聲可根據(jù)每個(gè)子帶信號(hào)在感覺上的重要性，對(duì)每個(gè)子帶分配不同的位數(shù)，用來(lái)表示每個(gè)樣本值。例如，在低頻子帶中，為了保護(hù)音調(diào)就要求用較小的量化階、較多的量化級(jí)數(shù)，即分配較多的位數(shù)來(lái)表示樣本值。而話音中的摩擦音和類似噪聲的聲音，通常出現(xiàn)在高頻子帶中，對(duì)它分配較少的位數(shù)。子帶編碼(sub-band coding，SBC)圖中的編碼/譯碼器可以采用ADPCM，APCM或PCM 聲音頻帶的分割v樹型結(jié)構(gòu)劃分首先把整個(gè)聲音信號(hào)帶寬分成兩個(gè)相等帶寬的子帶

23、：高頻子帶和低頻子帶然后對(duì)這兩個(gè)子帶用同樣的方法劃分，形成4個(gè)子帶這個(gè)過(guò)程可按需要重復(fù)下去，以產(chǎn)生2k個(gè)子帶，K為分割的次數(shù) 用這種辦法可以產(chǎn)生等帶寬的子帶，也可以生成不等帶寬的子帶例如，對(duì)帶寬為4000 Hz的聲音信號(hào)，當(dāng)K=3時(shí)，可分為8 個(gè)相等帶寬的子帶，每個(gè)子帶的帶寬為500 Hz；也可生成 5個(gè)不等帶寬的子帶，分別為0,500),500,1000)， 1000,2000),2000,3000)和3000，4000v采用正交鏡像濾波器(quadrature mirror filter，QMF) 來(lái)劃分頻帶語(yǔ)音編碼標(biāo)準(zhǔn)v國(guó)際上，對(duì)語(yǔ)音信號(hào)壓縮編碼的審議在CCITT下設(shè)的第15研究

24、組進(jìn)行，相應(yīng)的建議為G系列。G.711、G.721、G.722、G.723等 G.711是CCITT為話音信號(hào)（3003.4kHz）制定的編碼標(biāo)準(zhǔn)。8kHz、8位/樣本、64kb/s A律和u律PCM G.721在G.711基礎(chǔ)上實(shí)現(xiàn)2 : 1的壓縮。8kHz、4位/樣本、32kb/s ADPCM G.722是CCITT推薦的音頻信號(hào)編碼標(biāo)準(zhǔn)。信號(hào)帶寬為7kHz，采樣頻率16kHz，保持?jǐn)?shù)據(jù)率仍為64kb/s SB-ADPCM語(yǔ)音編碼標(biāo)準(zhǔn)vG.711和G.721：適用于3003.4KHz窄帶話音信號(hào)，應(yīng)用于公共電話網(wǎng)vG.722：針對(duì)507KHz的寬帶語(yǔ)音，應(yīng)用于綜合業(yè)務(wù)數(shù)據(jù)網(wǎng)（ISDN）語(yǔ)音

25、編碼標(biāo)準(zhǔn)vG.711 標(biāo)準(zhǔn)對(duì)于采樣頻率8kHz，樣本精度為13、14位的輸入信號(hào)，經(jīng)過(guò)A律或u律的PCM編碼后的樣本精度為8位，輸出數(shù)據(jù)率位64kb/sA 律：u 律：語(yǔ)音編碼標(biāo)準(zhǔn)v正輸入碼與A律輸出碼的關(guān)系語(yǔ)音編碼標(biāo)準(zhǔn)vG.721 標(biāo)準(zhǔn)用于64kb/s的A律和u律PCM與32kb/s的ADPCM之間的轉(zhuǎn)換v G.721 的輸入信號(hào)是G.711 PCM代碼，它的數(shù)據(jù)率為64 kb/s。而G.721 ADPCM的輸出是用4位表示的差分信號(hào)，它的采樣率仍然是8 kHz，它的數(shù)據(jù)率為32 kb/s，這樣就獲得了2 1的數(shù)據(jù)壓縮。vG.721 標(biāo)準(zhǔn)所采用的編碼方法 -自適應(yīng)差分脈沖編碼調(diào)制（ADPCM

26、）語(yǔ)音編碼標(biāo)準(zhǔn)v G.721 標(biāo)準(zhǔn)編譯碼器框圖語(yǔ)音編碼標(biāo)準(zhǔn)vG.722標(biāo)準(zhǔn)該標(biāo)準(zhǔn)是描述音頻信號(hào)帶寬為7 kHz、數(shù)據(jù)率為64 kb/s的編譯碼原理、算法和計(jì)算細(xì)節(jié)。編譯碼系統(tǒng)采用子帶-自適應(yīng)差分脈沖編碼調(diào)制（SB-ADPCM） G.722的主要目標(biāo)是保持64 kb/s的數(shù)據(jù)率，而音頻信號(hào)的質(zhì)量要明顯高于G.711的質(zhì)量。 G.722標(biāo)準(zhǔn)把音頻信號(hào)采樣頻率由8 kHz提高到16 kHz，是G.711 PCM采樣率的2倍音頻信號(hào)的質(zhì)量有很大改善，由數(shù)字電話的話音質(zhì)量提高到調(diào)幅(AM)無(wú)線電廣播的質(zhì)量。語(yǔ)音編碼標(biāo)準(zhǔn)vG.722編譯碼系統(tǒng)采用SB-ADPCM技術(shù) 用正交鏡象濾波器(QMF)把頻帶分割

27、成兩個(gè)等帶寬的子帶：高頻子帶和低頻子帶在每個(gè)子帶中的信號(hào)都用ADPCM進(jìn)行編碼。對(duì)高子帶分配2位表示每個(gè)樣本值，而低子帶分配6位語(yǔ)音編碼標(biāo)準(zhǔn)線性預(yù)測(cè)編碼（LPC）語(yǔ)音壓縮技術(shù)。將語(yǔ)音生成機(jī)理模型化為一個(gè)離散的、時(shí)變的、線性的遞歸濾波器 -編碼時(shí)使用線性預(yù)測(cè)分析語(yǔ)音波形產(chǎn)生聲道激勵(lì)和轉(zhuǎn)移函數(shù)的參數(shù)，對(duì)聲音波形的編碼實(shí)際就轉(zhuǎn)化為對(duì)這些參數(shù)的編碼，這就可減少聲音的數(shù)據(jù)量 -譯碼時(shí)使用線性預(yù)測(cè)分析得到的參數(shù)，通過(guò)語(yǔ)音合成器重構(gòu)語(yǔ)音。合成器實(shí)際上是一個(gè)離散的隨時(shí)間變化的時(shí)變線性濾波器，它代表人的語(yǔ)音生成系統(tǒng) 模型時(shí)變線性濾波器分析語(yǔ)音波形時(shí)，當(dāng)作預(yù)測(cè)器使用合成語(yǔ)音波形時(shí)，當(dāng)作生成模型使用線性預(yù)測(cè)編碼（LPC）v線性預(yù)測(cè)器使用過(guò)去的P個(gè)樣本值來(lái)預(yù)測(cè)現(xiàn)時(shí)刻的采樣值x(n)線性預(yù)測(cè)編碼（LPC）

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

四川大學(xué)計(jì)算機(jī)學(xué)院多媒體基礎(chǔ)語(yǔ)音編碼

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

四川大學(xué)計(jì)算機(jī)學(xué)院多媒體基礎(chǔ)語(yǔ)音編碼

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔