四川大學(xué)計(jì)算機(jī)學(xué)院多媒體基礎(chǔ)語(yǔ)音編碼_第1頁(yè)
四川大學(xué)計(jì)算機(jī)學(xué)院多媒體基礎(chǔ)語(yǔ)音編碼_第2頁(yè)
四川大學(xué)計(jì)算機(jī)學(xué)院多媒體基礎(chǔ)語(yǔ)音編碼_第3頁(yè)
四川大學(xué)計(jì)算機(jī)學(xué)院多媒體基礎(chǔ)語(yǔ)音編碼_第4頁(yè)
四川大學(xué)計(jì)算機(jī)學(xué)院多媒體基礎(chǔ)語(yǔ)音編碼_第5頁(yè)
已閱讀5頁(yè),還剩66頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、陳虎聲音概述v聲音是攜帶信息的重要媒體 音樂和解說(shuō)使靜態(tài)圖像更加豐富多彩、音樂和視頻的同步使視頻圖像更具真實(shí)性v傳統(tǒng)計(jì)算機(jī)與人交互是通過(guò)鍵盤和顯示器,人們通過(guò)鍵盤或鼠標(biāo)輸入,通過(guò)視覺接收信息。多媒體計(jì)算機(jī)為計(jì)算機(jī)增加音頻通道,采用人們最熟悉、最習(xí)慣的方式與計(jì)算機(jī)交換信息 為計(jì)算機(jī)裝上“耳朵”(麥克風(fēng)),讓計(jì)算機(jī)聽懂、理解人們的講話語(yǔ)音識(shí)別 為計(jì)算機(jī)安上嘴巴和樂器(揚(yáng)聲器),讓計(jì)算機(jī)能夠講話和奏樂語(yǔ)音和音樂合成聲音概述 聲音是聽覺器官對(duì)聲波的感知,而聲波是通過(guò)空氣或其他媒體傳播的連續(xù)振動(dòng) 聲音的強(qiáng)弱體現(xiàn)在聲波壓力的大小上,音調(diào)的高低體現(xiàn)在聲音的頻率上 聲音用電表示時(shí),聲音信號(hào)在時(shí)間和幅度上都是連

2、 續(xù)的模擬信號(hào),如圖3-1所示 聲波具有普通波所具有的特性,例如反射 、折射和衍射等聲音概述v人的聽覺器官能感知的聲音頻率大約是2020kHz,在這種頻率范圍里感知的聲音幅度大約在0120dB 語(yǔ)音信號(hào)(speech):人說(shuō)話的信號(hào)頻率通常為3003400Hz 亞音信號(hào)(subsonic):小于20Hz的信號(hào) 超聲波信號(hào)(ultrasonic):高于20KHz的信號(hào)聲音概述v在組合聲音信號(hào)的一系列分量信號(hào)音波中,最低頻的音波稱為基音,其余音波稱為泛音v聲音的三要素:音調(diào)、音色、音強(qiáng) 音調(diào)(音高):取決于基頻的高低。直觀感受:“唱不上去了”,“跑調(diào)了” 音色:是由混入基音的泛音所決定的,如果中高

3、泛音豐富音色就明亮,反之音色就暗淡。不同的樂器、不同人的語(yǔ)音音色不同 音強(qiáng)(響度) :取決于聲音的幅度(分貝)聲音的數(shù)字化v模擬音頻:時(shí)間和幅度上都是連續(xù)的 模擬磁性錄音技術(shù),受電磁性能影響較大v數(shù)字音頻:時(shí)間和幅度上都是離散的 計(jì)算機(jī)、數(shù)字CD、數(shù)字磁帶(DAT)A/D轉(zhuǎn)換模擬音頻數(shù)字音頻聲音的數(shù)字化v采樣(sampling):時(shí)間上的離散化v量化(quantization):幅度上的離散化聲音的數(shù)字化v采樣定理(Nyquist theory) 奈奎斯特理論指出:采樣頻率不應(yīng)低于聲音信號(hào)最高頻率的兩倍,這樣就能把以數(shù)字表達(dá)的聲音還原成原來(lái)的聲音 人類聽覺的頻率范圍大約為:2020kHz,為保

4、證不失真,采樣頻率應(yīng)在40kHz左右 常用的采樣頻率有:8kHz, 11.025kHz, 22.05kHz, 16kHz, 37.8kHz, 44.1kHz, 48kHzfs = 2fmax聲音的數(shù)字化v采樣精度: 度量聲音波形幅度的精確程度,用每個(gè)聲音樣本的 位數(shù)(即bps)表示,例如每個(gè)聲音樣本用16位表示,測(cè)得的聲音樣本值是在 065535范圍里的數(shù),它的精度是1/65536 例如每個(gè)聲音樣本用16位表示,測(cè)得的聲音樣本值是在 065535范圍里的數(shù),它的精度是1/65536 精度是在模擬信號(hào)數(shù)字化過(guò)程中度量模擬信號(hào)的最小單 位,因此也稱量化階(quantization step siz

5、e) 01 V的電壓用256個(gè)數(shù)表示,量化階等于1/256 V聲音的數(shù)字化v樣本位數(shù)的大小影響到聲音的質(zhì)量,位數(shù)越多,聲 音質(zhì)量越高,所需存儲(chǔ)空間也越多;位數(shù)越少,聲 音質(zhì)量就越低,所需存儲(chǔ)空間也越少 電壓范圍電壓范圍 量化量化 編碼編碼 0.5 0.7 3 011 0.3 0.5 2 010 0.1 0.3 1 001 -0.1 0.1 0 000 -0.3 -0.1 -1 111 -0.5 -0.3 -2 110 -0.7 -0.5 -3 101 -0.9 -0.7 -4 1008位:256個(gè)量化級(jí)(0255)16位:65 536個(gè)量化級(jí)16位量化級(jí)足以表示從人耳剛剛聽得見的極細(xì)微的聲音到

6、感覺難以忍受的巨大噪聲這樣大的聲音范圍聲音的數(shù)字化v采樣精度的另一種表示方法是信號(hào)噪聲比, 簡(jiǎn)稱為信噪比v其中,Vsignal表示信號(hào)電壓,Vnoise表示量化噪聲電壓(模擬信號(hào)的采樣值和與它最接近的數(shù) 字?jǐn)?shù)值之間的差值),SNR的單位為分貝(db) 聲音編碼v聲音信號(hào)經(jīng)過(guò)數(shù)字化以后將產(chǎn)生大量的數(shù)據(jù)。為了降低存儲(chǔ)和傳輸成本,有必要對(duì)數(shù)字音頻數(shù)據(jù)進(jìn)行壓縮編碼 如:CD音頻數(shù)據(jù)(未經(jīng)壓縮):數(shù)據(jù)率:44.11000162 = 1.41M bit/s1小時(shí)CD音頻的數(shù)據(jù)量約為635Mv音頻編碼的可能性 聲音信號(hào)中包含大量的冗余信息聲音編碼v從信息保持角度講,只有當(dāng)信源本身具有冗余度(redundan

7、cy),才能對(duì)其進(jìn)行壓縮v時(shí)、頻域信息的冗余 如幅度的非均勻分布、樣本間的相關(guān)等等v人的聽覺感知機(jī)理 語(yǔ)音最終是給人聽的,要避免做“即使記錄了,人耳也聽不見”的無(wú)用功聲音編碼v編碼算法的評(píng)價(jià) 聲音的清晰度和自然度難以度量,評(píng)價(jià)十分困難 具有重要意義v評(píng)價(jià)的主要依據(jù) 音頻質(zhì)量 數(shù)據(jù)率 計(jì)算復(fù)雜度v音頻編碼目標(biāo) 低碼率、短延時(shí)、高質(zhì)量聲音編碼v音頻質(zhì)量評(píng)價(jià)方法分為兩類: 客觀測(cè)量法:信噪比(SNR) 主觀測(cè)量法:主觀平均判分法(mean opinion score, MOS),一般采用5分制分?jǐn)?shù)質(zhì)量級(jí)別失真級(jí)別5優(yōu)無(wú)察覺4良(剛)察覺但不討厭3中(察覺)有點(diǎn)討厭2差討厭但不反感1劣極討厭(令人反感

8、)語(yǔ)音的形成原理v肺中的空氣受到擠壓形成氣流,氣流通過(guò)聲門(聲帶)沿著聲道(由咽、喉、口腔等組成)釋放出去,就形成了話音。v 氣流、聲門可以等效為一個(gè)激勵(lì)源,聲道可以等效為一個(gè)時(shí)變?yōu)V波器(共振峰)。v 話音信號(hào)具有很強(qiáng)的相關(guān)性(長(zhǎng)期相關(guān)、短期相關(guān))。語(yǔ)音的分類v濁音(voiced sounds):聲道打開,聲帶在先打開后關(guān)閉,氣流經(jīng)過(guò)使聲帶要發(fā)生張馳振動(dòng),變?yōu)闇?zhǔn)周期振動(dòng)氣流。濁音的激勵(lì)源被等效為準(zhǔn)周期的脈沖信號(hào)。v清音(unvoiced sounds):聲帶不振動(dòng),而在某處保持收縮,氣流在聲道里收縮后高速通過(guò)產(chǎn)生湍流,再經(jīng)過(guò)主聲道(咽、口腔)的調(diào)整最終形成清音。清音的激勵(lì)源被等效為一種白噪聲信

9、號(hào)。v爆破音(plosive sounds):聲道關(guān)閉之后產(chǎn)生壓縮空氣然后突然打開聲道所發(fā)出的聲音。語(yǔ)音技術(shù)的研究熱點(diǎn)v話音壓縮編碼(Speech Coding)v話音識(shí)別(Speech Recognition)v文本話音轉(zhuǎn)換(Text To Speech)語(yǔ)音編譯碼器A/D話音編碼信道編碼信道信道譯碼話音譯碼D/A衡量語(yǔ)音編碼器的參數(shù)v數(shù)據(jù)輸出速率v延遲時(shí)間v話音質(zhì)量v價(jià)格(實(shí)現(xiàn)代價(jià))語(yǔ)音質(zhì)量等級(jí)劃分v廣播質(zhì)量:帶寬為7000Hz的高質(zhì)量話音v長(zhǎng)途電話質(zhì)量:帶寬為3400Hz,信噪比為30db,有失真v通信質(zhì)量:完全可以聽懂,但和長(zhǎng)途電話質(zhì)量相比有明顯的失真。v合成質(zhì)量:8090的可懂度,聽

10、起來(lái)象機(jī)器講話,失去了講話者的特征語(yǔ)音編碼器的分類v語(yǔ)音編碼的分類 基于數(shù)據(jù)的統(tǒng)計(jì)特性進(jìn)行編碼 波形編碼:目標(biāo)是使重建語(yǔ)音波形保持原波形的形狀,如PCM、DPCM、APCM、ADPCM等算法。 特點(diǎn):音質(zhì)好、但數(shù)據(jù)率較大 基于聲學(xué)參數(shù)進(jìn)行參數(shù)編碼 音源編碼:目標(biāo)是使重建音頻保持原音頻特性,如LPC 特點(diǎn):數(shù)據(jù)率低、質(zhì)量差、保密性好(軍事) 混合編碼 將波形編碼和音源編碼很好的結(jié)合起來(lái),如CELPC 特點(diǎn):在較低的碼率上得到較高的音質(zhì)語(yǔ)音編碼器的對(duì)比v三種編譯碼器的話音質(zhì)量和數(shù)據(jù)率的關(guān)系語(yǔ)音信號(hào)的冗余度v幅度非均勻分布v樣本之間的相關(guān)性v周期之間的相關(guān)性v基音之間的相關(guān)性v靜止系數(shù)(話音間隙)v

11、長(zhǎng)期相關(guān)性(long term correlation)PCM PCM是pulse code modulation的縮寫 概念上最簡(jiǎn)單、理論上最完善、最早研制成功、使 用最為廣泛、數(shù)據(jù)量最大的編碼系統(tǒng)PCMv圖中輸入是模擬信號(hào),輸出是PCM樣本。 防失真濾波器:低通濾波器,用來(lái)濾除聲音頻帶以 外的信號(hào) 波形編碼器:可理解為采樣器 量化器:可理解為“量化階大小(step-size)”生成器或 者稱為“量化間隔”生成器v PCM實(shí)際上是模擬信號(hào)數(shù)字化 模擬聲音數(shù)字化的兩個(gè)步驟: 第一步是采樣,就是每隔一段時(shí)間間隔讀一次聲音 的幅度 第二步是量化,就是把采樣得到的聲音信號(hào)幅度轉(zhuǎn) 換成數(shù)字值PCM時(shí)分

12、多路復(fù)用 PCM編碼早期主要用于話音通信中的多路復(fù)用 時(shí)分多路復(fù)用是在同一條通信線路上使用不同時(shí)段 “同時(shí)”傳送多個(gè)獨(dú)立信號(hào)的通信方法 時(shí)分多路復(fù)用的核心思想是將時(shí)間分成等間隔的時(shí) 段,為每對(duì)用戶指定一個(gè)時(shí)間間隔,每個(gè)間隔傳輸 信號(hào)的一部分 例如,話音信號(hào)的采樣頻率f8000 Hz/s,它的采樣 周期125 s,這個(gè)時(shí)間稱為1幀(frame)。在這個(gè)時(shí) 間里可容納的話路數(shù)有兩種規(guī)格24路制 30路制PCM時(shí)分多路復(fù)用v 24路制的重要參數(shù)如下: 每秒鐘傳送8000幀,每幀 125s 12幀組成1復(fù)幀(用于同步)。 每幀由24個(gè)時(shí)間片(信道)和1 位同步位組成 每個(gè)信道每次傳送8位代碼, 1幀有

13、24 8 1193位(位) 數(shù)據(jù)傳輸率R8000193 1544 kb/s 每一個(gè)話路的數(shù)據(jù)傳輸率 80008=64 kb/sPCM時(shí)分多路復(fù)用v30路制的重要參數(shù)如下: 每秒鐘傳送8000幀,每幀125s 16幀組成1復(fù)幀(用于同步) 每幀由32個(gè)時(shí)間片(信道)組成 每個(gè)信道每次傳送8位代碼 數(shù)據(jù)傳輸率:R80003282048 kb/s 每一個(gè)話路的數(shù)據(jù)傳輸率80008=64 kb/s v線路利用率 使用時(shí)分多路復(fù)用技術(shù)時(shí),由于當(dāng)信道無(wú)數(shù)據(jù)傳輸 時(shí)仍給那個(gè)信道分配時(shí)間槽,因此線路利用率較低 為解決這個(gè)問題,開發(fā)了統(tǒng)計(jì)時(shí)分多路復(fù)用技術(shù) (statistical time division m

14、ultiplexing, STDM)。STDM 是按照每個(gè)傳輸信道的傳輸需要來(lái)分配時(shí)間間隔的 時(shí)分多路復(fù)用技術(shù),可提高傳輸線路的效率PCM時(shí)分多路復(fù)用v數(shù)字通信線路的數(shù)據(jù)傳輸率 為反映PCM信號(hào)復(fù)用的復(fù)雜程度,通常用“群(group)”這個(gè)術(shù) 語(yǔ)來(lái)表示,也稱為數(shù)字網(wǎng)絡(luò)的等級(jí) 傳輸容量由一次群(基群)的30路(或24路),增加到二次群的120 路(或96路),三次群的480路(或384路), 下圖表示二次復(fù)用的示意圖。圖中的N表示話路數(shù),無(wú)論N 30還是N24,每個(gè)信道的數(shù)據(jù)率都是64 kb/s,經(jīng)過(guò)一次復(fù)用 后的數(shù)據(jù)率就變成2048 kb/s(N30)或1544 kb/s(N24) 在數(shù)字通信

15、中在北美,具有1544 kb/s數(shù)據(jù)率的線路叫做“T1遠(yuǎn)距離數(shù)字通信線 路”,提供這種數(shù)據(jù)率的服務(wù)級(jí)別稱為T1等級(jí) 在歐洲,具有2048 kb/s數(shù)據(jù)率的線路叫做“E1遠(yuǎn)距離數(shù)字通信線 路”,提供這種數(shù)據(jù)率的服務(wù)級(jí)別稱為E1等級(jí) T1/E1,T2/E2,T3/E3,T4/E4和T5/E5的數(shù)據(jù)傳輸率PCM時(shí)分多路復(fù)用PCM時(shí)分多路復(fù)用vT1/E1,T2/E2,T3/E3,T4/E4和T5/E5的數(shù)據(jù)傳輸率增量調(diào)制 調(diào)制(delta modulation,DM),是一種預(yù)測(cè)編碼技術(shù) 對(duì)實(shí)際的采樣信號(hào)與預(yù)測(cè)的采樣信號(hào)之差的極性進(jìn)行編碼。 如果實(shí)際的采樣信號(hào)與預(yù)測(cè)的采樣信號(hào)之差的極性為“正”,則 用

16、“1”表示;相反則用“0”表示,或者相反 由于DM編碼只須用1位對(duì)話音信號(hào)進(jìn)行編碼,所以DM編碼系 統(tǒng)又稱為“1位系統(tǒng)” 比較:PCM是對(duì)每個(gè)采樣信號(hào)的整個(gè)幅度進(jìn)行量化編碼增量調(diào)制自適應(yīng)增量調(diào)制 根據(jù)輸入信號(hào)斜率的變化自動(dòng)調(diào)整量化階的大 小,以使斜率過(guò)載和粒狀噪聲都減到最小。 在檢測(cè)到斜率過(guò)載時(shí)開始增大量化階,而在輸入 信號(hào)的斜率減小時(shí)降低量化階 例如,宋(Song)在1971描述的ADM技術(shù)中提出:每當(dāng)輸出 不變時(shí)量化階增大50%;每當(dāng)輸出值改變時(shí),量化階減小 50% 又如,由格林弗基斯(Greefkes)在1970年提出的連續(xù)可變斜 率增量調(diào)制(CVSD)的基本方法是:如果連續(xù)可變斜率增量

17、 調(diào)制器的輸出連續(xù)出現(xiàn)三個(gè)相同值時(shí),量化階加一個(gè)大的 增量,反之,就加一個(gè)小的增量。自適應(yīng)增量調(diào)制 Motorola公司于20世界80年代初期開發(fā)了實(shí)現(xiàn)CVSD 算法的集成電路芯片, 如MC3417/MC3517用于一般的數(shù)字通信,MC3418/MC3518用于數(shù)字電話。 MC3417/MC3418用于民用,MC3517/MC3518用于 軍用APCM 中文術(shù)語(yǔ)為自適應(yīng)脈沖編碼調(diào)制,adaptive pulse code modulation的縮寫 根據(jù)輸入信號(hào)幅度大小來(lái)改變量化階大小的一種 波形編碼技術(shù) 自適應(yīng) 瞬時(shí)自適應(yīng),即量化階的大小每隔幾個(gè)樣本就改變 音節(jié)自適應(yīng),即量化階的大小在較長(zhǎng)時(shí)

18、間里發(fā)生變化APCM 前向自適應(yīng)(forward adaptation):根據(jù)未量化的樣本值的均 方根值來(lái)估算輸入信號(hào)的電平,以此來(lái)確定量化階的大 小,并對(duì)其電平進(jìn)行編碼作為邊信息(side information)傳送 到接收端APCM 后向自適應(yīng)(backward adaptation):從量化器剛輸出的過(guò)去 樣本中提取量化階信息。由于后向自適應(yīng)能在發(fā)收兩端自 動(dòng)生成量化階,所以它不需要傳送邊信息DPCM 中文術(shù)語(yǔ)為差分脈沖編碼調(diào)制, differential pulse code modulation的縮寫 利用樣本與樣本之間存在的信息冗余來(lái)進(jìn)行編碼的一種數(shù) 據(jù)壓縮技術(shù) 基本思想:根據(jù)過(guò)

19、去的樣本去估算下一個(gè)樣本信號(hào)的幅度 大小,這個(gè)值稱為預(yù)測(cè)值,然后對(duì)實(shí)際信號(hào)值與預(yù)測(cè)值之 差進(jìn)行量化編碼,從而就減少了表示每個(gè)樣本信號(hào)的位數(shù)DPCM 它與脈沖編碼調(diào)制(PCM)不同的是,PCM是直接對(duì)采樣信 號(hào)進(jìn)行量化編碼,而DPCM是對(duì)實(shí)際信號(hào)值與預(yù)測(cè)值之差 進(jìn)行量化編碼,存儲(chǔ)或者傳送的是差值而不是幅度絕對(duì) 值,這就降低了傳送或存儲(chǔ)的數(shù)據(jù)量 可適應(yīng)大范圍變化的輸入信號(hào)DPCM編碼器量化器預(yù)測(cè)器xkekekxkxk-自適應(yīng)預(yù)測(cè)逆量化器量化階ek產(chǎn)生誤差DPCM譯碼器逆量化器預(yù)測(cè)器ekekxkxk預(yù)測(cè)方程式 v線性預(yù)測(cè):v 如果ai是常數(shù),則為時(shí)不變線性預(yù)測(cè),否則為自適應(yīng)線性預(yù)測(cè)v 最簡(jiǎn)單的預(yù)測(cè)方

20、程:),.,(1321kxxxxfxkk 11)(kiiikxkax1 kkxx最簡(jiǎn)單的DPCMx0121123344x0012112334適應(yīng)差分脈沖編碼調(diào)制 ADPCM的中文術(shù)語(yǔ)為自適應(yīng)差分脈沖編碼調(diào)制 adaptive difference pulse code modulation的縮寫 綜合了APCM的自適應(yīng)特性和DPCM系統(tǒng)的差分特 性,是一種性能比較好的波形編碼技術(shù) 它的核心想法是: 利用自適應(yīng)的思想改變量化階的大小,即使用小的量化階 (step-size)去編碼小的差值,使用大的量化階去編碼大的差值 使用過(guò)去的樣本值估算下一個(gè)輸入樣本的預(yù)測(cè)值,使實(shí)際

21、樣本值和預(yù)測(cè)值之間的差值總是最小自適應(yīng)差分脈沖編碼調(diào)制 接收端的譯碼器使用與發(fā)送端相同的算法,利用傳 送來(lái)的信號(hào)來(lái)確定量化器和逆量化器中的量化階大 小,并且用它來(lái)預(yù)測(cè)下一個(gè)接收信號(hào)的預(yù)測(cè)值子帶編碼(sub-band coding,SBC) 用一組帶通濾波器(band-pass filter,BPF)把輸入聲 音信號(hào)的頻帶分成若干個(gè)連續(xù)的頻段,每個(gè)頻段稱 為子帶。對(duì)每個(gè)子帶中的聲音信號(hào)采用單獨(dú)的編碼 方案去編碼 在信道上傳送時(shí),將每個(gè)子帶的代碼復(fù)合在一起; 在接收端譯碼時(shí),將每個(gè)子帶的代碼單獨(dú)譯碼,然 后把它們組合起來(lái),還原成原來(lái)的聲音信號(hào)子帶編碼(sub-band coding,SBC) 好處

22、有兩個(gè) 可對(duì)每個(gè)子帶信號(hào)分別進(jìn)行自適應(yīng)控制,量化階的大小可 按照每個(gè)子帶的能量電平加以調(diào)節(jié)。具有較高能量電平的 子帶用大的量化階去量化,以減少總的量化噪聲 可根據(jù)每個(gè)子帶信號(hào)在感覺上的重要性,對(duì)每個(gè)子帶分配 不同的位數(shù),用來(lái)表示每個(gè)樣本值。 例如,在低頻子帶中,為了保護(hù)音調(diào)就要求用較小的量化階、較多的量化級(jí)數(shù),即分配較多的位數(shù)來(lái)表示樣本值。而話音中的摩擦音和類似噪聲的聲音,通常出現(xiàn)在高頻子帶中,對(duì)它分配較少的位數(shù)。子帶編碼(sub-band coding,SBC)圖中的編碼/譯碼器可 以采用ADPCM,APCM或PCM 聲音頻帶的分割v樹型結(jié)構(gòu)劃分 首先把整個(gè)聲音信號(hào)帶寬分成兩個(gè)相等帶寬的子帶

23、:高頻子帶和低頻子帶 然后對(duì)這兩個(gè)子帶用同樣的方法劃分,形成4個(gè)子帶 這個(gè)過(guò)程可按需要重復(fù)下去,以產(chǎn)生2k個(gè)子帶,K為分割 的次數(shù) 用這種辦法可以產(chǎn)生等帶寬的子帶,也可以生成不等帶寬的子帶 例如,對(duì)帶寬為4000 Hz的聲音信號(hào),當(dāng)K=3時(shí),可分為8 個(gè)相等帶寬的子帶,每個(gè)子帶的帶寬為500 Hz;也可生成 5個(gè)不等帶寬的子帶,分別為0,500),500,1000), 1000,2000),2000,3000)和3000,4000v采用正交鏡像濾波器(quadrature mirror filter,QMF) 來(lái)劃分頻帶語(yǔ)音編碼標(biāo)準(zhǔn)v國(guó)際上,對(duì)語(yǔ)音信號(hào)壓縮編碼的審議在CCITT下設(shè)的第15研究

24、組進(jìn)行,相應(yīng)的建議為G系列。G.711、G.721、G.722、G.723等 G.711是CCITT為話音信號(hào)(3003.4kHz)制定的編碼標(biāo)準(zhǔn)。8kHz、8位/樣本、64kb/s A律和u律PCM G.721在G.711基礎(chǔ)上實(shí)現(xiàn)2 : 1的壓縮。8kHz、4位/樣本、32kb/s ADPCM G.722是CCITT推薦的音頻信號(hào)編碼標(biāo)準(zhǔn)。信號(hào)帶寬為7kHz,采樣頻率16kHz,保持?jǐn)?shù)據(jù)率仍為64kb/s SB-ADPCM語(yǔ)音編碼標(biāo)準(zhǔn)vG.711和G.721:適用于3003.4KHz窄帶話音信號(hào),應(yīng)用于公共電話網(wǎng)vG.722:針對(duì)507KHz的寬帶語(yǔ)音,應(yīng)用于綜合業(yè)務(wù)數(shù)據(jù)網(wǎng)(ISDN)語(yǔ)音

25、編碼標(biāo)準(zhǔn)vG.711 標(biāo)準(zhǔn)對(duì)于采樣頻率8kHz,樣本精度為13、14位的輸入信號(hào),經(jīng)過(guò)A律或u律的PCM編碼后的樣本精度為8位,輸出數(shù)據(jù)率位64kb/sA 律:u 律:語(yǔ)音編碼標(biāo)準(zhǔn)v正輸入碼與A律輸出碼的關(guān)系語(yǔ)音編碼標(biāo)準(zhǔn)vG.721 標(biāo)準(zhǔn)用于64kb/s的A律和u律PCM與32kb/s的ADPCM之間的轉(zhuǎn)換v G.721 的輸入信號(hào)是G.711 PCM代碼,它的數(shù)據(jù)率為64 kb/s。而G.721 ADPCM的輸出是用4位表示的差分信號(hào),它的采樣率仍然是8 kHz,它的數(shù)據(jù)率為32 kb/s,這樣就獲得了2 1的數(shù)據(jù)壓縮。vG.721 標(biāo)準(zhǔn)所采用的編碼方法 -自適應(yīng)差分脈沖編碼調(diào)制(ADPCM

26、)語(yǔ)音編碼標(biāo)準(zhǔn)v G.721 標(biāo)準(zhǔn)編譯碼器框圖語(yǔ)音編碼標(biāo)準(zhǔn)vG.722標(biāo)準(zhǔn)該標(biāo)準(zhǔn)是描述音頻信號(hào)帶寬為7 kHz、數(shù)據(jù)率為64 kb/s的編譯碼原理、算法和計(jì)算細(xì)節(jié)。編譯碼系統(tǒng)采用子帶-自適應(yīng)差分脈沖編碼調(diào)制(SB-ADPCM) G.722的主要目標(biāo)是保持64 kb/s的數(shù)據(jù)率,而音頻信號(hào)的質(zhì)量要明顯高于G.711的質(zhì)量。 G.722標(biāo)準(zhǔn)把音頻信號(hào)采樣頻率由8 kHz提高到16 kHz,是G.711 PCM采樣率的2倍 音頻信號(hào)的質(zhì)量有很大改善,由數(shù)字電話的話音質(zhì)量提高到調(diào)幅(AM)無(wú)線電廣播的質(zhì)量。語(yǔ)音編碼標(biāo)準(zhǔn)vG.722編譯碼系統(tǒng)采用SB-ADPCM技術(shù) 用正交鏡象濾波器(QMF)把頻帶分割

27、成兩個(gè)等帶寬的子帶:高頻子帶和低頻子帶 在每個(gè)子帶中的信號(hào)都用ADPCM進(jìn)行編碼。對(duì)高子帶分配2位表示每個(gè)樣本值,而低子帶分配6位語(yǔ)音編碼標(biāo)準(zhǔn)線性預(yù)測(cè)編碼(LPC) 語(yǔ)音壓縮技術(shù)。將語(yǔ)音生成機(jī)理模型化為一個(gè)離散 的、時(shí)變的、線性的遞歸濾波器 -編碼時(shí)使用線性預(yù)測(cè)分析語(yǔ)音波形產(chǎn)生聲道激勵(lì)和 轉(zhuǎn)移函數(shù)的參數(shù),對(duì)聲音波形的編碼實(shí)際就轉(zhuǎn)化為 對(duì)這些參數(shù)的編碼,這就可減少聲音的數(shù)據(jù)量 -譯碼時(shí)使用線性預(yù)測(cè)分析得到的參數(shù),通過(guò)語(yǔ)音合 成器重構(gòu)語(yǔ)音。合成器實(shí)際上是一個(gè)離散的隨時(shí)間 變化的時(shí)變線性濾波器,它代表人的語(yǔ)音生成系統(tǒng) 模型 時(shí)變線性濾波器 分析語(yǔ)音波形時(shí),當(dāng)作預(yù)測(cè)器使用 合成語(yǔ)音波形時(shí),當(dāng)作生成模型使用線性預(yù)測(cè)編碼(LPC)v線性預(yù)測(cè)器 使用過(guò)去的P個(gè)樣本值來(lái)預(yù)測(cè)現(xiàn)時(shí)刻的采樣值x(n)線性預(yù)測(cè)編碼(LPC)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論