第四講 話音編碼_第1頁
第四講 話音編碼_第2頁
第四講 話音編碼_第3頁
第四講 話音編碼_第4頁
第四講 話音編碼_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第3章教學(xué)進(jìn)程話音編碼3.4

數(shù)據(jù)壓縮基本原理

■多媒體信息的數(shù)據(jù)量

■數(shù)據(jù)壓縮條件

■數(shù)據(jù)冗余3.5

話音

數(shù)據(jù)壓縮算法

■數(shù)據(jù)壓縮算法分類

■音頻信號壓縮3.4.1多媒體信息的數(shù)據(jù)量3.4數(shù)據(jù)壓縮基本原理●文本若1024×768顯示分辨率、16×16點陣文字、4Byte/字,則一屏漢字的總數(shù)據(jù)量為:(1024/16)×(768/16)×4=12288Byte(12KB)●圖像若采用1024×768顯示分辨率,則滿屏圖像的總數(shù)據(jù)量為:1024×768×log2256÷8=786432Byte(768KB)●音頻若采樣頻率為44100Hz,16bit(2Byte),立體聲(2聲道),則1分鐘的總數(shù)據(jù)量為:44100×2Byte×2(STEREO)×60s=10336KB(10MB)教學(xué)進(jìn)程數(shù)字化處理面臨的主要問題是巨大的數(shù)據(jù)量3.4.2數(shù)據(jù)壓縮條件●數(shù)據(jù)存在冗余(重復(fù)數(shù)據(jù)、可忽略數(shù)據(jù))●數(shù)據(jù)傳輸與存儲空間的限制(壓縮→傳輸或存儲→解壓縮)■

45.1kHz/Stereo1.3MB■

22.0kHz/Nomo0.3MB■Stop重復(fù)數(shù)據(jù)可忽略數(shù)據(jù)●不敏感因素(顏色、亮度、頻率、細(xì)節(jié))224顏色(16,777,216色)28顏色(256色)教學(xué)進(jìn)程3.4.3數(shù)據(jù)冗余●冗余基本概念●冗余——信息所具有的各種性質(zhì)中多余的無用空間教學(xué)進(jìn)程●什么是冗余?相同或者相似的重復(fù)信息可以在空間范圍重復(fù),也可以在時間范圍重復(fù)可以是嚴(yán)格重復(fù),也可以是以某種相似性重復(fù)分為統(tǒng)計冗余和心理視覺冗余兩大類3.4.3數(shù)據(jù)冗余●冗余基本概念●冗余度——多余的無用空間的程度I=D-

duI—信息量D—數(shù)據(jù)量du—冗余量,包含在D中●信息量與冗余的關(guān)系●冗余舉例播音員——180字/分鐘,2Byte一個字,360Byte

(合0.35KB/分鐘)音頻數(shù)據(jù)——8kHz采樣×8bit×60秒=3840KBit(合480KB/分鐘)教學(xué)進(jìn)程冗余分類P98●[1]空間冗余——規(guī)則物體的物理相關(guān)性[2]時間冗余——視頻與動畫畫面間的相關(guān)性[3]統(tǒng)計冗余——具有空間冗余和時間冗余[6]視覺冗余——視覺、聽覺敏感度和非線性感覺[7]知識冗余——憑借經(jīng)驗識別[4]結(jié)構(gòu)冗余——規(guī)則紋理、相互重疊的結(jié)構(gòu)表面[5]信息熵冗余——編碼冗余,數(shù)據(jù)與攜帶的信息[8]其他冗余——上述7種以外的冗余10110001110010110001110001011010101010111100010111111010224色28色聲音頻率文字組句色彩漸變主觀意識::教學(xué)進(jìn)程●數(shù)據(jù)壓縮的可能性(1)空間冗余靜態(tài)圖像中存在的最主要的一種數(shù)據(jù)冗余在同一幅圖像中,規(guī)則物體和規(guī)則背景的表面物理特性具有相關(guān)性即對同一景物表面上采樣點的顏色之間存在著空間連貫性例如:圖像中一片連續(xù)的區(qū)域,其像素為相同的顏色—空間冗余●數(shù)據(jù)壓縮的可能性(2)時間冗余序列圖像(電視圖像、動畫)和語音數(shù)據(jù)中所經(jīng)常包含的冗余一組連續(xù)的畫面之間往往存在著時間和空間的相關(guān)性例如:唱歌的歌手●數(shù)據(jù)壓縮的可能性(3)統(tǒng)計冗余是空間冗余和時間冗余的總稱。在數(shù)據(jù)處理時,往往采用統(tǒng)計事件出現(xiàn)概率的辦法來鑒別空間冗余和時間冗余,因此空間冗余和時間冗余具有統(tǒng)計特性?!駭?shù)據(jù)壓縮的可能性(4)結(jié)構(gòu)冗余在某些場景中,存在著明顯的分布模式——結(jié)構(gòu)結(jié)構(gòu)可以通過特定的過程來生成例如:方格狀的地板,蜂窩,磚墻等●數(shù)據(jù)壓縮的可能性(5)信息熵冗余信息熵:一組數(shù)據(jù)所攜帶的信息量。冗余的產(chǎn)生是因為:在信源符號的表示過程中未遵循信息論下最優(yōu)編碼而造成。通過熵編碼進(jìn)行壓縮●數(shù)據(jù)壓縮的可能性(6)視覺冗余可以根據(jù)這些視覺特性來對圖象信息進(jìn)行取舍人類的視覺系統(tǒng)對圖像場的敏感性:非均勻和非線性的對亮度變化敏感,而對色度的變化相對不敏感在高亮度區(qū),人眼對亮度變化敏感度下降對物體邊緣敏感,內(nèi)部區(qū)域相對不敏感對整體結(jié)構(gòu)敏感,而對內(nèi)部細(xì)節(jié)相對不敏感●數(shù)據(jù)壓縮的可能性(7)知識冗余有許多圖像的理解與某些基礎(chǔ)知識有相當(dāng)大的相關(guān)性這類規(guī)律性的結(jié)構(gòu)可以由先驗知識和背景知識得到例如:人臉的圖像知識冗余是模型編碼的基礎(chǔ)3.4.4多媒體數(shù)據(jù)壓縮的性能指標(biāo)●壓縮比●壓縮性能常常用壓縮比定義(輸入數(shù)據(jù)和輸出數(shù)據(jù)比)例:512×480,24bit/pixel(bpp)輸出15000byte輸入=737280byte壓縮比=737280/15000=49教學(xué)進(jìn)程節(jié)省圖象或視頻的存儲容量,增加訪問速度,使數(shù)字視頻能在PC機(jī)上實現(xiàn),需要進(jìn)行視頻和圖象的壓縮。有三個關(guān)鍵參數(shù)評價一個壓縮系統(tǒng):壓縮比、圖象質(zhì)量、壓縮和解壓的速度,另外也必須考慮每個壓縮算法所需的硬件和軟件。3.4.4多媒體數(shù)據(jù)壓縮的性能指標(biāo)●壓縮質(zhì)量●壓縮方法分為無損壓縮和有損壓縮,對于有損壓縮:失真情況很難量化,只能對測試的圖象進(jìn)行估計。模擬圖象質(zhì)量的指標(biāo):信噪比、分辨率、顏色錯,但必須在觀察了實際圖象以后。教學(xué)進(jìn)程●壓縮和解壓速度●在許多應(yīng)用中,壓縮和解壓可能不同時用,在不同的位置不同的系統(tǒng)中。所以,壓縮、解壓速度分別估計。靜態(tài)圖象中,壓縮速度沒有解壓速度嚴(yán)格;動態(tài)圖象中,壓縮、解壓速度都有要求,因為需實時地從攝像機(jī)或VCR中抓取動態(tài)視頻。3.4.4多媒體數(shù)據(jù)壓縮的性能指標(biāo)●軟硬件系統(tǒng)●有些壓縮解壓工作可用軟件實現(xiàn)。設(shè)計系統(tǒng)時必須充分考慮:算法復(fù)雜-壓縮解壓過程長算法簡單-壓縮效果差教學(xué)進(jìn)程目前有些特殊硬件可用于加速壓縮/解壓。硬接線系統(tǒng)速度快,但各種選擇在初始設(shè)計時已確定,一般不能更改。因此在設(shè)計硬接線壓縮/解壓系統(tǒng)時必須先將算法標(biāo)準(zhǔn)化。3.2.13.5數(shù)據(jù)壓縮算法數(shù)據(jù)壓縮算法分類■無損壓縮編碼——壓縮數(shù)據(jù)還原后,與原始數(shù)據(jù)一致,無損失無損壓縮編碼(可逆編碼)霍夫曼編碼行程編碼算術(shù)編碼詞典編碼■有損壓縮編碼——壓縮后再還原的數(shù)據(jù)有損失有損壓縮編碼(不可逆編碼)全頻帶編碼PCM/ADPCM混合編碼JPEG/MPEG教學(xué)進(jìn)程●音頻冗余主要表現(xiàn)為:時域冗余度頻域冗余度3.5.23.5數(shù)據(jù)壓縮算法音頻信號的壓縮編碼●音頻信號的編碼方式:(1)波形編碼,如PCM、APC、ATC等(2)音源編碼(3)混合編碼方法一般來說,波形編譯碼器的話音質(zhì)量高,但數(shù)據(jù)率也很高;音源編譯碼器的數(shù)據(jù)率很低,產(chǎn)生的合成話音的音質(zhì)有待提高;混合編譯碼器使用音源編譯碼技術(shù)和波形編譯碼技術(shù),數(shù)據(jù)率和音質(zhì)介于它們之間。3.5.33.5數(shù)據(jù)壓縮算法脈沖編碼調(diào)制(PCM)●概念

它僅僅是對輸入信號進(jìn)行采樣和量化。在這個編碼框圖中,它的輸入是模擬聲音信號,它的輸出是PCM樣本。圖中的“防失真濾波器”是一個低通濾波器,用來濾除聲音頻帶以外的信號;“波形編碼器”可暫時理解為“采樣器”,“量化器”可理解為“量化階大小(step-size)”生成器或者稱為“量化間隔”生成器。3.5.33.5數(shù)據(jù)壓縮算法脈沖編碼調(diào)制(PCM)●量化聲音數(shù)字化有兩個步驟: 第一步是采樣,就是每隔一段時間間隔讀一次聲音的幅度; 第二步是量化,就是把采樣得到的聲音信號幅度轉(zhuǎn)換成數(shù)字值。●量化歸納成兩類: 一類稱為均勻量化 另一類稱為非均勻量化●采用的量化方法不同,量化后的數(shù)據(jù)量也就不同。因此,可以說量化也是一種壓縮數(shù)據(jù)的方法。均勻量化

如果采用相等的量化間隔對采樣得到的信號作量化,那么這種量化稱為均勻量化。均勻量化就是采用相同的“等分尺”來度量采樣得到的幅度,也稱為線性量化,如圖3-08所示。量化后的樣本值Y和原始值X的差E=Y-X稱為量化誤差或量化噪聲。非均勻量化

無論對大的輸入信號還是小的輸入信號一律都采用相同的量化間隔。但是,對話音信號來說,大信號出現(xiàn)的機(jī)會并不多,增加的樣本位數(shù)就沒有充分利用。為了克服這個不足,就出現(xiàn)了非均勻量化的方法,這種方法也叫做非線性量化。非線性量化的基本想法是,對輸入信號進(jìn)行量化時,大的輸入信號采用大的量化間隔,小的輸入信號采用小的量化間隔采樣輸入信號幅度和量化輸出數(shù)據(jù)之間定義了兩種對應(yīng)關(guān)系:μ律壓擴(kuò)(companding)算法,A律壓擴(kuò)算法。μ率壓擴(kuò)式中:x為輸入信號幅度,規(guī)格化成;-1≤x≤1sgn(x)為x的極性;μ律(μ-Law)壓擴(kuò)(G.711)主要用在北美和日本等地區(qū)的數(shù)字電話通信中A率壓擴(kuò)式中:x為輸入信號幅度,規(guī)格化成-1≤x≤1;sgn(x)為x的極性;A為確定壓縮量的參數(shù),它反映最大量化間隔和最小量化間隔之比。A律壓擴(kuò)的前一部分是線性的,其余部分與μ律壓擴(kuò)相同。A律(A-Law)壓擴(kuò)(G.711)主要用在歐洲和中國大陸等地區(qū)的數(shù)字電話通信中

0≤|x|≤1/A

1/A≤|x|≤1

3.5.33.5數(shù)據(jù)壓縮算法增量調(diào)制(DM)●

概念

增量調(diào)制也稱△調(diào)制(deltamodulation,DM),它是一種預(yù)測編碼技術(shù),是PCM編碼的一種變形。PCM是對每個采樣信號的整個幅度進(jìn)行量化編碼,因此它具有對任意波形進(jìn)行編碼的能力;DM是對實際的采樣信號與預(yù)測的采樣信號之差的極性進(jìn)行編碼,將極性變成“0”和“1”這兩種可能的取值之一。如果實際的采樣信號與預(yù)測的采樣信號之差的極性為“正”,則用“1”表示;相反則用“0”表示,或者相反。由于DM編碼只須用1位對話音信號進(jìn)行編碼,所以DM編碼系統(tǒng)又稱為“1位系統(tǒng)”?!?/p>

原理3.5.33.5數(shù)據(jù)壓縮算法增量調(diào)制(DM)縱坐標(biāo)表示“模擬信號輸入幅度”,橫坐標(biāo)表示“編碼輸出”。用

表示采樣點的位置,

表示在

點的編碼輸出。輸入信號的實際值用

表示,輸入信號的預(yù)測值用

表示。3.5.33.5數(shù)據(jù)壓縮算法增量調(diào)制(DM)y[i+1]=y[i]±△ifx[i]=1則取“+”else則取“-”;y[i]為預(yù)測值,x[i]為輸出值x[i]=1ify[i]≤y真[i]x[i]=0ify[i]>y真[i]初始值y[i]=0;△可以根據(jù)需要進(jìn)行取值●

問題3.5.33.5數(shù)據(jù)壓縮算法增量調(diào)制(DM)在開始階段增量調(diào)制器的輸出不能保持跟蹤輸入信號的快速變化,這種現(xiàn)象就稱為增量調(diào)制器的“斜率過載”(slopeoverload)。在輸入信號緩慢變化部分,即輸入信號與預(yù)測信號的差值接近零的區(qū)域,增量調(diào)制器的輸出出現(xiàn)隨機(jī)交變的“0”和“1”。這種現(xiàn)象稱為增量調(diào)制器的粒狀噪聲(granularnoise),這種噪聲是不可能消除的。3.5.43.5數(shù)據(jù)壓縮算法自適應(yīng)增量調(diào)制(ADM)為了使增量調(diào)制器的量化階Δ能自適應(yīng),也就是根據(jù)輸入信號斜率的變化自動調(diào)整量化階Δ的大小,以使斜率過載和粒狀噪聲都減到最小,許多研究人員研究了各種各樣的方法,而且?guī)缀跛械姆椒ɑ旧隙际窃跈z測到斜率過載時開始增大量化階Δ,而在輸入信號的斜率減小時降低量化階Δ。例如,宋(Song)在1971描述的自適應(yīng)增量調(diào)制技術(shù)中提出:假定增量調(diào)制器的輸出為1和0,每當(dāng)輸出不變時量化階增大50%,使預(yù)測器的輸出跟上輸入信號;每當(dāng)輸出值改變時,量化階減小50%,使粒狀噪聲減到最小,這種自適應(yīng)方法使斜率過載和粒狀噪聲同時減到最小。又如,使用較多的另一種自適應(yīng)增量調(diào)制器是由格林弗基斯(Greefkes)1970提出的,稱為連續(xù)可變斜率增量調(diào)制(continuouslyvariableslopedeltamodulation,CVSD)。它的基本方法是:如果連續(xù)可變斜率增量調(diào)制器(continuouslyvariableslopedeltamodulator,CVSD)的輸出連續(xù)出現(xiàn)三個相同的值,量化階就加上一個大的增量,反之,就加一個小的增量。3.5.53.5數(shù)據(jù)壓縮算法自適應(yīng)脈沖編碼調(diào)制(APCM)是根據(jù)輸入信號幅度大小來改變量化階大小的一種波形編碼技術(shù)。自適應(yīng)可以是瞬時自適應(yīng),即量化階的大小每隔幾個樣本就改變,也可以是音節(jié)自適應(yīng),即量化階的大小在較長時間周期里發(fā)生變化。

改變量化階大小的方法有兩種:一種稱為前向自適應(yīng)(forwardadaptation),另一種稱為后向自適應(yīng)(backwardadaptation)。

3.5.53.5數(shù)據(jù)壓縮算法自適應(yīng)脈沖編碼調(diào)制(APCM)根據(jù)未量化的樣本值的均方根值來估算輸入信號的電平,以此來確定量化階的大小,并對其電平進(jìn)行編碼作為邊信息(sideinformation)傳送到接收端。

前向自適應(yīng):3.5.53.5數(shù)據(jù)壓縮算法自適應(yīng)脈沖編碼調(diào)制(APCM)從量化器剛輸出的過去樣本中來提取量化階信息。由于后向自適應(yīng)能在發(fā)收兩端自動生成量化階,所以它不需要傳送邊信息。

后向自適應(yīng):3.5.6差分脈沖編碼調(diào)制(DPCM)是利用樣本與樣本之間存在的信息冗余度來進(jìn)行編碼的一種數(shù)據(jù)壓縮技術(shù)。差分脈沖編碼調(diào)制的思想是,根據(jù)過去的樣本去估算(estimate)下一個樣本信號的幅度大小,這個值稱為預(yù)測值,然后對實際信號值與預(yù)測值之差進(jìn)行量化編碼,從而就減少了表示每個樣本信號的位數(shù)。它與脈沖編碼調(diào)制(PCM)不同的是,PCM是直接對采樣信號進(jìn)行量化編碼,而DPCM是對實際信號值與預(yù)測值之差進(jìn)行量化編碼,存儲或者傳送的是差值而不是幅度絕對值,這就降低了傳送或存儲的數(shù)據(jù)量。此外,它還能適應(yīng)大范圍變化的輸入信號。3.5數(shù)據(jù)壓縮算法3.5.6差分脈沖編碼調(diào)制(DPCM)3.5數(shù)據(jù)壓縮算法3.5.6差分脈沖編碼調(diào)制(DPCM)3.5數(shù)據(jù)壓縮算法差分信號d(k)是離散輸入信號S(K)和預(yù)測器輸出的估算值Se(k-1)之差。注意,Se(k-1)是對S(K)的預(yù)測值,而不是過去樣本的實際值。DPCM系統(tǒng)實際上就是對這個差值進(jìn)行量化編碼,用來補(bǔ)償過去編碼中產(chǎn)生的量化誤差。DPCM系統(tǒng)是一個負(fù)反饋系統(tǒng),采用這種結(jié)構(gòu)可以避免量化誤差的積累。重構(gòu)信號是由逆量化器產(chǎn)生的量化差分信號,與對過去樣本信號的估算值求和得到。它們的和,即作為預(yù)測器確定下一個信號估算值的輸入信號。由于在發(fā)送端和接收端都使用相同的逆量化器和預(yù)測器,所以接收端的重構(gòu)信號可從傳送信號獲得。3.5.6差分脈沖編碼調(diào)制(DPCM)3.5數(shù)據(jù)壓縮算法d=S(K)-Se(k-1)d(k)量化dSr(k)=Se(k-1)+dq(k)誤差來源:d與d(k)之間的差異是誤差,原因?表達(dá)式:3.5.7自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)3.5數(shù)據(jù)壓縮算法①利用自適應(yīng)的思想改變量化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值;②使用過去的樣本值估算下一個輸入樣本的預(yù)測值,使實際樣本值和預(yù)測值之間的差值總是最小。

核心想法:3.5.7自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)3.5數(shù)據(jù)壓縮算法原理圖3.5.8線性預(yù)測編碼(LPC)3.5數(shù)據(jù)壓縮算法LPC是通過分析話音波形來產(chǎn)生聲道激勵和轉(zhuǎn)移函數(shù)的參數(shù),對聲音波形的編碼實際就轉(zhuǎn)化為對這些參數(shù)的編碼,這就使聲音的數(shù)據(jù)量大大減少。在接收端使用LPC分析得到的參數(shù),通過話音合成器重構(gòu)話音。合成器實際上是一個離散的隨時間變化的時變線性濾波器,它代表人的話音生成系統(tǒng)模型。時變線性濾波器既當(dāng)作預(yù)測器使用,又當(dāng)作合成器使用。

3.5.8線性預(yù)測編碼(LPC)3.5數(shù)據(jù)壓縮算法=線性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論