第四講話音編碼

上傳人：7*** IP屬地：湖北上傳時間：2023-01-12 格式：PPT 頁數(shù)：42 大?。?.88MB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩37頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第3章教學(xué)進(jìn)程話音編碼3.4

數(shù)據(jù)壓縮基本原理

■多媒體信息的數(shù)據(jù)量

■數(shù)據(jù)壓縮條件

■數(shù)據(jù)冗余3.5

話音

數(shù)據(jù)壓縮算法

■數(shù)據(jù)壓縮算法分類

■音頻信號壓縮3.4.1多媒體信息的數(shù)據(jù)量3.4數(shù)據(jù)壓縮基本原理●文本若1024×768顯示分辨率、16×16點陣文字、4Byte/字，則一屏漢字的總數(shù)據(jù)量為:(1024/16)×(768/16)×4=12288Byte(12KB)●圖像若采用1024×768顯示分辨率，則滿屏圖像的總數(shù)據(jù)量為:1024×768×log2256÷8=786432Byte(768KB)●音頻若采樣頻率為44100Hz，16bit(2Byte)，立體聲(2聲道)，則1分鐘的總數(shù)據(jù)量為:44100×2Byte×2(STEREO)×60s=10336KB(10MB)教學(xué)進(jìn)程數(shù)字化處理面臨的主要問題是巨大的數(shù)據(jù)量3.4.2數(shù)據(jù)壓縮條件●數(shù)據(jù)存在冗余(重復(fù)數(shù)據(jù)、可忽略數(shù)據(jù))●數(shù)據(jù)傳輸與存儲空間的限制(壓縮→傳輸或存儲→解壓縮)■

45.1kHz/Stereo1.3MB■

22.0kHz/Nomo0.3MB■Stop重復(fù)數(shù)據(jù)可忽略數(shù)據(jù)●不敏感因素(顏色、亮度、頻率、細(xì)節(jié))224顏色(16,777,216色)28顏色(256色)教學(xué)進(jìn)程3.4.3數(shù)據(jù)冗余●冗余基本概念●冗余——信息所具有的各種性質(zhì)中多余的無用空間教學(xué)進(jìn)程●什么是冗余？相同或者相似的重復(fù)信息可以在空間范圍重復(fù)，也可以在時間范圍重復(fù)可以是嚴(yán)格重復(fù)，也可以是以某種相似性重復(fù)分為統(tǒng)計冗余和心理視覺冗余兩大類3.4.3數(shù)據(jù)冗余●冗余基本概念●冗余度——多余的無用空間的程度I=D－

duI—信息量D—數(shù)據(jù)量du—冗余量，包含在D中●信息量與冗余的關(guān)系●冗余舉例播音員——180字/分鐘，2Byte一個字，360Byte

(合0.35KB/分鐘)音頻數(shù)據(jù)——8kHz采樣×8bit×60秒=3840KBit(合480KB/分鐘)教學(xué)進(jìn)程冗余分類P98●[1]空間冗余——規(guī)則物體的物理相關(guān)性[2]時間冗余——視頻與動畫畫面間的相關(guān)性[3]統(tǒng)計冗余——具有空間冗余和時間冗余[6]視覺冗余——視覺、聽覺敏感度和非線性感覺[7]知識冗余——憑借經(jīng)驗識別[4]結(jié)構(gòu)冗余——規(guī)則紋理、相互重疊的結(jié)構(gòu)表面[5]信息熵冗余——編碼冗余，數(shù)據(jù)與攜帶的信息[8]其他冗余——上述7種以外的冗余10110001110010110001110001011010101010111100010111111010224色28色聲音頻率文字組句色彩漸變主觀意識::教學(xué)進(jìn)程●數(shù)據(jù)壓縮的可能性（1）空間冗余靜態(tài)圖像中存在的最主要的一種數(shù)據(jù)冗余在同一幅圖像中，規(guī)則物體和規(guī)則背景的表面物理特性具有相關(guān)性即對同一景物表面上采樣點的顏色之間存在著空間連貫性例如：圖像中一片連續(xù)的區(qū)域，其像素為相同的顏色—空間冗余●數(shù)據(jù)壓縮的可能性（2）時間冗余序列圖像(電視圖像、動畫)和語音數(shù)據(jù)中所經(jīng)常包含的冗余一組連續(xù)的畫面之間往往存在著時間和空間的相關(guān)性例如：唱歌的歌手●數(shù)據(jù)壓縮的可能性（3）統(tǒng)計冗余是空間冗余和時間冗余的總稱。在數(shù)據(jù)處理時，往往采用統(tǒng)計事件出現(xiàn)概率的辦法來鑒別空間冗余和時間冗余，因此空間冗余和時間冗余具有統(tǒng)計特性?！駭?shù)據(jù)壓縮的可能性（4）結(jié)構(gòu)冗余在某些場景中，存在著明顯的分布模式——結(jié)構(gòu)結(jié)構(gòu)可以通過特定的過程來生成例如：方格狀的地板，蜂窩，磚墻等●數(shù)據(jù)壓縮的可能性（5）信息熵冗余信息熵：一組數(shù)據(jù)所攜帶的信息量。冗余的產(chǎn)生是因為：在信源符號的表示過程中未遵循信息論下最優(yōu)編碼而造成。通過熵編碼進(jìn)行壓縮●數(shù)據(jù)壓縮的可能性（6）視覺冗余可以根據(jù)這些視覺特性來對圖象信息進(jìn)行取舍人類的視覺系統(tǒng)對圖像場的敏感性：非均勻和非線性的對亮度變化敏感，而對色度的變化相對不敏感在高亮度區(qū)，人眼對亮度變化敏感度下降對物體邊緣敏感，內(nèi)部區(qū)域相對不敏感對整體結(jié)構(gòu)敏感，而對內(nèi)部細(xì)節(jié)相對不敏感●數(shù)據(jù)壓縮的可能性（7）知識冗余有許多圖像的理解與某些基礎(chǔ)知識有相當(dāng)大的相關(guān)性這類規(guī)律性的結(jié)構(gòu)可以由先驗知識和背景知識得到例如：人臉的圖像知識冗余是模型編碼的基礎(chǔ)3.4.4多媒體數(shù)據(jù)壓縮的性能指標(biāo)●壓縮比●壓縮性能常常用壓縮比定義(輸入數(shù)據(jù)和輸出數(shù)據(jù)比)例：512×480，24bit/pixel(bpp)輸出15000byte輸入＝737280byte壓縮比＝737280/15000＝49教學(xué)進(jìn)程節(jié)省圖象或視頻的存儲容量，增加訪問速度，使數(shù)字視頻能在PC機(jī)上實現(xiàn)，需要進(jìn)行視頻和圖象的壓縮。有三個關(guān)鍵參數(shù)評價一個壓縮系統(tǒng)：壓縮比、圖象質(zhì)量、壓縮和解壓的速度，另外也必須考慮每個壓縮算法所需的硬件和軟件。3.4.4多媒體數(shù)據(jù)壓縮的性能指標(biāo)●壓縮質(zhì)量●壓縮方法分為無損壓縮和有損壓縮，對于有損壓縮：失真情況很難量化，只能對測試的圖象進(jìn)行估計。模擬圖象質(zhì)量的指標(biāo)：信噪比、分辨率、顏色錯，但必須在觀察了實際圖象以后。教學(xué)進(jìn)程●壓縮和解壓速度●在許多應(yīng)用中，壓縮和解壓可能不同時用，在不同的位置不同的系統(tǒng)中。所以，壓縮、解壓速度分別估計。靜態(tài)圖象中，壓縮速度沒有解壓速度嚴(yán)格；動態(tài)圖象中，壓縮、解壓速度都有要求，因為需實時地從攝像機(jī)或VCR中抓取動態(tài)視頻。3.4.4多媒體數(shù)據(jù)壓縮的性能指標(biāo)●軟硬件系統(tǒng)●有些壓縮解壓工作可用軟件實現(xiàn)。設(shè)計系統(tǒng)時必須充分考慮：算法復(fù)雜－壓縮解壓過程長算法簡單－壓縮效果差教學(xué)進(jìn)程目前有些特殊硬件可用于加速壓縮/解壓。硬接線系統(tǒng)速度快，但各種選擇在初始設(shè)計時已確定，一般不能更改。因此在設(shè)計硬接線壓縮/解壓系統(tǒng)時必須先將算法標(biāo)準(zhǔn)化。3.2.13.5數(shù)據(jù)壓縮算法數(shù)據(jù)壓縮算法分類■無損壓縮編碼——壓縮數(shù)據(jù)還原后，與原始數(shù)據(jù)一致，無損失無損壓縮編碼(可逆編碼)霍夫曼編碼行程編碼算術(shù)編碼詞典編碼■有損壓縮編碼——壓縮后再還原的數(shù)據(jù)有損失有損壓縮編碼(不可逆編碼)全頻帶編碼PCM/ADPCM混合編碼JPEG/MPEG教學(xué)進(jìn)程●音頻冗余主要表現(xiàn)為：時域冗余度頻域冗余度3.5.23.5數(shù)據(jù)壓縮算法音頻信號的壓縮編碼●音頻信號的編碼方式：（1）波形編碼，如PCM、APC、ATC等（2）音源編碼（3）混合編碼方法一般來說，波形編譯碼器的話音質(zhì)量高，但數(shù)據(jù)率也很高；音源編譯碼器的數(shù)據(jù)率很低，產(chǎn)生的合成話音的音質(zhì)有待提高；混合編譯碼器使用音源編譯碼技術(shù)和波形編譯碼技術(shù)，數(shù)據(jù)率和音質(zhì)介于它們之間。3.5.33.5數(shù)據(jù)壓縮算法脈沖編碼調(diào)制(PCM)●概念

它僅僅是對輸入信號進(jìn)行采樣和量化。在這個編碼框圖中，它的輸入是模擬聲音信號，它的輸出是PCM樣本。圖中的“防失真濾波器”是一個低通濾波器，用來濾除聲音頻帶以外的信號；“波形編碼器”可暫時理解為“采樣器”，“量化器”可理解為“量化階大小(step-size)”生成器或者稱為“量化間隔”生成器。3.5.33.5數(shù)據(jù)壓縮算法脈沖編碼調(diào)制(PCM)●量化聲音數(shù)字化有兩個步驟：第一步是采樣，就是每隔一段時間間隔讀一次聲音的幅度；第二步是量化，就是把采樣得到的聲音信號幅度轉(zhuǎn)換成數(shù)字值。●量化歸納成兩類：一類稱為均勻量化另一類稱為非均勻量化●采用的量化方法不同，量化后的數(shù)據(jù)量也就不同。因此，可以說量化也是一種壓縮數(shù)據(jù)的方法。均勻量化

如果采用相等的量化間隔對采樣得到的信號作量化，那么這種量化稱為均勻量化。均勻量化就是采用相同的“等分尺”來度量采樣得到的幅度，也稱為線性量化，如圖3-08所示。量化后的樣本值Y和原始值X的差E=Y-X稱為量化誤差或量化噪聲。非均勻量化

無論對大的輸入信號還是小的輸入信號一律都采用相同的量化間隔。但是，對話音信號來說，大信號出現(xiàn)的機(jī)會并不多，增加的樣本位數(shù)就沒有充分利用。為了克服這個不足，就出現(xiàn)了非均勻量化的方法，這種方法也叫做非線性量化。非線性量化的基本想法是，對輸入信號進(jìn)行量化時，大的輸入信號采用大的量化間隔，小的輸入信號采用小的量化間隔采樣輸入信號幅度和量化輸出數(shù)據(jù)之間定義了兩種對應(yīng)關(guān)系：μ律壓擴(kuò)(companding)算法，A律壓擴(kuò)算法。μ率壓擴(kuò)式中：x為輸入信號幅度，規(guī)格化成；-1≤x≤1sgn(x)為x的極性；μ律(μ-Law)壓擴(kuò)(G.711)主要用在北美和日本等地區(qū)的數(shù)字電話通信中A率壓擴(kuò)式中：x為輸入信號幅度，規(guī)格化成-1≤x≤1；sgn(x)為x的極性；A為確定壓縮量的參數(shù)，它反映最大量化間隔和最小量化間隔之比。A律壓擴(kuò)的前一部分是線性的，其余部分與μ律壓擴(kuò)相同。A律(A-Law)壓擴(kuò)(G.711)主要用在歐洲和中國大陸等地區(qū)的數(shù)字電話通信中

0≤|x|≤1/A

1/A≤|x|≤1

3.5.33.5數(shù)據(jù)壓縮算法增量調(diào)制(DM)●

概念

增量調(diào)制也稱△調(diào)制(deltamodulation，DM)，它是一種預(yù)測編碼技術(shù)，是PCM編碼的一種變形。PCM是對每個采樣信號的整個幅度進(jìn)行量化編碼，因此它具有對任意波形進(jìn)行編碼的能力；DM是對實際的采樣信號與預(yù)測的采樣信號之差的極性進(jìn)行編碼，將極性變成“0”和“1”這兩種可能的取值之一。如果實際的采樣信號與預(yù)測的采樣信號之差的極性為“正”，則用“1”表示；相反則用“0”表示，或者相反。由于DM編碼只須用1位對話音信號進(jìn)行編碼，所以DM編碼系統(tǒng)又稱為“1位系統(tǒng)”?！?/p>

原理3.5.33.5數(shù)據(jù)壓縮算法增量調(diào)制(DM)縱坐標(biāo)表示“模擬信號輸入幅度”，橫坐標(biāo)表示“編碼輸出”。用

表示采樣點的位置，

表示在

點的編碼輸出。輸入信號的實際值用

表示，輸入信號的預(yù)測值用

表示。3.5.33.5數(shù)據(jù)壓縮算法增量調(diào)制(DM)y[i+1]=y[i]±△ifx[i]=1則取“+”else則取“-”；y[i]為預(yù)測值，x[i]為輸出值x[i]=1ify[i]≤y真[i]x[i]=0ify[i]>y真[i]初始值y[i]=0;△可以根據(jù)需要進(jìn)行取值●

問題3.5.33.5數(shù)據(jù)壓縮算法增量調(diào)制(DM)在開始階段增量調(diào)制器的輸出不能保持跟蹤輸入信號的快速變化，這種現(xiàn)象就稱為增量調(diào)制器的“斜率過載”(slopeoverload)。在輸入信號緩慢變化部分，即輸入信號與預(yù)測信號的差值接近零的區(qū)域，增量調(diào)制器的輸出出現(xiàn)隨機(jī)交變的“0”和“1”。這種現(xiàn)象稱為增量調(diào)制器的粒狀噪聲(granularnoise)，這種噪聲是不可能消除的。3.5.43.5數(shù)據(jù)壓縮算法自適應(yīng)增量調(diào)制(ADM)為了使增量調(diào)制器的量化階Δ能自適應(yīng)，也就是根據(jù)輸入信號斜率的變化自動調(diào)整量化階Δ的大小，以使斜率過載和粒狀噪聲都減到最小，許多研究人員研究了各種各樣的方法，而且?guī)缀跛械姆椒ɑ旧隙际窃跈z測到斜率過載時開始增大量化階Δ，而在輸入信號的斜率減小時降低量化階Δ。例如，宋(Song)在1971描述的自適應(yīng)增量調(diào)制技術(shù)中提出：假定增量調(diào)制器的輸出為1和0，每當(dāng)輸出不變時量化階增大50%，使預(yù)測器的輸出跟上輸入信號；每當(dāng)輸出值改變時，量化階減小50%，使粒狀噪聲減到最小，這種自適應(yīng)方法使斜率過載和粒狀噪聲同時減到最小。又如，使用較多的另一種自適應(yīng)增量調(diào)制器是由格林弗基斯(Greefkes)1970提出的，稱為連續(xù)可變斜率增量調(diào)制(continuouslyvariableslopedeltamodulation，CVSD)。它的基本方法是：如果連續(xù)可變斜率增量調(diào)制器(continuouslyvariableslopedeltamodulator，CVSD)的輸出連續(xù)出現(xiàn)三個相同的值，量化階就加上一個大的增量，反之，就加一個小的增量。3.5.53.5數(shù)據(jù)壓縮算法自適應(yīng)脈沖編碼調(diào)制(APCM)是根據(jù)輸入信號幅度大小來改變量化階大小的一種波形編碼技術(shù)。自適應(yīng)可以是瞬時自適應(yīng)，即量化階的大小每隔幾個樣本就改變，也可以是音節(jié)自適應(yīng)，即量化階的大小在較長時間周期里發(fā)生變化。

改變量化階大小的方法有兩種：一種稱為前向自適應(yīng)(forwardadaptation)，另一種稱為后向自適應(yīng)(backwardadaptation)。

3.5.53.5數(shù)據(jù)壓縮算法自適應(yīng)脈沖編碼調(diào)制(APCM)根據(jù)未量化的樣本值的均方根值來估算輸入信號的電平，以此來確定量化階的大小，并對其電平進(jìn)行編碼作為邊信息(sideinformation)傳送到接收端。

前向自適應(yīng)：3.5.53.5數(shù)據(jù)壓縮算法自適應(yīng)脈沖編碼調(diào)制(APCM)從量化器剛輸出的過去樣本中來提取量化階信息。由于后向自適應(yīng)能在發(fā)收兩端自動生成量化階，所以它不需要傳送邊信息。

后向自適應(yīng)：3.5.6差分脈沖編碼調(diào)制(DPCM)是利用樣本與樣本之間存在的信息冗余度來進(jìn)行編碼的一種數(shù)據(jù)壓縮技術(shù)。差分脈沖編碼調(diào)制的思想是，根據(jù)過去的樣本去估算(estimate)下一個樣本信號的幅度大小，這個值稱為預(yù)測值，然后對實際信號值與預(yù)測值之差進(jìn)行量化編碼，從而就減少了表示每個樣本信號的位數(shù)。它與脈沖編碼調(diào)制(PCM)不同的是，PCM是直接對采樣信號進(jìn)行量化編碼，而DPCM是對實際信號值與預(yù)測值之差進(jìn)行量化編碼，存儲或者傳送的是差值而不是幅度絕對值，這就降低了傳送或存儲的數(shù)據(jù)量。此外，它還能適應(yīng)大范圍變化的輸入信號。3.5數(shù)據(jù)壓縮算法3.5.6差分脈沖編碼調(diào)制(DPCM)3.5數(shù)據(jù)壓縮算法3.5.6差分脈沖編碼調(diào)制(DPCM)3.5數(shù)據(jù)壓縮算法差分信號d(k)是離散輸入信號S(K)和預(yù)測器輸出的估算值Se(k-1)之差。注意，Se(k-1)是對S(K)的預(yù)測值，而不是過去樣本的實際值。DPCM系統(tǒng)實際上就是對這個差值進(jìn)行量化編碼，用來補(bǔ)償過去編碼中產(chǎn)生的量化誤差。DPCM系統(tǒng)是一個負(fù)反饋系統(tǒng)，采用這種結(jié)構(gòu)可以避免量化誤差的積累。重構(gòu)信號是由逆量化器產(chǎn)生的量化差分信號，與對過去樣本信號的估算值求和得到。它們的和，即作為預(yù)測器確定下一個信號估算值的輸入信號。由于在發(fā)送端和接收端都使用相同的逆量化器和預(yù)測器，所以接收端的重構(gòu)信號可從傳送信號獲得。3.5.6差分脈沖編碼調(diào)制(DPCM)3.5數(shù)據(jù)壓縮算法d=S(K)-Se(k-1)d(k)量化dSr(k)=Se(k-1)+dq(k)誤差來源：d與d(k)之間的差異是誤差，原因？表達(dá)式：3.5.7自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)3.5數(shù)據(jù)壓縮算法①利用自適應(yīng)的思想改變量化階的大小，即使用小的量化階(step-size)去編碼小的差值，使用大的量化階去編碼大的差值；②使用過去的樣本值估算下一個輸入樣本的預(yù)測值，使實際樣本值和預(yù)測值之間的差值總是最小。

核心想法：3.5.7自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)3.5數(shù)據(jù)壓縮算法原理圖3.5.8線性預(yù)測編碼(LPC)3.5數(shù)據(jù)壓縮算法LPC是通過分析話音波形來產(chǎn)生聲道激勵和轉(zhuǎn)移函數(shù)的參數(shù)，對聲音波形的編碼實際就轉(zhuǎn)化為對這些參數(shù)的編碼，這就使聲音的數(shù)據(jù)量大大減少。在接收端使用LPC分析得到的參數(shù)，通過話音合成器重構(gòu)話音。合成器實際上是一個離散的隨時間變化的時變線性濾波器，它代表人的話音生成系統(tǒng)模型。時變線性濾波器既當(dāng)作預(yù)測器使用，又當(dāng)作合成器使用。

3.5.8線性預(yù)測編碼(LPC)3.5數(shù)據(jù)壓縮算法=線性

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第四講話音編碼

文檔簡介

溫馨提示

最新文檔

評論

第四講 話音編碼

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

第四講話音編碼