工學5第三講語音信號數字化及壓縮編碼課件_第1頁
工學5第三講語音信號數字化及壓縮編碼課件_第2頁
工學5第三講語音信號數字化及壓縮編碼課件_第3頁
工學5第三講語音信號數字化及壓縮編碼課件_第4頁
工學5第三講語音信號數字化及壓縮編碼課件_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第三講 語音信號數字化及壓縮編碼(2)8/4/20221第1頁,共51頁。DPCM降低語音編碼速率的必要性模擬單邊帶多路載波電話的帶寬4K,而PCM的帶寬的理論值為32K在頻帶受限的應用場合經濟性太低,如衛(wèi)星通信、移動通信等PCM占用高帶寬的原因分析為滿足語音信號的高動態(tài)范圍而采用了多位的量化對每個采樣點都進行量化,沒有考慮語音信號的前后相關性8/4/20222第2頁,共51頁。預測編碼的概念相鄰樣點之間可能只有一個量化間隔或少數個量化間隔的差別,PCM傳送的信息存在冗余在編碼前就去掉相關性很強的冗余,然后再進行編碼傳送預測編碼,就是根據過去的信號樣值預測下一個樣值,并且把預測值與現(xiàn)實的采樣值

2、之差進行量化加以編碼和傳送在接收端,經過相同的預測和濾波,即可得到原始信號波形8/4/20223第3頁,共51頁。DPCM基本原理8/4/20224第4頁,共51頁。DPCM性能 一般總是大于1,稱為DPCM處理增益,其值主要取決于預測的效果由于量化的是樣值與預測值的差值信號,因此動態(tài)范圍可以減小,同時也可有效減小量化誤差,從而使DPCM在較低的編碼率下獲得較高的信噪比質量需要研究的問題是:如何設計預測器獲得更好的SNR零點預測器極點預測器最佳預測器8/4/20225第5頁,共51頁。極點預測器N階預測器的輸出是前N個本地重建值的線性組合由于H(Z)只有極點,稱這種預測器為全極點預測器8/4/

3、20226第6頁,共51頁。零點預測器M階預測器的輸出是前M個量化值的線性組合8/4/20227第7頁,共51頁。零極點預測器把零點預測器和極點預測器組合在一起,即構成零極點預測器8/4/20228第8頁,共51頁。最佳預測器確定一組最佳預測系數,使得 最小在全極點模型下,并忽略量化誤差最終輸出的信噪比與預測階數有關8/4/20229第9頁,共51頁。增量調制(,DeltaM)(1)簡單增量調制可以認為是 一位編碼時的特例,但編碼的是差值信號。編碼過程8/4/202210第10頁,共51頁。Q數碼形成Z-1C(n)S(n)e(n)-+Sl(n)解碼增量調制編碼器增量調制解碼器8/4/20221

4、1第11頁,共51頁。差值信號8/4/202212第12頁,共51頁。譯碼過程實際編碼譯碼器常用簡單RC積分器和比較器來實現(xiàn) 和8/4/202213第13頁,共51頁。(2)斜率過載和量化信噪比當信號變化速率超出 波形變化速率時,會出現(xiàn)斜率過載現(xiàn)象,以單頻信號為例8/4/202214第14頁,共51頁。8/4/202215第15頁,共51頁。量化噪聲量化信噪比8/4/202216第16頁,共51頁。通常認為 在 內均勻分布,則低通濾波 后8/4/202217第17頁,共51頁。臨界過載時信噪比與信號幅度有關,信號幅度小,信噪比降低8/4/202218第18頁,共51頁。例:結論: 與 三次方成

5、正比, 提 高一倍, 增大9 與 成反比,信號頻率提高一倍, 下降68/4/202219第19頁,共51頁。簡單增量調制的性能改進簡單增量調制有兩個問題: 斜率過載 動態(tài)范圍8/4/202220第20頁,共51頁。(1).數字壓擴自適應增量調制可同時解決動態(tài)范圍和斜率過載問題?;靖拍睿喝缤蔷鶆?中那樣,改變量化間隔。 如果連續(xù)出現(xiàn)多個“1”或者“0,即可認為信號有出現(xiàn)過載的可能,從而增大,使其本地譯碼信號跟上變化。 如果量階隨信號瞬時壓擴,則稱為瞬時壓擴,如果量階隨語音音節(jié)時間間隔中信號的平均斜率變化而進行壓擴,則稱為CVSD連續(xù)可變斜率一音節(jié)基音周期(520)ms8/4/202221第2

6、1頁,共51頁。(2).增量總和調制可解決斜率過載問題其要點是:將信號先進行積分,改變其頻率響應。使高頻分量幅度下降(與預加重相反),然后再進行 編碼。為此,在接收端為了不失真恢復原信號,需要將解碼后信號進行微分。8/4/202222第22頁,共51頁。信道誤碼對 的影響對簡單 有8/4/202223第23頁,共51頁。例如: 抗誤碼性能優(yōu)于概念上來看:個別誤碼不會引起信號嚴重惡化8/4/202224第24頁,共51頁。簡單增量調制與PCM的性能比較抽樣頻率PCM系統(tǒng)的抽樣頻率8K 系統(tǒng)的抽樣頻率不能根據抽樣定理來確定,而需要根據斜率過載條件以及信噪比來確定,一般情況下,為保證不發(fā)生斜率過載以

7、及保證與PCM系統(tǒng)有相同的信噪比, 的抽樣頻率將遠高于PCM系統(tǒng)帶寬PCM碼速率64Kbit/s,帶寬需求32K如要求與PCM有相同的傳輸質量,則要求抽樣頻率100K以上,帶寬要求50K 一般速率為32Kbit/s或16Kbit/s,但質量不如PCM 8/4/202225第25頁,共51頁。量化信噪比(比較單頻正弦情況)抗信道誤碼性能 優(yōu)于PCM設備復雜度單路 簡單,多路PCM簡單8/4/202226第26頁,共51頁。ADPCM采用自適應的必要性由于不同的講話人的語音信號的特性各不相同語音信號只能認為是短時平穩(wěn)采用固定的預測系數不可能對所有的語音信號獲得最好的結果,因此有必要采取自適應的算法

8、ADPCM的設計思路盡可能消除語音信號中的冗余對消除冗余后的信號進行有效的比特分配,從自適應角度進行最佳編碼自適應的方法自適應量化自適應預測8/4/202227第27頁,共51頁。自適應量化針對被量化信號的變化狀態(tài),隨時調節(jié)量化臺階大小以匹配輸入信號的時變方差前向估值的自適應量化對輸入信號尚未量化的樣本計算出其前向估值大小需要緩存訓練的樣本,并傳送相關的邊信息,因此引入了編碼延時和占用了一定的信道容量后向估值的自適應量化利用量化器的輸出樣本計算輸出信號的方差估值并確定量化臺階沒有延時,但影響估值的追蹤速度8/4/202228第28頁,共51頁。自適應預測前向估值的自適應預測思路與前向估值量化一

9、致,同樣有編碼延時及邊信息傳輸等問題后向估值的自適應預測利用已量化的樣本或發(fā)送數據更新預測系數8/4/202229第29頁,共51頁。信源編碼信源編碼的目的減少信源輸出符號序列的冗余度,提高符號的平均信息量信源編碼的主要方法針對信源輸出的符號序列的統(tǒng)計特性,尋找一定的方法把信源輸出序列符號變換為最短的碼字序列,使每個碼元所攜帶的平均信息量為最大,同時又盡可能保證無失真的恢復出原來的符號序列信源編碼的核心就是研究壓縮編碼算法,用盡可能低的傳輸碼率獲得盡可能好的質量8/4/202230第30頁,共51頁。匹配編碼根據編碼對象出現(xiàn)的概率分配不同長度的代碼,以保證總的代碼長度最短需要知道信號的概率分布

10、,可采用數學模型建模的方式或根據大量樣本信號進行統(tǒng)計得到典型編碼算法:Huffman編碼預測編碼利用信號之間的相關性,預測未來的信號,對預測的殘差信號進行編碼變換編碼利用信號在不同的函數空間分布的不同,選擇合適的函數將信號從一種信號空間變換到另一種有利于壓縮編碼的信號空間,再進行編碼常用的函數變換:DFT、Walsh、DCT、Haar識別編碼分解文字、語音、圖象的基本特征,與匯集這些基本特征的樣本集進行對照識別,選擇失真最小的樣本編碼傳送可用于印刷、打印等標準形狀的文字、符號和數據的編碼8/4/202231第31頁,共51頁。信源編碼算法信源編碼定理一個熵為H的信源,當信源速率為R時,只要RH

11、,則能夠以任意小的錯誤概率進行編碼;反之,如果RH,則無論采用多么復雜的編碼器和譯碼器,錯誤概率都不可能達到任意小Shannon在1948年證明了該定理,但并沒有指出具體的編解碼算法信源編碼與失真度量編碼失真原始信號x經過編碼以及解碼后恢復成x,失真量即為x與x之間的保真度或近似度的度量常用的失真度量:漢明失真、均方誤差等以一定的、可以接受的失真換取較高的信源壓縮效率8/4/202232第32頁,共51頁。語音與圖像壓縮編碼類型帶寬KHZ采樣率KHZ比特/樣點比特率kb/s電話語音0.33.481296寬帶語音0.0571614224調頻廣播0.02 153216512CD光盤0.01 204

12、4.116705.6DAB/DAT0.01 2048167688/4/202233第33頁,共51頁。類型格式分辨率幀頻HZ比特/像素比特率Mb/s電視電話QCIF17614429.97129.1會議電視CIF35228829.971236.4常規(guī)電視ITU-R6017205762516165.9HDTVITU-R709192011522516884.78/4/202234第34頁,共51頁。圖像壓縮編碼圖像壓縮編碼的必要性圖像的數據量巨大,一般必須進行壓縮編碼圖像壓縮編碼的依據圖像信號在結構和統(tǒng)計上存在大量的冗余度結構冗余度:空間和時間上的強相關性統(tǒng)計冗余度:被編碼信號概率分布的不均勻基于人

13、眼的視覺特性人眼對某些失真較不敏感,察覺不到圖像的某些細微變化圖像壓縮編碼的評價壓縮效率:壓縮前后編碼速率的比值壓縮質量:恢復圖像的質量編碼算法的復雜度編解碼延時圖像編碼采取的主要技術措施利用離散余弦變換,去除各象素點在空間域的相關性通過幀間預測差分編碼,去除活動圖像的時間相關性采用熵編碼技術,使編碼域信源的概率模型相匹配利用人眼的視覺特性,進行自適應量化編碼通過緩沖存儲器實現(xiàn)變長碼輸入與定長碼輸出之間的匹配,8/4/202235第35頁,共51頁。圖像壓縮編碼方法8/4/202236第36頁,共51頁。圖像壓縮編碼舉例Huffman編碼基本思想對出現(xiàn)概率較大的信源符號編以較短的代碼,對出現(xiàn)概

14、率較小的信源符號編以較長的代碼JPEG、H.261、MPEG-1、 MPEG-2中對量化后的DCT系數進行Huffman編碼編碼算法 1. 初始化,根據符號概率的大小按由大到小順序對符號進行排序; 2. 把概率最小的兩個符號組成一個節(jié)點; 3.重復步驟2,形成一棵“樹” ; 4.從根節(jié)點開始到相應于每個符號的“樹葉”,從上到下標上“0”(上枝)或者“1”(下枝),至于哪個為“1”哪個為“0”則無關緊要,最后的結果僅僅是分配的代碼不同,而代碼的平均長度是相同的。 5.從根節(jié)點開始順著樹枝到每個葉子分別寫出每個符號的代碼8/4/202237第37頁,共51頁。編碼特點霍夫曼碼的碼長雖然是可變的,但

15、卻不需要另外附加同步代碼。如果事先編寫出一本解釋各種代碼意義的“詞典”,即碼簿,那么就可以根據碼簿一個碼一個碼地依次進行譯碼。霍夫曼碼沒有錯誤保護功能,如果碼串中有錯誤,哪怕是1位出現(xiàn)錯誤,會出現(xiàn)錯誤傳播(error propagation)?;舴蚵a是可變長度碼,因此很難隨意查找或調用壓縮文件中間的內容,然后再譯碼,這就需要在存儲代碼之前加以考慮8/4/202238第38頁,共51頁。預測變換編碼利用圖像信號的空間和時間冗余特性,用已知的相鄰象素或圖像塊預測當前象素值,再對預測誤差進行量化、編碼和傳輸幀內預測編碼,在一幀圖像內進行預測,消除圖像在空間的相關性幀間預測編碼,在多幅圖像之間進行預

16、測,消除圖像在時間域上的相關性關鍵在于預測算法的選取游程長度編碼編碼對象為信源符號在信息流中連續(xù)出現(xiàn)的長度,根據其出現(xiàn)概率的不同編成不同長度的碼字常用于文件傳真系統(tǒng)中8/4/202239第39頁,共51頁。Standard OrganizationVideo Coding StandardTypical Range of Bit RatesTypical ApplicationsITU-TH.261P*64 k bits/sISDN Video ConferencingITU-TH.263, H.263+, H.263+Wide rangePSTN Video PhoneITU-TH.26L6

17、4kbits/sWide rangeISO11172-2MPEG-1 Video1.5 M bits/sCD-ROMISO13818-2MPEG-2 Video4-80 M bits/sSDTV, HDTVISO14496-2MPEG-4 VideoWide rangeWide rangeJVT (ITU-T, ISO)H.264Wide rangeWide range中國標準AVSWide rangeWide range8/4/202240第40頁,共51頁。語音壓縮編碼語音編碼的基本問題給定編碼速率的條件下,如何獲得更高質量的重建語音給定重建語音質量的條件下,如何降低編碼速率基本依據利用語

18、音信號本身的冗余度以及人耳的聽覺特性主要指標語音編碼質量編碼速率編碼算法的復雜度編解碼的延時8/4/202241第41頁,共51頁。語音壓縮編碼算法語音編碼器波形編碼器參量編碼器頻域時域非差分子帶編碼自適應變換域編碼差分PCMDPCMM連續(xù)可變斜率MADPCMAPC線性預測編碼信道聲碼器共振峰聲碼器倒頻譜聲碼器語音激勵聲碼器多脈沖激勵LPC碼本激勵LPC矢量和激勵LPC混合編碼器8/4/202242第42頁,共51頁。波形編碼力圖使重建語音信號保持原始語音波形語音信號作為一般信號進行處理適應能力強,重建語音質量好編碼速率較高,一般應用于6416K速率參量編碼(聲碼器)通過對語音信號特征參數的提

19、取及編碼,力圖使語音信號有盡可能高的可懂度,保持語音的語意重建語音信號的波形與原始語音信號的波形可能有相當大的差別往往利用某種語音生成的模型,在幅度譜上逼近原始語音合成語音的自然度不好,抗背景噪聲的能力比較差混合編碼結合聲碼器的特點,同時又利用波形編碼器的特點提取語音參數,優(yōu)化激勵信號使其達到與原始語音的波形匹配中速率語音編碼4.816K,應用于蜂窩移動通信、衛(wèi)星通信、軍用通信低速率語音編碼100bit/s-4.8Kbit/s8/4/202243第43頁,共51頁。語音編碼的標準G.711 PCM (64k bps)G.721 ADPCM (32k bps)G.722 7kHz帶寬64k bp

20、s速率內的音頻編碼G.723.1 6.3k/5.6k 雙速率多媒體語音編碼G.728 16k bps 語音編碼 LD-CELPG.729 8k bps多媒體語音編碼8/4/202244第44頁,共51頁。線形預測編碼LPC的原理原理:模型化人類語音信號產生的機制,提取模型參數,并且只傳輸模型的參數。語音信號的產生模型:語音的產生,聲帶和聲道不同語音產生的原因:聲音激勵源和聲道不同聲音分類:濁音和清音發(fā)聲過程口腔和鼻腔形成時變?yōu)V波器8/4/202245第45頁,共51頁。LPC語音編碼語音信號相鄰樣點之間又很強的相關性,可以用過去的樣點的線性組合來預測未來的樣點預測的誤差因此上式可看成信號e(n)激勵一個全極點濾波器 得到語音信號與人的發(fā)聲過程吻合,采用清音及濁音二元激勵模型即可合成語音使誤差均方最小,可求得一組預測系數ak,傳送:預測系數,基音周期和增益,清濁音判決8/4/202246第46頁

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論