語音編碼技術及其在通信系統(tǒng)中的應用_第1頁
語音編碼技術及其在通信系統(tǒng)中的應用_第2頁
語音編碼技術及其在通信系統(tǒng)中的應用_第3頁
語音編碼技術及其在通信系統(tǒng)中的應用_第4頁
語音編碼技術及其在通信系統(tǒng)中的應用_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、多媒體技術基礎期末論文 題目:語音壓縮編碼及其在通信系統(tǒng)中的應用 專業(yè): 通 信 工 程 姓名: 張 嫻 學號: 1 2 3 0 7 1 3 0 4 4 9 2016年5月24日在現代通信中,隨著科學技術的迅速發(fā)展,圖像、數據等非話音信息在通信信息總量中所占的比例大大提高,而且這種提高的趨勢仍然會繼續(xù)下去。比如說,以前的手機基本上只可以打電話,發(fā)短信,不能接收文件,不能觀看視頻,但是現在的3G手機甚至4G手機,可以看視頻,接發(fā)文件,還有很多的應用軟件。語音信號所占的傳輸比例的確是大大減小。但是,到目前為止,在大多數通信系統(tǒng)中,傳輸最多的信息仍然是語音信號。比如說我們經常打電話,用語音發(fā)微信,聽

2、音樂,看視頻等等。在可以預見的未來通信中,盡管語音信號在通信信息總量中所占的比例會有所下降,但仍然會是傳輸最多的信息。語音信號是模擬信號,不能直接在數字通信系統(tǒng)中傳輸,必須先進行模/數轉換再進行數/模轉換,這種轉換就稱為語音編譯碼(簡稱語音編碼),其作用是將語音模擬信號轉換為數字信號,到了接收端,再將收到的語音數字信號還原為語音模擬信號??梢姡Z音編碼技術在數字通信中具有十分重要的作用,隨著計算機技術與超大規(guī)模集成電路技術的飛速發(fā)展和廣泛應用,信號的數字處理、數字傳輸和數字存儲日益顯示出巨大的優(yōu)越性。數字化技術的應用范圍迅速擴大到各個科學技術領域,滲透到工農業(yè)生產和社會生活的各個方面。因此,盡

3、量減少信號占有帶寬、持續(xù)時間和存儲容積,以節(jié)省信號在傳輸、處理和存儲中的開銷,具有巨大的經濟價值。所以,語音編碼技術,尤其是語音壓縮編碼技術(編碼速率在16kbit/s以下),近年來受到人們的廣泛關注和重視,有著極為迫切的客觀需求。正是在這種強大的客觀需求推動下,近二十幾年來,隨著計算機技術、微電子技術、信號處理技術以及編碼理論的發(fā)展和進步,語音編碼技術取得了許多突破性的進展,提出了許多新的編碼技術和算法,并迅速得到了廣泛應用。由于各種通信網絡工作的環(huán)境各不相同,傳輸信息也不完全一樣,用戶情況更是千差萬別,因而對語音編碼提出的要求也就不盡相同。綜合各種通信網絡對語音編碼的共同要求,大致有幾下幾

4、點。(1)編碼速率要適合在常用話音信道內傳輸,一般要求編碼速率在2kbit/s到16kbit/s之間。(2)在一定的編碼速率下,語音質量要盡可能高,即譯碼后的恢復語音的保真度要盡量高。(3)編譯碼時延要小??倳r延一般要求不大于65ms。(4)編譯碼算法復雜度不能太大,以適用于大規(guī)模集成電路實現。(5)堅韌性好,有較好的抗誤碼性能。然而上述這些要求之間往往又是互相矛盾的。例如,為了使語音質量好,編碼速率就應該要高一些,但這又會使其占用的信道帶寬增大,信道帶寬是有限的,編碼速率過高就不能在信道內傳輸。因此,在實際應用中要根據具體情況綜合分析和比較,在各個要求之間進行一定的折衷,選擇最佳的編碼方案。

5、目前語音編碼已獲得非常廣泛的應用,語音編碼系統(tǒng)的構成也多種多樣。歸納起來可以分為兩大類:第一類,編碼存儲回放系統(tǒng),又稱為數字語音錄放系統(tǒng),例如發(fā)聲字典;第二類,編碼傳輸譯碼系統(tǒng),又稱為數字電話通信系統(tǒng)。下圖分別畫出了這兩種語音編碼系統(tǒng)的原理方框圖。語 音譯碼器數字存儲媒介語 音編碼器輸入 輸出語音 語音數字語音錄放系統(tǒng)原理方框圖 調制器信 道編碼器語 音編碼器輸入語音傳輸設備及信道解調器信 道譯碼器語 音譯碼器輸出語音數字電話通信系統(tǒng)原理方框圖數字語音錄放系統(tǒng)與模擬語音錄放系統(tǒng)相比,具有靈活性高、可控性強、壽命長等有點。在這類語音編碼系統(tǒng)中,對編碼實時性要求不高,但要求有較高的數據壓縮率,以降

6、低數字存儲的容量。對譯碼器則要求算法盡量簡單,成本盡量低,能夠實時譯碼或基本實時譯碼,以減少響應時延。數字電話通信系統(tǒng)與模擬電話通信系統(tǒng)相比,具有抗干擾能力強、保密性好、易于集成化等優(yōu)點。在數字電話通信系統(tǒng)中,一般都要求實時編碼和譯碼,同時對算法復雜度、抗誤碼能力等都有一定要求。語音編碼按照傳統(tǒng)的分類方法通常分為3類:波形編碼、參數編碼和混合編碼。波形編碼是最基本的語音編碼方式,也是最早提出和實現的編碼技術,應用很廣。它將時間或頻域(或變換域)信號直接變換成數字信號,力求使重建語音波形保持原始語音信號的波形形狀。具有語音質量好、抗干擾性能強等有點。其缺點是所需用的編碼速率高,一般在16kbit

7、/s到64kbit/s之間。波形編碼當其編碼速率進一步降低時,其語音質量等性能指標下降很快,但是若編碼速率過高,又會使占用的信道帶寬增大。參數編碼又稱為聲源編碼或聲碼器,有時還稱分析綜合編碼,它將信源信號在頻域或其他變換域提取特征參數,然后對這些特征參數進行編碼和傳輸,在譯碼端再將收到的數字信號譯成特征參數,根據這些特征參數重建語音信號。參數編碼通過對語音信號特征參數的提取和編碼,力求使重建語音信號具有盡可能高的可懂度,即保持原語音信號的語意,但重建語音信號的波形與原語音信號波形卻相差甚遠。參數編碼的優(yōu)點是可實現低速率語音編碼,其編碼速率可低至2.4kbit/s一下。其缺點是語音質量差,自然度

8、較低,即使是熟人一般也聽不出講話人是誰。此外,參數編碼的堅韌性也不夠好。混合編碼是在采用線性預測編碼(LPC)技術的語音參數編碼的基礎上,通過許多的改進措施,并引入波形編碼的原理,使用合成分析法而形成的一種新的編碼技術,它將波形編碼和參數編碼結合起來,克服了它們的缺點,借鑒了它們的長處,是近年來在語音編碼技術上的一個突破性進展,它在4kbit/s到16kbit/s速率上能夠得到高質量的合成語音?;旌暇幋a技術在現代通信系統(tǒng)中得到了廣泛應用并正處于迅速發(fā)展之中,目前仍有許多新的編碼算法不斷出現。語音編碼所要解決的基本問題,是在給定的編碼速率條件下,如何得到盡可能好的重建語音質量(或稱編碼質量),同

9、時應盡可能減少編譯碼算法的復雜度和時延,并使編譯碼系統(tǒng)有較好的堅韌性;或是在給定編碼質量、編譯碼復雜度和時延以及堅韌性要求的條件下,如何盡可能降低語音編碼所需的速率等。這5個方面的要求,就是衡量語音編碼性能的主要指標。在不同的應用中,對各個指標要求的側重點也有所不同。編碼速率可以用“比特/秒”(bit/s)來度量,它代表了編碼的總速率,一般用V表示。編碼速率也可以用“比特/樣點”(bit/p)表示,它代表了平均每個語音樣點用多少比特編碼,一般用R表示,V和R可以通過取樣速率聯系起來: V=R·其中的取樣速率通常根據Nyquist定理由信號帶寬決定。顯然,平均每樣點比特數R越高,語音波

10、形或參數量化就越精細,話音質量也就越好,相應地對傳輸帶寬或存儲容量的要求也就越高。編碼和譯碼算法的復雜程度同語音編碼的話音質量有非常密切的關系。在同樣數碼率的情況下,采用復雜一些的算法將會獲得更好的話音質量;而對于相同的話音質量,采用復雜一點的算法能夠降低編碼所需的速率。編解碼算法的復雜程度同硬件的實現也有密切關系,它將決定硬件實現的復雜程度、體積、功耗以及成本等。增加算法的復雜程度可以提高語音編碼質量,但往往也伴隨著增加編譯碼的時延。在實時語音通信系統(tǒng)中,語音編譯碼的時延對系統(tǒng)的通話質量有很大的影響。例如在衛(wèi)星通信中,一跳傳輸時延約0.5s,講話后再聽到對方回答需要1s,已明顯感到對方反應“

11、遲鈍”。如果時延再大,正常交談都會發(fā)生困難。時延影響通話質量的另一個原因是回聲。當時延比較小時,回聲同話機側音及房間交混回響聲想混,因而感覺不到。當往返總時延超過約100ms左右,發(fā)話就能夠從手機中聽到自己的回聲。如果回聲傳輸路徑損耗不夠大,就會聽到多次回聲,從而嚴重影響通話質量。近年來,一方面由于社會進步和科技發(fā)展所帶來的強大客觀需求的推動,另一方面由于計算機技術、通信技術、信號處理技術和微電子技術的飛速發(fā)展提供了良好的條件,語音編碼技術在許多方面都取得了突破性的進展,有很多的研究和發(fā)展的熱點課題。其中,倍受人們關注和重視、具有重要應用前景和價值的幾個熱點課題是:極低速率語音編碼技術;寬頻帶

12、高音質聲頻編碼技術。下面簡要介紹這兩個熱點課題的研究和發(fā)展情況。一、極低語音編碼技術編碼速率低于1200bit/s的語音編碼,稱為極低速率語音編碼。為了滿足日益增長的對通信的巨大客觀需求,現代通信一方面在努力建設新的通信線路,擴大通信信道的帶寬,增大通信容量,實現寬帶通信;另一方面也在努力壓縮信號編碼的速率,減少其傳輸占用的帶寬,提高通信信道的利用率,增大通信容量。但是事實上,有的通信信道難以擴展并且質量很差,如短波通信;有的信道正在廣泛應用,短期內無法或很難更新或擴展,如市話通信和載波通信;有的信號十分昂貴,如宇宙通信、衛(wèi)星通信等,新建和擴展信道花費過大;在這些情況下,低速率語音編碼是一種最

13、佳選擇,每壓縮一比特速率都會帶來巨大的經濟利益;還有些特殊的通信,如在強大人為干擾下或環(huán)境噪聲極強條件下的軍用通信、數字語音保密通信等,無法或極難新建或擴展信道,在這種條件下,極低速率語音編碼就成為唯一選擇。綜上所述可見,在保證良好語音質量的前提下,大力壓縮語音編碼速率,實現極低速率語音編碼,有重大的經濟價值,具有巨大的吸引力和廣闊的應用前景。1、1200bit/s到400bit/s的語音編碼技術速率在1200bit/s到400bit/s的語音編碼技術,其編碼算法一般是在2.4kbit/s的聲碼器的基礎上,利用幀間相關性和矢量量化技術進一步進行數據壓縮,實現極低速率的語音編碼。(1) 幀填充技

14、術在速率為2.4kbit/s的聲碼器的碼序列中,其相鄰幀之間仍存在較大的相關性,尤其是在語音的平穩(wěn)段,如濁音段,幀與幀之間的變化不大。若每隔一幀作一次編碼和傳輸,并通知接受端在空白幀(未編碼傳輸幀)中填充哪一幀(是其前相鄰幀或后相鄰幀),即可將編碼速率幾乎壓縮一半。根據這種思路,再配合采取一些其他的處理技術,就可以進一步壓縮編碼速率,并能使語音質量基本保持不變。 (2) 利用矢量量化技術 利用矢量量化(VQ)技術,可以進一步減小幀間參數的相關性。其基本思路是:把一幀或幾幀需要編碼傳輸的參數劃分為一組,組成一個矢量,根據感覺加權最小失真原則,在一個已訓練、設計好的碼書中,搜索該矢量對應的最佳碼字

15、,作為該矢量的量化矢量,對此碼字的編碼和傳輸則僅對該碼字的序號(在碼書中的標號或地址)進行編碼傳輸。這樣就可以進一步降低編碼速率,又不會過多的影響語音質量。2、400bit/s以下的語音編碼技術 雖然從信息論的觀點來看,語音編碼的信息速率下限是50bit/s左右,但是,大量的研究結果表明,若是將比特率降低到400bit/s以下,目前低速率語音編碼中所使用的基于LP分析合成的各種算法都難以滿足要求,其所提供的語音質量根本無法達到公眾能夠接受的程度。所以為使語音編碼的速率降低至400bit/s以下,甚至逼近50bit/s左右的下界,只有采用語音識別與合成技術,構成識別合成型聲碼器。 (1)識別合成

16、型聲碼器的基本原理 識別合成型聲碼器,采用語音識別與合成技術對語音基元進行編碼。語音基元可以是音素、音節(jié)或詞,任何一種語言的音素或音節(jié)是一個有限數目的集合(比如說漢語拼音里面的聲母、韻母等,又比如英語中的音標),用其作為基元進行編碼,就可以實現無限詞匯的語音編碼。這種聲碼器在發(fā)送端采用語音識別技術進行語音基元識別和編碼,接收端根據收到的語音基元代碼和某些附加的韻律信息再重新合成語音。由于這種聲碼器需要編碼傳輸的參數很少,而在接收端又是按規(guī)則合成語音,所以其傳輸速率很低,而且接收端恢復出的合成語音其質量非常好。目前已研制成功的漢語識別合成型聲碼器,其速率低于200bit/s,語句可懂度達95%以

17、上。事實上,大量的研究證明,識別合成型聲碼器的編碼速率還可以降低到150bit/s以下,仍可恢復出可懂度很高、自然度較好的合成語音。 一個無限詞匯漢語識別合成型聲碼器的原理方框圖如下圖所示。連續(xù)語音識別系統(tǒng)語音 識別結果語音合成系統(tǒng) 合成語音韻律特征提取 韻律信息(2)關于識別合成型聲碼器編碼速率的估計 漢語識別合成型聲碼器的編碼速率究竟能降至多少?這可以根據現有的研究結果做如下估計。 在所有需要編碼傳輸的信息當中,基音輪廓信息的編碼是最重要的問題,若采用標量量化,每幀(10ms)用8bit對基音周期進行編碼,編碼速率將達到800bit/s。但是現在可以采用矢量量化技術,使其比特率可降低到每個

18、音節(jié)8bit,相當于每秒1640bit(每秒鐘發(fā)音25個音節(jié)),加上每個音節(jié)的拼音和聲調編碼用11bit,音長和能量因子每音節(jié)各需用5bit,音聯標志每秒用1bit,共需傳輸30bit/音節(jié),則比特率為60bit/s150bit/s。這就是漢語識別合成型聲碼器所能降低的最低速率的下限。 二、寬頻帶高音質聲頻編碼技術語音編碼技術在沿著極低速率語音編碼方向發(fā)展的同時,近年來又適應數字音頻廣播、電話會議、消費電子技術等方面的強大客觀需求,朝著寬頻帶高音質聲頻編碼的方向發(fā)展,這也是語音編碼目前一個很重要的發(fā)展動向,受到人們的極大關注。寬頻帶聲頻有供人們娛樂和鑒賞的功能,因此對于寬頻帶聲頻編碼的重建語音

19、的音質有很高的要求。目前的寬頻帶聲頻編碼一般都是采用較高比特率的波形編碼,以保證重建語音的質量能夠達到要求。當然,這些波形編碼可以是時域的,可以是頻域的,還可以是變換域的。下面介紹一種實用的寬頻帶高音質聲頻編碼器,即由日本索尼公司提出的“自適應變換聲學編碼器(Adaptive Transform Acoustic Coder,ATRAC)”。1. 編碼系統(tǒng)的組成比特分配 參量 頻譜恢復頻譜量化信號分析PCM音響 量化頻譜 頻譜 信號信號合成 PCM音響圖1 ATARC編、譯碼器原理方框圖QMFBIMDCT-HMDCT-HQMFB 1122 H帶頻譜 1122PCM 音響QMFBIMDCT-MM

20、DCT-MQMFB 5.511 M帶頻譜 5.511 MDCT-LIMDCT-L 05.5 L帶頻譜 05.5 PCM 音響 圖2 ATARC信號分析-合成原理方框圖 2.設計特點ATRAC的設計充分利用了人耳的以下聽覺特性。(1)等響度 即對于同樣聲壓級的聲音,人耳實際感覺到的音量卻是隨頻率而變化的。(2)同時掩蔽 即當幾個跨度不同的聲音同時存在時,強聲使得較弱的聲音難以聽見。這種特性受掩蔽聲音和被掩蔽聲音之間的相對頻率關系影響很大。(3)異時掩蔽 即不同時間先后產生的聲音之間的掩蔽。強聲音掩蔽其后產生的弱聲音,稱為“正向掩蔽”;弱聲音短暫地被其后產生的強聲音所掩蔽,稱為“反向掩蔽”。(4)對頻譜形狀的依賴 即如果信號能量相同,聽覺對頻譜寬闊平坦的類噪聲信號的S/N敏感程度,要比之對陡峭的單音信號的敏感程度低得多。3.編碼系統(tǒng)的工作原理ATRAC的工作按照下述步驟進行:(1)音頻分幀 它將輸入聲音信號每512個樣值分為一幀,構成一個聲音幀,時間約為11.6ms,然后以幀為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論