數(shù)字語音編碼技術(shù)._第1頁
數(shù)字語音編碼技術(shù)._第2頁
數(shù)字語音編碼技術(shù)._第3頁
數(shù)字語音編碼技術(shù)._第4頁
數(shù)字語音編碼技術(shù)._第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)字語音編碼 多媒體數(shù)字信號(hào)編解碼器 COder 和 DECoder 作用:對視頻、音頻信號(hào)進(jìn)行壓縮和解壓IP網(wǎng)絡(luò)語音處理過程PCMPCM的產(chǎn)生脈沖編碼調(diào)制將模擬調(diào)制信號(hào)的采樣值變換為脈沖碼組。PCM編碼包括如下三個(gè)過程。將模擬信號(hào)轉(zhuǎn)換為時(shí)間離散的樣本脈沖序列。將離散時(shí)間連續(xù)幅度的抽樣信號(hào)轉(zhuǎn)換成為離散時(shí)間離散幅度的數(shù)字信號(hào)。用一定位數(shù)的脈沖碼組表示量化采樣值。抽樣 模擬聲音在時(shí)間上是連續(xù)的,而數(shù)字音頻模擬聲音在時(shí)間上是連續(xù)的,而數(shù)字音頻是一個(gè)數(shù)字序列,在時(shí)間上只能是斷續(xù)的。是一個(gè)數(shù)字序列,在時(shí)間上只能是斷續(xù)的。因此當(dāng)把模擬聲音變成數(shù)字聲音時(shí),需要因此當(dāng)把模擬聲音變成數(shù)字聲音時(shí),需要每隔一個(gè)時(shí)間

2、間隔在模擬聲音波形上取一每隔一個(gè)時(shí)間間隔在模擬聲音波形上取一個(gè)幅度值,稱之為采樣(抽樣),采樣的個(gè)幅度值,稱之為采樣(抽樣),采樣的時(shí)間間隔稱為采樣周期(倒數(shù)為采用頻率)時(shí)間間隔稱為采樣周期(倒數(shù)為采用頻率)抽樣量化 在數(shù)字音頻技術(shù)中,把采樣得到的表示聲在數(shù)字音頻技術(shù)中,把采樣得到的表示聲音強(qiáng)弱的模擬電壓用數(shù)字表示。模擬電壓音強(qiáng)弱的模擬電壓用數(shù)字表示。模擬電壓的幅值仍然是連續(xù)的,而用數(shù)字表示音頻的幅值仍然是連續(xù)的,而用數(shù)字表示音頻幅度時(shí),只能把無窮多個(gè)電壓幅度用有限幅度時(shí),只能把無窮多個(gè)電壓幅度用有限個(gè)數(shù)字表示,即把某一幅度范圍內(nèi)的電壓個(gè)數(shù)字表示,即把某一幅度范圍內(nèi)的電壓用一個(gè)數(shù)字表示,這稱之

3、為量化用一個(gè)數(shù)字表示,這稱之為量化量化和編碼為什么要使用CODEC? * *采樣頻率是指單位時(shí)間內(nèi)的采樣次數(shù)。采樣頻率是指單位時(shí)間內(nèi)的采樣次數(shù)。 * *奈奎斯特(奈奎斯特(Harry NyquistHarry Nyquist)采樣理論:)采樣理論:只要采樣頻率只要采樣頻率f(1/T)f(1/T)高于輸入信號(hào)最高頻高于輸入信號(hào)最高頻率的兩倍,則經(jīng)過采樣后的采樣信號(hào)能夠率的兩倍,則經(jīng)過采樣后的采樣信號(hào)能夠包含原模擬信號(hào)的全部信息,且經(jīng)過反變包含原模擬信號(hào)的全部信息,且經(jīng)過反變換和低通濾波后可不失真地恢復(fù)原模擬信換和低通濾波后可不失真地恢復(fù)原模擬信號(hào)。號(hào)。 * *電話話音的信號(hào)頻率約為電話話音的信號(hào)

4、頻率約為3.4 kHz3.4 kHz,采樣,采樣頻率就選為頻率就選為8 kHz8 kHz。 以8kHz的頻率對語音信號(hào)進(jìn)行采樣。PCM中每個(gè)采樣點(diǎn)用16位來表示,那么一秒鐘要傳輸: 16 8000 128000(b)也就是要達(dá)到128kps的傳輸速率,才可以傳送一路語音信號(hào)。因此必須對語音信號(hào)進(jìn)行壓縮。語音壓縮就是要去除傳輸信號(hào)的冗余信息。語音壓縮去除語音信號(hào)樣本的冗余信息客觀冗余 信號(hào)本身特征 (1)語音信號(hào)樣本間的相關(guān)性很強(qiáng)(8kHz時(shí)兩點(diǎn)相關(guān)0.85) (2)濁音段的準(zhǔn)周期性 (3)聲道的形狀及其變化比較慢 (4)靜止系數(shù)(語音間隔,有靜音期)主觀冗余人的聽覺特性 聽覺掩蔽特性 聽不到或

5、不靈敏的語音分量視為冗余語音編碼分類語音編碼分類根據(jù)編碼器的實(shí)現(xiàn)機(jī)理,分成三大類根據(jù)編碼器的實(shí)現(xiàn)機(jī)理,分成三大類波形編碼波形編碼參數(shù)編碼參數(shù)編碼混合編碼混合編碼1、波形編碼、波形編碼 從語音信號(hào)的波形出發(fā),對波形的從語音信號(hào)的波形出發(fā),對波形的抽樣值、預(yù)測值、預(yù)測誤差進(jìn)行編碼,抽樣值、預(yù)測值、預(yù)測誤差進(jìn)行編碼,它以重建語音波形為目的,力圖使重它以重建語音波形為目的,力圖使重建波形接近原信號(hào)波形。建波形接近原信號(hào)波形。特點(diǎn):利用抽樣定理,恢復(fù)原始信號(hào)的波形特點(diǎn):利用抽樣定理,恢復(fù)原始信號(hào)的波形 優(yōu)點(diǎn):優(yōu)點(diǎn):適應(yīng)能力強(qiáng),重建語音質(zhì)量好適應(yīng)能力強(qiáng),重建語音質(zhì)量好缺點(diǎn):缺點(diǎn):編碼速率較高編碼速率較高類

6、型:類型: PCM, 自適應(yīng)增量調(diào)制自適應(yīng)增量調(diào)制 (ADM),), 自適應(yīng)差分編碼調(diào)制(自適應(yīng)差分編碼調(diào)制(ADPCM),), 自適應(yīng)預(yù)測編碼自適應(yīng)預(yù)測編碼APC速率通常在速率通常在16-64kbit/s范圍范圍非均勻量化進(jìn)行壓縮均勻量化與非均勻量化非均勻量化 對小信號(hào)采用小的量化間隔,對大信號(hào)采用大的量化間隔,這樣可以用較少的位數(shù)編碼。 對大信號(hào)來說,雖然絕對量化誤差較大,但是因?yàn)椋海?)大信號(hào)出現(xiàn)的機(jī)會(huì)不多,(2)信噪比(相對誤差)與小信號(hào)是一致的,所以對總的話音質(zhì)量影響不大。 非均勻量化也是一種壓縮。(如PCMU和PCMA,每個(gè)樣本的精度為8位,輸出的數(shù)據(jù)率為64 kb/s ) 2.參

7、數(shù)編碼參數(shù)編碼 提取語音的一些特征信息進(jìn)行編碼,提取語音的一些特征信息進(jìn)行編碼,在收端利用這些特征參數(shù)合成語音。在收端利用這些特征參數(shù)合成語音。 優(yōu)點(diǎn):優(yōu)點(diǎn):編碼速率低。編碼速率低。 缺點(diǎn):缺點(diǎn):語音的音質(zhì)和自然度較差,很語音的音質(zhì)和自然度較差,很難辨別說話人。(有一定的可懂度難辨別說話人。(有一定的可懂度) 類型類型:LPC線性預(yù)測編碼線性預(yù)測編碼速率通常是在速率通常是在4.8kbit/s以下以下話音的形成原理 肺中的空氣受到擠壓形成氣流,氣流通過聲門(聲帶)沿著聲道(由咽、喉、口腔等組成)釋放出去,就形成了話音。 氣流、聲門可以等效為一個(gè)激勵(lì)源,聲道可以等效為一個(gè)時(shí)變?yōu)V波器(共振峰)。 話

8、音信號(hào)具有很強(qiáng)的相關(guān)性(長期相關(guān)、短期相關(guān))。等效為激勵(lì)源聲道喇叭口話音的分類 濁音(voiced sounds):聲道打開,聲帶在先打開后關(guān)閉,氣流經(jīng)過使聲帶要發(fā)生張馳振動(dòng),變?yōu)闇?zhǔn)周期振動(dòng)氣流。濁音的激勵(lì)源被等效為準(zhǔn)周期的脈沖信號(hào)。 清音(unvoiced sounds):聲帶不振動(dòng),而在某處保持收縮,氣流在聲道里收縮后高速通過產(chǎn)生湍流,再經(jīng)過主聲道(咽、口腔)的調(diào)整最終形成清音。清音的激勵(lì)源被等效為一種白噪聲信號(hào)。 爆破音(plosive sounds):聲道關(guān)閉之后產(chǎn)生壓縮空氣然后突然打開聲道所發(fā)出的聲音。2.3.2 語音的時(shí)間波形和頻譜特性語音的時(shí)間波形和頻譜特性 看一段實(shí)際語音放大結(jié)

9、論1:時(shí)間的連續(xù)函數(shù)、頻率幅度隨時(shí)間變化是隨機(jī)的 元音元音 其中一段再放大結(jié)論2:短時(shí)間短時(shí)間內(nèi)近似認(rèn)為不變結(jié)論3:元音是準(zhǔn)周期函數(shù)(基頻)基音周期 清音清音結(jié)論4:清音為隨機(jī)起伏語音信號(hào)產(chǎn)生的數(shù)字模型 理想模型標(biāo)準(zhǔn) 準(zhǔn)確 但不可能,必近似、簡化 簡單 最好用成熟的理論 線性模型線性系統(tǒng)語音信號(hào)脈沖序列脈沖序列 激勵(lì)源,線性系統(tǒng) 聲道喇叭口激勵(lì)源 周期序列(濁音)/隨機(jī)序列(清音)線性系統(tǒng) 短時(shí)內(nèi)不變清/濁轉(zhuǎn)換聲道模擬濾波器基音周期脈沖序列發(fā)生器隨機(jī)噪聲發(fā)生器輸出語音s(n)LPC系數(shù)增益x(n)u(n)聲道模型 無損聲管模型用于理論研究,對復(fù)雜的音無法模擬 共振峰模型 將聲道模擬成一個(gè)諧振腔

10、,諧振頻率就是共振峰頻率。元音用3個(gè)共振峰就可以了,鼻音等要用到5個(gè)共振峰以上。1、聲管模型“短時(shí)”間聲道是一個(gè)形狀穩(wěn)定的級聯(lián)管道聲音在不同截面積間傳輸會(huì)有反射。 A1 A2 A3 .2、共振峰模型根據(jù)聲道近似為諧振腔的特性,有另外模型模擬其共振峰用串聯(lián)網(wǎng)絡(luò)模擬聲道。一般元音用全極點(diǎn)模型,系統(tǒng)函數(shù):G 幅值因子Ak 模型系數(shù)P 極點(diǎn)個(gè)數(shù)(階數(shù))P、ak 決定了聲道地特性(人的特征),p越大越吻合。一般p=812全極點(diǎn)模型 語音信號(hào)由本身的若干次過去值和當(dāng)前的激勵(lì)值線性組合產(chǎn)生:系統(tǒng)函數(shù):求解過程 求解系數(shù)的過程,其實(shí)就是找出共振峰頻率的過程。系統(tǒng)函數(shù)取極值的點(diǎn),就是共振峰頻率所在的點(diǎn)。 求解方法多樣,其中之一是自相關(guān)法。自相關(guān)法3.混合編碼混合編碼 介于波形編碼和參數(shù)編碼的一種編碼。介于波形編碼和參數(shù)編碼的一種編碼。即在參數(shù)編碼的基礎(chǔ)上引入了波形編即在參數(shù)編碼的基礎(chǔ)上引入了波形編碼的一些特征。碼的一些特征。波形編碼波形編碼+參數(shù)編碼參數(shù)編碼可在可在4-16kb

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論