語音信號(hào)處理課件_第1頁
語音信號(hào)處理課件_第2頁
語音信號(hào)處理課件_第3頁
語音信號(hào)處理課件_第4頁
語音信號(hào)處理課件_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第五章語音編碼語音編碼概述波形編碼參數(shù)編碼混合編碼21.語音編碼概述

語音編碼又分信源編碼和信道編碼。本章主要介紹信源編碼。 語音信號(hào)編碼(信源編碼)與語音信號(hào)壓縮,實(shí)際上是同一技術(shù)兩個(gè)名稱。其目的是在給定編碼速率條件下,得到盡量好的重建語音質(zhì)量(或稱編碼質(zhì)量),同時(shí)應(yīng)減小編解碼延時(shí)以及算法的復(fù)雜程度。其中,編碼質(zhì)量、編碼速率、編解碼算法的復(fù)雜程度、編解碼延時(shí)是相互關(guān)聯(lián)的四個(gè)主要因素。3語音信號(hào)編碼系統(tǒng)的應(yīng)用編碼-存儲(chǔ)-回放系統(tǒng)(數(shù)字語音錄放)編碼-傳輸-解碼系統(tǒng)(數(shù)字語音通信)

4語音信號(hào)壓縮(編碼)方法分類有損壓縮,又分成如下三類:波形編碼全頻帶編碼(如PCM、ADPCM)、子帶編碼(簡(jiǎn)寫SBC)、變換域編碼等。參數(shù)編碼(聲碼器)在語音信號(hào)發(fā)送端提取語音的特征參數(shù),在接收端以某種最小的失真合成原始信號(hào)。如線性預(yù)測(cè)聲碼器(簡(jiǎn)寫LPC)?;旌暇幋a波形編碼參數(shù)編碼的結(jié)合。如如矢量和激勵(lì)線性預(yù)測(cè)(簡(jiǎn)寫VSELP)、多脈沖激勵(lì)線性預(yù)測(cè)(簡(jiǎn)寫MP-LPC)、碼本激勵(lì)線性預(yù)測(cè)(簡(jiǎn)寫CELP)、多帶激勵(lì)(簡(jiǎn)寫MBE)等。無損壓縮:如統(tǒng)計(jì)編碼(霍夫曼編碼、算術(shù)編碼)、游程編碼等。5衡量語音編碼性能的主要因素

A.編碼質(zhì)量客觀評(píng)定方法。如信噪比、加權(quán)信噪比、平均分段信噪比等。適用于速率較高的波形編碼類型的算法。主觀評(píng)定方法。常采用平均意見得分(MeanOpinionScore,簡(jiǎn)稱MOS得分),判斷韻字測(cè)試(DiagnosticRhymeTest,簡(jiǎn)稱DRT得分),判斷滿意度測(cè)量(DiagnosticAcceptabilityMeasure,簡(jiǎn)稱DAM得分)等。主觀評(píng)定方法因符合人類聽覺對(duì)語音質(zhì)量的感覺,目前得到廣泛應(yīng)用。6平均意見得分(MOS)評(píng)分質(zhì)量尺度妨礙尺度5

優(yōu)不察覺4

良好剛察覺但不可厭3

一般察覺及稍微可厭2

差可厭(但不令人反感)1

很差極可厭(令人反感)

在數(shù)字語音通信中,MOS分4.0~4.5為高質(zhì)量數(shù)字化語音,達(dá)到長(zhǎng)途電話網(wǎng)的要求,接近于透明信道的編碼,也稱為網(wǎng)絡(luò)質(zhì)量。MOS分3.5分左右稱為通信質(zhì)量,這時(shí)重建話音質(zhì)量有所下降,但不妨礙正常通話,可以滿足多數(shù)話音通信系統(tǒng)的使用要求。MOS分為3.0分以下常稱為合成語音質(zhì)量,是指一些聲碼器合成語音所能達(dá)到的質(zhì)量,一般具有足夠高的可懂度,但是自然度以及講話人的確認(rèn)方面不是很好。7判斷韻字測(cè)試(DRT)判斷韻字測(cè)試是反映話音清晰度或者可懂度的一種測(cè)試方法,主要用于低速率語音編碼的質(zhì)量測(cè)試。這種測(cè)試方法使用若干對(duì)同韻母進(jìn)行測(cè)試,測(cè)試中,讓受試者每次聽到一對(duì)韻母中的某個(gè)音,然后讓其判斷聽到的音是哪個(gè)字,全體試驗(yàn)者判斷正確的百分比就是DRT得分。通常認(rèn)為DRT為95%以上時(shí)清晰度為優(yōu),85%-95%為良,75%-85%為中,65%-75%為差,65%以下為不可接受。實(shí)際通話中,由于整句中有較多的冗余度,即使個(gè)別字聽不清楚,也能理解整句話的原因,當(dāng)清晰度為90%時(shí),整句話的可懂度接近于100%。測(cè)試滿意度測(cè)量(DAM)

測(cè)試滿意度測(cè)量(DAM)是對(duì)話音質(zhì)量的綜合評(píng)估,它是在多種條件下對(duì)話音質(zhì)量可接受程度的一種度量,也是采用百分比評(píng)分。8提高語音編碼質(zhì)量的主要途徑利用語音信號(hào)的冗余度語音信號(hào)樣點(diǎn)間的相關(guān)性幅度分布的不均勻性

利用人耳的聽覺特性聽覺的掩蔽效應(yīng)聽覺對(duì)幅度和頻率的感知特性9衡量語音編碼性能的主要因素

B.編碼速率

單位為“比特/秒”(b/s),一般以I

表示;或單位為“比特/樣點(diǎn)”,一般以R

表示。I

和R

通過采樣速率fs

聯(lián)系起來。即

I=R·fs

式中,R

越高,語音質(zhì)量越高,但對(duì)傳輸帶寬的要求也越高。

在波形編碼中,為了取得高質(zhì)量的重建話音,一般取R>=2

在參數(shù)編碼中R可以低到0.25甚至0.1以下。信號(hào)類型采樣頻率(KHz)編碼速率(Kbps)頻率范圍(Hz)電話82.4-64300-3400激光唱盤CD44.1>70020-20000數(shù)字廣播及數(shù)字磁帶48>70020-2000010根據(jù)編碼速率,語音編碼可以分成如下幾類:高速率32Kbps以上中高速率16Kbps——32Kbps中速率4.8Kbps——16Kbps低速率1.2Kbps——4.8Kbps極低速率1.2Kbps以下11衡量語音編碼性能的主要因素

C.編解碼的復(fù)雜程度

與語音編碼的話音質(zhì)量及硬件實(shí)現(xiàn)成本有關(guān),一般來說,增加編碼算法的復(fù)雜度會(huì)增加話音的質(zhì)量。

D.編解碼延時(shí)

在實(shí)時(shí)通信中引起延時(shí)和回聲,必須考慮。當(dāng)延時(shí)超過100ms時(shí),說話者就會(huì)聽到自己的回聲。122.語音波形編碼

脈沖調(diào)制編碼(PulseCodingModulation,PCM)

均勻量化PCM

非均勻量化PCM

自適應(yīng)量化PCM(AdaptivePCM,APCM)

差分脈沖編碼(DifferencePCM,DPCM)自適應(yīng)差分脈沖編碼(ADPCM)

增量調(diào)制(DeltaModulation,DM)和自適應(yīng)增量調(diào)制子帶編碼(Sub-bandcoding,SBC)

變換域編碼13脈沖調(diào)制編碼(PCM)PCM是最簡(jiǎn)單的波形編碼方法,它僅僅是對(duì)輸入信號(hào)進(jìn)行采樣和量化典型的窄帶話音帶寬限制在4kHz以下,采樣頻率是8kHz

量化有均勻量化和非均勻量化兩種方式PCM編碼原理圖采樣14均勻量化的信噪比當(dāng)語音信號(hào)的采樣率為8KHz,采用12bit/樣本(B=12)量化,SNR≈65dB,編碼速率為8*12=96Kbps均勻量化采樣輸入樣本值x(n)量化輸出數(shù)據(jù)y(n)非均勻量化采樣輸入樣本值x(n)量化輸出數(shù)據(jù)y(n)15非均勻量化的基本思想對(duì)小信號(hào)采用小的量化間隔,對(duì)大信號(hào)采用大的量化間隔,這樣可以用較少的位數(shù)編碼。對(duì)大信號(hào)來說,雖然絕對(duì)量化誤差較大,但是因?yàn)椋捍笮盘?hào)出現(xiàn)的機(jī)會(huì)不多;信噪比(相對(duì)誤差)與小信號(hào)是一致的;人耳對(duì)信號(hào)幅度的感知靈敏度是成對(duì)數(shù)關(guān)系所以對(duì)總的話音質(zhì)量影響不大16μ律壓擴(kuò)(μ-lawcompand)與A律壓擴(kuò) μ律(μ-Law)壓擴(kuò)(G.711)主要用在北美和日本等地區(qū)的數(shù)字電話通信中。x(n)

為輸入信號(hào),一般規(guī)格化為-1<=x(n)<=1,則Xmax=1μ為確定壓縮量的參數(shù),它反映最大量化間隔和最小量化間隔之比,μ=0則不壓縮,一般取100<=μ<=500。17原始語音μ=50μ=200μ=500μ-law語音編碼結(jié)果18xy=lin2mu(x)z=mu2lin(y)x-z19A律(A-Law)壓擴(kuò)(G.711)主要用在歐洲和中國(guó)大陸等地區(qū)的數(shù)字電話通信中對(duì)于采樣頻率為8kHz,樣本精度為13位、14位或者16位的輸入信號(hào),使用μ律壓擴(kuò)編碼或者使用A律壓擴(kuò)編碼,經(jīng)過PCM編碼器之后每個(gè)樣本的精度為8位,輸出的數(shù)據(jù)率為64kb/s。這個(gè)數(shù)據(jù)就是CCITT推薦的G.711標(biāo)準(zhǔn)(A=87.6)。設(shè)Xmax=120自適應(yīng)脈沖編碼調(diào)制是根據(jù)輸入信號(hào)幅度大小來改變量化階大小的一種波形編碼技術(shù)。這種自適應(yīng)可以是瞬時(shí)自適應(yīng),即量化階的大小每隔幾個(gè)樣本就改變,也可以是音節(jié)自適應(yīng),即量化階的大小在較長(zhǎng)時(shí)間周期里發(fā)生變化。改變量化階大小的方法有兩種:一種稱為前向自適應(yīng)(forwardadaptation),另一種稱為后向自適應(yīng)(backwardadaptation)。APCM比一般的非均勻量化PCM能提高信噪比4-6dB自適應(yīng)脈沖調(diào)制編碼(APCM)21前向APCM前向自適應(yīng)是根據(jù)未量化的樣本值來估算輸入信號(hào)的電平,以此來確定量化階的大小,并對(duì)其電平進(jìn)行編碼作為邊信息(sideinformation)傳送到接收端。后向APCM后向自適應(yīng)是從量化器剛輸出的過去樣本中來提取量化階信息。由于后向自適應(yīng)能在發(fā)收兩端自動(dòng)生成量化階,所以它不需要傳送邊信息。22DPCM采用預(yù)測(cè)編碼的方式傳輸信號(hào),所謂預(yù)測(cè)編碼就是根據(jù)過去的信號(hào)樣值來預(yù)測(cè)下一個(gè)信號(hào)樣值,并僅把預(yù)測(cè)值與現(xiàn)實(shí)樣值的差值加以量化,編碼后進(jìn)行數(shù)字信號(hào)傳輸。在接收端經(jīng)過和發(fā)送端相同的預(yù)測(cè)操作,低通濾波器便可恢復(fù)出與原始信號(hào)相近的波形。其依據(jù)是語音信號(hào)相鄰樣本間有很強(qiáng)的相關(guān)性(冗余度高),因此相鄰樣本的差值遠(yuǎn)小于樣本值本身。DPCM是采用固定預(yù)測(cè)器與固定量化器的差值脈沖調(diào)制,它是分析ADPCM工作原理的基礎(chǔ)。 差分脈沖編碼(DPCM)23DPCM的原理圖誤差信號(hào)會(huì)逐漸累積,導(dǎo)致可能語音出現(xiàn)嚴(yán)重失真24實(shí)際DPCM的結(jié)構(gòu)圖誤差信號(hào)不再累積25采用LPC編碼的DPCM的結(jié)構(gòu)圖編碼器P(z)解碼器P(z)對(duì)于相同的量化比特,DPCM可以獲得比PCM更高的信噪比,1階DPCM信噪比提高約5dB.在相同的信噪比情況下,DPCM的比特率比PCM小,1階DPCM減少1bit,3階DPCM減少2bit,編碼速率由64Kbps降到48Kbps26ADPCM綜合了APCM的自適應(yīng)特性和DPCM系統(tǒng)的差分特性,是一種性能比較好的波形編碼。它的核心思想是:用過去的樣本值估算下一個(gè)輸入樣本的預(yù)測(cè)值,線性預(yù)測(cè)P(z)的系數(shù)ai可變,預(yù)測(cè)誤差d(n)更小,量化的電平間隔可以更小,從而減小量化誤差使實(shí)際樣本值和預(yù)測(cè)值之間的差值。利用自適應(yīng)的思想改變量化階的大小,即用小的量化階去編碼小的差值,使用大的量化階去編碼大的差值;自適應(yīng)量化可以進(jìn)一步減小量化誤差。接收端的譯碼器使用與發(fā)送端相同的算法,利用傳送來的信號(hào)來確定量化器和逆量化器中的量化階大小,并且用它來預(yù)測(cè)下一個(gè)接收信號(hào)的預(yù)測(cè)值。ADPCM已經(jīng)形成國(guó)際標(biāo)準(zhǔn):如G.721、G.723,以及G.726G.726提供4種碼率:40、32、24、16Kbps,其語音質(zhì)量相當(dāng)于64Kbps的PCM編碼 自適應(yīng)差分脈沖編碼(ADPCM)27ADPCM系統(tǒng)編碼器原理圖每接收到一個(gè)語音信號(hào),它根據(jù)語音信號(hào)的PCM編碼按照一定算法得到下次信號(hào)的預(yù)測(cè)值。把本次的語音信號(hào)的PCM編碼值與上次的預(yù)測(cè)值進(jìn)行對(duì)比,得到一個(gè)信號(hào)的差值,這個(gè)差值可以用很少的位長(zhǎng)來表示。通過自適應(yīng)量化技術(shù),根據(jù)不同的編碼信號(hào)自動(dòng)調(diào)整量化的步長(zhǎng),減小量化誤差。28G.72632kb/sADPCM-編碼器在編碼器中先將輸入的8位PCM碼轉(zhuǎn)換為14位線性碼同預(yù)測(cè)信號(hào)相減產(chǎn)生差值信號(hào)對(duì)差值信號(hào)進(jìn)行自適應(yīng)量化產(chǎn)生4比特的ADPCM代碼c(n)一方面把c(n)送給解碼器,另一方面利用c(n)進(jìn)行本地解碼,得到量化后的差值信號(hào),同預(yù)測(cè)信號(hào)相加得到重建信號(hào)。自適應(yīng)預(yù)測(cè)器采用二階極點(diǎn),六階零點(diǎn)的零極點(diǎn)預(yù)測(cè)器為了使量化能適應(yīng)語音、帶內(nèi)數(shù)據(jù)以及信令等具有不同統(tǒng)計(jì)特性以及不同幅度的輸入信號(hào),自適應(yīng)要依據(jù)輸入信號(hào)的特性自動(dòng)改變自適應(yīng)數(shù)據(jù)參數(shù)來控制量階,這一功能由量化器定標(biāo)因子自適應(yīng)、自適應(yīng)速度控制、音信號(hào)和轉(zhuǎn)換檢測(cè)等功能單元完成。音信號(hào)和轉(zhuǎn)換檢測(cè)器

xi(n)c(n)xr(n)xe(n)k2(n)k1(n).目的:在不顯著損失語音質(zhì)量的前提下,將數(shù)碼率由64Kbps降到32Kbps29G.72632kb/sADPCM-解碼器解碼器的解碼過程實(shí)際已經(jīng)包含在編碼過程中,但是增加了線性碼到PCM碼的轉(zhuǎn)換和同步編碼調(diào)整單元。同步編碼調(diào)整的作用是防止多級(jí)同步級(jí)聯(lián)編碼工作時(shí)產(chǎn)生誤差積累,以保持較高的轉(zhuǎn)換質(zhì)量。c(n)xr(n)xp(n)xd(n)xc(n)

k1(n)y(n)30G.726ADPCM編譯碼器的輸入信號(hào)是G.711PCM代碼。G.711PCM碼采樣率是8kHz,每個(gè)代碼用8位表示,因此它的數(shù)據(jù)率為64kb/s。而G.726ADPCM的輸出代碼是“自適應(yīng)量化器”的輸出,該輸出是用4位表示的差分信號(hào),它的采樣率仍然是8kHz,它的數(shù)據(jù)率為32kb/s,這樣就獲得了2∶1的數(shù)據(jù)壓縮。313.語音參數(shù)編碼與混合編碼

波形編碼的目標(biāo)是再現(xiàn)語音信號(hào)的時(shí)域波形,在32Kbps或之上的編碼速率下能夠得到非常好的語音質(zhì)量,也可以在24Kbps或16Kbps速率下得到可接受的通話質(zhì)量。但是很難進(jìn)一步降低編碼速率。參數(shù)編碼的目標(biāo)是構(gòu)造語音的生成模型,發(fā)送端傳送該模型的參數(shù),在接收端通過該模型來合成還原語音??梢詫?shí)現(xiàn)很低的編碼速率(低至2.4Kbps)?;旌暇幋a綜合利用了參數(shù)編碼速率低和波形編碼音質(zhì)好的優(yōu)點(diǎn),實(shí)現(xiàn)了在中低速率下的較高質(zhì)量的合成語音。32參數(shù)編碼的基本思想是利用語音信號(hào)生成的聲學(xué)模型,通過信號(hào)分析技術(shù)獲得關(guān)于該模型的頻譜包絡(luò)、基音周期、清濁音判斷等的相關(guān)信息,在接收端通過這些信息來合成還原語音信號(hào)三種參數(shù)編碼器通道聲碼器共振峰聲碼器

線性預(yù)測(cè)(LPC)聲碼器33線性預(yù)測(cè)(LPC)聲碼器輸入語音線性預(yù)測(cè)分析器編碼器基音檢測(cè)器解碼器線性預(yù)測(cè)合成器激勵(lì)信號(hào)產(chǎn)生器合成語音LPC聲碼器原理圖發(fā)送端接收端基于全極點(diǎn)模型的LPC分析編碼參數(shù):LPC參數(shù)、基音周期、增益、清濁判斷不對(duì)預(yù)測(cè)殘差信號(hào)進(jìn)行量化和傳輸(因此無法得到原來的波形)34LPC參數(shù)的編碼10階的全極點(diǎn)模型LPC分析LPC參數(shù)的選擇預(yù)測(cè)系數(shù)ai

量化誤差容易導(dǎo)致系統(tǒng)不穩(wěn)定(合成濾波器的極點(diǎn)在單位圓外)

一般不直接對(duì)預(yù)測(cè)參數(shù)編碼傳輸

反射系數(shù)ki

可以保證合成器的穩(wěn)定,但是不同的ki值對(duì)量化誤差的敏感度不一樣,需要采用非均勻量化用于LPC-10聲碼器線譜對(duì)參數(shù)LSP

是最常用的LPC編碼參數(shù)量化誤差相對(duì)獨(dú)立,即單個(gè)LSP參數(shù)的量化誤差只會(huì)影響其所對(duì)應(yīng)的共振峰的頻譜包絡(luò),不會(huì)影響真?zhèn)€頻譜ki和LSP都可以從ai中很容易求得35LPC聲碼器的相關(guān)標(biāo)準(zhǔn)1976年美國(guó)軍方確定LPC-10作為2.4Kbps速率編碼器的推薦編碼方式1985年美國(guó)官方接受LPC-10作為聯(lián)邦標(biāo)準(zhǔn)(FS-15)

速率極低合成語音質(zhì)量很差、很不自然,主要是因?yàn)樵谇鍧嵋舻呐袛嘁约盎糁芷诘奶崛∩喜粔驕?zhǔn)確,合成激勵(lì)源信號(hào)和原來的LPC預(yù)測(cè)誤差信號(hào)相差較大1986年美國(guó)第三代保密電話裝置(STU-III)采用了LPC-10的增強(qiáng)型,LPC-10e

改善了激勵(lì)源:混合激勵(lì)代替LPC-10中的二元激勵(lì);激勵(lì)脈沖加抖動(dòng)處理;多脈沖激勵(lì)改進(jìn)基音提取算法采用LSP代替ki36原始語音低通濾波100~3600HzA/D變換8KHz,12bits預(yù)加重計(jì)算分析相位基音分析存儲(chǔ)器低通濾波器清/濁音檢測(cè)2階逆濾波AMDF基音提取基音及清/濁音校正預(yù)測(cè)器分析存儲(chǔ)器計(jì)算RMS計(jì)算預(yù)測(cè)系數(shù)2幀參數(shù)存儲(chǔ)器2幀參數(shù)存儲(chǔ)器參數(shù)編碼誤差校正和映射并變串及同步產(chǎn)生編碼語音輸出pitchV/UVRMSRCLPC-10的編碼器框圖原始語音經(jīng)過一低通濾波器之后,輸入A/D轉(zhuǎn)換器中,以8KHz速率采樣得到數(shù)字化語音,然后每180個(gè)采樣分為一幀(22.5ms),以幀為處理單元,提取語音特征參數(shù)并加以編碼傳送。A/D變換后輸出的數(shù)字化語音,經(jīng)低通濾波,2階逆濾波后,再用平均幅度差函數(shù)(AMDF)計(jì)算基音周期,經(jīng)過平滑、校正得到該幀的基音周期。同時(shí)對(duì)低通濾波后輸出的數(shù)字語音進(jìn)行清/濁音檢測(cè),經(jīng)平滑、校正后得到改正的該幀的清/濁音標(biāo)志。37編碼語音輸入并變串及同步檢測(cè)誤差檢測(cè)校正解碼參數(shù)解碼幀塊到基音塊的轉(zhuǎn)換與插值反射系數(shù)轉(zhuǎn)換成預(yù)測(cè)系數(shù)基音產(chǎn)生噪音產(chǎn)生清/濁音開關(guān)綜合器計(jì)算增益輸出存儲(chǔ)器去加重D/A變換低通濾波3600Hz合成語音輸出RMSRCpitchV/UV在收端首先通過查表,對(duì)碼流進(jìn)行檢錯(cuò)、糾錯(cuò),經(jīng)過糾錯(cuò)譯碼后即可得到基音周期、清/濁音標(biāo)志、增益以及反射系數(shù)的數(shù)值。譯碼結(jié)果延時(shí)一幀輸出,使得輸出數(shù)據(jù)可以在過去一幀、現(xiàn)在一幀、將來一幀三幀內(nèi)進(jìn)行平滑。由于每幀語音只傳輸一組參數(shù),考慮一幀內(nèi)可能有不止一個(gè)基音周期,因此要對(duì)接收數(shù)值進(jìn)行幀塊到基音塊的轉(zhuǎn)換和插值。LPC-10的解碼器框圖38濁音清音Pitching/voicing77RMS55sync11k155k255k355k455k54k64k74k84k93k102誤差校正020總計(jì)5453LPC-10的碼本設(shè)計(jì)39LPC-10聲碼器合成語音與原始語音的比較 LPC系統(tǒng)中,全部參數(shù)量化為2.4kb/s,如果不考慮信道誤碼,可懂度得分:3.6KHz原始語音LPC-10合成語音DRT高于95%90%正確DRT(有噪聲)92%~93%高于82%正確DAM高于654840語音混合編碼LPC聲碼器的主要問題:過于簡(jiǎn)化的二元激勵(lì)源(周期脈沖或隨機(jī)噪聲)是導(dǎo)致合成語音質(zhì)量較差的根本原因混合編碼的基本方法就是在LPC聲碼器的基礎(chǔ)上,采用更高質(zhì)量的波形編碼算法來優(yōu)化激勵(lì)源信號(hào)激勵(lì)源采取周期脈沖和噪聲信號(hào)的混合體(語音的長(zhǎng)時(shí)相關(guān)模型)閉環(huán)搜索算法—合成分析法(analysis-by-synthesis)來選擇最佳激勵(lì)源信號(hào)最佳激勵(lì)源選擇標(biāo)準(zhǔn):采用感覺加權(quán)均方誤差最小判決準(zhǔn)則41語音信號(hào)的短時(shí)-長(zhǎng)時(shí)預(yù)測(cè)

(short-termandlong-termprediction)語音信號(hào)樣本間的短時(shí)相關(guān)特性

p取值很小,10-12,一般在一個(gè)基音周期以內(nèi)由聲道共振峰調(diào)制產(chǎn)生語音信號(hào)樣本間的長(zhǎng)時(shí)相關(guān)特性

P為基音周期不計(jì)長(zhǎng)時(shí)相關(guān)的線性預(yù)測(cè)合成模型計(jì)入長(zhǎng)時(shí)相關(guān)的線性預(yù)測(cè)合成模型激勵(lì)發(fā)生器1/A(Z)語音激勵(lì)發(fā)生器1/A(Z)1/P(Z)語音42短時(shí)預(yù)測(cè)<經(jīng)典的線性預(yù)測(cè)>去除了信號(hào)的短時(shí)相關(guān)性,殘差信號(hào)近似于聲門波激勵(lì)信號(hào)長(zhǎng)時(shí)預(yù)測(cè)去除信號(hào)中相鄰基音周期間的相關(guān)性,殘差信號(hào)類似于噪聲信號(hào)語音信號(hào)的短時(shí)-長(zhǎng)時(shí)預(yù)測(cè)

(short-termandlong-termprediction)

s(n)?=--piiiza1+?-=+--11)(kkPkzb+__u(n)v(n)

短時(shí)預(yù)測(cè)

長(zhǎng)時(shí)預(yù)測(cè)43語音信號(hào)的短時(shí)-長(zhǎng)時(shí)預(yù)測(cè)

(short-termandlong-termprediction)

u(n)中還有比較明顯的周期脈沖,需要較多的量化比特v(n)中脈沖不再明顯,信號(hào)更接近于白噪聲信號(hào),易于量化LPC參數(shù)譜44在混合編碼算法中,需要對(duì)短時(shí)預(yù)測(cè)(LPC)參數(shù)、長(zhǎng)時(shí)預(yù)測(cè)參數(shù)b,基音周期P,以及預(yù)測(cè)殘差信號(hào)v(n)進(jìn)行量化編碼。算法的重點(diǎn)在v(n)的編碼

v(n)類似白噪聲信號(hào)不是直接對(duì)v(n)的每個(gè)樣本點(diǎn)編碼(編碼速率太高)一種作法是設(shè)定一個(gè)矢量碼本,其中的每一個(gè)矢量代表一種可能 的v(n),對(duì)每一幀語音,都是從這個(gè)矢量碼本中選擇其中一個(gè)最佳 矢量作為v(n)的替代品進(jìn)行合成語音

假定一幀語音有256個(gè)樣點(diǎn),如果直接對(duì)每個(gè)v(n)的樣點(diǎn)用8bit量化,需要256*8bit。假定我們選擇的矢量碼本中有256個(gè)矢量,每一幀語音選擇其中一個(gè)矢量作為v(n)的近似,則只需要8個(gè)bit就可以量化一幀語音的v(n)。現(xiàn)在問題的關(guān)鍵是如何從這256個(gè)矢量的碼本中選擇跟當(dāng)前語音的v(n)最接近的一個(gè)矢量?合成分析法(Analysis-by-synthesis)

45基于感覺加權(quán)濾波器(perceptuallyweightedfilter)和合成分析法(analysis-by-synthesis)的碼字矢量選擇算法激勵(lì)發(fā)生器線性預(yù)測(cè)綜合濾波器合成器均方誤差最小估值感覺加權(quán)濾波LPC分析原始語音信號(hào)LPC參數(shù)、P、b+合成語音誤差信號(hào)激勵(lì)發(fā)生器是從碼本里依次選擇一個(gè)碼字矢量,將所得的合成語音與原始語音相比較,得到一個(gè)誤差信號(hào),該誤差信號(hào)經(jīng)過聽覺感知加權(quán)后,可以計(jì)算其均方誤差。比較碼本里每一個(gè)碼字矢量所對(duì)應(yīng)的均方誤差,選擇誤差最小的一個(gè)碼字適量作為v(n)的近似矢量。46感覺加權(quán)濾波器感覺加權(quán)濾波器的依據(jù)是人耳的聽覺掩蔽效應(yīng)。在語音頻譜中能量較高的頻段的噪聲相對(duì)于能量較低頻段的噪聲不易被感知,在度量原始語音與合成語音之間的誤差時(shí)記入此因素,語音能量高的頻段允許誤差大一些,能量低的頻段允許誤差小一些。引入頻域感覺加權(quán)濾波器來計(jì)算二者的誤差并使其達(dá)到最?。?7感覺加權(quán)濾波器取感覺加權(quán)濾波器在z域的表達(dá)式為:感覺加權(quán)濾波器的特性由預(yù)測(cè)系數(shù)和加權(quán)因子確定。r=1,W(z)=1,沒有加權(quán)r=0,W(z)=A(z),加權(quán)系數(shù)和語音的共振峰(頻譜包絡(luò))成反比在8KHz采樣頻率下,一般取r=0.8W(z)的實(shí)際作用就是使得實(shí)際誤差信號(hào)的譜不再平坦,而是有著與語音信號(hào)譜相似的包絡(luò)形狀。48感覺加權(quán)濾波器A(z)1/A(z),信號(hào)頻譜包絡(luò)A(z/0.8)W(z)(r=0.8)可見,加權(quán)濾波器跟信號(hào)的頻譜包絡(luò)大至成反比關(guān)系,也就是說,在信號(hào)能量大的地方,誤差對(duì)整體誤差的貢獻(xiàn)較小(因?yàn)槿硕鷮?duì)這些誤差不太敏感),信號(hào)能量小的地方,誤差對(duì)整體誤差的貢獻(xiàn)較大。這樣,可以使得所選擇的激勵(lì)源碼字矢量合成的語音聽覺上效果最好。49多脈沖激勵(lì)線性預(yù)測(cè)聲碼器(Multi-pulselinearpredictivecoding,MPLPC)規(guī)則脈沖激勵(lì)線性預(yù)測(cè)聲碼器(Regularpulseexcitationlinearpredictivecoding,RPELPC)碼激勵(lì)線性預(yù)測(cè)聲碼

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論