




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第7章語音編碼技術(shù)7.1語音信號統(tǒng)計特性
7.2語音信號處理
7.3語音波形編碼器
7.4語音參數(shù)編碼器
7.5語音混合編碼器
7.6變速率語音編碼
習題與思考題 7.1語音信號統(tǒng)計特性
7.1.1語音信號的產(chǎn)生
語音產(chǎn)生的大致過程如下:從肺部壓出的空氣由氣管到達聲門,氣流流經(jīng)聲門時形成聲音,然后再經(jīng)咽腔,由口腔或鼻腔送出。其中,咽腔和口腔、鼻腔構(gòu)成由多節(jié)聲管組成的聲道,當腔體呈不同形狀,舌、齒、唇等處于不同位置時,相當于形成一個具有不同零極點分布的濾波器,氣流通過該濾波器后產(chǎn)生相應的頻響輸出,從而發(fā)出不同的聲音。人的說話過程產(chǎn)生的聲音通常分為兩種基本類型:第一類為濁音,由聲帶振動而產(chǎn)生,每次振動使一股空氣從肺部流入聲道,產(chǎn)生一個準周期的空氣脈沖。激勵聲道的各股空氣之間的間隔稱為音調(diào)間隔或基音周期(PitchPeriod),其波形如圖7-1(a)所示,它表現(xiàn)為準周期。
第二類為清音,一般又分成摩擦音和破裂音兩種。前者用空氣通過聲道的狹窄段而產(chǎn)生的湍流作為音源;后者聲道在瞬間閉合,然后在氣壓激勵下迅速散開而產(chǎn)生破裂音源。清音的波形如圖7-1(b)所示,它比濁音具有更大的隨機性,更像噪聲。圖7-1典型的濁、清音波形圖典型的語音信號波形如圖7-2所示。從中可以看出,語音波形的各段之間具有明顯的停頓,而且各段波形具有突發(fā)性,即各段能量在開始時猛增,然后緩慢減小,這正是人們發(fā)音的特點。另外,由于濁音而形成的男、女聲的基音周期分別為5~20ms和2.5~10ms,而典型的濁音持續(xù)時間約為100ms,因此一個單音中可能有20~40個音調(diào)間隔。圖7-2語音信號的典型特征7.1.2語音信號的時域統(tǒng)計特性
從時域的角度看,語音信號的統(tǒng)計特性主要有以下幾個方面。
1.幅度非均勻分布
一般說來,話音信號的長時平均幅度概率分布特性的一階近似可簡單由拉普拉斯分布或伽瑪分布近似,即
(7-1)(7-2)其理論上的拉普拉斯分布概率密度或伽瑪概率密度分布歸一化后如圖7-3所示。其中,虛線為實際測量得到的語音振幅分布。
由圖7-3可以看出,語音信號的幅度概率分布特性具有以下特征:①幅度為零及其附近值的概率較大,這說明低電平的波形和無聲的時間較多;②大幅度信號出現(xiàn)的概率較??;③在二者之間的概率密度是幅度的單調(diào)函數(shù)。圖7-3長時語音的幅度分布
2.樣本間存在相關(guān)
語音波形采樣數(shù)據(jù)的最大相關(guān)性存在于鄰近樣本之間。當采樣頻率為8kHz時,相鄰樣本間的相關(guān)系數(shù)大于0.85;甚至在相距10個樣本之間,還存在一定的相關(guān)性。如果采樣頻率提高,樣本間的相關(guān)性更強。
3.周期之間的相關(guān)
雖然語音信號的頻譜大致為300~3400Hz之間,但在特定的瞬間,某一段聲音卻往往只是該頻帶內(nèi)的少數(shù)頻率分量起作用。當聲音只存在少數(shù)幾個基本頻率時,就會像某些振蕩波形一樣,存在準周期性,因而周期與周期之間存在一定的相關(guān)性。
4.靜止系數(shù)
在語音通話中,總是一個人在講、一個人在聽,一般平均下來每人各占一半的通話時間。聽的時候不講,即使講的時候也會出現(xiàn)字、詞、句之間的停頓。通話分析表明,話音間隙使得全雙工話路的典型效率為通話時間的40%(或60%是不講話的)。7.1.3語音信號的頻域統(tǒng)計特性
從頻域的角度看,語音信號的統(tǒng)計特性主要有以下幾個方面。
1.非均勻的長時功率譜密度
在相當長的時段內(nèi)統(tǒng)計平均,可得到長時功率譜密度函數(shù),典型曲線如圖7-4(a)所示。不難看出,其功率譜呈現(xiàn)強烈的非平坦性,這說明語音信號的頻率分布不均勻,有的頻率出現(xiàn)多,有的頻率出現(xiàn)少,此外直流分量的能量并非最大。圖7-4語音信號的功率譜密度函數(shù)
2.語音特有的短時功率譜密度
語音信號的短時功率譜,在某些頻率上出現(xiàn)峰值,在另一些頻率上出現(xiàn)谷值,典型曲線如圖7-4(b)所示。這些峰值頻率,也就是能量較大的頻率,通常稱為共振峰頻率。此頻率不只一個,但最主要的1或2個決定了語音的基本特征。另外,整個譜也是隨頻率增加而遞減,這說明語音的高頻部分占的能量是非常少的。
7.2語音信號處理
語音信號是非平穩(wěn)的、時變、離散性大、信息量大、復雜的信號,因此處理難度很大。各國學者經(jīng)過多年努力,對一些問題的處理已經(jīng)取得較好的結(jié)果。本節(jié)就語音處理中的實用方法和實際物理量進行簡要介紹,它們是語音信號壓縮編碼的基礎(chǔ)。
7.2.1語音信號的數(shù)字生成模型
語音是由肺部的氣流激勵聲道,然后由嘴唇或鼻孔或同時從嘴唇和鼻孔發(fā)射出來而形成的,語音信號的數(shù)字生成模型就是采用數(shù)學模型來描述這種語音形成過程。它由激勵模型、聲道模型和輻射模型組成,如圖7-5所示。圖7-5數(shù)字語音的生成模型
1.激勵模型
人發(fā)不同的聲音時,激勵的情況各不相同。發(fā)音的情況大致可以分為兩大類。第一類,在發(fā)濁音時,氣流經(jīng)過繃緊的聲帶,對聲道進行沖擊,產(chǎn)生振動,使得聲門處形成準周期的脈沖串。聲帶的繃緊程度不同,振動的頻率也不同,基音周期就不同。不同的人聲帶不同,其基音周期也不同。濁音不但包括所有的元音,也包括濁輔音。研究發(fā)現(xiàn),發(fā)濁音時所產(chǎn)生的脈沖波形類似于三角形的脈沖串。第二類,在發(fā)清音時,聲帶處于松弛狀態(tài),不發(fā)生振動,氣流通過聲門直接進入聲道。所有的清輔音都屬于這種情況。不論擦音還是塞音,其激勵信號都相當于隨機白噪聲,可以用均值為0、方差為1的噪聲來表示。另外,現(xiàn)有研究表明,聲門模型可以用兩級極點模型進行等效。
應該指出,將語音信號分為受周期脈沖激勵和受白噪聲激勵兩種情況并不完全符合實際情況,有時甚至與實際情況相差很遠,目前已經(jīng)提出改進的激勵模型。但為了分析方便,一般都采用這種二元激勵模型。
2.聲道模型
聲學理論研究指出,語音信號是聲道被激勵發(fā)生共振而產(chǎn)生的輸出,因此可以將聲道看做是由多個不同截面積的無損聲管串聯(lián)而成的系統(tǒng)。在工程應用中,聲道可以利用一個時變線性系統(tǒng)來模擬,該系統(tǒng)的傳遞函數(shù)V(Z)是一個全極點函數(shù)。假定聲道長度17cm左右,利用無損聲管模型,在0~5kHz范圍內(nèi)可得到5個共振峰,其位置大致在500Hz、1500Hz、2500Hz、3500Hz、4500Hz附近,每個共振峰對應傳遞函數(shù)V(Z)的一對極點,這與實際的語音信號的頻譜分析結(jié)果基本一致。在實際的語音編碼或語音處理中,(7-3)
3.輻射模型
聲道的終端是口和唇。從聲道輸出的是速度波,而語音信號是聲壓波,二者的倒比稱為輻射阻抗,可以用它來表示口唇的輻射效應和頭部的繞射效應等。由輻射引起的能量損耗正比于輻射阻抗的實部,口唇端的輻射效應在高頻段比低頻段明顯,因此可以用一個高通濾波器來表示輻射模型:
R(Z)=1-r·z-1 (7-4)
式中,系數(shù)r近似為1。在實際信號分析時,經(jīng)常采用預加重技術(shù),即在采樣之后插入一個一階高通濾波器,在語音合成時再進行去加重處理,恢復出原來的語音。
根據(jù)上面分析,數(shù)字語音信號的生成模型可以用如下全極點形式的傳遞函數(shù)表示為
H(z)=U(z)V(z)R(z)
(7-5)7.2.2語音信號的預處理
1.預加重
預加重也稱高頻提升。預加重的目的是進行語音信號頻譜的高頻提升,使其變得平坦,便于進行頻譜分析或聲道參數(shù)分析。
在介紹語音信號數(shù)字生成模型時,聲門模型是一個兩極點模型,輻射模型是一個零點模型,如果一個零點抵消一個極點,那么還有一個極點的影響,這可以通過預加重設計出另一個零點來抵消極點的影響。因此,預加重傳遞函數(shù)一般表示為
H(z)=1-m·z-1 (7-6)
式中,m的典型值為0.94。
2.分幀處理
由于語音信號是非平穩(wěn)過程,是時變的,但是由于人的發(fā)音器官的肌肉運動速度較慢,所以語音信號可以認為是局部平穩(wěn)的,或短時平穩(wěn)的。這樣就可將平穩(wěn)過程的處理方法和理論引入到語音信號的短時處理,使得語音信號的分析變得簡單。實踐證明,這樣做是符合客觀實際的,也是合理的。因此,語音信號分析常采用分幀處理,一般每秒的幀數(shù)約為33~100。幀信號既可以是連續(xù)的,也可以是有交疊的。語音信號分析中常用“短時分析”這一概念。短時分析實質(zhì)上就是把語音信號截成一段一段的,這個操作對數(shù)字信號最簡單的實現(xiàn)方式就是用一個矩形窗截取信號。數(shù)字信號處理理論告訴我們,兩個信號時域相乘,在頻域相當于兩個信號的卷積,矩形窗的高頻頻譜必將影響語音信號的高頻部分。因此,簡單的矩形窗有時并不合適,需要設計一下更加復雜的窗函數(shù),以減少窗函數(shù)的頻譜對信號頻譜的影響。7.2.3短時平均能量、幅度和過零率
1.短時平均能量
在信號時刻n,語音信號的短時平均能量En定義為
式中,x(n)為語音數(shù)字信號,w(n)為窗函數(shù),N為窗大小。在w(n)為矩形窗時,(7-8)(7-7)若令h(n)=w2(n),則式(7-7)可寫成
此式表明,窗函數(shù)加權(quán)的短時能量相當于將“語音平方”信號通過一個線性濾波器的輸出,該濾波器的單位沖激響應為h(n),實現(xiàn)方式如圖7-6所示。圖7-6語音短時能量估計(7-9)
2.短時平均幅度
對于高電平信號,短時平均能量En的平方處理方式顯得動態(tài)范圍過大,在數(shù)字處理的有限字長效應下,容易產(chǎn)生溢出。因此,可以采用短時平均幅度Mn來度量語音信號的幅度變化,其定義如下:
采用這個參數(shù)后,語音時域分析時清/濁音的Mn值的動態(tài)范圍不如En值大。(7-10)由于Mn值和En值都要進行低通濾波的運算,且等效的窗口長度是有限的,因此我們可以用快速衰減的無限長度的窗口函數(shù)來代替,這個等效的低通濾波器的沖激響應可以表示為
其中,0<a<1。h(n)對應的系統(tǒng)函數(shù)為(7-11)(7-12)因此,采用該濾波器的Mn和En的差分實現(xiàn)方式如下:
En-a×En-1=x2(n)(7-13)
Mn-a×Mn-1=|x(n)|(7-14)
用差分方法實現(xiàn)可以連續(xù)計算、簡單方便。
3.短時平均過零率
信號的幅度值從正值到負值的變化要經(jīng)過零值,從負值到正值也要經(jīng)過零值,稱其為過零。如果統(tǒng)計信號一秒鐘有幾次過零,就稱為過零率。如果將信號分段,統(tǒng)計該段內(nèi)信號的過零率,就是短時平均過零率。短時平均過零率主要用來估計語音信號的頻率性質(zhì)。
語音信號序列x(n)的短時平均過零率Zn可定義為
式中,sgn[·]是符號函數(shù),w(n)為窗函數(shù),在這里一般為矩形窗,其實現(xiàn)流程如圖7-7所示。(7-15)圖7-7語音信號的短時平均過零率短時平均過零率在語音信號分析中主要用來進行清/濁音判決。發(fā)濁音時,聲帶振動,盡管有若干個共振峰,但其能量集中于低于3kHz的頻率范圍內(nèi)。發(fā)清音時,聲帶不振動,聲道的某部分阻塞氣流產(chǎn)生類白噪聲,其能量主要集中于較高的頻率范圍。也就是說,發(fā)清音時的過零率要高于發(fā)濁音時的過零率。通過大量的實驗統(tǒng)計,得到每10ms作為一個平均段的清音和濁音的典型平均過零率的直方圖,直方圖的分布形狀與高斯分布很接近,如圖7-8所示??梢钥闯觯瑵嵋魰r短時平均過零率的均值為14過零/10ms,清音時短時平均過零率的均值為47過零/10ms。圖中清音過零率和濁音過零率有一個交疊區(qū),此時用短時平均過零率很難區(qū)分清/濁音。圖7-8語音信號10ms內(nèi)的典型平均過零率7.2.4短時自相關(guān)函數(shù)和平均幅度差函數(shù)
1.短時自相關(guān)函數(shù)
語音信號的短時自相關(guān)函數(shù)定義為
由于自相關(guān)函數(shù)是偶函數(shù),可以改寫成(7-16)(7-17)即自相關(guān)函數(shù)可理解為序列[x(n)x(n-k)]通過一個具有沖激響應為hk(n)的數(shù)字濾波器的輸出,hk(n)=w(n)w(n+k),其運算過程如圖7-9所示。圖7-9語音信號的短時自相關(guān)函數(shù)也可以不用數(shù)字濾波器來運算,而采用直接運算的方法,只需將公式改寫為
這里要求窗函數(shù)是偶對稱的,即w(n)=w(-n)。窗不動,語音信號移動,如果窗口長度0≤n≤N-1,則式(7-18)可簡化為(7-18)(7-19)
2.短時平均幅度差函數(shù)
短時自相關(guān)函數(shù)是語音時域分析的重要參量之一,但是運算量很大。因此,人們又提出與自相關(guān)函數(shù)具有類似功效的短時平均幅度差函數(shù)(ShortTimeAverageMagnitudeDifferenceFunction),但運算量要小得多,在語音信號處理中得到廣泛應用。
為引入短時平均幅度概念,我們先介紹周期信號。如果信號是周期的(周期為Np),則應有d(n)=x(n)-x(n-k)在k=0,±Np,…處d(n)=0。
對于實際語音信號,上式雖不一定等于零,但也應該是最低的低谷,這些低谷將出現(xiàn)在周期的整數(shù)倍位置上。短時平均幅度差函數(shù)定義如下:
式中,R是信號x(n)的平均值。顯然,如果x(n)在窗口取值范圍內(nèi)具有周期p,則Fn(k)在k=p,2p,…處將出現(xiàn)谷點。這里的窗函數(shù)一般選擇矩形窗,兩個窗的長度不同。這樣上式可以簡化為(7-21)(7-20)
3.三電平中心消波法
用自相關(guān)函數(shù)提取音調(diào)周期時,關(guān)心的是時間,也就是自相關(guān)函數(shù)值出現(xiàn)的位置,峰值本身的大小無關(guān)緊要。如果將消波(如圖7-10所示)后的波形無論大小,都定義為±1,被消去的部分定義為0,那么用1、-1、0這三個電平進行自相關(guān)運算將變得簡潔、快速。圖7-10三電平消波過程三電平中心消波后,自相關(guān)函數(shù)計算非常簡單。如果我們以y(n)表示三電平中心消波后的輸出,則自相關(guān)函數(shù)為
式中,乘積y(n+m)y(n+m+k)只有三個值:0、+1和-1。因此,無論是軟件實現(xiàn)還是硬件實現(xiàn),都避免了乘法的計算,從而降低了自相關(guān)函數(shù)計算的復雜性。實驗表明,采用三電平中心消波法能大大簡化自相關(guān)函數(shù)的計算量,卻基本上不降低音調(diào)檢測性能。(7-22)
7.3語音波形編碼器
7.3.1
ADPCM與G.721語音編碼器
1984年,CCITT公布了G.721建議。該建議規(guī)定了高音質(zhì)32kb/sADPCM語音編碼的國際標準,并在1986年做了進一步的修改。該編碼器語音質(zhì)量十分接近G.711A律或μ律64kb/s的PCM的語音質(zhì)量,MOS分值為4.1,已達到國際長途電話質(zhì)量等級。其抗誤碼性能優(yōu)于PCM,采樣率為8kHz,每一樣點采用4比特編碼,其編碼器工作原理如圖7-11所示。圖7-11
G.721建議的高質(zhì)量32kb/sADPCM編碼原理框圖
G.721建議的編譯碼器的輸入或輸出是標準的A律或m律PCM語音信號。為便于數(shù)學計算,在編碼器中先將8位的PCM信號s(k)轉(zhuǎn)換成14位的線性信號sl(k)。然后,同預測信號se(k)相減產(chǎn)生差值信號d(k),再對d(k)進行自適應量化,得到每樣點4比特的ADPCM信號I(k)。一方面,將I(k)通過信道送給譯碼器;另一方面,還需要將I(k)送給本地譯碼器進行譯碼。本地反自適應量化器得到信號dq(k)與預測信號se(k)相加得到本地重建信號sr(k)。自適應預測器根據(jù)sr(k)、dq(k)及前幾個時刻的樣點值計算se(k+1)。為了使量化器能適應語音、帶內(nèi)數(shù)據(jù)及信令等具有不同統(tǒng)計特點以及不同幅度的輸入信號,自適應要依據(jù)輸入信號的特性自動改變自適應參數(shù)來控制量階。這一功能由量化器幅度因數(shù)自適應、自適應速率控制、聲調(diào)和過渡檢測器這三個功能單元完成。圖7-12為譯碼器原理框圖,從圖中可以看到,譯碼器實際上已經(jīng)包含在編碼器之中。與編碼端的譯碼器相比,只是多了一個線性碼到PCM碼的轉(zhuǎn)換以及同步編碼調(diào)整單元。同步編碼調(diào)整是為了避免在某種情況下由于同步級聯(lián)編碼(ADPCM→PCM→ADPCM等數(shù)字連接)而產(chǎn)生的累積誤差,以保證較高的轉(zhuǎn)換質(zhì)量。圖7-12
G.721建議的高質(zhì)量32kb/sADPCM譯碼原理框圖
1.自適應量化
G.721算法是針對采用16比特字長、定點運算的硬件實現(xiàn)來設計的。為使自適應量化器有較大的動態(tài)范圍以及將乘除法運算簡化為加減法運算,自適應量化在對數(shù)域進行。首先將d(k)轉(zhuǎn)換為以2為底的對數(shù),即令dl(k)=lb|d(k)|。取完對數(shù)后,原先對d(k)用量階歸一化的除法運算|d(k)|/Δ(k)可在對數(shù)域用減法實現(xiàn),即
dlk(k)=dl(k)-y(k)(7-23)
式中,dlk(k)為量化器實際輸入信號,y(k)為量化器幅度定標因子,y(k)=lbΔ(k)。定標后信號采用3比特量化編碼,加上符號位為4比特。表7-1給出了G.721ADPCM量化器輸入/輸出特性。反自適應量化是自適應量化的逆過程。這時,作對數(shù)域的加法運算,即
lb|ds(k)|=dlk(k)+y(k)(7-24)
再作反對數(shù)運算,求dq(k),最后乘以dq(k)的符號位,即獲得誤差重建信號dq(k)。表7-1
G.721ADPCM量化器輸入/輸出特性
2.量化器自適應定標因子及速率控制
G.721建議的32kb/sADPCM的量化器定標因子采用運算量小、性能好的抗干擾乘子自適應算法,其特點是能按輸入信號統(tǒng)計特性改變量化器自適應速度。對短時能量變化較快的語音信號使用快速自適應,對短時能量變化較慢的帶內(nèi)數(shù)據(jù)信號等使用慢速自適應。量階自適應抗擾乘子算法為 Δ(k)=M[I(k-1)]Δβ(k-1)(7-25)
兩邊取以2為底的對數(shù),有
lbΔ(k)=βlbΔ(k-1)+lbM[I(k-1)]
采用G.721算法中的符號,上式可以表示成
yM(k)=(1-2-5)y(k)+2-5W[I(k)](7-26)式中,yM(k)為快速非鎖定標度因子,取值范圍為1.06≤yM(k)≤10.0,對應線性區(qū)為[21.06,210.0],最大和最小量化階之比約為491。W[I(k)]的取值規(guī)定如表7-2所示。表7-2
W[I(k)]的取值由表7-2可以看出,對于外層量化電平,W取值都比較大,這是為適應語音預測信號中基音起始部分會突然增大,量階需要很快調(diào)大,以避免量化器過載。式(7-26)能夠適應短時能量變化較快的語音信號。
對于數(shù)據(jù)等短時能量變化較慢的信號,量階自適應速度需要變慢,采用的算法為
yl(k)=(1-2-6)yl(k-1)+2-5yM(k)(7-27)
式中,yl(k)為鎖定標度因子,它是對yM(k)再次平滑得到的。
將上述兩種算法合并,得到控制量階大小的定標因子y(k)為
y(k)=al(k)yM(k-1)+[1-al(k)]yl(k-1)(7-28)
3.自適應預測
為了系統(tǒng)能夠穩(wěn)定工作以及對各類輸入信號都有較好的預測效果,采用6階零點、2階極點的預測器。預測信號為
式中,ai(k)和bi(k)分別是極點、零點預測器系數(shù)。
重建信號為
sr(k)=se(k)+dq(k)
(7-30)(7-29)7.3.2
SBC與G.722編碼器
子帶編碼(Sub-BandCoding,SBC)是一種應用比較廣泛的語音編碼技術(shù),它利用帶通濾波器組將輸入信號分成若干個不同的小的頻帶(稱為子帶),然后再對這些子帶信號分別進行編碼(詳細的子帶編碼理論見8.4節(jié))。
把語音信號分成若干個子帶信號進行編碼的優(yōu)點主要有以下三方面。
首先,由于語音頻譜的非平坦性,如果對不同的子帶合理地分配比特數(shù),就可能分別控制各子帶的量化電平數(shù)目以及相適應的重建信號的誤差方差值,使比特率更精確地與各子帶的信源統(tǒng)計特性相匹配。例如,由于語音的基音和共振峰主要集中在低頻帶,語音信號低頻帶的基音與共振峰要求編碼精度較高,可以用較多的比特數(shù)對低頻帶進行編碼,而高頻帶的信號可以只用少量比特進行編碼。
其次,通過調(diào)整不同子帶的比特分配數(shù)值,可以控制總的重建信號的誤差頻譜形狀。進一步與語音心理和生理模型相結(jié)合,即可將噪聲譜按人耳的主觀噪聲感知特性成形,從而獲得更好的主觀聽音質(zhì)量。
最后,子帶編碼的另一個優(yōu)點是各子帶內(nèi)的量化噪聲彼此獨立,被束縛在自己的子帶內(nèi),這樣就能避免輸入電平較低的子帶信號被其他子帶的量化噪聲所淹沒。
CCITT于1988年制定了關(guān)于64kb/s、7kHz帶寬的高音質(zhì)聲頻編碼建議G.722。這種編碼方案基于子帶編碼技術(shù),將20Hz~7kHz聲頻帶寬在4kHz處一分為二,劃分為低頻區(qū)和高頻區(qū)兩個子帶,然后對每個子帶再分別進行ADPCM編碼,稱為SB-ADPCM編碼算法。SB-ADPCM編碼算法有三種速率:64kb/s、56kb/s和48kb/s,后兩種速率可分別提供8kb/s和16kb/s的輔助數(shù)據(jù)信道。G.722編碼器組成框圖如圖7-13所示。圖7-13
G.722SB-ADPCM編碼器原理框圖
1.正交鏡像濾波器QMF
編碼端的QMF是一個雙通道正交鏡像濾波器組,其作用是將音頻全頻帶(50Hz~7kHz)信號劃分為低頻區(qū)(50Hz
~4kHz)和高頻區(qū)(4~7kHz)兩個子帶,它是一個帶通數(shù)字濾波器。QMF的輸入信號是由音頻發(fā)送端送來的輸出信號,采樣頻率為16kHz。另一方面,低頻區(qū)子帶和高頻區(qū)子帶的ADPCM的輸入信號XL、XH則分別是采樣頻率為8kHz的來自發(fā)送QMF的輸出信號。
2.低頻子帶的ADPCM編碼器
低頻子帶的ADPCM編碼器的輸入是低頻輸入信號XL與預測信號SL相減的差值信號EL,差值信號EL的量化采用60量級的非線性自適應量化器,各量化樣點用6比特編碼。該量化器的輸出信號IL作為低頻區(qū)子帶編碼器的輸出,以48kb/s的速率發(fā)送到譯碼器。
另一方面,量化器的輸出信號IL送到LSB(最低符號位)2比特消減器,刪去IL的低2比特,變?yōu)?比特的ILt信號;然后送到具有15量級的自適應逆量化器,得到預測殘差信號DL,最后此信號與自適應預測器的信號SL疊加生成重建信號RL。
3.高頻子帶的ADPCM編碼器
高頻子帶的ADPCM編碼器的輸入是高頻輸入信號XH與預測信號SH相減的差值信號EH,差值信號EH的量化采用4量級的非線性自適應量化器,各量化樣點用2比特編碼。該量化器的輸出信號IH作為高頻區(qū)子帶編碼器的輸出,以16kb/s的速率發(fā)送到譯碼器。自適應逆量化器利用2比特的IH恢復出差值信號DH。該差值信號與預測信號SH疊加生成重建信號RH。
4.碼流復合
碼流復合模塊將來自低子帶和高子帶ADPCM編碼器的信號IL、IH組成一個合成的8比特信號I,復合格式如下:
I={IH1,IH2,IL1,IL2,IL3,IL4,IL5,IL6}
其中,IH1是傳輸?shù)牡谝槐忍?,IH1和IL1分別是IH和IL的最高有效位比特。
7.4語音參數(shù)編碼器
7.4.1參數(shù)編碼的類型
根據(jù)聲道濾波器的不同類型,可以將參數(shù)編碼器分為以下三類。
1.聲道編碼器
聲道編碼器是最早的語音參數(shù)編碼器。它是一種基于短時傅里葉變換的語音分析合成系統(tǒng),其發(fā)送端通過若干個并聯(lián)的通道對語音信號進行粗略的譜估計,在接收端再產(chǎn)生一個與發(fā)送端信號頻譜匹配的信號。聲道編碼器的主要缺點是需要精確地檢測出基音周期和進行清濁音判決,而精確地求出這兩個參數(shù)有一定的困難,它們的估計值與實際值的誤差對合成語音的質(zhì)量影響很大。其次,由于通道數(shù)量有限,幾個諧波分量可能會落入同一個通道,在合成時會被賦予相同的幅度,導致頻譜畸變。
2.共振峰聲碼器
共振峰聲碼器不將語音信號分成若干頻段,而是對語音信號整體進行分析,提取共振峰的位置、幅度、帶寬等參數(shù),構(gòu)造濁音和清音兩個濾波器。濁音濾波器采用全極點濾波器,有多個二階濾波器級聯(lián)而成。清音濾波器通常采用一個極點和一個零點的濾波器。這兩個濾波器的參數(shù)都是時變的。共振峰聲碼器比聲道聲碼器合成出來的語音質(zhì)量要好,比特率也低。
3.線性預測聲碼器(LPC)
LPC聲碼器是應用最成功的參數(shù)編碼器。LPC聲碼器的基本原理介紹可以參見5.3節(jié)。LPC聲碼器基于全極點聲道模型,采用線性預測分析合成原理,對于模型參數(shù)和激勵參數(shù)進行編碼傳輸。接收端根據(jù)譯碼參數(shù)重新合成語音。
需要指出的是,雖然LPC聲碼器和波形編碼的ADPCM一樣都基于線性預測分析來實現(xiàn)語音信號的編碼,但是它們之間有本質(zhì)的區(qū)別。ADPCM是直接對預測誤差信號進行編碼,故稱為波形編碼;LPC聲碼器不是直接對預測誤差編碼,而是對由預測誤差或語音信號本身進行線性預測分析得到的參數(shù)進行編碼,故稱為參數(shù)編碼。7.4.2
LPC-10聲碼器
1.LPC-10聲碼器的基本原理
LPC-10聲碼器是一個10階線性預測聲碼器,它所采用的算法簡單明了,在軍事通信和保密通信中得到了廣泛應用。這種聲碼器能在2.4kb/s速率上給出清晰、可懂的合成語音,但在語音自然度、抗噪聲性能上還存在不足。LPC-10編碼器框圖如圖7-14所示。圖7-14
LPC-10編碼器原理框圖原始語音經(jīng)過一個銳截止的低通濾波器,將輸入語音限制在100~3600Hz的頻率范圍內(nèi)。然后輸入到A/D轉(zhuǎn)換器,以8kHz采樣并進行12比特線性PCM編碼,得到數(shù)字化后的語音。然后每180個樣點分為一幀(22.5ms),以幀為處理單元,提取語音特征參數(shù)并加以編碼。語音處理分兩個支路同時進行,其中一路用于提取語音基音周期和清/濁音判決,另一路用于提取預測系數(shù)和增益因子。具體如下:一路數(shù)字化語音送到基音分析存儲器中,再次經(jīng)過數(shù)字低通、2階逆濾波器后,用平均幅度差值函數(shù)(AMDF)計算語音的基音周期,經(jīng)過平滑和校正得到該幀的基音周期P。與此同時,對低通濾波器輸出的數(shù)字化語音進行清/濁音檢測,經(jīng)過平滑和校正后得到該幀的清/濁音判決信息U/V。
另一路數(shù)字化語音送到預加重模塊,目的是加強語音譜中的高頻共振峰,使語音短時譜以及線性預測分析中的殘差頻譜變得更加平坦,從而提高譜參數(shù)估計的精確度。經(jīng)過預加重的語音信號送到預測分析存儲器,然后計算語音信號的短時能量均方根值RMS和聲道濾波器參數(shù)RC。
2.聲道濾波器參數(shù)RC和RMS計算
用10階線性預測分析濾波器,利用協(xié)方差法對LP逆濾波器 計算濾波器短時譜參數(shù){ai}。預測系數(shù)不適合直接量化,因為它的微小變化會造成極點位置很大的變化。為保證綜合濾波器的穩(wěn)定性,就要求有相當高的量化精度(每個系數(shù)要8~10比特),所以轉(zhuǎn)換為部分相關(guān)系數(shù)(PartialCorrelation,PC)或反射系數(shù)(ReflectionCoefficient,RC)來代替預測系數(shù)進行量化編碼。理論上部分相關(guān)系數(shù)和反射系數(shù)互為相反數(shù),部分相關(guān)系數(shù)為Levinson-Durbin算法求解出的預測器系數(shù),其絕對值小于1。增益的均方根值(RMS)用如下公式進行計算:
式中,Si為經(jīng)過預加重的數(shù)字語音,M是分析幀的長度。
另外,在進行LPC分析時,采用了“半基音同步”算法,即濁音幀的分析幀長取為130個樣點以內(nèi)的基音周期整數(shù)倍值,用這個分析幀來計算RC和RMS值。這樣每一個基音周期都可以單獨用一組系數(shù)處理。(7-31)
3.基音周期提取和清/濁音判決
輸入語音經(jīng)過一個4階Butterworth低通濾波器,此濾波器的3dB截止頻率為800Hz,濾波后的信號再經(jīng)過二階逆濾波,逆濾波器系數(shù)來自上面的計算。把采樣頻率降低至原來的1/4,再計算延遲時間為20~156個樣點的AMDF,由AMDF的最小值即可確定基音周期。AMDF的計算公式為(7-32)
4.參數(shù)編碼
在LPC-10的傳輸碼流中,包含有10個RC、RMS、P、U/V、同步信號Sync(同步信號采用相鄰幀1/0碼交替的模式)、誤差校正等信息,總共編碼為54比特或53比特,如表7-3所示。由于每秒傳輸44.4幀,因此總碼率為2.4kb/s。表7-3
LPC-10聲碼器的比特分配表
5.LPC-10聲碼器存在的問題
LPC-10聲碼器主要存在以下問題:
(1)損失了語音的自然度。由于LPC-10聲碼器采用了過分簡單的二元激勵,使合成的語音聽起來不自然。在實際語音的殘差信號中,相當一部分既非周期脈沖又非隨機噪聲;或者低頻段是周期脈沖,高頻段是隨機噪聲。在這種情況下采用簡單的二元激勵代替殘差信號,必然使合成語音聽起來不自然。
(2)魯棒性差。由于在噪聲的影響下,不易準確提取基音周期和不能正確判決清/濁音。當背景噪聲較強時,系統(tǒng)性能顯著惡化。此外,這個方案不能有效地對抗傳輸信道中誤碼的破壞作用。
(3)LPC-10的語音譜共振峰位置及帶寬估值有時會產(chǎn)生很大的失真。失真的原因是:濁音語音段時域上的周期重復信號使得短時語音譜形狀接近于線狀分布譜。當基音周期P很小時,基頻f0=1/P增加,并與譜包絡中的第一共振峰相接近,即f1≠f0。由于LPC譜估計力圖使全極點模型譜逼近于信號譜包絡,在估計出的譜包絡中會出現(xiàn)極其尖銳的峰值,也就是估計出一個能量極為集中的共振峰。相應在重建語音中會出現(xiàn)尖峰或較大毛刺,從而影響語音質(zhì)量。7.4.3
LPC-10e聲碼器
由于LPC-10聲碼器存在一些重要缺點,如音質(zhì)較差、抗噪聲性能不好等,人們針對它的問題提出許多改進措施,形成了新的聲碼器——LPC-10e,它可與LPC-10算法兼容。在LPC-10e的改進措施中,極為重要的一項是用混合激勵方式代替簡單的二元激勵,這使得LPC-10e的重建語音質(zhì)量得到改善。1986年,美國第三代保密電話設備確定采用2.4kb/s的LPC-10e聲碼器。相比LPC-10聲碼器,LPC-10e聲碼器的改進措施包括以下幾個方面。
1.激勵源的改進
采用混合激勵代替簡單的二元激勵。在LPC-10e聲碼器中,濁音的激勵源是由經(jīng)過低通濾波的周期脈沖序列與經(jīng)過高通濾波的白噪聲相加而成的,周期脈沖與噪聲的混合比例隨輸入語音的濁化程度改變。清音的激勵源是白噪聲加上位置隨機的一個正脈沖跟隨一個負脈沖的脈沖對形成的爆破脈沖。對于爆破音,脈沖對的幅度增大,與語音的突變成正比;反之則脈沖對的幅度很小。采用混合激勵,可以使原二元激勵合成引起的金屬聲、重擊聲、音調(diào)噪聲等得到改善;同時對U/V判決的敏感程度有所降低。激勵脈沖加抖動。在二元激勵的LPC中,濁音幀與清音幀的不同之處在于前者的激勵信號具有周期和脈沖性質(zhì),這只有在完全的濁音幀才適用。在基音相關(guān)只有中等強度,或者殘差信號中有大的峰值,即應判定為抖動的濁音幀。在這種情況下,除采用脈沖加噪聲的混合激勵外,激勵信號中的周期脈沖的相位也要作隨機抖動,以改善語音自然度。
單脈沖與碼本相結(jié)合的激勵模式。由于濁音的LPC殘差信號中往往存在以基音周期重復的大幅度尖峰脈沖,而清音的殘差信號往往類似于隨機噪聲。因此,可取多脈沖激勵線性預測編碼與碼本激勵線性預測編碼各自的長處,對于不同的語音段采用不同的激勵模式。對于周期性的語音段以基音周期重復的單脈沖作為激勵源,非周期的語音段用從碼本中選擇的隨機序列作為激勵源。
2.基音周期提取方法的改進
采用LPC的殘差信號或者語音信號的自相關(guān)函數(shù),并利用動態(tài)規(guī)劃的平滑算法來更準確地提取基音周期。將每幀的LPC殘差信號低通濾波后,求出所有可能的基音延時點上的歸一化自相關(guān)系數(shù),選出其中的L個最大值,再用過去和將來相鄰三幀的每幀L個最大值,用動態(tài)規(guī)劃的算法求得最佳基音值。在有寬帶背景噪聲的環(huán)境中,LPC的殘差信號中基音周期可能破壞,這時可以用低通濾波的語音信號代替LPC殘差信號提取基音周期。
3.聲道濾波器參數(shù)量化的改進
采用LSF(LinearSpectrumFrequency)或線譜對(LinearSpectrumPair)參數(shù)來表示線性預測器的系數(shù)。LSF系數(shù)的誤差具有相對獨立性。某個頻率點的LSF偏差只對該頻率附近的重建語音譜產(chǎn)生影響,而對其他LSF頻率上的語音頻率譜影響不大,這有利于LSF的參數(shù)量化,也有利于增加系統(tǒng)的魯棒性。
對每一幀語音樣點,求得10個LSF參數(shù)。根據(jù)每個參數(shù)的影響,分配的量化比特為3、4、4、4、4、3、3、3、3、3,共34比特。用34比特對LSF參數(shù)量化得到的重建語音與LPC-10聲碼器的41比特量化得到的重建語音相比,在聽覺上沒有任何差別,兩者的波形完全吻合,可見LPC-10e聲碼器LSF參數(shù)編碼的效率高于LPC-10聲碼器的參數(shù)編碼效率。
7.5語音混合編碼器
7.5.1語音混合編碼器的基本原理
1.感覺加權(quán)濾波器
感覺加權(quán)濾波器(PerceptuallyWeightedFilter,PWF)是根據(jù)人耳聽覺的掩蔽效應(見8.1節(jié))進行設計的。在語音譜中能量較高的頻段(即共振峰處)的噪聲相對于能量較低的頻段噪聲而言,不易被人耳所感知。因此,在度量原始輸入語音與重建語音之間的誤差時,可以利用人耳的這一特點,在語音能量較高的頻段,允許二者的誤差大一些;反之則小一些??梢杂酶杏X加權(quán)濾波器W(f)來計算二者的誤差,如下:(7-33)顯然,為使e達到最小值, 在整個積分區(qū)域內(nèi)應為常數(shù)值,這可以通過調(diào)整W(f)的值來實現(xiàn)。方法就是使能量較大的語音段內(nèi)W(f)較小(允許更大的失真),在能量較小的語音段內(nèi)使W(f)較大(允許較小的失真),從而使 接近或等于常數(shù)。W(f)在Z域的表達式可以表示為
圖7-15所示為一段原始輸入的語音譜經(jīng)感覺加權(quán)濾波器W(z)加權(quán)后的誤差信號譜以及感覺加權(quán)濾波器的W(f)。(7-34)圖7-15原始語音譜、誤差信號譜與感知加權(quán)W(f)的關(guān)系
2.合成分析法
合成分析法(Analysis-By-Synthesis,ABS)又稱分析綜合法,它是將綜合濾波器引入到編碼器中,使其與感覺加權(quán)濾波器相結(jié)合,在編碼器中產(chǎn)生與譯碼器完全一致的合成語音,將此合成語音與原始輸入語音相比較,根據(jù)一定的誤差準則,調(diào)整、計算各相關(guān)參數(shù),使得二者之間誤差達到最小。
合成分析法的原理框圖如圖7-16所示。圖7-16合成分析法的原理框圖在編碼器端與LPC聲碼器相比增加了LPC綜合濾波器和感覺加權(quán)濾波器。輸入的原始語音一方面送到LP分析濾波器計算預測系數(shù){ai};另一方面與LP綜合濾波器輸出的本地合成語音信號相減,再經(jīng)過感覺加權(quán)濾波器,調(diào)整激勵信號源等相關(guān)參數(shù),使原始語音與本地合成語音之間的誤差的感覺加權(quán)均方值最小,然后將相應的分析參數(shù){ai}和激勵信號參數(shù)進行編碼并傳輸?shù)阶g碼端。譯碼器根據(jù)激勵信號參數(shù)、預測系數(shù){ai}等參數(shù)控制調(diào)整相應的綜合濾波器和激勵信號發(fā)生器,最后產(chǎn)生重建語音。在ABS法中,由于在編碼器端增加了綜合濾波器和感覺加權(quán)濾波器,并在感覺加權(quán)均方誤差最小準則之下使得原始輸入語音與本地合成語音之間的誤差為最小,而本地合成語音與譯碼端的合成語音(重建語音)是完全一致的,這就大大提高了重建語音的質(zhì)量。
3.激勵源的改進
混合編碼的語音質(zhì)量比LPC聲碼器質(zhì)量好的另一個重要原因是對激勵信號源進行了多方面的改進。對激勵源的改進方法不同,就形成了幾種不同的混合編碼方案,主要的有多脈沖激勵線性預測編碼(Multi-PulseExcitedLinearPredictiveCoding,MPELPC)、規(guī)則脈沖激勵線性預測編碼(Regular-PulseELPC,RPELPC)、碼激勵線性預測編碼(CodeELPC,CELPC)等。這些混合編碼方案都采用參數(shù)編碼和波形編碼相結(jié)合的方式。共同特點是:先進行LP分析,去除語音的相關(guān)性;然后利用感覺ABS方法以及感覺加權(quán)均方誤差最小準則找出能使原始語音與編碼端產(chǎn)生的合成語音之間感覺加權(quán)誤差為最小的激勵信號參數(shù);之后對LP參數(shù)和激勵信號參數(shù)編碼。這使得合成語音能較好地逼近原始輸入語音,從而改善合成語音的質(zhì)量以及編碼器抗噪能力。7.5.2碼激勵線性CELPC預測編碼
在幾種混合編碼方案中,重要的區(qū)別就在于激勵模型的不同。碼激勵線性預測編碼CELPC是目前應用最多的混合編碼技術(shù)。
1985年,ManfredRSchroder和BishnuSAtal首先提出用碼書作為激勵脈沖源的線性預測編碼方案。CELPC提出后,因其具有高質(zhì)量的合成語音、優(yōu)良的抗噪聲性能以及可以多次轉(zhuǎn)接等優(yōu)點,所以在16~4.8kb/s速率上獲得了廣泛應用。1988年,美國政府標準語音編碼器采用了4.8kb/s的CELPC編碼器。1989年,北美數(shù)字移動通信全速率語音編碼器標準采用改進的8kb/s速率的CELPC,即矢量和激勵線性預測編碼(VectorSumELPC,VSELPC)。1991年,IEEE通過了使用低延時碼激勵線性預測編碼(LowDelayCELPC,LD-CELPC)作為16kb/s語音編碼器標準。1992年,CCITTG.728建議采用LD-CELPC作為語音編碼標準。1995年,ITU-TG.729建議采用基于CELPC技術(shù)的共軛結(jié)構(gòu)代數(shù)碼激勵線性預測編碼(CS-ACELPC)作為8kb/s速率的語音編碼標準。
CELPC采用分幀技術(shù)進行編碼,幀長一般為20~30ms。CELPC基于合成分析ABS算法、感覺加權(quán)、矢量量化VQ和線性預測LP等技術(shù)。它用從碼書中搜索出來的最佳碼矢量,乘以最佳增益,代替線性預測的殘差信號作為激勵信號源。CELPC通常將每個語音幀再細分為2~5個子幀,在每個子幀內(nèi)搜索最佳的碼矢量作為激勵信號。CELPC原理框圖如圖7-17所示。圖7-17
CELPC原理框圖7.5.3美國EIA/TIA標準8kb/s的VSELPC聲碼器
1.VSELPC編碼器
VSELPC編碼器框圖如圖7-18所示。采樣頻率為8kHz,每個語音幀為160個樣點(20ms),分為4個子幀。L、I和H表示通過搜索確定的自適應矢量、隨機矢量1、隨機矢量2的在其對應的碼書中的標號,這些碼矢量與它們對應的量化增益b、g1和g2相乘后,再相加得到VSELPC的激勵信號ex(n)。將ex(n)送到感覺加權(quán)綜合濾波器得到感覺加權(quán)合成語音p'(n)。原始語音經(jīng)感覺加權(quán)濾波器加權(quán),再減去H(z)零輸入響應后,得到等效語音p(n)。設E是子幀的p(n)和p'(n)的誤差平方和,搜索時使E達到最小值的L、I、H和b、r1、r2就是該子幀最佳的碼矢量標號和增益。圖7-18
VSELPC編碼器框圖
2.VSELPC的比特分配
VSELPC聲碼器的比特分配如表7-4所示。表7-4
VSELPC聲碼器的比特分配
3.VSELPC編碼方案的特點
VSELPC聲碼器是一個較好的CELPC實用方案。這種編碼方案保留了CELPC高效率編碼的優(yōu)點,同時使運算量比一般的CELPC減少很多。VSELPC聲碼器能在4.8~8kb/s編碼速率上給出相當滿意的合成語音質(zhì)量。
由于VSELPC采用了兩個隨機碼書,不但減少了運算量,而且當誤碼引起某個基矢量發(fā)生錯誤時,對總的激勵信號影響減小,從而提高了抗信道誤碼的性能。VSELPC在10-2誤碼率條件下,仍然能給出良好的語音質(zhì)量。7.5.4
G.728建議的16kb/s的LD-CELPC聲碼器
1.LD-CELPC編碼器
LD-CELPC編碼器原理框圖如圖7-19所示。它與一般CELPC聲碼器一樣,編碼器利用合成分析法搜索最佳碼矢量作為激勵信號,不同之處是它利用后向自適應預測技術(shù)對短時譜包絡和增益進行預測和控制,所以算法延時能達到0.625ms,一路編碼延時小于2ms。圖7-19
LD-CELPC編碼器原理框圖編碼端首先將64kb/s的A律或μ律PCM輸入語音信號轉(zhuǎn)換為均勻量化的PCM信號,接著由五個連續(xù)的語音樣值形成一個5維語音矢量S(n)={s(5n),s(5n+1),s(5n+2),s(5n+3),s(5n+4)},激勵碼書中共有1024個5維碼矢量。對于每個輸入語音矢量,編碼器利用合成分析法從碼書中搜索出最佳碼矢量,然后對最佳碼矢量的標號進行10比特的量化編碼。LP系數(shù)是用先前量化過的語音信號來提取和更新的。每4個相鄰的輸入矢量構(gòu)成一個自適應周期,稱為一幀,每幀更新一次LP系數(shù)。激勵信號的增益也是利用先前量化激勵信號的增益信息逐矢量進行提取和更新。
2.使用混合窗進行LPC分析
在LD-CELPC算法中,合成濾波器系數(shù)、聽覺加權(quán)濾波器系數(shù)和激勵增益都是采用LPC分析技術(shù)來自適應更新的。LPC分析采用自相關(guān)法,并使用Levinson-Durbin算法求解,求自相關(guān)系數(shù)前要對輸入信號加窗。在LD-CELPC算法標準化過程中先后使用了多種類型的窗函數(shù)。數(shù)字信號處理常用的窗函數(shù)有矩形窗、漢明窗和指數(shù)窗。LD-CELPC最初的版本選用漢明窗,因為在比較中發(fā)現(xiàn)漢明窗具有較高的預測增益。后來為了適合用浮點實時實現(xiàn)算法,又改用了修正的Barnwell遞歸窗。加遞歸窗的運算量要比加漢明窗的運算量小,并且將編碼信噪比提高了近1dB,也改善了重建語音的聽覺質(zhì)量。然而為了達到足夠的精度,遞歸窗必須用雙精度算法,所以加遞歸窗并不適合在定點數(shù)字信號處理器DSP上實時實現(xiàn)。于是進一步用一種新型混合窗代替了遞歸窗。這種混合窗由兩部分組成:一部分采用升余弦形窗(非遞歸部分)作為前段,一部分采用指數(shù)窗(遞歸部分)作為后段,如圖7-20所示。整個窗的形狀類似遞歸窗,因而可取得與遞歸窗大致相同的預測增益,同時也適用于定點DSP。圖7-20
LD-CELPC的混合窗結(jié)構(gòu)對于后向自適應LPC分析,混合窗加在前面所有樣值索引號小于m的信號樣值上。在m時刻,混合窗函數(shù)Wm(k)定義為
在LD-CELPC算法中,分別使用了合成濾波器、對數(shù)增益預測器、聽覺加權(quán)濾波器三類不同的混合窗函數(shù),其混合窗參數(shù)如表7-5所示。(7-35)表7-5
LD-CELPC的三種混合窗
LPC分析里的混合加窗模塊是為了計算加窗后信號的自相關(guān)系數(shù)R(i),并將之作為隨之而來的Levinson-Durbin遞推算法的輸入。Levinson-Durbin算法根據(jù)加窗自相關(guān)系數(shù)R(i)遞推求出LPC系數(shù),經(jīng)某種處理轉(zhuǎn)換(如帶寬擴展)后作為合成濾波器、對數(shù)增益預測器、聽覺加權(quán)濾波器的系數(shù)。整個過程如圖7-21所示。圖7-21合成濾波器、對數(shù)增益預測器、聽覺加權(quán)濾波器的系數(shù)計算過程
3.感覺(聽覺)加權(quán)濾波器
G.728LD-CELPC的感覺加權(quán)是一個10階零極點濾波器,其傳輸函數(shù)W(z)為
式中,一般取r1=0.9,r2=0.6。因為感覺加權(quán)濾波器僅用于編碼器,所以它用未量化的語音提取LP參數(shù),每幀更新一次,在第三個矢量處更新。(7-36)
4.綜合濾波器
傳統(tǒng)的CELPC編碼器一般都會使用一個前向自適應基音預測器?;纛A測器又稱為長期預測器,其作用是去除語音基音之間的相關(guān)性。由于低時延的要求,LD-CELPC只能使基音預測器后向自適應。而ITU又要求在10-2的信道比特誤碼率下,語音合成質(zhì)量不差于G.721。但是,后向自適應基音預測器對信道誤碼非常敏感,根本不可能承受這么高的信道誤碼率。所以,LD-CELPC算法干脆就取消了基音預測器,只使用短期預測器,并將其階數(shù)從通常的10階提高到50階來補償語音質(zhì)量的損失,特別是女聲語音質(zhì)量的下降。由于男、女聲的基音周期一般在50個樣點以下(對應的基音頻率大于160Hz),50階的LPC預測器(短期預測器)有足夠的時間跨度覆蓋至少一個基音周期。所以大部分人即使是女聲的基音冗余性(長時相關(guān)性),也可以通過這個50階LPC預測器去除。
LPC預測器階數(shù)選為50還有以下原因:
(1)將階數(shù)提高到50,反向預測器對信道誤碼仍然很魯棒;
(2)由于反向自適應,50階LPC系數(shù)并不需要傳送到解碼端,系數(shù)的增多并沒有使編出來的碼字變長;
(3)將階數(shù)提高到50階后,LPC預測增益達到飽和。由于并未預先假定任何基因周期性,LD-CELPC編碼器也就具有更大的適用范圍,即提高了對非語音信號如音樂、話音數(shù)據(jù)等的合成質(zhì)量。
G.728LD-CELPC中的綜合濾波器是一個50階全極點濾波器,其輸入是經(jīng)過增益周期調(diào)整的激勵矢量,輸出是合成語音。傳輸函數(shù)H(z)為(7-37)預測系數(shù)ai由后向預測自適配器提供,每個自適應周期更新一次,其更新過程與感覺加權(quán)濾波器相同。為了改善對信道誤碼的抵抗能力,需要對這些系數(shù)進行修正,以使LPC頻譜中的峰值具有稍微大一些的帶寬。帶寬擴展模塊按下述方法完成帶寬擴展過程。給定LPC預測器系數(shù),一組新的預測系數(shù)ai按下式計算
此處的l(帶寬擴展因子)取253/256。式(7-38)具有把合成濾波器所有極點徑向地移向原點的作用。由于極點由單位圓移開,所以擴展了頻率響應的峰值。(7-38)
5.碼本搜索
在8kHz的采樣頻率下,16kb/s語音編碼要求每樣值2比特。這樣,一個矢量(5個樣值)則需要10比特,所以碼本長度應為1024。在算法實現(xiàn)時,為減少碼本搜索運算量,將10比特1024個碼字的碼本,分解為7比特“形狀碼本”(包含128個獨立碼矢)和3比特“增益碼本”(包含8個零對稱的標量值,因此1比特代表符號,2比特代表量值),量化輸出的碼矢是最佳形狀碼矢和最佳增益電平的乘積。“形狀碼本”基于感覺加權(quán)最小均方誤差準則并采用閉環(huán)優(yōu)化設計而成。同時,為了提高抗信道誤碼的能力,7比特碼矢量使用了格雷碼進行編址。這樣矢量索引號在傳輸過程中如果發(fā)生比特的錯誤,解碼器仍然能夠解碼出最為接近的碼矢量。同隨機編址相比,這種技術(shù)顯著提高了在噪聲信道上的解碼信噪比。在高誤碼率的情況下(比如達到10-3),改善了重建語音的主觀質(zhì)量。
原則上,碼本搜索模塊把1024個待選碼矢的每一個用當前激勵增益進行定標,然后把得到的1024個矢量一次一個地通過包括合成濾波器和聽覺加權(quán)濾波器組成的串連濾波器,得到感覺加權(quán)后的合成語音矢量,并與感覺加權(quán)后的原始語音矢量作比較,得到的最佳激勵碼矢應該使二者的均方誤差最小。7.5.5
G.729建議的8kb/s的CS-ACELP聲碼器
1.G.729編碼器
圖7-22描述了G.729編碼器的工作原理。輸入信號在預處理模塊中通過一個高通濾波器而且其幅度被縮小。經(jīng)過預處理的信號作為后邊所有分析的輸入信號。每一幀做一次線性預測分析,計算線性預測濾波器的系數(shù)。這些系數(shù)被轉(zhuǎn)化為線譜對(LineSpectralPairs,LSP),然后使用兩級矢量量化(VQ)為18比特。激勵信號是通過一個合成分析搜索過程選出,在這個過程中,原始語音與重建語音的誤差按照感知加權(quán)的失真測度使其最小化。這是用感知加權(quán)濾波器將誤差信號濾波而實現(xiàn)的,該濾波器的系數(shù)由未量化的線性預測濾波器得到。圖7-22
G.729編碼器框圖
2.預處理
編碼器的輸入語音信號為8kHz的16比特的線性PCM碼。在進行編碼之前,要先進行兩個預處理功能:信號定標和高通濾波。定標是由輸入信號除以因子2構(gòu)成,以減少在定點實現(xiàn)中溢出的可能性。高通濾波器是對低頻噪聲信號的預防措施,此處采用的高通濾波器的下截止頻率為140Hz。預處理的兩個過程合在一起,其模塊的傳輸函數(shù)由下式給出(7-39)
3.線性預測分析與量化
短時分析與合成濾波器是建立在10階線性預測濾波器的基礎(chǔ)上的。線性預測濾波器定義為
線性預測分析使用的窗函數(shù)由兩部分組成:第一部分是漢明窗,第二部分是余弦函數(shù)的1/4周期,窗函數(shù)公式如下:(7-40)(7-41)
4.感覺加權(quán)濾波器
感覺加權(quán)濾波器是建立在沒有量化的線性預測濾波器系數(shù)ai的基礎(chǔ)上,由下式給出:(7-42)
5.自適應碼書搜索
自適應碼書參量(或音調(diào)參量)就是延遲和增益。在自適應碼書的研究中,為了能實現(xiàn)音調(diào)濾波器,對小于子幀長度的延遲,激勵信號在一個子幀長度內(nèi)不斷重復。在搜索階段,激勵是用線性預測殘差擴展以簡化閉環(huán)搜索。每一子幀(5ms)作一次自適應碼書搜索。
在第一子幀中,延遲范圍在[19.33,84.66]中,使用分辨度為1/3的分數(shù)音調(diào)延遲T1,而延遲范圍在[85,143]中,只使用整數(shù)音調(diào)延遲。
對于第二個子幀,分辨度為1/3的延遲T2只在范圍[int[T1]-5.66,int[T1]+4.66]中使用,這里int[T1]是指第一子幀分數(shù)音調(diào)延遲T1的整數(shù)部分。用閉環(huán)音調(diào)分析的最小化的加權(quán)均方誤差來決定每一子幀的最佳延時。第一子幀的基音延遲T1的搜索是在開環(huán)基音延時Top附近一個小范圍(6個樣點內(nèi))進行的。閉環(huán)音調(diào)搜索的準則是使原始語音和重建語音之間的均方誤差最小化。
1)自適應碼書矢量的產(chǎn)生
只要音調(diào)延遲已經(jīng)確定,自適應碼書矢量v(n),可以用過去的激勵信號u(n)在給定的整數(shù)延遲k和分數(shù)t作內(nèi)插計算,得:(7-43)
2)自適應碼書延時碼字的計算
第一子幀的音調(diào)延遲T1用8比特編碼,第二子幀的相對延遲用5比特編碼。針對傳輸中的碼流錯誤,為了構(gòu)建一個更頑健的編碼器,可以在第一子幀的延遲指針P1上,加入一個奇偶校驗位P0。這個奇偶校驗位是在P1的6個最高位上,通過異或操作產(chǎn)生的。在解碼器中這個奇偶校驗位要重新計算,如果重新計算的值和發(fā)送的不一致,則要加上一個錯誤遮蓋程序。
3)自適應碼書增益的計算
只要自適應碼書的音調(diào)延遲確定了,則其增益Gp可以由下式計算,得:
(7-44)
6.固定碼書的結(jié)構(gòu)和搜索
固定碼書在代數(shù)碼書結(jié)構(gòu)的基礎(chǔ)上,使用插入零的單脈沖替換設計。在這個碼書中,每一個碼矢量包含有四個非零脈沖,每個脈沖的幅度只能為±1,而且其位置是按照表7-6的規(guī)定固定的。表7-6固定碼書的結(jié)構(gòu)固定碼書矢量c(n)由40維零矢量在4個位置放上4個單位脈沖并乘以對應的符號構(gòu)成,即
c(n)=S0d(n-m0)+S1d(n-m1)+S2d(n-m2)+S3d(n-m3)
n=0,1,…,39
(7-45)
式中,d(n)為單位脈沖。對于小于40的延遲,碼書矢量還需要進行修正。
脈沖i0、i1、i2的位置每個用3比特編碼,而脈沖i3的位置用4比特編碼,每個脈沖幅度(實際上是符號)用1比特編碼,這4個脈沖總共用了17比特。如果符號為正,si=1;否則,si=0。碼字的符號編碼(4比特)可從下式得到:
S=s0+2s1+4s2+8s3
(7-46)固定碼書的碼字可由下式得到:
當m3=5×i+3時,x=0;當m3=5×i+4時,x=1。
7.增益的量化
自適應碼書增益音調(diào)增益和固定碼書增益是用矢量量化的。用原始語音和重構(gòu)語音之間的加權(quán)均方誤差最小原則來搜索增益碼書。(7-47)(7-48)自適應碼書增益gp和固定碼書校正因子r采用兩級共軛結(jié)構(gòu)的碼書進行矢量量化。第一級包含了3比特兩維碼書GA,而第二級包含了4比特兩維碼書GB。每個碼書中的第一個元素表示量化的自適應碼書增益,而第二個元素表示量化的固定碼書增益校正因子。對于GA和GB,分別給出了碼書指針Ga和Gb,那么量化后的自適應碼書增益和固定碼書增益的預測增益分別為(7-49)(7-50)
8.編碼參數(shù)的比特分配及傳輸
綜上可知,編碼器的參數(shù)及比特分配如表7-7所示。因為G.729將語音信號10ms分幀,每幀編碼比特數(shù)為80,所以其編碼碼率為8kb/s。表7-7
G.729發(fā)送參數(shù)及比特分配
7.6變速率語音編碼
7.6.1變速率語音編碼的必要性和可能性
在前面介紹語音信號時域特點時已經(jīng)說過,話音間隙使得全雙工話路的典型效率為通話時間的40%。這就是說,在語音通話期間,60%的時間是不需要編碼傳輸?shù)?。因此,在全部通信時間都用同一個速率對語音信號進行固定速率編碼,這對于信道資源是一個極大的浪費。如果能夠在無話音時使得編碼速率降低,而在講話時使得編碼速率提高,則平均編碼速率就會大大降低,信道資源就可能得到更充分的利用。變速率語音編碼技術(shù)不但可以根據(jù)需要動態(tài)調(diào)整編碼速率,降低平均速率,在編碼語音質(zhì)量和系統(tǒng)容量之間取得折中,而且非常適合分組交換(傳統(tǒng)的電路交換并不適合提供變速率業(yè)務)。因此,在近年來第三代移動通信技術(shù)的推動下,變速率語音編碼技術(shù)得到迅速發(fā)展和廣泛應用,如高通碼激勵線性預測(QCELP)聲碼器、增強型變速率編碼器(EVRC)、自適應多速率(AMR)語音編碼器和可選模式(SMV),等等。
目前,變速率語音編碼理論和技術(shù)主要是在CELPC的基礎(chǔ)上,引入了許多相關(guān)的新技術(shù),主要包括:
(1)用于在語音通信中檢測是否有語音信號存在的語音激活檢測(VoiceAcitivityDetector,VAD)技術(shù)。
(2)用于實現(xiàn)變速率的速度判決(RateDecisionAlgorithm,RDA)技術(shù)。
(3)用于克服語音幀丟失引起的負面效應的差錯隱藏(ErrorConcealmentUnits,ECU)技術(shù)。
(4)用于克服背景噪聲不連續(xù)的舒適背景噪聲(ComfortNoiseAspects,CNA)生成技術(shù)等。
變速率語音編碼主要有以下三種速率控制方式。
(1)信源控制方式。信源控制方式是根據(jù)語音信源的聲道短時特性,按照某種形式動態(tài)分配比特數(shù)。在語音通信過程中,講話人不說話時,信號幀只包含背景噪聲,即使說話時,也會有些幀只發(fā)清音。這種情況下,只需要較低的編碼速率;而對于激活語音部分則必須用較高的編碼速率。
(2)信道控制方式。信道控制方式是根據(jù)信道的質(zhì)量改變各幀語音的編碼速率。在比較惡劣的信道條件下,例如在深衰減情況下,信道編碼中的冗余比特不足以糾正傳輸錯誤,因而需要降低語音編碼速率,提高信道編碼速率,以保證通話質(zhì)量可懂;反之,在信道條件比較好的情況下,可提高語音編碼速率,降低信道編碼速率,以提高語音質(zhì)量。
(3)網(wǎng)絡控制方式。網(wǎng)絡控制方式用于克服蜂窩移動通信系統(tǒng)中的擁塞問題。因為通過改變每個用戶可用的平均比特率,網(wǎng)絡可以在容量和通話質(zhì)量之間取得比較好的折中,保證網(wǎng)絡在大多數(shù)情況下能提供良好的語音質(zhì)量,而在通話高峰階段又能夠為大量用戶提供可以接受的通話質(zhì)量。7.6.2變速率語音編碼關(guān)鍵技術(shù)
1.話音激活檢測VAD技術(shù)
VAD技術(shù)是通過計算連續(xù)幾幀的語音編碼參數(shù),來判斷話音是否存在的。VAD算法輸出為“1”,表明當前幀為話音幀;輸出為“0”,說明當前幀為非話音幀。
在QCELP和EVRC聲碼器中,VAD算法是通過計算話音信號能量并根據(jù)背景噪聲確定判決門限的,若信號能量超過判決門限,則說明當前幀為話音幀。
在AMR聲碼器中,VAD算法是用部分語音編碼參數(shù)和子帶電平估計得到的能量信息,檢測當前幀是話音幀還是非話音幀。在SMV聲碼器中,VAD算法則是利用話音幀能量、部分殘差能量、線性預測增益、基音周期、語音譜測度、信噪比等多個參數(shù)檢測當前幀是話音幀還是非話音幀。
2.速率判決RDA技術(shù)
RDA技術(shù)的目的是使編碼器在非話音幀編碼速率低一些,在話音幀時編碼速率高一些,使得平均速率降下來。在RDA技術(shù)中,主要包括信源控制速率(SCR)技術(shù)和信道控制速率(CCR)技術(shù)。
SCR的基本原理是根據(jù)話音激活VAD判決結(jié)果進行速率判決的,如果VAD判決結(jié)果為話音幀,則用較高的速率進行編碼;反之,則用較低的速率進行編碼。
CCR的基本原理是在通話過程中根據(jù)估計的信道質(zhì)量自適應切換編碼速率,信道質(zhì)量好時編碼速率高,信道質(zhì)量差時編碼速率低,在保證語音質(zhì)量的同時,最大限度發(fā)揮系統(tǒng)性能,提高系統(tǒng)容量。
QCELP和EVRC只采用了SCR技術(shù),AMR和SMV同時采用了SCR和CCR技術(shù)。
3.差錯隱藏ECU技術(shù)
無線通信與移動通信的信道環(huán)境復雜,誤碼率比較高,語音幀在傳輸過程中可能由于誤碼而導致在接收時出現(xiàn)丟幀問題。為此,必須采用ECU技術(shù),以便克服語音幀丟失所帶來的負面效應。具體來說,就是當語音幀丟失時,為了使接收人感覺不到丟幀,應當通過某種信息告訴譯碼器,讓譯碼器進行差錯隱藏,并用預測的參數(shù)進行語音合成;若連續(xù)出現(xiàn)丟幀,則采用減弱聲音的技術(shù),使得接收者知道傳輸中斷了。
4
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新疆烏魯木齊市天山區(qū)2025屆三年級數(shù)學第二學期期末統(tǒng)考試題含解析
- 重慶醫(yī)藥高等??茖W?!督y(tǒng)計應用與實務》2023-2024學年第一學期期末試卷
- 白銀希望職業(yè)技術(shù)學院《影視三維光影與質(zhì)感技術(shù)》2023-2024學年第一學期期末試卷
- 工程竣工驗收報告建筑外觀質(zhì)量檢查
- 涵洞墻身鋼筋施工方案
- 車庫地面施工方案
- 施工方案預控關(guān)鍵
- 戶外石材地面施工方案
- 河道大開挖施工方案
- 網(wǎng)絡架空地板施工方案
- 2025國家電力投資集團有限公司應屆畢業(yè)生招聘筆試參考題庫附帶答案詳解
- 2025年內(nèi)蒙古興安盟單招職業(yè)適應性測試題庫附答案
- 醫(yī)療器械使用安全和風險管理培訓課件
- 2025年新疆生產(chǎn)建設兵團興新職業(yè)技術(shù)學院單招職業(yè)傾向性測試題庫帶答案
- 外周靜脈解剖知識
- 2025年江蘇省高職單招《職測》高頻必練考試題庫400題(含答案)
- 康復科患者隨訪管理措施與效果評估
- 2024-2025學年人教版數(shù)學八年級下冊期中檢測卷(含答案)
- 2024年08月浙江/北京華夏金融租賃秋季社會招考筆試歷年參考題庫附帶答案詳解
- 2025年《可愛的中國》新疆地方教材(小學版)教案范文
- 2025年第一個節(jié)氣立春春天到來新的希望和開始課件
評論
0/150
提交評論