一種多通道魯棒說話人識別系統(tǒng)

上傳人：1*** IP屬地：廣東上傳時間：2023-11-09 格式：DOCX 頁數(shù)：5 大小：40.29KB 積分：12 舉報 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

一種多通道魯棒說話人識別系統(tǒng)

說話者識別是根據(jù)語音識別說話者的過程。包括兩個步驟——建模和測試。當(dāng)建模環(huán)境和測試環(huán)境存在差異時,系統(tǒng)的性能會急劇下降,這種現(xiàn)象稱為失配。造成失配的主要原因是建模和測試語音采集的手持設(shè)備不同。一般可以從特征提取、建立模型、計算得分3個方面入手,增強(qiáng)系統(tǒng)對于信道的魯棒性。以往的方法都基于一個短時平穩(wěn)的語音傳輸模型,試圖將信道影響從語聲中分離出去。但是運(yùn)用這些方法后和信道匹配情況下系統(tǒng)的性能,還是存在相當(dāng)大的差異。文指出短時平穩(wěn)的模型不能有效描述語音通過信道的傳輸,并且作了語音傳輸模型的非線性探索。雖然無法很好地知道信道對于語音信號的影響,但是不同的信道對于語音信號影響的差異有可能被估計出來。文給出一種在頻域?qū)ふ倚诺篱g差異的方法,并在頻域歸一信道。本文在參數(shù)域估計信道差異,并利用這種差異來補(bǔ)償信道失配。采用Mel倒譜系數(shù)(MFCC)作為基本的特征向量,在模型空間使用Gaussian混合模型(GMM)與矢量量化模型(VQ)作比較。并且提出了說話人識別信道空間映射方法。1信道成分識別率的下降語聲中同時包含著語音信號和傳輸信道的成分。從語聲中提取對于說話人識別有用的特征量是問題的關(guān)鍵。以往的許多研究都著眼于如何剔出信道的成分,其中最為經(jīng)典而常見的方法是倒譜均值歸一(CMN),然而CMN存在一定的缺陷。造成識別率下降的原因是建模和測試的語聲中包含了不同的信道成分。為了能夠使說話人識別系統(tǒng)對于信道的差異魯棒,只要將這種信道間的差異消除就可以。1.1功能2:將語聲轉(zhuǎn)化為成像一般認(rèn)為語音信號通過信道傳輸是一個短時平穩(wěn)過程。模型在頻域表示為Yt(ω)=Η(ω)Xt(ω)+Νt(ω),(1)Yt(ω)=H(ω)Xt(ω)+Nt(ω),(1)其中:Yt(ω)表示受信道影響輸出語聲的頻譜,H(ω)表示信道短時頻譜,Xt(ω)表示干凈語聲的頻譜,Nt(ω)表示加性噪聲頻譜。在對數(shù)頻譜域式(1)轉(zhuǎn)化為yt=h+xt+rt,(2)rt=lg[1+Νt(ω)Η(ω)Xt(ω)].(3)yt=h+xt+rt,(2)rt=lg[1+Nt(ω)H(ω)Xt(ω)].(3)當(dāng)語聲有效時,滿足Nt(ω)?H(ω)Xt(ω),rt→0.式(2)成為yt=h+xt,(4)yt=h+xt,(4)在一個長時間段內(nèi)對式(4)求平均值ˉyt=h+ˉxt.(5)yˉt=h+xˉt.(5)當(dāng)語聲比較充分時,ˉxxˉt中與文本相關(guān)的分量趨向于零,而與說話人相關(guān)的分量趨向一個恒定的值。因為尚不知這兩種信息的耦合方式,所以無法區(qū)分開。由式(4)減去式(5),去除信道因素的同時把某些表征說話人的特征量也去除掉了。這也就是當(dāng)信道失配時,使用CMN會使得系統(tǒng)性能下降的原因。1.2信號輸出語聲倒譜cs因為沒有辦法在語聲中單純地將信道的成分去除掉,所以針對信道失配的關(guān)鍵——語聲中含有不同信道的成分,尋找不同信道間的差別,用這些差別來補(bǔ)償失配。假設(shè)h1(n)為建模信道,h2(n)為測試信道。這兩條信道上得到語聲的倒譜為:cy1,a=cx,a1+ch1,(6)cy2,a=cx,a2+ch2.(7)cy1,a=cx,a1+ch1,(6)cy2,a=cx,a2+ch2.(7)其中:cyi,a表示說話人在信道hi(n)上長時間語聲的倒譜,chi表示于信道相關(guān)的倒譜成分,cx,ai表示與說話人x相關(guān)的倒譜成分。因為是同一個說話人,所以cx,a1=cx,a2.cx,a1=cx,a2.式(6)減去式(7)得Δc=cy1-cy2=ch1-ch2.(8)Δc=cy1?cy2=ch1?ch2.(8)說話人s通過信道h2(n)得到輸出語聲,在倒譜域表示為cs,y2=cs+cy2,(9)cs,y2=cs+cy2,(9)其中:cs,y2表示說話人s在信道y2上語聲的倒譜,cs為與說話人相關(guān)的倒譜成分,cy2為與信道相關(guān)的倒譜成分。欲對該語聲在h1(n)信道下的模型庫上進(jìn)行測試,可以用Δc對該語聲倒譜進(jìn)行如下處理cs,m?cs,y2+Δc=(cs+ch2)+(ch1-ch2)=cs+ch1.(10)用cs,m作為特征參數(shù)進(jìn)行測試。經(jīng)過處理以后的語聲,就如同說話人通過信道h1(n)得到的語聲,用這個數(shù)據(jù)進(jìn)行測試,理論上是匹配的。1.3突破信道失配到廣義信道特定說話人空間的算法,并將現(xiàn)代構(gòu)造與信道和說話人均無關(guān)的廣義信道廣義說話人空間。在這個基礎(chǔ)上,自適應(yīng)出特定信道廣義說話人空間和廣義信道特定說話人空間,如圖1所示。將待測試語聲從特定信道特定說話人空間,映射到廣義信道特定說話人空間后再做識別,可以解決信道失配的問題。在信道空間映射過程中找到信道間的差異并且補(bǔ)償這種差異,是至關(guān)重要的。比如用GMM描述各個空間,可以用統(tǒng)計參數(shù)差異表征信道間的差異。2對信道魯棒的說話人識別系統(tǒng)理想的話者識別過程應(yīng)該對信道有足夠的魯棒性。不管是建模還是測試,都不必特意關(guān)心語聲采集的方式。利用本文提出的信道空間映射方法,使用GMM和背景模型構(gòu)造一個對信道魯棒的說話人識別系統(tǒng),如圖2所示。其中Tk表示從待測語聲k中提取特征向量集,Ci表示特定的某類信道,UBM表示廣義信道,Sj表示話者模型。識別過程主要包括3個階段:信道判斷(一級測試)、特征映射和話者識別(二級測試)。信道判斷和話者識別是兩個類似的過程。特征映射則是利用信道模型和背景模型之間的差異來達(dá)到三把待測試語聲的特征向量,從與信道相關(guān)的特征空間映射到與信道無關(guān)的特征空間。2.1對于不同的信道的模型整個系統(tǒng)一共存在3類模型:背景模型UBM、信道模型Ci和話者模型Sj。Ci和Sj都是從與信道無關(guān)與話者無關(guān)的UBM上自適應(yīng)得到的。例如N條不同的信道{c1,c2,…,cN}。1)在每條信道上取M個不同的語聲,用這N×M個語音樣本,建立一個與信道無關(guān)的模型UBM。2)每次取一條信道上的M個語聲,從UBM上自適應(yīng)出與該信道ci相關(guān)的模型Ci。3)對于某個特定的說話人j,從UBM自適應(yīng)出話者模型Sj。信道和話者模型是通過相同的方法從背景模型上自適應(yīng)得到的,可使建立的模型能夠更好地反映信道和說話人的特征,在識別過程中還可用此關(guān)系來降低系統(tǒng)開銷。2.2廣義信道ci用特定的某類信道Ci上的語聲作為測試數(shù)據(jù),在UBM上建立的模型庫進(jìn)行識別。因為Ci是從UBM上自適應(yīng)得到的,所以它們之間的差別很容易得到。測試過程如下。1)從待測語聲k中提取特征向量集Tk。Tk={x1,…,xn},其中xi為一個特征向量。2)通過類似識別的過程,判斷Tk所屬的信道Ci。這個過程類似于在一個大小為N(信道類別數(shù))的模型集上作信道識別。3)利用Ci與UBM的關(guān)系,將Tk從與信道相關(guān)的特征空間,映射到與信道無關(guān)的特征空間。4)使用特征映射后得到的特征向量集在說話人模型集中尋找到最相近的Sj,進(jìn)而判斷k=j。經(jīng)過特征映射以后的待測語聲與話者模型同處于廣義信道空間,所以它們不存在信道失配的問題。因此能夠取得較好的系統(tǒng)性能。其中3)信道空間映射是整個測試過程的關(guān)鍵。利用特定信道Ci和UBM的差異,修正從待測語聲中提取出來的特征向量。相當(dāng)于把特征向量從特定信道空間映射到了廣義信道空間。對于特征向量集Tk={x1,…,xn}的每一個特征向量xi,找出其中與之最相關(guān)Ci的幾個組件,進(jìn)行如下映射:yi?(xi-μCi)σUσCi+μU.(11)式中:σCi與μCi分別表示ci信道上的方差和均值,σU與μU分別表示UBM信道的方差和均值。xi表示原始的特征向量,yi表示經(jīng)過映射后得到的特征向量。3實(shí)驗3.1sqp的建立在實(shí)驗中,使用了6類說話人語音集。1)通過一部固定電話錄制的建模語音集dhA和測試語音集dhB,數(shù)據(jù)量均為300。2)通過一部手機(jī)錄制的建模語音集sjA和測試語音集sjB,數(shù)據(jù)量均為300。3)通過6部不同的固定電話采集的測試語音集TEL,數(shù)據(jù)量131。4)通過6部不同的碼分多址制式手機(jī)采集的測試語音集CDMA,數(shù)據(jù)量139。5)通過6部不同的全球移動通信系統(tǒng)制式手機(jī)采集的測試集GSM,數(shù)據(jù)量143。6)TEL、CDMA及GSM的合集為RAND,數(shù)據(jù)量413。3.2維一階差分用下面3個系統(tǒng)進(jìn)行對比實(shí)驗。A系統(tǒng):基于VQ的系統(tǒng),特征參數(shù)采用16階MFCC加16維一階差分,并且使用CMN。定義為實(shí)驗室基線系統(tǒng)。B系統(tǒng):基于VQ的系統(tǒng),特征參數(shù)采用16階MFCC加16維一階差分,不使用CMN。C系統(tǒng):基于GMM的系統(tǒng),組件數(shù)為16。特征參數(shù)使用16階MFCC加16維一階差分,并且采用信道空間映射方法。3.3實(shí)驗2基于廣義信道空間的系統(tǒng)性能實(shí)驗實(shí)驗1在失配時CMN不能完全補(bǔ)償信道失配帶來的影響。采用A,B系統(tǒng)作比較。去除靜音后35s語音建模,去除靜音后10s語音測試。實(shí)驗結(jié)果見表1和表2。從表1,表2可以看出,當(dāng)匹配情況時使用CMN反而會使的系統(tǒng)的性能下降。而在失配情況下使用CMN會使得系統(tǒng)得性能有所提高,但是總體上和匹配情況下的系統(tǒng)性能還是存在很大的差距?？傮w的性能排序從優(yōu)到劣依次為匹配(無CMN),匹配(有CMN),失配(有CMN),失配(無CMN)。實(shí)驗2用dhA創(chuàng)建話者模型集。在系統(tǒng)c中,構(gòu)建了3類特殊信道空間C1、C2和C3。使用通過7種不同的固定電話TEL錄制的語音(數(shù)據(jù)量315),創(chuàng)建C1。使用通過7種不同的GSM手機(jī)錄制的語音(數(shù)據(jù)量315),創(chuàng)建C2。使用通過7種不同的CDMA手機(jī)錄制的語音(數(shù)據(jù)量315),創(chuàng)建C3。廣義信

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 學(xué)術(shù)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

一種多通道魯棒說話人識別系統(tǒng)

文檔簡介

溫馨提示

最新文檔

評論

一種多通道魯棒說話人識別系統(tǒng)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔