基于改進(jìn)模型的說話人確認(rèn)系統(tǒng)

上傳人：1*** IP屬地：廣東上傳時間：2023-11-09 格式：DOCX 頁數(shù)：7 大?。?3.44KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于改進(jìn)模型的說話人確認(rèn)系統(tǒng)

1不同現(xiàn)實(shí)條件下的評估方法說話人的確認(rèn)是一個雙重判斷的問題。指定說話人的確認(rèn)句子及其身份，并做出拒絕或接受的決定?，F(xiàn)有的說話人確認(rèn)算法在實(shí)驗(yàn)室環(huán)境(安靜的錄音環(huán)境、高質(zhì)量的錄音設(shè)備、訓(xùn)練和測試數(shù)據(jù)的采集環(huán)境相匹配)已經(jīng)可以取得很好的效果,但在實(shí)際的語音交互中由于復(fù)雜的聲學(xué)環(huán)境和個人語音的變化使得系統(tǒng)的性能急劇下降,成為說話人識別系統(tǒng)實(shí)用化的一個主要障礙。在說話人確認(rèn)系統(tǒng)中,各種不同的可變因素大致可以分為兩類:一類是說話人相關(guān)因素,由于說話人的個性特征具有長時變動性,會受到健康和情感等因素的影響,而且其發(fā)音時間長度,講話風(fēng)格等都會帶來不同程度的影響;另一類是測試相關(guān)因素,在實(shí)際的聲學(xué)環(huán)境中由于文本內(nèi)容的不同,采集設(shè)備包括麥克風(fēng)質(zhì)量甚至擺放位置的不同和不同的信道傳輸,以及各種噪聲的存在等都會帶來不可避免的影響。研究表明,這兩類可變因素都會嚴(yán)重影響系統(tǒng)的性能,因此需要采取不同的補(bǔ)償方法進(jìn)行處理。目前的補(bǔ)償方法主要集中在3個層次,特征級、模型級和得分級。得分級是指在得分層進(jìn)行得分補(bǔ)償,也稱為得分歸一化,是針對由于不同說話人和不同測試環(huán)境引起的輸出評分分布變化的不同因素加以補(bǔ)償,將不同話者模型下的輸出評分規(guī)整到同一分布范圍內(nèi),然后進(jìn)行確認(rèn)閾值的合理選取,使得失配條件下與說話人無關(guān)的決策門限更加魯棒。說話人確認(rèn)系統(tǒng)中關(guān)鍵的問題在于最佳閾值的選取。目前已有很多不同的得分規(guī)整方法,例如,零規(guī)整(zeronormalization,Znorm)方法主要消除不同說話人之間的差異對冒充得分分布的影響;話機(jī)規(guī)整(handsetnormalization,Hnorm)則是消除同一說話人在不同麥克風(fēng)和傳輸信道環(huán)境下的語音對得分分布的影響。在這兩種方法中,得分歸一化參數(shù)都是通過對冒充人集合語音得分分布的估計(jì)獲得。測試規(guī)整(testnormalization,Tnorm)選擇固定的冒充者模型來補(bǔ)償由于測試文本的多變性引起的不匹配,在獲得低的錯誤接受率性能方面有顯著的改進(jìn)。筆者從兩個方面對確認(rèn)系統(tǒng)進(jìn)行了改進(jìn),在模型方面,擴(kuò)展了MixMax模型,對復(fù)雜的背景噪聲等干擾因素在訓(xùn)練說話人模型的同時也進(jìn)行建模,很大程度上消除噪聲的影響,使得后續(xù)的地面移動距離(earthmover’sdistance,EMD)可以在該模型中應(yīng)用;在得分補(bǔ)償方面,提出了一種改進(jìn)的得分規(guī)整策略,基于EMD距離從冒充者集合中自適應(yīng)選擇一定數(shù)量的冒充者模型構(gòu)成說話人特定的冒充者集合(speakerspecificcohort,SPC),同時針對說話人和測試環(huán)境的不同進(jìn)行了補(bǔ)償,進(jìn)一步降低了誤識率和漏警率,獲得很好的確認(rèn)性能。2基于end-tnorm評估算法的魯棒開發(fā)系統(tǒng)應(yīng)用2.1自適應(yīng)測試本質(zhì)adaptormAucken于2000年提出了測試規(guī)整理論,原理為:設(shè)從測試語音中提取得到特征矢量序列O={O1,O2,…,ON},訓(xùn)練得到的說話人語音模型為λt,計(jì)算測試語音在目標(biāo)說話人模型下的似然得分為s(O,λt)。Tnorm首先計(jì)算測試語音在冒充者模型集合ΛI(xiàn)={λI,1,…,λI,N}下的得分SI={s(O,λI,1),…,s(O,λI,N)},然后進(jìn)行得分規(guī)整:sΤnorm(Ο,λt)=s(Ο,λt)-μΤnormσΤnorm(1)式(1)中,μTnorm和σTnorm分別是假設(shè)冒充者集合得分在服從高斯分布下的均值和標(biāo)準(zhǔn)方差。其原理如圖1所示,Tnorm方法在基于GMM-UBM(Gaussianmixturemodel-universalbackgroundmodel)的識別系統(tǒng)中得到廣泛的應(yīng)用,Reynolds研究表明,在固定冒充者集合中計(jì)算似然比時,如果能在考慮測試相關(guān)因素的同時考慮說話人相關(guān)因素,建立說話人特有的冒充者集合,例如通過說話人特征參數(shù)的選取(基音周期,性別等)或數(shù)據(jù)驅(qū)動的啟發(fā)式策略(例如模型間距離的計(jì)算),就能夠進(jìn)一步改進(jìn)系統(tǒng)的性能。Sturim提出說話人特定背景模型的測試規(guī)整方法,稱為自適應(yīng)測試規(guī)整(adaptivetnorm,ATnorm),通過City-Block矢量距離計(jì)算冒充者語音在目標(biāo)模型的得分序列和在冒充者模型集合中的得分序列的距離,從而選擇與目標(biāo)模型最接近的K個模型。筆者提出的基于EMD-Tnorm的歸一化算法與ATnorm方法相比,不是基于得分序列的距離計(jì)算,而是利用模型參數(shù)直接對模型之間的相似性進(jìn)行度量,不需要額外的冒充語音,算法簡單,易于實(shí)現(xiàn)。2.2局部匹配原則地面移動距離(EMD)定義為將“貨物”從“供給者”運(yùn)輸給“消費(fèi)者”所需的最小成本,可以用來衡量兩個特征分布之間的相似性。EMD距離作為一種典型的相似性度量廣泛應(yīng)用于計(jì)算機(jī)視覺中的圖像檢索,模式匹配和視頻說話人聚類,均取得了良好效果。該模型的描述如下:令P={(p1,wp1),…,(pm,wpm)}和Q={(q1,wq1),…,(qn,wqn)}分別表示供給者和消費(fèi)者的離散分布函數(shù),其中pi和qj是每一個聚類的質(zhì)心;wpi表示pi可以運(yùn)輸?shù)呢浳锟倲?shù);wqj表示qj需求的貨物總數(shù),稱為質(zhì)心頻率;D=[dij]是“地面距離”矩陣,矩陣中每個元素dij表示質(zhì)心pi和qj之間的“地面距離”,可以采用不同的距離度量;fij是從pi到qj的流量,即運(yùn)輸貨物的數(shù)量,流量矩陣F=[fij]。總的運(yùn)輸成本為:Cost(Ρ,Q,F)=m∑i=1n∑j=1dijfij(2)式(2)中隱含的約束條件包括:fij≥0(1≤i≤m,1≤j≤n)(a)n∑j=1fij≤wpi(1≤i≤m)(b)m∑i=1fij≤wqj(1≤j≤n)(c)m∑i=1n∑j=1fij=min(m∑i=1wpi,n∑j=1wqj)(d)式(a)規(guī)定是單向運(yùn)輸,“貨物”只能從pi運(yùn)輸?shù)絨j;式(b)保證了pi提供給各個需求者qj的貨物總和不大于其擁有的貨物總數(shù);式(c)說明qj接收各個供給者的貨物總和不大于需求總數(shù);歸一化因子在式(d)中表示當(dāng)供需不平衡時雙方之間能運(yùn)輸?shù)目偭髁渴撬鼈儍烧咧械淖钚≈?表示EMD距離可以用于規(guī)模大小不同的模型之間計(jì)算,因此可以用來進(jìn)行局部匹配。EMD距離定義為歸一化后的運(yùn)輸成本,如式(3)所示:dEΜD(Ρ,Q)=∑mi=1∑nj=1dijfij∑mi=1∑nj=1fij(3)2.3dmm模型擬然值計(jì)算在實(shí)際的說話人確認(rèn)系統(tǒng)中,確認(rèn)性能和魯棒性是兩個關(guān)鍵要求。由于各種背景噪聲及其不同信道的影響,會使說話人的模型參數(shù)發(fā)生不同程度的改變,各種模型補(bǔ)償方法都是著眼于對這些可變因素進(jìn)行不同程度的抑制,而沒有進(jìn)行具體的建模。因此,筆者選用MixMax模型并且對其進(jìn)行了擴(kuò)展,可以應(yīng)用EMD距離計(jì)算模型間的相似性,對復(fù)雜的背景噪聲等干擾因素在訓(xùn)練說話人模型的同時也進(jìn)行建模,很大程度上消除噪聲的影響,提高了系統(tǒng)的魯棒性。高斯混合模型(Gaussianmixturemodel,GMM)本質(zhì)上是一種多維概率密度函數(shù),它假設(shè)說話人語音特征可以用一系列高斯函數(shù)的疊加來逼近,即用M個單高斯分布的線性組合來描述對應(yīng)說話人的幀特征在特征空間中的概率密度分布,設(shè)D維特征矢量序列X={x1,x2,…,xT}其數(shù)學(xué)表達(dá)式如下:p(X|λ)=Τ∏t=1Μ∑i=1ωiD∏d=1g(xtd,μid,σid)(4)式(4)中,M是模型混合數(shù);xt是特征矢量;wi為混合權(quán)值,且Μ∑i=1wi=1;μi為均值矢量;σi為對角化協(xié)方差矩陣,σid為第d維對應(yīng)的標(biāo)準(zhǔn)方差;模型λ表示說話人的特征分布服從的概率密度函數(shù),用參數(shù)集表示:λ={wi,μi,σi},i=1,2,…,M,模型參數(shù)由期望最大值EM(expectationmaximization)算法訓(xùn)練得到。MixMax模型是由說話人的GMM模型λs和背景噪聲GMM模型λb組成。這個模型的優(yōu)勢在于不需要預(yù)先估計(jì)干凈語音模型,在說話人模型估計(jì)階段,含噪語音的各個成分受到背景噪聲成分的不同程度掩蔽。在似然值計(jì)算過程中,特征矢量的得分通過對組合模型的計(jì)算。說話人模型的各個混合成分對最終似然得分的貢獻(xiàn)與被噪聲掩蔽的程度直接相關(guān),掩蔽越嚴(yán)重,則這個成分對最終似然得分的貢獻(xiàn)越小,具體計(jì)算公式為:λMixMax={λsGMM,λbGMM}(5)p(xtd|i,j,λ)=g(xtd,μbjd,σbjd)?G(xtd-μsidσsid)+g(xtd,μsjd,σsjd)?G(xtd-μbidσbid)(6)p(X|λ)=Τ∏t=1Μ∑i=1Ν∑j=1ωsi?ωbj?D∏d=1p(xtd|i,j,λ)(7)式(6)中,G(xtd-μbidσbid)是一維標(biāo)準(zhǔn)正態(tài)分布函數(shù)。2.4混合成分的選擇當(dāng)說話人模型采用GMM時,將每個高斯混合成分當(dāng)作聚類中心,對應(yīng)的混合權(quán)值作為聚類權(quán)值,可以直接使用EMD距離進(jìn)行兩個模型之間的度量。但是在文章中是采用MixMax模型對說話人進(jìn)行魯棒建模,此時問題出現(xiàn)在如何將EMD距離應(yīng)用在該模型中,MixMax模型中噪聲等干擾的掩蔽作用并不是完全體現(xiàn)在模型參數(shù)中,更多的是通過公式(6)和(7)作用在似然值計(jì)算過程中。筆者對MixMax模型進(jìn)行了擴(kuò)展,引入掩蔽概率的計(jì)算,在EMD計(jì)算過程中給每個混合成分進(jìn)行掩蔽加權(quán),模擬噪聲的掩蔽過程。公式(6)表示第t個特征矢量的第d維xtd由說話人模型的混合成分i和背景噪聲模型的混合成分j建模的概率。式(8)給出在{i,j}狀態(tài)下假設(shè)現(xiàn)有觀察特征矢量是干凈語音std,即沒有受到噪聲影響的概率:p(xtd=std|i,j,λ)=g(xtd,μsid,σsid)?G(xtd-μbjdσbjd)p(xtd|i,j,λ)(8)因此說話人的GMM模型參數(shù)得到擴(kuò)展,增加一個矢量m=(m1,m2…mM)作為每個成分的掩蔽系數(shù):mi=∑Τt=1∑Νj=1∑Dd=11-p(xtd=std|i,j,λ)Τ?Ν?D(9)在模型估計(jì)時即可進(jìn)行掩蔽因子的計(jì)算。當(dāng)混合成分i的掩蔽因子為0時意味著該混合成分未受到噪聲的干擾,即為干凈的語音特征分布;當(dāng)為1時,則認(rèn)為該混合成分被噪聲完全破壞。在計(jì)算EMD距離前,在說話人模型的每個成分權(quán)值前乘以掩蔽因子1-mi,即混合成分受掩蔽作用越嚴(yán)重,對最后距離計(jì)算的貢獻(xiàn)度越小。原理示意圖見圖2。算法的具體步驟如下:1)基于EMD距離計(jì)算目標(biāo)說話人和其他說話人的模型之間的距離,對于每一個目標(biāo)說話人λt,計(jì)算與其他說話人的模型ΛI(xiàn)={λI,1,…,λI,N}之間的距離得到一個距離集合:Dt,I={Da(λt|λI,1),…,Da(λt|λI,N)}(10)2)選擇K個最相似的模型。從距離集合中選擇距離最小的K(K<N)個模型作為目標(biāo)說話人的自適應(yīng)冒充者模型集:ΛEMD-I={λEMD-I,1,…,λEMD-I,K},ΛEMD-I?ΛI(xiàn)(11)3)計(jì)算EMD-Tnorm得分。計(jì)算測試語音在冒充者模型集合中的得分:SEMD-I={s(O,λEMD-I,1),…,s(O,λEMD-I,K)}(12)4)得分歸一化。對測試語音在目標(biāo)模型的得分s(O,λt)進(jìn)行歸一化變換:SEΜD-Ι(Ο,λt)=s(Ο,λt)-μEΜD-ΤnormσEΜD-Τnorm(13)式(13)中,μEMD-Tnorm和σEMD-Tnorm分別是假設(shè)SEMD-I服從高斯分布下的均值和標(biāo)準(zhǔn)方差。3實(shí)驗(yàn)與結(jié)果分析3.1國際輿論選擇實(shí)驗(yàn)數(shù)據(jù)來自C603語音庫,該語音庫是在安靜的實(shí)驗(yàn)室環(huán)境下錄制的純凈語音。語音信號采樣頻率為22.05kHz,單聲道錄音,16Bit量化。實(shí)驗(yàn)中使用的語音數(shù)據(jù)包括182個說話人,82個女性,100個男性。其中所有說話人發(fā)音都是漢語普通話,每個說話人錄音三部分,分別為數(shù)字串、固定文章和自由發(fā)言,分3個文件保存。3次錄音得到的語音長度長短不一,但同一種文件的長度基本相等。數(shù)字串以4個數(shù)字序列為一組,共大約40s;文章是伊索寓言《北風(fēng)與太陽》,時間約60s;自由發(fā)言部分鼓勵談?wù)撋顚W(xué)習(xí)天氣等限定在2min之內(nèi)。噪聲數(shù)據(jù)來自NOISEX-92噪聲數(shù)據(jù)庫,這些噪聲按不同的信噪比分別添加到干凈語音中形成含噪語音。不包括交叉性別測試。3.2加窗處理實(shí)驗(yàn)中對輸入系統(tǒng)的語音信號進(jìn)行預(yù)加重,預(yù)加重系數(shù)為0.99;按幀長512個采樣點(diǎn)進(jìn)行分幀,幀交疊為50%;之后使用漢明窗進(jìn)行加窗處理。說話人的特征參數(shù)選取14階Mel倒譜參數(shù)(melfrequencycepstrumcoefficient,MFCC)參數(shù)及一階差分ΔMFCC共28維,在GMM模型中,通常階數(shù)越高,系統(tǒng)的識別率就越高,但計(jì)算量和存儲空間的開銷也隨之增加,文章折中考慮,取M=64。3.3最小檢測代價函數(shù)實(shí)驗(yàn)中采用的性能評估標(biāo)準(zhǔn)是等誤識率(equalerrorrate,EER),定義為DET(detectionerrortrade-off)曲線上錯誤接受率(FA)和錯誤拒絕率(FR)充分接近基礎(chǔ)上的算術(shù)平均值。在NIST說話人識別評測中,采用最小檢測代價函數(shù)(detectioncostfunction,DCF)來代表系統(tǒng)性能,它是系統(tǒng)對檢測代價函數(shù)取最小值的工作點(diǎn)。DCF函數(shù)定義為:DCF=CFR×FRR×Ptar+CFA×FAR×Pimp,Pimp=1-Ptar(14)式(14)中,CFR和CFA分別是錯誤拒絕FR和錯誤接受FA的代價,Ptar和Pimp分別是真實(shí)說話人和冒充說話人的先驗(yàn)概率。實(shí)際測試中,給定一個閾值就會得到對應(yīng)閾值下的檢測代價,檢測代價越小的系統(tǒng)性能越好。NIST評測中定義如下:CFR=10,CFA=1,Ptar=0.01,Pimp=0.99。3.4多次實(shí)驗(yàn)比較實(shí)驗(yàn)分別在男女?dāng)?shù)據(jù)庫中進(jìn)行,每個說話人的語音從3種文件中分別隨機(jī)選擇連續(xù)20s組成訓(xùn)練語音(共60s),在剩余的語音里隨機(jī)選擇10s語音用于自身登錄,共進(jìn)行20次;從其他說話人的語音中隨機(jī)選擇10s進(jìn)行冒認(rèn)登錄,分別進(jìn)行3次;男性數(shù)據(jù)庫自身登錄100×20次,冒認(rèn)登錄100×99×3次,比例約為1︰14.9;女性數(shù)據(jù)庫自身登錄82×20次,冒認(rèn)登錄82×81×3次,比例約為1︰12.2,總共重復(fù)進(jìn)行5次驗(yàn)證,最后取其平均值。在選擇目標(biāo)說話人特有的背景模型的過程中,K的取值會影響到最終的性能,在干凈語音條件下,對K的不同取值進(jìn)行了多次實(shí)驗(yàn)比較,實(shí)驗(yàn)結(jié)果如圖3和圖4所示。從圖3和圖4可知,隨著K取值的不同,分別在男性和女性的語料庫下的等錯誤率和最小檢測代價值都會發(fā)生改變,男性語音庫的實(shí)驗(yàn)在K=20時取得最小值,女性語音庫的實(shí)驗(yàn)在K=15時取得最小值,該K值將作為下一步實(shí)驗(yàn)的取值。同時,女性語音庫下的實(shí)驗(yàn)數(shù)據(jù)普遍高于男性語音庫,經(jīng)過分析認(rèn)為女聲中高頻成分比較豐富,而筆者所采用的傳統(tǒng)MFCC參數(shù)沒有充分考慮到這一點(diǎn),說明在識別系統(tǒng)中尋找更穩(wěn)健,更適合說話人的特征也是一個重要問題。為了驗(yàn)證文章提出的方法在抗噪性,以及降低錯誤率和最小檢測代價方面的性能,筆者在混合噪聲存在的環(huán)境下,與Tnorm方法和不做歸一化變換的方法進(jìn)行比較,在15dB的混合噪聲條件下訓(xùn)練模型,在不同的信噪比下進(jìn)行測試,采用White平穩(wěn)噪聲與Factory,Babble和F163種非平穩(wěn)噪聲組成混合噪聲。其中

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 學(xué)術(shù)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于改進(jìn)模型的說話人確認(rèn)系統(tǒng)

文檔簡介

溫馨提示

最新文檔

評論

基于改進(jìn)模型的說話人確認(rèn)系統(tǒng)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔