版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第12章語音識別12.1
語音識別的基本原理12.2
說話人識別12.3
語種識別12.4關(guān)鍵詞識別12.5連續(xù)語音識別習(xí)題12.1語音識別的基本原理本節(jié)主要討論語音識別的基本原理,包括系統(tǒng)結(jié)構(gòu)、特征提取和分類模型。12.1.1語音識別系統(tǒng)的結(jié)構(gòu)典型語音識別系統(tǒng)結(jié)構(gòu)框圖如圖12-1所示,一個(gè)完整的語音識別系統(tǒng)包括預(yù)處理、特征提取、模型建立、模式匹配和判決規(guī)則等5個(gè)部分。圖12-1語音識別系統(tǒng)結(jié)構(gòu)框圖語音識別是屬于人工智能領(lǐng)域中的一項(xiàng)技術(shù),本質(zhì)上講,語音識別技術(shù)是一個(gè)語音信號模式識別問題,它由訓(xùn)練(或注冊,Training)和識別(或測試,Testing)兩個(gè)階段完成。從訓(xùn)練語音中提取語音特征、建立參考模型并儲存的過程稱為訓(xùn)練階段;從待識別語音中提取語音特征,依據(jù)參考模型進(jìn)行比較和判決的過程稱為識別階段。12.1.2語音信號的預(yù)處理
由于語音信號的平均功率譜受聲門激勵(lì)和口鼻輻射的影響,高頻端大約在800Hz以上按6dB/倍頻程跌落,為此要在預(yù)處理中進(jìn)行預(yù)加重。預(yù)加重的目的是提升高頻部分,使信號的頻譜變得平坦,以便于進(jìn)行頻譜分析或聲道參數(shù)分析。一般用具有6dB/倍頻程的提升高頻特性的預(yù)加重?cái)?shù)字濾波器實(shí)現(xiàn),它一般是一階的FIR濾波器,即(12-1)式中,μ值接近于1,典型值為0.94。語音信號是非平穩(wěn)過程、時(shí)變的,但由于人的發(fā)音器官的運(yùn)動(dòng)速度較慢,因此可以認(rèn)為語音信號是局部平穩(wěn)的,或短時(shí)平穩(wěn)的。語音信號分析常通過分段或分幀來進(jìn)行,一般每秒的幀數(shù)約為33~100,分幀既可用連續(xù)的方法,也可用交疊的方法,在語音信號中常用“短時(shí)分析”表述。短時(shí)分析實(shí)質(zhì)上是用一個(gè)窗截取信號,如果采用矩形窗,則其高頻部分的吉布斯(Gibbs)效應(yīng)必將影響語音信號的高頻部分,一般用高頻分量幅度較小的窗形,以避免這些影響。例如,漢明(Hamming)窗的帶寬是矩形窗的兩倍,但帶外衰減卻比矩形窗大得多。12.1.3語音識別的特征提取語音識別系統(tǒng)中的特征提取即提取出適合分類的某些信息特征(如說話人,或語言特征,或關(guān)鍵詞特征),此特征應(yīng)能有效地區(qū)分不同的模式,而且對同種方式的變化保持相對穩(wěn)定。了由于說話內(nèi)容的語義特征、說話人的個(gè)性特征和語言特征總是交織在一起的,目前還沒有找到將三者很好地分離的方法。盡管如此,語音信號的特征參數(shù)仍從不同側(cè)面反映出說話人的個(gè)性、語言特性和語義特性,仍是語音識別特征的重要來源。考慮到特征的可量化性、訓(xùn)練樣本的數(shù)量和系統(tǒng)性能的評價(jià)問題,目前的語音識別系統(tǒng)主要依靠較低層次的聲學(xué)特征進(jìn)行識別。語音識別特征大體可歸為3類:
(1)線性預(yù)測系數(shù)及其派生參數(shù),如線性預(yù)測系數(shù)(LPC)、線譜對系數(shù)、線性預(yù)測倒譜系數(shù)(LPCC)及其組合等參數(shù)。(2)由語音頻譜直接導(dǎo)出的參數(shù),如基音(Pitch)及其輪廓、美爾頻率倒譜系數(shù)(MFCC)、感知線性預(yù)測(PLP)參數(shù)、口音敏感倒譜系數(shù)(ASCC)。
(3)混合參數(shù)。混合參數(shù)是由上述不同的參數(shù)組成的矢量。下面簡要介紹幾種常用的參數(shù)。
1.基音周期
基音周期是指發(fā)濁音時(shí)聲帶振動(dòng)所引起的準(zhǔn)周期運(yùn)動(dòng)的時(shí)間間隔,是聲帶振動(dòng)頻率F0的倒數(shù)。基音周期的檢測方法大致可分為三類:
(1)時(shí)域估計(jì)法,即直接由語音波形來估計(jì)基音周期,如自相關(guān)法、平均幅度差法(AMDF)等。
(2)變換域法,將語音信號變換到頻域或倒譜域來估計(jì)基音周期,如倒譜法等。
(3)混合法,即先將信號提取聲道模型參數(shù),然后利用它對信號進(jìn)行逆濾波,得到音源序列,最后再利用自相關(guān)法或AMDF求得基音周期。(12-2)式(12-2)把語音信號s(n)建模成為一個(gè)P階的AR過程。對于濁音段,此系統(tǒng)受準(zhǔn)周期沖激串激勵(lì);對于清音段,該系統(tǒng)則受隨機(jī)噪聲序列激勵(lì)。此模型的參數(shù)有濁音/清音判決、濁音語音的基音周期、增益常數(shù)G及數(shù)字濾波器參數(shù)αk。利用該傳輸函數(shù)可得到語音信號s(n)合成的差分方程:(12-3)從式(12-3)可以看出,s(n)是前P個(gè)語音信號采樣值s(n-1),s(n-2),…,s(n-P)的線性組合,因此該語音產(chǎn)生模型通常被稱為線性預(yù)測(LP)模型或自回歸(AR)模型。αk(k=1,…,P)為線性預(yù)測系數(shù),是從語音信號中提取出來的。聲道形狀在時(shí)間上是變化的,所以預(yù)測系數(shù)也是時(shí)變的。根據(jù)語音信號的短時(shí)平穩(wěn)性,可以認(rèn)為語音在每一個(gè)分析幀(10~30ms)上是非時(shí)變的,從而計(jì)算得到一組預(yù)測系數(shù)。計(jì)算預(yù)測器系數(shù)的常用方法為自相關(guān)法,它的思想是使預(yù)測誤差e(n)的均方值最小。e(n)定義如下:(12-4)其中:α0=1;稱做s(n)的預(yù)測值或估計(jì)值。算αk的準(zhǔn)則是使E[e2(n)]極小,故令得到一個(gè)線性方程組:(12-5)其中(12-6)稱為語音短時(shí)自相關(guān)系數(shù),N為語音幀的樣點(diǎn)數(shù),P為預(yù)測器階數(shù)。用德賓(Durbin)算法解方程式(12-5),可得αk(k=1,…,P)。
3.線性預(yù)測倒譜系數(shù)(LPCC)同態(tài)信號處理就是將非線性問題轉(zhuǎn)化為線性問題來進(jìn)行處理的一種方法。對語音信號產(chǎn)生過程建模成一個(gè)激勵(lì)信號通過時(shí)變系統(tǒng)的過程,即一個(gè)卷積的過程,卷積作為一個(gè)非線性問題可使用同態(tài)處理來解決。
LPC系數(shù)可以用來估計(jì)語音信號的倒譜,這也是語音信號短時(shí)倒譜分析中一種特殊的處理方法。式(12-2)的聲道模型的傳輸函數(shù)H(z),其沖激響應(yīng)為h(n),首先求序列h(n)的倒譜。因?yàn)镠(z)是最小相位的,所以可以求出和αk之間的遞推關(guān)系為(12-7)由式(12-7)可以直接從預(yù)測系數(shù)αk推得倒譜,由于這個(gè)倒譜是從線性預(yù)測系數(shù)得到的,因此又稱之為LPC倒譜(LPCC)。由于LPCC利用了線性預(yù)測中聲道傳輸函數(shù)H(z)的最小相位特性,因此避免了一般同態(tài)處理中求復(fù)對數(shù)而帶來的相位卷繞的問題。
4.美爾頻率倒譜系數(shù)(MFCC)
MFCC不同于LPCC,它是在頻譜上采用濾波器組的方法計(jì)算出來的,這組濾波器在頻率的美爾(Mel)坐標(biāo)上是等帶寬的。這是因?yàn)槿祟愒趯?000Hz以下的聲音頻率范圍的感知遵循近似線性關(guān)系,對1000Hz以上的聲音頻率范圍的感知不遵循線性關(guān)系,而是遵循在對數(shù)頻率坐標(biāo)上的近似線性關(guān)系。美爾刻度與頻率的關(guān)系如圖12-2所示。美爾刻度與頻率的關(guān)系式為(12-8)圖12-2美爾刻度與頻率的關(guān)系
MFCC正是基于這個(gè)現(xiàn)象提出的,它的計(jì)算過程如圖12-3所示。語音信號在經(jīng)過加窗處理后變?yōu)槎虝r(shí)信號,用FFT計(jì)算它的能量譜之后,通過一個(gè)具有40個(gè)濾波器的濾波器組,前13個(gè)濾波器在1000Hz以下是線性劃分的,后27個(gè)濾波器在1000Hz以上是在美爾坐標(biāo)上線性劃分的。如果表示第k個(gè)濾波器的輸出能量,則美爾頻率倒譜CMel(n)在美爾刻度譜上可以采用修改的離散余弦變換(DCT)求得,其中,P為MFCC參數(shù)的階數(shù)。(12-9)圖12-3MFCC計(jì)算過程
5.差分參數(shù)通常語音信號的動(dòng)態(tài)參數(shù)能較好地反映語音信號的時(shí)變特征,因此在獲得每幀信號的特征參數(shù)后,還要計(jì)算相應(yīng)的差分參數(shù)。假設(shè)當(dāng)前所獲得的特征倒譜參數(shù)是P維,那么一階差分特征的計(jì)算如式(12-10)所示:(i=1,2,…,P)(12-10)其中:dCep表示動(dòng)態(tài)特征;Cep表示倒譜;K是求差分的幀的范圍;α為因子,用來換算這些特征。式(12-10)也可寫成(12-11)類似地,二階差分特征可由下式獲得(12-12)12.1.4語音識別的模型建立
模型建立是指在訓(xùn)練階段用合適的模型來表征這些特征參數(shù),使得模型能夠代表該語言的語音特性。對模型的選擇主要應(yīng)從語音的類型、所期望的性能、訓(xùn)練和更新的難易程度以及計(jì)算量和存儲量等方面綜合考慮。當(dāng)前有多種模型可供選擇,一般可分為以下四類。
(1)模板匹配模型。從每種模式的訓(xùn)練語句中提取相應(yīng)的特征矢量,這些特征矢量稱為模板。識別時(shí),從語音信號中按同樣的處理法提取測試模板,并且與其相應(yīng)的參考模板相比較。模板匹配模型的不足之處在于不能全面地反映樣本分布及統(tǒng)計(jì)特性,適應(yīng)性較差。典型模板匹配模型有最近鄰(NearestNeighbor,NN)模型、動(dòng)態(tài)時(shí)間規(guī)整(DynamicTimeWarping,DTW)模型和矢量量化(VectorQuantization,VQ)模型。
(2)概率統(tǒng)計(jì)生成模型(又稱參數(shù)模型)。語音信號具有短時(shí)平穩(wěn)性,通過對穩(wěn)態(tài)特征如基音、聲門增益、低階反射系數(shù)的統(tǒng)計(jì)分析,可以利用均值、方差等統(tǒng)計(jì)量和概率密度函數(shù)進(jìn)行分類判決。概率統(tǒng)計(jì)生成模型采用某種概率密度函數(shù)來描述語音特征在特征空間的分布情況,并以該概率密度函數(shù)的一組參數(shù)作為語音模型。概率統(tǒng)計(jì)生成模型由于考慮了語音的統(tǒng)計(jì)特性,能較全面地反映語音的統(tǒng)計(jì)信息,其優(yōu)點(diǎn)是不用對特征參量在時(shí)域上進(jìn)行規(guī)整。典型的概率統(tǒng)計(jì)生成模型有隱馬爾可夫模型(HiddenMarkovModel,HMM)和高斯混合模型(GaussianMixtureModel,GMM)。
(3)神經(jīng)網(wǎng)絡(luò)(ANN)模型。人工神經(jīng)網(wǎng)絡(luò)在某種程度上模擬了生物的感知特性,它是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,具有自組織和自學(xué)習(xí)能力、很強(qiáng)的復(fù)雜分類邊界區(qū)分能力以及對不完全信息的穩(wěn)健性,其性能近似理想的分類器。其缺點(diǎn)是訓(xùn)練時(shí)間長,動(dòng)態(tài)時(shí)間規(guī)整能力弱。目前常用的神經(jīng)網(wǎng)絡(luò)有多層感知器(MLP)、徑向基函數(shù)(RBF)網(wǎng)絡(luò)、自組織映射(SOM)網(wǎng)絡(luò)和支持向量機(jī)(SVM)網(wǎng)絡(luò)等。
(4)融合模型。把以上分類方法與不同特征進(jìn)行有機(jī)組合可顯著提高語音識別的性能。下面簡要介紹動(dòng)態(tài)時(shí)間規(guī)整模型、矢量量化模型、隱馬爾可夫模型和高斯混合模型。
1.動(dòng)態(tài)時(shí)間規(guī)整(DTW)模型由于語速、語調(diào)、重音和韻律的變化,語音信息存在時(shí)變因素,從而使得測試模板和參考模板在時(shí)間尺度上可能不完全一致。因此,需要將識別模板與參考模板進(jìn)行時(shí)間對齊,按照某種距離測度計(jì)算兩模板間的相似程度。模板序列與輸入序列不均勻匹配得分z定義為(12-13)其中,模板標(biāo)記j(i)是由基于最近鄰原則的動(dòng)態(tài)時(shí)間規(guī)整法(DTW)給出的。DTW算法使z最小化,將兩個(gè)信號進(jìn)行時(shí)間上的對齊。在時(shí)間對齊后,最終的距離和是匹配得分的基礎(chǔ)。
2.矢量量化(VQ)模型矢量量化最早用于數(shù)據(jù)壓縮編碼,后來很多研究人員將其用于語音識別。一般采用LBG算法把訓(xùn)練數(shù)據(jù)進(jìn)行聚類生成碼本,即參考模板的集合。識別時(shí),對輸入矢量進(jìn)行矢量量化,以量化產(chǎn)生的失真度作為判決標(biāo)準(zhǔn)。L幀測試語音矢量(x1,x2,…,xL)的匹配得分為(12-14)其中,C是參考模板的集合。
VQ模型不需要對時(shí)間進(jìn)行對齊,具有復(fù)雜度低、精度較高以及判斷速度快的優(yōu)點(diǎn)。
3.隱馬爾可夫模型(HMM)隱馬爾可夫模型把語音建模成由可觀察到的符號序列組成的隨機(jī)過程,符號序列是發(fā)聲系統(tǒng)狀態(tài)序列的輸出。HMM為有限狀態(tài)的隨機(jī)過程,從狀態(tài)si到狀態(tài)sj的轉(zhuǎn)移概率為aij=p(sj|si);對應(yīng)于狀態(tài)si,語音特征x(隨機(jī)向量)的概率密度函數(shù)為p(x|si)。由給定模型M產(chǎn)生具有L幀語音特征向量(連續(xù))x1,x2,…,xL的似然值為(12-15)其中,S={1,2,…,Q}表示所有可能狀態(tài)的集合。對于離散的語音特征向量,上式中的p(x1,x2,…,xL|M)和p(xi|si)為相應(yīng)的概率。在使用HMM識別時(shí),為每個(gè)說話人(或音節(jié)、音素)建立發(fā)聲模型,通過訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和語音特征向量的概率密度矩陣(或概率矩陣)。識別時(shí)計(jì)算未知語音在狀態(tài)轉(zhuǎn)移過程中的最大似然值或概率,根據(jù)最大似然值或概率的模型進(jìn)行判決。
HMM模型廣泛用于說話人識別、語言辨識、關(guān)鍵詞檢出和連續(xù)語音識別中,具有良好的性能。此外,HMM模型不需要時(shí)間規(guī)整,可節(jié)約判決時(shí)的計(jì)算時(shí)間和存儲量。不過,HMM模型訓(xùn)練的計(jì)算量較大。
4.高斯混合模型(GMM)高斯混合模型本質(zhì)上是一種多維概率密度函數(shù),可以用來表示語音特征矢量的分布。一個(gè)具有M個(gè)混合數(shù)的D維GMM,其概率密度函數(shù)用M個(gè)高斯分量的加權(quán)和來表示,即(12-16)其中:x是一個(gè)D維的觀測矢量;wi(i=1,2,…,M)為混合權(quán)值,滿足為D維高斯密度函數(shù),即(12-17)其中:μi為均值矢量;Σi為協(xié)方差矩陣;D是參數(shù)的維數(shù),例如,取LPCC參數(shù)17維,或取參數(shù)組合后的維數(shù)。高斯混合模型可由各均值矢量、協(xié)方差矩陣及混合權(quán)值來描述,可表示為三元式λ={wi,μi,Σi},i=1,2,…,M。在GMM模型中,首先對特征矢量進(jìn)行聚類,把每一類看做是一個(gè)多維高斯分布函數(shù);然后,求出每一類的均值、協(xié)方差矩陣和出現(xiàn)的概率,得到每種模式的訓(xùn)練模板;最后,將觀測序列代入每個(gè)模板,對應(yīng)于最大的后驗(yàn)概率的模板為所識別的對象。12.1.5語音識別的判決準(zhǔn)則
在識別階段,用訓(xùn)練階段建立的語音模型對測試語音的特征參數(shù)進(jìn)行某種形式的模式匹配,從而得出相似性得分,并依據(jù)特定的規(guī)則給出最終的識別結(jié)果。對于模板匹配模型,比較J個(gè)模板和測試語音x的距離,距離最近的模板種類則判決為該測試語音的語言種類,即(12-18)其中,為第j種語言的模板。對于概率生成模型,判決規(guī)則為J個(gè)模型中的哪個(gè)模型對x產(chǎn)生的后驗(yàn)概率最大,就判決測試語音x屬于哪種模型,即(12-19)其中,λj為第j種概率生成模型。對于神經(jīng)網(wǎng)絡(luò)模型,判決時(shí)就是看屬于哪一類的可能性最大。對于多類的分類問題,常常轉(zhuǎn)化為多個(gè)兩類分類問題的組合問題,而且兩類問題往往更適于用判別模型來解決。12.2說話人識別12.2.1說話人識別的基本原理說話人識別的基本原理是利用說話人的語音為每一個(gè)說話人建立一個(gè)能夠描述此說話人特點(diǎn)的模型,作為此說話人語音特征參數(shù)的標(biāo)準(zhǔn)模板,然后針對采樣而來的語音信號進(jìn)行比對,從而實(shí)現(xiàn)判別說話人身份的目的。根據(jù)說話人識別的目的和判決模式的不同,可將說話人識別分為說話人辨認(rèn)和說話人確認(rèn)。說話人辨認(rèn)是指通過一段語音從已有的有限個(gè)說話人集合中分辨出說話人身份,是“多選一”的模式識別問題。說話人確認(rèn)是指通過說話人的一段語音證實(shí)該說話人是否與他所聲稱的身份一致,系統(tǒng)只需給出接受或拒絕兩種選擇,是“一對一”的模式識別問題。進(jìn)一步,若考慮待識別的說話人是否在注冊的說話人集合內(nèi),則說話人辨認(rèn)分為開集(Openset)辨認(rèn)和閉集(Closeset)辨認(rèn)。在多數(shù)情況中,用語音對說話人進(jìn)行身份驗(yàn)證的都被歸類為說話人確認(rèn)。依據(jù)語音內(nèi)容的不同,可將說話人識別分為文本相關(guān)(TextDependent)、文本無關(guān)(TextIndependent)和文本提示(TextPrompt)三種。文本相關(guān)的說話人識別是指規(guī)定語音內(nèi)容,即注冊和識別時(shí)說同樣的話。文本無關(guān)的說話人識別是指不規(guī)定語音內(nèi)容,即注冊和識別時(shí)可以說任意的話,系統(tǒng)對發(fā)音內(nèi)容沒有先驗(yàn)知識。文本提示的說話人識別是指從有限的語音中提示用戶說一段話,它可以歸為與文本相關(guān)的說話人識別。說話人識別系統(tǒng)的典型結(jié)構(gòu)框圖如圖12-4所示,其中,圖12-4(a)為說話人辨認(rèn)系統(tǒng),圖12-4(b)為說話人確認(rèn)系統(tǒng)。說話人識別包括訓(xùn)練和識別兩個(gè)階段:
(1)在訓(xùn)練階段,每個(gè)說話人重復(fù)一定次數(shù)的發(fā)音,然后分析每次發(fā)聲的語音段,以提取特征,并利用某種模型算法,形成每個(gè)說話人的參考模板。其中,關(guān)鍵在于選取能夠唯一表征人的有效而可靠的參量。
(2)在識別階段,對語音信號進(jìn)行特征分析,然后計(jì)算與參考模板的距離,選取產(chǎn)生最小值的結(jié)果輸出。說話人確認(rèn)系統(tǒng)則是計(jì)算待識特征與聲明說話人模板的距離,并與設(shè)定的閾值比較,若高于閾值則拒絕判決,低于閾值則接受判決。其中,關(guān)鍵在于如何規(guī)定相似性的測度,使相似性計(jì)算簡單、可靠;并能考慮到人在不斷變化的情況,使系統(tǒng)可靠工作。圖12-4說話人識別系統(tǒng)的結(jié)構(gòu)框圖(a)說話人辨認(rèn);(b)說話人確認(rèn)圖12-4說話人識別系統(tǒng)的結(jié)構(gòu)框圖(a)說話人辨認(rèn);(b)說話人確認(rèn)12.2.2說話人識別系統(tǒng)舉例
1.說話人辨認(rèn)說話人辨認(rèn)實(shí)驗(yàn)集合中共有30個(gè)說話人,每個(gè)人分別錄制5分鐘左右的電話錄音,由于是與文本無關(guān)的實(shí)驗(yàn),因此錄制的語音內(nèi)容任意。錄制時(shí)采用8kHz采樣,16bit量化,然后存成語音文件。每個(gè)人取大約30s的語音用作訓(xùn)練,其余的用于測試。語音經(jīng)過預(yù)加重后,通過加窗得到語音幀,加窗選用256點(diǎn)的漢明窗,幀移為10ms,去除靜音幀。每幀語音提取12階LPCC特征參數(shù)。說話人辨認(rèn)系統(tǒng)的性能可以直接用錯(cuò)誤率EID或正確率CID來表示:(12-20)(12-21)這里,ntot、nerr和ncor分別表示總測試數(shù)、錯(cuò)誤數(shù)和正確數(shù)。訓(xùn)練時(shí),將每兩個(gè)人的訓(xùn)練語音用SVM進(jìn)行訓(xùn)練,并將訓(xùn)練結(jié)果即支持向量SV作為這兩個(gè)人的模型存儲下來。在說話人辨認(rèn)的測試階段,需要對測試語音進(jìn)行與訓(xùn)練語音同樣的處理,提取語音特征參數(shù),再用訓(xùn)練后的模型按照判決規(guī)則的兩種方法之一進(jìn)行判決,最終輸出辨認(rèn)結(jié)果。說話人測試語音為集合中30個(gè)人的非訓(xùn)練語音的任意3s左右長度的有效語音,進(jìn)行說話人辨認(rèn)實(shí)驗(yàn),正確率為91.4%。
2.說話人確認(rèn)
說話人確認(rèn)實(shí)際上是檢測問題,其性能通常用漏警錯(cuò)誤率Emiss和虛警錯(cuò)誤率Efa來表征。漏警錯(cuò)誤率是指當(dāng)目標(biāo)說話人存在時(shí)未能檢測出的概率,虛警錯(cuò)誤率是指當(dāng)目標(biāo)說話人不存在時(shí)錯(cuò)誤檢測出的概率。Emiss和Efa的計(jì)算式為實(shí)驗(yàn)語料庫采用NIST說話人識別測試語料庫,語音文件為電話信道下8kHz采樣μ率壓縮格式,選取20個(gè)目標(biāo)說話人(10男10女),每個(gè)說話人有大約2min的訓(xùn)練語料。語音經(jīng)過預(yù)加重后進(jìn)行加窗處理,窗函數(shù)使用漢明窗,窗長為256個(gè)樣本點(diǎn)。然后對每一幀提取12階MFCC語音特征參數(shù),幀移為10ms。用每個(gè)說話人的訓(xùn)練語音訓(xùn)練每個(gè)說話人的GMM模型,每個(gè)模型具有64個(gè)高斯混合成員。背景說話人模型的訓(xùn)練是通過對隨機(jī)挑選的60個(gè)任意非目標(biāo)說話人的語音訓(xùn)練的GMM模型,模型有2048個(gè)高斯混合成員。用SVM對每個(gè)目標(biāo)說話人的訓(xùn)練語音和背景說話人模型進(jìn)行訓(xùn)練,得到每個(gè)目標(biāo)說話人的SVM模型。目標(biāo)說話人的訓(xùn)練語音和背景說話人模型進(jìn)行訓(xùn)練,得到每個(gè)目標(biāo)說話人的SVM模型。這里采用等錯(cuò)誤率(EER)來進(jìn)行判決和評價(jià),將漏警和虛警率結(jié)合起來成為一個(gè)單一數(shù)字,利用二者相等的點(diǎn)的判決閾值的進(jìn)行說話人確認(rèn),得到等錯(cuò)誤率為6.1%。12.3語種識別12.3.1語種識別的基本原理語種識別技術(shù)本質(zhì)上是一個(gè)語音信號的模式識別問題,它由訓(xùn)練(或注冊,Training)和識別(或測試,Testing)兩個(gè)階段完成。從各種語言的訓(xùn)練語音中提取特征,建立參考模型的過程稱為訓(xùn)練階段;從待識別語音中提取語言特征,依據(jù)參考模型對語音段的語言種類進(jìn)行判斷的過程稱為識別階段。語種識別系統(tǒng)結(jié)構(gòu)如圖12-5所示,一個(gè)完整的語言辨識系統(tǒng)包括預(yù)處理、特征提取、模型建立、模式匹配和判決規(guī)則等5個(gè)部分。圖12-5語種識別系統(tǒng)結(jié)構(gòu)類似于說話人識別,語種識別可分為閉集辨認(rèn)和開集辨認(rèn)。閉集辨認(rèn)就是指待辨認(rèn)語言的已注冊,系統(tǒng)辨認(rèn)該已注冊說話人的語言種類。開集辨認(rèn)是指待辨認(rèn)語言不一定屬于已注冊的語言集合。語種識別系統(tǒng)把句子作為一個(gè)整體來處理,進(jìn)而獲得一種語言區(qū)別于其他語言的信息。語種識別所用的信息包括音韻信息、音素配位信息、韻律信息和語言信息。
(1)音韻信息。音素是音的最小單位,也就是語音的最小音段。對于不同的語言,音素的數(shù)量和種類存在差異。(2)音素配位信息。每種語言都有一種制約不同音素排列組合的規(guī)律,對于不同的語言,音素之間的排列組合方式的差別很大。
(3)韻律信息。對于不同的語言,時(shí)長特征、說話速率、基音輪廓(語調(diào))和重音等有很大差異。
(4)語言信息。每種語言都有自己的詞匯、自身的語法規(guī)則、句型模式。12.3.2語種識別系統(tǒng)舉例本節(jié)介紹一種將音韻信息、韻律信息和音素配位信息三者結(jié)合起來進(jìn)行語種識別的算法。該算法采用段級特征參數(shù),對音素沒有進(jìn)行精確的識別,而是在自動(dòng)分段的基礎(chǔ)上利用高斯混合模型標(biāo)識得到一組“偽音素”符號,從而將語音信號轉(zhuǎn)化為符號序列,進(jìn)而建立語言模型。算法流程如圖12-6所示。圖12-6算法流程示意圖
1.GMM標(biāo)識器
對于任一個(gè)特征矢量xt,其在第i個(gè)模型第j個(gè)高斯混元中的概率值pij(xt)描述了xt屬于這個(gè)混元的概率。因此,xt在高斯混合模型λi下的偽音素標(biāo)識sti可由下式得到:(12-24)在很多語言中元音和輔音具有十分不同的音素配位信息,為了得到更加合理的標(biāo)識序列和更為精細(xì)的語言模型,可以考慮對元音段和輔音段分別建立GMM標(biāo)識器,在元音段GMM標(biāo)識器的輸出標(biāo)識前面加上符號“V”,在輔音段GMM標(biāo)識器的輸出標(biāo)識前面加上符號“C”。具體實(shí)現(xiàn)框圖如圖12-7所示,其中自動(dòng)分段算法采用前后向散度算法。圖12-7基于自動(dòng)分段的雙GMM標(biāo)識器
2.n元語言模型
設(shè)有一個(gè)符號序列S=(s1,s2,…,sN),其中si∈W,W為符號集合。根據(jù)Bayes法則,S出現(xiàn)的概率P(S)可分解成如下形式:(12-25)其中,P(si|s1,s2,…,si-1)是si緊跟在符號序列s1,s2,…,si-1后出現(xiàn)的概率。在實(shí)際應(yīng)用中,通常假設(shè)S是一個(gè)n階馬爾可夫鏈,即si緊跟在序列s1,s2,…,si-1后出現(xiàn)的概率等同于它緊跟在其中n-1個(gè)符號之后出現(xiàn)的概率,如下式所示:(12-26)其中,n為固定值。根據(jù)上式統(tǒng)計(jì)得出的語言模型即稱為n元(n-gram)語言模型。對于偽音素符號序列來說,由于符號集合M一般比較小,可以考慮使用四元甚至五元語言模型。的值可由序列在訓(xùn)練語料中出現(xiàn)的總次數(shù)與序列出現(xiàn)的總次數(shù)相比得到,即(12-27)其中,C(S)是序列S在訓(xùn)練語料中出現(xiàn)的總次數(shù)。
3.實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)中用到的所有數(shù)據(jù)都來源于OGITS多語言電話語料庫,語音信號經(jīng)過8kHz采樣,16bit量化。對英語、德語、日語、漢語、西班牙語五種語言進(jìn)行識別,每種語言選取50個(gè)說話人的全部語音作為訓(xùn)練語音,每個(gè)說話人的訓(xùn)練文件長度約為60s。語料庫中五種語言剩下的語音作為測試集,測試時(shí)所有語音均被劃分為6s的語音段。實(shí)驗(yàn)中采用段級參數(shù),語言模型的階數(shù)取為四元,元音和輔音GMM標(biāo)識器的混元個(gè)數(shù)取為相同,分別對64、128、256個(gè)混元的三種情況進(jìn)行識別。實(shí)驗(yàn)結(jié)果如表12-1所示。12.4關(guān)鍵詞識別
12.4.1關(guān)鍵詞識別的基本原理關(guān)鍵詞識別是連續(xù)語音識別的一個(gè)分支,因?yàn)殛P(guān)鍵詞識別的任務(wù)是在連續(xù)的無限制的自然語音流中識別出給定的詞,但它又不要求把整個(gè)的語音流全部識別出來;另外,關(guān)鍵詞識別無法對發(fā)出自然語音流的發(fā)音人提出任何要求。因此,可以說關(guān)鍵詞識別與連續(xù)語音識別有相同之處,但又有其獨(dú)特之處。關(guān)鍵詞識別系統(tǒng)由于其任務(wù)的特殊性,系統(tǒng)組成有其獨(dú)特的結(jié)構(gòu)。漢語關(guān)鍵詞識別系統(tǒng)結(jié)構(gòu)可用圖12-8表示。圖12-8關(guān)鍵詞識別系統(tǒng)的一般結(jié)構(gòu)如圖12-8所示,音節(jié)邊界估計(jì)和確認(rèn)部分并不是必需的。音節(jié)邊界估計(jì)首先對輸入語音進(jìn)行粗略分段,利用能量信息和音調(diào)信息大致分出音節(jié)邊界。這種系統(tǒng)大多以音節(jié)為識別基元,而且系統(tǒng)的識別性能很大程度上取決于前端音節(jié)邊界估計(jì)的結(jié)果。確認(rèn)是指發(fā)音確認(rèn),其概念類似于說話人識別中的說話人確認(rèn),也是通過置信度計(jì)算決定是否拒識。因?yàn)殛P(guān)鍵詞識別系統(tǒng)不需要識別出所有發(fā)音,除關(guān)鍵詞以外的都稱為填料或廢料,所以大多數(shù)關(guān)鍵詞識別系統(tǒng)的參考模板都采用關(guān)鍵詞模板加填料模板的形式,其語法網(wǎng)絡(luò)結(jié)構(gòu)如圖12-9所示。其中系統(tǒng)的操作點(diǎn)可以通過設(shè)置詞間的轉(zhuǎn)移權(quán)重wkn(1≤n≤N)和wfn(1≤n≤M)來調(diào)節(jié)。圖12-9關(guān)鍵詞加填料的語法網(wǎng)絡(luò)結(jié)構(gòu)圖12.4.2關(guān)鍵詞識別系統(tǒng)舉例
1.關(guān)鍵詞語音庫系統(tǒng)的語音庫是面向電話信道,對語音信號進(jìn)行8kHz采樣,8bit量化,采用詞作為識別基元,檢測任務(wù)為20個(gè)城市名(北京、上海、天津等)。由于在此系統(tǒng)中需要對非關(guān)鍵詞、背景噪聲和各關(guān)鍵詞分別建立HMM,因而要求對訓(xùn)練語音中各部分進(jìn)行進(jìn)一步標(biāo)識。對非關(guān)鍵詞、背景噪聲和各關(guān)鍵詞分別建立標(biāo)識文件。在訓(xùn)練時(shí),根據(jù)這個(gè)標(biāo)識文件即可很方便地取出相應(yīng)的語音段進(jìn)行相應(yīng)的訓(xùn)練。
2.訓(xùn)練系統(tǒng)的具體實(shí)現(xiàn)
(1)特征提取。將得到的數(shù)字信號用1-0.95z-1進(jìn)行預(yù)加重、分幀(幀長36ms,幀移12ms)和窗化(采用漢明窗),提取LPC倒譜系數(shù)作為特征矢量。為了使特征矢量更好地表征語音信號所攜帶的語義信息,選用LPCC及其一階差分構(gòu)成特征矢量。
(2)訓(xùn)練得到每個(gè)關(guān)鍵詞的HMM參數(shù):參數(shù)A(轉(zhuǎn)移概率)和B(觀察概率)。狀態(tài)數(shù)N取12,采用無跳轉(zhuǎn)從左至右的HMM模型,每狀態(tài)的混合數(shù)M不固定,主要由該狀態(tài)的持續(xù)時(shí)間決定,狀態(tài)持續(xù)時(shí)間越長,混和數(shù)M就越多,反之M就越少(10≤M≤20)。至于狀態(tài)持續(xù)時(shí)間概率和詞持續(xù)時(shí)間概率,假定兩者的概率分布是正態(tài)分布,可以根據(jù)K-均值分割算法第(2)步求得的最佳狀態(tài)序列直接計(jì)算得到狀態(tài)持續(xù)時(shí)間的均值和方差。
3.識別系統(tǒng)的具體實(shí)現(xiàn)
首先利用聲卡對待檢測語音進(jìn)行8kHz采樣,每樣點(diǎn)8bit量化。然后,對其進(jìn)行預(yù)處理,粗判語音信號起始點(diǎn),若檢測到有話部分,則對其進(jìn)行特征提取,得到觀察序列O。這幾步與訓(xùn)練部分類似,在此不再重復(fù)。結(jié)合待檢測語音的語法網(wǎng)絡(luò)圖,采用幀同步Viterbi解碼算法使觀察序列與參考模板序列按最佳方式進(jìn)行匹配,并得到最終的檢測結(jié)果。實(shí)驗(yàn)結(jié)果表明可以獲得89.2%的平均檢出率和8.5%的平均虛報(bào)率。12.5連續(xù)語音識別
12.5.1連續(xù)語音識別的基本原理目前主流的連續(xù)語音識別方法是基于統(tǒng)計(jì)模式識別的基本理論。連續(xù)語音識別系統(tǒng)是一個(gè)典型的模式識別系統(tǒng)。它的系統(tǒng)組成如圖12-10所示,包括語音錄入、特征提取、解碼和搜索算法、音字轉(zhuǎn)換等步驟,其中聲學(xué)模型和語言模型在訓(xùn)練階段完成。圖12-10連續(xù)語音識別模型
1.聲學(xué)模型聲學(xué)模型是識別系統(tǒng)的底層模型。聲學(xué)模型的設(shè)計(jì)和語言發(fā)音特點(diǎn)密切相關(guān)。首先要選擇識別單元,通常單元有音素、音節(jié)和單詞三種,具體選擇哪一種,由具體任務(wù)決定。選擇出識別單元后,識別單元通常用模型來表征,一般選擇HMM模型來描述。
2.語言模型語言模型包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò)和由統(tǒng)計(jì)方法構(gòu)成的語言模型。當(dāng)前語言模型的研究更多地集中在統(tǒng)計(jì)語言模型上。它是用概率統(tǒng)計(jì)的方法來揭示語言單元內(nèi)在的統(tǒng)計(jì)規(guī)律。常見的統(tǒng)計(jì)模型有N-gram模型。
N-gram模型基于如下假設(shè):第n個(gè)詞的出現(xiàn)只與前面n-1個(gè)詞相關(guān),而與其他任何詞都不相關(guān)。因此,由w1,…,wn組成的句子的先驗(yàn)概率為(12-28)其中,P(wi|wi-n+1…wi-1)表示在給定歷史信息wi-n+1…wi-1的條件下,選取詞wi的概率。在實(shí)際應(yīng)用中,只考慮零個(gè)、一個(gè)或兩個(gè)歷史信息,形成了Uigram模型P(wi)、Bigram模型P(wi|wi-1)和Trigram模型P(wi|wi-1,wi-2)。
3.音字轉(zhuǎn)換
在中文語音識別中,音字轉(zhuǎn)換就是將識別出的無調(diào)音節(jié)串轉(zhuǎn)換成漢字。中文常用的字有6763個(gè),而無調(diào)音節(jié)只有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2020-2025年中國鐵路行業(yè)發(fā)展?jié)摿Ψ治黾巴顿Y方向研究報(bào)告
- 鵝頸會議話筒行業(yè)行業(yè)發(fā)展趨勢及投資戰(zhàn)略研究分析報(bào)告
- 2025年中國飼料加工機(jī)行業(yè)發(fā)展監(jiān)測及投資戰(zhàn)略咨詢報(bào)告
- 2025年中國燃料電池發(fā)動(dòng)機(jī)市場規(guī)?,F(xiàn)狀及投資規(guī)劃建議報(bào)告
- 2025年排水牽引器項(xiàng)目可行性研究報(bào)告
- 2025年新材料研發(fā)與應(yīng)用購銷合同范例2篇
- 2025年新型農(nóng)業(yè)種植項(xiàng)目委托擔(dān)保合同樣本3篇
- 2025年房地產(chǎn)投資開發(fā)項(xiàng)目合同3篇
- 2025年度虛擬現(xiàn)實(shí)設(shè)備采購合同3篇
- 漯河2024年河南漯河市住房和城鄉(xiāng)建設(shè)局高層次人才招聘筆試歷年參考題庫附帶答案詳解
- 碎屑巖油藏注水水質(zhì)指標(biāo)及分析方法
- 【S洲際酒店婚禮策劃方案設(shè)計(jì)6800字(論文)】
- 醫(yī)養(yǎng)康養(yǎng)園項(xiàng)目商業(yè)計(jì)劃書
- 《穿越迷宮》課件
- 《C語言從入門到精通》培訓(xùn)教程課件
- 2023年中國半導(dǎo)體行業(yè)薪酬及股權(quán)激勵(lì)白皮書
- 2024年Minitab全面培訓(xùn)教程
- 社區(qū)電動(dòng)車棚新(擴(kuò))建及修建充電車棚施工方案(純方案-)
- 項(xiàng)目推進(jìn)與成果交付情況總結(jié)與評估
- 鐵路項(xiàng)目征地拆遷工作體會課件
- 醫(yī)院死亡報(bào)告年終分析報(bào)告
評論
0/150
提交評論