




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第四章 漢語數(shù)碼串語音分析第四章 漢語數(shù)碼串語音識(shí)別分析§4.1 聲學(xué)模型4.1.1 語音特征參數(shù)采用MFCC參數(shù)為語音特征參數(shù),MFCC參數(shù)的提取步驟已在第二章中詳細(xì)給出,這里不再敘述。4.1.2 基于整詞模型的上下文無關(guān)連續(xù)HMM本文的語音模型一共有13個(gè),其中包括11個(gè)數(shù)字(“1”有 yi 和 yao 兩種念法),一個(gè)靜音模型和一個(gè)詞間暫停模型。隱含馬爾科夫模型(Hidden Markov Model,HMM)是語音識(shí)別中描述語音的最常用的模型,大部分的語音識(shí)別系統(tǒng)都是基于HMM的。 因此本文也采用HMM描述語音。根據(jù)描述的語音單位的大小,HMM可分為:² 基于整詞模
2、型的HMM(Word based HMM)。其優(yōu)點(diǎn)為可以很好地描述詞內(nèi)音素協(xié)同發(fā)音的特點(diǎn),建模過程也較為簡(jiǎn)單。因此很多小詞匯量語音識(shí)別系統(tǒng)均采用整詞模型HMM。但在大詞匯量語音識(shí)別中由于所需建立的模型太多而無法使用。² 基于子詞模型的HMM(Sub Word based HMM)。該類HMM描述的語音單位比詞小,如英語語音識(shí)別中的基本音素,漢語語音識(shí)別中的半音節(jié)等。其優(yōu)點(diǎn)為模型總數(shù)少,所以在大詞匯量語音識(shí)別中得到了廣泛的應(yīng)用。其缺點(diǎn)在于其描述詞內(nèi)協(xié)同發(fā)音的能力劣于整詞模型,但由于子詞模型已經(jīng)得到了非常充分的研究,所以近年來在很多小詞表應(yīng)用識(shí)別系統(tǒng)中也用了子詞模型。本文采用較為簡(jiǎn)單的整
3、詞模型HMM。根據(jù)是否考慮上下文的影響,HMM可以分為:² 上下文無關(guān)(Context Independent,CI)HMM。CI-HMM不考慮上下文的影響,其優(yōu)點(diǎn)在于所需建立的模型少,易于獲得較多的訓(xùn)練語音,缺點(diǎn)在于沒有考慮上下文協(xié)同發(fā)音的影響,會(huì)對(duì)識(shí)別性能有所影響。² 上下文相關(guān)(Context Dependent,CD)HMM。CD-HMM需要考慮上下文的影響,需要建立的模型遠(yuǎn)多于CI-HMM,因此無法對(duì)每一個(gè)模型獲得足夠多的訓(xùn)練語音,需要利用聚類技術(shù)(如決策樹算法等)合并相近的模型。故CD-HMM的建模37第四章 漢語數(shù)碼串語音分析需要很大的工作量,但一套訓(xùn)練很好的
4、CD-HMM的識(shí)別性能會(huì)明顯優(yōu)于CI-HMM。本文采用了CI-HMM。根據(jù)輸出概率分布的不同,HMM可分為:² 離散HMM(Discrete HMM, DHMM)。其輸出概率是基于一套碼本的離散概率分布,其優(yōu)點(diǎn)在于由于實(shí)現(xiàn)了存儲(chǔ)量和計(jì)算量都較小,所需的訓(xùn)練語音也較少,但其矢量量化的過程會(huì)造成性能的損失。目前IBM公司的Via Voice系統(tǒng)采用的是DHMM。² 連續(xù)HMM(Continuous Density HMM, CDHMM)。其輸出概率是連續(xù)概率密度函數(shù)(一般是高斯混合密度函數(shù))。其所需的訓(xùn)練語音較多,模型參數(shù)存儲(chǔ)量和計(jì)算量都較大,在訓(xùn)練語音足夠時(shí),其性能優(yōu)于DHM
5、M。目前英國(guó)劍橋大學(xué)和美國(guó)Bell實(shí)驗(yàn)室的識(shí)別系統(tǒng)均基于CDHMM。² 半連續(xù)HMM(Semi Continuous HMM, SCHMM)。SCHMM是DHMM和CDHMM的折衷,與DHMM相似,其輸出為一套碼本,但每個(gè)碼字均為一個(gè)連續(xù)概率密度分布函數(shù),這一點(diǎn)與CDHMM相近。其性能和所需的訓(xùn)練語音等均介于DHMM和CDHMM之間。美國(guó)Carnegie Mellon大學(xué)的著名的SPHINX系統(tǒng)即基于SCHMM。本文采用CDHMM為語音模型。綜上所述,本文采用的語音模型為基于整詞模型的上下文無關(guān)連續(xù)HMM,狀態(tài)輸出概率分布為混合高斯密度函數(shù)。其各分量計(jì)算如式(4.1)所示:1v
6、33;1vvmTm-1vvmùexp bsm(x)=nê-2(x-us)Ss(x-us)ú (4.1)m1/2ëû(2p)2|S|s總的概率輸出即為各分量的加權(quán)和:Mvv bs(x)=åcsmbsm(x) (4.2) ()m=1vs表示當(dāng)前狀態(tài),M為混合分量數(shù),m、S、c分別為各混合分量的均值矢量、協(xié)方差矩陣和混合分量系數(shù)。4.1.3 HMM的訓(xùn)練HMM的訓(xùn)練過程包括對(duì)模型的初始化和迭代估值的過程:² 初始化。我們直接將訓(xùn)練語音串按狀態(tài)等分后,獲得每個(gè)狀態(tài)所屬的語音幀,各高斯分量的參數(shù)從該狀態(tài)所屬的語音幀中隨機(jī)抽出一部分統(tǒng)計(jì)
7、獲得,38第四章 漢語數(shù)碼串語音分析各高斯分量的權(quán)重系數(shù)均設(shè)置為相同的數(shù)。數(shù)碼語音的HMM狀態(tài)數(shù)設(shè)為7,靜音模型和暫停模型的狀態(tài)數(shù)設(shè)為1.² 迭代估值。訓(xùn)練HMM常用的方法包括分段k-均值(Segmental k-Means)算法和Baum-Welch算法。兩者的區(qū)別在于前者僅考慮最優(yōu)狀態(tài)路徑,而后者考慮所有可能的路徑。兩個(gè)算法的最終識(shí)別性能基本沒有區(qū)別,因此本文采用了Baum-Welch算法實(shí)現(xiàn)HMM的訓(xùn)練。4.1.4 段長(zhǎng)信息模型由于HMM是一個(gè)人為的模型,因此其對(duì)語音的描述是有一定缺陷的。其中一個(gè)主要的缺陷是HMM對(duì)語音段(包括狀態(tài)和詞)持續(xù)時(shí)間的不合理描述。設(shè)某一狀態(tài)跳回自身
8、的概率為Aii,則其持續(xù)時(shí)間d的概率分布為:t-1P(d=t)=Aii(1-Aii) (4.3)呈幾何分布,隨持續(xù)時(shí)間的上升而單調(diào)下降。這與實(shí)際是不符合的。圖4.1給出了數(shù)字”4”的第一個(gè)狀態(tài)的持續(xù)時(shí)間分布。由圖可0.20.15見,該分布與幾何分布完全不符合,所以HMM對(duì)段長(zhǎng)的描述是很不合理的。概率0.10.050157911131517持續(xù)時(shí)間(幀)HMM對(duì)段長(zhǎng)的描述的不合理之處在于傳統(tǒng)HMM中狀態(tài)跳轉(zhuǎn)概率與當(dāng)前狀態(tài)已持續(xù)時(shí)間無關(guān)。 因此我們可以采用與狀態(tài)持續(xù)時(shí)間相關(guān)的狀態(tài)跳轉(zhuǎn)概率,即估計(jì)Aii(d=t),其主要過程為:圖4.1 數(shù)字”4”的第一狀態(tài)的持續(xù)時(shí)間分布1. 估計(jì)段長(zhǎng)的概率分布。目
9、前主要文獻(xiàn)中描述段長(zhǎng)概率分布可以用g分布,高斯分布或直接的直方圖描述。考慮到前兩者的概率分布形式均為人為的假設(shè),而存儲(chǔ)直方圖所需的存儲(chǔ)量與輸出概率分布參數(shù)的存儲(chǔ)量相比是很小的。因此本文采用直方圖描述。其估計(jì)過程只需用Viterbi算法將訓(xùn)練語音完成對(duì)各狀態(tài)的對(duì)準(zhǔn),獲得各狀態(tài)和各詞的起點(diǎn)和終點(diǎn)以計(jì)算語音段的長(zhǎng)度,然后統(tǒng)計(jì)各狀態(tài)持續(xù)時(shí)間的分布即可。39第四章 漢語數(shù)碼串語音分析2. 在獲得段長(zhǎng)概率分布后,按式(4.4)計(jì)算出持續(xù)時(shí)間為d的狀態(tài)跳轉(zhuǎn)概率: ìPi(d=t),若>eïït-1Aii(d=t)=í1-åPi(d=j) (4.4)j=
10、1ïï若<eîe,其中e為一個(gè)很小的數(shù),可設(shè)為10-20。實(shí)驗(yàn)證明考慮段長(zhǎng)分布后,識(shí)別性能會(huì)有明顯的提高。§4.2 搜索算法4.2.1 搜索算法的選擇由于在識(shí)別數(shù)字串時(shí),我們不知道每個(gè)數(shù)字的分界點(diǎn)在什么地方,所以我們需要用搜索算法來獲得識(shí)別的最佳詞串。目前的搜索算法主要可以分為兩類,即基于動(dòng)態(tài)規(guī)劃和基于堆棧譯碼的搜索算法。后者雖然在理論上可以實(shí)現(xiàn)最優(yōu)搜索,但其實(shí)現(xiàn)過程很復(fù)雜,而且難以實(shí)現(xiàn)幀同步的搜索,對(duì)系統(tǒng)的實(shí)時(shí)性帶來了很大的限制,所以在小詞表語音識(shí)別中,搜索算法基本上都是基于動(dòng)態(tài)規(guī)劃的。目前常見的在基于動(dòng)態(tài)規(guī)劃的搜索算法包括:² 分層構(gòu)
11、筑(Level-Building)算法。該算法是由Bell實(shí)驗(yàn)室的Rabiner等人在研究英語數(shù)字識(shí)別中提出的。該算法的優(yōu)點(diǎn)是容易納入串長(zhǎng)信息,缺點(diǎn)是不能實(shí)現(xiàn)幀同步,而且計(jì)算量也較大。² Viterbi譯碼算法。該算法利用Viterbi譯碼的過程進(jìn)行幀同步的搜索,易于實(shí)時(shí)實(shí)現(xiàn),也容易納入語法信息。目前的大詞匯量語音識(shí)別系統(tǒng)基本上都基于該搜索算法,小詞表連續(xù)語音識(shí)別也大都利用了該算法。本文采用Viterbi譯碼作為系統(tǒng)的搜索算法。4.2.2 搜索網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)置圖4.2給出了不定長(zhǎng)數(shù)字串的搜索網(wǎng)絡(luò)。其中灰色的節(jié)點(diǎn)代表語法節(jié)點(diǎn),即詞條的端點(diǎn),黑色的節(jié)點(diǎn)代表聲學(xué)節(jié)點(diǎn),即詞條的各個(gè)狀態(tài)。語法節(jié)
12、點(diǎn)的作用為傳遞前一個(gè)聲學(xué)節(jié)點(diǎn)的路徑信息,并在路徑信息中加入前一個(gè)聲學(xué)節(jié)點(diǎn)所40第四章 漢語數(shù)碼串語音分析屬的詞條信息,而聲學(xué)節(jié)點(diǎn)的作用是計(jì)算輸入語音特征矢量與當(dāng)前狀態(tài)的匹配分?jǐn)?shù),并傳遞路徑信息。節(jié)點(diǎn)間的箭頭表示路徑信息的傳遞途徑,值得注意的是從語法節(jié)點(diǎn)到語法節(jié)點(diǎn)的路徑信息是需要立即傳送的,其他的路徑信息是延遲一幀傳送的。以下給出聲學(xué)節(jié)點(diǎn)和語法節(jié)點(diǎn)的結(jié)構(gòu)定義:struct ACSNODE / 聲學(xué)節(jié)點(diǎn)結(jié)構(gòu);struct GRMNODE / 語法節(jié)點(diǎn)結(jié)構(gòu);41 int WordModel; / 本聲學(xué)節(jié)點(diǎn)屬于哪一個(gè)詞條 int StateIndex; / 本聲學(xué)節(jié)點(diǎn)屬于哪一個(gè)狀態(tài) int Pred
13、ecNum; / 前續(xù)節(jié)點(diǎn)數(shù) int Predeccesor40; / 前續(xù)節(jié)點(diǎn)標(biāo)號(hào) BOOL PrdPrpty40; / 前續(xù)節(jié)點(diǎn)性質(zhì)(是聲學(xué)節(jié)點(diǎn)還是語法節(jié)點(diǎn)) int PrecedNum; / 前續(xù)節(jié)點(diǎn)數(shù) int Predeccesor40; / 前續(xù)節(jié)點(diǎn)標(biāo)號(hào) BOOL PrdPrpty40; / 前續(xù)節(jié)點(diǎn)性質(zhì)(是聲學(xué)節(jié)點(diǎn)還是語法節(jié)點(diǎn)) 圖4.2 不定長(zhǎng)數(shù)字串搜索網(wǎng)絡(luò)第四章 漢語數(shù)碼串語音分析圖4.3則給出了定長(zhǎng)數(shù)字串(串長(zhǎng)為N)的搜索網(wǎng)絡(luò)結(jié)構(gòu).4.2.3 多候選幀同步搜索算法考慮到在很多實(shí)用情況下(如語音撥號(hào)電話機(jī)可以輸出多個(gè)候選讓用戶選擇,進(jìn)行識(shí)別結(jié)果的拒識(shí)時(shí)也需要多候選),識(shí)別系統(tǒng)需
14、要除最優(yōu)詞串外的多候選詞串,因此本文采用多候選幀同步搜索算法獲得多個(gè)識(shí)別詞串候選。 首先我們定義基本路徑信息結(jié)構(gòu):struct PathInfo /基本路徑信息;由于聲學(xué)節(jié)點(diǎn)和語法節(jié)點(diǎn)所需傳遞的信息的不同,所以我們還需定義聲學(xué)節(jié)點(diǎn)上的路徑信息和語法節(jié)點(diǎn)上的路徑信息:42 圖4.3 定長(zhǎng)數(shù)碼串的搜索網(wǎng)絡(luò) int WordNum; /本路徑已有的詞數(shù) int WordSeqMAXSTRINGLEN; /本路徑已識(shí)別出的詞序列 int WordSegMAXSTRINGLEN; /本路徑已識(shí)別出的詞的邊界 double AccumScore; /本路徑積累的識(shí)別分?jǐn)?shù)第四章 漢語數(shù)碼串語音分析struc
15、t GRMPathInfo /語法節(jié)點(diǎn)上的路徑信息struct ACSPathInfo / 聲學(xué)節(jié)點(diǎn)上的路徑信息;搜索步驟如下:1.1.1根據(jù)當(dāng)前識(shí)別任務(wù)按圖4.2或圖4.3設(shè)置好節(jié)點(diǎn)數(shù)據(jù)。1.2設(shè)置初始路徑信息:WordNum=0 double LocalScore; / 本狀態(tài)匹配分?jǐn)?shù) int WordDuraNBESTNUM; / 整詞持續(xù)時(shí)間 int StateDuraNBESTNUM; / 當(dāng)前狀態(tài)持續(xù)時(shí)間 PathInfo CurrPathNBESTNUM; / 多候選路徑信息(按積累分?jǐn)?shù)遞減排列) PathInfo CurrPathNBESTNUM; / 多候選路徑信息(按積累分
16、數(shù)遞減排列) ;ì-1050,其他節(jié)點(diǎn) AccumScore =íî0,第一個(gè)語法節(jié)點(diǎn)WordDurai=0,i=0,1,K,NBESTNUM-1i=0,i=0,1,K,NBESTNUM-1 StateDura2. v設(shè)輸入語音特征矢量序列為xtt=1,2,K,T,其中T為總的幀數(shù)。對(duì)于每一幀輸入語音,我們分別對(duì)聲學(xué)節(jié)點(diǎn)和語法節(jié)點(diǎn)作Viterbi搜索:2.1聲學(xué)節(jié)點(diǎn)2.1.1 設(shè)置節(jié)拍i = 0。2.1.2 對(duì)于節(jié)點(diǎn)i,設(shè)置節(jié)拍m0。2.1.3對(duì)于節(jié)點(diǎn)i的前續(xù)節(jié)點(diǎn)k = Predeccesorm,設(shè)置節(jié)拍j = 043第四章 漢語數(shù)碼串語音分析2.1.4對(duì)節(jié)點(diǎn)k中
17、的第j選路徑的累積分?jǐn)?shù)加上其與狀態(tài)持續(xù)時(shí)間相關(guān)的跳轉(zhuǎn)概率:' AccumScore=AccumScore+log(A(StateDuraj)2.1.5將路徑j(luò)與節(jié)點(diǎn)i的 CurrPath中已插入的路徑相比較:(a) 若與某條路徑p相同(即路徑的詞條序列相同),則比較兩條路徑積累分?jǐn)?shù)的大小,若路徑j(luò)分?jǐn)?shù)大于路徑p,則將路徑p刪除,將路徑j(luò)按分?jǐn)?shù)大小插入CurrPath,否則放棄插入。(b) 若與所有路徑都不同,則按分?jǐn)?shù)大小插入CurrPath。(c) 插入路徑時(shí),修改狀態(tài)持續(xù)時(shí)間和詞持續(xù)時(shí)間。若前續(xù)節(jié)點(diǎn)不是本節(jié)點(diǎn),則狀態(tài)持續(xù)時(shí)間重設(shè)為1,否則狀態(tài)持續(xù)時(shí)間加1;詞持續(xù)時(shí)間加1。2.1.6
18、若j<NBESTNUM-1, j+, 跳回2.1.4。2.1.7 若m< PredecNum-1,m+,跳回2.1.3。2.1.8 計(jì)算本節(jié)點(diǎn)與當(dāng)前語音匹配分?jǐn)?shù)LocalScore,并將其加到各路徑積累分?jǐn)?shù)上。2.1.9 若i<總聲學(xué)節(jié)點(diǎn)數(shù)-1, i+, 返回2.1.2,否則本幀循環(huán)結(jié)束。2.2 語法節(jié)點(diǎn)2.2.1 初始化語法節(jié)點(diǎn)對(duì)于各語法節(jié)點(diǎn)WordNum=0=-1050 AccumScorej=false, j = 0, 1, 2, , 語法節(jié)點(diǎn)數(shù)-1 并設(shè)置標(biāo)志位 GNodeFlag2.2.2利用樹的遍歷算法更新各語法節(jié)點(diǎn),設(shè)置節(jié)拍j = 0。2.2.3 若GnodeFlagj = true,跳至2.2.9,否則執(zhí)行2.2.4。2.2.4 對(duì)于節(jié)點(diǎn)j,設(shè)置節(jié)拍k = 0。2.2.5 若節(jié)點(diǎn)j的前續(xù)節(jié)點(diǎn)p = Predeccesork為聲學(xué)節(jié)點(diǎn),則先對(duì)于聲學(xué)節(jié)點(diǎn)p的各路徑將詞間跳轉(zhuǎn)概率加入路徑累積分?jǐn)?shù):AccumScoreq=AccumScoreq+log(A(WordDuraq), q = 0,1, ., NBE
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 交通運(yùn)輸專業(yè)師資力量的現(xiàn)狀與提升路徑
- 幼兒美術(shù)啟蒙教育的創(chuàng)新與實(shí)踐
- 幼兒社交技能的培養(yǎng)與指導(dǎo)
- 中國(guó)自動(dòng)進(jìn)刀式鉆床行業(yè)市場(chǎng)發(fā)展前景及發(fā)展趨勢(shì)與投資戰(zhàn)略研究報(bào)告(2024-2030)
- 車輛工程CAD課程教學(xué)內(nèi)容與思政教育融合的實(shí)施策略
- 投資者保護(hù)與財(cái)務(wù)風(fēng)險(xiǎn)識(shí)別
- 大數(shù)據(jù)驅(qū)動(dòng)下皮革企業(yè)市場(chǎng)策略的精準(zhǔn)化
- 中國(guó)平直量具行業(yè)市場(chǎng)全景監(jiān)測(cè)及投資前景展望報(bào)告
- 2025年中國(guó)混合集成電路板行業(yè)投資研究分析及發(fā)展前景預(yù)測(cè)報(bào)告
- 循環(huán)經(jīng)濟(jì)與廢物利用
- 2023年鍍層和化學(xué)覆蓋層技術(shù)要求規(guī)范(鋁合金化學(xué)導(dǎo)電氧化)
- 南寧市信息化大樓工程建設(shè)項(xiàng)目可行性研究報(bào)告
- 管 制 刀 具課件
- 生物多樣性保護(hù)與建設(shè)項(xiàng)目可行性研究報(bào)告
- 健康減肥調(diào)脂降糖
- LaTeX科技排版課件
- 2023年河北交通投資集團(tuán)有限公司招聘筆試題庫(kù)及答案解析
- 反向傳播算法課件
- 企業(yè)質(zhì)量安全主體責(zé)任
- 南模自招試卷-2012年自主招生
- 數(shù)據(jù)倉(cāng)庫(kù)開發(fā)規(guī)范
評(píng)論
0/150
提交評(píng)論