特定人手機(jī)常用漢語語音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第1頁
特定人手機(jī)常用漢語語音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第2頁
特定人手機(jī)常用漢語語音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第3頁
特定人手機(jī)常用漢語語音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第4頁
特定人手機(jī)常用漢語語音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、2002年2月文章編號(hào):100026788(2002)0220113205系統(tǒng)工程理論與實(shí)踐第2期特定人手機(jī)常用漢語語音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)盛元軍1,柳克俊2(1.哈爾濱工程大學(xué)經(jīng)濟(jì)管理學(xué)院,黑龍江哈爾濱150001;2.海軍裝備論證研究中心,北京100073)摘要:采用自底向上的方式設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)特定人1000句手機(jī)常用語語音識(shí)別系統(tǒng)研究和比較了多種語音要素對(duì)語音識(shí)別系統(tǒng)性能的作用和影響用實(shí)例演示了漢語半音節(jié)語音識(shí)別系統(tǒng)的設(shè)計(jì)思路和實(shí)現(xiàn)方法關(guān)鍵詞:語音識(shí)別;半音節(jié);特定人中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:ATheDesignandRealizationofaSpeaker2dependen

2、tChineseSpeechRecognitionSystemofCommonly2UsedSentencesonMobileTelephones12SHENGYuan2jun,LIUKe2jun(1.SchoolofEconomics&Management,HarbinEngineeringUniversity,Harbin150001,China;2.ChinaNavalResearchCenter,Beijing100073,China)Abstract:Inthispaper,aspeaker2dependentChinesespeechrecognitionsystemtha

3、tisabletoidentify1000commonusedsentencesonmobiletelephoneswasdesignedandrealizedusingthestrategyofbottom2to2top.TheeffectandinfluenceofmultiplespeechelementsonChinesespeechrecognitionsystemareresearchedandcompared.ThedesignideologyandrealizationmethodtodevelopaChinesehalf2syllablespeech.recognitions

4、ystemarealsodemonstratedbyaseriesofexperimentsKeywords:speechrecognition;halfsyllable;speakerdependent1引言隨著計(jì)算機(jī)自動(dòng)語音識(shí)別技術(shù)的飛速發(fā)展,語音識(shí)別已從研究進(jìn)入到實(shí)用階段在中文信息系統(tǒng)的建設(shè)中引入語音識(shí)別技術(shù),有助于改善中文人機(jī)界面,提高系統(tǒng)的可操作性,便于系統(tǒng)的推廣和使用本文從一個(gè)基本的語音識(shí)別模型著手,分析和比較了不同的語音單元、語音單元駐留時(shí)間、聲調(diào)等語音要素對(duì)系統(tǒng)性能的作用和影響,逐步對(duì)系統(tǒng)改進(jìn)和完善,最終實(shí)現(xiàn)了一個(gè)手機(jī)1000句常用漢語的語音識(shí)別系統(tǒng)以實(shí)例揭示了一個(gè)基于半音節(jié)單

5、元的漢語語音識(shí)別系統(tǒng)的開發(fā)過程和實(shí)現(xiàn)方法2語單單元的選擇及基準(zhǔn)系統(tǒng)不同的語音識(shí)別系統(tǒng)因其任務(wù)的不同,可以選擇不同的語音單元對(duì)于詞表較小的系統(tǒng)而言,可以為每一個(gè)詞建立一個(gè)模型這樣的系統(tǒng)簡單實(shí)用,而且由于不同模型之間的距離較大,區(qū)分容易,識(shí)別率很高在詞表較大的情況下,為所有詞都建立模型是不現(xiàn)實(shí)的由于漢語音節(jié)的獨(dú)特性,不考慮聲調(diào),只有405個(gè)不同音節(jié)一些系統(tǒng)采用上述405個(gè)音節(jié)作為基本語音單元,再加上后續(xù)聲調(diào)識(shí)別的方案該方案收稿日期:2000205208© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reser

6、ved.114系統(tǒng)工程理論與實(shí)踐2002年2月的優(yōu)點(diǎn)是音節(jié)的界限相對(duì)比較清晰,容易分割;音節(jié)之間的協(xié)同發(fā)音現(xiàn)象不是很突出,音節(jié)在不同上下文中的發(fā)音變化不大其缺點(diǎn)是模型數(shù)量偏多,難以使每個(gè)模型都得到充分的訓(xùn)練;自適應(yīng)性較差,不容易對(duì)模型參數(shù)進(jìn)行調(diào)整使之適應(yīng)新的說話人;對(duì)存儲(chǔ)空間和運(yùn)算速度的要求較高本文采用半音節(jié)作為語音單元首先建立一個(gè)基準(zhǔn)語音識(shí)別系統(tǒng),包括60個(gè)建模單元,即21個(gè)聲母和39個(gè)韻母每個(gè)語音單元用轉(zhuǎn)移弧輸出型隱馬爾可夫模型(HMM)建模,見圖1圖中圓圈代表隱含的狀態(tài),狀態(tài)集合記為S實(shí)箭頭線表示轉(zhuǎn)移弧,轉(zhuǎn)移弧從狀態(tài)Si到狀態(tài)Sj的轉(zhuǎn)移概率記為aij,與此同時(shí)該轉(zhuǎn)移弧產(chǎn)生標(biāo)號(hào)為K的輸出的

7、概率記為bij(K)虛箭頭線為空轉(zhuǎn)移弧,有轉(zhuǎn)移概率不產(chǎn)生輸出空自轉(zhuǎn)移弧T0用于描述音節(jié)前可能的無聲段零聲母音節(jié)通過空轉(zhuǎn)移弧T1跳過聲母段當(dāng)一個(gè)音節(jié)處理完畢,由空轉(zhuǎn)移弧T2轉(zhuǎn)到起始狀態(tài),等待或處理下一個(gè)音節(jié)圖1基準(zhǔn)系統(tǒng)模型以半音節(jié)作為語音建模單元,必然涉及聲韻母的分割在模型訓(xùn)練時(shí),采用分段2K平均法確定分界點(diǎn)我們在實(shí)驗(yàn)中發(fā)現(xiàn),用不同聲母音長的經(jīng)驗(yàn)數(shù)值作為訓(xùn)練的初值效果較好語音信號(hào)經(jīng)12kHz頻率采樣,16bit量化,高頻預(yù)加重后分幀.幀長20ms,幀移10ms加哈明窗提取每幀信號(hào)的加權(quán)LPC倒譜系數(shù)和該系數(shù)的差分作為該幀的特征矢量LPC階數(shù)為12,倒譜階數(shù)為14特征矢量采用雙碼本分別對(duì)倒譜和差分

8、倒譜系數(shù)進(jìn)行矢量量化(VQ),碼本容量為256個(gè)碼字本文所用的訓(xùn)練和測試集是特定男聲的10遍全音節(jié)發(fā)音每遍含1185個(gè)不同音節(jié)其中8遍作用訓(xùn)練集,2遍用作測試集基準(zhǔn)系統(tǒng)模型經(jīng)訓(xùn)練后,正識(shí)率為71.83%3對(duì)基準(zhǔn)系統(tǒng)的改進(jìn)3.1聲母音長轉(zhuǎn)移概率HMM是語音識(shí)別中廣泛采用的一種雙重隨機(jī)模型隱含的各狀態(tài)對(duì)應(yīng)語音的穩(wěn)定段,各狀態(tài)之間通過轉(zhuǎn)移概率相聯(lián)系這種方法較好地建模并處理了語音信號(hào)整體非穩(wěn)性和局部平穩(wěn)性之間的關(guān)系但是由于模型本身的兩個(gè)假設(shè)與語音的實(shí)際情況有一些出入,使得模型在語音應(yīng)用上存在一定的局限性其中一個(gè)假設(shè)是模型在t+1時(shí)刻處于某一特定狀態(tài)的概率僅與模型在t時(shí)刻的狀態(tài)有關(guān)這樣模型在狀態(tài)Si駐留

9、K次的概率就是aKii,即駐留次數(shù)越少概率越大,而實(shí)際情況并非如此在HMM中增加各狀態(tài)駐留時(shí)間分布的參數(shù)可以解決這一問題其代價(jià)是大幅度增加計(jì)算量漢語音節(jié)長度的變化主要體現(xiàn)在韻母上相同聲母長度變化不大,不同聲母的長度有顯著區(qū)別本文認(rèn)為,與韻母和音節(jié)相比,聲母的音長信息在語音識(shí)別中是更有價(jià)值的并且多數(shù)聲母的音長較短,平均到HMM中每個(gè)狀態(tài)上的持續(xù)語音幀數(shù)更少因而在基于半音節(jié)識(shí)別單元的HMM框架模型中,考慮聲母音長總持續(xù)時(shí)間的概率分布,在聲韻母之間加入了聲母音長的轉(zhuǎn)移概率是適宜的于是我們對(duì)基準(zhǔn)模型做了修改,見圖2聲韻母之間的空轉(zhuǎn)移弧T3具有轉(zhuǎn)移概率PCV.PCV與聲母段長度有關(guān)log(PCV)=-(

10、 1-n N)K3C(1)式中n為此聲母段的長度,N為該聲母的平均長度K和C是兩個(gè)經(jīng)驗(yàn)常數(shù),用于調(diào)節(jié)PCV的大小量級(jí),使PCV足以匹敵和影響模型的Baum2Welch訓(xùn)練算法和Viterbi識(shí)別算法中的概率在我們的實(shí)驗(yàn)中K=2,C=20加入聲母音長轉(zhuǎn)移概率后,正識(shí)率提高到75.17%3.2聲調(diào)軌跡判決© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.第2期特定人手機(jī)常用漢語語音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)115圖2聲母音長轉(zhuǎn)移概率模型四聲調(diào)是漢語獨(dú)有的語音現(xiàn)象,聲調(diào)主要體現(xiàn)在音節(jié)的韻母部分提取韻母

11、部分每一幀語音的基音周期或基音頻率可以形成一條音高變化的軌跡依據(jù)這一軌跡可以判斷出其屬于哪一個(gè)調(diào)型但是聲調(diào)的調(diào)型曲線并不是絕對(duì)的從統(tǒng)計(jì)的角度看,聲調(diào)調(diào)型所占據(jù)的不是一條線,而是一條帶狀的聲學(xué)空間在實(shí)驗(yàn)中我們也發(fā)現(xiàn),比較基音軌跡上幾個(gè)確定點(diǎn)或者用二次曲線擬合的方法效果都不理想我們認(rèn)為,調(diào)型的判決重要的是把握住音高變化的趨勢取基音周期的差分Xi=Pi+1-Pi.Pi和Pi+1分別是i點(diǎn)和i+1點(diǎn)的基音周期用5個(gè)碼字表示差分值Xi見表1表1差分值X碼字i0011-1223-24圖3聲調(diào)模型定義如圖3的3狀態(tài)HMM對(duì)基音軌跡的差分碼字序列Xi建模我們同樣比較了1狀態(tài),2狀態(tài),4狀態(tài)和5狀態(tài)模型結(jié)果發(fā)現(xiàn)

12、,3狀態(tài)模型性能比1狀態(tài)和2狀態(tài)有明顯改善,與4狀態(tài)相近,略好于5狀態(tài)將基音軌跡的差分碼字序列平均分為3段每一段對(duì)應(yīng)一個(gè)狀態(tài)用訓(xùn)練集訓(xùn)練聲調(diào)模型,統(tǒng)計(jì)各狀態(tài)分別輸出5個(gè)碼字的概率實(shí)驗(yàn)結(jié)果顯示,聲調(diào)正識(shí)率為93.52%考慮到聲調(diào)在音節(jié)的尾部有降尾現(xiàn)象,我們把基音周期序列從后邊切去3幀聲調(diào)正識(shí)率可以提高近1個(gè)百分點(diǎn)為更好地反映基音周期的變化趨勢,我們在Xi的基礎(chǔ)上增加了一個(gè)基音周期的差分序列Yi=Pi+1-Pi-1.用表2將Yi編碼表2差分值Yi碼字0,1,-102,31-2,-3243-44這樣基音軌跡可以表示為一個(gè)二維的碼字序列Xi,Yi同樣用圖3的聲調(diào)模型訓(xùn)練,聲調(diào)正識(shí)率提高到96.95%3

13、.3有調(diào)韻母一般認(rèn)為,倒譜系數(shù)反映的是語音信號(hào)去除聲門激勵(lì)后的聲道響應(yīng),其中不含有基音頻率信息我們在3.1的基礎(chǔ)上,把語音單元中的39個(gè)無調(diào)韻母改為有調(diào)韻母結(jié)果正識(shí)率為63.35%,另外有13.22%© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.116系統(tǒng)工程理論與實(shí)踐2002年2月的音節(jié)聲韻母均正確識(shí)別,只是聲調(diào)判斷錯(cuò)誤從實(shí)驗(yàn)中可以得出兩點(diǎn)結(jié)論:一是82.73%的聲韻母均正確的音節(jié)聲調(diào)也正確,因此倒譜系數(shù)也可在一定程度上表征聲調(diào)信息這就說明了人在耳語時(shí),聲帶不發(fā)生振動(dòng),聽話人也可以聽

14、懂的原因二是去除聲調(diào)影響僅就聲韻母而論,正識(shí)率為77.57%可見由于對(duì)韻母進(jìn)行了更細(xì)的分類,韻母正識(shí)率有所提高用有調(diào)韻母單元替代無調(diào)韻母單元是出于以下幾點(diǎn)考慮1)既然倒譜系數(shù)中包含了一定程度的聲調(diào)信息,不同聲調(diào)韻母的倒譜系數(shù)應(yīng)該是有區(qū)別的選用有調(diào)韻母作為建模單元有助于對(duì)韻母進(jìn)行更精細(xì)的分類2)3.2節(jié)驗(yàn)證了用HMM建模聲調(diào)的可行性,使得我們有可能將聲調(diào)模型納入到整個(gè)語音識(shí)別系統(tǒng)的HMM統(tǒng)一框架中,而不必單獨(dú)處理聲調(diào)這一點(diǎn)對(duì)連續(xù)語音識(shí)別是有利的3)圖3的HMM聲調(diào)模型平均分割狀態(tài)序列,顯得過于主觀將聲調(diào)模型融合到有調(diào)韻母模型中,不需要顯式分割狀態(tài)序列,有助于提高聲調(diào)識(shí)別率對(duì)比圖2和圖3可以看到,

15、韻母模型和聲調(diào)模型都有3個(gè)穩(wěn)定狀態(tài)在有調(diào)韻母的訓(xùn)練和識(shí)別時(shí),只需在倒譜和差分倒譜系數(shù)的基礎(chǔ)上增加基音軌跡的二維的碼字序列Xi,Yi作為特征矢量,就可以把聲調(diào)模型融合到韻母模型中采用有調(diào)韻母后,正識(shí)率提高到75.98%3.4協(xié)同發(fā)音以半音節(jié)作為語音建模單元,必須解決聲韻母之間的協(xié)同發(fā)音問題由于韻母在音節(jié)中占絕對(duì)優(yōu)勢,韻母段相對(duì)比較穩(wěn)定,協(xié)同發(fā)音對(duì)韻母的影響要小一些聲母段一般來說較短,能量較弱,容易發(fā)生變化從前面的實(shí)驗(yàn)我們也發(fā)現(xiàn),誤識(shí)的音節(jié)主要是由于聲母判斷的錯(cuò)誤,尤其是音長較短的聲母,如b,p,d等因此我們主要考慮聲母的協(xié)同發(fā)音問題在漢語拼音方案中,元音有6個(gè)基本音位,即a,o,e,i,u,v.

16、這6個(gè)基本音位在不同的上下文環(huán)境中的發(fā)音會(huì)發(fā)生變化,形成不同的音素每一個(gè)聲母依據(jù)其后接韻母第一個(gè)音素的不同,建立不同的模型由此產(chǎn)生的聲母模型總數(shù)在100個(gè)以上由于訓(xùn)練數(shù)據(jù)的限制,為保證模型得到充分的訓(xùn)練,我們依據(jù)韻母四呼對(duì)一些相近的并且不存在對(duì)立的模型進(jìn)行了合并我們選取的模型總數(shù)為60個(gè)經(jīng)過這樣的改進(jìn),系統(tǒng)的正識(shí)率為84.03%3.5零聲母及特殊音節(jié)漢語除了聲母加韻母類型的音節(jié)外,還有不到10%的零聲母音節(jié)及zi、ci、si、ri、zhi、chi、shi等幾個(gè)特殊音節(jié)zi、ci、si、ri、zhi、chi、shi等幾個(gè)特殊音節(jié)需要單獨(dú)建模對(duì)于零聲母音節(jié)而言簡單地采用前述的韻母模型來識(shí)別效果不理

17、想因此我們對(duì)零聲母音節(jié)也單獨(dú)建模由于訓(xùn)練數(shù)據(jù)中零聲母音節(jié)的數(shù)量遠(yuǎn)少于對(duì)應(yīng)的韻母數(shù)量,零聲母音節(jié)的訓(xùn)練是不夠充分的我們利用訓(xùn)練較充分的韻母模型對(duì)零聲母模型進(jìn)行平滑bnij(K)=0.653bnij(K)+0.353bmij(K)(2)其中bmij(K)是第m個(gè)韻母的轉(zhuǎn)移弧ij產(chǎn)生標(biāo)號(hào)K的概率;bnij(K)是與第m個(gè)韻母相對(duì)應(yīng)的第n個(gè)零聲母的轉(zhuǎn)移弧ij產(chǎn)生標(biāo)號(hào)K的概率3.6語言模型以上只是對(duì)單個(gè)音節(jié)的識(shí)別在實(shí)際的應(yīng)用中,往往需要建立針對(duì)特定語言環(huán)境的語言模型常用的語言模型有二元文法和三元文法二元文法句子中某一字Wi出現(xiàn)的概率只取決于其前一字Wi-1,即P(Wi W1,Wi-1)=P(Wi Wi-

18、1).三元文法句子中某一字Wi出現(xiàn)的概率只取決于其前兩個(gè)字Wi-1和Wi-2,即P(Wi W1,Wi-1)=P(Wi Wi-1,Wi-2).可靠的語言模型需要大量的語料進(jìn)行統(tǒng)計(jì)針對(duì)手機(jī)常用語這一特定應(yīng)用,我們建立了單字語言網(wǎng)絡(luò)模型,舉例如圖4:應(yīng)用這一語言模型導(dǎo)航,詞表搜索范圍大大減小聲學(xué)模型識(shí)別的識(shí)別結(jié)果可以反過來糾正語言模型導(dǎo)航的錯(cuò)誤在搜索策略上我們采用N2best方法由于應(yīng)用了單字語言網(wǎng)絡(luò)模型1000句手機(jī)常用語的識(shí)別率為95.48%© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.

19、第2期特定人手機(jī)常用漢語語音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)117圖4單字語言網(wǎng)絡(luò)模型4結(jié)束語以上所述只是我們自己在開發(fā)漢語語音識(shí)別系統(tǒng)中的一些實(shí)踐經(jīng)驗(yàn)和體會(huì)模式識(shí)別是一門實(shí)踐性很強(qiáng)的學(xué)科語言信號(hào)是一種非常復(fù)雜多變的信號(hào),人耳聽覺并感知語音的機(jī)制還沒有被完全揭示出來語音識(shí)別涉及的學(xué)科領(lǐng)域非常廣泛只有不斷汲取新的知識(shí),綜合其他學(xué)科的優(yōu)秀成果并不斷實(shí)踐才有可能取得比較滿意的效果參考文獻(xiàn):1林燾,王理嘉1語音學(xué)教程M.北京:北京大學(xué)出版社,1992.2Chin2.AutomaticSpeechandSpeakerRecongniton-Ad2HiLee,FrankKSong,KuldipKPaliwalvancedTopicC.KluweAcademicPublishers,1996.3Kai2FuLee.AutomaticSpeechRecognition-KluwerAcademicPublishers,19894楊行峻,遲惠生,等.語音數(shù)字信號(hào)處理M.北京:電子工業(yè)出版社,1995.5黃澤鎮(zhèn),楊行峻.普通話弧立字四聲的一種模式識(shí)別方法J.聲學(xué)學(xué)報(bào).1990,15(1):36-43

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論