語音識別特征提取算法的研究及實(shí)現(xiàn)_圖文_第1頁
語音識別特征提取算法的研究及實(shí)現(xiàn)_圖文_第2頁
語音識別特征提取算法的研究及實(shí)現(xiàn)_圖文_第3頁
語音識別特征提取算法的研究及實(shí)現(xiàn)_圖文_第4頁
語音識別特征提取算法的研究及實(shí)現(xiàn)_圖文_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、西北大學(xué)碩士學(xué)位論文語音識別特征提取算法的研究及實(shí)現(xiàn)姓名:惠博申請學(xué)位級別:碩士專業(yè):計(jì)算機(jī)軟件與理論指導(dǎo)教師:馮宏偉20080619摘要語音信號具有很強(qiáng)的時變特性,在較短的時間間隔中語音信號的特征可看作基本保持不變,這是語音信號處理的一個重要出發(fā)點(diǎn)。語音識別率的高低,也都取決于語音信號特征提取的準(zhǔn)確性和魯棒性。因此,語音信號特征提取在語音信號處理應(yīng)用中具有舉足輕重的地位。論文首先研究了語音識別的基本知識,主要包括語音識別的原理;語音信號處理的基本知識;各種語音識別和訓(xùn)練的方法。在此基礎(chǔ)上本文完成的工作有:、著重研究了目前使用廣泛的美爾頻率倒譜系數(shù)()參數(shù),以維參數(shù)為例,采用增減分量的方法分析

2、了高階參數(shù)缺失對識別率的影響,找出了對噪音不敏感的高階參數(shù),在識別率變化不大的情況下對維參數(shù)進(jìn)行了優(yōu)化組合。、使用根據(jù)動態(tài)時間規(guī)整()模型實(shí)現(xiàn)了一個連接數(shù)字串語音識別系統(tǒng),并進(jìn)行了實(shí)驗(yàn)分析。系統(tǒng)的組成模塊和語音識別系統(tǒng)的基本構(gòu)成模型一致。在實(shí)現(xiàn)時選用了美爾頻率系數(shù)()。、實(shí)驗(yàn)過程中發(fā)現(xiàn)了漢語數(shù)碼易于混淆的問題,在模板訓(xùn)練方法和參考模板兩方面做了改進(jìn),提出了使用多對特征矢量序列進(jìn)行魯棒性訓(xùn)練和進(jìn)行聲韻母分割來構(gòu)造參考模板的方法。、最后本文研究了漢語連續(xù)語音識別中的聲學(xué)建模方法,給出了識別漢語易混淆詞的方法。本文通過對實(shí)際語音識別系統(tǒng)各個部分的實(shí)驗(yàn)和研究,為進(jìn)一步開發(fā)實(shí)用性語音識別系統(tǒng)的工作做了基

3、礎(chǔ)性的工作。關(guān)鍵詞:語音識別端點(diǎn)檢測美爾頻率倒譜系數(shù)動態(tài)時間規(guī)整,:,:、,一,一、,()、,、,:,西北大學(xué)學(xué)位論文知識產(chǎn)權(quán)聲明書本人完全了解西北大學(xué)關(guān)于收集、保存、使用學(xué)位論文的規(guī)定。學(xué)校有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版。本人允許論文被查閱和借閱。本人授權(quán)西北大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。同時授權(quán)中國科學(xué)技術(shù)信息研究所等機(jī)構(gòu)將本學(xué)位論文收錄到中國學(xué)位論文全文數(shù)據(jù)庫或其它相關(guān)數(shù)據(jù)庫。保密論文待解密后適用本聲明。學(xué)位論文作者簽名:鏖廛指導(dǎo)教師簽名:妒年月日砌莎年石月驢日西北大學(xué)學(xué)位論文獨(dú)

4、創(chuàng)性聲明本人聲明:所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,本論文不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得西北大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。學(xué)位論文作者簽名:。霪何砂心年么月日第一章緒論語音識別技術(shù)及其應(yīng)用語音是人類交流信息最自然、最方便、最有效的手段。隨著電子計(jì)算機(jī)技術(shù)的廣泛應(yīng)用,如何利用語言的這一特點(diǎn)讓人簡單、快速、準(zhǔn)確、方便的使用計(jì)算機(jī),使計(jì)算機(jī)能更好的為人類服務(wù),成為人類努力追求的目標(biāo)?!鞍⒗锇桶团c四十大盜”的

5、故事說明讓機(jī)器能聽懂人說話,執(zhí)行人的口頭指令,是人類古已有之的理想。語音識別簡單的說,就是讓計(jì)算機(jī)能聽懂人說的話,并做出相應(yīng)的反應(yīng)。語音識別技術(shù)的研究廣泛的涉及到聲學(xué)、語言學(xué)、語音學(xué)、生理科學(xué)、數(shù)字信號處理、通信理論、電子技術(shù)、計(jì)算機(jī)科學(xué)、模式識別和人工智能等眾多學(xué)科,因此一個識別效果良好的語音識別系統(tǒng),需要考慮包括說話人的心理狀態(tài)、輸入設(shè)備、說話環(huán)境多方面的因素。語音識別的應(yīng)用范圍極為廣泛,可應(yīng)用于各行各業(yè),如醫(yī)療衛(wèi)生服務(wù)、語音撥號、智能玩具、智能家居、賓館服務(wù)、軍事監(jiān)聽、股票交易、翻譯系統(tǒng)、汽車導(dǎo)航、信息網(wǎng)絡(luò)查詢、工業(yè)控制等等。語音識別廣泛涉及聲學(xué)、語言學(xué)、語音學(xué)、生理科學(xué)、數(shù)字信號處理、

6、通信理論、電子技術(shù)、計(jì)算機(jī)科學(xué)、模式識別和人工智能等眾多學(xué)科,是一門新興的交叉學(xué)科。語音識別系統(tǒng)就其不同要求可以分為一下幾類:根據(jù)對說話人說話方式的要求,可以分為孤立詞語音識別系統(tǒng),連接詞語音識別系統(tǒng)以及連續(xù)語音識別系統(tǒng);根據(jù)對說話人的依賴程度可以分為特定人和非特定人語音識別系統(tǒng);根據(jù)詞匯量的大小,可以分為小詞匯量,中等詞匯量,大詞匯量以及無限詞匯量語音識別系統(tǒng)。國內(nèi)外語音識別技術(shù)的發(fā)展歷史及其現(xiàn)狀國內(nèi)外語音識別技術(shù)的發(fā)展歷程國外從上世紀(jì)年代初就開始研究語音識別技術(shù),世界上最早能夠識別語音的系統(tǒng)是年實(shí)驗(yàn)室開發(fā)的乜,還有年普林斯頓大學(xué)實(shí)驗(yàn)室開發(fā)的單音節(jié)詞識別系統(tǒng)。早期的識別方法基本上都是用模擬電

7、路實(shí)現(xiàn)待測語音和參考語音的運(yùn)算關(guān)系。年代以后,各種語音識別的研究才開始展開,實(shí)驗(yàn)室的研究成果是解決了語音在時間標(biāo)尺上的非均勻問題。年,前蘇聯(lián)科學(xué)家首次將動態(tài)規(guī)劃算法(,)應(yīng)用于語音分析。年代語音識別開始快速發(fā)展,研究重心是孤立詞語音識別。時間歸整技術(shù)眠刀(冊,)搭配基于線性預(yù)測編碼(,)的譜系數(shù)提取,使得孤立詞識別的效率大大提高,線性預(yù)測技術(shù)在語音識別領(lǐng)域從此得到廣泛的應(yīng)用,并且演化出多種線性預(yù)測參數(shù)形式和多種譜距離測度。比較有代表性的系統(tǒng)有:大學(xué)()的、的大詞匯量自動語音聽寫系統(tǒng)和實(shí)驗(yàn)室用于通迅的與話者無關(guān)的語音識別系統(tǒng)。年代,語音識別研究進(jìn)一步走向深入,連接詞和大詞匯量連續(xù)語音識別成為研究

8、熱點(diǎn),統(tǒng)計(jì)模型取代模板匹配的方法成為主流。隱馬爾可夫模型(,)成為大詞匯量連續(xù)語音識別系統(tǒng)的基礎(chǔ)。結(jié)合矢量量化技術(shù),于年開發(fā)了,這是世界上第一個非特定人大詞匯量連續(xù)語音識別系統(tǒng)。能識別包括個詞匯的個連續(xù)語句,在語言復(fù)雜度為且環(huán)境匹配時,識別率可以達(dá)到,經(jīng)過多次改進(jìn),其識別率達(dá)到。年代,隨著信號特征的提取和優(yōu)化技術(shù)、聲學(xué)模型的細(xì)化、自然語言理解領(lǐng)域中語言模型的建立和解碼搜索算法技術(shù)的不斷成熟,出現(xiàn)了比較成功的大詞匯量、連續(xù)語音識別系統(tǒng),比如的系列、的、的。我國的語音識別研究比國外晚一些。但是國家現(xiàn)今比較重視,國家智能計(jì)算機(jī)主題專家組為語音識別技術(shù)專門立項(xiàng),專家組每一到兩年舉行一次全國性的語音識別

9、系統(tǒng)測試,其中具有代表性的研究單位為清華大學(xué)電子工程系與中科院自動化研究所模式識別國家重點(diǎn)實(shí)驗(yàn)室。目前,我國大詞匯量連續(xù)語音識別系統(tǒng)的研究已接近國外最高水平。但從目前的市場應(yīng)用范圍來看,語音產(chǎn)品的實(shí)際應(yīng)用還很狹窄,這說明語音技術(shù)產(chǎn)品還存在缺陷,達(dá)不到市場化、商品化的要求,在技術(shù)上還要有很多工作要做。語音識別技術(shù)發(fā)展現(xiàn)狀近年來,在語音識別領(lǐng)域非常活躍的課題為魯棒性語音識別、說話人自適應(yīng)技術(shù)、大詞匯量關(guān)鍵詞識別算法、語音識別的可信度評測算法、基于類的語言模型和自適應(yīng)語言模型以及深層次的自然語言的理解,研究的方向也越來越側(cè)重于口語對話系統(tǒng)。目前說話人自適應(yīng)技術(shù)的研究已經(jīng)取得相當(dāng)大的進(jìn)步,出現(xiàn)了一些比

10、較成熟的技術(shù),如聲道歸一化技術(shù)、最大似然線性回歸算法(,)、貝葉斯()自適應(yīng)估計(jì)算法。目前,針對特定應(yīng)用的中小詞匯量、特定人的語音識別技術(shù)發(fā)展已較為成熟,已經(jīng)能夠滿足通常應(yīng)用的要求,并逐步投入了實(shí)用【。而非特定人、大詞匯量、連續(xù)語音識別仍是目前階段語音識別研究的重點(diǎn)和難點(diǎn)。語音識別面臨的主要問題目前的語音識別還做不到使機(jī)器能如同人類一樣能“聽懂”或理解自然語言,像人與人之間的語言交流一樣。主要原因是目前研究工作進(jìn)展緩慢,主要技術(shù)理論沒有突破。雖然各種新的修正方法不斷出現(xiàn),但其普遍性和實(shí)用性還存在問題。具體的來說有如下:、語音識別系統(tǒng)的魯棒性差,對環(huán)境依賴嚴(yán)重;、語音識別系統(tǒng)的靈活性差,不能適應(yīng)

11、人類靈活、自然的說話方式;、連續(xù)語音流中語音信號的聲學(xué)特征隨與之前后相連的語音的不同而有很大的變化,且各語音單位之間不存在明顯的界線,語音切分很困難;、語音特征變化大。語音特征隨發(fā)音人的不同、發(fā)音人生理或心理狀態(tài)的變化而有很大的差異;、語音的模糊性,同音詞大量而普遍存在;、對韻律信息的利用不足;韻律信息指的是說話之中的重音、語調(diào)等超音段信息;如何在語音識別中結(jié)合韻律信息還有待進(jìn)一步的研究;、自然語言的多變性難以借助于一些基本語法規(guī)則進(jìn)行描述,語法、語義規(guī)則定義困難。對于漢語語音識別來說除具有一般語音識別的特點(diǎn)外,還有其獨(dú)特的方面,因?yàn)椋骸h語字以單音節(jié)為單位,發(fā)音時間短,不像英語以多音節(jié)為主;

12、、漢語有大量的同音字;漢語由個左右的聲母和韻母組成多個無調(diào)音節(jié)和多個有調(diào)音節(jié),音節(jié)與音節(jié)之間相似性大、易混淆;、中國民族眾多,不同地區(qū)之間發(fā)音變化很大,方言多;、漢語的字詞不分使得詞的切分成為漢語語言理解與處理獨(dú)有和首要的問題;、靈活自由的語言表述難以用漢語語言知識表示方法來表達(dá)。本課題研究的背景及內(nèi)容特征提取就是從語音信號中提取出語音的特征序列。提取的語音特征應(yīng)該能完全、準(zhǔn)確地表達(dá)語音信號,特征提取的目的是提取語音信號中能代表語音特征的信息,減少語音識別時所要處理的數(shù)據(jù)量。語音信號的特征分析是語音信號處理的前提和基礎(chǔ),只有分析出可以代表語音信號本質(zhì)特征的參數(shù),才能對這些參數(shù)進(jìn)行高效的語音通信

13、,語音合成,和語音識別等處理,并且語音合成的好壞,語音識別率的高低,也都取決于語音特征提取的準(zhǔn)確性和魯棒性。因此,語音信號特征提取在語音信號處理應(yīng)用中具有舉足輕重的地位。目前,語音識別技術(shù)中最流行的特征參數(shù)時基于聲道模型和聽覺機(jī)理的()和()參數(shù),而在低頻段具有較高的譜分辨率,對噪聲的魯棒性優(yōu)于,更適合語音識別。但與人聽覺系統(tǒng)非凡的感知能力比較,不管是還是參數(shù),在不利的噪聲環(huán)境下,其魯棒性都會急劇下降。如何在特征提取過程中抽取保持語音信號最重要的特征參數(shù),成為一個急需解決的問題。本課題從維參數(shù)出發(fā),研究了高階參數(shù)對語音識別系統(tǒng)的影響,找出了對噪音不敏感的高階參數(shù),在識別率變化不大的情況下并對維

14、參數(shù)進(jìn)行了優(yōu)化組合,在通用機(jī)上實(shí)現(xiàn)了一個連接數(shù)字串的語音識別系統(tǒng)。在實(shí)驗(yàn)中發(fā)現(xiàn)漢語易混淆數(shù)碼的參數(shù)模板之間同樣具有很強(qiáng)的相似性,因此我們在系統(tǒng)的改進(jìn)中主要改進(jìn)了易于混淆的參數(shù)模板,取得了較好的效果,最后指出了如何實(shí)現(xiàn)連續(xù)漢語語音識別系統(tǒng)的方法。本文通過對實(shí)際語音識別系統(tǒng)各個部分的實(shí)驗(yàn)和研究,為進(jìn)一步開發(fā)實(shí)用性語音識別系統(tǒng)的工作做了基礎(chǔ)性的工作。本文的內(nèi)容結(jié)構(gòu)論文結(jié)構(gòu)安排如下:第一章簡要介紹了語音識別技術(shù)及應(yīng)用,發(fā)展現(xiàn)狀,面臨的問題,最后闡述了本論文的結(jié)構(gòu)。第二章簡要介紹了語音識別的基礎(chǔ),包括語音識別的原理和基本的語音識別系統(tǒng)的構(gòu)成,語音的預(yù)處理,語音信號的特征提取。第三章主要介紹了典型的語音識

15、別及訓(xùn)練方法,包括動態(tài)時間彎折算法(),隱型馬爾可夫模型()和人工神經(jīng)網(wǎng)絡(luò)()的原理等。第四章首先從語音信號預(yù)處理,特征提取及識別等環(huán)節(jié)介紹了語音識別系統(tǒng)的實(shí)現(xiàn),對美爾頻標(biāo)倒譜系數(shù)()做了深入研究,然后分析了參數(shù)各分量對于識別率的貢獻(xiàn),在識別率變動不大的情況下,提出了一種優(yōu)化的參數(shù),最后在機(jī)上用完成一個連接數(shù)字串的語音識別系統(tǒng)。第五章就系統(tǒng)中存在的漢語數(shù)碼易于混淆的問題給出了解決方法,指出了徹底解決易混淆漢語數(shù)碼的方法。第六章對全文所做的工作進(jìn)行了總結(jié)并提出了下一步研究的方向。第二章語音識別的基礎(chǔ)一個典型的語音識別系統(tǒng)包括語音信號預(yù)處理,特征提取,模型的訓(xùn)練與識別等幾個主要環(huán)節(jié)。語音信號的預(yù)處

16、理語音信號的采樣和量化語音信號是一個時間和幅度都連續(xù)變化的一維模擬信號。而語音識別的過程是一個對語音信號進(jìn)行數(shù)字處理的過程,在對語音信號處理之前,必須要對其進(jìn)行數(shù)字化,這個過程就是模數(shù)()轉(zhuǎn)化。模數(shù)轉(zhuǎn)化過程要經(jīng)過采樣和量化兩個過程,從而得到時間和幅度上的離散數(shù)字信號。根據(jù)奈奎斯特采樣定律,采樣頻率應(yīng)為原始信號頻率的兩倍以上,才能使采樣過程中不會丟失信息,而且能從采樣信號中準(zhǔn)確的重構(gòu)原始信號的波形。正常人的發(fā)音范圍是從到左右,因此在實(shí)驗(yàn)中,本文對語音信號的采樣頻率均為。圈日圈日模擬信號采樣語音信號的預(yù)加重量化數(shù)字信號圖轉(zhuǎn)換示意圖由于語音信號的平均功率譜受聲門激勵和口鼻輻射的影響,語音信號從嘴唇輻

17、射后,高頻端大約在以上有倍頻的衰減。因此,在對語音信號進(jìn)行分析之前,一般要對語音信號加以提升(預(yù)加重)。預(yù)加重的目的是濾除低頻干擾,尤其是或者的工頻干擾,提升對語音識別有用的高頻部分,使信號的頻譜變得平坦,以便于進(jìn)行頻譜分析或聲道參數(shù)分析。語音信號的預(yù)加重一般在模數(shù)轉(zhuǎn)化后進(jìn)行,利用倍頻的一階數(shù)字預(yù)加重濾波器實(shí)現(xiàn)。其函數(shù)為:()其實(shí)現(xiàn)框圖為:其中()為原始語音信號,()為預(yù)加重后的語音信號。為預(yù)加重濾波器的系數(shù),取值范圍一般在,本文取二()預(yù)加重前的波形()預(yù)加重后的波形()預(yù)加重前的頻幅()預(yù)加重后的頻幅圖語音信號的預(yù)加重語音信號的加窗處理語音信號是一種非平穩(wěn)信號,為了能對語音信號進(jìn)行處理,我

18、們可以假定在之間語音信號是平穩(wěn)的,語音頻譜特性和語音特征參數(shù)恒定。因此需將語音信號劃分為一個一個的短時段,每一個短時段稱為一幀,為了從詈拉語音信號中切去出樣本信號,就要用時間窗函數(shù)乘以原始語音信號,這種操作就稱為加窗。在語音信號數(shù)字處理中常用的窗函數(shù)有矩形窗,漢寧窗和漢明窗。漢寧窗:()漢明窗:三一其他一,旦),二一。(各)對語音信號加窗的函數(shù)為:一其他其他一。()】(一聊)其中表示信號處理方法,()為語音幀序列,()為各個語音幀上的窗函數(shù)。窗函數(shù)的選擇對語音信號的短時分析影響很大,窗函數(shù)越寬對信號的平滑作用越好,窗函數(shù)的主瓣寬度要窄,旁瓣要盡可能小,使能量盡量集中在主瓣中,以抑制頻譜的泄露。

19、目前應(yīng)用最為廣泛的是漢明窗。仉廠,、氤臃矩弋語音信號的端點(diǎn)檢測端點(diǎn)檢測在語音識別中有著重要的作用。其目的是從語音信號中檢測處語音信號段和噪音段,準(zhǔn)確的端點(diǎn)檢測不僅可以減少計(jì)算量,而且可以提高系統(tǒng)的識別率。目前端點(diǎn)檢測的算法有很多,基于雙門限比較法的端點(diǎn)檢測,基于滑動窗口的語音端點(diǎn)檢測算法豳等等。常用的端點(diǎn)檢測是基于限比較法例的端點(diǎn)檢測,就是根據(jù)語音信號的特征參數(shù)(能量和過零率)進(jìn)行清音、噪音判別,從而完成端點(diǎn)檢測的。下面做以介紹:語音信號的短時能量定義如下:【工(垅)(?)石()(刀一?。考迂σ?,一工(朋)()(刀)宰辦(甩)其中()()為窗函數(shù),為窗長。從能量上來說,濁音的能量大于清音的能

20、量,因此短時能量可以用來判斷清音和濁音,進(jìn)一步也可以進(jìn)行有聲和無聲判斷,連字分界等。語音信號的短時過零率定義如下:()()()其中是符號函數(shù):()()、,、,():,一其他過零率間接反應(yīng)了語音的頻譜特性,它把語音信號分成了多個通道,因此可以用過零率對語音信號進(jìn)行頻譜分析?;陔p門限比較法的端點(diǎn)檢測,就是通過語音信號的短時能量和過零率來判斷一段語音信號的端點(diǎn)。在檢測的開始由于語音信號的能量會比較大,因此先設(shè)置一個較大的門限瓦用來確認(rèn)語音已經(jīng)開始,再取一個較低的門限正來確認(rèn)語音真正的起點(diǎn)和終點(diǎn),同時使用采用一個較低的過零率門限乃來判斷語音間隔。以下是英文數(shù)碼的端點(diǎn)檢測運(yùn)行結(jié)果:零霧爹簍霉爹擎震曩爹

21、霧霉篙鬟霧鬻霈褰霪?爹霧霉鬻鋤:,知,扎”?:,“鐮:,蟹,叱?峨,能”;一苷盤靜?。二鞭。筠,、一一諍;,盛。劉。置:。燕呷。而獅刪”:一“。卯;“?。:。瓷、一;。一。一一?一?謄,耄?鎏:霉一:,!秀,一“:。:”口謄,:。磊長“秘,。,。:?巍,。一。一;、“。?蚤毽,甏一。;。:蛩一:。二鼉一冬?,瓷。,?。一。一。:?!?。;。一;?,“,。;壤。善,鬻一一“。毫;、。?砒,毫。鼉氌。:。,尊;二蕊。豫娃,”,!巍盛琵。邋圖英文數(shù)碼的端點(diǎn)檢測結(jié)果語音信號特征參數(shù)的提取經(jīng)過對語音信號的預(yù)處理之后就要進(jìn)行特征參數(shù)的提取,在語音信號的特征提取中對特征參數(shù)的要求是:、能有效代表語音特征,具有

22、良好的區(qū)分性:、特征參數(shù)之間有良好的獨(dú)立性;、特征參數(shù)易于計(jì)算,最好能保證語音識別的實(shí)時實(shí)現(xiàn)。一般將語音信號的特征參數(shù)分為兩類:第一類為時域特征參數(shù),通常是將一幀語音信號中的各個時域采樣直接構(gòu)成一個參數(shù)矢量;第二類為變化域特征參數(shù),這種參數(shù)是將一幀語音信號進(jìn)行某種變化后產(chǎn)生的參數(shù)矢量,目前常用的為頻域特征參數(shù)。語音信號的時域特征參數(shù)語音信號的時域特征參數(shù)主要為短時過零率、短時能量和基因周期等。短時過零率和短時能量前面已經(jīng)介紹過,它們是語音信號端點(diǎn)檢測中的重要參數(shù)?;糁芷谝彩钦Z音信號中一個非常重要的參數(shù),基音是指發(fā)濁音時聲帶振動的周期性,基音周期則是聲帶振動頻率的倒數(shù)。由于基音周期只具有準(zhǔn)周期

23、性,所以只能采用短時平均方法估計(jì)該周期,這個過程就稱為基音周期檢測?;糁芷诘臋z測方法大概可分為三類:、波形估計(jì)法,直接使用語音波形來估計(jì)基音周期,分析出波形上的周期峰值等。、相關(guān)處理法,先將信號提取聲道模型參數(shù),然后利用它對信號進(jìn)行逆向?yàn)V波,得到音源序列,最后再利用自相關(guān)法求出基音周期。、變化域法,將語音信號變化到頻域或者倒譜域來估計(jì)基音周期,雖然基音周期估計(jì)效果好,但這種方法的計(jì)算量較大而且復(fù)雜。語音信號的頻域特征參數(shù)在語音信號的頻域特征參數(shù)中,目前使用最為廣泛的是線性預(yù)測倒譜系數(shù)()和美爾頻率倒譜系數(shù)()。線性預(yù)測倒譜系數(shù)的主要思想是利用語音信號采樣點(diǎn)之間的相關(guān)性,用過去的樣點(diǎn)值來預(yù)測現(xiàn)

24、在或者未來的樣點(diǎn)值,也就是一個語音信號的抽樣能夠用過去若干個語音抽樣或者它們的線性組合來逼近。線性預(yù)測倒譜系數(shù)是線性預(yù)測系數(shù)在倒譜域中的表示。線性預(yù)測倒譜系數(shù)的求取過程如下圖所示:語音圖計(jì)算框圖一般計(jì)算系數(shù)的公式如下:()(,)薯(一言)吒(刀一尼),刀咖)喜(一等)州加其中)為倒譜系數(shù),口。為預(yù)測系數(shù),為預(yù)測系數(shù)的階數(shù),為倒譜系數(shù)的階數(shù)。使用倒譜可以提升參數(shù)的穩(wěn)定性,而且能夠主要反應(yīng)聲道響應(yīng),但是由于參數(shù)在頻譜上是通過線性逼近得到的,因此不能很好的反應(yīng)出入耳聽覺特性,且包含了語音高頻部分的噪音。美爾頻率倒譜系數(shù)與線性預(yù)測系數(shù)不同,它是將人耳聽覺感知特性與語音的產(chǎn)生相結(jié)合的一種特征參數(shù)。實(shí)驗(yàn)發(fā)

25、現(xiàn)人耳對不同頻率的語音具有不同的感知能力,在以下,感知能力與頻率成線性關(guān)系,在以上,感知能力與頻率成對數(shù)關(guān)系。為了模擬這種人耳的感知特性,人們提出了頻標(biāo)的概念,意義為:為的音調(diào)感知程度的。具體關(guān)系定義為:,厶(蒜)其中丘為實(shí)際線性頻率,厶為頻標(biāo)。參數(shù)計(jì)算過程如下:、對語音信號進(jìn)行預(yù)處理,加窗分幀將其變?yōu)槎虝r信號。、通過將短時時域信號轉(zhuǎn)化為頻域信號只(廠),并計(jì)算其短時能量譜只(國):(國)只(廠),(,)、在頻標(biāo)內(nèi)三角帶通濾波器(個)加于坐標(biāo)得到濾波器組鞏(尼),轉(zhuǎn)化關(guān)系為:厶。()、計(jì)算能量譜尸(緲)經(jīng)由此肌,濾波器組的輸出,取幀計(jì)算的方法是:采集中心頻率在以上和以下的各個:片州滬丟)蹦尼)

26、矧,凡一,二,、表示第七個濾波器,表示濾波器個數(shù)。其中以(尼)表示濾波器組,其中心頻率從一采樣頻率間頻率分布,中心頻率為(),肌,其公式設(shè)計(jì)為:(尼),肋)一(肋面)七(),七()(一)廠(肼)黷廠(塒)七廠(?。ǎ┮粡S(聊)一、系數(shù)塒(,)在美爾刻度譜上可以采用離散的余弦變換(肋)求得。,、占,、萬、(加似)(刀乩瑚(刀:?。?、”一。,標(biāo)準(zhǔn)的倒譜參數(shù)只反映語音參數(shù)的靜態(tài)特性,認(rèn)為不同幀間的語音是不相關(guān)的,實(shí)際上由于發(fā)音的物理?xiàng)l件限制,不同幀間語音一定是相關(guān)的,變化是連續(xù)的,所以在識別參數(shù)中還使用一階差分倒譜參數(shù),其定義為:。(刀)寺善卜()、丕。尸。其中為常數(shù),一般取,都表示一幀語音參數(shù)

27、,在實(shí)際使用中通常將參數(shù)和差分參數(shù)合并為一個向量,作為一幀語音信號的參數(shù)。綜上所述,參數(shù)與參數(shù)相比,參數(shù)具有以下優(yōu)點(diǎn):、語音的信息大多集中在低頻部分,而高頻部分易受環(huán)境噪聲干擾。參數(shù)將線性頻標(biāo)轉(zhuǎn)化為頻標(biāo),強(qiáng)調(diào)語音的低頻信息,從而突出了有利于識別的信息,屏蔽了噪聲的干擾。參數(shù)是基于線性頻標(biāo)的,所以沒有這一特點(diǎn)。、參數(shù)無任何前提假設(shè),在各種情況下均可使用。而漢語數(shù)碼語音識別需要對輔音有較強(qiáng)的分辨能力,如,等,所以參數(shù)在漢語數(shù)碼語音識別中優(yōu)于參數(shù)。、參數(shù)提取過程中需要變換,我們可以由此順便獲得語音信號頻域上的全部信息,有利于端點(diǎn)檢測、語音分段等算法。本章小結(jié)本章討論了語音識別系統(tǒng)的信號處理技術(shù),包括

28、語音信號的模數(shù)轉(zhuǎn)化,端點(diǎn)檢測及特征提取等方面的知識,目的是對語音信號處理有個大致的認(rèn)識,為后面的研究打下基礎(chǔ)。第三章語音識別的模型及其訓(xùn)練方法語音識別系統(tǒng)本質(zhì)上是模式識別系統(tǒng)。語音識別過程就是根據(jù)模式匹配原則,按照一定的相似性度量法則,使未知模式與參考模式庫中的某一個參考模型獲得最佳匹配的過程。目前語音識別比較常用的識別方法主要有模板匹配法,以動態(tài)時間規(guī)整(,)為代表;隨機(jī)模型法,以隱馬爾可夫模型(,)為代表;基于人工神經(jīng)網(wǎng)絡(luò)(,)的識別方法。動態(tài)時間規(guī)整算法()模板匹配法是多維模式識別系統(tǒng)中最常用的一種相似度計(jì)算方法,是最早用于語音識別的方法。在訓(xùn)練過程中,經(jīng)過特征提取和特征維數(shù)的壓縮,針對

29、每個模式類各產(chǎn)生一個或幾個模板,識別階段將待識別模式的特征矢量與各模板進(jìn)行相似度計(jì)算,然后判別它屬于哪個類。這種方法采用某種非線性時間對準(zhǔn)算法,解決了發(fā)音長短不一的問題。常用的是基于最近鄰原則的動態(tài)時間規(guī)整方法,簡稱,是效果最好的一種非線性時間規(guī)整模板匹配算法,在孤立詞語音識別中獲得了成功的應(yīng)用。算法與算法在相同環(huán)境條件下,識別效果相差不大,但是所處理的數(shù)據(jù)量小,分析速度快。就是將發(fā)音在時間軸進(jìn)行彎曲,以使兩次發(fā)音能夠更好的匹配。假設(shè)參考模板為:(,),測試模板為:(,),其相似度用距離,來表示,假設(shè)和分別是和中任意選擇的幀號,(),()則表示兩幀之間的距離。在算法中通常采用歐式距離,距離越小

30、相似度越高。若則可以直接計(jì)算,否則要考慮將(),()對齊,對齊采用線性擴(kuò)張的方法,如果可以將線性映射為一個幀的序列,再計(jì)算它與(),(),()之間的距離,但這樣的計(jì)算沒有考慮語音中各個段在不同情況下的持續(xù)時間會產(chǎn)生的變化,因此識別效果不好,更多情況下是采用動態(tài)規(guī)劃們()的方法。算法就是要尋找一個最佳的時間規(guī)整函數(shù),使被測語音模板的時間軸非線性地映射到參考模板的時間軸,使總的累積失真量最小。,加圖算法的搜索路徑如上圖所示將測試模板的各個幀號在一個二維直角坐標(biāo)系中的橫軸上標(biāo)出,把參考模板的各幀號在縱軸上標(biāo)出,通過這些表示幀號的整數(shù)坐標(biāo)畫出一些縱橫線即可形成一個網(wǎng)格,網(wǎng)格中的每一個交叉點(diǎn)(,)表示測

31、試模板中某一幀與訓(xùn)練模板中某一幀的交匯點(diǎn)。動態(tài)規(guī)劃算法可以歸結(jié)為尋找一條通過此網(wǎng)格中若干格點(diǎn)的路徑,路徑通過的格點(diǎn)即為測試模板和參考模板中進(jìn)行距離計(jì)算的幀號。路徑不是隨意選擇的,首先任何一種語音的發(fā)音快慢都有可能變化,但是其各部分的先后次序不可能改變,因此所選的路徑必定是從左下角出發(fā),在右上角結(jié)束。假設(shè)路徑通過的格點(diǎn)依次為(縞、。),(吩、),(刀、),其中(。、。)(、),(擰、)(肌肜)。路徑可以用函數(shù)(,)描述,其中?,(),()。為了使路徑不至于過分傾斜,可以將路徑限于一個平行四邊形區(qū)內(nèi),它的一條邊斜率為,另一條邊斜率為。如果路徑已通過了格點(diǎn)(、傷一。),那么下一個通過的格點(diǎn)(珥、)只

32、可能是下列三種情況之一:“(礙、飭)(吩一、刀二)(、)(、)(吃、)(椎、研)按照上述約束條件,定義路徑代價函數(shù)饑(孫,)】,其意義為從起始點(diǎn)(、塒。)出發(fā)到當(dāng)前點(diǎn)(、所;)的各幀失真累計(jì)值,有如下遞推公式:毗、瑪)聊),、)】書盯),黼眈、瑪)】、(、瑪)、嘲)其中瓴),(,)】為當(dāng)前點(diǎn)(玎,、,)對應(yīng)的幀(璩)和(,)的幀失真,【(嘞、)為前一點(diǎn)(傳、糾)的路徑代價函數(shù)。這樣從(,)出發(fā)搜索,反復(fù)遞推,直到(、舊點(diǎn)就可以得到最佳路徑,而且(,)為最佳路徑所對應(yīng)的最小失真。改進(jìn)的動態(tài)時間規(guī)整算法傳統(tǒng)的算法的缺點(diǎn)是模板匹配的運(yùn)算量太大,當(dāng)兩個模板的長度較大時,訓(xùn)練和識別算法的運(yùn)算量就相當(dāng)大。

33、實(shí)際上,在匹配的路徑中限定了規(guī)整路徑的斜率,因此許多網(wǎng)格點(diǎn)是達(dá)不到,所以平行四邊形外的網(wǎng)格點(diǎn)是不需要計(jì)算的,另外也沒必要保存所有幀的匹配距離矩陣和累積距離矩陣。改進(jìn)型算法大大提高了運(yùn)算效率,它把實(shí)際路徑分為三段:(,托),(五,五),(五十,),其中專(一),專(一),以和都取最相近的整數(shù)。如圖)所示,由此也得出了對和長度的限制條件,當(dāng)限制條件不滿足時,不進(jìn)行動態(tài)規(guī)劃匹配,在坐標(biāo)軸上的每一幀與坐標(biāo)軸一瘩(三聊。,的計(jì)算公式如下:五,托圖匹配路徑約束示意圖若出現(xiàn)咒鼉的情況,此時匹配的路徑三段為(,五),(,以),(以,)。對于坐標(biāo)軸每前進(jìn)一幀,雖然所要比較的坐標(biāo)軸上的幀數(shù)不同,但規(guī)整特性是一致的

34、,累積距離如下式所示:(、)氏)(一、)、一、一)、)其中和分別表示累積距離和幀匹配距離。隱馬爾可夫模型隱馬爾可夫模型是世紀(jì)年代以來語音識別領(lǐng)域取得的重要成果。它是一個雙重隨機(jī)過程,一方面隱馬爾科夫模型()用隱含的狀態(tài)對應(yīng)于聲學(xué)層各相對穩(wěn)定的發(fā)音單位,并通過狀態(tài)轉(zhuǎn)移和狀態(tài)駐留來描述發(fā)音的變化,這是基本隨機(jī)過程;但是實(shí)際問題比馬爾可夫模型所描述的更復(fù)雜,觀察到的序列并不是與狀態(tài)一一對應(yīng),另一方面它引入了概率統(tǒng)計(jì)模型,不再用動態(tài)時間對齊的方法求匹配距離,而是用概率密度函數(shù)計(jì)算語音參數(shù)對隱馬爾科夫模型()的輸出概率,通過搜索最佳狀態(tài)序列,以最大后驗(yàn)概率為準(zhǔn)則找到識別結(jié)果。這種由馬爾可夫鏈演變而來,第

35、一重的狀態(tài)轉(zhuǎn)移序列對外界隱含的模型,稱為隱馬爾可夫模型。刪的種類的結(jié)構(gòu)有三種,第一種是經(jīng)歷各態(tài)的第二種是二轉(zhuǎn)移第三種是三轉(zhuǎn)移圖經(jīng)歷各態(tài)的圖二轉(zhuǎn)移圖三轉(zhuǎn)移的馬可夫鏈都是一樣的,不同的是觀察序列的概率分布,也就是語音識別系統(tǒng)中的,根據(jù)這個,把分為兩大類,離散()和連續(xù)(),對應(yīng)的分布參數(shù)是一個概率矩陣,而對應(yīng)的分布參數(shù)是觀察序列的輸出概率密度函數(shù):、在中,中直接存儲每個狀態(tài)產(chǎn)生的某個觀測事件的概率,(,),在情況下,觀察序列為符號序列,為一狀態(tài)概率矩陣:乜(七),;,它滿足:(),其中為狀態(tài)概率矩陣的個數(shù),為狀態(tài)序號,識別時篁直接使用算法即可求出(兄)。、在中,曰中每個狀態(tài)對應(yīng)于一個觀察概率密度函

36、數(shù),觀察序列為向量序列(設(shè)維數(shù)為),就是個維的概率密度函數(shù)的集合:刀以(,一,其中為觀察向量空間中的任一向量,每一個密度函數(shù)都滿足歸一的條件。(),表示第,狀態(tài)的觀察概率空間,在語音識別領(lǐng)域中,的識別效果最好。模型三參數(shù)、萬防,萬:,萬為初始分布,用于描述觀察序列在時刻的所處狀態(tài)。屬于模型中各狀態(tài)的概率分布,即:萬(),滿足:乃、,為狀態(tài)轉(zhuǎn)移概率矩陣,這里只考慮一喻,當(dāng)前所處狀態(tài)口,只與前一時刻所處狀態(tài)靠。有關(guān),即:牙(,吼一,墨,最,。)(,島吼一)它滿足上面節(jié)里提到的二轉(zhuǎn)移特別適合語音識別系統(tǒng),是因?yàn)檎Z音信號是隨時間變化的信號,其狀態(tài)只能駐留或者往后轉(zhuǎn)移,所以最后的這個模型特別適合進(jìn)行語音

37、信號建模。那么,在語音信號的特定環(huán)境下,如果,那么就有鳴,也就是說,語音信號的狀態(tài)不能向前轉(zhuǎn)移,只能向后面的高狀態(tài)轉(zhuǎn)移,因此,有萬。狀態(tài)的跳轉(zhuǎn)也不能太大:如,同樣,對于最后狀態(tài),有刪,如下所示:口口、,為語音觀察序列中任一觀察(它是隨機(jī)變量或隨機(jī)向量)在各狀態(tài)的觀察概率空間中的分布(概率密度函數(shù)或者是概率分布函數(shù)),中,巧()勺(,如,)表示某一狀態(tài),對應(yīng)概率密度函數(shù)的個數(shù);()表示某一概率密度函數(shù);下面三個是概率密度函數(shù)的三參數(shù):,表示第個狀態(tài),第,個混合高斯函數(shù)的權(quán)。表示第個狀態(tài),第,個混合高斯函數(shù)的均值矢量表示第個狀態(tài),第,個混合高斯函數(shù)的協(xié)方差矩陣嚴(yán)格來講,模型的狀態(tài)數(shù)、高斯函數(shù)個數(shù)也

38、是里的參數(shù),但是這兩個參數(shù)已經(jīng)包含在么,召里。么口口口口口口口口口口口口口口口口圖與語音參數(shù)的關(guān)系模型三問題如果用模型完成語音識別,有三個問題需要解決:、輸出概率的計(jì)算問題給定觀察序列:,和模型五(,萬),如何計(jì)算觀察序列對模型的輸出概率()。、確定最優(yōu)狀態(tài)序列若已知一個系統(tǒng)的三項(xiàng)特征參數(shù)(,),給定一個觀察序列:聽,如何確定一個最佳的狀態(tài)序列【。,:,縱】。、調(diào)整參數(shù)如何調(diào)整仞,),使(元)最大。模型三算法、前向后向算法這個算法用來解決的第一個問題:給定一個觀察值序列,丁以及一個模型(石,),計(jì)算由模型允產(chǎn)生出的概率(允)。(兄)最直接的求取方法如下:對一個固定的狀態(tài)序列,有:(,允)兀(,

39、)():()()(在,的狀態(tài)下,取得的概率乘積)。其中(,)吼;巳艫吃,對于給定旯,產(chǎn)生的概率為(旯)萬吼口州:口憶。釘,因此在旯條件下和司時發(fā)生的聯(lián)合概率為:()(,兄)旯)所有丌吼。()口蚋:(:)口機(jī)衙,()爭兒仍,可以看出其計(jì)算量比較大,由(一)次乘法和個加法,因此一個比較有效的算法:前向后向算法是解決此問題的有效算法(以下對幺的形式簡記為)()前向算法定義前向變量為:。()(。,:,),表示給定刪模型參數(shù),部分觀察序列為,:,),并且在時刻緞于狀態(tài)幺的概率。那么,有:初始化:對,有口()萬包()遞推:對,有口川()()口擴(kuò)()終止:()口()式子中:(川):。狀態(tài)觀察序列(口(,)(

40、)格形結(jié)構(gòu)()計(jì)算前向變量口州(力的遞推過程圖前向算法示意圖()后向算法與前向算法類似,定義后向變量為屈()(,兄),是在給定模型下,從時刻開始到觀察結(jié)束這一段的觀察序列為川,且在時刻處在狀態(tài)只的概率。類似前向算法,有初始化:對有屏()遞推:對一,一,;有,尼()口擴(kuò)(,。)層。()終止:(兄)屈()前向一后向算法是一種格形結(jié)構(gòu),后向變量的遞推過程如下圖:尼()夕(力圖后向算法計(jì)算()示意圖、算法這個算法用來解決的第二個問題,也就是說,給定一個觀察值序列,和一個模型旯協(xié),),如何確定一個最佳狀態(tài)序列,:,】的問題。最佳的意義有很多種,由不同的定義可得到不同的結(jié)論。這里討論的最佳意義上的狀態(tài)序列

41、是指使(,旯)最大時確定的狀態(tài)序列。比較廣泛應(yīng)用準(zhǔn)則是:在任意時刻,選取最可能發(fā)生的狀態(tài),使(,旯)尸(吼,旯)成立,則令,這可用算法來實(shí)現(xiàn),其描述如下:定義甌()(,旯)那么,求取最佳狀態(tài)序列的過程為:初始化:對,有萬()萬(),伊()遞推:對,有色(歹)懋一,(咖肜),紀(jì)),()口擴(kuò)終止:尸圍馴,;防()】路徑回溯,確定最佳狀態(tài)序列:緲(二),。、算法這個算法用來解決的第三個問題,也就是:給定一個觀察序列:,如何訓(xùn)練一個仿,),(允)最大,即參數(shù)重估問題。算法的基本思想是根據(jù)觀察值序列和選取的初始模型仞,),求取一個新模型萬(矛,一,百)??梢宰C明,(萬)(允),即由重估公式得到的萬比在表示觀察值序列方面好,重復(fù)這個過程,逐步改進(jìn)模型參

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論