下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、 基于K均值分段的語音識別在微機(jī)器人控制系統(tǒng)中的應(yīng)用 范斐斐,李振波,陳佳品 時間:2008年05月23日 字 體: 大 中 小 關(guān)鍵詞:<"cblue" " target='_blank'>器人<"cblue" " tar
2、get='_blank'>語音識別<"cblue" " target='_blank'>語音識別算法<"cblue" " target='_blank'>嵌入式系統(tǒng)<"cblue" " target='_blank'>高斯 摘要: 介紹了一種應(yīng)用于微機(jī)<&
3、quot;cblue" " title="器人">器人控制平臺的<"cblue" " title="語音識別">語音識別算法,可實現(xiàn)簡單命令詞語的識別,控制微機(jī)器人的移動。利用K均值分段法,在每次計算完觀察值最佳狀態(tài)序列后,插入一個重估過程,隨時調(diào)整參數(shù)以識別下一個句子。實驗結(jié)果表明,這種實時學(xué)習(xí)的<"cblue" " title="語音識別算法">語音識別算法適合嵌入式應(yīng)用。關(guān)鍵詞: 微機(jī)器人 語音識別 隱式馬爾可夫模型 嵌
4、入式系統(tǒng)本文基于毫米級全方位無回轉(zhuǎn)半徑移動機(jī)器人課題。微系統(tǒng)配置示意圖如圖1所示。主要由主機(jī)Host(配有圖像采集卡)、兩個CCD攝像頭(其中一個為顯微攝像頭)、微移動裝配平臺、微機(jī)器人本體和系統(tǒng)控制電路板等組成。計算機(jī)和攝像機(jī)組用于觀察微機(jī)器人的方位,控制系統(tǒng)控制微機(jī)器人的移動。本文在系統(tǒng)控制電路中嵌入式實現(xiàn)語音識別算法,通過語音控制微機(jī)器人。微機(jī)器人控制系統(tǒng)的資源有限,控制方法比較復(fù)雜,并且需要有較高的實時性,因此本文采用的語音識別算法必須簡單、識別率高、占用系統(tǒng)資源少。HMM(隱馬爾可夫模型)的適應(yīng)性強(qiáng)、識別率高,是當(dāng)前語音識別的主流算法。使用基于HMM非特定人的語音識別算法雖然借助模板
5、匹配減小了識別所需的資源,但是前期的模板儲存工作需要大量的計算和存儲空間,因此移植到<"cblue" " title="嵌入式系統(tǒng)">嵌入式系統(tǒng)還有一定的難度,所以很多嵌入式應(yīng)用平臺的訓(xùn)練部分仍在PC機(jī)上實現(xiàn)。為了使訓(xùn)練和識別都在嵌入式系統(tǒng)上實現(xiàn),本文給出了一種基于K均值分段HMM模型的實時學(xué)習(xí)語音識別算法,不僅解決了上述問題,而且做到了智能化,實現(xiàn)了真正意義上的自動語音識別。1 增量K均值分段HMM的算法及實現(xiàn)由于語音識別過程中非特定的因素較多,為了提高識別的準(zhǔn)確率,針對本系統(tǒng)的特點,采用動態(tài)改變識別參數(shù)的方法提高系統(tǒng)的識別率。訓(xùn)
6、練算法是HMM中運(yùn)算量最大、最復(fù)雜的部分,訓(xùn)練算法的輸出是即將存儲的模型。目前的語音識別系統(tǒng)大都使用貝斯曼參數(shù)的HMM模型,采取最大似然度算法。這些算法通常是批處理函數(shù),所有的訓(xùn)練數(shù)據(jù)要在識別之前訓(xùn)練好并存儲。因此很多嵌入式系統(tǒng)因為資源有限不能達(dá)到高識別率和實時輸出。本系統(tǒng)采用了自適應(yīng)增量K均值分段算法。在每次輸入新的語句時都連續(xù)地計算而不對前面的數(shù)據(jù)進(jìn)行存儲,這可以節(jié)約大量的時間和成本。輸入語句時由系統(tǒng)的識別結(jié)果判斷輸入語句的序號,并對此語句的參數(shù)動態(tài)地修改,真正做到了實時學(xué)習(xí)。K均值分段算法是基于最佳狀態(tài)序列的理論,因此可以采用Viterbi算法得到最佳狀態(tài)序列,從而方便地在線修改系統(tǒng)參數(shù)
7、,使訓(xùn)練的速度大大提高。為了達(dá)到本系統(tǒng)所需要的功能,對通常的K均值算法作了一定的改進(jìn)。在系統(tǒng)無人監(jiān)管的情況下,Viterbi解碼計算出最大相似度的語音模型,根據(jù)這個假設(shè)計算分段K均值算法的輸入?yún)?shù),對此模型進(jìn)行參數(shù)重估。首先按照HMM模型的狀態(tài)數(shù)進(jìn)行等間隔分段,每個間隔的數(shù)據(jù)段作為某一狀態(tài)的訓(xùn)練數(shù)據(jù),計算模型的初始參數(shù)=f(a,A,B)。采用Viterbi的最佳狀態(tài)序列搜索,得到當(dāng)前最佳狀態(tài)序列參數(shù)和重估參數(shù),其中概率密度函數(shù)P(X,S|)代替了最大似然度算法中的P(X,),在不同的馬爾科夫狀態(tài)和重估之間跳轉(zhuǎn)。基于K均值算法的參數(shù)重估流程如下:為了使參數(shù)能更快地收斂,在每幀觀察語音最佳狀態(tài)序列
8、的計算結(jié)束后,加入一個重估過程,以求更快地響應(yīng)速度??梢钥吹?,增量K均值算法的特點為:在每次計算完觀察值最佳狀態(tài)序列后,插入一個重估過程。隨時調(diào)整參數(shù)以識別下一個句子。由于采用混合<"cblue" " title="高斯">高斯密度函數(shù)作為輸出概率分布可以達(dá)到較好的識別效果,因此本文采用 M 的混合度對數(shù)據(jù)進(jìn)行訓(xùn)練。對重估,并比較收斂性,最終得到HMM模型參數(shù)訓(xùn)練結(jié)果??梢姡肒均值法在線修改時,一次數(shù)據(jù)輸入會有多次重估過程,這使系統(tǒng)使用最近的模型估計后續(xù)語句的最佳狀態(tài)序列成為可能。但是對于在線修改參數(shù)要求,快速收斂是很重要的。為了
9、得到更好的 Viterbi序列,最佳狀態(tài)序列使用了漸增的算法模型,即快速收斂算法。語音識別的具體實現(xiàn)過程為:數(shù)字語音信號通過預(yù)處理和特征向量的提取,用戶通過按鍵選擇學(xué)習(xí)或者識別模式;如果程序進(jìn)入訓(xùn)練過程,即用戶選擇進(jìn)行新詞條的學(xué)習(xí),則用分段K均值法對數(shù)據(jù)進(jìn)行訓(xùn)練得到模板;如果進(jìn)入識別模式,則從Flash中調(diào)出聲音特征向量,進(jìn)行HMM算法識別。在識別出結(jié)果后,立即將識別結(jié)果作為正確結(jié)果與前一次的狀態(tài)做比較,得到本詞條更好的模板,同時通過<"innerlink" " title="LED">LED數(shù)字顯示和語音輸出結(jié)果。系統(tǒng)軟件流程如圖
10、2所示。-1? (5)然后被分成20毫秒等長的幀,幀移為10秒,加漢明窗處理:L選擇為320個點,用短時平均能量和平均過零率判斷起始點,去除不必要的信息。對數(shù)據(jù)進(jìn)行FFT運(yùn)算,得到能量譜,通過24通道的帶通濾波輸出X(k),然后再通過DCT運(yùn)算,提取12個MFCC系數(shù)和一階二階對數(shù)能量,提取38個參數(shù)可以使系統(tǒng)識別率得到提高。為了進(jìn)行連接詞識別,需要由訓(xùn)練數(shù)據(jù)得到單個詞條的模型。方法為:首先從連接詞中分離出每個孤立的詞條,然后再進(jìn)行孤立詞條的模型訓(xùn)練。對于本系統(tǒng)不定長詞條的情況,每個詞條需要有一套初始的模型參數(shù),然后按照分層構(gòu)筑的HMM算法將所有詞串分成孤立的詞條。對每個詞條進(jìn)行參數(shù)的重估,判
11、斷是否收斂。如果差異小于某個域值就判斷為收斂;否則將得到的參數(shù)作為新的初始參數(shù)再進(jìn)行重估,直到收斂。2 實驗結(jié)果實驗采用30個人(15男,15女)的聲音模型進(jìn)行識別。首先由10人(5男,5女)對5個命令詞(前進(jìn)、后退、左移、右移、快速)分別進(jìn)行初始數(shù)據(jù)訓(xùn)練,每人每詞訓(xùn)練10次,得到訓(xùn)練模板。然后再由這30人隨機(jī)進(jìn)行非特定人語音識別。采用6狀態(tài)的HMM模型,高斯混合度選為14,得到圖3的實驗結(jié)果。由圖3可以看出,由于本系統(tǒng)實時學(xué)習(xí)的特點,系統(tǒng)的識別率隨著訓(xùn)練數(shù)據(jù)的增加而逐步上升(誤識率下降)。但是當(dāng)實驗數(shù)據(jù)繼續(xù)增多時,系統(tǒng)的識別率和實時性都有下降趨勢。這是由于系統(tǒng)處于無人監(jiān)管狀態(tài),根據(jù)判斷結(jié)果進(jìn)
12、行參數(shù)重估。如果判斷結(jié)果錯誤,勢必將錯誤帶入?yún)?shù)重估步驟中。逐步增加高斯混合度數(shù)目,可以得到圖4的實驗結(jié)果??梢姼咚够旌隙仍?8的時候達(dá)到較好的識別效果,混合度太高識別率反而會有所下降,這是由于嵌入式系統(tǒng)的資源有限,運(yùn)算復(fù)雜度的增長超過了嵌入式設(shè)備的限制所造成的。為了使微機(jī)器人能夠正確地執(zhí)行人的聲音指令,本文將語音識別的過程嵌入微機(jī)器人的控制系統(tǒng)中,根據(jù)微機(jī)器人控制系統(tǒng)資源有限、對實時性要求高的特點,使用增量K均值分段HMM的算法,簡化計算節(jié)省了所需的硬件資源,實現(xiàn)了實時學(xué)習(xí)的語音識別,能方便地對微機(jī)器人進(jìn)行控制。本系統(tǒng)的識別率達(dá)到了較高的標(biāo)準(zhǔn),又由于加入了智能化的用戶選擇部分,用戶可隨時選擇學(xué)習(xí)新的語句,使其有更廣闊的應(yīng)用前景。由于嵌入式平臺受到處理速度、存儲空間的限制,所以能夠?qū)ξC(jī)器人發(fā)出的指令十分有限,識別率還有待提高。因此,研究語音識別算法,比較各種算法的優(yōu)缺點,進(jìn)而在嵌入式微機(jī)器人控制系統(tǒng)上實現(xiàn)大詞匯量非特定人的語音識別,實現(xiàn)真正意義上的人機(jī)交流是今后進(jìn)一步的工作。參考文獻(xiàn)1 王作英,肖 熙.基于段長分布的HMM語音識別模型J.電子學(xué)報,2004;12 Takashi FUKUDA.Peripheral Features
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園年度工作報告
- 2024年沈陽客運(yùn)資格證需要考幾科
- 2024年合作A1客運(yùn)從業(yè)資格證
- 冰凍天氣應(yīng)急預(yù)案
- 2024年青??蛙噺臉I(yè)資格證模擬考試答題軟件
- 2024年黔南c1客運(yùn)資格證模擬考試題下載
- 2024年臨沂c1客運(yùn)從業(yè)資格證考試
- 2024年連云港道路客運(yùn)駕駛員從業(yè)資格證考試題庫
- 2024年長沙客運(yùn)資格證理論考試答題技巧
- 2024年北京客運(yùn)駕駛員考試卷及答案題庫
- Arbortext editor詳細(xì)教程
- theBeatles披頭士甲殼蟲樂隊簡介
- 石方機(jī)械破除施工方案
- 普通鋼材拉絲項目建議書寫作模板用于立項備案申報
- 潤滑管理培訓(xùn)PPT
- 空調(diào)買賣合同范本
- (完整版)SH∕T3503-2017交工文件表格(1)
- 蘇教版六年級下冊解決問題的策略第一課時教案
- 工業(yè)硅的冶煉工藝
- 2021年四史學(xué)習(xí)教育PPT
- 【一師一優(yōu)課教案】仁愛八年級(下冊)Unit 5 Topic 1 Section A
評論
0/150
提交評論