下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、特定人語音識(shí)別技術(shù)在汽車控制上的應(yīng)用 從20世紀(jì)50年月開頭對(duì)語音識(shí)別的討論開頭,經(jīng)過幾十年的進(jìn)展已經(jīng)達(dá)到一定的高度,有的已經(jīng)從試驗(yàn)室走向市場,如一些玩具、某些部門密碼語音輸入等,隨著和專用技術(shù)的進(jìn)展,迅速傅立葉變換以及近來操作系統(tǒng)的討論,使得特定人識(shí)別尤其是計(jì)算量小的特定人識(shí)別成為可能。因此,對(duì)特定人語音識(shí)別技術(shù)在汽車控制上的應(yīng)用的討論是很有前途的。2 特定人語音識(shí)別的辦法目前,常用的說話人識(shí)別辦法有模板匹配法、統(tǒng)計(jì)建模法、聯(lián)接主義法(即人工實(shí)現(xiàn))??紤]到數(shù)據(jù)量、實(shí)時(shí)性以及識(shí)別率的問題,筆者采納基于矢量量化和隱馬爾可夫模型(hmm)相結(jié)合的辦法。說話人識(shí)別的系統(tǒng)主要由語音特征矢量提取單元(前
2、端處理)、訓(xùn)練單元、識(shí)別單元和后處理單元組成,其系統(tǒng)構(gòu)成1所示。圖1系統(tǒng)構(gòu)成由上圖也可以看出,每個(gè)司機(jī)在購買車后必需將自己的語音輸入系統(tǒng),也就是訓(xùn)練過程,固然最好是在寧靜、次數(shù)達(dá)到一定的數(shù)目。從今在以后駕駛過程中就可以利用這個(gè)系統(tǒng)了。所謂預(yù)處理是指對(duì)語音信號(hào)的特別處理:預(yù)加重,分幀處理。預(yù)加重的目的是提上升頻部分,使信號(hào)的頻譜變得平坦,以便于舉行頻譜分析或聲道參數(shù)分析。用具有 6db/倍頻程的提上升頻特性的預(yù)加重?cái)?shù)字實(shí)現(xiàn)。雖然語音信號(hào)是非平穩(wěn)時(shí)變的,但是可以認(rèn)為是局部短時(shí)平穩(wěn)。故語音信號(hào)分析常分段或分幀來處理。2.1 語音特征矢量提取單元說話人識(shí)別系統(tǒng)設(shè)計(jì)中的根本問題是如何從語音信號(hào)中提取表征
3、人的基本特征。即語音特征矢量的提取是囫圇說話人識(shí)別系統(tǒng)的基礎(chǔ),對(duì)說話人識(shí)別的錯(cuò)誤否決率和錯(cuò)誤接受率有著極其重要的影響。同語音識(shí)別不同,說話人識(shí)別利用的是語音信號(hào)中的說話人信息,而不考慮語音中的字詞意思,它強(qiáng)調(diào)說話人的共性。因此,單一的語音特征矢量很難提高識(shí)別率。該系統(tǒng)在說話人的識(shí)別中采納倒譜系數(shù)加基因周期參數(shù),而在對(duì)控制指令的語音識(shí)別中僅采納倒譜系數(shù)。其中,常用的倒譜系數(shù)有2 種,即lpc(線性預(yù)測系數(shù))和倒譜參數(shù)(lpcc),一種是基于mel刻度的mfll(頻率倒譜系數(shù))參數(shù)(mel頻率譜系數(shù))。對(duì)于lpcc參數(shù)的提取, 可先采納durbin遞推算法、格型算法或者schur遞推算法來求lpc
4、系數(shù),然后求lpc參設(shè)第l幀語音的lpc系數(shù)為n,則lpcc的參數(shù)為1np其中p為lpcc系數(shù)的階數(shù),k為lpcc系數(shù)的遞推次數(shù)。進(jìn)一步的討論發(fā)覺,引入一階和二階差分倒譜可以提高識(shí)別率。對(duì)于mpcc參數(shù)的提取,若按照mel曲線將語音信號(hào)頻譜分為k個(gè)頻帶,每個(gè)頻帶的能量為(mk),則 mfcc參數(shù)為1np通過對(duì)lpcc和mfcc參數(shù)對(duì)識(shí)別率影響的試驗(yàn)比較,筆者選取lpcc參數(shù)及其一階和二階差分倒譜稀疏作為特征參數(shù)?;糁芷诠懒康霓k法無數(shù),主要有基于求短時(shí)自相關(guān)函數(shù)的算法、基于求短時(shí)平均幅度差函數(shù)(amdf)的算法、基于同態(tài)信號(hào)處理和線性預(yù)測編碼的算法。筆者僅介紹基于求短時(shí)自相關(guān)函數(shù)的算法。設(shè)sw
5、(n)是一段加窗語音信號(hào),它的非零區(qū)間為0nn-1。sw(n)的自相關(guān)函數(shù)稱為語音信號(hào)的s(n)的短時(shí)自相關(guān)函數(shù),用rw(l)表示,即rw(l)=可知短時(shí)自相關(guān)函數(shù)在rw(0)處最大,且在基音周期的各個(gè)整數(shù)倍點(diǎn)上有很大的峰值,挑選合適的窗函數(shù)(窗長為40ms的hamming窗)與濾波器(帶寬為60"900hz的帶通濾波器)后,只要找到自相關(guān)函數(shù)的第一最大峰值點(diǎn)的位置并計(jì)算它與零點(diǎn)的距離,便能估量出基音周期。2.2 訓(xùn)練單元訓(xùn)練單元的功能是把事先收集到的語音利用一定的算法為每一個(gè)待識(shí)別的說話人訓(xùn)練出與之相匹配的參數(shù)。針對(duì)說話人識(shí)別在汽車應(yīng)用中的不同的要求,訓(xùn)練單元也分為2部分:對(duì)說話人
6、識(shí)別的訓(xùn)練和對(duì)待識(shí)別詞的訓(xùn)練。對(duì)于說話人識(shí)別部分的訓(xùn)練, 針對(duì)說話人的特征舉行訓(xùn)練,為每個(gè)合法用戶建立一套或多套hmm模型,同時(shí)采納基于矢量量化(vq)的辦法,為每個(gè)合法用戶建立vq碼本。vq碼本的設(shè)計(jì)采納lbg算法,初始碼本的設(shè)置采納分裂法初始碼本。第2 部分針對(duì)控制指令中用到的每個(gè)孤立的詞條建立多個(gè)訓(xùn)練樣本,或稱為詞條樣本,估量出該詞條的hmm參數(shù)(一套或多套)。對(duì)一個(gè)hmm過程的完整的描述包括:2個(gè)模型參數(shù)n和m,3組概率度量a,b和。為了便利起見,通常采納如下方式表示一個(gè)完整的模型:=(n,m,a,b),或者簡寫為:= (,a,b)。而對(duì)于每一個(gè)詞條v的模型參數(shù),v=1"v,
7、可以用baum-welch重估算法。2.3 識(shí)別單元識(shí)別單元的功能是利用經(jīng)訓(xùn)練已經(jīng)獲得的hmm模型參數(shù) 和測得的說話人的基音周期在一定的判決條件下辨認(rèn)出待識(shí)別的說話人并估量出待識(shí)別的控制指令詞串。針對(duì)hmm模型參數(shù)通常采納的判決條件是最大后驗(yàn)概率,用viterbi算法實(shí)現(xiàn)。2.4 后處理單元充分利用每個(gè)說話人的聲道參數(shù)和詞條中各狀態(tài)持續(xù)時(shí)光的概率分布來改進(jìn)系統(tǒng)的識(shí)別率。3 系統(tǒng)的實(shí)現(xiàn)因?yàn)槠嚨目刂浦噶钍怯邢薜脑~條和數(shù)字串的組合, 對(duì)這些語音指令的識(shí)別屬于特定人小詞匯量的銜接詞的識(shí)別以及與文本有關(guān)的說話人確認(rèn),不論是從目前的dsp運(yùn)算速度還是存儲(chǔ)空間來說,實(shí)時(shí)實(shí)現(xiàn)這些語音指令的識(shí)別都是徹低可能的
8、。識(shí)別系統(tǒng)組成框圖所示:在此系統(tǒng)中,對(duì)運(yùn)算能力和存儲(chǔ)單元要求十分高的語音識(shí)別部分徹低由dsp完成??驁D中識(shí)別系統(tǒng)的功能是完成語音的輸入、a/d轉(zhuǎn)換及識(shí)別,系統(tǒng)中核心部分采納tms320vc5410。其緣由是它的運(yùn)算速度和存儲(chǔ)空間都能滿足要求,同時(shí)它的一些并行運(yùn)算硬件結(jié)構(gòu)也十分適合語音識(shí)別的各種算法,程序和已經(jīng)脫機(jī)訓(xùn)練好的hmm參數(shù)表及相應(yīng)的詞典存放在程序存儲(chǔ)器中,數(shù)據(jù)存儲(chǔ)器存放識(shí)別過程中的中間計(jì)算數(shù)據(jù)。a/d芯片采納tlc320ad50c, 里面含有a/d、d/a以及和采樣保持。模擬語音信號(hào)的輸入主要是通過傳聲器,保證語音門禁的平安性,轉(zhuǎn)換后的數(shù)字語音數(shù)據(jù)以同步串行通信方式傳送給dsp。2。圖2 識(shí)別系統(tǒng)的組成框圖4 結(jié)束語語音控制汽車是將來的一種趨勢。目前,將語音技術(shù)應(yīng)用于汽車的產(chǎn)品惟獨(dú)在一些玩具中用到,由此可想利用語音技術(shù)舉行汽車控制這一領(lǐng)域蘊(yùn)涵著相當(dāng)大的潛在市場。而且,說話人識(shí)別技術(shù)已經(jīng)進(jìn)展到可以應(yīng)用到實(shí)際的階段了,但目前對(duì)說話人識(shí)別的應(yīng)用并不是無數(shù)。筆者嘗試提出一種比較簡單實(shí)現(xiàn)的計(jì)劃,將說話人識(shí)別技術(shù)應(yīng)用到實(shí)際中。但在實(shí)際應(yīng)用中,說話人識(shí)別系統(tǒng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 華師大版初中科學(xué)第5章《1 食物的消化和吸收》課件1
- 華師大版初中科學(xué)3、水是常用的溶劑16課件
- 醫(yī)院陪護(hù)制度
- 醫(yī)療儀器設(shè)備備品備件管理制度
- 第四單元課題1 愛護(hù)水資源 九年級(jí)化學(xué)人教版2024上冊(cè)
- 7《鹿角和鹿腿》核心素養(yǎng)分層學(xué)習(xí)任務(wù)單-2022-2023學(xué)年三年級(jí)語文下冊(cè)新課標(biāo)(部編版)
- 【寒假閱讀提升】四年級(jí)下冊(cè)語文試題-現(xiàn)代文閱讀(四)-人教部編版(含答案解析)
- 心源性腦栓塞及小動(dòng)脈閉塞性腦梗死
- 2024年惠州申請(qǐng)客運(yùn)從業(yè)資格證2024年試題
- 2024年資陽客運(yùn)從業(yè)資格證考試模擬試題
- 數(shù)列的概念與簡單表示法 高考數(shù)學(xué)一輪復(fù)習(xí)
- PICC導(dǎo)管居家護(hù)理
- 圖書館管理系統(tǒng)的UML建模【活動(dòng)圖-時(shí)序圖-用例圖-部署圖-組件圖】
- 通信工程擬投入的測試設(shè)備表
- 市場調(diào)查理論與方法
- 高考數(shù)學(xué)課堂互動(dòng)與學(xué)生數(shù)學(xué)考試成績的相關(guān)性研究
- 四環(huán)節(jié)教學(xué)心得體會(huì)
- 電力系統(tǒng)經(jīng)濟(jì)學(xué)原理(第2版) 課件全套 第1-8章 引言、經(jīng)濟(jì)學(xué)基本概念-輸電投資
- 對(duì)數(shù)運(yùn)算課件
- 0324心臟瓣膜病課件
- 2020年1月自考00804金融法二試題及答案含解析
評(píng)論
0/150
提交評(píng)論