



下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、語(yǔ)音識(shí)別技術(shù)概述 作者:劉鈺 馬艷麗 董蓓蓓 摘要:本文簡(jiǎn)要介紹了語(yǔ)音識(shí)
2、別技術(shù)理論基礎(chǔ)及分類方式,所采用的關(guān)鍵技術(shù)以及所面臨的困難與挑戰(zhàn),最后討論了語(yǔ)音識(shí)別技術(shù)的前景和應(yīng)用。關(guān)鍵詞:語(yǔ)音識(shí)別;特征提??;模式匹配;模型訓(xùn)練Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing p
3、rospect ion and application of the speech-identification technology are discussed in the last part.Keywords:Speech identification;Character Pick-up;Mode matching;Model training一、語(yǔ)音識(shí)別技術(shù)的理論基礎(chǔ)語(yǔ)音識(shí)別技術(shù):是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高級(jí)技術(shù)。語(yǔ)音識(shí)別以語(yǔ)音為研究對(duì)象,它是語(yǔ)音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支,涉及到生、心理學(xué)、語(yǔ)言學(xué)、機(jī)以及信號(hào)處理等諸多領(lǐng)域,甚
4、至還涉及到人的體態(tài)語(yǔ)言(如人在說(shuō)話時(shí)的表情、手勢(shì)等行為動(dòng)作可幫助對(duì)方理解),其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行語(yǔ)言通信。不同的語(yǔ)音識(shí)別系統(tǒng),雖然具體實(shí)現(xiàn)細(xì)節(jié)有所不同,但所采用的基本技術(shù)相似,一個(gè)典型語(yǔ)音識(shí)別系統(tǒng)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。此外,還涉及到語(yǔ)音識(shí)別單元的選取。(一) 語(yǔ)音識(shí)別單元的選取選擇識(shí)別單元是語(yǔ)音識(shí)別研究的第一步。語(yǔ)音識(shí)別單元有單詞(句)、音節(jié)和音素三種,具體選擇哪一種,由具體的研究任務(wù)決定。單詞(句)單元廣泛應(yīng)用于中小詞匯語(yǔ)音識(shí)別系統(tǒng),但不適合大詞匯系統(tǒng),原因在于模型庫(kù)太龐大,訓(xùn)練模型任務(wù)繁重,模型匹配算法復(fù)雜,難以滿足實(shí)時(shí)性要求。音節(jié)單元多見(jiàn)于漢語(yǔ)
5、語(yǔ)音識(shí)別,主要因?yàn)闈h語(yǔ)是單音節(jié)結(jié)構(gòu)的語(yǔ)言,而是多音節(jié),并且漢語(yǔ)雖然有大約1300個(gè)音節(jié),但若不考慮聲調(diào),約有408個(gè)無(wú)調(diào)音節(jié),數(shù)量相對(duì)較少。因此,對(duì)于中、大詞匯量漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō),以音節(jié)為識(shí)別單元基本是可行的。音素單元以前多見(jiàn)于英語(yǔ)語(yǔ)音識(shí)別的研究中,但目前中、大詞匯量漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)也在越來(lái)越多地采用。原因在于漢語(yǔ)音節(jié)僅由聲母(包括零聲母有22個(gè))和韻母(共有28個(gè))構(gòu)成,且聲韻母聲學(xué)特性相差很大。實(shí)際應(yīng)用中常把聲母依后續(xù)韻母的不同而構(gòu)成細(xì)化聲母,這樣雖然增加了模型數(shù)目,但提高了易混淆音節(jié)的區(qū)分能力。由于協(xié)同發(fā)音的影響,音素單元不穩(wěn)定,所以如何獲得穩(wěn)定的音素單元,還有待研究。(二) 特征參
6、數(shù)提取技術(shù)語(yǔ)音信號(hào)中含有豐富的信息,但如何從中提取出對(duì)語(yǔ)音識(shí)別有用的信息呢?特征提取就是完成這項(xiàng)工作,它對(duì)語(yǔ)音信號(hào)進(jìn)行分析處理,去除對(duì)語(yǔ)音識(shí)別無(wú)關(guān)緊要的冗余信息,獲得影響語(yǔ)音識(shí)別的重要信息。對(duì)于非特定人語(yǔ)音識(shí)別來(lái)講,希望特征參數(shù)盡可能多的反映語(yǔ)義信息,盡量減少說(shuō)話人的個(gè)人信息(對(duì)特定人語(yǔ)音識(shí)別來(lái)講,則相反)。從信息論角度講,這是信息壓縮的過(guò)程。線性預(yù)測(cè)(LP)分析技術(shù)是目前應(yīng)用廣泛的特征參數(shù)提取技術(shù),許多成功的應(yīng)用系統(tǒng)都采用基于LP技術(shù)提取的倒譜參數(shù)。但線性預(yù)測(cè)模型是純數(shù)學(xué)模型,沒(méi)有考慮人類聽(tīng)覺(jué)系統(tǒng)對(duì)語(yǔ)音的處理特點(diǎn)。Mel參數(shù)和基于感知線性預(yù)測(cè)(PLP)分析提取的感知線性預(yù)測(cè)倒譜,在一定程度上
7、模擬了人耳對(duì)語(yǔ)音的處理特點(diǎn),應(yīng)用了人耳聽(tīng)覺(jué)感知方面的一些研究成果。實(shí)驗(yàn)證明,采用這種技術(shù),語(yǔ)音識(shí)別系統(tǒng)的性能有一定提高。也有研究者嘗試把小波分析技術(shù)應(yīng)用于特征提取,但目前性能難以與上述技術(shù)相比,有待進(jìn)一步研究。(三)模式匹配及模型訓(xùn)練技術(shù)模型訓(xùn)練是指按照一定的準(zhǔn)則,從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù),而模式匹配則是根據(jù)一定準(zhǔn)則,使未知模式與模型庫(kù)中的某一個(gè)模型獲得最佳匹配。語(yǔ)音識(shí)別所應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)主要有動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)元(ANN)。DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù),它應(yīng)用動(dòng)態(tài)規(guī)劃方法成功解決了語(yǔ)音信號(hào)特征參數(shù)序列
8、比較時(shí)時(shí)長(zhǎng)不等的難題,在孤立詞語(yǔ)音識(shí)別中獲得了良好性能。但因其不適合連續(xù)語(yǔ)音大詞匯量語(yǔ)音識(shí)別系統(tǒng),目前已被HMM模型和ANN替代。HMM模型是語(yǔ)音信號(hào)時(shí)變特征的有參表示法。它由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過(guò)程共同描述信號(hào)的統(tǒng)計(jì)特性,其中一個(gè)是隱蔽的(不可觀測(cè)的)具有有限狀態(tài)的Markor鏈,另一個(gè)是與Markor鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過(guò)程(可觀測(cè)的)。隱蔽Markor鏈的特征要靠可觀測(cè)到的信號(hào)特征揭示。這樣,語(yǔ)音等時(shí)變信號(hào)某一段的特征就由對(duì)應(yīng)狀態(tài)觀察符號(hào)的隨機(jī)過(guò)程描述,而信號(hào)隨時(shí)間的變化由隱蔽Markor鏈的轉(zhuǎn)移概率描述。模型參數(shù)包括HMM拓?fù)浣Y(jié)構(gòu)、狀態(tài)轉(zhuǎn)移概率及描述觀察符號(hào)統(tǒng)計(jì)特性的一組隨
9、機(jī)函數(shù)。按照隨機(jī)函數(shù)的特點(diǎn),HMM模型可分為離散隱馬爾可夫模型(采用離散概率密度函數(shù),簡(jiǎn)稱DHMM)和連續(xù)隱馬爾可夫模型(采用連續(xù)概率密度函數(shù),簡(jiǎn)稱CHMM)以及半連續(xù)隱馬爾可夫模型(SCHMM,集DHMM和CHMM特點(diǎn))。一般來(lái)講,在訓(xùn)練數(shù)據(jù)足夠的,CHMM優(yōu)于DHMM和SCHMM。HMM模型的訓(xùn)練和識(shí)別都已研究出有效的算法,并不斷被完善,以增強(qiáng)HMM模型的魯棒性。1 人工神經(jīng)元在語(yǔ)音識(shí)別中的應(yīng)用是現(xiàn)在研究的又一熱點(diǎn)。ANN本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),模擬了人類神經(jīng)元活動(dòng)的原理,具有自學(xué)、
10、聯(lián)想、對(duì)比、推理和概括能力。這些能力是HMM模型不具備的,但ANN又不個(gè)有HMM模型的動(dòng)態(tài)時(shí)間歸正性能。因此,現(xiàn)在已有人研究如何把二者的優(yōu)點(diǎn)有機(jī)結(jié)合起來(lái),從而提高整個(gè)模型的魯棒性。 二、語(yǔ)音識(shí)別的困難與對(duì)策目前,語(yǔ)音識(shí)別方面的困難主要表現(xiàn)在:(一)語(yǔ)音識(shí)別系統(tǒng)的適應(yīng)性差,主要體現(xiàn)在對(duì)環(huán)境依賴性強(qiáng),即在某種環(huán)境下采集到的語(yǔ)音訓(xùn)練系統(tǒng)只能在這種環(huán)境下應(yīng)用,否則系統(tǒng)性能將急劇下降;另外一個(gè)問(wèn)題是對(duì)用戶的錯(cuò)誤輸入不能正確響應(yīng),使用不方便。(二)高噪聲環(huán)境下語(yǔ)音識(shí)別進(jìn)展困難,因?yàn)榇藭r(shí)人的發(fā)音變化很大,像聲音變高,語(yǔ)速變慢,音調(diào)及共振峰變化等等,這就是所謂Lombard效應(yīng),必須尋找新的信號(hào)分析處理方法。
11、(三)語(yǔ)言學(xué)、生、心理學(xué)方面的研究成果已有不少,但如何把這些知識(shí)量化、建模并用于語(yǔ)音識(shí)別,還需研究。而語(yǔ)言模型、語(yǔ)法及詞法模型在中、大詞匯量連續(xù)語(yǔ)音識(shí)別中是非常重要的。(四)我們對(duì)人類的聽(tīng)覺(jué)理解、知識(shí)積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等分面的認(rèn)識(shí)還很不清楚;其次,把這方面的現(xiàn)有成果用于語(yǔ)音識(shí)別,還有一個(gè)艱難的過(guò)程。(五)語(yǔ)音識(shí)別系統(tǒng)從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化過(guò)程中還有許多具體問(wèn)題需要解決,識(shí)別速度、拒識(shí)問(wèn)題以及關(guān)鍵詞(句)檢測(cè)技術(shù)等等技術(shù)細(xì)節(jié)要解決。三、語(yǔ)音識(shí)別技術(shù)的前景和應(yīng)用語(yǔ)音識(shí)別技術(shù)到今天,特別是中小詞匯量非特定人語(yǔ)音識(shí)別系統(tǒng)識(shí)別精度已經(jīng)大于98%,對(duì)特定人語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度就更高。這些技術(shù)已經(jīng)能夠滿足通常應(yīng)用的要求。由于大規(guī)模集成電路技術(shù)的發(fā)展,這些復(fù)雜的語(yǔ)音識(shí)別系統(tǒng)也已經(jīng)完全可以制成專用芯片,大量生產(chǎn)。在西方發(fā)達(dá)國(guó)家,大量的語(yǔ)音識(shí)別產(chǎn)品已經(jīng)進(jìn)入市場(chǎng)和服務(wù)領(lǐng)域。一些用戶交機(jī)、電話機(jī)、手機(jī)已經(jīng)包含了語(yǔ)音識(shí)別撥號(hào)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 浙江國(guó)企招聘2025衢州市衢江區(qū)國(guó)有企業(yè)春季招聘4人筆試參考題庫(kù)附帶答案詳解
- 浙江國(guó)企招聘2025臺(tái)州市科創(chuàng)投資集團(tuán)有限公司招聘10人筆試參考題庫(kù)附帶答案詳解
- 2025西安東方航空食品有限公司招聘(15人)筆試參考題庫(kù)附帶答案詳解
- 2025年浙江杭州市淳安縣國(guó)有企業(yè)招聘64人筆試參考題庫(kù)附帶答案詳解
- 2025中煤內(nèi)蒙古能源有限公司招聘(含校招)39人筆試參考題庫(kù)附帶答案詳解
- 視頻合同協(xié)議書
- 工廠招聘合同協(xié)議書
- 2025屆河北保定二模數(shù)學(xué)答案
- 購(gòu)車協(xié)議書合同怎么寫的
- 協(xié)議書與合同
- 電力拖動(dòng)自動(dòng)控制系統(tǒng)-第五版 課后習(xí)題答案
- 夏日歷險(xiǎn)夏日歷險(xiǎn)電子書
- 中國(guó)傳統(tǒng)故事英文十二生肖二篇
- ETL認(rèn)證的工廠審查
- 中國(guó)古代文學(xué)史 馬工程課件(下)05第七編明代文學(xué) 第四章 《水滸傳》
- 威尼斯商人英文劇本(法庭)
- (出讓合同)國(guó)有建設(shè)用地使用權(quán)先租后讓合同范本
- 上海中考英語(yǔ)小貓釣魚(yú)題型專項(xiàng)練習(xí)
- 教科版科學(xué)五年級(jí)下冊(cè)期末試卷測(cè)試卷(含答案解析)
- 鎂合金片狀、帶狀或條狀,含鎂>50%MSDS危險(xiǎn)化學(xué)品安全技術(shù)說(shuō)明書
- 預(yù)防校園欺凌主題班會(huì)課件優(yōu)秀
評(píng)論
0/150
提交評(píng)論