




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、摘要:語音識別技術(shù)是一門涉及面很廣的交叉學(xué)科。隨著新理論的提出和應(yīng)用,語音識別 技術(shù)取得了很大的進(jìn)步,許多產(chǎn)品已經(jīng)得以實際的應(yīng)用,但在其進(jìn)一步的發(fā)展進(jìn)程中,還有 許多棘手的問題有待解決。關(guān)鍵詞:語音識別;動態(tài)時間規(guī)整算法;人工神經(jīng)元網(wǎng)絡(luò)1背景介紹語言是人類特有的功能,是人們思維最重要的寄托體,是人類交流最主要的途徑。語音 是語言的聲學(xué)表現(xiàn),是人類交流信息最自然、最有效、最方便的手段。語言和語音與人類 社會科學(xué)文化發(fā)展緊密相連。語音識別技術(shù)是讓機器接收,識別和理解語音信號,并將其轉(zhuǎn)換成相應(yīng)的數(shù)字信號的 技術(shù)。它是一門交叉學(xué)科,涉及到語音語言學(xué)、數(shù)理統(tǒng)計、計算機、信號處理等一系列學(xué) 科。2發(fā)展歷史
2、1952年貝爾實驗室的Davis等人研制成功了能識別十個英文數(shù)字發(fā)音的Audry系統(tǒng), 標(biāo)志著語音識別技術(shù)研究工作開始。20世紀(jì)60年代計提出了動態(tài)規(guī)劃(Dynamic programming)和線性預(yù)測分析技術(shù)(Liner Predictive)等重要成果。20世紀(jì)70年代, 語音識別領(lǐng)域取得了突破。實現(xiàn)了基于線性預(yù)測倒譜和DTW技術(shù)的特定人孤立語音識別 系統(tǒng)。20世紀(jì)80年代語音識別研究進(jìn)一步走向深入基于特定人孤立語音技術(shù)的系統(tǒng)研 制成功,隱馬爾可夫模型和人工神經(jīng)元網(wǎng)絡(luò)(Artificial Neural Network)在語音識別中的成 功應(yīng)用。進(jìn)入20世紀(jì)90年代后語音識別系統(tǒng)開始從實
3、驗室走向?qū)嵱?。我國對語音識別的 研究開始于20世紀(jì)80年代,近年來發(fā)展迅速,并取得了一系列的成果。3具體應(yīng)用隨著計算機技術(shù)、模式識別等技術(shù)的發(fā)展,適應(yīng)不同場合的語音識別系統(tǒng)相繼被開發(fā) 出來,語音識別及處理技術(shù)已經(jīng)越來越突現(xiàn)出其強大的技術(shù)優(yōu)勢。近三十年來,語音識別 在計算機、信息處理、通信與電子系統(tǒng)、自動控制等領(lǐng)域的應(yīng)用越來越廣泛。在許多政府部門、商業(yè)機構(gòu),語音識別技術(shù)的應(yīng)用,可免除大量操作人員的重復(fù)勞動, 既經(jīng)濟(jì)又方便。如:語音郵件、IP電話和IP傳真、電子商務(wù)、自動語音應(yīng)答系統(tǒng)、自動 語音信箱、基于IP的語音、數(shù)據(jù)、視頻的CTI系統(tǒng)、綜合語音、數(shù)據(jù)服務(wù)系統(tǒng)、自然語音 識別系統(tǒng)、專家咨詢信息服
4、務(wù)系統(tǒng)、尋呼服務(wù)、故障服務(wù)、秘書服務(wù)、多媒體綜合信息服 務(wù)、專業(yè)特別服務(wù)號(168自動信息服務(wù)系統(tǒng),112、114、119等信息查詢系統(tǒng))等。許多 特定環(huán)境下,如工業(yè)控制方面,在一些工作環(huán)境惡劣、對人身有傷害的地方如地下、深水 及輻射、高溫等)或手工難以操作的地方,均可通過語音發(fā)出相應(yīng)的控制命令,讓設(shè)備完成 各種工作。當(dāng)今,語音識別產(chǎn)品不僅在人機交互中,占到的市場比例越來越大,而且在許多領(lǐng)域 都有了廣闊的應(yīng)用前景,在人們的社會生活中起著舉足輕重的作用。4語音識別系統(tǒng)原理語音識別一般分為兩個步驟:學(xué)習(xí)階段和識別階段。學(xué)習(xí)階段的任務(wù)是建立識別基本 單元的聲學(xué)模型以及語言模型。識別階段是將輸入的目標(biāo)
5、語音的特征參數(shù)和模型進(jìn)行比較, 得到識別結(jié)果。語音識別過程如圖所示。下面對該流程作簡單介紹:ritUJ-,仁畚數(shù)一一一I Q諾音堆到*國互I序:_ ft*,* *Q由魂、由|(1)語音采集設(shè)備如話筒、電話等將語音轉(zhuǎn)換成模擬信號。(2)數(shù)字化一般包括預(yù)濾波、采樣和A/D變換。該過程將模擬信號轉(zhuǎn)變成計算機能 處理的數(shù)字信號。(3)預(yù)處理一般包括預(yù)加重、加窗分幀。經(jīng)預(yù)處理后的信號被轉(zhuǎn)換成了幀序列的加 窗的短時信號。(4)參數(shù)分析是對短時信號進(jìn)行分析,提取語音特征參數(shù)的過程,如時域、頻域分 析,矢量量化等。(5)語音識別是目標(biāo)語音根據(jù)特征參數(shù)與模型庫中的參數(shù)進(jìn)行匹配,產(chǎn)生識別結(jié)果 的過程。一般有模板匹
6、配法、隨機模型法和神經(jīng)網(wǎng)絡(luò)等。(6)應(yīng)用程序根據(jù)識別結(jié)果產(chǎn)程預(yù)定動作。(7)該過程是語音模型的學(xué)習(xí)過程。5現(xiàn)有算法介紹語音識別常用的方法有:模板匹配法、人工神經(jīng)網(wǎng)絡(luò)法。模板匹配法是語音識別中常用的一種相似度計算方法。模板匹配法一般將語音 或單詞作為識別單元,一般適用于詞匯表較小的場合。在訓(xùn)練階段,對用戶語音進(jìn)行特征 提取和特征維數(shù)的壓縮,這個過程常用的方法是采用矢量量化(VQ)技術(shù)。然后采用聚類 方法或其他方法,針對每個模式類各產(chǎn)生一個或幾個模板。識別階段將待識別的語音模式 的特征參數(shù)與各模板進(jìn)行相似度的計算,將最高相似者作為識別結(jié)果。但由于用戶在不同 時刻發(fā)同一個音的時間長度有較大隨意性,所
7、以識別時必須對語音時間進(jìn)行伸縮處理。研 究表明,簡單的線性伸縮是不能滿足要求的。由日本學(xué)者板倉在70年代提出的動態(tài)時間 伸縮算法(DTW)很好的解決了這一問題。DTW算法能夠較好地解決小詞匯量、孤立詞 識別時說話速度不均勻的難題。DTW算法示意圖如圖所示。設(shè)測試的語音參數(shù)共有M幀矢量,而參考模板有N幀矢量,且M手N,則DTW就是 尋找一個時間歸整函數(shù)tn=f(tm),它將測試矢量的時間軸tm非線性地映射到模板的時間 軸tn上,并使該函數(shù)滿足第k幀(k=1,2, . M)測試矢量I和第取)幀(f(k) = 1,2. N) 模板矢量J之間的距離測度之和最?。?。2邸出-1血史1一J六Q)at另外,在
8、實際識別系統(tǒng)中,語音的起點或終點由摩擦音構(gòu)成,環(huán)境噪聲也比較大,語 音的端點檢測會存在較大的誤差。DTW算法起點點可以固定在(tm,tn) = (1,1),稱為固定 起點;也可以選擇在(1,2)、(2, 1)等點,稱為松馳起點。同樣,中止點可以選擇在(M,N) 點,稱為固定終點;也可以選擇在(N 1,M)、(N,M 1)等點,稱為松弛終點。松弛的 DTW算法的起始點從(1, 1)、(1, 2)、(2, 1)等點中選擇一最小值,終止點從(M,N)、 (M,N-1)、(M-1,N)等點中選擇一最小值,兩語音樣本之間的相互距離在相應(yīng)的點放松后選 擇一最小距離。松弛DTW可以克服由于端點檢測不精確引起
9、的誤差,但運算量加大。人工神經(jīng)網(wǎng)絡(luò)法。現(xiàn)實世界的語音信號會隨著許多特征如:說話人語速、語調(diào) 以及環(huán)境的變化而動態(tài)變化的,想要用傳統(tǒng)的基于模板的方法建立一個適應(yīng)動態(tài)變化的語 音識別系統(tǒng)是非常困難的。因此需要設(shè)計一個帶有自學(xué)習(xí)能力的自適應(yīng)識別系統(tǒng),以便可 以適應(yīng)語音的動態(tài)變化。人工神經(jīng)網(wǎng)絡(luò)由神經(jīng)元、網(wǎng)絡(luò)拓樸和學(xué)習(xí)方法構(gòu)成。人工神經(jīng)網(wǎng)絡(luò)拓樸結(jié)構(gòu)可分為反 饋型和非反饋型(前饋型)。學(xué)習(xí)方法可分為監(jiān)督型和非監(jiān)督型。各種人工神經(jīng)網(wǎng)絡(luò)模型 中應(yīng)用得最典型的是采用反向傳播(Back Propagation)學(xué)習(xí)算法的多層前饋網(wǎng)絡(luò)。多層 前饋型網(wǎng)絡(luò)如圖所示。除上述介紹的幾種常用的方法外,還有許多其它的識別方法以
10、及改進(jìn)算法。6尚未解決的問題及值得研究的方向(1)就算法模型方面而言,需要有進(jìn)一步的突破。聲學(xué)模型和語言模型是聽寫識別 的基礎(chǔ)。目前使用的語言模型只是一種概率模型,還沒有用到以語言學(xué)為基礎(chǔ)的文法模型, 而要使計算機確實理解人類的語言,就必須在這一點上取得進(jìn)展。(2)語音識別的自適應(yīng)性也有待進(jìn)一步改進(jìn)。同一個音節(jié)或單詞的語音不僅對隨著 的講話者的不同而變化,而且對同一個講話者在不同場合不同上下文環(huán)境中也會發(fā)生變化。 這意味著對語言模型的進(jìn)一步改進(jìn)。(3)語音識別技術(shù)還需要能排除各種環(huán)境因素的影響。目前,對語音識別效果影響 最大的就是環(huán)境雜音或噪音。要在嘈雜環(huán)境中使用語音識別技術(shù)必須有特殊的抗噪麥
11、克風(fēng) 才能進(jìn)行,這對多數(shù)用戶來說是不現(xiàn)實的。在公共場合中,如何讓語音識別技術(shù)能有摒棄 環(huán)境嗓音并從中獲取所需要的特定聲音是一個艱巨的任務(wù)。雖然在短期內(nèi)還不可能造出具有和人相比擬的語音識別系統(tǒng),但在未來幾年內(nèi),語音 識別系統(tǒng)的應(yīng)用將更加廣泛,各種語音識別系統(tǒng)產(chǎn)品將陸續(xù)進(jìn)入我們的生活。語音識別各 個方面的技術(shù)正在不斷地進(jìn)步,一步步朝著更加智能化的方向發(fā)展。參考文獻(xiàn)1 楊尚國,楊金龍.語音識別技術(shù)概述J 福建電腦,2006 ,(8 ).2 孫寧,孫勁光,孫宇.基于神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)研究J.計算機與數(shù)字工程, 2006.3 Phil Woodland. Speech Recognition. Speech and Language Engineering-State of the Art (Ref. No. 1998/499).4 Morgan, N. Bourlard, H.A.Neural networ
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 課題代寫申報書是什么
- 課題申報評審書范例范文
- 就業(yè)心理 課題申報書
- 河南小學(xué)課題申報書范例
- 兌換房子合同范本
- 公司外匯借款合同范本
- 益智課堂課題研究申報書
- 閱讀推廣 課題申報書
- 課題申報項目書推廣價值
- 同城工程勞務(wù)合同范例
- 2024年浙江省煙草專賣局(公司)管理類崗位招聘筆試真題
- 廣東省惠州市惠東縣2022年小升初語文試卷(學(xué)生版+解析)
- 智能建筑監(jiān)理例會會議記錄
- 《數(shù)與形》(教學(xué)設(shè)計)-2024-2025學(xué)年六年級上冊數(shù)學(xué)人教版
- 政府審計 課件 第二章 政府審計組織與審計法律
- 常用血管活性藥物的應(yīng)用及護(hù)理
- 2025年云南省昆明國家高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)招聘合同聘用制專業(yè)技術(shù)人員47人歷年高頻重點模擬試卷提升(共500題附帶答案詳解)
- 農(nóng)機安全知識講座
- DeepSeek從入門到精通 -指導(dǎo)手冊
- 2025年九年級上冊道德與法治核心知識點梳理匯編
- 校長第一次全體教師會上發(fā)言:2025春季開學(xué)教師掌握這 6 詞教育之路暢通無阻
評論
0/150
提交評論