數(shù)字語音處理課程論文(共8頁)_第1頁
數(shù)字語音處理課程論文(共8頁)_第2頁
數(shù)字語音處理課程論文(共8頁)_第3頁
數(shù)字語音處理課程論文(共8頁)_第4頁
數(shù)字語音處理課程論文(共8頁)_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 中國地質(zhì)大學(xué)(武漢) 數(shù)字語音處理課程論文 語音(yyn)識別技術(shù)淺析【摘要(zhiyo)】語音(yyn)識別是讓機器自動識別和理解語音信號,并把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù),語音識別作為信息技術(shù)中一種人機接口的關(guān)鍵技術(shù),具有重要的研究意義和廣泛的應(yīng)用價值。本文具體闡述了語音識別概念、語音識別原理、模式匹配算法等基本知識,并簡要介紹了語音識別技術(shù)在各領(lǐng)域的應(yīng)用。【關(guān)鍵詞】語音識別;語音識別概念;語音識別原理;模式匹配算法 Simple analysis of speech recognition technologyAbstract:Speech recognition is to

2、make the machine automatically identify and understand the speech signal, and transform the speech signal into a corresponding text or command, speech recognition as a key technology of human-computer interface in information technology, it has important research significance and broad application v

3、alue. This paper elaborates on the basic knowledge of speech recognition,such as concept ,basic principle ,the pattern matching algorithm ,and briefly introduces the application of speech recognition technology in all fields.Key words:speech recognition;recognition concept;recognition principle;patt

4、ern matching algorithm引言:語言是人類創(chuàng)造的,是人類區(qū)別于其他地球生命的本質(zhì)特征之一。語音是語言最本質(zhì)、最自然、最直接的表現(xiàn)形式或載體,是人類交流中最常用的工具。讓機器能夠聽懂人類語言,是人類夢寐以求的理想。用語音實現(xiàn)人機交往主要包括3項技術(shù),即語音識別、自然語音理解和語音合成。作為智能計算機研究的主導(dǎo)方向和人機語音通信的技術(shù),語音識別技術(shù)在工業(yè)、交通、軍事、醫(yī)學(xué)、民用諸方面,特別是在計算機、信息處理、自動控制、通信與電子系統(tǒng)等領(lǐng)域有著廣泛的應(yīng)用。如今,隨著語音識別技術(shù)研究的突破,其對計算機發(fā)展和社會生活的重要性日益凸現(xiàn)出來。1 語音識別概念 語音識別是將人類的聲音信號轉(zhuǎn)

5、化為文字或者指令的過程。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支。語音識別的研究涉及微機技術(shù)、人工智能、數(shù)字信號處理、模式識別、聲學(xué)、語言學(xué)和認知科學(xué)等許多學(xué)科領(lǐng)域,是一個多學(xué)科綜合性研究領(lǐng)域。 根據(jù)在不同限制條件下的研究任務(wù),產(chǎn)生了不同的研究領(lǐng)域。這些領(lǐng)域包括(boku):根據(jù)對說話人說話方式的要求,可分為孤立字(詞)、連接詞和連續(xù)語音識別系統(tǒng);根據(jù)對說話人的依賴程度,可分為特定人和非特定人語音識別系統(tǒng);根據(jù)詞匯量的大小,可分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統(tǒng)。 語音(yyn)識別原理2.1 語音信號(xnho)時域模型語音是

6、由空氣流激勵聲道產(chǎn)生的。對于濁音、清音和爆破音三種不同類型的音來說,激勵源是不同的。濁音激勵源是位于聲門處的準(zhǔn)周期脈沖序列,清音的激勵源是位于聲道的某個收縮區(qū)的空氣湍流(類似于噪聲),而爆破音的激勵源是位于聲道某個閉合點處建立起來的氣壓及其突然釋放。語音生成系統(tǒng)分為三個部分,在聲門(聲帶)以下,稱為聲門子系統(tǒng),它產(chǎn)生激勵振動,是激勵系統(tǒng):從聲門到嘴唇的呼氣通道是聲道系統(tǒng):語音從嘴唇輻射出去,所以嘴唇以外是輻射系統(tǒng)。因此,完整的語音信號的數(shù)學(xué)模型可以用三個子模型:激勵模型、聲道模型和輻射模型的串聯(lián)表示。語音信號產(chǎn)生的時域模型如圖1所示: 圖1 語音信號時域模型2.2 語音信號分析基礎(chǔ) 語音信號的

7、分析主要有時域分析和頻域分析兩種,其他還有倒譜域分析等。語音信號是一種典型的非平穩(wěn)信號。語音的形成過程與發(fā)音器官的運動密切相關(guān),這種物理運動比起聲音振動速度來講要緩慢得多,因此語音信號可假定為短時平穩(wěn)的,其頻譜特性和某些物理參數(shù)在10-30ms時間段內(nèi)是近似不變的,對語音信號進行處理都是基于這個假設(shè)。 語音信號的時域分析參數(shù)主要(zhyo)有短時能量、短時平均幅度、短時過零率等,這些參數(shù)主要用在語音端點檢測中。頻域分析參數(shù)主要有基音頻率、濾波器組參數(shù)、線性預(yù)測系數(shù)(LPC)、線性預(yù)測倒譜系數(shù)(LPCC)、線譜對參數(shù)(LSP)、MEL頻率倒譜系數(shù)(MFCC)等。2.3 語音(yyn)識別系統(tǒng)面對

8、不同的任務(wù),語音識別系統(tǒng)有不同的設(shè)計方案,但是其模型思想和系統(tǒng)的結(jié)構(gòu)是大致相同的。其基本思想為: 將語音信號加在識別系統(tǒng)的輸入端,首先進行預(yù)處理,再根據(jù)人的語音特點(tdin)建立語音模型,對輸入的語音信號進行分析并抽取所需要的特征,在此基礎(chǔ)上建立語音識別所需要的模板。在識別過程中,要根據(jù)語音識別的模型,將計算集中存放的語音模板與輸入的語音信號的特征進行比較,根據(jù)一定的搜索和匹配策略找出一系列最優(yōu)的與輸入語音匹配的模板,然后根據(jù)此模板的定義找出對應(yīng)的識別結(jié)果。語音識別系統(tǒng)結(jié)構(gòu)如圖2所示: 圖2 語音識別系統(tǒng)結(jié)構(gòu)2.3.1語音信號的數(shù)字化為了分析說話人的語音,就要將話筒中傳來的語音信號轉(zhuǎn)換成計算

9、機所能處理的數(shù)字信號。通過對語音信號特性的分析表明,濁音語音的頻譜一般在4KHz以上便迅速下降。而清音語音信號的頻譜在4KHz以上頻段反而呈上升趨勢,甚至超過了8KHz以后仍沒有明顯下降的苗頭。實驗表明語音清晰度和可懂度有明顯影響的成分最高頻率約為5.7KHz。而語音信號本身的冗余度又比較大,少數(shù)輔音清晰度下降并不明顯影響語句的可懂度。因此語音識別時常用的采樣頻率為10KHz或16KHz。2.3.2 語音信號的預(yù)處理語音信號中含有豐富的信息,預(yù)處理的目的就是要找到信號中語音開始和結(jié)束的位置,也就是需要對語音進行端點檢測。有效的端點檢測不僅能使處理時間減到最小,而且能排除無聲段的噪聲干擾,從而使

10、識別系統(tǒng)具有良好的識別性能。整個預(yù)處理過程分為以下3步:預(yù)加重,為了消除聲門激勵和口鼻輻射的影響,需要對語音信號作預(yù)加重理。它的目的在于消除低頻干擾尤其是50Hz的工作頻率干擾,將對語音識別更為有用的高頻部分的頻譜進行提升。使信號的頻譜變的平坦,保持在低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析。預(yù)加重數(shù)字濾波器一般是一階高通數(shù)字濾彼器。 語音分幀,語音信號常??杉俣槎虝r平穩(wěn)的,即在10-20ms這樣的時間段內(nèi),其頻譜特性和某些物理特征參量可近似地看作是不變的。這樣就可以采用平穩(wěn)過程的分析處理方法來處理了。這種處理的基本方法是將語音信號分隔為一些短段即分幀再加以處理。分幀可

11、以采用連續(xù)分段的方法,也可采用交疊分段的方法。一般采用交疊分段的方法,即幀與幀之間有交疊,交疊的目的(md)是使幀與幀之間平滑過渡,保持其連續(xù)性。語音信號處理的幀長一般取20ms,為了減小語音幀的截斷效應(yīng),通常需要進行加窗處理。語音信號的分幀示意圖如圖3所示: 圖3端點檢測,端點檢測的目的就是從連續(xù)的聲音中間檢測出每一段語音的起始點和終止點,從而達到(d do)節(jié)省系統(tǒng)資源,方便實時分析的效果。一種廣泛流行的行之有效的語音起止點的判別方法是所謂的兩級判決法。具體說,首先用短時能量作第一次判別,然后在此基礎(chǔ)上用短時平均過零率作第二次判別。2.3.3語音(yyn)信號特征參數(shù)提取特征提取就是對語音

12、信號進行分析處理,去除對語音識別無關(guān)緊要的冗余信息,獲得語音信號中表征人的基本特征的信息。因此,特征信息必須能夠有效地區(qū)分不同的說話人,且對同一說話人的變化保持相對穩(wěn)定。線性預(yù)測分析是最有效和廣泛的語音分析技術(shù)之一,其基本思想是: 語音信號采樣點之間存在相關(guān)性,可以用過去的若干采樣點或者它們的線性組合預(yù)測現(xiàn)在或?qū)淼臉狱c值??梢酝ㄟ^使實際語音采樣值和線性預(yù)測采樣值之間的均方誤差最小得到一組唯一的線性預(yù)測系數(shù)( LPC)。線性預(yù)測倒譜系數(shù)( LPCC) 是線性預(yù)測系數(shù)( LPC) 在倒譜域中的表示。該特征是基于語音信號為自回歸信號的假設(shè),利用線性預(yù)測分析獲得倒譜系數(shù)。LPCC參數(shù)的優(yōu)點是計算量小

13、,易于實現(xiàn)。 模式匹配算法 目前針對各種特征參數(shù)提出的模式匹配方法的研究越來越深入。典型的方法有:矢量量化方法、高斯混合模型方法、隱馬爾可夫模型方法、動態(tài)時間規(guī)整( DTW)方法和人工神經(jīng)網(wǎng)絡(luò)方法。這些方法都有各自的優(yōu)點和缺點。其中DTW算法對于較長語音的識別,模板匹配運算量太大,但對短語音的識別既簡單(jindn)又有效,而且并不比其他方法識別率低,特別適用于短語音、與文本有關(guān)的說話人識別系統(tǒng),并能解決發(fā)音長短不一的匹配問題,因此在孤立詞識別中既簡單又有效。語音信號具有很強的隨機性,不同的發(fā)音習(xí)慣,發(fā)音時所處的環(huán)境不同,心情不同都會導(dǎo)致發(fā)音持續(xù)時間長短不一的現(xiàn)象。如單詞最后的聲音帶上一些拖音

14、,或者帶上一點呼吸音,此時(c sh),由于拖音或呼吸音會被誤認為一個音素,造成單詞的端點檢測不準(zhǔn),造成特征參數(shù)的變化,從而影響測度估計,降低識別率,因此在語音識別時,首先有必要對語音信號進行時間規(guī)整 。由于在此之前就已經(jīng)對語音信號進行了加窗分幀,因此可以認為每一個(y )語音模板都可以用R = R(1),R(2) ,R(m) ,R(M) 來表示,其中,R(m) 為第m幀的語音特征矢量,M為總幀數(shù)。動態(tài)時間規(guī)整是把時間規(guī)整和距離測度計算結(jié)合起來的一種非線性規(guī)整技術(shù)。假設(shè)測試和參考模板分別用T 和R 表示,為了比較它們之間的相似度,可以計算它們之間的距離D T,R,距離越小則相似度越高。為了計算

15、這一失真距離,應(yīng)從T和R 中各個對應(yīng)幀之間的距離算起。在DTW算法中通常采用歐氏距離,設(shè)n 和m 分別是T 和R 中任意選擇的幀號,則有: D T(n),R(m)=因為一般情況下參考模板和待匹配模板的長度不相等,MN,因此要考慮將T( n) 和R(m)對齊,對齊主要采用的是動態(tài)規(guī)劃(DP)的方法。 將測試模板的各個幀號n=1 N在一個二維直角坐標(biāo)系中的橫軸上標(biāo)出,把參考模板的各幀號m=1 M在縱軸上標(biāo)出,通過這些表示幀號的整數(shù)坐標(biāo)畫出一些縱橫線即可形成一個網(wǎng)格,網(wǎng)格中的每一個交叉點( n,m) 表示測試模式中某一幀與訓(xùn)練模式中某一幀的交匯點。DP算法可以歸結(jié)為尋找一條通過此網(wǎng)格中若干格點的路徑

16、,路徑通過的格點即為測試和參考模板中進行距離計算的幀號。路徑不是隨意選擇的,所選的路徑必定是從左下角出發(fā),在右上角結(jié)束。DTW算法示意圖如圖4所示: 圖4傳統(tǒng)的DTW算法雖然可以成功的應(yīng)用于小詞匯量語音識別,但是它并不是一種有效的利用統(tǒng)計方法進行訓(xùn)練的算法,其主要缺點是模式匹配的運算量太大。對于2個模式分別長為M幀和N幀,其動態(tài)規(guī)劃的總運算次數(shù)為M* N 次才能(cinng)找到時間彎折函數(shù)。當(dāng)幀長度較長以及進行大詞匯量的孤立詞語音識別時,這個問題就更加突出。因此,若希望該算法能順利移植到單片系統(tǒng)之上,必須對算法進行改進以便對計算量進行限制。假設(shè)(jish)在匹配過程中路徑通過的所有格點依次為

17、(n1,m1) ,( ni,mi) ,(nM,mN)。因為匹配過程遵循(zn xn)路徑最短的原則,可以認為,最短路徑一定不至于太過傾斜,因此,為了減少計算量,可以約束路徑的斜率在一定范圍之內(nèi)。這里采用02之間,故若路徑已經(jīng)通過了點( ni,mi) ,那么它之前的點只可能是(ni- 1,mi) ,(ni -1,mi -1)和(ni-1,mi-2) 之間的一個。如圖5所示: 圖5這樣,匹配過程中許多格點實際上是達不到的,因為每一列各格點上的匹配計算只用到了前一列的3個網(wǎng)格,可以大大縮短匹配中的計算量。設(shè)dT( ni) ,R(mi)表示兩幀之間的距離,有:D( ni,mi) = dT(ni) ,R

18、(mi)+D(ni-1,mi-1),D(ni-1,mi-1)= minD(ni-1,mi),D(ni-1,mi-1) ,D(ni-1,mi-2),按照此種算法計算出的最小累計距離的路徑即為最佳路徑。 語音識別技術(shù)的應(yīng)用語音識別技術(shù)(jsh)有著非常廣泛的應(yīng)用領(lǐng)域和市場前景。在語音輸入控制系統(tǒng)中,它使得人們可以甩掉鍵盤,通過識別語音中的要求、請求、命令或詢問來作出正確的響應(yīng),這樣既可以克服人工鍵盤輸入速度慢,極易出差錯的缺點,又有利于縮短系統(tǒng)的反應(yīng)時間,使人機交流(jioli)變得簡便易行,比如用于聲控語音撥號系統(tǒng)、聲控智能玩具、智能家電等領(lǐng)域。在智能對話查詢系統(tǒng)中,人們通過語音命令,可以方便地

19、從遠端的數(shù)據(jù)庫系統(tǒng)中查詢與提取有關(guān)信息,享受自然、友好的數(shù)據(jù)庫檢索服務(wù),例如信息網(wǎng)絡(luò)查詢、醫(yī)療服務(wù)、銀行服務(wù)等。語音識別技術(shù)還可以應(yīng)用于自動口語翻譯,即通過將口語識別技術(shù)、機器翻譯技術(shù)、語音合成技術(shù)等相結(jié)合,可將一種語言的語音輸入翻譯為另一種語言的語音輸出,實現(xiàn)跨語言交流。語音識別技術(shù)在軍事斗爭領(lǐng)域里也有著極為重要的應(yīng)用價值和極其廣闊的應(yīng)用空間。一些語音識別技術(shù)就是著眼于軍事活動而研發(fā),并在軍事領(lǐng)域首先應(yīng)用、首獲成效的,軍事應(yīng)用對語音識別系統(tǒng)的識別精度、響應(yīng)時間、惡劣環(huán)境下的頑健性都提出了更高的要求。目前,語音識別技術(shù)已在軍事指揮和控制自動化方面得以應(yīng)用。比如,將語音識別技術(shù)應(yīng)用于航空飛行控制,可快速提高作戰(zhàn)效率和減輕飛行員的工作負擔(dān),飛行員利用語音輸入來代替?zhèn)鹘y(tǒng)的手動操作和控制各種開關(guān)和設(shè)備(shbi),以及重新改編或排列顯示器上的顯示信息等,可使飛行員把時間和精力集中于對攻擊目標(biāo)的判斷和完成其它操作上來,以便更快獲得信息來發(fā)揮戰(zhàn)術(shù)優(yōu)勢。 結(jié)語本文結(jié)合課本所學(xué)知識以及查閱相關(guān)資料對語音識別技術(shù)作了一個淺顯的分析,其中關(guān)鍵點在于模式匹配算法,這里主要介紹了動態(tài)時間規(guī)整(DTW)算法,并對傳統(tǒng)的DTW算法作了一定的改進。語音識別技術(shù)的研究工作對于信息化社會的發(fā)展,人們生活水平的提高等方面有著深遠的意義。隨著

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論