




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 中國(guó)地質(zhì)大學(xué)(武漢) 數(shù)字語音處理課程論文 語音識(shí)別技術(shù)淺析【摘要】語音識(shí)別是讓機(jī)器自動(dòng)識(shí)別和理解語音信號(hào),并把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù),語音識(shí)別作為信息技術(shù)中一種人機(jī)接口的關(guān)鍵技術(shù),具有重要的研究意義和廣泛的應(yīng)用價(jià)值。本文具體闡述了語音識(shí)別概念、語音識(shí)別原理、模式匹配算法等基本知識(shí),并簡(jiǎn)要介紹了語音識(shí)別技術(shù)在各領(lǐng)域的應(yīng)用?!娟P(guān)鍵詞】語音識(shí)別;語音識(shí)別概念;語音識(shí)別原理;模式匹配算法 Simple analysis of speech recognition technologyAbstract:Speech recognition is to make the machine
2、automatically identify and understand the speech signal, and transform the speech signal into a corresponding text or command, speech recognition as a key technology of human-computer interface in information technology, it has important research significance and broad application value. This paper
3、elaborates on the basic knowledge of speech recognition,such as concept ,basic principle ,the pattern matching algorithm ,and briefly introduces the application of speech recognition technology in all fields.Key words:speech recognition;recognition concept;recognition principle;pattern matching algo
4、rithm引言:語言是人類創(chuàng)造的,是人類區(qū)別于其他地球生命的本質(zhì)特征之一。語音是語言最本質(zhì)、最自然、最直接的表現(xiàn)形式或載體,是人類交流中最常用的工具。讓機(jī)器能夠聽懂人類語言,是人類夢(mèng)寐以求的理想。用語音實(shí)現(xiàn)人機(jī)交往主要包括3項(xiàng)技術(shù),即語音識(shí)別、自然語音理解和語音合成。作為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語音通信的技術(shù),語音識(shí)別技術(shù)在工業(yè)、交通、軍事、醫(yī)學(xué)、民用諸方面,特別是在計(jì)算機(jī)、信息處理、自動(dòng)控制、通信與電子系統(tǒng)等領(lǐng)域有著廣泛的應(yīng)用。如今,隨著語音識(shí)別技術(shù)研究的突破,其對(duì)計(jì)算機(jī)發(fā)展和社會(huì)生活的重要性日益凸現(xiàn)出來。1 語音識(shí)別概念 語音識(shí)別是將人類的聲音信號(hào)轉(zhuǎn)化為文字或者指令的過程。語音識(shí)別以
5、語音為研究對(duì)象,它是語音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支。語音識(shí)別的研究涉及微機(jī)技術(shù)、人工智能、數(shù)字信號(hào)處理、模式識(shí)別、聲學(xué)、語言學(xué)和認(rèn)知科學(xué)等許多學(xué)科領(lǐng)域,是一個(gè)多學(xué)科綜合性研究領(lǐng)域。 根據(jù)在不同限制條件下的研究任務(wù),產(chǎn)生了不同的研究領(lǐng)域。這些領(lǐng)域包括:根據(jù)對(duì)說話人說話方式的要求,可分為孤立字(詞)、連接詞和連續(xù)語音識(shí)別系統(tǒng);根據(jù)對(duì)說話人的依賴程度,可分為特定人和非特定人語音識(shí)別系統(tǒng);根據(jù)詞匯量的大小,可分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識(shí)別系統(tǒng)。 語音識(shí)別原理2.1 語音信號(hào)時(shí)域模型語音是由空氣流激勵(lì)聲道產(chǎn)生的。對(duì)于濁音、清音和爆破音三種不同類型的音來說,
6、激勵(lì)源是不同的。濁音激勵(lì)源是位于聲門處的準(zhǔn)周期脈沖序列,清音的激勵(lì)源是位于聲道的某個(gè)收縮區(qū)的空氣湍流(類似于噪聲),而爆破音的激勵(lì)源是位于聲道某個(gè)閉合點(diǎn)處建立起來的氣壓及其突然釋放。語音生成系統(tǒng)分為三個(gè)部分,在聲門(聲帶)以下,稱為聲門子系統(tǒng),它產(chǎn)生激勵(lì)振動(dòng),是激勵(lì)系統(tǒng):從聲門到嘴唇的呼氣通道是聲道系統(tǒng):語音從嘴唇輻射出去,所以嘴唇以外是輻射系統(tǒng)。因此,完整的語音信號(hào)的數(shù)學(xué)模型可以用三個(gè)子模型:激勵(lì)模型、聲道模型和輻射模型的串聯(lián)表示。語音信號(hào)產(chǎn)生的時(shí)域模型如圖1所示: 圖1 語音信號(hào)時(shí)域模型2.2 語音信號(hào)分析基礎(chǔ) 語音信號(hào)的分析主要有時(shí)域分析和頻域分析兩種,其他還有倒譜域分析等。語音信號(hào)是一
7、種典型的非平穩(wěn)信號(hào)。語音的形成過程與發(fā)音器官的運(yùn)動(dòng)密切相關(guān),這種物理運(yùn)動(dòng)比起聲音振動(dòng)速度來講要緩慢得多,因此語音信號(hào)可假定為短時(shí)平穩(wěn)的,其頻譜特性和某些物理參數(shù)在10-30ms時(shí)間段內(nèi)是近似不變的,對(duì)語音信號(hào)進(jìn)行處理都是基于這個(gè)假設(shè)。 語音信號(hào)的時(shí)域分析參數(shù)主要有短時(shí)能量、短時(shí)平均幅度、短時(shí)過零率等,這些參數(shù)主要用在語音端點(diǎn)檢測(cè)中。頻域分析參數(shù)主要有基音頻率、濾波器組參數(shù)、線性預(yù)測(cè)系數(shù)(LPC)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)、線譜對(duì)參數(shù)(LSP)、MEL頻率倒譜系數(shù)(MFCC)等。2.3 語音識(shí)別系統(tǒng)面對(duì)不同的任務(wù),語音識(shí)別系統(tǒng)有不同的設(shè)計(jì)方案,但是其模型思想和系統(tǒng)的結(jié)構(gòu)是大致相同的。其基本思
8、想為: 將語音信號(hào)加在識(shí)別系統(tǒng)的輸入端,首先進(jìn)行預(yù)處理,再根據(jù)人的語音特點(diǎn)建立語音模型,對(duì)輸入的語音信號(hào)進(jìn)行分析并抽取所需要的特征,在此基礎(chǔ)上建立語音識(shí)別所需要的模板。在識(shí)別過程中,要根據(jù)語音識(shí)別的模型,將計(jì)算集中存放的語音模板與輸入的語音信號(hào)的特征進(jìn)行比較,根據(jù)一定的搜索和匹配策略找出一系列最優(yōu)的與輸入語音匹配的模板,然后根據(jù)此模板的定義找出對(duì)應(yīng)的識(shí)別結(jié)果。語音識(shí)別系統(tǒng)結(jié)構(gòu)如圖2所示: 圖2 語音識(shí)別系統(tǒng)結(jié)構(gòu)2.3.1語音信號(hào)的數(shù)字化為了分析說話人的語音,就要將話筒中傳來的語音信號(hào)轉(zhuǎn)換成計(jì)算機(jī)所能處理的數(shù)字信號(hào)。通過對(duì)語音信號(hào)特性的分析表明,濁音語音的頻譜一般在4KHz以上便迅速下降。而清音
9、語音信號(hào)的頻譜在4KHz以上頻段反而呈上升趨勢(shì),甚至超過了8KHz以后仍沒有明顯下降的苗頭。實(shí)驗(yàn)表明語音清晰度和可懂度有明顯影響的成分最高頻率約為5.7KHz。而語音信號(hào)本身的冗余度又比較大,少數(shù)輔音清晰度下降并不明顯影響語句的可懂度。因此語音識(shí)別時(shí)常用的采樣頻率為10KHz或16KHz。2.3.2 語音信號(hào)的預(yù)處理語音信號(hào)中含有豐富的信息,預(yù)處理的目的就是要找到信號(hào)中語音開始和結(jié)束的位置,也就是需要對(duì)語音進(jìn)行端點(diǎn)檢測(cè)。有效的端點(diǎn)檢測(cè)不僅能使處理時(shí)間減到最小,而且能排除無聲段的噪聲干擾,從而使識(shí)別系統(tǒng)具有良好的識(shí)別性能。整個(gè)預(yù)處理過程分為以下3步:預(yù)加重,為了消除聲門激勵(lì)和口鼻輻射的影響,需要
10、對(duì)語音信號(hào)作預(yù)加重理。它的目的在于消除低頻干擾尤其是50Hz的工作頻率干擾,將對(duì)語音識(shí)別更為有用的高頻部分的頻譜進(jìn)行提升。使信號(hào)的頻譜變的平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析。預(yù)加重?cái)?shù)字濾波器一般是一階高通數(shù)字濾彼器。 語音分幀,語音信號(hào)常??杉俣槎虝r(shí)平穩(wěn)的,即在10-20ms這樣的時(shí)間段內(nèi),其頻譜特性和某些物理特征參量可近似地看作是不變的。這樣就可以采用平穩(wěn)過程的分析處理方法來處理了。這種處理的基本方法是將語音信號(hào)分隔為一些短段即分幀再加以處理。分幀可以采用連續(xù)分段的方法,也可采用交疊分段的方法。一般采用交疊分段的方法,即幀與幀之間有交疊,交疊的目的是
11、使幀與幀之間平滑過渡,保持其連續(xù)性。語音信號(hào)處理的幀長(zhǎng)一般取20ms,為了減小語音幀的截?cái)嘈?yīng),通常需要進(jìn)行加窗處理。語音信號(hào)的分幀示意圖如圖3所示: 圖3端點(diǎn)檢測(cè),端點(diǎn)檢測(cè)的目的就是從連續(xù)的聲音中間檢測(cè)出每一段語音的起始點(diǎn)和終止點(diǎn),從而達(dá)到節(jié)省系統(tǒng)資源,方便實(shí)時(shí)分析的效果。一種廣泛流行的行之有效的語音起止點(diǎn)的判別方法是所謂的兩級(jí)判決法。具體說,首先用短時(shí)能量作第一次判別,然后在此基礎(chǔ)上用短時(shí)平均過零率作第二次判別。2.3.3語音信號(hào)特征參數(shù)提取特征提取就是對(duì)語音信號(hào)進(jìn)行分析處理,去除對(duì)語音識(shí)別無關(guān)緊要的冗余信息,獲得語音信號(hào)中表征人的基本特征的信息。因此,特征信息必須能夠有效地區(qū)分不同的說話
12、人,且對(duì)同一說話人的變化保持相對(duì)穩(wěn)定。線性預(yù)測(cè)分析是最有效和廣泛的語音分析技術(shù)之一,其基本思想是: 語音信號(hào)采樣點(diǎn)之間存在相關(guān)性,可以用過去的若干采樣點(diǎn)或者它們的線性組合預(yù)測(cè)現(xiàn)在或?qū)淼臉狱c(diǎn)值??梢酝ㄟ^使實(shí)際語音采樣值和線性預(yù)測(cè)采樣值之間的均方誤差最小得到一組唯一的線性預(yù)測(cè)系數(shù)( LPC)。線性預(yù)測(cè)倒譜系數(shù)( LPCC) 是線性預(yù)測(cè)系數(shù)( LPC) 在倒譜域中的表示。該特征是基于語音信號(hào)為自回歸信號(hào)的假設(shè),利用線性預(yù)測(cè)分析獲得倒譜系數(shù)。LPCC參數(shù)的優(yōu)點(diǎn)是計(jì)算量小,易于實(shí)現(xiàn)。 模式匹配算法 目前針對(duì)各種特征參數(shù)提出的模式匹配方法的研究越來越深入。典型的方法有:矢量量化方法、高斯混合模型方法、隱
13、馬爾可夫模型方法、動(dòng)態(tài)時(shí)間規(guī)整( DTW)方法和人工神經(jīng)網(wǎng)絡(luò)方法。這些方法都有各自的優(yōu)點(diǎn)和缺點(diǎn)。其中DTW算法對(duì)于較長(zhǎng)語音的識(shí)別,模板匹配運(yùn)算量太大,但對(duì)短語音的識(shí)別既簡(jiǎn)單又有效,而且并不比其他方法識(shí)別率低,特別適用于短語音、與文本有關(guān)的說話人識(shí)別系統(tǒng),并能解決發(fā)音長(zhǎng)短不一的匹配問題,因此在孤立詞識(shí)別中既簡(jiǎn)單又有效。語音信號(hào)具有很強(qiáng)的隨機(jī)性,不同的發(fā)音習(xí)慣,發(fā)音時(shí)所處的環(huán)境不同,心情不同都會(huì)導(dǎo)致發(fā)音持續(xù)時(shí)間長(zhǎng)短不一的現(xiàn)象。如單詞最后的聲音帶上一些拖音,或者帶上一點(diǎn)呼吸音,此時(shí),由于拖音或呼吸音會(huì)被誤認(rèn)為一個(gè)音素,造成單詞的端點(diǎn)檢測(cè)不準(zhǔn),造成特征參數(shù)的變化,從而影響測(cè)度估計(jì),降低識(shí)別率,因此在語
14、音識(shí)別時(shí),首先有必要對(duì)語音信號(hào)進(jìn)行時(shí)間規(guī)整 。由于在此之前就已經(jīng)對(duì)語音信號(hào)進(jìn)行了加窗分幀,因此可以認(rèn)為每一個(gè)語音模板都可以用R = R(1),R(2) ,R(m) ,R(M) 來表示,其中,R(m) 為第m幀的語音特征矢量,M為總幀數(shù)。動(dòng)態(tài)時(shí)間規(guī)整是把時(shí)間規(guī)整和距離測(cè)度計(jì)算結(jié)合起來的一種非線性規(guī)整技術(shù)。假設(shè)測(cè)試和參考模板分別用T 和R 表示,為了比較它們之間的相似度,可以計(jì)算它們之間的距離D T,R,距離越小則相似度越高。為了計(jì)算這一失真距離,應(yīng)從T和R 中各個(gè)對(duì)應(yīng)幀之間的距離算起。在DTW算法中通常采用歐氏距離,設(shè)n 和m 分別是T 和R 中任意選擇的幀號(hào),則有: D T(n),R(m)=因
15、為一般情況下參考模板和待匹配模板的長(zhǎng)度不相等,MN,因此要考慮將T( n) 和R(m)對(duì)齊,對(duì)齊主要采用的是動(dòng)態(tài)規(guī)劃(DP)的方法。 將測(cè)試模板的各個(gè)幀號(hào)n=1 N在一個(gè)二維直角坐標(biāo)系中的橫軸上標(biāo)出,把參考模板的各幀號(hào)m=1 M在縱軸上標(biāo)出,通過這些表示幀號(hào)的整數(shù)坐標(biāo)畫出一些縱橫線即可形成一個(gè)網(wǎng)格,網(wǎng)格中的每一個(gè)交叉點(diǎn)( n,m) 表示測(cè)試模式中某一幀與訓(xùn)練模式中某一幀的交匯點(diǎn)。DP算法可以歸結(jié)為尋找一條通過此網(wǎng)格中若干格點(diǎn)的路徑,路徑通過的格點(diǎn)即為測(cè)試和參考模板中進(jìn)行距離計(jì)算的幀號(hào)。路徑不是隨意選擇的,所選的路徑必定是從左下角出發(fā),在右上角結(jié)束。DTW算法示意圖如圖4所示: 圖4傳統(tǒng)的DTW
16、算法雖然可以成功的應(yīng)用于小詞匯量語音識(shí)別,但是它并不是一種有效的利用統(tǒng)計(jì)方法進(jìn)行訓(xùn)練的算法,其主要缺點(diǎn)是模式匹配的運(yùn)算量太大。對(duì)于2個(gè)模式分別長(zhǎng)為M幀和N幀,其動(dòng)態(tài)規(guī)劃的總運(yùn)算次數(shù)為M* N 次才能找到時(shí)間彎折函數(shù)。當(dāng)幀長(zhǎng)度較長(zhǎng)以及進(jìn)行大詞匯量的孤立詞語音識(shí)別時(shí),這個(gè)問題就更加突出。因此,若希望該算法能順利移植到單片系統(tǒng)之上,必須對(duì)算法進(jìn)行改進(jìn)以便對(duì)計(jì)算量進(jìn)行限制。假設(shè)在匹配過程中路徑通過的所有格點(diǎn)依次為(n1,m1) ,( ni,mi) ,(nM,mN)。因?yàn)槠ヅ溥^程遵循路徑最短的原則,可以認(rèn)為,最短路徑一定不至于太過傾斜,因此,為了減少計(jì)算量,可以約束路徑的斜率在一定范圍之內(nèi)。這里采用02
17、之間,故若路徑已經(jīng)通過了點(diǎn)( ni,mi) ,那么它之前的點(diǎn)只可能是(ni- 1,mi) ,(ni -1,mi -1)和(ni-1,mi-2) 之間的一個(gè)。如圖5所示: 圖5這樣,匹配過程中許多格點(diǎn)實(shí)際上是達(dá)不到的,因?yàn)槊恳涣懈鞲顸c(diǎn)上的匹配計(jì)算只用到了前一列的3個(gè)網(wǎng)格,可以大大縮短匹配中的計(jì)算量。設(shè)dT( ni) ,R(mi)表示兩幀之間的距離,有:D( ni,mi) = dT(ni) ,R(mi)+D(ni-1,mi-1),D(ni-1,mi-1)= minD(ni-1,mi),D(ni-1,mi-1) ,D(ni-1,mi-2),按照此種算法計(jì)算出的最小累計(jì)距離的路徑即為最佳路徑。 語音識(shí)
18、別技術(shù)的應(yīng)用語音識(shí)別技術(shù)有著非常廣泛的應(yīng)用領(lǐng)域和市場(chǎng)前景。在語音輸入控制系統(tǒng)中,它使得人們可以甩掉鍵盤,通過識(shí)別語音中的要求、請(qǐng)求、命令或詢問來作出正確的響應(yīng),這樣既可以克服人工鍵盤輸入速度慢,極易出差錯(cuò)的缺點(diǎn),又有利于縮短系統(tǒng)的反應(yīng)時(shí)間,使人機(jī)交流變得簡(jiǎn)便易行,比如用于聲控語音撥號(hào)系統(tǒng)、聲控智能玩具、智能家電等領(lǐng)域。在智能對(duì)話查詢系統(tǒng)中,人們通過語音命令,可以方便地從遠(yuǎn)端的數(shù)據(jù)庫(kù)系統(tǒng)中查詢與提取有關(guān)信息,享受自然、友好的數(shù)據(jù)庫(kù)檢索服務(wù),例如信息網(wǎng)絡(luò)查詢、醫(yī)療服務(wù)、銀行服務(wù)等。語音識(shí)別技術(shù)還可以應(yīng)用于自動(dòng)口語翻譯,即通過將口語識(shí)別技術(shù)、機(jī)器翻譯技術(shù)、語音合成技術(shù)等相結(jié)合,可將一種語言的語音輸入翻譯為另一種語言的語音輸出,實(shí)現(xiàn)跨語言交流。語音識(shí)別技術(shù)在軍事斗爭(zhēng)領(lǐng)域里也有著極為重要的應(yīng)用價(jià)值和極其廣闊的應(yīng)用空間。一些語音識(shí)別技術(shù)就是著眼于軍事活動(dòng)而研發(fā),并在軍事領(lǐng)域首先應(yīng)用、首獲成效的,軍事應(yīng)用對(duì)語音識(shí)別系統(tǒng)的識(shí)別精度、響應(yīng)時(shí)間、惡劣環(huán)境下的頑健性都提出了更高的要求。目前,語音識(shí)別技術(shù)已在軍事指揮和控制自動(dòng)化方面得以應(yīng)用。比如,將語音識(shí)別技術(shù)應(yīng)用于航空飛行控制,可快速提高作戰(zhàn)效率和減輕飛行員的工作負(fù)擔(dān),飛行員利用語音輸入來代替?zhèn)鹘y(tǒng)的手動(dòng)操作和控制各種開關(guān)和設(shè)備,以及重新改編或排列顯示器上的顯示信息等,可使飛行員把時(shí)間和精力集中于對(duì)攻擊目標(biāo)的判斷和完成
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45141-2025反滲透進(jìn)水修正污染指數(shù)測(cè)定方法
- 別墅清包工合同范本
- 醫(yī)院合資合同范本
- 農(nóng)藥合同范本
- 勞保買賣合同范本
- 二手房出售門面房合同范本
- 水槽代工合同范本
- 醫(yī)院信息咨詢合同范本
- 主體沉降觀測(cè)合同范本
- 單個(gè)產(chǎn)品銷售合同范本
- 悟哪吒精神做英雄少年開學(xué)第一課主題班會(huì)課件-
- 2025年2級(jí)注冊(cè)計(jì)量師專業(yè)實(shí)務(wù)真題附答案
- 2025年P(guān)EP人教版小學(xué)三年級(jí)英語下冊(cè)全冊(cè)教案
- 2025年春季學(xué)期教導(dǎo)處工作計(jì)劃及安排表
- 果實(shí)品質(zhì)評(píng)價(jià)體系建立與應(yīng)用-深度研究
- 2024年江蘇省中小學(xué)生金鑰匙科技競(jìng)賽(高中組)考試題庫(kù)(含答案)
- 智能制造技術(shù)在工業(yè)設(shè)計(jì)中的應(yīng)用
- 2025年湖南高速鐵路職業(yè)技術(shù)學(xué)院高職單招高職單招英語2016-2024年參考題庫(kù)含答案解析
- 2024年湖南省公務(wù)員錄用考試《行測(cè)》真題及答案解析
- 人教版小學(xué)六年級(jí)下冊(cè)音樂教案全冊(cè)
- 12J201平屋面建筑構(gòu)造圖集(完整版)
評(píng)論
0/150
提交評(píng)論