語(yǔ)音識(shí)別及其關(guān)鍵技術(shù)_第1頁(yè)
語(yǔ)音識(shí)別及其關(guān)鍵技術(shù)_第2頁(yè)
語(yǔ)音識(shí)別及其關(guān)鍵技術(shù)_第3頁(yè)
語(yǔ)音識(shí)別及其關(guān)鍵技術(shù)_第4頁(yè)
語(yǔ)音識(shí)別及其關(guān)鍵技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、語(yǔ)音識(shí)別及其關(guān)鍵技術(shù)一、語(yǔ)音識(shí)別概述語(yǔ)音識(shí)別技術(shù)以語(yǔ)音信號(hào)處理為研究對(duì)象,涉及語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、信號(hào)處 理、生理學(xué)、心理學(xué)等諸多領(lǐng)域,是模式識(shí)別的重要分支。該技術(shù)有非常廣闊的應(yīng) 用前景,從6。年代至今,世界許多著名公司不惜投入巨資進(jìn)行開(kāi)發(fā)研究。我國(guó)的 北京大學(xué)和中科院聲學(xué)研究所一直緊跟國(guó)際水平,進(jìn)行漢語(yǔ)語(yǔ)音識(shí)別技術(shù)的研究工 作。5 0年代,是語(yǔ)音識(shí)別研究工作的開(kāi)始時(shí)期,它以貝爾實(shí)驗(yàn)室研制成功可識(shí)別 十個(gè)數(shù)字的培姓狄狂呢系統(tǒng)為標(biāo)志。6 0年代,計(jì)算機(jī)廣泛應(yīng)用于語(yǔ)音識(shí)別的研究 工作中,動(dòng)態(tài)規(guī)劃和線性預(yù)測(cè)分析技術(shù)是這一時(shí)期的重要成果。7 0年代,語(yǔ)音識(shí) 別的研究取得了突破性進(jìn)展?;诰€性預(yù)測(cè)倒譜和

2、動(dòng)態(tài)時(shí)間規(guī)整技術(shù)的特定人孤立 語(yǔ)音識(shí)別系統(tǒng)被研制成功,提出了矢量量化和隱馬爾可夫模型理論。8 0年代,語(yǔ) 音識(shí)別的研究工作進(jìn)一步深入。其標(biāo)志是人工神經(jīng)元網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的成功應(yīng)用 。9 0年代,隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,語(yǔ)音識(shí)別正從研究走向?qū)嵱茫溲芯砍?果已達(dá)到相當(dāng)高的水平。2 0 0 0年,正象美國(guó)微軟公司總裁所說(shuō)的那樣,語(yǔ)音識(shí) 別技術(shù)將使計(jì)算機(jī)丟掉鍵盤(pán)和鼠標(biāo)。這無(wú)疑將改變我們?cè)S多人的工作和生活方式。 二、語(yǔ)音識(shí)別所面臨的問(wèn)題盡管語(yǔ)音識(shí)別的研究工作迄今已近5。年,但仍未有突破性進(jìn)展,主要原因如 下:十種方言,同種語(yǔ)言的不同方言在語(yǔ)音上相差懸殊,這樣,隨著語(yǔ)言環(huán)境的改變,系統(tǒng)性能會(huì)變得很差。

3、2 .在強(qiáng)噪聲干擾環(huán)境下語(yǔ)音識(shí)別困難。由于語(yǔ)音數(shù)據(jù)大部分都是在接近理想的條件下采集的,語(yǔ)音識(shí)別的編碼方案在研制時(shí)都要在高保真設(shè)備上錄制語(yǔ)音,尤其要在無(wú)噪環(huán)境下錄音。然而,當(dāng)語(yǔ)音處理由實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用時(shí),環(huán)境噪聲的存在所帶來(lái)的問(wèn)題就變得越來(lái)越重要。特別是線性預(yù)測(cè)作為語(yǔ)音處理技術(shù)中最有效 的手段,恰恰是最容易受噪聲影響的。3 .體態(tài)語(yǔ)言難以識(shí)別。有人在講話時(shí)習(xí)慣用眼神、手勢(shì)、面部表情等動(dòng)作協(xié)助表達(dá)自己的思想。由于這種體態(tài)語(yǔ)言的含義與個(gè)人習(xí)慣、文化背景、宗教信仰及生存地域等因素有關(guān),其信息提取非常困難。4 .對(duì)于?類(lèi)由中樞神經(jīng)控制的?憶機(jī)理、聽(tīng)覺(jué)理解機(jī)理、聯(lián)想判斷機(jī)理等人們目前仍知之甚少。三、語(yǔ)音

4、識(shí)別系統(tǒng)語(yǔ)音識(shí)別系統(tǒng)的分類(lèi)方式及依據(jù)如下:?根據(jù)對(duì)說(shuō)話人說(shuō)話方式的要求,可分為孤立詞語(yǔ)音識(shí)別系統(tǒng),連接詞語(yǔ)音識(shí)別系統(tǒng)和連續(xù)語(yǔ)音識(shí)別系統(tǒng)。?根據(jù)對(duì)說(shuō)話人的依賴(lài)程度,可分為特定人語(yǔ)音識(shí)別系統(tǒng)和非特定人語(yǔ)音識(shí)別系統(tǒng)。?根據(jù)詞匯量大小,可分為小詞匯量、中等詞匯量、大詞匯量及無(wú)限詞匯量語(yǔ)音識(shí)別 系統(tǒng)。1 .孤立單詞識(shí)別系統(tǒng)孤立單詞指單詞之間有停頓,這可使識(shí)別問(wèn)題大為簡(jiǎn)化。因?yàn)閱卧~的端點(diǎn)檢測(cè)(即檢測(cè)單詞的起點(diǎn)和終點(diǎn))比較容易,而且單詞之間 的協(xié)同發(fā)音影響可減至最低。此外,一般對(duì)孤立單詞發(fā)音比較認(rèn)真,由于單詞之間 必須有停頓,讀起來(lái)就不能太流利。鑒于以上原因,孤立單詞識(shí)別系統(tǒng)存在的問(wèn)題 最少,其許多技術(shù)可以

5、用于單詞挑選和連續(xù)語(yǔ)音識(shí)別系統(tǒng)。2 .連續(xù)語(yǔ)音識(shí)別系統(tǒng)連續(xù)語(yǔ)音識(shí)別系統(tǒng)有兩個(gè)重要問(wèn)題是孤立單詞識(shí)別系統(tǒng)所沒(méi)有的:(1 )切分,即對(duì)單詞之間邊界位置的確定。因?yàn)檎Z(yǔ)言中短語(yǔ)的數(shù)量太大,對(duì)整個(gè)短語(yǔ)進(jìn)行識(shí)別顯然是不可能的,必須把輸入的語(yǔ)流切分為更小的組成部分。這 就要求系統(tǒng)必須能夠識(shí)別單詞之間的邊界。這一點(diǎn)比較困難,因?yàn)榇_定單詞之間的 邊界位置沒(méi)有現(xiàn)成的方法。(2)發(fā)音變化,即關(guān)聯(lián)語(yǔ)言的發(fā)音比孤立單詞發(fā)音更隨便,受協(xié)同發(fā)音的影 響更為嚴(yán)重。解決上述問(wèn)題通常采用擴(kuò)展動(dòng)態(tài)時(shí)間規(guī)整技術(shù)。3 .語(yǔ)音理解系統(tǒng)語(yǔ)音理解一詞出自美國(guó)遠(yuǎn)景研究計(jì)劃局資助的一個(gè)龐大的連續(xù)語(yǔ)音識(shí)別研究項(xiàng)目,其目標(biāo)稱(chēng)為語(yǔ)音理解系統(tǒng)。眾所周知

6、,只有人才能很好 地識(shí)別語(yǔ)音,因?yàn)槿藢?duì)語(yǔ)音有廣泛的知識(shí),人對(duì)要說(shuō)的話有預(yù)見(jiàn)性和感知分析能力 ,因此,指望機(jī)器對(duì)語(yǔ)言的識(shí)別能力超過(guò)人是不現(xiàn)實(shí)的,最好的辦法是使機(jī)器也能理解”語(yǔ)言,并且能象人一樣運(yùn)用這種理解力。由于在人工智能領(lǐng)域?qū)χR(shí)的應(yīng)用和知識(shí)的表示問(wèn)題更加感性趣,這對(duì)語(yǔ)音識(shí)別來(lái)說(shuō)無(wú)疑是有力地鼓舞。運(yùn)用這種理解力可以指望系統(tǒng):(1)能排除噪聲和嘈雜聲(即含糊不清或無(wú)關(guān)的語(yǔ)言);(2)能理解上下文的意思并能用它來(lái)糾正錯(cuò)誤,澄清不確定的語(yǔ)義;(3)能夠處理不合語(yǔ)法或不完整的語(yǔ)句。由此看來(lái),語(yǔ)音理解系統(tǒng)的主要問(wèn)題是知識(shí)的表示 和系統(tǒng)的組織問(wèn)題。與其它語(yǔ)音處理問(wèn)題相比,該系統(tǒng)更加依賴(lài)于人工智能研究。四、

7、語(yǔ)音識(shí)別的關(guān)鍵技術(shù)語(yǔ)音識(shí)別的關(guān)鍵技術(shù)包括特征參數(shù)提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)、語(yǔ)音識(shí)別單元選 取。1 .特征參數(shù)提取技術(shù)所謂特征參數(shù)提取,就是從語(yǔ)言信號(hào)中提取用于語(yǔ)音識(shí)別的有用信息。研究人員已對(duì)許多可以表征說(shuō)話人個(gè)人特征的語(yǔ)音特征進(jìn)行了探討,大多數(shù)特征選取方案不是試圖集中在聲道構(gòu)造的個(gè)體差異方面,就是試圖集中在說(shuō)話習(xí)慣的個(gè)人特征方面。特征參數(shù)提取所考慮的參數(shù)為:(1 )單詞中選定位置上的基音;(2 )鼻輔音的頻譜特性;(3 )選定元音的頻譜特性;(4)激勵(lì)頻譜的估計(jì)斜率;(5 )擦音的頻譜特性;(6)選定元音的時(shí)長(zhǎng);(7)選定語(yǔ)言環(huán)?中提前發(fā)聲的存在。采用試驗(yàn)句進(jìn)行錄音時(shí)所考慮的特征參

8、數(shù)為:(1 )元音的共振峰頻率和共振峰帶寬以及聲門(mén)源的極點(diǎn)(由1 2階線性預(yù)測(cè)分析來(lái)計(jì)算); (2 )鼻輔音中極點(diǎn)頻率的位置;(3 )選定實(shí)驗(yàn)句的基音輪廓;(4)時(shí)變特性,尤其是在復(fù)合 ?音的整個(gè)發(fā)音期間和音位的收尾階段第二共振峰的變化率。線性預(yù)測(cè)分析是應(yīng)用較廣的特征參數(shù)提取技術(shù),其核心是由信號(hào)的過(guò)去值預(yù)測(cè)其將來(lái)值。線性預(yù)測(cè)的概念早在本世紀(jì)4。年代就已被提出,然而將其應(yīng)用于語(yǔ)音識(shí)別,不僅希望利用其預(yù)測(cè)功能,而且要求它為我們提供一個(gè)非常好的聲道模型,而這樣的聲道模型對(duì)于理論研究和實(shí)際應(yīng)用都是相當(dāng)有用的。此外,聲道模型的優(yōu) 良性能不僅意味著線性預(yù)測(cè)是語(yǔ)音編碼的特別合適的編碼方法,而且意味著預(yù)測(cè)參

9、數(shù)是語(yǔ)音識(shí)別的非常重要的信息來(lái)源。2 .模式匹配及模型訓(xùn)練技術(shù)模式匹配是指根據(jù)一定準(zhǔn)則,使未知模式與模型庫(kù)中某一模型獲得最佳匹配。模型訓(xùn)練是指按照一定準(zhǔn)則,從大量已知模式中提取表示該模式特征的模型參數(shù)。語(yǔ)音識(shí)別所應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)有:動(dòng)態(tài)時(shí)間規(guī)整技術(shù)、隱馬爾克夫模型、人工神經(jīng)網(wǎng)絡(luò)。時(shí)間規(guī)整即時(shí)間校正,是把一個(gè)單詞內(nèi)的時(shí)變特征變?yōu)橐恢碌倪^(guò)程。HMM是把未知量均勻地伸長(zhǎng)或縮短,直到它與參考模式的長(zhǎng)度一致時(shí)為止。在時(shí)間規(guī)整過(guò)程中,未知單詞的時(shí)間軸要不均勻地扭曲或彎折,以便使其特征與模型特征對(duì)正。HMM是一種非常有力的對(duì)正措施,對(duì)提高系統(tǒng)的識(shí)別精度極為有效。HMM是語(yǔ)言信號(hào)時(shí)變特征的參數(shù)表示

10、法,由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過(guò)程共同描述信號(hào)的統(tǒng)計(jì)特性。模型參數(shù)包括HMM拓?fù)浣Y(jié)構(gòu),狀態(tài)轉(zhuǎn)移概率和描述觀察符號(hào)統(tǒng)計(jì)特性的一組隨機(jī)函數(shù)。HMM的性能在很多應(yīng)用中都可以和DTW相比,而計(jì)算代價(jià)只有后者的幾分之一。采用這種技術(shù),我們要以一個(gè)只具有有限不同狀態(tài)的系統(tǒng)作為語(yǔ)音生成模型。每個(gè)狀態(tài)皆可產(chǎn)生有限個(gè)輸出。在生成一個(gè)單詞時(shí),系統(tǒng)不斷地由一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài),每一個(gè)狀態(tài)都產(chǎn)生一個(gè)輸出,直到整個(gè)單詞輸出完畢。狀態(tài)之間的轉(zhuǎn)移是隨機(jī)的,每一狀態(tài)下的輸出也是隨機(jī)的。由于允許隨機(jī)轉(zhuǎn)移和隨機(jī)輸出,所以HMM能適應(yīng)發(fā)音的各種微妙變化。在識(shí)別詞表中,每一個(gè)單詞都要用一個(gè)這樣的模型來(lái)表示。識(shí)別器要做的工作就是輸出,識(shí)

11、別的任務(wù)就是決定由哪一個(gè)模型提供輸出。因?yàn)槟P捅旧韺?duì)識(shí)別器來(lái)說(shuō)是看不見(jiàn)的,它只能根據(jù)獲得的數(shù)據(jù)推導(dǎo)出來(lái),故稱(chēng)為隱馬爾可夫模型。ANN在語(yǔ)音識(shí)別中的應(yīng)用是目前研究的熱點(diǎn)。該網(wǎng)絡(luò)本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),模擬了人類(lèi)大腦神經(jīng)元活動(dòng)的基本原理,具有學(xué)習(xí)、記憶判斷、聯(lián)想、對(duì)比、推理、概括等能力。與 HMM和ANN相比,DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù),它應(yīng)用動(dòng)態(tài)規(guī)劃法成功地解決了在語(yǔ)音信號(hào)特征參數(shù)序列比較時(shí)時(shí)長(zhǎng)不等的難題,在孤立詞語(yǔ)音識(shí)別中獲得了良好的性能。但由于它不適合連續(xù)語(yǔ)音大詞匯量語(yǔ)音識(shí)別系統(tǒng),目前已被 HMM和ANN所代替。語(yǔ)音識(shí)別單元的選取是語(yǔ)音識(shí)別研究工作很重要的第一步,語(yǔ)音識(shí)別單元有單 詞、音節(jié)、音素三種,具體選哪種,由研究任務(wù)決定。單詞單元適用于中小詞匯語(yǔ) 音識(shí)別系統(tǒng),不適合于大詞匯系統(tǒng)。因?yàn)辇嫶蟮哪P蛶?kù)意味著繁重的模型訓(xùn)練任務(wù) 和復(fù)雜的模型匹配算法,這難以滿足實(shí)時(shí)性要求。音節(jié)單元多見(jiàn)于漢語(yǔ)識(shí)別,主要 因?yàn)闈h語(yǔ)是單音節(jié)結(jié)構(gòu)的語(yǔ)言,而英語(yǔ)等語(yǔ)言是多音節(jié)。如果不考慮聲調(diào)的話,漢 語(yǔ)大約有4 0。個(gè)音節(jié),這個(gè)數(shù)量相對(duì)較少。所以,對(duì)于大詞匯量漢語(yǔ)語(yǔ)音識(shí)別系 統(tǒng)而言,以音節(jié)為識(shí)別單元是較為合適的。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論