語(yǔ)音識(shí)別及其關(guān)鍵技術(shù)

上傳人：s*** IP屬地：天津上傳時(shí)間：2021-12-21 格式：DOCX 頁(yè)數(shù)：7 大?。?2.03KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩2頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、語(yǔ)音識(shí)別及其關(guān)鍵技術(shù)一、語(yǔ)音識(shí)別概述語(yǔ)音識(shí)別技術(shù)以語(yǔ)音信號(hào)處理為研究對(duì)象，涉及語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、信號(hào)處理、生理學(xué)、心理學(xué)等諸多領(lǐng)域，是模式識(shí)別的重要分支。該技術(shù)有非常廣闊的應(yīng) 用前景，從6。年代至今，世界許多著名公司不惜投入巨資進(jìn)行開(kāi)發(fā)研究。我國(guó)的北京大學(xué)和中科院聲學(xué)研究所一直緊跟國(guó)際水平，進(jìn)行漢語(yǔ)語(yǔ)音識(shí)別技術(shù)的研究工作。5 0年代，是語(yǔ)音識(shí)別研究工作的開(kāi)始時(shí)期，它以貝爾實(shí)驗(yàn)室研制成功可識(shí)別十個(gè)數(shù)字的培姓狄狂呢系統(tǒng)為標(biāo)志。6 0年代，計(jì)算機(jī)廣泛應(yīng)用于語(yǔ)音識(shí)別的研究工作中，動(dòng)態(tài)規(guī)劃和線性預(yù)測(cè)分析技術(shù)是這一時(shí)期的重要成果。7 0年代，語(yǔ)音識(shí) 別的研究取得了突破性進(jìn)展?；诰€性預(yù)測(cè)倒譜和

2、動(dòng)態(tài)時(shí)間規(guī)整技術(shù)的特定人孤立語(yǔ)音識(shí)別系統(tǒng)被研制成功，提出了矢量量化和隱馬爾可夫模型理論。8 0年代，語(yǔ) 音識(shí)別的研究工作進(jìn)一步深入。其標(biāo)志是人工神經(jīng)元網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的成功應(yīng)用。9 0年代，隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展，語(yǔ)音識(shí)別正從研究走向?qū)嵱茫溲芯砍?果已達(dá)到相當(dāng)高的水平。2 0 0 0年，正象美國(guó)微軟公司總裁所說(shuō)的那樣，語(yǔ)音識(shí) 別技術(shù)將使計(jì)算機(jī)丟掉鍵盤(pán)和鼠標(biāo)。這無(wú)疑將改變我們?cè)S多人的工作和生活方式。二、語(yǔ)音識(shí)別所面臨的問(wèn)題盡管語(yǔ)音識(shí)別的研究工作迄今已近5。年，但仍未有突破性進(jìn)展，主要原因如下：十種方言，同種語(yǔ)言的不同方言在語(yǔ)音上相差懸殊，這樣，隨著語(yǔ)言環(huán)境的改變，系統(tǒng)性能會(huì)變得很差。

3、2 .在強(qiáng)噪聲干擾環(huán)境下語(yǔ)音識(shí)別困難。由于語(yǔ)音數(shù)據(jù)大部分都是在接近理想的條件下采集的，語(yǔ)音識(shí)別的編碼方案在研制時(shí)都要在高保真設(shè)備上錄制語(yǔ)音，尤其要在無(wú)噪環(huán)境下錄音。然而，當(dāng)語(yǔ)音處理由實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用時(shí)，環(huán)境噪聲的存在所帶來(lái)的問(wèn)題就變得越來(lái)越重要。特別是線性預(yù)測(cè)作為語(yǔ)音處理技術(shù)中最有效的手段，恰恰是最容易受噪聲影響的。3 .體態(tài)語(yǔ)言難以識(shí)別。有人在講話時(shí)習(xí)慣用眼神、手勢(shì)、面部表情等動(dòng)作協(xié)助表達(dá)自己的思想。由于這種體態(tài)語(yǔ)言的含義與個(gè)人習(xí)慣、文化背景、宗教信仰及生存地域等因素有關(guān)，其信息提取非常困難。4 .對(duì)于？類(lèi)由中樞神經(jīng)控制的？憶機(jī)理、聽(tīng)覺(jué)理解機(jī)理、聯(lián)想判斷機(jī)理等人們目前仍知之甚少。三、語(yǔ)音

4、識(shí)別系統(tǒng)語(yǔ)音識(shí)別系統(tǒng)的分類(lèi)方式及依據(jù)如下：？根據(jù)對(duì)說(shuō)話人說(shuō)話方式的要求，可分為孤立詞語(yǔ)音識(shí)別系統(tǒng)，連接詞語(yǔ)音識(shí)別系統(tǒng)和連續(xù)語(yǔ)音識(shí)別系統(tǒng)。？根據(jù)對(duì)說(shuō)話人的依賴(lài)程度，可分為特定人語(yǔ)音識(shí)別系統(tǒng)和非特定人語(yǔ)音識(shí)別系統(tǒng)。？根據(jù)詞匯量大小，可分為小詞匯量、中等詞匯量、大詞匯量及無(wú)限詞匯量語(yǔ)音識(shí)別系統(tǒng)。1 .孤立單詞識(shí)別系統(tǒng)孤立單詞指單詞之間有停頓，這可使識(shí)別問(wèn)題大為簡(jiǎn)化。因?yàn)閱卧~的端點(diǎn)檢測(cè)(即檢測(cè)單詞的起點(diǎn)和終點(diǎn))比較容易，而且單詞之間的協(xié)同發(fā)音影響可減至最低。此外，一般對(duì)孤立單詞發(fā)音比較認(rèn)真，由于單詞之間必須有停頓，讀起來(lái)就不能太流利。鑒于以上原因，孤立單詞識(shí)別系統(tǒng)存在的問(wèn)題最少，其許多技術(shù)可以

5、用于單詞挑選和連續(xù)語(yǔ)音識(shí)別系統(tǒng)。2 .連續(xù)語(yǔ)音識(shí)別系統(tǒng)連續(xù)語(yǔ)音識(shí)別系統(tǒng)有兩個(gè)重要問(wèn)題是孤立單詞識(shí)別系統(tǒng)所沒(méi)有的：(1 )切分，即對(duì)單詞之間邊界位置的確定。因?yàn)檎Z(yǔ)言中短語(yǔ)的數(shù)量太大，對(duì)整個(gè)短語(yǔ)進(jìn)行識(shí)別顯然是不可能的，必須把輸入的語(yǔ)流切分為更小的組成部分。這就要求系統(tǒng)必須能夠識(shí)別單詞之間的邊界。這一點(diǎn)比較困難，因?yàn)榇_定單詞之間的邊界位置沒(méi)有現(xiàn)成的方法。(2)發(fā)音變化，即關(guān)聯(lián)語(yǔ)言的發(fā)音比孤立單詞發(fā)音更隨便，受協(xié)同發(fā)音的影響更為嚴(yán)重。解決上述問(wèn)題通常采用擴(kuò)展動(dòng)態(tài)時(shí)間規(guī)整技術(shù)。3 .語(yǔ)音理解系統(tǒng)語(yǔ)音理解一詞出自美國(guó)遠(yuǎn)景研究計(jì)劃局資助的一個(gè)龐大的連續(xù)語(yǔ)音識(shí)別研究項(xiàng)目，其目標(biāo)稱(chēng)為語(yǔ)音理解系統(tǒng)。眾所周知

6、，只有人才能很好地識(shí)別語(yǔ)音，因?yàn)槿藢?duì)語(yǔ)音有廣泛的知識(shí)，人對(duì)要說(shuō)的話有預(yù)見(jiàn)性和感知分析能力 ,因此，指望機(jī)器對(duì)語(yǔ)言的識(shí)別能力超過(guò)人是不現(xiàn)實(shí)的，最好的辦法是使機(jī)器也能理解”語(yǔ)言，并且能象人一樣運(yùn)用這種理解力。由于在人工智能領(lǐng)域?qū)χR(shí)的應(yīng)用和知識(shí)的表示問(wèn)題更加感性趣，這對(duì)語(yǔ)音識(shí)別來(lái)說(shuō)無(wú)疑是有力地鼓舞。運(yùn)用這種理解力可以指望系統(tǒng)：(1)能排除噪聲和嘈雜聲(即含糊不清或無(wú)關(guān)的語(yǔ)言)；(2)能理解上下文的意思并能用它來(lái)糾正錯(cuò)誤，澄清不確定的語(yǔ)義；(3)能夠處理不合語(yǔ)法或不完整的語(yǔ)句。由此看來(lái)，語(yǔ)音理解系統(tǒng)的主要問(wèn)題是知識(shí)的表示和系統(tǒng)的組織問(wèn)題。與其它語(yǔ)音處理問(wèn)題相比，該系統(tǒng)更加依賴(lài)于人工智能研究。四、

7、語(yǔ)音識(shí)別的關(guān)鍵技術(shù)語(yǔ)音識(shí)別的關(guān)鍵技術(shù)包括特征參數(shù)提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)、語(yǔ)音識(shí)別單元選取。1 .特征參數(shù)提取技術(shù)所謂特征參數(shù)提取，就是從語(yǔ)言信號(hào)中提取用于語(yǔ)音識(shí)別的有用信息。研究人員已對(duì)許多可以表征說(shuō)話人個(gè)人特征的語(yǔ)音特征進(jìn)行了探討，大多數(shù)特征選取方案不是試圖集中在聲道構(gòu)造的個(gè)體差異方面，就是試圖集中在說(shuō)話習(xí)慣的個(gè)人特征方面。特征參數(shù)提取所考慮的參數(shù)為：(1 )單詞中選定位置上的基音；(2 )鼻輔音的頻譜特性；(3 )選定元音的頻譜特性；(4)激勵(lì)頻譜的估計(jì)斜率；(5 )擦音的頻譜特性；(6)選定元音的時(shí)長(zhǎng)；(7)選定語(yǔ)言環(huán)？中提前發(fā)聲的存在。采用試驗(yàn)句進(jìn)行錄音時(shí)所考慮的特征參

8、數(shù)為：(1 )元音的共振峰頻率和共振峰帶寬以及聲門(mén)源的極點(diǎn)(由1 2階線性預(yù)測(cè)分析來(lái)計(jì)算)； (2 )鼻輔音中極點(diǎn)頻率的位置；(3 )選定實(shí)驗(yàn)句的基音輪廓;(4)時(shí)變特性，尤其是在復(fù)合？音的整個(gè)發(fā)音期間和音位的收尾階段第二共振峰的變化率。線性預(yù)測(cè)分析是應(yīng)用較廣的特征參數(shù)提取技術(shù)，其核心是由信號(hào)的過(guò)去值預(yù)測(cè)其將來(lái)值。線性預(yù)測(cè)的概念早在本世紀(jì)4。年代就已被提出，然而將其應(yīng)用于語(yǔ)音識(shí)別，不僅希望利用其預(yù)測(cè)功能，而且要求它為我們提供一個(gè)非常好的聲道模型，而這樣的聲道模型對(duì)于理論研究和實(shí)際應(yīng)用都是相當(dāng)有用的。此外，聲道模型的優(yōu) 良性能不僅意味著線性預(yù)測(cè)是語(yǔ)音編碼的特別合適的編碼方法，而且意味著預(yù)測(cè)參

9、數(shù)是語(yǔ)音識(shí)別的非常重要的信息來(lái)源。2 .模式匹配及模型訓(xùn)練技術(shù)模式匹配是指根據(jù)一定準(zhǔn)則，使未知模式與模型庫(kù)中某一模型獲得最佳匹配。模型訓(xùn)練是指按照一定準(zhǔn)則，從大量已知模式中提取表示該模式特征的模型參數(shù)。語(yǔ)音識(shí)別所應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)有：動(dòng)態(tài)時(shí)間規(guī)整技術(shù)、隱馬爾克夫模型、人工神經(jīng)網(wǎng)絡(luò)。時(shí)間規(guī)整即時(shí)間校正，是把一個(gè)單詞內(nèi)的時(shí)變特征變?yōu)橐恢碌倪^(guò)程。HMM是把未知量均勻地伸長(zhǎng)或縮短，直到它與參考模式的長(zhǎng)度一致時(shí)為止。在時(shí)間規(guī)整過(guò)程中，未知單詞的時(shí)間軸要不均勻地扭曲或彎折，以便使其特征與模型特征對(duì)正。HMM是一種非常有力的對(duì)正措施，對(duì)提高系統(tǒng)的識(shí)別精度極為有效。HMM是語(yǔ)言信號(hào)時(shí)變特征的參數(shù)表示

10、法，由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過(guò)程共同描述信號(hào)的統(tǒng)計(jì)特性。模型參數(shù)包括HMM拓?fù)浣Y(jié)構(gòu)，狀態(tài)轉(zhuǎn)移概率和描述觀察符號(hào)統(tǒng)計(jì)特性的一組隨機(jī)函數(shù)。HMM的性能在很多應(yīng)用中都可以和DTW相比，而計(jì)算代價(jià)只有后者的幾分之一。采用這種技術(shù)，我們要以一個(gè)只具有有限不同狀態(tài)的系統(tǒng)作為語(yǔ)音生成模型。每個(gè)狀態(tài)皆可產(chǎn)生有限個(gè)輸出。在生成一個(gè)單詞時(shí)，系統(tǒng)不斷地由一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài)，每一個(gè)狀態(tài)都產(chǎn)生一個(gè)輸出，直到整個(gè)單詞輸出完畢。狀態(tài)之間的轉(zhuǎn)移是隨機(jī)的，每一狀態(tài)下的輸出也是隨機(jī)的。由于允許隨機(jī)轉(zhuǎn)移和隨機(jī)輸出，所以HMM能適應(yīng)發(fā)音的各種微妙變化。在識(shí)別詞表中，每一個(gè)單詞都要用一個(gè)這樣的模型來(lái)表示。識(shí)別器要做的工作就是輸出，識(shí)

11、別的任務(wù)就是決定由哪一個(gè)模型提供輸出。因?yàn)槟Ｐ捅旧韺?duì)識(shí)別器來(lái)說(shuō)是看不見(jiàn)的，它只能根據(jù)獲得的數(shù)據(jù)推導(dǎo)出來(lái)，故稱(chēng)為隱馬爾可夫模型。ANN在語(yǔ)音識(shí)別中的應(yīng)用是目前研究的熱點(diǎn)。該網(wǎng)絡(luò)本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng)，模擬了人類(lèi)大腦神經(jīng)元活動(dòng)的基本原理，具有學(xué)習(xí)、記憶判斷、聯(lián)想、對(duì)比、推理、概括等能力。與 HMM和ANN相比，DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù)，它應(yīng)用動(dòng)態(tài)規(guī)劃法成功地解決了在語(yǔ)音信號(hào)特征參數(shù)序列比較時(shí)時(shí)長(zhǎng)不等的難題，在孤立詞語(yǔ)音識(shí)別中獲得了良好的性能。但由于它不適合連續(xù)語(yǔ)音大詞匯量語(yǔ)音識(shí)別系統(tǒng)，目前已被 HMM和ANN所代替。語(yǔ)音識(shí)別單元的選取是語(yǔ)音識(shí)別研究工作很重要的第一步，語(yǔ)音識(shí)別單元有單詞、音節(jié)、音素三種，具體選哪種，由研究任務(wù)決定。單詞單元適用于中小詞匯語(yǔ) 音識(shí)別系統(tǒng)，不適合于大詞匯系統(tǒng)。因?yàn)辇嫶蟮哪Ｐ蛶?kù)意味著繁重的模型訓(xùn)練任務(wù) 和復(fù)雜的模型匹配算法，這難以滿足實(shí)時(shí)性要求。音節(jié)單元多見(jiàn)于漢語(yǔ)識(shí)別，主要因?yàn)闈h語(yǔ)是單音節(jié)結(jié)構(gòu)的語(yǔ)言，而英語(yǔ)等語(yǔ)言是多音節(jié)。如果不考慮聲調(diào)的話，漢語(yǔ)大約有4 0。個(gè)音節(jié)，這個(gè)數(shù)量相對(duì)較少。所以，對(duì)于大詞匯量漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)而言，以音節(jié)為識(shí)別單元是較為合適的。

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

語(yǔ)音識(shí)別及其關(guān)鍵技術(shù)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

語(yǔ)音識(shí)別及其關(guān)鍵技術(shù)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔