語(yǔ)音識(shí)別技術(shù)讀書(shū)報(bào)告-南郵-信息工程導(dǎo)論作業(yè)_第1頁(yè)
語(yǔ)音識(shí)別技術(shù)讀書(shū)報(bào)告-南郵-信息工程導(dǎo)論作業(yè)_第2頁(yè)
語(yǔ)音識(shí)別技術(shù)讀書(shū)報(bào)告-南郵-信息工程導(dǎo)論作業(yè)_第3頁(yè)
語(yǔ)音識(shí)別技術(shù)讀書(shū)報(bào)告-南郵-信息工程導(dǎo)論作業(yè)_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、語(yǔ)音識(shí)別技術(shù)讀書(shū)報(bào)告一、技術(shù)的產(chǎn)生和起源語(yǔ)音識(shí)別的研究工作大約開(kāi)始于50年代,當(dāng)時(shí)AT& T Bell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)Audry系統(tǒng)。60年代,計(jì)算機(jī)的應(yīng)用推動(dòng)了語(yǔ)音識(shí)別的發(fā)展。這時(shí)期的重要成果是提出了動(dòng)態(tài)規(guī)劃(DP)和線(xiàn)性預(yù)測(cè)分析技術(shù)(LP),其中后者較好地解決了語(yǔ)音信號(hào)產(chǎn)生模型的問(wèn)題,對(duì)語(yǔ)音識(shí)別的發(fā)展產(chǎn)生了深遠(yuǎn)影響。70年代,語(yǔ)音識(shí)別領(lǐng)域取得了突破。在理論上,LP技術(shù)得到進(jìn)一步發(fā)展,動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW)基本成熟,特別是提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。在實(shí)踐上,實(shí)現(xiàn)了基于線(xiàn)性預(yù)測(cè)倒譜和DTW技術(shù)的特定人孤立語(yǔ)音識(shí)別系統(tǒng)。80年代,

2、語(yǔ)音識(shí)別研究進(jìn)一步走向深入,其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語(yǔ)音識(shí)別中的成功應(yīng)用。HMM模型的廣泛應(yīng)用應(yīng)歸功于AT T Bell實(shí)驗(yàn)室Rabiner等科學(xué)家的努力,他們把原本艱澀的HMM純數(shù)學(xué)模型工程化,從而為更多研究者了解和認(rèn)識(shí)。ANN和HMM模型建立的語(yǔ)音識(shí)別系統(tǒng),性能相當(dāng)。進(jìn)入90年代,隨著多媒體時(shí)代的來(lái)臨,迫切要求語(yǔ)音識(shí)別系統(tǒng)從實(shí)驗(yàn)室走向?qū)嵱?。許多發(fā)達(dá)國(guó)家如美國(guó)、日本、韓國(guó)以及IBM、Apple、ATT、NTT等著名公司都為語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化開(kāi)發(fā)研究投以巨資。我國(guó)語(yǔ)音識(shí)別研究工作一直緊跟國(guó)際水平,國(guó)家也很重視,并把大詞匯量語(yǔ)音識(shí)別的研究列入“863”計(jì)劃,由中科院聲

3、學(xué)所、自動(dòng)化所及北京大學(xué)等單位研究開(kāi)發(fā)。鑒于中國(guó)未來(lái)龐大的市場(chǎng),國(guó)外也非常重視漢語(yǔ)語(yǔ)音識(shí)別的研究。美國(guó)、新加坡等地聚集了一批來(lái)自大陸、臺(tái)灣、香港等地的學(xué)者,研究成果已達(dá)到相當(dāng)高水平。因此,國(guó)內(nèi)除了要加強(qiáng)理論研究外,更要加快從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化。二、主要技術(shù)內(nèi)容與要點(diǎn)分析1語(yǔ)音識(shí)別的三種基本方法。基于語(yǔ)音學(xué)和聲學(xué)的方法該方法起步較早,在語(yǔ)音識(shí)別技術(shù)提出的開(kāi)始,就有了這方面的研究,但由于其模型及語(yǔ)音知識(shí)過(guò)于復(fù)雜,現(xiàn)階段沒(méi)有達(dá)到實(shí)用的階段。通常認(rèn)為常用語(yǔ)言中有有限個(gè)不同的語(yǔ)音基元,而且可以通過(guò)其語(yǔ)音信號(hào)的頻域或時(shí)域特性來(lái)區(qū)分。2模板匹配的方法模板匹配的方法發(fā)展比較成熟,目前已達(dá)到了實(shí)用階段。

4、在模板匹配方法中,要經(jīng)過(guò)四個(gè)步驟:特征提取、模板訓(xùn)練、模板分類(lèi)、判決。常用的技術(shù)有三種:動(dòng)態(tài)時(shí)間規(guī)整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術(shù)。1、動(dòng)態(tài)時(shí)間規(guī)整(DTW)語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)是進(jìn)行語(yǔ)音識(shí)別中的一個(gè)基本步驟,它是特征訓(xùn)練和識(shí)別的基礎(chǔ)。所謂端點(diǎn)檢測(cè)就是在語(yǔ)音信號(hào)中的各種段落(如音素、音節(jié)、詞素)的始點(diǎn)和終點(diǎn)的位置,從語(yǔ)音信號(hào)中排除無(wú)聲段。2、隱馬爾可夫法(HMM)隱馬爾可夫法(HMM)是70年代引入語(yǔ)音識(shí)別理論的,它的出現(xiàn)使得自然語(yǔ)音識(shí)別系統(tǒng)取得了實(shí)質(zhì)性的突破。HMM是對(duì)語(yǔ)音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型,將之看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過(guò)程:一個(gè)是用具有有限狀態(tài)數(shù)的Ma

5、rkov鏈來(lái)模擬語(yǔ)音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過(guò)程,另一個(gè)是與Markov鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過(guò)程。前者通過(guò)后者表現(xiàn)出來(lái),但前者的具體參數(shù)是不可測(cè)的。3、矢量量化(VQ)矢量量化(VectorQuantization)是一種重要的信號(hào)壓縮方法。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語(yǔ)音識(shí)別中。其過(guò)程是:將語(yǔ)音信號(hào)波形的k個(gè)樣點(diǎn)的每一幀,或有k個(gè)參數(shù)的每一參數(shù)幀,構(gòu)成k維空間中的一個(gè)矢量,然后對(duì)矢量進(jìn)行量化。核心思想可以這樣理解:如果一個(gè)碼書(shū)是為某一特定的信源而優(yōu)化設(shè)計(jì)的,那么由這一信息源產(chǎn)生的信號(hào)與該碼書(shū)的平均量化失真就應(yīng)小于其他信息的信號(hào)與該碼書(shū)的平均量化失真,

6、也就是說(shuō)編碼器本身存在區(qū)分能力。3神經(jīng)網(wǎng)絡(luò)的方法利用人工神經(jīng)網(wǎng)絡(luò)的方法是80年代末期提出的一種新的語(yǔ)音識(shí)別方法。人工神經(jīng)網(wǎng)絡(luò)(ANN)本質(zhì)上是一個(gè)自適應(yīng)非線(xiàn)性動(dòng)力學(xué)系統(tǒng),模擬了人類(lèi)神經(jīng)活動(dòng)的原理,具有自適應(yīng)性、并行性、魯棒性、容錯(cuò)性和學(xué)習(xí)特性,其強(qiáng)的分類(lèi)能力和輸入-輸出映射能力在語(yǔ)音識(shí)別中都很有吸引力。但由于存在訓(xùn)練、識(shí)別時(shí)間太長(zhǎng)的缺點(diǎn),目前仍處于實(shí)驗(yàn)探索階段。2.語(yǔ)音識(shí)別的分類(lèi)從說(shuō)話(huà)者與識(shí)別系統(tǒng)的相關(guān)性考慮可以將識(shí)別系統(tǒng)分為3類(lèi):(1)特定人語(yǔ)音識(shí)別系統(tǒng);(2)非特定人語(yǔ)音系統(tǒng) (3)多人的識(shí)別系統(tǒng)從說(shuō)話(huà)的方式考慮也可以將識(shí)別系統(tǒng)分為3類(lèi):(1)孤立詞語(yǔ)音識(shí)別系統(tǒng): (2)連接詞語(yǔ)音識(shí)別系統(tǒng)

7、:;(3)連續(xù)語(yǔ)音識(shí)別系統(tǒng)從識(shí)別系統(tǒng)的詞匯量大小考慮也可以將識(shí)別系統(tǒng)分為3類(lèi):(1)小詞匯量語(yǔ)音識(shí)別系統(tǒng)。 (2)中等詞匯量的語(yǔ)音識(shí)別系統(tǒng)。 (3)大詞匯量語(yǔ)音識(shí)別系統(tǒng)。3. 語(yǔ)音識(shí)別系統(tǒng)的結(jié)構(gòu)一個(gè)完整的基于統(tǒng)計(jì)的語(yǔ)音識(shí)別系統(tǒng)可大致分為三部分:(1)語(yǔ)音信號(hào)預(yù)處理與特征提取;(2)聲學(xué)模型與模式匹配;(3)語(yǔ)言模型與語(yǔ)言處理三、過(guò)去和現(xiàn)在的主要應(yīng)用目前世界各國(guó)都加快了語(yǔ)音識(shí)別應(yīng)用系統(tǒng)的研究開(kāi)發(fā),并已有一些實(shí)用的語(yǔ)音識(shí)別系統(tǒng)投入商業(yè)運(yùn)營(yíng)。在美國(guó)語(yǔ)音識(shí)別系統(tǒng)的銷(xiāo)售額逐年上升,由于使用了語(yǔ)音識(shí)別系統(tǒng),為企業(yè)贏得了巨額收入。比較典型而成功的語(yǔ)音識(shí)別系統(tǒng)有ATT于1992年開(kāi)發(fā)的VRCP系統(tǒng)。該系統(tǒng)是有

8、五個(gè)單詞(collect,person,third number,operator和calling card)的非特定人小詞匯量語(yǔ)音識(shí)別系統(tǒng),現(xiàn)已應(yīng)用于ATT通信網(wǎng)上,可以實(shí)現(xiàn)自動(dòng)話(huà)務(wù)員協(xié)助式呼叫,代替話(huà)務(wù)員完成五種呼叫類(lèi)型,即collect call受話(huà)人付費(fèi)電話(huà),命令字col1ectperson-person-call定人呼叫,命令字personthird-party-billing-call第三方付費(fèi)電話(huà),命令字third numberoperator-assisted call話(huà)務(wù)員協(xié)助呼叫,命令字operatorcredit card call信用卡呼叫,命令字calling car

9、d為使用戶(hù)使用方便,系統(tǒng)配有語(yǔ)音提示告訴用戶(hù)如何使用。該系統(tǒng)所具有的關(guān)鍵詞檢測(cè)技術(shù)可從句子中查找到五個(gè)命令字中的一個(gè),從而使用戶(hù)在講話(huà)時(shí)更加自然,如可以講“collect call please”,整個(gè)系統(tǒng)的正確識(shí)別率超過(guò)99。此外,已經(jīng)實(shí)用的系統(tǒng)還有AT T 800語(yǔ)音識(shí)別服務(wù)系統(tǒng),NTT ANSER語(yǔ)音識(shí)別銀行服務(wù)系統(tǒng),Northen Telecom股票價(jià)格行情系統(tǒng),使得原本手工操作的工作用語(yǔ)音就可方便地完成。四、今后的技術(shù)和應(yīng)用發(fā)展趨勢(shì)在電話(huà)與通信系統(tǒng)中,智能語(yǔ)音接口正在把電話(huà)機(jī)從一個(gè)單純的服務(wù)工具變成為一個(gè)服務(wù)的“提供者”和生活“伙伴”;使用電話(huà)與通信網(wǎng)絡(luò),人們可以通 過(guò)語(yǔ)音命令方便地

10、從遠(yuǎn)端的數(shù)據(jù)庫(kù)系統(tǒng)中查詢(xún)與提取有關(guān)的信息;隨著計(jì)算機(jī)的小型化,鍵盤(pán)已經(jīng)成為移動(dòng)平臺(tái)的一個(gè)很大障礙,想象一下如果手機(jī)僅僅只有一個(gè)手 表那么大,再用鍵盤(pán)進(jìn)行撥號(hào)操作已經(jīng)是不可能的。語(yǔ)音識(shí)別正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),語(yǔ)音識(shí)別技術(shù)與語(yǔ)音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤(pán), 通過(guò)語(yǔ)音命令進(jìn)行操作。語(yǔ)音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè)。 語(yǔ)音識(shí)別技術(shù)發(fā)展到今天,特別是中小詞匯量非特定人語(yǔ)音識(shí)別系統(tǒng)識(shí)別精度已經(jīng)大于98,對(duì)特定人語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度就更高。這些技術(shù)已經(jīng)能 夠滿(mǎn)足通常應(yīng)用的要求。由于大規(guī)模集成電路技術(shù)的發(fā)展,這些復(fù)雜的語(yǔ)音識(shí)別系統(tǒng)也已經(jīng)完全可以制成專(zhuān)用芯片,大量生產(chǎn)

11、。在西方經(jīng)濟(jì)發(fā)達(dá)國(guó)家,大量的語(yǔ)音識(shí) 別產(chǎn)品已經(jīng)進(jìn)入市場(chǎng)和服務(wù)領(lǐng)域。一些用戶(hù)交機(jī)、電話(huà)機(jī)、手機(jī)已經(jīng)包含了語(yǔ)音識(shí)別撥號(hào)功能,還有語(yǔ)音記事本、語(yǔ)音智能玩具等產(chǎn)品也包括語(yǔ)音識(shí)別與語(yǔ)音合成功 能。人們可以通過(guò)電話(huà)網(wǎng)絡(luò)用語(yǔ)音識(shí)別口語(yǔ)對(duì)話(huà)系統(tǒng)查詢(xún)有關(guān)的機(jī)票、旅游、銀行信息,并且取得很好的結(jié)果。調(diào)查統(tǒng)計(jì)表明多達(dá)85以上的人對(duì)語(yǔ)音識(shí)別的信息 查詢(xún)服務(wù)系統(tǒng)的性能表示滿(mǎn)意??梢灶A(yù)測(cè)在近五到十年內(nèi),語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用將更加廣泛。各種各樣的語(yǔ)音識(shí)別系統(tǒng)產(chǎn)品將出現(xiàn)在市場(chǎng)上。人們也將調(diào)整自己的說(shuō)話(huà)方式以適應(yīng)各種各樣 的識(shí)別系統(tǒng)。在短期內(nèi)還不可能造出具有和人相比擬的語(yǔ)音識(shí)別系統(tǒng),要建成這樣一個(gè)系統(tǒng)仍然是人類(lèi)面臨的一個(gè)大的挑戰(zhàn),我們只能一步步朝著改進(jìn)語(yǔ)音識(shí)別系統(tǒng) 的方向一步步地前

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論