語(yǔ)音識(shí)別研究的背景意義及現(xiàn)狀_第1頁(yè)
語(yǔ)音識(shí)別研究的背景意義及現(xiàn)狀_第2頁(yè)
語(yǔ)音識(shí)別研究的背景意義及現(xiàn)狀_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、語(yǔ)音識(shí)別研究的背景意義及現(xiàn)狀研究的背景及意義自從人類(lèi)可以制造和使用各種機(jī)器以來(lái),人們就有一個(gè)理想,那就是讓各種機(jī)器能聽(tīng)懂人類(lèi)的語(yǔ)言并能按人的口頭命令來(lái)行動(dòng),從而實(shí)現(xiàn)人機(jī)的語(yǔ)言交流。隨著科學(xué)技術(shù)的不斷發(fā)展,語(yǔ)音識(shí)別(speech recognition)技術(shù)的出現(xiàn),使人類(lèi)的這一理想得以實(shí)現(xiàn)。語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科,語(yǔ)音識(shí)別正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),語(yǔ)音識(shí)別技術(shù)與語(yǔ)音合成技術(shù)的結(jié)合,使人們能夠甩掉鍵盤(pán),通過(guò)語(yǔ)音命令進(jìn)行操作。語(yǔ)音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè)。當(dāng)今,語(yǔ)音識(shí)別產(chǎn)品在人機(jī)認(rèn)交互

2、應(yīng)用中己經(jīng)占到越來(lái)越大的比例。音樂(lè)就是一種藝術(shù)。通??梢越忉尀橐幌盗袑?duì)于有聲、無(wú)聲具有時(shí)間性的組織,并含有不同音階的節(jié)奏、旋律及和聲。音樂(lè)與人的生活情趣、審美情趣、言語(yǔ)、行為、人際關(guān)系等等,有一定的關(guān)聯(lián)。音樂(lè)是人們抒發(fā)感情、表現(xiàn)感情、寄托感情的藝術(shù),不論是唱、奏或聽(tīng),都內(nèi)涵著關(guān)聯(lián)人們千絲萬(wàn)縷情感的因素。特別對(duì)人的心理,會(huì)起著不能用言語(yǔ)所能形容的影響作用。音樂(lè)可以通過(guò)幾種途徑來(lái)體驗(yàn),而音樂(lè)播放器是現(xiàn)代生活中最便捷,最實(shí)用的一種?,F(xiàn)如今社會(huì)在飛速發(fā)展,人們的生活節(jié)奏也在不斷加快,工作壓力也在日益增大,致使越來(lái)越多的人選擇在閑暇時(shí)間放松自己。而聽(tīng)音樂(lè)就成了人們緩解生活壓力的第一選擇,醫(yī)學(xué)表明音樂(lè)不僅

3、可以對(duì)人們緊張的心情帶來(lái)放松,還能有效的緩解高血壓對(duì)心血管造成的壓力。因此音樂(lè)播放器已經(jīng)成為人們?nèi)粘I钪兄陵P(guān)重要的物品。然而可惜的是,傳統(tǒng)的音樂(lè)播放器通常上是通過(guò)兩種方式實(shí)現(xiàn)人們對(duì)播放器的控制的:一是按鍵式控制(其中也包括線控式),通過(guò)直接按鍵改變電平發(fā)出指令;二是通過(guò)遠(yuǎn)程控制,通過(guò)紅外線或者藍(lán)牙等對(duì)播放器發(fā)布命令。這對(duì)于疲勞中的人們或者殘障人士來(lái)說(shuō)是不方便的。為了減少手動(dòng)操作的繁瑣,此次設(shè)計(jì)專門(mén)致力于研究一種方案通過(guò)語(yǔ)音控制來(lái)實(shí)現(xiàn)對(duì)音樂(lè)播放器的控制,使其更加方便、更加人性化,實(shí)現(xiàn)音樂(lè)播放器的全自動(dòng)語(yǔ)音控制。這個(gè)設(shè)計(jì)不僅是為了解決人們?nèi)粘J褂脗鹘y(tǒng)音樂(lè)播放器不方便的煩惱,而且是為了研究語(yǔ)音識(shí)別

4、技術(shù)在單片機(jī)中的應(yīng)用,特別是在spce061a中實(shí)現(xiàn)語(yǔ)音識(shí)別的應(yīng)用,設(shè)計(jì)出具有語(yǔ)音控制功能的音樂(lè)播放器。國(guó)內(nèi)外研究現(xiàn)狀語(yǔ)音識(shí)別的研究工作可以追溯到20世紀(jì)50年代at&t貝爾實(shí)驗(yàn)室的audry系統(tǒng),它是第一個(gè)可以識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)。 但真正取得實(shí)質(zhì)性進(jìn)展,并將其作為一個(gè)重要的課題開(kāi)展研究則是在60年代末70年代初。這首先是因?yàn)橛?jì)算機(jī)技術(shù)的發(fā)展為語(yǔ)音識(shí)別的實(shí)現(xiàn)提供了硬件和軟件的可能,更重要的是語(yǔ)音信號(hào)線性預(yù)測(cè)編碼(lpc)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(dtw)技術(shù)的提出,有效的解決了語(yǔ)音信號(hào)的特征提取和不等長(zhǎng)匹配問(wèn)題。這一時(shí)期的語(yǔ)音識(shí)別主要基于模板匹配原理,研究的領(lǐng)域局限在特定人,小詞匯表的孤

5、立詞識(shí)別,實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜和dtw技術(shù)的特定人孤立詞語(yǔ)音識(shí)別系統(tǒng);同時(shí)提出了矢量量化(vq)和隱馬爾可夫模型(hmm)理論。 隨著應(yīng)用領(lǐng)域的擴(kuò)大,小詞匯表、特定人、孤立詞等這些對(duì)語(yǔ)音識(shí)別的約束條件需要放寬,與此同時(shí)也帶來(lái)了許多新的問(wèn)題:第一,詞匯表的擴(kuò)大使得模板的選取和建立發(fā)生困難;第二,連續(xù)語(yǔ)音中,各個(gè)音素、音節(jié)以及詞之間沒(méi)有明顯的邊界,各個(gè)發(fā)音單位存在受上下文強(qiáng)烈影響的協(xié)同發(fā)音(co-articulation)現(xiàn)象;第三,非特定人識(shí)別時(shí),不同的人說(shuō)相同的話相應(yīng)的聲學(xué)特征有很大的差異,即使相同的人在不同的時(shí)間、生理、心理狀態(tài)下,說(shuō)同樣內(nèi)容的話也會(huì)有很大的差異;第四,識(shí)別的語(yǔ)音中有背景噪

6、聲或其他干擾。因此原有的模板匹配方法已不再適用。 實(shí)驗(yàn)室語(yǔ)音識(shí)別研究的巨大突破產(chǎn)生于20世紀(jì)80年代末:人們終于在實(shí)驗(yàn)室突破了大詞匯量、連續(xù)語(yǔ)音和非特定人這三大障礙,第一次把這三個(gè)特性都集成在一個(gè)系統(tǒng)中,比較典型的是卡耐基梅隆大學(xué)(carnegiemellonuniversity)的sphinx系統(tǒng),它是第一個(gè)高性能的非特定人、大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)。 這一時(shí)期,語(yǔ)音識(shí)別研究進(jìn)一步走向深入,其顯著特征是hmm模型和人工神經(jīng)元網(wǎng)絡(luò)(ann)在語(yǔ)音識(shí)別中的成功應(yīng)用。hmm模型的廣泛應(yīng)用應(yīng)歸功于at&tbell實(shí)驗(yàn)室rabiner等科學(xué)家的努力,他們把原本艱澀的hmm純數(shù)學(xué)模型工程化,從而為更多研

7、究者了解和認(rèn)識(shí),從而使統(tǒng)計(jì)方法成為了語(yǔ)音識(shí)別技術(shù)的主流。 統(tǒng)計(jì)方法將研究者的視線從微觀轉(zhuǎn)向宏觀,不再刻意追求語(yǔ)音特征的細(xì)化,而是更多地從整體平均(統(tǒng)計(jì))的角度來(lái)建立最佳的語(yǔ)音識(shí)別系統(tǒng)。在聲學(xué)模型方面,以markov鏈為基礎(chǔ)的語(yǔ)音序列建模方法hmm(隱式markov鏈)比較有效地解決了語(yǔ)音信號(hào)短時(shí)穩(wěn)定、長(zhǎng)時(shí)時(shí)變的特性,并且能根據(jù)一些基本建模單元構(gòu)造成連續(xù)語(yǔ)音的句子模型,達(dá)到了比較高的建模精度和建模靈活性。在語(yǔ)言層面上,通過(guò)統(tǒng)計(jì)真實(shí)大規(guī)模語(yǔ)料的詞之間同現(xiàn)概率即n元統(tǒng)計(jì)模型來(lái)區(qū)分識(shí)別帶來(lái)的模糊音和同音詞。另外,人工神經(jīng)網(wǎng)絡(luò)方法、基于文法規(guī)則的語(yǔ)言處理機(jī)制等也在語(yǔ)音識(shí)別中得到了應(yīng)用。 20世紀(jì)90年代

8、前期,許多著名的大公司如ibm、蘋(píng)果、att和ntt都對(duì)語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化研究投以巨資。語(yǔ)音識(shí)別技術(shù)有一個(gè)很好的評(píng)估機(jī)制,那就是識(shí)別的準(zhǔn)確率,而這項(xiàng)指標(biāo)在20世紀(jì)90年代中后期實(shí)驗(yàn)室研究中得到了不斷的提高。比較有代表性的系統(tǒng)有:ibm公司推出的viavoice和dragonsystem公司的naturallyspeaking,nuance公司的nuancevoiceplatform語(yǔ)音平臺(tái),microsoft的whisper,sun的voicetone等。 其中ibm公司于1997年開(kāi)發(fā)出漢語(yǔ)viavoice語(yǔ)音識(shí)別系統(tǒng),次年又開(kāi)發(fā)出可以識(shí)別上海話、廣東話和四川話等地方口音的語(yǔ)音識(shí)別系統(tǒng)vi

9、avoice98。它帶有一個(gè)32,000詞的基本詞匯表,可以擴(kuò)展到65,000詞,還包括辦公常用詞條,具有“糾錯(cuò)機(jī)制”,其平均識(shí)別率可以達(dá)到95%。該系統(tǒng)對(duì)新聞?wù)Z音識(shí)別具有較高的精度,是目前具有代表性的漢語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)。 我國(guó)語(yǔ)音識(shí)別研究工作起步于五十年代,但近年來(lái)發(fā)展很快。研究水平也從實(shí)驗(yàn)室逐步走向?qū)嵱?。?987年開(kāi)始執(zhí)行國(guó)家863計(jì)劃后,國(guó)家863智能計(jì)算機(jī)專家組為語(yǔ)音識(shí)別技術(shù)研究專門(mén)立項(xiàng),每?jī)赡隄L動(dòng)一次。我國(guó)語(yǔ)音識(shí)別技術(shù)的研究水平已經(jīng)基本上與國(guó)外同步,在漢語(yǔ)語(yǔ)音識(shí)別技術(shù)上還有自己的特點(diǎn)與優(yōu)勢(shì),并達(dá)到國(guó)際先進(jìn)水平。中科院自動(dòng)化所、聲學(xué)所、清華大學(xué)、北京大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、中國(guó)科技大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等科研機(jī)構(gòu)都有實(shí)驗(yàn)室進(jìn)行過(guò)語(yǔ)音識(shí)別方面的研究,其中具有代表性的研究單位為清華大學(xué)電子工程系與中科院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室。 清華大學(xué)電子工程系語(yǔ)音技術(shù)與專用芯片設(shè)計(jì)課題組,研發(fā)的非特定人漢語(yǔ)數(shù)碼串連續(xù)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度,達(dá)到94.8%(不定長(zhǎng)數(shù)字串)和96.8%(定長(zhǎng)數(shù)字串)。在有5%的拒識(shí)率情況下,系統(tǒng)識(shí)別率可以達(dá)到96.9%(不定長(zhǎng)數(shù)字串)和98.7%(定長(zhǎng)數(shù)字串),這是目前國(guó)際最好的識(shí)別結(jié)果之一,其性能已經(jīng)接近實(shí)用水平。研發(fā)的5000詞郵包對(duì)非特

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論