語(yǔ)音識(shí)別的研究現(xiàn)狀和應(yīng)用前景_第1頁(yè)
語(yǔ)音識(shí)別的研究現(xiàn)狀和應(yīng)用前景_第2頁(yè)
語(yǔ)音識(shí)別的研究現(xiàn)狀和應(yīng)用前景_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

語(yǔ)音識(shí)別的研究現(xiàn)狀和應(yīng)用前景今天,許多用戶(hù)已經(jīng)能享受到語(yǔ)音技術(shù)的優(yōu)勢(shì)了,可以對(duì)計(jì)算機(jī)發(fā)送命令,或者要求計(jì)算機(jī)記錄下用戶(hù)所說(shuō)的話(huà),以及將文本轉(zhuǎn)換成聲音朗讀出來(lái)。盡管如此,距離真正的人機(jī)自由交流的前景似乎還遠(yuǎn)。目前,計(jì)算機(jī)還需要對(duì)用戶(hù)作大量訓(xùn)練才能識(shí)別用戶(hù)的語(yǔ)音。并且,識(shí)別率也并不總是盡如人意。換言之,語(yǔ)音識(shí)別技術(shù)還有一段路需要走,要做到真正成功的商業(yè)化,它還必須在很多方面取得突破性進(jìn)展,這實(shí)際就是其技術(shù)的未來(lái)走向。。就算法模型方面而言,需要有進(jìn)一步的突破。目前能看出它的一些明顯不足,尤其在中文語(yǔ)音識(shí)別方面,語(yǔ)言模型還有待完善,因?yàn)檎Z(yǔ)言模型和聲學(xué)模型正是聽(tīng)寫(xiě)識(shí)別的基礎(chǔ),這方面沒(méi)有突破,語(yǔ)音識(shí)別的進(jìn)展就只能是一句空話(huà)。目前使用的語(yǔ)言模型只是一種概率模型,還沒(méi)有用到以語(yǔ)言學(xué)為基礎(chǔ)的文法模型,而要使計(jì)算機(jī)確實(shí)理解人類(lèi)的語(yǔ)言,就必須在這一點(diǎn)上取得進(jìn)展,這是一個(gè)相當(dāng)艱苦的工作。此外,隨著硬件資源的不斷發(fā)展,一些核心算法如特征提取、搜索算法或者自適應(yīng)算法將有可能進(jìn)一步改進(jìn)。可以相信,半導(dǎo)體和軟件技術(shù)的共同進(jìn)步將為語(yǔ)音識(shí)別技術(shù)的基礎(chǔ)性工作帶來(lái)福音。。就自適應(yīng)方面而言,語(yǔ)音識(shí)別技術(shù)也有待進(jìn)一步改進(jìn)。目前,象IBM的ViaVoice和Asiaworks的SPK都需要用戶(hù)在使用前進(jìn)行幾百句話(huà)的訓(xùn)練,以讓計(jì)算機(jī)適應(yīng)你的聲音特征。這必然限制了語(yǔ)音識(shí)別技術(shù)的進(jìn)一步應(yīng)用,大量的訓(xùn)練不僅讓用戶(hù)感到厭煩,而且加大了系統(tǒng)的負(fù)擔(dān)。并且,不能指望將來(lái)的消費(fèi)電子應(yīng)用產(chǎn)品也針對(duì)單個(gè)消費(fèi)者進(jìn)行訓(xùn)練。因此,必須在自適應(yīng)方面有進(jìn)一步的提高,做到不受特定人、口音或者方言的影響,這實(shí)際上也意味著對(duì)語(yǔ)言模型的進(jìn)一步改進(jìn)?,F(xiàn)實(shí)世界的用戶(hù)類(lèi)型是多種多樣的,就聲音特征來(lái)講有男音、女音和童音的區(qū)別,此外,許多人的發(fā)音離標(biāo)準(zhǔn)發(fā)音差距甚遠(yuǎn),這就涉及到對(duì)口音或方言的處理。如果語(yǔ)音識(shí)別能做到自動(dòng)適應(yīng)大多數(shù)人的聲線特征,那可能比提高一二個(gè)百分點(diǎn)識(shí)別率更重要。事實(shí)上,ViaVoice的應(yīng)用前景也因?yàn)檫@一點(diǎn)打了折扣,只有普通話(huà)說(shuō)得很好的用戶(hù)才可以在其中文版連續(xù)語(yǔ)音識(shí)別方面取得相對(duì)滿(mǎn)意的成績(jī)。。就強(qiáng)健性方面而言,語(yǔ)音識(shí)別技術(shù)需要能排除各種環(huán)境因素的影響。目前,對(duì)語(yǔ)音識(shí)別效果影響最大的就是環(huán)境雜音或嗓音,在公共場(chǎng)合,你幾乎不可能指望計(jì)算機(jī)能聽(tīng)懂你的話(huà),來(lái)自四面八方的聲音讓它茫然而不知所措。很顯然這極大地限制了語(yǔ)音技術(shù)的應(yīng)用范圍,目前,要在嘈雜環(huán)境中使用語(yǔ)音識(shí)別技術(shù)必須有特殊的抗嗓(NoiseCancellation)麥克風(fēng)才能進(jìn)行,這對(duì)多數(shù)用戶(hù)來(lái)說(shuō)是不現(xiàn)實(shí)的。在公共場(chǎng)合中,個(gè)人能有意識(shí)地摒棄環(huán)境嗓音并從中獲取自己所需要的特定聲音,如何讓語(yǔ)音識(shí)別技術(shù)也能達(dá)成這一點(diǎn)呢?這的確是一個(gè)艱巨的任務(wù)。。此外,帶寬問(wèn)題也可能影響語(yǔ)音的有效傳送,在速率低于1000比特/秒的極低比特率下,語(yǔ)音編碼的研究將大大有別于正常情況,比如要在某些帶寬特別窄的信道上傳輸語(yǔ)音,以及水聲通信、

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論