




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
碩士:基于web的salt語(yǔ)音識(shí)別技術(shù)應(yīng)用研究(終稿(完整版)資料(可以直接使用,可編輯優(yōu)秀版資料,歡迎下載)
碩士:基于web的salt語(yǔ)音識(shí)別技術(shù)應(yīng)用研究(終稿(完整版)資料(可以直接使用,可編輯優(yōu)秀版資料,歡迎下載)學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,同意學(xué)校保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)江蘇大學(xué)可以將本學(xué)位論文的全部?jī)?nèi)容或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。保密□,在年解密后適用本授權(quán)書。本學(xué)位論文屬于不保密□。學(xué)位論文作者簽名: 指導(dǎo)教師簽名:年月日 年月日獨(dú)創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果。除文中已注明引用的內(nèi)容以外,本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫過(guò)的作品成果。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名:日期:年月日分類號(hào) 密級(jí)UDC 編號(hào)工程碩士學(xué)位論文基于WEB的SALT語(yǔ)音識(shí)別技術(shù)應(yīng)用研究TheApplicationandResearchofAutomaticSpeechRecognitionTechnologyBasedonSALT指導(dǎo)教師作者姓名申請(qǐng)學(xué)位級(jí)別碩士 學(xué)科(專業(yè))論文提交日期 論文答辯日期學(xué)位授予單位和日期答辯委員會(huì)主席評(píng)閱人______________摘要長(zhǎng)久以來(lái),人們都渴望以一種最簡(jiǎn)單、最輕松的方式進(jìn)行溝通。而隨著語(yǔ)音識(shí)別技術(shù)的飛速發(fā)展,人與計(jì)算機(jī)之間的溝通也變得越來(lái)越簡(jiǎn)單。SALT(SpeechApplicationLanguageTags)技術(shù)是一項(xiàng)新興技術(shù),它是一種獨(dú)立平臺(tái)的標(biāo)記語(yǔ)言,可以用于創(chuàng)建經(jīng)由語(yǔ)音平臺(tái)接入的應(yīng)用系統(tǒng)。語(yǔ)音識(shí)別擁有可觀的應(yīng)用前景,尤其在我們生活信息化越來(lái)越加深的今天,應(yīng)用于Web的語(yǔ)音識(shí)別技術(shù)作為一個(gè)語(yǔ)音識(shí)別應(yīng)用的熱點(diǎn)方向,也具有深遠(yuǎn)廣闊的應(yīng)用前景。該技術(shù)在進(jìn)行Web開(kāi)發(fā)中,可以提供一種全新的解決思路,因此“基于WEB的SALT語(yǔ)音識(shí)別技術(shù)應(yīng)用研究”實(shí)例的實(shí)現(xiàn)是對(duì)這一新技術(shù)進(jìn)行研究和實(shí)踐的很好的學(xué)習(xí)、應(yīng)用、檢驗(yàn)、改進(jìn),甚至提高的過(guò)程。在本課題的研究中,主要完成了基于WEB具有語(yǔ)音識(shí)別功能并可以根據(jù)語(yǔ)音命令完成一定操作基本功能的語(yǔ)音應(yīng)答平臺(tái)系統(tǒng)的實(shí)現(xiàn),需要將SALT技術(shù)應(yīng)用于ASP.NET服務(wù)系統(tǒng)頁(yè)面之中。具體工作如下:(1)研究了經(jīng)典的HMM算法及其他算法,分析其算法性能的優(yōu)劣。(2)本文重點(diǎn)集中討論了基于SALT(SpeechApplicationLanguageTags)的語(yǔ)音識(shí)別應(yīng)用,介紹了語(yǔ)音合成技術(shù)、文語(yǔ)轉(zhuǎn)換系統(tǒng)的組成及其實(shí)現(xiàn)過(guò)程、自動(dòng)語(yǔ)音識(shí)別技術(shù)、自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的組成及其實(shí)現(xiàn)過(guò)程,探討基于SALT的語(yǔ)音識(shí)別技術(shù)在軟硬件平臺(tái)上的實(shí)現(xiàn)以及實(shí)際應(yīng)用中的具體問(wèn)題。(3)本文結(jié)合SALT論壇最新即將發(fā)布的SALT(語(yǔ)音應(yīng)用語(yǔ)言標(biāo)記)技術(shù),提出了基于SALT的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)的體系結(jié)構(gòu),論述了具體的實(shí)現(xiàn)方案和方法,并結(jié)合中小企業(yè)實(shí)際情況,開(kāi)發(fā)了一套語(yǔ)音識(shí)別示例系統(tǒng),初步實(shí)現(xiàn)了基于SALT技術(shù)的語(yǔ)音識(shí)別系統(tǒng)的開(kāi)發(fā),并初步實(shí)現(xiàn)了基于Web的遠(yuǎn)程部署,為下一步的工作打下一個(gè)較為可靠的基礎(chǔ)。系統(tǒng)開(kāi)發(fā)集成環(huán)境包括:WindowsXP操作系統(tǒng)、Microsoft的C#、ASP.NET、ADO.NET和SALT1.1final版插件。關(guān)鍵詞:Web,語(yǔ)音識(shí)別,SALT,程序設(shè)計(jì),ASP.NET
AbstractForalongtime,peoplehaveallwishedeagerlytocommunicateinakindofsimplest,mostrelaxedway.Andwiththedevelopmentatfullspeedoftherecognitiontechnologyofthepronunciation,thecommunicationbetweenpeopleandcomputerbecomessimplerandsimpler.SALT(SpeechApplicationLanguageTags)isamarkuplanguagethattakeserviceinopen,freepatentableaccess,independentofplatform,itisusedforcreatingthenewlyapplicationsystemthatiscutoverthroughspeechplatform.AutomaticSpeechRecognition(ASR)hasconsiderableandbrightfuture,whilemoreandmoreInformationTechnologyhasbeenusedinourdailylife.Andasahotdomain,ASRbasedonSALTalsowillbepopulareverywhere.ThetechnologyinourdevelopmentoftheWeb,youcanprovideuswithabrand-newideastosolve,"theSALTWEB-basedvoicerecognitiontechnologyappliedresearch"istherealizationofourexamplesofthisnewtechnologytostudyandpracticeofgoodStudy,application,testing,improvingandevenimprovetheprocess.Inthisstudyofthesubject,IhaveprimarilyresponsibleforWEB-basedspeechrecognitionfeaturesandcanoperatewithvoicecommandstocompletecertainbasicfunctionsofthevoiceresponsesystemplatformtherealizationoftheneedtoSALTtechnologyinASP.NETpagesoftheservicesystem.Majorworkisasfollows:(1)IstudiedclassicalHMMalgorithmandotheralgorithms,analysisthemeritsofitsalgorithm.(2)WithafocusontechnologyofSALT(SpeechApplicationsLanguageTags)thatSALTforumwillpublishrecently,thisessaybringsupthetotalstructureofAutomaticSpeechRecognition(ASR)systembasedonSALT,andexpoundsthetheoryschemeandmethodsofrealization.AnAutomaticSpeechRecognition(ASR)examplesystemhasbeendevelopedbasedontheactualcircumstancesatsmall-andmedium-sizedenterprises,whichhasprovidedasetofsoftwareforsmall-andmedium-sizedenterprisesthatconformstopracticeandsuitsthedemandincustomerservice.TheessayachievestheASRdevelopmentbasedonSALT,andfinishedthelong-distancearrangement,bringsareliablebaseforthecomingworkinthenextround.(3)Thissystemenvironmentinclude:OperatorSystemofWindowsXPandthedevelopmenttoolsoftheMicrosoftVisualC#.NET,ASP.NET,ADO.NET,andsoon.TheversionofSALT1.1finalisthesubjectivesoftwaretoolwhichisusedtodevelopthespeechinterfaceofthewebsystem.KEYWORD:Web,SpeechRecognize,SALT,Programming,ASP.NET
目錄TOC\o"1-3"\h\z第一章緒論 11.1研究背景 11.2研究現(xiàn)狀 21.3研究?jī)?nèi)容 41.4全文的組織安排 5第2章語(yǔ)音識(shí)別技術(shù) 62.1語(yǔ)音識(shí)別的原理 62.2語(yǔ)音識(shí)別的基本算法 9概述 9模型的結(jié)構(gòu) 12前向和后向算法 14算法 15算法 162.3Internet中語(yǔ)音識(shí)別的應(yīng)用 172.4本章小結(jié) 18第3章基于WEBSALT語(yǔ)音識(shí)別 193.1SALT技術(shù) 19技術(shù)知識(shí)分析 19技術(shù)的優(yōu)越性 223.2基于WEBSALT語(yǔ)音識(shí)別的體系結(jié)構(gòu) 23體系結(jié)構(gòu) 23開(kāi)發(fā)流程 253.3基于WebSalt語(yǔ)音識(shí)別的算法分析 273.4本章小結(jié) 29第四章基于WEBSALT語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 304.1系統(tǒng)功能分析 304.2系統(tǒng)總體模塊劃分 304.3使用技術(shù)及方法 31面向?qū)ο蟮募夹g(shù) 31并行工程設(shè)計(jì) 32采用VS.NET平臺(tái)及B/S結(jié)構(gòu)技術(shù) 32系統(tǒng)開(kāi)發(fā)環(huán)境及運(yùn)行環(huán)境的選擇 33開(kāi)發(fā)平臺(tái)和Web服務(wù) 33開(kāi)發(fā)工具和語(yǔ)言 34運(yùn)行環(huán)境 354.4系統(tǒng)接口設(shè)計(jì) 35用戶界面設(shè)計(jì) 35接口應(yīng)用設(shè)計(jì) 364.5系統(tǒng)實(shí)現(xiàn) 36設(shè)計(jì)模式的應(yīng)用 36應(yīng)用程序的詳細(xì)設(shè)計(jì) 37語(yǔ)音識(shí)別系統(tǒng)語(yǔ)法(Grammer)設(shè)計(jì) 39語(yǔ)音識(shí)別系統(tǒng)的功能設(shè)計(jì) 404.6系統(tǒng)運(yùn)行及特點(diǎn) 414.7運(yùn)行測(cè)試評(píng)價(jià) 42測(cè)試環(huán)境 42運(yùn)行測(cè)試 42測(cè)試結(jié)果分析 45測(cè)試結(jié)論 464.8本章小結(jié) 47第五章總論和展望 485.1結(jié)論 485.2進(jìn)一步研究工作 495.3本章小結(jié) 49參考文獻(xiàn) 50致謝 54第一章緒論1.1研究背景在現(xiàn)代社會(huì)中,人們逐漸習(xí)慣借助計(jì)算機(jī)來(lái)完成各項(xiàng)事務(wù)。在這種形勢(shì)下,如何讓計(jì)算機(jī)智能化地與人通信,使人機(jī)交互更加自然方便成為現(xiàn)代計(jì)算機(jī)科學(xué)的一個(gè)重要的研究課題。語(yǔ)音是人際交流的最習(xí)慣、最自然的方式,它將成為人機(jī)交互方式的理想選擇。讓機(jī)器能聽(tīng)會(huì)說(shuō),是人類由來(lái)已久的理想。語(yǔ)音技術(shù)主要包括語(yǔ)音合成技術(shù)和語(yǔ)音識(shí)別技術(shù)。語(yǔ)音合成技術(shù)解決機(jī)器說(shuō)的問(wèn)題,語(yǔ)音識(shí)別技術(shù)解決機(jī)器聽(tīng)的問(wèn)題。設(shè)計(jì)和開(kāi)發(fā)的應(yīng)用實(shí)例或系統(tǒng)是語(yǔ)音技術(shù)商業(yè)化、社會(huì)化的重要手段,語(yǔ)音技術(shù)的應(yīng)用在當(dāng)今社會(huì)有著重要的意義。首先政府開(kāi)通的咨詢熱線、咨詢服務(wù)業(yè)對(duì)于語(yǔ)音技術(shù)的應(yīng)用期待己久。語(yǔ)音識(shí)別技術(shù)和語(yǔ)音合成技術(shù),再加上數(shù)據(jù)庫(kù)共同組成咨詢服務(wù)業(yè)務(wù)的解決方案。呼叫中心必須迅速地走上機(jī)器智能應(yīng)答和記錄的道路,否則,呼叫中心只能變成為一個(gè)美麗而不實(shí)際的神話,24小時(shí)的熱線服務(wù),不均勻的問(wèn)訊量峰谷,日益增高的工資成本,坐席人員的培訓(xùn)與流失,很快就會(huì)使政府、企業(yè)不堪其負(fù)。機(jī)器的語(yǔ)音應(yīng)答,白動(dòng)的問(wèn)訊和需求記錄,將大幅度降低呼叫中心的投資及其運(yùn)轉(zhuǎn)成本,將會(huì)受到各級(jí)政府、廣大中小企業(yè)的歡迎。其次,語(yǔ)音自然交互更具有其它信息終端不具備的優(yōu)勢(shì),利用自然語(yǔ)音交互技術(shù),用戶不再需要一項(xiàng)一項(xiàng)的填寫Web的Form表單,不再需要痛苦的在小小的鍵盤上換著數(shù)字輸入名字和E-mail地址?;陉P(guān)鍵字捕捉和自然語(yǔ)言處理技術(shù),用戶進(jìn)入個(gè)人界面后可以輕松的說(shuō)一句:“旅游信息,杭州”,相應(yīng)地計(jì)算機(jī)回應(yīng)“杭州”的有關(guān)信息,一切輕松自然而又隨意。再次,國(guó)際上衡量一個(gè)國(guó)家的咨詢服務(wù)業(yè)發(fā)展程度有一個(gè)參考值,即信息咨詢產(chǎn)值與電子產(chǎn)品工業(yè)產(chǎn)值的比率,這個(gè)比值在歐美日的平均水平是1:1強(qiáng),而中國(guó)的這個(gè)比值是不到9%,香港、新加坡的平均水平是中國(guó)大陸的4倍左右。最后,廣闊的市場(chǎng)前景。美國(guó)的著名咨詢企業(yè)安達(dá)信公司曾報(bào)告指出,按照中國(guó)的市場(chǎng)化發(fā)展速度看,到2021年中國(guó)的信息咨詢業(yè)將達(dá)到100億美元,即1000億人民幣左右的規(guī)模。這還不包括各級(jí)政府、大中小企業(yè)自建的咨詢服務(wù)熱線,中國(guó)互聯(lián)網(wǎng)中心也預(yù)計(jì)語(yǔ)音產(chǎn)品及其咨詢業(yè)規(guī)模將達(dá)到1300億元。1.2研究現(xiàn)狀語(yǔ)音識(shí)別(AutomaticSpeechRecognition,ASR)的研究工作起始于上個(gè)世紀(jì)50年代,1952年貝爾實(shí)驗(yàn)室的Davis,Biddulph和Balashek建立了一個(gè)與說(shuō)話人有關(guān)的孤立英文數(shù)字語(yǔ)音識(shí)別系統(tǒng)[1,3]。在說(shuō)話人和麥克風(fēng)距離保持不變的情況下,該系統(tǒng)正確識(shí)別率達(dá)到了98%。1959年,美國(guó)Lincoln實(shí)驗(yàn)室的Rorgie和Forgie[3]首次采用數(shù)字計(jì)算機(jī)識(shí)別英文的元音和以摩擦音開(kāi)頭的孤立字,這標(biāo)志著計(jì)算機(jī)語(yǔ)音識(shí)別時(shí)代的開(kāi)始。60年代末70年代初,一系列里程碑似的基礎(chǔ)性突破為語(yǔ)音識(shí)別的發(fā)展奠定了基礎(chǔ)。在語(yǔ)音學(xué)方面,瑞典通信工程師Fant發(fā)表了著名的博士論文《語(yǔ)音產(chǎn)生的聲學(xué)理論》。在信號(hào)處理方面,線性預(yù)測(cè)編碼(LinearPredictionCoding,LPC)技術(shù)在70年代被日本學(xué)者Itakura[5]成功地應(yīng)用于語(yǔ)音識(shí)別,使語(yǔ)音信號(hào)的特征提取有了一次飛躍。前蘇聯(lián)科學(xué)家Vintsyuk60年代將動(dòng)態(tài)規(guī)劃應(yīng)用于模式識(shí)別,成為語(yǔ)音識(shí)別方法的重要基礎(chǔ)。日本學(xué)者Sakoe和Chiba[6]提出了動(dòng)態(tài)時(shí)間歸整(DynamicTimeWarpingDTW)技術(shù)用來(lái)解決語(yǔ)音識(shí)別中不等長(zhǎng)語(yǔ)音的對(duì)整問(wèn)題。語(yǔ)音信號(hào)線性預(yù)測(cè)編碼技術(shù)和動(dòng)態(tài)時(shí)間歸整技術(shù),結(jié)合模板匹配原理,有效地解決了特定人、小詞匯表的孤立詞語(yǔ)音識(shí)別問(wèn)題。美國(guó)于70年代實(shí)施了美國(guó)國(guó)防高級(jí)研究項(xiàng)目計(jì)劃(USDefenceAdvancedResearchProgramAgency,DARPR),對(duì)語(yǔ)音識(shí)別研究給予很大支持,DARPA采用有多個(gè)說(shuō)話人發(fā)音的1000詞的語(yǔ)料庫(kù),作為參加DARPR計(jì)劃的大學(xué)和公司研發(fā)的語(yǔ)音識(shí)別系統(tǒng)的性能評(píng)估語(yǔ)料庫(kù)。80年代以后,語(yǔ)音識(shí)別的任務(wù)開(kāi)始由特定人孤立詞語(yǔ)音識(shí)別轉(zhuǎn)向非特定人、中等詞匯量的連續(xù)語(yǔ)音識(shí)別,識(shí)別的方法也逐漸從模板匹配方法轉(zhuǎn)變到統(tǒng)計(jì)模型方法。以隱馬爾可夫模型典型代表的統(tǒng)計(jì)方法,由于其在參數(shù)、結(jié)構(gòu)和訓(xùn)練方法的選擇上有很大的靈活性,逐漸成為語(yǔ)音識(shí)別技術(shù)的主流。HMM的理論基礎(chǔ)在1970年前后由Baum等人建立起來(lái),隨后由CMU的Baker和IBM的Jelinek等人應(yīng)用于語(yǔ)音識(shí)別之中,HMM模型的廣泛應(yīng)用歸功于AT&TBell實(shí)驗(yàn)室Rabiner等科學(xué)家的努力,他們把原本艱澀的HMM純數(shù)學(xué)模型工程化,使世界各國(guó)從事語(yǔ)音處理的的研究者所了解和熟悉,進(jìn)而成為公認(rèn)的一個(gè)研究熱點(diǎn)。人工神經(jīng)網(wǎng)絡(luò)(ANN)[7,8]在語(yǔ)音識(shí)別中的應(yīng)用研究的也在這一時(shí)期興起。在此期間,美國(guó)國(guó)防部的DARPA計(jì)劃對(duì)語(yǔ)音識(shí)別研究起了巨大的推動(dòng)作用,當(dāng)時(shí)DARPA的相應(yīng)評(píng)估語(yǔ)料庫(kù)為100個(gè)帶不同方言的說(shuō)話者、詞匯量為一千的ResourceManagement(RM)語(yǔ)料庫(kù),參加DARPA計(jì)劃評(píng)測(cè)的各研究機(jī)構(gòu)都推出了各種識(shí)別系統(tǒng),如Carnegie-Mellon大學(xué)用VQ/HMM的方法實(shí)現(xiàn)了SPHINX系統(tǒng),這是第一個(gè)高性能的非特定人、大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)。Bell實(shí)驗(yàn)室以Rabiner為首的小組對(duì)英語(yǔ)數(shù)字串識(shí)別作了大量的研究,成為小詞表語(yǔ)音識(shí)別的典范。90年代語(yǔ)音識(shí)別轉(zhuǎn)向大規(guī)模、非特定人自然語(yǔ)言的識(shí)別。1993年,DARPA采用華爾街雜志語(yǔ)料庫(kù)(WallStreetJournalCorpus)[9]進(jìn)行語(yǔ)音識(shí)別系統(tǒng)評(píng)估,該語(yǔ)料庫(kù)包含兩萬(wàn)個(gè)詞匯。另外還有Switchboard語(yǔ)料庫(kù),它是個(gè)含有2.6萬(wàn)個(gè)詞匯的自然交談?wù)Z音數(shù)據(jù)庫(kù)。1998年,DARPR用廣播新聞?wù)Z料作評(píng)估,這些語(yǔ)料來(lái)自英語(yǔ)電臺(tái)和電視新聞節(jié)目錄音,背景噪聲、說(shuō)話人口音和失真等情況復(fù)雜,因此識(shí)別難度大。其中低噪聲部分評(píng)測(cè)結(jié)果劍橋大學(xué)的HTK[10,11]系統(tǒng)正確識(shí)別率最高,字錯(cuò)誤率為7.8%,自然發(fā)音部分法國(guó)國(guó)家實(shí)驗(yàn)室的LIMSI正確識(shí)別率最高,字錯(cuò)誤率為14.4%。美國(guó)國(guó)家標(biāo)準(zhǔn)和技術(shù)協(xié)會(huì)(NationalInstituteofStandardsandTechnology,NIST)最近的語(yǔ)音識(shí)別系統(tǒng)評(píng)測(cè)是2001年的交談?wù)Z音識(shí)別,共有8個(gè)語(yǔ)音識(shí)別系統(tǒng)參加評(píng)測(cè),其中劍橋大學(xué)的HTK系統(tǒng)正確識(shí)別率最高,三個(gè)測(cè)試集的字錯(cuò)誤率分別為19.8%,24.5%,29.2%。這次評(píng)測(cè)還有中文系統(tǒng)的評(píng)比,評(píng)測(cè)語(yǔ)料庫(kù)為20個(gè)Callhome語(yǔ)料庫(kù)的對(duì)話,只有BBN公司參加,字錯(cuò)誤率為49.9%,而BBN公司系統(tǒng)的英文識(shí)別率測(cè)試為第三名,可見(jiàn)漢語(yǔ)識(shí)別難度比英文識(shí)別難度大得多。目前語(yǔ)音識(shí)別已經(jīng)達(dá)到了一個(gè)相對(duì)高的水平,在穩(wěn)健語(yǔ)音識(shí)別、自適應(yīng)等方面也取得了豐碩的成果,正在從試驗(yàn)室研究中走出來(lái),進(jìn)入了一個(gè)實(shí)用化的階段。語(yǔ)音識(shí)別研究水平的最重要的標(biāo)志之一是非特定人大詞匯量連續(xù)語(yǔ)音識(shí)別的性能[12]。目前對(duì)于理想環(huán)境下的語(yǔ)音數(shù)據(jù),英國(guó)Cambridge大學(xué)的HTK系統(tǒng)的誤識(shí)率已達(dá)到5%以下:對(duì)于廣播語(yǔ)音,Cambridge大學(xué)的HTK系統(tǒng)正確誤識(shí)率達(dá)到16.2%;而對(duì)于大詞匯量的語(yǔ)音的識(shí)別,美國(guó)Carneigie-Mellon大學(xué)的系統(tǒng)詞誤識(shí)率為45.1%。這些系統(tǒng)代表著目前語(yǔ)音識(shí)別的最高水平。小詞匯表語(yǔ)音系統(tǒng)也具有廣泛的應(yīng)用價(jià)值,英語(yǔ)數(shù)字語(yǔ)音識(shí)別的串識(shí)別率己達(dá)到99%以上;而具有高混淆度的英語(yǔ)字母的識(shí)別率也達(dá)到了97%以上?;ヂ?lián)網(wǎng)和移動(dòng)通訊技術(shù)的成熟給語(yǔ)音識(shí)別技術(shù)的發(fā)展和應(yīng)用帶來(lái)新的契機(jī)。IBM,Lucent,Motorola和AT&T四家公司于2000年用于語(yǔ)音瀏覽Internet的標(biāo)記語(yǔ)言VoiceXML,現(xiàn)己被W3C組織接受為國(guó)際工業(yè)標(biāo)準(zhǔn),在這個(gè)標(biāo)準(zhǔn)確立之后,許多廠家相繼推出語(yǔ)音門戶網(wǎng)站[13,14]。這樣人們就可以通過(guò)來(lái)上網(wǎng),利用語(yǔ)音來(lái)代替鍵盤輸入。國(guó)內(nèi)的語(yǔ)音識(shí)別研究開(kāi)始于七十年代,從1987年起國(guó)家863智能計(jì)算機(jī)主題專家組為語(yǔ)音識(shí)別立項(xiàng),經(jīng)過(guò)二十余年的發(fā)展,漢語(yǔ)語(yǔ)音識(shí)別也獲得了豐富的成果。越來(lái)越多的大學(xué)、科研院所加入到語(yǔ)音識(shí)別的研究中,比較著名的有清華大學(xué)電子工程系、計(jì)算機(jī)系、中科院自動(dòng)化所、中科院聲學(xué)所、北京航空航天大學(xué)、北京郵電大學(xué)、西部工業(yè)大學(xué)、哈爾濱工業(yè)大學(xué)、復(fù)旦大學(xué)等等。1998年的863測(cè)試評(píng)比中,清華大學(xué)電子工程系以王作英教授為首的課題組完成的漢語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)的字識(shí)別率達(dá)到90%以上,代表了目前國(guó)內(nèi)的先進(jìn)水平,在漢語(yǔ)小詞表語(yǔ)音識(shí)別及應(yīng)用方面,清華大學(xué)電子工程系以劉潤(rùn)生教授為首的課題組已推出了基于非特定人漢語(yǔ)數(shù)碼語(yǔ)音識(shí)別的語(yǔ)音撥號(hào)機(jī),并在從事語(yǔ)音識(shí)別專用芯片的設(shè)計(jì)研究[17,18]?,F(xiàn)在,不依賴對(duì)象、大詞匯量、連續(xù)語(yǔ)音識(shí)別的已經(jīng)成為研究重點(diǎn)和熱點(diǎn),人們已經(jīng)向語(yǔ)音識(shí)別領(lǐng)域中最難的課題發(fā)起了挑戰(zhàn)。語(yǔ)音識(shí)別的終極目標(biāo)就是同時(shí)解決語(yǔ)音識(shí)別中的這些難點(diǎn)。語(yǔ)音識(shí)別有多種任務(wù),在語(yǔ)音打字這一類任務(wù)中,要求識(shí)別器正確無(wú)誤地將口述語(yǔ)一言逐詞逐句地轉(zhuǎn)換為書面文字。在問(wèn)訊、查詢和控制系統(tǒng)中,需要對(duì)用戶的要求做出正確相應(yīng)、而用戶在說(shuō)話中常常帶有嗯、啊等語(yǔ)氣詞和一些不必要的添加話語(yǔ),這時(shí)語(yǔ)音識(shí)別系統(tǒng)只需識(shí)別其中關(guān)鍵的詞條即可,這稱為關(guān)鍵詞確認(rèn)技術(shù),其中多余的廢話被棄不用,更深一層則需要了解話語(yǔ)的語(yǔ)義信息,這不但對(duì)于進(jìn)一步處理是必要的,而且對(duì)改善語(yǔ)音識(shí)別效果也是很有用的。語(yǔ)音的識(shí)別效果與說(shuō)話時(shí)背景噪聲的強(qiáng)度以及說(shuō)話者講話的清楚程度密切相關(guān)。當(dāng)識(shí)別器在安靜的環(huán)境中工作時(shí)可以得到較好的效果,但是有的環(huán)境中存在強(qiáng)噪聲(例如汽車、飛機(jī)、工廠等)或者存在多人同時(shí)說(shuō)話的嘈雜環(huán)境,識(shí)別器必須也能適應(yīng)這種情況。說(shuō)話者的語(yǔ)音質(zhì)量取決于本人口齒是否清楚,也取決于是否采取合作的態(tài)度,這往往不是識(shí)別器所能控制的。1.3研究?jī)?nèi)容
由于SALT技術(shù)是一項(xiàng)新推出的技術(shù),并且具有廣闊的應(yīng)用前景,該技術(shù)在我們進(jìn)行Web開(kāi)發(fā)中,可以為我們提供一種全新的解決思路,因此“基于WEB的SALT語(yǔ)音識(shí)別技術(shù)應(yīng)用研究”實(shí)例的實(shí)現(xiàn)是我們對(duì)這一新技術(shù)進(jìn)行研究和實(shí)踐的很好的學(xué)習(xí)、應(yīng)用、檢驗(yàn)、改進(jìn),甚至提高的過(guò)程。本課題主要研究基于WEB具有語(yǔ)音識(shí)別功能并可以根據(jù)語(yǔ)音命令完成一定操作基本功能的語(yǔ)音應(yīng)答平臺(tái)系統(tǒng)的實(shí)現(xiàn),需要將SALT技術(shù)應(yīng)用于ASP.NET服務(wù)系統(tǒng)頁(yè)面之中。此外,在理論分析、方案設(shè)計(jì)的基礎(chǔ)上,利用SALT技術(shù)的特點(diǎn)以及與現(xiàn)有成熟的HTML,XHTML技術(shù)的融合性,提供給后續(xù)工作深入時(shí)可以利用的可擴(kuò)展性,未來(lái)可以開(kāi)發(fā)適用于中小企業(yè)的一套基于SALT的IVR系統(tǒng),此種系統(tǒng)主要完成語(yǔ)音導(dǎo)航、信息咨詢、信息查詢、服務(wù)、服務(wù)、短信服務(wù)、E-mail服務(wù)、系統(tǒng)維護(hù)和統(tǒng)計(jì)報(bào)表等功能。1.4全文的組織安排根據(jù)研究的內(nèi)容,本論文共分為六章:第一章緒論:闡述課題的研究背景和意義、國(guó)內(nèi)外研究現(xiàn)狀以及本論文所要從事的工作第二章語(yǔ)音識(shí)別技術(shù):介紹語(yǔ)音識(shí)別的關(guān)鍵技術(shù)和算法,特別是近年來(lái)采用哪的識(shí)別算法,這些算法原理及各自的優(yōu)點(diǎn)和缺點(diǎn)的分析第三章基于WEBSALT語(yǔ)音識(shí)別:介紹SALT技術(shù),基于WEBSALT語(yǔ)音識(shí)別的體系結(jié)構(gòu)和語(yǔ)音識(shí)別算法分析第四章基于WEBSALT語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
第五章總結(jié)與展望
第2章語(yǔ)音識(shí)別技術(shù)在研究和分析各種語(yǔ)音信號(hào)處理技術(shù)之前,必須了解有關(guān)語(yǔ)音識(shí)別的一些基本算法。為了對(duì)語(yǔ)音信號(hào)進(jìn)行數(shù)字處理,我們需要建立一個(gè)能夠精確描述語(yǔ)音產(chǎn)生過(guò)程和語(yǔ)音特征的基本算法,然后根據(jù)語(yǔ)音識(shí)別的算法建立一個(gè)既實(shí)用又便于分析的語(yǔ)音信號(hào)模型。2.1語(yǔ)音識(shí)別的原理語(yǔ)音識(shí)別系統(tǒng)本質(zhì)上屬于模式識(shí)別的范疇。根據(jù)模式識(shí)別的原理,未知語(yǔ)音的模式與己知語(yǔ)音的參考模式逐一進(jìn)行比較和分析,最佳匹配的參考模式被作為識(shí)別的結(jié)果[19]。圖2-1就是根據(jù)模式識(shí)別匹配原理所構(gòu)成的語(yǔ)音識(shí)別系統(tǒng)的一個(gè)原理框圖:SKIPIF1<0圖2.1語(yǔ)音識(shí)別系統(tǒng)的原理框圖未知(待識(shí)別)語(yǔ)音經(jīng)過(guò)話筒變換成電信號(hào)(即圖中語(yǔ)音信號(hào))后加在識(shí)別系統(tǒng)的輸入端,首先要經(jīng)過(guò)預(yù)處理,預(yù)處理包括反混疊失真濾波、預(yù)加重和端點(diǎn)檢測(cè)。經(jīng)過(guò)預(yù)處理后,語(yǔ)音信號(hào)的特征被提取出來(lái)。常用的特征包括:短時(shí)平均能量或幅度、短時(shí)平均過(guò)零率、短時(shí)自相關(guān)函數(shù)、線性預(yù)測(cè)系數(shù)、倒譜、共振峰等。根據(jù)實(shí)際需要選擇語(yǔ)音特征參數(shù),這些特征參數(shù)的時(shí)間序列便構(gòu)成了待識(shí)別語(yǔ)音的模式,將其與已經(jīng)存儲(chǔ)在計(jì)算機(jī)內(nèi)的參考模式逐一進(jìn)行比較(模式匹配),獲得最佳匹配(由判決規(guī)則確定)的參考模式便是識(shí)別結(jié)果。參考模式是在系統(tǒng)使用前獲得并存儲(chǔ)起來(lái)的,為此,要輸入一系列已知語(yǔ)音信號(hào),提取它們的特征作為參考模式,這一過(guò)程稱為訓(xùn)練過(guò)程。顯然,最佳匹配結(jié)果的獲得與特征的選擇、語(yǔ)音模型的好壞、模板是否準(zhǔn)確都有直接的關(guān)系,這也是目前語(yǔ)音識(shí)別過(guò)程中的一個(gè)難點(diǎn)。語(yǔ)音信號(hào)分析大致可以分為時(shí)域分析和頻域分析[25,27]。時(shí)域分析的運(yùn)算簡(jiǎn)單,物理意義明確,但效果不佳,頻域分析雖然運(yùn)算較為復(fù)雜,但是它對(duì)語(yǔ)音信號(hào)能夠更有效的處理,所以大部分語(yǔ)音分析都以頻域分析為主。在說(shuō)話過(guò)程中,聲道的形狀是不斷發(fā)生變化的,所以語(yǔ)音信號(hào)在總體上是一種非平穩(wěn)過(guò)程。但由于聲道的變化是相對(duì)緩慢的,我們可以認(rèn)為它在短時(shí)間內(nèi)不發(fā)生變化,所以我們又可以認(rèn)為語(yǔ)音信號(hào)在短時(shí)間內(nèi)是平穩(wěn)的隨機(jī)信號(hào)。由此就產(chǎn)生了許多語(yǔ)音信號(hào)的短時(shí)分析和處理方法。語(yǔ)音信號(hào)分析又可以分為參數(shù)分析和非參數(shù)分析。參數(shù)分析法根據(jù)語(yǔ)音信號(hào)產(chǎn)生的模型(如聲管模型、共振峰模型等等)的理論,來(lái)分析和提取表征這些模型的特征參數(shù),而把不用模型化方法進(jìn)行分析的方法都稱之為非參數(shù)法。非參數(shù)分析法包括時(shí)域分析法、頻域分析法和同態(tài)分析法。倒譜參數(shù)是對(duì)語(yǔ)音信號(hào)進(jìn)行同態(tài)分析的結(jié)果。SKIPIF1<0圖2.2語(yǔ)音信息的編碼和解碼在語(yǔ)音識(shí)別系統(tǒng)中,通常假定語(yǔ)音是一種經(jīng)過(guò)編碼的信息流,如圖2-2所示。在對(duì)語(yǔ)音信號(hào)作分析和處理之前,必須先進(jìn)行信號(hào)的預(yù)處理,它應(yīng)包括電壓放大、增益控制、反混淆濾波、模數(shù)變換、預(yù)加重等。在需要語(yǔ)音輸出的場(chǎng)合,還要進(jìn)行數(shù)模變換和起平滑作用的模擬低通濾波器。具有良好的頻譜特性的傳聲器是保證語(yǔ)音輸入質(zhì)量的基礎(chǔ)。反混淆濾波器通常是帶通濾波器,采用帶通濾波器而不用低通濾波器的原因是為了排除工頻干擾(50HZ或60HZ),而帶通濾波器的高端截止頻率由采樣頻率決定。根據(jù)采樣定理,采樣頻率為f時(shí),不引起混淆的信號(hào)最高頻率不得超過(guò)f/2,這也就是帶通濾波器的高端截止頻率[20,21,21]。作為預(yù)處理的另一部分是在A/D變換后加一個(gè)6dB/倍頻程的提升高頻特性的預(yù)加重?cái)?shù)字濾波器。語(yǔ)音信號(hào)的平均功率譜受聲門激勵(lì)(12dB/倍頻程跌落)和口鼻輻射(6dB/倍頻程上升)的影響,總效果大約在200Hz到5000Hz按6dB/倍頻程跌落。預(yù)加重的目的就是要提升高頻部分,使語(yǔ)音信號(hào)的頻譜變得平坦,以抵消濁音語(yǔ)音中由于聲門波引起的頻譜幅度下跌,便于以后進(jìn)行的頻域分析或聲道參數(shù)分析。預(yù)加重?cái)?shù)字濾波器一般是一階FIR濾波器。語(yǔ)音信號(hào)本身的各種特點(diǎn)決定了語(yǔ)音識(shí)別的復(fù)雜性和艱巨性。這些特點(diǎn)包括語(yǔ)音的差異性,動(dòng)態(tài)性,以及發(fā)音的連貫性等。語(yǔ)音的差異性可分為好多種。有生理因素的作用,如聲道長(zhǎng)度、鼻腔形狀等。對(duì)同一個(gè)字,男性與女性、成人與兒童的發(fā)音就不相同;有環(huán)境因素的作用,如傳感器的位置和特性;也有社會(huì)因素的作用,如各地域的方言和語(yǔ)言習(xí)慣等;另外還受說(shuō)話人心情的影響,一個(gè)人在喜怒哀樂(lè)不同情緒下,對(duì)同一個(gè)字的發(fā)音也會(huì)有所不同。此外,語(yǔ)言學(xué)因素的影響亦會(huì)造成發(fā)音的變化。比如語(yǔ)言的上下文不同,造成的連續(xù)說(shuō)話時(shí)的協(xié)同發(fā)音現(xiàn)象[23,24]。語(yǔ)音的動(dòng)態(tài)性就是語(yǔ)音信號(hào)的非平穩(wěn)隨機(jī)性,語(yǔ)音信息除了由音段和超音段兩種形式表征外,語(yǔ)音信號(hào)隨時(shí)間變化的動(dòng)態(tài)特性也攜帶了大量的區(qū)分信息。對(duì)于許多音位來(lái)說(shuō),其動(dòng)態(tài)變化對(duì)語(yǔ)音感知的作用比靜態(tài)部分更為重要。特別是輔音音位,構(gòu)成輔音音位的特點(diǎn)是阻礙和動(dòng)態(tài),任何穩(wěn)定的孤立的分析都不能描述輔音的全貌,而語(yǔ)音中的短時(shí)爆發(fā)音素(5ms左右)常常在分幀分析時(shí)又的不到足夠的體現(xiàn)。發(fā)音的連貫性是指在連續(xù)發(fā)音中,從一個(gè)音位過(guò)渡到下一個(gè)音位時(shí)是連續(xù)的、平滑的,它們之間是模糊的,沒(méi)有明顯的分界線,從一個(gè)字結(jié)束到下一個(gè)字開(kāi)始也沒(méi)有明顯的停頓。這必然造成音與音,字與字,詞與詞之間的分割困難。例如協(xié)同發(fā)音引起的參數(shù)會(huì)增加很多麻煩。因此,連續(xù)語(yǔ)音識(shí)別系統(tǒng)同孤立音節(jié)識(shí)別系統(tǒng)所面對(duì)的是截然不同的情況,它所要處理的問(wèn)題要復(fù)雜得多,所遇到的困難也要大得多。由此可見(jiàn),語(yǔ)音識(shí)別是一項(xiàng)非常艱巨的任務(wù),要想達(dá)到最終的目標(biāo),實(shí)現(xiàn)真正的人機(jī)對(duì)話,還有以下幾個(gè)方面的難題需要解決。首先,一個(gè)實(shí)用的語(yǔ)音識(shí)別系統(tǒng)應(yīng)具有良好的抗噪性、可移植性和適應(yīng)性,即可以適用于不同的噪聲環(huán)境,易于移植以適用不同的應(yīng)用,并能對(duì)外界變化自適應(yīng)(新的話者、環(huán)境、麥克風(fēng)等等)。其次,現(xiàn)有的系統(tǒng)大都采用統(tǒng)計(jì)語(yǔ)言模型,但人是通過(guò)理解而聽(tīng)懂的,況且遇到詞表外的詞匯時(shí),系統(tǒng)也應(yīng)能正確識(shí)別。另外,一個(gè)好的語(yǔ)音識(shí)別系統(tǒng)應(yīng)能夠接受自然的語(yǔ)音輸入,并且應(yīng)能利用韻律信息來(lái)提高識(shí)別率。人們說(shuō)話的語(yǔ)調(diào)、聲調(diào)、重音、節(jié)奏,乃至情感,都能表達(dá)不同的意思。這方面的工作還有很多要做,許多問(wèn)題現(xiàn)在尚無(wú)答案。此外,人們對(duì)字和音索的感知還需要能反映發(fā)音器官運(yùn)動(dòng)的特征,通常這類特征是動(dòng)態(tài)的。如何描述這種動(dòng)態(tài),并將它同現(xiàn)有的特征參數(shù)結(jié)合到識(shí)別系統(tǒng)中,仍是一個(gè)沒(méi)有解決的問(wèn)題。以上所說(shuō)的各種對(duì)語(yǔ)音信號(hào)有影響的因素,主要是在聲學(xué)特性方面,而在語(yǔ)言模型和語(yǔ)言理解方面,語(yǔ)音識(shí)別就面臨著更大的挑戰(zhàn)。人們對(duì)于自身如何聽(tīng)懂別人說(shuō)話的過(guò)程,尤其是對(duì)大腦對(duì)于語(yǔ)言理解的過(guò)程知之甚少。雖然人工智能對(duì)于大腦智能的某些方面有了較好地描述,但實(shí)際上最近幾十年在語(yǔ)言理解方面,人工智能并沒(méi)有突破性的進(jìn)展。語(yǔ)音識(shí)別開(kāi)始是應(yīng)用人工智能中基于規(guī)則的、受限文法的語(yǔ)言模型,但其不能適應(yīng)語(yǔ)言中干變?nèi)f化的表達(dá)形式,而沒(méi)有被人們廣泛采用。取而代之的是基于統(tǒng)計(jì)的語(yǔ)言模型,并取得了較好的效果。但是很顯然基于統(tǒng)計(jì)的方法同樣不能很好地描述語(yǔ)言的行為規(guī)律,它只是人們?cè)谡也坏礁玫慕鉀Q方法之前的權(quán)宜之計(jì),它所能帶來(lái)的最好性能遠(yuǎn)遠(yuǎn)不能滿足人們的需要。所以在某種程度上可以說(shuō),目前影響語(yǔ)音識(shí)別發(fā)展最主要的瓶頸不在聲學(xué)模型,而在語(yǔ)言模型。而且一旦在這一方面出現(xiàn)重大突破,那么與此相關(guān)的語(yǔ)義理解、機(jī)器翻譯等領(lǐng)域都會(huì)有突飛猛進(jìn)的發(fā)展。2.2語(yǔ)音識(shí)別的基本算法概述隱馬爾可夫模型[25,26](HiddenMarkovModels,簡(jiǎn)稱HMM)作為語(yǔ)音依賴的一種統(tǒng)計(jì)模型,今天正在語(yǔ)音處理各個(gè)領(lǐng)域中獲得廣泛的應(yīng)用。自從1980年Baum和Babiner既等人提出HMM方法以來(lái)的20多年時(shí)間里,人們對(duì)HMM用于語(yǔ)音識(shí)別的研究從沒(méi)有停止過(guò),并使HMM得到了很大的發(fā)展,如提出了半連續(xù)密度HMM模型、連續(xù)密度HMM模型以及訓(xùn)練和識(shí)別時(shí)使用的各種準(zhǔn)則。由于HMM有一個(gè)有效的學(xué)習(xí)算法及解碼算法,今天,HMM方法是語(yǔ)音識(shí)別中最有效、應(yīng)用最為廣泛的方法,HMM的一些傳統(tǒng)缺點(diǎn)也通過(guò)不斷的改進(jìn)得以克服,這方面的成功是顯著的。最早用在語(yǔ)音識(shí)別中的聲學(xué)匹配算法[27]是基于傳統(tǒng)模式識(shí)別理論的模板匹配法,如規(guī)則匹配法、基于時(shí)域、頻域二元特征的表格匹配法等。該方法在20世紀(jì)的50年代末到60年代中期十分盛行,而且各種模板匹配算法也層出不窮,但是由于語(yǔ)音信號(hào)的隨機(jī)性很大,即使同一個(gè)人在同一語(yǔ)境中發(fā)的同—個(gè)音,在不同時(shí)刻也不可能具有相同的時(shí)長(zhǎng),所以利用模扳匹配法無(wú)法取得令人滿意的識(shí)別結(jié)果。這正是Pierce在l969年給JASA編輯的信中(WitherSpeechRecognition)嚴(yán)厲批評(píng)當(dāng)時(shí)語(yǔ)音識(shí)別技術(shù)粗劣的原因。到了20世紀(jì)70年代,Sakoe,Chiba等人首先將運(yùn)籌學(xué)中的動(dòng)態(tài)規(guī)劃技術(shù)(DynamicProgramming)引入到語(yǔ)音識(shí)別中,真正解決了輸入語(yǔ)音特征矢量序列與參考模板之間的時(shí)間對(duì)正和匹配問(wèn)題。1976年,他們又對(duì)此技術(shù)進(jìn)行了優(yōu)化,設(shè)計(jì)實(shí)現(xiàn)了一個(gè)以LPC系數(shù)為特征的語(yǔ)音識(shí)別系統(tǒng),并獲得了較好的識(shí)別結(jié)果。當(dāng)時(shí)Sakoe等使用的技術(shù)正是我們今天所稱的DTW技術(shù)(DynamicTimeWarping)。可以說(shuō)DTW技術(shù)的出現(xiàn)是語(yǔ)音識(shí)別的一個(gè)里程碑,它使語(yǔ)音識(shí)別技術(shù)空前活躍起來(lái)。同一時(shí)期,其它技術(shù)也紛至沓來(lái),為語(yǔ)音識(shí)別注入了活力。同時(shí),矢量量化技術(shù)也在語(yǔ)音識(shí)別中得到了廣泛的應(yīng)用,如有限狀態(tài)矢量量化FSVQ(FiniteStateVectorQuantization)[28],自適應(yīng)矢量量化AVQ(AdaptationVQ)[29],矢量預(yù)測(cè)量化VPQ(VectorPedictionQuantization)[30]等。20世紀(jì)60年代末和70年代初,Baum和他的同事在Markov模型理論方面做了相當(dāng)多的工作,為基于HMM的語(yǔ)音識(shí)別方法奠定了基礎(chǔ)。70年代,Baker,Jelinek等人首先將基于HMM的統(tǒng)計(jì)方法用于語(yǔ)音識(shí)別中,其中Bakrt利用HMM來(lái)描述聲學(xué)序列,而Jelinek用它來(lái)描述語(yǔ)言序列。HMM在語(yǔ)音識(shí)別中的應(yīng)用可以說(shuō)開(kāi)創(chuàng)了語(yǔ)音識(shí)別技術(shù)發(fā)展中的第二個(gè)里程碑。但在當(dāng)時(shí),HMM技術(shù)并不被大多數(shù)人所理解,其主要原因是:①最早的有關(guān)HMM的文章主要刊登在一些數(shù)學(xué)期刊中,而從事語(yǔ)音識(shí)別的工程人員很少閱讀這些期刊;②在當(dāng)時(shí),缺乏全面介紹HMM技術(shù)的綜述性文章。直到20世紀(jì)80年代,Rabiner的一篇“ATutorialonHiddenMarkovModelsandSelectedApplicationinSpeechRecognition”才使眾多的語(yǔ)音識(shí)別研究人員真正理解了HMM的內(nèi)涵。從20世紀(jì)80年代中期至現(xiàn)在,在短短的20年中,HMM無(wú)論是從理論上還是從技術(shù)上,都取得了重大進(jìn)步,并成了語(yǔ)音識(shí)別的主流算法。X.Huang提出了半連續(xù)HMM模型(SCHMM)[31,32,33],B.Juang,L.Rabinar等在保正訓(xùn)練過(guò)程收斂的條件下,將連續(xù)密度HMM中密度函數(shù)的約束由對(duì)數(shù)凹(LogarithmicConcavity)擴(kuò)展到橢圓對(duì)稱(EllipticalSymmetry),并提出了基于高斯混合密度的HMM模型,擴(kuò)充了密度函數(shù)選擇的自由度。P.Brown等在深入分析了基于最大似然準(zhǔn)則(MaximumLiklihood)訓(xùn)練HMM模型參數(shù)理論上的不足后,提出了基于最大互信息準(zhǔn)則(MaximumMutualInformation)的新的訓(xùn)練算法。與此同時(shí),許多學(xué)者從不同角度還提出了另外一些新的訓(xùn)練算法,如最小區(qū)分信息準(zhǔn)則[34](MinimumDiscriminativeInformation)、最小誤識(shí)率準(zhǔn)則(MEE)[35]、最大后驗(yàn)概率準(zhǔn)則(MaximumAPosterior)[36]等。近十年是語(yǔ)音識(shí)別研究員活躍的十年,新的方法層出不窮。值得一提的是人工神經(jīng)網(wǎng)絡(luò)(ANN)在語(yǔ)音識(shí)別中的應(yīng)用。1986年,Meclelland和Elman等在TRACE系統(tǒng)中率先實(shí)現(xiàn)了利用ANN來(lái)對(duì)相鄰語(yǔ)音段相關(guān)信息的描述。1987年,LiPPmann等人對(duì)六種不同結(jié)構(gòu)的ANN在語(yǔ)音識(shí)別中的應(yīng)用進(jìn)行了分析,探索了用ANN解決語(yǔ)音模板分類的機(jī)制和特點(diǎn)[23]。為了解決語(yǔ)音識(shí)別中的時(shí)長(zhǎng)問(wèn)題,Waibel等提出了時(shí)延神經(jīng)網(wǎng)絡(luò)IDNN((Time-DelayNeuralNetwork),Robinson提出了循環(huán)網(wǎng)絡(luò)RNN(RecurrentNN),Levin提出了HCNN(HiddenControlNN),Bourland提出了帶有上下文信息和反饋輸入的循環(huán)多層感知器等。但出入意料的是,盡管神經(jīng)網(wǎng)絡(luò)克服了HMM的許多不足,神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用并沒(méi)有起初人們想象的那樣樂(lè)觀,單獨(dú)使用神經(jīng)網(wǎng)絡(luò)并沒(méi)有達(dá)到比HMM更好的識(shí)別結(jié)果。總之,盡管新的方法和思路不斷涌現(xiàn),但基于HMM的識(shí)別算法仍是當(dāng)前語(yǔ)音識(shí)別的主流算法。隱馬爾可夫模型利用概率及統(tǒng)計(jì)范疇的成功地解決了:如何辨識(shí)具有不同參數(shù)的短時(shí)平穩(wěn)信號(hào)段,怎樣跟蹤它們之間的轉(zhuǎn)化等問(wèn)題。在進(jìn)行識(shí)別時(shí),為每一個(gè)參考模型計(jì)算出產(chǎn)生測(cè)試觀察的概率,且測(cè)試信號(hào)(即輸入信號(hào))按最大被識(shí)別為某個(gè)單詞。所以HMM對(duì)語(yǔ)音識(shí)別具有很重要的意義。HMM模型的結(jié)構(gòu)HMM的結(jié)構(gòu)主要有兩種,一種是各自循環(huán)的,另一種是從左至右的,如圖2.3所示,圖(a)是一種各自循環(huán)的HMM結(jié)構(gòu),可以應(yīng)用于說(shuō)話人識(shí)別、語(yǔ)種辨識(shí)等場(chǎng)合,而圖(b)和圖(c)則分別是三轉(zhuǎn)移和二轉(zhuǎn)移的從左到右的HMM結(jié)構(gòu),語(yǔ)音識(shí)別系統(tǒng)一般都采用這種從左至右的HMM結(jié)構(gòu)。圖2.3HMM模型的結(jié)構(gòu)類型在確定了HMM模型的結(jié)構(gòu)后,一個(gè)HMM模型λ就可以用三個(gè)參數(shù)來(lái)完全描述了。它們是狀態(tài)的初始分布π、狀態(tài)的轉(zhuǎn)移概率矩陣A和狀態(tài)的輸出概率矩陣B,即λ=(π,A,B)。下面是這三個(gè)參數(shù)的定義:(l)π=[π1,π2,…,πN]為初始分布,用于描述觀察序列O在t=1時(shí)刻時(shí)所處狀態(tài)q1屬于模型中各狀態(tài)的概率分布,即:πi=P(q1=Si),i=1,2,…,N(2-1)滿足:SKIPIF1<0(2)A={aij|i,j=1,2,…,N}為狀態(tài)轉(zhuǎn)移概率矩陣,假設(shè)當(dāng)前所處狀態(tài)qt只與前一時(shí)刻所處狀態(tài)qt-1有關(guān),即:aij=P(qt=sj|qt-1=Si,qt-2=sk,…)=P(qt=Sj|qt-1=si)(2-2)滿足:SKIPIF1<0(3)B=bj(Oi)是為觀測(cè)事件輸出概率矩陣,即狀態(tài)j時(shí)出現(xiàn)觀測(cè)事件Oi的概率。根據(jù)觀測(cè)事件Oi的形式,可以把HMM分為兩大類,也就是離散HMM(DHMM)和連續(xù)HMM(CHMM),DHMM對(duì)應(yīng)的輸出概率B是一個(gè)概率矩陣,而CHMM對(duì)應(yīng)的輸出概率B則是一個(gè)輸出概率密度函數(shù)。在DHMM中,觀測(cè)事件序列為符號(hào)序列,每一個(gè)觀測(cè)事件是一個(gè)符號(hào),B是一個(gè)狀態(tài)概率矩陣:B={bj(k),j=1,2,…,M}(2-3)它滿足SKIPIF1<0,bj(K)表示第j個(gè)狀態(tài)的第K個(gè)符號(hào)的輸出概率。在CHMM中,觀測(cè)事件序列為矢量序列,每一個(gè)觀測(cè)事件是一個(gè)矢量,B是一個(gè)概率密度函數(shù):SKIPIF1<0(2-4)上面給出的是一個(gè)混合高斯密度函數(shù),其中Ni表示第i個(gè)高斯密度函數(shù)分量,M表示第j個(gè)狀態(tài)的高斯概率密度函數(shù)的個(gè)數(shù),cjl表示第j個(gè)狀態(tài)的第l個(gè)高斯密度函數(shù)分量的權(quán)值。高斯密度函數(shù)的形式如下:SKIPIF1<0(2-5)Oi表示觀察矢量ujl表示第j個(gè)狀態(tài),第l個(gè)高斯密度函數(shù)分量的均值矢量∑jl表示表示第j個(gè)狀態(tài),第1個(gè)高斯密度函數(shù)分量的協(xié)方差矩陣上面給出了HMM模型的定義,圖2.4是用HMM模型對(duì)詞匯“江蘇”的發(fā)音進(jìn)行建模的一個(gè)例子。這里HMM模型采用了從左至右二轉(zhuǎn)移的結(jié)構(gòu),用了4個(gè)馬爾科夫狀態(tài)來(lái)描繪“江蘇”這個(gè)發(fā)音的過(guò)程,其中矢量序列O={O1,O2,O3,…OT}是對(duì)“江蘇”這段語(yǔ)音進(jìn)行分幀后求得的特征矢量序列.對(duì)“江蘇”這個(gè)詞進(jìn)行發(fā)音的過(guò)程中,大腦首先位于狀態(tài)S1(對(duì)應(yīng)的是音節(jié)“jiang’中聲母“j”的發(fā)音),并且在該狀態(tài)持續(xù)一段時(shí)間并輸出矢量序列O1,O2,O3,…On,然后跳轉(zhuǎn)到狀態(tài)S2(對(duì)應(yīng)的是音節(jié)“jiang’’中的韻母“iang”的發(fā)音),并在該狀態(tài)輸出矢量序列On,On+1,…Om,然后再跳轉(zhuǎn)到狀態(tài)S3,重復(fù)同樣的過(guò)程,直到發(fā)音完畢。可以看到,大腦發(fā)音過(guò)程中所處的狀態(tài)S是隱含的,不可觀測(cè)的,通過(guò)這些隱含的狀態(tài)輸出的語(yǔ)音信號(hào)特征矢量序列O則是一個(gè)可觀察的序列,HMM通過(guò)這樣一個(gè)雙隨機(jī)過(guò)程,合理地模仿了人發(fā)音的過(guò)程。圖2.4用HMM模型對(duì)語(yǔ)音信號(hào)進(jìn)行建模的例子前向和后向算法前向和后向算法用于解決HMM模型的第一個(gè)問(wèn)題:給定觀察序列O=O1O2…OT和HMM模型λ=(π,A,B),計(jì)算觀察序列對(duì)HMM模型的輸出概率p(O|λ)最直接的求取方法如下:對(duì)一個(gè)固定的狀態(tài)序列Q=q1,q2,…,qT有:SKIPIF1<0(2-6)對(duì)于給定的λ,產(chǎn)生Q的概率為:SKIPIF1<0(2-7)上式的計(jì)算量非常大,現(xiàn)實(shí)中并不實(shí)用,因此需要一個(gè)高效的算法來(lái)計(jì)算,前向和后向算法就是解決問(wèn)題的有效算法。(1)前向算法前向概率變量α被定義為αi(i)=P(O1,O2,…Ot,qt=θ|λ),表示已知HMM模型參數(shù)為λ的情況下,產(chǎn)生部分觀察序列{O1,O2,…Ot},并且在時(shí)刻t處于狀態(tài)θi的概率。則前向算法采用如下的遞推方式求p(O|λ):初始化:α1(i)=πibi(O1),1≤i≤N遞推:對(duì)于1≤t≤T-1,1≤j≤N有SKIPIF1<0(2-8)SKIPIF1<0(2-9)(2)后向算法后向概率變量β定義為βi(i)=p(Oi+1,Oi+2,…,OT,qt=θi|λ),表示已知HMM模型參數(shù)為λ的情況下,產(chǎn)生部分觀察序列{Oi+1,Oi+2,…,OT},并且在時(shí)刻t處于狀態(tài)θi的概率。則后向算法采用如下的遞推方式求p(O|λ):初始化:βT(i)=1,1≤i≤N遞推:對(duì)于t=T-1,T-2,…,1,1≤j≤N有SKIPIF1<0(2-10)SKIPIF1<0(2-11)前向概率變量α和后向概率變量β巧妙地將整個(gè)觀察系列對(duì)HMM模型的輸出概率分成兩個(gè)部分觀察序列的輸出概率的乘積,而且它們各自都有相應(yīng)的遞推公式,可以大大簡(jiǎn)化計(jì)算。經(jīng)過(guò)分析,可以得到下面的輸出概率計(jì)算公式:SKIPIF1<0(2-12)前向概率變量a和后向概率變量聲在HMM算法中應(yīng)用非常普遍,Viterbi算法Viterbi算法用于解決HMM模型的第二個(gè)問(wèn)題:給定觀察序列O=O1O2…OT和HMM模型λ=(π,A,B),找出產(chǎn)生該序列的最佳狀態(tài)序列Q=[q1,q2,…qN]。這其實(shí)就是HMM模型中的識(shí)別問(wèn)題。假設(shè)系統(tǒng)在時(shí)刻t處于狀態(tài)I,即qt=i,而先前時(shí)刻的狀態(tài)為q1,q2,…qt-1可以任意選擇則可以找到一條從1到t的路徑,使得產(chǎn)生輸出序列O1O2…Ot的概率達(dá)到最大。將此概率最大值記為δt(i),有:SKIPIF1<0(2-13)則可以用如下的遞推方示求取最佳狀態(tài)序列Q:初始化:δt(i)=πib1(O1),1≤i≤Nψ1(i)=0遞推:對(duì)于2≤t≤T,1≤j≤N,有SKIPIF1<0SKIPIF1<0(2-14)可以看到,Viterbi算法用遞推的方式求取最佳狀態(tài)序列,它通過(guò)求取每一步的局部最優(yōu)值,得到最終的全局最優(yōu)值,每一步局部最優(yōu)的求取只與前一步的結(jié)果有關(guān),這是一種基于DP動(dòng)態(tài)規(guī)劃的思想,能夠大大減少計(jì)算量,因此用Viterbi算法計(jì)算觀察序列在模型λ下的最大輸出概率非常有效。Baum-Welch算法Baum-Welch算法用于解決HMM模型的第三個(gè)問(wèn)題,即給定觀察序列O=O1O2…OT,確定HMM模型λ=(π,A,B)的三個(gè)參數(shù),使在該HMM模型下產(chǎn)生該觀察序列的概率最大。為了對(duì)HMM模型的參數(shù)進(jìn)行估計(jì),人們提出了一系列的準(zhǔn)則,如ML(MaximumLikelihood)最大似然度準(zhǔn)則,MAP(MaximumaPosteriori)最大后驗(yàn)概率準(zhǔn)則,MCE(MinimumClassificationError)最小分類誤差等。Baumn-Welch算法就是基于ML準(zhǔn)則的一種參數(shù)估計(jì)方法,在HMM識(shí)別系統(tǒng)中用的非常廣泛。定義εt(i,j)為給定序列O和模型λ時(shí),HMM模型在t時(shí)刻處于i狀態(tài),t+1時(shí)刻處于j狀態(tài)的概率,即SKIPIF1<0(2-15)通過(guò)推導(dǎo),可以得到:SKIPIF1<0(2-16)2.3Internet中語(yǔ)音識(shí)別的應(yīng)用對(duì)于語(yǔ)音應(yīng)用來(lái)說(shuō),以往的語(yǔ)音應(yīng)用建立于簡(jiǎn)單、封閉的交互機(jī)制上。其數(shù)據(jù)來(lái)源基本為事先的預(yù)制錄音,操作流程為簡(jiǎn)單的菜單式按鍵選擇。隨著語(yǔ)音識(shí)別、語(yǔ)音合成等新的人機(jī)交互方式的成熟應(yīng)用,傳統(tǒng)的CTI系統(tǒng)具備了新的交互能力。而語(yǔ)音瀏覽正是為適應(yīng)這種新的交互方式和Internet應(yīng)用的結(jié)合而誕生的。語(yǔ)音瀏覽使傳統(tǒng)的簡(jiǎn)單機(jī)成為了一種功能強(qiáng)大且操作簡(jiǎn)單的數(shù)據(jù)訪問(wèn)終端,將數(shù)據(jù)和交互建立于Internet瀏覽結(jié)構(gòu)之上,從而使機(jī)這樣簡(jiǎn)單的設(shè)備可以比其它網(wǎng)絡(luò)終端更為容易和方便的暢游Internet。隨著通信的發(fā)展,人們幾乎無(wú)時(shí)無(wú)處不可以使用。這極大地方便人們,同時(shí)也為語(yǔ)音識(shí)別帶來(lái)了前所未有的挑戰(zhàn)。影響速度的因素有:網(wǎng)絡(luò)受帶寬的限制,基本算法復(fù)雜等因素影響識(shí)別的速度。我們不得不面對(duì)比桌面識(shí)別系統(tǒng)復(fù)雜得多的環(huán)境因素,影響識(shí)別率的因素也很多:信噪比很低的情況(如戶外用戶)、很多實(shí)際環(huán)境噪聲是高度非穩(wěn)態(tài)的、背景環(huán)境中存在其它講話者的話音以及用戶在不自覺(jué)中發(fā)音方式的改變(Lombard效應(yīng))等等。另外,和所有的手持設(shè)備一樣,語(yǔ)音的音質(zhì)與受話器的位置變化關(guān)系密切,并嚴(yán)重影響語(yǔ)音識(shí)別的結(jié)果。語(yǔ)音瀏覽類同于Internet與客戶端計(jì)算機(jī)之間的瀏覽機(jī)制。從而將龐大的最為普及的語(yǔ)音通訊網(wǎng)絡(luò)有機(jī)的融入了豐富的Internet中,使建立于數(shù)據(jù)網(wǎng)絡(luò)之上的應(yīng)用得到了最廣泛的延伸。為何語(yǔ)音應(yīng)用技術(shù)對(duì)于互聯(lián)網(wǎng)絡(luò)、信息技術(shù)如此重要?首先,人類的自然語(yǔ)音通過(guò)能夠被識(shí)別和理解,那么無(wú)疑是最適合的一種工具,用來(lái)提供大多數(shù)用戶在互聯(lián)網(wǎng)上所需求的信息和服務(wù)。互聯(lián)網(wǎng)提供了各種各樣的大量實(shí)用信息,但是這些信息并不是隨處可得的,用戶必須在家里或辦公室通過(guò)電腦聯(lián)網(wǎng)來(lái)獲得這些信息。消費(fèi)者對(duì)于互聯(lián)網(wǎng)內(nèi)容和信息的大量需求促使各種生產(chǎn)廠商設(shè)計(jì)出各種各樣的產(chǎn)品,如PDA、等這些可隨身攜帶又能直接與網(wǎng)絡(luò)互聯(lián)的產(chǎn)品。WAP蜂窩等目前是最流行也是最符合要求的典型例子。這些設(shè)備的快速發(fā)展促使通過(guò)手持設(shè)備和來(lái)訪問(wèn)互聯(lián)網(wǎng)的內(nèi)容是可以實(shí)現(xiàn)的。另外,隨著移動(dòng)越來(lái)越小,越來(lái)越輕便,越來(lái)越便宜,以及移動(dòng)電池使用時(shí)間越來(lái)越長(zhǎng),其所具備的便攜性遠(yuǎn)勝于電腦。而伴隨移動(dòng)通信技術(shù)的飛速發(fā)展,他們更具備了電腦不具備的優(yōu)勢(shì),比如全球定位。用戶甚至可以在開(kāi)車時(shí)方便的使用移動(dòng),甚至在不久的將來(lái)使用車載,通過(guò)車載來(lái)尋找相關(guān)的信息。語(yǔ)音具有其無(wú)與倫比的獨(dú)特優(yōu)勢(shì),而且語(yǔ)音比鍵盤和閱讀更具有親切感。當(dāng)然,圖像和文字依然很重要,將來(lái)會(huì)出現(xiàn)“多模式”的設(shè)備,可以以圖像和文字的方式進(jìn)行,或以語(yǔ)音的方式進(jìn)行,甚至可以混合語(yǔ)音和圖像信息。而這正是語(yǔ)音應(yīng)用技術(shù)帶來(lái)的美好前景。同樣,語(yǔ)音對(duì)于Internet也一樣重要。首先,基于語(yǔ)音瀏覽技術(shù)的語(yǔ)音應(yīng)用系統(tǒng)的開(kāi)發(fā)很容易,應(yīng)用語(yǔ)音應(yīng)用技術(shù)可以輕松建立豐富、廉價(jià)和高效的Web應(yīng)用及其開(kāi)發(fā)工具。其次,語(yǔ)音應(yīng)用系統(tǒng)很容易發(fā)布,不再需要建立一個(gè)指定的專用語(yǔ)音服務(wù)器,基于語(yǔ)音瀏覽機(jī)制的語(yǔ)音應(yīng)用可以放棄Internet上的任意一個(gè)地方,而用戶通過(guò),可以像使用IE這樣的瀏覽器一樣進(jìn)行查詢、書簽以及鏈接等其他Web的瀏覽方式。2.4本章小結(jié)本章從概念、分類以及特點(diǎn)等多個(gè)方面對(duì)語(yǔ)音識(shí)別技術(shù)進(jìn)行了詳細(xì)的分析,介紹語(yǔ)音識(shí)別的關(guān)鍵技術(shù)和算法,并在此基礎(chǔ)上詳細(xì)闡述了Internet語(yǔ)音識(shí)別技術(shù)的要求,為下一章SALT技術(shù)的引入進(jìn)行了有力的鋪墊。
第3章基于WEBSALT語(yǔ)音識(shí)別3.1SALT技術(shù)SALT(SpeechApplicationLanguageTags,語(yǔ)音應(yīng)用語(yǔ)言標(biāo)記)作為對(duì)通常使用的Web編程語(yǔ)言的擴(kuò)充,SALT規(guī)范定義了一組標(biāo)記并且整合了W3C(全球網(wǎng)聯(lián)合會(huì))和工ETF(因特網(wǎng)工程任務(wù)組)的現(xiàn)有標(biāo)準(zhǔn)。其目標(biāo)使用領(lǐng)域是語(yǔ)音和多媒體Web應(yīng)用程序。有了它,PC、、、PDA以及PocketPC和最新推出的TabletPC等設(shè)備都可以訪問(wèn)基于Web的信息、程序和服務(wù)。SALT技術(shù)知識(shí)分析SALT(語(yǔ)音應(yīng)用語(yǔ)言標(biāo)記)是一種能為用戶與電子設(shè)備間的交互提供新方法的語(yǔ)音標(biāo)記語(yǔ)言,是一種能為用戶與電子設(shè)備間的交互提供新方法的語(yǔ)音標(biāo)記語(yǔ)言。SALT適用于語(yǔ)音驅(qū)動(dòng)以及所謂的“多模式”Web應(yīng)用[39]──即那些將語(yǔ)音交互與傳統(tǒng)界面模式混合在一起的應(yīng)用。該技術(shù)能與可視及核心Web技術(shù)直接集成,并以人類所共有的語(yǔ)音—這種最自然、有效的用戶界面來(lái)提供豐富的設(shè)備應(yīng)用—包括移動(dòng)、、桌面等。多模式應(yīng)用比單模式應(yīng)用能為終端用戶提供更多的東西:比如圖形用戶界面(GUI)以外的語(yǔ)音輸入等。由于今天的Web頁(yè)面能托管各種可視及多媒體組件,因此具有豐富的交互前景。讓我們來(lái)考慮幾種情況:使用PDA(個(gè)人數(shù)字助理)時(shí),用戶一般不得不在一個(gè)微型鍵盤上費(fèi)勁地敲擊以將數(shù)據(jù)輸進(jìn)Web表格中,而PDA語(yǔ)音接口則使他們通過(guò)說(shuō)話來(lái)直接將數(shù)據(jù)輸進(jìn)表格中。在其他的移動(dòng)情況中,比如在倉(cāng)庫(kù)內(nèi)或正在駕駛時(shí),用戶可能主要需要與他們的設(shè)備進(jìn)行“不用眼睛”和/或“不用手”的交互。SALT語(yǔ)音接口可進(jìn)行語(yǔ)音輸入及輸出來(lái)驅(qū)動(dòng)應(yīng)用。在桌面或家庭設(shè)置中,許多應(yīng)用都可利用到語(yǔ)音這種額外的交互方式。SALT語(yǔ)音接口可為用戶界面提供極大豐富的功能,比如屏幕閱讀、語(yǔ)音網(wǎng)上沖浪、快速數(shù)據(jù)輸入以及“指向-點(diǎn)擊-說(shuō)話”功能。有多種體系結(jié)構(gòu)可以支持用戶界面模式的匯集。SALT獨(dú)立地運(yùn)行主機(jī)標(biāo)記語(yǔ)言,亦即語(yǔ)音接口可被集成到任何適合使用標(biāo)記的客戶機(jī)設(shè)備上?,F(xiàn)有的Web基礎(chǔ)設(shè)施具有同樣的功能。利用SALT,Web頁(yè)面腳本及其他代碼可以訪問(wèn)及控制語(yǔ)音功能,且SALT可以和任何當(dāng)今或?qū)?lái)的Web標(biāo)準(zhǔn)一起使用──包括HTML以超文本標(biāo)記語(yǔ)言)、XHTML(可擴(kuò)展超文本標(biāo)記語(yǔ)言)、WML(無(wú)線標(biāo)記語(yǔ)言)以及SM工以同步多媒體集成語(yǔ)言)等?,F(xiàn)在,開(kāi)發(fā)商不是在用語(yǔ)音來(lái)加強(qiáng)可視頁(yè)面,就是在將可視界面完全移植到中。隨著時(shí)間的推移,他們將發(fā)現(xiàn)SALT是對(duì)他們技術(shù)集合的一種自然擴(kuò)展。另外,語(yǔ)音業(yè)務(wù)是組件式的,也就是說(shuō),語(yǔ)音識(shí)別和/或語(yǔ)音合成既可以嵌入到設(shè)備中,又可以運(yùn)行于遠(yuǎn)程機(jī)器上。這使得小型設(shè)備一如移動(dòng)等能利用遠(yuǎn)程服務(wù)器上的資源來(lái)運(yùn)行SALT應(yīng)用。而且,也可以將像語(yǔ)音文件及語(yǔ)法規(guī)則這樣的大型或動(dòng)態(tài)資源駐存在遠(yuǎn)程位置上。[40,41]致力于通過(guò)向諸如HTML和XHTML之類的標(biāo)準(zhǔn),并向Web及IVR開(kāi)發(fā)工具[42,43]提供擴(kuò)展,以促進(jìn)應(yīng)用軟件中的這種多模式能力和語(yǔ)音驅(qū)動(dòng)接口。由于大批Web開(kāi)發(fā)商對(duì)利用語(yǔ)音來(lái)創(chuàng)建多模式或用戶界面的可能性感到非常興奮,因此越來(lái)越多的應(yīng)用將以擁有語(yǔ)音及多模式的承諾來(lái)提交,從而為用戶提供一種最豐富而又最自然的Web交互方式[41]。商家們正在為各種平臺(tái)開(kāi)發(fā)具有SALT功能的瀏覽器,例如微軟將很快為InternetExplorer,PocketInternetExplorer公布SALT插件以及SALT應(yīng)用服務(wù)器。微軟公司已經(jīng)發(fā)布了能夠無(wú)縫嵌入到該公司開(kāi)發(fā)環(huán)境VisualStudio.NET中的支持SALT的語(yǔ)音開(kāi)發(fā)工具包(SpeechApplicationSoftwareDevelopmentKit,SASDK)。SALT作為對(duì)通常使用的Web編程語(yǔ)言的擴(kuò)充,SALT規(guī)范定義了一組標(biāo)記并且整合了W3C(全球網(wǎng)聯(lián)合會(huì))和IETF(因特網(wǎng)工程任務(wù)組)的現(xiàn)有標(biāo)準(zhǔn)。SALT規(guī)范的目標(biāo)使用領(lǐng)域是語(yǔ)音和多媒體Web應(yīng)用程序。有了它,PC、、移動(dòng)、PDA以及PocketPC和最新推出的TabletPC等設(shè)備都可以訪問(wèn)基于Web的信息、程序和服務(wù)。根據(jù)國(guó)際知名專業(yè)市場(chǎng)研究調(diào)查公司In-Stat/MDR日前公布的一份調(diào)查研究結(jié)果顯示[44],SALT是一項(xiàng)技術(shù),它允許多種模式的通訊,例如輸入語(yǔ)音但輸出卻轉(zhuǎn)成數(shù)據(jù),它開(kāi)啟了一個(gè)新的應(yīng)用與商機(jī)的世界。根據(jù)In-Stat/MDR調(diào)查,利用人類的語(yǔ)音,Intel的應(yīng)用將更加的簡(jiǎn)便而友善,SALT將可使得語(yǔ)音識(shí)別(SpeechRecognition)的軟件與應(yīng)用,行動(dòng)上網(wǎng)設(shè)備,與無(wú)線廣播服務(wù)(WirelessSubscriberAirtime)等的市場(chǎng)開(kāi)始成長(zhǎng)。下面是SALT技術(shù)對(duì)美國(guó)市場(chǎng)的總體影響排列示意圖:SKIPIF1<0圖3.1SALT在美國(guó)市場(chǎng)的影響SALT使您可以在網(wǎng)絡(luò)上存取任何東西,可以讓移動(dòng)設(shè)備使用者進(jìn)行輸出或是輸入,這種存取沒(méi)有SALT的技術(shù)是不可能達(dá)成的。通常在PDA或手提電腦上輸入是很不靈便的,而一般語(yǔ)音入口網(wǎng)站的服務(wù)內(nèi)容又有限,SALT采取最好的輸入與輸出的方法,它把兩者加以結(jié)合,一起而讓計(jì)算機(jī)環(huán)境變得有新的活力。SALT是一種能為用戶與電子設(shè)備間的交互提供新方法的語(yǔ)音標(biāo)記語(yǔ)言。SALT適用于語(yǔ)音驅(qū)動(dòng)以及所謂的“多模式”Web應(yīng)用—即那些將語(yǔ)音交互與傳統(tǒng)界面模式混合在一起的應(yīng)用。該技術(shù)能與可視為核心Web技術(shù)直接集成,并以人類所共有的語(yǔ)音—這種最自然、有效的用戶界面來(lái)提供豐富的設(shè)備應(yīng)用—包括移動(dòng)設(shè)備、、桌面等。多模式應(yīng)用比單模式應(yīng)用能為終端用戶提供更多的東西:比如圖形用戶界面(GUI)以外的語(yǔ)音輸入等。由于今天的Web頁(yè)面能托管各種可視及多媒體組件,因此SALT具有豐富的發(fā)展前景。SALT作為對(duì)通常使用的Web編程語(yǔ)言的擴(kuò)充,SALT規(guī)范定義了一組標(biāo)記并且整合了W3C(全球網(wǎng)聯(lián)合會(huì))和IETF(因特網(wǎng)工程任務(wù)組)的現(xiàn)有標(biāo)準(zhǔn),其目標(biāo)使用領(lǐng)域是語(yǔ)音和多媒體Web應(yīng)用程序。有了它,PC、、、PDA以及PocketPC和最新推出的TabletPC等設(shè)備都可以訪問(wèn)基于Web的信息、程序和服務(wù)。SALT己經(jīng)定義了原始的標(biāo)記集合,該集合擴(kuò)展了目前廣為使用的WWW編程語(yǔ)言。因此開(kāi)發(fā)人員能夠使用已經(jīng)習(xí)慣了的工具和技術(shù)向WWW內(nèi)容和應(yīng)用程序追加語(yǔ)音接口。在人機(jī)交互應(yīng)用中,通過(guò)追加SALT標(biāo)記,能夠支持語(yǔ)音輸入和輸出功能。這些功能也能獨(dú)立地與諸如用輸入筆指著畫面時(shí)輸出語(yǔ)音等其它接口進(jìn)行配合使用。SALT技術(shù)的優(yōu)越性微軟通過(guò)幾個(gè)關(guān)鍵點(diǎn)來(lái)描述該技術(shù)的優(yōu)越性:1)開(kāi)放的標(biāo)準(zhǔn)SALT技術(shù)是一套典型的對(duì)HTML和XHTML進(jìn)行擴(kuò)展的技術(shù),通過(guò)這種技術(shù)的應(yīng)用可以對(duì)網(wǎng)絡(luò)服務(wù)提供語(yǔ)音支持。2)通用平臺(tái)3)節(jié)約成本對(duì)于開(kāi)發(fā)周期,語(yǔ)音應(yīng)用往往受限于開(kāi)發(fā)者的熟練程度。而微軟正在提供一個(gè)基于廣泛適用于微軟.NET技術(shù)的語(yǔ)音開(kāi)發(fā)平臺(tái),通過(guò)微軟VisualStudio.NET到語(yǔ)音應(yīng)用的發(fā)展而產(chǎn)生了網(wǎng)絡(luò)編程模式,并且在這方面投入大量的訓(xùn)練而不是培養(yǎng)6百萬(wàn)語(yǔ)音應(yīng)用領(lǐng)域的開(kāi)發(fā)者,這樣可以讓企業(yè)培養(yǎng)出大批有素質(zhì)的程序開(kāi)發(fā)者,因此節(jié)約了成本。另外,由于該應(yīng)用是基于熟練的網(wǎng)絡(luò)編程,所有網(wǎng)絡(luò)開(kāi)發(fā)者可以接受再訓(xùn)練來(lái)完成開(kāi)發(fā)語(yǔ)音用戶接口。4)應(yīng)用廣泛微軟正在積極和ISV(獨(dú)立軟件開(kāi)發(fā)商)合作進(jìn)行基于SALT的應(yīng)用開(kāi)發(fā)。在接下來(lái)的幾年里,在各項(xiàng)目應(yīng)用中優(yōu)先采用語(yǔ)音技術(shù)將會(huì)成為可能。以下為SALT技術(shù)的主要應(yīng)用:端末用戶可以隨時(shí)隨地使用基于SALT的應(yīng)用,并且可以同時(shí)支持任何使用語(yǔ)音、文本或圖像接口的設(shè)備。開(kāi)發(fā)者可以在現(xiàn)存的HTML,XHTML,以及XML網(wǎng)頁(yè)中無(wú)縫接入語(yǔ)音模塊,使用他們一直熟悉的開(kāi)發(fā)語(yǔ)言、技術(shù)以及現(xiàn)存工具來(lái)進(jìn)行開(kāi)發(fā)。商業(yè)上可以實(shí)現(xiàn)降低成本,也可以通過(guò)提供通用的基于Web的多種媒體交互應(yīng)用來(lái)降低其復(fù)雜度。另外,可以避免有時(shí)為了對(duì)每一種應(yīng)用有個(gè)性化的輸出而對(duì)現(xiàn)有Web的資金和人力的投入,及避免重復(fù)投資。服務(wù)提供商能夠提供支持更多Web服務(wù)的Web應(yīng)用,同時(shí)還將增加新的商機(jī)和更好的服務(wù)帶來(lái)的收入。5)擴(kuò)展性利用SALT,Web頁(yè)面腳本及其他代碼可以訪問(wèn)及控制語(yǔ)音功能,而且SALT可以和任何當(dāng)今或?qū)?lái)的Web標(biāo)準(zhǔn)一起使用—包括HTML(超文本標(biāo)記語(yǔ)言)、XHTML(可擴(kuò)展超文本標(biāo)一記語(yǔ)言)、WML(無(wú)線標(biāo)記語(yǔ)言)以及SMIL(同步多媒體集成語(yǔ)言)等?,F(xiàn)在,開(kāi)發(fā)商不是在用語(yǔ)音來(lái)加強(qiáng)可視頁(yè)面,就是在將可視界面完全移植到中。隨著時(shí)間的推移,他們將發(fā)現(xiàn)SALT是對(duì)他們技術(shù)集合的一種自然擴(kuò)展。6)組件式語(yǔ)音業(yè)務(wù)是組件式的,也就是說(shuō),語(yǔ)音識(shí)別和/或語(yǔ)音合成既可以嵌入到設(shè)備中,又可以運(yùn)行于遠(yuǎn)程機(jī)器上。這使得小型設(shè)備(如移動(dòng)等)能利用遠(yuǎn)程服務(wù)器上的資源來(lái)運(yùn)行SALT應(yīng)用。而且,也可以將像語(yǔ)音文件及語(yǔ)法規(guī)則這樣的大型或動(dòng)態(tài)資源
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 云計(jì)算HCIP??荚囶}與參考答案
- 個(gè)人借款申請(qǐng)書范文
- 業(yè)務(wù)員年度工作計(jì)劃
- 企業(yè)弱電維護(hù)合同范本
- 三八婦女節(jié)護(hù)士愛(ài)崗敬業(yè)的演講稿
- 南通批發(fā)市場(chǎng)用電合同范本
- 醫(yī)院房子出售合同范本
- 臺(tái)球俱樂(lè)部采購(gòu)合同范本
- 南京租房陰陽(yáng)合同范例
- 區(qū)域 加盟 合同范本
- 戶外廣告制作安裝合同模板
- 2025年國(guó)家自然科學(xué)基金委員會(huì)招聘流動(dòng)編制人員59人歷年高頻重點(diǎn)模擬試卷提升(共500題附帶答案詳解)
- 2024年義務(wù)教育2022年版《道德與法治課程標(biāo)準(zhǔn)》真題庫(kù)附答案
- 志愿服務(wù)證明(多模板)
- 大學(xué)生創(chuàng)新創(chuàng)業(yè)教程PPT全套完整教學(xué)課件
- 山東建筑電氣與智能化疑難問(wèn)題分析與解答
- 2022年鄭州衛(wèi)生健康職業(yè)學(xué)院?jiǎn)握杏⒄Z(yǔ)模擬試題(附答案解析)
- Q∕GDW 10354-2020 智能電能表功能規(guī)范
- 土壤學(xué)習(xí)題與答案
- 觀摩臺(tái)標(biāo)準(zhǔn)化建設(shè)方案
- 數(shù)字化影像與PACS教學(xué)大綱
評(píng)論
0/150
提交評(píng)論