碩士：基于web的salt語(yǔ)音識(shí)別技術(shù)應(yīng)用研究終稿(完整版)資料

上傳人：歡*** IP屬地：江西上傳時(shí)間：2022-12-14 格式：DOC 頁(yè)數(shù)：104 大小：1.17MB 積分：17 舉報(bào) 版權(quán)申訴

碩士：基于web的salt語(yǔ)音識(shí)別技術(shù)應(yīng)用研究終稿(完整版)資料_第2頁(yè)

碩士：基于web的salt語(yǔ)音識(shí)別技術(shù)應(yīng)用研究終稿(完整版)資料_第3頁(yè)

碩士：基于web的salt語(yǔ)音識(shí)別技術(shù)應(yīng)用研究終稿(完整版)資料_第4頁(yè)

碩士：基于web的salt語(yǔ)音識(shí)別技術(shù)應(yīng)用研究終稿(完整版)資料_第5頁(yè)

已閱讀5頁(yè)，還剩99頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

碩士：基于web的salt語(yǔ)音識(shí)別技術(shù)應(yīng)用研究(終稿（完整版）資料(可以直接使用，可編輯優(yōu)秀版資料，歡迎下載）

碩士：基于web的salt語(yǔ)音識(shí)別技術(shù)應(yīng)用研究(終稿（完整版）資料(可以直接使用，可編輯優(yōu)秀版資料，歡迎下載）學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定，同意學(xué)校保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版，允許論文被查閱和借閱。本人授權(quán)江蘇大學(xué)可以將本學(xué)位論文的全部?jī)?nèi)容或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索，可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。保密□，在年解密后適用本授權(quán)書。本學(xué)位論文屬于不保密□。學(xué)位論文作者簽名：指導(dǎo)教師簽名：年月日年月日獨(dú)創(chuàng)性聲明本人鄭重聲明：所呈交的學(xué)位論文，是本人在導(dǎo)師的指導(dǎo)下，獨(dú)立進(jìn)行研究工作所取得的成果。除文中已注明引用的內(nèi)容以外，本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫過(guò)的作品成果。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體，均已在文中以明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名：日期：年月日分類號(hào) 密級(jí)UDC 編號(hào)工程碩士學(xué)位論文基于WEB的SALT語(yǔ)音識(shí)別技術(shù)應(yīng)用研究TheApplicationandResearchofAutomaticSpeechRecognitionTechnologyBasedonSALT指導(dǎo)教師作者姓名申請(qǐng)學(xué)位級(jí)別碩士學(xué)科(專業(yè))論文提交日期論文答辯日期學(xué)位授予單位和日期答辯委員會(huì)主席評(píng)閱人______________摘要長(zhǎng)久以來(lái)，人們都渴望以一種最簡(jiǎn)單、最輕松的方式進(jìn)行溝通。而隨著語(yǔ)音識(shí)別技術(shù)的飛速發(fā)展，人與計(jì)算機(jī)之間的溝通也變得越來(lái)越簡(jiǎn)單。SALT(SpeechApplicationLanguageTags)技術(shù)是一項(xiàng)新興技術(shù)，它是一種獨(dú)立平臺(tái)的標(biāo)記語(yǔ)言，可以用于創(chuàng)建經(jīng)由語(yǔ)音平臺(tái)接入的應(yīng)用系統(tǒng)。語(yǔ)音識(shí)別擁有可觀的應(yīng)用前景，尤其在我們生活信息化越來(lái)越加深的今天，應(yīng)用于Web的語(yǔ)音識(shí)別技術(shù)作為一個(gè)語(yǔ)音識(shí)別應(yīng)用的熱點(diǎn)方向，也具有深遠(yuǎn)廣闊的應(yīng)用前景。該技術(shù)在進(jìn)行Web開(kāi)發(fā)中，可以提供一種全新的解決思路，因此“基于WEB的SALT語(yǔ)音識(shí)別技術(shù)應(yīng)用研究”實(shí)例的實(shí)現(xiàn)是對(duì)這一新技術(shù)進(jìn)行研究和實(shí)踐的很好的學(xué)習(xí)、應(yīng)用、檢驗(yàn)、改進(jìn)，甚至提高的過(guò)程。在本課題的研究中，主要完成了基于WEB具有語(yǔ)音識(shí)別功能并可以根據(jù)語(yǔ)音命令完成一定操作基本功能的語(yǔ)音應(yīng)答平臺(tái)系統(tǒng)的實(shí)現(xiàn)，需要將SALT技術(shù)應(yīng)用于ASP.NET服務(wù)系統(tǒng)頁(yè)面之中。具體工作如下：（1）研究了經(jīng)典的HMM算法及其他算法，分析其算法性能的優(yōu)劣。（2）本文重點(diǎn)集中討論了基于SALT(SpeechApplicationLanguageTags)的語(yǔ)音識(shí)別應(yīng)用，介紹了語(yǔ)音合成技術(shù)、文語(yǔ)轉(zhuǎn)換系統(tǒng)的組成及其實(shí)現(xiàn)過(guò)程、自動(dòng)語(yǔ)音識(shí)別技術(shù)、自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的組成及其實(shí)現(xiàn)過(guò)程，探討基于SALT的語(yǔ)音識(shí)別技術(shù)在軟硬件平臺(tái)上的實(shí)現(xiàn)以及實(shí)際應(yīng)用中的具體問(wèn)題。（3）本文結(jié)合SALT論壇最新即將發(fā)布的SALT(語(yǔ)音應(yīng)用語(yǔ)言標(biāo)記)技術(shù)，提出了基于SALT的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)的體系結(jié)構(gòu)，論述了具體的實(shí)現(xiàn)方案和方法，并結(jié)合中小企業(yè)實(shí)際情況，開(kāi)發(fā)了一套語(yǔ)音識(shí)別示例系統(tǒng)，初步實(shí)現(xiàn)了基于SALT技術(shù)的語(yǔ)音識(shí)別系統(tǒng)的開(kāi)發(fā)，并初步實(shí)現(xiàn)了基于Web的遠(yuǎn)程部署，為下一步的工作打下一個(gè)較為可靠的基礎(chǔ)。系統(tǒng)開(kāi)發(fā)集成環(huán)境包括:WindowsXP操作系統(tǒng)、Microsoft的C#、ASP.NET、ADO.NET和SALT1.1final版插件。關(guān)鍵詞:Web，語(yǔ)音識(shí)別，SALT，程序設(shè)計(jì)，ASP.NET

AbstractForalongtime,peoplehaveallwishedeagerlytocommunicateinakindofsimplest,mostrelaxedway.Andwiththedevelopmentatfullspeedoftherecognitiontechnologyofthepronunciation,thecommunicationbetweenpeopleandcomputerbecomessimplerandsimpler.SALT(SpeechApplicationLanguageTags)isamarkuplanguagethattakeserviceinopen,freepatentableaccess,independentofplatform,itisusedforcreatingthenewlyapplicationsystemthatiscutoverthroughspeechplatform.AutomaticSpeechRecognition(ASR)hasconsiderableandbrightfuture,whilemoreandmoreInformationTechnologyhasbeenusedinourdailylife.Andasahotdomain,ASRbasedonSALTalsowillbepopulareverywhere.ThetechnologyinourdevelopmentoftheWeb,youcanprovideuswithabrand-newideastosolve,"theSALTWEB-basedvoicerecognitiontechnologyappliedresearch"istherealizationofourexamplesofthisnewtechnologytostudyandpracticeofgoodStudy,application,testing,improvingandevenimprovetheprocess.Inthisstudyofthesubject,IhaveprimarilyresponsibleforWEB-basedspeechrecognitionfeaturesandcanoperatewithvoicecommandstocompletecertainbasicfunctionsofthevoiceresponsesystemplatformtherealizationoftheneedtoSALTtechnologyinASP.NETpagesoftheservicesystem.Majorworkisasfollows:（1）IstudiedclassicalHMMalgorithmandotheralgorithms,analysisthemeritsofitsalgorithm.（2）WithafocusontechnologyofSALT(SpeechApplicationsLanguageTags)thatSALTforumwillpublishrecently,thisessaybringsupthetotalstructureofAutomaticSpeechRecognition(ASR)systembasedonSALT,andexpoundsthetheoryschemeandmethodsofrealization.AnAutomaticSpeechRecognition(ASR)examplesystemhasbeendevelopedbasedontheactualcircumstancesatsmall-andmedium-sizedenterprises,whichhasprovidedasetofsoftwareforsmall-andmedium-sizedenterprisesthatconformstopracticeandsuitsthedemandincustomerservice.TheessayachievestheASRdevelopmentbasedonSALT,andfinishedthelong-distancearrangement,bringsareliablebaseforthecomingworkinthenextround.（3）Thissystemenvironmentinclude:OperatorSystemofWindowsXPandthedevelopmenttoolsoftheMicrosoftVisualC#.NET,ASP.NET,ADO.NET,andsoon.TheversionofSALT1.1finalisthesubjectivesoftwaretoolwhichisusedtodevelopthespeechinterfaceofthewebsystem.KEYWORD:Web，SpeechRecognize,SALT,Programming,ASP.NET

目錄TOC\o"1-3"\h\z第一章緒論 11.1研究背景 11.2研究現(xiàn)狀 21.3研究?jī)?nèi)容 41.4全文的組織安排 5第2章語(yǔ)音識(shí)別技術(shù) 62.1語(yǔ)音識(shí)別的原理 62.2語(yǔ)音識(shí)別的基本算法 9概述 9模型的結(jié)構(gòu) 12前向和后向算法 14算法 15算法 162.3Internet中語(yǔ)音識(shí)別的應(yīng)用 172.4本章小結(jié) 18第3章基于WEBSALT語(yǔ)音識(shí)別 193.1SALT技術(shù) 19技術(shù)知識(shí)分析 19技術(shù)的優(yōu)越性 223.2基于WEBSALT語(yǔ)音識(shí)別的體系結(jié)構(gòu) 23體系結(jié)構(gòu) 23開(kāi)發(fā)流程 253.3基于WebSalt語(yǔ)音識(shí)別的算法分析 273.4本章小結(jié) 29第四章基于WEBSALT語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 304.1系統(tǒng)功能分析 304.2系統(tǒng)總體模塊劃分 304.3使用技術(shù)及方法 31面向?qū)ο蟮募夹g(shù) 31并行工程設(shè)計(jì) 32采用VS.NET平臺(tái)及B/S結(jié)構(gòu)技術(shù) 32系統(tǒng)開(kāi)發(fā)環(huán)境及運(yùn)行環(huán)境的選擇 33開(kāi)發(fā)平臺(tái)和Web服務(wù) 33開(kāi)發(fā)工具和語(yǔ)言 34運(yùn)行環(huán)境 354.4系統(tǒng)接口設(shè)計(jì) 35用戶界面設(shè)計(jì) 35接口應(yīng)用設(shè)計(jì) 364.5系統(tǒng)實(shí)現(xiàn) 36設(shè)計(jì)模式的應(yīng)用 36應(yīng)用程序的詳細(xì)設(shè)計(jì) 37語(yǔ)音識(shí)別系統(tǒng)語(yǔ)法(Grammer)設(shè)計(jì) 39語(yǔ)音識(shí)別系統(tǒng)的功能設(shè)計(jì) 404.6系統(tǒng)運(yùn)行及特點(diǎn) 414.7運(yùn)行測(cè)試評(píng)價(jià) 42測(cè)試環(huán)境 42運(yùn)行測(cè)試 42測(cè)試結(jié)果分析 45測(cè)試結(jié)論 464．8本章小結(jié) 47第五章總論和展望 485.1結(jié)論 485.2進(jìn)一步研究工作 495.3本章小結(jié) 49參考文獻(xiàn) 50致謝 54第一章緒論1.1研究背景在現(xiàn)代社會(huì)中，人們逐漸習(xí)慣借助計(jì)算機(jī)來(lái)完成各項(xiàng)事務(wù)。在這種形勢(shì)下，如何讓計(jì)算機(jī)智能化地與人通信，使人機(jī)交互更加自然方便成為現(xiàn)代計(jì)算機(jī)科學(xué)的一個(gè)重要的研究課題。語(yǔ)音是人際交流的最習(xí)慣、最自然的方式，它將成為人機(jī)交互方式的理想選擇。讓機(jī)器能聽(tīng)會(huì)說(shuō)，是人類由來(lái)已久的理想。語(yǔ)音技術(shù)主要包括語(yǔ)音合成技術(shù)和語(yǔ)音識(shí)別技術(shù)。語(yǔ)音合成技術(shù)解決機(jī)器說(shuō)的問(wèn)題，語(yǔ)音識(shí)別技術(shù)解決機(jī)器聽(tīng)的問(wèn)題。設(shè)計(jì)和開(kāi)發(fā)的應(yīng)用實(shí)例或系統(tǒng)是語(yǔ)音技術(shù)商業(yè)化、社會(huì)化的重要手段，語(yǔ)音技術(shù)的應(yīng)用在當(dāng)今社會(huì)有著重要的意義。首先政府開(kāi)通的咨詢熱線、咨詢服務(wù)業(yè)對(duì)于語(yǔ)音技術(shù)的應(yīng)用期待己久。語(yǔ)音識(shí)別技術(shù)和語(yǔ)音合成技術(shù)，再加上數(shù)據(jù)庫(kù)共同組成咨詢服務(wù)業(yè)務(wù)的解決方案。呼叫中心必須迅速地走上機(jī)器智能應(yīng)答和記錄的道路，否則，呼叫中心只能變成為一個(gè)美麗而不實(shí)際的神話，24小時(shí)的熱線服務(wù)，不均勻的問(wèn)訊量峰谷，日益增高的工資成本，坐席人員的培訓(xùn)與流失，很快就會(huì)使政府、企業(yè)不堪其負(fù)。機(jī)器的語(yǔ)音應(yīng)答，白動(dòng)的問(wèn)訊和需求記錄，將大幅度降低呼叫中心的投資及其運(yùn)轉(zhuǎn)成本，將會(huì)受到各級(jí)政府、廣大中小企業(yè)的歡迎。其次，語(yǔ)音自然交互更具有其它信息終端不具備的優(yōu)勢(shì)，利用自然語(yǔ)音交互技術(shù)，用戶不再需要一項(xiàng)一項(xiàng)的填寫Web的Form表單，不再需要痛苦的在小小的鍵盤上換著數(shù)字輸入名字和E-mail地址?；陉P(guān)鍵字捕捉和自然語(yǔ)言處理技術(shù)，用戶進(jìn)入個(gè)人界面后可以輕松的說(shuō)一句:“旅游信息，杭州”，相應(yīng)地計(jì)算機(jī)回應(yīng)“杭州”的有關(guān)信息，一切輕松自然而又隨意。再次，國(guó)際上衡量一個(gè)國(guó)家的咨詢服務(wù)業(yè)發(fā)展程度有一個(gè)參考值，即信息咨詢產(chǎn)值與電子產(chǎn)品工業(yè)產(chǎn)值的比率，這個(gè)比值在歐美日的平均水平是1:1強(qiáng)，而中國(guó)的這個(gè)比值是不到9%，香港、新加坡的平均水平是中國(guó)大陸的4倍左右。最后，廣闊的市場(chǎng)前景。美國(guó)的著名咨詢企業(yè)安達(dá)信公司曾報(bào)告指出，按照中國(guó)的市場(chǎng)化發(fā)展速度看，到2021年中國(guó)的信息咨詢業(yè)將達(dá)到100億美元，即1000億人民幣左右的規(guī)模。這還不包括各級(jí)政府、大中小企業(yè)自建的咨詢服務(wù)熱線，中國(guó)互聯(lián)網(wǎng)中心也預(yù)計(jì)語(yǔ)音產(chǎn)品及其咨詢業(yè)規(guī)模將達(dá)到1300億元。1.2研究現(xiàn)狀語(yǔ)音識(shí)別(AutomaticSpeechRecognition,ASR)的研究工作起始于上個(gè)世紀(jì)50年代，1952年貝爾實(shí)驗(yàn)室的Davis,Biddulph和Balashek建立了一個(gè)與說(shuō)話人有關(guān)的孤立英文數(shù)字語(yǔ)音識(shí)別系統(tǒng)[1，3]。在說(shuō)話人和麥克風(fēng)距離保持不變的情況下，該系統(tǒng)正確識(shí)別率達(dá)到了98%。1959年，美國(guó)Lincoln實(shí)驗(yàn)室的Rorgie和Forgie[3]首次采用數(shù)字計(jì)算機(jī)識(shí)別英文的元音和以摩擦音開(kāi)頭的孤立字，這標(biāo)志著計(jì)算機(jī)語(yǔ)音識(shí)別時(shí)代的開(kāi)始。60年代末70年代初，一系列里程碑似的基礎(chǔ)性突破為語(yǔ)音識(shí)別的發(fā)展奠定了基礎(chǔ)。在語(yǔ)音學(xué)方面，瑞典通信工程師Fant發(fā)表了著名的博士論文《語(yǔ)音產(chǎn)生的聲學(xué)理論》。在信號(hào)處理方面，線性預(yù)測(cè)編碼(LinearPredictionCoding,LPC)技術(shù)在70年代被日本學(xué)者Itakura[5]成功地應(yīng)用于語(yǔ)音識(shí)別，使語(yǔ)音信號(hào)的特征提取有了一次飛躍。前蘇聯(lián)科學(xué)家Vintsyuk60年代將動(dòng)態(tài)規(guī)劃應(yīng)用于模式識(shí)別，成為語(yǔ)音識(shí)別方法的重要基礎(chǔ)。日本學(xué)者Sakoe和Chiba[6]提出了動(dòng)態(tài)時(shí)間歸整(DynamicTimeWarpingDTW)技術(shù)用來(lái)解決語(yǔ)音識(shí)別中不等長(zhǎng)語(yǔ)音的對(duì)整問(wèn)題。語(yǔ)音信號(hào)線性預(yù)測(cè)編碼技術(shù)和動(dòng)態(tài)時(shí)間歸整技術(shù)，結(jié)合模板匹配原理，有效地解決了特定人、小詞匯表的孤立詞語(yǔ)音識(shí)別問(wèn)題。美國(guó)于70年代實(shí)施了美國(guó)國(guó)防高級(jí)研究項(xiàng)目計(jì)劃(USDefenceAdvancedResearchProgramAgency,DARPR)，對(duì)語(yǔ)音識(shí)別研究給予很大支持，DARPA采用有多個(gè)說(shuō)話人發(fā)音的1000詞的語(yǔ)料庫(kù)，作為參加DARPR計(jì)劃的大學(xué)和公司研發(fā)的語(yǔ)音識(shí)別系統(tǒng)的性能評(píng)估語(yǔ)料庫(kù)。80年代以后，語(yǔ)音識(shí)別的任務(wù)開(kāi)始由特定人孤立詞語(yǔ)音識(shí)別轉(zhuǎn)向非特定人、中等詞匯量的連續(xù)語(yǔ)音識(shí)別，識(shí)別的方法也逐漸從模板匹配方法轉(zhuǎn)變到統(tǒng)計(jì)模型方法。以隱馬爾可夫模型典型代表的統(tǒng)計(jì)方法，由于其在參數(shù)、結(jié)構(gòu)和訓(xùn)練方法的選擇上有很大的靈活性，逐漸成為語(yǔ)音識(shí)別技術(shù)的主流。HMM的理論基礎(chǔ)在1970年前后由Baum等人建立起來(lái)，隨后由CMU的Baker和IBM的Jelinek等人應(yīng)用于語(yǔ)音識(shí)別之中，HMM模型的廣泛應(yīng)用歸功于AT&TBell實(shí)驗(yàn)室Rabiner等科學(xué)家的努力，他們把原本艱澀的HMM純數(shù)學(xué)模型工程化，使世界各國(guó)從事語(yǔ)音處理的的研究者所了解和熟悉，進(jìn)而成為公認(rèn)的一個(gè)研究熱點(diǎn)。人工神經(jīng)網(wǎng)絡(luò)(ANN)[7，8]在語(yǔ)音識(shí)別中的應(yīng)用研究的也在這一時(shí)期興起。在此期間，美國(guó)國(guó)防部的DARPA計(jì)劃對(duì)語(yǔ)音識(shí)別研究起了巨大的推動(dòng)作用，當(dāng)時(shí)DARPA的相應(yīng)評(píng)估語(yǔ)料庫(kù)為100個(gè)帶不同方言的說(shuō)話者、詞匯量為一千的ResourceManagement(RM)語(yǔ)料庫(kù)，參加DARPA計(jì)劃評(píng)測(cè)的各研究機(jī)構(gòu)都推出了各種識(shí)別系統(tǒng)，如Carnegie-Mellon大學(xué)用VQ/HMM的方法實(shí)現(xiàn)了SPHINX系統(tǒng)，這是第一個(gè)高性能的非特定人、大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)。Bell實(shí)驗(yàn)室以Rabiner為首的小組對(duì)英語(yǔ)數(shù)字串識(shí)別作了大量的研究，成為小詞表語(yǔ)音識(shí)別的典范。90年代語(yǔ)音識(shí)別轉(zhuǎn)向大規(guī)模、非特定人自然語(yǔ)言的識(shí)別。1993年，DARPA采用華爾街雜志語(yǔ)料庫(kù)(WallStreetJournalCorpus)[9]進(jìn)行語(yǔ)音識(shí)別系統(tǒng)評(píng)估，該語(yǔ)料庫(kù)包含兩萬(wàn)個(gè)詞匯。另外還有Switchboard語(yǔ)料庫(kù)，它是個(gè)含有2.6萬(wàn)個(gè)詞匯的自然交談?wù)Z音數(shù)據(jù)庫(kù)。1998年，DARPR用廣播新聞?wù)Z料作評(píng)估，這些語(yǔ)料來(lái)自英語(yǔ)電臺(tái)和電視新聞節(jié)目錄音，背景噪聲、說(shuō)話人口音和失真等情況復(fù)雜，因此識(shí)別難度大。其中低噪聲部分評(píng)測(cè)結(jié)果劍橋大學(xué)的HTK[10,11]系統(tǒng)正確識(shí)別率最高，字錯(cuò)誤率為7.8%，自然發(fā)音部分法國(guó)國(guó)家實(shí)驗(yàn)室的LIMSI正確識(shí)別率最高，字錯(cuò)誤率為14.4%。美國(guó)國(guó)家標(biāo)準(zhǔn)和技術(shù)協(xié)會(huì)(NationalInstituteofStandardsandTechnology,NIST)最近的語(yǔ)音識(shí)別系統(tǒng)評(píng)測(cè)是2001年的交談?wù)Z音識(shí)別，共有8個(gè)語(yǔ)音識(shí)別系統(tǒng)參加評(píng)測(cè)，其中劍橋大學(xué)的HTK系統(tǒng)正確識(shí)別率最高，三個(gè)測(cè)試集的字錯(cuò)誤率分別為19.8%,24.5%,29.2%。這次評(píng)測(cè)還有中文系統(tǒng)的評(píng)比，評(píng)測(cè)語(yǔ)料庫(kù)為20個(gè)Callhome語(yǔ)料庫(kù)的對(duì)話，只有BBN公司參加，字錯(cuò)誤率為49.9%，而BBN公司系統(tǒng)的英文識(shí)別率測(cè)試為第三名，可見(jiàn)漢語(yǔ)識(shí)別難度比英文識(shí)別難度大得多。目前語(yǔ)音識(shí)別已經(jīng)達(dá)到了一個(gè)相對(duì)高的水平，在穩(wěn)健語(yǔ)音識(shí)別、自適應(yīng)等方面也取得了豐碩的成果，正在從試驗(yàn)室研究中走出來(lái)，進(jìn)入了一個(gè)實(shí)用化的階段。語(yǔ)音識(shí)別研究水平的最重要的標(biāo)志之一是非特定人大詞匯量連續(xù)語(yǔ)音識(shí)別的性能[12]。目前對(duì)于理想環(huán)境下的語(yǔ)音數(shù)據(jù)，英國(guó)Cambridge大學(xué)的HTK系統(tǒng)的誤識(shí)率已達(dá)到5%以下:對(duì)于廣播語(yǔ)音，Cambridge大學(xué)的HTK系統(tǒng)正確誤識(shí)率達(dá)到16.2%;而對(duì)于大詞匯量的語(yǔ)音的識(shí)別，美國(guó)Carneigie-Mellon大學(xué)的系統(tǒng)詞誤識(shí)率為45.1%。這些系統(tǒng)代表著目前語(yǔ)音識(shí)別的最高水平。小詞匯表語(yǔ)音系統(tǒng)也具有廣泛的應(yīng)用價(jià)值，英語(yǔ)數(shù)字語(yǔ)音識(shí)別的串識(shí)別率己達(dá)到99%以上;而具有高混淆度的英語(yǔ)字母的識(shí)別率也達(dá)到了97%以上?；ヂ?lián)網(wǎng)和移動(dòng)通訊技術(shù)的成熟給語(yǔ)音識(shí)別技術(shù)的發(fā)展和應(yīng)用帶來(lái)新的契機(jī)。IBM,Lucent,Motorola和AT&T四家公司于2000年用于語(yǔ)音瀏覽Internet的標(biāo)記語(yǔ)言VoiceXML，現(xiàn)己被W3C組織接受為國(guó)際工業(yè)標(biāo)準(zhǔn)，在這個(gè)標(biāo)準(zhǔn)確立之后，許多廠家相繼推出語(yǔ)音門戶網(wǎng)站[13,14]。這樣人們就可以通過(guò)來(lái)上網(wǎng)，利用語(yǔ)音來(lái)代替鍵盤輸入。國(guó)內(nèi)的語(yǔ)音識(shí)別研究開(kāi)始于七十年代，從1987年起國(guó)家863智能計(jì)算機(jī)主題專家組為語(yǔ)音識(shí)別立項(xiàng)，經(jīng)過(guò)二十余年的發(fā)展，漢語(yǔ)語(yǔ)音識(shí)別也獲得了豐富的成果。越來(lái)越多的大學(xué)、科研院所加入到語(yǔ)音識(shí)別的研究中，比較著名的有清華大學(xué)電子工程系、計(jì)算機(jī)系、中科院自動(dòng)化所、中科院聲學(xué)所、北京航空航天大學(xué)、北京郵電大學(xué)、西部工業(yè)大學(xué)、哈爾濱工業(yè)大學(xué)、復(fù)旦大學(xué)等等。1998年的863測(cè)試評(píng)比中，清華大學(xué)電子工程系以王作英教授為首的課題組完成的漢語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)的字識(shí)別率達(dá)到90%以上，代表了目前國(guó)內(nèi)的先進(jìn)水平，在漢語(yǔ)小詞表語(yǔ)音識(shí)別及應(yīng)用方面，清華大學(xué)電子工程系以劉潤(rùn)生教授為首的課題組已推出了基于非特定人漢語(yǔ)數(shù)碼語(yǔ)音識(shí)別的語(yǔ)音撥號(hào)機(jī)，并在從事語(yǔ)音識(shí)別專用芯片的設(shè)計(jì)研究[17,18]?，F(xiàn)在，不依賴對(duì)象、大詞匯量、連續(xù)語(yǔ)音識(shí)別的已經(jīng)成為研究重點(diǎn)和熱點(diǎn)，人們已經(jīng)向語(yǔ)音識(shí)別領(lǐng)域中最難的課題發(fā)起了挑戰(zhàn)。語(yǔ)音識(shí)別的終極目標(biāo)就是同時(shí)解決語(yǔ)音識(shí)別中的這些難點(diǎn)。語(yǔ)音識(shí)別有多種任務(wù)，在語(yǔ)音打字這一類任務(wù)中，要求識(shí)別器正確無(wú)誤地將口述語(yǔ)一言逐詞逐句地轉(zhuǎn)換為書面文字。在問(wèn)訊、查詢和控制系統(tǒng)中，需要對(duì)用戶的要求做出正確相應(yīng)、而用戶在說(shuō)話中常常帶有嗯、啊等語(yǔ)氣詞和一些不必要的添加話語(yǔ)，這時(shí)語(yǔ)音識(shí)別系統(tǒng)只需識(shí)別其中關(guān)鍵的詞條即可，這稱為關(guān)鍵詞確認(rèn)技術(shù)，其中多余的廢話被棄不用，更深一層則需要了解話語(yǔ)的語(yǔ)義信息，這不但對(duì)于進(jìn)一步處理是必要的，而且對(duì)改善語(yǔ)音識(shí)別效果也是很有用的。語(yǔ)音的識(shí)別效果與說(shuō)話時(shí)背景噪聲的強(qiáng)度以及說(shuō)話者講話的清楚程度密切相關(guān)。當(dāng)識(shí)別器在安靜的環(huán)境中工作時(shí)可以得到較好的效果，但是有的環(huán)境中存在強(qiáng)噪聲(例如汽車、飛機(jī)、工廠等)或者存在多人同時(shí)說(shuō)話的嘈雜環(huán)境，識(shí)別器必須也能適應(yīng)這種情況。說(shuō)話者的語(yǔ)音質(zhì)量取決于本人口齒是否清楚，也取決于是否采取合作的態(tài)度，這往往不是識(shí)別器所能控制的。1.3研究?jī)?nèi)容

由于SALT技術(shù)是一項(xiàng)新推出的技術(shù)，并且具有廣闊的應(yīng)用前景，該技術(shù)在我們進(jìn)行Web開(kāi)發(fā)中，可以為我們提供一種全新的解決思路，因此“基于WEB的SALT語(yǔ)音識(shí)別技術(shù)應(yīng)用研究”實(shí)例的實(shí)現(xiàn)是我們對(duì)這一新技術(shù)進(jìn)行研究和實(shí)踐的很好的學(xué)習(xí)、應(yīng)用、檢驗(yàn)、改進(jìn)，甚至提高的過(guò)程。本課題主要研究基于WEB具有語(yǔ)音識(shí)別功能并可以根據(jù)語(yǔ)音命令完成一定操作基本功能的語(yǔ)音應(yīng)答平臺(tái)系統(tǒng)的實(shí)現(xiàn)，需要將SALT技術(shù)應(yīng)用于ASP.NET服務(wù)系統(tǒng)頁(yè)面之中。此外，在理論分析、方案設(shè)計(jì)的基礎(chǔ)上，利用SALT技術(shù)的特點(diǎn)以及與現(xiàn)有成熟的HTML,XHTML技術(shù)的融合性，提供給后續(xù)工作深入時(shí)可以利用的可擴(kuò)展性，未來(lái)可以開(kāi)發(fā)適用于中小企業(yè)的一套基于SALT的IVR系統(tǒng)，此種系統(tǒng)主要完成語(yǔ)音導(dǎo)航、信息咨詢、信息查詢、服務(wù)、服務(wù)、短信服務(wù)、E-mail服務(wù)、系統(tǒng)維護(hù)和統(tǒng)計(jì)報(bào)表等功能。1.4全文的組織安排根據(jù)研究的內(nèi)容，本論文共分為六章：第一章緒論：闡述課題的研究背景和意義、國(guó)內(nèi)外研究現(xiàn)狀以及本論文所要從事的工作第二章語(yǔ)音識(shí)別技術(shù)：介紹語(yǔ)音識(shí)別的關(guān)鍵技術(shù)和算法，特別是近年來(lái)采用哪的識(shí)別算法，這些算法原理及各自的優(yōu)點(diǎn)和缺點(diǎn)的分析第三章基于WEBSALT語(yǔ)音識(shí)別：介紹SALT技術(shù)，基于WEBSALT語(yǔ)音識(shí)別的體系結(jié)構(gòu)和語(yǔ)音識(shí)別算法分析第四章基于WEBSALT語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

第五章總結(jié)與展望

第2章語(yǔ)音識(shí)別技術(shù)在研究和分析各種語(yǔ)音信號(hào)處理技術(shù)之前，必須了解有關(guān)語(yǔ)音識(shí)別的一些基本算法。為了對(duì)語(yǔ)音信號(hào)進(jìn)行數(shù)字處理，我們需要建立一個(gè)能夠精確描述語(yǔ)音產(chǎn)生過(guò)程和語(yǔ)音特征的基本算法，然后根據(jù)語(yǔ)音識(shí)別的算法建立一個(gè)既實(shí)用又便于分析的語(yǔ)音信號(hào)模型。2.1語(yǔ)音識(shí)別的原理語(yǔ)音識(shí)別系統(tǒng)本質(zhì)上屬于模式識(shí)別的范疇。根據(jù)模式識(shí)別的原理，未知語(yǔ)音的模式與己知語(yǔ)音的參考模式逐一進(jìn)行比較和分析，最佳匹配的參考模式被作為識(shí)別的結(jié)果[19]。圖2-1就是根據(jù)模式識(shí)別匹配原理所構(gòu)成的語(yǔ)音識(shí)別系統(tǒng)的一個(gè)原理框圖：SKIPIF1<0圖2.1語(yǔ)音識(shí)別系統(tǒng)的原理框圖未知(待識(shí)別)語(yǔ)音經(jīng)過(guò)話筒變換成電信號(hào)(即圖中語(yǔ)音信號(hào))后加在識(shí)別系統(tǒng)的輸入端，首先要經(jīng)過(guò)預(yù)處理，預(yù)處理包括反混疊失真濾波、預(yù)加重和端點(diǎn)檢測(cè)。經(jīng)過(guò)預(yù)處理后，語(yǔ)音信號(hào)的特征被提取出來(lái)。常用的特征包括：短時(shí)平均能量或幅度、短時(shí)平均過(guò)零率、短時(shí)自相關(guān)函數(shù)、線性預(yù)測(cè)系數(shù)、倒譜、共振峰等。根據(jù)實(shí)際需要選擇語(yǔ)音特征參數(shù)，這些特征參數(shù)的時(shí)間序列便構(gòu)成了待識(shí)別語(yǔ)音的模式，將其與已經(jīng)存儲(chǔ)在計(jì)算機(jī)內(nèi)的參考模式逐一進(jìn)行比較(模式匹配)，獲得最佳匹配(由判決規(guī)則確定)的參考模式便是識(shí)別結(jié)果。參考模式是在系統(tǒng)使用前獲得并存儲(chǔ)起來(lái)的，為此，要輸入一系列已知語(yǔ)音信號(hào)，提取它們的特征作為參考模式，這一過(guò)程稱為訓(xùn)練過(guò)程。顯然，最佳匹配結(jié)果的獲得與特征的選擇、語(yǔ)音模型的好壞、模板是否準(zhǔn)確都有直接的關(guān)系，這也是目前語(yǔ)音識(shí)別過(guò)程中的一個(gè)難點(diǎn)。語(yǔ)音信號(hào)分析大致可以分為時(shí)域分析和頻域分析[25，27]。時(shí)域分析的運(yùn)算簡(jiǎn)單，物理意義明確，但效果不佳，頻域分析雖然運(yùn)算較為復(fù)雜，但是它對(duì)語(yǔ)音信號(hào)能夠更有效的處理，所以大部分語(yǔ)音分析都以頻域分析為主。在說(shuō)話過(guò)程中，聲道的形狀是不斷發(fā)生變化的，所以語(yǔ)音信號(hào)在總體上是一種非平穩(wěn)過(guò)程。但由于聲道的變化是相對(duì)緩慢的，我們可以認(rèn)為它在短時(shí)間內(nèi)不發(fā)生變化，所以我們又可以認(rèn)為語(yǔ)音信號(hào)在短時(shí)間內(nèi)是平穩(wěn)的隨機(jī)信號(hào)。由此就產(chǎn)生了許多語(yǔ)音信號(hào)的短時(shí)分析和處理方法。語(yǔ)音信號(hào)分析又可以分為參數(shù)分析和非參數(shù)分析。參數(shù)分析法根據(jù)語(yǔ)音信號(hào)產(chǎn)生的模型(如聲管模型、共振峰模型等等)的理論，來(lái)分析和提取表征這些模型的特征參數(shù)，而把不用模型化方法進(jìn)行分析的方法都稱之為非參數(shù)法。非參數(shù)分析法包括時(shí)域分析法、頻域分析法和同態(tài)分析法。倒譜參數(shù)是對(duì)語(yǔ)音信號(hào)進(jìn)行同態(tài)分析的結(jié)果。SKIPIF1<0圖2.2語(yǔ)音信息的編碼和解碼在語(yǔ)音識(shí)別系統(tǒng)中，通常假定語(yǔ)音是一種經(jīng)過(guò)編碼的信息流，如圖2-2所示。在對(duì)語(yǔ)音信號(hào)作分析和處理之前，必須先進(jìn)行信號(hào)的預(yù)處理，它應(yīng)包括電壓放大、增益控制、反混淆濾波、模數(shù)變換、預(yù)加重等。在需要語(yǔ)音輸出的場(chǎng)合，還要進(jìn)行數(shù)模變換和起平滑作用的模擬低通濾波器。具有良好的頻譜特性的傳聲器是保證語(yǔ)音輸入質(zhì)量的基礎(chǔ)。反混淆濾波器通常是帶通濾波器，采用帶通濾波器而不用低通濾波器的原因是為了排除工頻干擾(50HZ或60HZ)，而帶通濾波器的高端截止頻率由采樣頻率決定。根據(jù)采樣定理，采樣頻率為f時(shí)，不引起混淆的信號(hào)最高頻率不得超過(guò)f/2，這也就是帶通濾波器的高端截止頻率[20,21,21]。作為預(yù)處理的另一部分是在A/D變換后加一個(gè)6dB/倍頻程的提升高頻特性的預(yù)加重?cái)?shù)字濾波器。語(yǔ)音信號(hào)的平均功率譜受聲門激勵(lì)(12dB/倍頻程跌落)和口鼻輻射(6dB/倍頻程上升)的影響，總效果大約在200Hz到5000Hz按6dB/倍頻程跌落。預(yù)加重的目的就是要提升高頻部分，使語(yǔ)音信號(hào)的頻譜變得平坦，以抵消濁音語(yǔ)音中由于聲門波引起的頻譜幅度下跌，便于以后進(jìn)行的頻域分析或聲道參數(shù)分析。預(yù)加重?cái)?shù)字濾波器一般是一階FIR濾波器。語(yǔ)音信號(hào)本身的各種特點(diǎn)決定了語(yǔ)音識(shí)別的復(fù)雜性和艱巨性。這些特點(diǎn)包括語(yǔ)音的差異性，動(dòng)態(tài)性，以及發(fā)音的連貫性等。語(yǔ)音的差異性可分為好多種。有生理因素的作用，如聲道長(zhǎng)度、鼻腔形狀等。對(duì)同一個(gè)字，男性與女性、成人與兒童的發(fā)音就不相同；有環(huán)境因素的作用，如傳感器的位置和特性；也有社會(huì)因素的作用，如各地域的方言和語(yǔ)言習(xí)慣等；另外還受說(shuō)話人心情的影響，一個(gè)人在喜怒哀樂(lè)不同情緒下，對(duì)同一個(gè)字的發(fā)音也會(huì)有所不同。此外，語(yǔ)言學(xué)因素的影響亦會(huì)造成發(fā)音的變化。比如語(yǔ)言的上下文不同，造成的連續(xù)說(shuō)話時(shí)的協(xié)同發(fā)音現(xiàn)象[23,24]。語(yǔ)音的動(dòng)態(tài)性就是語(yǔ)音信號(hào)的非平穩(wěn)隨機(jī)性，語(yǔ)音信息除了由音段和超音段兩種形式表征外，語(yǔ)音信號(hào)隨時(shí)間變化的動(dòng)態(tài)特性也攜帶了大量的區(qū)分信息。對(duì)于許多音位來(lái)說(shuō)，其動(dòng)態(tài)變化對(duì)語(yǔ)音感知的作用比靜態(tài)部分更為重要。特別是輔音音位，構(gòu)成輔音音位的特點(diǎn)是阻礙和動(dòng)態(tài)，任何穩(wěn)定的孤立的分析都不能描述輔音的全貌，而語(yǔ)音中的短時(shí)爆發(fā)音素(5ms左右)常常在分幀分析時(shí)又的不到足夠的體現(xiàn)。發(fā)音的連貫性是指在連續(xù)發(fā)音中，從一個(gè)音位過(guò)渡到下一個(gè)音位時(shí)是連續(xù)的、平滑的，它們之間是模糊的，沒(méi)有明顯的分界線，從一個(gè)字結(jié)束到下一個(gè)字開(kāi)始也沒(méi)有明顯的停頓。這必然造成音與音，字與字，詞與詞之間的分割困難。例如協(xié)同發(fā)音引起的參數(shù)會(huì)增加很多麻煩。因此，連續(xù)語(yǔ)音識(shí)別系統(tǒng)同孤立音節(jié)識(shí)別系統(tǒng)所面對(duì)的是截然不同的情況，它所要處理的問(wèn)題要復(fù)雜得多，所遇到的困難也要大得多。由此可見(jiàn)，語(yǔ)音識(shí)別是一項(xiàng)非常艱巨的任務(wù)，要想達(dá)到最終的目標(biāo)，實(shí)現(xiàn)真正的人機(jī)對(duì)話，還有以下幾個(gè)方面的難題需要解決。首先，一個(gè)實(shí)用的語(yǔ)音識(shí)別系統(tǒng)應(yīng)具有良好的抗噪性、可移植性和適應(yīng)性，即可以適用于不同的噪聲環(huán)境，易于移植以適用不同的應(yīng)用，并能對(duì)外界變化自適應(yīng)(新的話者、環(huán)境、麥克風(fēng)等等)。其次，現(xiàn)有的系統(tǒng)大都采用統(tǒng)計(jì)語(yǔ)言模型，但人是通過(guò)理解而聽(tīng)懂的，況且遇到詞表外的詞匯時(shí)，系統(tǒng)也應(yīng)能正確識(shí)別。另外，一個(gè)好的語(yǔ)音識(shí)別系統(tǒng)應(yīng)能夠接受自然的語(yǔ)音輸入，并且應(yīng)能利用韻律信息來(lái)提高識(shí)別率。人們說(shuō)話的語(yǔ)調(diào)、聲調(diào)、重音、節(jié)奏，乃至情感，都能表達(dá)不同的意思。這方面的工作還有很多要做，許多問(wèn)題現(xiàn)在尚無(wú)答案。此外，人們對(duì)字和音索的感知還需要能反映發(fā)音器官運(yùn)動(dòng)的特征，通常這類特征是動(dòng)態(tài)的。如何描述這種動(dòng)態(tài)，并將它同現(xiàn)有的特征參數(shù)結(jié)合到識(shí)別系統(tǒng)中，仍是一個(gè)沒(méi)有解決的問(wèn)題。以上所說(shuō)的各種對(duì)語(yǔ)音信號(hào)有影響的因素，主要是在聲學(xué)特性方面，而在語(yǔ)言模型和語(yǔ)言理解方面，語(yǔ)音識(shí)別就面臨著更大的挑戰(zhàn)。人們對(duì)于自身如何聽(tīng)懂別人說(shuō)話的過(guò)程，尤其是對(duì)大腦對(duì)于語(yǔ)言理解的過(guò)程知之甚少。雖然人工智能對(duì)于大腦智能的某些方面有了較好地描述，但實(shí)際上最近幾十年在語(yǔ)言理解方面，人工智能并沒(méi)有突破性的進(jìn)展。語(yǔ)音識(shí)別開(kāi)始是應(yīng)用人工智能中基于規(guī)則的、受限文法的語(yǔ)言模型，但其不能適應(yīng)語(yǔ)言中干變?nèi)f化的表達(dá)形式，而沒(méi)有被人們廣泛采用。取而代之的是基于統(tǒng)計(jì)的語(yǔ)言模型，并取得了較好的效果。但是很顯然基于統(tǒng)計(jì)的方法同樣不能很好地描述語(yǔ)言的行為規(guī)律，它只是人們?cè)谡也坏礁玫慕鉀Q方法之前的權(quán)宜之計(jì)，它所能帶來(lái)的最好性能遠(yuǎn)遠(yuǎn)不能滿足人們的需要。所以在某種程度上可以說(shuō)，目前影響語(yǔ)音識(shí)別發(fā)展最主要的瓶頸不在聲學(xué)模型，而在語(yǔ)言模型。而且一旦在這一方面出現(xiàn)重大突破，那么與此相關(guān)的語(yǔ)義理解、機(jī)器翻譯等領(lǐng)域都會(huì)有突飛猛進(jìn)的發(fā)展。2.2語(yǔ)音識(shí)別的基本算法概述隱馬爾可夫模型[25,26]（HiddenMarkovModels，簡(jiǎn)稱HMM）作為語(yǔ)音依賴的一種統(tǒng)計(jì)模型，今天正在語(yǔ)音處理各個(gè)領(lǐng)域中獲得廣泛的應(yīng)用。自從1980年Baum和Babiner既等人提出HMM方法以來(lái)的20多年時(shí)間里，人們對(duì)HMM用于語(yǔ)音識(shí)別的研究從沒(méi)有停止過(guò)，并使HMM得到了很大的發(fā)展，如提出了半連續(xù)密度HMM模型、連續(xù)密度HMM模型以及訓(xùn)練和識(shí)別時(shí)使用的各種準(zhǔn)則。由于HMM有一個(gè)有效的學(xué)習(xí)算法及解碼算法，今天，HMM方法是語(yǔ)音識(shí)別中最有效、應(yīng)用最為廣泛的方法，HMM的一些傳統(tǒng)缺點(diǎn)也通過(guò)不斷的改進(jìn)得以克服，這方面的成功是顯著的。最早用在語(yǔ)音識(shí)別中的聲學(xué)匹配算法[27]是基于傳統(tǒng)模式識(shí)別理論的模板匹配法，如規(guī)則匹配法、基于時(shí)域、頻域二元特征的表格匹配法等。該方法在20世紀(jì)的50年代末到60年代中期十分盛行，而且各種模板匹配算法也層出不窮，但是由于語(yǔ)音信號(hào)的隨機(jī)性很大，即使同一個(gè)人在同一語(yǔ)境中發(fā)的同—個(gè)音，在不同時(shí)刻也不可能具有相同的時(shí)長(zhǎng)，所以利用模扳匹配法無(wú)法取得令人滿意的識(shí)別結(jié)果。這正是Pierce在l969年給JASA編輯的信中(WitherSpeechRecognition)嚴(yán)厲批評(píng)當(dāng)時(shí)語(yǔ)音識(shí)別技術(shù)粗劣的原因。到了20世紀(jì)70年代，Sakoe，Chiba等人首先將運(yùn)籌學(xué)中的動(dòng)態(tài)規(guī)劃技術(shù)(DynamicProgramming)引入到語(yǔ)音識(shí)別中，真正解決了輸入語(yǔ)音特征矢量序列與參考模板之間的時(shí)間對(duì)正和匹配問(wèn)題。1976年，他們又對(duì)此技術(shù)進(jìn)行了優(yōu)化，設(shè)計(jì)實(shí)現(xiàn)了一個(gè)以LPC系數(shù)為特征的語(yǔ)音識(shí)別系統(tǒng)，并獲得了較好的識(shí)別結(jié)果。當(dāng)時(shí)Sakoe等使用的技術(shù)正是我們今天所稱的DTW技術(shù)(DynamicTimeWarping)。可以說(shuō)DTW技術(shù)的出現(xiàn)是語(yǔ)音識(shí)別的一個(gè)里程碑，它使語(yǔ)音識(shí)別技術(shù)空前活躍起來(lái)。同一時(shí)期，其它技術(shù)也紛至沓來(lái)，為語(yǔ)音識(shí)別注入了活力。同時(shí)，矢量量化技術(shù)也在語(yǔ)音識(shí)別中得到了廣泛的應(yīng)用，如有限狀態(tài)矢量量化FSVQ(FiniteStateVectorQuantization)[28]，自適應(yīng)矢量量化AVQ(AdaptationVQ)[29]，矢量預(yù)測(cè)量化VPQ(VectorPedictionQuantization)[30]等。20世紀(jì)60年代末和70年代初，Baum和他的同事在Markov模型理論方面做了相當(dāng)多的工作，為基于HMM的語(yǔ)音識(shí)別方法奠定了基礎(chǔ)。70年代，Baker，Jelinek等人首先將基于HMM的統(tǒng)計(jì)方法用于語(yǔ)音識(shí)別中，其中Bakrt利用HMM來(lái)描述聲學(xué)序列，而Jelinek用它來(lái)描述語(yǔ)言序列。HMM在語(yǔ)音識(shí)別中的應(yīng)用可以說(shuō)開(kāi)創(chuàng)了語(yǔ)音識(shí)別技術(shù)發(fā)展中的第二個(gè)里程碑。但在當(dāng)時(shí)，HMM技術(shù)并不被大多數(shù)人所理解，其主要原因是：①最早的有關(guān)HMM的文章主要刊登在一些數(shù)學(xué)期刊中，而從事語(yǔ)音識(shí)別的工程人員很少閱讀這些期刊；②在當(dāng)時(shí)，缺乏全面介紹HMM技術(shù)的綜述性文章。直到20世紀(jì)80年代，Rabiner的一篇“ATutorialonHiddenMarkovModelsandSelectedApplicationinSpeechRecognition”才使眾多的語(yǔ)音識(shí)別研究人員真正理解了HMM的內(nèi)涵。從20世紀(jì)80年代中期至現(xiàn)在，在短短的20年中，HMM無(wú)論是從理論上還是從技術(shù)上，都取得了重大進(jìn)步，并成了語(yǔ)音識(shí)別的主流算法。X.Huang提出了半連續(xù)HMM模型(SCHMM)[31,32,33]，B．Juang，L．Rabinar等在保正訓(xùn)練過(guò)程收斂的條件下，將連續(xù)密度HMM中密度函數(shù)的約束由對(duì)數(shù)凹(LogarithmicConcavity)擴(kuò)展到橢圓對(duì)稱(EllipticalSymmetry)，并提出了基于高斯混合密度的HMM模型，擴(kuò)充了密度函數(shù)選擇的自由度。P．Brown等在深入分析了基于最大似然準(zhǔn)則(MaximumLiklihood)訓(xùn)練HMM模型參數(shù)理論上的不足后，提出了基于最大互信息準(zhǔn)則(MaximumMutualInformation)的新的訓(xùn)練算法。與此同時(shí)，許多學(xué)者從不同角度還提出了另外一些新的訓(xùn)練算法，如最小區(qū)分信息準(zhǔn)則[34](MinimumDiscriminativeInformation)、最小誤識(shí)率準(zhǔn)則(MEE)[35]、最大后驗(yàn)概率準(zhǔn)則（MaximumAPosterior)[36]等。近十年是語(yǔ)音識(shí)別研究員活躍的十年，新的方法層出不窮。值得一提的是人工神經(jīng)網(wǎng)絡(luò)(ANN)在語(yǔ)音識(shí)別中的應(yīng)用。1986年，Meclelland和Elman等在TRACE系統(tǒng)中率先實(shí)現(xiàn)了利用ANN來(lái)對(duì)相鄰語(yǔ)音段相關(guān)信息的描述。1987年，LiPPmann等人對(duì)六種不同結(jié)構(gòu)的ANN在語(yǔ)音識(shí)別中的應(yīng)用進(jìn)行了分析，探索了用ANN解決語(yǔ)音模板分類的機(jī)制和特點(diǎn)[23]。為了解決語(yǔ)音識(shí)別中的時(shí)長(zhǎng)問(wèn)題，Waibel等提出了時(shí)延神經(jīng)網(wǎng)絡(luò)IDNN((Time-DelayNeuralNetwork)，Robinson提出了循環(huán)網(wǎng)絡(luò)RNN(RecurrentNN)，Levin提出了HCNN(HiddenControlNN)，Bourland提出了帶有上下文信息和反饋輸入的循環(huán)多層感知器等。但出入意料的是，盡管神經(jīng)網(wǎng)絡(luò)克服了HMM的許多不足，神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用并沒(méi)有起初人們想象的那樣樂(lè)觀，單獨(dú)使用神經(jīng)網(wǎng)絡(luò)并沒(méi)有達(dá)到比HMM更好的識(shí)別結(jié)果。總之，盡管新的方法和思路不斷涌現(xiàn)，但基于HMM的識(shí)別算法仍是當(dāng)前語(yǔ)音識(shí)別的主流算法。隱馬爾可夫模型利用概率及統(tǒng)計(jì)范疇的成功地解決了：如何辨識(shí)具有不同參數(shù)的短時(shí)平穩(wěn)信號(hào)段，怎樣跟蹤它們之間的轉(zhuǎn)化等問(wèn)題。在進(jìn)行識(shí)別時(shí)，為每一個(gè)參考模型計(jì)算出產(chǎn)生測(cè)試觀察的概率，且測(cè)試信號(hào)（即輸入信號(hào)）按最大被識(shí)別為某個(gè)單詞。所以HMM對(duì)語(yǔ)音識(shí)別具有很重要的意義。HMM模型的結(jié)構(gòu)HMM的結(jié)構(gòu)主要有兩種，一種是各自循環(huán)的，另一種是從左至右的，如圖2.3所示，圖（a）是一種各自循環(huán)的HMM結(jié)構(gòu)，可以應(yīng)用于說(shuō)話人識(shí)別、語(yǔ)種辨識(shí)等場(chǎng)合，而圖(b)和圖（c）則分別是三轉(zhuǎn)移和二轉(zhuǎn)移的從左到右的HMM結(jié)構(gòu)，語(yǔ)音識(shí)別系統(tǒng)一般都采用這種從左至右的HMM結(jié)構(gòu)。圖2.3HMM模型的結(jié)構(gòu)類型在確定了HMM模型的結(jié)構(gòu)后，一個(gè)HMM模型λ就可以用三個(gè)參數(shù)來(lái)完全描述了。它們是狀態(tài)的初始分布π、狀態(tài)的轉(zhuǎn)移概率矩陣A和狀態(tài)的輸出概率矩陣B，即λ＝（π，A，B）。下面是這三個(gè)參數(shù)的定義:(l)π＝[π1,π2,…,πN]為初始分布，用于描述觀察序列O在t=1時(shí)刻時(shí)所處狀態(tài)q1屬于模型中各狀態(tài)的概率分布，即:πi=P(q1=Si)，i=1，2，…，N(2-1)滿足：SKIPIF1<0（2）A＝｛aij|i，j=1，2，…，N｝為狀態(tài)轉(zhuǎn)移概率矩陣，假設(shè)當(dāng)前所處狀態(tài)qt只與前一時(shí)刻所處狀態(tài)qt-1有關(guān)，即:aij=P(qt=sj|qt-1=Si，qt-2=sk，…)=P(qt=Sj|qt-1=si)(2-2)滿足：SKIPIF1<0（3）B＝bj(Oi)是為觀測(cè)事件輸出概率矩陣，即狀態(tài)j時(shí)出現(xiàn)觀測(cè)事件Oi的概率。根據(jù)觀測(cè)事件Oi的形式，可以把HMM分為兩大類，也就是離散HMM(DHMM)和連續(xù)HMM(CHMM)，DHMM對(duì)應(yīng)的輸出概率B是一個(gè)概率矩陣，而CHMM對(duì)應(yīng)的輸出概率B則是一個(gè)輸出概率密度函數(shù)。在DHMM中，觀測(cè)事件序列為符號(hào)序列，每一個(gè)觀測(cè)事件是一個(gè)符號(hào)，B是一個(gè)狀態(tài)概率矩陣:B={bj(k),j=1,2,…,M}(2-3)它滿足SKIPIF1<0,bj(K)表示第j個(gè)狀態(tài)的第K個(gè)符號(hào)的輸出概率。在CHMM中，觀測(cè)事件序列為矢量序列，每一個(gè)觀測(cè)事件是一個(gè)矢量，B是一個(gè)概率密度函數(shù):SKIPIF1<0（2－4）上面給出的是一個(gè)混合高斯密度函數(shù)，其中Ni表示第i個(gè)高斯密度函數(shù)分量，M表示第j個(gè)狀態(tài)的高斯概率密度函數(shù)的個(gè)數(shù)，cjl表示第j個(gè)狀態(tài)的第l個(gè)高斯密度函數(shù)分量的權(quán)值。高斯密度函數(shù)的形式如下:SKIPIF1<0(2-5)Oi表示觀察矢量ujl表示第j個(gè)狀態(tài)，第l個(gè)高斯密度函數(shù)分量的均值矢量∑jl表示表示第j個(gè)狀態(tài)，第1個(gè)高斯密度函數(shù)分量的協(xié)方差矩陣上面給出了HMM模型的定義，圖2.4是用HMM模型對(duì)詞匯“江蘇”的發(fā)音進(jìn)行建模的一個(gè)例子。這里HMM模型采用了從左至右二轉(zhuǎn)移的結(jié)構(gòu)，用了4個(gè)馬爾科夫狀態(tài)來(lái)描繪“江蘇”這個(gè)發(fā)音的過(guò)程，其中矢量序列O={O1,O2,O3,…OT}是對(duì)“江蘇”這段語(yǔ)音進(jìn)行分幀后求得的特征矢量序列.對(duì)“江蘇”這個(gè)詞進(jìn)行發(fā)音的過(guò)程中，大腦首先位于狀態(tài)S1(對(duì)應(yīng)的是音節(jié)“jiang’中聲母“j”的發(fā)音)，并且在該狀態(tài)持續(xù)一段時(shí)間并輸出矢量序列O1,O2,O3,…On，然后跳轉(zhuǎn)到狀態(tài)S2(對(duì)應(yīng)的是音節(jié)“jiang’’中的韻母“iang”的發(fā)音)，并在該狀態(tài)輸出矢量序列On,On+1,…Om，然后再跳轉(zhuǎn)到狀態(tài)S3，重復(fù)同樣的過(guò)程，直到發(fā)音完畢。可以看到，大腦發(fā)音過(guò)程中所處的狀態(tài)S是隱含的，不可觀測(cè)的，通過(guò)這些隱含的狀態(tài)輸出的語(yǔ)音信號(hào)特征矢量序列O則是一個(gè)可觀察的序列，HMM通過(guò)這樣一個(gè)雙隨機(jī)過(guò)程，合理地模仿了人發(fā)音的過(guò)程。圖2.4用HMM模型對(duì)語(yǔ)音信號(hào)進(jìn)行建模的例子前向和后向算法前向和后向算法用于解決HMM模型的第一個(gè)問(wèn)題：給定觀察序列O＝O1O2…OT和HMM模型λ＝（π，A，B），計(jì)算觀察序列對(duì)HMM模型的輸出概率p(O|λ)最直接的求取方法如下：對(duì)一個(gè)固定的狀態(tài)序列Q=q1,q2,…,qT有：SKIPIF1<0（2－6）對(duì)于給定的λ，產(chǎn)生Q的概率為:SKIPIF1<0（2－7）上式的計(jì)算量非常大，現(xiàn)實(shí)中并不實(shí)用，因此需要一個(gè)高效的算法來(lái)計(jì)算，前向和后向算法就是解決問(wèn)題的有效算法。（1）前向算法前向概率變量α被定義為αi(i)=P(O1,O2,…Ot,qt=θ|λ),表示已知HMM模型參數(shù)為λ的情況下，產(chǎn)生部分觀察序列｛O1,O2,…Ot｝，并且在時(shí)刻t處于狀態(tài)θi的概率。則前向算法采用如下的遞推方式求p(O|λ):初始化：α1(i)=πibi(O1),1≤i≤N遞推：對(duì)于1≤t≤T-1,1≤j≤N有SKIPIF1<0（2－8）SKIPIF1<0（2－9）（2）后向算法后向概率變量β定義為βi(i)=p(Oi+1,Oi+2,…,OT,qt=θi|λ),表示已知HMM模型參數(shù)為λ的情況下，產(chǎn)生部分觀察序列｛Oi+1,Oi+2,…,OT｝，并且在時(shí)刻t處于狀態(tài)θi的概率。則后向算法采用如下的遞推方式求p(O|λ):初始化：βT(i)=1,1≤i≤N遞推：對(duì)于t=T-1,T-2,…,1,1≤j≤N有SKIPIF1<0（2－10）SKIPIF1<0（2－11）前向概率變量α和后向概率變量β巧妙地將整個(gè)觀察系列對(duì)HMM模型的輸出概率分成兩個(gè)部分觀察序列的輸出概率的乘積，而且它們各自都有相應(yīng)的遞推公式，可以大大簡(jiǎn)化計(jì)算。經(jīng)過(guò)分析，可以得到下面的輸出概率計(jì)算公式:SKIPIF1<0（2－12）前向概率變量a和后向概率變量聲在HMM算法中應(yīng)用非常普遍，Viterbi算法Viterbi算法用于解決HMM模型的第二個(gè)問(wèn)題：給定觀察序列O=O1O2…OT和HMM模型λ＝（π，A，B），找出產(chǎn)生該序列的最佳狀態(tài)序列Q＝[q1,q2,…qN]。這其實(shí)就是HMM模型中的識(shí)別問(wèn)題。假設(shè)系統(tǒng)在時(shí)刻t處于狀態(tài)I,即qt=i，而先前時(shí)刻的狀態(tài)為q1,q2,…qt-1可以任意選擇則可以找到一條從1到t的路徑，使得產(chǎn)生輸出序列O1O2…Ot的概率達(dá)到最大。將此概率最大值記為δt(i),有：SKIPIF1<0（2－13）則可以用如下的遞推方示求取最佳狀態(tài)序列Q：初始化：δt(i)＝πib1(O1),1≤i≤Nψ1(i)=0遞推：對(duì)于2≤t≤T，1≤j≤N，有SKIPIF1<0SKIPIF1<0（2－14）可以看到，Viterbi算法用遞推的方式求取最佳狀態(tài)序列，它通過(guò)求取每一步的局部最優(yōu)值，得到最終的全局最優(yōu)值，每一步局部最優(yōu)的求取只與前一步的結(jié)果有關(guān)，這是一種基于DP動(dòng)態(tài)規(guī)劃的思想，能夠大大減少計(jì)算量，因此用Viterbi算法計(jì)算觀察序列在模型λ下的最大輸出概率非常有效。Baum-Welch算法Baum-Welch算法用于解決HMM模型的第三個(gè)問(wèn)題，即給定觀察序列O＝O1O2…OT,確定HMM模型λ＝（π，A，B）的三個(gè)參數(shù)，使在該HMM模型下產(chǎn)生該觀察序列的概率最大。為了對(duì)HMM模型的參數(shù)進(jìn)行估計(jì)，人們提出了一系列的準(zhǔn)則，如ML（MaximumLikelihood)最大似然度準(zhǔn)則，MAP(MaximumaPosteriori)最大后驗(yàn)概率準(zhǔn)則，MCE(MinimumClassificationError)最小分類誤差等。Baumn-Welch算法就是基于ML準(zhǔn)則的一種參數(shù)估計(jì)方法，在HMM識(shí)別系統(tǒng)中用的非常廣泛。定義εt(i,j)為給定序列O和模型λ時(shí)，HMM模型在t時(shí)刻處于i狀態(tài)，t+1時(shí)刻處于j狀態(tài)的概率，即SKIPIF1<0（2－15）通過(guò)推導(dǎo)，可以得到：SKIPIF1<0（2－16）2.3Internet中語(yǔ)音識(shí)別的應(yīng)用對(duì)于語(yǔ)音應(yīng)用來(lái)說(shuō)，以往的語(yǔ)音應(yīng)用建立于簡(jiǎn)單、封閉的交互機(jī)制上。其數(shù)據(jù)來(lái)源基本為事先的預(yù)制錄音，操作流程為簡(jiǎn)單的菜單式按鍵選擇。隨著語(yǔ)音識(shí)別、語(yǔ)音合成等新的人機(jī)交互方式的成熟應(yīng)用，傳統(tǒng)的CTI系統(tǒng)具備了新的交互能力。而語(yǔ)音瀏覽正是為適應(yīng)這種新的交互方式和Internet應(yīng)用的結(jié)合而誕生的。語(yǔ)音瀏覽使傳統(tǒng)的簡(jiǎn)單機(jī)成為了一種功能強(qiáng)大且操作簡(jiǎn)單的數(shù)據(jù)訪問(wèn)終端，將數(shù)據(jù)和交互建立于Internet瀏覽結(jié)構(gòu)之上，從而使機(jī)這樣簡(jiǎn)單的設(shè)備可以比其它網(wǎng)絡(luò)終端更為容易和方便的暢游Internet。隨著通信的發(fā)展，人們幾乎無(wú)時(shí)無(wú)處不可以使用。這極大地方便人們，同時(shí)也為語(yǔ)音識(shí)別帶來(lái)了前所未有的挑戰(zhàn)。影響速度的因素有：網(wǎng)絡(luò)受帶寬的限制，基本算法復(fù)雜等因素影響識(shí)別的速度。我們不得不面對(duì)比桌面識(shí)別系統(tǒng)復(fù)雜得多的環(huán)境因素，影響識(shí)別率的因素也很多:信噪比很低的情況(如戶外用戶)、很多實(shí)際環(huán)境噪聲是高度非穩(wěn)態(tài)的、背景環(huán)境中存在其它講話者的話音以及用戶在不自覺(jué)中發(fā)音方式的改變(Lombard效應(yīng))等等。另外，和所有的手持設(shè)備一樣，語(yǔ)音的音質(zhì)與受話器的位置變化關(guān)系密切，并嚴(yán)重影響語(yǔ)音識(shí)別的結(jié)果。語(yǔ)音瀏覽類同于Internet與客戶端計(jì)算機(jī)之間的瀏覽機(jī)制。從而將龐大的最為普及的語(yǔ)音通訊網(wǎng)絡(luò)有機(jī)的融入了豐富的Internet中，使建立于數(shù)據(jù)網(wǎng)絡(luò)之上的應(yīng)用得到了最廣泛的延伸。為何語(yǔ)音應(yīng)用技術(shù)對(duì)于互聯(lián)網(wǎng)絡(luò)、信息技術(shù)如此重要?首先，人類的自然語(yǔ)音通過(guò)能夠被識(shí)別和理解，那么無(wú)疑是最適合的一種工具，用來(lái)提供大多數(shù)用戶在互聯(lián)網(wǎng)上所需求的信息和服務(wù)。互聯(lián)網(wǎng)提供了各種各樣的大量實(shí)用信息，但是這些信息并不是隨處可得的，用戶必須在家里或辦公室通過(guò)電腦聯(lián)網(wǎng)來(lái)獲得這些信息。消費(fèi)者對(duì)于互聯(lián)網(wǎng)內(nèi)容和信息的大量需求促使各種生產(chǎn)廠商設(shè)計(jì)出各種各樣的產(chǎn)品，如PDA、等這些可隨身攜帶又能直接與網(wǎng)絡(luò)互聯(lián)的產(chǎn)品。WAP蜂窩等目前是最流行也是最符合要求的典型例子。這些設(shè)備的快速發(fā)展促使通過(guò)手持設(shè)備和來(lái)訪問(wèn)互聯(lián)網(wǎng)的內(nèi)容是可以實(shí)現(xiàn)的。另外，隨著移動(dòng)越來(lái)越小，越來(lái)越輕便，越來(lái)越便宜，以及移動(dòng)電池使用時(shí)間越來(lái)越長(zhǎng)，其所具備的便攜性遠(yuǎn)勝于電腦。而伴隨移動(dòng)通信技術(shù)的飛速發(fā)展，他們更具備了電腦不具備的優(yōu)勢(shì)，比如全球定位。用戶甚至可以在開(kāi)車時(shí)方便的使用移動(dòng)，甚至在不久的將來(lái)使用車載，通過(guò)車載來(lái)尋找相關(guān)的信息。語(yǔ)音具有其無(wú)與倫比的獨(dú)特優(yōu)勢(shì)，而且語(yǔ)音比鍵盤和閱讀更具有親切感。當(dāng)然，圖像和文字依然很重要，將來(lái)會(huì)出現(xiàn)“多模式”的設(shè)備，可以以圖像和文字的方式進(jìn)行，或以語(yǔ)音的方式進(jìn)行，甚至可以混合語(yǔ)音和圖像信息。而這正是語(yǔ)音應(yīng)用技術(shù)帶來(lái)的美好前景。同樣，語(yǔ)音對(duì)于Internet也一樣重要。首先，基于語(yǔ)音瀏覽技術(shù)的語(yǔ)音應(yīng)用系統(tǒng)的開(kāi)發(fā)很容易，應(yīng)用語(yǔ)音應(yīng)用技術(shù)可以輕松建立豐富、廉價(jià)和高效的Web應(yīng)用及其開(kāi)發(fā)工具。其次，語(yǔ)音應(yīng)用系統(tǒng)很容易發(fā)布，不再需要建立一個(gè)指定的專用語(yǔ)音服務(wù)器，基于語(yǔ)音瀏覽機(jī)制的語(yǔ)音應(yīng)用可以放棄Internet上的任意一個(gè)地方，而用戶通過(guò)，可以像使用IE這樣的瀏覽器一樣進(jìn)行查詢、書簽以及鏈接等其他Web的瀏覽方式。2.4本章小結(jié)本章從概念、分類以及特點(diǎn)等多個(gè)方面對(duì)語(yǔ)音識(shí)別技術(shù)進(jìn)行了詳細(xì)的分析，介紹語(yǔ)音識(shí)別的關(guān)鍵技術(shù)和算法，并在此基礎(chǔ)上詳細(xì)闡述了Internet語(yǔ)音識(shí)別技術(shù)的要求，為下一章SALT技術(shù)的引入進(jìn)行了有力的鋪墊。

第3章基于WEBSALT語(yǔ)音識(shí)別3.1SALT技術(shù)SALT(SpeechApplicationLanguageTags，語(yǔ)音應(yīng)用語(yǔ)言標(biāo)記)作為對(duì)通常使用的Web編程語(yǔ)言的擴(kuò)充，SALT規(guī)范定義了一組標(biāo)記并且整合了W3C(全球網(wǎng)聯(lián)合會(huì))和工ETF(因特網(wǎng)工程任務(wù)組)的現(xiàn)有標(biāo)準(zhǔn)。其目標(biāo)使用領(lǐng)域是語(yǔ)音和多媒體Web應(yīng)用程序。有了它，PC、、、PDA以及PocketPC和最新推出的TabletPC等設(shè)備都可以訪問(wèn)基于Web的信息、程序和服務(wù)。SALT技術(shù)知識(shí)分析SALT(語(yǔ)音應(yīng)用語(yǔ)言標(biāo)記)是一種能為用戶與電子設(shè)備間的交互提供新方法的語(yǔ)音標(biāo)記語(yǔ)言，是一種能為用戶與電子設(shè)備間的交互提供新方法的語(yǔ)音標(biāo)記語(yǔ)言。SALT適用于語(yǔ)音驅(qū)動(dòng)以及所謂的“多模式”Web應(yīng)用[39]──即那些將語(yǔ)音交互與傳統(tǒng)界面模式混合在一起的應(yīng)用。該技術(shù)能與可視及核心Web技術(shù)直接集成，并以人類所共有的語(yǔ)音—這種最自然、有效的用戶界面來(lái)提供豐富的設(shè)備應(yīng)用—包括移動(dòng)、、桌面等。多模式應(yīng)用比單模式應(yīng)用能為終端用戶提供更多的東西:比如圖形用戶界面(GUI)以外的語(yǔ)音輸入等。由于今天的Web頁(yè)面能托管各種可視及多媒體組件，因此具有豐富的交互前景。讓我們來(lái)考慮幾種情況:使用PDA(個(gè)人數(shù)字助理)時(shí)，用戶一般不得不在一個(gè)微型鍵盤上費(fèi)勁地敲擊以將數(shù)據(jù)輸進(jìn)Web表格中，而PDA語(yǔ)音接口則使他們通過(guò)說(shuō)話來(lái)直接將數(shù)據(jù)輸進(jìn)表格中。在其他的移動(dòng)情況中，比如在倉(cāng)庫(kù)內(nèi)或正在駕駛時(shí)，用戶可能主要需要與他們的設(shè)備進(jìn)行“不用眼睛”和/或“不用手”的交互。SALT語(yǔ)音接口可進(jìn)行語(yǔ)音輸入及輸出來(lái)驅(qū)動(dòng)應(yīng)用。在桌面或家庭設(shè)置中，許多應(yīng)用都可利用到語(yǔ)音這種額外的交互方式。SALT語(yǔ)音接口可為用戶界面提供極大豐富的功能，比如屏幕閱讀、語(yǔ)音網(wǎng)上沖浪、快速數(shù)據(jù)輸入以及“指向-點(diǎn)擊-說(shuō)話”功能。有多種體系結(jié)構(gòu)可以支持用戶界面模式的匯集。SALT獨(dú)立地運(yùn)行主機(jī)標(biāo)記語(yǔ)言，亦即語(yǔ)音接口可被集成到任何適合使用標(biāo)記的客戶機(jī)設(shè)備上?，F(xiàn)有的Web基礎(chǔ)設(shè)施具有同樣的功能。利用SALT,Web頁(yè)面腳本及其他代碼可以訪問(wèn)及控制語(yǔ)音功能，且SALT可以和任何當(dāng)今或?qū)?lái)的Web標(biāo)準(zhǔn)一起使用──包括HTML以超文本標(biāo)記語(yǔ)言)、XHTML(可擴(kuò)展超文本標(biāo)記語(yǔ)言)、WML(無(wú)線標(biāo)記語(yǔ)言)以及SM工以同步多媒體集成語(yǔ)言)等?，F(xiàn)在，開(kāi)發(fā)商不是在用語(yǔ)音來(lái)加強(qiáng)可視頁(yè)面，就是在將可視界面完全移植到中。隨著時(shí)間的推移，他們將發(fā)現(xiàn)SALT是對(duì)他們技術(shù)集合的一種自然擴(kuò)展。另外，語(yǔ)音業(yè)務(wù)是組件式的，也就是說(shuō)，語(yǔ)音識(shí)別和/或語(yǔ)音合成既可以嵌入到設(shè)備中，又可以運(yùn)行于遠(yuǎn)程機(jī)器上。這使得小型設(shè)備一如移動(dòng)等能利用遠(yuǎn)程服務(wù)器上的資源來(lái)運(yùn)行SALT應(yīng)用。而且，也可以將像語(yǔ)音文件及語(yǔ)法規(guī)則這樣的大型或動(dòng)態(tài)資源駐存在遠(yuǎn)程位置上。[40,41]致力于通過(guò)向諸如HTML和XHTML之類的標(biāo)準(zhǔn)，并向Web及IVR開(kāi)發(fā)工具[42,43]提供擴(kuò)展，以促進(jìn)應(yīng)用軟件中的這種多模式能力和語(yǔ)音驅(qū)動(dòng)接口。由于大批Web開(kāi)發(fā)商對(duì)利用語(yǔ)音來(lái)創(chuàng)建多模式或用戶界面的可能性感到非常興奮，因此越來(lái)越多的應(yīng)用將以擁有語(yǔ)音及多模式的承諾來(lái)提交，從而為用戶提供一種最豐富而又最自然的Web交互方式[41]。商家們正在為各種平臺(tái)開(kāi)發(fā)具有SALT功能的瀏覽器，例如微軟將很快為InternetExplorer,PocketInternetExplorer公布SALT插件以及SALT應(yīng)用服務(wù)器。微軟公司已經(jīng)發(fā)布了能夠無(wú)縫嵌入到該公司開(kāi)發(fā)環(huán)境VisualStudio.NET中的支持SALT的語(yǔ)音開(kāi)發(fā)工具包(SpeechApplicationSoftwareDevelopmentKit,SASDK)。SALT作為對(duì)通常使用的Web編程語(yǔ)言的擴(kuò)充，SALT規(guī)范定義了一組標(biāo)記并且整合了W3C(全球網(wǎng)聯(lián)合會(huì))和IETF(因特網(wǎng)工程任務(wù)組)的現(xiàn)有標(biāo)準(zhǔn)。SALT規(guī)范的目標(biāo)使用領(lǐng)域是語(yǔ)音和多媒體Web應(yīng)用程序。有了它，PC、、移動(dòng)、PDA以及PocketPC和最新推出的TabletPC等設(shè)備都可以訪問(wèn)基于Web的信息、程序和服務(wù)。根據(jù)國(guó)際知名專業(yè)市場(chǎng)研究調(diào)查公司In-Stat/MDR日前公布的一份調(diào)查研究結(jié)果顯示[44]，SALT是一項(xiàng)技術(shù)，它允許多種模式的通訊，例如輸入語(yǔ)音但輸出卻轉(zhuǎn)成數(shù)據(jù)，它開(kāi)啟了一個(gè)新的應(yīng)用與商機(jī)的世界。根據(jù)In-Stat/MDR調(diào)查，利用人類的語(yǔ)音，Intel的應(yīng)用將更加的簡(jiǎn)便而友善，SALT將可使得語(yǔ)音識(shí)別(SpeechRecognition)的軟件與應(yīng)用，行動(dòng)上網(wǎng)設(shè)備，與無(wú)線廣播服務(wù)(WirelessSubscriberAirtime)等的市場(chǎng)開(kāi)始成長(zhǎng)。下面是SALT技術(shù)對(duì)美國(guó)市場(chǎng)的總體影響排列示意圖：SKIPIF1<0圖3.1SALT在美國(guó)市場(chǎng)的影響SALT使您可以在網(wǎng)絡(luò)上存取任何東西，可以讓移動(dòng)設(shè)備使用者進(jìn)行輸出或是輸入，這種存取沒(méi)有SALT的技術(shù)是不可能達(dá)成的。通常在PDA或手提電腦上輸入是很不靈便的，而一般語(yǔ)音入口網(wǎng)站的服務(wù)內(nèi)容又有限，SALT采取最好的輸入與輸出的方法，它把兩者加以結(jié)合，一起而讓計(jì)算機(jī)環(huán)境變得有新的活力。SALT是一種能為用戶與電子設(shè)備間的交互提供新方法的語(yǔ)音標(biāo)記語(yǔ)言。SALT適用于語(yǔ)音驅(qū)動(dòng)以及所謂的“多模式”Web應(yīng)用—即那些將語(yǔ)音交互與傳統(tǒng)界面模式混合在一起的應(yīng)用。該技術(shù)能與可視為核心Web技術(shù)直接集成，并以人類所共有的語(yǔ)音—這種最自然、有效的用戶界面來(lái)提供豐富的設(shè)備應(yīng)用—包括移動(dòng)設(shè)備、、桌面等。多模式應(yīng)用比單模式應(yīng)用能為終端用戶提供更多的東西：比如圖形用戶界面(GUI)以外的語(yǔ)音輸入等。由于今天的Web頁(yè)面能托管各種可視及多媒體組件，因此SALT具有豐富的發(fā)展前景。SALT作為對(duì)通常使用的Web編程語(yǔ)言的擴(kuò)充，SALT規(guī)范定義了一組標(biāo)記并且整合了W3C(全球網(wǎng)聯(lián)合會(huì))和IETF(因特網(wǎng)工程任務(wù)組)的現(xiàn)有標(biāo)準(zhǔn)，其目標(biāo)使用領(lǐng)域是語(yǔ)音和多媒體Web應(yīng)用程序。有了它，PC、、、PDA以及PocketPC和最新推出的TabletPC等設(shè)備都可以訪問(wèn)基于Web的信息、程序和服務(wù)。SALT己經(jīng)定義了原始的標(biāo)記集合，該集合擴(kuò)展了目前廣為使用的WWW編程語(yǔ)言。因此開(kāi)發(fā)人員能夠使用已經(jīng)習(xí)慣了的工具和技術(shù)向WWW內(nèi)容和應(yīng)用程序追加語(yǔ)音接口。在人機(jī)交互應(yīng)用中，通過(guò)追加SALT標(biāo)記，能夠支持語(yǔ)音輸入和輸出功能。這些功能也能獨(dú)立地與諸如用輸入筆指著畫面時(shí)輸出語(yǔ)音等其它接口進(jìn)行配合使用。SALT技術(shù)的優(yōu)越性微軟通過(guò)幾個(gè)關(guān)鍵點(diǎn)來(lái)描述該技術(shù)的優(yōu)越性：1)開(kāi)放的標(biāo)準(zhǔn)SALT技術(shù)是一套典型的對(duì)HTML和XHTML進(jìn)行擴(kuò)展的技術(shù)，通過(guò)這種技術(shù)的應(yīng)用可以對(duì)網(wǎng)絡(luò)服務(wù)提供語(yǔ)音支持。2)通用平臺(tái)3)節(jié)約成本對(duì)于開(kāi)發(fā)周期，語(yǔ)音應(yīng)用往往受限于開(kāi)發(fā)者的熟練程度。而微軟正在提供一個(gè)基于廣泛適用于微軟.NET技術(shù)的語(yǔ)音開(kāi)發(fā)平臺(tái)，通過(guò)微軟VisualStudio.NET到語(yǔ)音應(yīng)用的發(fā)展而產(chǎn)生了網(wǎng)絡(luò)編程模式，并且在這方面投入大量的訓(xùn)練而不是培養(yǎng)6百萬(wàn)語(yǔ)音應(yīng)用領(lǐng)域的開(kāi)發(fā)者，這樣可以讓企業(yè)培養(yǎng)出大批有素質(zhì)的程序開(kāi)發(fā)者，因此節(jié)約了成本。另外，由于該應(yīng)用是基于熟練的網(wǎng)絡(luò)編程，所有網(wǎng)絡(luò)開(kāi)發(fā)者可以接受再訓(xùn)練來(lái)完成開(kāi)發(fā)語(yǔ)音用戶接口。4)應(yīng)用廣泛微軟正在積極和ISV(獨(dú)立軟件開(kāi)發(fā)商)合作進(jìn)行基于SALT的應(yīng)用開(kāi)發(fā)。在接下來(lái)的幾年里，在各項(xiàng)目應(yīng)用中優(yōu)先采用語(yǔ)音技術(shù)將會(huì)成為可能。以下為SALT技術(shù)的主要應(yīng)用：端末用戶可以隨時(shí)隨地使用基于SALT的應(yīng)用，并且可以同時(shí)支持任何使用語(yǔ)音、文本或圖像接口的設(shè)備。開(kāi)發(fā)者可以在現(xiàn)存的HTML,XHTML，以及XML網(wǎng)頁(yè)中無(wú)縫接入語(yǔ)音模塊，使用他們一直熟悉的開(kāi)發(fā)語(yǔ)言、技術(shù)以及現(xiàn)存工具來(lái)進(jìn)行開(kāi)發(fā)。商業(yè)上可以實(shí)現(xiàn)降低成本，也可以通過(guò)提供通用的基于Web的多種媒體交互應(yīng)用來(lái)降低其復(fù)雜度。另外，可以避免有時(shí)為了對(duì)每一種應(yīng)用有個(gè)性化的輸出而對(duì)現(xiàn)有Web的資金和人力的投入，及避免重復(fù)投資。服務(wù)提供商能夠提供支持更多Web服務(wù)的Web應(yīng)用，同時(shí)還將增加新的商機(jī)和更好的服務(wù)帶來(lái)的收入。5)擴(kuò)展性利用SALT，Web頁(yè)面腳本及其他代碼可以訪問(wèn)及控制語(yǔ)音功能，而且SALT可以和任何當(dāng)今或?qū)?lái)的Web標(biāo)準(zhǔn)一起使用—包括HTML(超文本標(biāo)記語(yǔ)言)、XHTML(可擴(kuò)展超文本標(biāo)一記語(yǔ)言)、WML(無(wú)線標(biāo)記語(yǔ)言)以及SMIL(同步多媒體集成語(yǔ)言)等?，F(xiàn)在，開(kāi)發(fā)商不是在用語(yǔ)音來(lái)加強(qiáng)可視頁(yè)面，就是在將可視界面完全移植到中。隨著時(shí)間的推移，他們將發(fā)現(xiàn)SALT是對(duì)他們技術(shù)集合的一種自然擴(kuò)展。6)組件式語(yǔ)音業(yè)務(wù)是組件式的，也就是說(shuō)，語(yǔ)音識(shí)別和/或語(yǔ)音合成既可以嵌入到設(shè)備中，又可以運(yùn)行于遠(yuǎn)程機(jī)器上。這使得小型設(shè)備(如移動(dòng)等)能利用遠(yuǎn)程服務(wù)器上的資源來(lái)運(yùn)行SALT應(yīng)用。而且，也可以將像語(yǔ)音文件及語(yǔ)法規(guī)則這樣的大型或動(dòng)態(tài)資源

人人文庫(kù)> 全部分類> 專業(yè)文獻(xiàn) > 工業(yè)制造

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

碩士：基于web的salt語(yǔ)音識(shí)別技術(shù)應(yīng)用研究終稿(完整版)資料

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

碩士：基于web的salt語(yǔ)音識(shí)別技術(shù)應(yīng)用研究終稿(完整版)資料

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔