語音識別技術(shù)_第1頁
語音識別技術(shù)_第2頁
語音識別技術(shù)_第3頁
語音識別技術(shù)_第4頁
語音識別技術(shù)_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

語音識別技術(shù)計科1111時間:2013年11月1日制作人:孟傲、韓園、嚴(yán)赟

1(1)語言是人類特有的功能,聲音是人類常用的工具,是相互傳遞信息的最主要的手段。(2)語音和語言與人的智力活動密切相關(guān),是人們構(gòu)成思想疏通和感情交流的最主要的途徑。通過語音傳遞信息是人類最重要、最有效、最常用和最方便的交換信息形式。2講解重點:1.語音識別的重要性2.

語音識別的定義、原理和分類3.語音識別的歷史回顧4.語音信號處理簡介5.語音技術(shù)概述31語音識別的重要性語音信息處理

人類利用語言相互交流信息,包括語音和文字兩種表達(dá)方式。通過語音相互傳遞信息,這是人類最重要的基本功能之一。隨著信息社會的發(fā)展,人與人之間,人與機(jī)器之間也需要進(jìn)行大量的信息交換。

計算機(jī)語音識別是智能計算機(jī)系統(tǒng)的重要特征。這一技術(shù)的應(yīng)用將從根本上改變計算機(jī)的人機(jī)界面,從而對計算機(jī)的發(fā)展以及推廣應(yīng)用產(chǎn)生深遠(yuǎn)的影響。語音識別的重要性4語音識別是一項具有巨大應(yīng)用推廣前景的工程基于電話的語音識別技術(shù),使計算機(jī)直接為客戶提供金融證券和旅游等方面的信息查詢及服務(wù)成為可能,進(jìn)而成為電子商務(wù)中的重要一環(huán)(Voice-Commerce)。語音識別技術(shù)作為聲控產(chǎn)業(yè),對編輯排版、辦公自動化、工業(yè)過程和機(jī)器操作的聲控技術(shù)起到重大的推進(jìn)作用??梢灶A(yù)言,語音技術(shù)必將對工業(yè)、金融、商業(yè)、文化、教育等諸方面事業(yè)產(chǎn)生革命性的影響。5主要先進(jìn)國家都將此工程列為國家級研究項目面對如此廣闊的應(yīng)用領(lǐng)域,目前國內(nèi)外眾多公司正

積極推動語音識別技術(shù)的應(yīng)用。

微軟:讓計算機(jī)能說會聽

IBM:ViaVoice仍居主流

Intel:做語音技術(shù)倡導(dǎo)者

6微軟:讓計算機(jī)能說會聽BillGates在97年世界計算機(jī)博覽會(COMDEX)主題演講會上描繪IT事業(yè)的發(fā)展宏圖時指出:下一代操作系統(tǒng)和應(yīng)用程序的用戶界面將是語音識別。工業(yè)界應(yīng)對語音識別領(lǐng)域的重大突破做好充分準(zhǔn)備,因為那將是一場席卷全球的另一次熱潮。1998年11月5日,微軟中國研究院在北京成立。該中心的任務(wù)是重點研究計算機(jī)在中文環(huán)境下的易用性。

7IBM:ViaVoice仍居主流IBM公司潛心研究語音識別技術(shù)迄今已達(dá)30年之久,投資超過2億美元。IBM公司于1995年在北京成立了中國研究中心,中文語音信息處理成了該中心三大研究領(lǐng)域之一,并于1997年9月4日,在北京推出了中文連續(xù)語音識別產(chǎn)品ViaVoice。

8Intel:做語音技術(shù)倡導(dǎo)者1998年,英特爾公司也宣布致力于推廣語音識別技術(shù),除了在北京舉辦首屆語音技術(shù)國際論壇之外,還在北京、上海、成都、廣州等地展開了“基于英特爾框架的語音識別技術(shù)”的宣傳活動。聯(lián)合了七家世界著名學(xué)術(shù)機(jī)構(gòu)(中科院自動化所、清華大學(xué)、香港科技大學(xué)、香港中文大學(xué)、麻省理工學(xué)院、俄勒崗研究院、WATERLLOO大學(xué))成立了“國際語音技術(shù)研究組織”,致力于計算機(jī)語音技術(shù)的基礎(chǔ)研究,以加速中文語音識別技術(shù)的發(fā)展。

92.1語音識別的定義語音識別是研究如何采用數(shù)字信號處理技術(shù)自動提取以及決定語音信號中最基本、最有意義的信息的一門新興的邊緣學(xué)科。它是語音信號處理學(xué)科的一個分支。語音識別所涉及的學(xué)科領(lǐng)域:信號處理、物理學(xué)(聲學(xué))、模式匹配、通信及信息理論、語言語音學(xué)、生理學(xué)、計算機(jī)科學(xué)(研究軟硬件算法以便更有效地實現(xiàn)用于識別系統(tǒng)中的各種方法)、心理學(xué)等。10音韻信息與音律信息有意義、有內(nèi)容的信息是構(gòu)成語音音韻特性、即語音的共性特征之基礎(chǔ),這類特征信息稱為音韻信息。語音信號中有關(guān)個人特征的信息、即語音的個性特征,如:音強(qiáng)、節(jié)奏、音高等,這類特征信息稱為音律信息。從廣義上講,語音識別也包括了對說話人的識別,其主要內(nèi)容是提取語音信號中有關(guān)個人特征的信息、即語音的個性特征(如:音律特性等),在這里專指有意義、有內(nèi)容的識別。112.2語音識別的基本原理訓(xùn)練(Training):預(yù)先分析出語音特征參數(shù),制作語音模板(Template)并存放在語音參數(shù)庫中。識別(Recognition):待識語音經(jīng)過與訓(xùn)練時相同的分析,得到語音參數(shù),將它與庫中的參考模板一一比較,并采用判決的方法找出最接近語音特征的模板,得出識別結(jié)果。失真測度(DistortionMeasures):在進(jìn)行比較時要有個標(biāo)準(zhǔn),這就是計量語音特征參數(shù)矢量之間的“失真測度”。主要識別框架:基于模式匹配的動態(tài)時間規(guī)整法(DTW:DynamicTimeWarping)和基于統(tǒng)計模型的隱馬爾柯夫模型法(HMM:HiddenMarkovModel)。12語音識別原理框圖預(yù)處理特征提取參考模式模式匹配判決規(guī)則語音信號識別結(jié)果訓(xùn)練識別圖語音識別的實現(xiàn)不同的語音識別系統(tǒng),雖然具體實現(xiàn)細(xì)節(jié)有所不同,但所采用的基本技術(shù)相似,一個典型語音識別系統(tǒng)的實現(xiàn)過程如圖所示。

132.3語音識別的分類按識別器的類型:按識別器對使用者的適應(yīng)情況:按語音詞匯表的大?。?4按識別器的類型:孤立單詞識別(IsolatedWordRecognition)

識別的單元為字、詞或短語,它們組成識別的詞匯表(Vocabulary),對它們中的每一個通過訓(xùn)練建立標(biāo)準(zhǔn)模板或模型。連續(xù)語音識別(ContinuousSpeechRecognition)

連續(xù)單詞識別(ConnectedWordRecognition):以比較少的詞匯為對象,能夠識別每個詞。識別的詞匯表和標(biāo)準(zhǔn)樣板或模型也是字、詞或短語,但識別時可以是它們中間幾個的連續(xù)。

連續(xù)言語識別與理解(ConversationalSpeechRecognition):以多數(shù)詞匯為對象,待識語音是一些完整的句子。雖不能完全準(zhǔn)確識別每個單詞,但能夠理解其意義,連續(xù)言語識別也稱會話語音識別。理解是在語音識別之后,根據(jù)語言學(xué)知識來推斷語音的含義內(nèi)容的。

15特定人語音識別(Speaker-Dependent)

語音識別的標(biāo)準(zhǔn)模板或模型只適應(yīng)于某個人,實際上,該模板或模型就是該人通過輸入詞匯表中的每個字、詞或短語的語音建立起來的。其他人使用時,需同樣建立自己的標(biāo)準(zhǔn)模板或模型。非特定人語音識別(Speaker-Independent)

語音識別的標(biāo)準(zhǔn)模板或模型適應(yīng)于指定的某一范疇的說話人(如說標(biāo)準(zhǔn)普通話),標(biāo)準(zhǔn)模板或模型由該范疇的多個人通過訓(xùn)練而產(chǎn)生。識別時可供參加訓(xùn)練的發(fā)音人(圈內(nèi)人)使用,也可供未參加訓(xùn)練的同一范疇的發(fā)音人(圈外人)使用。按識別器對使用者的適應(yīng)情況:16按語音詞匯表的大小:有限詞匯識別

按詞匯表中字、詞或短句個數(shù)的多少,大致分為:

100以下為小詞匯;100-1000為中詞匯;1000以上為大詞匯。無限詞匯識別(全音節(jié)識別)當(dāng)識別基元為漢語普通話中對應(yīng)所有漢字的可讀音節(jié)時,則稱其為全音節(jié)語音識別(音節(jié)字表:Lexicon)。全音節(jié)語音識別是實現(xiàn)無限詞匯或中文文本輸入的基礎(chǔ)。173.1國外語音識別研究的歷史(1)1952年貝爾研究所Davis等人研究成功了世界上第一個能識別10個英文數(shù)字發(fā)音的實驗系統(tǒng)。1960年英國的Denes等人研究成功了第一個計算機(jī)語音識別系統(tǒng)。大規(guī)模的語音識別研究是在進(jìn)入了70年代以后,在小詞匯量、孤立詞的識別方面取得了實質(zhì)性的進(jìn)展*。進(jìn)入80年代以后,研究的重點逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語音識別。在研究思路上也發(fā)生了重大變化,即由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開始轉(zhuǎn)向基于統(tǒng)計模型(HMM)的技術(shù)思路。此外,再次提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語音識別問題的技術(shù)思路*。進(jìn)入90年代以后,在語音識別的系統(tǒng)框架方面并沒有什么重大突破。但是,在語音識別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。18DARPA(DefenseAdvancedResearchProjectsAgency)是在70年代由美國國防部遠(yuǎn)景研究計劃局資助的一項10年計劃,其旨在支持語言理解系統(tǒng)的研究開發(fā)工作。到了80年代,美國國防部遠(yuǎn)景研究計劃局又資助了一項為期10年的DARPA戰(zhàn)略計劃,其中包括噪聲下的語音識別和會話(口語)識別系統(tǒng),識別任務(wù)設(shè)定為“(1000單詞)連續(xù)語音數(shù)據(jù)庫管理”。到了90年代,這一DARPA計劃仍在持續(xù)進(jìn)行中。其研究重點已轉(zhuǎn)向識別裝置中的自然語言處理部分,識別任務(wù)設(shè)定為“航空旅行信息檢索”。

日本也在1981年的第五代計算機(jī)計劃中提出了有關(guān)語音識別輸入-輸出自然語言的宏偉目標(biāo),雖然沒能實現(xiàn)預(yù)期目標(biāo),但是有關(guān)語音識別技術(shù)的研究有了大幅度的加強(qiáng)和進(jìn)展。1987年起,日本又?jǐn)M出新的國家項目---高級人機(jī)口語接口和自動電話翻譯系統(tǒng)。193.2我國語音識別研究的歷史我國的語音識別研究起始于1958年,由中國科學(xué)院聲學(xué)所利用電子管電路識別10個元音。直至1973年才由中國科學(xué)院聲學(xué)所開始計算機(jī)語音識別。由于當(dāng)時條件的限制,我國的語音識別研究工作一直處于緩慢發(fā)展的階段。進(jìn)入80年代以后,隨著計算機(jī)應(yīng)用技術(shù)在我國逐漸普及和應(yīng)用以及數(shù)字信號技術(shù)的進(jìn)一步發(fā)展,國內(nèi)許多單位具備了研究語音技術(shù)的基本條件。與此同時,國際上語音識別技術(shù)在經(jīng)過了多年的沉寂之后重又成為研究的熱點,發(fā)展迅速。就在這種形式下,國內(nèi)許多單位紛紛投入到這項研究工作中去*。1986年3月我國高科技發(fā)展計劃(863計劃)啟動,語音識別作為智能計算機(jī)系統(tǒng)研究的一個重要組成部分而被專門列為研究課題。在863計劃的支持下,我國開始了有組織的語音識別技術(shù)的研究,并決定了每隔兩年召開一次語音識別的專題會議。從此我國的語音識別技術(shù)進(jìn)入了一個前所未有的發(fā)展階段。20國外70年代所取得的實質(zhì)性的進(jìn)展這一時期的語音識別方法基本上是采用傳統(tǒng)的模式識別策略。其中以蘇聯(lián)的Velichko和Zagoruyko、日本的迫江和千葉,以及當(dāng)時在美國的板倉等人的研究工作最具有代表性。-蘇聯(lián)的研究為模式識別應(yīng)用于語音識別這一領(lǐng)域奠定了基礎(chǔ);-日本的研究則展示了如何利用動態(tài)規(guī)劃技術(shù)在待識語音模式與標(biāo)準(zhǔn)語音模式之間進(jìn)行非線性時間匹配的方法;-板倉的研究提出了如何將線性預(yù)測分析技術(shù)(LPC)加以擴(kuò)展,使之用于語音信號的特征抽取的方法。目前在大詞匯語音識別方面處于領(lǐng)先地位的IBM語音研究小組,就是在70年代開始了它的大詞匯語音識別研究工作的。AT&A的貝爾研究所也開始了一系列有關(guān)非特定人語音識別的實驗。這一研究歷經(jīng)10年,其成果是確立了如何制作用于非特定人語音識別的標(biāo)準(zhǔn)模板的方法。21國外80年代所取得的重大進(jìn)展這一時期所取得的重大進(jìn)展有:(1)隱碼爾柯夫模型(HMM)技術(shù)的成熟和不斷完善成為語音識別的主流方法。(2)以知識為基礎(chǔ)的語音識別的研究日益受到重視。在進(jìn)行連續(xù)語音識別的時候,除了識別聲學(xué)信息外,更多地利用各種語言知識,諸如構(gòu)詞、句法、語義、對話背景方面等的知識來幫助進(jìn)一步對語音作出識別和理解。同時在語音識別研究領(lǐng)域,還產(chǎn)生了基于統(tǒng)計概率的語言模型。(3)人工神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用研究的興起。在這些研究中,大部分采用基于反向傳播法(BP算法)的多層感知網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)具有區(qū)分復(fù)雜的分類邊界的能力,顯然它十分有助于模式劃分。22國外90年代所取得的實質(zhì)性的進(jìn)展特別是在電話語音識別方面,由于其有著廣泛的應(yīng)用前景,成了當(dāng)前語音識別應(yīng)用的一個熱點。另外,面向個人用途的連續(xù)語音聽寫機(jī)技術(shù)也日趨完善。這方面,最具代表性的是IBM的ViaVoice和Dragon公司的DragonDictate系統(tǒng)。這些系統(tǒng)具有說話人自適應(yīng)能力,新用戶不需要對全部詞匯進(jìn)行訓(xùn)練,便可在使用中不斷提高識別率。

2370年代美國DARPA(美國國防部高級計劃局)計劃CMU(卡內(nèi)基梅龍大學(xué))、MIT(麻省理工學(xué)院)、IBM、AT&T等都參與了這一計劃的開發(fā)工作。該計劃執(zhí)行的結(jié)果是1976年推出了HARPY(CMU)系統(tǒng)。雖然,這是有限詞匯和限定領(lǐng)域的識別系統(tǒng),但改變了原來只利用聲學(xué)信息的狀況,開始應(yīng)用高層次語言學(xué)知識(如構(gòu)詞、句法、語義、對話背景等)。在這為期10年的階段中盡管所有的研究計劃均未能達(dá)到預(yù)期目標(biāo),但它對語音識別和理解研究的發(fā)展起了重要的推動作用。通過這一階段的研究使人們認(rèn)識到語音識別任務(wù)的艱巨性,總結(jié)出許多有意義的經(jīng)驗教訓(xùn),并且從此對語音識別提出了許多基礎(chǔ)性的研究課題。這些課題主要涉及到語音信號和自然語言的多變性和復(fù)雜性。24我國的語音識別技術(shù)的發(fā)展(1)在北京有中科院聲學(xué)所、自動化所、清華大學(xué)、北方交通大學(xué)等科研機(jī)構(gòu)和高等院校。另外,還有哈爾濱工業(yè)大學(xué)、中國科技大學(xué)、四川大學(xué)等也紛紛行動起來。(2)現(xiàn)在,國內(nèi)有不少語音識別系統(tǒng)已研制成功。這些系統(tǒng)的性能各具特色。-在孤立字大詞匯量語音識別方面,最具代表性的要數(shù)92年清華大學(xué)電子工程系與中國電子器件公司合作研制成功的THED-919特定人語音識別與理解實時系統(tǒng)。-在連續(xù)語音識別方面,91年12月四川大學(xué)計算機(jī)中心在微機(jī)上實現(xiàn)了一個主題受限的特定人連續(xù)英語---漢語語音翻譯演示系統(tǒng)。-在非特定人語音識別方面,有清華大學(xué)計算機(jī)科學(xué)與技術(shù)系在87年研制的聲控電話查號系統(tǒng)并投入實際使用。254語音信號處理簡介

語音信號處理是研究用數(shù)字信號處理技術(shù)對語音信號進(jìn)行處理的一門學(xué)科。

語音信號處理的目的:得到某些參數(shù)以便高效傳輸或存儲;或者是用于某種應(yīng)用,如人工合成出語音、辨識出講話者、識別出講話內(nèi)容、進(jìn)行語音增強(qiáng)等。26語音信號處理的目標(biāo):保障現(xiàn)代通信領(lǐng)域中人與人之間、人與機(jī)器之間的信息交換的順暢和自然。27

是研究將數(shù)字信號處理技術(shù)應(yīng)用于語音信號處理中的一門學(xué)科。

通過處理得到一些反映語音信號重要特征的語音參數(shù)以便高效的傳輸或存儲語音信號信息。28

通過處理及其運算以達(dá)到某種用途。如語音識別,辨識出講話者或識別出講話內(nèi)容,或從被噪聲淹沒的信號中提取有用信息,或進(jìn)行語音合成,讓計算機(jī)說話,達(dá)到人機(jī)交互的目的。29語音信號的應(yīng)用和發(fā)展

語音信號處理涉及語言學(xué)、聲學(xué)、認(rèn)知科學(xué)、生理學(xué)、心理學(xué)和數(shù)理統(tǒng)計等多學(xué)科知識。用數(shù)字化的方法進(jìn)行語音的傳送、存儲、合成、識別和增強(qiáng)等技術(shù)是整個數(shù)字化通信網(wǎng)中最重要最基本的組成部分。

語音技術(shù)應(yīng)用廣泛,包括工業(yè)、軍事、交通和民用等各個領(lǐng)域。目前語音信號處理處于蓬勃發(fā)展時期,出現(xiàn)了許多新算法和高性能的系統(tǒng),不斷有產(chǎn)品開發(fā)研制成功。30語音電子電話號碼簿的功能:使用者只要說出被查詢?nèi)说闹形男彰騿挝幻Q,語音電子電話號碼簿利用語音識別、語音合成等技術(shù)可以回放和顯示出相應(yīng)的電話號碼并進(jìn)行自動撥號。

31從音樂中提取有用信號

32語音玩具國內(nèi)典型產(chǎn)品:語音識別: 海爾PCBOY RSC300伊萊克斯Homo RSC300晶鑫玩具"白雪公主"語音合成:明日學(xué)而樂(點讀機(jī)) 采用SC-691

33SONY推出的QRIO——家庭娛樂機(jī)器人34日本索尼自2000年發(fā)布SDR-XX系列機(jī)器人以來早已發(fā)展了多個系列的產(chǎn)品供消費者購買,以QRIO娛樂機(jī)器人系列為例,此機(jī)器人裝備視角,聽覺,語音系統(tǒng),距離感應(yīng)器,壓力感應(yīng)器,角速度感應(yīng)器,加速感應(yīng)器,負(fù)重感應(yīng)器,臉形識別系統(tǒng),置3個CPU,無線網(wǎng)卡,全身一共有38個可活動的關(guān)節(jié),從YouTobe上的演示錄像介紹來看可通過網(wǎng)絡(luò)控制機(jī)器人,能夠與人進(jìn)行一些簡單語音交流并具有學(xué)習(xí)記憶功能,機(jī)器人跳一些高難度的舞蹈動作,能凹凸不平的路面及傾斜路面上行走,在傾斜度不斷變化的沖浪板上保持站立姿勢,從跌倒的狀態(tài)站立起來等.索尼QRIO——世界首臺會跑的雙足機(jī)器人

索尼開發(fā)出了會跑的雙足行走機(jī)器人“QRIO”。據(jù)索尼介紹,此前世界上沒有可以在不接觸地面的狀態(tài)下行走的機(jī)器人。

此次開發(fā)的雙足行走機(jī)器人在行走時可以有約20ms的不接觸地面的時間。該機(jī)器人不僅可以行走,而且可以跳躍,在跳躍狀態(tài)下不接觸地面的時間可達(dá)40ms。行走速度為每分鐘14m。如果假設(shè)其大小與人相同,換算過來相當(dāng)于時速2.5km,給人以緩緩慢跑的印象。

35FurbyFurby是有五個傳感器的機(jī)器玩具。最開始只會說一句沒頭沒腦的“furbish”,玩的過程中,學(xué)說你的話,會記住一些詞語,漸漸成長起來。在被觸摸和被問到一些簡單的問題時還能自己回答。例如,如果被打頭時還會說:“好疼??!”,在跌倒時還會說:“救命??!”,它還能表達(dá)自己的情緒,比如會說“今天我感覺棒極了!”或者“我煩得很!”,經(jīng)過設(shè)置,還能為主人送上生日祝福。

365語音技術(shù)概述

語音技術(shù)的研究目標(biāo)就是使信息時代的各種信息機(jī)器象人一樣“能聽會說”。語音識別(ASR):把聲音變成文字(耳朵的功能),相當(dāng)于給機(jī)器裝上了人工的耳朵。孤立詞識別技術(shù)連續(xù)語音識別關(guān)鍵詞識別技術(shù)話者識別技術(shù)37語音合成(TTS):把文字變成聲音(嘴巴的功能);相當(dāng)于給機(jī)器裝上了人工的嘴巴;語音應(yīng)答系統(tǒng)自動報站信息查詢語言學(xué)習(xí)軟件TTS(TexttoSpeech)技術(shù)(語音自動轉(zhuǎn)換系統(tǒng))38語音編碼:在保持可以接受的失真的情況下,采用盡可能少的比特數(shù)表示語音。

脈沖編碼調(diào)制自適應(yīng)預(yù)測編碼自適應(yīng)變換編碼線性預(yù)測編碼線性預(yù)測聲碼器共振峰聲碼器相位聲碼器39三、語音信號處理的進(jìn)展1876年Bell發(fā)明電話。1939年H.Dudley研制成功第一個聲碼器。1942年Bell實驗室發(fā)明了語譜儀。1948年美國Haskin實驗室研制成功“語圖回放機(jī)”。1952年Bell實驗室研制成能識別十個英語數(shù)字的識別器。60年代前:4060年代:

1956年聲控打字機(jī)60年代以后,隨著計算機(jī)技術(shù)的發(fā)展,語音信號處理技術(shù)獲得了長足的進(jìn)步,計算機(jī)模擬實驗取代了硬件研制的傳統(tǒng)做法。各種突破性的思想不斷涌現(xiàn)。1960年Denes等人用計算機(jī)實現(xiàn)自動語音識別,引入了時間歸正算法改進(jìn)匹配性能;60年代中期,Martin等人為郵局研制了郵政編碼閱讀機(jī);4170年代:

70年代開始,人工智能技術(shù)開始引入到語音識別中。美國國防部ARPA組織了有CMU等五個單位參加的一項大規(guī)模語音識別和理解研究計劃;70年代中,日本學(xué)者提出的動態(tài)時間彎折算法對小詞表的研究獲得了成功,從而掀起了語音識別的研究熱潮;70年代末,基于矢量量化碼本生成的LBG算法被提出,從而使矢量量化技術(shù)廣泛地應(yīng)用于語音識別、語音編碼和說話人識別中;42目前:從70年代末80年代初開始,HMM技術(shù)被應(yīng)用到語音識別中;1985年IBM公司研制了5000詞英語聽寫機(jī)Tangora90年代初,CMU的LeeKaifu完成的SPHINX1997年IBM推出的漢語聽寫機(jī)產(chǎn)品Viavoice1999年Intel推出語音識別軟件開發(fā)包Spark3.0;MicrosoftVoice及基于.net的語音識別引擎。43(1)從語音的產(chǎn)生和語音的感知進(jìn)行研究五、語音信號處理的基礎(chǔ)理論和算法(2)將語音當(dāng)作一種信號進(jìn)行處理六、語音信號處理的硬件和實用系統(tǒng)(1)計算機(jī)+數(shù)字信號處理板(2)通用或?qū)S肈SP芯片+

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論