語音識別技術(shù)

上傳人：a*** IP屬地：湖北上傳時間：2023-02-06 格式：PPT 頁數(shù)：47 大?。?33KB 積分：28 舉報 版權(quán)申訴

已閱讀5頁，還剩42頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

語音識別技術(shù)計科1111時間：2013年11月1日制作人：孟傲、韓園、嚴(yán)赟

1（1）語言是人類特有的功能，聲音是人類常用的工具，是相互傳遞信息的最主要的手段。（2）語音和語言與人的智力活動密切相關(guān)，是人們構(gòu)成思想疏通和感情交流的最主要的途徑。通過語音傳遞信息是人類最重要、最有效、最常用和最方便的交換信息形式。2講解重點：1.語音識別的重要性2.

語音識別的定義、原理和分類3.語音識別的歷史回顧4.語音信號處理簡介5.語音技術(shù)概述31語音識別的重要性語音信息處理

人類利用語言相互交流信息，包括語音和文字兩種表達(dá)方式。通過語音相互傳遞信息，這是人類最重要的基本功能之一。隨著信息社會的發(fā)展，人與人之間，人與機(jī)器之間也需要進(jìn)行大量的信息交換。

計算機(jī)語音識別是智能計算機(jī)系統(tǒng)的重要特征。這一技術(shù)的應(yīng)用將從根本上改變計算機(jī)的人機(jī)界面，從而對計算機(jī)的發(fā)展以及推廣應(yīng)用產(chǎn)生深遠(yuǎn)的影響。語音識別的重要性4語音識別是一項具有巨大應(yīng)用推廣前景的工程基于電話的語音識別技術(shù)，使計算機(jī)直接為客戶提供金融證券和旅游等方面的信息查詢及服務(wù)成為可能，進(jìn)而成為電子商務(wù)中的重要一環(huán)(Voice-Commerce)。語音識別技術(shù)作為聲控產(chǎn)業(yè)，對編輯排版、辦公自動化、工業(yè)過程和機(jī)器操作的聲控技術(shù)起到重大的推進(jìn)作用?？梢灶A(yù)言，語音技術(shù)必將對工業(yè)、金融、商業(yè)、文化、教育等諸方面事業(yè)產(chǎn)生革命性的影響。5主要先進(jìn)國家都將此工程列為國家級研究項目面對如此廣闊的應(yīng)用領(lǐng)域，目前國內(nèi)外眾多公司正

積極推動語音識別技術(shù)的應(yīng)用。

微軟：讓計算機(jī)能說會聽

IBM：ViaVoice仍居主流

Intel：做語音技術(shù)倡導(dǎo)者

6微軟：讓計算機(jī)能說會聽BillGates在97年世界計算機(jī)博覽會(COMDEX)主題演講會上描繪IT事業(yè)的發(fā)展宏圖時指出：下一代操作系統(tǒng)和應(yīng)用程序的用戶界面將是語音識別。工業(yè)界應(yīng)對語音識別領(lǐng)域的重大突破做好充分準(zhǔn)備，因為那將是一場席卷全球的另一次熱潮。1998年11月5日，微軟中國研究院在北京成立。該中心的任務(wù)是重點研究計算機(jī)在中文環(huán)境下的易用性。

7IBM：ViaVoice仍居主流IBM公司潛心研究語音識別技術(shù)迄今已達(dá)30年之久，投資超過2億美元。IBM公司于1995年在北京成立了中國研究中心，中文語音信息處理成了該中心三大研究領(lǐng)域之一，并于1997年9月4日，在北京推出了中文連續(xù)語音識別產(chǎn)品ViaVoice。

8Intel：做語音技術(shù)倡導(dǎo)者1998年，英特爾公司也宣布致力于推廣語音識別技術(shù)，除了在北京舉辦首屆語音技術(shù)國際論壇之外，還在北京、上海、成都、廣州等地展開了“基于英特爾框架的語音識別技術(shù)”的宣傳活動。聯(lián)合了七家世界著名學(xué)術(shù)機(jī)構(gòu)（中科院自動化所、清華大學(xué)、香港科技大學(xué)、香港中文大學(xué)、麻省理工學(xué)院、俄勒崗研究院、WATERLLOO大學(xué)）成立了“國際語音技術(shù)研究組織”，致力于計算機(jī)語音技術(shù)的基礎(chǔ)研究，以加速中文語音識別技術(shù)的發(fā)展。

92.1語音識別的定義語音識別是研究如何采用數(shù)字信號處理技術(shù)自動提取以及決定語音信號中最基本、最有意義的信息的一門新興的邊緣學(xué)科。它是語音信號處理學(xué)科的一個分支。語音識別所涉及的學(xué)科領(lǐng)域：信號處理、物理學(xué)（聲學(xué)）、模式匹配、通信及信息理論、語言語音學(xué)、生理學(xué)、計算機(jī)科學(xué)（研究軟硬件算法以便更有效地實現(xiàn)用于識別系統(tǒng)中的各種方法）、心理學(xué)等。10音韻信息與音律信息有意義、有內(nèi)容的信息是構(gòu)成語音音韻特性、即語音的共性特征之基礎(chǔ)，這類特征信息稱為音韻信息。語音信號中有關(guān)個人特征的信息、即語音的個性特征，如：音強(qiáng)、節(jié)奏、音高等，這類特征信息稱為音律信息。從廣義上講，語音識別也包括了對說話人的識別，其主要內(nèi)容是提取語音信號中有關(guān)個人特征的信息、即語音的個性特征（如：音律特性等），在這里專指有意義、有內(nèi)容的識別。112.2語音識別的基本原理訓(xùn)練(Training)：預(yù)先分析出語音特征參數(shù)，制作語音模板(Template)并存放在語音參數(shù)庫中。識別(Recognition)：待識語音經(jīng)過與訓(xùn)練時相同的分析，得到語音參數(shù)，將它與庫中的參考模板一一比較，并采用判決的方法找出最接近語音特征的模板，得出識別結(jié)果。失真測度(DistortionMeasures)：在進(jìn)行比較時要有個標(biāo)準(zhǔn)，這就是計量語音特征參數(shù)矢量之間的“失真測度”。主要識別框架：基于模式匹配的動態(tài)時間規(guī)整法(DTW:DynamicTimeWarping)和基于統(tǒng)計模型的隱馬爾柯夫模型法(HMM:HiddenMarkovModel)。12語音識別原理框圖預(yù)處理特征提取參考模式模式匹配判決規(guī)則語音信號識別結(jié)果訓(xùn)練識別圖語音識別的實現(xiàn)不同的語音識別系統(tǒng)，雖然具體實現(xiàn)細(xì)節(jié)有所不同，但所采用的基本技術(shù)相似，一個典型語音識別系統(tǒng)的實現(xiàn)過程如圖所示。

132.3語音識別的分類按識別器的類型：按識別器對使用者的適應(yīng)情況：按語音詞匯表的大?。?4按識別器的類型：孤立單詞識別(IsolatedWordRecognition)

識別的單元為字、詞或短語，它們組成識別的詞匯表(Vocabulary)，對它們中的每一個通過訓(xùn)練建立標(biāo)準(zhǔn)模板或模型。連續(xù)語音識別(ContinuousSpeechRecognition)

連續(xù)單詞識別(ConnectedWordRecognition)：以比較少的詞匯為對象，能夠識別每個詞。識別的詞匯表和標(biāo)準(zhǔn)樣板或模型也是字、詞或短語，但識別時可以是它們中間幾個的連續(xù)。

連續(xù)言語識別與理解(ConversationalSpeechRecognition):以多數(shù)詞匯為對象，待識語音是一些完整的句子。雖不能完全準(zhǔn)確識別每個單詞，但能夠理解其意義，連續(xù)言語識別也稱會話語音識別。理解是在語音識別之后，根據(jù)語言學(xué)知識來推斷語音的含義內(nèi)容的。

15特定人語音識別(Speaker-Dependent)

語音識別的標(biāo)準(zhǔn)模板或模型只適應(yīng)于某個人，實際上，該模板或模型就是該人通過輸入詞匯表中的每個字、詞或短語的語音建立起來的。其他人使用時，需同樣建立自己的標(biāo)準(zhǔn)模板或模型。非特定人語音識別(Speaker-Independent)

語音識別的標(biāo)準(zhǔn)模板或模型適應(yīng)于指定的某一范疇的說話人（如說標(biāo)準(zhǔn)普通話），標(biāo)準(zhǔn)模板或模型由該范疇的多個人通過訓(xùn)練而產(chǎn)生。識別時可供參加訓(xùn)練的發(fā)音人（圈內(nèi)人）使用，也可供未參加訓(xùn)練的同一范疇的發(fā)音人（圈外人）使用。按識別器對使用者的適應(yīng)情況：16按語音詞匯表的大小：有限詞匯識別

按詞匯表中字、詞或短句個數(shù)的多少，大致分為：

100以下為小詞匯；100-1000為中詞匯；1000以上為大詞匯。無限詞匯識別（全音節(jié)識別）當(dāng)識別基元為漢語普通話中對應(yīng)所有漢字的可讀音節(jié)時，則稱其為全音節(jié)語音識別（音節(jié)字表：Lexicon）。全音節(jié)語音識別是實現(xiàn)無限詞匯或中文文本輸入的基礎(chǔ)。173.1國外語音識別研究的歷史（1）1952年貝爾研究所Davis等人研究成功了世界上第一個能識別10個英文數(shù)字發(fā)音的實驗系統(tǒng)。1960年英國的Denes等人研究成功了第一個計算機(jī)語音識別系統(tǒng)。大規(guī)模的語音識別研究是在進(jìn)入了70年代以后，在小詞匯量、孤立詞的識別方面取得了實質(zhì)性的進(jìn)展*。進(jìn)入80年代以后，研究的重點逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語音識別。在研究思路上也發(fā)生了重大變化，即由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開始轉(zhuǎn)向基于統(tǒng)計模型(HMM)的技術(shù)思路。此外，再次提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語音識別問題的技術(shù)思路*。進(jìn)入90年代以后，在語音識別的系統(tǒng)框架方面并沒有什么重大突破。但是，在語音識別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。18DARPA(DefenseAdvancedResearchProjectsAgency)是在70年代由美國國防部遠(yuǎn)景研究計劃局資助的一項10年計劃，其旨在支持語言理解系統(tǒng)的研究開發(fā)工作。到了80年代，美國國防部遠(yuǎn)景研究計劃局又資助了一項為期10年的DARPA戰(zhàn)略計劃，其中包括噪聲下的語音識別和會話（口語）識別系統(tǒng)，識別任務(wù)設(shè)定為“（1000單詞）連續(xù)語音數(shù)據(jù)庫管理”。到了90年代，這一DARPA計劃仍在持續(xù)進(jìn)行中。其研究重點已轉(zhuǎn)向識別裝置中的自然語言處理部分，識別任務(wù)設(shè)定為“航空旅行信息檢索”。

日本也在1981年的第五代計算機(jī)計劃中提出了有關(guān)語音識別輸入-輸出自然語言的宏偉目標(biāo)，雖然沒能實現(xiàn)預(yù)期目標(biāo)，但是有關(guān)語音識別技術(shù)的研究有了大幅度的加強(qiáng)和進(jìn)展。1987年起，日本又?jǐn)M出新的國家項目---高級人機(jī)口語接口和自動電話翻譯系統(tǒng)。19３.2我國語音識別研究的歷史我國的語音識別研究起始于1958年，由中國科學(xué)院聲學(xué)所利用電子管電路識別10個元音。直至1973年才由中國科學(xué)院聲學(xué)所開始計算機(jī)語音識別。由于當(dāng)時條件的限制，我國的語音識別研究工作一直處于緩慢發(fā)展的階段。進(jìn)入80年代以后，隨著計算機(jī)應(yīng)用技術(shù)在我國逐漸普及和應(yīng)用以及數(shù)字信號技術(shù)的進(jìn)一步發(fā)展，國內(nèi)許多單位具備了研究語音技術(shù)的基本條件。與此同時，國際上語音識別技術(shù)在經(jīng)過了多年的沉寂之后重又成為研究的熱點，發(fā)展迅速。就在這種形式下，國內(nèi)許多單位紛紛投入到這項研究工作中去*。1986年3月我國高科技發(fā)展計劃(863計劃)啟動，語音識別作為智能計算機(jī)系統(tǒng)研究的一個重要組成部分而被專門列為研究課題。在863計劃的支持下，我國開始了有組織的語音識別技術(shù)的研究，并決定了每隔兩年召開一次語音識別的專題會議。從此我國的語音識別技術(shù)進(jìn)入了一個前所未有的發(fā)展階段。20國外70年代所取得的實質(zhì)性的進(jìn)展這一時期的語音識別方法基本上是采用傳統(tǒng)的模式識別策略。其中以蘇聯(lián)的Velichko和Zagoruyko、日本的迫江和千葉，以及當(dāng)時在美國的板倉等人的研究工作最具有代表性。-蘇聯(lián)的研究為模式識別應(yīng)用于語音識別這一領(lǐng)域奠定了基礎(chǔ)；-日本的研究則展示了如何利用動態(tài)規(guī)劃技術(shù)在待識語音模式與標(biāo)準(zhǔn)語音模式之間進(jìn)行非線性時間匹配的方法；-板倉的研究提出了如何將線性預(yù)測分析技術(shù)(LPC)加以擴(kuò)展，使之用于語音信號的特征抽取的方法。目前在大詞匯語音識別方面處于領(lǐng)先地位的IBM語音研究小組，就是在70年代開始了它的大詞匯語音識別研究工作的。AT&A的貝爾研究所也開始了一系列有關(guān)非特定人語音識別的實驗。這一研究歷經(jīng)10年，其成果是確立了如何制作用于非特定人語音識別的標(biāo)準(zhǔn)模板的方法。21國外80年代所取得的重大進(jìn)展這一時期所取得的重大進(jìn)展有：（1）隱碼爾柯夫模型(HMM)技術(shù)的成熟和不斷完善成為語音識別的主流方法。（2）以知識為基礎(chǔ)的語音識別的研究日益受到重視。在進(jìn)行連續(xù)語音識別的時候，除了識別聲學(xué)信息外，更多地利用各種語言知識，諸如構(gòu)詞、句法、語義、對話背景方面等的知識來幫助進(jìn)一步對語音作出識別和理解。同時在語音識別研究領(lǐng)域，還產(chǎn)生了基于統(tǒng)計概率的語言模型。（3）人工神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用研究的興起。在這些研究中，大部分采用基于反向傳播法（BP算法）的多層感知網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)具有區(qū)分復(fù)雜的分類邊界的能力，顯然它十分有助于模式劃分。22國外90年代所取得的實質(zhì)性的進(jìn)展特別是在電話語音識別方面，由于其有著廣泛的應(yīng)用前景，成了當(dāng)前語音識別應(yīng)用的一個熱點。另外，面向個人用途的連續(xù)語音聽寫機(jī)技術(shù)也日趨完善。這方面，最具代表性的是IBM的ViaVoice和Dragon公司的DragonDictate系統(tǒng)。這些系統(tǒng)具有說話人自適應(yīng)能力，新用戶不需要對全部詞匯進(jìn)行訓(xùn)練，便可在使用中不斷提高識別率。

2370年代美國DARPA(美國國防部高級計劃局)計劃CMU（卡內(nèi)基梅龍大學(xué)）、MIT（麻省理工學(xué)院）、IBM、AT&T等都參與了這一計劃的開發(fā)工作。該計劃執(zhí)行的結(jié)果是1976年推出了HARPY(CMU)系統(tǒng)。雖然，這是有限詞匯和限定領(lǐng)域的識別系統(tǒng)，但改變了原來只利用聲學(xué)信息的狀況，開始應(yīng)用高層次語言學(xué)知識（如構(gòu)詞、句法、語義、對話背景等）。在這為期10年的階段中盡管所有的研究計劃均未能達(dá)到預(yù)期目標(biāo)，但它對語音識別和理解研究的發(fā)展起了重要的推動作用。通過這一階段的研究使人們認(rèn)識到語音識別任務(wù)的艱巨性，總結(jié)出許多有意義的經(jīng)驗教訓(xùn)，并且從此對語音識別提出了許多基礎(chǔ)性的研究課題。這些課題主要涉及到語音信號和自然語言的多變性和復(fù)雜性。24我國的語音識別技術(shù)的發(fā)展(1)在北京有中科院聲學(xué)所、自動化所、清華大學(xué)、北方交通大學(xué)等科研機(jī)構(gòu)和高等院校。另外，還有哈爾濱工業(yè)大學(xué)、中國科技大學(xué)、四川大學(xué)等也紛紛行動起來。(2)現(xiàn)在，國內(nèi)有不少語音識別系統(tǒng)已研制成功。這些系統(tǒng)的性能各具特色。-在孤立字大詞匯量語音識別方面，最具代表性的要數(shù)92年清華大學(xué)電子工程系與中國電子器件公司合作研制成功的THED-919特定人語音識別與理解實時系統(tǒng)。-在連續(xù)語音識別方面，91年12月四川大學(xué)計算機(jī)中心在微機(jī)上實現(xiàn)了一個主題受限的特定人連續(xù)英語---漢語語音翻譯演示系統(tǒng)。-在非特定人語音識別方面，有清華大學(xué)計算機(jī)科學(xué)與技術(shù)系在87年研制的聲控電話查號系統(tǒng)并投入實際使用。254語音信號處理簡介

語音信號處理是研究用數(shù)字信號處理技術(shù)對語音信號進(jìn)行處理的一門學(xué)科。

語音信號處理的目的:得到某些參數(shù)以便高效傳輸或存儲；或者是用于某種應(yīng)用，如人工合成出語音、辨識出講話者、識別出講話內(nèi)容、進(jìn)行語音增強(qiáng)等。26語音信號處理的目標(biāo)：保障現(xiàn)代通信領(lǐng)域中人與人之間、人與機(jī)器之間的信息交換的順暢和自然。27

是研究將數(shù)字信號處理技術(shù)應(yīng)用于語音信號處理中的一門學(xué)科。

通過處理得到一些反映語音信號重要特征的語音參數(shù)以便高效的傳輸或存儲語音信號信息。28

通過處理及其運算以達(dá)到某種用途。如語音識別，辨識出講話者或識別出講話內(nèi)容，或從被噪聲淹沒的信號中提取有用信息，或進(jìn)行語音合成，讓計算機(jī)說話，達(dá)到人機(jī)交互的目的。29語音信號的應(yīng)用和發(fā)展

語音信號處理涉及語言學(xué)、聲學(xué)、認(rèn)知科學(xué)、生理學(xué)、心理學(xué)和數(shù)理統(tǒng)計等多學(xué)科知識。用數(shù)字化的方法進(jìn)行語音的傳送、存儲、合成、識別和增強(qiáng)等技術(shù)是整個數(shù)字化通信網(wǎng)中最重要最基本的組成部分。

語音技術(shù)應(yīng)用廣泛，包括工業(yè)、軍事、交通和民用等各個領(lǐng)域。目前語音信號處理處于蓬勃發(fā)展時期，出現(xiàn)了許多新算法和高性能的系統(tǒng)，不斷有產(chǎn)品開發(fā)研制成功。30語音電子電話號碼簿的功能:使用者只要說出被查詢?nèi)说闹形男彰騿挝幻Q，語音電子電話號碼簿利用語音識別、語音合成等技術(shù)可以回放和顯示出相應(yīng)的電話號碼并進(jìn)行自動撥號。

31從音樂中提取有用信號

32語音玩具國內(nèi)典型產(chǎn)品：語音識別：海爾PCBOY RSC300伊萊克斯Homo RSC300晶鑫玩具"白雪公主"語音合成：明日學(xué)而樂(點讀機(jī)) 采用SC-691

33SONY推出的QRIO——家庭娛樂機(jī)器人34日本索尼自2000年發(fā)布SDR-XX系列機(jī)器人以來早已發(fā)展了多個系列的產(chǎn)品供消費者購買,以QRIO娛樂機(jī)器人系列為例，此機(jī)器人裝備視角，聽覺，語音系統(tǒng)，距離感應(yīng)器，壓力感應(yīng)器，角速度感應(yīng)器，加速感應(yīng)器，負(fù)重感應(yīng)器，臉形識別系統(tǒng),置3個CPU，無線網(wǎng)卡，全身一共有38個可活動的關(guān)節(jié)，從YouTobe上的演示錄像介紹來看可通過網(wǎng)絡(luò)控制機(jī)器人，能夠與人進(jìn)行一些簡單語音交流并具有學(xué)習(xí)記憶功能，機(jī)器人跳一些高難度的舞蹈動作，能凹凸不平的路面及傾斜路面上行走，在傾斜度不斷變化的沖浪板上保持站立姿勢，從跌倒的狀態(tài)站立起來等.索尼QRIO——世界首臺會跑的雙足機(jī)器人

索尼開發(fā)出了會跑的雙足行走機(jī)器人“QRIO”。據(jù)索尼介紹，此前世界上沒有可以在不接觸地面的狀態(tài)下行走的機(jī)器人。

此次開發(fā)的雙足行走機(jī)器人在行走時可以有約20ms的不接觸地面的時間。該機(jī)器人不僅可以行走，而且可以跳躍，在跳躍狀態(tài)下不接觸地面的時間可達(dá)40ms。行走速度為每分鐘14m。如果假設(shè)其大小與人相同，換算過來相當(dāng)于時速2.5km，給人以緩緩慢跑的印象。

35FurbyFurby是有五個傳感器的機(jī)器玩具。最開始只會說一句沒頭沒腦的“furbish”，玩的過程中，學(xué)說你的話，會記住一些詞語，漸漸成長起來。在被觸摸和被問到一些簡單的問題時還能自己回答。例如，如果被打頭時還會說：“好疼??！”，在跌倒時還會說：“救命??！”，它還能表達(dá)自己的情緒，比如會說“今天我感覺棒極了！”或者“我煩得很！”，經(jīng)過設(shè)置，還能為主人送上生日祝福。

365語音技術(shù)概述

語音技術(shù)的研究目標(biāo)就是使信息時代的各種信息機(jī)器象人一樣“能聽會說”。語音識別（ASR）：把聲音變成文字(耳朵的功能)，相當(dāng)于給機(jī)器裝上了人工的耳朵。孤立詞識別技術(shù)連續(xù)語音識別關(guān)鍵詞識別技術(shù)話者識別技術(shù)37語音合成（TTS）：把文字變成聲音(嘴巴的功能)；相當(dāng)于給機(jī)器裝上了人工的嘴巴；語音應(yīng)答系統(tǒng)自動報站信息查詢語言學(xué)習(xí)軟件TTS（TexttoSpeech）技術(shù)(語音自動轉(zhuǎn)換系統(tǒng))38語音編碼：在保持可以接受的失真的情況下，采用盡可能少的比特數(shù)表示語音。

脈沖編碼調(diào)制自適應(yīng)預(yù)測編碼自適應(yīng)變換編碼線性預(yù)測編碼線性預(yù)測聲碼器共振峰聲碼器相位聲碼器39三、語音信號處理的進(jìn)展1876年Bell發(fā)明電話。1939年H.Dudley研制成功第一個聲碼器。1942年Bell實驗室發(fā)明了語譜儀。1948年美國Haskin實驗室研制成功“語圖回放機(jī)”。1952年Bell實驗室研制成能識別十個英語數(shù)字的識別器。60年代前：4060年代：

1956年聲控打字機(jī)60年代以后，隨著計算機(jī)技術(shù)的發(fā)展，語音信號處理技術(shù)獲得了長足的進(jìn)步，計算機(jī)模擬實驗取代了硬件研制的傳統(tǒng)做法。各種突破性的思想不斷涌現(xiàn)。1960年Denes等人用計算機(jī)實現(xiàn)自動語音識別，引入了時間歸正算法改進(jìn)匹配性能；60年代中期，Martin等人為郵局研制了郵政編碼閱讀機(jī)；4170年代：

70年代開始，人工智能技術(shù)開始引入到語音識別中。美國國防部ARPA組織了有CMU等五個單位參加的一項大規(guī)模語音識別和理解研究計劃；70年代中，日本學(xué)者提出的動態(tài)時間彎折算法對小詞表的研究獲得了成功，從而掀起了語音識別的研究熱潮；70年代末，基于矢量量化碼本生成的LBG算法被提出，從而使矢量量化技術(shù)廣泛地應(yīng)用于語音識別、語音編碼和說話人識別中；42目前：從70年代末80年代初開始，HMM技術(shù)被應(yīng)用到語音識別中；1985年IBM公司研制了5000詞英語聽寫機(jī)Tangora90年代初，CMU的LeeKaifu完成的SPHINX1997年IBM推出的漢語聽寫機(jī)產(chǎn)品Viavoice1999年Intel推出語音識別軟件開發(fā)包Spark3.0；MicrosoftVoice及基于.net的語音識別引擎。43(1)從語音的產(chǎn)生和語音的感知進(jìn)行研究五、語音信號處理的基礎(chǔ)理論和算法(2)將語音當(dāng)作一種信號進(jìn)行處理六、語音信號處理的硬件和實用系統(tǒng)(1)計算機(jī)+數(shù)字信號處理板(2)通用或?qū)Ｓ肈SP芯片+

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

語音識別技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

語音識別技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔