語音識別基礎(chǔ)講義01_第1頁
語音識別基礎(chǔ)講義01_第2頁
語音識別基礎(chǔ)講義01_第3頁
語音識別基礎(chǔ)講義01_第4頁
語音識別基礎(chǔ)講義01_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第_章緒論1.1語音識別的重要性1.1.1語音信息處理與語音識別人類利用語言相互交流信息,包括語音和文字兩種表達方式。通過語音相互傳遞信息, 這是人類最重要的基本功能之一。隨著信息社會的發(fā)展,人與人之間,自不必說,即使在人 與機器之間也每時每刻都需要進行大量的信息交換。人類在利用語音進行信息交流時,說話 人大腦產(chǎn)生思想,通過語言轉(zhuǎn)換,再由發(fā)聲器官發(fā)出相應(yīng)的語音;語音的聲波經(jīng)由空氣傳播 到達聽話人的耳朵,通過聽覺器官將語音傳送到大腦,由此理解該語音所表達的語言意義。 這是人類進行信息交流與處理的過程。用計算機來模擬人類的這一交流信息的過程,包括以 下幾個部分:(1)將大腦產(chǎn)生的思想轉(zhuǎn)換成語言;(

2、2)將語言轉(zhuǎn)換成相應(yīng)的語音;(3)識別表達語言的語音內(nèi)容;(4)理解語音所表達的語言意義。上述(1)與(4)的部分屬于自然語言生成和理解的研究范圍,(2)的部分屬于語音合 成的研究范圍;(3)的部分則屬于語音識別的研究范圍。圖1.1為人與人之間、人與機器之 間的語音信息處理流程的示意圖。(人)(機器)說話方人與人之間的語音通信收聽方(人)(機器)說話方人與人之間的語音通信收聽方圖1.1人與人之間、人與機器之間的語音信息處理流程圖1.1.2語音識別的重要性計算機語音識別是智能計算機系統(tǒng)的重要特征。這一技術(shù)的應(yīng)用將從根本上改變計算機 的人機界面,從而對計算機的發(fā)展以及推廣應(yīng)用產(chǎn)生深遠的影響?;陔?/p>

3、話的語音識別技術(shù), 使計算機直接為客戶提供金融、證券和旅游等方面的信息查詢及服務(wù)成為可能,進而成為電 子商務(wù)進展中的重要一環(huán)(Voice-Commerce)0其次,語音識別技術(shù)作為聲控產(chǎn)業(yè),必將對編 輯排版、辦公自動化、工業(yè)過程和機器操作的聲控技術(shù)起到重大的推進作用。因此可以預(yù)言, 語音技術(shù)必將對工業(yè)、金融、商業(yè)、文化、教育等諸方面事業(yè)產(chǎn)生革命性的影響。這是一項 具有巨大應(yīng)用推廣前景的工程。正是由于這一點,一些主要先進國家都把此工程列為國家級 研究項目。面對如此廣闊的應(yīng)用領(lǐng)域,目前國內(nèi)外眾多公司正積極推動語音識別技術(shù)的應(yīng)用。微軟:讓計算機能說會聽在1997年秋季COMDEX世界計算機博覽會上,

4、語音識別和文本至語音的轉(zhuǎn)換(Speech to Text)系統(tǒng)已是引人注目的技術(shù)之一。在主題演講大會上,微軟Bill Gates在描繪IT事業(yè) 的發(fā)展宏圖時,率先指出下一代操作系統(tǒng)和應(yīng)用程序的用戶界面將是語音識別。并提醒大家: “工業(yè)界應(yīng)對語音識別領(lǐng)域的重大突破做好充分準(zhǔn)備,因為那將是一場席卷全球的另一次熱 潮”。展覽會上,微軟與其合作伙伴將原語音指令和控制程序與連續(xù)語音識別技術(shù)結(jié)合在一 起聯(lián)合推出了語音識別產(chǎn)品VoiceExpress0 1998年11月5日,微軟中國研究院在北京成立, 該中心的任務(wù)是重點研究計算機在中文環(huán)境下的易用性。IBM: ViaVDice 仍居主流IBM公司潛心研究語

5、音識別技術(shù)迄今已達30年之久,投資超過2億美元。IBM公司于 1995年在北京成立了中國研究中心,中文語音信息處理成了該中心三大研究領(lǐng)域之一,并 于1997年9月4日,在北京推出了中文連續(xù)語音識別產(chǎn)品ViaVoiceoIntel :做語音技術(shù)倡導(dǎo)者1998年,英特爾公司也宣布致力于推廣語音識別技術(shù),除了在北京舉辦首屆語音技術(shù) 國際論壇之外,還在北京、上海、成都、廣州等地展開了 “基于英特爾框架的語音識別技術(shù)” 的宣傳活動,并聯(lián)合了七家世界著名學(xué)術(shù)機構(gòu)(中科院自動化所、清華大學(xué)、香港科技大學(xué)、 香港中文大學(xué)、麻省理工學(xué)院、俄勒崗研究院、WATERLLOO大學(xué))成立了 “國際語音技 術(shù)研究組織”,

6、致力于計算機語音技術(shù)的基礎(chǔ)研究,以加速中文語音識別技術(shù)的發(fā)展,由此 可見英特爾公司對語音識別技術(shù)的重視程度非同一般。1.2語音識別的定義、原理及分類1.2.1語音識別的定義語音識別是研究如何采用數(shù)字信號處理技術(shù)自動提取以及決定語音信號中最基本、最有 意義的信息的一門新興的邊緣學(xué)科。它是語音信號處理學(xué)科的一個分支。顯然,有意義、有 內(nèi)容的信息是構(gòu)成語音音韻特性、即語音的共性特征之基礎(chǔ),因此也可將其稱為音韻信息。 從廣義上講,語音識別也包括了對說話人的識別(Speaker Recognition),其主要內(nèi)容是提取語 音信號中有關(guān)個人特征的信息、即語音的個性特征(如:音律特性等),在這里專指有意義

7、、 有內(nèi)容的識別。語音識別所涉及的學(xué)科領(lǐng)域相當(dāng)廣泛,如:信號處理、物理學(xué)(聲學(xué))、模式匹配、通 信及信息理論、語言語音學(xué)、生理學(xué)、計算機科學(xué)(研究軟硬件算法以便有效地實現(xiàn)用于識 別系統(tǒng)中的各種方法)、心理學(xué)等。1.2.2語音識別的基本原理語音識別的原理框圖如圖1.2所示。如圖所示,識別有意義、有內(nèi)容的語音信息的基本 方法是:預(yù)先分析出語音特征,按照要求送給機器儲存起來,這個語音參數(shù)庫中的語音參數(shù) 稱為“模板(Template-based Approach)”,而這一過程稱為“訓(xùn)練(Training)”。接著,送來識 別的語音(又稱待識語音)經(jīng)過與訓(xùn)練時相同的分析,得到語音參數(shù),將它與庫中的參考

8、模 板一一比較,并采用判決的方法找出最接近語音特征的模板,得出識別結(jié)果,這一過程就稱 為“識別(Recognition)。當(dāng)然,在進行比較時要有個標(biāo)準(zhǔn),這就是計量語音參數(shù)矢量之間 的“失真測度(Distortion Measures)”。即:失真最小的那個模板所代表的內(nèi)容就是識別的結(jié) 果。目前,常用的語音識別算法有:基于模式匹配的動態(tài)時間規(guī)正法(DTW: Dynamic Time Warping)、基于統(tǒng)計模型的隱馬爾柯夫模型法(HMM: Hidden Markov Model)以及基于神經(jīng)網(wǎng)絡(luò)的識別法(DNN、NPN、TDNN)等。噪聲濾波器識別噪聲濾波器識別結(jié)果構(gòu)詞規(guī)則同音字判決語法語義背

9、景知識圖1.2語音識別原理圖1.2.3語音識別的分類語音識別可以從三個方面進行分類。(1)按語音識別器的類型孤立單詞識別(Isolated Word Recognition)對漢語語音來說,識別的單元為字、詞或短語,它們組成識別的詞匯表(Vocabulary), 對它們中的每一個通過訓(xùn)練建立標(biāo)準(zhǔn)模板或模型。待識別的語音是這些字、詞或短語中 的某一個。連續(xù)語 音識別(Continuous Speech Recognition)連續(xù)單詞識別(Connected Word Recognition)以比較少的詞匯為對象,能夠完全識別每個詞。識別的詞匯表和標(biāo)準(zhǔn)樣板或模型 也是字、詞或短語,但識別時可以是

10、它們中間幾個的連續(xù),其中典型的有:詞匯表中 包括“0”到“9”十個數(shù)字,識別時可以說“3”、“27”、“659”等等。連續(xù)言語識別與理解(Conversational Speech Recognition)以多數(shù)詞匯為對象,待識的語音是一些完整的句子。雖然不能完全準(zhǔn)確識別每個 單詞,但是能夠理解其意義,連續(xù)言語識別也稱會話語音識別。理解是在識別了語音 之后,根據(jù)語言學(xué)知識來推斷語音的含義內(nèi)容的。(2)按語音識別器對使用者的適用情況特定人語音識別(Speaker-Dependent)語音識別的標(biāo)準(zhǔn)模板或模型只適應(yīng)于某個人,實際上,該模板或模型就是該人通 過輸入詞匯表中的每個字、詞或短語的語音建立

11、起來的(稱為訓(xùn)練:Training)。其他人 使用時,需同樣建立自己的標(biāo)準(zhǔn)模板或模型。非特定人語音識別(Speaker-Independent)語音識別的標(biāo)準(zhǔn)模板或模型適應(yīng)于指定的某一范疇的說話人(如說標(biāo)準(zhǔn)普通話), 標(biāo)準(zhǔn)模板或模型由該范疇的多個人通過訓(xùn)練而產(chǎn)生。識別時可供參加訓(xùn)練的發(fā)音人(圈 內(nèi)人)使用,也可供未參加訓(xùn)練的同一范疇的發(fā)音人(圈外人)使用。(3)按語音詞匯表的大小有限詞匯識別按詞匯表中字、詞或短句個數(shù)的多少,大致分為:100以下為小詞匯;1001000為中詞匯;1000以上為大詞匯。無限詞匯識別(全音節(jié)識別)當(dāng)識別基元為漢語普通話中對應(yīng)所有漢字的可讀音節(jié)時,則稱其為全音節(jié)語音識

12、 別(音節(jié)字表:Lexicon)。全音節(jié)語音識別是實現(xiàn)無限詞匯或中文文本輸入的基礎(chǔ)。1.3本課程的內(nèi)容與要求本課程的設(shè)置目的是試圖通過對最有望的語音識別系統(tǒng)的基本原理的介紹,然后為大家 提供一種能促使語音識別研究向前發(fā)展的框架。本課程的內(nèi)容由以下八章構(gòu)成:第一章緒論第二章語音的特征第三章用于語音識別的信號處理及分析方法第四章基于模式匹配方式的語音識別技術(shù)第五章基于統(tǒng)計模型(HMM)方式的語音識別技術(shù)第六章孤立字(詞)語音識別系統(tǒng)第七章連續(xù)語音識別系統(tǒng)第八章語音識別的應(yīng)用及展望通過本課程的學(xué)習(xí),要求大家掌握語音識別的基本概念及原理,了解語音識別的基本技 術(shù)和相關(guān)課題。參考書:(1)胡光銳:“語音

13、處理與識別”,上??茖W(xué)技術(shù)出版社,1994。(2)陳永彬:“語音信號處理”,上海交通大學(xué)出版社,1990。(3)陳永斌,王仁華:“語言信號處理”,中國科學(xué)技術(shù)大學(xué)出版社,1990。(4)姚天任:“數(shù)字語音處理”,華中理工大學(xué)出版社,1992。(5)古井貞熙(朱家新,張國海,易武秀譯):“數(shù)字聲音處理”,人民郵電出版社,1993。(6)Lawrence Rabiner, Biing-Hwang Juang : FUNDAMENTALS OF SPEECH RECOGNITION”,PTR Prentice-Hall,Inc,1993。1.4語音識別的歷史回顧1.4.1國外語音識別研究的歷史對機器

14、識別語音的研究,可以追溯到50年代。1952年貝爾研究所Davis等人研究成功 了世界上第一個能識別10個英文數(shù)字發(fā)音的實驗系統(tǒng)。1960年英國的Denes等人研究成功 了第一個計算機語音識別系統(tǒng),從此開始了計算機語音識別研究的階段。大規(guī)模的語音識別研究是在進入了 70年代以后,這一時期取得了許多實質(zhì)性的進展, 特別是在小詞匯量、孤立詞的識別方面。這一時期的語音識別方法基本上是采用傳統(tǒng)的模式 識別策略。其中以蘇聯(lián)的Velichko和Zagoruyko、日本的迫江和千葉,以及當(dāng)時在美國的板 倉等人的研究工作最具有代表性。蘇聯(lián)的研究為模式識別應(yīng)用于語音識別這一領(lǐng)域奠定了基 礎(chǔ);日本的研究則展示了如

15、何利用動態(tài)規(guī)劃(Dynamic Programming)技術(shù)在待識語音模式與 標(biāo)準(zhǔn)語音模式之間進行非線性時間匹配的方法;而板倉的研究提出了如何將線性預(yù)測分析技 術(shù)(LPC)加以擴展,使之用于語音信號的特征抽取的方法。另外,值得一提的是,目前在大 詞匯語音識別方面處于領(lǐng)先地位的IBM語音研究小組,就是在70年代開始了它的大詞匯語 音識別研究工作的。AT&A的貝爾研究所也開始了一系列有關(guān)非特定人語音識別的實驗。這 一研究歷經(jīng)10年,其成果是確立了如何制作用于非特定人語音識別的標(biāo)準(zhǔn)模板的方法。進入80年代以后,語音識別研究更加活躍。這一時期,研究的重點逐漸轉(zhuǎn)向大詞匯量、 非特定人連續(xù)語音識別。而且,

16、在研究思路上也發(fā)生了重大變化,即由傳統(tǒng)的基于標(biāo)準(zhǔn)模板 匹配的技術(shù)思路開始轉(zhuǎn)向基于統(tǒng)計模型、特別是隱馬爾柯夫模HMM)的技術(shù)思路。此外, 再次提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語音識別問題的技術(shù)思路。這一時期所取得的重大進展有:(1)隱碼爾柯夫模型(HMM)技術(shù)的成熟和不斷完善成為語音識別的主流方法。(2)以知識為基礎(chǔ)的語音識別的研究日益受到重視。在進行連續(xù)語音識別的時候,除了識 別聲學(xué)信息外,更多地利用各種語言知識,諸如構(gòu)詞、句法、語義、對話背景方面等 的知識來幫助進一步對語音作出識別和理解。同時在語音識別研究領(lǐng)域,還產(chǎn)生了基 于統(tǒng)計概率的語言模型。(3)人工神經(jīng)網(wǎng)絡(luò)(ANN)在語音識別中的應(yīng)用研究的興

17、起。在這些研究中,大部分采用基 于反向傳播法(BP算法)的多層感知網(wǎng)絡(luò)。ANN具有區(qū)分復(fù)雜的分類邊界的能力, 顯然它十分有助于模式劃分。進入90年代以后,在語音識別的系統(tǒng)框架方面并沒有什么重大突破。但是,在語音識 別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進展。特別是在電話語音識別方面,由于其有著廣 泛的應(yīng)用前景,成了當(dāng)前語音識別應(yīng)用的一個熱點。另外,面向個人用途的連續(xù)語音聽寫機 技術(shù)也日趨完善。這方面,最具代表性的是IBM的VTD(VoiceTypeDictation)和Dragon公司 的Dragon Dictate系統(tǒng)。這些系統(tǒng)具有說話人自適應(yīng)能力,新用戶不需要對全部詞匯進行訓(xùn) 練,便可在使用

18、中不斷提高識別率。DARPA(Defense Advanced Research Projects Agency是 在 70 年代由美國國防部遠景研究 計劃局資助的一項10年計劃,其旨在支持語言理解系統(tǒng)的研究開發(fā)工作CMU (卡內(nèi)基梅 龍大學(xué))、MIT (麻省理工學(xué)院)、IBM、AT&T等都參與了這一計劃的開發(fā)工作。該計劃執(zhí) 行的結(jié)果是1976年推出了 HARPY(CMU)系統(tǒng)。雖然,這是有限詞匯和限定領(lǐng)域的識別系 統(tǒng),但改變了原來只利用聲學(xué)信息的狀況,開始應(yīng)用高層次語言學(xué)知識(如構(gòu)詞、句法、語 義、對話背景等)。在這為期10年的階段中盡管所有的研究計劃均未能達到預(yù)期目標(biāo),但它 對語音識別和理

19、解研究的發(fā)展起了重要的推動作用。通過這一階段的研究使人們認識到語音 識別任務(wù)的艱巨性,總結(jié)出許多有意義的經(jīng)驗教訓(xùn),并且從此對語音識別提出了許多基礎(chǔ)性 的研究課題。這些課題主要涉及到語音信號和自然語言的多變性和復(fù)雜性。所謂多變性和復(fù) 雜性大致包括以下幾個方面:(1)連續(xù)語音詞與詞之間沒有明顯的停頓,詞與詞之間的分割比較困難;(2)每一個基本的聲學(xué)識別基元(如音素)受前后音素發(fā)音方式的影響(協(xié)同發(fā)音) 使特征變得不穩(wěn)定;(3)不同人、不同心理和生理以及在不同的說話環(huán)境下說同一詞時,聲學(xué)信號特征會 發(fā)生變化;(4)一個詞的讀音不僅包含了詞義特征,而且還包含了說話人性別、年齡、情緒等大 量與詞義無關(guān)的

20、信息,而這些信息的分離是不容易的;(5)自然語言的多變性難以借助于一些基本語法規(guī)則進行描述,因而使計算機編程變 得困難。到了 80年代,美國國防部遠景研究計劃局又資助了一項為期10年的DARPA戰(zhàn)略計劃, 其中包括噪聲下的語音識別和會話(口語)識別系統(tǒng),識別任務(wù)設(shè)定為(1000單詞)連續(xù) 語音數(shù)據(jù)庫管理”。到了 90年代,這一DARPA計劃仍在持續(xù)進行中。其研究重點已轉(zhuǎn)向識 別裝置中的自然語言處理部分,識別任務(wù)設(shè)定為“航空旅行信息檢索”。日本也在1981年的第五代計算機計劃中提出了有關(guān)語音識別輸入-輸出自然語言的宏 偉目標(biāo),雖然沒能實現(xiàn)預(yù)期目標(biāo),但是有關(guān)語音識別技術(shù)的研究有了大幅度的加強和進展。 1987年起,日本又?jǐn)M出新的國家項目-高級人機口語接口和自動電話翻譯系統(tǒng)。日本在開 展研究工作時的特點是:建立全國的合作體系、分派任務(wù)、避免重復(fù);共享通用語音資料、盡可能采用標(biāo)準(zhǔn)化設(shè)備和分析技術(shù),交流研究結(jié)果和經(jīng)驗。1.4.2我國語音識別研究的歷史我國的語音識別研究起始于1958年,由中國科學(xué)院聲學(xué)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論