語音識別技術(shù)文獻(xiàn)綜述_第1頁
語音識別技術(shù)文獻(xiàn)綜述_第2頁
語音識別技術(shù)文獻(xiàn)綜述_第3頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、語音識別技術(shù)綜述The summarizati on of speech recog nition張永雙蘇州大學(xué)摘要本文回顧了語音識別技術(shù)的發(fā)展歷史,綜述了語音識別系統(tǒng)的結(jié)構(gòu)、 分類及基本方法,分析了語音識別技術(shù)面臨的問題及發(fā)展方向。 關(guān)鍵詞:語音識別;特征;匹配AbstactThis article review the courses of speech recog nition tech no logy progress ,summarize the structure,classifications and basic methods of speech recog nition sy

2、stem and an a lyze the directio n and the issues which speech recog nition tech no logy developme nt may confront with. Key words: speech recognition;character;matching引言語音識別技術(shù)就是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng) 的文本或命令的高技術(shù)。語音識別是一門交叉學(xué)科,所涉及的領(lǐng)域有信號 處理、模式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等, 棋至還涉及到人的體態(tài)語言(如人民在說話時(shí)的表情手勢等行為動(dòng)作可幫

3、 助對方理解)。其應(yīng)用領(lǐng)域也非常廣,例如相對于鍵盤輸入方法的語音輸 入系統(tǒng)、可用于工業(yè)控制的語音控制系統(tǒng)及服務(wù)領(lǐng)域的智能對話查詢系統(tǒng), 在信息高度化的今天,語音識別技術(shù)及其應(yīng)用已成為信息社會(huì)不可或缺的 重要組成部分。1 語音識別技術(shù)的發(fā)展歷史語音識別技術(shù)的研究開始二十世紀(jì)50年代。1952年,AT&Tbell實(shí)驗(yàn) 室的Davis等人成功研制出了世界上第一個(gè)能識別十個(gè)英文數(shù)字發(fā)音的實(shí) 驗(yàn)系統(tǒng):Audry系統(tǒng)。60年代計(jì)算機(jī)的應(yīng)用推動(dòng)了語音識別技術(shù)的發(fā)展,提出兩大重要研究 成果:動(dòng)態(tài)規(guī)劃(Dynamic Planning, DP)和線性預(yù)測分析(Linear Predict, LP),其中

4、后者較好的解決了語音信號產(chǎn)生模型的問題,對語音識別技術(shù)的 發(fā)展產(chǎn)生了深遠(yuǎn)影響。70年代,語音識別領(lǐng)域取得突破性進(jìn)展。線性預(yù)測編碼技術(shù)(Linear Predict Coding, LPC)被Itakura成功應(yīng)用于語音識別;Sakoe和Chiba將 動(dòng)態(tài)規(guī)劃的思想應(yīng)用到語音識別并提出動(dòng)態(tài)時(shí)間規(guī)整算法,有效的解決了 語音信號的特征提取和不等長語音匹配問題;同時(shí)提出了矢量量化(VQ) 和隱馬爾可夫模型(HMM)理論。在同一時(shí)期,統(tǒng)計(jì)方法開始被用來解決 語音識別的關(guān)鍵問題,這為接下來的非特定人大詞匯量連續(xù)語音識別技術(shù) 走向成熟奠定了重要的基礎(chǔ)。80年代,連續(xù)語音識別成為語音識別的研究重點(diǎn)之一。Mey

5、ers和 Rabiner研究出多級動(dòng)態(tài)規(guī)劃語音識別算法(Level Building, LB)這一連續(xù)語 音識別算法。80年代另一個(gè)重要的發(fā)展是概率統(tǒng)計(jì)方法成為語音識別研究 方法的主流,其顯著特征是HMM模型在語音識別中的成功應(yīng)用。1988年, 美國卡內(nèi)基一梅隆大學(xué)(CMU)用VQ/HMM方法實(shí)現(xiàn)了 997詞的非特定人連 續(xù)語音識別系統(tǒng)SPHINXo在這一時(shí)期,人工神經(jīng)網(wǎng)絡(luò)在語音識別中也得到 成功應(yīng)用。進(jìn)入90年代后,隨著多媒體時(shí)代的來臨,迫切要求語音識別系統(tǒng)從實(shí) 驗(yàn)走向?qū)嵱茫S多發(fā)達(dá)國家如美國、日本、韓國以及IBM、Apple. AT&T、 NTT等著名公司都為語音識別系統(tǒng)實(shí)用化的開

6、發(fā)硏究投以巨資。最具代表 性的是IBM的ViaVoice和Dragon公司的Dragon Dectate系統(tǒng)。這些系統(tǒng) 具有說話人自適應(yīng)能力,新用戶不需要對全部詞匯進(jìn)行訓(xùn)練便可在使用中 不斷提高識別率。當(dāng)前,美國在非特定人大詞匯表連續(xù)語音隱馬爾可夫模型識別方面起 主導(dǎo)作用,而日本則在大詞匯表連續(xù)語音神經(jīng)網(wǎng)絡(luò)識別、模擬人工智能進(jìn) 行語音后處理方面處于主導(dǎo)地位。國在七十年代末就開始了語音技術(shù)的研究,但在很長一段時(shí)間內(nèi),都 處于緩慢發(fā)展的階段。直到八十年代后期,國內(nèi)許多單位紛紛投入到這項(xiàng) 研究工作中去,其中有中科院聲學(xué)所,自動(dòng)化所,清華大學(xué),四川大學(xué)和 西北工業(yè)大學(xué)等科研機(jī)構(gòu)和高等院校,大多數(shù)研究者

7、致力于語音識別的基 礎(chǔ)理論研究工作、模型及算法的研究和改進(jìn)。但山于起步晚、基礎(chǔ)薄弱, 計(jì)算機(jī)水平不發(fā)達(dá),導(dǎo)致在整個(gè)八十年代,我國在語音識別研究方面并沒 有形成自己的特色,更沒有取得顯著的成果和開發(fā)出大型性能優(yōu)良的實(shí)驗(yàn) 系統(tǒng)。但進(jìn)入九十年代后,我國語音識別研究的步伐就逐漸緊追國際先進(jìn) 水平了,在“八五”、“九五”國家科技攻關(guān)計(jì)劃、國家自然科學(xué)基金. 國家863計(jì)劃的支持下,我國在中文語音技術(shù)的基礎(chǔ)研究方面也取得了一 系列成果。在語音合成技術(shù)方面,中國科大訊飛公司已具有國際上最領(lǐng)先 的核心技術(shù);中科院聲學(xué)所也在長期積累的基礎(chǔ)上,研究開發(fā)出頗具特色 的產(chǎn)品:在語音識別技術(shù)方面,中科院自動(dòng)化所具有相當(dāng)

8、的技術(shù)優(yōu)勢:社 科院語言所在漢語言學(xué)及實(shí)驗(yàn)語言科學(xué)方面同樣具有深厚的積累。但是, 這些成果并沒有得到很好的應(yīng)用,沒有轉(zhuǎn)化成產(chǎn)業(yè);相反,中文語音技術(shù) 在技術(shù)、人才、市場等方面正面臨著來自國際競爭環(huán)境中越來越嚴(yán)峻的挑 戰(zhàn)和壓力。2語音識別系統(tǒng)的結(jié)構(gòu)主要包括語音信號的釆樣和預(yù)處理部分、特征參數(shù)提取部分、語音識 別核心部分以及語音識別后處理部分,圖21給出了語音識別系統(tǒng)的基本結(jié) 構(gòu)。圖21語音識別系統(tǒng)的基木結(jié)構(gòu)圖語音識別的過程是一個(gè)模式識別匹配的過程。在這個(gè)過程中,首先要 根據(jù)人的語音特點(diǎn)建立語音模型,對輸入的語音信號進(jìn)行分析,并抽取所 需的特征,在此基礎(chǔ)上建立語音識別所需的模式。而在識別過程中要根據(jù)

9、 語音識別的整體模型,將輸入的語音信號的特征與已經(jīng)存在的語音模式進(jìn) 行比較,根據(jù)一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入的語音相 匹配的模式。然后,根據(jù)此模式號的定義,通過查表就可以給出計(jì)算機(jī)的 識別結(jié)果。3語音識別系統(tǒng)的分類根據(jù)識別的對象不同,語音識別任務(wù)大體可分為3類,即孤立詞識別(isolated word recognition),關(guān)鍵詞識別(或稱關(guān)鍵詞檢出,keyword spotting)和連續(xù)語音識別。其中,孤立詞識別的任務(wù)是識別事先已知的孤 立的詞,如“開機(jī)”、“關(guān)機(jī)”等;連續(xù)語音識別的任務(wù)則是識別任意的連續(xù) 語音,如一個(gè)句子或一段話;連續(xù)語音流中的關(guān)鍵詞檢測針對的是連續(xù)語

10、 音,但它并不識別全部文字,而只是檢測已知的若干關(guān)鍵詞在何處出現(xiàn), 如在一段話中檢測“計(jì)算機(jī)”、“世界”這兩個(gè)詞。根據(jù)針對的發(fā)音人,可以把語音識別技術(shù)分為特定人語音識別和非特 定人語音識別,前者只能識別一個(gè)或兒個(gè)人的語音,而后者則可以被任何 人使用。顯然,非特定人語音識別系統(tǒng)更符合實(shí)際需要,但它要比針對特 定人的識別困難得多。另外,根據(jù)語音設(shè)備和通道,可以分為桌面(PC)語音識別、電話語 音識別和嵌入式設(shè)備(手機(jī)、PDA等)語音識別。不同的采集通道會(huì)使人 的發(fā)音的聲學(xué)特性發(fā)生變形,因此需要構(gòu)造各自的識別系統(tǒng)。4. 語音識別系統(tǒng)的基本識別方法一般來說,語音識別的方法有三種:基于聲道模型和語音知識

11、的方法、 模式匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。4.1基于語音學(xué)和聲學(xué)的方法該方法起步較早,在語音識別技術(shù)提出的開始,就有了這方面的研究, 但由于其模型及語音知識過于復(fù)雜,現(xiàn)階段還沒有達(dá)到實(shí)用的階段。42模式匹配的方法模式匹配方法的發(fā)展比較成熟,目前已達(dá)到實(shí)用階段。在模式匹配方 法中,需經(jīng)過四個(gè)步驟:特征提取、模式訓(xùn)練、模式識別和判決。4.2.1特征提取特征提取方法主要釆用以下三種:基于LPC的倒譜參數(shù)(LPCC)分析法, 基于Mel系數(shù)的Mel頻標(biāo)倒譜系數(shù)(MPCC)分析法,基于現(xiàn)代處理技術(shù)的小 波變換系數(shù)分析法。在這些方法中,MFCC方法比LPCC方法的識別效果稍 好一些,而且MFCC

12、符合人們的聽覺特性,在有信道噪聲和頻譜失真的情況 下具有較好的穩(wěn)健性,其不足之處是MFCC方法中多次用到FFT,故算法的 復(fù)雜程度遠(yuǎn)大于LPCC方法。因此,在安靜的環(huán)境下,目前比較成熟和最常 用的語音特征提取方法還是LPCC方法。在條件不好的環(huán)境下,則宜選用M FCC方法。而小波變換法則是一種新興的理論工具,要獲得較高的識別率 還有許多問題有待研究,但與經(jīng)典的方法相比,小波變換法有著計(jì)算量小、 復(fù)雜程度低、識別效果好等許多優(yōu)點(diǎn),研究前景十分樂觀,是研究發(fā)展的 個(gè)方向。4.2.2模式識別模式識別常用技術(shù)有三種:動(dòng)態(tài)時(shí)間規(guī)整(DTW)、隱馬爾可夫模型(HMM)、矢量量化(VQ) o(1)動(dòng)態(tài)時(shí)間規(guī)

13、整(DTW)語音信號的端點(diǎn)檢測是進(jìn)行語音識別中的一個(gè)基本步驟,它是特征訓(xùn) 練和識別的基礎(chǔ)。所謂端點(diǎn)檢測就是在語音信號中的各種段落(如音素、音 節(jié)、詞素)的始點(diǎn)和終點(diǎn)的位置,從語音信號中排除無聲段。在早期,進(jìn)行 端點(diǎn)檢測的主要依據(jù)是能量、振幅和過零率。但效果往往不明顯。上世紀(jì)6 0年代日本學(xué)者Itakura提出了動(dòng)態(tài)時(shí)間規(guī)整算法。算法的思想就是把未 知量均勻地伸長或縮短,直到與參考模式的長度一致。在這一過程中,未 知單詞的時(shí)間軸要不均勻地扭曲或彎折,以使其特征與模型特征對正。在 連續(xù)語音識別中仍然是主流方法。同時(shí),在小詞匯量、孤立字(詞)識別系 統(tǒng)中,也已有許多改進(jìn)的DTW算法提出。(2) 隱馬

14、爾可夫模型(HMM)隱馬爾可夫模型是20世紀(jì)70年代引入語音識別理論的,它的出現(xiàn)使 得自然語音識別系統(tǒng)取得了實(shí)質(zhì)性的突破。目前大多數(shù)大詞匯量、連續(xù)語 音的非特定人語音識別系統(tǒng)都是基于HMM模型的。HMM是對語音信號的 時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型,將之看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過程:一個(gè)是 用具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號統(tǒng)計(jì)特性變化的隱含的隨機(jī) 過程,另一個(gè)是與Markov鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測序列的隨機(jī)過程。 前者通過后者表現(xiàn)出來,但前者的具體參數(shù)是不可測的。人的言語過程實(shí) 際上就是一個(gè)雙重隨機(jī)過程,語音信號本身是一個(gè)可觀測的時(shí)變序列,是 山大腦根據(jù)語法知識和言語需要(不可觀測

15、的狀態(tài))發(fā)出的音素的參數(shù)流。 可見HMM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩(wěn)性 和局部平穩(wěn)性,是較為理想的一種語音模型。(3) 矢量量化(VQ)矢量量化是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適 用于小詞匯量、孤立詞的語音識別中。其過程是:將語音信號波形的k個(gè)樣 點(diǎn)的每一幀,或有k個(gè)參數(shù)的每一參數(shù)幀,構(gòu)成k維空間中的一個(gè)矢量, 然后對矢量進(jìn)行量化。量化時(shí),將k維無限空間劃分為M個(gè)區(qū)域邊界,然 后將輸入矢量與這些邊界進(jìn)行比較,并被量化為“距離”最小的區(qū)域邊界 的中心矢量值。矢量量化器的設(shè)計(jì)就是從大量信號樣本中訓(xùn)練出好的碼書, 從實(shí)際效果出發(fā)尋找到好的失真測度定義公式

16、,設(shè)計(jì)出最佳的矢量量化系 統(tǒng),用最少的搜索和計(jì)算失真的運(yùn)算量,實(shí)現(xiàn)最大可能的平均信噪比。43人工神經(jīng)網(wǎng)絡(luò)的方法利用人工神經(jīng)網(wǎng)絡(luò)的方法是80年代末期提出的一種新的語音識別方 法。人工神經(jīng)網(wǎng)絡(luò)(ANN)本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),模擬了 人類神經(jīng)活動(dòng)的原理,具有自適應(yīng)性、并行性、魯棒性、容錯(cuò)性和學(xué)習(xí)特 性,其強(qiáng)的分類能力和輸入輸出映射能力在語音識別中都很有吸引力。 但由于存在訓(xùn)練、識別時(shí)間太長的缺點(diǎn),目前仍處于實(shí)驗(yàn)探索階段。由于 ANN不能很好的描述語音信號的時(shí)間動(dòng)態(tài)特性,所以常把ANN與傳統(tǒng)識 別方法結(jié)合,分別利用各自優(yōu)點(diǎn)來進(jìn)行語音識別。5. 語音識別所面臨的問題(1) 就算法模型方面而

17、言,需要有進(jìn)一步的突破。LI前使用的語言模型 只是一種概率模型,還沒有用到以語言學(xué)為基礎(chǔ)的文法模型,而要使計(jì)算 機(jī)確實(shí)理解人類的語言,就必須在這一點(diǎn)上取得進(jìn)展。(2) 就自適應(yīng)方面而言,語音識別技術(shù)也有待進(jìn)一步改進(jìn),做到不受特 定人、口音或者方言的影響,這實(shí)際上也意味著對語言模型的進(jìn)一步改進(jìn)。(3) 就強(qiáng)健性方面而言,語音識別技術(shù)需要能排除各種環(huán)境因素的影 響。目前,對語音識別效果影響最大的就是環(huán)境雜音或嗓音,個(gè)人能有意 識地扌屛棄環(huán)境嗓音并從中獲取自己所需要的特定聲音,如何讓語音識別技 術(shù)也能達(dá)成這一點(diǎn)是一個(gè)艱巨的任務(wù)。(4) 多語言混合識別以及無限詞匯識別方面:將來的語音和聲學(xué)模型可 能會(huì)

18、做到將多種語言混合納入,用戶因此就可以不必在語種之間來回切換。 此外,對于聲學(xué)模型的進(jìn)一步改進(jìn),以及以語義學(xué)為基礎(chǔ)的語言模型的改 進(jìn),也能幫助用戶盡可能少或不受詞匯的影響,從而可實(shí)行無限詞匯識別。(5) 多語種交流系統(tǒng)的應(yīng)用:是將語音識別技術(shù)、機(jī)器翻譯技術(shù)以及語 音合成技術(shù)的完美結(jié)合,全世界說不同語言的人都可以實(shí)時(shí)地自山地交流, 不存在語言障礙??梢韵胍?,多語種自山交流系統(tǒng)將帶給我們?nèi)碌纳?空間。(6) 語音情感識別:近年來隨著人工智能的發(fā)展,情感智能跟計(jì)算機(jī)技 術(shù)結(jié)合產(chǎn)生了情感計(jì)算這一研究課題,這將大大的促進(jìn)計(jì)算機(jī)技術(shù)的發(fā)展。 情感自動(dòng)識別是通向情感計(jì)算的第一步。語音作為人類最重要的交流媒介, 攜帶著豐富的情感信息。如何從語音中自動(dòng)識別說話者的情感狀態(tài)近年來 受到各領(lǐng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論