語音識別技術(shù)文獻(xiàn)綜述

上傳人：b*** IP屬地：天津上傳時(shí)間：2022-01-08 格式：DOC 頁數(shù)：7 大?。?0KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、語音識別技術(shù)綜述The summarizati on of speech recog nition張永雙蘇州大學(xué)摘要本文回顧了語音識別技術(shù)的發(fā)展歷史，綜述了語音識別系統(tǒng)的結(jié)構(gòu)、分類及基本方法，分析了語音識別技術(shù)面臨的問題及發(fā)展方向。關(guān)鍵詞：語音識別；特征；匹配AbstactThis article review the courses of speech recog nition tech no logy progress ,summarize the structure,classifications and basic methods of speech recog nition sy

2、stem and an a lyze the directio n and the issues which speech recog nition tech no logy developme nt may confront with. Key words: speech recognition;character;matching引言語音識別技術(shù)就是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng) 的文本或命令的高技術(shù)。語音識別是一門交叉學(xué)科，所涉及的領(lǐng)域有信號處理、模式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等，棋至還涉及到人的體態(tài)語言（如人民在說話時(shí)的表情手勢等行為動(dòng)作可幫

3、助對方理解）。其應(yīng)用領(lǐng)域也非常廣，例如相對于鍵盤輸入方法的語音輸入系統(tǒng)、可用于工業(yè)控制的語音控制系統(tǒng)及服務(wù)領(lǐng)域的智能對話查詢系統(tǒng), 在信息高度化的今天，語音識別技術(shù)及其應(yīng)用已成為信息社會(huì)不可或缺的重要組成部分。1 語音識別技術(shù)的發(fā)展歷史語音識別技術(shù)的研究開始二十世紀(jì)50年代。1952年，AT&Tbell實(shí)驗(yàn) 室的Davis等人成功研制出了世界上第一個(gè)能識別十個(gè)英文數(shù)字發(fā)音的實(shí) 驗(yàn)系統(tǒng)：Audry系統(tǒng)。60年代計(jì)算機(jī)的應(yīng)用推動(dòng)了語音識別技術(shù)的發(fā)展，提出兩大重要研究成果：動(dòng)態(tài)規(guī)劃(Dynamic Planning, DP)和線性預(yù)測分析(Linear Predict, LP),其中

4、后者較好的解決了語音信號產(chǎn)生模型的問題，對語音識別技術(shù)的發(fā)展產(chǎn)生了深遠(yuǎn)影響。70年代，語音識別領(lǐng)域取得突破性進(jìn)展。線性預(yù)測編碼技術(shù)(Linear Predict Coding, LPC)被Itakura成功應(yīng)用于語音識別；Sakoe和Chiba將動(dòng)態(tài)規(guī)劃的思想應(yīng)用到語音識別并提出動(dòng)態(tài)時(shí)間規(guī)整算法，有效的解決了語音信號的特征提取和不等長語音匹配問題；同時(shí)提出了矢量量化(VQ) 和隱馬爾可夫模型(HMM)理論。在同一時(shí)期，統(tǒng)計(jì)方法開始被用來解決語音識別的關(guān)鍵問題，這為接下來的非特定人大詞匯量連續(xù)語音識別技術(shù) 走向成熟奠定了重要的基礎(chǔ)。80年代，連續(xù)語音識別成為語音識別的研究重點(diǎn)之一。Mey

5、ers和 Rabiner研究出多級動(dòng)態(tài)規(guī)劃語音識別算法(Level Building, LB)這一連續(xù)語音識別算法。80年代另一個(gè)重要的發(fā)展是概率統(tǒng)計(jì)方法成為語音識別研究方法的主流，其顯著特征是HMM模型在語音識別中的成功應(yīng)用。1988年，美國卡內(nèi)基一梅隆大學(xué)(CMU)用VQ/HMM方法實(shí)現(xiàn)了 997詞的非特定人連續(xù)語音識別系統(tǒng)SPHINXo在這一時(shí)期，人工神經(jīng)網(wǎng)絡(luò)在語音識別中也得到成功應(yīng)用。進(jìn)入90年代后，隨著多媒體時(shí)代的來臨，迫切要求語音識別系統(tǒng)從實(shí) 驗(yàn)走向?qū)嵱茫S多發(fā)達(dá)國家如美國、日本、韓國以及IBM、Apple. AT&T、 NTT等著名公司都為語音識別系統(tǒng)實(shí)用化的開

6、發(fā)硏究投以巨資。最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dectate系統(tǒng)。這些系統(tǒng) 具有說話人自適應(yīng)能力，新用戶不需要對全部詞匯進(jìn)行訓(xùn)練便可在使用中不斷提高識別率。當(dāng)前，美國在非特定人大詞匯表連續(xù)語音隱馬爾可夫模型識別方面起主導(dǎo)作用，而日本則在大詞匯表連續(xù)語音神經(jīng)網(wǎng)絡(luò)識別、模擬人工智能進(jìn) 行語音后處理方面處于主導(dǎo)地位。國在七十年代末就開始了語音技術(shù)的研究，但在很長一段時(shí)間內(nèi)，都處于緩慢發(fā)展的階段。直到八十年代后期，國內(nèi)許多單位紛紛投入到這項(xiàng) 研究工作中去，其中有中科院聲學(xué)所，自動(dòng)化所，清華大學(xué)，四川大學(xué)和西北工業(yè)大學(xué)等科研機(jī)構(gòu)和高等院校，大多數(shù)研究者

7、致力于語音識別的基礎(chǔ)理論研究工作、模型及算法的研究和改進(jìn)。但山于起步晚、基礎(chǔ)薄弱，計(jì)算機(jī)水平不發(fā)達(dá)，導(dǎo)致在整個(gè)八十年代，我國在語音識別研究方面并沒有形成自己的特色，更沒有取得顯著的成果和開發(fā)出大型性能優(yōu)良的實(shí)驗(yàn) 系統(tǒng)。但進(jìn)入九十年代后，我國語音識別研究的步伐就逐漸緊追國際先進(jìn) 水平了，在“八五”、“九五”國家科技攻關(guān)計(jì)劃、國家自然科學(xué)基金. 國家863計(jì)劃的支持下，我國在中文語音技術(shù)的基礎(chǔ)研究方面也取得了一系列成果。在語音合成技術(shù)方面，中國科大訊飛公司已具有國際上最領(lǐng)先的核心技術(shù)；中科院聲學(xué)所也在長期積累的基礎(chǔ)上，研究開發(fā)出頗具特色的產(chǎn)品：在語音識別技術(shù)方面，中科院自動(dòng)化所具有相當(dāng)

8、的技術(shù)優(yōu)勢：社科院語言所在漢語言學(xué)及實(shí)驗(yàn)語言科學(xué)方面同樣具有深厚的積累。但是，這些成果并沒有得到很好的應(yīng)用，沒有轉(zhuǎn)化成產(chǎn)業(yè)；相反，中文語音技術(shù) 在技術(shù)、人才、市場等方面正面臨著來自國際競爭環(huán)境中越來越嚴(yán)峻的挑戰(zhàn)和壓力。2語音識別系統(tǒng)的結(jié)構(gòu)主要包括語音信號的釆樣和預(yù)處理部分、特征參數(shù)提取部分、語音識別核心部分以及語音識別后處理部分，圖21給出了語音識別系統(tǒng)的基本結(jié) 構(gòu)。圖21語音識別系統(tǒng)的基木結(jié)構(gòu)圖語音識別的過程是一個(gè)模式識別匹配的過程。在這個(gè)過程中，首先要根據(jù)人的語音特點(diǎn)建立語音模型，對輸入的語音信號進(jìn)行分析，并抽取所需的特征，在此基礎(chǔ)上建立語音識別所需的模式。而在識別過程中要根據(jù)

9、語音識別的整體模型，將輸入的語音信號的特征與已經(jīng)存在的語音模式進(jìn) 行比較，根據(jù)一定的搜索和匹配策略，找出一系列最優(yōu)的與輸入的語音相匹配的模式。然后，根據(jù)此模式號的定義，通過查表就可以給出計(jì)算機(jī)的識別結(jié)果。3語音識別系統(tǒng)的分類根據(jù)識別的對象不同，語音識別任務(wù)大體可分為3類，即孤立詞識別（isolated word recognition）,關(guān)鍵詞識別（或稱關(guān)鍵詞檢出，keyword spotting）和連續(xù)語音識別。其中，孤立詞識別的任務(wù)是識別事先已知的孤立的詞，如“開機(jī)”、“關(guān)機(jī)”等；連續(xù)語音識別的任務(wù)則是識別任意的連續(xù) 語音，如一個(gè)句子或一段話；連續(xù)語音流中的關(guān)鍵詞檢測針對的是連續(xù)語

10、音，但它并不識別全部文字，而只是檢測已知的若干關(guān)鍵詞在何處出現(xiàn)，如在一段話中檢測“計(jì)算機(jī)”、“世界”這兩個(gè)詞。根據(jù)針對的發(fā)音人，可以把語音識別技術(shù)分為特定人語音識別和非特定人語音識別，前者只能識別一個(gè)或兒個(gè)人的語音，而后者則可以被任何人使用。顯然，非特定人語音識別系統(tǒng)更符合實(shí)際需要，但它要比針對特定人的識別困難得多。另外，根據(jù)語音設(shè)備和通道，可以分為桌面（PC）語音識別、電話語音識別和嵌入式設(shè)備（手機(jī)、PDA等）語音識別。不同的采集通道會(huì)使人的發(fā)音的聲學(xué)特性發(fā)生變形，因此需要構(gòu)造各自的識別系統(tǒng)。4. 語音識別系統(tǒng)的基本識別方法一般來說，語音識別的方法有三種：基于聲道模型和語音知識

11、的方法、模式匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。4.1基于語音學(xué)和聲學(xué)的方法該方法起步較早，在語音識別技術(shù)提出的開始，就有了這方面的研究，但由于其模型及語音知識過于復(fù)雜，現(xiàn)階段還沒有達(dá)到實(shí)用的階段。42模式匹配的方法模式匹配方法的發(fā)展比較成熟，目前已達(dá)到實(shí)用階段。在模式匹配方法中，需經(jīng)過四個(gè)步驟：特征提取、模式訓(xùn)練、模式識別和判決。4.2.1特征提取特征提取方法主要釆用以下三種：基于LPC的倒譜參數(shù)（LPCC）分析法，基于Mel系數(shù)的Mel頻標(biāo)倒譜系數(shù)（MPCC）分析法，基于現(xiàn)代處理技術(shù)的小波變換系數(shù)分析法。在這些方法中，MFCC方法比LPCC方法的識別效果稍好一些，而且MFCC

12、符合人們的聽覺特性，在有信道噪聲和頻譜失真的情況下具有較好的穩(wěn)健性，其不足之處是MFCC方法中多次用到FFT,故算法的復(fù)雜程度遠(yuǎn)大于LPCC方法。因此，在安靜的環(huán)境下，目前比較成熟和最常用的語音特征提取方法還是LPCC方法。在條件不好的環(huán)境下，則宜選用M FCC方法。而小波變換法則是一種新興的理論工具，要獲得較高的識別率還有許多問題有待研究，但與經(jīng)典的方法相比，小波變換法有著計(jì)算量小、復(fù)雜程度低、識別效果好等許多優(yōu)點(diǎn)，研究前景十分樂觀，是研究發(fā)展的個(gè)方向。4.2.2模式識別模式識別常用技術(shù)有三種：動(dòng)態(tài)時(shí)間規(guī)整（DTW）、隱馬爾可夫模型（HMM）、矢量量化（VQ） o（1）動(dòng)態(tài)時(shí)間規(guī)

13、整（DTW）語音信號的端點(diǎn)檢測是進(jìn)行語音識別中的一個(gè)基本步驟，它是特征訓(xùn) 練和識別的基礎(chǔ)。所謂端點(diǎn)檢測就是在語音信號中的各種段落（如音素、音節(jié)、詞素）的始點(diǎn)和終點(diǎn)的位置，從語音信號中排除無聲段。在早期，進(jìn)行端點(diǎn)檢測的主要依據(jù)是能量、振幅和過零率。但效果往往不明顯。上世紀(jì)6 0年代日本學(xué)者Itakura提出了動(dòng)態(tài)時(shí)間規(guī)整算法。算法的思想就是把未知量均勻地伸長或縮短，直到與參考模式的長度一致。在這一過程中，未知單詞的時(shí)間軸要不均勻地扭曲或彎折，以使其特征與模型特征對正。在連續(xù)語音識別中仍然是主流方法。同時(shí)，在小詞匯量、孤立字（詞）識別系統(tǒng)中，也已有許多改進(jìn)的DTW算法提出。(2) 隱馬

14、爾可夫模型(HMM)隱馬爾可夫模型是20世紀(jì)70年代引入語音識別理論的，它的出現(xiàn)使得自然語音識別系統(tǒng)取得了實(shí)質(zhì)性的突破。目前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識別系統(tǒng)都是基于HMM模型的。HMM是對語音信號的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型，將之看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過程:一個(gè)是用具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號統(tǒng)計(jì)特性變化的隱含的隨機(jī) 過程，另一個(gè)是與Markov鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測序列的隨機(jī)過程。前者通過后者表現(xiàn)出來，但前者的具體參數(shù)是不可測的。人的言語過程實(shí) 際上就是一個(gè)雙重隨機(jī)過程，語音信號本身是一個(gè)可觀測的時(shí)變序列，是山大腦根據(jù)語法知識和言語需要(不可觀測

15、的狀態(tài))發(fā)出的音素的參數(shù)流。可見HMM合理地模仿了這一過程，很好地描述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性，是較為理想的一種語音模型。(3) 矢量量化(VQ)矢量量化是一種重要的信號壓縮方法。與HMM相比，矢量量化主要適用于小詞匯量、孤立詞的語音識別中。其過程是:將語音信號波形的k個(gè)樣點(diǎn)的每一幀，或有k個(gè)參數(shù)的每一參數(shù)幀，構(gòu)成k維空間中的一個(gè)矢量，然后對矢量進(jìn)行量化。量化時(shí)，將k維無限空間劃分為M個(gè)區(qū)域邊界，然后將輸入矢量與這些邊界進(jìn)行比較，并被量化為“距離”最小的區(qū)域邊界的中心矢量值。矢量量化器的設(shè)計(jì)就是從大量信號樣本中訓(xùn)練出好的碼書，從實(shí)際效果出發(fā)尋找到好的失真測度定義公式

16、，設(shè)計(jì)出最佳的矢量量化系統(tǒng)，用最少的搜索和計(jì)算失真的運(yùn)算量，實(shí)現(xiàn)最大可能的平均信噪比。43人工神經(jīng)網(wǎng)絡(luò)的方法利用人工神經(jīng)網(wǎng)絡(luò)的方法是80年代末期提出的一種新的語音識別方法。人工神經(jīng)網(wǎng)絡(luò)(ANN)本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng)，模擬了人類神經(jīng)活動(dòng)的原理，具有自適應(yīng)性、并行性、魯棒性、容錯(cuò)性和學(xué)習(xí)特性，其強(qiáng)的分類能力和輸入輸出映射能力在語音識別中都很有吸引力。但由于存在訓(xùn)練、識別時(shí)間太長的缺點(diǎn)，目前仍處于實(shí)驗(yàn)探索階段。由于 ANN不能很好的描述語音信號的時(shí)間動(dòng)態(tài)特性，所以常把ANN與傳統(tǒng)識別方法結(jié)合，分別利用各自優(yōu)點(diǎn)來進(jìn)行語音識別。5. 語音識別所面臨的問題(1) 就算法模型方面而

17、言，需要有進(jìn)一步的突破。LI前使用的語言模型只是一種概率模型，還沒有用到以語言學(xué)為基礎(chǔ)的文法模型，而要使計(jì)算機(jī)確實(shí)理解人類的語言，就必須在這一點(diǎn)上取得進(jìn)展。(2) 就自適應(yīng)方面而言，語音識別技術(shù)也有待進(jìn)一步改進(jìn)，做到不受特定人、口音或者方言的影響，這實(shí)際上也意味著對語言模型的進(jìn)一步改進(jìn)。(3) 就強(qiáng)健性方面而言，語音識別技術(shù)需要能排除各種環(huán)境因素的影響。目前，對語音識別效果影響最大的就是環(huán)境雜音或嗓音，個(gè)人能有意識地扌屛棄環(huán)境嗓音并從中獲取自己所需要的特定聲音，如何讓語音識別技術(shù)也能達(dá)成這一點(diǎn)是一個(gè)艱巨的任務(wù)。(4) 多語言混合識別以及無限詞匯識別方面:將來的語音和聲學(xué)模型可能會(huì)

18、做到將多種語言混合納入，用戶因此就可以不必在語種之間來回切換。此外，對于聲學(xué)模型的進(jìn)一步改進(jìn)，以及以語義學(xué)為基礎(chǔ)的語言模型的改進(jìn)，也能幫助用戶盡可能少或不受詞匯的影響，從而可實(shí)行無限詞匯識別。(5) 多語種交流系統(tǒng)的應(yīng)用：是將語音識別技術(shù)、機(jī)器翻譯技術(shù)以及語音合成技術(shù)的完美結(jié)合，全世界說不同語言的人都可以實(shí)時(shí)地自山地交流, 不存在語言障礙?？梢韵胍?，多語種自山交流系統(tǒng)將帶給我們?nèi)碌纳?空間。(6) 語音情感識別:近年來隨著人工智能的發(fā)展，情感智能跟計(jì)算機(jī)技術(shù)結(jié)合產(chǎn)生了情感計(jì)算這一研究課題，這將大大的促進(jìn)計(jì)算機(jī)技術(shù)的發(fā)展。情感自動(dòng)識別是通向情感計(jì)算的第一步。語音作為人類最重要的交流媒介, 攜帶著豐富的情感信息。如何從語音中自動(dòng)識別說話者的情感狀態(tài)近年來受到各領(lǐng)

人人文庫> 全部分類> 行業(yè)資料 > 工業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

語音識別技術(shù)文獻(xiàn)綜述

文檔簡介

溫馨提示

最新文檔

評論

語音識別技術(shù)文獻(xiàn)綜述

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔