語音信號處理實用教程-課件第12章-語音識_第1頁
語音信號處理實用教程-課件第12章-語音識_第2頁
語音信號處理實用教程-課件第12章-語音識_第3頁
語音信號處理實用教程-課件第12章-語音識_第4頁
語音信號處理實用教程-課件第12章-語音識_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1第13章語音識別1第13章語音識別2內(nèi)容提要13.1概述13.2語音識別原理13.3動態(tài)時間規(guī)整13.4有限狀態(tài)矢量量化技術(shù)13.4.1FSVQ原理及FSVQ聲碼器13.4.2FSVQ語音識別器13.5孤立詞識別系統(tǒng)13.6連續(xù)語音識別13.6.1連續(xù)語音識別中存在的困難13.6.2連續(xù)語音識別的訓練及識別方法13.6.3基于HMM統(tǒng)一框架的大詞匯量非特定人連續(xù)語音識別2內(nèi)容提要13.1概述3語音識別(SpeechRecognition)

讓機器聽懂人說話語音識別應用-人機交互:語音打字機(聽寫機,鍵盤輸入的3-4倍);電話查詢自動應答系統(tǒng)(語音界面);語音命令的控制系統(tǒng)(釋放手腳);交叉學科:計算機、通信、語音語言學、數(shù)理統(tǒng)計、信號處理、神經(jīng)生理心理、人工智能等13.1概述3語音識別(SpeechRecognition)

讓機器聽4語音識別歷史發(fā)展50年代-AT&TBellLab,可識別10個英文數(shù)字60年代-LP較好地解決了語音信號產(chǎn)生模型,DP則有效解決了不等長語音的匹配問題。70年代-DTW(DynamicTimeWarp)技術(shù)基本成熟,VQ和HMM理論;實現(xiàn)了基于LPC和DTW技術(shù)相結(jié)合的特定人孤立語音識別系統(tǒng)。80年代-HMM模型和人工神經(jīng)元網(wǎng)絡(ANN)在語音識別中成功應用。1988年美國CMU大學基于VQ/HMM開發(fā)SI-CSR系統(tǒng)SPHINX。90年代-大規(guī)模應用,工業(yè)標準,理論進展緩慢13.1概述4語音識別歷史發(fā)展50年代-AT&TBellLab,可識5語音識別的發(fā)展現(xiàn)狀從理論到產(chǎn)品走過了50多個春秋;現(xiàn)有很多實際應用系統(tǒng);有可能成為下一代操作系統(tǒng)和應用程序的用戶界面;遠沒有達到計算機與人類自然交流的終極目標;實用的語音識別技術(shù)研究極具市場價值和挑戰(zhàn);重點:大詞匯、非特定人、連續(xù)語音識別13.1概述5語音識別的發(fā)展現(xiàn)狀13.1概述6語音識別方法:模版匹配法:特定人、小詞匯、孤立人識別系統(tǒng)。就是將測試語音與模板的參數(shù)一一進行比較與匹配,判決的依據(jù)是失真測度最小準則。隨機模型法:主流,HMM使用HMM的概率參數(shù)來對似然函數(shù)進行估計與判決,從而得到識別結(jié)果的方法。由于HMM具有狀態(tài)函數(shù),所以這個方法可以利用語音頻譜的內(nèi)在變化(如講話速度、不同講話者特性等)和它們的相關(guān)性(記憶性)。

語音:從一個相對穩(wěn)定的狀態(tài)過渡到另一個狀態(tài)概率語法分析法:區(qū)別性特征+(語法、語義、語用)規(guī)則+知識基于ANN(人工神經(jīng)網(wǎng)絡)的方法、基于模糊數(shù)學的方法、句法語音識別等

13.1概述6語音識別方法:13.1概述7漢語語音識別與其他語言沒有本質(zhì)區(qū)別;漢語的特點使其識別難度更大;語音理解:在識別語音底層的基礎(chǔ)上,利用語言學、詞法學、句法學、語義學、語用學、對話模型等知識,確定其語音信號的自然語音級在一定的語言環(huán)境下的意圖信息。以識別為基礎(chǔ),區(qū)別于識別;識別在于“聽清”其語音學級的內(nèi)容;理解在于“明白”其語言學級的內(nèi)容;13.1概述7漢語語音識別13.1概述8語音識別系統(tǒng)的分類:孤立詞、選詞語音識別、連續(xù)語音識別、

語音理解(在識別的基礎(chǔ)上用語言學知識推斷語音含義)、會話語音識別(書寫語音識別)大詞匯、中詞匯、小詞匯語音識別系統(tǒng)

單個說話人(speaker)識別系統(tǒng)、多個說話人、與說話人無關(guān)的系統(tǒng)(特定人與非特定人)13.1概述8語音識別系統(tǒng)的分類:13.1概述9語音識別技術(shù)面臨的問題數(shù)據(jù)資源(年齡、性別、語言、方言、主題、情緒、地域……切分、標注體系)抗噪性能(背景噪聲、信道噪聲、干擾)協(xié)同發(fā)音(Co-articulation)口語現(xiàn)象(重復、頓措、語序顛倒……)說話人變異(口音、情緒、年齡……)聽覺機理(音量、頻率、抗噪、區(qū)分……)…………13.1概述9語音識別技術(shù)面臨的問題數(shù)據(jù)資源(年齡、性別、語言、方言、10語音識別系統(tǒng)典型系統(tǒng)IBMViaVoice聽寫機AT&TVRCP系統(tǒng)(自助話務員協(xié)助呼叫)NTTANSER語音識別銀行服務系統(tǒng)SONYAIBO機器狗13.1概述10語音識別系統(tǒng)典型系統(tǒng)13.1概述11語音識別應用價值信息查詢(股票、天氣、航班……)人機界面(新一代操作系統(tǒng)、智能家居)聽寫機(文字輸入、記錄)數(shù)據(jù)庫管理(語音檢索)……語音識別(提取或匹配語義)、語音壓縮(高效存儲、傳輸語音信號)、語音合成(輸出自然可懂的語音信號)、語音增強(提高信噪比、加重語音成分)息息相關(guān)。說話人識別(安全應用)關(guān)鍵詞檢出(多媒體數(shù)據(jù)檢索)……13.1概述11語音識別應用價值信息查詢(股票、天氣、航班……)13.112語音識別的性能評價原句:我們明天去天安門識別:我×

明后天去天壇

×刪除錯誤Deletion插入錯誤Insertion替換錯誤Substitution正確率:

準確率:

13.1概述12語音識別的性能評價原句:我們明天13

語音產(chǎn)生語音理解生理過程13

語音產(chǎn)生語音理解生理過程14

語音識別層次模型14

語音識別層次模型15

統(tǒng)一層次模型

——系統(tǒng)設計15

統(tǒng)一層次模型

——系統(tǒng)設計16語音識別原理模式匹配原理:

未知語音模式與已知語音模式逐一比較,最佳匹配的參考模式作為識別結(jié)果。識別步驟:學習訓練

分析語音特征參數(shù),建立模板庫;識別測試

按照一定的測度和準則與系統(tǒng)模型進行比較,通過判決得出結(jié)果;語音識別本質(zhì)就是模式識別13.2語音識別原理16語音識別原理模式匹配原理:

未知語音模式與已知語音模式逐17語音識別系統(tǒng)基本構(gòu)成特征提取訓練模式匹配識別語法模板結(jié)果語音說話人自適應13.2語音識別原理17語音識別系統(tǒng)基本構(gòu)成特征提取訓練模式匹配識別語法模板結(jié)果18語音識別系統(tǒng)舉例13.2語音識別原理18語音識別系統(tǒng)舉例13.2語音識別原理19

歐氏距離測度中幾個常見測度。①歐氏距離的均方誤差(常用)。

式中,xi為輸入信號的第i個k維矢量,yi為碼本中第i個k維矢量,d2(x,y)的下標2表示平方誤差。13.2語音識別原理19歐氏距離測度中幾個常見測度。13.2語音識別原20②r方平均誤差。13.2語音識別原理20②r方平均誤差。13.2語音識別21③r

平均誤差。13.2語音識別原理21③r平均誤差。13.2語音識別原22④絕對值平均誤差(常用)。13.2語音識別原理22④絕對值平均誤差(常用)。13.2語23⑤最大平均誤差(常用)。13.2語音識別原理23⑤最大平均誤差(常用)。13.2語音識別原理24預處理反混疊濾波;模/數(shù)轉(zhuǎn)換;自動增益控制;去除聲門激勵和口腔輻射;正確選擇識別單元;13.2語音識別原理語音識別原理框圖24預處理13.2語音識別原理語音識別原理框圖25特征提取從波形信號獲取一組描述語音信號特征的參數(shù);參數(shù)的好壞對識別精度影響很大;識別參數(shù):平均能量、過零率、頻譜、共振峰、倒譜、線性預測系數(shù)、HMM的概率函數(shù)、矢量量化的矢量……可以一種或多種參數(shù)并用;需要考慮參數(shù)的穩(wěn)定性、識別率、計算量等;對于漢語還存在聲調(diào)的提?。ǔ舳涡畔ⅲ?;13.2語音識別原理語音識別原理框圖25特征提取13.2語音識別原理語音識別原理框圖26距離測度:與特征提取相關(guān)的內(nèi)容則是特征間的距離測度。歐氏距離及其變形;對數(shù)似然比失真測度;加權(quán)超音段信息識別測度;HMM之間的距離測度;主觀感知距離測度;13.2語音識別原理語音識別原理框圖26距離測度:與特征提取相關(guān)的內(nèi)容則是特征間的距離測度。127參考模式庫聲學參數(shù)模板(訓練聚類得到的)訓練與識別方法動態(tài)時間規(guī)整(DTW):用輸入的待識別語音模式和預存的參考模式進行模式匹配矢量量化(VQ):基于信息論中信源編碼技術(shù)的識別。有限狀態(tài)矢量量化(FSVQ)HMM::以統(tǒng)計方法為依據(jù)進行識別時延神經(jīng)網(wǎng)絡(TDNN)模糊邏輯算法等13.2語音識別原理語音識別原理框圖27參考模式庫13.2語音識別原理語音識別原理框圖28DTW適合于識別特定人的基元較小的場合,多用于孤立詞的識別。DTW算法在匹配過程中比較細,因此計算量大。其缺點是太依賴于發(fā)音人的原來發(fā)音;發(fā)音人身體不好或發(fā)音時情緒緊張,都會影響識別率。它不能對樣本作動態(tài)訓練,不適用于非特定人的語音識別。HMM法既解決了短時模型描述平穩(wěn)段的信號問題,又解決了每個短時平穩(wěn)段是如何轉(zhuǎn)變到下一個短時平穩(wěn)段的問題。它使用Markov鏈來模擬信號的統(tǒng)計特性變化。HMM以大量訓練為基礎(chǔ),通過測算待識別語音的概率大小來識別語音。其算法適合于語音本身易變的特點適用于非特定人的語音識別,也適用于特定人的語音識別。13.2語音識別原理28DTW適合于識別特定人的基元較小的場合,多用于孤立詞的識29HMM原理較復雜,訓練計算量較大,但識別計算量遠小于DTW,識別率達到與DTW相同的水平。采用HMM進行語音識別,實質(zhì)上是一種概率運算。由于HMM中各狀態(tài)間的轉(zhuǎn)移概率和每個狀態(tài)下的輸出都是隨機的,所以這種模型能適應語音發(fā)音的各種微妙變化,使用起來比模式匹配法靈活得多。除訓練時運算量較大外,識別時的運算量只有模式匹配法的幾分之一。與模式匹配法相比,HMM是一種完全不同的概念。在模式匹配法中,參考樣本由事先存儲起來的模式充任,而HMM是將這一參考樣本用一個數(shù)學模型來表示,這就從概念上深化了一步。13.2語音識別原理2913.2語音識別原理30基于VQ的語音識別技術(shù)是20世紀80年代發(fā)展起來的,它可代替DTW完成動態(tài)匹配,而其存儲量和計算量都比較小。

VQ主要適用于小詞匯量、孤立詞的語音識別中。其過程是:將對欲處理的大量語音K維幀矢量通過統(tǒng)計實驗進行統(tǒng)計劃分,即將K維無限空間聚類劃分為M個區(qū)域邊界,每個區(qū)域邊界對應一個碼字,所有M個碼字構(gòu)成碼本。識別時,將輸入語音的K維幀矢量與已有的碼本中M個區(qū)域邊界比較,按失真測度最小準則找到與該輸入矢量距離最小的碼字標號來代替此輸入的K維矢量,這個對應的碼字即為識別結(jié)果,再對它進行K維重建就得到被識別的信號。13.2語音識別原理30基于VQ的語音識別技術(shù)是20世紀80年代發(fā)展起來的,它可31FSVQ是一種有記憶的多碼本的VQ技術(shù)。它不僅計算量小,而且適用于與上下文有關(guān)的語音識別。適合于特定人或非特定人、孤立詞或連續(xù)語音識別。LVQ(LearningVQ)即學習矢量量化,是由神經(jīng)網(wǎng)絡的并行分布來實現(xiàn)普通VQ的串行搜索,其運行速度遠高于VQ。LVQ是通過有監(jiān)督的學習來改進網(wǎng)絡對輸入矢量分類的正確率。LVQ2是對LVQ的改進,因為LVQ在某些情況下對模式識別的分類效果不夠穩(wěn)定。LVQ2是帶學習功能的矢量量化法,它在訓練時采用適應性法,在滿足一定條件的情況下,將錯誤的參考矢量移至離輸入矢量更遠些,而將正確的參考矢量移至離輸入矢量更近些,以此來提高識別率。13.2語音識別原理31FSVQ是一種有記憶的多碼本的VQ技術(shù)。它不僅計算量小,32專家知識庫存儲各種語言學知識;判決根據(jù)各種距離測度選擇適當?shù)拈T限值;檢驗結(jié)果識別率13.2語音識別原理語音識別原理框圖32專家知識庫13.2語音識別原理語音識別原理框圖33更一般的語音識別系統(tǒng)13.2語音識別原理33更一般的語音識別系統(tǒng)13.2語音識別原理34動態(tài)時間規(guī)整DTW動態(tài)時間規(guī)整DTW(dynamictimewarping)曾經(jīng)是語音識別的一種主流方法。其思路是:由于語音信號是一種具有相當大隨機性的信號,即使相同說話者對相同的詞,每一次發(fā)音的結(jié)果都是不同的,也不可能具有完全相同的時間長度。因此在與已存儲模型相匹配時,未知單詞的時間軸要不均勻地扭曲或彎折,以使其特征與模板特征對正。用時間規(guī)整手段對正是一種非常有力的措施,對提高系統(tǒng)的識別精度非常有效。動態(tài)時間規(guī)整DTW是一個典型的優(yōu)化問題,它用滿足一定條件的的時間規(guī)整函數(shù)W(n)描述輸入模板和參考模板的時間對應關(guān)系,求解兩模板匹配時累計距離最小所對應的規(guī)整函數(shù)。13.3動態(tài)時間規(guī)整34動態(tài)時間規(guī)整DTW13.3動態(tài)時間規(guī)整35DTW的基本思想:將時間規(guī)整與距離測度結(jié)合起來,采用動態(tài)規(guī)劃技術(shù),比較兩個大小不同的模式,解決語音識別中語速多變的難題;一種非線性時間規(guī)整模式匹配算法;13.3動態(tài)時間規(guī)整35DTW的基本思想:13.3動態(tài)時間規(guī)整36動態(tài)時間規(guī)整語音識別模式匹配的問題:時間對準同一個人在不同時刻說同一句話、發(fā)同一個音,也不可能具有完全相同的時間長度;語音的持續(xù)時間隨機改變,相對時長也隨機改變;端點檢測不準確;方法1:線性時間規(guī)整,均勻伸長或縮短依賴于端點檢測(經(jīng)常采用時域分析方法,進行檢測的主要依據(jù)是能量、振幅和過零率。);僅擴展時間軸無法精確對準;方法2:動態(tài)時間規(guī)整DTW-DynamicTimeWarping;60年代Itakura提出來的;13.3動態(tài)時間規(guī)整36動態(tài)時間規(guī)整語音識別模式匹配的問題:時間對準13.3動態(tài)37動態(tài)時間規(guī)整法jBiAjiOw(i)模板輸入37動態(tài)時間規(guī)整法jBiAjiOw(i)模板輸入38動態(tài)規(guī)劃算法基本思想是將待求解問題分解成若干個子問題動態(tài)規(guī)劃算法總體思想nT(n/2)T(n/2)T(n/2)T(n/2)T(n)=13.3動態(tài)時間規(guī)整38動態(tài)規(guī)劃算法基本思想是將待求解問題分解成若干個子問題動態(tài)39但是經(jīng)分解得到的子問題往往不是互相獨立的。不同子問題的數(shù)目常常只有多項式量級。求解時,有些子問題被重復計算了許多次。動態(tài)規(guī)劃算法總體思想nT(n)=n/2T(n/4)T(n/4)T(n/4)T(n/4)n/2T(n/4)T(n/4)T(n/4)T(n/4)n/2T(n/4)T(n/4)T(n/4)T(n/4)n/2T(n/4)T(n/4)T(n/4)T(n/4)13.3動態(tài)時間規(guī)整39但是經(jīng)分解得到的子問題往往不是互相獨立的。不同子問題的數(shù)40如果能夠保存已解決的子問題的答案,而在需要時再找出已求得的答案,就可以避免大量重復計算,從而得到多項式時間算法。動態(tài)規(guī)劃算法總體思想n=n/2T(n/4)T(n/4)T(n/4)T(n/4)n/2n/2T(n/4)T(n/4)n/2T(n/4)T(n/4)T(n/4)T(n/4)T(n/4)T(n)13.3動態(tài)時間規(guī)整40如果能夠保存已解決的子問題的答案,而在需要時再找出已求得41動態(tài)規(guī)劃基本步驟找出最優(yōu)解的性質(zhì),并刻劃其結(jié)構(gòu)特征。遞歸地定義最優(yōu)值。以自底向上的方式計算出最優(yōu)值。根據(jù)計算最優(yōu)值時得到的信息,構(gòu)造最優(yōu)解。13.3動態(tài)時間規(guī)整41動態(tài)規(guī)劃基本步驟找出最優(yōu)解的性質(zhì),并刻劃其結(jié)構(gòu)特征。1342動態(tài)時間規(guī)正法(DTW)的計算實例ck=(ik,jk)(ik,jk-1)(ik-1,jk)minFEDCBA1234RTg(i-1,j)+d(i,j)g(i-1,j-1)+2d(i,j)g(i,j-1)+d(i,j){DTW算法(部分優(yōu)化法)g(ck)=g(ik,jk)=g(i,j)=

D(T,R)=g(I,J)/(I+J)

42動態(tài)時間規(guī)正法(DTW)的計算實例ck=(ik,jk)43DTW方法的缺點DTW是用于與說話人有關(guān)(SpeakerDependent)的語音識別,使用者自行錄音然后再以自己的聲音來比對之前錄好的語音資料。此方法比較適合同一位說話人的聲音來進行比較,因此應用范圍比較狹隘,譬如目前手機

NameDialing等等。13.3動態(tài)時間規(guī)整43DTW方法的缺點DTW是用于與說話人有關(guān)(Speaker44DTW的問題:運算量大;識別性能過分依賴于端點檢測;太依賴于說話人的原來發(fā)音;不能對樣本作動態(tài)訓練;沒有充分利用語音信號的時序動態(tài)特性;DTW適合于特定人基元較小的場合,多用于孤立詞識別;13.3動態(tài)時間規(guī)整44DTW的問題:13.3動態(tài)時間規(guī)整45矢量量化矢量量化VQVectorQuantization是將K個(K>=2)樣值形成一個K維空間中的一個矢量,然后對此矢量進行一次量化,只傳輸或存儲矢量的地址.因此能大大地提高壓縮比.矢量量化總是優(yōu)于標量量化,這是因為矢量量化有效地利用了矢量中各分量間地四種相關(guān)性(線性依賴性,非線性依賴性,概率密度函數(shù)的形狀和矢量維數(shù))來去除多余度.矢量量化是標量量化的多維擴展.13.4有限狀態(tài)矢量量化技術(shù)45矢量量化矢量量化VQVectorQuantizati46矢量量化編解碼框圖13.4有限狀態(tài)矢量量化技術(shù)采用LBG算法(此名取Linde,Buzo,.Gray三人名字的開頭英文字母)46矢量量化編解碼框圖13.4有限狀態(tài)矢量量化技術(shù)采用LB47有限狀態(tài)矢量量化(FSVQ)每個狀態(tài)有一個編碼器、解碼器和碼本(仍然采用LBG算法)FSVQ的最大特點是有一個狀態(tài)轉(zhuǎn)移函數(shù);利用這個狀態(tài)轉(zhuǎn)移函數(shù),根據(jù)上一次狀態(tài)sn和上一次的編碼結(jié)果jn,來確定下一個編碼狀態(tài)sn+1。這個系統(tǒng)在不增加比特率的情況下,可以利用過去的信息來選擇合適的碼本進行編碼,因而其性能比一般的同維數(shù)的無記憶的矢量量化系統(tǒng)好得多,但是其存儲量增加了。13.4有限狀態(tài)矢量量化技術(shù)狀態(tài)轉(zhuǎn)移函數(shù)f(*,*)47有限狀態(tài)矢量量化(FSVQ)每個狀態(tài)有一個編碼器、解碼器48有限狀態(tài)矢量量化(FSVQ)FSVQ的設計方法仍然建立在LBG算法的基礎(chǔ)上,具體可分為三步:①各初始碼本的設計。②用訓練序列來獲得狀態(tài)轉(zhuǎn)移函數(shù)。③用迭代法逐步改進各碼本的功能。48有限狀態(tài)矢量量化(FSVQ)FSVQ的設計方法仍然建立在49FSVQ與APVQ及一般VQ的性能比較預測矢量量化(APVQ)49FSVQ與APVQ及一般VQ的性能比較預測矢量量化(505051隱Markov模型HMM語音是一隨機過程,每次發(fā)音時,我們可以得到一個幀矢量序列(稱為發(fā)現(xiàn)序列)X:X={x1,x2,…,xT}對同一詞的不同發(fā)音,X的幀數(shù)T和xi都在變化??梢钥醋魇窃撾S機過程模型的多次實現(xiàn)。從語音產(chǎn)生過程來看,可以想象為聲道沿不同位置轉(zhuǎn)移時,每一位置產(chǎn)生一隨機聲學輸出。可把各聲道位置想象為各個狀態(tài)Si,而發(fā)現(xiàn)序列可想象為在該狀態(tài)的一個隨機輸出Xi。這樣,語音的隨機過程可看作由兩個隨機過程構(gòu)成:狀態(tài)轉(zhuǎn)移的隨機過程;輸出的隨機過程。

13.4有限狀態(tài)矢量量化技術(shù)51隱Markov模型HMM13.4有限狀態(tài)矢量量化技術(shù)52基于HMM的識別系統(tǒng)13.4有限狀態(tài)矢量量化技術(shù)52基于HMM的識別系統(tǒng)13.4有限狀態(tài)矢量量化技術(shù)53孤立詞識別系統(tǒng)研究最早最成熟,實驗室識別率達95%以上;發(fā)音認真、單詞之間有停頓、端點檢測較易;前后單詞之間是孤立的,識別基礎(chǔ)建立在數(shù)學方法之上,不含“語言”知識;識別技術(shù)有:DTW(運算量較大,但技術(shù)上較簡單,識別正確率也較高);VQ(應用于特征處理可減少特征的類型從而減少計算量);HMM(路徑模型);混合技術(shù)(VQ/HMM);實驗表明,在與講話者無關(guān)的孤立詞語音識別中,連續(xù)HMM的正識率已達到DTW的水平,而其所要求的存貯量和計算時間卻要小一個數(shù)量級。13.5孤立詞識別系統(tǒng)53孤立詞識別系統(tǒng)研究最早最成熟,實驗室識別率達95%以上;54識別系統(tǒng)的結(jié)構(gòu)孤立詞識別的三個目標:擴大詞匯量、提高識別精度、降低計算復雜度詞表中每個詞對應一個參考模式。它是由這個詞重復發(fā)音多遍,再經(jīng)特征提取和某種訓練算法得到的。孤立詞的發(fā)音,詞與詞之間要有足夠的時間間隙,以便能夠檢測到首末點。語聲學分析部分主要是抽取語音特征信息。語音經(jīng)過預處理后,要進行特征提取。特征提取一般要解決兩個問題:一是從語音信號中提取(或測量)具有代表性的合適的特征參數(shù);另一個是進行適當?shù)臄?shù)據(jù)壓縮。常用的特征參數(shù)以短時譜、倒譜和線性預測系數(shù)用得最多。

13.5孤立詞識別系統(tǒng)54識別系統(tǒng)的結(jié)構(gòu)孤立詞識別的三個目標:擴大詞匯量、提高識別55連續(xù)語音識別比孤立詞識別難:選擇詞或詞以上單元作為識別單位,模版數(shù)目太大;選擇音節(jié)或音素為識別單位,無法回避協(xié)同發(fā)音的問題(同一音素發(fā)音隨上下文而變化);語音的多變性;突破:20世紀90年代以后,全盤采用HMM統(tǒng)一框架,構(gòu)筑聲學/語音層、詞層和句法層3層識別系統(tǒng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論