語音信號處理實(shí)用教程-課件第12章-語音識_第1頁
語音信號處理實(shí)用教程-課件第12章-語音識_第2頁
語音信號處理實(shí)用教程-課件第12章-語音識_第3頁
語音信號處理實(shí)用教程-課件第12章-語音識_第4頁
語音信號處理實(shí)用教程-課件第12章-語音識_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1第13章語音識別1第13章語音識別2內(nèi)容提要13.1概述13.2語音識別原理13.3動態(tài)時間規(guī)整13.4有限狀態(tài)矢量量化技術(shù)13.4.1FSVQ原理及FSVQ聲碼器13.4.2FSVQ語音識別器13.5孤立詞識別系統(tǒng)13.6連續(xù)語音識別13.6.1連續(xù)語音識別中存在的困難13.6.2連續(xù)語音識別的訓(xùn)練及識別方法13.6.3基于HMM統(tǒng)一框架的大詞匯量非特定人連續(xù)語音識別2內(nèi)容提要13.1概述3語音識別(SpeechRecognition)

讓機(jī)器聽懂人說話語音識別應(yīng)用-人機(jī)交互:語音打字機(jī)(聽寫機(jī),鍵盤輸入的3-4倍);電話查詢自動應(yīng)答系統(tǒng)(語音界面);語音命令的控制系統(tǒng)(釋放手腳);交叉學(xué)科:計算機(jī)、通信、語音語言學(xué)、數(shù)理統(tǒng)計、信號處理、神經(jīng)生理心理、人工智能等13.1概述3語音識別(SpeechRecognition)

讓機(jī)器聽4語音識別歷史發(fā)展50年代-AT&TBellLab,可識別10個英文數(shù)字60年代-LP較好地解決了語音信號產(chǎn)生模型,DP則有效解決了不等長語音的匹配問題。70年代-DTW(DynamicTimeWarp)技術(shù)基本成熟,VQ和HMM理論;實(shí)現(xiàn)了基于LPC和DTW技術(shù)相結(jié)合的特定人孤立語音識別系統(tǒng)。80年代-HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語音識別中成功應(yīng)用。1988年美國CMU大學(xué)基于VQ/HMM開發(fā)SI-CSR系統(tǒng)SPHINX。90年代-大規(guī)模應(yīng)用,工業(yè)標(biāo)準(zhǔn),理論進(jìn)展緩慢13.1概述4語音識別歷史發(fā)展50年代-AT&TBellLab,可識5語音識別的發(fā)展現(xiàn)狀從理論到產(chǎn)品走過了50多個春秋;現(xiàn)有很多實(shí)際應(yīng)用系統(tǒng);有可能成為下一代操作系統(tǒng)和應(yīng)用程序的用戶界面;遠(yuǎn)沒有達(dá)到計算機(jī)與人類自然交流的終極目標(biāo);實(shí)用的語音識別技術(shù)研究極具市場價值和挑戰(zhàn);重點(diǎn):大詞匯、非特定人、連續(xù)語音識別13.1概述5語音識別的發(fā)展現(xiàn)狀13.1概述6語音識別方法:模版匹配法:特定人、小詞匯、孤立人識別系統(tǒng)。就是將測試語音與模板的參數(shù)一一進(jìn)行比較與匹配,判決的依據(jù)是失真測度最小準(zhǔn)則。隨機(jī)模型法:主流,HMM使用HMM的概率參數(shù)來對似然函數(shù)進(jìn)行估計與判決,從而得到識別結(jié)果的方法。由于HMM具有狀態(tài)函數(shù),所以這個方法可以利用語音頻譜的內(nèi)在變化(如講話速度、不同講話者特性等)和它們的相關(guān)性(記憶性)。

語音:從一個相對穩(wěn)定的狀態(tài)過渡到另一個狀態(tài)概率語法分析法:區(qū)別性特征+(語法、語義、語用)規(guī)則+知識基于ANN(人工神經(jīng)網(wǎng)絡(luò))的方法、基于模糊數(shù)學(xué)的方法、句法語音識別等

13.1概述6語音識別方法:13.1概述7漢語語音識別與其他語言沒有本質(zhì)區(qū)別;漢語的特點(diǎn)使其識別難度更大;語音理解:在識別語音底層的基礎(chǔ)上,利用語言學(xué)、詞法學(xué)、句法學(xué)、語義學(xué)、語用學(xué)、對話模型等知識,確定其語音信號的自然語音級在一定的語言環(huán)境下的意圖信息。以識別為基礎(chǔ),區(qū)別于識別;識別在于“聽清”其語音學(xué)級的內(nèi)容;理解在于“明白”其語言學(xué)級的內(nèi)容;13.1概述7漢語語音識別13.1概述8語音識別系統(tǒng)的分類:孤立詞、選詞語音識別、連續(xù)語音識別、

語音理解(在識別的基礎(chǔ)上用語言學(xué)知識推斷語音含義)、會話語音識別(書寫語音識別)大詞匯、中詞匯、小詞匯語音識別系統(tǒng)

單個說話人(speaker)識別系統(tǒng)、多個說話人、與說話人無關(guān)的系統(tǒng)(特定人與非特定人)13.1概述8語音識別系統(tǒng)的分類:13.1概述9語音識別技術(shù)面臨的問題數(shù)據(jù)資源(年齡、性別、語言、方言、主題、情緒、地域……切分、標(biāo)注體系)抗噪性能(背景噪聲、信道噪聲、干擾)協(xié)同發(fā)音(Co-articulation)口語現(xiàn)象(重復(fù)、頓措、語序顛倒……)說話人變異(口音、情緒、年齡……)聽覺機(jī)理(音量、頻率、抗噪、區(qū)分……)…………13.1概述9語音識別技術(shù)面臨的問題數(shù)據(jù)資源(年齡、性別、語言、方言、10語音識別系統(tǒng)典型系統(tǒng)IBMViaVoice聽寫機(jī)AT&TVRCP系統(tǒng)(自助話務(wù)員協(xié)助呼叫)NTTANSER語音識別銀行服務(wù)系統(tǒng)SONYAIBO機(jī)器狗13.1概述10語音識別系統(tǒng)典型系統(tǒng)13.1概述11語音識別應(yīng)用價值信息查詢(股票、天氣、航班……)人機(jī)界面(新一代操作系統(tǒng)、智能家居)聽寫機(jī)(文字輸入、記錄)數(shù)據(jù)庫管理(語音檢索)……語音識別(提取或匹配語義)、語音壓縮(高效存儲、傳輸語音信號)、語音合成(輸出自然可懂的語音信號)、語音增強(qiáng)(提高信噪比、加重語音成分)息息相關(guān)。說話人識別(安全應(yīng)用)關(guān)鍵詞檢出(多媒體數(shù)據(jù)檢索)……13.1概述11語音識別應(yīng)用價值信息查詢(股票、天氣、航班……)13.112語音識別的性能評價原句:我們明天去天安門識別:我×

明后天去天壇

×刪除錯誤Deletion插入錯誤Insertion替換錯誤Substitution正確率:

準(zhǔn)確率:

13.1概述12語音識別的性能評價原句:我們明天13

語音產(chǎn)生語音理解生理過程13

語音產(chǎn)生語音理解生理過程14

語音識別層次模型14

語音識別層次模型15

統(tǒng)一層次模型

——系統(tǒng)設(shè)計15

統(tǒng)一層次模型

——系統(tǒng)設(shè)計16語音識別原理模式匹配原理:

未知語音模式與已知語音模式逐一比較,最佳匹配的參考模式作為識別結(jié)果。識別步驟:學(xué)習(xí)訓(xùn)練

分析語音特征參數(shù),建立模板庫;識別測試

按照一定的測度和準(zhǔn)則與系統(tǒng)模型進(jìn)行比較,通過判決得出結(jié)果;語音識別本質(zhì)就是模式識別13.2語音識別原理16語音識別原理模式匹配原理:

未知語音模式與已知語音模式逐17語音識別系統(tǒng)基本構(gòu)成特征提取訓(xùn)練模式匹配識別語法模板結(jié)果語音說話人自適應(yīng)13.2語音識別原理17語音識別系統(tǒng)基本構(gòu)成特征提取訓(xùn)練模式匹配識別語法模板結(jié)果18語音識別系統(tǒng)舉例13.2語音識別原理18語音識別系統(tǒng)舉例13.2語音識別原理19

歐氏距離測度中幾個常見測度。①歐氏距離的均方誤差(常用)。

式中,xi為輸入信號的第i個k維矢量,yi為碼本中第i個k維矢量,d2(x,y)的下標(biāo)2表示平方誤差。13.2語音識別原理19歐氏距離測度中幾個常見測度。13.2語音識別原20②r方平均誤差。13.2語音識別原理20②r方平均誤差。13.2語音識別21③r

平均誤差。13.2語音識別原理21③r平均誤差。13.2語音識別原22④絕對值平均誤差(常用)。13.2語音識別原理22④絕對值平均誤差(常用)。13.2語23⑤最大平均誤差(常用)。13.2語音識別原理23⑤最大平均誤差(常用)。13.2語音識別原理24預(yù)處理反混疊濾波;模/數(shù)轉(zhuǎn)換;自動增益控制;去除聲門激勵和口腔輻射;正確選擇識別單元;13.2語音識別原理語音識別原理框圖24預(yù)處理13.2語音識別原理語音識別原理框圖25特征提取從波形信號獲取一組描述語音信號特征的參數(shù);參數(shù)的好壞對識別精度影響很大;識別參數(shù):平均能量、過零率、頻譜、共振峰、倒譜、線性預(yù)測系數(shù)、HMM的概率函數(shù)、矢量量化的矢量……可以一種或多種參數(shù)并用;需要考慮參數(shù)的穩(wěn)定性、識別率、計算量等;對于漢語還存在聲調(diào)的提取(超音段信息);13.2語音識別原理語音識別原理框圖25特征提取13.2語音識別原理語音識別原理框圖26距離測度:與特征提取相關(guān)的內(nèi)容則是特征間的距離測度。歐氏距離及其變形;對數(shù)似然比失真測度;加權(quán)超音段信息識別測度;HMM之間的距離測度;主觀感知距離測度;13.2語音識別原理語音識別原理框圖26距離測度:與特征提取相關(guān)的內(nèi)容則是特征間的距離測度。127參考模式庫聲學(xué)參數(shù)模板(訓(xùn)練聚類得到的)訓(xùn)練與識別方法動態(tài)時間規(guī)整(DTW):用輸入的待識別語音模式和預(yù)存的參考模式進(jìn)行模式匹配矢量量化(VQ):基于信息論中信源編碼技術(shù)的識別。有限狀態(tài)矢量量化(FSVQ)HMM::以統(tǒng)計方法為依據(jù)進(jìn)行識別時延神經(jīng)網(wǎng)絡(luò)(TDNN)模糊邏輯算法等13.2語音識別原理語音識別原理框圖27參考模式庫13.2語音識別原理語音識別原理框圖28DTW適合于識別特定人的基元較小的場合,多用于孤立詞的識別。DTW算法在匹配過程中比較細(xì),因此計算量大。其缺點(diǎn)是太依賴于發(fā)音人的原來發(fā)音;發(fā)音人身體不好或發(fā)音時情緒緊張,都會影響識別率。它不能對樣本作動態(tài)訓(xùn)練,不適用于非特定人的語音識別。HMM法既解決了短時模型描述平穩(wěn)段的信號問題,又解決了每個短時平穩(wěn)段是如何轉(zhuǎn)變到下一個短時平穩(wěn)段的問題。它使用Markov鏈來模擬信號的統(tǒng)計特性變化。HMM以大量訓(xùn)練為基礎(chǔ),通過測算待識別語音的概率大小來識別語音。其算法適合于語音本身易變的特點(diǎn)適用于非特定人的語音識別,也適用于特定人的語音識別。13.2語音識別原理28DTW適合于識別特定人的基元較小的場合,多用于孤立詞的識29HMM原理較復(fù)雜,訓(xùn)練計算量較大,但識別計算量遠(yuǎn)小于DTW,識別率達(dá)到與DTW相同的水平。采用HMM進(jìn)行語音識別,實(shí)質(zhì)上是一種概率運(yùn)算。由于HMM中各狀態(tài)間的轉(zhuǎn)移概率和每個狀態(tài)下的輸出都是隨機(jī)的,所以這種模型能適應(yīng)語音發(fā)音的各種微妙變化,使用起來比模式匹配法靈活得多。除訓(xùn)練時運(yùn)算量較大外,識別時的運(yùn)算量只有模式匹配法的幾分之一。與模式匹配法相比,HMM是一種完全不同的概念。在模式匹配法中,參考樣本由事先存儲起來的模式充任,而HMM是將這一參考樣本用一個數(shù)學(xué)模型來表示,這就從概念上深化了一步。13.2語音識別原理2913.2語音識別原理30基于VQ的語音識別技術(shù)是20世紀(jì)80年代發(fā)展起來的,它可代替DTW完成動態(tài)匹配,而其存儲量和計算量都比較小。

VQ主要適用于小詞匯量、孤立詞的語音識別中。其過程是:將對欲處理的大量語音K維幀矢量通過統(tǒng)計實(shí)驗(yàn)進(jìn)行統(tǒng)計劃分,即將K維無限空間聚類劃分為M個區(qū)域邊界,每個區(qū)域邊界對應(yīng)一個碼字,所有M個碼字構(gòu)成碼本。識別時,將輸入語音的K維幀矢量與已有的碼本中M個區(qū)域邊界比較,按失真測度最小準(zhǔn)則找到與該輸入矢量距離最小的碼字標(biāo)號來代替此輸入的K維矢量,這個對應(yīng)的碼字即為識別結(jié)果,再對它進(jìn)行K維重建就得到被識別的信號。13.2語音識別原理30基于VQ的語音識別技術(shù)是20世紀(jì)80年代發(fā)展起來的,它可31FSVQ是一種有記憶的多碼本的VQ技術(shù)。它不僅計算量小,而且適用于與上下文有關(guān)的語音識別。適合于特定人或非特定人、孤立詞或連續(xù)語音識別。LVQ(LearningVQ)即學(xué)習(xí)矢量量化,是由神經(jīng)網(wǎng)絡(luò)的并行分布來實(shí)現(xiàn)普通VQ的串行搜索,其運(yùn)行速度遠(yuǎn)高于VQ。LVQ是通過有監(jiān)督的學(xué)習(xí)來改進(jìn)網(wǎng)絡(luò)對輸入矢量分類的正確率。LVQ2是對LVQ的改進(jìn),因?yàn)長VQ在某些情況下對模式識別的分類效果不夠穩(wěn)定。LVQ2是帶學(xué)習(xí)功能的矢量量化法,它在訓(xùn)練時采用適應(yīng)性法,在滿足一定條件的情況下,將錯誤的參考矢量移至離輸入矢量更遠(yuǎn)些,而將正確的參考矢量移至離輸入矢量更近些,以此來提高識別率。13.2語音識別原理31FSVQ是一種有記憶的多碼本的VQ技術(shù)。它不僅計算量小,32專家知識庫存儲各種語言學(xué)知識;判決根據(jù)各種距離測度選擇適當(dāng)?shù)拈T限值;檢驗(yàn)結(jié)果識別率13.2語音識別原理語音識別原理框圖32專家知識庫13.2語音識別原理語音識別原理框圖33更一般的語音識別系統(tǒng)13.2語音識別原理33更一般的語音識別系統(tǒng)13.2語音識別原理34動態(tài)時間規(guī)整DTW動態(tài)時間規(guī)整DTW(dynamictimewarping)曾經(jīng)是語音識別的一種主流方法。其思路是:由于語音信號是一種具有相當(dāng)大隨機(jī)性的信號,即使相同說話者對相同的詞,每一次發(fā)音的結(jié)果都是不同的,也不可能具有完全相同的時間長度。因此在與已存儲模型相匹配時,未知單詞的時間軸要不均勻地扭曲或彎折,以使其特征與模板特征對正。用時間規(guī)整手段對正是一種非常有力的措施,對提高系統(tǒng)的識別精度非常有效。動態(tài)時間規(guī)整DTW是一個典型的優(yōu)化問題,它用滿足一定條件的的時間規(guī)整函數(shù)W(n)描述輸入模板和參考模板的時間對應(yīng)關(guān)系,求解兩模板匹配時累計距離最小所對應(yīng)的規(guī)整函數(shù)。13.3動態(tài)時間規(guī)整34動態(tài)時間規(guī)整DTW13.3動態(tài)時間規(guī)整35DTW的基本思想:將時間規(guī)整與距離測度結(jié)合起來,采用動態(tài)規(guī)劃技術(shù),比較兩個大小不同的模式,解決語音識別中語速多變的難題;一種非線性時間規(guī)整模式匹配算法;13.3動態(tài)時間規(guī)整35DTW的基本思想:13.3動態(tài)時間規(guī)整36動態(tài)時間規(guī)整語音識別模式匹配的問題:時間對準(zhǔn)同一個人在不同時刻說同一句話、發(fā)同一個音,也不可能具有完全相同的時間長度;語音的持續(xù)時間隨機(jī)改變,相對時長也隨機(jī)改變;端點(diǎn)檢測不準(zhǔn)確;方法1:線性時間規(guī)整,均勻伸長或縮短依賴于端點(diǎn)檢測(經(jīng)常采用時域分析方法,進(jìn)行檢測的主要依據(jù)是能量、振幅和過零率。);僅擴(kuò)展時間軸無法精確對準(zhǔn);方法2:動態(tài)時間規(guī)整DTW-DynamicTimeWarping;60年代Itakura提出來的;13.3動態(tài)時間規(guī)整36動態(tài)時間規(guī)整語音識別模式匹配的問題:時間對準(zhǔn)13.3動態(tài)37動態(tài)時間規(guī)整法jBiAjiOw(i)模板輸入37動態(tài)時間規(guī)整法jBiAjiOw(i)模板輸入38動態(tài)規(guī)劃算法基本思想是將待求解問題分解成若干個子問題動態(tài)規(guī)劃算法總體思想nT(n/2)T(n/2)T(n/2)T(n/2)T(n)=13.3動態(tài)時間規(guī)整38動態(tài)規(guī)劃算法基本思想是將待求解問題分解成若干個子問題動態(tài)39但是經(jīng)分解得到的子問題往往不是互相獨(dú)立的。不同子問題的數(shù)目常常只有多項(xiàng)式量級。求解時,有些子問題被重復(fù)計算了許多次。動態(tài)規(guī)劃算法總體思想nT(n)=n/2T(n/4)T(n/4)T(n/4)T(n/4)n/2T(n/4)T(n/4)T(n/4)T(n/4)n/2T(n/4)T(n/4)T(n/4)T(n/4)n/2T(n/4)T(n/4)T(n/4)T(n/4)13.3動態(tài)時間規(guī)整39但是經(jīng)分解得到的子問題往往不是互相獨(dú)立的。不同子問題的數(shù)40如果能夠保存已解決的子問題的答案,而在需要時再找出已求得的答案,就可以避免大量重復(fù)計算,從而得到多項(xiàng)式時間算法。動態(tài)規(guī)劃算法總體思想n=n/2T(n/4)T(n/4)T(n/4)T(n/4)n/2n/2T(n/4)T(n/4)n/2T(n/4)T(n/4)T(n/4)T(n/4)T(n/4)T(n)13.3動態(tài)時間規(guī)整40如果能夠保存已解決的子問題的答案,而在需要時再找出已求得41動態(tài)規(guī)劃基本步驟找出最優(yōu)解的性質(zhì),并刻劃其結(jié)構(gòu)特征。遞歸地定義最優(yōu)值。以自底向上的方式計算出最優(yōu)值。根據(jù)計算最優(yōu)值時得到的信息,構(gòu)造最優(yōu)解。13.3動態(tài)時間規(guī)整41動態(tài)規(guī)劃基本步驟找出最優(yōu)解的性質(zhì),并刻劃其結(jié)構(gòu)特征。1342動態(tài)時間規(guī)正法(DTW)的計算實(shí)例ck=(ik,jk)(ik,jk-1)(ik-1,jk)minFEDCBA1234RTg(i-1,j)+d(i,j)g(i-1,j-1)+2d(i,j)g(i,j-1)+d(i,j){DTW算法(部分優(yōu)化法)g(ck)=g(ik,jk)=g(i,j)=

D(T,R)=g(I,J)/(I+J)

42動態(tài)時間規(guī)正法(DTW)的計算實(shí)例ck=(ik,jk)43DTW方法的缺點(diǎn)DTW是用于與說話人有關(guān)(SpeakerDependent)的語音識別,使用者自行錄音然后再以自己的聲音來比對之前錄好的語音資料。此方法比較適合同一位說話人的聲音來進(jìn)行比較,因此應(yīng)用范圍比較狹隘,譬如目前手機(jī)

NameDialing等等。13.3動態(tài)時間規(guī)整43DTW方法的缺點(diǎn)DTW是用于與說話人有關(guān)(Speaker44DTW的問題:運(yùn)算量大;識別性能過分依賴于端點(diǎn)檢測;太依賴于說話人的原來發(fā)音;不能對樣本作動態(tài)訓(xùn)練;沒有充分利用語音信號的時序動態(tài)特性;DTW適合于特定人基元較小的場合,多用于孤立詞識別;13.3動態(tài)時間規(guī)整44DTW的問題:13.3動態(tài)時間規(guī)整45矢量量化矢量量化VQVectorQuantization是將K個(K>=2)樣值形成一個K維空間中的一個矢量,然后對此矢量進(jìn)行一次量化,只傳輸或存儲矢量的地址.因此能大大地提高壓縮比.矢量量化總是優(yōu)于標(biāo)量量化,這是因?yàn)槭噶苛炕行У乩昧耸噶恐懈鞣至块g地四種相關(guān)性(線性依賴性,非線性依賴性,概率密度函數(shù)的形狀和矢量維數(shù))來去除多余度.矢量量化是標(biāo)量量化的多維擴(kuò)展.13.4有限狀態(tài)矢量量化技術(shù)45矢量量化矢量量化VQVectorQuantizati46矢量量化編解碼框圖13.4有限狀態(tài)矢量量化技術(shù)采用LBG算法(此名取Linde,Buzo,.Gray三人名字的開頭英文字母)46矢量量化編解碼框圖13.4有限狀態(tài)矢量量化技術(shù)采用LB47有限狀態(tài)矢量量化(FSVQ)每個狀態(tài)有一個編碼器、解碼器和碼本(仍然采用LBG算法)FSVQ的最大特點(diǎn)是有一個狀態(tài)轉(zhuǎn)移函數(shù);利用這個狀態(tài)轉(zhuǎn)移函數(shù),根據(jù)上一次狀態(tài)sn和上一次的編碼結(jié)果jn,來確定下一個編碼狀態(tài)sn+1。這個系統(tǒng)在不增加比特率的情況下,可以利用過去的信息來選擇合適的碼本進(jìn)行編碼,因而其性能比一般的同維數(shù)的無記憶的矢量量化系統(tǒng)好得多,但是其存儲量增加了。13.4有限狀態(tài)矢量量化技術(shù)狀態(tài)轉(zhuǎn)移函數(shù)f(*,*)47有限狀態(tài)矢量量化(FSVQ)每個狀態(tài)有一個編碼器、解碼器48有限狀態(tài)矢量量化(FSVQ)FSVQ的設(shè)計方法仍然建立在LBG算法的基礎(chǔ)上,具體可分為三步:①各初始碼本的設(shè)計。②用訓(xùn)練序列來獲得狀態(tài)轉(zhuǎn)移函數(shù)。③用迭代法逐步改進(jìn)各碼本的功能。48有限狀態(tài)矢量量化(FSVQ)FSVQ的設(shè)計方法仍然建立在49FSVQ與APVQ及一般VQ的性能比較預(yù)測矢量量化(APVQ)49FSVQ與APVQ及一般VQ的性能比較預(yù)測矢量量化(505051隱Markov模型HMM語音是一隨機(jī)過程,每次發(fā)音時,我們可以得到一個幀矢量序列(稱為發(fā)現(xiàn)序列)X:X={x1,x2,…,xT}對同一詞的不同發(fā)音,X的幀數(shù)T和xi都在變化。可以看作是該隨機(jī)過程模型的多次實(shí)現(xiàn)。從語音產(chǎn)生過程來看,可以想象為聲道沿不同位置轉(zhuǎn)移時,每一位置產(chǎn)生一隨機(jī)聲學(xué)輸出。可把各聲道位置想象為各個狀態(tài)Si,而發(fā)現(xiàn)序列可想象為在該狀態(tài)的一個隨機(jī)輸出Xi。這樣,語音的隨機(jī)過程可看作由兩個隨機(jī)過程構(gòu)成:狀態(tài)轉(zhuǎn)移的隨機(jī)過程;輸出的隨機(jī)過程。

13.4有限狀態(tài)矢量量化技術(shù)51隱Markov模型HMM13.4有限狀態(tài)矢量量化技術(shù)52基于HMM的識別系統(tǒng)13.4有限狀態(tài)矢量量化技術(shù)52基于HMM的識別系統(tǒng)13.4有限狀態(tài)矢量量化技術(shù)53孤立詞識別系統(tǒng)研究最早最成熟,實(shí)驗(yàn)室識別率達(dá)95%以上;發(fā)音認(rèn)真、單詞之間有停頓、端點(diǎn)檢測較易;前后單詞之間是孤立的,識別基礎(chǔ)建立在數(shù)學(xué)方法之上,不含“語言”知識;識別技術(shù)有:DTW(運(yùn)算量較大,但技術(shù)上較簡單,識別正確率也較高);VQ(應(yīng)用于特征處理可減少特征的類型從而減少計算量);HMM(路徑模型);混合技術(shù)(VQ/HMM);實(shí)驗(yàn)表明,在與講話者無關(guān)的孤立詞語音識別中,連續(xù)HMM的正識率已達(dá)到DTW的水平,而其所要求的存貯量和計算時間卻要小一個數(shù)量級。13.5孤立詞識別系統(tǒng)53孤立詞識別系統(tǒng)研究最早最成熟,實(shí)驗(yàn)室識別率達(dá)95%以上;54識別系統(tǒng)的結(jié)構(gòu)孤立詞識別的三個目標(biāo):擴(kuò)大詞匯量、提高識別精度、降低計算復(fù)雜度詞表中每個詞對應(yīng)一個參考模式。它是由這個詞重復(fù)發(fā)音多遍,再經(jīng)特征提取和某種訓(xùn)練算法得到的。孤立詞的發(fā)音,詞與詞之間要有足夠的時間間隙,以便能夠檢測到首末點(diǎn)。語聲學(xué)分析部分主要是抽取語音特征信息。語音經(jīng)過預(yù)處理后,要進(jìn)行特征提取。特征提取一般要解決兩個問題:一是從語音信號中提取(或測量)具有代表性的合適的特征參數(shù);另一個是進(jìn)行適當(dāng)?shù)臄?shù)據(jù)壓縮。常用的特征參數(shù)以短時譜、倒譜和線性預(yù)測系數(shù)用得最多。

13.5孤立詞識別系統(tǒng)54識別系統(tǒng)的結(jié)構(gòu)孤立詞識別的三個目標(biāo):擴(kuò)大詞匯量、提高識別55連續(xù)語音識別比孤立詞識別難:選擇詞或詞以上單元作為識別單位,模版數(shù)目太大;選擇音節(jié)或音素為識別單位,無法回避協(xié)同發(fā)音的問題(同一音素發(fā)音隨上下文而變化);語音的多變性;突破:20世紀(jì)90年代以后,全盤采用HMM統(tǒng)一框架,構(gòu)筑聲學(xué)/語音層、詞層和句法層3層識別系統(tǒng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論