小波去噪語音識別_第1頁
小波去噪語音識別_第2頁
小波去噪語音識別_第3頁
小波去噪語音識別_第4頁
小波去噪語音識別_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

小波去噪語音識別第一頁,共三十二頁,2022年,8月28日摘要:語音作為一個交叉學科,具有深遠的研究價值,近50年的研究發(fā)展,語音識別技術已經有了極大的發(fā)展,但大多數產品能存在與實驗室,沒有達到使用化的效果,所以語音識別的研究還要更加深入。本為主要闡述了小波變換在語音信號去噪的應用,語音端點的檢測,語音特征的提取及一種簡單的語音識別算法。第二頁,共三十二頁,2022年,8月28日引言語音識別系統(tǒng)構成語音信號的小波去噪語音信號的端點檢測語音特征的提取基于DTW的語音識別算法實驗結果及分析第三頁,共三十二頁,2022年,8月28日

讓計算機能聽懂人類的語言,是人類自計算機誕生以來夢寐以求的想法。隨著計算機越來越向便攜化方向發(fā)展,隨著計算環(huán)境的日趨復雜化,人們越來越迫切要求擺脫鍵盤的束縛而代之以語音輸入這樣便于使用的、自然的、人性化的輸入方式。尤其是漢語,它的漢字輸入一直是計算機應用普及的障礙,因此,利用漢語語音進行人機交互是一個極其重要的研究課題。它正在直接與辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)的語音咨詢與管理,工業(yè)生產部門的語聲控制,電話、電信系統(tǒng)的自動撥號、輔助控制與查詢,以及醫(yī)療衛(wèi)生和福利事業(yè)的生活支援系統(tǒng)等各種實際應用領域相接軌,并且有望成為下一代操作系統(tǒng)和應用程序的用戶界面了。第四頁,共三十二頁,2022年,8月28日前端處理包括語音的錄入、處理、特征值的提取后端是個夸數據庫的搜索過程,分為訓練和識別訓練是對所建的模型進行評估、匹配、優(yōu)化,獲得模型參數識別是一個專用的搜索數據庫第五頁,共三十二頁,2022年,8月28日獲取前端數值后,有聲學模型、一個語言模型和一個字典,聲學模型表示一種語言的發(fā)音聲音,可以通過訓練來識別特定用戶的語音模型和發(fā)音環(huán)境的特征,語言模型是對語料庫單詞規(guī)則化的概率模型。字典列出了大量的單詞及發(fā)音規(guī)則。總體上說,語音識別是一個模式識別匹配的過程。在這個過程中,計算機首先要根據人的語音特點建立語音模型,對輸入的語音信號進行分析,并抽取所需的特征,在此基礎上建立語音識別所需的模板。然后,在識別過程中,計算機根據語音識別的整體模型,將計算機中已經存有的語音模板與輸入語音信號的特征進行比較,并根據一定的搜索和匹配策略找出一系列最優(yōu)的與輸入語音匹配的模板。最后通過查表和判決算法給出識別結果。顯然,識別結果與語音特征的選擇、語音模型和語言模型的好壞、模板是否準確等都有直接的關系。第六頁,共三十二頁,2022年,8月28日語音去噪技術是語音信號處理的一個重要分支,它在解決噪聲污染、改進語音質量、提高語音可懂度等方面發(fā)揮著越來越重要的作用。當噪聲與語音的頻譜相似時,傳統(tǒng)的單純時域或頻域處理往往無法達到很好的效果。小波變換是一種多尺度的信號分析方法,是分析非平穩(wěn)信號的有力工具。它克服了短時傅里葉變換固定分辨率的弱點,既可以分析信號的概貌,又可以分析信號的細節(jié)。利用小波變換實現信號去噪,具有很好的效果。小波閾值去噪方法是實現最簡單、計算量最小的一種方法,因而得到了最廣泛的應用第七頁,共三十二頁,2022年,8月28日第八頁,共三十二頁,2022年,8月28日

設ψ(t)∈L2(R)(L2(R)表示平方可積的實數空間,即能量有限的信號空間),其傅立葉變換為ψ(ω)。當ψ(ω)滿足允許條件:時,我們稱ψ(t)為一個基本小波或母小波,將母函數ψ(t)經伸縮或平移后,就可以得到一個小波序列。第九頁,共三十二頁,2022年,8月28日對于連續(xù)的情況,小波序列為

其中a為伸縮因子,b為平移因子。對于離散的情況,小波序列為

對于任意的函數f(t)∈L2(R)的連續(xù)小波變換為,第十頁,共三十二頁,2022年,8月28日

小波去噪方法大致可分為三類,第一類是基于小波變換模極大值原理進行去噪;第二類是對含噪聲信號作小波變換之后,計算相鄰尺度間小波系數的相關性,根據相關性區(qū)別小波系數的類型;第三類是閾值去噪。閾值去噪即對小波系數設置閾值,在眾多小波系數中,把絕對值較小的系數置為零,而讓絕對值較大的系數保留或收縮,然后對閾值處理后的系數進行小波逆變換,直接進行信號重構,即可達到去噪的目的。

小波閾值去噪的主要理論依據為:信號在小波域內其能量主要集中在有限的幾個系數中,而噪聲的能量卻分布于整個小波域內。因此經小波分解后,信號的小波變換系數要大于噪聲的小波變換系數。于是可以找到一個合適的數作為閾值,當小波系數小于該閾值時,認為這時的小波系數主要是由噪聲引起的;當小波系數大于該閾值時,則認為其主要是由信號引起的。選擇一個合適的閾值,對小波系數進行閾值處理,就可以達到去除噪聲而保留有用信號的目的。第十一頁,共三十二頁,2022年,8月28日實驗中通過改進matlab系統(tǒng)函數ddencmp求解得閾值,并對閾值進行了一定修改,由于實驗中閾值很小,在經過多次比較后,決定把已經求得的閾值thr+0.3作為重建小波的閾值。含高斯白噪聲的隨機信號去噪后的信號對于簡單的直接加入高斯噪聲的信號,去噪效果還是比較理想的,但在具體實驗中,環(huán)境變量等其他因素引起的噪聲情況比較復雜,效果并沒有以上明顯??疾熘饕蛩剡€是閾值的確定存在缺陷,故還應在閾值函數上多加改進第十二頁,共三十二頁,2022年,8月28日語音信號的端點識別是語音處理和語音識別的基礎,然而在噪聲環(huán)境下識別語音信號的端點往往比較困難的。我們采用的是經典的雙門限檢測法第十三頁,共三十二頁,2022年,8月28日為了區(qū)分噪音和語音,很直觀的一種方法是用信號的幅度作為特征,只要設定一個門限,當信號的幅度超過該門限的時候,就認為語音開始,當幅度降低到門限以下就認為語音結束。實際上,一般我們是使用短時能量的概念來描述語音信號的幅度的。對于輸入的語音信號x(n),其中n為采樣點,首先進行分幀的操作,將語音信號分成20~30毫秒一段,相鄰的兩幀之間有10~20毫秒的交疊。具體的幀長和幀移隨采樣頻率不同而不同。第十四頁,共三十二頁,2022年,8月28日對于第i幀,第n個樣本,他與原始語音信號的關系為:第i幀語音信號的短時能量可以用下面幾種算法得到:將語音信號分幀后計算每幀的短時能量,再設一個門限,就可以實現一個簡單的端點檢測算法。但是這樣的算法是很不可靠的,因為人的語音分清音和濁音兩種。濁音為聲帶振動發(fā)出,對應的語音信號有幅度高周期性明顯的特點,而清音則不會有聲帶的振動,只是靠空氣在口腔中的摩擦、沖擊或爆破而發(fā)聲,其短時能量一般比較小,往往會被基于能量的算法漏過去。所以我們用過零率來進行修正。第十五頁,共三十二頁,2022年,8月28日盡管不能用短時能量可靠地區(qū)分清音和靜音,但是還是可以發(fā)現在靜音段信號的波形變化相對比較緩慢,而在清音段,由于口腔空氣摩擦的效果,所造成的波形在幅度上的變化比較劇烈,通??梢杂靡粠盘栔胁ㄐ未┰搅汶娖降拇螖祦砻枋鲞@種變化的劇烈程度,稱為過零率。即:第十六頁,共三十二頁,2022年,8月28日將短時能量和過零率結合起來,對一段語音進行單個語音端點的檢測:第十七頁,共三十二頁,2022年,8月28日對連續(xù)語音進行語音分割:第十八頁,共三十二頁,2022年,8月28日5.1線性預測系數5.2線性預測倒普系數5.3Mel頻率倒普系數第十九頁,共三十二頁,2022年,8月28日語音信號是一種典型的時變信號,然而如果把觀察時間縮短到十毫秒至十幾毫秒,則可以得到一系列近似穩(wěn)定的信號。人的發(fā)音器官可以用若干段前后連接的聲管斤進行模擬,這就是所謂的聲管模型。由于發(fā)音器官不可能毫無規(guī)律地快速變化,因此語音信號是準穩(wěn)定的全極點線性預測模型可以對聲管模型進行很好的描述,這里信號的激勵源是由肺部氣流的沖擊引起的,聲帶可以有周期振動也可以不振動,分別對應濁音和清音,而每個聲管則對應一個LPC模型的極點。一般情況下,極點的個數在12~16個之間,就足夠清晰地描述語音信號的特征了。第二十頁,共三十二頁,2022年,8月28日語音信號的聲管模型第二十一頁,共三十二頁,2022年,8月28日在語音識別系統(tǒng)中,很少直接使用LPC系數,而是由LPC系數推導出另一種參數:線性預測倒普系數(LPCC),其遞推式如下:式中a1

,...,ap

為p階LPC特征向量。cn

,n=1,...,p,p為倒譜的前p個值,當LPCC的階數不超過LPC階數p的時候,用第二式進行計算;如果LPCC階數大于p,則用第三式進行計算,此時實際上是一種外推。第二十二頁,共三十二頁,2022年,8月28日LPC模型是基于發(fā)音模型建立的,LPCC系數也是一種基于合成的參數。這種參數沒有充分利用人耳的聽覺特性。實際上,人的聽覺系統(tǒng)是一個特殊額度非線性系統(tǒng),它響應不同頻率信號的靈敏度是不同的,基本上是一個對數的關系。近年來,一種能夠比較充分利用人耳這種特殊的感知特性的參數得到了廣泛的應用,這就是Mel尺度倒譜參數,或稱Mel頻率倒譜參數(MFCC)。MFCC參數的計算是以“bark”為其頻率基準的,它和線性頻率的轉換關系是:第二十三頁,共三十二頁,2022年,8月28日MFCC參數的計算通常采用如下的流程:(1)確定每一幀語音采樣序列的點數,系統(tǒng)中取N=256點。對每幀序列s(n)進行預加重處理后再經過離散FFT變換,取模的平方得到離散功率譜S(n)。(2)計算S(n)通過M個濾波器Hm(n)后得到的功率值,即計算S(n)和Hm(n)在各離散頻率點上乘積之和,得到M個參數pm

,m=0,1,...,M-1。(3)計算pm

的自然對數,得到Lm

,m=0,1,...,M-1。(4)對L0

,L1

,...,Lm-1

計算其離散余弦變換,得到Dm

,m=0,1,...,M-1。舍去代表直流成分的D0

,取D1

,D2

,...,DK

作為MFCC參數。最后對MFCC進行一階差分,得到一組新的MFCC差分系數,作為特征矢量的一組分量。第二十四頁,共三十二頁,2022年,8月28日差分參數的計算采用下面的公式:這里的c和d都表示一幀語音參數,k為常數,通常取2,這時差分參數就稱為當前幀的前兩幀和后兩幀的線性組合。第二十五頁,共三十二頁,2022年,8月28日在孤立詞語音識別中,最為簡單有效的方法是采用DTW(DynamicTimeWarping,動態(tài)時間彎折),該算法基于動態(tài)規(guī)劃(DP)的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現較早,較為經典的一種算法。用于孤立詞識別,DTW算法與HMM算法在相同的環(huán)境下,識別效果相差不大。但HMM算法在訓練階段需要提供大量的語音數據,通過反復計算才能得到模板參數,而DTW算法的訓練中幾乎不需要額外的計算。第二十六頁,共三十二頁,2022年,8月28日每個詞條通過端點檢測和特征提取存入模板庫,稱為一個參考模板,可以表示為{R(1),R(2),...,R(m),...,R(M)},R(m)為第m幀的語音特征矢量,M為該段語音幀總數。所要識別的一個輸入詞條稱為測試模板,可表示為{T(1),T(2),...,T(n),...,R(N)},T(n)為第n幀的語音特征矢量,N為該段語音幀總數。為了比較他們之間的相似度,可以計算他們之間的距離D[T,R],距離越小相似度越高。為了計算這一距離,應從T和R中各個對應幀之間的距離算起,設n和m分別是T和R中任意選擇的幀號,d[T(n),R(m)]為這兩幀間的距離,距離函數為歐式距離。若N=M則可以直接計算,否則要考慮對齊的問題,這里采用了動態(tài)規(guī)劃的方法。如果把測試模板和參考模板的各個幀號在一個二維坐標標出,并畫出網格,于是問題歸結為尋找一條經過網格的從(1,1)到(N,M)路徑,路徑通過的網格點的坐標對應的是進行距離計算的兩個幀號。第二十七頁,共三十二頁,2022年,8月28日第二十八頁,共三十二頁,2022年,8月28日為了描述這條路徑,假設路徑通過的所有格點依次為(n1,m1),...,(ni,mi),...,(nN,mN),路徑可以用函數:描述,為了使路徑不至于過分傾斜,可以約束斜率在0.5~2的范圍內,即如果路徑已通過了(ni-1,mi-1),則(ni,mi)只可能是:1.(ni,mi)=(ni-1+1,mi-1+2);2.(ni,mi)=(ni-1+1,mi-1+1);3.(ni,mi)=(ni-1+1,mi-1);于是求最佳路徑的問題可以歸結為求最佳路徑函數使得路徑的積累距離最小。第二十九頁,共三十二頁,2022年,8月28日搜索該路徑的方法如下:搜索從(n1,m1)點出發(fā),可以展開若干條滿足約束條件的路徑。假設可計算每條路徑達到終點的總的積累距離,具有最小積累距

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論