基于 MATLAB 分析語音信號頻域特征_第1頁
基于 MATLAB 分析語音信號頻域特征_第2頁
基于 MATLAB 分析語音信號頻域特征_第3頁
基于 MATLAB 分析語音信號頻域特征_第4頁
基于 MATLAB 分析語音信號頻域特征_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、語音信號處理 實驗報告實驗三 基于 MATLAB 分析語音信號頻域特征所在院系: 工學院專 業(yè): 電子信息工程班 級: 電信112姓 名: 學 號: 指導教師: 湯永清 2014年05月06日實驗三 基于 MATLAB 分析語音信號頻域特征一、 實驗目的信號的傅立葉表示在信號的分析與處理中起著重要的作用。因為對于線性系統(tǒng)來說,可以很方便地確定其對正弦或復指數(shù)和的響應,所以傅立葉分析方法能完善地解決許多信號分 析和處理問題。另外,傅立葉表示使信號的某些特性變得更明顯,因此,它能更深入地說明 信號的各項紅物理現(xiàn)象。由于語音信號是隨著時間變化的,通常認為,語音是一個受準周期脈沖或隨機噪聲源激 勵的線

2、性系統(tǒng)的輸出。輸出頻譜是聲道系統(tǒng)頻率響應與激勵源頻譜的乘積。聲道系統(tǒng)的頻率 響應及激勵源都是隨時間變化的,因此一般標準的傅立葉表示雖然適用于周期及平穩(wěn)隨機信 號的表示,但不能直接用于語音信號。由于語音信號可以認為在短時間內,近似不變,因而 可以采用短時分析法。本實驗要求掌握傅里葉分析原理,會利用已學的知識,編寫程序估計短時譜、倒譜,畫 出語譜圖,并分析實驗結果,在此基礎上,借助頻域分析方法所求得的參數(shù)分析語音信號的 基音周期或共振峰。二、實驗原理 1、 短時傅立葉變換由于語音信號是短時平穩(wěn)的隨機信號,某一語音信號幀的短時傅立葉變換的定義為: 其中 w(n-m)是實窗口函數(shù)序列,n 表示某一語音

3、信號幀。令 n-m=k',則得到同樣,不同的窗口函數(shù),將得到不同的傅立葉變換式的結果。由上式可見,短時傅立葉變換有兩個變量:n 和 ,所以它既是時序 n 的離散函數(shù),又是角頻率 的連續(xù)函數(shù)。與離 散傅立葉變換逼近傅立葉變換一樣,如令 =2k/N,則得離散的短時傅立葉吧如下:2、 語譜圖水平方向是時間軸,垂直方向是頻率軸,圖上的灰度條紋代表各個時刻的語音短譜。 語譜圖反映了語音信號的動態(tài)頻率特性,在語音分析中具有重要的實用價值。被成為可視語 言。語譜圖的時間分辨率和頻率分辨率是由窗函數(shù)的特性決定的。時間分辨率高,可以看出 時間波形的每個周期及共振峰隨時間的變化,但頻率分辨率低,不足以分辨

4、由于激勵所形成 的細微結構,稱為寬帶語譜圖;而窄帶語譜圖正好與之相反。寬帶語譜圖可以獲得較高的時間分辨率,反映頻譜的快速時變過程;窄帶語譜圖可以獲 得較高的頻率分辨率,反映頻譜的精細結構。兩者相結合,可以提供帶兩與語音特性相關的 信息。語譜圖上因其不同的灰度,形成不同的紋路,稱之為“聲紋”。聲紋因人而異,因此可 以在司法、安全等場合得到應用。3、 復倒譜和倒譜在時域上,語音產生模型實際上是一個激勵信號與聲道沖激響應的卷積。對于濁音,激 勵信號可以由周期脈沖序列表示;對于清音,激勵信號可以由隨機噪聲序列表示。聲道系統(tǒng) 相當于參數(shù)緩慢變化的零極點線性濾波器。這樣經過同態(tài)處理后,語音信號的復倒譜,激

5、勵 信號的復倒譜,聲道系統(tǒng)的復倒譜之間滿足下面的關系:由于倒譜對應于復倒譜的偶部,因此倒譜與復倒譜具有同樣的特點,很容易知道語音信號的倒譜,激勵信號的倒譜以及聲道系統(tǒng)的倒譜之間滿足下面關系:濁音信號的倒譜中存在著峰值,它的出現(xiàn)位置等于該語音段的基音周期,而清音的倒譜中則不存在峰值。利用這個特點我們可以進行清濁音的判斷,并且可以估計濁音的基音周期。4、 基因周期估計濁音信號的倒譜中存在峰值,它的出現(xiàn)位置等于該語音段的基音周期,而清音的倒譜中 則不存在峰值。利用倒譜的這個特點,我們可以進行語音的清濁音判決,并且可以估計濁音 的基音周期。首先計算語音的倒譜,然后在可能出現(xiàn)的基因周期附近尋找峰值。如果

6、倒譜峰 值超過了預先設置的門限,則輸入語音判斷為濁音,其峰值位置就是基因周期的估計值;反 之,如果沒有超出門限的峰值的話,則輸入語音為清音。5、 共振峰估計對倒譜進行濾波,取出低時間部分進行進行逆特征系統(tǒng)處理,可以得到一個平滑的對數(shù) 譜函數(shù),這個對數(shù)譜函數(shù)顯示了輸入語音段的共振峰結構,同時譜的峰值對應于共振峰頻率。 通過此對數(shù)譜進行峰值檢測,就可以估計出前幾個共振峰的頻率和強度。對于濁音的聲道特 性,可以采用前三個共振峰來描述;清音不具備共振峰特點。二、 實驗結果1 短時譜 2 語譜圖3 倒譜和復倒譜圖 3、4 是加矩形窗和漢明窗的倒譜圖和復倒譜圖,圖中橫軸的單位是Hz,縱軸的單位是 dB。4

7、 基因周期和共振峰估計四、參考程序clear a=wavread('beijing.wav'); subplot(2,1,1), plot(a); title('original signal'); grid N=256; h=hamming(N); for m=1:N b(m)=a(m)*h(m) end y=20*log(abs(fft(b) subplot(2,1,2) plot(y);title('¶ÌʱÆ×'); grid x,fs,nbits=wavread('be

8、ijing.wav') specgram(x,512,fs,100); xlabel('ʱ¼ä(s)'); ylabel('ƵÂÊ(Hz)'); title('ÓïÆ×ͼ');clear a=wavread('beijing.wav',4000,4350); N=300; h=linspace(1,1,N); for m=1:N b(m)=a(m)*h(m); end c=cce

9、ps(b); c=fftshift(c); d=rceps(b); d=fftshift(d); subplot(2,1,1) plot(d);title('¼Ó¾ØÐδ°Ê±µÄµ¹Æ×') subplot(2,1,2) plot(c);title('¼Ó¾ØÐδ°Ê±µÄ¸&#

10、180;µ¹Æ×') clear a=wavread('beijing.wav',4000,4350); N=300; h=hamming(N); for m=1:N b(m)=a(m)*h(m); end c=cceps(b); c=fftshift(c); d=rceps(b); d=fftshift(d); subplot(2,1,1) plot(d);title('¼ÓººÃ÷´°Ê±µÄ

11、1;¹Æ×') subplot(2,1,2) plot(c);title('¼ÓººÃ÷´°Ê±µÄ¸´µ¹Æ×') 語音信號處理 實驗報告實驗四 基于 MATLAB 的 LPC 分析所在院系: 工學院專 業(yè): 電子信息工程班 級: 電信112姓 名: 學 號: 指導教師: 湯永清 2014年05月06日實驗四 基于 MATLAB 的 LPC 分析一、 實驗目的線

12、性預測分析是有效的語音分析技術之一,在語音編碼、語音合成、語音識別和說話 人識別等語音處理領域中得到了廣泛的應用。語音線性預測的基本思想是:一個語音信號的 抽樣值可以用過去若干個取樣值的線性組合來逼近。通過使實際語音抽樣值與線性預測抽樣 值的均方誤差達到小,可以確定唯一的一組線性預測系數(shù)。采用線性預測分析不僅能夠得到語音信號的預測波形,而且能夠提供一個非常好的聲道 模型。如果將語音模型看作激勵源通過一個線性時不變系統(tǒng)產生的輸出,那么可以利用 LP 分析對聲道參數(shù)進行估值,以少量低信息率的時變參數(shù)精確地描述語音波形及其頻譜的性 質。此外,LP 分析還能夠對共振峰、功率譜等語音參數(shù)進行精確估計,L

13、P 分析得到的參數(shù) 可以作為語音識別的重要參數(shù)之一。由于語音是一種短時平穩(wěn)信號,因此只能利用一段語音來估計模型參數(shù)。此時有兩種方 案:一種是將長的語音序列加窗,然后對加窗語音進行 LP 分析,只要限定窗的長度就可以 保證分析的短時性,這種方案稱為自相關法;另一種方案不對語音加窗,而是在計算均方預 測誤差時限制其取和區(qū)間,這樣可以導出 LP 分析的自協(xié)方差法。本實驗要求掌握 LPC 原理,會利用已學的知識,編寫程序估計線性預測系數(shù)以及 LPC 的推演參數(shù),并能利用所求的相關參數(shù)估計語音的端點、清濁音判斷、基因周期、共振峰等。二、 實驗原理1 LP 分析基本原理LP 分析為線性時不變因果穩(wěn)定系統(tǒng)

14、V(z)建立一個全極點模型,并利用均方誤差準則, 對已知的語音信號 s(n)進行模型參數(shù)估計。如果利用 P 個取樣值來進行預測,則稱為 P 階線性預測。 假設用過去 P 個取樣值顯然,誤差越接近于零,線性預測的準確度在均方誤差小的意義上為佳,由此可以計算出預測系數(shù)。通過 LPC 分析,由若干幀語音可以得到若干組 LPC 參數(shù),每組參數(shù)形成一個描繪該幀 語音特征的矢量,即 LPC 特征矢量。由 LPC 特征矢量可以進一步得到很多種派生特征矢量, 例如線性預測倒譜系數(shù)、線譜對特征、部分相關系數(shù)、對數(shù)面積比等等。不同的特征矢量具 有不同的特點,它們在語音編碼和識別領域有著不同的應用價值。2 自相關法

15、 值得注意的是,自相關法在計算預測誤差時,數(shù)據(jù)段的兩端都需要加 P 個零取樣值,因而可造成譜估計失真。特別是在短數(shù)據(jù)段的情況下,這一現(xiàn)實更為 嚴重。另外,當預測系數(shù)量化時,有可能造成實際系統(tǒng)的不穩(wěn)定。3 協(xié)方差法可以看出,這里的數(shù)據(jù)段兩端不需要添加零取樣值。在理論上,協(xié)方差法計算出來的預測系數(shù)有可能造成預測誤差濾波器的不穩(wěn)定,但在實際上當每幀信號取樣足夠多時,其計算 結果將與自相關法的結果很接近,因而穩(wěn)定性一般是能夠保證的 (當然這種方法也有量化效 應可能引起不穩(wěn)定的缺點)。協(xié)方差解法的大優(yōu)點在于不存在自相關法中兩端出現(xiàn)很大預測誤差的情況,在 N 和 P 相差不大時,其參數(shù)估值比自相關法要精確

16、的多。但是在語音信號處理時,往往取 N 在 200 左右。此時,自相關法具有較大誤差的段落在整個語音段中所占的比例很小,參數(shù)估值也是 比較準確的。在這種情況下,協(xié)方差法誤差較小的優(yōu)點就不再突出,其缺乏高效遞推算法的 缺點成為了制約因素。所以,在語音信號處理中往往使用高效的自相關法。4 全極點聲道模型 將線性預測分析應用于語音信號處理,不僅是為了利用其預測功能,更因為它提供了一 個非常好的聲道模型。將式(2)所示的方程看成是濾波器在語音信號激勵下的輸入輸出方程,則該濾波器稱為 預測誤差濾波器,其 e(n)是輸出誤差。變換到 z 域,P 階預測誤差濾波器的系統(tǒng)函數(shù)為因為預測誤差含有語音信號的基音信

17、息,所以對于濁音,模型的激勵信號源是以基音周 期重復的單位脈沖;對于清音,激勵信號源 e(n)是自噪聲。語音信號的全極點模型是一種很 重要的聲道模型,是許多應用和研究的基礎。6 結合語音幀能量構成LPC組合參數(shù) 由于人能從聲音的音色、頻高等各種信息中感知說話人的個性,因此可以想象,利用特 征的有效組合可以得到比較穩(wěn)定的識別性能。一般來說,如果組合的各參量之間相關性不大, 則會更有效一些,因為它們分別反映了語音信號中的不同特征。多年來,人們對組合參數(shù)在 說話人識別中的應用進行了大量研究 。實驗證明,組合參數(shù)可以提高系統(tǒng)的識別性能。組合參數(shù)雖然可以提高系統(tǒng)的性能,但很顯然,無論是在特征參數(shù)提取環(huán)節(jié)

18、,還是在模型訓練和模型匹配環(huán)節(jié)都使運算量有所增加。在特征參數(shù)提取環(huán)節(jié),要計算一種以上的特征 參數(shù)。在模型訓練和模型匹配環(huán)節(jié),由于組合參數(shù)特征矢量的維數(shù)較多,使運算復雜度有所 增加。運算量的增加會使系統(tǒng)的識別速度受到影響。語音幀能量是指一幀語音信號的能量,它等于該幀語音樣值的平方和。選取與語音幀能量構成組合參數(shù)主要有以下考慮:1)語音幀能量是語音信號基本的短時參數(shù)之一,它表 幀能量是一個標量值,與其它參量構成組合參數(shù)不會使原特征矢量的維數(shù)明顯增加,特征矢 征一幀語音信號能量的大小,是語音信號一個重要的時域特征;2)由一幀語音求出的語音量的維數(shù)越少,則需要的運算復雜度越小,另外,獲取語音幀能量的運

19、算并不復雜;3)語音幀能量與 LPC 參數(shù)之間的相關性不大,它們反映的是語音信號的不同特征,應該有較好的效果。7 模型增益G三、 實驗結果(參考)我們使用的原始語音為“北風”,采樣頻率為 11000Hz,運行程序見附錄。在這里我們取第 30 幀進行觀察,線性預測階數(shù)為 12,看到圖 3.1 所示的原始語音幀的 波形,預測語音幀波形和它們之間預測誤差的波形。圖 3.2 為原始語音幀和預測語音幀的短 時譜和 LPC 譜的波形這里我們可以改變線性誤差的階數(shù)來觀察語音幀的短時譜和LP譜的變化情況,如圖3.3。圖3.3 預測階數(shù)對語音幀短時譜和LPC譜的影響圖 3.5 給出了原始語音的語譜圖和預測語音的

20、語譜圖,通過比較發(fā)現(xiàn),預測語音的預測 效果還可以,基音頻率相差無幾。 三、附錄(LPC 分析參考程序)MusicSource = wavread('beijing.wav'); Music_source = MusicSource' N = 256; Hamm = hamming(N); frame = input('請鍵入想要處理的幀位置 = '); origin = Music_source(frame - 1) * (N / 2) + 1):(frame - 1) * (N / 2) + N); Frame = origin .* Hamm'

21、; s1,f1,t1 = specgram(MusicSource,N,N/2,N); Xs1,Ys1 = size(s1); for i = 1:Xs1 FTframe1(i) = s1(i,frame); end N1 = input('請鍵入預測器階數(shù) = '); coef,gain = lpc(Frame,N1); est_Frame = filter(0 -coef(2:end),1,Frame); FFT_est = fft(est_Frame); err = Frame - est_Frame; subplot(2,1,1),plot(1:N,Frame,1:N,

22、est_Frame,'-r');grid;title('原始語音幀vs.預測后語音幀') subplot(2,1,2),plot(err);grid;title('誤差'); pause fLength(1 : 2 * N) = origin,zeros(1,N); Xm = fft(fLength,2 * N); X = Xm .* conj(Xm); Y = fft(X , 2 * N); Rk = Y(1 : N); PART = sum(coef(2 : N1 + 1) .* Rk(1 : N1); G = sqrt(sum(Frame.2) - PART); A = (FTframe1 - FFT_est(1 : length(f1') ./ FTframe1 ;subplot(2,1,1),plot(f1',20*log(abs(FTframe1),f

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論