語音信號數(shù)字處理:4 語音信號的頻域分析_第1頁
語音信號數(shù)字處理:4 語音信號的頻域分析_第2頁
語音信號數(shù)字處理:4 語音信號的頻域分析_第3頁
語音信號數(shù)字處理:4 語音信號的頻域分析_第4頁
語音信號數(shù)字處理:4 語音信號的頻域分析_第5頁
已閱讀5頁,還剩33頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第4章語音信號的頻域分析4.2基于濾波器組的頻域分析 4.1概述4.4STFT 的實現(xiàn)4.3短時 Fourier 變換(STFT)的定義和性質(zhì)4.5短時 Fourier 譜的取樣4.6語音的短時合成技術(shù)4.7基于 FFT 的短時 Fourier 分析4.8頻域基音檢測4.9語音信號的時-頻表示(略)第4章語音信號的頻域分析4.1概述 語音感知與語譜特性關(guān)系密切,人對語譜特性更敏感。 幅頻譜特性相似的兩段語音,感知相似。 語譜具有語言聲學意義,反應(yīng)了重要的語音特征; 如共振峰頻率、帶寬等。進行語音頻譜分析是認識和處理語音信號的重要方法。Fourier 分析是有效手段,是語音的重要分析工具。語音是

2、非平穩(wěn)信號,源于發(fā)聲器官的物理運動過程。 在短時間段(如10 30 ms)內(nèi)可認為是平穩(wěn)的; 用時間依賴處理方法分析處理。第4章語音信號的頻域分析 4.1概述短時 Fourier 分析(時間依賴 Fourier 變換): 用穩(wěn)態(tài)分析處理非平穩(wěn)信號的一種方法語音的頻域分析:包括語音信號的頻譜、功率譜、倒頻譜、 頻譜包絡(luò)等,常用頻域分析方法:帶通濾波器組法、Fourier 變換法、 同態(tài)分析、線性預(yù)測法等。本章:帶通濾波器組法、Fourier 變換法、頻域基音檢測、 時-頻表示第4章語音信號的頻域分析 4.1概述第4章語音信號的頻域分析4.2基于濾波器組的頻域分析 最早的頻譜分析:濾波器組來實現(xiàn)。

3、特點:簡單、實時性好、受外界影響小。常用模擬濾波器實現(xiàn),也可用數(shù)字濾波器實現(xiàn)。 寬帶帶通濾波器:平坦特性,可粗略求取語音頻譜,分辨率較低,相當于短時處理時窄窗情況。 窄帶帶通濾波器:頻率分辨率較高, 相當于短時處理時寬窗較寬的情況。 圖4.1:濾波器組法頻譜分析原理圖。圖4.1濾波器組法頻率分析原理圖f1f2fn x1(t) x(t) x2(t) xn(t)第4章語音信號的頻域分析 4.2基于濾波器組的頻域分析第4章語音信號的頻域分析4.3短時 Fourier 變換(STFT)的定義和性質(zhì) 4.3.1STFT 的定義語音序列是時變的。分段方法:加一個沿時間軸滑動的窗函數(shù); 通常窗的寬度有限;

4、對應(yīng)于不同的 n 值,窗處于不同位置; 窗函數(shù)對語音信號的每個樣本進行加權(quán)。 圖4.2:移動窗函數(shù)選取語音段的示意圖 圖中使用的是非矩形窗, 時刻 n 位于窗的中心 圖4.2用移動窗選取語音段示意圖第4章語音信號的頻域分析 4.3短時 Fourier 變換(STFT)的定義和性質(zhì) x(m)的短時 Fourier 變換(STFT)Xn(ej)的定義: 式中, w(n)是窗函數(shù)。 為位于 n 處的窗口觀察到的窗選語音短段的 Fourier 變換; n 取不同值時,取出不同的語音短段; Xn(ej) 是頻率 和時間 n 的函數(shù);有時-頻性。要求: STFT 存在,則對所有 n 值,一定絕對可和。因窗

5、寬有限,或無限沖激響應(yīng)窗函數(shù),其有效寬度有限, 故滿足絕對可和。 第4章語音信號的頻域分析 4.3短時 Fourier 變換(STFT)的定義和性質(zhì) 根據(jù) STFT,恢復(fù)原語音信號 x(m) 的方法: 式 的逆變換為:若w(0)0,由上式得: 準確地恢復(fù)原信號的唯一約束條件是 w(0)0 。 第4章語音信號的頻域分析 4.3短時 Fourier 變換(STFT)的定義和性質(zhì) 由STFT的譜 Xn(ej) 求解 x(m) 的 Fourier 變換 X(ej) 方法。假設(shè) x(m) 和 w(m) 的 Fourier 變換都存在,即: 因 Xn(ej) 是 x(m)w(n-m) 的 Fourier

6、變換, 則 Xn(ej) 是 X(ej) 與 ejnW(e-j) 的卷積,即 為使 Xn(ej) 準確代替 X(ej),移動窗的 W(ej) 應(yīng)是沖激函數(shù);即要求移動窗無限寬。第4章語音信號的頻域分析 4.3短時 Fourier 變換(STFT)的定義和性質(zhì) 注意:由于語音是時變的,故其 Fourier 變換可能不存在。通常, 窗函數(shù)是有限時寬,故窗選語音段可看成從無限長的基本性質(zhì)延續(xù)不變的平穩(wěn)信號中截取出來的; 對于爆破音等暫態(tài)音,則可看成在窗外取值為零。若把X(ej)看成是基本性質(zhì)在窗外延續(xù)不變或窗外取值為零的某個平穩(wěn)信號的 Fourier 變換,則式 就是有意義的。觀點:STFT 是平穩(wěn)

7、信號的 Fourier 變換經(jīng)加窗平滑的結(jié)果。第4章語音信號的頻域分析 4.3短時 Fourier 變換(STFT)的定義和性質(zhì) 4.3.2窗函數(shù)及窗寬對STFT的影響圖4.3a:元音 i 的波形和短時頻譜圖。 元音 i 的基音周期大約是 13 ms;短時頻譜圖有兩種變化:快變化:周期性激勵引起, 基音頻率的各次諧波;慢變化:聲道共振特性引起, 各共振峰的頻率和帶寬。兩個頻譜圖間的差別:矩形窗時:諧波各峰較尖銳, 譜圖較破碎(類似于噪聲), 主瓣較窄(較高頻率分辨率); 旁瓣較高, “泄漏”嚴重;Hamming 窗時:短時頻譜平滑些。短時譜分析,Hamming 窗較普遍。 第4章語音信號的頻域

8、分析 4.3短時 Fourier 變換(STFT)的定義和性質(zhì) 圖4.3a元音i的波形和短時頻譜圖(10 kHz取樣,窗長246)分析窗寬對短時頻譜的影響:圖4.4(a):元音 i 的波形和短時頻譜圖。窗寬 6.4 ms,元音 i 的基音周期大約是 13 ms;窗選語音段長不到一個基音周期, 丟失了基音周期的信息;頻譜的快變化(諧波頻率)消失。頻譜的慢變化(較寬的峰)保留, 是聲道的共振特性。矩形窗比 Hamming 時, 呈現(xiàn)較多的細致結(jié)構(gòu),由于矩形窗比 Hamming 窗 具有更高的頻率分辨率。第4章語音信號的頻域分析 4.3短時 Fourier 變換(STFT)的定義和性質(zhì) 圖4.4a元

9、音i的波形和短時頻譜圖(10 kHz取樣,窗長64)圖4.3,4.4(b):清輔音 j 短時頻譜圖。圖4.3(b):窗較長,頻率分辨率高,許多快變化, 反映了激勵源的白噪聲特性隨機起伏。矩形窗時,快變化尤為突出。仍然看出聲道濾波器的共振特性。 第4章語音信號的頻域分析 4.3短時 Fourier 變換(STFT)的定義和性質(zhì) 圖4.3b清音j的波形和短時頻譜圖(10 kHz取樣,窗長256)圖4.4b清音j的波形和短時頻譜圖(10 kHz取樣,窗長64) 4.3.3結(jié)論長窗具有較高的頻率分辨率,較低的時間分辨率;短窗具有較低的頻率分辨率,較高的時間分辨率;窗寬的選擇需折衷考慮; 語音的基音周期

10、值范圍很大,窗寬選擇應(yīng)考慮該因素。矩形窗和 Hamming 窗的頻譜特性都具有低通的性質(zhì)。 截止頻率處都較尖銳, 當通帶較窄時(窗較寬),頻譜能很好逼近短時語音譜。窗越寬逼近效果越好。第4章語音信號的頻域分析 4.3短時 Fourier 變換(STFT)的定義和性質(zhì) 第4章語音信號的頻域分析4.4STFT的實現(xiàn) STFT的定義:將窗函數(shù)的位置參數(shù) n 看成是參變量,給定 n,是連續(xù)變量 的函數(shù),為語音段的標準Fourier 變換 從不同角度來解釋 STFT,可得不同的實現(xiàn)方法。線性濾波的角度: 為參變量,給定 時,是 n 的函數(shù)。 重寫定義式: 表明:卷積實現(xiàn),w(n) 與 x(n)e-jn,

11、 序列 x(n)e-jn 通過沖激響應(yīng)為 w(n) 的線性濾波器的輸出 此時, 看成是固定值。圖4.4:STFT 的線性濾波實現(xiàn)第4章語音信號的頻域分析 4.4STFT 的實現(xiàn)圖4.5STFT的線性濾波實現(xiàn)w(n)x(n)e-jnXn(ejn)圖4.5:STFT 的線性濾波實現(xiàn)圖4.6:圖4.5方案的實數(shù)運算 圖4.6方案原理: 設(shè): 則可計算:第4章語音信號的頻域分析 4.4STFT 的實現(xiàn)圖4.5STFT的線性濾波實現(xiàn)w(n)x(n)e-jnXn(ej)圖4.6STFT的線性濾波實現(xiàn) cosn an()x(n) bn() sinnw(n)w(n)令 ,代入式 將 用 m 表示,得: 上式可

12、用圖4.7方案實現(xiàn);圖4.8:圖4.7方案的實數(shù)運算(推導略)第4章語音信號的頻域分析 4.4STFT 的實現(xiàn)圖4.7STFT分析線性濾器的另一種形式 w(n) ejnx(n)e-jnXn(ej)圖4.8用實數(shù)實現(xiàn)圖5.7的方框圖 x(n) sinnw(n)sinnw(n)cosncosncosn an() bn()-可推得: 需要計算Xn(ej) 時,用圖4.8實現(xiàn)簡單; 需要計算 an()、bn() 時,用圖4.6實現(xiàn)較簡單。線性濾波實現(xiàn) STFT 的主要優(yōu)點: 利用了成熟的線性濾波器的成果,實現(xiàn)方法非常簡單。 線性濾波分有限沖激響應(yīng)的和無限沖激響應(yīng)的、因果的和非因果的線性濾波方法, 相應(yīng)

13、地,STFT 或時變頻譜分析也可分成有限窗寬和無限窗寬、因果窗和非因果窗等類型。第4章語音信號的頻域分析 4.4STFT 的實現(xiàn)第5章語音信號的頻域分析4.5短時 Fourier 譜的取樣STFT 譜:一維時變信號的二維時-頻表示,n 和 的函數(shù)。采樣定理:以不低于其最高頻率兩倍的取樣頻率取樣, 由樣本準確恢復(fù)出原始信號。STFT 的取樣:是一個更復(fù)雜的問題。 在時-頻變量 n 和 上同時進行,并保證不產(chǎn)生混疊失真。第4章語音信號的頻域分析 4.5短時 Fourier 譜的取樣 4.5.1時域取樣 STFT線性濾波實現(xiàn):圖4.5示。 w(n):窄帶低通濾波器,帶寬為 B。則: Xn(ej) 的

14、帶寬也為 B。在時域內(nèi), 以 2B 速率對 Xn(ej) 取樣,不產(chǎn)生混疊失真。 Hamming 窗時:w(n) 的帶寬 B=2fs/N,( fs 取樣頻率,N 窗寬) 時域內(nèi)的取樣頻率 2B=4fs/N。 例:設(shè) N =100,fs =10 kHz,則取樣頻率400 Hz, 語音信號每輸入 25 個樣本計算一次短時譜即可。多數(shù)實際窗函數(shù),頻帶寬度 B 與 fs/N 成正比例,即: 式中,k 為比例常數(shù)。Hamming 窗 k =2,矩形窗 k =1。在時域內(nèi), Xn(ej) 的取樣頻率為:第4章語音信號的頻域分析 4.5短時 Fourier 譜的取樣圖4.5STFT的線性濾波實現(xiàn)w(n)x(

15、n)e-jnXn(ej) 4.5.2頻域取樣 Xn(ej) :角頻率 的周期函數(shù),周期 2 。 在 2 范圍內(nèi)討論頻域取樣問題。02 內(nèi)均勻取樣 L 點,取樣角頻率k = 2k/L,k=0,1,L-1討論 L 取值: 設(shè)w(n)的窗寬為 N 。 由于 Xn(ej) 是 x(m)w(n-m) 的 Fourier 變換, 則其 Fourier 逆變換的寬度也應(yīng)當為 N(有限時寬)。頻域內(nèi),在 L 個角頻率點上對 Xn(ej) 取樣,根據(jù)樣本恢復(fù)的信號應(yīng)該是 x(m)w(n-m) 的周期延拓(周期 2k/k = L) 。使恢復(fù)的時域信號不產(chǎn)生混疊失真,要求: 即:在 02 范圍內(nèi),頻域取樣至少有 N

16、 點。 例:若窗寬 N =100,在頻域中 Xn(ej) 的取樣100點。第4章語音信號的頻域分析 4.5短時 Fourier 譜的取樣 4.5.3時域和頻域的總?cè)?因為:時域取樣率: 頻域取樣率: 則:時頻域總?cè)勇剩?k 值由窗函數(shù)確定,2k 值稱為“過取樣比” 。 STFT:用數(shù)倍于信號波形取樣率的速率取樣, 其代價有時是很值得的。 同時在時、頻域取樣時,兩個域的取樣率可以相互調(diào)劑, 提供了靈活性。 欠取樣:可用低于 2kfs 的取樣率,雖發(fā)生混疊失真,但仍有方法準確恢復(fù)出原語音信號(見4.6.2節(jié)) 。 如:譜估計、基音和共振峰分析、數(shù)字譜圖以及聲碼器等 應(yīng)用中。第4章語音信號的頻域

17、分析 4.5短時 Fourier 譜的取樣第4章語音信號的頻域分析4.6語音的短時合成技術(shù)語音的短時合成:從 STFT 樣本中恢復(fù)原始語音信號。 4.6.1濾波器組相加法當 固定時, STFT 的線性濾波解釋有兩種; Xn(ej) 是序列 x(n)e-jn 通過沖激響應(yīng)為 w(n) 的 低通窄帶濾波器產(chǎn)生(見圖4.5); Xn(ej) 是序列 x(n) 通過沖激響應(yīng)為 w(n)ejn 的 窄帶帶通濾波器后,再用 e-jn 進行調(diào)制產(chǎn)生(見圖4.7)。已有的采樣結(jié)論: 窗寬為 N ,頻域內(nèi)對 Xn(ej) 進行 N 點取樣, 不引起時域混疊失真。 STFT可以用它在 02 范圍內(nèi) N 個等間隔頻

18、率點 k = 2k/L,k=0,1,L-1上的樣本來代替。第4章語音信號的頻域分析 4.6語音的短時合成技術(shù)圖4.9:語音的短時分析-合成系統(tǒng) 圖4.7的 STFT 的線性濾波實現(xiàn)方案為圖4.9的左半部分; 用 N 個濾波器(通道): 構(gòu)成的濾波器組進行短時 Fourier 分析。 N個帶通濾波器的中心頻率在 02 范圍內(nèi)是 等間隔均勻分布,但也可以是非均勻分布。 非均勻分布情況下,需滿足關(guān)于 = 對稱的條件。第4章語音信號的頻域分析 4.6語音的短時合成技術(shù)傳 輸h0(n)h1(n)hN-1(n)圖4.9語音短時分析合成系統(tǒng)圖短時 Fourier 分析的合成問題:從短時 Fourier 分析

19、的結(jié)果 恢復(fù)出原始語音信號 x(n) 的方法。 是以 k 為中心的帶通信號的低通表示。 這說明,從 恢復(fù)原始信號,應(yīng)該將低通信號搬回到帶通的位置去,即將零頻率搬到頻率k 上去。合成原理:第 k 個通道的輸出 應(yīng)乘以 , 并將 N 個通道的結(jié)果相加就可得到原始信號 x(n)。短時分析合成系統(tǒng)的輸出(見圖4.9): 從 x(n) 到 y(n) 的系統(tǒng)的沖激響應(yīng)h(n)和其頻率特性為: 式中 分別是 h(n) 和 hk(n) 的頻率特性。第4章語音信號的頻域分析 4.6語音的短時合成技術(shù) W(ej) 分析窗 w(n) 的頻率特性。 由于 ,所以: W(ej) 的 N 個等間隔頻率點 上取樣為 , 的

20、逆變換為時間序列 w(n), 是周期為 N 的延拓, 即: 由于 ,w(n) 是寬度為 N 的有限時寬序列, W(ej) 的頻域取樣點在 02 范圍內(nèi)有 N 個, 所以,上式的逆變換得到的周期序列沒有重疊失真, 其中的一個周期將準確等于 w(n)。令 n=0,計算 w(0)為:第4章語音信號的頻域分析 4.6語音的短時合成技術(shù)將頻率點 k 換成另外 N 個頻率點-k , 代入上頁式,得:由式 , 考慮上式關(guān)系,得:可見:聯(lián)系 x(n) 和 y(n) 的帶通濾波器組的總的沖激響應(yīng) 所對應(yīng)的頻率特性是一個取決于窗函數(shù)在 n=0 時的值, 而與窗函數(shù)的形式無關(guān)的一個常量。由此可以得到相應(yīng)的沖激響應(yīng)為

21、:于是,短時分析合成系統(tǒng)的輸出為:綜上,短時分析合成系統(tǒng)的帶通濾波器組的約束條件為:第4章語音信號的頻域分析 4.6語音的短時合成技術(shù)4.6.2疊接相加法x(n) 的短時譜為 Xn(ej),是 x(m)w(n-m) 的 Fourier 變換; 對 Xn(ej) 求離散 Fourier 逆變換,可得 x(n)。問題是,計算數(shù)據(jù)只有 ,而不是 Xn(ej)。公式推導如下:假設(shè)窗 w(n-m) 每次移動 R 個取樣間隔,即 n=rR, r=,0,1,。 于是可相繼恢復(fù)出位于n=0,R,2R,.處各窗口內(nèi)的各 N 個取樣信號值,這些樣本可表示為: 是窗口位于 n=rR 處的 的值。將各窗口內(nèi)恢復(fù)出來的

22、信號樣本中,相互重疊的樣本相加,得:第4章語音信號的頻域分析 4.6語音的短時合成技術(shù)如果w(m)是有限窗寬,且 在時域內(nèi)滿足取樣定理, (矩形窗 RN/2,Hamming 窗 RN/4) 可以證明對于任何 m 值,恒有 于是,有:可見,用疊接相加法的 主要運算是逆離散Fourier變換。圖4.10:該算法流程圖。圖4.11:前5段語音疊接相加的情況。第4章語音信號的頻域分析 4.6語音的短時合成技術(shù)圖4.10短時合成疊接相加法流程圖n=N/4, r=1x(n)w(rR-n)補點構(gòu)成L點序列L 點 FFT短時譜修正L 點逆 FFTy(m)=y(m)+yr(m)m=n-N+1,nn=n+N/4,

23、 r=r+1w(n)y(m)=0, 所有 m窗寬 N加Hamming窗取R=N/4注:濾波器組相加法基于短時頻譜的線性濾波解釋導出; 疊接相加法基于短時頻譜的標準 Fourier 變換解釋; 兩種算法恰成一種對偶關(guān)系。第4章語音信號的頻域分析 4.6語音的短時合成技術(shù)圖4.11用疊接相加法合成語音的示意圖第4章語音信號的頻域分析4.7基于 FFT 的短時 Fourier 分析 x(m)的短時 Fourier 變換 Xn(ej) 經(jīng)時頻采樣后,為離散信號,經(jīng)適當處理,可以用快速 FFT 完成計算。推導過程(略)。計算步驟: 由x(m)構(gòu)造序列 xn(m) = x(n+m)w(-m) ; 根據(jù) m

24、=Lr+q, (q=0,1,L-1; r=0,1,N/L-1), 將 xn(m) 分成長為 L 的 N/L 個短段,并將所有短段各對應(yīng)元素相加,得到長為 L 的序列 un(q) ; 將 un(q) 循環(huán)移位 n,得到 un(m-nL), (m=0,1,L) ; 用FFT計算以 un(m-nL)的 L 點DFT,得到 第4章語音信號的頻域分析 4.7基于 FFT 的短時 Fourier 分析 第4章語音信號的頻域分析4.8頻域基音檢測頻域基音檢測:計算復(fù)雜性較高。目前 DSP 技術(shù),計算復(fù)雜性變得不太重要。已用于編碼標準中,如海事衛(wèi)星系統(tǒng) INMARSAT-M。 4.8.1 諧波峰值基音檢測法 頻域基音檢測方法:抽取基頻上的頻譜峰值。要求:語音中存在第一諧波分量;但預(yù)處理等可能丟失信息,更實際的方法: 檢測所有的諧波峰值, 使用這些諧波的公約數(shù)或者相鄰諧波的距離來測量基頻。可以使用梳狀濾波器完成匹配工作。第4章語音信號的頻域分析 4.8頻域基音檢測梳狀濾波器的特性:式中,C(,0)和語音的頻譜相關(guān)。相關(guān)輸出是加權(quán)的梳狀峰值之和: 式中, m 是所考慮的最大頻率。若 0 等于基頻,則梳狀響應(yīng)能夠匹配諧波的峰值,會得到最大的輸出。圖4.13:諧波峰值的匹配方法。第4章語音信號的頻域分析 4.8頻域基音檢測圖4.13諧

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論