




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第三章第三章 語音信號的特征分析語音信號的特征分析本章內(nèi)容包括了教材第本章內(nèi)容包括了教材第35章的相關(guān)內(nèi)容章的相關(guān)內(nèi)容v語音信號的數(shù)字化語音信號的數(shù)字化v語音信號的短時分析與短時處理的概念語音信號的短時分析與短時處理的概念 v語音信號的時域特征分析語音信號的時域特征分析v語音信號的頻率特征分析語音信號的頻率特征分析v語音信號的同態(tài)解卷與倒譜分析語音信號的同態(tài)解卷與倒譜分析v端點檢測與基頻估計端點檢測與基頻估計學(xué)習(xí)目標(biāo)學(xué)習(xí)目標(biāo):能夠熟練運(yùn)用教材:能夠熟練運(yùn)用教材/工具軟件包提供的有關(guān)語音特工具軟件包提供的有關(guān)語音特征分析的程序,實現(xiàn)對實際語音信號的時域、頻域分析,在此征分析的程序,實現(xiàn)對實際語音
2、信號的時域、頻域分析,在此基礎(chǔ)上完成連續(xù)語音信號的端點檢測和基音頻率估計?;A(chǔ)上完成連續(xù)語音信號的端點檢測和基音頻率估計。23.1 語音信號的數(shù)字化語音信號的數(shù)字化通過電腦或者其它數(shù)字錄音設(shè)備采集的語音信號都已經(jīng)經(jīng)過數(shù)字化了,一般不需要用戶再進(jìn)行數(shù)字化處理。盡管如此,有必要簡單了解一下語音信號的數(shù)字化過程與原理。聲音信號的數(shù)字化聲音信號的數(shù)字化模擬語音信號在時間與幅度上的二重連續(xù)性模擬語音信號在時間與幅度上的二重連續(xù)性v時間上離散化: 每秒鐘需要采集多少個聲音樣本, 也就是采樣頻率(fs)是多少,v幅度上離散化: 每個聲音樣本的位數(shù)(bit per sample,bps) 應(yīng)該是多少,也就是量
3、化精度。3語音信號的采樣頻率語音信號的采樣頻率v奈奎斯特采樣定理:fs 2 fmaxv窄帶語音信號: fs =8000Hz電話語音(固網(wǎng)電話通信頻帶為300-3400Hz)可以基本保持語義,不影響人對語音的感知質(zhì)量不是很好,有時候會有變音v寬帶語音信號:fs =16000Hz一般對語音質(zhì)量要求較高的場合再提高采樣頻率也不會對語音質(zhì)量有太多貢獻(xiàn)4量化精度量化精度v量化所用比特越大,聲音質(zhì)量越好v聲音質(zhì)量也跟量化算法有關(guān),比如同樣用8bit量化,非均勻量化(-律或A-律)就比均勻量化好很多v固網(wǎng)電話語音量化就是用的非均勻量化質(zhì)量采樣頻率(kHz)樣本精度(bit/s)單道聲/立體聲數(shù)據(jù)率(kB/s
4、)(未壓縮)頻率范圍電話88單道聲8 3003400 HzAM11.0258單道聲11.0205000 HzFM22.05016立體聲88.2 507000 HzCD44.116立體聲176.42020000 HzDAT4816立體聲192.02020000 Hz聲音的質(zhì)量與數(shù)據(jù)率(采樣頻率和量化精度)的關(guān)系聲音的質(zhì)量與數(shù)據(jù)率(采樣頻率和量化精度)的關(guān)系5預(yù)濾波預(yù)濾波v預(yù)濾波的目的防止混疊干擾抑制50Hz的電源干擾v帶通濾波器,其上下截止頻率分別為fH和fL 。電話語音編碼:fH=3400Hz, fL=60100Hz, fs=8KHz.語音識別系統(tǒng):用于電話用戶時要求技術(shù)指標(biāo)與語音編 碼器相同
5、,如果對于更高的要求場合,則 fH=4500Hz或8000Hz, fL=60Hz,fs=10KHz或20KHz6v語音分析是語音信號處理的前提和基礎(chǔ); 分析的目的是提取需要的信息,獲取特征表示參數(shù);v短時分析語音是一個時變信號語音的短時平穩(wěn)特性,在1030ms時間段內(nèi)相對平穩(wěn)3.2 語音信號的短時分析語音信號的短時分析7幀和加窗的概念幀和加窗的概念v短時分析將語音流分為一段一段來處理,每一段稱為一“幀”;v幀長:1030ms;幀移:01倍幀長,幀與幀之間的平滑過渡;v語音識別中常用的幀長為2030ms,幀移為10ms805010015020025000.81 rectangu
6、larhamminghanningbartlett幾種常見的窗函數(shù)的波形幾種常見的窗函數(shù)的波形Matlab中可通過中可通過help window命令來查看怎么產(chǎn)生不同的窗命令來查看怎么產(chǎn)生不同的窗為了減小語音幀的截斷效應(yīng),需要特殊的加窗處理為了減小語音幀的截斷效應(yīng),需要特殊的加窗處理( )( ) ( )wxnx n w n10, 1)(Nnnw( )0.540.46cos(2), 011nw nnNN10),12cos(1 (5 . 0)(NnNnnw矩形窗哈明窗(Hamming)漢寧窗(Hanning)9窗的選擇決定短時語音分析結(jié)果的好壞窗的選擇決定短時語音分析結(jié)果的好壞v窗的長度,無論什么
7、窗,長度窗的長度,無論什么窗,長度N起決定性的作用起決定性的作用N選得太大,不能保證每一幀的語音的平穩(wěn)特性N太小,不能保證信號的統(tǒng)計特性,容易產(chǎn)生統(tǒng)計噪聲對于頻域分析而言,窗長N還直接決定了信號頻譜的分辨率對于語音信號,通常幀長應(yīng)選擇為一個語音幀包含有至少2個基音周期為好。人的語音的基音周期值是變化的,從女性小孩的2ms到老年男子的14ms(即基音頻率為500Hz至70Hz),所以N的選擇是比較困難的。通常折衷的選擇N為2030ms。若采用頻率為10KHz,則相當(dāng)于每幀的長度(即窗口序列的長度)約為200300點為宜。若采樣頻率為8KHz,相當(dāng)于160240點v窗的形狀,不同窗的頻率特性是不一
8、樣的,這在短時頻域分窗的形狀,不同窗的頻率特性是不一樣的,這在短時頻域分析時尤為重要析時尤為重要窗口的形狀和長度對分析影響很大,不同的分析方法對窗口的形狀和長度對分析影響很大,不同的分析方法對窗函數(shù)的要求不盡一樣。窗函數(shù)的要求不盡一樣。10幾種不同的窗函數(shù)波形與頻譜的比較幾種不同的窗函數(shù)波形與頻譜的比較10203040506000.81SamplesAmplitudeTime domain00.8-100-80-60-40-2002040Normalized Frequency ( rad/sample)Magnitude (dB)Frequency dom
9、ain10203040506000.81SamplesAmplitudeTime domain00.8-150-100-50050Normalized Frequency ( rad/sample)Magnitude (dB)Frequency domain10203040506000.81SamplesAmplitudeTime domain00.8-20-10010203040Normalized Frequency ( rad/sample)Magnitude (dB)Frequency domain矩形窗矩形窗哈明
10、窗哈明窗漢寧窗漢寧窗11窗函數(shù)頻譜的主瓣與旁瓣窗函數(shù)頻譜的主瓣與旁瓣v主瓣主瓣寬度控制頻譜分析的頻率分辨率,主瓣越窄,頻率分辨率越高v矩形窗的主瓣寬度 = fs/Nvhamming窗的主瓣寬度 約為 2fs/Nv旁瓣旁瓣的高度決定了對臨近頻率成分的干擾抑制能力,高度越低,抑制干擾能力越強(qiáng) v矩形窗: 主瓣高度 - 第一個旁瓣高度 13dBvhamming窗: 主瓣高度 - 第一個旁瓣高度 40dB旁瓣高度跟窗長N 無關(guān)12窗函數(shù)及其比較窗函數(shù)及其比較三種窗函數(shù)都有低通特性,通過分析三種窗的頻率響應(yīng)幅度特性可以發(fā)現(xiàn): 矩形窗的主瓣寬度最小分辨率最高,旁瓣高度最高,會導(dǎo)致泄漏現(xiàn)象; 哈明窗的主瓣最
11、寬,分辨率低(可以通過適當(dāng)提高窗長解決),旁瓣高度最低,可以有效的克服泄漏現(xiàn)象,具有更平滑的低通特性,應(yīng)用更廣泛。13 短時能量短時能量 短時平均幅度短時平均幅度 短時平均過零率短時平均過零率 短時自相關(guān)函數(shù)短時自相關(guān)函數(shù) 端點檢測和基音估計端點檢測和基音估計3.3 語音信號的時域特征分析語音信號的時域特征分析143.3.1 短時能量短時能量v語音信號x(n)的短時能量(假定加長度為N的窗)可以表示為v若加的是矩形窗 則1212)()()(NnnmwNnnmnmxnmwmxE22211 ( ) () ( ) () ( )1 ,01( )0,nnnmm N nm N nExmwn mxmwn m
12、xmn Nwnothers 12)(NnnmnmxE15語音信號及其取不同窗長時的短時能量語音信號及其取不同窗長時的短時能量短時平均能量的主要用途短時平均能量的主要用途可以從語音中區(qū)別出濁音來,因為濁音時短時平均能量的值要比清音時短時平均能量的值大很多;可以用來區(qū)別聲母和韻母的分界、無聲和有聲的分界等163.3.2 短時平均幅度短時平均幅度v語音信號x(n)的短時平均幅度(假定加長度為N的矩形窗)可以表示為1| )(|NnnmnmxE173.3.3 短時過零率短時過零率v過零就是指信號通過零值。過零率(zero-crossing rate)就是每秒內(nèi)信號值通過零值的次數(shù)。v對于離散時間序列,過
13、零則是指序列取樣值改變符號,過零率則是每秒內(nèi)信號樣本改變符號的次數(shù)。對于語音信號,則是指在一幀語音中語音信號波形穿過橫軸(零電平)的次數(shù)。可以用相鄰兩個取樣改變符號的次數(shù)來計算。v短時過零率短時過零率01|sgn( )sgn(1)|2wwZxnxn短時過零率可以看作信號頻率的簡單度量0, 10, 1)sgn(xxx18短時過零率在語音分析中的應(yīng)用短時過零率在語音分析中的應(yīng)用v發(fā)濁音時,聲帶振動,聲門激勵以此音調(diào)頻率為基頻來使聲道共振;盡管有若干個共振峰,但其能量的分布集中在低于3KHz的頻率范圍內(nèi)v發(fā)清音時聲帶不振動,聲道某部分阻塞產(chǎn)生類白噪聲激勵,通過聲道后其能量集中在比濁音時更高的頻率范圍
14、內(nèi)v濁音時能量集中于較低頻率段內(nèi),具有較低的過零率,而清音時能量集中于較高頻率段內(nèi),具有較高的過零率。19 直方圖的分布形狀與高斯分布很吻合,而且濁音時的短時平均過零率的均值為14過零/10ms,清音時短時過零率的均值為47過零/10ms。 濁音和清音有一個交疊區(qū)域,此時很難分清是濁音還是清音。盡管如此,平均過零率仍可以粗略的判斷清音和濁音。 濁音和清音情況下典型的平均過零率的直方圖濁音和清音情況下典型的平均過零率的直方圖 清音清音 濁音濁音 0 10 20 30 40 50 60 70 80 每每 10ms 內(nèi)的過零數(shù)內(nèi)的過零數(shù) 過零率概率分布過零率概率分布 20v作為短時過零率的一個改進(jìn)參
15、數(shù),語音分析時更常作為短時過零率的一個改進(jìn)參數(shù),語音分析時更常用的是短時過電平率用的是短時過電平率(level-crossing rate)。短時過電平率在區(qū)分清音和靜音時很有用短時過電平率在區(qū)分清音和靜音時很有用21短時過零率短時過電平率利用過零率與過電平率區(qū)分清、濁音和靜音利用過零率與過電平率區(qū)分清、濁音和靜音22清清(U)、濁、濁(V)、無聲、無聲(S)的平均幅度的平均幅度(M)和過零率和過零率(Z)的條件概率密度函數(shù)的條件概率密度函數(shù)濁音的短時平均幅度最大,無聲的短時平均幅度最小。濁音的短時平均幅度最大,無聲的短時平均幅度最小。清音的短時過零率最大,無聲居中,濁音的短時過零率最小清音的
16、短時過零率最大,無聲居中,濁音的短時過零率最小23實用算法一:語音端點檢測實用算法一:語音端點檢測v在許多語音處理技術(shù)中需要判斷一段輸入信號中哪些是語音段,哪些是無聲段(只有背景噪聲)在語音識別中正確判斷所要識別語音的起點、終點對于提高識別率很重要。在數(shù)字移動通信中,在較長的無聲段應(yīng)降低移動終端發(fā)射功率以節(jié)約電源的消耗。v對于已經(jīng)判定為語音段的部分,尚需決定其清音或濁音。這些問題可以概括為無聲/有聲判決以及更細(xì)致的S/U/V判決。v能夠?qū)崿F(xiàn)這些判決的依據(jù)在于不同性質(zhì)的語音的各種短時參數(shù)具有不同的概率密度函數(shù)以及相鄰的若干幀語音應(yīng)具有一致的語音特性,它們不會在 S、U、V之間跳來跳去。24v基于
17、能量和過零率的語音端點檢測方法基于能量和過零率的語音端點檢測方法兩級判兩級判決法及程序?qū)崿F(xiàn)決法及程序?qū)崿F(xiàn)25采用雙門限比較法的兩級判決法,具體如下采用雙門限比較法的兩級判決法,具體如下v第一級判決:1.先根據(jù)語音短時能量的輪廓選取一個較高的門限T1,進(jìn)行一次粗判:語音起止點位于該門限與短時能量包絡(luò)交點所對應(yīng)的時間間隔之外(即AB段之外)。 2.根據(jù)背景噪聲的平均能量確定一個較低的門限T2,并從A點往左、從B點往右搜索,分別找到短時能量包絡(luò)與門限T2相交的兩個點C和D,于是CD段就是用雙門限方法根據(jù)短時能量所判定的語音段。 26v第二級判決:1.以短時平均過零率為標(biāo)準(zhǔn),從C點往左和從D點往右搜索
18、,找到短時平均過零率低于某個門限T3的兩點E和F,這便是語音段的起止點。門限T3是由背景噪聲的平均過零率所確定的。2.注意:門限T2,T3都是由背景噪聲特性確定的,因此,在進(jìn)行起止點判決前,T1,T2,T3,三個門限值的確定還應(yīng)當(dāng)通過多次實驗。27v基于基于MATLAB程序?qū)崿F(xiàn)能量與過零率的端點檢測程序?qū)崿F(xiàn)能量與過零率的端點檢測算法步驟算法步驟:(1)語音信號x(n)進(jìn)行分幀處理。(2)得到語音的短時幀能量。(3)計算每一幀語音的過零率,得到短時幀過零率。(4)考察語音的平均能量設(shè)置一個較高的門限T1,用以確定語音開始,然后根據(jù)背景噪聲的平均能量確定一個稍低的門限T2,用以確定第一級語音結(jié)束點
19、。第二級判決同樣根據(jù)背景噪聲平均過零率ZN,設(shè)置一個門限T3,判斷語音前端清音和后端尾音。28語音端點檢測的其它算法語音端點檢測的其它算法v另一種判斷的方法是如果能夠求出S、U、V三種情況下短時平均幅度M和短時過零率Z的條件聯(lián)合概率密度函數(shù)P(M,Z/S), P(M,Z/U), P(M,Z/V),那么就可以采用統(tǒng)計學(xué)中的最大似然算法,根據(jù)一幀信號的M和Z值來判斷它的S/U/V。就是計算后驗概率: P(X/M,Z)=P(M,Z/X)P(X)/P(M,Z) 其中,X=S或U或V。后驗概率最大者即作為判決結(jié)果。v事實上,僅依靠M和Z兩個參數(shù)還是不夠的,通常要選擇更多的參數(shù),如相關(guān)函數(shù)等。293.3.
20、4 短時自相關(guān)函數(shù)短時自相關(guān)函數(shù)v自相關(guān)函數(shù)(自相關(guān)函數(shù)(auto-correlation function)( )( ) ()mR kx m x mk10( )( )()( )()1,1N kmwwwwnnRkxn xnkxn xnkkNN 設(shè) 為一段加窗語音信號,非零區(qū)間為n=0N-1, 的自相關(guān)函數(shù)稱為語音信號的短時自相關(guān)函數(shù)( )( ) ()wx nx m w m n( )wxn1、自相關(guān)函數(shù)是偶函數(shù)2、在k=0處取得最大值,且值為短時能量3、若x(m)是周期的,則Rm(k)也是周期的,其周期與x(m)相同4、可用于基音周期估計和線性預(yù)測分析;30濁音的短時自相關(guān)函數(shù) 清音的短時自相關(guān)
21、函數(shù) 31濁音和清音的短時自相關(guān)函數(shù)有如下幾個特點:濁音和清音的短時自相關(guān)函數(shù)有如下幾個特點:1)短時自相關(guān)函數(shù)可以很明顯的反映出濁音信號的周期性;2)清音的短時自相關(guān)函數(shù)沒有周期性,隨著k的增大迅速減 小,也不具有明顯突出的峰值,其性質(zhì)類似于噪聲;3)不同的窗對短時自相關(guān)函數(shù)結(jié)果有一定的影響。不同矩形窗長時的短時自相關(guān)函數(shù)不同矩形窗長時的短時自相關(guān)函數(shù)3210( )( ) ()( ) ()NmwwwwnnRkxn xnkxn xnk因為求和上限是因為求和上限是N-1,與,與k無關(guān),故當(dāng)無關(guān),故當(dāng)k增加時,值不下降增加時,值不下降 。修正的短時自相關(guān)函數(shù)修正的短時自相關(guān)函數(shù) 設(shè) 為另一段加窗語
22、音信號,非零區(qū)間為n=0N-1+K, K為k的最大值, 的修正的短時自相關(guān)函數(shù)可以寫為 ( )( ) ()wxnx m w m n( )wxn 對于矩形窗,上式又可以寫為10( )() ()NmnRkx mn x mnk33( )( ) ()wx nx m w m n() wx n k n1n N1N () w m n1 Nk 1 Nk n n( ) x m()w mn1nNK () wxnk 1N 1NKk k( )dn34不同矩形窗長時修正的短時自相關(guān)函數(shù)不同矩形窗長時修正的短時自相關(guān)函數(shù)35v基音周期估值在語音信號處理應(yīng)用中具有十分重要的作用。這里介紹基于短時自相關(guān)法的基音周期估值。v語
23、音的濁音信號具有準(zhǔn)周期性,其自相關(guān)函數(shù)在基音周期的整數(shù)倍處取最大值。計算兩相鄰最大峰值間的距離,就可以估計出基音周期。v第一最大峰值點的位置有時不能與基音周期相吻合。原因:窗長度的選取 窗口過長或過短都會導(dǎo)致不一致。通常認(rèn)為窗長至少應(yīng)大于兩個基音周期,語音信號中最長的基音周期約為20ms,因此在基音周期估計時窗長應(yīng)選的大于40ms。聲道特性的影響 聲道的共振峰特性造成對基音頻率的干擾。v為了突出反映基音周期的信息,同時壓縮其他無關(guān)信息,減小運(yùn)算量,自相關(guān)計算之前需要對語音信號進(jìn)行適當(dāng)預(yù)處理。預(yù)處理的兩種方法方法一:先對語音信號進(jìn)行60900Hz的帶通濾波器濾波,再進(jìn)行自相關(guān)計算。方法二:先對語
24、音信號進(jìn)行中心削波處理,再進(jìn)行自相關(guān)計算。v最后還要對估值進(jìn)行平滑后處理實用算法二:基音周期估計實用算法二:基音周期估計36v中心削波中心削波 削波函數(shù)為v三電平削波三電平削波 在中心削波法的基礎(chǔ)上, 采用三電平削波函數(shù)()( )0()()LLLLLLxxxxf xxxxxxxx 1( )01LLLLxxf xxxxxx f(x) x xL -xL O -1 1 經(jīng)削波后的取樣值僅有+1,0,-1三種情況。這種信號的短時自相關(guān)函數(shù)的計算是不需要乘法運(yùn)算的,這就大大節(jié)省了計算時間。37削波前后語音信號對比圖削波前后語音信號對比圖38削波前后修正自相關(guān)對比圖削波前后修正自相關(guān)對比圖 削波后的序列用
25、短時自相關(guān)函數(shù)估計基音周期,在基音周期處削波后的序列用短時自相關(guān)函數(shù)估計基音周期,在基音周期處峰值更加尖銳,可減少倍頻或半頻錯誤。峰值更加尖銳,可減少倍頻或半頻錯誤。 39基音周期估值的后處理基音周期估值的后處理 v基音頻率軌跡基音頻率軌跡“野點野點” 在提取基音時,提取的基音頻率軌跡與真實的軌跡大部分段落吻合,但在一些局部段落和區(qū)域中有一個或幾個基音頻率估計值偏離,甚至遠(yuǎn)離正常軌跡,通常是偏離到正常值的2倍或1/2處,即實際基音頻率的倍頻或分頻處v“野點野點”的去除的去除 中值濾波平滑處理、線性平滑、動態(tài)規(guī)劃平滑處理。 40v中值平滑處理中值平滑處理 基本原理:設(shè)x(n)為輸入信號,y(n)
26、為中值濾波器的輸出,采用一滑動窗,則n0處的輸出值y(n0)就是將窗的中心移到n0處時窗內(nèi)輸入樣點的中值。即在n0點的左右各取L個樣點。連同被平滑點共同構(gòu)成一組信號采樣值(共(2L+1)個樣值),然后將這(2L+1)個樣值按大小次序排成一隊,取此隊列中的中間者作為平滑器的輸出。L值一般取為1或2,即中值平滑的“窗口”一般包括3至5個樣值,稱為3點或5點中值平滑。v線性平滑處理線性平滑處理 用滑動窗進(jìn)行線性濾波處理v組合平滑處理組合平滑處理( )() ()LmLy nx nm w mLLmmw1)(41423.4 語音信號的頻域特征分析語音信號的頻域特征分析v語音信號的主要特征表現(xiàn)在頻率特性上v
27、語音信號的頻率特性是通過傅里葉變換的頻譜來獲得v短時傅里葉變換(short-time Fourier transform (STFT)幅度譜: 對數(shù)幅度譜(dB)相位譜:mmjjnwemnwmxeX)()()(,| )(|,jnweX)(,mjnweX| )(|log20,10jnweX人耳的聽覺對語音信號的相位不敏感,因此,很多時候我們?nèi)硕穆犛X對語音信號的相位不敏感,因此,很多時候我們僅僅關(guān)注信號的短時幅度譜僅僅關(guān)注信號的短時幅度譜43 短時頻域分析中,窗函數(shù)的選擇對語音的頻譜有很短時頻域分析中,窗函數(shù)的選擇對語音的頻譜有很大的影響大的影響根據(jù)卷積定理:根據(jù)卷積定理:)()()()()()
28、(jjjwweWeXeXnwnxnx44比較同一幀語音加矩形窗和哈明窗的對數(shù)幅度譜比較同一幀語音加矩形窗和哈明窗的對數(shù)幅度譜矩形窗:矩形窗:基頻更尖銳(分基頻更尖銳(分辨率高);辨率高);譜噪聲大(旁瓣譜噪聲大(旁瓣泄漏大)泄漏大)哈明窗:哈明窗:頻譜更光滑(旁頻譜更光滑(旁瓣泄漏?。晷孤┬。Z音短時頻譜分語音短時頻譜分析中常用哈明窗析中常用哈明窗45比較不同窗長語音加哈明窗的對數(shù)幅度譜比較不同窗長語音加哈明窗的對數(shù)幅度譜窗長短:失去基頻與諧波成分,頻譜包絡(luò)更明顯窗長短:失去基頻與諧波成分,頻譜包絡(luò)更明顯窗長長:基頻與諧波成分明顯(頻率分辨率高)窗長長:基頻與諧波成分明顯(頻率分辨率高)
29、46濁音短時譜的特點:濁音短時譜的特點: 基頻與諧波成分明顯基頻與諧波成分明顯 頻譜包絡(luò)具有明顯的凸起點,稱為頻譜包絡(luò)具有明顯的凸起點,稱為“共振峰共振峰”(formant)47清音短時譜的特點:清音短時譜的特點: 類似隨機(jī)噪聲類似隨機(jī)噪聲 頻譜包絡(luò)較平坦,一般高頻成分略大頻譜包絡(luò)較平坦,一般高頻成分略大48語譜圖是語音分析的一個重要工具語譜圖是語音分析的一個重要工具v橫軸表示時間橫軸表示時間v縱軸表示頻率縱軸表示頻率v每一個時間每一個時間-頻率坐標(biāo)上的點頻率坐標(biāo)上的點S(t, f)表示表示t時刻、時刻、f頻率成分的能量或幅度,頻率成分的能量或幅度,其大小通過點的灰度(黑白語譜圖)或顏色(彩色
30、語譜圖)來區(qū)分其大小通過點的灰度(黑白語譜圖)或顏色(彩色語譜圖)來區(qū)分語譜圖(語譜圖(spectrogram)49v分析的窗長短分析的窗長短v時域分辨率高、頻域分辨率低時域分辨率高、頻域分辨率低v語譜圖特征為有明顯的粗的橫杠(與共振峰相對應(yīng))語譜圖特征為有明顯的粗的橫杠(與共振峰相對應(yīng))寬帶語譜圖(寬帶語譜圖(wide-band spectrogram)50v分析的窗長長分析的窗長長(512點點)v時域分辨率低時域分辨率低 、頻域分辨率高、頻域分辨率高v語譜圖特征為有明顯的細(xì)的條紋(對應(yīng)基頻與諧波成分)語譜圖特征為有明顯的細(xì)的條紋(對應(yīng)基頻與諧波成分)窄帶語譜圖(窄帶語譜圖(narrow-b
31、and spectrogram)51同態(tài)分析的基本原理同態(tài)分析的基本原理3.5 語音信號的同態(tài)解卷與倒譜分析語音信號的同態(tài)解卷與倒譜分析52卷積同態(tài)信號處理系統(tǒng)卷積同態(tài)信號處理系統(tǒng) 同態(tài)系統(tǒng)可以分解為兩個特征系統(tǒng)(即特征系統(tǒng)和逆特同態(tài)系統(tǒng)可以分解為兩個特征系統(tǒng)(即特征系統(tǒng)和逆特征系統(tǒng))(指取決于信號的組合規(guī)則)和一個線性系統(tǒng)征系統(tǒng))(指取決于信號的組合規(guī)則)和一個線性系統(tǒng)(僅取決于處理要求)(僅取決于處理要求))(H)()()( )()()(nvneHnynvnenx)(H1*)( )( DLD)( )( )( )(nynynxnx53語音信號的同態(tài)解卷語音信號的同態(tài)解卷v根據(jù)語音信號的產(chǎn)生模
32、型,語音信號S(z)是一個線性時不變因果穩(wěn)定系統(tǒng)V(z)受到信號E(z)激勵后所產(chǎn)生的輸出。v在時域中,語音信號s(n)是該系統(tǒng)的單位脈沖響應(yīng)v(n)和激勵信號e(n)的卷積。v在語音信號數(shù)字處理所涉及的各個領(lǐng)域中,根據(jù)s(n)來求得v(n)和e(n)具有非常重要的意義。v由卷積信號求得參與卷積的各個信號的過程稱為解解卷過程卷過程。54v解卷算法可以分為兩大類解卷算法可以分為兩大類:第一類是首先為線性系統(tǒng)第一類是首先為線性系統(tǒng)V(z)建立一個模型,然后對模型建立一個模型,然后對模型參數(shù)按照某種最佳準(zhǔn)則進(jìn)行估計,這種方法稱為參數(shù)按照某種最佳準(zhǔn)則進(jìn)行估計,這種方法稱為參數(shù)解參數(shù)解卷卷方法。采用的模
33、型可以分為全極點模型(方法。采用的模型可以分為全極點模型(AR模型)和模型)和零極點模型(零極點模型(ARMA模型),如果采用最小均方誤差準(zhǔn)模型),如果采用最小均方誤差準(zhǔn)則對則對AR模型進(jìn)行估計,就得到模型進(jìn)行估計,就得到線性預(yù)測編碼線性預(yù)測編碼(LPC)算法。算法。第二類算法稱為第二類算法稱為非參數(shù)解卷非參數(shù)解卷。同態(tài)信號處理完成解卷任。同態(tài)信號處理完成解卷任務(wù)就是其中最重要的一種。務(wù)就是其中最重要的一種。v對信號進(jìn)行分析得出它的倒譜參數(shù)的過程稱為同態(tài)對信號進(jìn)行分析得出它的倒譜參數(shù)的過程稱為同態(tài)處理。處理。v對于語音通信、語音合成或語音識別等語音處理來對于語音通信、語音合成或語音識別等語音處
34、理來說,倒譜參數(shù)所含的信息比其他參數(shù)多,也就是語說,倒譜參數(shù)所含的信息比其他參數(shù)多,也就是語音質(zhì)量好,識別準(zhǔn)確率高。音質(zhì)量好,識別準(zhǔn)確率高。55語音同態(tài)解卷的特征系統(tǒng)與逆特征系統(tǒng)語音同態(tài)解卷的特征系統(tǒng)與逆特征系統(tǒng)*D1( ) ln( ) ( )ZZ)( (z) (z) )(nxXXnx1*)(D)( )(exp )(1ZZ)( (z) (z) )( nyYYny12-1-11212( )( )( )( ) ( )( )( )( )ln( )ln( )ln( )( )( )Z ( )Z ( )( )( )( )( )( )x ne nv nX zZ x nE zV zX zX zE zV zXz
35、XzX zXzXzx nx ne nv n輸入信號:Z變換:對數(shù)運(yùn)算:逆Z變換56語音信號的復(fù)倒譜語音信號的復(fù)倒譜(Complex Cepstrum)deeXeXFnxeXeXenxnxFeXnjjjjjNNnnjj)(21)()()(ln)()()()(121征系統(tǒng)求得復(fù)倒譜的另一個特)( ),( nynx 分別是x(n), y(n)的復(fù)倒譜,復(fù)倒譜所處的離散時域稱為復(fù)倒譜域。同態(tài)解卷的特征系統(tǒng)將離散時域的卷積運(yùn)算轉(zhuǎn)換為復(fù)倒譜域的加運(yùn)算,而逆特征系統(tǒng)則為其逆運(yùn)算立葉變換來代替。變換都可以利用正負(fù)傅都包含單位圓,正反的收斂域問題中,絕大多數(shù)數(shù)字信號處理運(yùn)算。而逆特征系統(tǒng)則為其逆譜域中加運(yùn)算,的
36、卷積運(yùn)算轉(zhuǎn)換為復(fù)倒特征系統(tǒng)將離散時域中域。的離散時域稱為復(fù)倒譜的復(fù)倒譜。復(fù)倒譜所處是同樣。的復(fù)倒譜,其英文為是ZZYZYZXZXnynyCepstrumComplexnxnx)(),(),(),()()( )()(求復(fù)倒譜的另一個特征系統(tǒng):求復(fù)倒譜的另一個特征系統(tǒng):57語音信號的倒譜語音信號的倒譜(Cepstrum)。譜稱為倒頻譜,簡稱為倒求得倒譜的特征系統(tǒng)CepstrumncdeeCeCFnceXeCenxnxFeXnjjjjjNNnnjj)()(21)()()(ln)()()()(121復(fù)倒譜經(jīng)過正逆兩個特征系統(tǒng)變換后,序列可以還原為復(fù)倒譜經(jīng)過正逆兩個特征系統(tǒng)變換后,序列可以還原為本身。但
37、是倒譜經(jīng)過正逆兩個特征系統(tǒng)變換后,序列不本身。但是倒譜經(jīng)過正逆兩個特征系統(tǒng)變換后,序列不可以還原為本身??梢赃€原為本身。58語音信號倒譜和復(fù)倒譜的性質(zhì)語音信號倒譜和復(fù)倒譜的性質(zhì)v根據(jù)語音信號產(chǎn)生的模型,在z域中語音信號S(z)等于激勵信號E(z)和聲道傳輸函數(shù)V(z)的乘積,即S(z)=E(z)V(z)。經(jīng)過同態(tài)系統(tǒng)后可以得到:v對聲門激勵信號。發(fā)清音時,聲門激勵是能量較小、頻譜均勻分布的白噪聲,其對應(yīng)的倒譜也是一個噪聲序列;發(fā)濁音時,聲門激勵是以基調(diào)周期為周期的周期脈沖序列,其對應(yīng)的倒譜也是一個周期的序列,并且倒譜的周期等于信號的周期v對聲道沖激響應(yīng)v(n) 或者h(yuǎn)(n), 其倒譜是一個快速收斂的信號。)( )( )( nvnens59050100150200250300-0.4-0.6hamming windowed voiced speech frametime samplesamplitude050100150200250
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全生產(chǎn)工作要點概述
- 智能財稅綜合實訓(xùn) 下篇 課件 智能財稅基礎(chǔ)業(yè)務(wù)5 社會共享中級外包實務(wù)
- 2025年黨政領(lǐng)導(dǎo)干部黨章黨規(guī)黨紀(jì)黨史知識培訓(xùn)考試題庫及答案(共230題)
- 2025年度商標(biāo)權(quán)轉(zhuǎn)讓款代付服務(wù)協(xié)議
- 上市公司資金管理存款居間
- 實驗動物房裝修合同解除
- 無縫物流操作指南文件匯編
- 電子商務(wù)平臺客戶服務(wù)提升預(yù)案
- 塔式起重機(jī)安裝專項施工方案內(nèi)容
- 有機(jī)蔬菜種植要求
- 【正版授權(quán)】 ISO 17694:2016 EN Footwear - Test methods for uppers and lining - Flex resistance
- 2024年個人信用報告(個人簡版)樣本(帶水印-可編輯)
- DZ∕T 0202-2020 礦產(chǎn)地質(zhì)勘查規(guī)范 鋁土礦(正式版)
- 天然裝飾石材
- 2023年河南省對口升學(xué)計算機(jī)類基礎(chǔ)課試卷
- 門診導(dǎo)醫(yī)正確分診
- 建筑施工環(huán)境保護(hù)培訓(xùn)
- 2024年西安醫(yī)學(xué)高等??茖W(xué)校單招職業(yè)技能測試題庫及答案解析
- 2024年事業(yè)單位考試云南省昭通市A類《職業(yè)能力傾向測驗》深度預(yù)測試題含解析
- 高風(fēng)險作業(yè)培訓(xùn)課件
- 建筑工程分部分項工程劃分表(新版)
評論
0/150
提交評論