語音信號處理課件-數(shù)字語音信號預(yù)處理及分析初步_10_第1頁
語音信號處理課件-數(shù)字語音信號預(yù)處理及分析初步_10_第2頁
語音信號處理課件-數(shù)字語音信號預(yù)處理及分析初步_10_第3頁
語音信號處理課件-數(shù)字語音信號預(yù)處理及分析初步_10_第4頁
語音信號處理課件-數(shù)字語音信號預(yù)處理及分析初步_10_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、1.存儲方式: 已量化好的語音信號序列按先入先出的順序存入數(shù)據(jù)區(qū)。以便一個有限容量的數(shù)據(jù)區(qū)來應(yīng)付數(shù)量極大的語音數(shù)據(jù)。二、pretreatment12.預(yù)加重: 在求語音信號頻譜時,頻率越高,相應(yīng)的成分越小。預(yù)加重的目的是提升高頻部分,使信號的頻譜變得平坦。以便于頻譜分析和聲道參數(shù)分析。 一般在語音信號數(shù)字化后,通過一個一階數(shù)字濾波器:H(z)=1-z-1, 接近1。x(n)x(n)H(z)=1-z-12加矩形窗分幀技術(shù) 加窗加漢寧窗 hanning第n幀第n+1幀第n+2幀 各幀之間有01/2的重疊,由窗函數(shù)的定義決定的。w(n)=0.5*1-cos(2n/(N-1) 第n+3幀t第n幀第n+

2、1幀第n+2幀第n+3幀第n+4幀3 為什么取1030ms,因為根據(jù)人的發(fā)聲生理結(jié)構(gòu)變化的連續(xù)性,在此時間段內(nèi),聲帶、聲道、口腔的特性幾乎不變,語音信號近似平穩(wěn)。4加窗的作用得到連續(xù)的語音特征抑制吉爾伯特效應(yīng)抑制頻譜泄漏5漢寧窗 hanning海明窗 hamming矩形窗(rectangular)6Window shapes7T為幀移長度N為幀長x0(m)0N-1x1(m)TT+N-18第1幀第2幀0N-1N2N-1 第1幀第2幀0N-1N/2N+(N/2)-1加矩形窗(幀移長度為N)加漢寧窗(幀移長度為N/2)x0(m)x1(m)x0(m)x1(m)幀移T=0幀移T= N/29512點的漢寧

3、窗 當(dāng)采用漢寧窗 ,原有數(shù)據(jù)的幅度發(fā)生變化,為了保持?jǐn)?shù)據(jù)的原始幅度,必須采取各幀數(shù)據(jù)之間有1/2的重疊。10 由于在 1030ms,語音信號近似平穩(wěn)。每秒的幀數(shù)約為:33100幀。 窗口的長度N:頻率分辨率f=fs/N。f隨N的增加而減少,頻率分辨率得到提高,但時間分辨率降低(與窗長成反比)。應(yīng)根據(jù)不同的應(yīng)用場合來選擇窗口的長度N,應(yīng)包含7個基音周期,因此可選擇100300點為宜。11Long window: frequency resolution time resolutionShort window: frequency resolution time resolution 基音頻率為2

4、00Hz,采樣頻率為8kHz, 窗長: 8000(1/200)7=25612Windowing (frame)In short-term, non-stationary-stationaryNon-linear-linear (10ms-25ms)13 經(jīng)過處理,語音信號就已經(jīng)被分割成一幀一幀的加過窗函數(shù)的短時信號,然后再把每一個短時語音幀看成平穩(wěn)的隨機(jī)信號,利用數(shù)字信號處理技術(shù)來提取語音特征參數(shù)。在進(jìn)行處理時,按幀從數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完后再取下一幀。最后得到由每一幀參數(shù)組成的語音特征參數(shù)的時間序列。14x0(m)0N-1x1(m)TT+N-1y0(m)0N-1y1(m)TT+N-115

5、語音信號的特性分析一、語音信號的時域波形和頻譜特性二、語音信號的語譜圖三、語音信號的統(tǒng)計特性16一、語音信號的時域波形和頻譜特性 時域波形:幅度時間圖。大致得出音節(jié)的起始點、清音和濁音以及濁音的基音頻率。女聲漢語拼音a的時域波形17 頻譜特性:幅度譜圖。得出基音周期、共振峰頻率及其位置。女聲英文a的頻譜183 語音信號的時域分析一、短時能量及短時平均幅度分析二、短時過零率分析三、短時相關(guān)分析四、短時平均幅度差函數(shù)191.幅度分析的依據(jù):是基于語音信號幅度隨時間變化。清音段幅度小,其能量集中于高頻段;濁音段幅度較大,其能量集中于低頻段。2.短時能量函數(shù)和短時平均幅度函數(shù)一、短時能量及短時平均幅度分析T為幀移長度N為幀長20 男聲“深圳 廣州 珠?!钡亩虝r幅度統(tǒng)計。在采樣頻率為22050Hz的情況下,取20ms作為一幀,幀長為441點,一共統(tǒng)計了180幀。短時平均幅度原始語音213.短時平均幅度函數(shù)和能量函數(shù)的作用(1)區(qū)分清/濁音: En、Mn大,對應(yīng)濁音; En、Mn小,對應(yīng)清音。(2)在信噪比高的情況下,能進(jìn)行有聲/無聲判決 無聲時,背景噪聲的En、Mn??; 有聲時,En、Mn顯著增大。判決時可設(shè)置一個門限。(3)大致能定出濁音變?yōu)榍逡舻臅r刻,或反之。22 女聲漢語拼音a的一幀信號(在采樣頻率為22

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論