語音信號(hào)的短時(shí)時(shí)域分析_第1頁
語音信號(hào)的短時(shí)時(shí)域分析_第2頁
語音信號(hào)的短時(shí)時(shí)域分析_第3頁
語音信號(hào)的短時(shí)時(shí)域分析_第4頁
語音信號(hào)的短時(shí)時(shí)域分析_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

語音信號(hào)的短時(shí)時(shí)域分析演示文稿現(xiàn)在是1頁\一共有57頁\編輯于星期日語音信號(hào)的短時(shí)時(shí)域分析現(xiàn)在是2頁\一共有57頁\編輯于星期日3.1

概述

語音信號(hào)是一種非平穩(wěn)的時(shí)變信號(hào),它攜帶著各種信息。在語音編碼、語音合成、語音識(shí)別和語音增強(qiáng)等語音處理中都需要提取語音中包含的各種信息。語音處理的目的:對語音信號(hào)進(jìn)行分析,提取特征參數(shù),用于后續(xù)處理;加工語音信號(hào)??傊?,語音信號(hào)分析的目的就在于方便有效的提取并表示語音信號(hào)所攜帶的信息。

現(xiàn)在是3頁\一共有57頁\編輯于星期日

根據(jù)所分析的參數(shù)類型,語音信號(hào)分析可以分成時(shí)域分析和變換域(頻域、倒譜域)分析。其中時(shí)域分析方法是最簡單、最直觀的方法,它直接對語音信號(hào)的時(shí)域波形進(jìn)行分析,提取的特征參數(shù)主要有語音的短時(shí)能量和平均幅度、短時(shí)平均過零率、短時(shí)自相關(guān)函數(shù)和短時(shí)平均幅度差函數(shù)等?,F(xiàn)在是4頁\一共有57頁\編輯于星期日3.2語音信號(hào)的預(yù)處理

在對語音信號(hào)進(jìn)行數(shù)字處理之前,首先要將模擬語音信號(hào)s(t)離散化為s(n).實(shí)際中獲得數(shù)字語音的途徑一般有兩種,正式的和非正式的。正式的是指大公司或語音研究機(jī)構(gòu)發(fā)布的被大家認(rèn)可的語音數(shù)據(jù)庫,非正式的則是研究者個(gè)人用錄音軟件或硬件電路加麥克風(fēng)隨時(shí)隨地錄制的一些發(fā)音或語句?,F(xiàn)在是5頁\一共有57頁\編輯于星期日圖3-4語音信號(hào)處理系統(tǒng)框圖現(xiàn)在是6頁\一共有57頁\編輯于星期日現(xiàn)在是7頁\一共有57頁\編輯于星期日

語音信號(hào)的頻率范圍通常是300~3400Hz,一般情況下取采樣率為8kHz即可。采樣后的信號(hào)在進(jìn)行量化的過程中不可避免的產(chǎn)生量化誤差,一般可用量化信噪比來表示量化誤差的大?。?/p>

現(xiàn)在是8頁\一共有57頁\編輯于星期日3.2.1語音信號(hào)的預(yù)加重處理

預(yù)加重目的:為了對語音的高頻部分進(jìn)行加重,去除口唇輻射的影響,增加語音的高頻分辨率??赏ㄟ^一階FIR高通數(shù)字濾波器來實(shí)現(xiàn):設(shè)n時(shí)刻的語音采樣值為x(n)

,經(jīng)過預(yù)加重處理后的結(jié)果為

有了語音數(shù)據(jù)文件后,對語音的預(yù)處理包括:預(yù)加重、加窗分幀等。現(xiàn)在是9頁\一共有57頁\編輯于星期日高通濾波器的幅頻特性和相頻特性如下

現(xiàn)在是10頁\一共有57頁\編輯于星期日預(yù)加重前和預(yù)加重后的一段語音信號(hào)時(shí)域波形

現(xiàn)在是11頁\一共有57頁\編輯于星期日

預(yù)加重前和預(yù)加重后的一段語音信號(hào)頻譜

現(xiàn)在是12頁\一共有57頁\編輯于星期日3.2.2語音信號(hào)的加窗處理

由于發(fā)音器官的慣性運(yùn)動(dòng),可以認(rèn)為在一小段時(shí)間里(一般為10ms~30ms)語音信號(hào)近似不變,即語音信號(hào)具有短時(shí)平穩(wěn)性。這樣,可以把語音信號(hào)分為一些短段(稱為分析幀)來進(jìn)行處理。

現(xiàn)在是13頁\一共有57頁\編輯于星期日

語音信號(hào)的分幀實(shí)現(xiàn)方法:采用可移動(dòng)的有限長度窗口進(jìn)行加權(quán)的方法來實(shí)現(xiàn)的。一般每秒的幀數(shù)約為33~100幀。分幀一般采用交疊分段的方法,這是為了使幀與幀之間平滑過渡,保持其連續(xù)性。前一幀和后一幀的交疊部分稱為幀移,幀移與幀長的比值一般取為0~1/2。

現(xiàn)在是14頁\一共有57頁\編輯于星期日圖3.3給出了幀移與幀長示意圖。

現(xiàn)在是15頁\一共有57頁\編輯于星期日加窗常用的兩種方法:矩形窗,窗函數(shù)如下:漢明(Hamming)窗,窗函數(shù)如下現(xiàn)在是16頁\一共有57頁\編輯于星期日矩形窗及其頻譜如下現(xiàn)在是17頁\一共有57頁\編輯于星期日漢明窗及其頻譜如下現(xiàn)在是18頁\一共有57頁\編輯于星期日思考:兩種窗效果有何異同?現(xiàn)在是19頁\一共有57頁\編輯于星期日加窗方法示意圖:現(xiàn)在是20頁\一共有57頁\編輯于星期日窗長的選擇一般選取100~200(應(yīng)含1~7個(gè)基音周期)。原因如下:當(dāng)窗較寬時(shí),平滑作用大,能量變化不大,故反映不出能量的變化。當(dāng)窗較窄時(shí),沒有平滑作用,反映了能量的快變細(xì)節(jié),而看不出包絡(luò)的變化。

現(xiàn)在是21頁\一共有57頁\編輯于星期日

語音信號(hào)的分幀處理,實(shí)際上就是對各幀進(jìn)行某種變換或運(yùn)算。設(shè)這種變換或運(yùn)算用T[]表示,x(n)為輸入語音信號(hào),w(n)為窗序列,h(n)是與w(n)有關(guān)的濾波器,則各幀經(jīng)處理后的輸出可以表示為:現(xiàn)在是22頁\一共有57頁\編輯于星期日幾種常見的短時(shí)處理方法是:1.對應(yīng)于能量;2.,對應(yīng)于平均過零率;3.對應(yīng)于自相關(guān)函數(shù);現(xiàn)在是23頁\一共有57頁\編輯于星期日3.3短時(shí)平均能量

1.短時(shí)平均能量定義定義n時(shí)刻某語音信號(hào)的短時(shí)平均能量En為:當(dāng)窗函數(shù)為矩形窗時(shí),有現(xiàn)在是24頁\一共有57頁\編輯于星期日若令則短時(shí)平均能量可以寫成:

現(xiàn)在是25頁\一共有57頁\編輯于星期日2.En特點(diǎn):En反映語音信號(hào)的幅度或能量隨時(shí)間緩慢變化的規(guī)律。3.窗的長短對于能否由短時(shí)能量反映語音信號(hào)的幅度變化,起著決定性影響。

如果窗選得很長,En不能反映語音信號(hào)幅度變化。

窗選得太窄,En將不夠平滑。通常,當(dāng)取樣頻率為10kHz時(shí),選擇窗寬度N=100~200是比較合適的?,F(xiàn)在是26頁\一共有57頁\編輯于星期日不同矩形窗長N時(shí)的短時(shí)能量函數(shù)

現(xiàn)在是27頁\一共有57頁\編輯于星期日

短時(shí)平均能量的主要用途如下:

1)可以作為區(qū)分清音和濁音的特征參數(shù)。

2)在信噪比較高的情況下,短時(shí)能量還可以作為區(qū)分有聲和無聲的依據(jù)。

3)可以作為輔助的特征參數(shù)用于語音識(shí)別中?,F(xiàn)在是28頁\一共有57頁\編輯于星期日MATLAB的具體實(shí)現(xiàn)如下:1、用Cooledit讀入語音“我到北京去”。2、將讀入的語音文件wav保存為txt文件,設(shè)置采樣率為8kHz,16位,單聲道。3、把保存的文件zqq.txt讀入Matlab。fid=fopen('zqq.txt','rt');x=fscanf(fid,'%f');fclose(fid);4、對采集到的語音樣點(diǎn)值進(jìn)行分幀?,F(xiàn)在是29頁\一共有57頁\編輯于星期日3.4短時(shí)平均幅度函數(shù)

為了克服短時(shí)能量函數(shù)計(jì)算x2(m)的缺點(diǎn),定義了短時(shí)平均幅度函數(shù):現(xiàn)在是30頁\一共有57頁\編輯于星期日

Mn與En的比較:

1.Mn能較好地反映清音范圍內(nèi)的幅度變化;

2.Mn所能反映幅度變化的動(dòng)態(tài)范圍比En好;

3.

Mn反映清音和濁音之間的電平差次于En。

現(xiàn)在是31頁\一共有57頁\編輯于星期日短時(shí)平均幅度函數(shù)隨矩形窗窗長N變化的情況現(xiàn)在是32頁\一共有57頁\編輯于星期日3.5短時(shí)平均過零率

1.定義

在離散時(shí)間語音信號(hào)情況下,如果相鄰的采樣具有不同的代數(shù)符號(hào)就稱為發(fā)生了過零。單位時(shí)間內(nèi)過零的次數(shù)就稱為過零率。短時(shí)平均過零率的定義為

現(xiàn)在是33頁\一共有57頁\編輯于星期日在上式中,用1/2N

作為幅值,是考慮了對該窗口范圍內(nèi)的過零數(shù)取平均的意思?,F(xiàn)在是34頁\一共有57頁\編輯于星期日

考慮到w(n-m)的非零值范圍為n-m≥0,即m≤n,以及n-m≤N-1,故m≥n-N+1,因此短時(shí)平均過零率可以改寫為:(定義式)現(xiàn)在是35頁\一共有57頁\編輯于星期日2.實(shí)現(xiàn)短時(shí)平均過零率現(xiàn)在是36頁\一共有57頁\編輯于星期日女聲“我到北京去”的短時(shí)平均過零次數(shù)的變化曲線:現(xiàn)在是37頁\一共有57頁\編輯于星期日3.應(yīng)用

清音過零率高,濁音過零率低。局限性:濁音和清音重疊區(qū)域只根據(jù)短時(shí)平均過零率不可能明確地判別清、濁音?,F(xiàn)在是38頁\一共有57頁\編輯于星期日端點(diǎn)檢測

端點(diǎn)檢測目的:從包含語音的一段信號(hào)中確定出語音的起點(diǎn)及結(jié)束點(diǎn)。有效的端點(diǎn)檢測不僅能使處理時(shí)間減到最少,而且能抑制無聲段的噪聲干擾,提高語音處理的質(zhì)量?,F(xiàn)在是39頁\一共有57頁\編輯于星期日3.6短時(shí)自相關(guān)分析

3.6.1短時(shí)自相關(guān)函數(shù)

時(shí)域離散確定信號(hào)的自相關(guān)函數(shù)定義為:

時(shí)域離散隨機(jī)信號(hào)的自相關(guān)函數(shù)定義為:

周期為P的周期信號(hào)滿足:

現(xiàn)在是40頁\一共有57頁\編輯于星期日

自相關(guān)函數(shù)具有下述性質(zhì):

(1)

對稱性R(k)=R(-k)(2)

在k=0處為最大值,即對于所有k來說,

|R(k)|≤R(0)(3)

對于確定信號(hào),R(0)對應(yīng)于能量對于隨機(jī)信號(hào),R(0)對應(yīng)于平均功率

現(xiàn)在是41頁\一共有57頁\編輯于星期日

采用短時(shí)分析方法,定義語音信號(hào)短時(shí)自相關(guān)函數(shù)為

因?yàn)樗?.6.2語音信號(hào)的短時(shí)自相關(guān)函數(shù)

現(xiàn)在是42頁\一共有57頁\編輯于星期日定義(3-18)那么短時(shí)自相關(guān)函數(shù)可以寫成:

上式表明,序列經(jīng)過一個(gè)沖激響應(yīng)為的數(shù)字濾波器濾波即得到短時(shí)自相關(guān)函數(shù)

現(xiàn)在是43頁\一共有57頁\編輯于星期日現(xiàn)在是44頁\一共有57頁\編輯于星期日也可采用直接運(yùn)算的方法,令則可得:上式可以寫成

現(xiàn)在是45頁\一共有57頁\編輯于星期日濁音的短時(shí)自相關(guān)函數(shù)

現(xiàn)在是46頁\一共有57頁\編輯于星期日清音的短時(shí)自相關(guān)函數(shù)

現(xiàn)在是47頁\一共有57頁\編輯于星期日濁音和清音的短時(shí)自相關(guān)函數(shù)有如下幾個(gè)特點(diǎn):1)短時(shí)自相關(guān)函數(shù)可以很明顯的反映出濁音信號(hào)的周期性。2)清音的短時(shí)自相關(guān)函數(shù)沒有周期性,也不具有明顯突出的峰值,其性質(zhì)類似于噪聲。3)不同的窗對短時(shí)自相關(guān)函數(shù)結(jié)果有一定的影響?,F(xiàn)在是48頁\一共有57頁\編輯于星期日圖3.16不同矩形窗長時(shí)的短時(shí)自相關(guān)函數(shù)現(xiàn)在是49頁\一共有57頁\編輯于星期日3.6.3修正的短時(shí)自相關(guān)函數(shù)修正的短時(shí)自相關(guān)函數(shù),其定義如下現(xiàn)在是50頁\一共有57頁\編輯于星期日式中,K為k的最大值,即0≤k≤K。要使為非零值,必須使

考慮到,可得

修正的短時(shí)自相關(guān)函數(shù)可以寫成:現(xiàn)在是51頁\一共有57頁\編輯于星期日因?yàn)榍蠛蜕舷奘荖-1,與k無關(guān),故當(dāng)k增加時(shí),值不下降

.

現(xiàn)在是52頁\一共有57頁\編輯于星期日3.6.4短時(shí)平均幅度差函數(shù)

一個(gè)周期為P的周期信號(hào),在k=0,±P,2P,…時(shí),對于濁音語音,在基音周期的整數(shù)倍上,d(n)總是很小,但不是零,因此,我們可以定義短時(shí)平均幅度差函數(shù)AMDF為現(xiàn)在是53頁\一共有57頁\編輯于星期日使用矩形窗時(shí),短時(shí)平均幅度差函數(shù)可寫成:與之間的關(guān)系為:現(xiàn)在是54頁\一共有57頁\編輯于星期日3.7基于能量和過零率的語音端點(diǎn)檢測

語音端點(diǎn)檢測就是指從包含語音的一段信號(hào)中確定出語音的起始點(diǎn)和結(jié)束點(diǎn)。正確的端點(diǎn)檢測對于語音識(shí)別和語音編碼系統(tǒng)都有重要的意義。

本節(jié)介紹基于能量和過零率的語音端點(diǎn)檢測方法——兩級(jí)判決法及程序?qū)崿F(xiàn)。

現(xiàn)在是55頁\一共有57頁\編輯于星期日

兩級(jí)判決法示意圖現(xiàn)在是5

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論