




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第一章 語音信號的特點與采集第一節(jié) 語音信號采集的介紹在Matlab環(huán)境中,主要可以通過以下幾種方法驅動聲卡,采集語音信號: 1將聲卡作為對象處理采集語音信號Matlab將聲卡作為對象處理,其后的一切操作都不與硬件直接相關,而是通過對該對象的操作來作用于硬件設備(聲卡)。操作時首先要對聲卡產(chǎn)生一個模擬輸入對象(ai),給ai對象添加一個通道設置采樣頻率后,就可以啟動設備對象,開始采集數(shù)據(jù),采集完成后停止對象并刪除對象。2調用wavrecord功能函數(shù)采集語音信號。wavrecord功能函數(shù)只適用于windows95/98/N平臺,它使用windows聲音輸入設備錄制聲音。函數(shù)調用方式:wavr
2、ecord(N,fs,ch,nbits); N:采集的樣本數(shù)據(jù)量; fs:樣本采集頻率,為8000Hz、11025Hz、22050Hz和44100Hz之一,默認值為11025Hz; ch:樣本采集通道,1為單聲道,2為雙聲道,默認值為1(單聲道); nbits:每個樣本的位數(shù)(或稱解析度), double、single或int16為16位,uint8為8位; 3運用audiorecorder對象采集語音信號audiorecorder(fs,nbits,ch)可以創(chuàng)設一個audiorecorder對象。fs:樣本采集頻率,為8000Hz、11025Hz、22050Hz和44100Hz之一,默認值
3、為8000Hz; nbits:每個樣本的位數(shù),8位或16位,默認值為8位; ch:樣本采集通道,1為單聲道,2為雙聲道,默認值為1(單聲道); audiorecorder對象創(chuàng)設后,就可以進行相應的錄音、暫停、停止、播放以及數(shù)據(jù)讀取等操作。第二節(jié) 語音信號的特點 通過對大量語音信號的觀察和分析發(fā)現(xiàn),語音信號主要有下面兩個特點: 在頻域內,語音信號的頻譜分量主要集中在3003400Hz的范圍內。利用這個特點,可以用一個防混迭的帶通濾波器將此范圍內的語音信號頻率分量取出,然后按8kHz的采樣率對語音信號進行采樣,就可以得到離散的語音信號。 在時域內,語音信號具有“短時性”的特點,即在總體上,語音信
4、號的特征是隨著時間而變化的,但在一段較短的時間間隔內,語音信號保持平穩(wěn)。在濁音段表現(xiàn)出周期信號的特征,在清音段表現(xiàn)出隨機噪聲的特征。下面是一段語音信號的時域波形圖(圖1-1)和頻域圖(圖1-2),由這兩個圖可以看出語音信號的兩個特點。 圖1-1語音信號時域波形圖 圖1-2語音信號頻域波形圖第三節(jié) 語音信號的采集在將語音信號進行數(shù)字化前,必須先進行防混疊預濾波,預濾波的目的有兩個:抑制輸入信導各領域分量中頻率超出fs/2的所有分量(fs為采樣頻率),以防止混疊干擾。抑制50Hz的電源工頻干擾。這樣,預濾波器必須是一個帶通濾波器,設其上、下截止顏率分別是fH和fL,則對于絕大多數(shù)語音編譯碼器,fH
5、=3400Hz、fL60100Hz、采樣率為fs8kHz;而對語音識別而言,當用于電話用戶時,指標與語音編譯碼器相同。當使用要求較高或很高的場合時fH4500Hz或8000Hz、fL60Hz、fs10kHz或20kHz。為了將原始模擬語音信號變?yōu)閿?shù)字信號,必須經(jīng)過采樣和量化兩個步驟,從而得到時間和幅度上均為離散的數(shù)字語音信號。采樣也稱抽樣,是信號在時間上的離散化,即按照一定時間間隔t在模擬信號x(t)上逐點采取其瞬時值。采樣時必須要注意滿足奈奎斯特定理,即采樣頻率fs必須以高于受測信號的最高頻率兩倍以上的速度進行取樣,才能正確地重建波它是通過采樣脈沖和模擬信號相乘來實現(xiàn)的。在采樣的過程中應注意
6、采樣間隔的選擇和信號混淆:對模擬信號采樣首先要確定采樣間隔。如何合理選擇t涉及到許多需要考慮的技術因素。一般而言,采樣頻率越高,采樣點數(shù)就越密,所得離散信號就越逼近于原信號。但過高的采樣頻率并不可取,對固定長度(T)的信號,采集到過大的數(shù)據(jù)量(N=T/t),給計算機增加不必要的計算工作量和存儲空間;若數(shù)據(jù)量(N)限定,則采樣時間過短,會導致一些數(shù)據(jù)信息被排斥在外。采樣頻率過低,采樣點間隔過遠,則離散信號不足以反映原有信號波形特征,無法使信號復原,造成信號混淆。根據(jù)采樣定理,當采樣頻率大于信號的兩倍帶寬時,采樣過程不會丟失信息,利用理想濾波器可從采樣信號中不失真地重構原始信號波形。量化是對幅值進
7、行離散化,即將振動幅值用二進制量化電平來表示。量化電平按級數(shù)變化,實際的振動值是連續(xù)的物理量。具體振值用舍入法歸到靠近的量化電平上。 在實際工作中,我們可以利用windows自帶的錄音機錄制語音文件,圖2-3是基于PC機的語音信號采集過程,聲卡可以完成語音波形的A/D轉換,獲得WAVE文件,為后續(xù)的處理儲備原材料。調節(jié)錄音機保存界面的“更改”選項,可以存儲各種格式的WAVE文件。Windows自帶的錄音機聲音麥克風聲卡濾波采樣A/D轉換 Wav圖1-3 基于PC機的語音信號采集過程采集到語音信號之后,需要對語音信號進行分析,如語音信號的時域分析、頻譜分析、語譜圖分析以及加噪濾波等處理。第二章
8、語音信號的分析第一節(jié) 語音信號分析技術語音信號分析是語音信號處理的前提和基礎,只有分析出可表示語音信號本質特征的參數(shù),才有可能利用這些參數(shù)進行高效的語音通信、語音合成和語音識別等處理。而且,語音合成的音質好壞,語音識別率的高低,也都取決于對語音信號分橋的準確性和精確性。因此語音信號分析在語音信號處理應用中具有舉足輕重的地位。貫穿于語音分析全過程的是“短時分析技術”。因為,語音信號從整體來看其特性及表征其本質特征的參數(shù)均是隨時間而變化的,所以它是一個非乎穩(wěn)態(tài)過程,不能用處理乎穩(wěn)信號的數(shù)字信號處理技術對其進行分析處理。但是,由于不同的語音是由人的口腔肌肉運動構成聲道某種形狀而產(chǎn)生的響應,而這種口腔
9、肌肉運動相對于語音頻率來說是非常緩慢的,所以從另一方面看,雖然語音倍號具有時變特性,但是在一個短時間范圍內(一般認為在1030ms的短時間內),其特性基本保持不變即相對穩(wěn)定,因面可以將其看作是一個準穩(wěn)態(tài)過程,即語音信號具有短時平穩(wěn)性。所以任何語音信號的分析和處理必須建立在“短時”的基礎上即進行“短時分析”,將語音信號分為一段一段來分析其特征參數(shù),其中每一段稱為一“幀”,幀長一般取為1030ms。這樣,對于整體的語音信號來講,分析出的是由每一幀特征參數(shù)組成的特征參數(shù)時間序列。根據(jù)所分析出的參數(shù)的性質的不同,可將語音信號分析分為時域分析、頻域分析、倒領域分析等;時域分析方法具有簡單、計算量小、物理
10、意義明確等優(yōu)點,但由于語音信號最重要的感知特性反映在功率譜中,而相位變化只起著很小的作用,所以相對于時域分析來說頻域分析更為重要。本文將簡要介紹時域分析、頻域分析。第二節(jié) 語音信號的時域分析語音信號的時域分析就是分析和提取語音信號的時域參數(shù)。進行語音分析時,最先接觸到并且也是最直觀的是它的時域波形。語音信號本身就是時域信號,因而時域分析是最早使用,也是應用最廣泛的一種分析方法,這種方法直接利用語音信號的時域波形。時域分析通常用于最基本的參數(shù)分析及應用,如語音的分割、預處理、大分類等。這種分析方法的特點是:表示語音信號比較直觀、物理意義明確。實現(xiàn)起來比較簡單、運算且少。可以得到語音的一些重要的參
11、數(shù)。只使用示波器等通用設備,使用較為簡單等。語音信號的時域參數(shù)有短時能量、短時過零率、短時白相關函數(shù)和短時平均幅度差函數(shù)等,這是語音信號的一組最基本的短時參數(shù),在各種語音信號數(shù)字處理技術中都要應用。在計算這些參數(shù)時使用的一般是方窗或漢明窗。一 短時能量及短時平均幅度分析設語音波形時域信號為x(l)、加密分幀處理后得到的第n幀語音信號為 Xn(m),則Xn(m)滿足下式: (2-1) (2-2)其中,n0,1T,2T,并且N為幀長,T為幀移長度。設第n幀語音信號Xn(m)的短時能量用En表示,則其計算公式如下: (2-3) En是一個度量語音信號幅度值變化的函數(shù),但它有一個缺陷,即它對高電平非常
12、敏感(因為它計算時用的是信號的平方)。為此可采用另一個度量語音信號幅度值變化的函數(shù)即短時平均幅度函數(shù)Mn,它定義為: (2-4) Mn也是一度量語音信號能量大小的表征,它與En的區(qū)別在于計算時小取樣值和大取樣值不會因取平方而造成較大差異,在某些應用領域會帶來一些好處。 短時能量和短時平均幅度函數(shù)的主要用途有:可以區(qū)分濁音段與清音段,因為濁音時En值比清音時大的多??梢杂脕韰^(qū)分聲母與韻母的分界,無聲與有盧的分界,連字(指字之間無間隙)的分界等。作為一種超音段信息,用于語音識別中。二 短時過零率分析短時過零率表示一幀語音中語音信號波形穿過橫軸(零電平)的次數(shù)。過零分析是語音時域分析中最簡單的一種。
13、對于連續(xù)語音信號,過零即意味著時域波形通過時間軸;而對于離散信號,如果相鄰的取樣值改變符號則稱為過零。過零率就是樣本改變符號的次數(shù)。定義語音信號Xn(m)的短時過零率Zn為: (2-5)式中,sgn 是符號函數(shù),即: (2-6)在實際中求過零率參數(shù)時,需要十分注意的一個問題是如果輸入信號中包含有50Hz的工頻干擾或者A/D變換器的工作點有偏移(這等效于輸入信號有直流偏移),往往會使計算的過零率參數(shù)很不準確。為了解決前一個問題,A/D變換器前的防混疊帶通濾波器的低端截頻應高于50Hz,以有效地抑制電源干擾。對于后一個問題除了可以采用低直流漂移器件外,也可以在軟件上加以解決,這就是算出每一幀的直流
14、分量并予以濾除。對語音信號進行分析,發(fā)現(xiàn)發(fā)濁音時,盡管聲道有若干個共振峰,但由于聲門波引起譜的高頻跌落,所以其話音能量約集中在3kHz以下。而發(fā)清音時,多數(shù)能量出現(xiàn)在較高頻率上。高頻就意味著高的平均過零率,低頻意味著低的平均過零率,所以可以認為濁音時具有較低的過零率,而清音時具有較高的過零率。當然,這種高低僅是相對而言,并沒方精確的數(shù)值關系。 利用短時平均過零率還可以從背景噪聲中找出語音信號,可用于判斷寂靜無聲段和有聲段的起點和終點位置。在孤立詞的語音識別中,必須要在一連串連續(xù)的語音信號中進行適當分割,用以確定一個一個單詞的語音信號,即找出每一個單詞的開始和終止位置,這在語音處理中是一個基本問
15、題。此時,在背景噪聲較小時用平均能量識別較為有效,而在背景噪聲較大時用平均過零率識別較為有效。但是研究表明,在以某些音為開始或結尾時如當弱摩擦音 (如f、h等音素)、弱燃破音(如p、t、k等音素)為語音的開頭或結尾;以鼻音(如n、 m等音素)為語音的結尾時只用其中一個參量來判別語音的起點和終點是有困難的,必須同時使用這兩個參數(shù)。第三節(jié) 語音信號的頻域分析語音信號的頻域分析就是分析語音信號的頻域持征。從廣義上講,語音信號的頻域分析包括語音信號的頻譜、功率譜、倒頻譜、頻譜包絡分析等,而常用的頻域分析方法有帶通濾波器組法、傅里葉變換法、線件預測法等幾種。本文介紹的是語音信號的傅里葉分析法。因為語音波
16、是一個非平穩(wěn)過程,因此適用于周期、瞬變或平穩(wěn)隨機信號的標準傅里葉變換不能用來直接表示語音信號,而應該用短時傅里葉變換對語音信號的頻譜進行分析,相應的頻譜稱為“短時譜 ”一 利用短時博里葉變換求語音的短時譜 對第n幀語音信號Xn(m)進行傅里葉變換(離散時域傅里葉變換,DTFT),可得到短時傅里葉變換,其定義如下: (2-7) 由定義可知,短時傅里葉變換實際就是窗選語音信號的標準傅里葉變換。這里,窗w(n-m)是一個“滑動的”窗口,它隨n的變化而沿著序列X(n)滑動。由于窗口是有限長度的,滿足絕對可和條件,所以這個變換是存在的。當然窗口函數(shù)不同,博里葉變換的結果也將不同。我們還可以將式(37)寫
17、成另一種形式。設語音信號序列和窗口序列的標準傅早葉變換均存在。當n取固定值時,w(n-m)的傅里葉變換為: (2-8) 根據(jù)卷積定理,有: (2-9)因為上式右邊兩個卷積項均為關于角頻率w的以2為周期的連續(xù)函數(shù),所以也可將其寫成以下的卷積積分形式: (2-10)即,假設x(m)的DTFT是,且的DTFT是,那么是和的的周期卷積。根據(jù)信號的時寬帶寬積為一常數(shù)這一基本性質,可知主瓣寬度與窗口寬度成反比,N越大,的主瓣越窄。由式(2-10)可知,為了使忠實再現(xiàn)的特性相對于來說必須是個沖激函數(shù)。所以為了使,需;但是N值太大時,倍號的分幀又失去了意義。尤其是N大于語音的音素長度時,已不能反映該語音音素的
18、頻譜了。因此應折衷選擇窗的寬度N。另外,窗的形狀也對短時博氏頻譜有影響,如矩形窗,雖然頻率分辨率很高(即主辯狹窄尖銳),但由于第一旁瓣的衰減很小,有較大的上下沖,采用矩形窗時求得的與的偏差較大,這就是Gibbs效應,所以不適合用于頻譜成分很寬的語音分析中。而漢明窗在頻率范圍中的分辨率較高,而且旁辯的衰減大,具有頻譜泄漏少的優(yōu)點所以在求短時頻譜時一船采用具有較小上下沖的漢明窗。與離散傅里葉變換和連續(xù)博里葉變換的關系一樣,如令角頻率w=2kN,則得離散的短時博里葉變換(DFT)它實際上是在頻域的取樣,如下所示: (2-11) 在語音信號數(shù)字處理中,都是采用的離散博里葉變換(DFT)來替代并且可以用
19、高效的快速傅里葉變換(FFT)算法完成由至的轉換。當然,這時窗長N必須是2的倍數(shù) (L是整數(shù))。根據(jù)傅里葉變換的性質,實數(shù)序列的傅里葉變換的頻譜具有對稱性,因此,全部頻譜信息包含在長度為N/2+1個里。另外,為了使具有較高的頻率分辨率,所取的DFT以及相應的FFT點數(shù)應該足夠多,但有時的長度N要受到采樣率和短時性的限制,例如,在通常采樣率為8kHz且?guī)L為20ms時,N=160。而一般取256、512或1024,為了將的點數(shù)從N擴大力,可以采用補0的辦法,在擴大的部分添若干個0取樣值,然后再對添0后的序列進行FFT。例如、在10kHz的范圍內采樣求頻譜,并要求頻率分辨率在30 Hz以下。由10
20、k/30,得333,所以要取比333大的值,這時可取=512點,不足的部分采用補0的辦法解決,此時頻率分辨率(即頻率間隔)為10 Hz51219.53Hz,采樣后的該幀信號頻率處在02x1953Hz之間,因此,原連續(xù)信號頻率就處在0之間(即),所以我們要在0頻率范圍內求其頻譜。FFT的計算可以在通用計算機上由相應的算法軟件來完成,這種方式一般只能實現(xiàn)非實時運算。為了完成實時運算可以采用先進的數(shù)字信號處理芯片、陣列處理芯片或專用FFT芯片。為了完成1024點的萬FFT,這些專用芯片所需的運算時間是幾十毫秒至兒毫秒,甚至可以降至1ms以下。在語音信號數(shù)字處理中,功率譜具有重要意義,在一些語音應用系
21、統(tǒng)中往往都是利用語音信號的功率譜。根據(jù)功率譜定義,可以寫出短時功率譜與短時傅里葉變換之間的關系: (2-12) 或者: (2-13)式中表示復共軛運算。并且功率譜是短時自相關函數(shù)的傅里葉變換。 (2-14) 第三章 語音信號的綜合仿真分析 在MATLAB下采集 Windows自帶的“Windows XP 關機.wav”語音信號,并畫出采樣后語音信號的時域波形和頻譜圖:fs=22050; %語音信號采樣頻率為22050fname,pname=uigetfile('C:WINDOWSMediaWindowsXP關機.wav');file=pname,fname;x1,fs,bits
22、=wavread(file); % 讀入聲音文件(*.wav) Y=fft(x1,4096); %對信號做4096點FFT變換figure(1);subplot(211);plot(x1);title('原始信號波形');subplot(212);plot(abs(Y);title('原始信號頻譜');圖3-1原始語音信號設計數(shù)字濾波器和畫出頻率響應:根據(jù)語音信號的特點給出有關濾波器的性能指標,低通濾波器性能指標: fp=1000Hz,fc=1200 Hz, As=100dB,Ap=1dB,Fs=8000;用雙線性變換法設計的butterworth低通濾波器的程
23、序如下fp=1000;fc=1200;As=100;Ap=1;Fs=8000;wc=2*fc/Fs; wp=2*fp/Fs;N,ws=buttord(wc,wp,Ap,As,'s');b,a=butter(N,ws,'s');num1,den1=bilinear(b,a,0.5);figure(1);freqz(num1,den1);濾波器的頻率響應:圖3-2濾波器的頻率響應 進行低通濾波,比較濾波前后語音信號的波形及頻譜:fs=22050; %語音信號采樣頻率為22050fname,pname=uigetfile('C:WINDOWSMediaWind
24、owsXP關機.wav');file=pname,fname;x1,fs,bits=wavread(file); % 讀入聲音文件(*.wav) sound(x1,fs,bits); Y=fft(x1,4096); %對信號做4096點FFT變換fp=1000;fc=1200;As=100;Ap=1;Fs=8000;% 低通濾波器濾波wc=2*fc/Fs; wp=2*fp/Fs; N,ws=buttord(wc,wp,Ap,As,'s');%求低通濾波器的階數(shù)和截止頻率b,a=butter(N,ws,'s');%求S域的頻率響應的參數(shù) num1,den1=bilinear(b,a,0.5); %利用雙線性變換實現(xiàn)頻率響應S域到Z域的變換figure(1);freqz(num1,den1,512,Fs);x=filter(num1,den1,x1);X=fft(x,4096);sound(x); % 回放低通濾波器后的聲音figure(2);subplot(2,2,1);plot(x1);title('濾波前信號波形');subplot(2,2,2);plot(abs(Y);title('濾波前信號頻譜');subplot(2,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 外貿英語寫作課件百度云
- 探秘電流世界
- 碩士追求指南
- 四川省成都市第第十八中學2025屆初三下學業(yè)水平考試生物試題試卷含解析
- 天津美術學院《現(xiàn)代推銷學實驗》2023-2024學年第一學期期末試卷
- 山西省左玉縣市級名校2024-2025學年初三下學期期末教學質量檢查數(shù)學試題含解析
- 南寧二中、柳州高中2024-2025學年高三下學期第9周周考物理試題含解析
- 山西傳媒學院《現(xiàn)代生物制藥工程原理》2023-2024學年第二學期期末試卷
- 上海外國語大學《文化與翻譯(1)》2023-2024學年第一學期期末試卷
- 山東省樂陵市第一中學重點名校2025年初三下學期物理試題周練二不含附加題含解析
- 《齒輪介紹》課件
- 民營醫(yī)院分析報告
- 知心慧學提分寶-數(shù)學
- 吉祥航空飛行報告
- 職業(yè)技能鑒定指導書《變電站值班員(第二版)》高級工題庫(全)
- 《曼陀羅繪畫療愈-初三減壓》PPT
- 彩鋼板屋面監(jiān)理細則
- 文藝復興史學習通超星課后章節(jié)答案期末考試題庫2023年
- 《BIM技術概論》期末試卷及答案2套
- 城市設計原理-西安建筑科技大學中國大學mooc課后章節(jié)答案期末考試題庫2023年
- 初中生物理自主學習能力現(xiàn)狀的調查研究的開題報告
評論
0/150
提交評論