![基于MATLAB的語音共振峰的估計_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/6/d8f7a37d-8788-4819-b9e8-8fe87b294b7b/d8f7a37d-8788-4819-b9e8-8fe87b294b7b1.gif)
![基于MATLAB的語音共振峰的估計_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/6/d8f7a37d-8788-4819-b9e8-8fe87b294b7b/d8f7a37d-8788-4819-b9e8-8fe87b294b7b2.gif)
![基于MATLAB的語音共振峰的估計_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/6/d8f7a37d-8788-4819-b9e8-8fe87b294b7b/d8f7a37d-8788-4819-b9e8-8fe87b294b7b3.gif)
![基于MATLAB的語音共振峰的估計_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/6/d8f7a37d-8788-4819-b9e8-8fe87b294b7b/d8f7a37d-8788-4819-b9e8-8fe87b294b7b4.gif)
![基于MATLAB的語音共振峰的估計_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/6/d8f7a37d-8788-4819-b9e8-8fe87b294b7b/d8f7a37d-8788-4819-b9e8-8fe87b294b7b5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上題 目: 基于MATLAB的語音共振峰的估計 英文題目: MATLABBASED ESTIMATES OF FORMANTS 院 系: 電子工程學(xué)院 專 業(yè): 通信工程 姓 名: 年 級: 二零零六級 指導(dǎo)教師: 武良丹 二零零九年十二 月 摘要語音是人類相互之間進(jìn)行交流時使用最多最自然最基本也是最重要的信息載體在高信息化得今天,語音處理的一系列技術(shù)及其應(yīng)用幾經(jīng)成為信息社會部可或缺的最重要組成部分。語音編碼算法利用語音信號的冗余信息及某些人耳不敏感的信息,可以在低比特率上獲得較高質(zhì)量的重建語音,壓縮編碼一直是通信中的關(guān)鍵技術(shù)。語音信號研究者們一直在尋求一種在保持語音質(zhì)
2、量不顯著下降的情況下使語音信號的編碼比特率最小的方法,特別地,低比特率語音編碼體制(比特率在4.8 kbs以下)因其廣泛的需求而得到研究者的重視。語音編碼器的性能常常用比特率、延時、復(fù)雜度和質(zhì)量4個屬性來進(jìn)行衡量,因此,在分析語音編碼器的性能時,主要應(yīng)該考慮這些屬性。值得注意的是,這些屬性之間不是孤立的,而是相互緊密聯(lián)系的,例如,低比特率的編碼器一般比高比特率的編碼器有更大的延時、更高的算法復(fù)雜度和較低的語音質(zhì)量。因此在對各種編碼算法進(jìn)行取舍時,應(yīng)根據(jù)實際應(yīng)用環(huán)境,在這些屬性之間進(jìn)行權(quán)衡。 共振峰參數(shù)編碼算法在低碼率的音頻編碼中應(yīng)用越來越廣泛。與基于時域波形的壓縮算法相比,他在傳輸?shù)倪^程中只需
3、要傳輸構(gòu)造信號所用的基頻和共振峰參數(shù),因此可以大大地降低傳輸?shù)拇a率,實現(xiàn)低碼率下的多媒體通信。而且,基于共振峰參數(shù)的算法無須嚴(yán)格限制信號的結(jié)構(gòu),他可以靈活地描述音頻信號的特征。這一靈活性決定了基于共振峰參數(shù)的算法,可以滿足對音頻信號進(jìn)行方便訪問和控制的需要。關(guān)鍵字:共振峰 線性預(yù)測 ABSTRACTThe human voice to communicate with each other using the most natural and the most fundamental and most important information carriers in high-informa
4、tion that today, a series of voice processing technology and its application several times in the information society available to the Department or the lack of the most important component of the . Speech coding algorithm using speech signals redundant information and some people's ears are not
5、 sensitive information, you can gain at low bit-rate reconstruction of a high-quality voice compression coding has been the communication of key technologies. Speech Signal researchers have been looking for a way to maintain voice quality in asignificant decline in the case of voice signals in the s
6、mallest bit rate coding methods, in particular, the low bit rate speech coding system (bit-rate of 4.8 kb / s or less) because of its wide range of demands to be researchers attention. The performance of speech coding devices often use bit rate, delay, complexity and quality of the four attributes t
7、o measure, therefore, in analyzing the performance of speech coder, the main consideration should be given these attributes. It is noteworthy that among these attributes are not isolated, but closely interrelated, for example, low bit rate encoder in general than high bit-rate encoder greater delay,
8、 higher algorithm complexity and the lower voice quality. Therefore, various coding algorithms to choose should be based on the actual application environment, in the trade-off between these attributes. Formant parameter coding algorithm at low bit-rate audio coding more and more widely applied. Tim
9、e-domain waveform based on the compression algorithm, the process of transmission, he need only transmit the signal structure used for the base frequency and formant parameters, it can greatly reduce the transmission rate, low bit-rate multimedia communication. Moreover, the algorithm based on forma
10、nt parameters do not strictly limit the signal structure, he has the flexibility to describe the audio signal characteristics. This flexibility determines the parameters of formant-based algorithms, to meet the audio signal to facilitate access and control needs. KEY WORDS:第一章 語音信號處理基礎(chǔ)1.1語音信號處理概述 語音
11、編碼算法利用語音信號的冗余信息及某些人耳不敏感的信息,可以在低比特率上獲得較高質(zhì)量的重建語音,壓縮編碼一直是通信中的關(guān)鍵技術(shù)。語音信號研究者們一直在尋求一種在保持語音質(zhì)量不顯著下降的情況下使語音信號的編碼比特率最小的方法,特別地,低比特率語音編碼體制(比特率在4.8 kbs以下)因其廣泛的需求而得到研究者的重視。 語音編碼器的性能常常用比特率、延時、復(fù)雜度和質(zhì)量4個屬性來進(jìn)行衡量,因此,在分析語音編碼器的性能時,主要應(yīng)該考慮這些屬性。值得注意的是,這些屬性之間不是孤立的,而是相互緊密聯(lián)系的,例如,低比特率的編碼器一般比高比特率的編碼器有更大的延時、更高的算法復(fù)雜度和較低的語音質(zhì)量。因此在對各種
12、編碼算法進(jìn)行取舍時,應(yīng)根據(jù)實際應(yīng)用環(huán)境,在這些屬性之間進(jìn)行權(quán)衡。共振峰參數(shù)編碼算法在低碼率的音頻編碼中應(yīng)用越來越廣泛。與基于時域波形的壓縮算法相比,他在傳輸?shù)倪^程中只需要傳輸構(gòu)造信號所用的基頻和共振峰參數(shù),因此可以大大地降低傳輸?shù)拇a率,實現(xiàn)低碼率下的多媒體通信。而且,基于共振峰參數(shù)的算法無須嚴(yán)格限制信號的結(jié)構(gòu),他可以靈活地描述音頻信號的特征。這一靈活性決定了基于共振峰參數(shù)的算法,可以滿足對音頻信號進(jìn)行方便訪問和控制的需要。 1.2語音信號處理的發(fā)展及應(yīng)用 1.3語音與常用的語音分析方法 1.3.1語音的基本特性 1.3.2常用語音信號分析方法 1.4 語音共振峰估計的現(xiàn)狀 第二章語音共振峰估計
13、技術(shù)2.1基礎(chǔ)知識 在語音信號分析技術(shù)中,表征語音信號主要特征的是兩個最基本的語音參數(shù),即共振峰和基頻。通常,共振峰定義為聲道脈沖響應(yīng)的衰減正弦分量,在經(jīng)典的語音信號模型中,共振峰等效為聲道傳輸函數(shù)的復(fù)數(shù)極點對。對平均長度約為17cm 聲道(男性) ,在3kHz 范圍內(nèi)大致包含三個或四個共振峰,而在5kHz 范圍內(nèi)包含四個或五個共振峰。高于5kHz 的語音信號,能量很小。根據(jù)語音信號合成的研究表明,表示濁音信號最主要的是前三個共振峰。一個語音信號的共振峰模型,只用前三個時變共振峰頻率就可以得到可懂度很好的合成濁音。共振峰信息包含在語音信號的頻譜包絡(luò)中,譜包絡(luò)的峰值基本上對應(yīng)與共振峰頻率。因此一
14、切共振峰估計都是直接或間接地對頻譜包絡(luò)進(jìn)行考察,關(guān)鍵是估計語音頻譜包絡(luò),并認(rèn)為譜包絡(luò)中的最大值就是共振峰。與基音提取,共振峰估計也是表面看很容易但實際上又為許多問題所困擾。包括:虛假峰值、共振峰合并、高基音語音。語音信號共振峰估計,在語音信號合成、語音信號自動識別和低比特律語音信號傳輸?shù)确矫娑计鹬匾饔谩?由于實際的語音是準(zhǔn)周期信號和實際上是短時間信號的頻率分析,其頻譜序列不是周期性沖激函數(shù)序列的采樣,而是近似三角脈沖的采樣,所以其傅里葉變換的幅度譜呈現(xiàn)高頻衰減性質(zhì)。從圖3中可以觀察到頻譜序列的幅度譜是周期信號和高頻衰減信號的乘積。實際語音分析過程中各時刻頻譜序列的傅里葉變換后衰減幅度差異很
15、大,低頻部分有時會出現(xiàn)分支脈沖的幅值大于下一個周期主脈沖的幅值,這對信號周期地分辨產(chǎn)生一定的干擾,而無法準(zhǔn)確估計基頻值。所以本文在確定基頻時利用高頻部分衰減幅度差異較小的特點,分析其周期特性并用來計算語音基頻。共振峰參數(shù)包括共振峰頻率、頻帶寬度和幅值,共振峰信息包含在語音頻譜的包絡(luò)中。因此共振峰參數(shù)提取的關(guān)鍵是估計語音頻譜包絡(luò),并認(rèn)為譜包絡(luò)中的最大值就是共振峰。利用語音頻譜傅里葉變換相應(yīng)的低頻部分進(jìn)行逆變換,就可以得到語音頻譜的包絡(luò)曲線。依據(jù)頻譜包絡(luò)線各峰值能量的大小確定出第1第4共振峰,如圖1所示。圖1 (根據(jù)頻譜包絡(luò)確定共振峰)2.2語音信號的倒譜分析 語音的產(chǎn)生模型實際是一個激勵信號與聲
16、道沖激響應(yīng)的卷積。對于濁音,激勵信號可以有周期脈沖序列表示;對于清音,激勵信號可以有隨機(jī)噪聲序列表示。語音的倒譜是將語音的短時譜取對數(shù)后再進(jìn)行IDFT得到的,所以濁音信號的周期性激勵反映在倒譜上是同樣周期的沖激。借此,可從倒譜波形中估計出基周期。一般把倒譜波形中第二個沖激,認(rèn)為即是對應(yīng)激勵源的基頻。那如何求倒譜呢?首先計算倒譜.然后在預(yù)期的基音周期附近尋找峰值。如果倒譜的峰值超出了預(yù)先規(guī)定的門限,則輸入峰的位置就是基音周期的良好估值.如果投有超出門限的峰值語音段定為濁音,則輸入語音段定為清音,如果計算的是一個時變的倒譜,則可估計出激勵源模型及基音周期隨時間的變化.一般每隔1020ms,計算倒譜
17、一次,這是因為在一般語音中激勵參數(shù)是緩慢變化的。數(shù)作為平滑后的值。為了更好地估計共振峰的頻率,通常還要進(jìn)行平滑處理。常見的平滑處理有線性平滑和中值平滑。中值平滑是將相鄰的幾個數(shù)從大到小排列,(通常取5個或3個),取中間的線性平滑則分別對這幾個數(shù)進(jìn)行加權(quán)并相加,加權(quán)系數(shù)之和為1。2.3提取共振峰的方法 2.3.1線性預(yù)測用于共共振峰估計 線性預(yù)測(Linear Prediction, LP)分析是最有效的語音分析技術(shù)之一,在語音編碼,語音合成,語音識別等語音處理領(lǐng)域中得到了廣泛的應(yīng)用。語音線性預(yù)測的基本思想是:一個語音信號的抽樣植可以用過去若干個取樣值的線性組合類逼近。通過使實際語音抽樣值與線性
18、預(yù)測抽樣值的均方誤差達(dá)到最小,可以確定唯一一組線性預(yù)測系數(shù)。 采用線性預(yù)測分析不僅僅能夠得到語音信號的預(yù)測波形,而且能夠提供一個非常好的聲道。如果將語音模型看作激勵源通過一個線性時不變系統(tǒng)(聲道)產(chǎn)生的輸出,那么可以利用LP分析對聲道參數(shù)進(jìn)行估值,以少量低信息率的時變參數(shù)精確地描述語音波形及其頻譜的性質(zhì)。此外,LP分析還能夠?qū)舱穹?,功率譜等語音參數(shù)進(jìn)行估計,LP分析得到的參數(shù)可以作為語音識別的重要的參數(shù)之一。2.3.1.1線性預(yù)測的基本原理在語音信號處理中最常用的模型是全極點模型。 線性預(yù)測所包含的基本概念是,通過使實際語音抽樣和線性預(yù)測抽樣之間差值的平方和達(dá)到最小值,即進(jìn)行最小均方誤差的逼
19、近,能夠決定惟一的一組預(yù)測器系數(shù)。如果一個隨機(jī)過程用一個p階全極點系統(tǒng)受白噪聲激勵產(chǎn)生的輸出來模擬,設(shè)這個系統(tǒng)的傳遞函數(shù)為: 其中:p是預(yù)測器階數(shù),一般取10;G是聲道濾波器增益。由此,語音抽樣s(n)和激勵信號e(n)之間的關(guān)系可用下列差分方程來表示: 即語音樣點間有相關(guān)性,可以用過去的樣點值預(yù)測未來樣點值。對于濁音,激勵e(n)是以基音周期重復(fù)的單位沖激;對于清音e(n)是平穩(wěn)白噪聲。在模型參數(shù)估計過程中,由于P階線性預(yù)測是將語音信號過去的P個取樣值S(n-1), S(n-2), , S(n-p)用線性預(yù)測系數(shù)a1-ap進(jìn)行加權(quán)求和,從而預(yù)測信號的當(dāng)前取樣值S(n),若預(yù)測系數(shù)值s(n)來
20、表示,則有 預(yù)測誤差式中:ai稱為線性預(yù)測系數(shù)。我們要提取共振峰必須首先要求出其最佳預(yù)測系數(shù)ai2.3.2 倒譜法用于共振峰估計 1.倒譜與復(fù)倒譜共振峰參數(shù)包括共振峰頻率、頻帶寬度和幅值,共振峰信息包含在語音頻譜的包絡(luò)中。因此共振峰參數(shù)提取的關(guān)鍵是估計語音頻譜包絡(luò),并認(rèn)為譜包絡(luò)中的最大值就是共振峰。 復(fù)倒譜x(n)的Z變換取對數(shù)后的逆Z變換,即可表示為X(n)=Z-1LnZx(n)將x(n)進(jìn)行Z變換后得到X(z),它包含幅度和相位信息。那么取復(fù)對數(shù)后將得到X(z)=Ln|X(z)|+jargX(z) 如果忽略了X(z)的相位信息,只是考慮其幅度信息,那么立刻可以得到倒譜c(n)的定義,c(n
21、)的定義為x(n)Z變換后的幅度的對數(shù)的逆Z變換,即 C(n)=Z-1ln|Z(x(n)|=Z-1ln|X(Z)|倒譜和復(fù)倒譜的特征系統(tǒng)D*.的唯一區(qū)別是倒譜的第二步運(yùn)算用Ln|X(z)|代替了lnX(z),其特征系統(tǒng)結(jié)構(gòu)見圖2-1 Z。-Ln|.|-Z-1.- 圖2-1 倒譜的特征系統(tǒng)結(jié)構(gòu)2.復(fù)倒譜與倒譜的計算如果輸入信號序列x(n)的Z變換X(z)的收斂域包含了單位圓在內(nèi),那么序列的傅里葉變換X(ejw)存在,復(fù)倒譜計算中的變換可以用傅里葉變換來替代。這樣,就可以用高效的FFT酸法完成相關(guān)計算。 DFT-Ln|.|-IDFT-圖2-2 復(fù)倒譜的計算方法如圖2-2所示,若x(n)為長度N的有
22、限序列,首先經(jīng)過DFT: , k=0-N-1然后X(K)取復(fù)對數(shù): X(k)=LnX(k), k=0-N-1X(k)經(jīng)過IDFT變化得到xp(n):, n=0-N-1這里,xp(n)是x(n)以為N周期進(jìn)行周期延拓后構(gòu)成的序列,即由于為無限成序列,故周期延拓后必然產(chǎn)生混疊失真,但由于至少是按的速度衰減,所以當(dāng)取值較大的時候混疊失真并不是很明顯。如果值本身不是太大的話,可以在序列后面添加若干個零來補(bǔ)足所需的長度,從而增加值。這樣既可以有效的減少混疊失真,另一方面又可以使它所代表的離散時域頻譜具有更佳的頻率分辨率。對于倒譜的計算與復(fù)倒譜相類似,只是在取對數(shù)的時候采用下面的式子,與復(fù)倒譜有所區(qū)別:C
23、(k)=Ln | X(K) |, K=0-N-1同樣,經(jīng)過IDFT變換得到的Cp(n)是C(n)以N為周期進(jìn)行周期延拓構(gòu)成的序列: 一般來說,語音序列x(n)幀長為200左右,故N值一般可以取2n(256.512或1024)這樣既具有足夠高的分辨率和抗混疊能力,同時還能夠使用高效的FFT算法。3.利用倒譜的特征參數(shù)提取我們知道只有濁音信號的倒譜中存在峰值,它的出現(xiàn)位置等于該語音段的基音周期。而清音的倒譜中不存在峰值。利用倒譜的這個特點,我們可以進(jìn)行清濁音的判決,并且可以估計濁音的基音周期。倒譜用于共振峰的估計。對倒譜進(jìn)行濾波,取出低時部分進(jìn)行逆特征系統(tǒng)處理,我們就可以得到一個平滑的對數(shù)譜函數(shù)。
24、這個平滑的對數(shù)譜函數(shù)顯示輸入語音段的共振峰結(jié)構(gòu),同時譜的峰值對應(yīng)于共振峰頻率。通過對此對數(shù)譜進(jìn)行峰值估計檢測,我們可以估計出前幾個共振峰的頻率和強(qiáng)度。這樣,對于濁音的聲道特性,我們可以采用前三個共振峰來描述,清音不具有共振峰的特點,可以簡單的用一個零點和一個極點的模型反映聲道的特性,平滑對數(shù)譜中最高的峰值的位置定為極點,而零點的位置應(yīng)使得低頻和高頻之間相對幅度得以保持。第三章 算法實現(xiàn)與仿真分析3.1具體算法實現(xiàn) 3.2.1線性預(yù)測算法實現(xiàn) 3.2.2倒譜算法實現(xiàn) 因此,我們可以利用倒譜計算其頻譜,然后估計出其共振峰的位置:具體的程序如下: 首先我們錄入一個濁音:S,利用wavread從文件中
25、讀出次話音信息,并對其加上窗函數(shù)。程序如下:%'加海明窗的信號幅度譜fs=8000;a,fs=wavread('AA.wav',16200,16600);t=(0:length(a)-1)*1000)/fs;ah=a.*hamming(length(a);figure(1);plot(t,ah);xlabel('t/ms');ylabel('加海明窗的信號幅度譜');hold on;%對數(shù)幅度FFTSIZE=8000;duishu=zeros(FFTSIZE,1);z0=fft(ah,FFTSIZE);duishu=20.*log10(a
26、bs(z0);figure(2);plot(duishu);xlabel('f/Hz');ylabel('對數(shù)幅度圖');hold on;%'復(fù)倒譜幅度z=fft(ah,400);fln=log10(abs(z);fdp=ifft(fln,400);figure(3);plot(n./fs).*1000,abs(fdp);axis(0,50,-0.1,1.6)xlabel('t/ms');ylabel('復(fù)倒譜幅度');hold on;%倒譜幅度dln=log10(abs(z);dp=ifft(dln,400);figur
27、e(4);plot(n./fs).*1000,abs(dp);axis(0,50,-0.1,1.6)xlabel('t/ms')ylabel('倒譜幅度圖')%倒譜低時部分dpdishi=dp(1:32);figure(5);plot(abs(dpdishi);xlabel('N');ylabel('倒譜低時部分')%倒譜高時部分dpgaoshi=dp(33:400);figure(6);plot(abs(dpgaoshi);xlabel('N');ylabel('倒譜高時部分');%復(fù)倒譜低時部分fdpdishi=fdp(1:32);figure(7);plot(abs(fdpdishi);xlabel('N');ylabel('復(fù)倒譜低時部分');%復(fù)倒譜高時部分fdpgaoshi=fdp(33:400);figure(8);plot(abs(fdpgaoshi);xlabel('N');ylabel('復(fù)倒譜高時部分');3.3 仿真分析 圖3-1 加海明窗的信號幅度譜圖3-2 倒譜幅度分析: 由上面的仿真可以看出,當(dāng)從文件中讀取信號后可以得其幅度譜。用倒譜來估計共振峰,可明顯看出起共振峰的位置。參考文獻(xiàn)【1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個人企業(yè)用人合同范本
- 產(chǎn)權(quán)商用租房合同范本
- 養(yǎng)殖出售合同范例
- 勞動合同兼職合同范例
- 幼兒園師幼互動中存在的問題及解決策略或建議
- 2025年度建筑工程施工合同履約驗收標(biāo)準(zhǔn)范本
- 專利交易中介服務(wù)合同范本
- 公眾號收購合同范例
- 足浴店勞動合同范本
- 豆制品供貨合同范本
- GB/T 8014.1-2005鋁及鋁合金陽極氧化氧化膜厚度的測量方法第1部分:測量原則
- GB/T 3860-2009文獻(xiàn)主題標(biāo)引規(guī)則
- 股票基礎(chǔ)知識(入市必讀)-PPT
- 雅思閱讀題型與技巧課件
- 招商銀行房地產(chǎn)貸款壓力測試
- 公文與公文寫作課件
- 車削成形面和表面修飾加工課件
- 基于振動信號的齒輪故障診斷方法研究
- 義務(wù)教育物理課程標(biāo)準(zhǔn)(2022年版word版)
- 醫(yī)療器械分類目錄2002版
- DB11_T1713-2020 城市綜合管廊工程資料管理規(guī)程
評論
0/150
提交評論