語音信號(hào)處理復(fù)習(xí)題._第1頁
語音信號(hào)處理復(fù)習(xí)題._第2頁
語音信號(hào)處理復(fù)習(xí)題._第3頁
語音信號(hào)處理復(fù)習(xí)題._第4頁
語音信號(hào)處理復(fù)習(xí)題._第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1 研究語音信號(hào)處理的目的是什么?人類的通信有哪三種方式,從而說明語音信號(hào)處理有哪三個(gè)學(xué)科分支?它的目的一是要通過處理得到一些反映語音信號(hào)重要特征的語音參數(shù)以便高效的傳輸或儲(chǔ)存語音信號(hào)信息;二是要通過處理的某種運(yùn)算以達(dá)到某種用途的要求。1. 什么叫做語言學(xué)?什么叫做語音學(xué)?言語過程可分為哪五個(gè)階段?語音中各個(gè)音的排列由一些規(guī)則所控制,對這些規(guī)則及其含義的研究學(xué)問稱為語言學(xué);另一個(gè)是對語音中各個(gè)音的物理特征和分類的研究稱為語音學(xué)。人的說話過程如圖2-1所示,可以分為五個(gè)階段:(1)想說階段:(2)說出階段:(3)傳送階段:(4)接收階段:(5)理解階段:3、有哪幾種描述聲道特性的數(shù)學(xué)模型?請說明

2、聲管模型流圖是如何得出的?有幾種共振峰模型?各有什么特點(diǎn)和適用情況?聲道的數(shù)學(xué)模型有兩種觀點(diǎn):1) 聲管模型將聲道看為由多個(gè)不同截面積的管子串聯(lián)而成的系統(tǒng)。在“短時(shí)”期間,聲道可表示為形狀穩(wěn)定的管道。另一種觀點(diǎn)是把聲道視為一個(gè)諧振腔,按此推導(dǎo)出的叫“共振峰模型”。 共振峰模型,把聲道視為一個(gè)諧振腔。共振峰就是這個(gè)腔體的諧振頻率。由于人耳聽覺的柯替氏器官的纖毛細(xì)胞就是按頻率感受而排列其位置的,所以這種共振峰的聲道模型方法是非常有效的。一般來說,一個(gè)元音用前三個(gè)共振峰來表示就足夠了;而對于較復(fù)雜的輔音或鼻音,大概要用到前五個(gè)以上的共振峰才行?;谖锢砺晫W(xué)的共振峰理論,可以建立起三種實(shí)用的共振峰模型

3、:級(jí)聯(lián)型、并聯(lián)型和混合型。 (1)級(jí)聯(lián)型聲道模型這時(shí)認(rèn)為聲道是一組串聯(lián)的二階諧振器。從共振峰理論來看,整個(gè)聲道具有多個(gè)諧振頻率和多個(gè)反諧振頻率,所以它可被模擬為一個(gè)零極點(diǎn)的數(shù)學(xué)模型;但對于一般元音,則用全極點(diǎn)模型就可以了。它的傳輸函數(shù)可分解表示為多個(gè)二階極點(diǎn)的網(wǎng)絡(luò)的串聯(lián): N=10,M=5時(shí)的聲道模型如下圖所示:(2)并聯(lián)型聲道模型對于非一般元音以及大部分輔音,必須考慮采用零極點(diǎn)模型。此時(shí),模型的傳輸函數(shù)如下: 通常,N>R,且設(shè)分子與分母無公因子及分母無重根,則上式可分解為如下部分分式之和的形式:這就是并聯(lián)型的共振峰模型。如圖2-21所示(M=5)。 (3)混合型聲道模型上述兩種模型中

4、,級(jí)聯(lián)型比較簡單,可以用于描述一般元音。當(dāng)鼻化元音或鼻腔參與共振,以及阻塞音或摩擦音等情況時(shí),級(jí)聯(lián)模型就不能勝任了。這時(shí)腔體具有反諧振特性,必須考慮加入零點(diǎn),使之成為零極點(diǎn)模型。采用并聯(lián)結(jié)構(gòu)的目的就在于此,它比級(jí)聯(lián)型復(fù)雜些,每個(gè)諧振器的幅度都要獨(dú)立地給以控制。但對于鼻音、塞音、擦音以及塞擦音等都可以適用。正因?yàn)槿绱?,將?jí)聯(lián)模型和并聯(lián)模型結(jié)合起來的混合模型也許是比較完備的一種共振峰模型。 4、 請寫出完整的語音信號(hào)數(shù)學(xué)模型的表示式。什么叫做預(yù)加重處理?為什么要進(jìn)行這些處理?完整的語音信號(hào)的數(shù)字模型可以用三個(gè)子模型:激勵(lì)模型、聲道模型和輻射模型的串聯(lián)來表示。如圖所示:沖激序列發(fā)生器聲門脈沖模型G(

5、Z)基音頻率F0 振幅AV聲道模型 V(Z)輻射模型 R(Z) 語音 s(n)隨機(jī)噪聲發(fā)聲器 信號(hào) 振幅AU它的傳輸函數(shù)可表示為: 由于語音信號(hào)的平均功率譜受聲門激勵(lì)和口鼻輻射影響,高頻端大約在800Hz以上按6dB/倍頻程(倍頻程:若使每一頻帶的上限頻率比下限頻率高一倍,即頻率之比為2,這樣劃分的每一頻程稱為1倍頻程)跌落,所以求語音信號(hào)的頻譜時(shí),頻率越高相應(yīng)的成分越小,高頻部分的頻譜比低頻部分難求,要在預(yù)處理中進(jìn)行預(yù)加重處理。預(yù)加重的目的是提升高頻部分,使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。預(yù)加重一般在語音信號(hào)數(shù)字化后,參

6、數(shù)分析之前用預(yù)加重?cái)?shù)字濾波器來實(shí)現(xiàn)。十倍頻程-頻率按照增加或按減小,從10Hz到100Hz為一個(gè)十倍頻程;倍頻程-頻率按增加或按減小,從10Hz到20Hz為一個(gè)倍頻程。2倍頻和10倍頻是一回事對于濾波或運(yùn)放放大倍數(shù)來講使用dB來表示的,具體的公式是:,是濾波器或運(yùn)放的一個(gè)極點(diǎn)。采用dB表示時(shí)是,要取模,即。對于n倍頻(靠近的頻率不準(zhǔn)確,n>0),(開方中的1可忽略)則有 這樣,對于兩倍頻,則此時(shí)下降是當(dāng)時(shí),預(yù)加重?cái)?shù)字濾波器一般是一階的數(shù)字濾波器,值接近于1。5、短時(shí)平均能量(短時(shí)平均幅值)和短時(shí)平均跨零數(shù)的定義。窗口函數(shù)的長度和形狀對它們有什么影響?常用的有哪幾種窗口?這兩種時(shí)域參數(shù)的用

7、途。設(shè)第n幀語音信號(hào)的短時(shí)能量用表示,則其計(jì)算公式如下:短時(shí)平均幅度函數(shù),它定義為:分別采用矩形窗、漢明窗不同窗長得到的語音信號(hào)短時(shí)能量,可以得到如下結(jié)論:l 在用短時(shí)能量反映語音信號(hào)的幅度變化時(shí),不同的窗函數(shù)以及相應(yīng)窗的長短均有影響;l Hamming窗的效果比矩形窗略好;l 但是,窗的長短影響起決定性作用。窗口長度反映語音信號(hào)的幅度變化。窗過大(N很大),等效于很窄的低通濾波器,不能反映幅度En的變化;窗過小(N很小),短時(shí)能量隨時(shí)間急劇變化,不能得到平滑的能量函數(shù)。在11.025kHz左右的采樣頻率下,N選為100200比較合適。定義語音信號(hào)的短時(shí)過零率為:式中,是符號(hào)函數(shù),即6、短時(shí)自

8、相關(guān)函數(shù)和短時(shí)平均幅差函數(shù)的定義及其用途。在選擇窗口函數(shù)時(shí)應(yīng)考慮什么問題?語音信號(hào)的定義語音信號(hào)的短時(shí)自相關(guān)函數(shù)的計(jì)算公式如下:這里K是最大的延遲點(diǎn)數(shù)。濁音是周期信號(hào),濁音的短時(shí)自相關(guān)函數(shù)呈現(xiàn)明顯的周期性,自相關(guān)函數(shù)的周期就是濁音信號(hào)的周期。清音接近于隨機(jī)噪聲,其短時(shí)自相關(guān)函數(shù)不具有周期性,也沒有明顯突起的峰值,且隨著延時(shí)k的增大迅速減小。短時(shí)平均幅度差函數(shù):計(jì)算只需加、減法和取絕對值的運(yùn)算,與自相關(guān)函數(shù)的加法與乘法相比,其運(yùn)算量大大減小,尤其在用硬件實(shí)現(xiàn)語音信號(hào)分析時(shí)有很大好處。為此,AMDF已被用在許多實(shí)時(shí)語音處理系統(tǒng)中。短時(shí)譜的定義。它可以有哪兩種解釋?窗口函數(shù)的影響。是幀號(hào)n和角頻率的

9、函數(shù)。可見,當(dāng)n不變時(shí),是序列的標(biāo)準(zhǔn)傅里葉變換,此時(shí)具有與標(biāo)準(zhǔn)傅里葉變換相同的性質(zhì)。設(shè)語音信號(hào)序列和窗口序列的標(biāo)準(zhǔn)傅里葉變換均存在。當(dāng)n取固定值時(shí), 根據(jù)卷積定理有:因?yàn)樯鲜接疫厓蓚€(gè)卷積項(xiàng)均為關(guān)于角頻率的以為周期的連續(xù)函數(shù),所以也可以將其寫成如下的卷積積分形式: (*)結(jié)論:假設(shè)的DTFT是,且的DTFT是,那么是和的周期卷積。由于相當(dāng)于信號(hào)譜與窗函數(shù)譜的卷積,根據(jù)卷積積分公式(*)可知,為了使得能夠與具有相同的性質(zhì),則要求必須是一個(gè)沖激函數(shù)。因此應(yīng)使窗函數(shù)的頻率分辨率高,主瓣尖銳;同時(shí)還要使旁瓣衰減大。根據(jù)信號(hào)的時(shí)寬帶寬積為一常數(shù)這一性質(zhì),可知主瓣寬度與窗口寬度成反比,N越大,主瓣越窄,則越

10、接近于。但窗長太大時(shí),窗選信號(hào)已經(jīng)不滿足語音的短時(shí)平穩(wěn)特性,此時(shí),已不能正確反映短時(shí)語音的頻譜,為此,必須要折中選擇窗長。另外,令角頻率,則得到離散的短時(shí)傅里葉變換,它實(shí)際上是在頻域的取樣,如下所示:在語音信號(hào)數(shù)字處理中,都是采用的離散傅里葉變換代替,并且可用高效的快速傅里葉變換(FFT)算法完成由至的轉(zhuǎn)換。當(dāng)然,這時(shí)窗長N必須是2的整次冪(L是整數(shù))。根據(jù)傅里葉變換的性質(zhì),實(shí)數(shù)序列的傅里葉變換的頻譜具有對稱性,因此全部頻譜信息包含在長度為個(gè)里。另外,為了使具有較高的頻率分辨率,所取的DFT以及相應(yīng)的FFT點(diǎn)數(shù)N1應(yīng)該足夠多,但有時(shí)的長度N要受到采樣率和短時(shí)性的限制。轉(zhuǎn)流程:原信號(hào)頻率就處在之

11、間,即,只要在05kHz內(nèi)求其頻譜。FFT的計(jì)算可以在通用計(jì)算機(jī)上由相應(yīng)的算法軟件完成,這種方式一般只能實(shí)現(xiàn)非實(shí)時(shí)運(yùn)算,為了完成實(shí)時(shí)運(yùn)算可以采用先進(jìn)的數(shù)字信號(hào)處理芯片、陣列處理芯片或?qū)S眯酒?。因而,如果將看作一個(gè)濾波器的單位函數(shù)響應(yīng),則就是該濾波器的輸出,而濾波器的輸入為,如下圖所示。簡單分析一下不同的窗函數(shù)對語音信號(hào)短時(shí)譜的影響。上圖給出了N=500(取樣率為10kHz,窗持續(xù)時(shí)間50ms)時(shí)矩形窗和漢明窗下濁音語音的頻譜。其中圖(a)是漢明窗的窗選信號(hào),圖(b)是其對數(shù)幅度譜;圖(c)是矩形窗下的窗選信號(hào),圖(d)是其對數(shù)幅度譜。從圖(a)可以明顯看出時(shí)間波形的周期性,此周期性同樣在圖(b

12、)中表現(xiàn)出來。圖中基頻及其諧波在頻譜中表現(xiàn)為等頻率間隔的窄峰。圖(b)中的頻譜大約在300400Hz附近有較強(qiáng)的第一共振峰,而在2000Hz附近有一個(gè)對應(yīng)于第二、第三共振峰的寬峰。此外,還能在3800Hz附近看到第四共振峰。最后,由于聲門脈沖譜的低通特性,頻譜在高頻部分表現(xiàn)為下降的趨勢。將圖(b)和圖(d)比較可看出它們在基音諧波、共振峰結(jié)構(gòu)以及頻譜粗略形狀上的相似性,同樣也能看到其頻譜之間的差別。最明顯的是圖(d)中基音諧波尖銳度增加,這主要是由于矩形窗頻率分辨率較高。另一個(gè)差別是矩形窗較高的旁瓣產(chǎn)生了一個(gè)類似噪聲的頻譜。這是由于相鄰諧波的旁瓣在諧波間隔內(nèi)的相互作用(有時(shí)加強(qiáng)有時(shí)抵消),因而

13、在諧波間產(chǎn)生了隨機(jī)變化。這種相鄰諧波間不希望有的“泄露”抵消了其主瓣較窄的優(yōu)點(diǎn),因此在語音頻譜分析中極小采用矩形窗。下面給出了矩形窗和漢明窗加窗的清音波形及其短時(shí)頻譜。由上圖可以看出:從兩個(gè)短時(shí)頻譜圖中都可以發(fā)現(xiàn),由于清音的發(fā)音類似于隨機(jī)噪聲,因此頻譜具有慢速變化的趨勢,同時(shí)有著頻繁的尖峰和谷。當(dāng)然,漢明窗較之矩形窗具有平滑的短時(shí)頻譜。下面給出了濁音和清音前50個(gè)樣點(diǎn)加矩形窗和漢明窗的短時(shí)頻譜,可以直觀地看到窗長對短時(shí)譜的影響。由圖可見:由于窗長很短,因而時(shí)間序列(圖(a)和圖(c)及信號(hào)頻譜(圖(b)和圖(d)均不能反映信號(hào)的周期性。與上圖相反,本圖只大約在400、1400以及2200Hz頻

14、率上有少量較寬的峰值。它們與窗內(nèi)語音段的前三個(gè)共振峰相對應(yīng)。比較圖(b)和圖(d)的頻譜后,再次表明矩形窗可以得到較高的頻率分辨率。從以上對窗函數(shù)和短時(shí)頻譜的討論可以得到以下結(jié)論:1) 矩形窗和漢明窗的主瓣狹窄且旁瓣衰減較大,具有低通的性質(zhì)。窗越長,主瓣越窄,加窗后的頻譜能更好地逼近短時(shí)語音的頻譜;2) 窗長越長,頻譜分辨率得到提高,但由于長窗的時(shí)間平均作用導(dǎo)致時(shí)間分辨率相應(yīng)下降,如共振峰在不同的基音周期是要發(fā)生變化,但如果使用較長的窗會(huì)模糊這種變化。3) 窗長越短,時(shí)間分辨率越高,但頻率分辨率相應(yīng)降低,如采用短窗可以清楚地觀察到共振峰在不同基音周期的變化情況,但是基頻以及諧波的精細(xì)結(jié)構(gòu)在短時(shí)

15、頻譜圖上消失了。4) 由于時(shí)間分辨率和頻譜分辨率的相互矛盾關(guān)系,在進(jìn)行短時(shí)傅里葉變換時(shí),應(yīng)根據(jù)分析的目的來折中選擇窗長。7、請敘述同態(tài)信號(hào)處理的基本原理(分解和特征系統(tǒng))。同態(tài)處理理論的一個(gè)重要方面是任何同態(tài)系統(tǒng)都能表示為三個(gè)同態(tài)系統(tǒng)的級(jí)聯(lián),如下圖所示。即同態(tài)系統(tǒng)可以分解為兩個(gè)特征系統(tǒng)(它們只取決于信號(hào)的組合規(guī)則)和一個(gè)線性系統(tǒng)(僅取決于處理的要求)。第一個(gè)系統(tǒng)以若干信號(hào)的卷積組合作為其輸入,并將它變換成對應(yīng)輸出的相加性組合。第二個(gè)系統(tǒng)是一個(gè)普通線性系統(tǒng),它服從疊加原理。第三個(gè)系統(tǒng)是第一個(gè)系統(tǒng)的逆變換,即它將信號(hào)的相加性組合反變換為卷積組合。這種同態(tài)系統(tǒng)的重要性在于,可以使這種系統(tǒng)的設(shè)計(jì)簡化為

16、線性系統(tǒng)的設(shè)計(jì)問題。對于語音信號(hào),其特征系統(tǒng)和逆特征系統(tǒng)的構(gòu)成分別如下圖所示:下面分析同態(tài)信號(hào)處理的基本原理。設(shè)輸入信號(hào):其中和分別是聲門激勵(lì)和聲道響應(yīng)序列。特征系統(tǒng)完成將卷積性信號(hào)轉(zhuǎn)化為加性信號(hào)的運(yùn)算。它包括三部分,首先進(jìn)行Z變換,將卷積性信號(hào)轉(zhuǎn)變?yōu)槌诵孕盘?hào)然后進(jìn)行對數(shù)運(yùn)算,將乘積運(yùn)算轉(zhuǎn)變?yōu)榧有赃\(yùn)算:上面這個(gè)信號(hào)是加性的對數(shù)信號(hào),使用起來不方便,所以再將其變換為時(shí)域信號(hào)。因而最后要進(jìn)行逆Z變換,即:由于加性信號(hào)的Z變換或逆Z變換仍然是加性信號(hào),因而這種時(shí)域信號(hào)可以用線性系統(tǒng)處理。經(jīng)過線性處理后,若將其恢復(fù)為卷積性信號(hào),可以通過上圖所示的逆特征系統(tǒng),它是特征系統(tǒng)的逆變換。首先將線性系統(tǒng)輸出的加

17、性信號(hào):進(jìn)行Z變換,得:然后進(jìn)行指數(shù)運(yùn)算,得到的是乘性信號(hào):最后進(jìn)行逆Z變換,得到卷積性的語音恢復(fù)信號(hào):8、復(fù)倒譜和倒譜的概念?以及兩者的關(guān)系?復(fù)倒譜 倒譜(1) 復(fù)倒譜要進(jìn)行復(fù)對數(shù)運(yùn)算,而倒譜只進(jìn)行實(shí)對數(shù)運(yùn)算;(2) 在倒譜情況下一個(gè)序列經(jīng)過正逆兩個(gè)特征系統(tǒng)變換后,不能還原成自身,因?yàn)樵谟?jì)算倒譜的過程中將序列的相位信息丟失了;(3) 與復(fù)倒譜類似,如果和分別是和的倒譜,并且,則的倒譜是(4) 已知一個(gè)實(shí)數(shù)序列的復(fù)倒譜是,可以由求出它的倒譜;(5) 已知一個(gè)實(shí)數(shù)序列的倒譜是,能否用它來求出復(fù)倒譜?(1) 如何由復(fù)倒譜求倒譜?首先將表示成一個(gè)偶對稱序列和一個(gè)奇對稱序列之和。其中,易于證明:由于一

18、個(gè)偶對稱序列的DTFT是一個(gè)實(shí)函數(shù),而一個(gè)奇對稱序列的DTFT是一個(gè)虛函數(shù),對照式子:可得:由公式可得:所以有: 這樣可由求得。同理可以導(dǎo)出相位倒譜(2)由倒譜求復(fù)倒譜已知一個(gè)實(shí)數(shù)序列的倒譜,能否用它求出復(fù)倒譜?要做到這一點(diǎn),必須滿足一定的條件,假如是一個(gè)因果序列,該條件可表示為:其中,是一個(gè)單位階躍函數(shù)??梢钥闯?,在滿足此條件時(shí),可以表示為下列形式:因此,立刻得到如果是一個(gè)反因果序列,即滿足下列條件:則可導(dǎo)出:在什么情況下, 才是一個(gè)因果穩(wěn)定序列呢?可以證明,只有當(dāng)是一個(gè)因果最小相位序列時(shí),才是一個(gè)因果穩(wěn)定序列。這說明應(yīng)滿足兩個(gè)條件:(1) ;(2)的零極點(diǎn)都應(yīng)該在單位圓內(nèi)。同理可以證明,只

19、有當(dāng)是一個(gè)反因果最大相位序列時(shí),才是一個(gè)反因果穩(wěn)定序列。于是,只有當(dāng)是因果最小相位序列或反因果最大相位序列時(shí),可由求出。9、Durbin算法的原理?最常用的是萊文遜-杜賓(Levinson-Durbin)算法,這是一種最佳算法。這個(gè)算法的過程和步驟為:1. 對于時(shí),2. 對于第次遞歸:(1) (27)(2) (28)(3) 對于 (29)(4) (30)注意上面各式中括號(hào)內(nèi)的上標(biāo)表示預(yù)測器的階數(shù)。式(27)(29)可對進(jìn)行遞推解,而最終解為:10、什么叫做矢量量化?什么叫做碼本?將信號(hào)序列的每K個(gè)連續(xù)樣點(diǎn)分成一組,形成K維歐氏空間中的一個(gè)矢量,矢量量化就是把這個(gè)K維輸入矢量X映射成另一個(gè)K維量

20、化矢量。其中量化矢量構(gòu)成的集合稱為碼書或碼本,碼書中的每個(gè)矢量稱為碼字或碼矢?;谑噶苛炕恼Z音通信系統(tǒng)工作原理?編碼器、解碼器各有相同的碼書:碼書含J個(gè)k維碼字。工作原理:(1) 每輸入一幀語音(幀長為N),形成與之相應(yīng)的k維特征矢量(),并送入VQ編碼器;(2) 根據(jù)輸入特征矢量從編碼器碼書中選擇一與之失真誤差最小的碼失,取的編碼(標(biāo)號(hào)),即;(3) 傳輸,若不產(chǎn)生誤差,則收端的信號(hào)仍是;(4) 解碼器按照從解碼器碼書中選出具有相同下標(biāo)的碼字作為輸出,即為的重構(gòu)矢量(恢復(fù)矢量),即。%11、什么叫做失真測度,理想的失真測度應(yīng)具有什么特性?常用的哪幾種失真測度,它們都是如何定義的?各有什么用

21、途?失真測度(距離測度):是將輸入矢量用碼本重構(gòu)矢量來表征時(shí)所產(chǎn)生的誤差或失真的度量方法,它可以描述兩個(gè)或多個(gè)模型矢量間的相似程度。失真度選擇必須具備的特性:1. 必須在主觀評價(jià)上有意義,即小的失真應(yīng)該對應(yīng)于好的主觀語音質(zhì)量;2. 必須是易于處理的,即在數(shù)學(xué)上易于實(shí)現(xiàn),這樣可以用于實(shí)際的矢量量化器的設(shè)計(jì);3. 平均失真存在并且可以計(jì)算;4. 易于硬件實(shí)現(xiàn)。失真測度主要有歐氏(Euclid)距離測度、加權(quán)歐氏 (Euclid)距離測度、Itakura-Saito距離測度、似然比失真測度、識(shí)別失真測度等。歐氏距離-均方誤差:設(shè)為未知模式的維特征矢量,為碼書中某個(gè)維碼失,分別表示和的同一維分量,幾種

22、常用的Euclid距離測度如下:Ø 均方誤差Euclid距離測度,定義為:Ø 方平均誤差Euclid距離測度。定義為:Ø 平均誤差Euclid距離測度。定義為:Ø 絕對值平均誤差Euclid距離測度。定義為:優(yōu)點(diǎn):計(jì)算簡單,易于硬件實(shí)現(xiàn)。Ø 最大平均誤差Euclid距離測度。定義為:Ø 加權(quán)Euclid距離測度。定義為:式中,-加權(quán)系數(shù)。六種Euclid測度中,最常用均方誤差Euclid距離測度。優(yōu)點(diǎn):簡單、易處理,且基本符合語音主觀感知的狀況。線性預(yù)測失真測度:由日本學(xué)者板倉(Itakura)等人提出。我們知道用全極點(diǎn)模型表示的線性

23、預(yù)測方法,廣泛用于語音信號(hào)處理中。它在分析時(shí)得到的是模型的預(yù)測系數(shù)。為了比較用這種參數(shù)表征的矢量,若直接使用Euclid失真測度,度量模型參數(shù)的誤差無意義。因?yàn)?,僅由預(yù)測器系數(shù)的差值不能完全表征這兩個(gè)語音信息的差別。此時(shí),應(yīng)該直接用這些系數(shù)所描述的信號(hào)模型的功率譜進(jìn)行度量。線性預(yù)測失真測度由此產(chǎn)生。設(shè)-一幀N長語音信號(hào);-階最佳線性預(yù)測系數(shù);-特征矢量;-碼書中某特征矢量。當(dāng)預(yù)測器的系數(shù),信號(hào)與模型完全匹配時(shí),信號(hào)功率譜為:這里為信號(hào)的功率譜,為預(yù)測誤差能量,為預(yù)測逆濾波器的頻率響應(yīng)。相應(yīng)地,如設(shè)碼書中某重構(gòu)矢量的功率譜為:則Itakura-Saito失真測度,其定義為:式中,-信號(hào)的階自相關(guān)

24、矩陣,-信號(hào)的自相關(guān)函數(shù);-信號(hào)的的預(yù)測誤差功率;-階碼書重構(gòu)矢量的預(yù)測誤差功率。Itakura-Saito失真測度是針對線性預(yù)測模型的,用最大似然準(zhǔn)則導(dǎo)出,適用于LPC參數(shù)描述的語音信號(hào)情況。還推出一下兩種線性預(yù)測的失真測度,它們比上述這種具有更好的性能。對數(shù)似然比失真測度。定義為:模型失真測度。定義為:這兩種失真測度也有局限性,僅比較了兩矢量的功率譜,沒有考慮能量信息。12、什么是最佳碼本的設(shè)計(jì)原則?什么是最近鄰原則?所謂最佳設(shè)計(jì),就是:(1) 從大量的信號(hào)樣本中訓(xùn)練出優(yōu)化的碼書;(2) 從實(shí)際效果出發(fā)尋找好的失真測度;(3)用最少的搜索和計(jì)算失真的運(yùn)算量實(shí)現(xiàn)最大的平均信噪比。最近鄰準(zhǔn)則(

25、Nearest Neighbor Rule,NNR):-最佳劃分對給定的碼書(M為碼書尺寸),找出所有碼書矢量的最佳區(qū)域邊界,以使平均失真最小,即尋找最佳劃分。13、LBG算法流程?選擇了失真測度后,就可進(jìn)行矢量量化器的最佳設(shè)計(jì)。所謂最佳設(shè)計(jì),就是使失真最小。由于碼書就是在這個(gè)設(shè)計(jì)過程中產(chǎn)生的,所以也就是碼書的設(shè)計(jì)過程。根據(jù):u Voronoi條件:u 質(zhì)心條件:可以構(gòu)造一種碼書設(shè)計(jì)的遞推算法。這種算法是標(biāo)量量化器中Lloyd算法的多維推廣,由Linde,Buzo,Gray推廣到多維空間,稱為LBG算法。LBG算法:理論嚴(yán)密、應(yīng)用簡便以及較好的設(shè)計(jì)效果,得到廣泛應(yīng)用,是各種改進(jìn)算法的基礎(chǔ)。LB

26、G算法步驟:(1) 設(shè)定碼書和迭代訓(xùn)練參數(shù):-全部輸入的訓(xùn)練矢量的集合;-碼書的容量;-最大迭代次數(shù);-兩個(gè)矢量的最小畸變閾值。(2) 初始化:個(gè)碼字初值;畸變初值;迭代次數(shù)初值。(3) 將分成個(gè)子集:由最近鄰準(zhǔn)則,對于每個(gè),若下式成立,判定。(4) 計(jì)算總畸變:(5) 計(jì)算畸變改進(jìn)量的相對值:(6) 更新碼書的碼字:(7) 若滿足,則轉(zhuǎn)入(9)執(zhí)行,否則,轉(zhuǎn)入(8)執(zhí)行。(8) 若滿足,則轉(zhuǎn)入(9)執(zhí)行;否則,令,轉(zhuǎn)入(3)執(zhí)行。迭代終止:輸出優(yōu)化的最佳碼書。14、什么叫做馬爾可夫鏈?什么叫做隱馬爾可夫過程?隱馬爾可夫模型有哪些參數(shù)?請敘述這些參數(shù)的含義和定義?隨機(jī)序列,在任一時(shí)刻,它可以處在狀態(tài),且它在時(shí)刻所處的狀態(tài)為的概率,只與它在時(shí)的狀態(tài)有關(guān),而與時(shí)刻以前它所處的狀態(tài)無關(guān),即有:式中,則稱為馬爾可夫鏈。HMM是一個(gè)輸出符號(hào)序列的統(tǒng)計(jì)模型,具有N個(gè)狀態(tài),它按一定的周期從一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài),每次轉(zhuǎn)移時(shí),輸出一個(gè)符號(hào)。轉(zhuǎn)移到哪一個(gè)狀態(tài),轉(zhuǎn)移時(shí)輸出什么符號(hào),分別由狀態(tài)轉(zhuǎn)移概率和轉(zhuǎn)移時(shí)的輸出概率來決定。因?yàn)橹荒苡^測到輸出符號(hào)序列,不能觀測到狀態(tài)轉(zhuǎn)移序列(即模型輸出符號(hào)序列時(shí),是通過了哪些狀態(tài)路徑,不能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論