小波去噪語(yǔ)音識(shí)別_第1頁(yè)
小波去噪語(yǔ)音識(shí)別_第2頁(yè)
小波去噪語(yǔ)音識(shí)別_第3頁(yè)
小波去噪語(yǔ)音識(shí)別_第4頁(yè)
小波去噪語(yǔ)音識(shí)別_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

小波去噪語(yǔ)音識(shí)別第一頁(yè),共三十二頁(yè),2022年,8月28日摘要:語(yǔ)音作為一個(gè)交叉學(xué)科,具有深遠(yuǎn)的研究?jī)r(jià)值,近50年的研究發(fā)展,語(yǔ)音識(shí)別技術(shù)已經(jīng)有了極大的發(fā)展,但大多數(shù)產(chǎn)品能存在與實(shí)驗(yàn)室,沒(méi)有達(dá)到使用化的效果,所以語(yǔ)音識(shí)別的研究還要更加深入。本為主要闡述了小波變換在語(yǔ)音信號(hào)去噪的應(yīng)用,語(yǔ)音端點(diǎn)的檢測(cè),語(yǔ)音特征的提取及一種簡(jiǎn)單的語(yǔ)音識(shí)別算法。第二頁(yè),共三十二頁(yè),2022年,8月28日引言語(yǔ)音識(shí)別系統(tǒng)構(gòu)成語(yǔ)音信號(hào)的小波去噪語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)語(yǔ)音特征的提取基于DTW的語(yǔ)音識(shí)別算法實(shí)驗(yàn)結(jié)果及分析第三頁(yè),共三十二頁(yè),2022年,8月28日

讓計(jì)算機(jī)能聽(tīng)懂人類(lèi)的語(yǔ)言,是人類(lèi)自計(jì)算機(jī)誕生以來(lái)夢(mèng)寐以求的想法。隨著計(jì)算機(jī)越來(lái)越向便攜化方向發(fā)展,隨著計(jì)算環(huán)境的日趨復(fù)雜化,人們?cè)絹?lái)越迫切要求擺脫鍵盤(pán)的束縛而代之以語(yǔ)音輸入這樣便于使用的、自然的、人性化的輸入方式。尤其是漢語(yǔ),它的漢字輸入一直是計(jì)算機(jī)應(yīng)用普及的障礙,因此,利用漢語(yǔ)語(yǔ)音進(jìn)行人機(jī)交互是一個(gè)極其重要的研究課題。它正在直接與辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)的語(yǔ)音咨詢(xún)與管理,工業(yè)生產(chǎn)部門(mén)的語(yǔ)聲控制,電話、電信系統(tǒng)的自動(dòng)撥號(hào)、輔助控制與查詢(xún),以及醫(yī)療衛(wèi)生和福利事業(yè)的生活支援系統(tǒng)等各種實(shí)際應(yīng)用領(lǐng)域相接軌,并且有望成為下一代操作系統(tǒng)和應(yīng)用程序的用戶界面了。第四頁(yè),共三十二頁(yè),2022年,8月28日前端處理包括語(yǔ)音的錄入、處理、特征值的提取后端是個(gè)夸數(shù)據(jù)庫(kù)的搜索過(guò)程,分為訓(xùn)練和識(shí)別訓(xùn)練是對(duì)所建的模型進(jìn)行評(píng)估、匹配、優(yōu)化,獲得模型參數(shù)識(shí)別是一個(gè)專(zhuān)用的搜索數(shù)據(jù)庫(kù)第五頁(yè),共三十二頁(yè),2022年,8月28日獲取前端數(shù)值后,有聲學(xué)模型、一個(gè)語(yǔ)言模型和一個(gè)字典,聲學(xué)模型表示一種語(yǔ)言的發(fā)音聲音,可以通過(guò)訓(xùn)練來(lái)識(shí)別特定用戶的語(yǔ)音模型和發(fā)音環(huán)境的特征,語(yǔ)言模型是對(duì)語(yǔ)料庫(kù)單詞規(guī)則化的概率模型。字典列出了大量的單詞及發(fā)音規(guī)則??傮w上說(shuō),語(yǔ)音識(shí)別是一個(gè)模式識(shí)別匹配的過(guò)程。在這個(gè)過(guò)程中,計(jì)算機(jī)首先要根據(jù)人的語(yǔ)音特點(diǎn)建立語(yǔ)音模型,對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行分析,并抽取所需的特征,在此基礎(chǔ)上建立語(yǔ)音識(shí)別所需的模板。然后,在識(shí)別過(guò)程中,計(jì)算機(jī)根據(jù)語(yǔ)音識(shí)別的整體模型,將計(jì)算機(jī)中已經(jīng)存有的語(yǔ)音模板與輸入語(yǔ)音信號(hào)的特征進(jìn)行比較,并根據(jù)一定的搜索和匹配策略找出一系列最優(yōu)的與輸入語(yǔ)音匹配的模板。最后通過(guò)查表和判決算法給出識(shí)別結(jié)果。顯然,識(shí)別結(jié)果與語(yǔ)音特征的選擇、語(yǔ)音模型和語(yǔ)言模型的好壞、模板是否準(zhǔn)確等都有直接的關(guān)系。第六頁(yè),共三十二頁(yè),2022年,8月28日語(yǔ)音去噪技術(shù)是語(yǔ)音信號(hào)處理的一個(gè)重要分支,它在解決噪聲污染、改進(jìn)語(yǔ)音質(zhì)量、提高語(yǔ)音可懂度等方面發(fā)揮著越來(lái)越重要的作用。當(dāng)噪聲與語(yǔ)音的頻譜相似時(shí),傳統(tǒng)的單純時(shí)域或頻域處理往往無(wú)法達(dá)到很好的效果。小波變換是一種多尺度的信號(hào)分析方法,是分析非平穩(wěn)信號(hào)的有力工具。它克服了短時(shí)傅里葉變換固定分辨率的弱點(diǎn),既可以分析信號(hào)的概貌,又可以分析信號(hào)的細(xì)節(jié)。利用小波變換實(shí)現(xiàn)信號(hào)去噪,具有很好的效果。小波閾值去噪方法是實(shí)現(xiàn)最簡(jiǎn)單、計(jì)算量最小的一種方法,因而得到了最廣泛的應(yīng)用第七頁(yè),共三十二頁(yè),2022年,8月28日第八頁(yè),共三十二頁(yè),2022年,8月28日

設(shè)ψ(t)∈L2(R)(L2(R)表示平方可積的實(shí)數(shù)空間,即能量有限的信號(hào)空間),其傅立葉變換為ψ(ω)。當(dāng)ψ(ω)滿足允許條件:時(shí),我們稱(chēng)ψ(t)為一個(gè)基本小波或母小波,將母函數(shù)ψ(t)經(jīng)伸縮或平移后,就可以得到一個(gè)小波序列。第九頁(yè),共三十二頁(yè),2022年,8月28日對(duì)于連續(xù)的情況,小波序列為

其中a為伸縮因子,b為平移因子。對(duì)于離散的情況,小波序列為

對(duì)于任意的函數(shù)f(t)∈L2(R)的連續(xù)小波變換為,第十頁(yè),共三十二頁(yè),2022年,8月28日

小波去噪方法大致可分為三類(lèi),第一類(lèi)是基于小波變換模極大值原理進(jìn)行去噪;第二類(lèi)是對(duì)含噪聲信號(hào)作小波變換之后,計(jì)算相鄰尺度間小波系數(shù)的相關(guān)性,根據(jù)相關(guān)性區(qū)別小波系數(shù)的類(lèi)型;第三類(lèi)是閾值去噪。閾值去噪即對(duì)小波系數(shù)設(shè)置閾值,在眾多小波系數(shù)中,把絕對(duì)值較小的系數(shù)置為零,而讓絕對(duì)值較大的系數(shù)保留或收縮,然后對(duì)閾值處理后的系數(shù)進(jìn)行小波逆變換,直接進(jìn)行信號(hào)重構(gòu),即可達(dá)到去噪的目的。

小波閾值去噪的主要理論依據(jù)為:信號(hào)在小波域內(nèi)其能量主要集中在有限的幾個(gè)系數(shù)中,而噪聲的能量卻分布于整個(gè)小波域內(nèi)。因此經(jīng)小波分解后,信號(hào)的小波變換系數(shù)要大于噪聲的小波變換系數(shù)。于是可以找到一個(gè)合適的數(shù)作為閾值,當(dāng)小波系數(shù)小于該閾值時(shí),認(rèn)為這時(shí)的小波系數(shù)主要是由噪聲引起的;當(dāng)小波系數(shù)大于該閾值時(shí),則認(rèn)為其主要是由信號(hào)引起的。選擇一個(gè)合適的閾值,對(duì)小波系數(shù)進(jìn)行閾值處理,就可以達(dá)到去除噪聲而保留有用信號(hào)的目的。第十一頁(yè),共三十二頁(yè),2022年,8月28日實(shí)驗(yàn)中通過(guò)改進(jìn)matlab系統(tǒng)函數(shù)ddencmp求解得閾值,并對(duì)閾值進(jìn)行了一定修改,由于實(shí)驗(yàn)中閾值很小,在經(jīng)過(guò)多次比較后,決定把已經(jīng)求得的閾值thr+0.3作為重建小波的閾值。含高斯白噪聲的隨機(jī)信號(hào)去噪后的信號(hào)對(duì)于簡(jiǎn)單的直接加入高斯噪聲的信號(hào),去噪效果還是比較理想的,但在具體實(shí)驗(yàn)中,環(huán)境變量等其他因素引起的噪聲情況比較復(fù)雜,效果并沒(méi)有以上明顯??疾熘饕蛩剡€是閾值的確定存在缺陷,故還應(yīng)在閾值函數(shù)上多加改進(jìn)第十二頁(yè),共三十二頁(yè),2022年,8月28日語(yǔ)音信號(hào)的端點(diǎn)識(shí)別是語(yǔ)音處理和語(yǔ)音識(shí)別的基礎(chǔ),然而在噪聲環(huán)境下識(shí)別語(yǔ)音信號(hào)的端點(diǎn)往往比較困難的。我們采用的是經(jīng)典的雙門(mén)限檢測(cè)法第十三頁(yè),共三十二頁(yè),2022年,8月28日為了區(qū)分噪音和語(yǔ)音,很直觀的一種方法是用信號(hào)的幅度作為特征,只要設(shè)定一個(gè)門(mén)限,當(dāng)信號(hào)的幅度超過(guò)該門(mén)限的時(shí)候,就認(rèn)為語(yǔ)音開(kāi)始,當(dāng)幅度降低到門(mén)限以下就認(rèn)為語(yǔ)音結(jié)束。實(shí)際上,一般我們是使用短時(shí)能量的概念來(lái)描述語(yǔ)音信號(hào)的幅度的。對(duì)于輸入的語(yǔ)音信號(hào)x(n),其中n為采樣點(diǎn),首先進(jìn)行分幀的操作,將語(yǔ)音信號(hào)分成20~30毫秒一段,相鄰的兩幀之間有10~20毫秒的交疊。具體的幀長(zhǎng)和幀移隨采樣頻率不同而不同。第十四頁(yè),共三十二頁(yè),2022年,8月28日對(duì)于第i幀,第n個(gè)樣本,他與原始語(yǔ)音信號(hào)的關(guān)系為:第i幀語(yǔ)音信號(hào)的短時(shí)能量可以用下面幾種算法得到:將語(yǔ)音信號(hào)分幀后計(jì)算每幀的短時(shí)能量,再設(shè)一個(gè)門(mén)限,就可以實(shí)現(xiàn)一個(gè)簡(jiǎn)單的端點(diǎn)檢測(cè)算法。但是這樣的算法是很不可靠的,因?yàn)槿说恼Z(yǔ)音分清音和濁音兩種。濁音為聲帶振動(dòng)發(fā)出,對(duì)應(yīng)的語(yǔ)音信號(hào)有幅度高周期性明顯的特點(diǎn),而清音則不會(huì)有聲帶的振動(dòng),只是靠空氣在口腔中的摩擦、沖擊或爆破而發(fā)聲,其短時(shí)能量一般比較小,往往會(huì)被基于能量的算法漏過(guò)去。所以我們用過(guò)零率來(lái)進(jìn)行修正。第十五頁(yè),共三十二頁(yè),2022年,8月28日盡管不能用短時(shí)能量可靠地區(qū)分清音和靜音,但是還是可以發(fā)現(xiàn)在靜音段信號(hào)的波形變化相對(duì)比較緩慢,而在清音段,由于口腔空氣摩擦的效果,所造成的波形在幅度上的變化比較劇烈,通??梢杂靡粠盘?hào)中波形穿越零電平的次數(shù)來(lái)描述這種變化的劇烈程度,稱(chēng)為過(guò)零率。即:第十六頁(yè),共三十二頁(yè),2022年,8月28日將短時(shí)能量和過(guò)零率結(jié)合起來(lái),對(duì)一段語(yǔ)音進(jìn)行單個(gè)語(yǔ)音端點(diǎn)的檢測(cè):第十七頁(yè),共三十二頁(yè),2022年,8月28日對(duì)連續(xù)語(yǔ)音進(jìn)行語(yǔ)音分割:第十八頁(yè),共三十二頁(yè),2022年,8月28日5.1線性預(yù)測(cè)系數(shù)5.2線性預(yù)測(cè)倒普系數(shù)5.3Mel頻率倒普系數(shù)第十九頁(yè),共三十二頁(yè),2022年,8月28日語(yǔ)音信號(hào)是一種典型的時(shí)變信號(hào),然而如果把觀察時(shí)間縮短到十毫秒至十幾毫秒,則可以得到一系列近似穩(wěn)定的信號(hào)。人的發(fā)音器官可以用若干段前后連接的聲管斤進(jìn)行模擬,這就是所謂的聲管模型。由于發(fā)音器官不可能毫無(wú)規(guī)律地快速變化,因此語(yǔ)音信號(hào)是準(zhǔn)穩(wěn)定的全極點(diǎn)線性預(yù)測(cè)模型可以對(duì)聲管模型進(jìn)行很好的描述,這里信號(hào)的激勵(lì)源是由肺部氣流的沖擊引起的,聲帶可以有周期振動(dòng)也可以不振動(dòng),分別對(duì)應(yīng)濁音和清音,而每個(gè)聲管則對(duì)應(yīng)一個(gè)LPC模型的極點(diǎn)。一般情況下,極點(diǎn)的個(gè)數(shù)在12~16個(gè)之間,就足夠清晰地描述語(yǔ)音信號(hào)的特征了。第二十頁(yè),共三十二頁(yè),2022年,8月28日語(yǔ)音信號(hào)的聲管模型第二十一頁(yè),共三十二頁(yè),2022年,8月28日在語(yǔ)音識(shí)別系統(tǒng)中,很少直接使用LPC系數(shù),而是由LPC系數(shù)推導(dǎo)出另一種參數(shù):線性預(yù)測(cè)倒普系數(shù)(LPCC),其遞推式如下:式中a1

,...,ap

為p階LPC特征向量。cn

,n=1,...,p,p為倒譜的前p個(gè)值,當(dāng)LPCC的階數(shù)不超過(guò)LPC階數(shù)p的時(shí)候,用第二式進(jìn)行計(jì)算;如果LPCC階數(shù)大于p,則用第三式進(jìn)行計(jì)算,此時(shí)實(shí)際上是一種外推。第二十二頁(yè),共三十二頁(yè),2022年,8月28日LPC模型是基于發(fā)音模型建立的,LPCC系數(shù)也是一種基于合成的參數(shù)。這種參數(shù)沒(méi)有充分利用人耳的聽(tīng)覺(jué)特性。實(shí)際上,人的聽(tīng)覺(jué)系統(tǒng)是一個(gè)特殊額度非線性系統(tǒng),它響應(yīng)不同頻率信號(hào)的靈敏度是不同的,基本上是一個(gè)對(duì)數(shù)的關(guān)系。近年來(lái),一種能夠比較充分利用人耳這種特殊的感知特性的參數(shù)得到了廣泛的應(yīng)用,這就是Mel尺度倒譜參數(shù),或稱(chēng)Mel頻率倒譜參數(shù)(MFCC)。MFCC參數(shù)的計(jì)算是以“bark”為其頻率基準(zhǔn)的,它和線性頻率的轉(zhuǎn)換關(guān)系是:第二十三頁(yè),共三十二頁(yè),2022年,8月28日MFCC參數(shù)的計(jì)算通常采用如下的流程:(1)確定每一幀語(yǔ)音采樣序列的點(diǎn)數(shù),系統(tǒng)中取N=256點(diǎn)。對(duì)每幀序列s(n)進(jìn)行預(yù)加重處理后再經(jīng)過(guò)離散FFT變換,取模的平方得到離散功率譜S(n)。(2)計(jì)算S(n)通過(guò)M個(gè)濾波器Hm(n)后得到的功率值,即計(jì)算S(n)和Hm(n)在各離散頻率點(diǎn)上乘積之和,得到M個(gè)參數(shù)pm

,m=0,1,...,M-1。(3)計(jì)算pm

的自然對(duì)數(shù),得到Lm

,m=0,1,...,M-1。(4)對(duì)L0

,L1

,...,Lm-1

計(jì)算其離散余弦變換,得到Dm

,m=0,1,...,M-1。舍去代表直流成分的D0

,取D1

,D2

,...,DK

作為MFCC參數(shù)。最后對(duì)MFCC進(jìn)行一階差分,得到一組新的MFCC差分系數(shù),作為特征矢量的一組分量。第二十四頁(yè),共三十二頁(yè),2022年,8月28日差分參數(shù)的計(jì)算采用下面的公式:這里的c和d都表示一幀語(yǔ)音參數(shù),k為常數(shù),通常取2,這時(shí)差分參數(shù)就稱(chēng)為當(dāng)前幀的前兩幀和后兩幀的線性組合。第二十五頁(yè),共三十二頁(yè),2022年,8月28日在孤立詞語(yǔ)音識(shí)別中,最為簡(jiǎn)單有效的方法是采用DTW(DynamicTimeWarping,動(dòng)態(tài)時(shí)間彎折),該算法基于動(dòng)態(tài)規(guī)劃(DP)的思想,解決了發(fā)音長(zhǎng)短不一的模板匹配問(wèn)題,是語(yǔ)音識(shí)別中出現(xiàn)較早,較為經(jīng)典的一種算法。用于孤立詞識(shí)別,DTW算法與HMM算法在相同的環(huán)境下,識(shí)別效果相差不大。但HMM算法在訓(xùn)練階段需要提供大量的語(yǔ)音數(shù)據(jù),通過(guò)反復(fù)計(jì)算才能得到模板參數(shù),而DTW算法的訓(xùn)練中幾乎不需要額外的計(jì)算。第二十六頁(yè),共三十二頁(yè),2022年,8月28日每個(gè)詞條通過(guò)端點(diǎn)檢測(cè)和特征提取存入模板庫(kù),稱(chēng)為一個(gè)參考模板,可以表示為{R(1),R(2),...,R(m),...,R(M)},R(m)為第m幀的語(yǔ)音特征矢量,M為該段語(yǔ)音幀總數(shù)。所要識(shí)別的一個(gè)輸入詞條稱(chēng)為測(cè)試模板,可表示為{T(1),T(2),...,T(n),...,R(N)},T(n)為第n幀的語(yǔ)音特征矢量,N為該段語(yǔ)音幀總數(shù)。為了比較他們之間的相似度,可以計(jì)算他們之間的距離D[T,R],距離越小相似度越高。為了計(jì)算這一距離,應(yīng)從T和R中各個(gè)對(duì)應(yīng)幀之間的距離算起,設(shè)n和m分別是T和R中任意選擇的幀號(hào),d[T(n),R(m)]為這兩幀間的距離,距離函數(shù)為歐式距離。若N=M則可以直接計(jì)算,否則要考慮對(duì)齊的問(wèn)題,這里采用了動(dòng)態(tài)規(guī)劃的方法。如果把測(cè)試模板和參考模板的各個(gè)幀號(hào)在一個(gè)二維坐標(biāo)標(biāo)出,并畫(huà)出網(wǎng)格,于是問(wèn)題歸結(jié)為尋找一條經(jīng)過(guò)網(wǎng)格的從(1,1)到(N,M)路徑,路徑通過(guò)的網(wǎng)格點(diǎn)的坐標(biāo)對(duì)應(yīng)的是進(jìn)行距離計(jì)算的兩個(gè)幀號(hào)。第二十七頁(yè),共三十二頁(yè),2022年,8月28日第二十八頁(yè),共三十二頁(yè),2022年,8月28日為了描述這條路徑,假設(shè)路徑通過(guò)的所有格點(diǎn)依次為(n1,m1),...,(ni,mi),...,(nN,mN),路徑可以用函數(shù):描述,為了使路徑不至于過(guò)分傾斜,可以約束斜率在0.5~2的范圍內(nèi),即如果路徑已通過(guò)了(ni-1,mi-1),則(ni,mi)只可能是:1.(ni,mi)=(ni-1+1,mi-1+2);2.(ni,mi)=(ni-1+1,mi-1+1);3.(ni,mi)=(ni-1+1,mi-1);于是求最佳路徑的問(wèn)題可以歸結(jié)為求最佳路徑函數(shù)使得路徑的積累距離最小。第二十九頁(yè),共三十二頁(yè),2022年,8月28日搜索該路徑的方法如下:搜索從(n1,m1)點(diǎn)出發(fā),可以展開(kāi)若干條滿足約束條件的路徑。假設(shè)可計(jì)算每條路徑達(dá)到終點(diǎn)的總的積累距離,具有最小積累距

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論