版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、本科畢業(yè)設(shè)計(論文)基于信號消噪的語音增強系統(tǒng)設(shè)計燕 山 大 學2014年6月 本科畢業(yè)設(shè)計(論文)基于信號消噪的語音增強系統(tǒng)設(shè)計學 院: 專 業(yè): 學生 姓名: 學 號: 燕山大學畢業(yè)設(shè)計(論文)任務(wù)書 學院:電氣工程學院 系級教學單位:儀器科學與工程系學號學生姓名專 業(yè)班 級題目題目名稱基于信號消噪的語音增強系統(tǒng)設(shè)計題目性質(zhì)1.理工類:工程設(shè)計 ( );工程技術(shù)實驗研究型( );理論研究型( );計算機軟件型( );綜合型( )。2.管理類( );3.外語類( );4.藝術(shù)類( )。題目類型1.畢業(yè)設(shè)計( ) 2.論文( )題目來源科研課題( ) 生產(chǎn)實際( ) 自選題目( ) 主要內(nèi)容1
2、. 學習信號消噪的方法2. 用matlab進行仿真實驗基本要求1. 按電氣工程學院本科生學位論文撰寫規(guī)范的要求完成設(shè)計說明書一份(不少于兩萬字),A0圖紙。2. 說明書及插圖一律打印,要求條理清晰、文筆流暢、圖形及文字符號符合國家現(xiàn)行標準。3. 按學院指定的地點進行設(shè)計,嚴格按照進度計劃完成畢業(yè)設(shè)計任務(wù)。參考資料1. 語音信號處理方面資料2. Matlab在信號處理中的應用方面資料周 次第 1 4 周第 5 8 周第9 12周第1316周第1719周應完成的內(nèi)容查閱資料學習語音信號處理基礎(chǔ)知識語音消噪算法的設(shè)計編程,驗證算法可行性及優(yōu)越性撰寫論文,準備答辯指導教師:王娜職稱: 講師 年 月 日
3、系級教學單位審批: 年 月 日 摘要摘要語音是人們相互傳遞信息最重要的手段,然而人們在語音通訊的過程中不可避免的會受到周圍環(huán)境、傳輸介質(zhì)等帶來的噪聲的影響;在語音識別、語音合成等語音的應用過程中,使用的語音信號也會受到外來的各種噪聲的干擾,所以有必要對含噪語音信號進行去噪處理。語音增強已成為當前語音信號處理的研究熱點。而語音增強方法的小波閾值方法是目前較流行的去噪方法,本文在語音信號和噪聲信號特性的基礎(chǔ)上,對小波閾值去噪方法展開了以下研究:1.小波閾值去噪方法包含兩個重要因素:小波函數(shù)和分解層數(shù)。首先對不同的小波系進行研究,其次就分解層數(shù)進行研究分析,最后得到了對于帶噪語音信號來說去噪效果比較
4、好的小波基和最佳的分解層數(shù)。2.傳統(tǒng)閾值函數(shù)存在著一些不足之處,針對這些本文提出一種新的閾值函數(shù)。改進的閾值函數(shù)連續(xù)性和平滑性比較好,從理論上克服了傳統(tǒng)閾值函數(shù)在小波系數(shù)絕對值小于閾值時直接置零,而引起震蕩的缺點。3.研究了四種不同的閾值估計,在此基礎(chǔ)上,本文研究了一種新閾值估計方法。這種估計方法比上面四種的去噪效果都更加優(yōu)秀。關(guān)鍵詞:語音增強;小波變換;閾值函數(shù);閾值IAbstract Speech is the mutual transfer of the most important means of information, however it is unavoidable in t
5、he voice communication in the affected by noise environment, such as the transmission medium of; in the application process of speech recognition, speech synthesis, speech, speech signal using interference can be various kinds of noise outside. So it is necessary for the noisy speech signal denoisin
6、g. Speech enhancement has become a hot research topic in the speech signal processing. Speech enhancement, wavelet threshold method is one of the more popular denoising methods, based on the speech signal and noise signal characteristics, the wavelet threshold denoising method carries out the follow
7、ing research:1.Wavelet threshold denoising method contains two important factors: the wavelet function and decomposition layers. The first study of wavelet decomposition layers of different, then carries on the research analysis, finally obtained for noisy speech signal denoising effect is better wa
8、velet and the optimal decomposition level.2.The traditional threshold function has some shortcomings, the paper proposes a new threshold function. Improved threshold function continuity and smoothness is good, from theory to overcome the traditional threshold function value is less than the threshol
9、d are set to zero in the wavelet coefficient, and shock shortcomings.3.Study four different threshold estimation, based on this, the paper studies a new method of threshold estimation. This estimation method than the above four kinds of denoising effect is more outstanding.Keywords: speech enhanceme
10、nt; wavelet transform; threshold function; threshold 目錄 目 錄摘要Abstract第1章 緒論11.1 研究背景及意義11.2 語音增強方法的研究現(xiàn)狀21.3 基于小波變換的語音增強方法的研究現(xiàn)狀31.4 文章主要內(nèi)容和結(jié)構(gòu)4第2章 語音增強方法研究62.1 語音和噪聲主要特性62.1.1 語音特性62.1.2 噪聲特性72.2 語音信號的數(shù)字化及預處理82.2.1 語音信號的預加重82.2.2語音信號的加窗和分幀82.3 經(jīng)典語音增強方法102.3.1 譜減法102.3.2 維納濾波法122.3.3 自適應對消語音增強132.4 基于聽
11、覺掩蔽效應的語音增強132.5 基于神經(jīng)網(wǎng)絡(luò)的語音信號增強142.6 語音質(zhì)量的評價標準142.6.1 主觀評價142.6.2 客觀評價152.7 本章小結(jié)15第 3 章 小波變換的基本理論163.1 小波變換分類16III3.2 多分辨率分析183.3 常用小波函數(shù)183.4 本章小結(jié)19第 4 章 基于小波變換的語音增強204.1 小波變換語音增強的基本原理204.2 小波函數(shù)和分解層數(shù)的選擇214.2.1 小波基選取214.2.2 分解層數(shù)的選取224.2.3 仿真結(jié)果與分析234.3 閾值函數(shù)研究244.3.1 常用閾值函數(shù)244.3.2 改進的閾值函數(shù)274.3.3 仿真結(jié)果與分析2
12、84.4 閾值估計294.4.1 常見閾值估計304.4.2 新閾值估計324.4.3 仿真結(jié)果與分析334.5 實驗仿真效果344.6 本章小結(jié)38結(jié) 論39致 謝41參考文獻42附錄一 開題報告附錄二 中期報告附錄三 外文原文附錄四 外文文獻 第1章 緒論第1章 緒論1.1 研究背景及意義語言是人類相互交流、傳遞信息的重要形式,而語音則是人們傳遞消息時所用到的最基本的手段,也是人類最快捷、最重要、最便利的交流的形式。我們正處于并將長期處于一個信息化的時代,為了使語音信號的傳遞和獲取更加有效率,所以提出了語音信號處理技術(shù)。語音信號處理就是,數(shù)字信號處理與語音學等技術(shù)相結(jié)合的,并根據(jù)語音的聽覺
13、、音位以及物理和語音感知特性,用數(shù)字化地方法對語音信號模型進行分析、存儲、增強等研究的一種綜合性的技術(shù)。而我們這里研究的語音增強正是語音信號處理的一個重要的分支。60年代初期語音增強就引起了人們的注意,而到了70年代時達到了一個研究高潮,取得了一系列成果,到了80年代語音增強的實時實現(xiàn)成為了可能。在語音信號處理過程中,語音增強是其它語音技術(shù),如語音編碼、語音合成、語音識別等技術(shù)實現(xiàn)的基礎(chǔ)。由于語音的合成、編碼和語音識別等技術(shù)都需要高質(zhì)量的語音,然而我們在獲取和傳輸語音信號時,都會不可避免的受到噪聲信號的干擾,這導致語音系統(tǒng)地處理性能變差。語音增強就是要找到一種有效的去除噪聲的方法,它的目的就是
14、盡可能的從帶噪語音中提取出較為純凈的原始語音,也就是去掉語音信號中的干擾和噪聲,從而最終獲取高質(zhì)量的純凈的語音信號1。噪聲具有很多來源,而且根據(jù)環(huán)境和應用場合的不同,噪聲所具有的特性也不盡相同,所以想要找到一種通用的、適用于各種噪聲環(huán)境的語音增強方法是非常困難的。因此在不同的噪聲背景下就要采用不同的語音增強方法。但在實際應用過程中,噪聲都是隨機出現(xiàn)的,所以從帶噪語音中提取純凈的語音是幾乎不可能的。語音增強的目的主要有兩個:一是改善語音質(zhì)量;二是提高語音可懂度。但往往要同時實現(xiàn)這兩個目的是不可能的。目前為止,人們針對加性噪聲已經(jīng)研究了各種語音增強方法,并適用不同的場合。在現(xiàn)代通信領(lǐng)域中,由于因特
15、網(wǎng)和計算機被廣泛應用到社會的各個領(lǐng)域,許多應用都要求自然、簡單、便捷的人機界面,此時語音的優(yōu)越性就使其成為一種理想的人機交互方式,在這種交互方式中也需要從含噪語音信號中提取出盡可能純凈地原始語音信號。在日常生活中,還存著著一些有語言障礙的人,他們發(fā)出的語音大多會存在著失真,而經(jīng)過適當?shù)恼Z音增強處理后,他們的語音就能夠被人聽懂;在進行重要語音錄音存儲時,錄音設(shè)備本身產(chǎn)生的噪聲和周圍環(huán)境的噪聲都會對錄音效果產(chǎn)生影響,也可以通過語音增強來濾除噪聲,增加語音的清晰度,減少噪聲的影響。綜上可以看出,在現(xiàn)實生活中,語音增強技術(shù)能夠幫助人們解決很多問題,它有著廣泛的應用。所以對語音增強技術(shù)的研究和改進具有非
16、常重大的意義,找到合適且有效的語音增強方法對科技進步和方便人們的生活都會產(chǎn)生積極的、深遠的影響。1.2 語音增強方法的研究現(xiàn)狀20世紀60年代科學家們就已經(jīng)開始對語音增強方法進行研究。70年代中期隨著電子技術(shù)和數(shù)字信號處理的飛速發(fā)展,語音增強不僅開始逐步形成理論,并且被應用到實際生活中。很多的語音增強方法在那時被提出,1978 年,Lim 和 Oppenheim 提出了維納濾波法2,3;1979年,Boll 提出了譜相減法4。到了80年代,Maulay 和 Malpass 提出了軟判決噪聲抑制方法5;1984年,Ephraim 和 Malah 提出了基于 MMSE 短時譜估計的語音增強方法6;
17、1987年,Paliwal 提出了卡爾曼濾波法7。隨著科學技術(shù)的不斷發(fā)展,當?shù)搅?0年代,Ephraim 等人提出隱馬爾可夫模型框架的語音增強算法8;后來,隨著研究的不斷深入,新思想的不斷引入,又出現(xiàn)了一些新的很有研究前景的語音增強方法,如基于聽覺掩蔽效應9、基于神經(jīng)網(wǎng)絡(luò)10、子空間分解11和小波變換12的語音增強方法等。其中的研究熱點之一是基于小波變換的語音增強算法。小波分析方法是一種時頻分析方法,具有很好的時頻局部化的特點,非常適用于時變的、非平穩(wěn)的語音信號13。小波變換就是對函數(shù)或信號進行多分辨率多尺度的細化分析,主要運用了伸縮和平移等運算,它解決了Fourier變換不能解決的許多困難問
18、題。1.3 基于小波變換的語音增強方法的研究現(xiàn)狀1807年 Fourier 提出傅里葉分析,1822年又發(fā)表了“熱傳導解析論文”。小波變換這一概念是由石油信號處理工程師J.Morlet于1980年首先提出的,他率先發(fā)現(xiàn)了平移伸縮的小波公式。在二十世紀七十年代,A.Caldero 表示定理的提出、Hardy空間的原子分解和無條件基的深層研究為小波變換的誕生做好了理論上的準備。同時J.O.Stromberg 還構(gòu)造出了非常接近于現(xiàn)在小波基的小波函數(shù);1986年著名數(shù)學家 Y.Meyer偶然構(gòu)造出一個真正的小波基,并和稍后的比利時女數(shù)學家 I.Daubeichies提出了正交小波基,此后形成了小波研
19、究的高潮14,15。1988年 Mallat提出了多分辨率分析理論(MRA)16,17;1992年與其他人提出了基于信號奇異性的信號和圖像多尺度邊緣表示法;1994年,Xu Yansun提出了一種基于空域相關(guān)信號去噪算法,這是一種基于信號尺度間相關(guān)性的算法18;1995年D.L.Donoho和 I.M.Johnstone等人提出了小波閾值信號去噪算法19;在國內(nèi),也存在著很多研究學者,如潘泉、張磊等對小波閾值去噪算法進行了改進,并拓展了其應用領(lǐng)域;2000年,Chang等人提出了一種空域自適應小波閾值信號去噪方法,這種方法是將自適應閾值和平移不變小波信號增強思想相結(jié)合20,21;2001年G
20、Antonini和A Orlandi提出了小波包信號去噪算法22;近幾年來,人們對上述算法進行了一些改進。目前,最常用的語音去噪方法是小波閾值去噪方法。小波變換語音增強方法包括有三大類:模極大值去噪23、空域相關(guān)去噪和小波閾值去噪24。模極大值去噪是,根據(jù)語音信號和噪聲信號在不同尺度上的小波變換后的模極大值有不同的特性,語音信號的模極大值隨著尺度的增大而增大(或不變),而噪聲信號的模極大值則隨著尺度的增大而減小。依據(jù)這個規(guī)律噪聲的模極大值可以被濾除,而語音信號的模極大值被保留下來,最后用保留的模極大值重構(gòu)語音信號。這種方法僅僅適合于白噪聲和脈沖噪聲。由于在實際應用中計算模極大值時,存在著許多影
21、響計算精度的因素,所以用這種方法很難重構(gòu)信號,去噪效果較差,且計算量大。鑒于此,國內(nèi)外的學者提出了很多的改進算法25。 空域相關(guān)去噪是根據(jù)有用信號和噪聲信號經(jīng)過小波分解后,有用信號的小波系數(shù)在各個尺度上相關(guān)性較強且非常明顯,在信號邊緣附近相關(guān)性就更加明顯;而噪聲信號的小波系數(shù)在各尺度上相關(guān)性很弱且不明顯。因此,對帶噪信號小波分解后,從粗尺度到細尺度逐步搜索信號的邊緣,去除相關(guān)性較弱的噪聲信號,最終得到真實的信號。缺點是:容易將幅值較大的噪聲系數(shù)判為有用信號的系數(shù)。鑒于此,學者們也提出了很多改進算法26。小波閾值去噪的原理:原始語音信號經(jīng)小波分解得到的小波系數(shù)含有語音信號重要的信息,其幅值比較大
22、,數(shù)目少;但是噪聲信號經(jīng)小波分解后的得到的小波系數(shù)幅值就比較小?;诖?,通過在不同尺度上選擇一個合適的閾值,將大于該閾值的小波系數(shù)保留,而小于該閾值的小波系數(shù)則置零,這樣就可以有效地抑制噪聲,最后用得到的新小波系數(shù)重構(gòu)原始純凈的語音信號。對于這個閾值的確定,學者提出了很多方法,主要有:1981年,Stain提出了一種SURE閾值估計方法,即無偏似然估計;1994年,Donoho和 Johnstone等人提出了通用閾值算法;Gao和Bruee提出了極大極小閾值估計算法。 1.4 文章主要內(nèi)容和結(jié)構(gòu)語音增強是語音信號處理重要的基礎(chǔ)部分,所以人們研究了許多語音增強的方法。本文簡單地介紹了幾種前人提出
23、的經(jīng)典語音增強方法:譜減法、維納濾波法、自適應濾波法等,并且闡述了小波變換的基礎(chǔ)知識和小波閾值去噪的基本原理。本文的研究重點是小波閾值語音增強方法。首先在前人研究的基礎(chǔ)上,對小波消噪的兩個重要環(huán)節(jié):小波閾值和閾值函數(shù)兩方面進行了研究和改進。其次,對小波基和小波分解層數(shù)兩方面進行了研究,選擇了合適的小波基和小波分解層數(shù),以確保更加有效地進行小波去噪實驗。 本文具體結(jié)構(gòu)安排如下: 第1章,主要闡述了課題研究的背景、意義,介紹了語音增強方法的研究現(xiàn)狀,回顧了基于小波變換的語音增強方法的研究現(xiàn)狀,并對全文的章節(jié)做了具體安排。 第2章,闡述了語音增強的幾種經(jīng)典算法:譜減法、自適應對消法和維納濾波法,并且
24、總結(jié)、歸納了各種算法的思想及優(yōu)缺點。還介紹了兩種目前比較流行的算法:基于神經(jīng)網(wǎng)絡(luò)和基于聽覺掩蔽效應的語音增強方法。 第3章,介紹了小波變換的的基礎(chǔ)知識,分析了小波變換的基本原理,研究了多分辨率分析。 第4章,研究了小波變換語音增強方法。首先闡述了小波變換語音增強的基本原理,然后針對小波變換閾值去噪地四個關(guān)鍵問題進行了詳細研究,包括小波函數(shù)、分解層數(shù)、閾值和閾值函數(shù)的選取,重點是研究了新的閾值函數(shù)和新的閾值估計方法。 最后,對本文進行了總結(jié),概括了本文的主要工作,并指出需進一步研究和完善的地方。 5第2章 語音增強方法研究第2章 語音增強方法研究所謂語音增強就是對接收到的含噪語音進行處理,盡可能
25、的消除背景噪聲、提高信噪比,最終使提取出的語音信號盡可能的和原始語音信號保持一致,從而達到提高語音的清晰度和可懂度的目的,使聽者不會覺得疲勞。而語音信號處理系統(tǒng),就是要提高其識別率和抗干擾能力。對于不同噪聲的來說它們的特性也不盡相同,所以對不同噪聲就要采用不同的語音增強方法。一直以來,主要是對加性噪聲進行研究,并且提出了許多語音增強方法,比較常用的有:譜減法、自適應濾波法、維納濾波法、卡爾曼濾波等。此外,隨著技術(shù)的進一步發(fā)展出現(xiàn)了一些新的方法,如基于神經(jīng)網(wǎng)絡(luò)的語音增強、基于聽覺掩蔽效應的語音增強、基于多分辨率分析的語音增強、基于小波變換的語音增強等。本章主要介紹我們常用的一些方法。 2.1 語
26、音和噪聲主要特性2.1.1 語音特性我們在對語音信號進行處理時,一定要先掌握語音信號的特性。語音就是人類發(fā)音器官所發(fā)出的一種聲波,它具有聲音的物理特性:音強、音長、音質(zhì)和音調(diào)。發(fā)聲的最小單位是音節(jié),同時也是是語音流量的最小單位。語音就是由一個個連續(xù)的音節(jié)構(gòu)成的,音節(jié)由兩類構(gòu)成:清音和濁音。清音的幅度比較小,而且和白噪聲很像,時域和頻域特征都不明顯。濁音在時域波形上是周期性的,幅度較大;在頻域波形上有共振峰,大部分的能量集中在低頻段。語音是時變的、非平穩(wěn)的、非遍歷的隨機過程1。在語音增強中,濁音部分可以比較容易的和噪聲分辨出來,但清音卻很難與寬帶噪聲區(qū)分。語音波形在時域里是連續(xù)的,所以語音信號的
27、特性是隨時間變化的,幅值隨時間會有很大的變化。清音和濁音的波形具有很大不同:清音的波形類似于白噪聲,振幅很弱;元音波形具有明顯的周期性,且有較強的振幅。 雖然語音信號有時變特性,但是在較短時間間隔(1030ms)內(nèi)其特性基本保持不變,所以語音可以被認為是短時平穩(wěn)的。語音的短時譜幅度的統(tǒng)計特性,可近似認為的具有高斯分布。語音增強的目的是獲取高質(zhì)量的語音,而真正接收到去除噪聲后語音的是人耳。人耳對聲波的音強、音調(diào)、動態(tài)頻譜有很強的分析感知能力。而且在嘈雜的環(huán)境中人耳有一定的抗噪能力,這樣在語音增強中利用這種特性就可以減少一部分運算代價。語音感知特性很復雜,目前掌握的一些特性1有:語音感知主要是人耳
28、通過語音幅度譜來獲得的,但人耳對相位譜并不敏感;人耳對音頻高低的感知,近似的與該頻率的對數(shù)值成正比; 所謂聽覺掩蔽效應,就是強信號對弱信號有抑制作用,是指一個較強聲音的存在會影響人耳對另一個較弱聲音的感知; 語音感知另一重要因素是共振峰,尤其是第二個共振峰比第一個要重要的多,因此語音信號經(jīng)過高通濾波器的一定程度濾波后,其可懂度并不會受到影響;在兩個人或兩個人以上的多人說話環(huán)境中,人耳對他所需的聲音很敏感。 2.1.2 噪聲特性 噪聲也是聲音的一種,因此具有聲波地一切特性。由于噪聲來源多且雜,所以噪聲的特性變化很大。一般噪聲包括加性噪聲和非加性噪聲兩種,加性噪聲是指噪聲和語音信號在時域表現(xiàn)為相加
29、性,非加性噪聲在時域則表現(xiàn)為兩信號的相乘性。本文討論的噪聲主要是加性噪聲,加性噪聲一般分為:周期性噪聲、脈沖噪聲、寬帶噪聲和語音干擾1。 周期性噪聲是由周期性運轉(zhuǎn)的電氣或機械干擾產(chǎn)生的,有很多離散的窄譜峰。周期性噪聲帶來的問題相對較少,可以通過濾波或變換技術(shù)將其濾除,但是在去除時必須要注意不能損害有用信號。脈沖噪聲指由信號源產(chǎn)生的隨機短時“通斷”噪聲脈沖,如通信系統(tǒng)中開關(guān)的通斷產(chǎn)生地噪聲、敲擊電腦鍵盤時所產(chǎn)生的噪聲等,在時域表現(xiàn)為突然出現(xiàn)的類似于沖激函數(shù)的窄脈沖。一般有兩種方法用來消除此類噪聲:一種是平滑濾波法,一種是閾值判斷法。 寬帶噪聲的聲源是隨機噪聲,包括風、呼吸噪聲等,常被近似為高斯噪
30、聲或白噪聲。但因為其與語音信號完全重疊,因此很難消除,在消除噪聲的同時不可避免的的丟失有用信號。目前常用的方法是利用某些非線性處理的譜減法、自適應對消法等。 語音干擾可能是由于話筒拾得的其他語音或在通信中串話引起的,這種噪聲去除也很困難,一般采用自適應技術(shù)跟蹤某個人的特征方法來消除27。 2.2 語音信號的數(shù)字化及預處理2.2.1 語音信號的預加重聲門激勵和口鼻福射會對語音信號的平均功率譜造成很大影響,導致高頻端大致在800 Hz以上以6dB/倍頻下降,造成了高頻部分占整個頻譜的比例就會下降的很嚴重,這樣也就會導致整個頻帶上的波形在高頻段時變化比較巨大,最嚴重的是會對后續(xù)的參數(shù)分析或者是求取造
31、成誤差。所以這里需要一個系統(tǒng)來彌補這6dB/倍頻下降的不足(我們可以使用一階的數(shù)字濾波器來實現(xiàn)6dB/倍頻提升),彌補之后的頻譜就比較接近原始頻譜,整個頻譜的變化也不是很大,后續(xù)分析和求取的參數(shù)就會誤差較小。 (2-1) 在恢復原信號的過程中,如果要從做過預加重的信號頻譜中求取實際的頻譜,需要對測量值進行去預加重處理,就是用能夠以6dB/倍頻程的下降的頻率特性的數(shù)字濾波器來還原的被處理過的信號特性。2.2.2語音信號的加窗和分幀雖然語音信號是一種非平穩(wěn)、時變的信號(包含了各種不必要的信息),但是清音和獨音的參數(shù)在整個發(fā)聲的過程中跟隨時間的變化是十分微小的。既然如此,我們就可以選取一個微小的時間
32、段(一般在語音處理中選取的時間段為1030ms),在這個時間段中各種語音參數(shù)可以認為是基本保持不變的。這樣我們就可以把整個完整的語音信號截取為一段一段(每一段都是1030ms)進行處理,對于整個語音信號的截取我們可以選擇使用加窗分幀來實現(xiàn),因為我們要利用語音信號的短時平穩(wěn)性來實現(xiàn)語音增強。使用較多的加窗分幀方法有兩種:一種是連續(xù)分段方法,一種是交疊分段。如何選取加窗分幀的方法,要根據(jù)兩種方法在實際應用的環(huán)境中所定,可是在這里需要做到段與段之間平滑過渡,即是要有較好的連續(xù)性,所以選擇交疊分段。頓長的選取一般是要為頓移的2倍。圖2-1給出了幀長與幀移(前后兩幀之間的交疊部分)的關(guān)系。 第K幀 第K
33、+1幀 第K+2幀 幀長 幀移圖2-1 幀長、幀移示意圖語音信號的加窗算式為: (窗是有限長的)。下面給出了一些常用窗函數(shù)有兩種,一種是矩形窗(rectangular)、一種是漢明(Hamming)窗,矩形窗的表達式如下:矩形窗: (2-2) 漢明窗(Hamming)的表達如下: (2-3) 窗的形狀會對短時分析參數(shù)的特性有很大影響。矩形窗的主瓣寬度小于漢明窗,具有較高的頻譜分辨率,矩形窗的高頻成分必定會影響語音信號的高頻部分,容易造成頻譜泄露。如果選用高頻分量幅度較小的漢明窗,漢明窗的帶寬大約是矩形窗的一倍,但他的旁瓣衰減卻比矩形窗大得多,具有更平滑的低通特性。它們各有優(yōu)缺點。因此應根據(jù)實際
34、應用的要求來選擇合適的窗形,從而達到好的效果。若采樣周期,我們可以得到如下關(guān)系式: (2-4) 所以當釆樣周期保持不變時,是隨著窗口寬度N的增加而減小,但是頻率分辨率顯然會提高,卻是以時間分辨率降低為代價的;反之窗口取短,頻率分辨率下降,會得到時間分辨率的提高,二者是相互矛盾的。若窗長N比較大的時候,其輸出就像是經(jīng)過了一個低通濾波器(頻帶比較窄),對原始語音信號的平滑作用太過厲害,這樣就會造成短時能量幾乎沒有太大的變化,無法反應語音信號的時變特性;另一方面,若N取值太小時,對原始語音信號的平滑作用又不能滿足需要,信號一些瞬時信息全被保留了下來,短時能量積聚變化,得不到效果較好的語言信號振幅包絡(luò)
35、。2.3 經(jīng)典語音增強方法2.3.1 譜減法譜減法是基于人的感覺特性的,也就是人的聽覺系統(tǒng)對語音信號的短時幅度比短時相位更敏感,從而估計語音短時幅度譜,然后從帶噪語音的估計值中減去噪聲的估計值,得到較為純凈的語音譜,其效果相當于在變換域?qū)г胝Z音信號進行了均衡化處理。這都是在假設(shè)噪聲和語音信號相互獨立的條件下進行的。譜減法的約束條件比較少,運算量小。譜減法的基本原理:將帶噪語音信號進行傅里葉變換,從帶噪語音幅度譜的平方中減去噪聲的幅度譜的平方,然后再開方,得到原始語音譜幅度的估計值,再借用帶噪語音的相位進行傅里葉反變換,得到增強的語音。使用譜減法就是做如下假設(shè):語音信號為平穩(wěn)信號,噪聲和語音信
36、號為加性信號且不相關(guān),對純凈的語音信號無先驗知識,但對統(tǒng)計噪聲有先驗知識。 為純凈的語音信號,是噪聲信號,是帶噪語音信號; 、和分別表示、和的傅里葉變換。信號的加性模型為: (2-5) 由于語音是不平穩(wěn)的,且所有計算都是分幀進行的,為了避免分幀時的階段效應,我們對信號進行加窗處理后分別表示為、,處理后的功率譜為: (2-6) 式中 *表示復共軛。我們可以通過觀測到的數(shù)據(jù)估計,其他各項近似為統(tǒng)計均值。因此原始信號的估計值為: (2-7) 由于上式用的是估值,因此實際應用中式(2-7)有可能是負值,但功率譜不能為負值,所以可將負值替換為0 。由此可以得到幅度估計值 。我們要恢復語音,還需要相位。利
37、用人耳對相位不敏感的特性,借用帶噪語音的相位來近似。即: (2-8)得到恢復語音信號 (2-9) 在以上過程中,由于噪聲的分布范圍較廣。在相減時,噪聲分量較大的頻率點上會有一大部分的殘留,頻譜上會呈現(xiàn)隨機起伏的尖峰,這種殘留的的噪聲在聽覺上類似音樂,因此又稱為“音樂噪聲”,影響語音的可懂度和清晰度。一般,在濾除噪聲時多少都會對語音信號造成一定的損害,噪聲濾出的越多,語音信號損害越厲害。為此提出了譜減法的改進形式,既可較好的消除音樂噪聲,又可使語音質(zhì)量和可懂度得到優(yōu)化。一般在整個頻率范圍內(nèi)都分布有噪聲能量,但語音能量主要集中在高頻段,尤其是在元音的共振峰處。因此在對元音段的等幅度比較高的時幀進行
38、消噪時,減去噪聲估值的倍數(shù),可很好地相對突出語音功率譜。改進形式是對公式(2-7)的修正 (2-10) 式(2-10)中引入了、兩個參數(shù),、時是基本的譜減法。調(diào)節(jié)參數(shù)可以控制去噪的程度,增大能減少剩余的噪聲,減弱音樂噪聲。調(diào)節(jié)也可得到類似的結(jié)果。因此選擇適當?shù)?、參?shù)可以比較好的去除音樂噪聲,得到更好的增強效果。2.3.2 維納濾波法維納濾波法是基于時域上的最小均方誤差準則的,可以有效地消除音樂噪聲。維納濾波法是通過估計噪聲和帶噪語音信號的功率譜,構(gòu)造傳遞函數(shù)(一般是根據(jù)最小均方誤差準則的準則來迭代估計得到的),然后從帶噪語音信號功率譜中計算純凈語音信號的功率譜,再利用帶噪語音信號的相位,恢復增
39、強后的語音信號。維納濾波的降噪效果比譜減法好。維納濾波的基本思想是:依據(jù)輸入信號和期望得到的輸出信號,找到一個線性濾波器進行濾波,得到的信號能夠達到濾波后信號和期望信號的差平方的最小期望值,即時域上的最小均方差28。維納濾波的框圖如圖 2-2 所示 。 圖2-2 維納濾波流程圖是脈沖響應,是噪聲信號,是語音信號,是輸出信號。維納濾波法最關(guān)鍵的就是要求出在最小均方誤差下濾波器的單位脈沖相應或傳遞函數(shù)。2.3.3 自適應對消語音增強 自適應濾波法,就是帶自適應濾波器的噪聲對消法。與以上兩種方法相比,因為此方法用了參考噪聲作為輔助輸入,可以獲得比較全面的噪聲信息,尤其當輔助輸入的噪聲與帶噪語音的噪聲
40、相關(guān)時,語音增強的效果較好。所謂噪聲對消,就是用對消的方法抑制確知的隨機干擾,把受污染的語音信號提取出來,也即從帶噪語音信號中減去噪聲。自適應濾波能在輸入信號和噪聲統(tǒng)計未知情況下,通過調(diào)整自身參數(shù)達到最佳的濾波效果。因此自適應噪聲對消的關(guān)鍵是找到噪聲的準確復制,采用雙麥克風語音采集系統(tǒng)可以比較容易的解決這一問題。2.4 基于聽覺掩蔽效應的語音增強 近幾年,基于聽覺特性的語音增強研究取得了的不小的發(fā)展28,其中比較成功的就是基于聽覺掩蔽效應的語音增強。一種頻率的聲音被另一種頻率的聲音所掩蓋,而使聽覺系統(tǒng)很難感知的現(xiàn)象稱為聽覺掩蔽效應。噪聲信號之所以能影響到人耳對純凈語音信號的感知,其本質(zhì)就是因為
41、噪音信號在一定程度上掩蔽了純凈語音信號?;诖说恼Z音增強,就是指消弱或去除噪音對語音信號的掩蔽。同樣可以認為是,語音信號掩蔽掉與其一同進入聽覺系統(tǒng)的含有較小能量的噪聲信號,使人耳不能感知到噪聲。聽覺掩蔽效應主要分為純音間的掩蔽和噪音對純音的掩蔽。噪聲是由很多種純音組成的,有寬頻譜。純音間的掩蔽是指,對中等強度的純音最有效地掩蔽是表現(xiàn)在其頻率附近,高頻的純音能有效地被低頻的純音掩蔽,而高頻純音對低頻純音的掩蔽較小。噪音對純音的掩蔽:一是掩蔽音為寬帶噪聲,則在低頻段產(chǎn)生掩蔽門限,且高于噪聲功率譜密度 17dB 比較平坦;二是掩蔽音為窄帶噪聲,這種情況較復雜,掩蔽作用比較明顯的是臨界頻帶的掩蔽,也就
42、是被掩蔽音(純音)附近的由純音分量組成的窄帶噪聲。 由以上所述可知,掩蔽效應與頻率有直接的關(guān)系,因此要應用掩蔽效應就要對信號頻段進行劃分。一般情況下,在 Bark 域?qū)? 8kHz頻率范圍劃分為 8 個頻段。在利用聽覺掩蔽效應之前要先計算掩蔽閾值29,文獻30給出了計算各個關(guān)鍵頻段掩蔽閾值的基于 Bark 子域的算法?;诼犛X掩蔽效應的語音增強,主要有兩種思想:一種是改進譜減法,利用估計到的掩蔽閾值來控制譜減法公式中的參數(shù),達到在低信噪比時,改善抑制噪聲的效果;在高信噪比時,降低有用語音信號的丟失。第二種是對噪聲的直接掩蔽,也是估計掩蔽閾值,然后建立一個原則,使殘留噪聲的能量低于這個門限?;?/p>
43、聽覺掩蔽效應的語音增強不僅能夠提高信噪比,還能抑制殘留的音樂噪聲,并提高語音的可懂度。但有一個缺點,這種方法建立在具有較高語音知識的基礎(chǔ)上,且要進行大量實驗才能得到合適的參數(shù)。 2.5 基于神經(jīng)網(wǎng)絡(luò)的語音信號增強 人工神經(jīng)網(wǎng)絡(luò)35 (ANN,即 Artifical Neural Network),也稱為神經(jīng)網(wǎng)絡(luò),是一種模仿人腦神經(jīng)網(wǎng)絡(luò)行為特征,進行分布式并行信息處理的算法數(shù)學模型。神經(jīng)網(wǎng)絡(luò)技術(shù)具有良好的非線性信息處理能力、自適應學習能力和并行處理能力,由大量的人工神經(jīng)元聯(lián)結(jié)進行計算,多數(shù)情況下人工神經(jīng)網(wǎng)絡(luò)能在外界信息的基礎(chǔ)上改變其內(nèi)部結(jié)構(gòu),是一種非線性自適應系統(tǒng)。神經(jīng)網(wǎng)絡(luò)通過學習改善其內(nèi)部表示
44、,使神經(jīng)網(wǎng)絡(luò)達到所需的性能。學習的實質(zhì)是通過訓練樣本反復作用于網(wǎng)絡(luò),然后通過一定的學習算法自動的校正網(wǎng)絡(luò)神經(jīng)元之間的連接權(quán)重,當實際的輸出滿足要求或趨于穩(wěn)定時,停止學習。根據(jù)不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)采用不同的學習算法。對于三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),一般采用反向傳播算法,即 BP 算法9。近幾年,選用四層神經(jīng)元網(wǎng)絡(luò)結(jié)構(gòu)的研究比較多,也提出了一些新的算法10。2.6 語音質(zhì)量的評價標準2.6.1 主觀評價由于語音通信的終端是人耳,所以聽者的主觀感受是一個重要的評價指標,主要由實際測聽來完成,有平均意見得分(MOS 得分, Mean Opinion Score)和判斷韻字測試等標準。(1) MOS 得分是對眾多聽
45、者在聽音實驗后對語音質(zhì)量的主觀評價取平均得到的。 如果還原出的語音信號和原始語音信號幾乎一致,只有很少的細節(jié)差異,在不進行對照的情況下察覺不出,則認為質(zhì)量為優(yōu);若還原出的語音信號沒有明顯的畸變或失真,不注意聽就察覺不出,則認為質(zhì)量為良;若還原出的語音信號有比較明顯的畸變或失真,但聽起來仍自然、清晰,沒有疲勞感,則認為質(zhì)量為中;若還原出的語音信號有明顯的畸變或失真,聽起來不很清晰,略有疲勞感,則認為質(zhì)量為差;若還原出的語音信號聽不清,在聽覺上無法忍受,則認為質(zhì)量為劣。(2) 判斷韻字測試 判斷韻字的測試方法是根據(jù)全體受試者判斷正確的百分比(即 DRT 得分)來區(qū)分語音清晰度的,它能在一定程度上反
46、應出語音的清晰度和可懂度。DRT 在 95以上時可認為清晰度為優(yōu),在 8594時認為清晰度為良,在 7584時認為清晰度為中,在 6575時認為清晰度為差,65以下則認為清晰度為劣。2.6.2 客觀評價 語音質(zhì)量的客觀評價是以語音信號處理系統(tǒng)的輸出與輸入之間誤差的大小為標準來判斷的,目前常用的標準主要有:信噪比(SNR)、分段信噪比(SEGSNR)、噪聲掩蔽比(NMR)和坂倉距離度量(Itakura Distance Measure)等。 2.7 本章小結(jié) 本章在上一章分析的語音和噪聲特性的基礎(chǔ)上,主要介紹了幾種常用語音增強方法:譜減法及改進形式、維納濾波法、自適應對消語音增強、基于聽覺掩蔽效
47、應的語音增強和基于神經(jīng)網(wǎng)絡(luò)的語音增強。譜減法是最簡單的語音增強方法,計算量小,應用范圍比較廣,但有音樂噪聲;維納濾波法要求語音信號是平穩(wěn)信號,增強后的殘留噪聲類似白噪聲,沒有音樂噪聲;自適應對消法在強噪聲背景下有很好的消噪效果,但也會殘留音樂噪聲;基于聽覺掩蔽效應的語音增強,增強效果好,但要求有較高的語音知識,并進行大量實驗確定參數(shù);基于神經(jīng)網(wǎng)絡(luò)的語音增強,良好的學習能力、自適應能力和并行處理能力,但是依賴于干擾噪聲和參考噪聲。第 3 章 小波變換的基本理論小波變換是近二十年來信號處理方面研究的熱點,基于小波變換的的分析方法是一種新的時頻的分析方法。小波變換是一種時間-尺度分析方法,具有多分辨
48、率分析的特點、時頻局部變換的特點和能夠靈活的選擇小波函數(shù)。為解決瞬間信號、寬帶噪聲信號、非平穩(wěn)信號等提供了很好的解決方法。 小波分析的時頻局域化分析方法就是在低頻部分具有較高的頻率分辨率和較低的時間分辨率,在高頻部分則恰恰相反。它是在傅里葉變換的基礎(chǔ)上發(fā)展而來的,但兩者又有很大的不同:傅里葉變換是從整體上對信號進行分析,用單一的時域或頻域來表示信號的特征;而小波分析具有良好的多分辨率分析特性和時頻局部化特性,可用時域和頻域相聯(lián)合的方法來表示信號的特征,實現(xiàn)函數(shù)或信號的多尺度細化分析,解決了許多傅里葉變換不能解決的難題。 3.1 小波變換分類 小波分析誕生于二十世紀八十年代,是一門新的極具生命力
49、的的學科,含有豐富的數(shù)學知識,在很多領(lǐng)域得到了廣泛的應用。 設(shè)函數(shù),是可測平方可積的一維函數(shù)空間,為母小波,也稱為小波基,若母小波的傅里葉變換滿足容許性條件13 (3-1)若對母小波進行進行伸縮、平移后得到小波序列。若此小波序列為 (3-2)式中 尺度因子; 47第3章 小波變換的基本理論 平移因子。(1) 連續(xù)小波變換函數(shù)的連續(xù)小波變換為: (3-3)不難發(fā)現(xiàn),連續(xù)小波變換具有兩個重要的性質(zhì):線性和平移不變性。(2) 離散小波變換考慮母小波是容許的,現(xiàn)在限制參數(shù) a 、b取離散值,得到相應的離散族 (3-4)則函數(shù)離散小波變換為 (3-5)離散小波變換具有線性,但是不具有平移不變特性。(3)
50、 二進小波變換對于離散小波變換,如果平移因子保持連續(xù)變化,而對尺度因子進行二進制離散,則函數(shù)的二進制小波變換為 (3-6)若使二進制小波變換的逆變換存在,需滿足二進小波的穩(wěn)定性條件 (3-7)式中和都為正常數(shù),并且。最穩(wěn)定條件是:。所有滿足以上穩(wěn)定性條件的稱為二進小波。二進小波變換的逆變換為 (3-8)二進小波變換是介于連續(xù)小波變換和離散小波變換的,因此二進小波變換不僅具有離散小波變換的優(yōu)點,并具有時移不變性,且小波基存在冗余,因此去噪效果比較好,所以二進小波變換在實際中應用廣泛。3.2 多分辨率分析 小波的多分辨率分析(Mutli-resolution Analysis),又稱為多尺度分析3
51、6,是建立在函數(shù)空間概念上的理論基礎(chǔ)上。S.Mallat以多分辨分析上設(shè)計了一個以計算離散柵格上的小波變換為基礎(chǔ)的快速算法(Mallat算法)。它能夠避免a值較大時,釆樣密度就更大的缺陷,這一算法在小波分析中起著相當重要的作用。 多分辨率分析只是對小波變換的低頻部分作進一步的分解,高頻部分則不考慮。多分辨率分析的定義:令,為空間中的一個閉子空間序列,若滿足以下性質(zhì):(1) 逼近性:, (2) 伸縮性:, 對 (3) 一致單調(diào)性:, 對(4) 平移不變性:, 對,(5) Riesz基存在性:存在函數(shù),使構(gòu)成的Riesz基。即對任意,存在唯一的序列,使得 (3-9)多分辨率分析只對低頻部分進行分解
52、,高頻部分不予考慮。3.3 常用小波函數(shù) 小波函數(shù)具有不唯一性,即具有多樣性,這是小波分析和標準的傅立葉變換之間的不同所在。不同的小波基具有不同的時頻特性,對于某一個確定的信號,用不同的小波基進行分析得到的結(jié)果可能會截然不同,這就是最優(yōu)小波基選擇所帶來的結(jié)果。在一般情況下,小波基的選取是根據(jù)信號時頻特性,用經(jīng)驗或者是大量的實驗來選取小波基,然后以小波分析方法的結(jié)果和理論上應有的結(jié)果兩者之間誤差的大小來判定小波基選取的好壞。在語音編碼、語音增強及圖像消噪等小波實際應用中,主要是利用小波基能夠使用非常少的一些小波系數(shù)去完美的最佳逼近實際中的信號。3.4 本章小結(jié) 本章主要闡述了小波變換的基礎(chǔ),闡明
53、了小波變換具有時頻局部化的特點,在處理一些非平穩(wěn)信號上有一定的優(yōu)勢。第 4 章 基于小波變換的語音增強4.1 小波變換語音增強的基本原理 基于小波變換的語音增強方法的基本思想是:帶噪語音信號經(jīng)小波變換后分解為具有時頻特性的小波系數(shù),然后選擇合適的閾值,經(jīng)過閾值處理后消除背景噪聲,最后再經(jīng)過小波逆變換對得到的新小波系數(shù)進行重構(gòu)來得到去噪的語音信號。這種語音增強方法可以很好地去除帶噪語音中的加性噪聲。 小波變換的語音增強是基于信號和噪聲小波的系數(shù)在不同尺度上具有不同的特征這一原理的。小波變換語音閾值去噪的基本原理11是:語音信號的能量主要集中在小波分解系數(shù)的低頻段,并且幅值較大;而噪聲能量則主要集中在高頻段,并且幅值比較小。基于此可以認為幅值比較大的小波系數(shù)一般以信號為主,幅值
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度2025年食堂食堂員工績效考核合同
- 2025年度光伏發(fā)電系統(tǒng)管道疏通與發(fā)電效率提升合同
- 二零二五年度稅收籌劃與稅收籌劃專業(yè)團隊咨詢合同
- 2025年度影視制作公司財務(wù)代理記賬與版權(quán)合同
- 二零二五年度商場收銀員招聘勞動合同范本
- 2025年度建筑行業(yè)派遣員工工程安全及勞務(wù)合同4篇
- 2025年度藝術(shù)品拍賣合同示范文本3篇
- 2025年度個人二手車交易擔保合同模板2篇
- 2025年度農(nóng)業(yè)資源保護與開發(fā)合同4篇
- 2025年度海鮮美食節(jié)臨時供貨及銷售合同
- 小兒甲型流感護理查房
- 霧化吸入療法合理用藥專家共識(2024版)解讀
- 2021年全國高考物理真題試卷及解析(全國已卷)
- 拆遷評估機構(gòu)選定方案
- 趣味知識問答100道
- 鋼管豎向承載力表
- 2024年新北師大版八年級上冊物理全冊教學課件(新版教材)
- 人教版數(shù)學四年級下冊核心素養(yǎng)目標全冊教學設(shè)計
- JJG 692-2010無創(chuàng)自動測量血壓計
- 三年級下冊口算天天100題(A4打印版)
- CSSD職業(yè)暴露與防護
評論
0/150
提交評論