版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
噪聲估計(jì)的算法及MATLAB實(shí)現(xiàn)畢業(yè)設(shè)計(jì)目錄TOC\o"1-5"\h\z1 緒論 1\o"CurrentDocument"1.1噪聲估計(jì)算法研究的目的和意義 1\o"CurrentDocument"1.2國(guó)外研究的現(xiàn)狀 2\o"CurrentDocument"1.3論文的整體安排 3\o"CurrentDocument"2幾種經(jīng)典的噪聲估計(jì)的算法 4\o"CurrentDocument"2.1幾種噪聲估計(jì)算法的優(yōu)點(diǎn) 4\o"CurrentDocument"2?2噪聲估計(jì)算法 4\o"CurrentDocument"3基于語(yǔ)音活動(dòng)性檢測(cè)的噪聲估計(jì)算法及MATLAB實(shí)現(xiàn) 6\o"CurrentDocument"3.1基于語(yǔ)音活動(dòng)性檢測(cè)的噪聲估計(jì)算法 61.1短時(shí)能量 61.2短時(shí)平均過零率 71.3基于短時(shí)能量和短時(shí)平均過零率的語(yǔ)音活動(dòng)性檢測(cè) 71.4實(shí)驗(yàn)仿真 9\o"CurrentDocument"4最小統(tǒng)計(jì)遞歸平均的噪聲估計(jì)算法及MATLAB仿真 12\o"CurrentDocument"1最小值統(tǒng)計(jì)法 121.1最優(yōu)平滑 121.2最小功率譜統(tǒng)計(jì)跟蹤 131.3實(shí)驗(yàn)仿真 15\o"CurrentDocument"4.2基于統(tǒng)計(jì)信息的非平穩(wěn)噪聲自適應(yīng)算法 164.2.1概述 164.2.2非平穩(wěn)噪聲自適應(yīng)算法 16\o"CurrentDocument"4.3最小值控制遞歸平均算法 194.3.1計(jì)算局部能量最小值 203.2估計(jì)語(yǔ)音存在的概率 213.3更新噪聲譜的估計(jì) 21\o"CurrentDocument"4一種改進(jìn)的最小統(tǒng)計(jì)量控制遞歸平均噪聲估計(jì)算法 224.4.1改進(jìn)的噪聲估計(jì)算法 224.4?2實(shí)驗(yàn)仿真 24\o"CurrentDocument"5 總結(jié)與展望 25\o"CurrentDocument"1論文的主要工作 25\o"CurrentDocument"5.2目前存在的問題及今后的發(fā)展方向 25參考文獻(xiàn) 26\o"CurrentDocument"致謝 27\o"CurrentDocument"附錄:外文文獻(xiàn) 281.1噪聲估計(jì)算法研究的目的和意義語(yǔ)音作為語(yǔ)言的聲學(xué)表現(xiàn),是人類特有的也是最重要的思想和情感交流段,也是人機(jī)交互最自然的方式。而人們?cè)谕ㄐ胚^程中,語(yǔ)音常常受到環(huán)境噪聲的干擾而使通話質(zhì)量下降,在實(shí)際應(yīng)用中噪聲的存在也會(huì)產(chǎn)生很多問題,語(yǔ)音處理設(shè)備對(duì)人類語(yǔ)音進(jìn)行獲取或處理的過程不可避免地要受到來自周圍環(huán)境的各種噪聲或其它講話者的干擾,這些干擾噪聲最終將使語(yǔ)音處理設(shè)備的接收到的語(yǔ)音不再是純凈的原始語(yǔ)音,而是被噪聲污染過的帶噪語(yǔ)音。由于環(huán)境噪聲的污染會(huì)使許多語(yǔ)音處理系統(tǒng)的性能急劇惡化,嚴(yán)重時(shí)使語(yǔ)音處理系統(tǒng)不能正常工作?因此在上述情況下,背景噪聲的存在不僅嚴(yán)重破壞了語(yǔ)音信號(hào)原有的模型參數(shù)和聲學(xué)特性,導(dǎo)致許多語(yǔ)音處理系統(tǒng)服務(wù)質(zhì)量的降低,而且會(huì)影響系統(tǒng)輸出語(yǔ)音的可懂程度,使聽眾產(chǎn)生聽覺疲勞。在視頻信號(hào)中也同樣存在噪聲,很多視頻圖像處理都是在沒有考慮噪聲情況下得出的,如果存在噪聲就必將會(huì)影響這些算法的有效性。由于噪聲對(duì)視頻圖像處理算法的影響如此大,因此在開發(fā)圖像視頻處理算法時(shí)必須考慮噪聲,必須有一種可靠的方法能準(zhǔn)確地估計(jì)噪聲,以便使很多圖像視頻處理算法(比如邊緣檢測(cè).圖像分割和濾波等)在噪聲存在的情況下依舊保持非常良好的性能。然而,語(yǔ)音增強(qiáng)技術(shù)作為一種預(yù)處理技術(shù),是消除這些噪聲干擾的一個(gè)最重要的手段,它通過對(duì)帶噪語(yǔ)音進(jìn)行處理來改善語(yǔ)音質(zhì)量,使人們易于接受或提高語(yǔ)音處理系統(tǒng)的性能。語(yǔ)音增強(qiáng)的主要目標(biāo)是從帶噪語(yǔ)音信號(hào)中提取盡可能純凈的原始語(yǔ)音?通過語(yǔ)音增強(qiáng),抑制背景噪聲,提高語(yǔ)音通信質(zhì)量,而噪聲估計(jì)又是語(yǔ)音增強(qiáng)的一個(gè)非常重要的部分,噪聲估計(jì)的準(zhǔn)確性直接影響到語(yǔ)音增強(qiáng)的效果,因此研究噪聲估計(jì)算法有很好的實(shí)用價(jià)值。在這種情況下,必須建立一個(gè)語(yǔ)音增強(qiáng)系統(tǒng),通過對(duì)帶噪語(yǔ)音進(jìn)行處理,以消除背景噪聲,改善語(yǔ)音質(zhì)量,提髙語(yǔ)音的清晰度、可懂度和自然度,提髙語(yǔ)音處理系統(tǒng)的性能;或者將語(yǔ)音增強(qiáng)作為一種預(yù)處理手段,以提高語(yǔ)音處理處理系統(tǒng)的抗干擾能力。要實(shí)現(xiàn)這些第一個(gè)環(huán)節(jié)就是要利用噪聲的特性參數(shù),很好的將噪聲估計(jì)出來。語(yǔ)音增強(qiáng)算法可從信號(hào)輸入的通道數(shù)上分為單通道的語(yǔ)音增強(qiáng)算法和多通道的語(yǔ)音增強(qiáng)算法。單通道語(yǔ)音系統(tǒng)在實(shí)際應(yīng)用中較為常見,如,手機(jī)等。這種情況下語(yǔ)音和噪聲同時(shí)存在一個(gè)通道中,語(yǔ)音信息與噪聲信息必須從同一個(gè)信號(hào)中得出。而單通道語(yǔ)音增強(qiáng)是語(yǔ)音增強(qiáng)的基礎(chǔ),單通道語(yǔ)音增強(qiáng)第一個(gè)環(huán)節(jié)就是要利用噪聲的特性參數(shù),很好的將噪聲估計(jì)出來,而在此方法中,噪聲源是不可接近的,背景噪聲的特性只能從帶噪語(yǔ)音中獲得。因此,噪聲估計(jì)的準(zhǔn)確性會(huì)直接影響最終效果:噪聲估計(jì)過高,則微弱的語(yǔ)音將被去掉,增強(qiáng)語(yǔ)音會(huì)產(chǎn)生的失真;而估計(jì)過低,則會(huì)有較多的背景殘留噪聲。因此,對(duì)噪聲估計(jì)方法的研究是非常必要的,在語(yǔ)音算法的前期必需要對(duì)噪聲進(jìn)行估計(jì)。噪聲估計(jì)還在語(yǔ)音通訊領(lǐng)域非常重要,同時(shí)在統(tǒng)計(jì)學(xué)、圖像處理、軍事等方面也起著非常重要的作用.由于噪聲的統(tǒng)計(jì)特性比語(yǔ)音的統(tǒng)計(jì)特性更平穩(wěn),所以噪聲估計(jì)在統(tǒng)計(jì)學(xué)中也很有研究意義。可見,噪聲估計(jì)在很多領(lǐng)域起著非常重要的作用,那么噪聲估計(jì)算法作為研究課題是非常有意義的。1.2國(guó)外研究的現(xiàn)狀有關(guān)抗噪聲技術(shù)的研究,在國(guó)外作為非常重要的研究課題,已經(jīng)作了大量的研究工作,取得了豐富的研究成果。而噪聲估計(jì)是語(yǔ)音增強(qiáng)中非常重要的一個(gè)部分,在這方面的研究,國(guó)外比較多一些,以下介紹幾種經(jīng)典的噪聲估計(jì)算法。傳統(tǒng)的噪聲估計(jì)方法是使用語(yǔ)音活動(dòng)性監(jiān)測(cè)(VAD:VoiceActiveDetection)判別語(yǔ)音是否出現(xiàn),并分離出無聲段,此時(shí)無聲段主要表現(xiàn)為噪聲特性,然后在無聲區(qū)通過某種統(tǒng)計(jì)方法,獲得背景噪聲特性的近似估計(jì),對(duì)噪聲譜進(jìn)行更新。盡管該方法在噪聲為平穩(wěn)的情況下是可行的,但是在實(shí)際的噪聲環(huán)境中噪聲譜的特性變化很大,在低信噪比下,VAD的誤檢率會(huì)增大,在不能正確判斷無聲段的情況下很難保證估計(jì)出來的噪聲的準(zhǔn)確性。因此,為了實(shí)現(xiàn)精確的噪聲估計(jì),就要對(duì)噪聲譜進(jìn)行實(shí)時(shí)的估計(jì)。1994年Martin提出了一種基于最小值統(tǒng)計(jì)的方法來估計(jì)噪聲,它是基于帶噪語(yǔ)音信號(hào)的功率水平滯后于噪聲的功率水平,因此可以通過跟蹤帶噪語(yǔ)音信號(hào)功率譜的最小值來獲得噪聲功率譜的估計(jì)值。在大約l?5s的滑動(dòng)窗口尋找每一頻率帶的頻譜最小值,經(jīng)過補(bǔ)償后和帶噪語(yǔ)音的功率譜進(jìn)行比較。不論帶噪語(yǔ)音的功率譜是否小于局部最小值,局部最小值都需要更新。同時(shí),為了能更快的跟蹤并更新局部最小值和頻譜最小值,把滑動(dòng)窗口分為子窗口,在每個(gè)子窗口更新噪聲的估計(jì)譜,提髙了精確度[4]。此算法的基本思路是先用一個(gè)最優(yōu)平滑濾波對(duì)帶噪語(yǔ)音的功率譜濾波,得到一個(gè)噪聲的粗略估計(jì)。然后找出粗略噪聲中的在一定時(shí)間窗的最小值,對(duì)這個(gè)最小值進(jìn)行一些偏差修正,即得到所要估計(jì)的噪聲的方差。1995年Doblinger通過比較前幀帶噪語(yǔ)音子帶平滑功率譜最小值和后幀帶噪語(yǔ)音子帶平滑功率譜之間大小,對(duì)帶噪語(yǔ)音子帶平滑功率譜最小值每幀進(jìn)行跟蹤和更新,并將其作為估計(jì)的噪聲譜,該噪聲譜估計(jì)方法計(jì)算效率高,能快速適應(yīng)背景噪聲的變化,但是它直接把帶噪語(yǔ)音子帶平滑功率譜最小值作為估計(jì)的噪聲譜,使得噪聲譜過估計(jì)。但這種算法容易將語(yǔ)音電平的增長(zhǎng)當(dāng)作噪聲電平的增長(zhǎng)。與此類似的算法還有基于分位數(shù)統(tǒng)計(jì)量的噪聲估計(jì)算法,先對(duì)噪聲估計(jì)窗的信號(hào)進(jìn)行排序,然后按一定的分?jǐn)?shù)比例取信號(hào)作為噪聲估計(jì),算法復(fù)雜度比較高。2002年Cohen和Berdugo提出了一種基于最小值控制遞歸平均法的噪聲估計(jì)算法,把最小追蹤法的魯棒性與遞歸平均方法的簡(jiǎn)單性結(jié)合到一起,該算法能夠快速地追蹤突變的噪聲功率譜。與最小統(tǒng)計(jì)相比,對(duì)最小值的跟蹤不是關(guān)鍵性的,在進(jìn)行遞歸平均時(shí)不需要對(duì)語(yǔ)音出現(xiàn)與缺失進(jìn)行區(qū)分,因此即使在弱語(yǔ)音段也同樣可以進(jìn)行連續(xù)噪聲估計(jì)更新。具有能夠快速跟蹤噪聲譜的突變的能力。Cohen提出的噪聲估計(jì)算法不直接依賴于最小統(tǒng)計(jì)量,而依賴于最小值的跟蹤算法,具有較好的魯棒性。雖然比起Martin的最小值統(tǒng)計(jì)跟蹤算法效果要好的多,但無法完全避免在噪聲上升區(qū)域的噪聲欠估計(jì)及持續(xù)強(qiáng)語(yǔ)音后面區(qū)域出現(xiàn)的噪聲過估計(jì)的缺陷。為了進(jìn)一步提高算法性能,Cohen提出了改進(jìn)的最小統(tǒng)計(jì)量控制遞歸平均算法(IMCRA,ImprovedMinimaControlledRecursiveAveraging)02004年Rangachari和Loizou提出了一種快速估計(jì)方法,不僅使得帶噪語(yǔ)音子帶中語(yǔ)音出現(xiàn)概率計(jì)算更準(zhǔn)確,而且噪聲譜的更新在連續(xù)時(shí)間不依賴固定時(shí)間的窗長(zhǎng),但是在語(yǔ)音或噪聲能量過高時(shí)噪聲的估計(jì)就會(huì)慢下來,而且如果時(shí)間大于0.5s時(shí),就會(huì)削弱一些語(yǔ)音能量。因此,噪聲估計(jì)算法有待更進(jìn)一步的改進(jìn)。2009年余力,穎琪提出了一種基于DCT變換的自適應(yīng)噪聲估計(jì)算法,采用DCT系數(shù)作為塊均勻度的度量,較好地適應(yīng)了高低噪聲的情況,算法復(fù)雜度不大,能適用于各種實(shí)時(shí)圖像視頻處理系統(tǒng)。理論分析及實(shí)驗(yàn)結(jié)果表明本算法不僅在低噪聲的圖片中表現(xiàn)岀良好的性能,而且在髙噪聲的圖片中依舊有效。此外?還能適應(yīng)不同質(zhì)量的圖像。通過對(duì)基于最小統(tǒng)計(jì)量的噪聲估計(jì)方法和改進(jìn)的最小統(tǒng)計(jì)量控制遞歸平均噪聲估計(jì)算法研究發(fā)現(xiàn)這些噪聲估計(jì)方法可以在語(yǔ)音存在段進(jìn)行噪聲估計(jì),能夠有效地跟蹤非平穩(wěn)噪聲。但是,這些算法在各個(gè)頻帶進(jìn)行噪聲估計(jì),算法復(fù)雜度髙,噪聲估計(jì)方差大。于是在考慮各頻帶間的相關(guān)性上提出了在巴克域進(jìn)行噪聲估計(jì),減小了噪聲估計(jì)方差,提高了噪聲估計(jì)的準(zhǔn)確性,并極大地減小算法運(yùn)算量和存儲(chǔ)量。而且,在巴克域進(jìn)行噪聲估計(jì)更符合人耳聽覺特性,增強(qiáng)語(yǔ)音具有更好的質(zhì)量。其他類似的方法還有低能量包絡(luò)跟蹤和基于分位數(shù)的估計(jì)方法,后者噪聲的估計(jì)是基于帶噪語(yǔ)音未平滑功率譜的分位數(shù),而不是提取平滑功率譜的最小值,但是此方法計(jì)算復(fù)雜度很髙,且需要很大的存來存儲(chǔ)過去的功率譜值。本文重點(diǎn)就是在前人研究的基礎(chǔ)上,跟蹤國(guó)外最新資料,研究了一種新的噪聲估計(jì)算法,使延遲時(shí)間能夠縮短,最好沒有延遲。1.3論文的整體安排第一章緒論。噪聲估計(jì)算法研究的目的和意義及國(guó)外研究的現(xiàn)狀。第二章幾種經(jīng)典的噪聲估計(jì)的算法。Martin的最小統(tǒng)計(jì)量的估計(jì)算法.Cohen和Berdugo提出的基于最小統(tǒng)計(jì)量控制遞歸平均算法■通過比較最終提出改進(jìn)的最小統(tǒng)計(jì)量控制遞歸平均算法,仿真結(jié)果表明,這種方法在非平穩(wěn)噪聲條件下,也具有較好的噪聲跟蹤能力和較小的噪聲估計(jì)誤差,可以有效地提高語(yǔ)音增強(qiáng)系統(tǒng)的性能。第三章基于語(yǔ)音活動(dòng)性檢測(cè)的噪聲估計(jì)算法及MATLAB仿真。通過基于語(yǔ)音活動(dòng)性檢測(cè)的噪聲估計(jì)算法,對(duì)能量和最小過零率的語(yǔ)音端點(diǎn)進(jìn)行檢測(cè),仿真結(jié)果得出,我們需要魯棒性更強(qiáng)的算法,即使在有語(yǔ)音存在的情況下,也能夠?qū)崿F(xiàn)噪聲的連續(xù)估計(jì)和不斷更新。第四章最小統(tǒng)計(jì)遞歸平均的噪聲估計(jì)算法及MATLAB仿真。首先研究了最小值統(tǒng)計(jì)跟蹤法通過仿真得出此算法不能快速跟蹤真實(shí)噪聲的變化,并研究了基于統(tǒng)計(jì)信息的非平穩(wěn)噪聲自適應(yīng)算法,但它的計(jì)算很復(fù)雜。其次是Cohen和Berdugo提出的最小值控制遞歸平均算法,為了進(jìn)一步提髙算法性能,本文提出了一種改進(jìn)的最小值控制遞歸平均算法,此算法在保證噪聲估計(jì)準(zhǔn)確性的同時(shí)減小了算法的復(fù)雜度。第五章總結(jié)全文,并分析論文存在的不足及今后的的發(fā)展方向。在以后的噪聲估計(jì)算法的研究中要進(jìn)一步完善噪聲功率譜的估計(jì)算法,進(jìn)一步將噪聲估計(jì)方法和其他方法相結(jié)合,爭(zhēng)取得到更加精確的噪聲估計(jì)。2幾種經(jīng)典的噪聲估計(jì)的算法2.1幾種噪聲估計(jì)算法的優(yōu)點(diǎn)Martin提出的基于最小統(tǒng)計(jì)量的噪聲估計(jì)算法,是先用一個(gè)最優(yōu)平滑濾波對(duì)帶噪語(yǔ)音的功率譜濾波,得到一個(gè)噪聲的粗略估計(jì)。然后找出粗略噪聲中的在一定時(shí)間窗的最小值,對(duì)這個(gè)最小值進(jìn)行一些偏差修正,即得到所要估計(jì)的噪聲的方差。而且?為了能更快的跟蹤并更新局部最小值和頻譜最小值,把滑動(dòng)窗口分為子窗口,在每個(gè)子窗口更新噪聲的估計(jì)譜,提高了精確度。Cohen和Berdugo提出的基于最小統(tǒng)計(jì)量控制遞歸平均算法,該方法用一個(gè)與時(shí)頻相關(guān)的平滑因子對(duì)帶噪語(yǔ)音的過去值進(jìn)行平均,以得到噪聲的估計(jì)值,然后在每一幀連續(xù)的更新噪聲。采用遞歸平均進(jìn)行噪聲估計(jì),平滑參數(shù)受語(yǔ)音存在概率控制,并由最小統(tǒng)計(jì)量控制語(yǔ)音存在概率。近年來,提出了一種自適應(yīng)連續(xù)噪聲譜估計(jì)方法,它是一種專門用語(yǔ)單聲道語(yǔ)音增強(qiáng)系統(tǒng)的噪聲估計(jì)的。它不需要語(yǔ)音的有聲/無聲檢測(cè),噪聲譜在所有的幀中連續(xù)的更新,并不關(guān)心本幀是語(yǔ)音幀還是噪聲幀,對(duì)每一幀都重新計(jì)算其噪聲功率譜。自適應(yīng)連續(xù)的噪聲估計(jì)算法「省去了對(duì)語(yǔ)音端點(diǎn)的檢測(cè),對(duì)非平穩(wěn)噪聲也有較好的適應(yīng)性,即使在有語(yǔ)音存在的情況下,也能夠?qū)崿F(xiàn)噪聲的連續(xù)估計(jì)和不斷更新。2噪聲估計(jì)算法Martin提出的基于最小統(tǒng)計(jì)量的噪聲估計(jì)算法的基本思路是先用一個(gè)最優(yōu)平滑濾波對(duì)帶噪語(yǔ)音的功率譜濾波,得到一個(gè)噪聲的粗略估計(jì)。然后找出粗略噪聲中的在一定時(shí)間窗的最小值,對(duì)這個(gè)最小值進(jìn)行一些偏差修正,即得到所要估計(jì)的噪聲的方差。這種方法是在噪聲估計(jì)窗搜索最小值作為噪聲估計(jì)量■而且此算法對(duì)窗長(zhǎng)的選擇比較敏感,當(dāng)窗長(zhǎng)比較長(zhǎng)時(shí),對(duì)非平穩(wěn)噪聲的跟蹤速度慢,而且容易出現(xiàn)噪聲低估;當(dāng)窗長(zhǎng)比較短時(shí),比較容易出現(xiàn)將語(yǔ)音的低能量成分當(dāng)作噪聲。這些問題可以通過優(yōu)化的平滑參數(shù)和偏差補(bǔ)償?shù)靡愿倪M(jìn),雖然提高了精確度,但這大大地提高了算法的復(fù)雜度。仿真結(jié)果表明:最小值統(tǒng)計(jì)跟蹤法對(duì)平穩(wěn)噪聲噪聲的估計(jì)是比較準(zhǔn)確的,但是對(duì)非平穩(wěn)噪聲就表現(xiàn)的不好了。而Cohen和Berdugo提出的最小統(tǒng)計(jì)量控制遞歸平均算法(MCRA,MinimaControlledRecursiveAveraging),采用遞歸平均進(jìn)行噪聲估計(jì),平滑參數(shù)受語(yǔ)音存在概率控制,并由最小統(tǒng)計(jì)量控制語(yǔ)音存在概率。這種算法不直接依賴于最小統(tǒng)計(jì)量,具有較好的魯棒性,它是使用一個(gè)平滑參數(shù)對(duì)功率譜的過去值進(jìn)行平均,該平滑參數(shù)是根據(jù)每個(gè)子帶中語(yǔ)音存在的概率進(jìn)行調(diào)整的。在一給定幀的某個(gè)子帶中語(yǔ)音是否存在的概率可以由帶噪語(yǔ)音的局部能量值與其待定時(shí)間窗的最小值的比值決定,把該比值與某一門限做比較,小的比值意味著該子帶中不存在語(yǔ)音,反之,意味著該子帶存在語(yǔ)音。如果給定幀的某個(gè)子帶中存在語(yǔ)音,那么該子帶的噪聲譜等于上一幀的噪聲譜,如果不存在,則根據(jù)帶噪語(yǔ)音的功率譜更新噪聲譜。最后,為了防止估計(jì)的噪聲起伏較大,對(duì)其進(jìn)行了遞歸平滑。為了進(jìn)一步提高算法性能,本文研究了一種改進(jìn)的最小統(tǒng)計(jì)量控制遞歸平均算法。該算法采用遞歸平均進(jìn)行噪聲估計(jì),其遞歸平均的平滑因子受語(yǔ)音存在概率控制,而語(yǔ)音存在概率的計(jì)算采用了兩次平滑和最小統(tǒng)計(jì)量跟蹤。與Cohen提出的IMCRA算法相比,本文釆用的是一種快速有效的最小統(tǒng)計(jì)量跟蹤算法,在IHCRA算法的基礎(chǔ)上,利用其對(duì)語(yǔ)音最小統(tǒng)計(jì)量估計(jì)的魯棒性,釆用了一種簡(jiǎn)單有效的最小統(tǒng)計(jì)量估計(jì)算法,在保證噪聲估計(jì)準(zhǔn)確性的同時(shí),減小了算法的復(fù)雜度。仿真結(jié)果表明:在非平穩(wěn)噪聲條件下,算法具有較好的噪聲跟蹤能力和較小的噪聲估計(jì)誤差,可以有效地提高語(yǔ)音增強(qiáng)系統(tǒng)的性能。3基于語(yǔ)音活動(dòng)性檢測(cè)的噪聲估計(jì)算法及MATLAB實(shí)現(xiàn)傳統(tǒng)的噪聲估計(jì)方法使用語(yǔ)音活動(dòng)監(jiān)測(cè)(VAD)技術(shù)分離出無聲段,這時(shí)無聲段主要表現(xiàn)為噪聲特性,然后再通過某種統(tǒng)計(jì)方法,即可獲得背景噪聲特性的近似估計(jì)。盡管該方法在噪聲為平穩(wěn)的情況下是可行的,但是在實(shí)際的噪聲環(huán)境中噪聲譜的特性變化很大,就很難達(dá)到好的降噪效果。從實(shí)用性、易實(shí)現(xiàn)性等方面考慮,很多算法都是建立在相對(duì)理想的實(shí)驗(yàn)室條件下的,要求背景噪聲保持平穩(wěn),信噪比較高,而且需要一定的訓(xùn)練算法以預(yù)先得到背景噪聲及語(yǔ)音的統(tǒng)計(jì)信息。在實(shí)際工作中,這些條件很難得到滿足,而且經(jīng)常會(huì)遇到信噪比較低,背景噪聲緩慢變化的情況,也不可能預(yù)先得到背景噪聲或語(yǔ)音的統(tǒng)計(jì)信息。而且在低信噪比下,VAD的誤檢率會(huì)增大,在不能正確判斷出有聲/無聲段的情況下,估計(jì)出來的噪聲很難保證準(zhǔn)確性。因此,為了實(shí)現(xiàn)精確的噪聲估計(jì),就要對(duì)噪聲譜進(jìn)行實(shí)時(shí)的估計(jì)。近年來,人們提出了一種自適應(yīng)連續(xù)噪聲譜估計(jì)方法,它是一種專門用語(yǔ)單聲道語(yǔ)音增強(qiáng)系統(tǒng)的噪聲估計(jì)。噪聲譜在所有的幀中連續(xù)的更新,并不關(guān)心本幀是語(yǔ)音幀還是噪聲幀,對(duì)每一幀都重新計(jì)算其噪聲功率譜,它不需要語(yǔ)音的有聲/無聲檢測(cè),對(duì)非平穩(wěn)噪聲也有較好的適應(yīng)性,即使在有語(yǔ)音存在的情況下,也能夠?qū)崿F(xiàn)噪聲的連續(xù)估計(jì)和不斷更新。本章從語(yǔ)音活動(dòng)檢測(cè)和連續(xù)更新噪聲兩方面入手,將幾種算法的基本原理及過程進(jìn)行了詳細(xì)的描述,并分析了實(shí)驗(yàn)結(jié)果。3.1基于語(yǔ)音活動(dòng)性檢測(cè)的噪聲估計(jì)算法3.1.1短時(shí)能量語(yǔ)音信號(hào)和噪聲信號(hào)的區(qū)別可以體現(xiàn)在他們的能量上,對(duì)于一列疊加有噪聲干擾的語(yǔ)音信號(hào)而言,其語(yǔ)音段的能量是噪聲段能量疊加語(yǔ)音聲波能量之和。因此,語(yǔ)音段的能量一般要大于噪聲段的能量。如果環(huán)境噪聲和系統(tǒng)輸入噪聲比較小,以至于能夠保證系統(tǒng)的信噪比相當(dāng)高,那么只要計(jì)算輸入信號(hào)的短時(shí)能量或短時(shí)平均幅度就能夠把語(yǔ)音段和噪聲背景分開。這就是僅僅基于短時(shí)能量的端點(diǎn)檢測(cè)方法。信號(hào)鞏十)短時(shí)能量y定義為:(3-1)m=-x語(yǔ)音信號(hào)的短時(shí)平均幅度定義為:(3-2)M=工卜』町(3-2)m—x短時(shí)能量有兩種定義:短時(shí)時(shí)域能量和短時(shí)譜幅能量,一般用的是短時(shí)頻域能量表示,因此,短時(shí)能量用傅立葉變換后的平方表示,平均幅度為傅立葉變換后譜絕對(duì)值的和。短時(shí)能量主要有下面幾個(gè)應(yīng)用:首先利用短時(shí)能量可以區(qū)分清音和濁音,因?yàn)闈嵋舻哪芰恳惹逡舻哪芰看蟮枚?;其次可以用短時(shí)能量對(duì)有聲和無聲段進(jìn)行判斷。3.1.2短時(shí)平均過零率信號(hào)班十)的短時(shí)平均過零率定義為:(3-3)卜糾[兀(加)]-sgn[.j伽-1)卜h(t-m)(3-3)一般取:h(t)=?2N 其中N為窗長(zhǎng)0信號(hào)的過零率是其頻率量的一種簡(jiǎn)單度量,窄帶信號(hào)尤其如此。其中,當(dāng)信號(hào)為單一正弦波時(shí),過零率為信號(hào)頻率的兩倍。對(duì)于采樣率為sF.頻率為F。的正弦波數(shù)字信號(hào),平均每個(gè)樣本的過零率為s2F/FOo過零率有兩個(gè)重要應(yīng)用:第一,用于粗略地描述信號(hào)的頻譜特性。第二,用于判別清音和濁音、有聲和無聲。由上面定義出發(fā),計(jì)算過零率容易受低頻干擾,所以需要對(duì)上述定義做一點(diǎn)修改,設(shè)置一個(gè)門限T,將過零率的含義修改為跨過正負(fù)門限。如下式:1XZ=~|sgn[x(m)-T]-sgn[x(m-l)-T](3-4)+|sgn[x(同+7]-sgn[x(/7?-1)+7]}?/?(/-m)(3-4)這樣過零率就有一定的抗干擾能力了。即使存在較小的隨機(jī)噪聲,只要它不使信號(hào)越過正負(fù)門限所構(gòu)成的帶,就不會(huì)產(chǎn)生虛假的過零率。3.1.3基于短時(shí)能量和短時(shí)平均過零率的語(yǔ)音活動(dòng)性檢測(cè)雖然短時(shí)能量有時(shí)能將噪聲和語(yǔ)音分開,但是在實(shí)際應(yīng)用中,往往很難保證有這么高的信噪比,因而僅依靠短時(shí)能量或短時(shí)平均幅度來檢測(cè)語(yǔ)音段的起止點(diǎn)常會(huì)遇到問題。而且在一些特殊情況下,在以某些音為開始或結(jié)尾時(shí),如當(dāng)弱摩擦音(如[fh[h]等音素)、弱爆破音(如[ph[th[k]等音素)為開始或結(jié)尾;以鼻音(如[ng],[n],[m]等音素)為語(yǔ)音的結(jié)尾時(shí),只用其中一個(gè)參數(shù)量來判別語(yǔ)音的起點(diǎn)和終點(diǎn)是有困難的,往往會(huì)漏掉某些音素,必須同時(shí)使用這兩個(gè)參數(shù)。所以,有了經(jīng)典的端點(diǎn)檢測(cè)方法 LawrennceRabiner24提出的以過零率Z和能量E為特征進(jìn)行端點(diǎn)檢測(cè)。這種方法也常稱為雙門限比較法。此方法是在短時(shí)能量檢測(cè)方法的基礎(chǔ)上加上短時(shí)平均過零率,利用能量和過零率作為特征來進(jìn)行檢測(cè)。通常是利用過零率來檢測(cè)清音,用短時(shí)能量來檢測(cè)濁音,兩者配合實(shí)現(xiàn)可靠的語(yǔ)音端點(diǎn)檢測(cè)。該方法的基本原理觀如下所述:由于釆集聲音信號(hào)的最初的短時(shí)段為無語(yǔ)音段,僅有均勻分布的背景噪聲信號(hào)。這樣就可以用該語(yǔ)音信號(hào)的最初幾幀(一般取10幀)信號(hào)作為背景噪聲的統(tǒng)計(jì)樣本來計(jì)算其過零率閾值ZT及能量閾值EL(低能量閾)和EU(高能量閾)。ZT的定義為:ZT=nin(ZF,zc+2,fcc) (3-5)其中IF為經(jīng)驗(yàn)值,一般取25;zc、fzc分別為根據(jù)所取最初10幀樣值算得的過零率的“均值”和“標(biāo)準(zhǔn)差”O(jiān)計(jì)算EL和EU時(shí),先算出最初10幀信號(hào)每幀的短時(shí)平均能量或平均幅度E,最大值記為EMAX,最小值記為EMINo然后令:TOC\o"1-5"\h\zain/A=0.03-(EMAX一EMIN*EMIN (3-6)amp!=4-EMIN (3-7)在本次設(shè)計(jì)中用前10幀的平均值來代替最小值EMIN最后按下式計(jì)算出EL和EU:EL=nin(amp\.amp2) (3~8)EU=5EL (3-9)接下來就可以用過零率閾值Z及能量閾值EL和EU來進(jìn)行起止點(diǎn)的判別。先根據(jù)EL,EU計(jì)算出初始起點(diǎn)S1。方法如下所述:從第11幀開始,將每一幀的能量E值與門限EL相比較,如果能量E超過門限EL,則將該幀計(jì)為S1。但若后續(xù)n幀的平均能量或幅度尚未超過EU而能量又降到EL之下,則該幀不能作為初始起點(diǎn)S1,然后繼續(xù)尋找下一個(gè)平均能量或幅度超過EU的幀,若后續(xù)n幀的平均能量或幅度超過EU,則將此幀計(jì)為S1,該幀就可以作為根據(jù)能量信號(hào)找到的語(yǔ)音的起點(diǎn)。但是,S1只是根據(jù)能量信息找到的起點(diǎn),還未必是語(yǔ)音的精確起點(diǎn)。這是由于語(yǔ)音的起始段往往存在著能量很弱的清輔音(如[fh[s]等),僅依靠能量很難把它們和無聲區(qū)分開。但人們發(fā)現(xiàn)這些清輔音的過零率明顯高于無聲段,因此可以利用過零率這個(gè)參數(shù)來精確判斷清輔音與無聲區(qū)二者的分界點(diǎn)。當(dāng)S1確定后,從S1幀之前的30幀搜索,依次比較各幀的過零率,若有3幀以上的過零率超過ZT,則將起始點(diǎn)S1定為滿足Z>ZT的最前幀的幀號(hào),如果這些幀的過零率都小于門限ZT則將S1作為起點(diǎn)。語(yǔ)音結(jié)束點(diǎn)S2的檢測(cè)方法與檢測(cè)起點(diǎn)相同,從后向前搜索,找出第一個(gè)平均能量幅度高于EL、且其前向幀的平均能量或幅度在超出EU前沒有下降到EL以下的幀號(hào),記為電,隨后根據(jù)過零率向N2+25幀搜索,若有3幀以上的Z>ZT,則將結(jié)束點(diǎn)N2定為滿足Z〉ZT的最后的幀號(hào)即Ne,否則即以N2作為結(jié)束點(diǎn)。3.1.4實(shí)驗(yàn)仿真下面是以一段語(yǔ)音為例,進(jìn)行語(yǔ)音端點(diǎn)檢測(cè)的Matlab仿真。實(shí)驗(yàn)采用的純凈語(yǔ)音材料是HINT數(shù)據(jù)庫(kù)中的一條語(yǔ)音(語(yǔ)音容:Readverseoutloudforpleasure),大概2.Is左右;噪聲材料取自NOISEX-92的高斯白噪聲和fl6戰(zhàn)斗機(jī)噪聲。語(yǔ)音和噪聲都是以8KHz釆樣,16bit量化,wav格式存儲(chǔ),并通過Matlab按一定線形比例混合成不同信噪比的帶噪語(yǔ)音。圖3-1 語(yǔ)音的原始波形圖圖3-2語(yǔ)音的能量曲線圖圖3-3語(yǔ)音的短時(shí)過零率曲線圖由上圖可以看出基于能量和短時(shí)過零率的端點(diǎn)檢測(cè)算法在無噪聲的環(huán)境下比較準(zhǔn)確的檢測(cè)到了語(yǔ)音的開始和結(jié)束點(diǎn)。為了驗(yàn)證其魯棒性,利用了Matlab給以上信號(hào)添加信噪比-5db的高斯白噪聲,采用同樣的算法,其仿真結(jié)果如下圖所示:圖3-4加入高斯白棗聲的語(yǔ)音波形圖圖3-5加入高斯白棗聲的能量曲線圖圖3-6加入高斯白噪聲的短時(shí)過零率曲線圖由以上圖中可看出,在較強(qiáng)背景噪聲的環(huán)境下,上述算法的準(zhǔn)確性急劇下降,已經(jīng)不能準(zhǔn)確的檢測(cè)出信號(hào)的端點(diǎn)了。因此,我們需要魯棒性更強(qiáng)的算法,即使在有語(yǔ)音存在的情況下,也能夠?qū)崿F(xiàn)噪聲的連續(xù)估計(jì)和不斷更新。4最小統(tǒng)計(jì)遞歸平均的噪聲估計(jì)算法及MATLAB仿真本章先研究了經(jīng)典的噪聲估計(jì)算法即最小值跟蹤法,然后研究了基于統(tǒng)計(jì)信息的非平穩(wěn)噪聲自適應(yīng)算法,最后對(duì)這兩種噪聲估計(jì)算法做了實(shí)驗(yàn)仿真。仿真結(jié)果表明:最小值跟蹤法對(duì)平穩(wěn)噪聲的估計(jì)是比較準(zhǔn)確的,但是非平穩(wěn)噪聲就表現(xiàn)的不好了,而基于統(tǒng)計(jì)信息的非平穩(wěn)噪聲自適應(yīng)算法在非平穩(wěn)噪聲環(huán)境中也表現(xiàn)的很好,能夠比較準(zhǔn)確的跟蹤上噪聲的突變。1最小值統(tǒng)計(jì)法4.1.1最優(yōu)平滑設(shè)帶噪語(yǔ)音信號(hào)為y&),它由純凈語(yǔ)音和噪聲組成,即y(t)=s(t)這里"弋表采樣的時(shí)間標(biāo)號(hào)。進(jìn)一步假設(shè)S&)和/7(r)是統(tǒng)計(jì)獨(dú)立的,并各自都是零均值的。為了將信號(hào)轉(zhuǎn)化到頻域,將信號(hào)分成長(zhǎng)度為厶個(gè)采樣點(diǎn)的幀信號(hào),幀間重疊為斤點(diǎn)。對(duì)幀信號(hào)進(jìn)行旳計(jì)算,得到了頻域的信號(hào):L-1Y(A,k)=2>(肽+“)〃(“)廣曲譏 (4-3)心)其中2為幀號(hào)即時(shí)間的標(biāo)號(hào),k為頻率點(diǎn)的標(biāo)號(hào),2eZ,ke{0,1,-L-l},h(u)是一個(gè)窗序列,并假設(shè)£/『(“)=]先用一個(gè)平滑過程來粗估計(jì)噪聲功率譜密度戶(入,A):P^k}=aP(A一1,幻+(1-a)|r(2,^)|2 (4-4)其中a是平滑參數(shù),噪聲功率的進(jìn)一步估計(jì)幻通過取P(X,力在一個(gè)滑動(dòng)窗的最小值來決定。上述估計(jì)還很粗糙,為了進(jìn)一步提高估計(jì)的準(zhǔn)確性還要考慮以下問題:第一,固定的a值將不適應(yīng)有聲/無聲的變化與噪聲的變化。第二,這樣的噪聲估計(jì)將比真正的噪聲要滯后。第三,最小值的跟蹤過程比真實(shí)的噪聲要滯后。因此,對(duì)原有的噪聲估計(jì)還需要一個(gè)隨時(shí)間變化的平滑系數(shù)a、一個(gè)偏差補(bǔ)償系數(shù)與加速跟蹤方法。為了簡(jiǎn)化計(jì)算,假設(shè)信號(hào)處于無聲狀態(tài)。將平滑過程寫成由時(shí)變平滑系數(shù)作用的過程:P(^k)=a(^k)P(A一1,燈+(1-a(2,燈)(4-3)為了使PZ幻盡可能的接近真正的噪聲功率譜密度b,(入幻,以下式的期望值為零作為目標(biāo):E作(兄,約_望值為零作為目標(biāo):E作(兄,約_b,(入町),p(2-1,刖=0(4-4)由上式得:a%k)=]1+a%k)=]1+(/乂幾一1“/b/(入k)一1)°(4-5)在實(shí)際運(yùn)用中,最優(yōu)估計(jì)式中的bj(入幻用上次的估計(jì)值aN2(A-U)代替,并且最優(yōu)系數(shù)將被限制在一個(gè)最大值maxa之間來避免Y(X,A)=1的死鎖情況發(fā)生。為了提髙在非穩(wěn)定的噪聲壞境中的平滑效果,平滑系數(shù)設(shè)置一個(gè)下限為0.3。式子(3-14)可重新寫成:a如(入燈=max0.3minaa如(入燈=max0.3minamax(4-6)1+(P(A—l,k)/b/(幾—l,k)—4.1.2最小功率譜統(tǒng)計(jì)跟蹤最小功率譜統(tǒng)計(jì)跟蹤的方法將跟蹤短時(shí)譜的最小功率譜密度,這個(gè)最小功率譜是由一個(gè)連續(xù)時(shí)間段的最小功率譜密度求出。因?yàn)殡S機(jī)變量的最小值總會(huì)小于平均值,所以用最小功率譜密度值的估計(jì)存在著偏差,要得到平均值就要對(duì)最小功率譜密度進(jìn)行偏差修正。在推導(dǎo)最小功率譜統(tǒng)計(jì)跟蹤方法時(shí),為了簡(jiǎn)化計(jì)算,假設(shè)信號(hào)處于無語(yǔ)音狀態(tài),在有語(yǔ)音狀態(tài)時(shí)只要將噪聲的方差用帶噪語(yǔ)音信號(hào)的方差代替即可。設(shè)在D個(gè)連續(xù)的短時(shí)功率譜密度估計(jì)Pg幻中的最小值為化曲(入◎,那么:P(/l,燈=(1-a)£a0(幾-譏f (4-7)ZU)假設(shè)|咻硏獨(dú)立同分布,所以只入,幻的概率密度函數(shù)為:假設(shè)|咻硏獨(dú)立同分布,所以只入,幻的概率密度函數(shù)為:(4-8)?aU\一jcobz2(兄,kX1-aW(4-8)由于E%CU)}與b/CU)、成正比,并且?guī)鬃蠡铮┑姆讲钫扔?。所以只要?jì)算在<r/(2J)=l時(shí)的均值和方差就足夠了。我們定義符號(hào):隊(duì)匚‘(以)=E{/爲(wèi)(恥)}%麗爲(wèi)伉,燈=2%4(入R)/var{P(〃)}2盅3)+(”)時(shí)2盅3)+(”)時(shí)r】+、”(D)2(4-9)(4-10)S卜—l-M(D)—(4-10)〃(〃)和〃(力都是關(guān)于D的系數(shù)函數(shù),其中D取96,M(96)=0.875,D(96)=3.55<>由于Qeq^k)在非語(yǔ)音狀態(tài)時(shí)取值比較大,所以可簡(jiǎn)寫為:Z)十(3)瓦麗于是,噪聲方差(入燈可以估計(jì)為:(4-11)(4-11)其中,2認(rèn)入燈估計(jì)為:( 2b/S-l,燈2"山窗麗T(4-12)而v6r{P(2,k)}是戶(入,幻方差的估計(jì),其估計(jì)式為:var{P(2,( 2b/S-l,燈2"山窗麗T(4-12)而v6r{P(2,k)}是戶(入,幻方差的估計(jì),其估計(jì)式為:var{P(2,k)}=P2(^k)-麗if(4-13)麗習(xí)和卩2(入&)分別是e{p(X,幻}和e{pi(X,&)}的一階平滑估計(jì)=0(/U)P(幾一1伙)+(1-“(入k))P(2,k)(4-14)嚴(yán)(入燈=0(入£)嚴(yán)(兄一以)+(]—#(入燈滬2(入£)(4-15)B(入,幻為平滑系數(shù),且0(入£)=a如2(幾,比)opt為了在非平穩(wěn)噪聲環(huán)境中得到更好的估計(jì),將垃曲(兄,燈乘以系數(shù)BC{A\,而3Q)=l+%0“(2)(4-16)其中歹⑷嘉為"=212由于該算法在對(duì)有聲/無聲時(shí)使用同一標(biāo)準(zhǔn)來估計(jì)噪聲,所以不需要有聲/無聲檢測(cè)。另外,噪聲估計(jì)是通過最小值來搜索,然后再對(duì)其進(jìn)行修正,所以算法比較簡(jiǎn)單。4.1.3實(shí)驗(yàn)仿真實(shí)驗(yàn)中釆用了兩種帶噪語(yǔ)音文件,一種是信噪比為-5dB的平穩(wěn)帶噪語(yǔ)音,噪聲為高斯白噪聲;另一種是前3.2s為10dB的高斯白噪聲,后3?4s為-5dB的F16戰(zhàn)斗機(jī)噪聲的非平穩(wěn)語(yǔ)音,且實(shí)驗(yàn)中采用漢明窗,幀長(zhǎng)20ms,幀間重疊50%,同時(shí)取頻率分量取5。圖中橫坐標(biāo)是時(shí)間,縱坐標(biāo)表示功率譜,實(shí)線表示真實(shí)的噪聲譜,虛線表示估計(jì)的噪聲譜。其仿真結(jié)果分別如圖3-7,圖3-8所示。圖4-1真實(shí)噪聲譜和MS算法估計(jì)的噪聲譜(-5dB高斯白噪聲)圖4-2真實(shí)噪聲譜和MS算法估計(jì)的噪聲譜(信噪比從10dB突變?yōu)?5dB)由上圖可知,當(dāng)噪聲和信噪比同時(shí)突變的情況下,此算法仍然不能快速跟蹤真實(shí)噪聲的變化。而且該算法可能會(huì)偶爾削弱低能量音素,且在1.5ms的窗跟蹤新的噪聲譜,時(shí)間太長(zhǎng),但如果減小窗口的長(zhǎng)度,跟蹤到的頻譜最小值不夠準(zhǔn)確,這樣會(huì)導(dǎo)致語(yǔ)音信號(hào)的失真,特別是語(yǔ)音的持續(xù)時(shí)間超過窗口長(zhǎng)度時(shí)。雖然此局限能夠得以克服,但是代價(jià)卻是很高的計(jì)算復(fù)雜度。4.2基于統(tǒng)計(jì)信息的非平穩(wěn)噪聲自適應(yīng)算法4.2.1概述在大多數(shù)語(yǔ)音增強(qiáng)算法中,都假定噪聲功率譜的估計(jì)是已知的,這些噪聲功率譜的估計(jì)或者噪聲參數(shù)的估計(jì)對(duì)所增強(qiáng)的語(yǔ)音信號(hào)有著極其重要的影響。如果噪聲功率譜估計(jì)太低,那么所殘留的噪聲干擾將會(huì)被聽得到。同樣,如果噪聲功率譜估計(jì)太髙?那么語(yǔ)音信號(hào)質(zhì)量將會(huì)在很大程度上受到損害。最簡(jiǎn)單的方法就是在純凈語(yǔ)音的間隙去估計(jì)和更新噪聲功率譜,例如,語(yǔ)音活性(VAD)算法■盡管這種方法在平穩(wěn)噪聲中(如白噪聲),可能表現(xiàn)的較好,但是在大多數(shù)的實(shí)際環(huán)境中表現(xiàn)的就沒那么好了,因?yàn)樵谶@樣的環(huán)境中噪聲是時(shí)變的。因此,在大多數(shù)噪聲估計(jì)算法中,如果噪聲突然變大,那么噪聲估計(jì)都不能及時(shí)跟蹤它的變化。在帶噪語(yǔ)音的每一幀處?基于帶噪語(yǔ)音的功率譜和其局部最小值的比率來判斷純凈語(yǔ)音是否存在?結(jié)果表明在噪聲水平突然增加的情況下,Rangachari的非平穩(wěn)噪聲估計(jì)算法僅僅需要0.5s就更新了噪聲參數(shù)■而其它的算法大概需要l-l?5s。在本文中?我們介紹一種改進(jìn)的算法:基于統(tǒng)計(jì)信息的非平穩(wěn)噪聲自適應(yīng)算法(1)不需要明確的語(yǔ)音活性檢測(cè)(VAD)來更新噪聲參數(shù)的估計(jì)。(2)利用幀間相關(guān)性估計(jì)純凈語(yǔ)音存在概率。這種算法基于語(yǔ)音存在概率來計(jì)算時(shí)頻平滑參數(shù),從而更新噪聲參數(shù)。4.2.2非平穩(wěn)噪聲自適應(yīng)算法設(shè)觀察到的帶噪語(yǔ)音為:y(r)=5(r)+/7(r) (4-17)其中,s(t)是純凈語(yǔ)音,n(t)是加性噪聲。先用一個(gè)遞歸的平滑過程來計(jì)算帶噪語(yǔ)音的語(yǔ)音的功率譜:P(a,k)="P?一1,燈+(1- 仇,燈2 (4-18)其中,刃入燈是平滑功率譜,2是幀的標(biāo)號(hào),k是頻點(diǎn)的標(biāo)號(hào),|丫(入耳,是帶噪語(yǔ)音的功率譜,”=0.7。跟蹤帶噪語(yǔ)音最小值在以前的算法中(如martin的最小值跟蹤法),通過一個(gè)固定的窗長(zhǎng)去跟蹤帶噪語(yǔ)音功率譜的最小值。這些方法對(duì)于外部環(huán)境很敏感,并且依據(jù)窗長(zhǎng)去更新最小值。下面用遞歸法則去跟蹤最小值:if PniinthenPnin(2^)=/Pnin(2-1^)+1^))
elsePniii(以)=陀,燈end其中,PMn(入燈是帶噪語(yǔ)音的局部最小功率譜,0=0.8,"0.998。圖(4-3)是帶噪語(yǔ)音的功率譜和其局部最小值。噪聲是由白噪聲和F16戰(zhàn)斗機(jī)噪聲組合而成,Fs=8k,信噪比SNR二5dB。500 50 100 150 200 250 300 350 400 450 500幀數(shù)30252051500 50 100 150 200 250 300 350 400 450 500幀數(shù)30252051O19mp)MQS■5圖4-3帶噪語(yǔ)音的功率譜和其局部最小值圖中,虛線表示帶噪語(yǔ)音功率譜,實(shí)線表示帶噪語(yǔ)音局部最小值,頻率分量k=8(2)語(yǔ)音存在概率這里介紹的判斷語(yǔ)音存在概率的方法類似于2002年Cohen在噪聲估計(jì)算法中使用的方法,用帶噪語(yǔ)音功率譜和其局部最小值得比率來計(jì)算語(yǔ)音存在概率,用下式表示:5r(2,k)=P(/l,k)!Pnin(ZJ) (4-19)計(jì)算出來的概率和經(jīng)驗(yàn)頻率值5(燈比較,如果大于列燈判斷為語(yǔ)音存在頻率點(diǎn),否則判斷為語(yǔ)音盲點(diǎn)。原因是:在語(yǔ)音盲點(diǎn)時(shí)刻,帶噪語(yǔ)音功率譜接近于其局部最小值,因此,在(3-12)式中比率越小,處于語(yǔ)音間隙的可能性就越大。語(yǔ)音是否存在用下式判斷:if S?Q>5(Qthen語(yǔ)音存在(4-20)else I(A,k)=0語(yǔ)音間隙end其中,3(燈用下式來確定:'2;\<k<LF5(訓(xùn)2\LF<d<MF (4-21)5\MF<k<Fs!2其中,LF和MF分別對(duì)應(yīng)于lk和3k的頻率點(diǎn),Fs是采樣頻率。從上式的判斷規(guī)則,用下式來更新語(yǔ)音存在概率:P(/i,k)=勺"(2-1/)+(1-勺)/(久,&) (4-22)其中,勺=0.2。(注:(4-21)式利用了相鄰語(yǔ)音幀間相關(guān)性。)(2) 計(jì)算時(shí)頻平滑參數(shù)弘(入R)利用上面的語(yǔ)音存在概率估計(jì),用下式計(jì)算時(shí)頻平滑參數(shù)匕(入燈:aXA,,k)=ad+(1-勺)"(2,?) (4-23)ad=0.85,as(Xyk)的取值圍是:勺S勺(兄,左)<1(3) 更新噪聲功率譜最后,在計(jì)算了時(shí)頻平滑參數(shù)aM后,利用下式來更新噪聲功率譜:£)(入Q=%(兄,R)D(/l-1,約+(1-乙(入£)卩(入耳2 (4-24)其中,D(入燈是噪聲功率譜的估計(jì)值,整個(gè)算法的描述過程:根據(jù)式(4-21)判斷何時(shí)是語(yǔ)音存在頻點(diǎn),何時(shí)是語(yǔ)音間隙頻點(diǎn);然后根據(jù)式(4-22)來更新語(yǔ)音存在概率;再根據(jù)式(4-23)來更新時(shí)頻平滑參數(shù);最后,根據(jù)式(4-24)來更新噪聲功率譜的估計(jì)。圖4-4描繪了真實(shí)的噪聲功率譜和用我們的算法所估計(jì)出來的噪聲功率譜,噪聲是由白噪聲和F16戰(zhàn)斗機(jī)噪聲組合而成,F(xiàn)s=8k,信噪比SNR=5dBo
10-6-?I10-6-?I_g [ [ [ [ [ [ [ [ 0 20 40 60 80 100 120 140 160 180Frame(8PMOU3nbalLL圖4-4真實(shí)的棗聲譜和估計(jì)的噪聲譜
圖4-4中■虛線表示真實(shí)噪聲功率,實(shí)線表示估計(jì)噪聲功率,頻率分量k二80可以看出在大約100幀處■噪聲功率突升,估計(jì)噪聲功率也即刻突升,表明算法能夠即刻跟蹤噪聲的變化。4.3最小值控制遞歸平均算法Cohen和Berdugo在文獻(xiàn)[5]中提出了一種基于最小值約束的遞歸平均(MCRA:MinimaControlledRecursiveAveraging)方法。該方法使用一個(gè)平滑參數(shù)對(duì)功率譜的過去值進(jìn)行平均,該平滑參數(shù)是根據(jù)每個(gè)子帶中語(yǔ)音存在的概率進(jìn)行調(diào)整的。在一給定幀的某個(gè)子帶中語(yǔ)音是否存在的概率可以由帶噪語(yǔ)音的局部能量值與其待定時(shí)間窗的最小值的比值決定,把該比值與某一門限做比較,小的比值意味著該子帶中不存在語(yǔ)音,反之,意味著該子帶存在語(yǔ)音。如果給定幀的某個(gè)子帶中存在語(yǔ)音,那么該子帶的噪聲譜等于上一幀的噪聲譜,如果不存在,則根據(jù)帶噪語(yǔ)音的功率譜更新噪聲譜。最后,為了防止估計(jì)的噪聲起伏較大,對(duì)其進(jìn)行了遞歸平滑。Hcaulay提出語(yǔ)音存在和語(yǔ)音缺失的兩態(tài)假設(shè)模型曲(4-25)/(入燈:“燈*(小 (1)(4-25)耳(兒燈:Y(Q*)=S(入燈+N(入Q (2)其中,(1)式代表語(yǔ)音缺失,(2)式代表語(yǔ)音存在,K(X,力,S(X,幻和沖(入,力分別代表帶噪語(yǔ)音、純凈語(yǔ)音和噪聲的短時(shí)傅立葉變換后的幅度,耳)(兒燈和耳(入燈分別代表語(yǔ)音缺失和語(yǔ)音存在概率假設(shè)。那么就可以在這兩種假設(shè)模型下更新噪聲譜,更新的方法是:如果該子帶中存在語(yǔ)音,噪聲譜保持不變;反之則根據(jù)帶噪語(yǔ)音的功率譜進(jìn)行更新,如下式:{&</(2,燈=況(2-1,燈 (1)氏(以)=勺&,2-1,燈+(1-%)|丫(幾一1,耳' ⑵ 126)其中,(1)式代表語(yǔ)音存在,(2)式代表語(yǔ)音缺失皿為平滑參數(shù),取值為0.850為了達(dá)到上式的噪聲估計(jì),首先對(duì)輸入的每一幀信號(hào)用下式進(jìn)行頻域平滑:S/U,R)=土加卩(心-1十 (4-27)J—K其中,方(力為加權(quán)系數(shù),K(X,力是第入幀的第斤個(gè)頻率點(diǎn)的幅度,2w+l是進(jìn)行頻域平滑的相鄰頻點(diǎn)數(shù)。其次,用一階遞歸進(jìn)行時(shí)域平滑:S(/U)=asS(A一1,R)+(1—勺0S,R) (4-28)其中,乙為平滑參數(shù),本節(jié)中取0.8,5(X-1,幻為前一幀帶噪信號(hào)的功率譜。4.3.1計(jì)算局部能量最小值局部能量最小值等于前一幀局部能量最小值與當(dāng)前幀帶噪信號(hào)功率譜中較小的一個(gè),即:9—*),S(從)} (4-29)同時(shí)定義一個(gè)臨時(shí)變量snnp^k),表示如下:S””p(/U)=min{s””pS—l,R),SS*)} (4-30)每當(dāng)處理第nL幀時(shí),更新局部能量最小值Smm(入燈和臨時(shí)變量S哪S,Q,分別為:Smin(2,^)=min\smp(2,k-l\S(^k)}
(4-31)S噸dk)=S(九k)(4-31)其中,L為一個(gè)包含多幀的窗口大小,決定了局部最小值搜索的圍,考慮到語(yǔ)音的連續(xù)性和噪聲的改變,窗口大小需要限制在0.5-1.5s。4.3.2估計(jì)語(yǔ)音存在的概率用帶噪語(yǔ)音功率譜和其局部最小值的比率來計(jì)算語(yǔ)音存在概率,如下式表示:Sr^k)=S^k)/Smin(^k) (4-32)計(jì)算出的概率和經(jīng)驗(yàn)頻率值§比較,如果大于§判斷為語(yǔ)音存在頻帶,否則判斷為語(yǔ)音盲點(diǎn)。之所以這樣判斷是因?yàn)椋涸谡Z(yǔ)音盲點(diǎn)時(shí)刻,帶噪語(yǔ)音功率譜接近于其局部最小值,因此,在上式中比率越小,處于語(yǔ)音間隙的可能性就越大。語(yǔ)音是否存在用下式來判斷:IfSr(A,k)>6then/(入k)=l 語(yǔ)音存在else/(兄,£)=0 語(yǔ)音不存在end從上式的判斷規(guī)則,用下式來更新語(yǔ)音存在概率認(rèn)入燈:p(A,k)=app(A-\,k)+(l-al})I(A,k)(4-33)(4-34)其中,勺是平滑常量,本節(jié)中取0.2。6取值5,Z(X.&)是上式中的指標(biāo)函數(shù)。(4-33)(4-34)4.3.3更新噪聲譜的估計(jì)獲得語(yǔ)音存在的概率后,就可以更新噪聲譜了。如下式:-風(fēng)入E)xb/d(入燈+(1-j卩(入研」=岔(從炕伉,燈+(1-/(從)卩仏RF(4-35)況(2+1,-風(fēng)入E)xb/d(入燈+(1-j卩(入研」=岔(從炕伉,燈+(1-/(從)卩仏RF(4-35)其中,ad(A,k)=ad+(l-ad)p(A,k)4.4一種改進(jìn)的最小統(tǒng)計(jì)量控制遞歸平均噪聲估計(jì)算法4.4.1改進(jìn)的噪聲估計(jì)算法設(shè)x(n)和d(,1)分別表示干凈語(yǔ)音信號(hào)和加性噪聲信號(hào),則帶噪語(yǔ)音信號(hào)y(n)=x(n)+d(n)<>其中,x(n)和d(n)相互獨(dú)立。對(duì)帶噪語(yǔ)音信號(hào)分幀并變換到頻域可以得到Y(jié)(k,l)=x(k,Z)+D(k,Z),k為頻帶序號(hào),1為幀序號(hào)。通過對(duì)帶噪語(yǔ)音信號(hào)功率譜進(jìn)行一階遞歸平滑得到噪聲功譜[8]:人(和+1)=②紗)4(以)+[1-乙&,/)]丫紗『 (4-36)其中,Sd(kJ)既(七,f)為受語(yǔ)音存在概率p(k,z)控制的自適應(yīng)平滑因子。設(shè)=0.85為語(yǔ)音無聲段的固定平滑因子,則乙(以)可以表示為:adad(kj)=ad+(l-ad)p(kj)(4-37)假定X(k,1)和D(k,1)均滿足復(fù)高斯分布,則在噪聲功率譜A(kJ)給定條件下語(yǔ)音存在概率p(k,1)由下式給出:(l+£&,/)exp(-唯,/)))>(4-38)(l+£&,/)exp(-唯,/)))>(4-38)設(shè)畑)甥為后驗(yàn)信噪比"黑為先驗(yàn)信噪比,可以采用判決反饋的方法獲得,2t(^/)為語(yǔ)音存在時(shí)干凈語(yǔ)音信號(hào)功率卩伙,/)£伙丿)\+£(kJ)q(kj)為先驗(yàn)語(yǔ)音不存在概率,受語(yǔ)音最小統(tǒng)計(jì)量控制,通過兩次平滑和最小統(tǒng)計(jì)量跟蹤實(shí)現(xiàn)。首先,在時(shí)頻域?qū)г胝Z(yǔ)音進(jìn)行平滑。設(shè)勺=0.9為時(shí)域平滑參數(shù),6(f)為長(zhǎng)度為2w+l的歸一化窗,取為W=1的漢寧窗,則平滑過程為:S衛(wèi)(4-39)s(kj)=勺s(l-1)+(1-as)Sf(kJ) (4-40)對(duì)平滑輸出信號(hào)s(k,1)進(jìn)行最小值搜索。設(shè)0=0.8和〃=0?998為固定的平滑參數(shù),最小值跟蹤過程為:
ifSmin(kJ-\)<S(kJ)thenSm3)=Zk,l-1)+匕(S伸)-0S(陽(yáng)-1))p(4-41)S麗(k,l)=S(k,D(4-41)定義和加)為:(4-42)(4-42)其中盅訂=1?661?66為噪聲補(bǔ)償因子。設(shè)/0=4,兒=4.6和參=1.67為判決門限,根據(jù)/mln(^,/)和纟伙J)進(jìn)行語(yǔ)音存在概率硬判決:心/)=卩療(「43)[ O.else根據(jù)語(yǔ)音存在概率硬判決去除強(qiáng)語(yǔ)音成分后,進(jìn)行第二次平滑和最小值跟蹤。平滑過程為:S(S(kJ-\)else(4-45)(4-45)采用同樣的最小值跟蹤過程,對(duì)S(kJ)搜索最小值Sm.m(kJ)0定義九3)和歟小(4-46)(4-46)設(shè)兀=3,則先驗(yàn)語(yǔ)音不存在概率粼J)為:1,ifr(ktl)<\and^(kj)<粼,/)=仏-尬仲))心-1),屮<心伙J)""鳶(E)vg (4-47)4.4.2實(shí)驗(yàn)仿真本實(shí)驗(yàn)的兩種帶噪語(yǔ)音文件,一種是信噪比為-5dB的平穩(wěn)帶噪語(yǔ)音,噪聲為髙斯白噪聲;另一種是前3.2s為10dB的高斯白噪聲,后3.4s為-5dB的F16戰(zhàn)斗機(jī)噪聲的非平穩(wěn)語(yǔ)音。(圖中橫坐標(biāo)表示時(shí)間,縱坐標(biāo)表示功率譜,實(shí)線表示真實(shí)的噪聲譜,虛線表示估計(jì)的噪聲譜)其仿真結(jié)果如下圖所示:圖4-5真實(shí)噪聲譜和IMCRA算法估計(jì)的噪聲譜(-5dB高斯白棗蘆)圖4-6真實(shí)棗聲譜和IMCRA算法估計(jì)的棗聲譜(信噪比從10dB突變?yōu)?5dB)從圖中可以看出本文研究的噪聲估計(jì)算法具有較好的噪聲跟蹤能力,在語(yǔ)音存在的條件下能保持對(duì)噪聲的更新。其噪聲跟蹤能力與IMCRA算法相當(dāng)。該算法利用了改進(jìn)的最小統(tǒng)計(jì)量控制遞歸平均算法對(duì)最小統(tǒng)計(jì)量的魯棒性,采用了一種簡(jiǎn)單有效的最小量跟蹤算法,提高了對(duì)非平穩(wěn)噪聲的跟蹤能力,降低了算法復(fù)雜度。該算法可以廣泛地應(yīng)用于語(yǔ)音增強(qiáng)系統(tǒng),能夠有效地提高信噪比,抑制音樂噪聲。5總結(jié)與展望1論文的主要工作語(yǔ)音增強(qiáng)是語(yǔ)音信號(hào)處理領(lǐng)域中一個(gè)重要的基本問題。它廣泛地應(yīng)用于語(yǔ)音通信的背景噪聲抑制.語(yǔ)音壓縮編碼和語(yǔ)音識(shí)別的前端預(yù)處理中。語(yǔ)音增強(qiáng)的研究也越來越受到人們的重視,也取得了一定的成果,而語(yǔ)音增強(qiáng)特別是譜減法語(yǔ)音增強(qiáng)中,一個(gè)難點(diǎn)就是噪聲估計(jì),準(zhǔn)確地從背景噪聲中估計(jì)出噪聲功率譜,刪除不含語(yǔ)音成分的背景噪聲,從而可以大大提高增強(qiáng)效果。因此,噪聲估計(jì)是語(yǔ)音增強(qiáng)系統(tǒng)中非常重要的一個(gè)部分,估計(jì)的好壞會(huì)直接影響最終的增強(qiáng)效果。本文從語(yǔ)音活動(dòng)檢測(cè)和不需要進(jìn)行語(yǔ)音檢測(cè)的連續(xù)自適應(yīng)噪聲估計(jì)算法入手,VAD方法雖然有易于實(shí)現(xiàn),但是對(duì)非平穩(wěn)噪聲的跟蹤力度不夠而直接導(dǎo)致增強(qiáng)算法無法及時(shí)更新噪聲特性■同時(shí)在經(jīng)典算法的基礎(chǔ)上,研究了一種快速有效的噪聲估計(jì)方法。本文主要研究了:Martin提出的基于最小值跟蹤和最小統(tǒng)計(jì)的噪聲估計(jì)算法,Cohen等提出的最小值遞歸平均算法,并對(duì)這些算法進(jìn)行了仿真實(shí)驗(yàn)和分析。最后在這些算法的基礎(chǔ)上,研究了一種改進(jìn)的最小統(tǒng)計(jì)量控制遞歸平均算法,該算法利用了改進(jìn)的最小統(tǒng)計(jì)量控制遞歸平均算法對(duì)最小統(tǒng)計(jì)量的魯棒性,采用了一種簡(jiǎn)單有效的最小量跟蹤算法,提高了對(duì)非平穩(wěn)噪聲的跟蹤能力,并在IMCRA算法的基礎(chǔ)上■利用其對(duì)語(yǔ)音最小統(tǒng)計(jì)量估計(jì)算法,在保證噪聲估計(jì)準(zhǔn)確性的同時(shí),減小了算法的復(fù)雜度。該算法可以廣泛地應(yīng)用于語(yǔ)音增強(qiáng)系統(tǒng),能夠有效地提高信噪比,并且能夠有效地抑制音樂噪聲。通過實(shí)驗(yàn)仿真,結(jié)果表明此方法能夠獲得更加準(zhǔn)確的噪聲估計(jì),在噪聲突變時(shí),與其他方法相比大大縮短了時(shí)間延遲。5.2目前存在的問題及今后的發(fā)展方向由于本人所學(xué)有限,本論文提出的改進(jìn)和想法是一些很基礎(chǔ)的,還不全面,需要進(jìn)一步的探索和完善。下一步的研究工作,可以從以下幾個(gè)方面來展開:更深入的研究噪聲的性質(zhì),噪聲估計(jì)算法不可能對(duì)所有的噪聲類型都能適合,下一步可以研究并分析噪聲的各個(gè)特性,針對(duì)不同的噪聲類型,提出一種適合此類噪聲的噪聲估計(jì)算法C進(jìn)一步完善噪聲功率前的估計(jì)算法,對(duì)于許多新型的算法加以研究,進(jìn)一步將噪聲估計(jì)方法和其他方法相結(jié)合,爭(zhēng)取得到更加精確的噪聲估計(jì)。噪聲估計(jì)算法的研究是為了應(yīng)用于語(yǔ)音增強(qiáng),因此,對(duì)語(yǔ)音增強(qiáng)的研究也需要進(jìn)一步關(guān)注,同時(shí),幾乎所有的語(yǔ)音增強(qiáng)技術(shù)都是釆用的帶噪語(yǔ)音的相位信息,而低信噪比情況下,相位信息對(duì)語(yǔ)音感知有重要作用,因此有必要在以后的工作中研究噪聲中估計(jì)相位的算法。參考文獻(xiàn)雄偉,亮,吉斌.現(xiàn)代語(yǔ)音處理技術(shù)及應(yīng)用[切?北京:機(jī)械工業(yè),2003:4-12.立.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè),2003:5-10.R.Martin.Spectralsubtractionbasedonminimumstatistics[Cj,SeventhEuropeanSignalProcessingConference,1994,9(5):1182-1185.雪英,岡嘰馬建芬,語(yǔ)音處理與編碼[M],北京,兵器工業(yè),2000.I.Cohen,B.Berdugo.Noiseestimationbyminimeicontrolledrecursiveaveragingforrobustspeechenhancement[J],IEEESignalProc?Letters,2002,9(1):12-15.王華奎,立毅,數(shù)字信號(hào)處理理論及應(yīng)用[M],,理工大學(xué),2005,pp.182-203姜琳峰,石鴻凌,洪,基于最優(yōu)平滑和統(tǒng)計(jì)最小的語(yǔ)音增強(qiáng)[J],大學(xué)學(xué)報(bào)(理學(xué)版),2004,50(1),pp.113-117照平,馬建芬,雪英,一種基于快速噪聲估計(jì)的血SE語(yǔ)音增強(qiáng)算法[J],計(jì)算機(jī)工程與應(yīng)用,2007,(22),pp.113-114波,曹志剛,低信噪比條件下的一種自適應(yīng)有聲/無聲判決算法[J],信號(hào)處理,1996,12(3),pp.239-246行峻,遲惠生等.語(yǔ)音信號(hào)數(shù)字處理[M].北京:電子工業(yè),1995:16-22.焦人杰,侯麗敏.一種快速自適應(yīng)噪聲譜估計(jì)方法[J].聲學(xué)技術(shù),2007,26(4):735-740.航.語(yǔ)音信號(hào)處理[\1].:工業(yè)大學(xué),2002:20-29.易克初,田斌,付強(qiáng)?語(yǔ)音信號(hào)處理[M].北京:國(guó)防工業(yè),2000:22-30.韓紀(jì)慶,磊等?語(yǔ)音信號(hào)處理[H]?北京:清華大學(xué),2004:30-41.韓韜.基于強(qiáng)背景噪聲下的語(yǔ)音端點(diǎn)檢測(cè)算法與實(shí)現(xiàn)[D].:大學(xué),2007.金學(xué)驥?語(yǔ)音增強(qiáng)算法的研究與實(shí)現(xiàn)[D].:大學(xué),2005.周為,邱秀清,朱敬鋒等.一種基于噪聲快速跟蹤的語(yǔ)音增強(qiáng)算法[J].電聲技術(shù),2007,31(11):55-60.海.感知語(yǔ)音質(zhì)量評(píng)價(jià)PESQ及其在通信系統(tǒng)中的應(yīng)用[J].通信科技,2004,2004(2):36-47.朱健華,語(yǔ)音增強(qiáng)方法的研究[D],,理工大學(xué),2002航?語(yǔ)音信號(hào)處理[M].:工業(yè)大學(xué),2002:20-29.王永紅,周德新,熊軍.譜減法技術(shù)中“音樂噪聲”的抑制[J].電子工業(yè)學(xué)院學(xué)報(bào),1998,18(1):38-42.時(shí)光流逝,短短四年的大學(xué)生活即將結(jié)束,在論文即將完成之際,感概頗多。首先,非常感謝這次帶我畢業(yè)設(shè)計(jì)的賈海蓉老師,雖然她自己除了代課還得寫自己的博士論文,但還是每個(gè)禮拜都會(huì)見我們一次,幫我們看這個(gè)禮拜的學(xué)習(xí)成果并且安排下一周需要學(xué)習(xí)的容,賈老師對(duì)學(xué)術(shù)孜孜不倦的精神和嚴(yán)格要求的態(tài)度深深激勵(lì)我不斷進(jìn)取。從畢業(yè)論文的選題、研究到撰寫、修改,再到最終的完成,整個(gè)過程賈老師都耐心指導(dǎo),便我能夠從中不斷的學(xué)習(xí)和提高。從開始對(duì)論文課題的茫然到論文的完成,賈老師都給予了無私的指導(dǎo)最終完成整個(gè)論文。其次,感謝跟我相處四年的同學(xué)和朋友,在我困難的時(shí)候給予我的鼓勵(lì)和幫助。最后,感謝各位老師在百忙之中對(duì)論文的嚴(yán)格評(píng)審。附錄:外文文獻(xiàn)NoiseestimationAlgorithmsforSpeechEnhancementin
highlynon-stationaryEnvironmentsAnuradhaR?Fukanel,ShashikantL?Sahare21,2ElectronicsandTelecommunicationdepartmentCumminscollegeofEngineeringForWomen,Pune411052,Maharashtra,IndiaAbstractAnoiseestimationalgorithmplaysanimportantroleinspeechenhancement?Speechenhancementforautomaticspeakerrecognitionsystem,Man-Machinecommunication,Voicerecognitionsystems,speechcoders,Hearingaids,Videoconferencingandmanyapplicationsarerelatedtospeechprocessing.Al1thesesystemsarerealworldsystemsandinputavailableforthesesystemsisonlythenoisyspeechsignal,beforeapplyingtothesesystemswehavetoremovethenoisecomponentfromnoisyspeechsignalmeansenhancedspeechsignalcanbeappliedtothesesystems?Inmostspeechenhancementalgorithms,itisassumedthatsnestimateofnoisespectrumisavailable?Noiseestimateiscriticalpartanditisimportantforspeechenhancementalgorithms.Ifthenoiseestimateistoolowthenannoyingresidualnoisewillbeavailableandifthenoiseestimateistoohighthenspeechwillgetdistortedandlossintelligibi1ity.Thispaperfocusonthedifferentapproachesofnoiseestimation.SectionIintroduction,SectionIIexplainssimpleapproachofVoiceactivitydetector(VAD)fornoiseestimation.SectionIIIexplainsdifferentclassesofnoiseestimationalgorithms,SectionIVexplainsperformanceevaluationofnoiseestimationalgorithms,SectionVconclusion.Keywords:speechenhancement,Noise.VADfFFT.Histogram.LIntroductionSpeechenhancementplaysanimportantroleinnumerousapplicationssuchashearingaidsJspeechcoding*cellphones^automaticrecognitionofspeechsignalsbymachinesandmanymore?Speechsignalsfromtheuncontrolledenvironmentmaycontaindegradationcomponentsalongwiththerequiredspeechcomponents?Degradationcomponentsincludebackgroundnoise,reverberationandspeechfromotherspeakers?Thereforethedegi'adedspeechcomponentsneedtobeprocessedfortheenhancement?Speechenhancementalgorithmsimprovethequalityandintelligibilityofspeechbyreducingoreliminatingthenoisecomponentfromthespeechsignals?Improvingqualityandintelligibilityofspeechsignalsreducelistener'sfatigue,improvetheperformanceofhearingaids,cockpitcommunicationjvideoconferencing-speechcodersandmanyotherspeechprocessingsystems?Inmostspeechenhancementalgorithmsitisassumedthatanestimateofnoisespectrumisavailable?Noiseestimateiscriticalpartanditisimportantforspeechenhancementalgorithms?Performaneeofspeechenhancementalgorithmsdependsoncorrectestimationofnoise?SimpleapproachtoestimatethenoisespectrumofthesignalusingaVoiceActivityDetector(VAD)anotherapproachtoestimatethenoiseusingdifferentnoiseestimationalgorithmsNoiseestimationalgorithmsthatcontinuouslytrackthenoisespectrum.ItischallengingtasktoestimatethenoisespectrumevenduringspeechactivityhenceResearcherdevelopedmanynoiseestimationalgorithmswhichareexplainedinnextsection.2.VoiceActivityDetectionSimpleapproachtoestimateandupdatethenoisespectrumduringthesilentsegmentsofthesignalusingaVoiceActivityDetector(VAD)?Theprocessofdiscriminatingbetweenthevoiceactivitythatisspeechpresenceandsilencethatisspeechabsenceiscalledvoiceactivitydetection.VADalgorithmstypicallyextractsometypeoffeature(e.g.shorttimeenergy,zerocrossingetc?)fromtheinputsignalandcomparedagainstthresholdvalue,usuallydeterminedduringspeechabsentperiod?GenerallyoutputofVADalgorithmsisbinarydecisiononaframe-by-framebasishavingframeduration20一30msec?Asegmentofspeechisdeclaredtocontainvoiceactivity(VAD=T)ifmeasuredvalueexceedapredeterminedthresholdotherwiseitisdeclaredanoise(VAD="O')figure1showsVADdecisions?SeveralVADalgorithmswereproposedbasedonvarioustypesoffeaturesextractedfromthesigna1.NoiseestimationcanhavemajorimpactonthequalityandIntelligibilityofspeechsigna1.Figure-1showsVADdecisions[3]TheearlyV?\DAlgorithmswerebasedonenergylevelsandzerocrossing[4].Ceptralfeatures[4].theItakuraLPCspectraldistancemeasuresandtheperiodicitymeasures[2]?SomeofV/\DAlgorithmsareusedin(GSM)System[3].cellularNetworks.anddigitalcordlesstelephonesystems[3]?V/\DAlgorithmsaresuitablefordiscontinuestransmissioninvoicecommunicationsystemsastheycanbeusedtosavethebatterylifeofcellularphones?ThemajorityoftheVADAlgorithmsencounterproblemsinlowSNRconditions,particularlywhenthenoiseisnonstationary[1t2]?HavinganaccurateVADAlgorithminanon-stationaryenvironmentmightnotbesufficientinspeechenhancement?Applications,asonaccuratenoiseestimationisrequiredatalltimes,evenduringspeechactivity.IncaseofNoiseestimationalgorithmstheycontinuouslytrackthenoisespectrumthereforemoresuitedforspeechenhancementapplicationsinnonstationarySeenarios?ClassesofNoiseEstimationAlgorithmsTherearethreeclassesofnoiseestimationalgorithms?MinimaltrackingAlgorithms,TimeRecursiveAlgorithmsandHistogrambasedAlgorithms?Allalgorithmsoperateinthefollowingfashion.Firstthesignalisanalyzedusingshorttimespectracomputedfromshortoverlappingframes,typically20-30msec?Windowswith50%overlapbetweenadjacentframes?Thenseveralconsecutiveframescalledanalysissegmentareusedinthecomputationofthenoisespectrum.Typicaltimespanofthissegmentmayrangefrom400msec?to1sec?Thenoiseestimationalgorithmsarebasedontheassumptionsthattheanalysissegmentistoolongenoughtocontainspeechpausesandlowenerg
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度高端別墅買賣定金合同3篇
- 2025年度出租車司機(jī)心理健康關(guān)愛與支持合同規(guī)范2篇
- 2025版綠色建筑項(xiàng)目合同追加服務(wù)協(xié)議4篇
- 二零二五年教育機(jī)構(gòu)校長(zhǎng)聘用合同書3篇
- 2024版勞務(wù)派遣就業(yè)合同范本
- 二零二四南京個(gè)人租賃房屋租賃合同租賃物交付驗(yàn)收合同3篇
- 年度Β-內(nèi)酰胺類抗菌藥物產(chǎn)業(yè)分析報(bào)告
- 年度高檔生物顯微鏡競(jìng)爭(zhēng)策略分析報(bào)告
- 年度大孔燒結(jié)空心磚競(jìng)爭(zhēng)策略分析報(bào)告
- 2025年西瓜種植與農(nóng)業(yè)科技園區(qū)建設(shè)合作合同范本3篇
- 寒潮雨雪應(yīng)急預(yù)案范文(2篇)
- DB33T 2570-2023 營(yíng)商環(huán)境無感監(jiān)測(cè)規(guī)范 指標(biāo)體系
- 上海市2024年中考英語(yǔ)試題及答案
- 房屋市政工程生產(chǎn)安全重大事故隱患判定標(biāo)準(zhǔn)(2024版)宣傳海報(bào)
- 垃圾車駕駛員聘用合同
- 2025年道路運(yùn)輸企業(yè)客運(yùn)駕駛員安全教育培訓(xùn)計(jì)劃
- 南京工業(yè)大學(xué)浦江學(xué)院《線性代數(shù)(理工)》2022-2023學(xué)年第一學(xué)期期末試卷
- 2024版機(jī)床維護(hù)保養(yǎng)服務(wù)合同3篇
- 《論拒不執(zhí)行判決、裁定罪“執(zhí)行能力”之認(rèn)定》
- 工程融資分紅合同范例
- 2024國(guó)家安全員資格考試題庫(kù)加解析答案
評(píng)論
0/150
提交評(píng)論