強(qiáng)背景噪聲環(huán)境下語音增強(qiáng)算法的研究及應(yīng)用畢業(yè)論文_第1頁
強(qiáng)背景噪聲環(huán)境下語音增強(qiáng)算法的研究及應(yīng)用畢業(yè)論文_第2頁
強(qiáng)背景噪聲環(huán)境下語音增強(qiáng)算法的研究及應(yīng)用畢業(yè)論文_第3頁
強(qiáng)背景噪聲環(huán)境下語音增強(qiáng)算法的研究及應(yīng)用畢業(yè)論文_第4頁
強(qiáng)背景噪聲環(huán)境下語音增強(qiáng)算法的研究及應(yīng)用畢業(yè)論文_第5頁
已閱讀5頁,還剩181頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

強(qiáng)背景噪聲環(huán)境下語音增強(qiáng)算法的研究及應(yīng)用(申請清華大學(xué)工學(xué)碩士學(xué)位論文)關(guān)于學(xué)位論文使用授權(quán)的說明本人完全了解清華大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:清華大學(xué)擁有在著作權(quán)法規(guī)定范圍內(nèi)學(xué)位論文的使用權(quán),其中包括:(1)已獲學(xué)位的研究生必須按學(xué)校規(guī)定提交學(xué)位論文,學(xué)??梢圆捎糜坝 ⒖s印或其他復(fù)制手段保存研究生上交的學(xué)位論文;(2)為教學(xué)和科研目的,學(xué)??梢詫⒐_的學(xué)位論文作為資料在圖書館、資料室等場所供校內(nèi)師生閱讀,或在校園網(wǎng)上供校內(nèi)師生瀏覽部分內(nèi)容;(3)根據(jù)《中華人民共和國學(xué)位條例暫行實施辦法》,向國家圖書館報送可以公開的學(xué)位論文。(保密的論文在解密后遵守此規(guī)定)I人們在語音通信過程中不可避免地會受到各種噪聲的干擾,影響了通信質(zhì)量。同時,噪聲的存在也使低速率語音編碼以及語音識別等語音處理系統(tǒng)的性能下降。語音增強(qiáng)作為一種預(yù)處理手段,不失為解決噪聲污染的一種有效途在各類語音增強(qiáng)技術(shù)中,基于短時譜幅度估計的語音增強(qiáng)算法處于主流位置,得到廣泛應(yīng)用。本文針對短時譜幅度估計在低輸入信噪比以及非平穩(wěn)噪聲環(huán)境下,性能不夠理想這一不足加以研究改進(jìn),完成穩(wěn)健的語音增強(qiáng)算法設(shè)計和實時實現(xiàn)。根據(jù)對短時譜幅度估計算法進(jìn)行分析,指出了影響其性能的關(guān)鍵技術(shù):噪聲統(tǒng)計特性的估計、語音激活檢測算法、先驗信噪比估計、增益函數(shù)首先,提出了一種快速估計噪聲統(tǒng)計特性的算法,減小了噪聲估計的跟蹤延時,在一定程度上改善了噪聲過估計的現(xiàn)象,因而能夠在低輸入信噪比以及非平穩(wěn)噪聲干擾環(huán)境下快速準(zhǔn)確地跟蹤噪聲特性。由于檢測門限與噪聲估計相適應(yīng),因而提高了檢測性能,尤其在非平穩(wěn)噪聲干擾環(huán)境下得到了良好的檢測效果。同時,利用語音激活檢測算法中傅里葉變換再次,對先驗信噪比估計的反饋因子進(jìn)行最優(yōu)化調(diào)整,引入與長時統(tǒng)計信同時,利用軟判決信息,即有關(guān)語音存在的概率信息,修正增益函數(shù)表達(dá)式中最后,相關(guān)算法已用C語言和TMS320C55xDSP匯編語言在PC機(jī)和DSP硬件平臺上實現(xiàn)。仿真實驗和實時測試均表明改進(jìn)的語音增強(qiáng)算法在不明顯損傷語音可懂度的同時,可以有效地抑制背景噪聲、提高信噪比,在低輸入信噪比和非平穩(wěn)噪聲環(huán)境下性能提高尤為顯著。關(guān)鍵詞:語音增強(qiáng)非平穩(wěn)噪聲短時譜幅度估計噪聲估計語音激活檢測先驗信噪比Ⅱnoisesinevitably,whichaffectsthecommunicationquality.Furthermore,aneffectivepreprocessingmethodtoreducethedisturbanceofnoise.Short-TimeSpectralAmplitude(STSA)estimationhavebeenwellinveontheTMS320C55xDSPplatformsummarized,includingtheestimationofnoisestatisticcharacteristics,voiceactivitydetection(VAD)algorithm,theestimationofaprioriSNR,andthemodificationofgainfunction,etc.proposed.Themethoddecreasestheadaptationtimeoftheover-estimationphenomenontosomeextent,thuscantnon-stationarynoiseenvironments.UniformlyMostPowerful(UMP)testisdetectionperfomance,especiallyinnon-stationarynoisethedualtonemultiplefrequency(DTMF)sstatisticinformation.Moplatform.Bothsimulationexperimentsandreal-timebackgroundnoiseandincreasingtheSNRwithoutapparentlyimpairingthe目錄 11.1語音增強(qiáng)課題背景 11.2帶噪語音模型 21.2.1語音的主要特性 21.2.2噪聲的主要特性 31.2.3人耳的感知特性 41.2.4背景噪聲對于語音的影響 41.3語音增強(qiáng)的發(fā)展歷史 51.4語音增強(qiáng)算法分類 51.5論文研究工作 71.6論文內(nèi)容組織 71.7本章小結(jié) 7第2章基于短時譜幅度估計的語音增強(qiáng)算法概述 82.1本章引論 82.2語音增強(qiáng)算法概述 82.2.1自適應(yīng)噪聲對消法 82.2.2諧波增強(qiáng)法 92.2.3基于語音生成模型的語音增強(qiáng)算法 2.2.4基于短時譜幅度估計的語音增強(qiáng)算法 2.2.5其他幾種形式的語音增強(qiáng)算法 2.3基于短時譜幅度估計的語音增強(qiáng)算法 2.3.1譜減法的一般形式 2.3.2譜減法的改進(jìn)形式 2.3.3維納濾波法 2.3.4MMSE估計法 2.4基于短時譜幅度估計的語音增強(qiáng)算法的關(guān)鍵技術(shù) 2.5本章小結(jié) 第3章噪聲統(tǒng)計特性估計的研究 3.1本章引論 3.2基于語音激活檢測的噪聲統(tǒng)計特性估計 3.3直接形式的噪聲統(tǒng)計特性估計 V3.3.1簡單的直接噪聲統(tǒng)計特性估計 3.3.2基于最小統(tǒng)計的噪聲統(tǒng)計特性估計 3.4噪聲功率譜的快速估計 3.4.1自適應(yīng)最優(yōu)短時譜平滑 3.4.2不依賴窗長的最小值搜索 3.4.3引入語音存在概率 3.4.4噪聲功率譜更新 3.4.5語音存在概率的準(zhǔn)確估計以及噪聲功率譜的迭代更新 3.4.6測試結(jié)果及結(jié)論 3.5本章小結(jié) 第4章語音激活檢測算法研究 4.1本章引論 4.2傳統(tǒng)語音激活檢測算法 4.2.1G729AnnexB標(biāo)準(zhǔn)的語音激活檢測算法 4.2.2G723.1AnnexA標(biāo)準(zhǔn)的語音激活檢測算法 4.2.3GSM標(biāo)準(zhǔn)的語音激活檢測算法 4.3基于高斯模型和一致最大勢檢驗的語音激活檢測算法 4.3.1基于高斯模型的似然比檢測 4.3.2一致最大勢檢驗準(zhǔn)則 4.3.3短時譜最優(yōu)化平滑以及自適應(yīng)門限平滑 4.3.4拖尾延遲保護(hù) 4.3.5基于高斯模型和UMP檢驗的VAD算法流程 4.3.6測試結(jié)果以及結(jié)論 4.4雙音多頻信號的生成與檢測 4.4.1雙音多頻信號的生成 4.4.2雙音多頻信號的檢測 4.4.3測試結(jié)果 4.5本章小結(jié) 第5章語音增強(qiáng)算法的研究與實現(xiàn) 5.1本章引論 5.2本文語音增強(qiáng)算法流程 5.2.1分幀和加窗 5.2.2先驗/后驗信噪比估計 5.2.3長時信噪比估計 5.2.4增益函數(shù)的計算 5.3語音增強(qiáng)算法評測標(biāo)準(zhǔn) 5.3.1增強(qiáng)語音的主觀評測 5.3.2增強(qiáng)語音的客觀評測 5.4語音增強(qiáng)算法測試 5.4.1測試環(huán)境 5.4.2測試結(jié)果 5.5本章小結(jié) 6.1本章引論 6.2.1TMS320C55x內(nèi)部結(jié)構(gòu) 6.2.2TMS320C55x總線結(jié)構(gòu) 6.2.3TMS320C55x流水線操作 6.3語音增強(qiáng)算法的DSP實現(xiàn)和優(yōu)化 6.3.1C代碼定點化 6.3.2TMS320C55x匯編程序編程 6.3.3算法在TMS320C55xDSP上的資源消耗 6.4本章小結(jié) 第7章結(jié)論與展望 7.1結(jié)論 7.2展望 參考文獻(xiàn) 個人簡歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果 NMSE判斷滿意度測試(DiagnosticAcceptabili診斷押韻測試(DiagnosticRhymeTest)雙音多頻(DualToneMultipleFrequency)無限沖激響應(yīng)(InfiniteImpulseResponse)卡一洛變換(KarhunenLoeveTransform)最小均方誤差(MinimumMean-SquaredError)分段式信噪比(SegmentalSignal-to-NoiseRa信噪比(Signal-to-NoiseRatio)短時譜幅度(Short-TimeSpectralAmplitude)一致最大勢(UniformlyMostPow)語音激活檢測(VoiceActivityDetection)超大規(guī)模集成電路(VeryLargeScaleInt1第1章引言21世紀(jì)的通信是人與人之間、人與機(jī)器之間高質(zhì)量的無縫的信息交換。語言是人類交流的重要手段,它自然方便,準(zhǔn)確高效。語音通信也是一種理想的人機(jī)通信方式。人們一直夢想著有朝一日可以擺脫鍵盤或遙控設(shè)備的束縛,擁有更為友好、親切的人機(jī)界面,讓計算機(jī)或家用電器可以聽懂人的話語,看懂人的動作,執(zhí)行人們所希望的任何任務(wù)。而語音數(shù)字信號處理正是其中一項至關(guān)重要的應(yīng)用技術(shù)。應(yīng)用現(xiàn)代化手段研究語音處理技術(shù),能更有效地產(chǎn)生、傳輸、存儲和獲取語音信息,這對促進(jìn)社會的信息化發(fā)展具有十分重要的意義。因此,語音信號處理目前已成為信息科學(xué)研究領(lǐng)域中發(fā)展最為迅速的的一個分語音信號處理是語音學(xué)與數(shù)字信號處理技術(shù)相結(jié)合的交叉學(xué)科,它和認(rèn)知科學(xué)、心理學(xué)、語言學(xué)、計算機(jī)科學(xué)、模式識別和人工智能等學(xué)科聯(lián)系緊密,在數(shù)字話音通信,聲控打印機(jī),自動語音翻譯和多媒體信息處理等許多方面都有非常重要的應(yīng)用。語音數(shù)字信號處理包含的內(nèi)容十分廣泛,如包括語音編碼、語音識別、語音合成、語音增強(qiáng)等。其中,語音增強(qiáng)是語音數(shù)字信號處理系統(tǒng)1.1語音增強(qiáng)課題背景人們在語音通信過程中不可避免地會受到各種噪聲的干擾,比如,來自周圍環(huán)境、傳輸媒介引入的噪聲,通信設(shè)備內(nèi)部電噪聲以及其它講話者的干擾這些噪聲干擾使接收者接收到的語音已非純凈的原始語音信號,而是受噪聲污染的帶噪語音信號。例如,室內(nèi)會議電話的交混回響隨同語音廣播到每個會議地點,影響收聽效果。再如在軍用車載通信系統(tǒng)中,尤其是坦克車內(nèi)的通信系統(tǒng),所處的噪聲環(huán)境較一般環(huán)境更為惡劣,其噪聲強(qiáng)度可達(dá)到120分貝左右。如此強(qiáng)度的噪聲不僅會對通信質(zhì)量產(chǎn)生嚴(yán)重影響,而且對通信接收者而言也是同時,環(huán)境噪聲污染使許多語音處理系統(tǒng)的性能急劇惡化。例如,語音識別已取得重大進(jìn)展,正在步入實用階段。但目前的識別系統(tǒng)大都是在安靜環(huán)境中工作的,在噪聲環(huán)境中尤其是強(qiáng)噪聲環(huán)境,語音識別系統(tǒng)的識別率將受到嚴(yán)2重影響。低速率語音編碼通常采用參數(shù)編碼,其基礎(chǔ)是語音生成模型。當(dāng)模型參數(shù)的提取受到背景噪聲的嚴(yán)重干擾時,重建語音的質(zhì)量將急劇惡化,甚至變得完全不可懂。在上述情況下,語音增強(qiáng)作為一種預(yù)處理手段,不失為解決噪目前流行的語音增強(qiáng)處理方法,雖然能夠在一定程度上去除背景噪聲,提高信噪比,但在低輸入信噪比和非平穩(wěn)噪聲干擾的情況下增強(qiáng)效果有限,殘留噪聲較多,部分弱語音信號會被當(dāng)作噪聲而完全抑制,從而造成語音可懂度的下降。針對上述惡劣情況,設(shè)法改善語音增強(qiáng)效果,提高語音質(zhì)量,改善通信系統(tǒng)性能,使語音增強(qiáng)技術(shù)更好地應(yīng)用于軍用和民用產(chǎn)品中。本課題正是在這1.2帶噪語音模型圖1.1帶噪語音模型噪聲假定為加性噪聲,且與純凈語音不相關(guān),可以得到如圖1.1所示的帶噪語音模型。這個帶噪語音模型將作為本文語音增強(qiáng)分析的基礎(chǔ)。語音增強(qiáng)的主語音增強(qiáng)是以語音特性、噪聲特性以及人耳感知特性為理論基礎(chǔ)的。本節(jié)將分別敘述語音和噪聲的主要特性、人耳的感知特性以及背景噪聲對語音的影1.2.1語音的主要特性1)語音是一個時變的、非平穩(wěn)的隨機(jī)過程。人類發(fā)聲器官的生理結(jié)構(gòu),決定了其變化速度是有一定限度的。在較短的一段時間(10~30msec)內(nèi),人的聲帶和聲道形狀具有相對穩(wěn)定性,可認(rèn)為表征其特征的參數(shù)是不變的,因而語音短時譜分析也具有相對穩(wěn)定性。語音的這種短時平穩(wěn)性是語音信號處理的基礎(chǔ)。32)語音大體上可以分為清音和濁音兩大類。從語音產(chǎn)生機(jī)理上看,兩者有頻域上呈現(xiàn)共振峰結(jié)構(gòu),而且能量大部分集中于較低的頻段內(nèi)。清音則完全不同,它沒有明顯的時域和頻域特征,類似于白噪聲。在語音增強(qiáng)中,對濁音的3)作為一個隨機(jī)過程,語音信號可以用統(tǒng)計特性來描述。語音信號是非平穩(wěn)、非遍歷的隨機(jī)過程,長時時域統(tǒng)計特性在語音增強(qiáng)中意義不大。語音短時譜的統(tǒng)計特性是時變的,只有分析幀的長度趨于無窮大時,才能近似認(rèn)為其服從高斯分布。在高斯模型假設(shè)下,傅立葉展開系數(shù)被認(rèn)為是獨立的高斯隨機(jī)變量,均值為0,方差時變。這種高斯模型在幀長有限時只是一種近似的描述,在1.2.2噪聲的主要特性噪聲的來源取決于實際的應(yīng)用環(huán)境,因而噪聲特性可以說是變化多樣的。噪聲可以是加性的,也可以是非加性的。對于非加性噪聲,有些可以通過相應(yīng)的變換而轉(zhuǎn)變?yōu)榧有栽肼暋@?,乘性噪?或卷積噪聲)可以通過同態(tài)變換,而成為加性噪聲。又如,某些與信號相關(guān)的量化噪聲可以通過偽隨機(jī)噪聲擾動的方法變換成為與信號獨立的加性噪聲。非加性噪聲可以通過一定的變換轉(zhuǎn)化為加性噪聲,并且課題應(yīng)用背景下的噪聲屬于加性噪聲,因此這里只討論加性噪聲。加性噪聲大致上有:周期性噪聲、脈沖噪聲、寬帶噪聲和同聲道其它語1)周期性噪聲其特點是具有許多離散的線譜,主要來源于發(fā)動機(jī)等周期性運轉(zhuǎn)的機(jī)械。電器干擾,尤其是電源交流聲也會引起周期性噪聲。這種周期性噪聲可以用梳2)脈沖噪聲其表現(xiàn)為時域波形中出現(xiàn)的窄脈沖,主要源于爆炸、撞擊和放電等。這種脈沖噪聲可以在時域中對信號幅度適當(dāng)設(shè)置閾值來判別并加以適當(dāng)衰減或消除,也可以根據(jù)相鄰信號的樣值,通過內(nèi)插的方法將脈沖噪聲在時域進(jìn)行平滑。3)寬帶噪聲其與語音信號在時域和頻域上完全重疊,只有在語音間歇期才單獨存在,4因而消除困難。其來源很多,主要有熱噪聲、氣流噪聲以及各種隨機(jī)噪聲。目4)同聲道語音干擾人耳可以在兩人以上的講話環(huán)境中分辨出所需要的聲音,這種分辨能力是人腦語音理解機(jī)理的一種感知能力。人類的這種分離語音的能力稱為“雞尾酒會效應(yīng)”,來源于人的雙耳的輸入效應(yīng)。但當(dāng)多個語音疊合在一起,在單信道中傳輸時,雙耳信號因合并而消失。目前針對同聲道語音干擾的增強(qiáng)處理還處于1.2.3人耳的感知特性語音增強(qiáng)的效果最終取決于人的主觀感受。人耳的感知特性對語音增強(qiáng)的研究有著非常重要的作用,了解其機(jī)理將有助于語音增強(qiáng)技術(shù)的發(fā)展。1)人耳對語音的感知是通過語音信號中各頻譜分量的幅度獲得的,而對各2)人耳對頻譜分量強(qiáng)度的感受是頻率與能譜的二元函數(shù),響度與頻譜幅度3)人耳對頻率高低的感受與該頻率的對數(shù)近似成正比;4)人耳有掩蔽效應(yīng),即強(qiáng)信號對弱信號有掩蓋的抑制作用。掩蔽的程度是聲音強(qiáng)度與頻率的二元函數(shù),對頻率臨近分量的掩蔽程度大于對頻差大的分量5)語音短時譜中的共振峰對語音的感知十分重要,特別是第二共振峰比第一共振峰更為重要,因此對語音信號進(jìn)行一定程度的高通濾波不會對可懂度造6)人耳在兩人以上的講話環(huán)境中有能力分辨出需要聆聽的聲音。其中,第一條感知特性是基于短時譜幅度估計的語音增強(qiáng)算法的基礎(chǔ),利1.2.4背景噪聲對于語音的影響背景噪聲破壞了語音信號原有的聲學(xué)特征和模型參數(shù),模糊了不同語音之間的差別,使語音質(zhì)量下降,可懂度降低。強(qiáng)背景噪聲會使人產(chǎn)生聽覺疲勞。不僅如此,強(qiáng)噪聲環(huán)境還對講話人產(chǎn)生影響,使講話人改變在安靜環(huán)境或低噪5聲環(huán)境中的發(fā)聲方式,從而改變了語音的特征參數(shù),稱為Lombard效應(yīng),它對在實際需求的推動下,早在上個世紀(jì)60年代,語音增強(qiáng)這個研究課題就引起了廣泛關(guān)注。隨著數(shù)字信號處理理論的成熟,70年代曾形成一個理論研究高潮,取得了一些基礎(chǔ)性成果,并使語音增強(qiáng)發(fā)展成為語音信號處理領(lǐng)域的一個重要分支。人們首先提出用梳狀濾波器加強(qiáng)周期性的語音而衰減非周期的噪聲Lim和Oppoenheim提出了語音增強(qiáng)的維納濾波算法。1979年,Boll?提出了譜減法來抑制噪聲。但由于各種算法的計算量比較大,導(dǎo)致它們的實用性受到影也涌現(xiàn)了大量新的算法,在語音識別中使用的概念和方法也被借鑒到語音增強(qiáng)算法中。1980年,Mcaulay和Malpass10提出了軟判決噪聲抑制方法。1984年,Ephraim和Malah”提出基于MMSE短時譜幅度估計的語音增強(qiáng)算法。1987年,語音增強(qiáng)算法成為研究的中心。統(tǒng)計方法中最典型的是隱馬爾可夫模型(HMM用于語音增強(qiáng)中,或者進(jìn)行卡一洛變換(KLT)[15],利用神經(jīng)網(wǎng)絡(luò)[6進(jìn)行語音增強(qiáng)。此外,采用麥克風(fēng)陣列輸入多個帶噪混合信號,再通過計算進(jìn)行濾波也受到很大重視。應(yīng)用獨立元分量分析來進(jìn)行語音信號盲分離和增強(qiáng)的方法,以1.4語音增強(qiáng)算法分類語音增強(qiáng)是解決噪聲污染的有效方法,它的首要目標(biāo)就是在接收端盡可能地從帶噪語音信號中提取純凈的語音信號,改善其質(zhì)量。語音增強(qiáng)不僅涉及信號檢測、波形估計等傳統(tǒng)信號處理理論;而且與語音特性、人耳感知特性密切相關(guān);再則,實際應(yīng)用中噪聲的來源及種類也各不相同。所以,語音增強(qiáng)的處6理方法具有多樣性。因此,要結(jié)合語音特性、人耳感知特性及噪聲特性,根據(jù)就語音增強(qiáng)算法而言,根據(jù)所用的麥克數(shù)量可劃分為三種形式,分別為基高斯自回歸模型的輸出,并采用迭代算法,從帶噪語音信號中估計自回歸模型參數(shù),然后利用這些參數(shù)構(gòu)造全極點濾波器進(jìn)行濾波。這種算法后來有很多發(fā)展,如在上述迭代過程中施加有關(guān)共振峰的約束,使處理后的信號更具有語音的特點;或者把這類方法與隱馬爾可夫方法結(jié)合起來,以更好地描述語音的時變特性。此類方法一般運算量比較大,而且當(dāng)實際的噪聲和語音與模型有較大的差距或是提取參數(shù)比較困難的時候,容易失效。另一類方法則主要是基于語由于人耳對語音短時譜相位的感知不敏感,事實上實際應(yīng)用中只需設(shè)法準(zhǔn)確估計出語音的短時譜幅度(ShortTimeSpectralAmplitude,STSA),基于STSA估計的語音增強(qiáng)方法一般都是直接采用帶噪語音的相位作為增強(qiáng)語音的相位。此類算法運算量相對較小,適用信噪比范圍比較大,并且易于實時處理,因此得到廣泛應(yīng)用,譜減法、維納濾波法以及MMSE法等方法都屬于此類。近些年來,人們又陸續(xù)提出了一些基于信號子空間處理以及基于神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算基于雙麥克的語音增強(qiáng)主要采用自適應(yīng)噪聲消除技術(shù)進(jìn)行語音增強(qiáng)。如果能在時域或者在頻域,直接從帶噪語音中將噪聲分量減去,則能有效增強(qiáng)帶噪語音。噪聲對消法就是以此作為出發(fā)點,其最大特點是需要采集背景噪聲作為參考信號,參考信號準(zhǔn)確與否直接決定著噪聲對消法的性能。在采集背景噪聲時,往往采用自適應(yīng)濾波技術(shù),以便使參考信號盡可能接近帶噪語音中的噪聲基于麥克陣的語音增強(qiáng)采用多個以一定方式排列的采集設(shè)備接收信號。由于不同的獨立信號源與各個采集設(shè)備之間的距離不同,最后在各個接受設(shè)備中的合成信號也會產(chǎn)生相應(yīng)的差異,再采用獨立成分分析技術(shù)將各個獨立信號分7基于單麥克的語音增強(qiáng)一直是各種語音增強(qiáng)方法中研究的熱點,相關(guān)理論也相對成熟。本課題的應(yīng)用背景,提供的是單麥克,因此本文的研究工作是基于單麥克的語音增強(qiáng)。考慮到具體應(yīng)用的各種要求,主要是研究基于短時譜幅論文分析了各種語音增強(qiáng)方法的優(yōu)缺點,并根據(jù)課題的需要,利用隨機(jī)信號處理的方法,研究并實現(xiàn)了基于MMSE短時譜幅度估計的語音增強(qiáng)算法。針對目前流行的語音增強(qiáng)算法在低輸入信噪比(0dB以下)和非平穩(wěn)噪聲干擾環(huán)境下增強(qiáng)效果有限的問題,論文借鑒國內(nèi)外提出的相關(guān)技術(shù),通過對噪聲統(tǒng)計特性估計、語音激活檢測、先驗信噪比的估計、增益函數(shù)修正這幾個方面進(jìn)行改進(jìn),提高了短時譜幅度估計的語音增強(qiáng)算法性能,拓寬了語音增強(qiáng)的應(yīng)用范圍。由于課題需要,論文對語音增強(qiáng)算法的實時應(yīng)用進(jìn)行了適應(yīng)性研究。在選定的DSP芯片處理能力有限的情況下,通過定全文共分七章:第1章是引言;第2章是基于短時譜幅度估計的語音增強(qiáng)算法概述;第3章噪聲統(tǒng)計特性估計的研究;第4章是語音激活檢測算法研究;第5章是語音增強(qiáng)算法的研究與實現(xiàn);第6章是基于TMS320C55xDSP硬件平臺的實時實現(xiàn);第7章是結(jié)論。本章首先介紹了語音增強(qiáng)在語音處理系統(tǒng)中的作用,指出了選題背景和選題意義,并給出了加性噪聲情況下的帶噪語音模型,闡述了與語音增強(qiáng)密切相關(guān)的語音和噪聲的主要特性、人耳的感知特性以及背景噪聲對語音的影響。然后,簡要概述了語音增強(qiáng)的發(fā)展和分類,并根據(jù)課題要求提出了本文的主要研第2章基于短時譜幅度估計的語音增強(qiáng)算法概述8第2章基于短時譜幅度估計的語音增強(qiáng)算法概述語音增強(qiáng)的目的是針對帶噪語音盡可能地消除噪聲的影響,提取出純凈的原始語音。但是,由于噪聲干擾的隨機(jī)性,從帶噪語音中提取完全純凈的原始以顯著地降低背景噪聲,改進(jìn)語音質(zhì)量,但是對語音也造成了很大的損傷。因此在研究過程中,通常要根據(jù)不同的要求,選用不同算法,設(shè)置不同的參數(shù),介紹基于短時譜幅度估計的語音增強(qiáng)算法;2.4節(jié)總結(jié)基于短時譜幅度估計的語還待發(fā)展,但是某些增強(qiáng)算法已證明是有效果的,如噪聲對消法、諧波增強(qiáng)法、噪聲對消的基本原理是從帶噪語音中減去噪聲,問題是如何得到噪聲的復(fù)制品。通常采用兩個(或多個)話筒進(jìn)行處理,一個(或多個)采集帶噪語音,另一個(或多個)采集噪聲。圖2.1給出了雙話筒采集的噪聲對消法原理框圖。采用噪聲對消法時,兩個話筒之間必須要有相當(dāng)?shù)拈g隔度,但采集到的兩路信號之間不可避免地會有時間差,因此實時采集到的兩路信號中所包含的噪聲段因而,采集到的噪聲必須經(jīng)過自適應(yīng)濾波,以得到盡可能接近于帶噪語音中的噪聲。自適應(yīng)濾波器通常采用FIR濾波器,其系數(shù)可以采用最小均方(LMS) 9帶噪語音FFT自適應(yīng)濾波IFFT大量實驗表明,在強(qiáng)背景噪聲下,使用自適應(yīng)噪聲對消法進(jìn)行語音增強(qiáng)可以得到很好的消噪效果。如果采集的噪聲足夠充分,也可以直接在時域上相減。噪聲對消法的一個主要缺點是增強(qiáng)后的語音會有“音樂噪聲”,這種噪聲是頻譜相減的遺留產(chǎn)物,由于具有一定的節(jié)奏性起伏,聽上去類似音樂聲。語音信號的濁音段有明顯的周期性,利用這一特點,可以采用自適應(yīng)梳妝濾波器來提取語音分量,抑制噪聲。梳狀濾波器可以在時域?qū)崿F(xiàn),表達(dá)式為:這里,t為基頻周期,x為常數(shù)(通常不大);x(n)是濾波器輸入信號序列;c.為系數(shù),隨信號周期而變化。輸出信號是輸入信號的延時加權(quán)和的平均值。當(dāng)延時與周期一致時,這個平均過程將使周期性分量得到加強(qiáng),而會使其他非周期性分量或與語音信號周期不同的其他周期性分量受到抑制。顯然,上述方法的關(guān)鍵是要準(zhǔn)確估計出語音信號的基音周期,這在強(qiáng)背景噪聲干擾下有一定的困難。在基音發(fā)生變化的過渡段,這種方法會受到嚴(yán)重影響。選擇m=1可以減小這種影響,但增強(qiáng)效果下降。M與梳狀濾波器的帶寬梳狀濾波器也可以在頻域?qū)崿F(xiàn)。對語音進(jìn)行傅里葉變換后可以鑒別出需要提取的各次諧波分量,然后經(jīng)傅里葉反變換恢復(fù)為時域信號。梳狀濾波不但可增強(qiáng)語音信號,也可以用于抑制各種噪聲干擾,包括消除同聲道的其他語音的干擾。同時對兩個語音進(jìn)行梳狀濾波的主要問題是:存在另一個人說話干擾時,如何跟蹤并準(zhǔn)確估計出講話者的基音。第2章基于短時譜幅度估計的語音增強(qiáng)算法概述2.2.3基于語音生成模型的語音增強(qiáng)算法語音的發(fā)聲過程可以模型化為激勵源作用于一個線性時變?yōu)V波器,激勵源可以分濁音和清音兩類,濁音的激勵源為周期與基音相同的周期性脈沖串;而對于清音,激勵源為高斯白噪聲。時變?yōu)V波器則是聲道的模型。通常認(rèn)為聲道模型是一個全極點濾波器,濾波器參數(shù)可以通過線性預(yù)測分析得到。如圖2.2所示。但若考慮到鼻腔的共鳴作用,采用零極點模型更為合適。顯然,如果能夠知道激勵參數(shù)和聲道濾波器的參數(shù),就能利用語音生成模型合成得到“純凈”的語音。這種增強(qiáng)方法稱為分析—合成法,關(guān)鍵在于如何從帶噪語音中準(zhǔn)確地估計語音模型的參數(shù),即激勵參數(shù)和聲道參數(shù)。另一種方法則是鑒于激勵參數(shù)難以準(zhǔn)確估計,而只利用聲道參數(shù)構(gòu)造濾波器進(jìn)行濾波處理。s(n)圖2.2語音的全極點生成模型Lim和Oppenheim采用了MAP準(zhǔn)則來估計聲道的全極點參數(shù)。對于語音平穩(wěn)隨機(jī)過程而言,相當(dāng)于乘了一個零相位的維納濾波器。主觀測量表明它可以減少可感知的噪聲從而改善語音的質(zhì)量,但對語音也造成了一定的損傷,原因是算法中的迭代缺乏明顯的收斂準(zhǔn)則,且隨著迭代次數(shù)的增加共振峰帶寬變小。Hansen和Clements(2I在上述迭代過程中加入了頻譜限制條件,使極點不太靠近單位圓,以防止共振峰帶寬過窄,但引起了共振峰位置的較大抖動。2.2.4基于短時譜幅度估計的語音增強(qiáng)算法如前所述,語音是非平穩(wěn)隨機(jī)過程,但在10~30msec的分析幀內(nèi)可以近似為平穩(wěn)的隨機(jī)過程。如果能從帶噪語音的短時譜中估計出“純凈”語音的短時譜,即可達(dá)到增強(qiáng)的目的。由于噪聲也是隨機(jī)過程,因此這種估計只能建立 在統(tǒng)計模型基礎(chǔ)上。人耳感知對語音頻譜分量的相位不敏感,因此目前的增強(qiáng)算法主要針對短時譜幅度進(jìn)行估計。此類算法運算量相對較小,適用信噪比范圍比較大,并且易于實時處理,因而得到廣泛應(yīng)用。譜相減法、維納濾波法以及MMSE法是短時譜估計中的三種行之有效的增強(qiáng)算法,下節(jié)將詳細(xì)介紹這三種2.2.5其他幾種形式的語音增強(qiáng)算法除上面介紹的幾種語音增強(qiáng)算法外,Ephraim和VanTrees221提出了一種基于信號子空間的語音增強(qiáng)算法,其基本思想是把帶噪語音信號的矢量空間通過KLT分解為噪聲子空間以及信號加噪聲的子空間,去除噪聲子空間后,在信號加噪聲子空間中濾波估計出語音信號。還有基于小波分析[14的方法,其基本思想是小波變化把信號在多個尺度上進(jìn)行了子波分解,而各尺度上分解所得的子波變換系數(shù)代表原信號在不同分辨率上的信息,利用信號和隨機(jī)噪聲在不同尺度的特性關(guān)系進(jìn)行去噪處理。近年來,人們正在探索將神經(jīng)網(wǎng)絡(luò)、隱馬爾可夫模型、人耳聽覺掩蔽效應(yīng)以及多分辨率分析等理論用于語音增強(qiáng)算法。2.3基于短時譜幅度估計的語音增強(qiáng)算法表示為分別為y(),s(i)里葉變換系數(shù)。為了分析簡單,假設(shè)各個傅里葉系數(shù)(即各個頻率分量)之間是互不相關(guān) 由于so和a(u)統(tǒng)計獨立,所以s,和p,互相獨立,并假定p,服從零均值高斯分布,方差可以通過無語音時對噪聲的分析獲得。語音增強(qiáng)的任務(wù)就是利用已知的噪聲功率譜信息,從y,中估計s,。由于人耳對頻譜分量的相位不敏感,所以只需估計頻譜分量的幅度a,,然后借用帶噪語音的相位,進(jìn)行反傅里葉變換后就可得到增強(qiáng)的語音。這類基于語音短時譜估計的語音增強(qiáng)方法的原理框圖如圖2.3所示。圖中,i、s(n)為A,、s(n)的估值。下面將分別介紹短時譜估計的三種方法:譜減法、維納濾波法、MMSE估計相位0As(n)一般形式的譜相減法[9即在頻域?qū)г胝Z音的功率譜減去噪聲的功率譜得到純凈語音的功率譜估計,開方之后得到語音譜幅度估計,將其相位恢復(fù)之后采用逆一傅立葉變換恢復(fù)時域信號?;驹砣鐖D2.4所示。|Yfθ 十y(i)FFT變換后有由于s,與p,相互獨立,而p,近似滿足零均值的高斯分布,所以: 對于一個分析幀內(nèi)的短時平穩(wěn)過程,則有:為增強(qiáng)后語音信號譜幅度。傅里葉反變換后經(jīng)過相位插入,即可得時域的增強(qiáng)后語音信號。定義增益函數(shù):及后驗信噪比:從式(2-12)中可以清楚地看出譜減法的物理意義:它相當(dāng)于對帶噪語音的每一個頻譜分量乘以一個系數(shù)c,。信噪比高時,含有語音的可能性大,衰減小。反之,則認(rèn)為含有語音的可能性小,衰減大。令 則有計式可以用如下方法求得:通過積分消去a,后,有其中,t,C)為第0階修正貝塞爾函數(shù),令的估計式。則解方程后就可以得到5.的估計式。由于1()直接求解有一定困難,為此需要采取一定的簡化措施。因為當(dāng)x≥3時,有所以在較高信噪比條件下,解方程后得到 2.3.2譜減法的改進(jìn)形式在實際應(yīng)用中,更多地采用譜相減法的改進(jìn)形式: 這種改進(jìn)形式與普通譜減法的差別在于引入了。和p這兩個參數(shù),為算法提供了很大的靈活性。顯然當(dāng)a=2.β=1時,算法退化為一般的譜減法形式。噪聲估計值乘以α是出于這樣的考慮:一般的譜減法中,是以無聲期間統(tǒng)計平均的噪聲方差代替當(dāng)前分析幀各頻率點的噪聲頻譜分量。而噪聲頻譜具有高斯分布,即其幅度隨機(jī)變化范圍很寬。因此相減時,若該幀某頻率點噪聲分量較大,就會有很大一部分殘留,在頻譜上呈現(xiàn)隨機(jī)出現(xiàn)的尖峰,在聽覺上形成有節(jié)奏起伏的類似音樂的殘留噪聲。為了解決上述問題,在語音能量較高的區(qū)域可以使β>1,即有意識地多減去一些,這樣可以更好地相對突出語音頻譜。當(dāng)然,此時引起的失真也可能會增大。調(diào)節(jié)參數(shù)。也可以取得類似的效果。2.3.3維納濾波法如果語音是一個平穩(wěn)過程,則維納濾波對應(yīng)著時域上的最小均方誤差準(zhǔn)則。其中p,(k),x,(k)分別為語音和噪聲的功率譜密度。然而實際語音只是短時平穩(wěn),功率譜密度也無法得到,因此增益改寫成為:若定義先驗信噪比則式(2-24)改寫為與譜減法類似,維納濾波法也有如下推廣的式子 通過調(diào)整α和g,可以得到多種變形形式。維納濾波法最大的優(yōu)點是增強(qiáng)后的殘留噪聲類似白噪聲,而不是有節(jié)奏起伏的音樂噪聲。事實上,盡管維納濾波法導(dǎo)出的出發(fā)點不同,但形式上與譜減法差別不大,可以認(rèn)為是統(tǒng)一的。2.3.4MMSE估計法如前所述,譜減法為一種最大似然估計,而維納濾波法則是平穩(wěn)條件下時域的最小均方誤差準(zhǔn)則意義下的估計。這兩種估計準(zhǔn)則都存在一定的缺陷:最大似然準(zhǔn)則完全放棄了對語音頻譜的分布假設(shè);維納濾波法將最小均方誤差準(zhǔn)則應(yīng)用于時域波形估計,但對人耳來說,頻譜分量的幅度才是最重要的。而MMSE估計法就對應(yīng)頻域上的最小均方誤差準(zhǔn)則。設(shè)帶噪信號、干擾噪聲和純凈語音的頻譜分量分別用γ,=R,exp(D),D,,s,-A,exp(fa)表示,并假設(shè)語音譜和噪聲譜滿足獨立的高斯分布。尋找a,的MMSE估計為即假設(shè)各個頻譜分量相互獨立,由貝葉斯準(zhǔn)則得式(2-31),式(2-32)代入式(2-30)中,可得: 第2章基于短時譜幅度估計的語音增強(qiáng)算法概述地,為合流超幾何函數(shù),可以用級數(shù)求和計算。1,)、1,O)分別表示0階和1階修正貝塞爾系數(shù),nγ分別表示先驗信噪比和后驗信噪比。將式(2-33)寫成增益函數(shù)的形式,定義于是有當(dāng)先驗信噪比,,很高時,即n>>1時,這也意味著γ。>>1。此時,合流超幾何函數(shù)可以近似為:代入式(2-35),得到與式(2-26)中維納濾波法增益式比較,可以看出此時與維納濾波法相同。2.4基于短時譜幅度估計的語音增強(qiáng)算法的關(guān)鍵技術(shù)通過以上分析,基于短時譜幅度估計的語音增強(qiáng)算法都可以寫成如下形式:譜減法:維納濾波法:MMSE估計法:先驗信噪比后驗信噪比第2章基于短時譜幅度估計的語音增強(qiáng)算法概述許多語音增強(qiáng)算法中噪聲功率譜估計的基礎(chǔ),也能夠為先驗/后驗信噪比的計算提供相關(guān)的統(tǒng)計信息。因此,論文的主要工作是針對背景噪聲統(tǒng)計特性的估計、語音激活檢測算法、先驗信噪比估計、增益函數(shù)的修正等展開研究。本章對語音增強(qiáng)的相關(guān)算法做了全面論述,尤其對基于短時譜幅度估計的語音增強(qiáng)算法做了詳細(xì)分析,指出了各種算法的優(yōu)缺點。然后,總結(jié)了基于短時譜幅度估計的語音增強(qiáng)算法的關(guān)鍵技術(shù):背景噪聲統(tǒng)計特性的估計、語音激活檢測算法、先驗信噪比估計、修正因子調(diào)整,為本課題的研究指明了方向。下面各章將分別對以上問題進(jìn)行闡述。 第3章噪聲統(tǒng)計特性估計的研究噪聲統(tǒng)計特性估計是語音增強(qiáng)算法的一個重要組成部分,尤其在低輸入信噪比和非平穩(wěn)噪聲干擾環(huán)境下,對噪聲統(tǒng)計特性的跟蹤能力直接決定著語音增強(qiáng)算法的魯棒性。噪聲統(tǒng)計特性的估計可以分為兩類方法:第一類方法是基于語音激活檢測的方法,即通過語音激活檢測判斷當(dāng)前幀是有語音還是無語音,在檢測為無語音時進(jìn)行噪聲統(tǒng)計特性的估計與更新,而在檢測為有語音時,噪聲的統(tǒng)計特性用最近無語音時估計的噪聲統(tǒng)計特性代替。另一類方法是直接形式的噪聲統(tǒng)計特性估計,這類方法不依賴或者不顯式依賴于語音激活檢測,而是在每一幀都進(jìn)行噪聲統(tǒng)計特性的估計與更新。在語音增強(qiáng)算法中,噪聲統(tǒng)計特性的估計主要是對噪聲的功率譜進(jìn)行估計。功率譜估計是數(shù)字信號處理的重要內(nèi)容,由于實際中得到的隨機(jī)信號長度總是有限的,對這種有限長度信號處理所得到的功率譜只是隨機(jī)信號真實功率譜的一種估計,稱為功率譜估計。本章剩余章節(jié)按照如下方式組織:3.2節(jié)介紹基于語音激活檢測的噪聲統(tǒng)計特性估計方法;3.3節(jié)給出直接形式的噪聲統(tǒng)計特性估計方法;3.4節(jié)研究噪聲統(tǒng)計特性的快速估計算法;最后是本章小結(jié)?;谡Z音激活檢測的噪聲功率譜估計,首先利用語音激活檢測分離出有語音部分與無語音部分,即語音幀與噪聲幀,然后在噪聲幀進(jìn)行噪聲功率譜估計。對于平穩(wěn)或緩變的噪聲,這種方法得到了比較準(zhǔn)確的估計結(jié)果。在噪聲幀根據(jù)|y(n.k)和a,(n、k)分別表示帶噪語音功率譜和噪聲功率譜,n.k分別表示第幀和第k個頻率分量。通常將α,設(shè)置為0.50~0.99,a。的取值越小,越有利于對噪聲統(tǒng)計特性變化的跟蹤,但越依賴于語音激活檢測的準(zhǔn)確率。在低信噪比下,當(dāng)語音激活檢測將語音誤判為噪聲時,當(dāng)前幀對噪聲特性的更新估計容易力越弱,但是對語音激活檢測的準(zhǔn)確率依賴越低。在語音幀時,用最近的噪聲綜上分析知,基于語音激活檢測的噪聲統(tǒng)計特性估計的準(zhǔn)確度很大程度上取決于語音激活檢測算法的性能。當(dāng)語音誤判為噪聲時,必然使得噪聲統(tǒng)計特性的估計失真,進(jìn)而在語音增強(qiáng)處理中造成對語音的損傷,在低信噪比時,甚至?xí)霈F(xiàn)切音現(xiàn)象,這將極大地降低增強(qiáng)語音的可懂度。而當(dāng)噪聲誤判為語音時,由于此時噪聲特性可能發(fā)生了明顯的變化,可是因為誤判而在此期間不對噪聲特性進(jìn)行更新,使得估計的噪聲特性與實際噪聲特性不符,導(dǎo)致增強(qiáng)后的語音產(chǎn)生畸變,或者殘留較多的噪聲,從而降低了語音增強(qiáng)系統(tǒng)的性能。3.3直接形式的噪聲統(tǒng)計特性估計基于語音激活檢測的噪聲估計法將噪聲更新限制在噪聲幀進(jìn)行,語音幀的噪聲特性用最近的噪聲幀估計得到的噪聲特性代替。這樣,在語音增強(qiáng)時,必然會存在一定的殘留噪聲并對語音造成損傷。而且,如果在語音幀的噪聲特性改變較大,那么這種影響勢必更加嚴(yán)重。另外,語音激活檢測的可靠性在非平穩(wěn)噪聲以及低輸入信噪比情況下會嚴(yán)重下降,在這種情況下,估計的噪聲特性勢必會與實際的噪聲特性有更大的偏差,嚴(yán)重時,弱語音成分將會因為增強(qiáng)處理而被消除,造成切音現(xiàn)象,使增強(qiáng)語音的可懂度下降,甚至使語音增強(qiáng)完全失效。因此提出了一種不依賴于語音激活檢測的噪聲統(tǒng)計特性估計方法。這種方法并不進(jìn)行或者不顯式進(jìn)行語音激活檢測,在整個處理過程一直保持對噪聲3.3.1簡單的直接噪聲統(tǒng)計特性估計其在形式上與基于語音激活檢測的噪聲統(tǒng)計特性估計方法在噪聲幀的處理相同,只是a,通常設(shè)置為一個接近1的數(shù)值,并且在語音增強(qiáng)的全過程進(jìn)行更第3章噪聲統(tǒng)計特性估計的研究3.3.2基于最小統(tǒng)計(MinimumStatistics)的噪聲統(tǒng)計特性估計M(D)=0.025+0.23(I+log(D)*)+2.7-10*D1-1.14-到29。代入式(3-4)即得a…(D.Q(n.,k))·同時,為了進(jìn)一步提高算法性能,將p(n,k)乘以一個增長因子B(n):論文算法中取a。=1.5。式(3-3)中λ(n,k)通過搜索找出。算法要對連續(xù)p幀帶噪語音功率譜a(n、k)求最小值,這樣最差的情況下,算法延時將達(dá)到2p。為減少延時,將長窗p分成v個子窗,每個子窗長為v。這樣可以每v幀更新一次最小值,并且保存起來,待各子窗的最小值都得到再進(jìn)行比較,即可得到長窗的最小值。對于噪聲功率下降的情況,子窗最小值將小于長窗最小值,這時立刻更新噪聲引入控制門限noise_slope_max,此門限與歸一化均方差g(n)相關(guān)。g~`(n)越小,噪聲變化可能越大。按如下計算noise_slope_max:ifQ1(n)<0.03. elseifQ(n)<0.05,elseifQ(n)<0.06,noise_slope_max因此,當(dāng)找到子窗本地最小值,并且子窗最小值和長窗最小值之差不超過Woise_slope_max時,更新噪聲功率譜。通過在長窗中設(shè)立子窗最小值搜索,提高了噪聲功率譜估計的跟蹤速度,同時降低了運算的復(fù)雜度。對于子窗數(shù)目第3章噪聲統(tǒng)計特性估計的研究為測試材料。采樣頻率f,=skHz,幀長x=200,子窗數(shù)目v=g,子窗長度圖3.1給出了MS算法在輸入sNR=10dB的白噪聲干擾圖3.2給出了MS算法在噪聲功率突然增大時的噪聲估計性能。圖(a)表示的。可以看出,噪聲估計存在著大概1.5msec(60幀)以上的延時,而且存在3.4噪聲功率譜的快速估計為解決噪聲功率譜跟蹤估計中過估計以及跟蹤延時的問題,論文結(jié)合相關(guān)最新發(fā)表成果,提出了一種能夠快速估計噪聲功率譜的算法。該算法基于最小統(tǒng)計思想,不依賴于語音激活檢測,通過引入自適應(yīng)最優(yōu)短時譜平滑[23]、不依賴窗長的最小值搜索[20以及根據(jù)語音存在概率對噪聲功率譜進(jìn)行迭代更新,得到了更好的跟蹤性能,能夠更好地在低輸入信噪比以及非平穩(wěn)噪聲干擾環(huán)境下對噪聲特性進(jìn)行估計。算法框圖如圖3.3所示。第3章噪聲統(tǒng)計特性估計的研究分幀加窗帶噪語音譜自適應(yīng)最優(yōu)平滑Ank)計算頻率自適應(yīng)門限計算比值比較判決更新噪聲功率譜估計計算后驗信噪比語音存在概率的進(jìn)一步估計p'(n,k)噪聲功率譜估計的迭代更新跟蹤帶噪語音譜最小值圖3.3噪聲功率譜的快速估計算法框圖3.4.1自適應(yīng)最優(yōu)短時譜平滑文獻(xiàn)[27]中采用的是固定平滑因子,實驗表明自適應(yīng)最優(yōu)平滑能夠為噪聲功率譜估計提供更好的跟蹤性能,因此論文算法對帶噪語音功率譜進(jìn)行了基于第3章噪聲統(tǒng)計特性估計的研究=a2(n,k)(P(n-1.k)-λ,(n.k)2+(l-其中,其中,x為幀長。snR,為長時信噪比,將在第5章進(jìn)行介紹。為保護(hù)微弱語音信號,設(shè)定p(n,k)從峰值衰落到噪聲功率水平大約用時Ar=64msec。將式(3-15)代入式(3-9),可得自適應(yīng)的最優(yōu)平滑短時譜。3.4.2不依賴窗長的最小值搜索3.3節(jié)所述的基于最小統(tǒng)計的噪聲功率譜估計算法中,采用固定窗長p=64幀的最小值搜索算法,在噪聲功率突然增大時,更新估計延時達(dá)1.5s以上。論文算法采用連續(xù)平滑過去的帶噪語音功率譜得到最小值,這種方法能夠更好地跟蹤到非平穩(wěn)噪聲以及噪聲變化劇烈時的功率譜最小值。即ifPan(n-1,k)<P(n,k)其中,p(u,k)為經(jīng)式(3-9)最優(yōu)化平滑后的帶噪語音功率譜,前瞻系數(shù)p控制著最小值搜索的自適應(yīng)時間,,為平滑系數(shù)。3.4.3引入語音存在概率為精確估計,考慮每個頻率分量上語音存在的概率。當(dāng)語音不存在時,帶噪語音功率譜應(yīng)等于或接近于式(3-17)所得的功率譜最小值。因此,通過當(dāng)前幀的平滑功率譜p(n,k)和功率譜最小值p…(n、k)相比得到一個語音存在概率H,:S(n,k)>δ(k)則(n.k)=1,在頻率分量k語音存在;對以上結(jié)果平滑,得到語音存在概率p(n.k)的粗略值:p(n,k)=α,p(n-1,k)+(1-α,)l(n,3.4.4噪聲功率譜更新根據(jù)語音存在概率p(n,k),計算與其相關(guān)的時頻變化因子3.4.5語音存在概率的準(zhǔn)確估計以及噪聲功率譜的迭代更新雖然式(3-17)的功率譜最小值搜索不依賴窗長,但是也會有一個逐漸變化的過程。當(dāng)噪聲功率突然增大時,噪聲幀的功率譜p(n.k)必然會大于功率譜最小值p…(n、k),這樣根據(jù)式(3-18)得到的關(guān)于語音存在概率的判定勢必會有較大誤差,這部分功率比較大的噪聲很容易誤判為語音。因此,需要對語音存在概率進(jìn)行更準(zhǔn)確的估計。此時,得到了噪聲功率譜估計x(n,k)。因此,先驗信噪比和后驗信噪比都可求。當(dāng)語音不存在時,先驗信噪比為0。但由于分幀加窗造第3章噪聲統(tǒng)計特性估計的研究信噪比,,后驗信噪比的概率分布如下]:而似然比檢測對于vn<n。,是y(n,k)的單調(diào)函H,H。p(n,k)為式(3-19)得到的語音存在概率的粗略值,p。為平滑系數(shù)。把p(n、k)代入式(3-20)計算新的時頻變化因子a;(n,k)。a,(n得到新的噪聲功率譜估計(,k),整個過程相當(dāng)于對噪聲功率譜估計的一次迭3.4.6測試結(jié)果及結(jié)論噪聲和非平穩(wěn)噪聲代表多說話人(babble)噪聲。采樣頻率f=8kHz,圖3.4和圖3.5分別給出了本文快速估計算法在輸入sNR=-sdB算法參數(shù)的白噪聲干擾和輸入sNR=5dB的babble噪聲干擾環(huán)境下的性能,并和MS算法進(jìn)行了比較??疾榈念l率成分為k=32(1kHz)??梢钥闯?,估計的噪聲功率譜與真實噪聲功率譜并不完全相同,代表的是平均意義上的統(tǒng)計;在低輸入信噪比和非平穩(wěn)噪聲環(huán)境下,本文算法較MS算法都能更迅速更準(zhǔn)確地跟蹤噪聲功率,并在一定程度上改善了過估計的現(xiàn)象。獸圖3.5babble噪聲干擾下(INSNR=5dB)本文算法和MS算法性能比較圖3.6給出了babble噪聲干擾下,輸入信噪比由15dB迅速下降為-5dB時,本文快速估計算法和MS算法性能比較。圖(a)表示輸入的帶噪語音信號,在第150幀時,噪聲功率迅速增加,信噪比突然降低。圖(b)中,本文算法經(jīng)過很短的時間(大概0.25sec)即跟蹤上了噪聲的變化,而MS算法的自適應(yīng)時間長達(dá)表3.1給出了在各種輸入信噪比下,本文快速估計算法噪聲功率譜估計的歸一化均方誤差對比。歸一化均方誤差NMSE定義如下:表3.1本文快速估計算法和MS算法的NMSE白噪聲babble噪聲白噪聲~babble噪聲本文算法本文算法本文算法05由表3.1看出,在各種噪聲干擾環(huán)境下,本文算法的歸一化均方誤差均小于MS算法,尤其在輸入信噪比為-5dB情況下,NMSE下降較大,客觀測試再一次證明了本文快速估計算法在低信噪比和非平穩(wěn)噪聲環(huán)境下的優(yōu)越性。本章研究了影響語音增強(qiáng)算法性能重要因素之一的噪聲統(tǒng)計特性估計算法。首先,介紹了基于語音激活檢測的噪聲統(tǒng)計特性估計方法和直接噪聲統(tǒng)計特性估計方法的特點,并闡述和分析了目前應(yīng)用比較廣泛的最小統(tǒng)計的估計算法。針對現(xiàn)有算法的過估計和跟蹤延時等問題,提出了更適應(yīng)于低輸入信噪比和非平穩(wěn)噪聲干擾環(huán)境下的快速估計算法,并給出了詳細(xì)的測試結(jié)果。第4章語音激活檢測算法研究人們在說話過程中,不可避免地存在很多間歇和停頓,因此語音是不連續(xù)的媒介。語音激活檢測(VoiceActivityDetection),又稱有語音無語音檢測,是指采用一定的信號處理技術(shù),檢測出信號是否是語音信號,或是信號中是否包含語音信號。語音激活檢測的應(yīng)用范圍非常廣泛,既可以在語音增強(qiáng)算法中為噪聲統(tǒng)計特性的估計、先驗信噪比的計算等提供相關(guān)統(tǒng)計信息,也可以作為獨立的模塊應(yīng)用于變速率語音編碼,回聲抵消等系統(tǒng)中。本章主要針對語音激活本章剩余章節(jié)按照如下方式組織:4.2節(jié)介紹傳統(tǒng)語音激活檢測算法;4.3節(jié)研究基于高斯模型和一致最大勢(UniformlyMostPowerful)檢驗的語音激活檢測算法;4.4節(jié)介紹了雙音多頻(DualToneMultipleFrequency)信號的生成傳統(tǒng)的語音激活檢測算法的基本思想是提取某種能夠區(qū)分語音和噪聲的特征參數(shù),如能量,過零率等,通過和某一分界門限比較得到是否有語音的判決結(jié)果,也可依據(jù)多個特征參數(shù)進(jìn)行聯(lián)合判決。如圖4.1所示。組幀特征提取判決輸出判決結(jié)果圖4.1語音激活檢測的一般方法4.2.1G.729AnnexB標(biāo)準(zhǔn)的語音激活檢測算法 YNYNYNNYG729AnnexB標(biāo)準(zhǔn)的VAD采用短時全帶能量、短時低帶能量、LSF系數(shù)和短時過零率4種特征參數(shù)進(jìn)行語音激活檢測的判決。相應(yīng)的4種距離量度為:短時過零率差異: 全帶能量,低帶能量,短時過零率。而LsF,,E,,E,,zC為相應(yīng)的背景噪聲參數(shù)的更新估計。計算得4種距離量度后,如果滿足表4.1中的14個條件之一就初步判決為有語音,否則判決為無語音,相關(guān)常量參見相關(guān)標(biāo)準(zhǔn)30]。序號蠅則序號現(xiàn)明182934156然后,對初步判決結(jié)果進(jìn)行平滑,得到最終判決。最后,根據(jù)一定的條件對噪聲相關(guān)特征參數(shù)進(jìn)行更新。4.2.2G.723.1AnnexA標(biāo)準(zhǔn)的語音激活檢測算法第4章語音激活檢測算法研究LotR?[j]Fryp?WnxVad,fFtyp=0or2p,圖4.3G.723.1AnnexA中推薦的語音激活檢測系統(tǒng)的功能框圖G.723.1AnnexA標(biāo)準(zhǔn)的VAD算法基本上是一個能量檢測器。將逆濾波器的輸出信號能量與一個閾值進(jìn)行比較,當(dāng)大于閾值時,判定為有語音,否則判定A(z)進(jìn)行逆濾波的處理:的FIR濾波器濾波后信號能量計算:通過下式計算經(jīng)過逆濾波后的信號的能量Emr,。噪聲幅度計算:根據(jù):-1幀噪聲幅度Ntev,和能量En,,以及自適應(yīng)使能標(biāo)志aen,,對第,幀噪聲幅度ntey進(jìn)行更新。第,幀時的噪聲幅度被限制在閾值計算:閾值與噪聲幅度有如下近似關(guān)系:VAD判決:通過對當(dāng)前幀的能量En,與閾值rnr的比較進(jìn)行判決:拖尾延遲保護(hù):當(dāng)連續(xù)2幀或以上判決為語音時,則在判決的語音段結(jié)束之后的6幀仍將作為語音段處理。4.2.3GSM標(biāo)準(zhǔn)的語音激活檢測算法GSMl32|標(biāo)準(zhǔn)中的語音激活檢測算法是基于多參數(shù)聯(lián)合判決的VAD檢測算法,其算法的結(jié)構(gòu)圖如圖4.4所示。filteringandptchaddition圖4.4GSM中推薦的語音激活檢測系統(tǒng)的功能框圖4.3基于高斯模型和一致最大勢檢驗的語音激活檢測算法傳統(tǒng)的語音激活檢測方法往往建立在語音和噪聲的特征參數(shù)的區(qū)別假定上,比如語音的能量遠(yuǎn)遠(yuǎn)大于噪聲的能量,而噪聲的過零率又遠(yuǎn)遠(yuǎn)大于語音的過零率等等。但是在強(qiáng)背景噪聲環(huán)境下,語音可能完全淹沒在噪聲中,周期性噪聲的出現(xiàn)或是語音過零率較高時,也會使兩者過零率之間的區(qū)別不再明顯。因此,傳統(tǒng)的語音激活檢測算法在低輸入信噪比以及非平穩(wěn)噪聲干擾環(huán)境下的好的檢測效果。論文結(jié)合相關(guān)最新發(fā)表成果,研究了一種基于高斯統(tǒng)計模型和一致最大勢(UMP)檢驗的語音激活檢測算法。該算法能夠改善上述惡劣環(huán)境下的檢測性能,同時仍然適用于平穩(wěn)噪聲及高信噪比環(huán)境。4.3.1基于高斯模型的似然比檢測假定語音和噪聲的頻譜分量滿足獨立的復(fù)高斯分布,并考慮加性噪聲。在語音不存在n。和語音存在n,兩種假設(shè)下,帶噪語音分別表示如下:其中,0≤i≤N-1,N為幀長。帶噪語音的頻譜分量在兩種條件下的分布分別為:其中,3.和x,分別表示純凈語音,())和噪聲αa)的功率譜分量。相應(yīng)地,在頻率成分k的似然比(LR)為對似然比對數(shù)取幾何平均,得到HH?4.3.2一致最大勢檢驗準(zhǔn)則式(4-13)中,檢測量可以改寫為第4章語音激活檢測算法研究即如果即檢測條件為F,|>√其中,vc)表示階躍函數(shù)。根據(jù)虛警概率的定義,第4章語音激活檢測算法研究而又由得到檢測門限頻率分量的平均,判決準(zhǔn)則如下:HH?4.3.3短時譜最優(yōu)化平滑以及自適應(yīng)門限平滑充分考慮語音的相關(guān)性能夠使語音激活檢測更準(zhǔn)確,因此需要對檢測量和檢測門限進(jìn)行有效的平滑。文獻(xiàn)[30中對帶噪語音頻譜幅度采用了固定平滑因子進(jìn)行平滑,為了得到更好的檢測性能,論文算法借鑒噪聲統(tǒng)計特性估計中的自適應(yīng)最優(yōu)平滑方案,對短時譜進(jìn)行基于MMSE原則的最優(yōu)化平滑。其中,a(n)為調(diào)整因子。i,(n-1,k)為前一幀的噪聲功率譜的估計值。a(n,k)的具體計算過程參見3.4節(jié),這里不再贅述,檢測門限是與噪聲估計自適應(yīng)的,所以,門限平滑采用固定平滑因子即可。其中,。為平滑因子。論文算法中,取p=拖尾延遲保護(hù)(hangover)通過短時譜幅度平方和自適應(yīng)門限比較后得到了初步的VAD判決結(jié)果,但是初步判決有時存在著誤判的情況。當(dāng)把有語音誤判為無語音時,造成了語音切斷的現(xiàn)象;相反,把無語音誤判為有語音時,勢必會造成過多的殘留噪聲存在。為了降低誤判的概率,語音激活檢測算法中常引入拖尾延遲保護(hù)機(jī)制。論文算法在充分考慮語音相關(guān)性的基礎(chǔ)上,把輸入的帶噪語音分為三種狀態(tài),即語音狀態(tài)、噪聲狀態(tài)及語音和噪聲之間的轉(zhuǎn)換狀態(tài),并為語音狀態(tài)轉(zhuǎn)換為噪聲狀態(tài)以及噪聲狀態(tài)轉(zhuǎn)換為語音狀態(tài)分別設(shè)置了不同的延遲保護(hù)長度。如果當(dāng)前幀的初步判決結(jié)果在保護(hù)長度之內(nèi),則判定當(dāng)前幀為轉(zhuǎn)換狀態(tài),而初步判決結(jié)果作為累計值保存起來;如果當(dāng)前幀的初步判決結(jié)果超出了保護(hù)長度的范圍,則判定當(dāng)前幀為新的語音狀態(tài)或噪聲狀態(tài)。各幀具體的最終判決結(jié)果由拖尾延遲保護(hù)提供了由無語音到有語音的無條件迅速判決,而延遲了由有語音到無語音的判決時間,判決時間由轉(zhuǎn)換狀態(tài)的持續(xù)時間決定。這樣有效地保護(hù)了微弱語音以及字間的短暫停頓,有效地防止了切音現(xiàn)象,保證了語音的連貫悅耳。第4章語音激活檢測算法研究--噪聲狀態(tài)--噪聲狀態(tài)語音狀態(tài)?t圖4.5拖尾延遲保護(hù)的狀態(tài)轉(zhuǎn)移圖4.3.5基于高斯模型和UMP檢驗的VAD算法流程圖4.6給出了基于高斯模型和UMP檢驗的VAD算法流程。首先對輸入的對短時譜進(jìn)行最優(yōu)化平滑并對噪聲功率譜進(jìn)行跟蹤估計,利用式(4-23)和式(4-27)計算每個頻率分量的平滑的自適應(yīng)門限。最后,通過平均譜幅度平方和第4章語音激活檢測算法研究噪聲功率譜λ估計T圖4.6基于高斯模型和UMP檢驗的VAD算法流程流程圖4.3.6測試結(jié)果以及結(jié)論算法在低輸入信噪比和非平穩(wěn)噪聲環(huán)境下測試。將標(biāo)準(zhǔn)語音庫的語音材料聲代表白噪聲、粉紅噪聲以及非平穩(wěn)噪聲代表多說話人(babble)噪聲。圖4.7和圖4.8分別給出了本文基于高斯模型和UMP檢驗的VAD算法在(a)為原始純凈語音,圖(b)為帶噪語音,圖(c)為本文VAD算法判決結(jié)果,噪聲幀輸出為0,語音幀直接輸出帶噪語音,并用紅色框標(biāo)出。由此可見,本文算法圖4.7白噪聲干擾下本文VAD算法判決結(jié)果圖4.8粉紅噪聲干擾下本文VAD算法判決結(jié)果第4章語音激活檢測算法研究圖4.9給出了babble噪聲干擾,輸入sNR=oaB時本文算法和Sohn's算法33]的檢測性能比較。其中,圖(a)為原始純凈語音,圖(b)為帶噪語音,圖(c)為本噪聲統(tǒng)計特性相適應(yīng),并且采用了合理的拖尾延遲保護(hù),因而得到了較準(zhǔn)確的圖4.9babble噪聲干擾下本算法和Sohn's算法檢測性能比較因此,基于高斯模型和UMP檢驗的VAD算法在保持平穩(wěn)噪聲干擾下的高判決能力的同時,針對非平穩(wěn)噪聲環(huán)境,相比同類算法,也能夠提供較準(zhǔn)確的4.4雙音多頻信號的生成與檢測的一種通訊傳輸方法,其在電話網(wǎng)絡(luò)領(lǐng)域的快速發(fā)展取代了脈沖信號。除了應(yīng)用于電話撥號系統(tǒng)中,DTMF信號在頻率編碼遙控系統(tǒng)及數(shù)據(jù)編碼傳輸中的應(yīng)第4章語音激活檢測算法研究用也很普遍。DTMF信號是指用兩個不同頻率的正弦信號來表示電話撥號鍵盤上的16個數(shù)字或字母信息。每個雙音多頻信號都由相應(yīng)的行頻率和列頻率而確定,并且對應(yīng)一個數(shù)字或字母,行頻率為低頻成分,列頻率為高頻成分。如圖4.10所示。如數(shù)字信息“1”,只包含兩個頻率成分,分別為行頻697Hz,列頻1209Hz,理論上在其他頻率成分的能量為0。ITUQ.24推薦[37],DTMF信號發(fā)持續(xù)時間在45~55msec之間,信號發(fā)送間隔至少為45msec。123A456B789C黃0#D圖4.10雙音多頻信號的行頻和列頻DTMF生成器由兩個二階數(shù)字正弦波振蕩器合成,每個振蕩器分別對應(yīng)行1圖4.11DTMF生成器框圖為了得到每個數(shù)字或字母信息對應(yīng)的頻率,振蕩器需要合適的系數(shù)和初始條件。通常,數(shù)字正弦波振蕩器系統(tǒng)函數(shù)為 對應(yīng)的差分方程為初始條件y(-1)=y(-2)=0。即其中,。=2π?,/f.。f,為行頻率或列頻率,s,為采樣頻率,a為DTMF由于信號經(jīng)過分幀加窗處理,為了維持生成的DTMF信號的相位連續(xù),每幀保留結(jié)束點的兩個歷史值作為下幀的初始值。AT&T指定最高的按鍵速率是10數(shù)字或字母/秒,所以,對一個100msec的DTMF信號,DTMG生成際語音的持續(xù)時間在45msec至55msec之間,其余時間保持靜音狀態(tài),以區(qū)別連續(xù)的不同DTMF信號。4.4.2雙音多頻信號的檢測DTMF檢測需要在輸入的數(shù)據(jù)流中,檢測到DTMF信號的存在,并將其轉(zhuǎn)換為相應(yīng)的數(shù)字或字母信息。Goertzel算法是DTMF檢測器的基礎(chǔ),能夠快速有效地提取輸入信號的頻譜信息。與DFT變換相比,Goertzel算法能夠一次處理一個樣點,而不是在處理前準(zhǔn)備好所需的塊數(shù)據(jù)樣點集合,并且能很方便地得到所需要的頻譜分量信息。Goertzel算法主要通過二階IIR濾波器實現(xiàn),具體步驟1381如下:2)n次遞歸運算后,頻譜分量k的幅度平方為行頻率或列頻率;,對應(yīng)的頻率成分k計算如下:代入式(4-32)即的所需的頻譜分量信息。由于在語音激活檢測算法中存在DFT變換,所以,論文中采用直接從DFT中搜集相應(yīng)的行頻譜和列頻譜信息的方法,在語音激活檢測的過程中,也得到了雙音多頻信號檢測所需的頻譜信息,這樣一舉兩得的做法,大大地降低了運算量和復(fù)雜度。有效性檢驗搜集到的頻譜信息需經(jīng)過一系列的有效性檢驗來確定是否存在有效的DTMF信號并給出其所對應(yīng)的數(shù)字或字母信息。這里,為計算方便,頻譜信息以幅度平方即能量的形式表示。根據(jù)式(4-32),令?,=8kHz,v-256,得到行頻率成分row_k-{22,25,17,30);列頻點成分column_k-139,43,47,52}。檢驗過程如圖4.12所示。1)所有行頻譜分量和列頻譜分量的總和占信號總能量的比值是否大于考慮頻譜泄漏的影響,行頻點和列頻點的較高能量會有一部分泄漏到與其左右相鄰的兩個頻點上。因此,上式中每個行頻點和列頻點的能量實際上均包含了三個頻點的能量和。否行頻和列頻能量和檢驗是找到行頻和列頻中的能量峰值,記錄峰值標(biāo)號否反扭曲和標(biāo)準(zhǔn)扭曲檢驗是否二次諧波檢驗是否是DTMF信號譯碼返回2)分別找到所有行頻譜分量和所有列頻譜分量中的能量最大值,并記錄能3)發(fā)送端發(fā)送的DTMF信號有相等的行頻能量和列頻能量,但是由于信道對兩種頻率的能量衰減程度不同,接收端的行頻能量和列頻能量會有一些偏差。對于高頻衰減嚴(yán)重的低通濾波信道,接收到的行頻能量會大于列頻能量,這種偏差稱為“反扭曲”。而對于接收到的行頻能量小于列頻能量的情況,叫作“標(biāo)THR_TWIREV=8dB和THR_rWISTD=4dB以下為可接收的偏差范圍。4)為了區(qū)別DTMF信號和可能的語音或音樂信號,還需要對二次諧波進(jìn)行檢驗。如果語音或音樂信號在某基頻上有突出的能量,那么與此基頻對應(yīng)的二次諧波也必然會有較高能量。而DTMF信號的能量僅在兩個基頻(行頻和列頻)有較多分布,二次諧波分量應(yīng)該等于或接近于0(加窗截斷造成的頻譜泄漏)。因此,利用二次諧波檢驗?zāi)芊乐拱颜Z音或音樂信號誤判為DTMF信號。其中,row_2ndk和column_2ndk分別表示對應(yīng)于行頻和列頻的二次諧波頻率成分。5)檢驗DTMF信號是否滿足持續(xù)時間達(dá)到45msec以上的要求。如果DTMF信號依次通過了以上的所有檢驗,則判定為存在DTMF信號,數(shù)字或字母信息,完成了DTMF信號的檢驗譯碼過程。對輸入信號進(jìn)行DTMF檢測,若檢測出含有DTMF信號,則根據(jù)DTMF的譯碼信息,合成與輸入信號相對應(yīng)的DTMF信號。圖4.13和圖4.14分別以時域波形和語譜圖的形式表示了輸入的DTMF序列以及根據(jù)DTMF檢測結(jié)果合成的信號。圖(a)為輸入的DTMF信號序列;圖(b)為合成信號。圖4.13DTMF檢測和合成(時域表示)圖4.14DTMF檢測和合成(頻域表示)由此看出,本文實現(xiàn)了對DTMF信號的準(zhǔn)確檢測和合成,合成信號保持了輸入信號的頻譜特征。在實際通信過程中,DTMF信號和語音信號一起通過信道傳輸,是否能有效區(qū)別語音和DTMF信號是檢測的關(guān)鍵。圖4.15中,(a)為輸入的DTMF和語音混合信號,(b)為輸出的檢測合成的DTMF信號,無DTMF時輸出為0。可以看到,并沒有存在誤檢,驗證了DTMF檢測的魯棒性。圖4.15DTMF檢測與合成(有效區(qū)別語音和DTMF信號)圖4.15本章研究了與語音增強(qiáng)密切相關(guān)的語音激活檢測算法。首先,概述了傳統(tǒng)語音激活檢測的方法、特點以及相關(guān)標(biāo)準(zhǔn)。針對傳統(tǒng)算法在低輸入信噪比和非平穩(wěn)噪聲干擾環(huán)境下誤檢率較高的問題,研究了一種基于高斯模型和一致最大勢檢驗的語音激活檢測算法,并給出了詳細(xì)的測試結(jié)果。然后,利用語音激活檢測中DFT得到的頻譜信息,方便地實現(xiàn)了雙音多頻信號的生成和檢測,給出第5章語音增強(qiáng)算法的研究與實現(xiàn)第5章語音增強(qiáng)算法的研究與實現(xiàn)前兩章重點研究了噪聲統(tǒng)計特性估計和語音激活檢測算法,而長時信噪比先驗信噪比估計,增益函數(shù)計算等也是基于短時譜幅度估計的語音增強(qiáng)算法中至關(guān)重要的部分,直接影響著語音短時譜估計的準(zhǔn)確性和語音增強(qiáng)算法的整體性能。本章結(jié)合經(jīng)典語音增強(qiáng)算法,著重研究先驗信噪比估計和增益函數(shù)的計本章剩余章節(jié)按照如下方式組織:5.2節(jié)介紹本文語音增強(qiáng)算法流程;5.3節(jié)概述增強(qiáng)語音評測標(biāo)準(zhǔn),包括主觀評測與客觀評測;5.4節(jié)給出本文語音增強(qiáng)帶噪語音的表達(dá)式為y()=s()+d(),1=0,1.…L-1。d(T)和s()分別代表干擾噪聲和純凈語音,帶噪信號、干擾噪聲和純凈語音的頻譜分量分別用Y,=R,exp(B,),D,S,-A,exp(a)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論