




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
語音增強(qiáng)算法研究的文獻(xiàn)綜述在1950年左右,注重語音增強(qiáng)算法自貝爾實(shí)驗(yàn)室開始的。1960年,經(jīng)典譜減法由施羅德首次實(shí)現(xiàn)。學(xué)者Boll在20世紀(jì)70年代中期再次研究初始的譜減法。和學(xué)者施羅德截然不同,學(xué)者Boll研究譜減法在數(shù)字范圍內(nèi),所采用的是模擬法。該方法包括兩個(gè)關(guān)鍵的假設(shè),第一個(gè)假設(shè)是語音信號(hào)中的噪聲為穩(wěn)定性較強(qiáng)的噪聲,噪聲不會(huì)出現(xiàn)較大波動(dòng);第二個(gè)假設(shè)是噪聲和原始語音信號(hào)之間幾乎不存在關(guān)聯(lián)性REF_Ref70835242\n\h[2]。此算法原理具體為:第一需要預(yù)測(cè)噪聲的功率譜,然后將其帶噪語音的功率譜出去,產(chǎn)生語音信號(hào)的增強(qiáng)功率譜REF_Ref70835715\n\h[3]。雖然該方法并不復(fù)雜同時(shí)實(shí)現(xiàn)過程較為簡單,但它會(huì)產(chǎn)生語音失真和音樂噪聲。對(duì)振幅譜的感知對(duì)于聽者來說很容易,但對(duì)相位譜的感知卻有很大的不同REF_Ref71384077\n\h[4]。之后,重構(gòu)初始語音信號(hào)能夠借助估計(jì)原有的語音信號(hào)的噪聲語音信號(hào)的相位譜以及功率譜得到,就此產(chǎn)生語音增強(qiáng)信號(hào)。算法實(shí)現(xiàn)較簡單,但仍然存在噪聲產(chǎn)生干擾。在上個(gè)世紀(jì)八十年代初期,學(xué)者Berouti致力于改進(jìn)譜減法語音效果:通過添加閾值及修正系數(shù),譜減法的性能因?yàn)橄禂?shù)的加入得到了提升。但該算法的不足在于系數(shù)的確定通常需要一定經(jīng)驗(yàn)的積累,這也導(dǎo)致其普適性低。此外,音樂噪聲仍未完全消除。為了解決這個(gè)瓶頸,學(xué)者西姆與奧本海姆選擇維納濾波方法,有利于提升語音信號(hào)的信噪比例REF_Ref71387926\n\h[5]。1990年左右,學(xué)者Harim等將振幅譜作為依據(jù)產(chǎn)生創(chuàng)新型的方法,也就是最小均方誤差短時(shí)振幅譜(MMSE-STSA)算法REF_Ref71387944\n\h[6]。之后他們又從聽者的感受出發(fā),對(duì)MMSE-STSA算法進(jìn)行了進(jìn)一步的改進(jìn),即Log-MMSE-STSA增強(qiáng)算法。這類語音增強(qiáng)算法只是在平穩(wěn)環(huán)境下有較好表現(xiàn)。于是1987年,學(xué)者卡爾曼(Kalman)的研究成果為濾波語音增強(qiáng)算法。具有明顯優(yōu)勢(shì),對(duì)于經(jīng)典維納濾波起到不充足作用,通過時(shí)域上的狀態(tài)空間手段在一定程度上緩解了不穩(wěn)定的環(huán)境中最低均方誤差條件下的的最優(yōu)估計(jì)問題REF_Ref71610161\n\h[7]REF_Ref70841747\n\h。但是缺陷為適應(yīng)性因?yàn)樾盘?hào)的提取模式而較差,縮小應(yīng)用范圍。后來語音降噪的研究開始側(cè)重于語音譜統(tǒng)計(jì)方法。當(dāng)今Cohen提出的最小控制迭代平均法是比較普遍的噪音估計(jì)方法。隨后他在此基礎(chǔ)上提出了進(jìn)一步的改進(jìn)方法。該學(xué)者的研究成果是最優(yōu)修正對(duì)數(shù)頻譜振幅估計(jì)算法REF_Ref71391316\n\h[8]。估計(jì)誤差通過OMLSA算法得到的更小,自然噪聲估計(jì)效果好于以往。傳統(tǒng)的語音增強(qiáng)方法由于其歷史悠久,計(jì)算簡便,被應(yīng)用于大部分工業(yè)界實(shí)際產(chǎn)品;然而卻只是對(duì)簡單且具有一定分布的噪聲有良好的降噪能力,對(duì)日常不規(guī)則的噪音卻束手無策。這時(shí)人工智能領(lǐng)域的方法表現(xiàn)出很好的效果。1990年,語音增強(qiáng)領(lǐng)域出現(xiàn)不同類型的監(jiān)督學(xué)習(xí)的方法。將隱馬爾可夫模型作為基礎(chǔ)衍生出的方法屬于第一類。學(xué)者Ephraim等人,將語音識(shí)別的思想作為基本依據(jù)進(jìn)而研發(fā)出創(chuàng)新型的語音增強(qiáng)算法。其具體應(yīng)用是在不同的隱馬爾可夫模型上模擬純語音和噪聲,對(duì)噪聲做出相應(yīng)的預(yù)測(cè),從而達(dá)到語音增強(qiáng)的目的REF_Ref70835242\n\h[2]REF_Ref70835242\n\h。在深層神經(jīng)網(wǎng)絡(luò)出現(xiàn)之前,能夠?qū)⒄Z音特征作為基本依據(jù)形成適用性較強(qiáng)的模型,然而在語音方面存在諸多假設(shè),包括純語音與噪聲之間有單一的假設(shè)以及高斯假設(shè)。第二類:以矩陣的非負(fù)矩陣為基礎(chǔ)進(jìn)一步分解語音增強(qiáng)算法模型的具體方法REF_Ref70835715\n\h[3]。該過程借助單獨(dú)訓(xùn)練,將復(fù)語音信號(hào)矩陣進(jìn)一步分解,劃分成純信號(hào)矩陣語音矩陣以及含噪語音矩陣,產(chǎn)生自含噪語音至清晰語音的線性映射關(guān)系REF_Ref70847277\n\h[9]。然而該映射關(guān)系不能使語音信號(hào)復(fù)雜的特點(diǎn)構(gòu)造過程產(chǎn)生良好的效果。第三類則是基于淺層神經(jīng)網(wǎng)絡(luò)。該方法的思想是在語音增強(qiáng)算法中嵌入神經(jīng)網(wǎng)絡(luò),包括反向傳播算法在神經(jīng)網(wǎng)絡(luò)中的實(shí)踐過程,能夠得到有噪聲參與的映射的純語音。原來的人工神經(jīng)網(wǎng)絡(luò)辦法由于缺乏練習(xí)數(shù)據(jù)信息以及隱含層層數(shù)并不多,使結(jié)果并不理想。同時(shí)區(qū)域化最優(yōu)以及過擬合問題頻繁出現(xiàn),因?yàn)殡[含層數(shù)量增加,此辦法逐漸跟不上形勢(shì)。學(xué)者Hinton的研究成果為深度信念網(wǎng)絡(luò)和無監(jiān)督算法有效地處理了局部最優(yōu)和過擬合問題REF_Ref71391586\n\h[10]REF_Ref70848528\n\h。第四類方法是21世紀(jì)產(chǎn)生的監(jiān)督方法,也就是將深層神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)的深層擬合作用把神經(jīng)網(wǎng)絡(luò)適當(dāng)融入到語音增強(qiáng)過程中。這使得網(wǎng)絡(luò)能夠近似于噪聲語音和純語音之間的未知函數(shù)映射REF_Ref70835715\n\h[3]。還有一種基于特征映射的增強(qiáng)方法,通過網(wǎng)絡(luò)將語音的幅度譜特征自有噪特征映射至純特征REF_Ref70857390\n\h[11]。另外還有將理想時(shí)頻作為基礎(chǔ)掩蔽估計(jì)的增強(qiáng)方式,具體功能為把降噪任務(wù)轉(zhuǎn)變?yōu)楣烙?jì)噪聲主導(dǎo)或語音主導(dǎo)的任務(wù)REF_Ref71391804\n\h[12]。再者就是以信號(hào)近似為基礎(chǔ)的語音降噪方法,它在對(duì)語音信號(hào)進(jìn)行估算與練習(xí)網(wǎng)絡(luò)時(shí)采用頻域掩蔽的方式。深度學(xué)習(xí)的概念首次于2006年被GeoffreyHinton教授提出,并在2012年被一些互聯(lián)網(wǎng)公司微軟、谷歌等融入到語音識(shí)別范圍中,并且產(chǎn)生良好的反饋,所以更多學(xué)者探究以深度學(xué)習(xí)作為基礎(chǔ)的語音增強(qiáng)的算法。呂旭剛等于2003年發(fā)表了一種基于去噪自動(dòng)編碼器的語音增強(qiáng)算法REF_Ref71391901\n\h[13];彭川REF_Ref71392025\n\h[14]等人研究基于深度學(xué)習(xí)的語音增強(qiáng)算法,也就是借助深度學(xué)習(xí)模型學(xué)習(xí)帶噪語音和純凈語音存在的映射關(guān)系,能夠維持帶噪語音信號(hào)的識(shí)別程度以及質(zhì)量水平。張馨等人REF_Ref70835715\n\h[3]深度神經(jīng)網(wǎng)絡(luò)的方法運(yùn)用對(duì)于語音增強(qiáng)起到良好效果,通過對(duì)于深度神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分析能力能夠擬合帶噪語音與純凈語音存在的一定映射關(guān)系,其實(shí)驗(yàn)證實(shí)了特征聯(lián)合改進(jìn)的具體方法能夠?qū)τ诘托旁氡葞г胝Z音的語音質(zhì)量以及識(shí)別程度有積極意義,能夠有效改善語音失真的現(xiàn)象。學(xué)者魏泉水等人REF_Ref70835242\n\h[2]致力于探究將譜減法和深度神經(jīng)網(wǎng)絡(luò)互相融合的語音增強(qiáng)算法,有效緩解深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)算法過程中訓(xùn)練庫要求噪聲種類較多的實(shí)際問題,有利于增加語音增強(qiáng)的實(shí)際效果。李湑等人REF_Ref71386575\n\h[15]基于特征映射的深度神經(jīng)網(wǎng)絡(luò)型組合,其研究成果為動(dòng)態(tài)語音感知訓(xùn)練方法,能夠動(dòng)態(tài)噪聲感知訓(xùn)練互相融合,該學(xué)者嘗試將動(dòng)態(tài)語音與動(dòng)態(tài)噪聲聯(lián)合感知訓(xùn)練融合應(yīng)用于語音增強(qiáng),在改善語音質(zhì)量的同時(shí)也提高了可懂度。KounovskyREF_Ref71392252\n\h[16]驗(yàn)證了卷積網(wǎng)絡(luò)在使用客觀標(biāo)準(zhǔn)語音質(zhì)量感知評(píng)估在測(cè)量期具備優(yōu)質(zhì)的性能,在較低的信噪比水平下,基于映射的網(wǎng)絡(luò)在估計(jì)兩種結(jié)構(gòu)的對(duì)數(shù)功率譜方面的性能始終優(yōu)于基于掩蔽的網(wǎng)絡(luò)。JeonKMREF_Ref71387926\n\h[5]等采用了基于原始波形的全卷積網(wǎng)絡(luò)語音增強(qiáng)模型,系統(tǒng)以端到端(即波形輸入和波形輸出)的方式進(jìn)行語音增強(qiáng)。研究得出將深度以及卷積神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)的模型對(duì)波形高頻分量的恢復(fù)能力有限,從而導(dǎo)致增強(qiáng)語音的可懂度下降;而提出的全卷積神經(jīng)網(wǎng)絡(luò)(FullyConvolutionalNetwork,F(xiàn)CN)模型不僅能很好地恢復(fù)波形,并且在較短的時(shí)間內(nèi)客觀識(shí)別程度和PESQ方面也優(yōu)于基于LPS的DNN基線。本文在傳統(tǒng)方法的基礎(chǔ)上研究了基于卷積神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法的實(shí)現(xiàn)。參考文獻(xiàn)HanW,WuC,ZhangX,etal.SpeechEnhancementBasedonImprovedDeepNeuralNetworkswithMMSEPretreatmentFeatures[C]//InternationalConferenceonSignalProcessing,Chennai,India,2016:1140-1145.魏泉水.基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法研究[D].南京大學(xué),2016.張馨.基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法研究[D].哈爾濱工業(yè)大學(xué),2019.LimJS,OppenheimAV.Enhancementandbandwidthcompressionofnoisyspeech[J].ProceedingsoftheIEEE,1979,67(12):1586-1604.JeonKM,ParkNI,KimHK,etal.Multi-bandspectralsubtractionbasedzoom-noisesuppressionfordigitalcameras[C].IEEEInternationalConferenceonConsumerElectronics.2013:401-402.EphraimY,MalahD.Speechenhancementusingaminimum-meansquareerrorshort-timespectralamplitudeestimator[J].IEEETransactionsonAcoustics,SpeechandSignalProcessing,1984,32(6):1109-1121.譚喬來.語音增強(qiáng)方法研究及應(yīng)用[D]:[碩士學(xué)位論文].湖南:湖南師大學(xué),2008.CohenI.NoiseSpectrumEstimationinAdverseEnvironments:ImprovedMinimaControlledRecursiveAveraging[J].IEEETransactionsonSpeechandAudioProcessing,2003,11(5):466-475.KangTG,KwonK,ShinJW,etal.NMF-BasedSpeechEnhancementIncorporatingDeepNeuralNetwork[C]//AnnualConferenceoftheInternationalSpeechCommunicationAssociation,Singapore,2014:2843-2846.E.Hinton,SOsindero,YWTeh.AFastLearningAlgorithmforDeepBeliefNets[J].NeuralComputation,2006,18(7):1527-1554.XuY,DuJ,DaiL,etal.AnExperimentalStudyonSpeechEnhancementBasedonDeepNeuralNetworks[J].IEEESignalProcessLetters,2014,21(1):65-68.韓偉,張雄偉,閔剛等.基于感知掩蔽深度神經(jīng)網(wǎng)絡(luò)的單通道語音增強(qiáng)方法[J].自動(dòng)化學(xué)報(bào),2017,43(2):248-258.XugangLu,YuTsao,ShigekiMatsuda,etal.SpeechEnhancementBasedonDeepDenoisingAutoencoder[C]//InternationalConferenceonInterspeech.Lyon:SpeechCommunicationPress,2013:436-440.彭川.基于深度學(xué)習(xí)的語音增強(qiáng)算法研究與實(shí)現(xiàn)[D].電子科技大學(xué),2020.李湑.單聲道語音增強(qiáng)關(guān)鍵技術(shù)研究[D].重慶郵電大學(xué),2019.KounovskyT,MalekJ.Singlechannelspeechenhancementusingconvolutionalneuralnetwork[C].Electronics,Control,Measurement,Signals&TheirApplicationtoMechatronics.IEEE,2017./leixiaohua1020/article/details/47276353陳歡,邱曉暉.改進(jìn)譜減法語音增強(qiáng)算法的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014,24(4):75-77./yhcwjh/article/details/112598893HyvarienA.FastandRobustFixedpointAlgorithmsforIndependentComponentAnalysis.IEEETrans.OnNeuralNetwork.1999,10(3):626~634.HyvarienA.“FastandRobust
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 文科科研課題項(xiàng)目申報(bào)書
- 市級(jí)重點(diǎn)課題申報(bào)書模板
- 課題立項(xiàng)申報(bào)書丟了
- 高職病理課題申報(bào)書
- 傳統(tǒng)文化相關(guān)課題申報(bào)書
- 廣東省課題申報(bào)書重復(fù)率
- 山東省課題申報(bào)書范文
- 出租雜物小倉庫合同范本
- 單位食堂蔬菜配送合同范例
- 怎么拿到省級(jí)課題申報(bào)書
- 乘務(wù)大隊(duì)客艙服務(wù)質(zhì)量
- 海智工作站申報(bào)計(jì)劃書
- 托管崗前培訓(xùn)教學(xué)課件
- 機(jī)房運(yùn)維管理制度
- 昆明撫仙湖鰭魚灣棋盤山度假娛樂旅游區(qū)總體規(guī)劃方案樣本
- 突發(fā)疾病時(shí)的安全駕駛方法
- 污水處理廠入河排污口設(shè)置論證報(bào)告
- T-SHNA 0005-2023 成人住院患者腸外營養(yǎng)輸注護(hù)理
- 課件:認(rèn)識(shí)鏡頭語言1:運(yùn)鏡方式和常用的鏡頭術(shù)語
- 職業(yè)道德(Professionalethics)教學(xué)課件
- 提升醫(yī)療質(zhì)量減少醫(yī)療糾紛
評(píng)論
0/150
提交評(píng)論