




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 學號:01021023 畢業(yè)設計論文 畢業(yè)設計題目:基于先驗信噪比的改進型譜減法學院:通信工程學院專業(yè):通信工程班級:01-0211姓名:徐鑫昌導師姓名:王平(講師)摘 要語音增強的目的主要是改進語音質量,在消除背景噪音的同時提高語音可懂度,但是這兩個目的往往不能兼得。目前有一些對非平穩(wěn)噪聲干擾下的語音信號進行增強的方法,可以降低背景噪聲,但有時會引入刺耳的音樂噪聲,且不能提高語音的可懂度,甚至略有下降。其中譜減法作為一種單信道語音增強方法,以其簡單有效在使用化的語音增強應用中深受歡迎。本文研究采用閥值法法對非平穩(wěn)背景噪聲信號進行估計,計算出先驗信噪比,得到還原的純凈語音信號。本文用MATL
2、AB實現(xiàn)了整個算法的仿真,并與傳統(tǒng)譜減法結果相比較,仿真結果表明,該算法對非平穩(wěn)噪聲追蹤性較好,在抑制背景噪聲,減少音樂噪聲前提下,提高了語音的可懂度,其計算復雜度也可以接受。關鍵詞: 譜減法 語音增強 噪聲估計 Abstract The mainly purpose of speech enhancement is to improve the quality of speech, raises the intelligibility of speech while eliminating background noise, but this two purposes can not oft
3、en be gotten simultaneously. Now there are many method of speech enhancement for the speech signal with near-stationary noise can reduce background noise, but can produce an annoying noise called music noise, and the intelligibility can not raise even drops. As a method of one channel speech enhance
4、ment, spectral subtraction is deeply welcome because it is easy and efficient.In this paper, the SNR of the speech signal is estimated, then the enhanced speech signal is gotten. MATLAB is used to realize the purpose, and it is compared with traditional spectral subtraction. It shows that this algor
5、ithm is better for the speech signal with the near-stationary noise; it restrains the music noise and reduces the background noise, it also raises the intelligibility. The complex degree also can be accepted.Keyword: Spectral subtraction Speech enhancement Noise estimation 目錄第一章 緒論11.1 課題背景及問題提出11.2
6、 語音增強研究的主要內容和發(fā)展方向11.3 譜減法語音增強的研究現(xiàn)狀3第二章 語音感知和噪聲特性52.1 語音特性52.2噪聲特性5第三章 譜減法語音增強算法73.1 語音增強算法概述73.2一般譜減法83.2.1 基本原理83.2.3 基本步驟和仿真結果113. 3 “音樂噪聲”的產(chǎn)生133.4 改進的譜減法14改進型譜減法的種類143.4.2 幅度譜平滑15 被減項加權值處理163.4.4 功率譜修正處理16第四章 基于先驗信噪比估計的改進型譜減法194.1 基本原理194.2 寂靜幀和語音幀的判定194.3 算法的實現(xiàn)214.4 參數(shù)的估計224.5 實驗結果和分析22第五章 性能評價2
7、55.1 信噪比改進255.2 主觀評價25結論 27參考文獻 29第一章 緒論1.1 課題背景及問題提出眾所周知,語言是人類傳播信息和表達感情的重要媒介,在人類的交流中起著極其重要的作用,是人類最方便、最快捷、最有效的交流方式。二十一世紀是信息科學的世紀,信息處理技術與人們的日常生活聯(lián)系也越來越緊密,因此,對人們交流中最常用的語音來說,對其進行處理在現(xiàn)代信息處理中就占有極為重要的地位。隨著通訊技術的發(fā)展,語音通信已成為人們日常生活、工作中不可缺少的一部分。近年來雖然數(shù)據(jù)通信迅猛發(fā)展,但據(jù)國家信息部的統(tǒng)計數(shù)據(jù)顯示,語音通信仍是現(xiàn)階段主流,占據(jù)通信行業(yè)主導地位。語音信號處理技術一直以來都是國內外
8、學者研究的熱點,它跨聲學、信號處理、仿生學等多個學科,應用前景廣闊。近年來,由于計算機和因特網(wǎng)正以驚人的速度和規(guī)模滲透到社會的各個領域,許多應用要求簡單、自然、友善的人機界面,而語音就成為一種理想的人機信息交流手段,因此也就對語音信號處理的發(fā)展提出了更迫切的要求。然而在人們的語音通信過程中,不可避免地會受到來自周圍環(huán)境、傳輸媒介引入的噪聲、通信設備內部的電噪聲、乃至其他講話者的干擾。這些干擾最終將使接收者接收到的語音不再是純凈的原始語音,而是被噪聲污染過的帶噪語音。語音增強目的就是從被污染的語音信號中,提取盡可能純凈的原始語音,改善語音質量,使聽者不覺的疲勞,并且能夠提高語音的可懂度。1.2
9、語音增強研究的主要內容和發(fā)展方向增強被加性噪聲污染的語音信號,這一問題自七十年代中期后已引起極大的注意。中,奧本海姆等人綜述了七十年代的各種各樣的噪聲語音信號增強方法。近些年來,語音增強的研究工作有了一定的進展。下面對國內外語音增強研究的常用方法作介紹。一 頻譜相減法單聲道語音增強方法中目前常用的是一類基于短時譜幅度(STSA)估計的語音增強方法,該方法認為語音信號的感知不重要,沒有必要精確計算。文中通過實驗為此提供了一定的依據(jù),文中則證明在一定條件下語音相位的最小均方誤差(MMSE)估計就是帶噪語音相位本身,因此,基于STSA估計的語音增強方法一般都是直接采用帶噪語音的相位作為增強語音的相位
10、?;赟TSA估計的語音增強方法包括譜減法及其各種變形,MMSE估計法等。譜減法通過從帶噪語音的STSA中直接減去噪聲的平均譜幅度來得到增強語音的STSA,實現(xiàn)起來簡單,但是剩余噪聲大,并且產(chǎn)生不舒服的“音樂噪聲”。后來,Ephraim等人 提出了STSA的MMSE估計法,部分解決了“音樂噪聲”問題,但在帶噪語音信噪(SNR)較低時其剩余噪聲還是很大,尤其是當信噪比小于5dB時。二 自適應噪聲對消法 適用于在帶噪語音信號采集過程中同時能獲得參考噪聲源的自適應噪聲對消技術,已日趨成熟。據(jù)專家報告:運用此技術增強帶噪語音,在實驗環(huán)境中,信噪比SNR有40dB左右的改善,在實際中也有20dB左右的提
11、高。三 小波變換法頻譜相減法是在短時平穩(wěn)假定的基礎上,采用固定窗傅立葉變換,時頻分辨率均是固定不變的。然而對某些“嚴格非平穩(wěn)” 的語音(如爆破音和塞擦音等),這種分析模糊了語音的細節(jié)特征,小波變換正是滿足這一需要的有力工具。語音增強已成為語音信號處理研究的不可忽視的重要問題。雖然從1970年至今,人們已提出了各種各樣的語音增強方法,并應用于語音識別等信號處理領域,但是出于語音增強研究是一復雜交叉學科的研究領域,其增強算法和聽覺模型還不完善。因此,語音增強研究的主要內容和發(fā)展方向應包括以下幾個內容:(1)語音信號是一種非平穩(wěn)的隨機信號。在語音增強中可以利用濁音具有明顯的準周期性來區(qū)別和抑制非語音
12、噪聲,而清輔音和寬帶噪聲區(qū)分就很困難。好的語音增強算法應考慮和解決這個問題。 (2)目前語音增強算法一般分這樣兩種情況:一類方法運算量較小,容易實時實現(xiàn),但增強后的語音會含有類似音樂的殘留噪聲;另一類是增強語音效果雖較好,但運算量大,不容易實時實現(xiàn)。國內外學者進行語音增強的目的之一:尋找一種運算量小,容易實時實現(xiàn),增強效果好的方法(3)人耳對背景噪聲有很大的抑制作用,了解其機理大大有助于語音增強技術的發(fā)展。人類的聽覺系統(tǒng)能從非平穩(wěn)噪聲中提取有用信息,模擬人耳聽覺系統(tǒng)的語音增強也是語音增強的發(fā)展方向。(4)許多環(huán)境下的干擾噪聲是非平穩(wěn)的,因而難以找到一種通用的語音增強算法適用于各種噪聲環(huán)境。因此
13、研究非平穩(wěn)隨機噪聲下的語音增強具有重要的意義,這方面的工作有待進一步開展。1.3 譜減法語音增強的研究現(xiàn)狀 1979年S. Boll在文中假設噪聲是平穩(wěn)的或緩慢變化的加性噪聲,并且語音信號和噪聲信號不相關的情況下,提出了譜減法(SS: Spectral Subtraction)。該方法能夠抑制背景噪聲的影響,但由于其局部平穩(wěn)性的假設與實際情況并不相符,因此效果不理想,殘留的音樂噪聲較大;Berouti在文中提出了傳統(tǒng)譜減法的基礎上增加了調節(jié)噪聲功率譜大小的系數(shù)和增強語音功率譜的最小值限制,提高了譜減法的性能,但是其修正系數(shù)和最小值是根據(jù)經(jīng)驗確定的,適應性較差;文中P. Lockwood在譜減法
14、的基礎上提出了非線性譜減法(NSS:Non-liner SpectralSubtraction),它根據(jù)語音信號的信噪比自適應調節(jié)語音增強的增益函數(shù),提高了語音的信噪比。眾所周知,信噪比不能正確反映信號的聽覺質量,因此用信噪比作為調整估計參數(shù)的依據(jù)并不能提高信號的聽覺質量;文中Boh Lim Sim 等人也提出了與此相近的改進算法,雖然提高了信號的信噪比,但殘留的音樂噪聲較大;文中Virag將人耳的掩蔽特性應用到非線性譜減法的增強算法中,部分解決了譜減法殘留音樂噪聲大的問題,但在信噪比較低或非平穩(wěn)的情況下,其增強效果不理想;文中I.Cohen 等人首先估計語音信號概率密度函數(shù),然后在此基礎上改
15、進了對數(shù)譜估計算法,使得改進的算法對非平穩(wěn)噪聲具有良好的抑制作用,該算法的缺點是語音信號的概率密度函數(shù)較難估計。 噪聲參數(shù)估計的準確與否直接會影響譜減法語音增強效果。因此,帶噪語音中背景噪聲參數(shù)的估計問題,尤其是非平穩(wěn)噪聲參數(shù)的估計問題令人關注。1.4 論文章節(jié)安排第一章 介紹了語音通信的意義,概述了國內外語音增強的研究概況,以及主要的研究內容和發(fā)展方向。第二章 在這部分我們首先研究了語音的特性,噪聲的特性和它得來源及種類各不相同,從而造成處理方法的多樣性,因此要結合語音特性及噪聲特性根據(jù)實際情況選用合適的語音增強方法,以及掩蔽效應的影響和處理方法,以及掩蔽閥值的計算。第三章 我們首先論述了語
16、音增強算法的概況和種類,接著討論基本譜減法的原理及增強形式和在譜減法中產(chǎn)生的“音樂噪聲”,最后討論了為了減少“音樂噪聲”而提出的改進型譜減法,以及對改進型譜減法的算法的權值項的處理。第四章 在本文中確定一種改進型譜減法,對它的原理、算法進行更深的討論,接著論述在該算法中調節(jié)各參數(shù)對結果的影響,并對它的語音、噪聲進行估計。第五章 對本文所提出的算法進行性能比較。將本課題的方法和其它譜減法進行比較,通過信噪比的改進情況可以得到:本文提出的算法提高了對低輸入信噪比的改進。主觀聽覺測試也說明殘留噪聲對語音的干擾比基本譜減法要小得多。第二章 語音感知和噪聲特性 2.1 語音特性語音是時變的、非平穩(wěn)、非遍
17、歷的隨機過程。語音發(fā)聲是一個時變過程,很多因素造成了發(fā)聲系統(tǒng)的時變性,例如聲道的面積隨著時間和距離改變,氣流速度隨著聲門處壓力變化而變化等。但是聲道形狀有相對穩(wěn)定性,在一段時間內(10ms30ms),人的聲帶和聲道形分為若干分析幀,每一幀的語音可以認為是準穩(wěn)定的。語音可以分為周期性的濁音和非周期的清音。濁音和清音經(jīng)常在一個音節(jié)中同時出現(xiàn)。濁音部分和音質關系密切,在時域上呈現(xiàn)出明顯的周期性,在頻域上有共振峰結構,而且能量大部分集中在較低頻段內,是語音中大幅度高能量的部分;清音則具有明顯的時域和頻域特征,類似于白噪聲,能量較小,在強噪聲中容易被掩蓋,但在較高信噪比時能提供較多的信息。在語音增強中,
18、可以利用濁音的周期性特征,采用梳狀濾波器提取語音分量或者抑制非語音信號,而清音則難以與寬帶噪聲區(qū)分。語音感知對語音增強研究有重要作用,人耳對語音的感知主要是通過語音信號頻譜分量幅度獲取的,對各分量相位則不敏感,對頻率高低的感受近似與該頻率的對數(shù)值成正比。語音信號可以用統(tǒng)計分析特性來描述。由于語音是非平穩(wěn),非遍歷的隨機過程,所以長時間的時域統(tǒng)計特性在語音增強中意義不大。語音的短時譜幅度的統(tǒng)計是時變的,只有當分析幀長趨于無窮大時,才能近似認為其具有高斯分布。高斯分布模型是根據(jù)中心極限定理得到的。將高斯模型應用于有限幀長只是一種近似的描述。在寬帶噪聲污染的語音增強中,可將這種假設作為分析的前提。這種
19、時間依賴處理的基本手段,一般是用一個長度有限的窗序列截取一段語音信號來進行分析,并讓這個窗滑動以便分析任一時刻附近的信號,其一般式為: (2.1)其中T 表示某種運算,x(m)為輸入信號序列。幾種常用的時間依賴處理方法是:當T(m)為時,相應于短時能量;當,就是短時過零率。 2.2噪聲特性噪聲來源取決于實際的應用環(huán)境,因而噪聲特性可以說變化無窮。噪聲可以是加性的,也可以是非加性的。對于非加性噪聲,有些可以通過變換轉變?yōu)榧有栽肼?。例如,乘性噪聲可以通過同態(tài)變換成為加性噪聲。某些與信號相關的量化噪聲可以通過偽隨機噪聲擾動的方法變換成信號獨立的加性噪聲。加性噪聲大致上有:周期性噪聲、脈沖噪聲、寬帶噪
20、聲和同聲道的其他語音干擾等。下面僅討論加性噪聲。周期性噪聲:主要來源于發(fā)動機等周期性運轉的機械,電氣干擾,特別是電源交流聲也會引起周期性噪聲,其特點是有許多離散的窄譜峰。這種周期性噪聲可以用梳狀濾波器予以抑制,可以用數(shù)字信號處理的方法來實現(xiàn)。脈沖噪聲:來源于爆炸、撞擊和放電等,表現(xiàn)為時域波形中突然出現(xiàn)的窄脈沖。消除脈沖噪聲通??梢栽跁r域內進行,也可以根據(jù)相鄰信號采樣值通過內插的方法將脈沖噪聲在時域上進行平滑。寬帶噪聲:來源很多,包括熱噪聲、氣流(如風、呼吸)噪聲及各種隨機噪聲源,量化噪聲也可視為寬帶噪聲。由于寬帶噪聲與語音信號在時域和頻域上完全重疊,因而消除它最困難。這種噪聲只有在語音間歇期才
21、單獨存在。平穩(wěn)的寬帶噪聲,通常也可認為是白色高斯噪聲。對于非平穩(wěn)的寬帶噪聲,情況就更為復雜一些。在本文中,我們所討論的噪聲就是指平穩(wěn)的高斯白噪聲,研究在它的影響下的語音增強方法。同聲道語音干擾是指當多個語音疊加在一起在單信道中傳輸時,雙耳信號因合并而消失。另外,背景噪聲對發(fā)音也有影響,噪聲破壞了原有的聲學特征和模型參數(shù),模糊了不同語音之間的差別,使語音質量下降,可懂性降低。強噪聲不僅會使人產(chǎn)生聽覺疲勞,還會對講話人的發(fā)音方式產(chǎn)生影響,從而也改變了語音的特征參數(shù)。因此,噪聲會對語音信號帶來非常大的影響。第三章 譜減法語音增強算法3.1 語音增強算法概述 在前面的論述中我們已經(jīng)提到過,對于不同的噪
22、聲有著不同的語音信號增強處理方法。最近30多年,人們針對加性寬帶噪聲研究了許多種語音增強算法。盡管目前語音增強尚沒有建立起完整的理論體系,還有待于進一步的研究和發(fā)展,但是一些語音增強算法己被證明是有效果的。為了對這些有效的語音增強算法有一個總體的認識。下面,我們對自相關相減法、諧波增強法、自適應噪聲濾波法、基于語音生成模型增強算法、聽覺掩蔽法以及基于短時譜幅度估計算法做一介紹。自相關法:信號的功率譜是其自相關函數(shù)的傅立葉變換,因此應用于功率譜上的任何方法都可以應用到自相關上。這種原理是利用自相關相減法進行增強的基礎。利用信號本身相關,而信號與噪聲,噪聲與噪聲之間可看作不相關的特性,可以將帶噪信
23、號進行自相關處理,使其得到與不帶噪信號同樣的自相關系數(shù)幀序列。諧波增強法:語音信號的濁音段具有明顯的周期性,利用這一特點,可以采用自適應梳狀濾波來提取語音分量,抑制噪聲。自適應噪聲濾波法:自適應濾波器的輸入為W1(n),它和信號中的加性噪聲W(n)是高度相關的,但和無噪信號S(n)無關。參考信號濾波后的輸出是加性噪聲W1(n) 的估計,系統(tǒng)輸出 Z(n) 是對純凈信號 S(n) 的估計,并且用于調節(jié)自適應濾坡器。假設S(n)與W(n)無關,并且調節(jié)自適應濾波器使系統(tǒng)輸出Z(n)的能量達到最小。那么,X(n)就是 S(n)在最小均方誤差下的估計 。基于語音生成模型的增強算法:語音的發(fā)聲過程可以模
24、型化為受激勵源激勵的一個線性時變?yōu)V波器,對不同類型的語音為不同的激勵源。如對于濁音,激勵源是一個與基音周期相同的周期性脈沖串;而對于清音激勵源為高斯白噪聲。通常認為聲道模型是一個全極點濾波器,濾波器參數(shù)可以通過線性預測分析得到,但若考慮到鼻腔的共鳴作用,采用零極點模型更為合適。顯然,如果能夠知道激勵參數(shù)和聲道濾波器的參數(shù),就能利用語音生成模型合成得到“純凈”的語音,這種方法的關鍵在于如何從帶噪語音中準確地估計語音模型的參數(shù)(包括激勵參數(shù)和聲道參數(shù))。這種基于語音的生成模型可得到一系列語音增強方法,如時變參數(shù)維納濾波及卡爾曼濾波等方法。聽覺掩蔽法:聽覺掩蔽效應最初主要是用于音頻信號的壓縮編碼基礎
25、之上的。它主要的原理就是根據(jù)具體的音頻信號和人耳的聽覺掩蔽模型動態(tài)地確定頻域上的聽覺掩蔽閾值。根據(jù)聽覺掩蔽效應原理,低于聽覺掩蔽閾值的語音信號頻率成分可被高于聽覺掩蔽閾值的語音信號相近的頻率成分所掩蔽,因此這些被掩蔽的語音信號成分很難對人耳的聽覺系統(tǒng)所響應,可以被看作是冗余信號,從而為進一步提高語音信號的壓縮比而提供了可靠的依據(jù)?;诙虝r譜估計的方法:基于短時譜估計的方法是從含噪信號中直接估計出原始語音。如前所述,語音是非平穩(wěn)隨機過程,但在10ms-30ms的分析幀內可以近似看成是平穩(wěn)的。如果能從帶噪語音的短時譜中估計出純語音信號的短時譜,則可達到增強的目的。由于人耳對語音相位的感受是不敏感的
26、,因此可以只將估計的對象放在短時譜幅度上?;诙虝r譜幅度估計的語音增強算法主要有維納濾波法和譜減法。3.2一般譜減法 基本原理一般的譜相減直接從有噪信號中減去噪聲譜得到“純凈”語音譜。假設s(n),d(n)和y(n)分別代表語音、噪聲和帶噪語音, 和分別表示其短時譜,由于語音信號是短時平穩(wěn)的,所以在短時譜幅度估計中認為它是平穩(wěn)隨機信號。且假設噪聲d(n)是與語音s(n) 不相關的加性噪聲。于是得到信號的加性模型y(n)=s(n)+d(n) (3.1) 若以,和分別代表y(n),s(n)和d(n)的能量密度譜,則 (3.2)y(n),s(n)和d(n)加窗處理后的信號分別以,及表示,而,和分別對
27、應,及的傅立葉變換。則 (3.3) (3.4)式中和分別為及的復共軛。及分別代表語音信號和噪聲的短時能量譜?;诙虝r譜幅度估計的語音增強技術的目的就是設法得到的估計,并由此得到的估計即增強后的語音。 由含噪語音信號經(jīng)加窗及傅立葉變換等運算可直接得到,但,及無法精確得到,因而分別以三者各自的系統(tǒng)平均能量,及來近似代替。由于s(n)與d(n)獨立,所以與獨立,因此及均為0。這樣,的估計由下式獲得 (3.5)式(3.5)為功率譜減法的表達式。整個系統(tǒng)原理圖如圖3-1所示。 圖3-1 譜減法原理框圖 譜減法的建立要基于以下幾點假設: 1) 噪聲信號和語音信號是互不相關的,在頻域是加性的關系。 2) 背
28、景噪聲環(huán)境相對于語音活動區(qū)域來說是近似穩(wěn)態(tài)的,這樣 3) 如果背景噪聲環(huán)境變化到一個新的穩(wěn)態(tài),則應有足夠的時間(約 300ms左右)以便于估計出新的背景噪聲譜幅度估值。 4) 對于緩慢變化的非平穩(wěn)噪聲環(huán)境,譜減法算法中有話音激活檢測環(huán)節(jié)以便適時的判斷并進行調整。 5) 假設主要噪聲影響的消除可以通過僅僅從帶噪語音譜幅度中減去噪聲而實現(xiàn)。 如果不從功率譜出發(fā),而考慮幅度譜,則可得到幅譜減的表達式 (3.6)在譜減法中,利用人耳對語音的幅度比較敏感,而對語音的相位不敏感這特性,以帶噪語音的相位代替純凈語音相位,得 (3.7) (3.8)此為增強后的語音信號。譜減法也可以用線性時變?yōu)V波器形式來表示,
29、即對乘以增益函數(shù)將式(3.5)變?yōu)槌朔e形式: (3.9)對應于式(3.5),則 (3.10)如果,則,這樣就可以保證為實函數(shù)。從式(3.9)式(3.10)中可以清楚地看出譜減法的物理意義:它相當于對帶噪語音每一個頻譜分量乘以一個系數(shù)。當該段只含語音時,沒有任何衰減,;而當該段只含噪聲時,衰減最大,。當介于兩者之間時,由后驗信噪比決定,即 (3.11)在實際的增強過程中,更多地使用的是譜減法的推廣形式: (3.12) 式(3.12)是譜減法最為靈活的一種形式,它包含譜減法的基本思想,而且給出了三個調節(jié)系數(shù),以在噪聲抑制,剩余噪聲衰減和語音失真之間達到最好的折中。其中:1)過減系數(shù):值越大,剩余噪
30、聲衰減越大,同時語音失真也會越大。2)譜平滑系數(shù):值增大可降低剩余的音樂噪聲,但會增加增強后語音的背景噪聲。3)指數(shù);這個參數(shù)決定了增益函數(shù)從到的平滑程度。譜減參數(shù),和的選擇是譜減法的核心問題。實際上,在低信噪比條件下,減小語音失真和降低剩余噪聲不可兼得,只能在二者之間達到最好的折中,提高可懂度。語音信號中,說話人由于呼吸會不斷產(chǎn)生語音間歇,我們可以利用這些間歇估計噪聲,其中一種方法就是利用端點檢測來判定有/無語音。在無語音段利用下式對噪聲估計進行更 新。 (3.13)其中,i為當前幀數(shù),i-1為前一幀。 一般譜減法的優(yōu)缺點一般譜相減法是將短時噪聲語音譜與一個估計的噪聲譜相減來達到壓縮穩(wěn)態(tài)噪聲
31、的目的。這種方法的最大優(yōu)點在于其簡單性。思路清晰,算法簡單。但由于它的殘留噪聲還是比較多,并且產(chǎn)生了令人反感的“音樂噪聲”,語音的整體質量有所下降,并沒有改善可懂度。聽者能發(fā)現(xiàn)處理后語音中的“音樂噪聲”比原始信號中的噪聲更為清晰,這是由于在短時譜估計中的隨機頻率點上出現(xiàn)的多種頻率的組合而產(chǎn)生的(在后面章節(jié)中將詳細闡述)。這是在譜減法中經(jīng)常出現(xiàn)的,也是較難解決的問題。因此,這也嚴重限制了譜減法的應用。 基本步驟和仿真結果 根據(jù)上文的分析,對提出的基本譜減法進行仿真,由于相位對語音信號的感知并不重要,因此可以利用帶噪語音信號的相位代替增強后的語音信號的相位,然后利用逆傅立葉變換,即可得到增強的語應
32、信號?;咀V減法的基本步驟為:(1)計算帶噪語音信號的信噪比。(2)確定語音信號的幀長,將信號進行分幀。(3)計算各幀的能量,確定一個閥值,能量大于該值的為語音段標注s(i)=1,能量小于該值的為寂靜段令s(i)=0。(4)對各幀進行傅立葉變換。并計算功率譜,若s(i)=1,則減去噪聲功率譜,若s(i)=0,則該幀為零。(5)根據(jù)帶噪語音的相位,可得到增強后語音的相位。得到增強后語音的頻譜圖。(6)根據(jù)傅立葉逆變換,得到增強后語音。圖3.2給出了計算機的仿真結果。橫坐標為時間軸,縱坐標為幅度。選取語音信號的采樣頻率為22kHz,總共長為110033,幀長為256個樣點,選取漢明窗(hammin
33、g)對信號加窗。根據(jù)文獻將信號在頻域中等分三個子帶。每幅圖中從上往下的波形依次是純凈的語音信號,帶噪語音信號,和增強后的語音信號。噪聲為加性高斯白噪聲。圖a的信噪比為-3dB圖b的信噪比為3dB。從圖中可以看出在不同的信噪比下基本譜減法都能很好的濾出語音信號,但是在不同的輸入信噪比下,它們的信噪比改進程度不一樣,通過反復的實驗和客觀評價可知,在低輸入信噪比下,甚至語音信號完全淹沒在噪聲中,但它的改進程度好,但也存在較大的語音失真。從圖中的波形就可看出。 圖3.2a 基本譜減法仿真圖(信噪比為-3dB) 圖3.2b 基本譜減法的仿真圖(信噪比為3dB)3. 3 “音樂噪聲”的產(chǎn)生 譜相減技術大多
34、數(shù)都是在頻域上進行,也有在時域的。由于在譜減法處理過程中,是以無聲期間統(tǒng)計平均的噪聲方差代替當前分析幀各頻率點的噪聲頻率分量,而噪聲頻譜具有高斯分布,即其幅度隨機變化范圍很寬,因此相減時,若該幀某頻率點噪聲分量較大,就會有很大一部分保留,在頻譜上呈現(xiàn)隨機出現(xiàn)的尖峰,便產(chǎn)生了間歇短暫的突發(fā)聲調,在聽覺上形成有節(jié)奏性起伏的類似音樂的殘留噪聲。這種具有音樂特性的殘余噪聲是各幀內在隨機頻率上出現(xiàn)的許多聲調的群體結果。它要比原始語音中的噪聲清楚的多,也更易令人反感。 具體說來,由譜相減所產(chǎn)生的噪聲稱為殘余噪聲,與語音信號不相關,是由具有隨機頻率和幅度的窄帶信號所組成。其幅度在零和語音休止期所測試到的最大
35、噪聲值之間,當被反變換到時域時,這種殘余噪聲聽起來像是以每 20ms間隔開關一次的突發(fā)音調發(fā)聲器組合而成,具有隨機的基頻和幅度,即使在有聲段也不能被語音所掩蔽。這種噪聲具有“音樂”的聽覺效果,因此稱為“音樂噪聲”。 音樂噪聲的消除是應用譜減技術的一個重要難題。由于估計的噪聲信號與實際的背景噪聲信號存在一定的誤差,所以譜相減之后,會殘留一定的背景噪聲而且會產(chǎn)生音樂噪聲,尤其當噪聲為非平穩(wěn)噪聲時將會產(chǎn)生嚴重的音樂噪聲,使語音信號的可懂度降低。人們提出了很多種方法來減輕或者消除音樂噪聲對人耳的影響,且取得了很大的進展。但是在非平穩(wěn)噪聲環(huán)境、弱語音信號或者低輸入信噪比時,音樂噪聲的抑制還是一個很大的難
36、題。許多學者和專家通過改變“音樂噪聲”的特性,努力為譜相減技術提供更好的理論基礎并改善其性能,以使之易于被接受。3.4 改進的譜減法 傳統(tǒng)的譜相減法是基于人耳對聲音相位不敏感特性,從含噪語音中減去估計噪聲而達到語音增強的目的。它比較直觀、簡單,但在提高質量的同時損傷了語音的可懂度,且產(chǎn)生討厭的“音樂噪聲”。 在語音增強的過程中,消除噪聲、提高語音信噪比和語音的可懂度是一對矛盾,要濾除噪聲或多或少肯定會損害語音信號,一般地說噪聲濾除得越多則語音信號被損害程度就越厲害,語音的可懂度就越低,特別是在低信噪比的情況下,這一矛盾更加突出。怎樣在去除噪聲和減少語音失真之間取折衷,也成為譜減法研究的重點問題
37、。改進型譜減法的種類基于聽覺掩蔽效應的改進型譜減法:增強語音在很多情況下是直接為聽覺服務的,所以應該結合人耳聽覺特性來提高增強語音的聽覺效果,其中將聽覺掩蔽效應與基本譜減法相結合可獲得較好的增強效果。掩蔽效應是指一個聲音的存在會對另一個聲音的感知產(chǎn)生掩蔽效應,主要發(fā)生在同時進入人聽覺系統(tǒng)的不同頻率的兩個聲音之間,即同時掩蔽。主要算法步驟:1)加窗分幀,進行N點FFT變換得到帶噪語音頻譜;2)端點檢測,在無音段進行噪聲估計;3)利用基本譜減法得到語音頻譜的粗估計,由此計算聽覺掩蔽閥T(w);4)根據(jù)T(w)來調節(jié)譜減系數(shù),;5)利用調整后的,進行系數(shù)譜減;6)IFFT,用疊接相加法得到。基于幀間
38、重疊的改進型譜減法:去噪增強語音的過程是采用基本譜減法得到重疊各幀的語音頻譜,利用相鄰;幾個重疊幀的語音頻譜,通過差值運算合成出語音信號。具體求得y(n)的計算分以下幾步:1)對每幀信號進行語音有無判定,在無語音期間估計出噪聲譜;2)求得加窗段信號w(n-m)x(m)的L點FFT得;3)使窗w(n-m)以步長R沿著帶噪語音x(m)序列滑動,在n等于求得;4)假定s(m)與噪聲d(m)獨立,對于幀內的短時平穩(wěn)過程,由式(3.5)得到5)由插值法得到y(tǒng)(n)。將上述算法在某一超短波通信系統(tǒng)的干擾抑制應用中,已取得了明顯的消噪效果"該系統(tǒng)受到無法擺脫的周期性干擾,干擾譜為某一相對穩(wěn)定的基波
39、及其各次諧波之和,嚴重影響語音信號的接收,造成電臺使用者產(chǎn)生明顯的聽覺疲勞"。,該方法消除了周期性干擾在電臺話音輸出端引起的嘯叫噪聲,除清晰度略下降外,語音的可懂度和自然度未受損失"該方法對白噪聲干擾消噪效果更好"若采用傳統(tǒng)的梳狀濾波器進行消噪處理,勢必消除阻帶內的語音譜,使話音質量受到損失?;谙闰炐旁氡鹊母倪M型譜減法:該方法為本文重點闡述的內容,所以將在后面的章節(jié)中,詳細討論 幅度譜平滑 譜減法在 70 年代末由 Boll 提出。通過對相鄰幀幅度譜進行適當?shù)钠骄梢杂行У匾种茪埩粼肼?,減小估計器的誤差。當語音波形變化緩慢時,這種譜平均的方法效果較好,幅度平均法
40、中用來平均的相鄰幀的數(shù)目越多,殘留噪聲越少,但是由于語音信號的短時平穩(wěn)特性,過多的平均反而會增加估計器誤差,對語音造成損害,使輸出語音模糊不清。平均幀數(shù)的選取要綜合考慮。在對幅度譜做均值濾波時,也可用加權均值法,根據(jù)距中心幀的距離,給各幀以不同的權值,距離越近,權值越大。這樣既考慮到信號前后幀之間的連貫性,又考慮到語音信號的非平穩(wěn)性。 為了進一步降低噪聲,人們還提出對譜減后的每一個頻譜值,從其前后幾幀的對應頻譜值中找到最小的,用這個值代替當前譜減結果。這是因為語音信號的出現(xiàn)總是需要一個過程的,利用前后幀的信息,可有效地去除突變點,取其中最小值,這也是一種平滑的方法。 噪聲譜的估計可以在無語音幀
41、時進行更新,如用平均法,噪聲譜的估計可以寫成 (3.14)這里K 是無語音幀的總數(shù)。也可以用濾波法 (3.15)其中是濾波系數(shù),典型取值在0.8-0.95之間。3.4.3 被減項加權值處理式(3.5)中的是一無聲期間的統(tǒng)計平均的噪聲方差代替當前分析幀的噪聲頻譜,這樣,實際處理效果不是很理想,原因是:語音的能量往往集中在某些頻段內,在這些頻段內的幅度相對較高,尤其是共振峰出的幅度一般大于噪音,因此,不應同一標準處理;另一方面,噪聲的幀功率譜隨機變化范圍很寬,在頻域中的最大,最小值之比往往達到幾個數(shù)量級,而最大值與均值之比也達倍。因此,在減去噪聲譜后,會有較大的功率譜分量的剩余部分,在頻譜上呈現(xiàn)出
42、隨機出現(xiàn)的間峰,在聽覺上形成殘留噪聲。這種噪聲具有一定的節(jié)奏性起伏感,所以稱之為“音樂噪聲”。因此,改進的方法是在幅度較高的時幀出減去,這樣可以更好地突出語音譜,抑制純音噪聲,改善降噪性能;其次,在語音譜中保留少量的寬帶噪聲,在聽覺上可以起到一定的掩蔽純音噪聲的作用??紤]這兩個方面,改進后的譜減法公式如下: (3.16)(其中)實驗表明在輔音幀中取,在元音幀中取4-5,取可以取得較好的降噪及抑制純音噪聲的效果。同時對于應用改進后的方法,需要粗略地辨別語音幀是輔音幀還是元音幀,以確定的取值。 功率譜修正處理將圖3.1中的功率譜計算 及改為和計算(這里不一定為整數(shù)),可以得到新的更具一般性的譜減法
43、形式。這種方法稱之為功率譜修正處理。它可以增加靈活性,修正后的功率譜為: (3.17)引入三個參數(shù)為算法提供了很大的靈活性。實際的增強實驗表明,適當調節(jié)可以獲得比原始的譜減法更好的增強效果。當=1,=1時,可得到幅度譜減法形式,1為過減形式。當=2 , =1時,可得到功率譜減法形式,>1為過減形式。公式中的選取原則是:大則殘留噪聲衰減的程度大,但語音失真的程度也大;小則語音信息保護的好,但噪聲減少的程度也小。實際上的選取是對降低噪聲和保持語音不失真的一種折衷,對信噪比低的帶噪語音,噪聲的方差大,的選取可適當大些,對信噪比高的帶噪語音, 的選取則可小些。第四章 基于先驗信噪比估計的改進型譜
44、減法4.1 基本原理上面我們已經(jīng)闡述了幾種改進型譜減法的類型。接下來我們重點論述一下基于先驗信噪比的改進型譜減法。它的基本原理:Ephraim和Malah提出的最小均方誤差估計增強方法可以有效地抑制“音樂噪聲”,cape在文獻中證明:由于其在計算增益函數(shù)是引入了先驗信噪比,并采用了“Decision-Directed”(直接判決)法,簡稱為“D-D”法,進行先驗信噪比的估計,所以取得了較好的增強效果。我們同樣可因將這種方法引入到譜減法中,得到基于先驗信噪比估計的改進型譜減法。先驗信噪比定義為: (4.1)首先,將增益函數(shù)表示成先驗信噪比的形式,即利用。其中,i為幀數(shù)。則式(3.9)可以寫為:
45、(4.2)其中,用“D-D”法進行估計,即: (4.3)其中,i為當前幀,i-1為前一幀;為前一幀語音的估計結果;為調節(jié)系數(shù),一般在0.8-1之間;max為兩者之中取較大的值。從式(4.3)可以看出,先驗信噪比是通過非線性的遞推估計得到的。4.2 寂靜幀和語音幀的判定在譜減法中,要利用帶噪語音減去噪聲,在此我們就要知道如何判定何時為寂靜幀,也就知道了噪聲頻譜。接下來我們討論它的算法:由于在大多數(shù)情況下只能獲得帶噪語音,所以在進行語音增強時,公式(3.5)中右邊的第2項是不能直接算出來的.假設帶噪語音中的噪聲是平穩(wěn)的,則可采用試聽的方法,在帶噪聲語音中找出一段不含語音的純噪音段,利用這一段純噪音
46、算出,并以此作為整個含噪語音短時能量譜的估計.這樣作的缺點是:在多數(shù)情況下噪聲強度是隨時間變化的,因此,用一小段噪音來估計整段語音,一定會產(chǎn)生很大的誤差,使增強效果變差.另外,在實際操作上也比較麻煩.我們對噪聲的估計采取的是利用含噪語音中無語音段的頻譜幅值統(tǒng)計平均值來實時估計被減噪聲的頻譜幅值的方法.若能以某特征值將語音段及噪音段分開對所有判別為噪音段的時幀進行運算,則使得對噪音功率譜的估計.更為準確,低信噪比條件下的自適應有聲/無聲判決算法就屬于此類.其基本原理如下.一般認為寬帶噪聲為一零均值高斯過程,則它的概率密度為 (4.4)一幀不含語音的純噪音信號,能量可表示為 (4.5)它的概率密度
47、則可表示為 (4.6)對于一幀含噪語音,由于語音信號s(i)與噪音d(i)不相關,則它的信號能量為 (4.7)其條件概率分布為 (4.8) 由圖4.1可見,是將向右平移了一段S,而S是一幀含噪語音中純語音信號的能量,通過對一定長度的帶噪語音進行統(tǒng)計,得到其短時能量概率密度的最大值,并由此計算出.如圖4.1所示,我們在x軸上選一門限,當一幀信號的短時能量小于門限時,我們判其為純噪聲.當一幀信號的短時能量大于門限時,我們判其含有語音.由于圖中兩條曲 圖4.1 ,及誤判概率線有重疊部分,所以不論是哪種判斷都可能有誤判,在實驗中我們將幀長定為256,以純噪聲誤判為含噪語音的概率為10%來確定,那么把含
48、噪語音判別為純噪聲的概率則和一幀信號中純語音信號的短時能量S的大小有關,能量大則誤判率低,能量小則誤判率高.例如在信噪比SNR為0dB時誤判率幾乎為0,而在信噪比SN為-8dB時誤判率約為30%.我們用判斷為純噪聲的那些幀來計算噪聲的短時能量譜,雖然在判斷噪聲時,可能會有錯判,但錯判的幀中,一般語音的能量能非常小,對估計噪聲不會產(chǎn)生太大的影響.由于它對噪聲特性的估計更為準確,所以效果也較好.我們利用上述方法對在車間和馬路的十字路口所錄的信噪比很低的實際含噪語音進行了增強,取得了很好的結果,信噪比大大的提高,并且語音的可懂度也明顯提高。4.3 算法的實現(xiàn)本課題在譜減法的研究基礎上,將得到的帶噪語
49、音進行先驗信噪比估計,從而得到增強后語音。程序流程圖如圖4.2。它主要包括以下幾步:1,帶噪語音輸入,計算輸入信噪比。2,將帶噪語音進行分幀,計算各幀能量。3,取一門限值,對各幀進行有聲/無聲判斷。4,對各幀進行傅立葉變換,若為寂靜幀則將該幀判為零,否則利用式(4.3)估計出該幀的信噪比。5,用先驗信噪比計算出濾波函數(shù),最終計算增強后語音的頻譜函數(shù)。6,對各幀的譜函數(shù)進行逆傅立葉變換,得到增強后語音。 對以上的步驟,其中寂靜幀的判定和先驗信噪比的估計在前面已有了詳細的介紹和分析。帶噪語音輸入分幀有聲/無聲判決無聲重置噪聲譜有聲頻譜計算信噪比估計先驗信噪比利用G(w)算增強后語音計算信噪比傅立葉
50、逆變換的時域圖增強后語音輸出 圖4.2 語音增強流程圖4.4 參數(shù)的估計式 中i指幀系數(shù),是調節(jié)系數(shù)但當噪聲不變時,就必須考慮進去。在這里,=0.9就是計算大約20幀的平均值。4.5 實驗結果和分析 為了研究該算法的有效性,我們以一段英文為純凈的語音信號,以平穩(wěn)的高斯白噪聲為濾波對象。采樣頻率為22050Hz,幀長為256,語音總共長為110033。選取漢明窗(hamming)對信號加窗。根據(jù)文獻將信號在頻域中等分三個子帶。圖4.3為計算機的仿真圖。橫坐標為時間軸,縱坐標為幅度軸。每幅圖中從上往下的波形依次是純凈的語音信號,帶噪語音信號,和增強后的語音信號。4.3a信噪比為-3dB,圖4.3b
51、信噪比為3dB。從圖中可以看出,無論信噪比是低還是高,帶噪語音信號經(jīng)增強處理后都能有較好地恢復。但低信噪比下改進的好。 圖4.3a 改進型譜減法的仿真圖(信噪比為-3dB) 圖4.3b 改進型譜減法的仿真圖(信噪比為3dB)第五章 性能評價我們對本文所提出的算法進行性能評價,并將它和基本譜減法進行比較。5.1 信噪比改進 噪聲減少通常是以信噪比改進來衡量的,本文提出的是輸入,輸出的分段信噪比來加以比較,即: (5.1)其中L表示信號的幀長度,N表示每幀的采樣點。利用該方法我們對含有高斯白噪聲的語音信號進行處理,語音為一段英文,采樣率為22050Hz。對處理結果我們用信噪比進行評價。結果我們用表
52、5.1來表示。 -3dB 0dB 3dB基本譜減法 1.86dB 4.78dB 7.60dB改進型譜減法 4.01dB 5.96dB 7.80dB 表5.1 信噪比改進程度 我們對信噪比的改進用圖5.1來表示,從圖中可以看出:兩種譜減法提供的信噪比改進都相似,但改進型算法提高了對低輸入信噪比的改進。5.2 主觀評價為了確證客觀性能評估,我們采用了主觀聽覺測試。聽覺測試是在4個聽眾中進行的,內容是對語音的殘留噪聲,仍存在的背景噪聲,語音失真和音樂噪聲的全面評價。對于每個話音都有下列步驟:1) 純凈語音和帶噪語音均被重復播放兩次;2) 每個測試信號都被重復兩次,且以隨機順序播放三次。測試的結果:利用本方法增強的語音的剩余噪聲和“音樂噪聲”均大大降低。 結論單通道譜減系統(tǒng)在減少背景噪聲上很有效,然而它帶來了可感知的令人煩躁的“音樂噪聲”。在本文中,提出了基于先驗信噪比的改進型譜減法,提出的算法提高了對低輸入信噪比的改進。主觀聽覺測試也說明本方法殘留噪聲對語音的干擾比基本譜減法小的多。該算法的主要優(yōu)點如下:1) 設計思路簡單,運算量小與基本譜減法相當。2) 性能好,剩余噪聲和“音樂噪聲”均大大降低。 本文用該算法對不同信噪比的帶噪語音進行測試并和基本譜減法作對比。通過實驗結果和信噪比得到的客觀評估,結合主觀聽覺結果顯示:與基本方法相比,音樂噪聲和殘留噪聲的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 攝影后期圖像風格轉換技巧考核試卷
- 上海模擬考試試題及答案
- 能力評估與跨部門協(xié)作能力培養(yǎng)對接考核試卷
- 小學教資考試試題及答案
- 管理素質測試題及答案
- 生物營銷面試題及答案
- 客車設計測試題及答案
- 消費升級在統(tǒng)一大市場中的體現(xiàn)
- 借款合同合同模板
- 工業(yè)用房租賃合同
- 毒蛇咬傷的急救處理要點
- 2024年湖南省辰溪縣檔案局公開招聘試題帶答案
- 2025年山西萬家寨水務控股集團所屬企業(yè)招聘筆試參考題庫含答案解析
- 2025至2030中國工業(yè)軟件行業(yè)項目調研及市場前景預測評估報告
- 2025年中國舒適眼鏡白皮書-艾瑞咨詢-202506
- 配電故障緊急搶修
- (2025)發(fā)展對象培訓考試題和答案
- 2025年經(jīng)濟學基礎理論考試試卷及答案
- 測繪工程應急預案
- 2024年重慶開州區(qū)中醫(yī)院招聘筆試真題
- 海外倉一件代發(fā)服務合同范本下載
評論
0/150
提交評論