(信號(hào)與信息處理專業(yè)論文)基于模塊化的語音信號(hào)預(yù)處理實(shí)現(xiàn).pdf_第1頁(yè)
(信號(hào)與信息處理專業(yè)論文)基于模塊化的語音信號(hào)預(yù)處理實(shí)現(xiàn).pdf_第2頁(yè)
(信號(hào)與信息處理專業(yè)論文)基于模塊化的語音信號(hào)預(yù)處理實(shí)現(xiàn).pdf_第3頁(yè)
(信號(hào)與信息處理專業(yè)論文)基于模塊化的語音信號(hào)預(yù)處理實(shí)現(xiàn).pdf_第4頁(yè)
(信號(hào)與信息處理專業(yè)論文)基于模塊化的語音信號(hào)預(yù)處理實(shí)現(xiàn).pdf_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大連理工大學(xué)碩士學(xué)位論文 摘要 在現(xiàn)代信息技術(shù)中,語音信號(hào)處理技術(shù)發(fā)揮著越來越重要的作用。而語音信號(hào)預(yù)處 理是語音信號(hào)處理中不可或缺的環(huán)節(jié),它能夠提高語音信號(hào)處理的效果。本文詳細(xì)闡述 了語音信號(hào)預(yù)處理技術(shù)中的幾項(xiàng)關(guān)鍵技術(shù),包括:放大和自動(dòng)電平控制、自適應(yīng)噪音抑 制、高電平補(bǔ)償、h o w l i n g 抑制等。 自動(dòng)電平控制( a u t o m a t i cl e v e lc o n t r o l ,a l c ) 技術(shù)是為了改善語音信號(hào)劇烈波動(dòng) 而提出的一種跟蹤調(diào)整語音信號(hào)電平至最優(yōu)值的方法。該方法用于終端。它的具體實(shí)現(xiàn) 分為兩部分:第一部分是基于兩級(jí)動(dòng)態(tài)的v a d 檢測(cè),第二部分是r m s 自動(dòng)增益控制。 自適應(yīng)噪聲抑制是指從帶噪語音信號(hào)中提取盡可能純凈的原始語音。本文在經(jīng)典的 譜減法的基礎(chǔ)上作了改進(jìn),利用人耳的掩蔽效應(yīng)減小“音樂噪音 ,實(shí)現(xiàn)了改進(jìn)的最小 控制譜減法。 本文利用人耳的聽覺特性,提出了一種基于等響度曲線函數(shù)的高電平補(bǔ)償方法。該 方法首先通過語音激活檢測(cè)w a d ) 技術(shù)判斷出語音幀,然后通過等響度曲線【l 】與語音信 號(hào)的聲壓級(jí)求得電平補(bǔ)償參數(shù),并對(duì)語音幀的高頻和低頻進(jìn)行相應(yīng)的補(bǔ)償,以得到主觀 聽覺上的等響效果。 本文通過分析h o w l i n g 的形成條件,提出了一種破壞這種條件的隨機(jī)相位h o w l i n g 抑制方法。該方法先用p o l y p h a s ei i r 濾波器將語音信號(hào)劃分為子帶信號(hào),再利用l m s 自適應(yīng)陷波濾波器檢測(cè)對(duì)各個(gè)子帶信號(hào)是否有h o w l i n g 的存在,判斷出h o w l i n g 之后便 利用隨機(jī)相位系統(tǒng)對(duì)其進(jìn)行抑制。 以上各個(gè)語音預(yù)處理功能模塊既具有獨(dú)立的處理功能,又可以串聯(lián)到一起以達(dá)到一 個(gè)完整的功能。這樣可以有針對(duì)性地對(duì)具有不同問題的語音信號(hào)調(diào)用不同的模塊,實(shí)現(xiàn) 不同的效果。 關(guān)鍵詞:自動(dòng)電平控制;入耳掩蔽效應(yīng);高電平補(bǔ)償;h o w l i n g 抑制 大連理工大學(xué)碩士學(xué)位論文 t h ep r e t r e a t m e n to ft h es p e e c hs i g n a lb a s e do nm o d u l e s a b s t r a c t i nm o d e mi n f o r m a t i o nt e c h n o l o g y ,t h ep r o c e s s i n go ft h es p e e c hs i g n a li sb e c o m i n gm o r e a n dm o r ei m p o r t a n t , i nw h i c ht h ep r e t r e a t m e n to ft h es p e e c hs i g n a li st h en e c e s s a r yp a r t r w i l l i m p r o v et h eq u a l i t yo ft h ep r o c e s so ft h es p e e c hs i g n a l i tm a i n l yc o n s i s t so ft h e a u t o m a t i cl e v e lc o n t r o l ,a d a p t i v en o i s es u p p r e s s i o n , h i l g hl e v e lc o m p e n s a t i o na n dh o w l i n g s u p p r e s s i o n , w h i c ha r et h ek e yt e c h n o l o g yi nt h i sp a p e r a u t o m a t i cl e v e lc o n t r o l ( a l c ) i sm a i n l yu s e dt oc o n t r o lt h es t r o n gf l u c t u a t i o no f s p e e c h s i g n a l i ta d j u s t st h el e v e lo ft h es p e e c hs i g n a lt ot h eb e s tv a l u et i m e l y a l cm a i n l yc o n t a i n s t w op a r t s o n ei st w oc l a s s e s d y n a m i cv a d ,t h eo t h e ri sa u t o m a t i cg a i nc o n t r o lb a s eo nr m s a d a p t i v en o i s es u p p r e s s i o ni su s e dt op i c ku pt h er e l a t i v e l yp u r es p e e c hs i g n a lf r o mt h e s p e e c hs i g n a lw i t hn o i s e i nt h i sp a p e r , t h e r ea r es o m ei m p r o v e m e n t sb a s e do nt h es p e c t r a l s u b t r a c t i o n ,s u c ha se l i m i n a t i n gt h e m u s i cn o i s e b ym a s kl i n e ,c s 眥 yo u tt h en o i s e s u p p r e s s i o nb yl e a s tc o n t r 0 1 i na d v a n t a g eo ft h eh e a r i n gc h a r a c t e r i s t i c s ,ah i g hl e v e lc o m p o s i t i o nb a s e do ne q u a l s o u n d l i n ef u n c t i o n si s p r o p o s e d n l i sm e t h o dt h es p e e c hf r a m e sa r ec h o s eb yv a df i r s t ,t h e n c a l c u l a t et h ep a r a m e t e r so ft h el e v e lc o m p o s i t i o n a tl a s t , c o m p o s i t i n gt h eh i 曲f r e q u e n c ya n d l o wf r e q u e n c yo ft h es p e e c hs i g n a lm u l t i p l i e db yt h ep a r a m e t e r s s ot h ee q u a ls o u n di s o b t a i n e d p h a s er a n d o m i z e dt e c h n i q u ei sp r o p o s e dt h r o u g ha n a l y z i n gh o wt of o r mt h eh o w l i n g f i r s t , p u tt h eo r i g i n a ls i g n a li n t op o l y p h a s ei i rf i l t e r st og e tt h es u b b a n ds i g n a l ;s e c o n d ,t h ee x i t s o fh o w l i n gi sd e t e c t e db yl m s a d a p t i v en o a hf i l t e r ;i ft h er e s u l t so ft h ed e t e c t i o ni sh o w l i n g e x i t i n g ,r e s t r a i ni tb yp h a s er a n d o m i z e dt e c h n i q u e t h em o d u l e so ft h ep r e t r e a t m e n to ft h es p e e c hs i g n a lm e n t i o n e da b o v en o to n l yc a n p r o c e s ss e p a r a t e l y ,b u ta l s oc a nw o r kt o g e t h e ra saw h o l es y s t e m s oi tw i l lu s ed i f f e r e n t m o d u l e sa c c o r d i n gt od i f f e r e n ts i t u a t i o n st oa c h i e v et h ed i f f e r e n ta i m s k e yw o r d s :a l c ;h i d i n gf u n c t i o n ;h l c ;h o w l i n gs u p p r e s s i o n 大連理工大學(xué)碩士研究生學(xué)位論文 大連理工大學(xué)學(xué)位論文版權(quán)使用授權(quán)書 本人完全了解學(xué)校有關(guān)學(xué)位論文知識(shí)產(chǎn)權(quán)的規(guī)定,在校攻讀學(xué)位期間 論文工作的知識(shí)產(chǎn)權(quán)屬于大連理工大學(xué),允許論文被查閱和借閱。學(xué)校有 權(quán)保留論文并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,可以將 本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、 縮印、或掃描等復(fù)制手段保存和匯編本學(xué)位論文。 學(xué)位論文題目鹽亟型塑盟盤疊二顯墨i 塾竺速墾些 作者簽名: 導(dǎo)師簽名: 日期:丑年j 月上e 1 日期:竺2 年月上日日期:竺2 年j 月上日 大連理工大學(xué)學(xué)位論文獨(dú)創(chuàng)性聲明 作者鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下進(jìn)行研究 工作所取得的成果。盡我所知,除文中已經(jīng)注明引用內(nèi)容和致謝的地方外, 本論文不包含其他個(gè)人或集體已經(jīng)發(fā)表的研究成果,也不包含其他已申請(qǐng) 學(xué)位或其他用途使用過的成果。與我一同工作的同志對(duì)本研究所做的貢獻(xiàn) 均已在論文中做了明確的說明并表示了謝意。 若有不實(shí)之處,本人愿意承擔(dān)相關(guān)法律責(zé)任。 學(xué)位論文題目:基王搓迭焦的適童焦曼亟處理塞拯 作者簽名:量塑釜二_ 一日期:三竺t 年上月乒日 大連理工大學(xué)碩士學(xué)位論文 1緒論 1 1應(yīng)用背景 隨著人們進(jìn)入數(shù)字信息時(shí)代,數(shù)字語音通信在生產(chǎn)和生活等各方面起到越來越重要 的作用。然而在數(shù)字語音通信中,背景噪聲的干擾、信號(hào)傳輸?shù)膿p耗以及語音信號(hào)的正 反饋所引起的信號(hào)不穩(wěn)定,使得很多語音處理系統(tǒng)的性能急劇下降。例如語音編解碼系 統(tǒng)中,信道噪聲與線路噪聲污染的影響是十分大的,又例如線路電平的不匹配造成音量 大小不一等等。為了消除現(xiàn)實(shí)環(huán)境的數(shù)字語音對(duì)人們主觀聽覺造成的負(fù)面影響,對(duì)語音 預(yù)處理技術(shù)及其實(shí)用化的研究是非常有必要的。語音預(yù)處理技術(shù)是數(shù)字語音信號(hào)處理的 重要分支,已經(jīng)廣泛應(yīng)用于無線電話、電話會(huì)議與場(chǎng)景錄音等領(lǐng)域。通過各個(gè)方面的預(yù) 處理可以大大改善原系統(tǒng)在外界環(huán)境干擾條件下的性能,提高語音通信質(zhì)量。 語音預(yù)處理的目的就是為了在保持語音可懂度和清晰度的前提下,對(duì)語音信號(hào)進(jìn)行 時(shí)域或頻域的變換與處理,從而使語音在音強(qiáng)、音長(zhǎng)、音調(diào)、音質(zhì)與純凈度等方面得到 一定程度的提升。實(shí)用語音預(yù)處理系統(tǒng)主要包括噪聲消除系統(tǒng)、電平控制系統(tǒng)和回聲控 制系統(tǒng)等。噪聲消除系統(tǒng)的作用是檢測(cè)并降低語音信號(hào)中的背景噪聲,提高語音的純凈 度:電平控制系統(tǒng)則能穩(wěn)定信號(hào)傳輸電平,使雙端或多端語音的音強(qiáng)與音質(zhì)維持在一定 的水平上;回聲控制系統(tǒng)則針對(duì)擴(kuò)聲系統(tǒng)中回聲所引起的正反饋放大現(xiàn)象,采用自適應(yīng) 濾波等方法進(jìn)行回聲對(duì)消,也起到提高語音純凈度的作用。本文研究的重點(diǎn)是數(shù)字通信 中的實(shí)用自動(dòng)電平控制系統(tǒng),自適應(yīng)噪聲消除系統(tǒng),高電平補(bǔ)償系統(tǒng)和h o w l i n g 抑制系 統(tǒng)。 1 2 語音分析方法 語音信號(hào)分析是語音信號(hào)處理的前提和基礎(chǔ),只有分析出可表示語音信號(hào)本質(zhì)特性 的參數(shù),才有可能利用這些參數(shù)進(jìn)行高效的語音通信、語音合成和語音識(shí)別等處理。根 據(jù)所分析參數(shù)的不同性質(zhì),可將語音信號(hào)分析分為時(shí)域分析、頻域分析、同態(tài)分析、線 性預(yù)測(cè)分析等i l j 。 ( 1 ) 時(shí)域分析方法 語音信號(hào)的時(shí)域分析就是分析和提取語音信號(hào)的時(shí)域參數(shù),是一種比較直觀的分析 方法。時(shí)域分析通常用于最基本的參數(shù)分析及應(yīng)用,如語音的分割、預(yù)處理與分類等, 其實(shí)現(xiàn)簡(jiǎn)單、運(yùn)算量也較小。 基于模塊化的語音信號(hào)預(yù)處理 語音信號(hào)的時(shí)域參數(shù)有短時(shí)能量、短時(shí)過零率、短時(shí)自相關(guān)以及短時(shí)平均幅度差等, 這是語音信號(hào)的一組最基本的短時(shí)參數(shù),在各種語音信號(hào)數(shù)字處理中都要應(yīng)用。為了使 語音信號(hào)的短時(shí)能量與幅度變化相對(duì)平滑,在計(jì)算這些參數(shù)時(shí)使用的一般是矩形窗或漢 明窗。 ( 2 ) 頻域分析方法 從廣義上講,語音信號(hào)的頻域分析包括語音信號(hào)的頻譜、功率譜、倒頻譜、頻譜包 絡(luò)分析等。常用的頻域分析方法包括傅立葉變換法等。因?yàn)檎Z音信號(hào)是一個(gè)非平穩(wěn)過程, 因此適用于周期、非瞬變或平穩(wěn)隨機(jī)信號(hào)的標(biāo)準(zhǔn)傅立葉變換不能用來直接分析,麗應(yīng)該 用短時(shí)傅立葉變換進(jìn)行頻譜分析,相應(yīng)的頻譜稱為“短時(shí)譜 。 對(duì)第刀幀語音信號(hào)毛( 聊) 進(jìn)行傅立葉變換,其定義如下: j 一l 以。歸) = 毛( 腳) e 一腳 m = o 其中n 為變換點(diǎn)數(shù),短時(shí)傅立葉變換實(shí)際就是窗選信號(hào)的標(biāo)準(zhǔn)傅立葉變換。選取不同的 窗口函數(shù),就會(huì)得到不同的傅立葉變換結(jié)果。 如令角頻率彩= 2 萬七,則可得離散的短時(shí)傅立葉變換以( 七) 。在語音信號(hào)數(shù)字處 理中,一般采用矗( 所) 的離散傅立葉變換來替代以0 歸) ,并且可以用高效的快速傅立葉 變換算法完成由而( 所) 至以( 后) 的轉(zhuǎn)換。為了符合人耳的聽覺特性,提高語音信號(hào)處理 系統(tǒng)的性能,還可以進(jìn)一步將實(shí)際的線性頻譜轉(zhuǎn)化為臨界帶頻譜矢量,從而根據(jù)人耳對(duì) 頻率高低的非線性心理感受反映語音短時(shí)幅度譜的特征。 ( 3 ) 同態(tài)分析【4 】 同態(tài)分析實(shí)現(xiàn)了將卷積關(guān)系變換為求和關(guān)系的分離處理,即解卷。對(duì)語音信號(hào)進(jìn)行 解卷,可將語音信號(hào)的聲門激勵(lì)信息及聲道響應(yīng)信息分離開來,從而求得聲道共振特征 和基音周期,用于語音編碼、合成與識(shí)別等。 許多語音信號(hào)并不是加性信號(hào),而是聲門激勵(lì)和聲道沖擊響應(yīng)的卷積性信號(hào),同態(tài) 信號(hào)處理可以將這類非線性問題轉(zhuǎn)化為線性問題,在線性空間完成運(yùn)算后再逆變換為卷 積信號(hào)。 對(duì)卷積信號(hào)x ( 甩) = x l ( n ) * x 2 ( n ) 進(jìn)行如下運(yùn)算處理: i z 【x ( ”) 】= 五( z ) j 巴( z ) i n x ( z ) = i n 五( z ) + i n 五= 五 ( 1 2 ) l z - 【x ( z ) 】= z 卅【墨( z ) + 五( z ) 】= 毫( 刀) + 島( 胛) = 曼( 刀) 大連理工大學(xué)碩士學(xué)位論文 由于疊) 是加性信號(hào),所以可對(duì)其進(jìn)行需要的線性處理。例如在兩個(gè)信號(hào)互不交替 的情況下,將聲門激勵(lì)信號(hào)和聲道沖擊響應(yīng)分離開來。最后只需對(duì)分離信號(hào)進(jìn)行逆變換 與指數(shù)運(yùn)算即可恢復(fù)原來的卷積信號(hào)。 ( 4 ) 線性預(yù)測(cè)分析 線性預(yù)測(cè)【2 】分析的基本思想是:由于語音樣點(diǎn)之間存在相關(guān)性,所以可以用過去的 樣點(diǎn)值來預(yù)測(cè)現(xiàn)在或未來的樣點(diǎn)值,即一個(gè)語音的抽樣能夠用過去若干個(gè)語音抽樣或它 們的線性組合來逼近。通過使實(shí)際語音抽樣和線性預(yù)測(cè)抽樣之間的誤差在某個(gè)準(zhǔn)則下達(dá) 到最小值來決定唯一的一組預(yù)測(cè)系數(shù)?,F(xiàn)代語音編碼的聲道模型參數(shù)估計(jì)大多都基于線 性預(yù)測(cè)分析方法。 1 3 心理聲學(xué)的概述 心理聲學(xué)一詞似乎很令人費(fèi)解,其實(shí)很簡(jiǎn)單,它就是指“人腦解釋聲音的方式”。壓 縮音頻的所有形式都是用功能強(qiáng)大的算法將我們聽不到的音頻信息去掉。例如,如果我 扯著嗓子喊一聲,同時(shí)輕輕地踏一下腳,您就會(huì)聽到我的喊聲,但可能聽不到我踏腳的 聲音。通過去掉踏腳聲,就會(huì)減少信息量,減小文件的大小,但聽起來卻沒有區(qū)別。 心理聲學(xué)模型【3 1 是對(duì)人聽感的統(tǒng)計(jì)性質(zhì)的數(shù)學(xué)表述模型,它解釋人各種聽感的生理 原理。由于人耳聽覺系統(tǒng)復(fù)雜,人類迄今為止對(duì)它的機(jī)理和聽覺特性的某些問題總是還 不能從生理解剖角度完全解釋清楚。所以,對(duì)人耳聽覺特性的研究目前僅限于在心理聲 學(xué)和語言聲學(xué)內(nèi)進(jìn)行。人耳對(duì)不同強(qiáng)度和不同頻率聲音的一定聽覺范圍稱為聲域。在人 耳的聲域范圍內(nèi),聲音聽覺心理的主觀感受主要有響度、音高、音色等特征和掩蔽效應(yīng)、 高頻定位等特性。其中響度、音度、音色可以在主觀上用來描述具有振幅、頻率和相位 三個(gè)物理是的任何復(fù)雜的聲音,故又稱為聲音“三要素”【6 】;而對(duì)于多種音源場(chǎng)合的人耳 掩蔽效應(yīng)等特性尤為重要,它是心理聲學(xué)的基礎(chǔ)。 心理聲學(xué)的幾個(gè)基本概念 ( 1 ) 等響度曲線【5 j 人的聽覺的靈敏度隨著頻率而改變。即通常兩個(gè)功率一樣但頻率不同的音調(diào)聽起來 并不一樣響。通過等響度曲線,我們可以看出,入耳對(duì)1 k h z 的頻率最靈敏,即在1 k h z 下能被察覺出來的聲音壓力水平( 響度) ,在其他頻率下并不能被察覺。這就給在一些不 太靈敏的頻率下失真提供了條件。 ( 2 ) 屏蔽l 7 j 基于模塊化的語音信號(hào)預(yù)處理 我們上高中物理時(shí)學(xué)過屏蔽,就是強(qiáng)的聲音信號(hào)把弱的聲音信號(hào)覆蓋,導(dǎo)致我們無 法察覺。而且,當(dāng)兩個(gè)聲音在時(shí)間和頻率上很接近時(shí),屏蔽效應(yīng)就會(huì)很強(qiáng)。因此,我們 可以在編碼時(shí)對(duì)被屏蔽的部分不編碼、不傳送。這樣,音質(zhì)依然沒有大的損失,入耳也 不易察覺。 ( 3 ) 臨界頻帶哺】 對(duì)于人類的聽覺來說,對(duì)聲音的感知特性并不是以線形頻率為尺度來變化的( 人的 聽覺還沒那么好) ,而是可以用被稱為臨界頻帶的一系列有限的頻段來表達(dá)。簡(jiǎn)單的說, 把整個(gè)頻帶劃分成幾段,在這每個(gè)頻段里,人耳的聽覺感知是相同的,即心理聲學(xué)特性 都是一樣的。 1 4 自動(dòng)電平控制的理論背景 自動(dòng)電平控銅 ( a u t o m a t i cl e v e lc o n t r o l ,簡(jiǎn)稱a l c ) 由兩部分組成:語音激活檢測(cè)單 元和自動(dòng)增益控制單元。這種a l c 技術(shù)可以實(shí)時(shí)、自動(dòng)地調(diào)整裝置增益變化( 放大或衰 減) ,使傳輸電路中的信號(hào)電平保持在預(yù)設(shè)值附近。該技術(shù)還可以通過改變信號(hào)的頻率 響應(yīng)或者頻譜內(nèi)容來使信號(hào)電平得到變化。 a l e 系統(tǒng)處理的信號(hào)是不連續(xù)的,例如在通話過程中,人講話是間斷的。當(dāng)通話處 于空話階段,傳送的信號(hào)只含有噪聲,這些噪聲可能是背景環(huán)境噪聲,也可能是某些語 音編碼器輸出的舒適噪聲。即使不能從語音中分離噪聲,系統(tǒng)也應(yīng)能在空話時(shí)控制a l c 操作,不對(duì)噪聲或靜音進(jìn)行電平控制;一旦再次檢測(cè)到有伴隨噪聲的語音,a l c 裝置應(yīng) 被再次激活。 上述分析使用的方法就是語音激活檢測(cè)( v a d ) 。該方法通過檢測(cè)輸入信號(hào)的特性, 在噪聲環(huán)境下分辨當(dāng)前語音信號(hào)是語音還是靜音,并做出判決指示( v a d 的指令輸出) 。 雖然v a d 的判決指示只是個(gè)開關(guān)量,但其對(duì)整個(gè)a l c 系統(tǒng)的控制優(yōu)劣起到了非常重要 的作用。v a d 主要是利用人類語音的統(tǒng)計(jì)特性,如幅度、能量、準(zhǔn)周期性、過零率、 頻域特性等,按照最大似然的原則進(jìn)行判決。各種算法的基本思想就是提取某種能夠區(qū) 分語音和噪聲的語音特征參數(shù);或?qū)φZ音信號(hào)加以變換,得到對(duì)語音和噪聲有明顯差別 的結(jié)果,從而找出二者的分界點(diǎn)。還可以同時(shí)利用多個(gè)語音特征進(jìn)行語音檢測(cè)1 9 j 。 按照協(xié)議規(guī)定,a l c 系統(tǒng)在不影響傳輸信號(hào)尤其是語音的質(zhì)量的前提下,采用信號(hào) 增益控制,根據(jù)指定的輸出電平,自動(dòng)調(diào)整輸入信號(hào)電平的大小。 1 5 噪聲消除的應(yīng)用背景和分類 人們?cè)谡Z音通信過程中不可避免地會(huì)受到來自周圍環(huán)境、傳輸媒介引入的噪聲、通 信設(shè)備內(nèi)部電噪聲乃至其它講話者的干擾。這些干擾最終將使接收者接收到的語音已非 一6 一 大連理工大學(xué)碩士學(xué)位論文 純凈的原始語音信號(hào),而是受噪聲污染的帶噪語音信號(hào)。 由于噪聲污染使許多語音處理系統(tǒng)的性能急劇惡化。在噪聲環(huán)境中尤其是強(qiáng)噪聲環(huán) 境,語音識(shí)別系統(tǒng)的識(shí)別率將受到嚴(yán)重影響。語音編碼,特別是參數(shù)編碼( 如:聲碼器) , 當(dāng)模型參數(shù)的提取受到混雜在語音中背景噪聲嚴(yán)重干擾時(shí),重建語音的質(zhì)量將急劇惡 化,甚至變得完全不可懂。在上述情況下,消噪作為一種預(yù)處理手段已經(jīng)在語音處理中 必不可少了。 由于干擾的隨機(jī)性,從帶噪語音中提取完全純凈的語音幾乎不可能。單信道語音消 噪方法種類繁多,它們都是根據(jù)噪音信號(hào)和語音信號(hào)的特征作具有針對(duì)性的研究。 對(duì)各種方法加以概括,大致將語音增強(qiáng)【1 1 1 方法分成如下五類: ( 1 ) 參數(shù)方法:如維納濾波、梳狀濾波器、卡爾曼濾波器等。此類方法依賴于使用的語 言生成模型( 例如a r 模型) ,需要提取模型參數(shù)( 如基音周期、l p c 系數(shù)) ,常使用疊 代方法。如果實(shí)際噪聲或語音條件與模型有較大差距或提出模型參數(shù)有困難,這類 方法容易失效。 ( 2 ) 非參數(shù)方法:如譜減法、自適應(yīng)濾波等。因?yàn)椴恍枰獜膸г胄盘?hào)中估計(jì)模型參數(shù), 非參數(shù)方法應(yīng)用范圍廣,限制較少。也因?yàn)榧s束條件少,沒有利用可能的統(tǒng)計(jì)信息, 結(jié)果一般不是最優(yōu)的。 ( 3 ) 統(tǒng)計(jì)方法:如隱馬爾科夫模型、純凈語音譜和帶噪語音譜對(duì)應(yīng)映射、極大后驗(yàn)概率 估計(jì)( m a p m a x i m u ma - p o s t e d o d ) 、最小均方誤差估計(jì)( m m s e m i n i m u mm e s _ ns q u a r e e r r o r ) 等。統(tǒng)計(jì)方法較多地利用了語音和噪聲的統(tǒng)計(jì)特性,一般需要建立模型庫(kù)。 ( 4 ) 多通道方法:如噪聲抵消法、延遲相加波束形成器( d e l a y s u mb e a m f o r m e r ) 、自 適應(yīng)波束形成器( a d a p t i v eb e a m f o r r n e 0 、后濾波波束形成器( p o s t - f i l t e r i n gb e a m f o r m e r ) 、獨(dú)立分量分析( i c a i n d e p e n d e n tc o m p o n e n ta n a l y s i s ) 等。多通道方法利用 了更多的信息,包括空間信息,可以更好地濾除噪聲、分離語音,但對(duì)硬件設(shè)備要 求高,算法一般較復(fù)雜。 ( 5 ) 其他方法:如小波濾波、卡維南一洛維變換、人工神經(jīng)網(wǎng)絡(luò)等。這些方法不像前幾 類方法那樣成熟。 這些方法間沒有太大的內(nèi)在聯(lián)系,各自有各自的優(yōu)缺點(diǎn)。其中譜減法適用于平穩(wěn)噪 聲背景或者緩慢變化的非平穩(wěn)噪聲環(huán)境,且無需知道噪聲的先驗(yàn)知識(shí),以其簡(jiǎn)單有效而 深受人們的重視。本文就是基于譜減法的一種改進(jìn)方法,利用聽覺掩蔽的作用來減小音 樂噪音的影響。 基于模塊化的語音信號(hào)預(yù)處理 1 6 自激的形成及孔p s f j 方法的概述 在擴(kuò)聲系統(tǒng)中如圖4 1 所示,常存在正反饋而產(chǎn)生的振蕩,即自激【1 3 j 。按照振蕩形成 的原理,一個(gè)系統(tǒng)只有在滿足以下兩個(gè)條件時(shí)才能形成振蕩,即振幅平衡條件和相位平衡 條件例。所謂振幅平衡就是當(dāng)某頻率的反饋信號(hào)幅度大于此頻率原先輸入信號(hào)的幅度時(shí) 引起的振蕩,或者說,系統(tǒng)對(duì)某頻率的閉環(huán)電壓放大倍數(shù)大于1 。所謂相位平衡是當(dāng)某頻率 的反饋信號(hào)與此頻率輸入信號(hào)同相位時(shí)引起的振蕩,即必須構(gòu)成正反饋才能引起振蕩。 在寬頻帶的噪音環(huán)境中,很容易產(chǎn)生滿足振蕩條件的信號(hào)頻率點(diǎn)進(jìn)入傳聲器變成電 信號(hào),并且通過從調(diào)音臺(tái)到功率放大器等設(shè)備的放大,再經(jīng)過揚(yáng)聲器系統(tǒng)變成聲信號(hào)輻 射出來,經(jīng)過某個(gè)途徑重新回到傳聲器,由于此頻率信號(hào)在整個(gè)擴(kuò)聲系統(tǒng)中的閉環(huán)電壓 放大倍數(shù)已滿足大于1 的條件,所以再次進(jìn)入傳聲器時(shí),就比原先進(jìn)入傳聲器的信號(hào)幅 度要大,那么經(jīng)過一個(gè)新的循環(huán)后在幅度上比第一次從揚(yáng)聲器出來后返回傳聲器的信號(hào) 幅度大一些,如此一個(gè)循環(huán)、一個(gè)循環(huán)地反復(fù)放大,信號(hào)幅度也越來越大。通過若干次 循環(huán)后,從揚(yáng)聲器輻射出來的聲音已達(dá)到可以感覺到的響度,此時(shí)就覺察到嘯叫的苗頭 糾。繼續(xù)循環(huán)下去,聲音會(huì)越來越大,最后達(dá)到不能忍受的程度。當(dāng)然這個(gè)過程比電子 電路中振蕩形成的時(shí)間要長(zhǎng)得多。因?yàn)樵跀U(kuò)聲系統(tǒng)的閉環(huán)中有一個(gè)揚(yáng)聲器輻射出來的聲 信號(hào)從揚(yáng)聲器系統(tǒng)經(jīng)過空間傳播,或者再加上傳播到某個(gè)界面后反射出來的聲波再在空 間傳播后到達(dá)傳聲器這個(gè)過程,而聲波在空間傳播的速度比較低,按照每秒傳播3 4 0m 的速度計(jì)算,如果揚(yáng)聲器輻射出來的聲波通過某個(gè)途徑返回到傳聲器需要走1 7m 路程的 話,并且不考慮電信號(hào)在設(shè)備電路中傳播所需的時(shí)間,一個(gè)閉環(huán)循環(huán)需要5 0m s 。假設(shè)閉 環(huán)增益為ld b ,也就是閉環(huán)電壓放大倍數(shù)為1 1 2 ,稍大于l ,假定最初進(jìn)入傳聲器的該頻 率噪聲信號(hào)聲壓級(jí)為2 0d b ,則達(dá)n 6 0d b 這個(gè)已經(jīng)能聽出嘯叫苗頭的聲壓級(jí)需要循環(huán)4 0 次,即需要2s 。這時(shí)如果不盡快將系統(tǒng)對(duì)此頻率的閉環(huán)電壓放大倍數(shù)拉下來,使之閉環(huán) 電壓放大倍數(shù)降到小于1 ,就形成了嘯叫聲。 “c “氌由 i o u db - p e a l l c a ) s ) a s t c r n 圖1 1 音頻放大系統(tǒng)中的反饋 f i g 1 1 t h ef e e d b a c ko fa u d i oa m p l i f ys y s t e m 引起擴(kuò)聲系統(tǒng)自激的條件:一是某一反饋頻率的相位與輸入頻率的相位相同:二 是反饋的量要足夠大。要防止聲反饋就必須抑制它產(chǎn)生自激的條件,通常抑制嘯叫的方 一8 一 大連理工大學(xué)碩士學(xué)位論文 法i b j 有: ( 1 ) 在擴(kuò)聲系統(tǒng)設(shè)計(jì)、安裝時(shí)采取措施,盡量減小可能的聲反饋。例如選擇頻率響應(yīng)平 直的電聲器件;利用電聲器件的指向性降低聲反饋;利用均衡技術(shù)抑制聲反饋等。 ( 2 ) 利用中心頻率位于嘯叫頻率點(diǎn)處的陷波濾波器對(duì)輸入信號(hào)進(jìn)行陷波處理,降低發(fā)生 嘯叫頻率點(diǎn)處的開環(huán)增益,抑制聲反饋量。該方法簡(jiǎn)單有效,但對(duì)音質(zhì)有影響。 ( 3 ) 采用移頻技術(shù),破壞嘯叫的相位條件。然而這種方法的嘯叫抑制效果并不好,常常 控制了一個(gè)頻率點(diǎn)的嘯叫,系統(tǒng)又會(huì)在另外一個(gè)頻率點(diǎn)嘯叫經(jīng)試驗(yàn)表明,當(dāng)移頻較 大時(shí),一句話的結(jié)尾處會(huì)出現(xiàn)金屬拖尾聲,對(duì)音質(zhì)有一定的影響。 ( 4 ) 采用自適應(yīng)回音抵消器,通過消除揚(yáng)聲器到傳聲器的回音來抑制嘯叫。該方法效 果很好,同時(shí)也不會(huì)對(duì)語音音質(zhì)產(chǎn)生任何影響,但是其算法很復(fù)雜。因此,實(shí)現(xiàn)所 需要硬件成本很高。 ( 5 ) 隨機(jī)相位抑制嘯叫方法,這也是本文所用的方法。這個(gè)方法利用了人類對(duì)語音相位 不太敏感的特點(diǎn),破壞產(chǎn)生自激的條件,從而達(dá)到抑制嘯叫的作用。這個(gè)方法也可 以提高傳輸增益。 1 7 高電平補(bǔ)償?shù)膽?yīng)用背景 人的耳朵聽覺頻率可以從2 0 h z 2 0 k h z ,它的下端次聲波和它高端超聲波是聽不到 的。人們把2 0 h z 2 0 k h z 之間的頻率劃分為幾個(gè)區(qū),如高中低三個(gè)區(qū)【1 4 1 。不同的說話人 發(fā)出聲音的頻率范圍也不同。男人的聲音整體比女人聲音的頻率范圍低,同一個(gè)人發(fā)出 不同的音時(shí),頻率值也不同。因?yàn)槿硕哂械奶厥饨Y(jié)構(gòu),對(duì)于不同的頻率范圍,語音 信號(hào)的主觀感覺也不同,所以才會(huì)出現(xiàn)當(dāng)一個(gè)人用同樣功率大小的聲音說話時(shí),對(duì)方聽不 清楚某個(gè)字或某個(gè)音的狀況。等響度控制是一種帶補(bǔ)償?shù)囊袅靠刂破?。它能補(bǔ)償人耳在 不同音量情況下對(duì)頻率特性的主觀差異,使音量不論開大開小,聽覺感受只是聲音的響 度發(fā)生變化,而其頻響不變。聲音的響度與聲壓有關(guān)。一般情況下,聲壓較高,響度也 越大。但人耳對(duì)不同頻率聲音的響度主觀感覺是不同的。在音量較低的情況下,總是對(duì) 中音比較敏感,而對(duì)低音和高音的比較遲鈍,而且音量越低,這種情況越顯著。 從聲學(xué)的角度來看,這一領(lǐng)域的研究人員通過長(zhǎng)時(shí)間的實(shí)踐研究,得出了等響度曲 線,找出了其中的規(guī)律。本文主要研究通過將等響度曲線的各點(diǎn)與語音信號(hào)的頻域范圍 的聲壓級(jí)各點(diǎn)加權(quán)來得到主觀聽覺上的等響效果。 一9 一 基于模塊化的語音信號(hào)預(yù)處理 1 8 本文工作 本文首先介紹了語音信號(hào)處理的基本分析方法,并概述了心理聲學(xué)對(duì)語音信號(hào)處理 的影響。然后,分別介紹了語音預(yù)處理的幾個(gè)模塊,其中為自動(dòng)電平控制,自適應(yīng)噪聲 抑制,自激抑制,高電平補(bǔ)償?shù)幕驹?,?shí)現(xiàn)方法和性能分析評(píng)估。 本章是概述,本文的其他章節(jié)安排如下: 第二章介紹了自動(dòng)電平控制方法中的兩部分實(shí)現(xiàn),其中v a d 的原理與d b m o 的 計(jì)算,以及該方法的性能分析。 第三章簡(jiǎn)介了譜減法和聽覺掩蔽的基本原理,以及將其應(yīng)用到其中的改進(jìn)消噪法 的實(shí)現(xiàn)和評(píng)估。 第四章介紹了h o w l i n g 的形成和隨機(jī)相位的h o w l i n g 抑制方法的實(shí)現(xiàn)與仿真評(píng)估。 第五章介紹了等響度曲線的概念以及高電平補(bǔ)償?shù)膶?shí)現(xiàn)方法與結(jié)果分析。 最后部分是對(duì)全文工作的概括和總結(jié),以及對(duì)語音信號(hào)預(yù)處理系統(tǒng)的下一步研究方向的 展望。 大連理工大學(xué)碩士學(xué)位論文 2 自動(dòng)電平控制 2 1 基于r m s 自動(dòng)電平控制方法的提出 自動(dòng)增益控制( a u t o m a t i cg a i nc o n t r o l ,a g c ) 技術(shù)在數(shù)字通信、語音處理、測(cè)試設(shè) 備等多方面的應(yīng)用十分廣泛【i 引。傳統(tǒng)的自動(dòng)增益控制都是用模擬電路實(shí)現(xiàn),其性能很大 程度上受電路本身如響應(yīng)時(shí)間、動(dòng)態(tài)范圍等的限制。在a g c 系統(tǒng)中使用數(shù)字信號(hào)處理 方法,可避免控制電路的影響,設(shè)計(jì)靈活、精度高、控制范圍大,更有效地提高自動(dòng)增 益控制的性能。 對(duì)于經(jīng)過通信傳輸或者放大系統(tǒng)的語音信號(hào)幅度經(jīng)常發(fā)生很大波動(dòng)這種現(xiàn)象,a l c 系統(tǒng)通過實(shí)現(xiàn)一種優(yōu)化語音信號(hào)電平的方法,提高語音質(zhì)量。自動(dòng)電平控制( a u t o m a t i c l e v e lc o n t r o l ,a l c ) 與自動(dòng)增益控制都是為了把信號(hào)電平調(diào)整至最優(yōu)值【l5 1 ,但前者主要 用于語音信號(hào)處理上;傳統(tǒng)a g c 則是連續(xù)地調(diào)整系統(tǒng)增益以控制傳輸信號(hào)幅度。 本文的a l c 系統(tǒng)是建立在語音激活檢鋇u ( v a d ) 基礎(chǔ)上的實(shí)時(shí)調(diào)整語音信號(hào)電平的 技術(shù)。首先,根據(jù)語音信號(hào)的短時(shí)平穩(wěn)性,將語音信號(hào)分段處理。利用語音幀之間的相 關(guān)性,計(jì)算出當(dāng)前幀與相鄰幀的長(zhǎng)時(shí)功率值,再與預(yù)設(shè)值作比較得到增益值,用這個(gè)值 調(diào)整當(dāng)前幀的電平。由于人的語音信號(hào)是不連續(xù)的,存在非語音幀的情況。如果不考慮 語音幀和靜音幀的分類,直接計(jì)算增益值,就會(huì)將噪音信號(hào)幀作為參考計(jì)算進(jìn)去。但背 景噪音與語音信號(hào)間沒有必然的相關(guān)性,這樣直接計(jì)算反而會(huì)引起語音信號(hào)的不穩(wěn)定。 所以在自動(dòng)增益控制之前加一個(gè)v a d 檢測(cè)部分,先將語音信號(hào)分成兩類,語音幀和靜音 幀。再以歸類為語音幀的信號(hào)作為參考計(jì)算長(zhǎng)時(shí)功率值與一個(gè)標(biāo)準(zhǔn)值進(jìn)行比較調(diào)整。如 果遇到靜音幀則可忽略,利用其前一個(gè)語音幀作為下一個(gè)語音幀的調(diào)整參數(shù)。調(diào)整趨勢(shì) 圖如圖2 1 ,結(jié)構(gòu)圖如圖2 2 ,。 一一:二:二二:= = - 判決門限 一一一一一一 一 圖2 1調(diào)整的趨勢(shì)圖 f i g 2 1 t h et r e n do ft h ea d j u s t i n gp r o c e s s 基于模塊化的語音信號(hào)預(yù)處理 圖2 2 自動(dòng)電平控制的結(jié)構(gòu)圖 f i g 2 2 t h es t r u c t u r eo f a u t o m a t i cl e v e lc o n t r o l 2 2 兩級(jí)動(dòng)態(tài)v a d 檢測(cè) 2 2 1 基本的v a d 檢測(cè)參數(shù) v a d ( v o i c ea c t i v i t yd e t e c t o r ) 語音激活檢測(cè),是指采用一定的信號(hào)處理技術(shù)檢測(cè)信號(hào) 是否是語音信號(hào),或信號(hào)中是否含有語音信號(hào)。v a d 的主要方法是利用人類語音的統(tǒng)計(jì) 特性,如幅度,能量,過零率,準(zhǔn)周期性,頻率特性等,按照最大似然的原則進(jìn)行判決 1 1 6 j 。各種算法的基本思想是提取某種能夠區(qū)分語音和噪聲的語音特征參數(shù),或?qū)ζ浼右?變換,得到對(duì)語音和噪聲有明顯差別的結(jié)果,從而找出兩者的分界點(diǎn),或依據(jù)多個(gè)語音 特征進(jìn)行語音檢測(cè)。 下面將分析各種經(jīng)典檢測(cè)算法提取特征參數(shù)【1 6 1 刀的有效性及其優(yōu)劣。 1 短時(shí)能量檢測(cè) 通常在信噪比較高的情況下,語音的能量總是要大于背景噪聲的能量,所以短時(shí)能 量檢測(cè)就利用語音和噪聲能量上的差別進(jìn)行檢測(cè)。如果語音能量大于閾值,就判斷為語 音,反之判為靜音,判斷過程如下 e = s 2 ( f ) w z 一f )( 2 1 ) z = - o o 其中,s ( f ) 是語音信號(hào),w ( n ) 是短時(shí)窗設(shè)定一個(gè)判決門限口,則判決結(jié)果為 大連理工大學(xué)碩士學(xué)位論文 l o 萇: 億2 , 但它不能非常有效地檢測(cè)清音,即可能存在漏檢的現(xiàn)象,將能量小的語音判為靜音, 或把能量大的噪音誤判為語音。 2 短時(shí)自相關(guān)函數(shù)檢測(cè) 短時(shí)自相關(guān)函數(shù)是語音信號(hào)時(shí)域分析的一個(gè)重要參量,利用語音和噪聲在相關(guān)性上 不同這個(gè)特性進(jìn)行區(qū)別檢測(cè)。大多情況下背景噪聲是一種準(zhǔn)白噪聲,其相關(guān)度極低,而 語音是具有高度相關(guān)性的信號(hào),并且相關(guān)性與信號(hào)的能量無關(guān),所以當(dāng)信號(hào)的能量大小 接近或低于背景噪聲時(shí),通過自相關(guān)檢測(cè)也能很好的分別語音和靜音。 r ( 七) = s ( i ) w ( n - i ) s ( i + k ) w ( n - i - k ) ( 2 3 ) 這里,窗長(zhǎng)為0 刀n - i 。它的判斷過程同短時(shí)能量類似,它的判決門限是利用前 2 0 幀計(jì)算得到: r 咒= 麗1 - vr ( f ) ( 2 4 ) 咒2 麗去r u ) 蟛4 但是由于清音的相關(guān)性也較小,有時(shí)會(huì)被判為噪聲,所以在以清音開始或結(jié)束的語 音中使用短時(shí)自相關(guān)函數(shù)進(jìn)行檢測(cè)可能會(huì)產(chǎn)生斷斷續(xù)續(xù)的感覺。 3 短時(shí)平均過零率檢測(cè) 語音信號(hào)是寬帶信號(hào),應(yīng)用短時(shí)平均過零率的表示方法可以得到語音信號(hào)譜特性的 粗略估計(jì)。因?yàn)闈嵋粽Z音能量約集中在3 k i - i z 以下,而清音語音的多數(shù)能量是出現(xiàn)在較高 的頻率上,高頻具有較高的過零率,而低頻則較低。而噪聲的過零率一般沒有規(guī)律,是 隨機(jī)分布的,過零率大小介于清音與濁音之間。大量的實(shí)驗(yàn)數(shù)據(jù)說明,清音的短時(shí)平均 過零率均值為4 7 過零1 0 m s 。濁音的短時(shí)平均過零率均值為1 4 過零1 0 m s 1 8 1 。用短時(shí)過零 率算法檢測(cè)時(shí),通常是通過計(jì)算每幀信號(hào)的過零率z ( n ) 再將它與設(shè)定的閾值相比較, 即 唧m = 二。= 億5 , z ( 刀) = s g n 【x ( f ) 卜s g n x ( f 1 ) 】i ( 2 6 ) 基于模塊化的語音信號(hào)預(yù)處理 利用過零率作檢測(cè)所得到的結(jié)果如下 0 5 0 旬5 柏 2 0 0 u i 一 l f r t l ” 一 , 【 耳 如圖2 4 所示,在背景噪聲環(huán)境下,背景噪聲的過零率明顯大于濁音信號(hào),我們可以 判斷出當(dāng)前幀是否為語音信號(hào)。但是由于混合語音中清音的過零率與噪聲相當(dāng),所以很 多時(shí)候無法判斷出以清音作為起點(diǎn)或者終點(diǎn)的語音。所以在某些語音環(huán)境中只使用過零 率檢測(cè)可能正確率不會(huì)很高。 4 短時(shí)平均幅度差函數(shù) 短時(shí)自相關(guān)函數(shù)是語音時(shí)域分析的一個(gè)重要參數(shù),但其運(yùn)算量很大,對(duì)硬件要求也 較高。而短時(shí)平均幅度差函數(shù)與自相關(guān)函數(shù)有相似的作用,例如判斷清音段和濁音段, 但是運(yùn)算量和對(duì)硬件的要求可以降低很多。短時(shí)平均幅度差函數(shù)定義為: c ( 七) = i 1 i x o + 歷) 嵋( 聊) 一x ( 療+ 朋+ 七) ( 所+ 七) i ( 2 7 ) 式中,尺= l x ( 刀) l 是信號(hào)x ) 的平均值。這里使用矩形窗作為窗函數(shù),兩個(gè)窗長(zhǎng)度不 n = 0 同,這樣,上式可簡(jiǎn)化為: 大連理工大學(xué)碩士學(xué)位論文 馳) = 去簍m 叫樅) i ,七- 0 l ,一,一l ( 2 8 ) 由于短時(shí)平均幅度差函數(shù)只需要加、減法和取絕對(duì)值的運(yùn)算,硬件實(shí)現(xiàn)較為簡(jiǎn)單。 0 一j l 】 l 眥。址一。山h i 芬 r 一?r l r r 一 開 耵1f i - 圖2 6 語音信號(hào)的幅度差 f i g 2 6 s h o r t - t i m ea v e r a g em a g n i t u d ed i f f e r e n c e 綜上,各個(gè)參數(shù)的性能指標(biāo)歸納如下表。 表2 1 各種檢測(cè)算法及性能指標(biāo) t a b l e 2 1a l lk i n d so fd e t e c t i o na l g o r i t h m sa n dp e r f o r m a n c ep a r a m e t e r s 性能指標(biāo) 計(jì)算 區(qū)分清濁音有效性區(qū)分清噪音有效性 檢測(cè)算法復(fù)雜度純凈語音混合語音純凈語音混合語音 短時(shí)能量 簡(jiǎn)單一般較低一般很低 短時(shí)自相關(guān) 復(fù)雜較高一般較高一般 短時(shí)平均過零率簡(jiǎn)單很高很高較低較低 短時(shí)平均幅度差簡(jiǎn)單較高較高較高一般 基于模塊化的語音信號(hào)預(yù)處理 2 2 2 基于過零率和平均幅度差的二級(jí)動(dòng)態(tài)語音激活檢測(cè)算法 由于語音和噪音的多樣性和各種靜音檢測(cè)算法提取的特征參數(shù)不同,使用單一的靜 音檢測(cè)算法在很多情況下并不能有效檢測(cè)靜音和語音;而多級(jí)靜音檢測(cè)算法綜合多種特 征參數(shù),檢測(cè)效果比單一檢測(cè)要好得多。但是每增加一級(jí)檢測(cè)算法就增加一定計(jì)算量和 算法復(fù)雜度,導(dǎo)致處理時(shí)延增加,兩在一定級(jí)數(shù)以后檢測(cè)精度也不再增加,所以多級(jí)靜 音檢測(cè)的級(jí)數(shù)也不宜太多,一般選取2 、3 級(jí)為宜。 本文使用兩級(jí)檢測(cè)算法,從上表可以看出當(dāng)短時(shí)能量在強(qiáng)噪聲環(huán)境下進(jìn)行檢測(cè)時(shí), 效果很差,不適合實(shí)際應(yīng)用。短時(shí)平均過零率具有很強(qiáng)的區(qū)分清濁音的能力,可以將其 作為第一級(jí)檢測(cè),根據(jù)濁音的過零率遠(yuǎn)小于噪聲的前提條件,直接將濁音部分判斷為語 音。對(duì)于當(dāng)清音的過零率與噪音的過零率比較接近的情況,將短時(shí)平均幅度差函數(shù)作為 第二級(jí)檢測(cè)以提高清音在混合語音中檢測(cè)的準(zhǔn)確率。短時(shí)自相關(guān)檢測(cè)算法性能較好,但 計(jì)算復(fù)雜度較大,而短時(shí)平均幅度差函數(shù)不僅可以達(dá)到與短時(shí)自相關(guān)函數(shù)相近的檢測(cè)效 果,而且計(jì)算簡(jiǎn)單,所以選擇短時(shí)平均幅度差函數(shù)作為第二級(jí)檢測(cè)算法,如圖2 7 所示。 首先,對(duì)語音信號(hào)進(jìn)行分幀,利用前2 0 幀計(jì)算出短時(shí)平均過零率和短時(shí)平均幅度 差的判斷閾值的初始值,即 2 0 = 去z ( 刀) ( 2 9 ) un = l 1 1 2 0 r f = 熹c ( 刀) ( 2 1 0 ) l v 開= l 其中n 為語音幀數(shù)。 第二,對(duì)輸入信號(hào)幀作第一級(jí)檢測(cè),利用式( 2 5 ) 、( 2 6 ) 計(jì)算出該幀的過零率與閾值 比較。當(dāng)大于閾值時(shí),進(jìn)入第二級(jí)檢測(cè);當(dāng)小于閾值時(shí),直接輸出v a d 判斷為l 。 第三,用式( 2 8 ) 計(jì)算進(jìn)入第二級(jí)的信號(hào)幀,讓它與閾值作比較。大于閾值時(shí),v a d 輸出l :小于閾值時(shí),v a d 輸出o 。 因?yàn)楸尘碍h(huán)境具有隨機(jī)性,為使判斷更加準(zhǔn)確,在每次檢測(cè)到靜音幀時(shí),就更新背 景噪聲的過零率和短時(shí)平均幅度差的判決門限。這樣的v a d 檢測(cè)在變化的環(huán)境中就更 具有魯棒性。 大連理工大學(xué)碩士學(xué)位論文 初始語音 i 信號(hào)分段 1r 閾值初始化 圖2 7v a d 檢測(cè)算法的結(jié)構(gòu)圖 f i g 2 7 t h es t r u c t u r eo fv a da l g o r i t h m 2 2 3 動(dòng)態(tài)二級(jí)m a d 檢測(cè)的性能分析 作為自動(dòng)電平控制的前提條件,這部分性能的好壞直接影響到整個(gè)自動(dòng)電平控制的 性能的好壞。要實(shí)現(xiàn)實(shí)時(shí)的調(diào)整信號(hào)電平的功能,就應(yīng)該盡量減小v a d 檢測(cè)所帶來的時(shí) 延。該動(dòng)態(tài)的二級(jí)檢測(cè)算法就是從減小計(jì)算量,抗變化噪聲環(huán)境的角度設(shè)計(jì)的。如圖2 8 所示,這是一段信噪比為9 2 d b 的語音信號(hào),從圖中可以看出,該方法檢測(cè)具有較高的 分辨率,能檢測(cè)出語音信號(hào)間的間斷部分。但該方法對(duì)于語音信號(hào)末端的緩變部分會(huì)有 一些損失,在a l c 系統(tǒng)中影響不大。 大連理工大學(xué)碩士學(xué)位論文 做,雖然計(jì)算簡(jiǎn)單,時(shí)延小,但也存在著風(fēng)險(xiǎn)。如果噪音能量很大,則很可能沒辦法準(zhǔn) 確判斷出參數(shù)計(jì)算幀,所以也不適合。 第三,采用v a d 檢測(cè),先判斷出語音幀,再根據(jù)語音幀之間的相關(guān)性,利用前一語 音幀算得的調(diào)整參數(shù)幀,調(diào)整當(dāng)前幀。如果判斷出不是語音幀,則可使用上一次存儲(chǔ)的 參數(shù)調(diào)整。直到下一個(gè)有效的語音幀更新的參數(shù)。這個(gè)方法很容易使調(diào)整參數(shù)變化太快, 而使語音信號(hào)失真。 2 4 2r m 8 增益控制算法的實(shí)現(xiàn) a l c 系統(tǒng)必須具備以下技術(shù)特性: ( 1 ) 實(shí)時(shí)、自動(dòng)地調(diào)整系統(tǒng)增益,控制話路中的信號(hào)以接近目標(biāo)電平值傳輸。 ( 2 ) 可區(qū)分噪聲與有用信號(hào),僅對(duì)有效語音信號(hào)進(jìn)行電平控制。 本文實(shí)現(xiàn)的是基于r m s 功率比較的自動(dòng)增益控制算法,在保證語音質(zhì)量的同時(shí)實(shí)現(xiàn) 自動(dòng)電平控制,如圖2 1 所示。對(duì)經(jīng)v a d 檢測(cè)被判斷為語音信號(hào)的各幀作r m s 功率估計(jì), 即 1 , 2 丘= 寺i 以( ,z ) l k = l 2 一 ( 2 1 2 ) 療= l 是每幀語音的樣點(diǎn)總數(shù),以( ,z ) 是信號(hào)樣點(diǎn)幅值,k 代表輸入的幀序號(hào)。式( 2 1 2 ) 計(jì)算 的單幀語音功率用于更新長(zhǎng)時(shí)r m s 功率估計(jì)值s ( k ) s ( k ) = o t s ( k - 1 ) + ( 1 - a ) x :,s ( o ) = 0 ( 2 1 3 ) 功率平滑因子0 口 l ,口值越大,最近輸入的一幀語音能量對(duì)s ( 七) 影響越小,此時(shí)s ( 七) 變換趨于平緩,更利于反映較長(zhǎng)時(shí)間內(nèi)的信號(hào)能量均值。但口取值非常接近l 時(shí),s ( k ) 的 變化相當(dāng)緩慢而無法體現(xiàn)語音的瞬時(shí)變化,反而造成控制處理失真。 為求得功率估計(jì)與目標(biāo)電平的偏差,要先將功率值轉(zhuǎn)換到與目標(biāo)電平相應(yīng)的對(duì)數(shù) 域,即 d b s ( k ) = 1 0 l g s ( k ) ( 2 1 4 ) 利用目標(biāo)電平與功率估計(jì)均值的偏差,可計(jì)算a g c 的增益因子 g ( 尼) = g ( k 1 ) + ( 卜) 1 0 卜冊(cè)) | ,2 0 ( 2 1 5 ) 其中,g ( k ) 是當(dāng)前一幀語音的增益。目標(biāo)電平t 以d b 為單位,丁與d b s ( k ) 兩者的差值 基于模塊化的語音信號(hào)預(yù)處理 以及增益平滑因

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論