時延估計算法綜述_第1頁
時延估計算法綜述_第2頁
時延估計算法綜述_第3頁
時延估計算法綜述_第4頁
時延估計算法綜述_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

時延估計算法綜述

聲源定位技術在過去,隨著各種電子設備的智能,語音輸入和源跟蹤技術已經成為語音通信領域不可或缺的兩種技術。例如,在視頻會議中,通過聲源定位技術控制攝像頭,使其自動轉向感興趣的說話人方向;對于高速行駛的車輛,為避免駕駛員用手去接聽電話,車載免提電話應運而生。然而,當車中坐有多個說話人時,語音識別系統(tǒng)就無法辨別實際命令的來源,此時就需要一種定位系統(tǒng)來提取駕駛員方位的語音,進而對其命令作出響應;助聽器的出現(xiàn)為有聽覺障礙的殘疾人提供了幫助,基于陣列的語音增強技術利用聲源的位置信息進行空間濾波,可以進一步抑制除說話人以外的其他方向的噪聲,使得助聽器話音更加清晰。近年來,基于聲源定位技術的電子筆系統(tǒng)成為研究熱點,用于接收的麥克陣列以不同方式集成在顯示器邊緣,此時設計出的電子筆就可以在屏幕上進行書寫或者相應地控制操作。時延估計(Timedelayestimation,TDE)是語音增強與聲源定位領域內的一項關鍵技術。所謂時間延遲,是指傳感器陣列中不同傳感器接收到的同源信號之間由于傳輸距離不同而引起的時間差。TDE就是利用參數估計和信號處理的理論和方法,對上述時間延遲進行估計和測定。基于TDE的雙步聲源定位就是先估計出信號在不同陣元處的到達時間差(Timedelayofarrival,TDOA),進而再利用這些參數通過雙曲線方程進行定位。由于誤差擴散效應,TDE估計精度關系著整個定位系統(tǒng)的性能,因而成為語音通信領域內關注的熱點。從20世紀70年代開始,許多大學和實驗室就已經投入到了該領域的研究中,例如布朗大學,貝爾實驗室以及以色列技術學院等,他們先后提出了不同的TDE方法。最初得到廣泛應用的包括廣義互相關(GCC)方法和自適應最小均方(LMS)方法。鑒于GCC受混響的影響比較嚴重,文獻分別對其作了改進。文獻提出了倒譜預濾波(Cepstralprefiltering,CEP)技術,通過對通道特性的分析,有目的地去除信號中受反射影響嚴重的部分,再將預濾波后的信號通過GCC方法進行TDE。與CEP方法不同,文獻提出的基音加權的GCC方法更多地考慮了信號本身的特性,特別適用于具有周期特性的信號源(如語音)。近年來,文獻[15,16,17,18,19,20]又分別提出了基于控間的特征值分解(EVD)和基于傳遞函數比(ATF-sratio)的TDE方法,前一種是基于子空間的技術,后一種是利用信號到達兩個麥克風的傳遞函數比來求解。然而,一個好的時延估計算法不僅要能夠在低信噪比和強混響的條件下精確地估計出時延,而且應該具有較低的運算量。1i,i和nit模型的不同理想情況下,陣列接收信號的模型可以用圖1(a)來表示。第i個麥克所接收到的信號為xi(t)=αis(t-τi)+ni(t)(1)式中:s(t)為源信號;τi,αi和ni(t)分別表示從聲源到第i個麥克風的時間延遲、幅度衰減和加性噪聲。然而,由于方向性噪聲以及混響的存在,實際環(huán)境中的模型(圖1(b))會更復雜。此時接收信號為xi(t)=p∑l=1hil(t)*s(t-dil)+ni(t)(2)式中:hil(t)為聲源到第i個麥克風處的第l條傳播路徑的脈沖響應;dil為相應的傳播時延;*表示線性卷積。直達路徑的時間差τij=dil-djl給出了TDOA值,這一參數將被用于雙曲定位中。2不同延遲估算方法2.1gcc方法的基本原理文獻提出的GCC方法是一種傳統(tǒng)的TDE估計方法。由于來自同一聲源的信號存在一定的相關性,通過計算不同麥克風所接收到的信號之間的相關函數,就可以估計出TDOA值。然而在實際環(huán)境中,由于噪聲和混響的影響,相關函數的最大峰會被弱化,有時還會出現(xiàn)多個峰值,這些都造成了實際峰值檢測的困難。GCC法就是在功率譜域對信號進行加權,突出相關的信號部分而抑制受噪聲干擾的部分,以便使相關函數在時延處的峰值更為突出。就兩個麥克風而言,接收到的信號x1(t)和x2(t)的互相關函數可以表示為Rx12(τ)=E(x1(t)x2(t-τ))≈α1α2Rs(τ-τ12)+Rn(τ)(3)式中:E為數學期望;近似項對于無混響和空間平穩(wěn)的噪聲成立。式(3)表明,如果信號的信噪比足夠大,TDOA可以從相關函數中獲得。相關函數的傅里葉變換給出了兩通道信號的互相關譜Gx12(f)=α1α2Gs(f)e-j2πfτ12+Gn(f)(4)然而,混響的存在使得信號中包含了多個回波分量,此時計算出的互相關函數會包含直達波與反射波形成的峰值,這些峰在低信噪比的條件下都會造成TDOA檢測的困難。特別對于寬帶語音信號,基音周期的存在使得互相關函數更加復雜。為了使TDOA估計不受信號本身特性的影響,并盡可能地抑制混響和噪聲,需要對觀察信號的頻譜做特殊處理,這就是GCC方法的出發(fā)點,并且由此得到的互相關函數被稱為GCC函數。GCC方法的基本思想如圖2所示。圖中:(·)′為共軛運算;ψg(f)為GCC的加權函數。文獻列舉了6種通用的加權函數,如表1所示??梢钥闯?GCC方法建立在非混響模型基礎上。由于受模型誤差的影響,它不能正確辨識多個說話人和方向性的干擾噪聲,并且更傾向于估計比較強的信號的TDOA值,所以GCC方法只能用于低混響和非相關噪聲的場合。然而在視頻會議中,絕大部分的噪聲均來自于方向性的干擾源,例如CPU風扇、投影儀和空調等。盡管如此,低的計算復雜度和易于實現(xiàn)的特點使得GCC方法還是得到了比較廣泛的應用。2.2cep方法的改進GCC方法盡管考慮了噪聲影響,但它假定聲源到麥克之間的通道響應為一簡單的延遲和衰減,文獻指出這樣的近似是不準確的。特別當混響超過一定限度時,TDE異常估計的百分比會突然增加(所謂異常,是指偏離實際時延較大的TDOA估計)。這是由于隨著混響程度的增加,反射波在相關函數計算中的峰值會隨之增加,加上噪聲的影響最終很有可能超過真實的峰值,造成相關估計器的輸出產生大的偏差。例如:圖3(a)是在10dB信噪比、無混響條件下的GCC函數,其真實的峰值出現(xiàn)在零時刻;圖3(b)是有混響條件下的GCC函數??梢钥闯?除了零時刻以外,在其他幾個時刻也同時出現(xiàn)了一些峰,這些峰是由反射波引起的,通常被稱作偽峰。圖3表明混響對時延估計造成了很大的干擾。針對這一問題,文獻對GCC算法做了進一步的改進。文獻提出了一種CEP的預濾波技術。由于任何一個系統(tǒng)都可以表示為最小相位系統(tǒng)和全通系統(tǒng)的級聯(lián),即Η(ω)=Ηmin(ω)?Ηap(ω)(5)文獻指出,路徑中的混響主要包含在系統(tǒng)的最小相位分量(Minimumphasecomponent,MPC)中,而全通分量(All-passcomponent,APC)則解釋了信號傳播的時延。如果將通道響應分解為APC和MPC兩部分,并保留其中的APC分量用于GCC求相關,就可以在一定程度上抑制混響的影響,提高時延估計算法的抗混響性能。然而,CEP方法也存在一些問題:(1)幀長的選擇比較困難。在分幀處理過程中,幀長的選擇不能過大以確保通道的特性是時不變或者是慢變的,另一方面,幀長要足夠大才能使功率譜的計算不受幀長的影響,也就是要避免當前幀的反射出現(xiàn)在下一幀或者前一幀的反射出現(xiàn)在當前幀。通常倒譜的估計需要比較長的幀長(200ms),同時還需要幾幀的平滑,因此需要將近1s的語音信號,從而導致了較大的延遲。(2)認為通道的MPC固定不變,而語音信號的MPC是時變且為零均值的,這樣的假設通常難以滿足。實際上,人的走動和開門等一些因素都會導致房間混響的變化。對于運動的源來說,幀間疊接可以保證跟蹤精度,但兩幀之間的時移并不能保證信號MPC的均值為零。(3)從計算量上來講,倒譜的計算需多做2次FFT和1次求對數運算,而且要隨著通道特性的變化不斷更新,這都增加了額外的計算量。所以,CEP-GCC方法雖然能夠取得較好的效果,但要實現(xiàn)實時處理還是比較困難。2.3tde的加標回收互功率譜相位(Cross-powerspectrumphase,CSP)是利用互功率譜的相位信息來估計時延,它對信號互功率譜的加權函數為ψCSΡ(f)=1|Gx12(f)|(6)式(6)相當于一白化變換。比較表1可以看出,這一方法等價于PHAT加權的GCC方法。在實際環(huán)境中,由于受噪聲和混響的影響,通過兩個麥克得到的TDE精度都不會很高。為改善TDE的性能,可以考慮利用多個麥克風,通過加入冗余的空間信息來獲得。文獻給出了一種多通道的廣義互功率譜相位(GeneralizedCSP,GCSP)時延估計方法。它將多通道信號的相關矩陣分解為信號部分和噪聲部分,再利用其中的信號部分估計互功率譜。由于增加了空間信息,利用GCSP進行時延估計的性能要優(yōu)于CSP,通常被認為是一種改進的CSP方法。2.4tde信號加權利用互相關進行時延估計的方法都沒有考慮信號本身的特性。文獻中作者指出,信號中具有明顯周期特性的部分受到外圍噪聲和多徑干擾的影響比較小,如果對信號中表現(xiàn)出周期特性的頻譜給以適當的加強,就可以在一定程度上提高抗噪和抗混響的性能,這便是基音加權的TDE方法,比較符合語音信號的特點。這種方法相當于改進的PHAT加權,它將兩通道中共同的信號分量加強,而其他(更可能為噪聲)部分被抑制,從而提高了噪聲和混響下的時延估計性能。另一方面,由于考慮了信號自身的特性,它也適合于多源檢測問題,此時處理器的復雜度會相應地增加,用以提取每個源的基音和諧波分量。2.5提取信號的初始段根據神經生物學,人耳利用兩耳間強度差(Interauralleveldifference,ILD)和兩耳間時間差(Interauraltimedifference,ITD)來確定聲源的位置。人在有混響的房間里也能正確辨認出聲源的位置,這主要是利用了聲音的超前效應,即聲音的直接分量總是先于反射分量到達人耳,也就是說人耳利用了未被反射污染的聲音段來定位,這段聲音稱為初始段。而在求時延時,通過提取這段聲音求GCC,就能較好地抑制混響的影響。包含混響的語音信號通常會呈現(xiàn)周期特性,然而語音段的包絡卻不會因為混響而呈現(xiàn)周期性,或者說包絡可以部分地掩蓋反射。如果在包絡中提取信號的初始段,就可以有效去除后端的反射分量。具體的包絡和其初始段的提取可以通過式(7,8)進行。envi(n)=max[β?envi(n-1),|xi(n)|]i=1,2(7)onseti(n)=max[0,envi(n)-envi(n-1)]i=1,2(8)式中β為包絡衰減因子(0<β<1)。圖4通過單位沖激響應信號描述了信號包絡和初始段的提取過程。可以看出,初始段信號去除了經反射形成的第2個脈沖。通過提取包絡初始段來進行時延估計受外圍環(huán)境的影響比較大,例如房屋幾何尺寸、聲源和麥克風位置以及麥克風特性等。2.6lms自適應方法自適應的LMS濾波能夠根據當前輸入信號的采樣來自適應地調整濾波器系數,使輸出誤差信號達到最小,而不需要輸入信號譜的先驗知識。因此LMS算法被廣泛地用于輸入信號的統(tǒng)計特性未知的情況下,基于同樣的考慮,LMS算法也被成功地引入到TDE中來。在雙麥克陣列中,如果以一個通道的信號為目標信號,另一個通道的信號為參考信號,就可以利用LMS方法來進行TDOA估計,其實現(xiàn)框圖見圖5。圖中z-p是為了保證系統(tǒng)的因果性而引入的,以便計算負的時延。從圖5可以看出,LMS時延估計器自動調節(jié)h(n),使其輸出逼近x1(n),實質上相當于在信號x2(n)中插入一個延遲來使兩個通道的信號對齊。在理想情況下,h(n)中對應于實際時延處的加權系數會收斂到1,而其他部分則收斂到0。最后,為獲得分數倍采樣的TDE,可以對h(n)進行插值操作。在觀察數據足夠多的情況下,LMS可以達到統(tǒng)計意義下的最優(yōu)濾波器,即Wiener濾波器,其頻域表達式為Η(ω)=G-122(ω)G12(ω)比較表1中的Roth處理器可以看出,在統(tǒng)計意義下,LMS方法與Roth加權的GCC估計法相似,但是兩者的出發(fā)點和前提條件不同。GCC是從信號互相關的角度來進行時延估計,它基于信號和噪聲的先驗知識,需要大量數據運用統(tǒng)計的方法得出,而實際操作中,GCC方法往往只用一幀數據就獲得信號的功率譜和互功率譜的估計,因此該估計的精度不高。而LMS自適應濾波則通過一定的誤差準則,讓一個通道的信號去逼近另一個,在收斂的情況下給出時延估計,它不需要信號譜的任何先驗知識,因此LMS時延估計方法可以看作Roth處理器的自適應實現(xiàn)。對于LMS方法,它的缺陷在于:(1)自適應算法需要一個學習過程,而且運算量要遠遠大于GCC方法,所以不適合跟蹤快速移動的聲源,其時延估計的精度同樣會受到混響和回波的限制;(2)由于信號x1(n)和x2(n)都是通過房屋的反射形成,用x2(n)直接去逼近x1(n)而得到兩者的關系將比較困難;(3)LMS濾波器雖然不需要預先知道輸入信號的統(tǒng)計特性,但卻依賴于其統(tǒng)計特性,信號分布越接近于白化,TDE的性能越好;(4)它的性能還與濾波器長度有關,長度越長,TDE的精度越精確,但是計算復雜度也隨之快速地增長,從而導致處理速度過慢??傊?利用LMS進行時延估計的最大問題就是計算量太大。2.7基于evd的tdoa估計方法基于子空間分解的時延估計方法主要包括了自適應EVD算法和自適應廣義EVD(GeneralizedEVD,GEVD)算法。EVD方法用于處理空間非相關噪聲,而GEVD方法將其擴展到空間相關噪聲的情景?;贓VD的時延估計方法針對有混響的環(huán)境模型,其接收信號表示為xi(n)=gi(n)*s(n)i=1,2(9)式中gi(n)包括了環(huán)境混響的影響。取i=1,并在方程兩邊同時卷積g2(n)有x1(n)*g2(n)=[g1(n)*s(n)]*g2(n)=x2(n)*g1(n)(10)經適當推導和變形有Rxxu=0,其中u=[g2,-g1]T,Rxx為信號的相關矩陣??梢钥闯鍪噶縰為相關矩陣Rxx對應于零特征值的特征矢量。如果能夠估計出相關矩陣的特征矢量,就可以獲得兩個通道的通道響應,從而可以進一步估計出TDOA值。仿照LMS方法,如果定義誤差函數為e(n)=x1(n)*g2(n)-x2(n)*g1(n)=uΤ(n)x(n)(11)基于EVD的TDOA估計方法也可以通過自適應濾波的方法來實現(xiàn),如圖6所示。比較式(11)與LMS方法的誤差信號e(n)=x1(n)-x2(n)*h(n)可以看出,EVD方法又加入了一個調整項g2(n)。從原理上講,LMS方法相當于將x1(n)看作目標信號,用x2(n)去逼近x1(n),然而這樣做沒有考慮到x1(n)中反射及噪聲的影響。而自適應的EVD方法同時調整兩個通道的脈沖響應,讓兩者的輸出相互逼近,從而更接近實際模型,所以EVD方法可以看作是改進的LMS方法。基于EVD的方法通過觀察信號的相關矩陣來估計聲源到達兩個麥克風的脈沖響應,進而獲得TDOA估計。與LMS方法及PHAT加權的GCC方法相比,EVD方法是建立在帶有混響的模型基礎之上,所以具有更好的抗混響性能。然而EVD方法也存在不足:(1)在實現(xiàn)過程中它需要計算7次FFT,是GCC+PHAT方法的3倍多,而且還需要幾幀的平滑,大大增加了計算量;(2)它在模型假設中忽略了噪聲的影響,如果有噪聲存在,脈沖響應的峰值將受到噪聲影響而產生誤差;(3)這一時延估計法主要考慮兩個通道響應的峰值位置,對其余分量的估計不夠精確,因此無法通過對通道響應的插值來提高時延估計的精度。限于EVD方法只能處理空間白噪聲的情景,文獻在EVD方法的基礎上做了改進,提出了GEVD方法,主要針對空間有色噪聲信號模型yi(n)=gi(n)*s(n)+ni(n)=xi(n)+ni(n)i=1,2(12)式中ni(n)為相關性噪聲。一般來講,對于空間有色噪聲處理方法有兩種:(1)對信號協(xié)方差矩陣進行廣義特征值分解;(2)對信號相關函數進行預白化變換。GEVD方法就是從這兩方面出發(fā),使得TDE性能有了進一步改善,文獻給出了具體的TDOA估計過程。無論是GEVD還是預白化變換,都是建立在空間有色噪聲模型的基礎上,因此其應用于實際環(huán)境中的性能要優(yōu)于EVD方法。然而它需要對噪聲的統(tǒng)計特性進行預先估計,并且由于加入了噪聲相關矩陣,GEVD算法加大了計算量。另一方面,噪聲的相關矩陣是利用無聲段語音進行估計的,如果數據量不夠或者更新太慢,噪聲矩陣的估計就不夠準確,這樣反而會引入誤差。2.8tdoa估計方法文獻給出了一種利用兩個通道的ATF比來進行時延估計的方法。與GEVD方法相同,它同樣建立在有混響和相關性噪聲模型的基礎上。定義聲源到達第i個麥克風與第1個麥克風的ATF比為Ηi(ω)=Ai(ω)A1(ω)(13)式中Ai(ω)為第i個通道的傳遞函數,如果假定Ai(ω)=αi0e-jωτi0+Li∑j=1αije-jωτiji=1,?,Μ(14)式中(αi0,τi0)和(αij,τij)分別表示Ai(ω)中直達路徑和反射路徑的幅度和時延,則Ηi(ω)=αi0e-jωτi0α10e-jωτ10?e(ω)(15)從式(15)可以看出,在低混響的情況下,e(ω)近似等于1,從而TDOA估計可以從Hi(ω)的傅里葉反變換hi(n)的峰值位置提取。針對不同的噪聲空間,有很多獲得Hi(ω)估計的方法,如最小二乘(Leastsquare,LS)、線形解相關(Lineardecorrelation,LD)、迭代高斯(RecursiveGauss,RG),以及各種算法的迭代實現(xiàn)等,這些都基于語音的準平穩(wěn)特性,以及噪聲和通道響應的平穩(wěn)假設。利用傳遞函數比進行TDOA估計具有以下幾方面的特點:(1)ATF-sratio的基本模型是針對有混響和方向性噪聲的信號模型而建立的,這更符合實際環(huán)境;(2)傳遞函數比算法的處理是在頻域進行,其計算效率要比基于子空間的特征值分解算法高;(3)在估計Hi(ω)的過程中,ATF比方法并不需要做語音活動檢測(Voiceactivitydetection,VAD)來區(qū)分噪聲段和語音段,也不需要有關噪聲統(tǒng)計特性的先驗知識;(4)ATF比方法的迭代實現(xiàn)(如RLS,RLD,RGS等)可以用于動源的跟蹤,其相對較小的計算量使得它的跟蹤能力要優(yōu)于GEVD方法。然而在估計過程中,hi(n)峰值位置的精度受到采樣頻率的限制,文獻用插值的方法來提高TDOA估計精度。然而hi(n)是對應的兩通道的傳遞函數的比值,并非實際信號,所以一種合理的插值方法需要進一步研究。關于TDE估計,文獻給出了用高斯混合模型來處理說話人和方向性噪聲,而針對非高斯聲源和相關性的高斯噪聲環(huán)境,高階統(tǒng)計量(Highorderstatistic,HOS)也被用于TDOA估計問題,由于這些方法計算復雜度比較高,沒有得到普遍的應用和進一步地推廣,故本文不做過多介紹。3[2,3.5,5,5,5,5,4.5]仿真環(huán)境為4m×7m×2.75m的矩形房屋,聲源為8kHz采樣的語音信號。兩個麥克風被放置在[1.7,3.5,1.375]和[2,3.5,1.375]兩個位置。實驗分別針對定源和動源兩種情景,定源位于[2.53,4.03,2.67],動源的運動軌跡滿足{x=2+0.9cos(0.1πt)y=3.5+0.9sin(0.1πt)z=1+t300≤t≤30(16)其中,通道的脈沖響應由ImageMethod方法產生。3.1tdoa參數的提取首先在信噪比(SNR)為10dB,反射時間(RT60)為250ms環(huán)境下仿真了各種算法對定源和動源的TDOA跟蹤特性,如圖7所示,主要包括PHAT加權的GCC方法、自適應的特征值分解/廣義特征值分解(AEVD/AGEVD)方法、基于最小二乘的ATF比方法(ATF-LS1)、線性解相關以及迭代高斯的ATF比方法(ATF-LD、ATF-GS1)。為提高精度,實驗在提取TDOA參數的過程中對相應的相關函數和脈沖響應做了10倍的插值。在1200次仿真實驗之后,參數的估計誤差通過式(17)計算。RΜSE=√1ΝΝ∑i=1(?τi-τ0)2(17)式中:?τi為第i個估計值;τ0為實際的TDOA(τ^i和τ0的大小以采樣值來衡量)。當估計結果偏離實際的TDOA一個采樣時,就認為是異常點,實驗同時統(tǒng)計了各種算法在TDOA估計過程中異常點發(fā)生的機率(Ra

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論