小波和余弦變換的人臉識別思路.doc_第1頁
小波和余弦變換的人臉識別思路.doc_第2頁
小波和余弦變換的人臉識別思路.doc_第3頁
小波和余弦變換的人臉識別思路.doc_第4頁
小波和余弦變換的人臉識別思路.doc_第5頁
免費預(yù)覽已結(jié)束,剩余5頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

小波和余弦變換的人臉識別思路摘 要: 提出了利用小波變換和余弦變換與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合的人臉識別方法。將人臉圖像歸一化后進(jìn)行小波變換,再用余弦變換對低頻信號提取特征向量,達(dá)到降維和去除干擾的目的,并把特征向量送進(jìn)BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練。識別時,對人臉圖像進(jìn)行相同的變換后,送入神經(jīng)網(wǎng)絡(luò)進(jìn)行辨別。實驗結(jié)果表明,該算法優(yōu)于傳統(tǒng)的人臉識別法。關(guān)鍵詞: 小波變換;離散余弦變換;BP神經(jīng)網(wǎng)絡(luò);人臉識別近年來,人臉識別的應(yīng)用需求日益迫切,在刑偵破案、證件核對、保安監(jiān)視、醫(yī)學(xué)應(yīng)用、人機交互系統(tǒng)等方面都有巨大的應(yīng)用前景,計算機人臉識別技術(shù)受到了廣泛的重視。目前對復(fù)雜環(huán)境下的人臉識別提出了更高的要求。人臉識別研究主要有兩個方向:一是基于整體的研究方法。該方法考慮了模式的整體性,包括特征臉法、基于SVD分解的方法、人臉等密度線分析匹配法、彈性匹配方法、隱馬爾可夫模型方法以及神經(jīng)網(wǎng)絡(luò)法等;二是基于特征分析的方法,也就是將人臉基準(zhǔn)點的相對比例和其他描述人的臉部特征的形狀參數(shù)或類別參數(shù)一起構(gòu)成識別特征向量。該方法通過提取出局部輪廓信息及灰度信息來設(shè)計具體識別算法。由于神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點很龐大,因此實際訓(xùn)練網(wǎng)絡(luò)時參數(shù)繁多,實現(xiàn)起來很困難,識別速度也相對較慢,但它的優(yōu)點是可以針對特定的問題進(jìn)行子空間設(shè)計,如神經(jīng)網(wǎng)絡(luò)的方法可以用作性別識別等問題。本文提出基于小波變換和離散余弦變換與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合的人臉識別方法。實驗表明,這種方法能快速有效地識別不同人臉,且識別率很高。1 小波變換小波變換的概念是由法國從事石油信號處理的工程師J.Morlet在1974年首先提出的,1988年S.Mallat提出了小波多分辨率分析后,為圖像模式識別領(lǐng)域提供了一種有效的工具。它是一種信號的時間-頻譜分析方法,具有多分辨率分析的特點,而且在時頻兩域都具有表征局部信號特征的能力。對尺寸為MN的圖像f(x,y)的離散小波變換是:式中,j0是任意的開始尺度,系數(shù)定義了在尺度j0的f(x,y)的近似。附加了水平、垂直和對角方向的細(xì)節(jié)。本文采用哈爾小波作為小波變換。哈爾基函數(shù)定義為:對離散小波變換(DWT)采用Mallat人字形算法,即快速小波變換(FWT)1,如圖1所示。小波變換示意圖如圖2所示。一幅圖像經(jīng)過一次一維小波變換后,可以被劃分為4個子塊頻帶區(qū)域LL1、HL1、LH1和HH1,分別包含了相應(yīng)頻帶的小波系數(shù)。LL1頻帶保持原圖像的內(nèi)容信息,圖像的能量集中于此頻帶;HL1頻帶保持了原圖像的水平方向上的高頻邊緣信息,人像的眼睛和嘴巴的水平特征比垂直特征明顯,而人的豐富表情主要反映在眼睛和嘴巴上,所以HL1描述了人像的表情特征;LH1頻帶保持了原圖像的垂直方向上的高頻邊緣信息,描述了人像的姿勢;HH1頻帶保持了原圖像在對角線方向上的高頻信息,這部分對人臉表情變化的反應(yīng)是最明顯的。若對低頻子帶圖像LL1再次進(jìn)行二維小波變換,則又可以得到四個子塊頻帶區(qū)域LL2、LH2、HL2和HH2。圖像的大部分信息集中在低頻部分LL2上,所得到的水平、垂直和對角方向的高頻信號則包含了大量的冗余信息和干擾,在人臉識別中,其作用是非常微小的。如圖2(d)直觀地表明,當(dāng)直接對低頻分量提取特征時,圖像中的有用信息相對集中,因此能有效地降低圖像的維數(shù),去掉干擾,從而節(jié)省存儲空間,提高計算效率。2 離散余弦變換離散余弦變換(DCT)是一種常用的圖像數(shù)據(jù)壓縮方法,其變換核為實數(shù)的余弦函數(shù),因而DCT的計算速度比較快。而且因為頻域變化因子u、v較大時,DCT系數(shù)的值g(u,v)比較小,而數(shù)值較大的g(u,v)主要分布在u、v較小的左上角區(qū)域,所以DCT具有很好的能量集中特性,變換后的圖像能量主要集中在變換系數(shù)的低頻分量上,這些低頻分量幅值較大,可以用來重建圖像。當(dāng)用DCT系數(shù)重建圖像時,保留少數(shù)離散余弦變換的低頻分量,而舍去大部分高頻分量,利用逆變換仍可獲得與原始圖像相近的重建圖像,新圖像與原圖像存在一定誤差,但重要信息被保存下來。對一幅MN的數(shù)字圖像f(x,y),其離散余弦變換的定義為:式中,g(u,v)為離散余弦變換后的結(jié)果,即DCT系數(shù)。圖3是人臉圖像的DCT變換和利用DCT系數(shù)重建原圖的過程。圖3(a)是128128的原圖,圖3(b)是離散余弦變換后的結(jié)果,圖3(c)是利用所有DCT系數(shù)進(jìn)行反變換的重構(gòu)圖像,圖3(d)是利用3232個DCT系數(shù)反變換的重構(gòu)圖像,圖3(e)是88個DCT系數(shù)反變換的重構(gòu)圖像。從中可以看出,與原圖全部128128個灰度值相比,圖3(e)只用了64個DCT系數(shù),就已經(jīng)保留了原圖的重要臉部特征,很好地表現(xiàn)了原圖,這使得數(shù)據(jù)量龐大的人臉圖像可用它的部分離散余弦變換分量來表示,從而實現(xiàn)對高維信息的降維。而且圖3(e)把原圖人臉的表情和不利于識別的高頻噪聲信息濾除了,可以更有效地減少高頻干擾對特征的影響,更有利于人臉的識別。3 神經(jīng)網(wǎng)絡(luò)人工神經(jīng)元網(wǎng)絡(luò)是一門交叉學(xué)科,在許多領(lǐng)域得到了越來越廣泛的應(yīng)用。目前,在人工神經(jīng)網(wǎng)絡(luò)的實際應(yīng)用中,大部分神經(jīng)網(wǎng)絡(luò)模型都是采用BP網(wǎng)絡(luò)及其變化形式,它是前向網(wǎng)絡(luò)的核心部分,也是人工神經(jīng)網(wǎng)絡(luò)最精華的部分。BP網(wǎng)絡(luò)主要用于:函數(shù)逼近、模式識別、數(shù)據(jù)壓縮等領(lǐng)域。BP網(wǎng)絡(luò)是一種前向網(wǎng)絡(luò),一般包括輸入層、中間層(隱層)和輸出層,如圖4所示。中間層可以有一層甚至更多層以便于分析各因素間的相互作用,每一層由若干個神經(jīng)元組成,相鄰兩層的每一個神經(jīng)元之間均有一權(quán)值聯(lián)系,權(quán)值的大小反映了這兩個神經(jīng)元之間的連接強度,整個網(wǎng)絡(luò)的計算過程是由輸入層到中間層再到輸出層單向進(jìn)行,所以稱為前向網(wǎng)絡(luò)。它利用實際輸出和期望輸出之差對網(wǎng)絡(luò)的多層連接權(quán)由后向前逐層進(jìn)行校正,其訓(xùn)練方法被稱為誤差反傳播算法。BP網(wǎng)絡(luò)能夠進(jìn)行人臉識別的根源在于它能夠?qū)崿F(xiàn)一種特殊的非線性映射,將輸入空間變換到由輸出所造成的空間,使得在輸出空間的分類問題變得簡單易行。在實際應(yīng)用中,如何設(shè)計神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),學(xué)術(shù)界有許多討論。一般來說,多個模式用一個網(wǎng)絡(luò)來識別分類,會引出隱層節(jié)點數(shù)非常龐大的問題。本方法由于引入小波分解和離散余弦變換,用了一個三層的BP網(wǎng)絡(luò)來識別分類,使得神經(jīng)網(wǎng)絡(luò)的輸入向量的維數(shù)大大降低。3.1 輸入/輸出層的設(shè)計由于本方法采用了小波變換和離散余弦變換進(jìn)行圖像的數(shù)據(jù)壓縮,所以最終采用88像素大小的窗口。因此,將輸入層節(jié)點數(shù)設(shè)計為64個,分別對應(yīng)于88像素圖像窗口中按Zig-Zag掃描方式展開的各個像素。而輸出層的數(shù)目即由輸入訓(xùn)練樣本的類別數(shù)來決定。在訓(xùn)練階段,如果輸入訓(xùn)練樣本的類別標(biāo)號是i,則訓(xùn)練時的期望輸出假設(shè)第i個節(jié)點為1,而其余輸出節(jié)點均為0。在識別階段,當(dāng)一個未知類別樣本作用到輸入端時,考察各輸出節(jié)點的輸出,并將該樣本類別判定為具有最大值的輸出節(jié)點對應(yīng)的類別,如果具有最大值的輸出節(jié)點與其他輸出節(jié)點之間的距離較?。ㄐ∮谀硞€閾值),則作出拒絕判斷。3.2 隱層節(jié)點數(shù)的選擇隱層節(jié)點數(shù)的選擇是一個十分復(fù)雜的問題。如果數(shù)目過少,網(wǎng)絡(luò)將不能建立復(fù)雜的判斷界限,使網(wǎng)絡(luò)不能訓(xùn)練出來,不能識別以前沒有看過的樣本,容錯性差;但如果數(shù)目過多,就會使學(xué)習(xí)時間過長,網(wǎng)絡(luò)的泛化能力降低,而且誤差也不一定最佳,因此存在一個最佳的隱層節(jié)點數(shù)??筛鶕?jù)經(jīng)驗公式:和n1=log2n(n、m分別為輸入層和輸出層的節(jié)點數(shù),為110之間的常數(shù))計算出隱含層的節(jié)點數(shù)范圍,再根據(jù)實驗結(jié)果改變節(jié)點數(shù)。3.3 輸入預(yù)處理由于本方法采用的激活函數(shù)是S型函數(shù),該函數(shù)對0附近的數(shù)字變化比較敏感,而本方法的DCT系數(shù)的值域范圍在0255,由于數(shù)值較大,如果直接輸入數(shù)據(jù)勢必影響計算效率和訓(xùn)練效果。所以有必要將輸入數(shù)據(jù)從0255轉(zhuǎn)換為01之間,以便于后續(xù)神經(jīng)網(wǎng)絡(luò)權(quán)值與閾值的調(diào)節(jié)和運算。3.4 BP學(xué)習(xí)算法步驟BP學(xué)習(xí)算法步聚如下。第一步 設(shè)置變量和參量。k=1,2,N為輸入向量,M為輸入特征的個數(shù),N為訓(xùn)練樣本個數(shù),由Zig-Zag掃描方式展開的DCT系數(shù)組成。N為第n次迭代時網(wǎng)絡(luò)的實際輸出,P為要識別的樣品類別個數(shù)。N為期望輸出。當(dāng)輸入樣品類別標(biāo)號是i時,相應(yīng)的dki=1,其他為0。WMI(n)和WIP(n)分別為第n次迭代時輸入層與隱含層之間、隱含層與輸出層之間的權(quán)值向量。第二步 初始化,賦給WMI(0)、WIP(0)各一個較小的隨機非零值。第三步 輸入樣本Xk, n=0。第四步 對輸入樣本Xk,前向計算BP網(wǎng)絡(luò)每層神經(jīng)元的輸入信號u和輸出信號v。其中:第五步 由期望輸出dk和上一步求得的實際輸出Yk(n)計算誤差E(n),判斷其是否滿足要求,若滿足則轉(zhuǎn)至第八步;不滿足則轉(zhuǎn)至第六步。第六步 判斷n+1是否大于最大迭代次數(shù),若大于則轉(zhuǎn)至第八步;否則,對輸入樣本Xk,反向計算每層神經(jīng)元的局部梯度。其中:第七步 按下式計算權(quán)值修正量w,并修正權(quán)值;n=n+1,轉(zhuǎn)至第四步。其中:式中,為學(xué)習(xí)速率,n為迭代次數(shù)。第八步 判斷是否學(xué)完所有的訓(xùn)練樣本,若是則結(jié)束,否則轉(zhuǎn)至第三步。4 實驗步驟和結(jié)果分析本文采用ORL人臉庫2進(jìn)行訓(xùn)練和測試。原始的ORL人臉庫包括40個人,每人10張圖,共400張人臉圖像,具備不同的光照、表情、發(fā)型和有無眼鏡等,并且人臉有一定的側(cè)轉(zhuǎn)角度,每幅圖像均為11292的灰度圖像。為了方便程序讀入數(shù)據(jù),本文把ORL人臉庫的圖像大小改為128128的灰度圖像。圖5為修改后的ORL人臉庫的部分人臉。訓(xùn)練集由每個人的其中5張圖組成,測試集由另外5張組成。本文采用VC+作為實驗平臺3。實驗步驟與結(jié)果如下:(1)讀入ORL人臉庫的人臉圖像,使圖像歸一化為128128的灰度圖像,對這些圖像進(jìn)行二層二維小波變換,就可得到3232的人臉低頻圖像。具體算法如圖6所示。(2)將得到的3232圖像進(jìn)行離散余弦變換,其具體算法與FFT相同,都是采用蝶形算法實現(xiàn)。從圖像的左上角開始取88個(即64個)系數(shù)作為神經(jīng)網(wǎng)絡(luò)的輸入,這樣既可以達(dá)到壓縮特征維數(shù)的目的,又去除了表情和光照造成的干擾。(3)采用BP網(wǎng)絡(luò)對人臉進(jìn)行識別。本文設(shè)計的神經(jīng)網(wǎng)絡(luò)輸入層節(jié)點數(shù)為64個;隱含層分別取20、25、30、35、40、45個節(jié)點進(jìn)行試驗。結(jié)果發(fā)現(xiàn)隱含層取35個時效果最好;輸出層節(jié)點數(shù)則取40個。分別處理200張人臉圖,給每個人標(biāo)上記號i,然后隨機輸入到神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最后得到所要求的BP網(wǎng)絡(luò)。采用VC實現(xiàn)的神經(jīng)網(wǎng)絡(luò)算法如圖7所示。識別時把需要辨別的人臉圖像經(jīng)過二層二維小波變換和離散余弦變換后,取64個DCT系數(shù)輸入訓(xùn)練完的神經(jīng)網(wǎng)絡(luò),通過一次前向計算,看輸出向量的哪位最接近1,即可判斷是哪個人臉。本文對ORL人臉庫的200張圖像隨機輸入進(jìn)行測試,其識別率達(dá)到97.5%,參考文獻(xiàn)4和參考文獻(xiàn)5同樣對ORL人臉庫進(jìn)行實驗,結(jié)果其識別率分別為89.5%和95%,低于本文的識別率。本文采取了減少特征維數(shù)的方法,使訓(xùn)練時間大大減少,而參考文獻(xiàn)5的輸入向量維數(shù)最少為986。所以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論