基于非下采樣Contourlet變換的人臉表情識別算法研究(共13頁)_第1頁
基于非下采樣Contourlet變換的人臉表情識別算法研究(共13頁)_第2頁
基于非下采樣Contourlet變換的人臉表情識別算法研究(共13頁)_第3頁
基于非下采樣Contourlet變換的人臉表情識別算法研究(共13頁)_第4頁
基于非下采樣Contourlet變換的人臉表情識別算法研究(共13頁)_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于(jy)非下采樣Contourlet變換(binhun)的人臉表情(bioqng)識別算法研究賈函龍作者簡介:賈函龍(1988-),男,遼寧丹東人,學士,助理實驗師,主要研究方向: 工業(yè)自動化編程、圖像處理; 王金芳 王金芳(1986-),女,河北保定人,碩士,工程師,主要研究方向:圖像處理、電子線路設計。 黃利飛 黃利飛(1988-),男,河南安陽,碩士,工程師,主要研究方向:圖像處理。(1 遼寧機電職業(yè)技術學院,遼寧 丹東 118000;2 燕山大學 電氣工程學院,秦皇島0662002;3杭州籌圖科技有限公司 ,杭州310000)摘要:本文研究了非下采樣Contourlet變換在人臉表

2、情識別中的應用,并設計了相應的算法流程。首先將人臉表情圖像分割為最能表征表情信息的眼睛和嘴巴兩個部分,然后利用非下采樣Contourlet變換對分割的局部圖像進行特征提取,最后使用極限學習機進行分類,并與BP神經(jīng)網(wǎng)絡進行對照實驗。研究結果顯示,表情分類平均準確率可達86.57%,比BP神經(jīng)網(wǎng)絡的分類方法平均準確率高出7.43%。而在執(zhí)行速度方面,極限學習機卻是BP神經(jīng)網(wǎng)絡的11.09倍,表明了本實驗方案的高效性和可行性。 關鍵詞:人臉表情識別;非下采樣Contourlet變換;極限學習機;BP神經(jīng)網(wǎng)絡中圖分類號: 文獻標識號:Facial expression recognition base

3、d on the next sampling Contourlet transform algorithm researchJia Hanlong1, Wang Jinfang2, Huang Lifei3 (1 Liaoning Mechatronics College, Liaoning Dandong, 118000, China;2 Yanshan University, Qinhuangdao, 066200, China;3Hangzhou ChouTou Tech Co. LTD, Hangzhou, 310000, China)Abstract: this paper stud

4、ied the next sampling Contourlet transform in the application of facial expression recognition, and the corresponding algorithm design process. Facial expression of the image segmentation is the most can represent the expression information of the eyes and the mouth of two parts, and then use the sa

5、mpling Contourlet transform under the division of local image feature extraction, finally using extreme learning machine for classification, and compared with the BP neural network control experiment. The results showed that expression classification accuracy can reach 86.57% on average, than the BP

6、 neural network classification method of average accuracy higher than 7.43%. In the speed of execution method, extreme learning machine is 11.09 times that of the BP neural network show that the efficiency and feasibility of the experiment scheme.Key words: facial expression recognition; The next sa

7、mpling Contourlet transform; Extreme learning machine; The BP neural network引言(ynyn) 人臉表情含有豐富的人體行為信息(xnx),可以直觀的反應一個人的心理狀態(tài)。隨著人機交互的研究日益得到人們(rn men)關注,人臉表情識別已經(jīng)成為模式識別領域一個極具研究意義的分支。目前,應用于表情識別的方法有基于gabor小波特征的方法,基于主動形狀模型(ASM)和主動外觀模型(AAM)的方法,基于流形的方法等。典型的人臉表情提取主要包括人臉表情的預處理,特征提取與選擇和人臉表情分類三個主要步驟。其中,表情特征的提取與選擇是

8、人臉表情識別步驟中最關鍵的一步。如何將人臉表情預處理得到的高維數(shù)據(jù)進行快速有效的降維,是表情識別系統(tǒng)的核心,也是目前為止最難于有效解決的關鍵所在。Gabor小波可以提取多尺度、多方向的空間頻率特征,在人臉識別和表情識別的應用技術中,已經(jīng)取得了一定的成績。Contourlet變換也是一種多尺度、多方向的變換,早在2002年,Martin Vetterli和M.N.Do就研究了該算法。該變換是基于小波多尺度分析的思想基礎研究的一種新的多尺度多方向分析方法。該變換不僅可以實現(xiàn)任意方向和尺度的分解,具有同小波變換一樣的優(yōu)勢,而且由于其在圖像輪廓特征和紋理信息方面的獨到的提取和描述,因而在圖像處理領域具

9、有較為廣泛的應用。然而,該變換在輪廓波采樣過程進行了下采樣轉換,因此失去了平移不變性,導致在圖像的恢復變換時,會造成偽吉布斯失真。為此,A.L.Cunha等人研究了非下采樣Contourlet變換 ,由于取消了變換過程中的下采樣,從而有效地抑制了偽Gibbs失真。鑒于Contourlet變換的缺陷,A.L.Cunha等人提出了NSCT變換。該變換是由非下采樣金字塔分解 (Nonsubsampled Pyramid,NSP)和非下采樣方向性濾波器組(Nonsubsampled Directional Filter Banks,NSDFB)組成的。非下采樣金字塔分解通過一個雙通道的濾波器組,可將信

10、號分解成一個多通和多個帶通部分。1 表情圖像預處理 由于拍攝環(huán)境的復雜性以及人體自身的運動,獲取的人臉表情信息會受到一些干擾。因此預先對要進行特征提取和特征選擇的圖片(tpin)進行人臉特征區(qū)域的定位,人臉區(qū)域的幾何歸一化以及直方圖均衡化,是有很重要的意義的4。JAFEE人臉表情庫后預處理前后的圖像如圖1和圖2所示,每行分別對應一個人的7種表情,分別為憤怒(fnn)、厭惡、恐懼、高興、中性、悲傷和驚奇。圖1 JAFFE庫部分人臉表情(bioqng)圖像Fig.1 JAFFE library part of facial expression image圖2 經(jīng)過預處理后的表情圖像實例Fig.2

11、 After pretreatment of face image instance 人臉特征區(qū)域的定位采用基準特征結合仿射變換5的方法,該方法可以估計左右瞳孔的位置,然后依據(jù)左右瞳孔的坐標來確定人臉的位置,從而實現(xiàn)對人臉特征區(qū)域的定位。幾何歸一化是指圖像經(jīng)過尺度變換,得到統(tǒng)一大小的校準圖像,即具有相同的高和寬,這樣可以使圖像在后期特征提取和特征選擇階段上具有相同的特征維數(shù),從而簡化運算。直方圖均衡化可以消除部分光線和光照強度的影響,使圖像動態(tài)范圍增大,對比度更加擴展,有助于提高識別率。2 Contourlet變換與非下采樣Contourlet變換 Contourlet變換是一種新的圖像二維表

12、示算法,它的基本思想是首先用一個類似小波的多尺度分解描述出輪廓段,然后將圖像數(shù)據(jù)拉普拉斯金字塔變換(Laplacian Pyramid,LP)和二維方向濾波器組(Directional Filter Bank,DFB)進行多尺度、多方向的變換。LP變換的基礎是高斯金字塔,這是通過對原始圖像循環(huán)進行高斯低通濾波和下采樣來完成的,下采樣的過程相當于帶通濾波器,這樣就形成了從上到下有層次的金字塔樣式的圖像分解,LP變換的主要功能是將圖像分解為低頻系數(shù)子帶和高頻系數(shù)子帶。從根本上說,圖像是由一個數(shù)值矩陣組成的。矩陣相鄰的像素點可以組成短小的線條,而多個線條的聚集(jj)就形成圖像的基本輪廓和紋理特性,

13、因此引入DFB濾波器組的作用就是基于方向的角度對圖像進行從粗分辨率到細分辨率的特征提取。DFB濾波器組首先將LP變換得到的高頻分量抽樣進行多方向分解,然后通過將分布在同一方向的奇異點,合成一個系數(shù),用類似于線段的基結構表征圖像的邊緣細節(jié)等幾何特征,實現(xiàn)對圖像信息的稀疏逼近。對低頻子帶重復上述LP和DFB分解過程即可實現(xiàn)(shxin)圖像的多尺度多方向分解。LP分解的每一層將圖像分解為高頻(o pn)部分和低頻部分,而DFB的優(yōu)點是對于高頻部分的表現(xiàn)更加優(yōu)秀,這也就是兩則疊加之后的Contourlet變換更具有優(yōu)異性的原因。但是由于該變換在LP變換的分解和重構濾波器的過程中,帶寬均大于。因此,對

14、濾波后的圖像進行縮減下采樣會產(chǎn)生頻譜混疊。頻譜混疊會削弱了Contourlet變換的方向選擇性,因為同一方向的信息會在幾個不同的方向子帶中再次出現(xiàn)。同時,Contourlet變換的下采樣也使該算法失去了平移不變性。鑒于Contourlet變換的缺陷的較為明顯,A.L.Cunha等人提出了NSCT變換。該變換是由非下采樣金字塔分解 (Nonsubsampled Pyramid,NSP)和非下采樣方向性濾波器組(Nonsubsampled Directional Filter Banks,NSDFB)組成的。非下采樣金字塔分解通過一個雙通道的濾波器組,可將信號分解成一個多通和多個帶通部分。NSCT

15、變換可以由兩步組成,先將圖像經(jīng)非下采樣金字塔分解濾波器分解為低頻圖像矩陣系數(shù)部分和高頻圖像矩陣系數(shù)部分,再由非下采樣方向性濾波器將高頻圖像矩陣系數(shù)部分分解為若干個子帶方向(見圖3)圖3 NSCT變換(binhun)分解示意圖Fig.3 NSCT transform decomposition diagram在NSP分解過程中由于沒有下采樣環(huán)節(jié),所以NSCT變換具有平移不變性,這就增強了圖像特征信息的方向選擇性,更好地在多尺度(chd)多方向上實現(xiàn)了紋理特征的描述。 因為上述兩個步驟中濾波器組的下采樣(ci yn)因子全部去除了,所以不會導致圖像的錯位,這就是該變換滿足平移不變性的原因。運用該變

16、換進行圖像的NSCT變換分解后,同Contourlet變換一樣,會得到一個低頻子帶和若干個高頻子帶,而且隨著子帶層數(shù)的增加,細節(jié)被逐漸放大。 (a) 原圖 (b)低頻子帶 (a) The original image (b) The low frequency subband (c) 第一層兩個方向上的高頻子帶(c) The first layer of high frequency subband of two directions(d) 第二層兩個(lin )方向上的高頻子帶(d) The second two directions on the high frequency subban

17、d(e) 第三層兩個方向(fngxing)上的高頻子帶(e) the third layer of high frequency subband of two directions圖4 人臉表情(bioqng)圖像的三層分解Fig.4 The three layers of decomposition of facial expression images將JAFEE人臉表情庫中的一幅圖像進行NSCT變換三層分解之后,如圖4所示,仔細觀察圖像的細微之處,我們可知,低頻子帶的圖像系數(shù)矩陣主要描述了人臉五官的基本輪廓,對原始圖像進行了低頻濾波之后,圖像變得模糊不清,而高頻子帶的圖像系數(shù)矩陣則主要描

18、述了人臉五官的更細節(jié)的輪廓及紋理等信息。如第二層四個方向上的高頻子帶信息較為細膩的從不同方向描述了口、眼、鼻子的細節(jié)特征,驗證了隨著子帶層數(shù)的增加,細節(jié)紋理等被逐漸放大,如第三層高頻子帶信息描述了更加細微的對光照等外部因素魯棒性強的細節(jié)特征。在采用支持向量機或者極限學習機進行分類的時候,考慮該變換的平移不變性,分解次數(shù)太多會導致維數(shù)災難。也考慮到各層子帶所描述和包含的信息量,取三層NSCT變換分解,且各層方向數(shù)目為2,4,2的時候,較為理想。3. 非下采樣Contourlet變換表情識別圖5 非下采樣Contourle變換在表情(bioqng)識別中的框架圖Fig.5 The next sam

19、pling Contourle transform in facial expression recognition in the frame在人臉表情識別系統(tǒng)中,人臉的每個部位(bwi)對表情識別的貢獻率是不同的。研究表明,眼睛和嘴唇部位,對人臉表情的識別,起著決定性的作用。因此,本算法將人臉表情分割成含有豐富表情的眼睛部位和嘴唇部位兩個部分。本文在人臉表情識別技術中NSCT算法,先用該算法進行人臉表情關鍵區(qū)域的特征選擇,其中,在人臉表情的非下采樣Contourlet特征融合之后,因為維數(shù)較大(如選取JAFFE人臉表情庫的210幅圖片,特征提取然后融合之后可達210*101025維),直接帶

20、入分類器的話,會引起維數(shù)災難,而且會極大的降低分類器的分類效率。為此,在把特征提取之后的數(shù)據(jù)引入分類器之前,應先進行數(shù)據(jù)壓縮,以避免維數(shù)災難。本文引入PCA方法進行維數(shù)約簡。然后引入主成分分析算法進行特征提取,最后采用極限學習機(extreme learning machine,簡稱ELM)進行表情分類,并與BP神經(jīng)網(wǎng)絡分類算法進行識別(shbi)正確率和識別效率的對比。4 極限(jxin)學習機(ELM)2004年,新加坡南洋理工大學的黃廣斌副教授研究極限學習機(Exteme Learning Machine,ELM)算法。該算法是一種簡單小巧、速度極快的單隱層前饋神經(jīng)網(wǎng)絡學習算法。傳統(tǒng)的神

21、經(jīng)網(wǎng)絡學習算法,比如BP神經(jīng)網(wǎng)絡,不僅容易產(chǎn)生局部最優(yōu)解,而且(r qi)在訓練時,需要人為設置大量的訓練參數(shù)。極限學習機則小巧迅速的多,具有學習速度快且泛化性能好的優(yōu)點,這是因為該算法簡潔在只需要提前人為(rnwi)設置網(wǎng)絡的隱層節(jié)點數(shù)目,在算法運行過程中不僅不需要調整網(wǎng)絡的輸入權值和隱元的偏置大小,而且最后只產(chǎn)生唯一的最優(yōu)解。因此,近年來,ELM也已經(jīng)成為神經(jīng)網(wǎng)絡研究領域的一個研究熱點,并成功應用于手寫數(shù)字識別、人臉識別、時間序列預測等領域。以下介紹ELM算法的工作原理。已知給定N個不同的樣本D=(xi ,yi)|xi Rn, yi Rn , i=1,2,3,,M。ELM算法是前饋神經(jīng)網(wǎng)絡

22、,主要用于訓練單隱含層,這點與BP神經(jīng)網(wǎng)絡不同,BP神經(jīng)網(wǎng)絡可以手動設置隱含層數(shù)目。那么,該神經(jīng)網(wǎng)絡的數(shù)學模型可以表述為: (1)其中,M表示隱含層的結點個數(shù)。上式可以簡稱成 (2)其中,H為隱層輸出矩陣,表達式為: (3) (4) (5)在式(3)中,行代表訓練樣本所有隱結點(ji din)的輸出。ELM算法是一種速度極快的單隱層前饋神經(jīng)網(wǎng)絡學習算法。其算法根據(jù)相關原理可以較為簡略(jinl)的總結為如下幾步:第一步,通過隨機初始化的方式(fngsh),對偏置和權值進行隨機賦值。這一步由于不需要調整網(wǎng)絡的輸入權值和隱元的偏置大小,大大提高了ELM算法的運行速度。第二步,計算隱含層輸出矩陣H。

23、利用公式(4),求得訓練樣本所有隱節(jié)點的輸出,并將其計算成矩陣的形式。第三步,近似求解權值,通過式,即可求得計算隱含層到輸出層的權值。5實驗結果運用非下采樣Contourle變換的方法,對人臉表情圖像進行特征提取,并用PCA算法進行特征選擇,最后以BP神經(jīng)網(wǎng)絡和極限學習機(ELM)進行分類。本章實驗中所使用的數(shù)據(jù)庫是日本的JAFFE表情庫,該圖像庫由有10個女性的7種表情(生氣、厭惡、恐懼、高興、悲傷、驚訝和中性),共計213幅圖像組成。本算法選取每人每種表情3幅,七種表情共210幅表情圖像來進行實驗。將每幅人臉表情圖像經(jīng)過幾何歸一化、直方圖均衡化等預處理后,可以得到每幅像素點為130130的

24、統(tǒng)一大小的圖像。實驗采用三層NSCT變換分解,且各層方向數(shù)目為2,4,2,并將“PKVA”作為默認的濾波器。所以,每張人臉表情經(jīng)變換后可以得到7個子帶特征信息。為了做到與人無關的表情識別,在表情的分類環(huán)節(jié),引入BP神經(jīng)網(wǎng)絡和ELM算法進行對照試驗,并且隨機選擇每類表情的25幅表情圖像作為訓練集,其余5幅表情圖像作為測試集。實驗中BP神經(jīng)網(wǎng)絡和ELM算法的激勵函數(shù)都是S型函數(shù)。實驗重復10次以降低隨機性。 表1 JAFFE數(shù)據(jù)庫人臉表情識別率 (%) Table.1 JAFFE facial expression recognition database (%)方法12345678910平均識別

25、率BP-NN74.2994.2971.4371.4374.2980.0085.7177.1482.8680.0079.14ELM85.7191.4388.5782.8682.8694.2982.8677.1488.5791.4386.57由表1我們可以看出,經(jīng)過非下采樣Contourle變換提取后,使用極限學習機的表情分類平均準確率可達86.57%,比使用BP神經(jīng)網(wǎng)絡的分類方法平均準確率高出7.43%。而在執(zhí)行時間方面,如表2所示,BP神經(jīng)算法執(zhí)行十次的平均時間為6.82s而,ELM算法僅為0.92s,我們可知極限學習機的速度(sd)BP神經(jīng)網(wǎng)絡的11.09倍,可見ELM算法的高速性和高效性。

26、 表2 JAFFE數(shù)據(jù)庫人臉表情(bioqng)識別的執(zhí)行時間 (s)Table.2 the execution time of the JAFFE facial expression recognition database (s)方法12345678910平均執(zhí)行時間BP-NN9.829.509.709.609.719.519.609.729.509.829.65ELM0.870.860.840.850.900.850.940.860.850.840.87本文還分析了各類表情識別的相關分布,如表3所示。我們可以的看到,分類正確率最低的是恐懼和厭惡,分別只有76%和80%。在恐懼表情的分類中

27、,表情大多被錯分為(fn wi)厭惡和憤怒,在厭惡表情的分類中,表情大多被錯分為憤怒和恐懼。可以表明這四種表情在JAFFE庫上的表情單元的相近性,以致于無法使用NSCT變換提取出精確的表情特征。表3 JAFFE表情庫六類基本表情識別分布Table.3 JAFFE expression library distribution of six basic facial expression recognition表情類別識別次數(shù)識別率(%)憤怒厭惡恐懼高興悲傷驚奇憤怒481100096.00厭惡540302080.00恐懼233801076.00高興000453290.00悲傷013341282.

28、00驚奇000204896.00在六種基本(jbn)表情的實驗分類結果中,可以通過繪制直方圖來更加簡明的進行對比分析,如圖6所示。各類表情中分類正確率最高的憤怒、驚奇和高興,分別達到了96%,96%和90%。各種表情的識別率相對來說都是比較高,這表明了本算法(sun f)在實現(xiàn)表情正確分類上的有效性。圖6 人臉六種表情(bioqng)基本表情的識別率Fig.6 Face six basic facial expression recognition rate expressions本文所提方法比所提方法提高了8%-12%,如表4所示,顯示了文獻報道中不同的方法在JAFFE表情數(shù)據(jù)庫中的識別率,

29、可知本文所研究的方法的測試結果優(yōu)于文獻報道結果進一步表明了本算法的有效性。 表4 不同方法在JAFFE庫上的識別率 (%)Table.4 different methods on the JAFFE library recognition rate (%)算法識別率Gabor濾波器+SVM79.10基于Gabor和LBP集成79.40Contourle變換+LPP+SVM75.24本文算法86.576 結論及展望本文研究將NSCT變換用于人臉表情的特征提取,最后使用極限學習機進行分類,并將實驗結果與BP神經(jīng)網(wǎng)絡算法進行對比。詳細描述了實驗結果中各類表情的識別率,通過各類表情識別率都比較高的結果,表明本方法的有效性和高效性。NSCT算法中,并沒有對NSCT各層分解方向數(shù)目做具體的探討;在表情分類時,ELM算法和BP神經(jīng)網(wǎng)絡各自(gz)的參數(shù)尋優(yōu)并沒有深化,因此(ync)對NSCT算法各層分解方向數(shù)目(shm)做具體的探討,進行深化的參數(shù)尋優(yōu),有望進一步提高識別效果。參考文獻1 Huang G, Zhou H. Extreme learning machine for regression and multiclass cassificationJ. Systems,Man, and Cybernet

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論