人臉檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第1頁(yè)
人臉檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第2頁(yè)
人臉檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第3頁(yè)
人臉檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第4頁(yè)
人臉檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第5頁(yè)
已閱讀5頁(yè),還剩41頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第一章 緒論1.1 人臉檢測(cè)技術(shù)人臉檢測(cè)技術(shù)的發(fā)展背景近幾年來(lái)計(jì)算機(jī)科學(xué)在人機(jī)交互領(lǐng)域的研究得到了長(zhǎng)足的發(fā)展。主要的研究方向包括:人臉檢測(cè)及識(shí)別,語(yǔ)音識(shí)別,性別分類,種族分類等。這些研究在日常的身份認(rèn)證,人口統(tǒng)計(jì),社會(huì)調(diào)查,實(shí)時(shí)監(jiān)測(cè),刑事偵查等各種領(lǐng)域都有著廣泛的應(yīng)用。人臉檢測(cè)作為其中一個(gè)重要的成員,其應(yīng)用范圍也非常廣泛,除了可以應(yīng)用到人臉識(shí)別中,還可以廣泛應(yīng)用于基于圖像內(nèi)容的數(shù)據(jù)庫(kù)和圖像檢索、基于內(nèi)容的圖像或視頻壓縮、智能人機(jī)交互、新一代人機(jī)交互界面和安全監(jiān)控系統(tǒng)等許多方面。因而研究人臉檢測(cè)技術(shù)具有十分重要的意義。新一代視頻編碼標(biāo)準(zhǔn)MPEG-4中引入了基于內(nèi)容編碼的概念,人的臉部有著豐富的表

2、情和變化,在人和人交流的過程之中傳遞著大量信息。因此,在基于內(nèi)容的編碼中,人臉毫無(wú)疑問的成為感興趣的區(qū)域。我們需要在每一幀圖像中定位出人臉,并把它從編碼圖像中分割出來(lái),采用低壓縮率的編碼;其它非感興趣區(qū)域(如背景)就采用壓縮率較高的編碼方法。目前這種編碼方式在可視電話,Internet視頻聊天、視頻會(huì)議等方面已經(jīng)開始應(yīng)用。人臉檢測(cè)的概念和難點(diǎn)人臉檢測(cè)是指對(duì)于一幅任意給定的圖像,采用一定的策略對(duì)其進(jìn)行搜索以確定其中是否含有人臉,如果是則返回人臉的位置、大小和姿態(tài)。人臉檢測(cè)主要分為動(dòng)態(tài)人臉檢測(cè)和靜態(tài)人臉檢測(cè)兩類,對(duì)于動(dòng)態(tài)人臉檢測(cè),檢測(cè)速度占主導(dǎo)地位,其次是檢測(cè)率和誤檢率,對(duì)于靜態(tài)人臉檢測(cè)則要求檢測(cè)

3、率和誤檢率相對(duì)比較嚴(yán)格。人臉檢測(cè)是一個(gè)復(fù)雜的具有挑戰(zhàn)性的模式檢測(cè)問題,其主要的難點(diǎn)有兩方面,一方面是由于人臉內(nèi)在的變化所引起:(1)人臉具有相當(dāng)復(fù)雜的細(xì)節(jié)變化,不同的外貌如臉形、膚色等,不同的表情如眼、嘴的開與閉等;(2)人臉的遮擋,如眼鏡、頭發(fā)和頭部飾物以及其他外部物體等;另一方面由于外在條件變化所引起:(1)由于成像角度的不同造成人臉的多姿態(tài),如平面內(nèi)旋轉(zhuǎn)、深度旋轉(zhuǎn)以及上下旋轉(zhuǎn),其中深度旋轉(zhuǎn)影響較大;(2)光照的影響,如圖像中的亮度、對(duì)比度的變化和陰影等;(3)圖像的成像條件,如攝像設(shè)備的焦距、成像距離,圖像獲得的途徑等等。這些困難都為解決人臉檢測(cè)問題造成了難度。如果能夠找到一些相關(guān)的算法

4、并能在應(yīng)用過程中達(dá)到實(shí)施,將為成功構(gòu)造出具有實(shí)際應(yīng)用價(jià)值的人臉檢測(cè)與跟蹤系統(tǒng)提供保證。人臉檢測(cè)的研究現(xiàn)狀人臉檢測(cè)在科學(xué)技術(shù)和實(shí)際的安全應(yīng)用上有著十分誘人的前景和潛在的經(jīng)濟(jì)價(jià)值,從而激發(fā)了世界上廣大科研工作者及相關(guān)商家的濃厚興趣,在很多國(guó)家已經(jīng)開展了大量相關(guān)項(xiàng)目的研究。國(guó)內(nèi)外對(duì)人臉檢測(cè)問題的研究很多并取得了一定的成果,主要是美國(guó)、歐洲國(guó)家、日本、新加坡、韓國(guó)等,著名的研究機(jī)構(gòu)有美國(guó)MIT的Media lab、AI lab,CMU的Human-Computer Interface Institute,Microsoft Research,英國(guó)的Department of Engineering i

5、n University of Cambridge等。國(guó)內(nèi)開展人臉檢測(cè)研究的主要單位有清華大學(xué)、哈爾濱工業(yè)大學(xué)、北京工業(yè)大學(xué),中科院計(jì)算所,中科院自動(dòng)化所,復(fù)旦大學(xué),南京理工大學(xué)等,都取得了一定的成果。MPEG7標(biāo)準(zhǔn)組織已經(jīng)建立了人臉識(shí)別草案小組,人臉檢測(cè)算法也是一項(xiàng)征集的內(nèi)容。隨著人臉檢測(cè)研究的深入,國(guó)際上發(fā)表的有關(guān)論文數(shù)量也大幅度增長(zhǎng),如IEEE的FG(IEEE International Conference on Automatic Face and Gesture Recognition)、ICIP(International Conference on Image Processi

6、ng)、CVPR(Conference on ComputerVision and Pattern Recognition)等重要國(guó)際會(huì)議上每年都有大量關(guān)于人臉檢測(cè)的論文。各種各樣的人臉檢測(cè)方法層出不窮,有的在前人方法的基礎(chǔ)上繼續(xù)深入研究,也有的采用綜合一些基本方法進(jìn)行檢測(cè)。人臉檢測(cè)結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)評(píng)價(jià)標(biāo)準(zhǔn)主要有:檢測(cè)率(hit-rate),誤檢率(false-alarm-rate),檢測(cè)速度(detectingspeed),魯棒性(robustness)。(1)檢測(cè)率:被正確檢測(cè)到的人臉數(shù)與原圖像內(nèi)包含的人臉數(shù)的比值。檢測(cè)率越高,說明檢測(cè)系統(tǒng)對(duì)人臉的接受能力越強(qiáng)。(2)誤檢率(或虛警率、誤報(bào)率

7、):被誤檢為人臉的非人臉子窗口數(shù)與原圖像內(nèi)被檢測(cè)的所有非人臉子窗口數(shù)的比值。假設(shè)原圖像內(nèi)被檢測(cè)的所有非人臉子窗口數(shù)為被誤檢為人臉的非人臉子窗口數(shù)為,那么誤檢率=再假設(shè)原圖像內(nèi)被檢測(cè)的所有子窗口數(shù)為N,原圖像內(nèi)包含人臉數(shù)為,N=+,那么誤檢率也等于,當(dāng)N時(shí),誤檢率近似于。檢測(cè)率無(wú)法反映系統(tǒng)對(duì)非人臉的排除能力,有可能出現(xiàn)這種情況:所有人臉都被檢測(cè)到,同時(shí)很多非人臉區(qū)域也被誤認(rèn)為是人臉。因此引入誤檢率來(lái)衡量系統(tǒng)對(duì)非人臉樣本的排除能力。誤檢率越低,說明檢測(cè)系統(tǒng)對(duì)非人臉的排除能力越強(qiáng)。(3)檢測(cè)速度:大部分應(yīng)用領(lǐng)域需要在線實(shí)時(shí)地檢測(cè)人臉,如人臉識(shí)別、人臉跟蹤、可編程視頻監(jiān)控等。在檢測(cè)率和誤檢率達(dá)到滿意的

8、前提下,檢測(cè)速度越快越好。(4)魯棒性:在各種條件下,檢測(cè)系統(tǒng)的適應(yīng)能力?;谀w色模型方法無(wú)法檢測(cè)灰度圖像;大部分檢測(cè)系統(tǒng)無(wú)法檢測(cè)任意角度旋轉(zhuǎn)的人臉,一般把旋轉(zhuǎn)角度限制在一定范圍內(nèi);有些檢測(cè)方法受復(fù)雜背景的干擾,在背景較簡(jiǎn)單時(shí)效果好,反之較差。這四個(gè)標(biāo)準(zhǔn)有些是互相制約的,如檢測(cè)率和誤檢率就經(jīng)常需要權(quán)衡,實(shí)踐表明誤檢率隨著檢測(cè)率的提高而提高,檢測(cè)率隨著誤檢率的降低而降低。很多方法,如神經(jīng)網(wǎng)絡(luò)方法,檢測(cè)率已經(jīng)達(dá)到90%以上,誤檢率也不高,但檢測(cè)速度慢是其最大毛病;而模板匹配方法檢測(cè)速度雖然快,但其距離函數(shù)在不同環(huán)境下產(chǎn)生的效果差異很大,如背景簡(jiǎn)單時(shí)檢測(cè)效果好,背景復(fù)雜時(shí)效果很差,這就是其魯棒性不好

9、的表現(xiàn);膚色模型也有魯棒性不好的毛病,因?yàn)槟w色容易受到復(fù)雜背景、光線等條件的影響,而且對(duì)灰度圖無(wú)能為力。1.2 人臉檢測(cè)圖像庫(kù)人臉檢測(cè)圖像數(shù)據(jù)庫(kù)是人臉檢測(cè)算法研究、開發(fā)、評(píng)測(cè)的基礎(chǔ)。目前人臉檢測(cè)領(lǐng)域常用的人臉數(shù)據(jù)庫(kù)主要有: CMU/MIT正臉檢測(cè)數(shù)據(jù)庫(kù)由CMU人臉檢測(cè)項(xiàng)目創(chuàng)建,是用來(lái)為正面人臉檢測(cè)算法提供評(píng)估的一個(gè)人臉數(shù)據(jù)集,最初來(lái)自于基于神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)工作。數(shù)據(jù)集中的人臉來(lái)自CMU和MIT。數(shù)據(jù)集由四個(gè)部分組成,包括三個(gè)豎直的正面人臉數(shù)據(jù)集與一個(gè)旋轉(zhuǎn)的正面臉數(shù)據(jù)集。詳細(xì)信息參見:ontal_images/index.html。 CMU側(cè)臉檢測(cè)數(shù)據(jù)庫(kù)由CMU人臉檢測(cè)項(xiàng)目創(chuàng)建,是用來(lái)為正面人

10、臉和側(cè)面人臉檢測(cè)算法提供評(píng)估的一個(gè)人臉據(jù)集。詳細(xì)信息參見。第二章 圖像的底層處理2.1 圖像的預(yù)處理我們知道圖像處理中,在大多數(shù)的情況下由于受到客觀因素,如:光照、環(huán)境的影響,輸入圖像可能出現(xiàn)顏色分布不均衡、亮度過高或過低或者噪聲過大的情況,使得圖像的質(zhì)量不很理想,因此必須經(jīng)過一些處理過程才能輸入到處理系統(tǒng)中,這些處理環(huán)節(jié)就被稱為圖像的預(yù)處理過程。圖像的預(yù)處理也是一個(gè)去除無(wú)用信息,提高算法效率和速度的過程。預(yù)處理做得好可以減少后面核心算法中的工作量,相反如果缺少必要的預(yù)處理過程,則會(huì)對(duì)有可能造成工作量的增大和效率的降低,更有可能決定算法的有效性。在本系統(tǒng)中共涉及到圖像增強(qiáng)、圖像濾波等過程,下面

11、給予討論。在圖像的生成、傳輸或變換的過程中,由于多種因素的影響,會(huì)導(dǎo)致圖像質(zhì)量的下降。圖像增強(qiáng)就在于修正這種降質(zhì),達(dá)到以下兩個(gè)目的: 一、改善圖像的視覺效果,提高圖像的清晰度;二、將圖像轉(zhuǎn)換成一種更適合人或機(jī)器分析處理的形式??傊?,就是通過處理來(lái)有選擇的突出圖像中感興趣的信息,抑制無(wú)用的信息,以提高圖像的有用價(jià)值。圖像的增強(qiáng)方法按作用域可分為空域法和頻域法兩類。本文主要采用空域法,下面對(duì)此法經(jīng)行詳細(xì)介紹: 一幅數(shù)字圖像經(jīng)過增強(qiáng)處理后變?yōu)榱硪环碌膱D像,這種處理方法就成為空域處理法。在二維空間_上進(jìn)行增強(qiáng)處理,主要是在灰度級(jí)上做文章,即利用灰度對(duì)比度增強(qiáng)的方法,進(jìn)行灰度級(jí)映射變換,它主要包括:灰

12、度線性變化即和成恒定的線性關(guān)系。這是在曝光不足或曝光過度的情況下,圖像的灰度值會(huì)局限在一個(gè)較小的范圍內(nèi),或曝光雖然充分,但圖像中我們感興趣部分的灰度值范圍小,層次少,此時(shí)的圖像可能是一個(gè)模糊、灰度層次不清楚的圖像。利用這種變換的目的主要是為了突出圖像中感興趣的灰度區(qū)域或目標(biāo)而相對(duì)抑制不感興趣的區(qū)域;灰度非線性變換,則是指和成非線性關(guān)系,如:對(duì)數(shù)變換、指數(shù)變換等。以上的變換基本上都是像素的“點(diǎn)對(duì)點(diǎn)”的變換,現(xiàn)在應(yīng)用較多的是基于圖像直方圖的一種方法。下面對(duì)這一技術(shù)進(jìn)行簡(jiǎn)單介紹?;叶戎狈綀D是灰度級(jí)分布的函數(shù),它表示圖像中具有每種灰度級(jí)的像素的個(gè)數(shù),反映圖像中每種灰度出現(xiàn)的概率。從圖像上來(lái)講,它是一維

13、曲線,表征了圖像的最基本的統(tǒng)計(jì)特性。通過直方圖可以清楚的了解圖像對(duì)應(yīng)的動(dòng)態(tài)范圍的情況,也可以了解到圖像的主要集中范圍。下面舉一個(gè)簡(jiǎn)單的例子來(lái)說明圖像的灰度直方圖。如圖2.1所示,假設(shè)有一幅如圖所示的4×4大小、具有4個(gè)灰度級(jí)(0,1,2,3)的圖像,則圖像的灰度分布圖如2.2所示。 X P(r) 0 0 1 1 1 2 2 1 2 2 2 2 3 3 3 3 8 6 4 2 r(灰度級(jí)) 0 Y 1 2 3 圖2.1灰度圖像 圖2.2灰度分布圖當(dāng)圖像由于光照條件較差而過亮或者過暗時(shí),我們可以對(duì)直方圖進(jìn)行調(diào)整,對(duì)圖像進(jìn)行增強(qiáng)處理?!爸狈綀D均衡化”技術(shù)是現(xiàn)在應(yīng)用比較多的處理方法,它的基本

14、原理是:對(duì)圖像中像素個(gè)數(shù)較多的灰度值進(jìn)行展寬,而對(duì)像素個(gè)數(shù)較少的灰度值進(jìn)行歸并,從而達(dá)到清晰圖像的目的。以圖像灰度r的積累分布函數(shù)為映射函數(shù),從而產(chǎn)生灰度級(jí)具有均勻密度的圖像,如2.3所示。Ps( s)Sj+sSjOOSrrrRj+rRj圖2.3 直方圖均衡化2.2 圖像的二值化邊緣檢測(cè)數(shù)字圖像的邊緣檢測(cè)是圖像分割、目標(biāo)區(qū)域識(shí)別、區(qū)域形狀提取等圖像分析領(lǐng)域十分重要的基礎(chǔ),在工程應(yīng)用中占有十分重要的地位。物體的邊緣是以圖下個(gè)局部特征不連續(xù)的形式出現(xiàn)的,也就是指圖像局部亮度變化最顯著的部分,例如灰度值的變換、顏色的突變、紋理結(jié)構(gòu)的突變等,同時(shí)物體的邊緣也是不同區(qū)域的分界處。邊緣檢測(cè)就是要確定圖像中

15、有無(wú)邊緣點(diǎn),若有還要進(jìn)一步確定其位置。具體實(shí)施時(shí)可分為一下兩步。首先對(duì)圖像中的每一個(gè)像素施以檢測(cè)算子,然后根據(jù)事先確定的準(zhǔn)則對(duì)檢測(cè)算子的輸出進(jìn)行判定,確定該像素點(diǎn)是否為邊緣點(diǎn)。采用的具體檢測(cè)算子和判定準(zhǔn)則取決于實(shí)際應(yīng)用環(huán)境及被檢測(cè)的邊緣類型。邊緣檢測(cè)的方法有很多,主要有以下幾種.第一種方法是空域微分算子,也就是傳統(tǒng)的邊緣檢測(cè)方法。由于邊緣是圖像上灰度變化最劇烈的地方,對(duì)應(yīng)連續(xù)情形就是函數(shù)梯度較大的地方,所以研究比較好的求導(dǎo)算子就成為一種邊緣檢測(cè)的思路。傳統(tǒng)的邊緣檢測(cè)就是利用這個(gè)特點(diǎn),對(duì)圖像各個(gè)像素點(diǎn)進(jìn)行一階活二階微分來(lái)確定邊緣像素點(diǎn)。一階微分圖像的峰值處對(duì)應(yīng)著圖像的邊緣點(diǎn);二階微分圖像的過零點(diǎn)

16、處對(duì)應(yīng)著圖像的邊緣點(diǎn)。邊緣檢測(cè)算子檢查每個(gè)像素的領(lǐng)域并對(duì)灰度變化率進(jìn)行量化,通常也包括著方向的確定。目前已經(jīng)提出許多種算子,例如Prewitt算子、Robert算子、Sobel算子等就是比較簡(jiǎn)單而且常用的邊緣檢測(cè)算子。第二種方法是擬合曲面。擬合曲面是一種比較直觀的方法,該方法利用當(dāng)前像素領(lǐng)域中的一些像素值擬合一個(gè)曲面,然后求這個(gè)連續(xù)曲面在當(dāng)前像素出的梯度。從統(tǒng)計(jì)角度來(lái)說,可以通過回歸分析得到一個(gè)曲面,然后做類似的處理。第三種方法就是小波多尺度邊緣檢測(cè)。20世紀(jì)90年代,隨著小波分析的迅速發(fā)展,小波開始用于邊緣檢測(cè)。作為研究非平穩(wěn)信號(hào)的工具,小波檢測(cè)在邊緣檢測(cè)方面具有得天獨(dú)厚的優(yōu)勢(shì),Mallat

17、在這一方面做了不少的工作。第四種方法是基于數(shù)學(xué)形態(tài)學(xué)的邊緣檢測(cè)。形態(tài)學(xué)運(yùn)算時(shí)物體形狀集合與結(jié)構(gòu)元素之間的相互作用,對(duì)邊緣方向不敏感,并能在很大程度上抑制噪聲和探測(cè)真正的邊緣,同時(shí)數(shù)態(tài)特征上具有獨(dú)特的優(yōu)勢(shì)。因此,將數(shù)學(xué)形態(tài)學(xué)應(yīng)用于邊緣檢測(cè),既能有效的濾除噪聲,又可保留圖像中的原有信息,是邊緣檢測(cè)的一個(gè)重大突破。目前較成熟的有:基于多尺度形態(tài)學(xué)的邊緣檢測(cè)、基于均衡化和數(shù)學(xué)形態(tài)學(xué)的組合邊緣檢測(cè)、基于偏微分方程和形態(tài)學(xué)的邊緣檢測(cè)等。本文主要采用邊緣檢測(cè)算子來(lái)進(jìn)行檢測(cè),下面介紹幾種常用的傳統(tǒng)的邊緣檢測(cè)算子。1、 Prewitt算子Prewitt算子用卷積模板來(lái)描述: (2-1)式中,前者為水平模板,后者

18、為垂直模板,圖像中的每個(gè)點(diǎn)都用這兩個(gè)模板進(jìn)行卷積,取最大值作為輸出,最終產(chǎn)生一幅邊緣幅度圖像。2、 Kirsch算子Kirsch算子使用8個(gè)模板來(lái)確定梯度的幅值和方向,故又稱為方向算子,通過一組模板分別計(jì)算不同方向上的差分值,取其中最大的值作為邊緣強(qiáng)度,而將與之對(duì)應(yīng)的方向作為邊緣的方向。假設(shè)原始圖像的子圖像如圖2.4所示。則邊緣的梯度大小為 aa a (i,j)a a aa圖2.4 3×3子圖像示意圖 (2-2) 式中 上式中的下標(biāo)超過7就用8去除并取余數(shù)。實(shí)際上就是使用了8個(gè)模板。Kirsch算子實(shí)現(xiàn)起來(lái)相對(duì)說稍微麻煩一些,它采用8個(gè)模板對(duì)圖像的每個(gè)像素點(diǎn)進(jìn)行卷積求導(dǎo)數(shù),這8個(gè)模板

19、代表8個(gè)方向,分別對(duì)圖像上的8個(gè)特定邊緣方向做出最大的響應(yīng),運(yùn)算中取所有8個(gè)方向的最大值作為圖像的邊緣輸出。3、LOG(Laplacian-Gauss)算子當(dāng)使用一階導(dǎo)數(shù)的邊緣檢測(cè)算子時(shí),如果所求的一階導(dǎo)數(shù)高于某一閾值,則確定該點(diǎn)為邊緣點(diǎn),這樣做會(huì)導(dǎo)致檢測(cè)的邊緣點(diǎn)太多。一種更好的方法就是求梯度局部最大值對(duì)應(yīng)的點(diǎn),并認(rèn)定它們是邊緣點(diǎn)。通過去除一階導(dǎo)數(shù)的非局部最大值,可以檢測(cè)出更精確的邊緣。一階導(dǎo)數(shù)的局部最大值對(duì)應(yīng)著二階導(dǎo)數(shù)的零交叉點(diǎn),通過找圖像強(qiáng)度的二階導(dǎo)數(shù)的零交叉點(diǎn)就能確定精確地邊緣點(diǎn)。在二維空間中,一種常用的二階導(dǎo)數(shù)算子是Laplacian算子。但是,Laplacian算子有兩個(gè)缺點(diǎn),其一是

20、邊緣的方向信息唄丟失,其二是Laplacian算子是二階差分算子,因此雙倍加強(qiáng)了圖像噪聲的影響。由于圖像強(qiáng)度二階導(dǎo)數(shù)的零交叉點(diǎn)求邊緣點(diǎn)算法對(duì)噪聲十分敏感,為了消除噪聲影響,Marr和Hildreth將Gaussian濾波器和Laplacian邊緣檢測(cè)結(jié)合在一起,形成了LOG(Laplacian of gaussian)算法。即先用高斯函數(shù)對(duì)圖像進(jìn)行平滑,然后再用拉普拉斯算子進(jìn)行運(yùn)算,得到Laplacian-Gauss算法,它使用一個(gè)墨西哥草帽函數(shù)形式。 (2-3)這種方法的特點(diǎn)是圖像首先與高斯濾波器進(jìn)行卷積,既平滑了圖像又降低了噪聲和較小的結(jié)構(gòu)組織將被濾除。4、Sobel算子在圖像處理中,一階

21、導(dǎo)數(shù)就是通過梯度來(lái)實(shí)現(xiàn)的,因此,利用一階導(dǎo)數(shù)檢測(cè)邊緣點(diǎn)的方法就稱為Sobel算子法。圖像函數(shù)是在點(diǎn)的梯度是一個(gè)具有方向和大小矢量,即 (2-4)在方向的變化率可由下式給出 (2-5)變化率最大方向?yàn)?(2-6)梯度值的大小為 (2-7)所有基于梯度的邊緣檢測(cè)器之間的根本區(qū)別就是算子應(yīng)用的方向,以及在這些方向上逼近圖像一維導(dǎo)數(shù)的方式和將這些近視值合成為梯度幅度的方式。當(dāng)我們考慮數(shù)子圖像的離散域時(shí),可將圖像的一階差分直接替代圖像函數(shù)的偏導(dǎo)數(shù)。二維離散圖像函數(shù)在x方向的一階差分定義為 (2-8)y方向的一階差分定義為 (2-9)根據(jù)上面所述的原理,索貝爾(sobel)提出一種將方向差分運(yùn)算和局部平均

22、運(yùn)算相結(jié)合的方法,即sobel算子。該算子是在以為中心的3×3的領(lǐng)域上計(jì)算x和y方向上的偏微分,即 (2-10)實(shí)際上,上式應(yīng)用了鄰域的圖像強(qiáng)度的加權(quán)平均插值。其梯度的大小為: (2-11)或取絕對(duì)值 (2-12)本文采用了后面一種梯度近視值。在實(shí)際的應(yīng)用中,通常是利用簡(jiǎn)單的模板卷積來(lái)計(jì)算方向差分,不同的算子對(duì)應(yīng)不同的模板卷積,它們產(chǎn)生的兩個(gè)偏導(dǎo)數(shù)在圖像一個(gè)點(diǎn)上用均方值或絕對(duì)值求和的形式結(jié)合起來(lái),下圖給出了sobel算子常采用的梯度模板: 5、Canny算子在高斯噪聲中,一個(gè)典型的邊緣代表一個(gè)階躍的強(qiáng)度變化。根據(jù)這個(gè)模型,好的邊緣檢測(cè)算子應(yīng)該有3個(gè)指標(biāo):第一是低失誤率,即真正的邊緣點(diǎn)

23、盡可能少的丟失,同時(shí)又要盡可能避免將非邊緣檢測(cè)為邊緣;第二是高位置精度,檢測(cè)的邊緣應(yīng)盡可能接近真實(shí)的邊緣;第三是對(duì)每一個(gè)邊緣點(diǎn)有唯一的響應(yīng),得到單像素寬度的邊緣。為此John Canny提出了邊緣檢測(cè)算子的如下3個(gè)準(zhǔn)則。(1)信噪比準(zhǔn)則信噪比越大,提取的邊緣質(zhì)量越高。信噪比SNR定義如下: (2-13)式中,代表邊緣函數(shù);代表寬度為的濾波器的脈沖響應(yīng);代表高斯噪聲的均一方差。(2)定位精度準(zhǔn)則邊緣定位精度定義如下: (2-14) 式中和分別代表和的導(dǎo)數(shù),越大表明定位精度越高。(3)單邊緣響應(yīng)準(zhǔn)則為了保證單邊緣只有一個(gè)響應(yīng),檢測(cè)算子的脈沖響應(yīng)導(dǎo)數(shù)的零交叉點(diǎn)平均距離應(yīng)滿足: (2-15) 式中為的

24、二階導(dǎo)數(shù)。將Canny的3個(gè)準(zhǔn)則相結(jié)合可以獲得最優(yōu)的檢測(cè)算子,在此基礎(chǔ)上,Canny設(shè)計(jì)了一個(gè)邊緣檢測(cè)算法,其具體步驟如下: 首先用2D高斯濾波模板進(jìn)行卷積以平滑圖像 利用微分算子(比如Prewitt算子、Sobel算子),計(jì)算梯度的幅值和方向。、 對(duì)梯度幅值進(jìn)行非極大值抑制。即遍歷圖像,若某個(gè)像素的灰度值與其梯度方向上的前后兩個(gè)像素的灰度值相比不是最大,那么這個(gè)像素值置為0,即不是邊緣。 使用雙閾值算法檢測(cè)和連接邊緣。即使用累計(jì)直方圖計(jì)算兩個(gè)閾值,凡是大于高閾值的一定是邊緣;凡是小于低閾值的一定不是邊緣。如果檢測(cè)的結(jié)果大于低閾值但又小于高閾值,那就要看這個(gè)像素的鄰接像素中有沒有超過高閾值的邊

25、緣像素,如果有,則該像素是邊緣,否則就不是邊緣。圖2.5是應(yīng)用于上述算法所得到的實(shí)驗(yàn)結(jié)果,從圖中我們可以看到不同算子對(duì)人臉檢測(cè)和定位所取到的效果。本文主要采用sobel算子進(jìn)行檢測(cè)。圖2.5 幾種梯度算子檢測(cè)邊緣點(diǎn)的示例閾值的選擇 利用閾值分割圖像以及對(duì)原始圖像進(jìn)行二值化處理是圖像處理的基本問題,并在圖像分析和識(shí)別中起到了重要的作用。但是由于圖像處理對(duì)象和目的的千差萬(wàn)別,在實(shí)際工作中常常遇到這樣的現(xiàn)象,即一種閾值的選擇方法對(duì)某些應(yīng)用問題很有用,而對(duì)另一些問題可能變得很不適應(yīng)。所以,木論文中在邊緣檢測(cè)的閾值的選擇問題上,還需要以我們研究的圖像對(duì)象的情況來(lái)確定。常見的閾值確定方法有以下幾種:1)

26、邊界灰度作為分割閾值邊界的灰度通常介于相鄰兩個(gè)區(qū)域的平均灰度之間,可以作為圖像分割的閾值。在通過其他途徑獲取邊界灰度后,該方法簡(jiǎn)便易行。如果事先用微分算子或梯度算子處理過的圖像,則該方法不再適應(yīng)。2) 根據(jù)直方圖谷點(diǎn)確定閾值 如果目標(biāo)區(qū)域和背景區(qū)域在灰度上有較明顯的差異,那么該圖像的灰度直方圖將呈現(xiàn)雙峰谷狀。其中一個(gè)峰值對(duì)應(yīng)于目標(biāo)的中心灰度,另一個(gè)峰值對(duì)應(yīng)背景的中心灰度。由于目標(biāo)邊界點(diǎn)較少且其灰度介于他們之間,所以雙峰之間的谷點(diǎn)對(duì)應(yīng)邊界的灰度,可以將谷點(diǎn)的灰度作為分割閾值,獲得較好的分割效果。需要注意的是,由于直方圖是各級(jí)灰度的像素統(tǒng)計(jì),如果沒有圖像其他方面的知識(shí),只靠直方圖分割時(shí)不可能的。如

27、圖2.6所示,直方圖谷點(diǎn)于最佳分割閾值之間總是存在誤差,有時(shí)甚至無(wú)法確定,如圖2.6(f)所示。最佳閾值最佳閾值最佳閾值最佳閾值(a)(b)(c)(d)(e)(f)最佳閾值最佳閾值常規(guī)閾值常規(guī)閾值常規(guī)閾值 圖26 第一行:目標(biāo)和背景的灰度分布:第二行:與第一行對(duì)應(yīng)的圖像直方圖3)統(tǒng)計(jì)判決方法確定閾值統(tǒng)計(jì)判決法是指利用統(tǒng)計(jì)學(xué)方法確定最佳分割閾值。例如:利用誤差最小準(zhǔn)則、可能性最大準(zhǔn)則和方差最大準(zhǔn)則等。本文主要采用最小誤判概率準(zhǔn)則確定最佳分割閾值。設(shè)圖像含有目標(biāo)和背景,目標(biāo)的平均灰度高于背景的平均灰度。目標(biāo)點(diǎn)的灰度分布函數(shù),均值和方差為和,背景點(diǎn)的灰度分布密度函數(shù)為,均值和方差為和,則 (2-16

28、) (2-17)設(shè)目標(biāo)點(diǎn)的個(gè)數(shù)占圖像總像素?cái)?shù)十萬(wàn)百分比為,背景點(diǎn)位。那么這幅圖像的灰度分布密度函數(shù)為 (2-18)如果以閾值t進(jìn)行分割,灰度小于t的像點(diǎn)座位背景,否則座位目標(biāo)點(diǎn),于是將目標(biāo)點(diǎn)誤判為背景點(diǎn)的概率為 (2-19)把背景點(diǎn)誤判為目標(biāo)點(diǎn)的概率為 (2-20)選取的閾值t應(yīng)使總的誤判率 (2-21)最小。對(duì)t求導(dǎo)并令結(jié)果為零,即令有 (2-22)即 (2-23)當(dāng)=時(shí) (2-24)若先驗(yàn)概率已知,例如,=,則有 (2-25)邊界跟蹤圖像的輪廓(邊界)跟蹤與邊緣檢測(cè)是密切相關(guān)的,因?yàn)檩喞檶?shí)質(zhì)上就是沿著圖像的外部邊緣“走”一圈。輪廓跟蹤也稱為邊緣點(diǎn)連接,是一種基于梯度的圖像分割法,是指從

29、梯度圖中一個(gè)邊界點(diǎn)出發(fā),一次通過對(duì)前一個(gè)邊界點(diǎn)的考察而逐步確定下一個(gè)信得邊界點(diǎn),并將它們連接進(jìn)而逐步檢測(cè)初步邊界的方法。一般輪廓跟蹤算法具有很好的抗噪性,產(chǎn)生的邊界具有很好的剛性。圖形的輪廓跟蹤技術(shù)與圖像的邊界提起技術(shù)是不同的,邊界提取既要提取圖像的外部邊緣又要提取圖像的內(nèi)部邊緣,而圖像的輪廓跟蹤技術(shù)只對(duì)圖像的外部邊緣進(jìn)行跟蹤。因此輪廓跟蹤的目的主要是將目標(biāo)與背景區(qū)分出來(lái)。按照邊緣的特點(diǎn),有的邊界取正值(階躍邊緣一階導(dǎo)數(shù)為正值),有的取負(fù)值(房頂型邊緣二階導(dǎo)數(shù)為負(fù)值),有的邊界值取0(階躍邊緣二階導(dǎo)數(shù)、房頂型一階導(dǎo)數(shù)均過零點(diǎn))。因此輪廓跟蹤方法按邊緣特點(diǎn)分,有極大跟蹤法、極小跟蹤法、極大極小跟

30、蹤法與過零點(diǎn)跟蹤法。實(shí)際跟蹤比較復(fù)雜,跟蹤準(zhǔn)則要隨問題內(nèi)容而定,準(zhǔn)則不同,跟蹤方法也不同。具體輪廓跟蹤過程大致分為以下三步:1) 確定輪廓跟蹤的起始邊界點(diǎn)。根據(jù)算法的不同,選擇一個(gè)或多個(gè)邊緣點(diǎn)作為搜索的起始邊緣點(diǎn)。2) 選擇一合適的數(shù)據(jù)結(jié)構(gòu)和搜索策略,根據(jù)已發(fā)現(xiàn)的邊界點(diǎn)確定下一個(gè)檢測(cè)目標(biāo)并對(duì)其進(jìn)行檢測(cè)。3) 制定出終止搜索的準(zhǔn)則(一般是將形成閉合邊界作為終止條件),在滿足終止條件時(shí)結(jié)束搜索。常用的輪廓跟蹤技術(shù)有兩種,一種是探測(cè)法,一種是梯度圖法。下面主要介紹梯度圖法的輪廓跟蹤技術(shù)。對(duì)于一個(gè)給定目標(biāo)的人簡(jiǎn)單圖像,先計(jì)算出梯度圖??赏ㄟ^在梯度圖中搜索梯度最大的點(diǎn)來(lái)作為輪廓的起始點(diǎn)。第二點(diǎn)可以再其前

31、一點(diǎn)的8領(lǐng)域中尋找,一般是選擇梯度最大的點(diǎn)作為第二個(gè)邊界點(diǎn)。由于根據(jù)前一個(gè)點(diǎn)P和當(dāng)前點(diǎn)C的相互位置可以大致確定出邊緣的走向,因此在對(duì)下一點(diǎn)的搜尋時(shí)不必在對(duì)當(dāng)前點(diǎn)的8領(lǐng)域進(jìn)行計(jì)算比較,而可以根據(jù)前一點(diǎn)P和當(dāng)前點(diǎn)C在位置上的不同得到如圖2.7所示的8種可能的方向。為了保證邊界的光滑性,每次只對(duì)P與C連線方向上成扇形的3個(gè)候選邊緣像素進(jìn)行梯度值計(jì)算及比較,并取最大梯度值最為下一個(gè)邊界點(diǎn)。這樣將減少相當(dāng)多的計(jì)算量。得到的邊界8連通。前一點(diǎn)P當(dāng)前點(diǎn)C候選點(diǎn)N圖2.7 各種梯度圖圖像的歸一化當(dāng)對(duì)圖像進(jìn)行基于橢圓形整體特征和從于分布特征的檢測(cè)之后,為了后面進(jìn)行人臉識(shí)別處理的方便,我們需要對(duì)人臉圖!像的尺度和

32、灰度進(jìn)行歸一化處理。尺度歸一化主要是依據(jù)人臉圖像中特征點(diǎn)的位置、人臉圖像中分布特征的尺寸以及我們?cè)诤竺孀R(shí)別處理過程中所需要的輸入圖像尺寸,三方面的要求進(jìn)行歸一化處理。因?yàn)樵紙D像的尺寸有可能根據(jù)實(shí)際情況存在尺度上的不統(tǒng)一,人臉的尺寸也有可能有大有小,所以在歸一化的過程中會(huì)存在降低分辨率的情況,當(dāng)分辨率降低到一定的水平會(huì)造成后面識(shí)別處理的難度,所以我們對(duì)原始輸入圖像在尺度上還是有一定的限制的。由于尺度歸一化和灰度歸一化在于技術(shù)實(shí)現(xiàn)上比較簡(jiǎn)單,這里不在敘述。第三章 基于Adaboost算法的人臉檢測(cè)3.1 AdaBoost算法的發(fā)展應(yīng)用1984年11月Valiant發(fā)表的“PAC”(Probabl

33、y Approximately Correct)learning model,Boosting的提出最初來(lái)源于這篇文章,在這篇文章中,分別定義了弱學(xué)習(xí)和強(qiáng)學(xué)習(xí)算法,弱學(xué)習(xí)算法是僅比隨機(jī)猜測(cè)略好,準(zhǔn)確率不要求很高的一種算法,強(qiáng)學(xué)習(xí)算法是準(zhǔn)確率要求很高的學(xué)習(xí)算法。然而這篇文章并沒有給出如何將弱學(xué)習(xí)和強(qiáng)學(xué)習(xí)關(guān)聯(lián)起來(lái),也沒有說明是否適合于所有樣本空間分布。1989年Schapire首次提出了Boosting算法,解決了三個(gè)問題:(1)目標(biāo)集只有滿足強(qiáng)學(xué)習(xí)算法的情況下才有弱學(xué)習(xí)算法;(2)存在弱學(xué)習(xí)算法適合任何樣本空間分布意味著強(qiáng)學(xué)習(xí)算法也適合任何樣本空間分布;(3)通過遞歸方法能夠提升弱學(xué)習(xí)為強(qiáng)學(xué)習(xí)從

34、而提高分類的準(zhǔn)確率。1990年Freund提出了更有效的boosting算法,但是在弱學(xué)習(xí)算法中需要準(zhǔn)確的知道訓(xùn)練樣本的先驗(yàn)知識(shí),事實(shí)上我們并不能準(zhǔn)確的知道每次訓(xùn)練樣本的先驗(yàn)知識(shí),因此在實(shí)際應(yīng)用上有一定的局限性。1995年Freund and Schapire提出了AdaBoost算法,AdaBoost算法即為AdaptiveBoosting算法,之所以取這個(gè)名字,是因?yàn)樗赃m應(yīng)的調(diào)整弱學(xué)習(xí)算法的錯(cuò)誤率,使經(jīng)過若干次遞歸后整體錯(cuò)誤率能夠達(dá)到我們的期望值,同時(shí),不需要準(zhǔn)確知道樣本空間分布,每次弱學(xué)習(xí)后調(diào)整樣本空間分布,更新每個(gè)訓(xùn)練樣本的權(quán)重,將樣本空間中正確分類的樣本權(quán)重保持不變,而將被錯(cuò)誤分類

35、的樣本權(quán)重提高,這樣下次弱學(xué)習(xí)時(shí)能更關(guān)注這些錯(cuò)分類的樣本。最初文章中都是將AdaBoost算法應(yīng)用于字符識(shí)別上,因其特征空間維數(shù)相對(duì)比較少些。隨著算法的不斷成熟,AdaBoost算法已成為機(jī)器學(xué)習(xí)的一大亮點(diǎn),能運(yùn)用到各個(gè)領(lǐng)域,比如手寫體數(shù)字識(shí)別,人臉檢測(cè),人臉識(shí)別,車牌字符識(shí)別,數(shù)據(jù)挖掘,虹膜識(shí)別等等。2001年Viola和Jones發(fā)表了一篇基于AdaBoost算法的人臉檢測(cè)器,這篇文章主要有三大貢獻(xiàn):(1)引入“積分圖”概念,使得檢測(cè)器中特征的計(jì)算容易快速;(2)基于AdaBoost的學(xué)習(xí)算法,它能從一個(gè)很大的特征集中選擇很小的一部分關(guān)鍵的特征來(lái)產(chǎn)生一個(gè)及其有效的分類器,它最終形成的強(qiáng)分類

36、器的訓(xùn)練錯(cuò)誤率接近于零,而且具有很好的推廣性;(3)在級(jí)聯(lián)的檢測(cè)器中不斷增加更多的強(qiáng)分類器,這樣可以很快排除背景區(qū)域,從而節(jié)約出時(shí)間用于對(duì)那些更像人臉的區(qū)域進(jìn)行計(jì)算。這個(gè)人臉檢測(cè)系統(tǒng)的檢測(cè)率可以和當(dāng)時(shí)最好的算法匹敵,而且檢測(cè)速度高達(dá)15幀/秒。2002年Stan Z.Li提出了一種基于FloatBoost的多視角的人臉檢測(cè)算法。通過利用FloatBoost將學(xué)到的弱分類器構(gòu)造成一個(gè)強(qiáng)分類器,該系統(tǒng)是一個(gè)從粗到精、從簡(jiǎn)單到復(fù)雜的金字塔型的人臉檢測(cè)系統(tǒng),同基于AdaBoost的算法相比,它能在提高人臉檢測(cè)速度的同時(shí)提高檢測(cè)的精度。為了檢測(cè)具有各種深度旋轉(zhuǎn)角度的人臉,他們將各種角度的人臉進(jìn)行了分類。

37、此外,他們還提出了一種實(shí)時(shí)的多視角的人臉檢測(cè)、跟蹤、姿態(tài)估計(jì)、對(duì)齊和識(shí)別的綜合系統(tǒng)。2003年Rainer Lienhart在Viola的基礎(chǔ)上又提出了一些新的旋轉(zhuǎn)Haar-like特征,他通過學(xué)習(xí)得到的系統(tǒng)能夠用于旋轉(zhuǎn)人臉的快速檢測(cè),同時(shí)也能使平均的誤檢率降低10%。此外他還研究了一些其他的Boosting算法,如:離散的(DiscreteAdaboost),實(shí)值的(Real Adaboost)和平緩的(Gentle Adaboost),通過比較得出基于平緩的(Gentle Adaboost)效果較好。2003年C.Liu等人提出了一種基于Kullback-Leibler Boosting(

38、KLB)算法構(gòu)造的一個(gè)緊湊的(compact)分類器。該算法解決了AdaBoost算法中存在的兩個(gè)問題:第一,怎樣根據(jù)學(xué)習(xí)得到的系數(shù)對(duì)弱分類器進(jìn)行最佳的組合,其解決的策略是通過迭代調(diào)整系數(shù)以最小化人臉檢測(cè)的錯(cuò)誤率,它能保證在特征不斷增多的情況下檢測(cè)的錯(cuò)誤率不會(huì)增加;第二,怎樣選擇最好的弱分類器或特征,其策略是尋找使人臉和非人臉之間的KL散度的對(duì)稱性最大化的KL特征,通過最優(yōu)的特征來(lái)構(gòu)造最優(yōu)的分類器。2004年Jianxin Wu等人針對(duì)利用AdaBoost算法選擇特征訓(xùn)練時(shí)間長(zhǎng)的缺點(diǎn),提出了前向特征選擇方法,兩者主要區(qū)別在于弱分類器選擇的方法,給定所有樣本的全部初始特征值集,AdaBoost算

39、法需要每次從特征值集中選擇錯(cuò)誤率最小的特征作為一個(gè)弱分類器,由于利用AdaBoost算法更新了樣本權(quán)重,所以每次樣本的特征值集分布會(huì)有所改變,所以選擇下一個(gè)弱分類器時(shí)要重新挑選;而前向特征選擇只要從初始特征值集中挑選出滿足檢測(cè)率和誤檢率條件的特征值集,不需要更新權(quán)重,這種方法雖然縮短了訓(xùn)練時(shí)間,但是最終選擇的弱分類器的個(gè)數(shù)要遠(yuǎn)遠(yuǎn)超過利用提升機(jī)制選擇的特征,增加了檢測(cè)時(shí)間,原因在于這種方法是一種次優(yōu)選擇特征的方法。2005年Jianxin Wu等人又發(fā)表了一篇基于線性非對(duì)稱分類的多層檢測(cè)器,線性非對(duì)稱主要是考慮到傳統(tǒng)AdaBoost算法中并沒有明確給出最終得到的強(qiáng)分類器所能達(dá)到的檢測(cè)率和誤檢率,

40、而注重點(diǎn)在尋找錯(cuò)誤率最小的特征,沒有考慮到每次找到的特征如何有效的組合達(dá)到較高的檢測(cè)率和較低的誤檢率。該文根據(jù)每個(gè)強(qiáng)分類器的檢測(cè)率和誤檢率,通過數(shù)學(xué)公式推導(dǎo)出如何有效組合各個(gè)弱分類器的加權(quán)和公式。3.2 人臉檢測(cè)訓(xùn)練算法3.2.1使用Haar-like特征的Adaboost人臉檢測(cè)算法Viola和Jones于2001發(fā)表文章,成為人臉檢測(cè)速度提高的轉(zhuǎn)折點(diǎn),Viola本人也在人臉檢測(cè)的速度提高方面做出了突出貢獻(xiàn)。他通過使用Haar-like特征和積分圖快速算法,并綜合Adaboost和Cascade算法實(shí)現(xiàn)了實(shí)時(shí)的人臉檢測(cè)系統(tǒng),使得人臉檢測(cè)從真正意義上走向了實(shí)用。圖3.1給出了使用Adaboos

41、t算法進(jìn)行人臉檢測(cè)的流程圖。訓(xùn)練過程檢測(cè)過程非人臉樣本人臉樣本Adaboost算法的訓(xùn)練過程生成分類器輸入圖像Adaboost算法的檢測(cè)過程輸出結(jié)果圖3.1 基于Adaboost算法的人臉檢測(cè)流程圖(1)Haar-like特征和積分圖Haar-like特征是一種線性變換特征,曾經(jīng)被Papageorgious等用來(lái)做物體檢測(cè)。由于其計(jì)算代價(jià)相當(dāng)小,所以非常適合用來(lái)抽取人臉特征。一組典型的Haar-like特征由圖3.2所示,每種特征都由大小及排列方式相同的矩形組成。對(duì)于一個(gè)由兩個(gè)矩形框組成的Haar-like特征,其特征的值就是兩個(gè)矩形內(nèi)部像素值之和的差(白色減黑色部分);對(duì)于三個(gè)矩形框組成的H

42、aar-like特征,其特征的值就是兩個(gè)外部的白色矩形框內(nèi)的像素值之和減去兩倍的中間黑色矩形框內(nèi)的像素值之和;對(duì)于四個(gè)矩形框組成的Haar-like特征,其特征的值就是主對(duì)角的兩個(gè)矩形框內(nèi)的像素值之和與副對(duì)角線兩個(gè)矩形框內(nèi)的像素值之和的差。為了提高計(jì)算Haar-like特征值的速度,Viola等提出了積分圖(Integral Image)的概念。一幅圖像產(chǎn)生的積分圖,坐標(biāo)為A(x,y)位置的積分圖元素的值即為由原圖A點(diǎn)的左上方的矩形圍成的所有像素值的和(圖3.2),即 (3-1)其中表示像素點(diǎn)的積分圖的值,表示原始圖像的值。ii(x ,y)可以通過下式迭代進(jìn)行計(jì)算: (3-2) (3-3)其中

43、表示行的積分和,且,。求一幅圖像的積分圖,只需遍歷一次圖像即可。圖3.2檢測(cè)窗內(nèi)的Haar-like特征例子。特征值的求法為白色矩形框內(nèi)的所有像素點(diǎn)的和減去灰色矩形框中的所有像素點(diǎn)的和。(A)(B)表示的是兩個(gè)矩形框的Haar-like特征。(C)(D)表示的是三個(gè)矩形框的Haar-like特征。(E)表示的是四個(gè)矩形框的Haar-like特征。通過使用積分圖可以非??焖俚赜?jì)算五個(gè)簡(jiǎn)單的Haar-like特征(圖3.2)。圖中由兩個(gè)矩形構(gòu)成的特征,其像素和之差可通過六個(gè)參考矩形求得;由三個(gè)矩形構(gòu)成的特征可以通過八個(gè)參考矩形求得;由四個(gè)矩形構(gòu)成的特征可以通過九個(gè)參考矩形求得。如圖3.4所示:點(diǎn)1

44、的積分圖值是矩形框A中所有像素的像素值之和。點(diǎn)2的積分圖所對(duì)應(yīng)的值為A+B,點(diǎn)3是A+C,點(diǎn)4是A+B+C+D,所以D中所有像素值之和可以用4+1-(2+3)計(jì)算。圖3.3積分圖圖3.3在點(diǎn)(x,y)的積分圖的值是由原圖(x,y)點(diǎn)的左上方的矩形圍成的所有像素值的和。圖3.4積分圖像素值計(jì)算(2)Adaboost算法的訓(xùn)練過程 上述的Haar-like特征,針對(duì)20×20窗口大小的訓(xùn)練數(shù)據(jù),可以產(chǎn)生45396個(gè)之多的候選特征,但并不是所有特征都對(duì)分類有很好的效果。并且,構(gòu)建一個(gè)具有近5萬(wàn)個(gè)特征生成的弱分類器組合生成的強(qiáng)分類器也是不現(xiàn)實(shí)的,因此,我們需要用到Boosting方法來(lái)做特征

45、選取并根據(jù)選取的特征生成弱分類器,最終生成強(qiáng)分類器。在分類算法中,Boosting方法是一種新發(fā)展起來(lái)的重要的方法,很多分類算法的性能可以通過連續(xù)地分配不同的權(quán)值給訓(xùn)練數(shù)據(jù),根據(jù)帶權(quán)值的訓(xùn)練數(shù)據(jù)作分類訓(xùn)練,生成弱分類器,然后再根據(jù)這個(gè)弱分類器更新訓(xùn)練數(shù)據(jù)的權(quán)值,以此往復(fù),得到理論上分類正確率接近100%的分類器。這種結(jié)論令人驚奇的方法可以用統(tǒng)計(jì)原則來(lái)解釋,叫做附加建模和最大似然估計(jì)。通過Boosting方法中的Adaboost方法進(jìn)行訓(xùn)練,可以得到一個(gè)由若干個(gè)弱分類器組成的強(qiáng)分類器作為最終的分類器。一個(gè)弱分類器由一個(gè)特征,一個(gè)閥值和一個(gè)指示不等式方向的校驗(yàn)器構(gòu)成: = (3-4)其中x表示圖像

46、中一個(gè)N*N像素大小的子窗口,一個(gè)通用的Adaboost的學(xué)習(xí)過程如下:給出訓(xùn)練樣本(,),(,),( , ),其中=0,1,分別對(duì)應(yīng)于負(fù)例與正例。對(duì)負(fù)例和正例樣本分別初始化權(quán)值,其中m和l分別為負(fù)例和正例樣本數(shù)對(duì)于每一次迭代t=1,2,T: 對(duì)權(quán)值進(jìn)行歸一化,使得符合概率分布: 對(duì)于每一個(gè)候選特征j,訓(xùn)練一個(gè)由此特征生成的弱分類器,用這個(gè)分類器分類樣本,得到分類錯(cuò)誤率 選擇使得最小的若分類器 更新權(quán)值,其中當(dāng)樣本被正確分類時(shí)取值為0,被錯(cuò)誤分類時(shí)取值為1,且 最終的強(qiáng)分類器即為: (3-5)其中(3) Cascade級(jí)聯(lián)檢測(cè)器 人臉檢測(cè)器的級(jí)聯(lián)(cascade)結(jié)構(gòu)是根據(jù)由粗到精的策略來(lái)實(shí)現(xiàn)

47、快速實(shí)時(shí)的人臉?biāo)阉?。Viola最先提出此結(jié)構(gòu),并使用這種級(jí)聯(lián)結(jié)構(gòu)實(shí)現(xiàn)了世界上第一個(gè)實(shí)時(shí)的人臉檢測(cè)系統(tǒng)。一個(gè)級(jí)聯(lián)的人臉檢測(cè)系統(tǒng)由圖3.5所示。級(jí)聯(lián)的人臉檢測(cè)器每一個(gè)結(jié)點(diǎn)就是一個(gè)由人臉檢測(cè)基本學(xué)習(xí)算法學(xué)習(xí)出來(lái)的分類器,它是用來(lái)區(qū)分人臉和非人臉模式的。設(shè)置級(jí)聯(lián)檢測(cè)器里面的每個(gè)節(jié)點(diǎn)分類器的閾值b,使得大多數(shù)(如99.9%)人臉都能通過,在此基礎(chǔ)上盡量拋棄非人臉模式。位置越靠后的節(jié)點(diǎn)分類器的結(jié)構(gòu)越復(fù)雜,即包含越多的弱分類器,因而也具有更強(qiáng)的分類能力。這樣做是因?yàn)榉侨四槝颖就ㄟ^的節(jié)點(diǎn)個(gè)數(shù)越多就越像人臉,因而越難以和人臉模式區(qū)分開來(lái)。級(jí)聯(lián)檢測(cè)器就像一系列串連起來(lái)的篩子,每一個(gè)篩子都能篩除一些前面篩子所不能篩

48、掉的非人臉模式。最終通過所有節(jié)點(diǎn)分類器的樣本才被接受為人臉。所有待測(cè)窗口人臉窗口被拒絕的非人臉窗口節(jié)點(diǎn)分類器1節(jié)點(diǎn)分類器2節(jié)點(diǎn)分類器3節(jié)點(diǎn)分類器NTTTT圖3.5 人臉檢測(cè)的級(jí)聯(lián)分類結(jié)構(gòu)要根據(jù)檢測(cè)器性能目標(biāo)的要求來(lái)設(shè)計(jì)級(jí)聯(lián)結(jié)構(gòu)。一個(gè)訓(xùn)練好的級(jí)聯(lián)檢測(cè)器的誤檢率(false positive rate)為: (3-6)其中K是節(jié)點(diǎn)分類器的個(gè)數(shù),是第i個(gè)節(jié)點(diǎn)分類器在訓(xùn)練樣本集上面的誤檢率。檢測(cè)率為: (3-7)其中K是節(jié)點(diǎn)分類器的個(gè)數(shù),是第i個(gè)節(jié)點(diǎn)分類器在訓(xùn)練樣本上面的檢測(cè)率。使用Boosting算法需要大量的訓(xùn)練數(shù)據(jù)。在訓(xùn)練過程中,我們不斷使用Bootstrap方法來(lái)獲得新的數(shù)據(jù),即利用當(dāng)前已經(jīng)訓(xùn)

49、練好的級(jí)聯(lián)分類器來(lái)篩選數(shù)據(jù),對(duì)于前一階段的訓(xùn)練數(shù)據(jù),僅保留分對(duì)的正例樣本和分錯(cuò)的負(fù)例樣本,再?gòu)暮蜻x的負(fù)例樣本中選擇分錯(cuò)的部分作為補(bǔ)充,直到負(fù)例樣本數(shù)足夠構(gòu)成下一次訓(xùn)練所需。如此反復(fù)訓(xùn)練,直到檢測(cè)器的誤檢率符合我們的要求。例如,我們訓(xùn)練具有10個(gè)節(jié)點(diǎn)的級(jí)聯(lián)分類器,每個(gè)訓(xùn)練節(jié)點(diǎn)的檢測(cè)率(detection rate)為0.99,誤檢率(false positive rate)為30%,則最終的級(jí)聯(lián)分類器的檢測(cè)率為0.9(0.9 0.9910),誤檢率為6 ×(6 × =)。 一個(gè)典型的級(jí)聯(lián)分類器的學(xué)習(xí)算法如下所示: 輸入:人臉樣本集Pos和非人臉樣本集Neg。設(shè)定每個(gè)節(jié)點(diǎn)最大誤

50、檢率f,每個(gè)節(jié)點(diǎn)最小通過率d和整個(gè)檢測(cè)器的目標(biāo)誤檢率 初始化:,i=1 當(dāng)滿足條件 用Pos和Neg訓(xùn)練第i個(gè)節(jié)點(diǎn)并設(shè)定閾值b使得誤檢率小于f,通過率大于d ø 如果,則用當(dāng)前的級(jí)聯(lián)檢測(cè)器掃描非人臉圖片庫(kù),收集所有的誤檢樣本到集合Neg 強(qiáng)分類器越復(fù)雜、越嚴(yán)格,對(duì)非人臉的排除能力就越強(qiáng),但同時(shí)也會(huì)導(dǎo)致部分人臉被錯(cuò)誤排除,所以制作級(jí)聯(lián)分類器的時(shí)候需要從整體上考慮各級(jí)強(qiáng)分類器的分類能力。隨著級(jí)聯(lián)分類器級(jí)數(shù)的增加,誤檢率迅速下降,但同時(shí)漏檢率也會(huì)上升。為了更好的說明級(jí)聯(lián)分類器的檢測(cè)效果,圖3.6給出了一組級(jí)聯(lián)分類器的檢測(cè)結(jié)果,越靠后的強(qiáng)分類器分類越嚴(yán)格,圖中橫軸表示級(jí)聯(lián)分類器的級(jí)數(shù),縱軸表示檢測(cè)正確率。圖3.6一組級(jí)聯(lián)分類器的檢測(cè)率 從圖中可以看出,隨著級(jí)聯(lián)分類器級(jí)數(shù)的增加,分類器對(duì)負(fù)樣本的排除率越來(lái)越高,但同時(shí)也將部分正樣本排除。表3-1給出了各級(jí)強(qiáng)分類器的測(cè)試結(jié)果:表3-1級(jí)聯(lián)分類器前10級(jí)單級(jí)測(cè)試結(jié)果第1級(jí)第2級(jí)第3級(jí)第4級(jí)第5級(jí)第6級(jí)第7級(jí)第8級(jí)第9級(jí)第10級(jí)弱分類器個(gè)數(shù)81182636534575162245正樣

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論