




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、畢業(yè)設(shè)計(jì)(論文) 外文文獻(xiàn)翻譯文獻(xiàn)文獻(xiàn)文獻(xiàn)文獻(xiàn)資料中文題目:簡單特征的優(yōu)化級聯(lián)在快速目標(biāo)檢測中的應(yīng)用資料英文題目:資料來源: 資料發(fā)表(出版)日期:院(部)專 業(yè): 班 級: 姓 名:學(xué) 號:指導(dǎo)教師: 翻譯日期:2017. 02. 14簡單特征的優(yōu)化級聯(lián)在快速目標(biāo)檢測中的應(yīng)用paul viola viola 三菱電氣實(shí)驗(yàn)室 201 broadway, 8th fl 劍橋,ma02139摘要本文描述了一個(gè)視覺b標(biāo)檢測的機(jī)器 學(xué)習(xí)法,它能夠非??焖俚靥幚韴D像而且 能實(shí)現(xiàn)高檢測速率。這項(xiàng)工作可分為三個(gè) 創(chuàng)新性研宂成果。第一個(gè)是一種新的圖像 表征說明,稱為“積分圖像”,它允許我 們的檢測的特征得以很
2、快地計(jì)算出來。第 二個(gè)是一個(gè)學(xué)習(xí)算法,基于adaboost自適 應(yīng)增強(qiáng)法,可以從一些更大的設(shè)置和產(chǎn)量 極為有效的分類器中選擇出幾個(gè)關(guān)鍵的視 覺特征。第三個(gè)成果是一個(gè)方法:用一個(gè) “級聯(lián)”的形式不斷合并分類器,這樣便 允許圖像的背景k域被很快丟棄,從而將 更多的計(jì)算放在可能是目標(biāo)的區(qū)域上。這 個(gè)級聯(lián)可以視作一個(gè)目標(biāo)特定的注意力集 屮機(jī)制,它不像以前的途徑提供統(tǒng)計(jì)保障, 保證舍掉的地區(qū)不太可能包含感興趣的對 象。在人臉檢測領(lǐng)域,此系統(tǒng)的檢測率比 得上之前系統(tǒng)的最佳值。在實(shí)時(shí)監(jiān)測的應(yīng) 用中,探測器以每秒15幀速度運(yùn)行,不采 用幀差值或膚色檢測的方法。michael jonesmjones康柏劍橋研究
3、所劍橋中心劍橋,ma021421.引言本文匯集了新的算法和見解,構(gòu)筑一 個(gè)魯棒性良好的極速目標(biāo)檢測框架。這一 框架主要是體現(xiàn)人臉檢測的任務(wù)。為了實(shí) 現(xiàn)這一目標(biāo),我們己經(jīng)建立了一個(gè)正面的 人臉檢測系統(tǒng),實(shí)現(xiàn)了相當(dāng)于已公布的最 佳結(jié)果的檢測率和正誤視率,16,12, 15, 11,1。這種人臉檢測系統(tǒng)區(qū)分人臉 比以往的方法都要清楚,而且速度很快。 通過對384x288像素的圖像,硬件環(huán)境是 常規(guī)700 mhz英特爾奔騰iii,人臉檢測速 度達(dá)到了每秒15幀。在其它人臉檢測系統(tǒng) 屮,一些輔助信息如視頻序列屮的圖像差 異,或在彩色圖像中像素的顏色,被用來 實(shí)現(xiàn)高幀率。而我們的系統(tǒng)僅僅使用一個(gè) 單一的灰
4、度圖像信息實(shí)現(xiàn)了高幀速率。上 述可供選擇的信息來源也可以與我們的系 統(tǒng)集成,以獲得更高的幀速率。本文的b標(biāo)檢測框架包含三個(gè)主要創(chuàng) 新性成果。下面將簡短介紹這三個(gè)概念, 之后將分章節(jié)對它們一一進(jìn)行詳細(xì)描述。本文的第一個(gè)成果是一個(gè)新的圖像表 征,稱為廣7分/紛蒙,允許進(jìn)行快速特征評 估。我們的檢測系統(tǒng)不能直接利用圖像強(qiáng) 度的信息工作10。和這些作者一樣,我 們使用一系列與haar基木函數(shù)相關(guān)的特 征.(盡管我們也將使用一些更復(fù)雜的濾波 器)。為了非常迅速地計(jì)算多尺度下的這些 特性,我們引進(jìn)了積分圖像。在一幅圖像 中,每個(gè)像素使用很少的一些操作,便可 以計(jì)算得到積分圖像。任何一個(gè)類haar特 征可以
5、在任何規(guī)?;蛭恢蒙媳挥?jì)算出來, 且是在固定時(shí)間內(nèi)。本文的第二個(gè)成果是通過使用 adaboost算法選擇數(shù)個(gè)重要的特征構(gòu)建 一個(gè)分類器6。在任何圖像子窗口里的類 haar特征的數(shù)目非常大,遠(yuǎn)遠(yuǎn)超過了像素 數(shù)目。為了確??焖俜诸?,在學(xué)習(xí)過程中 必須剔除的大部分可用的特征,關(guān)注一小 部分關(guān)鍵特征。選拔工作是通過一個(gè) adaboost的程序簡單修改:約束弱學(xué)習(xí) 者,使每一個(gè)弱分類器返回時(shí)僅可依賴1 個(gè)特征2。因此,每個(gè)改善過程的階段, 即選擇一個(gè)新的弱分類器的過程,可以作 為一個(gè)特征選擇過程。adaboost算法顯 示了一個(gè)有效的學(xué)習(xí)算法和良好的泛化性 能u3,9,10o本文的第三個(gè)主要成果是在一個(gè)在
6、級 聯(lián)結(jié)構(gòu)屮連續(xù)結(jié)合更復(fù)雜的分類器的方 法,通過將注意力集中到圖像中有希望的 地區(qū),來大大提高了探測器的速度。在集中注意力的方法背后的概念是,它往往能 夠迅速確定在圖像屮的一個(gè)對象可能會出 現(xiàn)在哪里17, 8, 1。更復(fù)雜的處理僅僅 是為這些有希望的地區(qū)所保留。衡量這種 做法的關(guān)鍵是注意力過程的“負(fù)誤視”(在 模式識別中,將屬于物體標(biāo)注為不屬于物 體)的概率。在幾乎所有的實(shí)例中,對象 實(shí)例必須是由注意力濾波器選擇。我們將描述一個(gè)過程:訓(xùn)練一個(gè)非常 簡單又高效的分類器,用來作為注意力操 作的“監(jiān)督”中心。術(shù)語“監(jiān)督”是指: 注意力操作被訓(xùn)練用來監(jiān)測特定分類的例 子。在人臉檢測領(lǐng)域,使用一個(gè)由兩個(gè)
7、類 haar特征構(gòu)建的分類器,有可能達(dá)到1 % 不到的負(fù)誤視和40%正誤視。該濾波器的 作用是減少超過一半的最終檢測器必須進(jìn) 行評估的地方。這些沒有被最初的分類器排除的子窗 口,由接下來的一系列分類處理,每個(gè)分 類器都比其前一個(gè)稍有復(fù)雜。如果某個(gè)子 窗口被任一個(gè)分類器排除,那它將不會被 進(jìn)一步處理。在檢測過程的級聯(lián)結(jié)構(gòu)基本 上是一個(gè)退化型決策樹,這點(diǎn)可以參照 german和同事的工作1, 4。一個(gè)非??焖俚娜四槞z測器有廣泛實(shí) 用性。這包括用戶界而,圖像數(shù)據(jù)庫,及 電話會議。在不太需要高幀速率的應(yīng)用屮, 我們的系統(tǒng)可提供額外的重要后處理和分 析。另外我們的系統(tǒng)能夠在各種低功率的 小型設(shè)備上實(shí)現(xiàn),
8、包括手持設(shè)備和嵌入式 處理器。在我們實(shí)驗(yàn)室我們已經(jīng)將該人臉 檢測系統(tǒng)在compaq公司的ipaq上實(shí)現(xiàn), 并達(dá)到了兩幀每秒的檢測率(該設(shè)備僅有 200 mips的低功耗處理器,缺乏浮點(diǎn)硬 件)。本文接k來描述我們的研宄成果和一 些實(shí)驗(yàn)結(jié)果,包括我們實(shí)驗(yàn)方法學(xué)的詳盡 描述。每章結(jié)尾會有對近似工作的討論。2.特征我們的0標(biāo)檢測程序是基于簡單的特 征值來分類圖像的。之所以選擇使用特征 而不是直接使用像素,主耍是因?yàn)樘卣骺?以解決特定領(lǐng)域知識很難學(xué)會使用有限訓(xùn) 練資料的問題。對于這些系統(tǒng)來說,選擇 使用特征還有另外一個(gè)重要原因:基于特 征的系統(tǒng)的運(yùn)行速度要遠(yuǎn)比基于像素的 快。ab矩形特征可以反映檢測窗
9、門之間的聯(lián)系。ft色矩形框中 的像素和減i灰色矩形框內(nèi)的像素和得到特征值。(a) 和(b)是矩形特征。(c)是三矩形特征。(d)是四矩形特征。圖1上述簡單特征是基于haar基本函數(shù)設(shè) 置的,papageorgiou等人已使用過10。而 我們則是更具體地選擇了特定的三類特 征。其中,雙矩形特征的值定義為兩個(gè)矩 形區(qū)域里像素和的差。而區(qū)域則具有相同 尺、?和大小,并il水平或垂直相鄰(如圖 1)。而三矩形特征的值則是兩個(gè)外側(cè)矩形 的像素和減去中間矩形的和所得的最終 值。最后一個(gè)四矩形特征的值是計(jì)算兩組 對角線矩形的區(qū)別而得的。檢測器的基本分辨率設(shè)定為24x24, 既而得到數(shù)目巨大的矩形特征的完備集
10、, 超過了 180000。需耍注意的是,矩形特征 的集合不像haar基底,它是過完備 一個(gè)完備基底在集元素之間沒有線性獨(dú)立,且數(shù)13和 圖像空間的元素個(gè)數(shù)相等,這里足576。在總數(shù)為180,000 的全級中,數(shù)千特征是多次過完備的。2在圖形學(xué)中還有個(gè)近義詞稱為“區(qū)域求和表” 3。這 里我們選擇一個(gè)不同名稱,是為了便于讀冇理解這是用 來進(jìn)行圖像處理,而不是紋理映射的。的。2.1積分圖像我們采用一個(gè)屮間表示方法來計(jì)算圖 像的矩形特征,這里稱為積分圖像位 置x,y上的積分圖像包含點(diǎn)x, y上邊和左邊 的像素和,包括:"(%,)= i /(/,/),當(dāng)f7(x,y)是積分圖像,z(x,y)是
11、原始圖像??梢允褂孟铝幸粚ρh(huán):5(%, y) = s(x, y -1) + z(x,y)(1)z7(x, y) = ii(x 一 1,)0 + 辦,y)(2)(這里xx,y)是累積行和,5(5,-1) = 0, zz(-l,y) = o)積分圖像可以通過己知原始圖像而一步求得。使用積分圖像可以把任意一個(gè)矩形用四個(gè)數(shù)組計(jì)算(見圖2)。顯然兩個(gè)矩形和之 差可以用八個(gè)數(shù)組。因?yàn)殡p矩形特征的定 義是兩個(gè)相鄰矩形的和,所以僅用6個(gè)數(shù)組 就可以計(jì)算出結(jié)果。同理三矩形特征用8 個(gè),四矩形特征用9個(gè)。ab19cd34矩形da的像索和可以按四個(gè)數(shù)組計(jì)算。位置1的積分圖 像的值就是矩形a屮的像素之和。位罝2的值
12、是a+b,位置 3的值足a+c,而位界.4的值足a+b+c+d。那么d中的像素和 就是4+1- (2+3).圖22. 2特征討論和一些相似方法,如導(dǎo)向?yàn)V波比較起 來,矩形特征看似有些原始5,71。導(dǎo)向?yàn)V 波等類似方法,非常適合做對邊界的詳細(xì) 分析,閣像壓縮,紋理分析。相比之下矩 形特征,對于邊緣,條紋,以及其他簡單 的圖像結(jié)構(gòu)的敏感度,是相當(dāng)粗糙的。不 同于導(dǎo)向?yàn)V波,它僅有的有效位置就是垂 直,水平和對角線。矩形特征的設(shè)置做不 過是提供了豐富的閣像表征,支持有效的 學(xué)習(xí)。與積分圖像一起,矩形特征的高效 給它們有限的靈活性提供了極大補(bǔ)償。3. 自學(xué)式分類功能給定一個(gè)特征集和一個(gè)包含正圖像和 負(fù)圖
13、像的訓(xùn)練集,任何數(shù)量的機(jī)器學(xué)習(xí)方 法可以用來學(xué)習(xí)分類功能。在我們的系統(tǒng) 中,使用adaboost的一種變種來選擇小規(guī) 模特征集和調(diào)試分類器6。在其原來的形 式中,這種adaboost自學(xué)式算法是用來提 高一個(gè)簡單(有時(shí)稱為弱式)自學(xué)式算法 的。adaboost自學(xué)步驟提不少有效保證。 freund和schapire證明,在相當(dāng)數(shù)量的循環(huán) 中,強(qiáng)分類器的調(diào)試誤差接近于零。更重 要的是,最近相當(dāng)數(shù)量的結(jié)果證明了關(guān)于 泛化性能的優(yōu)勢14。其關(guān)鍵觀點(diǎn)是泛化 性能與例子的邊界有關(guān),而adaboost能迅 速達(dá)到較大的邊界。回想一下,有超過180,000個(gè)矩形特征 與每個(gè)圖像子窗口有關(guān),這個(gè)數(shù)字遠(yuǎn)大過 像
14、素?cái)?shù)。雖然每個(gè)特征的計(jì)算效率非常高, 但是對整個(gè)集合進(jìn)行計(jì)算卻花費(fèi)高昂。而 我們的假說,己被實(shí)驗(yàn)證實(shí),可以將極少 數(shù)的特征結(jié)合起來,形成有效的分類器。 而主要挑戰(zhàn)是如何找到這些特征。為實(shí)現(xiàn)這一目標(biāo),我們設(shè)計(jì)弱學(xué)習(xí)算 法,用來選擇使得正例和負(fù)例得到最佳分 離的單一矩形特征(這是2中方法類似, 在圖像數(shù)據(jù)庫檢索域)。對于每一個(gè)特征, 弱學(xué)習(xí)者決定最優(yōu)閾值分類功能,這樣可以使錯(cuò)誤分類的數(shù)目最小化。弱分類器 知00包括:特征力,閾值氏,和一個(gè)正負(fù)校驗(yàn)即保證式子兩邊符號相同:= p p狀的此0 otherwise這里x是一個(gè)閣像屮24x24像素的子窗口。 表1是優(yōu)化過程的概述。表1 given exam
15、ple images (m "i),.,(.ru. /,)where=0. i for negative and positive examples respec- tivelv.j.initialize weights «:i., = 7 + for/y, = 0, i respectively. where m and / are the number of negatives and positives respectively. forf =1. normalize the weights.so that in. is a probability distribut
16、ion.2. for each feature, j, train a classifier hj which is restricted to using a single feature. the error is evaluated with respect to wt, ej =ei-/d-3. choose the classifier, h. with the lo'vest error e.4. update the weights:we+1.1 =where = 0 if example r, is classified cor- rectly;i = i otherw
17、ise, and 冰= the final strong classifier is:= / 1 e?0 otherwisewhere = log注:關(guān)子tl學(xué)式分類的adaboost算法。每個(gè)循環(huán)都在18(),()()()個(gè)潛在特征中選擇一個(gè)特征。在實(shí)踐屮沒有單個(gè)特征能在低錯(cuò)誤的 條件下執(zhí)行分類任務(wù)。在優(yōu)化過程的循環(huán) 初期中被選中的特征錯(cuò)誤率在0.1到0.3之間。在循環(huán)后期,由于任務(wù)變得更難,因 此被選擇的特征誤差率在0.4和0.5之間。3.1自學(xué)習(xí)討論許多通用的特征選擇程序己經(jīng)提出 (見18的第八章)。我們的最終應(yīng)用的方 法耍求是一個(gè)非常積極的,能拋棄絕大多 數(shù)特征的方法。對于類似的識別問
18、題, papageorgiou等人提出了一個(gè)基于特征差 異的特征選擇計(jì)劃。他們從1734個(gè)特征中 選出37個(gè)特征,實(shí)現(xiàn)了很好的結(jié)果。roth等人捉出了一種基于winnow指數(shù) 感知機(jī)學(xué)習(xí)規(guī)則的特征選擇過程11。這 種winnow學(xué)習(xí)過程收斂y 個(gè)解決方法, 其中有不少權(quán)重為零。然而卻保留下來相 當(dāng)大一部分的特征(也許有好幾百或幾 千)。3. 2自學(xué)習(xí)結(jié)果最終系統(tǒng)的詳細(xì)調(diào)試和執(zhí)行將在第5 節(jié)中介紹,現(xiàn)在對幾個(gè)簡單的結(jié)果進(jìn)行討 論。初步實(shí)驗(yàn)證明,正面人臉分類器由200 個(gè)特征構(gòu)造而成,正誤視率在14084中為1, 檢測率為95%。這些結(jié)果是引人注h的, 但對許多實(shí)際任務(wù)還是不夠的。就計(jì)算而 言,這
19、個(gè)分類器可能比任何其他公布的系 統(tǒng)更快,掃描由1個(gè)384乘288像素圖像僅需 要0.7秒。不幸的是,若用這個(gè)最簡單的技 術(shù)改善檢測性能,給分類器添加特征,會 直接增加計(jì)算時(shí)間。對丁人臉檢測的任務(wù),由adaboost選 擇的最初的矩形特征是有意義的且容易理 解。選定的第一個(gè)特征的重點(diǎn)是眼晴區(qū)域 往往比鼻子和臉頰區(qū)域更黑暗(見圖3)。 此特征的檢測子窗口相對較大,并且某種 程度上不受而部大小和位置的影響。第二 個(gè)特征選擇依賴于眼睛的所在位置比鼻梁 更暗。這兩個(gè)特點(diǎn)顯示在最上而一行,然后一個(gè)典型的調(diào)試而 部疊加在底部一行。第一個(gè)特點(diǎn),測量眼睛部區(qū)域和上 臉頰地區(qū)的強(qiáng)烈程度的區(qū)別。該特征利用了眼眙部區(qū)
20、域 往往比臉頰史暗。第二個(gè)特點(diǎn)比較y眼睛區(qū)域與鼻梁的 強(qiáng)度。圖3 adaboost選擇的第一和第二個(gè)特點(diǎn)4. 注意力級聯(lián)木章描述了構(gòu)建級聯(lián)分類器的算法, 它能增加檢測性能達(dá)從而從根本上減少計(jì) 算時(shí)間。它的主要觀點(diǎn)是構(gòu)建一種優(yōu)化分 類器,其規(guī)模越小就越高效。這種分類器 在檢測幾乎所冇都是正例吋剔除許多負(fù)子 窗u (即,優(yōu)化分類器閾值可以調(diào)整使得 負(fù)誤視率接近零)。在調(diào)用較復(fù)雜的分類 器之前,我們使用相對簡單的分類器來剔 除大多數(shù)子窗門,以實(shí)現(xiàn)低正誤視率。在檢測過程中,整體形式是一個(gè)退化 決策樹,我們稱之為“級聯(lián)”(見圖4)。從第一個(gè)分類得到的有效結(jié)果能觸發(fā)第二 個(gè)分類器,也已調(diào)整至達(dá)到非常高的檢
21、測 率。再得到一個(gè)有效結(jié)果使得第二個(gè)分類 器觸發(fā)第三個(gè)分類器,以此類推。在任何 一個(gè)點(diǎn)的錯(cuò)誤結(jié)果都導(dǎo)致子窗口立刻被剔 除。級聯(lián)階段的構(gòu)成首先是利用adaboost 訓(xùn)練分類器,然后調(diào)整閾值使得負(fù)誤視最 大限度地減少。注意,默認(rèn)adaboost的閾 值旨在數(shù)據(jù)過程中產(chǎn)生低錯(cuò)誤率。一般而 言,一個(gè)較低的閾值會產(chǎn)生更高的檢測速 率和更高的正誤視率。all sub-windowsii'上?< 1 y prooessina/jf 1f 1freject sub-window。一系列的分類器適用于每一個(gè)子窗門。最初的分類器 w很少的處理來消除人部分的負(fù)例。隨后的層次消除額 外的負(fù)例,但是需要
22、額外的計(jì)算。經(jīng)過數(shù)個(gè)階段處理以 后,子窗口的數(shù)量急劇減少。進(jìn)一步的處理可以采取任 何形式,如額外的級聯(lián)階段(正如我們的檢測系統(tǒng)屮的) 或者另一個(gè)檢測系統(tǒng)。圖4檢測級聯(lián)的示意圖 例如,一個(gè)兩特征強(qiáng)分類器通過降低閾值,達(dá)到最小的負(fù)誤視后,可以構(gòu)成一 個(gè)優(yōu)秀的第一階段分類器。測量一個(gè)定的 訓(xùn)練集時(shí),閾值可以進(jìn)行調(diào)整,最后達(dá)到 100%的人臉檢測率和40%的正誤視率。圖 3為此分類器這兩個(gè)特征的使用說明計(jì)算這兩個(gè)特征分類器要使用大約60個(gè)微處理器指令。很難想象還會有其它任 何簡單的濾波器可以達(dá)到更高的剔除率。 相比之下,一個(gè)簡單的圖像掃描模板,或 單層感知器,將至少需要20倍于每個(gè)子窗 口的操作。該級
23、聯(lián)結(jié)構(gòu)反映了,在任何一個(gè)單一 的圖像屮,絕大多數(shù)的子窗門是無效的。 因此,我們的級聯(lián)試圖在盡可能早的階段 剔除盡可能多的負(fù)例。雖然正例將觸發(fā)評 估每一個(gè)在級聯(lián)中的分類器,但這極其罕 見。隨后的分類器就像一個(gè)決策樹,使用 這些通過所有以前的階段例子進(jìn)行訓(xùn)練。 因此,第二個(gè)分類器所面臨的任務(wù)比第一 個(gè)更難。這些過第一階段的例子比典型例 子更“難”。這些例子推動整個(gè)受試者工 作特征曲線(roc)向卜'。在給定檢測率 的情況下,更深層次分類器有著相應(yīng)較高 的正誤視率。4.1調(diào)試分類器級聯(lián)級聯(lián)的調(diào)試過程包括w個(gè)類型的權(quán)衡。 在大多數(shù)情況下具有更多的特征分類器達(dá) 到較高的檢測率和較低的正誤視率。同
24、時(shí) 具有更多的特征的分類器需要更多的吋間 來計(jì)算。原則上可以定義一個(gè)優(yōu)化框架, 其中:一)分級級數(shù),二)在每個(gè)階段的 特征數(shù)目,三)每個(gè)階段為最小化預(yù)計(jì)數(shù) 量評價(jià)功能而進(jìn)行的門限值交換。不幸的 是,發(fā)現(xiàn)這個(gè)最佳方案是一個(gè)非常困難的 問題。在實(shí)踐中用一個(gè)非常簡單的框架產(chǎn)生 一個(gè)有效的高效分類器。級聯(lián)中的每個(gè)階 段降低了正誤視率并且減小了檢測率?,F(xiàn) 在的r標(biāo)n在最小化正識視率和最大化檢 測率。調(diào)試每個(gè)階段,不斷増加特征,直 到檢測率和正誤視率的b標(biāo)實(shí)現(xiàn)(這些比 率是通過將探測器在驗(yàn)證設(shè)置上測試而得 的)。同時(shí)添加階段,直到總體h標(biāo)的正 誤視和檢測率得到滿足為止。4.2探測器級聯(lián)的探討完整的人臉檢測
25、級聯(lián)己經(jīng)有擁有超過 6000個(gè)特征的38個(gè)階段。盡管如此,級聯(lián) 結(jié)構(gòu)還是能夠縮短平均檢測時(shí)間。在一個(gè) 復(fù)雜的包含507張人臉和7500萬個(gè)子窗口 的數(shù)據(jù)集中,人臉在檢測時(shí)是每個(gè)子窗口 由平均10個(gè)特征來評估。相比之卜*,本系 統(tǒng)的速度是由羅利等人1121構(gòu)建的檢測系 統(tǒng)的15倍。由rowley等人描述的一個(gè)類似于級 聯(lián)的概念出現(xiàn)人臉檢測系統(tǒng)中。在這個(gè)系 統(tǒng)屮他們使用丫兩個(gè)檢測網(wǎng)絡(luò)。rowley等 人用更快但相對不準(zhǔn)確的網(wǎng)絡(luò),以先篩選 圖像,這樣做是為了使較慢但更準(zhǔn)確的網(wǎng) 絡(luò)找到候選區(qū)域。雖然這很難準(zhǔn)確判斷, 但是rowley等人的雙網(wǎng)絡(luò)系統(tǒng),是a前速 度最快的臉部探測器。在檢測過程中的級聯(lián)結(jié)構(gòu)
26、基本上是退 化決策樹,因此是涉及到丫amit和 gemanl|的工作。,amit和geman建議不 再使用固定一個(gè)探測器的技術(shù),而他們提 出一個(gè)不尋常的合作同現(xiàn),即簡單的圖像 將征用于觸發(fā)評價(jià)一個(gè)更為復(fù)雜的檢測過 程。這樣,完整的檢測過程屮不需要對潛 在的圖像位置和范圍進(jìn)行估計(jì)。然而這種 基木的觀點(diǎn)非常有價(jià)值,在它們的執(zhí)行過 程中,必須耍對每一個(gè)位置的某些功能檢 測首先進(jìn)行估計(jì)。這些特征被歸類,以用 于找到不尋常的合作。在實(shí)踐屮,由于我 們的檢測器的形式,它的使用非常高效, 用于評估我們在每個(gè)探測器的規(guī)模和位置 的成本消耗比尋找和分組整個(gè)圖像邊緣快 很多。在最近的工作屮fleuret和gema
27、n已經(jīng) 提交了一種人臉檢測技術(shù),它以“鏈測試” 為主調(diào),用來表示在某一特定范圍和位置 人臉是否存在4。由fleuret和geman測量 的圖像屬性,細(xì)尺度邊界的分離,與簡單、 存在于所有尺度且某種程度可辨別的矩陣 特征有很大的不同。這兩種方法的基本原 理也存在根木上的差異。fleuret和geman 的學(xué)習(xí)過程的h的是密度估計(jì)和密度辨 別,而我們的探測器是單純的辨別。最后, fleuret和geman的方法屮的正誤視率似乎 也比以前的如rowley等人的方法中的更 高。不幸的是,這種辦法在文章中并沒有定量分析結(jié)果。圖像所包含的每個(gè)例子都 有2到10個(gè)正誤視。5. 實(shí)驗(yàn)結(jié)果我們訓(xùn)練一個(gè)38層級聯(lián)
28、分類器,用來 檢測正面直立人臉。為了訓(xùn)練分類器,我 們使用了一系列包含人臉和不包含人臉的 圖片。人臉訓(xùn)練集由4916個(gè)手標(biāo)人臉組成, 都縮放和對齊成24x24像素的基本塊。提 取人臉的圖片是在使用隨機(jī)爬蟲在萬維網(wǎng) 上下載。一些典型人臉例子如圖5所示。訓(xùn)練檢測器的沒有人臉的子窗u來自 9544張圖片,都己經(jīng)進(jìn)行人工檢查,確定 不包含任何人臉。在這些沒有人臉的圖片 中,子窗口共有大概3.5億個(gè)。£鑼 si娜 ll-rmiisibhv罾麯*;!遍/?ca之iiikj矚麄#«底圖5用來訓(xùn)練的正而直立人臉圖像的例子在開始五層檢測器中特征的數(shù)量分別 為1、10、25、25和50。剩下的
29、各層包含的特征數(shù)量急劇增多。特征總數(shù)是6061 個(gè)。在級聯(lián)屮的每個(gè)分類器都經(jīng)過4916 個(gè)受訓(xùn)人臉(加上它們的垂直鏡像,一共 有9832個(gè)受訓(xùn)人臉)和10000個(gè)無人臉的 子窗口(同樣它們的尺寸都是24x24),使 用自適應(yīng)增強(qiáng)訓(xùn)練程序訓(xùn)練。對于最初的 含一個(gè)特征的分類器,無人臉訓(xùn)練實(shí)例從 一系列9544張沒有人臉的圖片中隨機(jī)選 擇出子窗口。用來訓(xùn)練隨后的層的沒有人 臉實(shí)例是通過掃描部分級聯(lián)的無人臉圖像 以及收集正誤視率而得的。每一層收集的 像這樣無人臉的子窗門的最人值是 10000。最終檢測器的速度級聯(lián)的檢測器的速度是和在每次掃描 子窗口中評估的特征數(shù)目有直接影響的。 在mit+cmu測試集
30、的評估中12,平均 6061個(gè)特征屮有10個(gè)特征被挑出,評估每 一個(gè)子窗口。這并非不可能,因?yàn)橛写罅?子窗口被級聯(lián)的第一層和第二層剔除。在 700兆赫的奔騰3處理器上,該人臉檢測可 以約0.67秒的速度處理一幅384x288像 素大小的圖像(使用)。這個(gè)大概是 rowley-baluja-kanade 檢測器12的速度 的 15倍,是schneiderman- kanade檢測器 15速度的約600倍。圖像處理所有用來訓(xùn)練的子窗口實(shí)例都經(jīng)過方 差標(biāo)準(zhǔn)化達(dá)到最小值,盡量減少不同光照 條件的影響。因此,在檢測屮也必須規(guī)范 化。一個(gè)圖像子窗u的方差可以使用一對 積分圖像快速計(jì)算。回憶c72=m2-丄
31、此處c是標(biāo)準(zhǔn)差,州是均值,而*是在子窗u中的像素值。子 窗口的均值可以由積分圖像計(jì)算得出。像 素的平方和可以由一個(gè)圖像的積分圖像的 平方得出(即,兩個(gè)積分圖像在掃描進(jìn)程 屮使用)。在掃描圖像中,圖像的規(guī)范化可以通 過后乘以特征值達(dá)到,而不是預(yù)先乘以像 素值。掃描檢測器掃描最終檢測器在多尺度和定位下對 圖像進(jìn)行掃描。尺度縮放更多是由縮放檢 測器自身而不是縮放圖像得到。這個(gè)進(jìn)程 的意義在于特征可以在任意尺度下評估。 使用1. 25的間隔的可以得到良好結(jié)果。檢測器也根據(jù)定位掃描。后續(xù)位置的 獲得是通過將窗門平移z1個(gè)像素獲得的。 這個(gè)平移程序受檢測器的尺度影響:若當(dāng) 前尺度是s,窗口將移動sz,這里
32、是 指湊整操作。的選擇不僅影響到檢測器的速度還 影響到檢測精度。我們展示的結(jié)果是取了z=1.0。通過設(shè)定z=1.5,我們實(shí)現(xiàn)一個(gè) 有意義的加速,而精度只有微弱降低。多檢測的整合因?yàn)樽罱K檢測器對于傳遞和掃描屮的 微小變化都很敏感,在一幅掃描圖像中每 個(gè)人臉通常會得到多檢測結(jié)果,一些類型 的正誤視率也是如此。在實(shí)際應(yīng)用中每個(gè) 人臉返回一個(gè)最終檢測結(jié)果才顯得比較有 意義。在這些試驗(yàn)中,我們用非常簡便的模 式合并檢測結(jié)果。首先把一系列檢測分割 成許多不相交的子集。若兩個(gè)檢測結(jié)果的 邊界區(qū)重疊了,那么它們就是相同子集的。 每個(gè)部分產(chǎn)生單個(gè)最終檢測結(jié)果。最后的 邊界區(qū)的角落定義為一個(gè)集合中所有檢測 結(jié)果的
33、角落平均值。在現(xiàn)實(shí)測試集中實(shí)驗(yàn)我們在mit+cmu正面人臉測試集12 上對系統(tǒng)進(jìn)行測試。這個(gè)集合由130幅圖像 組成,共有507個(gè)標(biāo)記好的正面人臉。圖6 是一個(gè)r0c曲線,顯示在該測試集上運(yùn)行的 檢測器的性能。其中末層分類器的閾值設(shè) 置為從一00到+°°。當(dāng)調(diào)節(jié)闔值趨近+°°時(shí), 檢測率趨于0.0,正誤視率也趨于0.0。而 當(dāng)調(diào)節(jié)閾值趨近一m吋,檢測率和正誤視 率都增k:了,但最終會趨向一個(gè)恒值。速 率最高的就是級聯(lián)中末層的。實(shí)際上,閾 值趨近一就等價(jià)于移走這一層。要想得 到檢測率和正誤視率更多的增長,就需要 減小下一級分類器的閾值。因此,為了構(gòu) 建一個(gè)
34、完整的r0c曲線,我們將分類器層數(shù) 移走了。為了方便與其它系統(tǒng)比較,我們 使用正誤視的不是正誤視觀拳作為 坐標(biāo)的x軸。為了計(jì)算正誤視率,簡單將掃 描的子窗門總數(shù)與之相除即可。在我們的 實(shí)驗(yàn)中,掃描過的子窗u總數(shù)達(dá)到了 75,081,800。false positives閣6檢測器在mit+cmu測試集上的roc曲線 不幸的是,大多數(shù)人臉檢測的先前已公布 的結(jié)果僅有單一操作制度(即,r0c曲線上 的單一點(diǎn))。為了使之與我們的檢測器更 容易進(jìn)行比較,我們將我們系統(tǒng)在由其它 系統(tǒng)測出的正誤視率下的檢測率進(jìn)行列 表。表2列出了我們的系統(tǒng)和其它已公布系 統(tǒng)的不同數(shù)目錯(cuò)誤檢測結(jié)果k的檢測率。 對rowle
35、y-baluja-kanade的結(jié)論1121,我們 對他們的一些不同版木的檢測器進(jìn)行測 試,產(chǎn)生一些不同結(jié)果,都列在同一標(biāo)題 下。roth-yang-ahujal 1檢測器的結(jié)果閣7:我們的人臉檢測器的輸出結(jié)果,在數(shù)個(gè)來fimit+cmu測試集的測試圖像t。false detectionsdetector103150657895167viola-jones76.1%88.4%91.4%92.0%92.1%92.9%93.9%viola-jones (voting)81.1%89.75;92.1%93.1%93.1%93.2 %93.7%rowley-baluja-kanades3.2%86.0
36、%-89.2%90.1%schneideiman- kanade-94.4%-roth-yang-ahuj a-(94.8%)圖7 表2注:不同正誤視率卜'的檢測率,mhvcmu測試銀,包含130幅圖像和507個(gè)人臉。顯示,在mit+cmu測試集上,減去 的5幅圖像包括線繪人臉被移除了。圖7則展示了對于一些來自 mit+cmu測試集屮的測試圖片,我們的 人臉檢測器的輸出結(jié)果。簡易完善計(jì)劃在表2我們也顯示了運(yùn)行三個(gè)檢測器 的結(jié)果(一個(gè)本文描述的38層檢測器加上 兩個(gè)類似受訓(xùn)檢測器)。在提高檢測率的 同時(shí)也消除很多正誤視率,且隨檢測器獨(dú) 立性增強(qiáng)而提高。由于它們之間存在誤差, 所以對于最佳
37、的單一檢測器,檢測率是有一個(gè)適度提高。6.結(jié)論我們展示了一個(gè)0標(biāo)檢測的方法,既 能使計(jì)算時(shí)間最小化,乂能達(dá)到高檢測精 度。這個(gè)用該方法構(gòu)建的一個(gè)人臉檢測系 統(tǒng),達(dá)到檢測速度約是以往方法的15倍。本文結(jié)合了十分通用的新算法、表征 和概念,可能會在機(jī)器視覺和圖像處理方 面實(shí)現(xiàn)廣泛應(yīng)用。本文最后展示了的一系列詳細(xì)的實(shí) 驗(yàn),是在一個(gè)己得到廣泛研宂的復(fù)雜人臉 檢測數(shù)據(jù)庫屮進(jìn)行的。這個(gè)數(shù)據(jù)庫屮的人 臉各式各樣條件都廣泛不同:照明、規(guī)模、構(gòu)成及和機(jī)的變化。在這樣一個(gè)龐大繁雜 的數(shù)據(jù)庫中實(shí)驗(yàn)難度很大,且十分耗時(shí)。 然而,在這樣的條件下工作的系統(tǒng)不易損 壞或者受限于單一條件。從該數(shù)據(jù)庫中取 得的更多重要結(jié)論,都
38、不可能是實(shí)驗(yàn)的人 為產(chǎn)物。參考文獻(xiàn)1 y. amit,d. geman,and k. wilder. joint induction of shapefeatures and tree classifiers, 1997.2 anonymous. anonymous. in anonymous, 20003 f. crow. summed-area tables for texture mapping. inproceedings ofsiggraph, volume 18(3),pages 207-212,1984.41 f. fleuret and d. geman. coarse-to-
39、fine face detection. int.j. computer vision, 2001.5 william t. freeman and edward h. adelson. the designand use of steerable filters. ieee transactions on patternanalysis and machine intelligence, 13(9):891-906, 1991.6 yoav freund and robert e. schapire. a decision-theoreticgeneralization of on-line
40、 learning and an application toboosting. in computational learning theory:eurocolt 95,pages 23-37. springer-verlag, 1995.7 h. greenspan, s. belongie,r.gooodman, p. perona,s. rakshit,and c. anderson. overcomplete steerable pyramid filters and rotation invariance. in proceedings of the ieee conference
41、 on computer vision and pattern recognition,1994.8 l. itti,c. koch,and e. niebur. a model of saliency-based visual attention for rapid scene analysis. ieee patt. anal. mach.i nt ell, 20(11):1254-1259, november 1998.9 edgar osuna,robert freund,and federico girosi. training support vector machines: an application to face detection. in proceedings of the ieee conference on computer vision and pa
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 杭州日租房合同范本
- 2025年柱上式無功補(bǔ)償裝置項(xiàng)目建議書
- 占地合同樣本合同范本
- 合同范本大寫
- 冷庫貨物保管合同范本
- 廈門市二手房買賣合同范例
- 項(xiàng)目實(shí)施補(bǔ)充合同范本
- 變更協(xié)議合同范本
- 2025年年智能制造項(xiàng)目合作計(jì)劃書
- 劃撥地建房合同范本
- 高中英語丨高考核心高頻詞匯
- 《營養(yǎng)均衡膳食指南》課件
- 《數(shù)智化技術(shù)應(yīng)用與創(chuàng)新》課件 第1章 走進(jìn)數(shù)智化時(shí)代
- 2025年浙江省臺州機(jī)場管理有限公司招聘筆試參考題庫含答案解析
- 中央2025年公安部部分直屬事業(yè)單位招聘84人筆試歷年參考題庫附帶答案詳解
- 2025年江蘇醫(yī)藥職業(yè)學(xué)院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 2025年常德職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 2024年江西青年職業(yè)學(xué)院高職單招職業(yè)技能測驗(yàn)歷年參考題庫(頻考版)含答案解析
- 綠色建筑材料在土木工程施工中的應(yīng)用研究
- 上海市2024-2025學(xué)年高一上學(xué)期期末考試數(shù)學(xué)試題(含答案)
- 摩托車維修管理制度模版(3篇)
評論
0/150
提交評論