簡單特征的優(yōu)化級聯(lián)在快速目標(biāo)檢測中的應(yīng)用畢業(yè)論文外文文獻(xiàn)翻譯

上傳人：扣*** IP屬地：寧夏上傳時(shí)間：2021-12-03 格式：DOC 頁數(shù)：15 大?。?97.25KB 積分：10.8 舉報(bào) 版權(quán)申訴

簡單特征的優(yōu)化級聯(lián)在快速目標(biāo)檢測中的應(yīng)用畢業(yè)論文外文文獻(xiàn)翻譯_第2頁

簡單特征的優(yōu)化級聯(lián)在快速目標(biāo)檢測中的應(yīng)用畢業(yè)論文外文文獻(xiàn)翻譯_第3頁

簡單特征的優(yōu)化級聯(lián)在快速目標(biāo)檢測中的應(yīng)用畢業(yè)論文外文文獻(xiàn)翻譯_第4頁

簡單特征的優(yōu)化級聯(lián)在快速目標(biāo)檢測中的應(yīng)用畢業(yè)論文外文文獻(xiàn)翻譯_第5頁

已閱讀5頁，還剩10頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、畢業(yè)設(shè)計(jì)（論文）外文文獻(xiàn)翻譯文獻(xiàn)文獻(xiàn)文獻(xiàn)文獻(xiàn)資料中文題目：簡單特征的優(yōu)化級聯(lián)在快速目標(biāo)檢測中的應(yīng)用資料英文題目：資料來源：資料發(fā)表（出版）日期：院（部）專業(yè)：班級：姓名：學(xué) 號：指導(dǎo)教師: 翻譯日期:2017. 02. 14簡單特征的優(yōu)化級聯(lián)在快速目標(biāo)檢測中的應(yīng)用paul viola viola 三菱電氣實(shí)驗(yàn)室 201 broadway, 8th fl 劍橋，ma02139摘要本文描述了一個(gè)視覺b標(biāo)檢測的機(jī)器學(xué)習(xí)法，它能夠非?？焖俚靥幚韴D像而且能實(shí)現(xiàn)高檢測速率。這項(xiàng)工作可分為三個(gè) 創(chuàng)新性研宂成果。第一個(gè)是一種新的圖像表征說明，稱為“積分圖像”，它允許我們的檢測的特征得以很

2、快地計(jì)算出來。第二個(gè)是一個(gè)學(xué)習(xí)算法，基于adaboost自適應(yīng)增強(qiáng)法，可以從一些更大的設(shè)置和產(chǎn)量極為有效的分類器中選擇出幾個(gè)關(guān)鍵的視覺特征。第三個(gè)成果是一個(gè)方法：用一個(gè) “級聯(lián)”的形式不斷合并分類器，這樣便允許圖像的背景k域被很快丟棄，從而將更多的計(jì)算放在可能是目標(biāo)的區(qū)域上。這個(gè)級聯(lián)可以視作一個(gè)目標(biāo)特定的注意力集屮機(jī)制，它不像以前的途徑提供統(tǒng)計(jì)保障, 保證舍掉的地區(qū)不太可能包含感興趣的對象。在人臉檢測領(lǐng)域，此系統(tǒng)的檢測率比得上之前系統(tǒng)的最佳值。在實(shí)時(shí)監(jiān)測的應(yīng) 用中，探測器以每秒15幀速度運(yùn)行，不采用幀差值或膚色檢測的方法。michael jonesmjones康柏劍橋研究

3、所劍橋中心劍橋，ma021421.引言本文匯集了新的算法和見解，構(gòu)筑一個(gè)魯棒性良好的極速目標(biāo)檢測框架。這一框架主要是體現(xiàn)人臉檢測的任務(wù)。為了實(shí) 現(xiàn)這一目標(biāo)，我們己經(jīng)建立了一個(gè)正面的人臉檢測系統(tǒng)，實(shí)現(xiàn)了相當(dāng)于已公布的最佳結(jié)果的檢測率和正誤視率，16，12, 15, 11，1。這種人臉檢測系統(tǒng)區(qū)分人臉比以往的方法都要清楚，而且速度很快。通過對384x288像素的圖像，硬件環(huán)境是常規(guī)700 mhz英特爾奔騰iii，人臉檢測速度達(dá)到了每秒15幀。在其它人臉檢測系統(tǒng) 屮，一些輔助信息如視頻序列屮的圖像差異，或在彩色圖像中像素的顏色，被用來實(shí)現(xiàn)高幀率。而我們的系統(tǒng)僅僅使用一個(gè) 單一的灰

4、度圖像信息實(shí)現(xiàn)了高幀速率。上述可供選擇的信息來源也可以與我們的系統(tǒng)集成，以獲得更高的幀速率。本文的b標(biāo)檢測框架包含三個(gè)主要創(chuàng) 新性成果。下面將簡短介紹這三個(gè)概念，之后將分章節(jié)對它們一一進(jìn)行詳細(xì)描述。本文的第一個(gè)成果是一個(gè)新的圖像表征，稱為廣7分/紛蒙，允許進(jìn)行快速特征評估。我們的檢測系統(tǒng)不能直接利用圖像強(qiáng) 度的信息工作10。和這些作者一樣，我們使用一系列與haar基木函數(shù)相關(guān)的特征.（盡管我們也將使用一些更復(fù)雜的濾波器）。為了非常迅速地計(jì)算多尺度下的這些特性，我們引進(jìn)了積分圖像。在一幅圖像中，每個(gè)像素使用很少的一些操作，便可以計(jì)算得到積分圖像。任何一個(gè)類haar特征可以

5、在任何規(guī)?；蛭恢蒙媳挥?jì)算出來，且是在固定時(shí)間內(nèi)。本文的第二個(gè)成果是通過使用 adaboost算法選擇數(shù)個(gè)重要的特征構(gòu)建一個(gè)分類器6。在任何圖像子窗口里的類 haar特征的數(shù)目非常大，遠(yuǎn)遠(yuǎn)超過了像素數(shù)目。為了確?？焖俜诸?，在學(xué)習(xí)過程中必須剔除的大部分可用的特征，關(guān)注一小部分關(guān)鍵特征。選拔工作是通過一個(gè) adaboost的程序簡單修改：約束弱學(xué)習(xí) 者，使每一個(gè)弱分類器返回時(shí)僅可依賴1 個(gè)特征2。因此，每個(gè)改善過程的階段，即選擇一個(gè)新的弱分類器的過程，可以作為一個(gè)特征選擇過程。adaboost算法顯示了一個(gè)有效的學(xué)習(xí)算法和良好的泛化性能u3，9，10o本文的第三個(gè)主要成果是在一個(gè)在

6、級聯(lián)結(jié)構(gòu)屮連續(xù)結(jié)合更復(fù)雜的分類器的方法，通過將注意力集中到圖像中有希望的地區(qū)，來大大提高了探測器的速度。在集中注意力的方法背后的概念是，它往往能夠迅速確定在圖像屮的一個(gè)對象可能會出現(xiàn)在哪里17, 8, 1。更復(fù)雜的處理僅僅是為這些有希望的地區(qū)所保留。衡量這種做法的關(guān)鍵是注意力過程的“負(fù)誤視”（在模式識別中，將屬于物體標(biāo)注為不屬于物體）的概率。在幾乎所有的實(shí)例中，對象實(shí)例必須是由注意力濾波器選擇。我們將描述一個(gè)過程：訓(xùn)練一個(gè)非常簡單又高效的分類器，用來作為注意力操作的“監(jiān)督”中心。術(shù)語“監(jiān)督”是指：注意力操作被訓(xùn)練用來監(jiān)測特定分類的例子。在人臉檢測領(lǐng)域，使用一個(gè)由兩個(gè)

7、類 haar特征構(gòu)建的分類器，有可能達(dá)到1 % 不到的負(fù)誤視和40%正誤視。該濾波器的作用是減少超過一半的最終檢測器必須進(jìn) 行評估的地方。這些沒有被最初的分類器排除的子窗口，由接下來的一系列分類處理，每個(gè)分類器都比其前一個(gè)稍有復(fù)雜。如果某個(gè)子窗口被任一個(gè)分類器排除，那它將不會被進(jìn)一步處理。在檢測過程的級聯(lián)結(jié)構(gòu)基本上是一個(gè)退化型決策樹，這點(diǎn)可以參照 german和同事的工作1, 4。一個(gè)非?？焖俚娜四槞z測器有廣泛實(shí) 用性。這包括用戶界而，圖像數(shù)據(jù)庫，及電話會議。在不太需要高幀速率的應(yīng)用屮，我們的系統(tǒng)可提供額外的重要后處理和分析。另外我們的系統(tǒng)能夠在各種低功率的小型設(shè)備上實(shí)現(xiàn)，

8、包括手持設(shè)備和嵌入式處理器。在我們實(shí)驗(yàn)室我們已經(jīng)將該人臉檢測系統(tǒng)在compaq公司的ipaq上實(shí)現(xiàn)，并達(dá)到了兩幀每秒的檢測率（該設(shè)備僅有 200 mips的低功耗處理器，缺乏浮點(diǎn)硬件）。本文接k來描述我們的研宄成果和一些實(shí)驗(yàn)結(jié)果，包括我們實(shí)驗(yàn)方法學(xué)的詳盡描述。每章結(jié)尾會有對近似工作的討論。2.特征我們的0標(biāo)檢測程序是基于簡單的特征值來分類圖像的。之所以選擇使用特征而不是直接使用像素，主耍是因?yàn)樘卣骺?以解決特定領(lǐng)域知識很難學(xué)會使用有限訓(xùn) 練資料的問題。對于這些系統(tǒng)來說，選擇使用特征還有另外一個(gè)重要原因：基于特征的系統(tǒng)的運(yùn)行速度要遠(yuǎn)比基于像素的快。ab矩形特征可以反映檢測窗

9、門之間的聯(lián)系。ft色矩形框中的像素和減i灰色矩形框內(nèi)的像素和得到特征值。（a）和（b）是矩形特征。（c）是三矩形特征。（d）是四矩形特征。圖1上述簡單特征是基于haar基本函數(shù)設(shè) 置的，papageorgiou等人已使用過10。而我們則是更具體地選擇了特定的三類特征。其中，雙矩形特征的值定義為兩個(gè)矩形區(qū)域里像素和的差。而區(qū)域則具有相同尺、?和大小，并il水平或垂直相鄰（如圖 1）。而三矩形特征的值則是兩個(gè)外側(cè)矩形的像素和減去中間矩形的和所得的最終值。最后一個(gè)四矩形特征的值是計(jì)算兩組對角線矩形的區(qū)別而得的。檢測器的基本分辨率設(shè)定為24x24, 既而得到數(shù)目巨大的矩形特征的完備集

10、，超過了 180000。需耍注意的是，矩形特征的集合不像haar基底，它是過完備一個(gè)完備基底在集元素之間沒有線性獨(dú)立，且數(shù)13和圖像空間的元素個(gè)數(shù)相等，這里足576。在總數(shù)為180,000 的全級中，數(shù)千特征是多次過完備的。2在圖形學(xué)中還有個(gè)近義詞稱為“區(qū)域求和表” 3。這里我們選擇一個(gè)不同名稱，是為了便于讀冇理解這是用來進(jìn)行圖像處理，而不是紋理映射的。的。2.1積分圖像我們采用一個(gè)屮間表示方法來計(jì)算圖像的矩形特征，這里稱為積分圖像位置x，y上的積分圖像包含點(diǎn)x, y上邊和左邊的像素和，包括："（%，）= i /（/，/），當(dāng)f7（x，y）是積分圖像，z（x，y）是

11、原始圖像?？梢允褂孟铝幸粚ρh(huán)：5（%, y） = s（x, y -1） + z（x，y）（1）z7（x, y） = ii（x 一 1，）0 + 辦，y）（2）（這里xx，y）是累積行和，5（5,-1） = 0, zz（-l，y） = o）積分圖像可以通過己知原始圖像而一步求得。使用積分圖像可以把任意一個(gè)矩形用四個(gè)數(shù)組計(jì)算（見圖2）。顯然兩個(gè)矩形和之差可以用八個(gè)數(shù)組。因?yàn)殡p矩形特征的定義是兩個(gè)相鄰矩形的和，所以僅用6個(gè)數(shù)組就可以計(jì)算出結(jié)果。同理三矩形特征用8 個(gè)，四矩形特征用9個(gè)。ab19cd34矩形da的像索和可以按四個(gè)數(shù)組計(jì)算。位置1的積分圖像的值就是矩形a屮的像素之和。位罝2的值

12、是a+b，位置 3的值足a+c，而位界.4的值足a+b+c+d。那么d中的像素和就是4+1- （2+3）.圖22. 2特征討論和一些相似方法，如導(dǎo)向?yàn)V波比較起來，矩形特征看似有些原始5,71。導(dǎo)向?yàn)V 波等類似方法，非常適合做對邊界的詳細(xì) 分析，閣像壓縮，紋理分析。相比之下矩形特征，對于邊緣，條紋，以及其他簡單的圖像結(jié)構(gòu)的敏感度，是相當(dāng)粗糙的。不同于導(dǎo)向?yàn)V波，它僅有的有效位置就是垂直，水平和對角線。矩形特征的設(shè)置做不過是提供了豐富的閣像表征，支持有效的學(xué)習(xí)。與積分圖像一起，矩形特征的高效給它們有限的靈活性提供了極大補(bǔ)償。3. 自學(xué)式分類功能給定一個(gè)特征集和一個(gè)包含正圖像和負(fù)圖

13、像的訓(xùn)練集，任何數(shù)量的機(jī)器學(xué)習(xí)方法可以用來學(xué)習(xí)分類功能。在我們的系統(tǒng) 中，使用adaboost的一種變種來選擇小規(guī) 模特征集和調(diào)試分類器6。在其原來的形式中，這種adaboost自學(xué)式算法是用來提高一個(gè)簡單（有時(shí)稱為弱式）自學(xué)式算法的。adaboost自學(xué)步驟提不少有效保證。 freund和schapire證明，在相當(dāng)數(shù)量的循環(huán) 中，強(qiáng)分類器的調(diào)試誤差接近于零。更重要的是，最近相當(dāng)數(shù)量的結(jié)果證明了關(guān)于泛化性能的優(yōu)勢14。其關(guān)鍵觀點(diǎn)是泛化性能與例子的邊界有關(guān)，而adaboost能迅速達(dá)到較大的邊界。回想一下，有超過180,000個(gè)矩形特征與每個(gè)圖像子窗口有關(guān)，這個(gè)數(shù)字遠(yuǎn)大過像

14、素?cái)?shù)。雖然每個(gè)特征的計(jì)算效率非常高，但是對整個(gè)集合進(jìn)行計(jì)算卻花費(fèi)高昂。而我們的假說，己被實(shí)驗(yàn)證實(shí)，可以將極少數(shù)的特征結(jié)合起來，形成有效的分類器。而主要挑戰(zhàn)是如何找到這些特征。為實(shí)現(xiàn)這一目標(biāo)，我們設(shè)計(jì)弱學(xué)習(xí)算法，用來選擇使得正例和負(fù)例得到最佳分離的單一矩形特征（這是2中方法類似，在圖像數(shù)據(jù)庫檢索域）。對于每一個(gè)特征，弱學(xué)習(xí)者決定最優(yōu)閾值分類功能，這樣可以使錯(cuò)誤分類的數(shù)目最小化。弱分類器知00包括：特征力，閾值氏，和一個(gè)正負(fù)校驗(yàn)即保證式子兩邊符號相同：= p p狀的此0 otherwise這里x是一個(gè)閣像屮24x24像素的子窗口。表1是優(yōu)化過程的概述。表1 given exam

15、ple images (m "i),.，(.ru. /,)where=0. i for negative and positive examples respec- tivelv.j.initialize weights «：i., = 7 + for/y, = 0, i respectively. where m and / are the number of negatives and positives respectively. forf =1. normalize the weights.so that in. is a probability distribut

16、ion.2. for each feature, j, train a classifier hj which is restricted to using a single feature. the error is evaluated with respect to wt, ej =ei-/d-3. choose the classifier, h. with the lo'vest error e.4. update the weights:we+1.1 =where = 0 if example r, is classified cor- rectly;i = i otherw

17、ise, and 冰= the final strong classifier is:= / 1 e?0 otherwisewhere = log注：關(guān)子tl學(xué)式分類的adaboost算法。每個(gè)循環(huán)都在18()，()()()個(gè)潛在特征中選擇一個(gè)特征。在實(shí)踐屮沒有單個(gè)特征能在低錯(cuò)誤的條件下執(zhí)行分類任務(wù)。在優(yōu)化過程的循環(huán) 初期中被選中的特征錯(cuò)誤率在0.1到0.3之間。在循環(huán)后期，由于任務(wù)變得更難，因此被選擇的特征誤差率在0.4和0.5之間。3.1自學(xué)習(xí)討論許多通用的特征選擇程序己經(jīng)提出（見18的第八章）。我們的最終應(yīng)用的方法耍求是一個(gè)非常積極的，能拋棄絕大多數(shù)特征的方法。對于類似的識別問

18、題， papageorgiou等人提出了一個(gè)基于特征差異的特征選擇計(jì)劃。他們從1734個(gè)特征中選出37個(gè)特征，實(shí)現(xiàn)了很好的結(jié)果。roth等人捉出了一種基于winnow指數(shù) 感知機(jī)學(xué)習(xí)規(guī)則的特征選擇過程11。這種winnow學(xué)習(xí)過程收斂y 個(gè)解決方法，其中有不少權(quán)重為零。然而卻保留下來相當(dāng)大一部分的特征（也許有好幾百或幾千）。3. 2自學(xué)習(xí)結(jié)果最終系統(tǒng)的詳細(xì)調(diào)試和執(zhí)行將在第5 節(jié)中介紹，現(xiàn)在對幾個(gè)簡單的結(jié)果進(jìn)行討論。初步實(shí)驗(yàn)證明，正面人臉分類器由200 個(gè)特征構(gòu)造而成，正誤視率在14084中為1, 檢測率為95%。這些結(jié)果是引人注h的，但對許多實(shí)際任務(wù)還是不夠的。就計(jì)算而言，這

19、個(gè)分類器可能比任何其他公布的系統(tǒng)更快，掃描由1個(gè)384乘288像素圖像僅需要0.7秒。不幸的是，若用這個(gè)最簡單的技術(shù)改善檢測性能，給分類器添加特征，會直接增加計(jì)算時(shí)間。對丁人臉檢測的任務(wù)，由adaboost選擇的最初的矩形特征是有意義的且容易理解。選定的第一個(gè)特征的重點(diǎn)是眼晴區(qū)域往往比鼻子和臉頰區(qū)域更黑暗（見圖3）。此特征的檢測子窗口相對較大，并且某種程度上不受而部大小和位置的影響。第二個(gè)特征選擇依賴于眼睛的所在位置比鼻梁更暗。這兩個(gè)特點(diǎn)顯示在最上而一行，然后一個(gè)典型的調(diào)試而部疊加在底部一行。第一個(gè)特點(diǎn)，測量眼睛部區(qū)域和上臉頰地區(qū)的強(qiáng)烈程度的區(qū)別。該特征利用了眼眙部區(qū)

20、域往往比臉頰史暗。第二個(gè)特點(diǎn)比較y眼睛區(qū)域與鼻梁的強(qiáng)度。圖3 adaboost選擇的第一和第二個(gè)特點(diǎn)4. 注意力級聯(lián)木章描述了構(gòu)建級聯(lián)分類器的算法，它能增加檢測性能達(dá)從而從根本上減少計(jì) 算時(shí)間。它的主要觀點(diǎn)是構(gòu)建一種優(yōu)化分類器，其規(guī)模越小就越高效。這種分類器在檢測幾乎所冇都是正例吋剔除許多負(fù)子窗u （即，優(yōu)化分類器閾值可以調(diào)整使得負(fù)誤視率接近零）。在調(diào)用較復(fù)雜的分類器之前，我們使用相對簡單的分類器來剔除大多數(shù)子窗門，以實(shí)現(xiàn)低正誤視率。在檢測過程中，整體形式是一個(gè)退化決策樹，我們稱之為“級聯(lián)”（見圖4）。從第一個(gè)分類得到的有效結(jié)果能觸發(fā)第二個(gè)分類器，也已調(diào)整至達(dá)到非常高的檢

21、測率。再得到一個(gè)有效結(jié)果使得第二個(gè)分類器觸發(fā)第三個(gè)分類器，以此類推。在任何一個(gè)點(diǎn)的錯(cuò)誤結(jié)果都導(dǎo)致子窗口立刻被剔除。級聯(lián)階段的構(gòu)成首先是利用adaboost 訓(xùn)練分類器，然后調(diào)整閾值使得負(fù)誤視最大限度地減少。注意，默認(rèn)adaboost的閾值旨在數(shù)據(jù)過程中產(chǎn)生低錯(cuò)誤率。一般而言，一個(gè)較低的閾值會產(chǎn)生更高的檢測速率和更高的正誤視率。all sub-windowsii'上？< 1 y prooessina/jf 1f 1freject sub-window。一系列的分類器適用于每一個(gè)子窗門。最初的分類器 w很少的處理來消除人部分的負(fù)例。隨后的層次消除額外的負(fù)例，但是需要

22、額外的計(jì)算。經(jīng)過數(shù)個(gè)階段處理以后，子窗口的數(shù)量急劇減少。進(jìn)一步的處理可以采取任何形式，如額外的級聯(lián)階段（正如我們的檢測系統(tǒng)屮的）或者另一個(gè)檢測系統(tǒng)。圖4檢測級聯(lián)的示意圖例如，一個(gè)兩特征強(qiáng)分類器通過降低閾值，達(dá)到最小的負(fù)誤視后，可以構(gòu)成一個(gè)優(yōu)秀的第一階段分類器。測量一個(gè)定的訓(xùn)練集時(shí)，閾值可以進(jìn)行調(diào)整，最后達(dá)到 100%的人臉檢測率和40%的正誤視率。圖 3為此分類器這兩個(gè)特征的使用說明計(jì)算這兩個(gè)特征分類器要使用大約60個(gè)微處理器指令。很難想象還會有其它任何簡單的濾波器可以達(dá)到更高的剔除率。相比之下，一個(gè)簡單的圖像掃描模板，或單層感知器，將至少需要20倍于每個(gè)子窗口的操作。該級

23、聯(lián)結(jié)構(gòu)反映了，在任何一個(gè)單一的圖像屮，絕大多數(shù)的子窗門是無效的。因此，我們的級聯(lián)試圖在盡可能早的階段剔除盡可能多的負(fù)例。雖然正例將觸發(fā)評估每一個(gè)在級聯(lián)中的分類器，但這極其罕見。隨后的分類器就像一個(gè)決策樹，使用這些通過所有以前的階段例子進(jìn)行訓(xùn)練。因此，第二個(gè)分類器所面臨的任務(wù)比第一個(gè)更難。這些過第一階段的例子比典型例子更“難”。這些例子推動整個(gè)受試者工作特征曲線（roc）向卜'。在給定檢測率的情況下，更深層次分類器有著相應(yīng)較高的正誤視率。4.1調(diào)試分類器級聯(lián)級聯(lián)的調(diào)試過程包括w個(gè)類型的權(quán)衡。在大多數(shù)情況下具有更多的特征分類器達(dá) 到較高的檢測率和較低的正誤視率。同

24、時(shí) 具有更多的特征的分類器需要更多的吋間來計(jì)算。原則上可以定義一個(gè)優(yōu)化框架，其中：一）分級級數(shù)，二）在每個(gè)階段的特征數(shù)目，三）每個(gè)階段為最小化預(yù)計(jì)數(shù) 量評價(jià)功能而進(jìn)行的門限值交換。不幸的是，發(fā)現(xiàn)這個(gè)最佳方案是一個(gè)非常困難的問題。在實(shí)踐中用一個(gè)非常簡單的框架產(chǎn)生一個(gè)有效的高效分類器。級聯(lián)中的每個(gè)階段降低了正誤視率并且減小了檢測率?，F(xiàn) 在的r標(biāo)n在最小化正識視率和最大化檢測率。調(diào)試每個(gè)階段，不斷増加特征，直到檢測率和正誤視率的b標(biāo)實(shí)現(xiàn)（這些比率是通過將探測器在驗(yàn)證設(shè)置上測試而得的）。同時(shí)添加階段，直到總體h標(biāo)的正誤視和檢測率得到滿足為止。4.2探測器級聯(lián)的探討完整的人臉檢測

25、級聯(lián)己經(jīng)有擁有超過 6000個(gè)特征的38個(gè)階段。盡管如此，級聯(lián) 結(jié)構(gòu)還是能夠縮短平均檢測時(shí)間。在一個(gè) 復(fù)雜的包含507張人臉和7500萬個(gè)子窗口的數(shù)據(jù)集中，人臉在檢測時(shí)是每個(gè)子窗口由平均10個(gè)特征來評估。相比之卜*,本系統(tǒng)的速度是由羅利等人1121構(gòu)建的檢測系統(tǒng)的15倍。由rowley等人描述的一個(gè)類似于級聯(lián)的概念出現(xiàn)人臉檢測系統(tǒng)中。在這個(gè)系統(tǒng)屮他們使用丫兩個(gè)檢測網(wǎng)絡(luò)。rowley等人用更快但相對不準(zhǔn)確的網(wǎng)絡(luò)，以先篩選圖像，這樣做是為了使較慢但更準(zhǔn)確的網(wǎng) 絡(luò)找到候選區(qū)域。雖然這很難準(zhǔn)確判斷，但是rowley等人的雙網(wǎng)絡(luò)系統(tǒng)，是a前速度最快的臉部探測器。在檢測過程中的級聯(lián)結(jié)構(gòu)

26、基本上是退化決策樹，因此是涉及到丫amit和 gemanl|的工作。，amit和geman建議不再使用固定一個(gè)探測器的技術(shù)，而他們提出一個(gè)不尋常的合作同現(xiàn)，即簡單的圖像將征用于觸發(fā)評價(jià)一個(gè)更為復(fù)雜的檢測過程。這樣，完整的檢測過程屮不需要對潛在的圖像位置和范圍進(jìn)行估計(jì)。然而這種基木的觀點(diǎn)非常有價(jià)值，在它們的執(zhí)行過程中，必須耍對每一個(gè)位置的某些功能檢測首先進(jìn)行估計(jì)。這些特征被歸類，以用于找到不尋常的合作。在實(shí)踐屮，由于我們的檢測器的形式，它的使用非常高效，用于評估我們在每個(gè)探測器的規(guī)模和位置的成本消耗比尋找和分組整個(gè)圖像邊緣快很多。在最近的工作屮fleuret和gema

27、n已經(jīng) 提交了一種人臉檢測技術(shù)，它以“鏈測試” 為主調(diào)，用來表示在某一特定范圍和位置人臉是否存在4。由fleuret和geman測量的圖像屬性，細(xì)尺度邊界的分離，與簡單、存在于所有尺度且某種程度可辨別的矩陣特征有很大的不同。這兩種方法的基本原理也存在根木上的差異。fleuret和geman 的學(xué)習(xí)過程的h的是密度估計(jì)和密度辨別，而我們的探測器是單純的辨別。最后, fleuret和geman的方法屮的正誤視率似乎也比以前的如rowley等人的方法中的更高。不幸的是，這種辦法在文章中并沒有定量分析結(jié)果。圖像所包含的每個(gè)例子都有2到10個(gè)正誤視。5. 實(shí)驗(yàn)結(jié)果我們訓(xùn)練一個(gè)38層級聯(lián)

28、分類器，用來檢測正面直立人臉。為了訓(xùn)練分類器，我們使用了一系列包含人臉和不包含人臉的圖片。人臉訓(xùn)練集由4916個(gè)手標(biāo)人臉組成, 都縮放和對齊成24x24像素的基本塊。提取人臉的圖片是在使用隨機(jī)爬蟲在萬維網(wǎng) 上下載。一些典型人臉例子如圖5所示。訓(xùn)練檢測器的沒有人臉的子窗u來自 9544張圖片，都己經(jīng)進(jìn)行人工檢查，確定不包含任何人臉。在這些沒有人臉的圖片中，子窗口共有大概3.5億個(gè)。£鑼 si娜 ll-rmiisibhv罾麯*;!遍/？ca之iiikj矚麄#«底圖5用來訓(xùn)練的正而直立人臉圖像的例子在開始五層檢測器中特征的數(shù)量分別為1、10、25、25和50。剩下的

29、各層包含的特征數(shù)量急劇增多。特征總數(shù)是6061 個(gè)。在級聯(lián)屮的每個(gè)分類器都經(jīng)過4916 個(gè)受訓(xùn)人臉（加上它們的垂直鏡像，一共有9832個(gè)受訓(xùn)人臉）和10000個(gè)無人臉的子窗口（同樣它們的尺寸都是24x24）,使用自適應(yīng)增強(qiáng)訓(xùn)練程序訓(xùn)練。對于最初的含一個(gè)特征的分類器，無人臉訓(xùn)練實(shí)例從一系列9544張沒有人臉的圖片中隨機(jī)選擇出子窗口。用來訓(xùn)練隨后的層的沒有人臉實(shí)例是通過掃描部分級聯(lián)的無人臉圖像以及收集正誤視率而得的。每一層收集的像這樣無人臉的子窗門的最人值是 10000。最終檢測器的速度級聯(lián)的檢測器的速度是和在每次掃描子窗口中評估的特征數(shù)目有直接影響的。在mit+cmu測試集

30、的評估中12,平均 6061個(gè)特征屮有10個(gè)特征被挑出，評估每一個(gè)子窗口。這并非不可能，因?yàn)橛写罅?子窗口被級聯(lián)的第一層和第二層剔除。在 700兆赫的奔騰3處理器上，該人臉檢測可以約0.67秒的速度處理一幅384x288像素大小的圖像（使用）。這個(gè)大概是 rowley-baluja-kanade 檢測器12的速度的 15倍，是schneiderman- kanade檢測器 15速度的約600倍。圖像處理所有用來訓(xùn)練的子窗口實(shí)例都經(jīng)過方差標(biāo)準(zhǔn)化達(dá)到最小值，盡量減少不同光照條件的影響。因此，在檢測屮也必須規(guī)范化。一個(gè)圖像子窗u的方差可以使用一對積分圖像快速計(jì)算。回憶c72=m2-丄

31、此處c是標(biāo)準(zhǔn)差，州是均值，而*是在子窗u中的像素值。子窗口的均值可以由積分圖像計(jì)算得出。像素的平方和可以由一個(gè)圖像的積分圖像的平方得出（即，兩個(gè)積分圖像在掃描進(jìn)程屮使用）。在掃描圖像中，圖像的規(guī)范化可以通過后乘以特征值達(dá)到，而不是預(yù)先乘以像素值。掃描檢測器掃描最終檢測器在多尺度和定位下對圖像進(jìn)行掃描。尺度縮放更多是由縮放檢測器自身而不是縮放圖像得到。這個(gè)進(jìn)程的意義在于特征可以在任意尺度下評估。使用1. 25的間隔的可以得到良好結(jié)果。檢測器也根據(jù)定位掃描。后續(xù)位置的獲得是通過將窗門平移z1個(gè)像素獲得的。這個(gè)平移程序受檢測器的尺度影響：若當(dāng) 前尺度是s,窗口將移動sz，這里

32、是指湊整操作。的選擇不僅影響到檢測器的速度還影響到檢測精度。我們展示的結(jié)果是取了z=1.0。通過設(shè)定z=1.5,我們實(shí)現(xiàn)一個(gè) 有意義的加速，而精度只有微弱降低。多檢測的整合因?yàn)樽罱K檢測器對于傳遞和掃描屮的微小變化都很敏感，在一幅掃描圖像中每個(gè)人臉通常會得到多檢測結(jié)果，一些類型的正誤視率也是如此。在實(shí)際應(yīng)用中每個(gè) 人臉返回一個(gè)最終檢測結(jié)果才顯得比較有意義。在這些試驗(yàn)中，我們用非常簡便的模式合并檢測結(jié)果。首先把一系列檢測分割成許多不相交的子集。若兩個(gè)檢測結(jié)果的邊界區(qū)重疊了，那么它們就是相同子集的。每個(gè)部分產(chǎn)生單個(gè)最終檢測結(jié)果。最后的邊界區(qū)的角落定義為一個(gè)集合中所有檢測結(jié)果的

33、角落平均值。在現(xiàn)實(shí)測試集中實(shí)驗(yàn)我們在mit+cmu正面人臉測試集12 上對系統(tǒng)進(jìn)行測試。這個(gè)集合由130幅圖像組成，共有507個(gè)標(biāo)記好的正面人臉。圖6 是一個(gè)r0c曲線，顯示在該測試集上運(yùn)行的檢測器的性能。其中末層分類器的閾值設(shè) 置為從一00到+°°。當(dāng)調(diào)節(jié)闔值趨近+°°時(shí)，檢測率趨于0.0,正誤視率也趨于0.0。而當(dāng)調(diào)節(jié)閾值趨近一m吋，檢測率和正誤視率都增k：了，但最終會趨向一個(gè)恒值。速率最高的就是級聯(lián)中末層的。實(shí)際上，閾值趨近一就等價(jià)于移走這一層。要想得到檢測率和正誤視率更多的增長，就需要減小下一級分類器的閾值。因此，為了構(gòu) 建一個(gè)

34、完整的r0c曲線，我們將分類器層數(shù) 移走了。為了方便與其它系統(tǒng)比較，我們使用正誤視的不是正誤視觀拳作為坐標(biāo)的x軸。為了計(jì)算正誤視率，簡單將掃描的子窗門總數(shù)與之相除即可。在我們的實(shí)驗(yàn)中，掃描過的子窗u總數(shù)達(dá)到了 75,081,800。false positives閣6檢測器在mit+cmu測試集上的roc曲線不幸的是，大多數(shù)人臉檢測的先前已公布的結(jié)果僅有單一操作制度（即，r0c曲線上的單一點(diǎn)）。為了使之與我們的檢測器更容易進(jìn)行比較，我們將我們系統(tǒng)在由其它系統(tǒng)測出的正誤視率下的檢測率進(jìn)行列表。表2列出了我們的系統(tǒng)和其它已公布系統(tǒng)的不同數(shù)目錯(cuò)誤檢測結(jié)果k的檢測率。對rowle

35、y-baluja-kanade的結(jié)論1121，我們對他們的一些不同版木的檢測器進(jìn)行測試，產(chǎn)生一些不同結(jié)果，都列在同一標(biāo)題下。roth-yang-ahujal 1檢測器的結(jié)果閣7:我們的人臉檢測器的輸出結(jié)果，在數(shù)個(gè)來fimit+cmu測試集的測試圖像t。false detectionsdetector103150657895167viola-jones76.1%88.4%91.4%92.0%92.1%92.9%93.9%viola-jones (voting)81.1%89.75；92.1%93.1%93.1%93.2 %93.7%rowley-baluja-kanades3.2%86.0

36、%-89.2%90.1%schneideiman- kanade-94.4%-roth-yang-ahuj a-(94.8%)圖7 表2注：不同正誤視率卜'的檢測率，mhvcmu測試銀，包含130幅圖像和507個(gè)人臉。顯示，在mit+cmu測試集上，減去的5幅圖像包括線繪人臉被移除了。圖7則展示了對于一些來自 mit+cmu測試集屮的測試圖片，我們的人臉檢測器的輸出結(jié)果。簡易完善計(jì)劃在表2我們也顯示了運(yùn)行三個(gè)檢測器的結(jié)果（一個(gè)本文描述的38層檢測器加上兩個(gè)類似受訓(xùn)檢測器）。在提高檢測率的同時(shí)也消除很多正誤視率，且隨檢測器獨(dú) 立性增強(qiáng)而提高。由于它們之間存在誤差, 所以對于最佳

37、的單一檢測器，檢測率是有一個(gè)適度提高。6.結(jié)論我們展示了一個(gè)0標(biāo)檢測的方法，既能使計(jì)算時(shí)間最小化，乂能達(dá)到高檢測精度。這個(gè)用該方法構(gòu)建的一個(gè)人臉檢測系統(tǒng)，達(dá)到檢測速度約是以往方法的15倍。本文結(jié)合了十分通用的新算法、表征和概念，可能會在機(jī)器視覺和圖像處理方面實(shí)現(xiàn)廣泛應(yīng)用。本文最后展示了的一系列詳細(xì)的實(shí) 驗(yàn)，是在一個(gè)己得到廣泛研宂的復(fù)雜人臉檢測數(shù)據(jù)庫屮進(jìn)行的。這個(gè)數(shù)據(jù)庫屮的人臉各式各樣條件都廣泛不同：照明、規(guī)模、構(gòu)成及和機(jī)的變化。在這樣一個(gè)龐大繁雜的數(shù)據(jù)庫中實(shí)驗(yàn)難度很大，且十分耗時(shí)。然而，在這樣的條件下工作的系統(tǒng)不易損壞或者受限于單一條件。從該數(shù)據(jù)庫中取得的更多重要結(jié)論，都

38、不可能是實(shí)驗(yàn)的人為產(chǎn)物。參考文獻(xiàn)1 y. amit，d. geman，and k. wilder. joint induction of shapefeatures and tree classifiers, 1997.2 anonymous. anonymous. in anonymous, 20003 f. crow. summed-area tables for texture mapping. inproceedings ofsiggraph, volume 18(3)，pages 207-212,1984.41 f. fleuret and d. geman. coarse-to-

39、fine face detection. int.j. computer vision, 2001.5 william t. freeman and edward h. adelson. the designand use of steerable filters. ieee transactions on patternanalysis and machine intelligence, 13(9):891-906, 1991.6 yoav freund and robert e. schapire. a decision-theoreticgeneralization of on-line

40、 learning and an application toboosting. in computational learning theory:eurocolt 95，pages 23-37. springer-verlag， 1995.7 h. greenspan, s. belongie，r.gooodman, p. perona，s. rakshit，and c. anderson. overcomplete steerable pyramid filters and rotation invariance. in proceedings of the ieee conference

41、 on computer vision and pattern recognition,1994.8 l. itti，c. koch，and e. niebur. a model of saliency-based visual attention for rapid scene analysis. ieee patt. anal. mach.i nt ell, 20(11):1254-1259, november 1998.9 edgar osuna，robert freund，and federico girosi. training support vector machines: an application to face detection. in proceedings of the ieee conference on computer vision and pa

人人文庫> 全部分類> 生活休閑 > 科普知識

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

簡單特征的優(yōu)化級聯(lián)在快速目標(biāo)檢測中的應(yīng)用畢業(yè)論文外文文獻(xiàn)翻譯

文檔簡介

溫馨提示

最新文檔

評論

簡單特征的優(yōu)化級聯(lián)在快速目標(biāo)檢測中的應(yīng)用畢業(yè)論文外文文獻(xiàn)翻譯

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔