基于中層特征的精細圖像分類-論文_第1頁
基于中層特征的精細圖像分類-論文_第2頁
基于中層特征的精細圖像分類-論文_第3頁
基于中層特征的精細圖像分類-論文_第4頁
基于中層特征的精細圖像分類-論文_第5頁
已閱讀5頁,還剩49頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于中層特征的精細圖像分類摘 要現如今,圖像處理中目標分類與檢測越來越多的得到了人們的關注與研究。目標分類一般分為兩種,一種是基礎圖像分類,另一種是越來越受到人們關注的精細圖像分類。基礎圖像分類是為了區(qū)分具有不同形狀以及視覺特征的物體(例如給出一個鳥的圖片,基礎圖像分類就是為了要區(qū)分出這張圖片是鳥的圖片還是狗的圖片)。精細圖像分類則是要區(qū)分具有相似形狀以及外貌特征的物體(例如給出一副鳥的圖片,精細分類就是要判斷出這只鳥究竟屬于哪一類鳥)。在這篇文章中,我們主要研究了圖像的精細分類問題,在現實生活中它比圖像的基礎分類更加具有實用性。我們所使用的數據庫是目前比較有挑戰(zhàn)性的CUB-200以及Stan

2、ford_Dogs數據庫。我們結合了高效匹配核函數(EMK)與帶有權重的空間金字塔以達到最優(yōu)的分類表現。實驗用EMK與詞包(BoW)作對比,其中,BoW也可以看做是一種核函數匹配方法,EMK是找出詞表主要成分的相互關系,并且在核函數的框架中找到一種新的映射。EMK是通過映射,將局部特征映射到一個低維的特征空間并且將結果向量平均化以形成一個特征層集合。實驗結果表明,這可以很好的改進系統(tǒng)的性能。關鍵詞:高效匹配核函數(EMK);詞包(BoW);細粒度圖像分類ABSTRACTIn recent days, object classification and detection in image pr

3、ocessing are getting more and more attention and research. Object classification include two sides, one is basic classification, another is fine-grained classification which attract more and more people to study. basic classification is to classify the object which have the different shapes and visu

4、al appearance(e.g.: for a picture of bird,the basic classification is to identify the object in the picture is a bird or dog ). Fine-grained classification is to classification the object with the similar shapes and visual appearance(e.g.: for a picture of bird,the fine-grained classification is to

5、identify which kind of birds it belongs to). In this paper, we study the problem of fine-grained image categorization, which is much more useful in real applications than basic image classification. Based on the most challenge dataset, CUB-200, Stanford_Dogs_Dataset.We combine Efficient match kernel

6、 (EMK) with the weighted spatial pyramid to achieve state-of-art performance. Comparison with BoW, which can also be viewed as kernel matching approach, EMK digs the relations among vocabulary bases and finds a new mapping in kernel framework. By it, local features are mapped to a low dimensional fe

7、ature space and average the resulting vectors to form a set level feature in EMK. It is proved that it is helpful to improve the system performance.第1章 緒論1.1精細圖像分類的研究背景及意義伴隨著網絡和多媒體技術的飛速發(fā)展,越來越多的聲音、圖形、圖像、視頻和動畫等數字信息越來越多的出現在人們的工作、學習和生活當中。而圖像作為一種內容豐富、表現生動的媒體信息,也越來越受到了人們的關注。在現實生活中,時時刻刻都會有大量的圖像產生,對于如何從這些給定

8、的圖像信息中找出符合人們所需求的圖像就是研究者們需要解決的問題。圖像分類其實就是模式識別的過程,它是利用計算機來對圖像進行定量分析,把圖像中的每個像素元或區(qū)域轉化成一種計算機識別的特征類別,用來代替人的視覺判讀?,F如今百度、google等網絡公司使用的都是傳統(tǒng)的圖像分類方法,為了能夠實現圖像更精確的分類也都有做圖像精細分類方面的研究,如果可以實現圖像的精細分類,那么在網絡搜索中,我們可以快速的實現圖像的匹配,以此來實現精確圖像的搜索。而不會像在傳統(tǒng)的圖像分類中那樣,在圖像匹配方面只能實現粗略的匹配而使得圖像搜索結果多而不精。隨著智能機器的不斷發(fā)展進步,人們對于圖像分類的要求越來越高,它要求我們

9、對于圖像能夠實現越來越精細的分類。而傳統(tǒng)的圖像分類只能進行粗略的圖像分類,它一般都是利用圖像的紋理、灰度、形狀位置等底層特征對圖像進行分類,而在圖像的搜索查找方面一般都是選用關鍵詞來進行查找。而在本文中,我們所要實現的是圖像分類能夠根據圖像的底層特征以及利用中層特征思想的方法來實現圖像的精細分類,并且可以根據未知圖片來搜索相關信息。1.2國內外研究現狀基于精細圖像分類的研究是從11年以后才開始有相關研究的,且只有斯坦福大學、加利福尼亞大學等少數的學校在做。其中以斯坦福大學Li Fei-Fei等人在2011年、2012年在CVPR上發(fā)表的Combining Randomization and D

10、iscrimination for Fine-Grained Image Categorization以及A Codebook-Free and Annotation-Free Approach for Fine-Grained Image Categorization最為突出。下面我們介紹幾種圖像分類的方法。1、基于編碼簿(code book)的編碼方法現如今大多數的最優(yōu)的圖像分類系統(tǒng)是基于局部圖像塊編碼的視覺代碼,但是這種視覺代碼是經常導致圖像塊詳細信息丟失的粗糙編碼?,F如今,一些最新的研究開始使用稀疏編碼SC(Sparce Code)來獲得更準確的圖像塊編碼,并且這種方法已被證明在許多的

11、圖像分類的任務中使得分類性能得到了改進。但是在這種方法中,圖像信息的丟失也是沒有辦法避免的。2、基于注釋的方法圖像分類中,為了在細粒度分類問題中說明重要目標的特性以及與其它的相似目標的細微區(qū)別,越來越多的工作都試圖從人類方面來吸收更多的輸入信息,包括要求人們點擊目標區(qū)域、回答關于目標特性問題的人類循環(huán)方法。它是一個關于鳥類識別的改進的postlet-like算法,并且在Caltech-UCSD鳥類數據庫中獲得了良好的性能。但是這種方法需要人們對于目標特性或者關鍵點位置的冗長的注釋,這對那些需要全自動學習來進行區(qū)分圖像信息的情況構成了嚴峻的考驗。而且將這種方法使用到新的細粒度目標層中所需要付出的

12、代價是很昂貴的,因為特征查詢和目標關鍵點通常需要由領域的專家仔細設計,尤其是那些沒有明顯關鍵區(qū)域或者直接特性的目標,例如樹、水、食物等等。3、基于模板的方法基于模板的算法是一個需要獲得帶有大量隨機生成的映像模板來匹配圖像特征響應的映射。這種方法在思想上類似于最近大量使用的各種預定義濾波器來生成圖像響應特征的研究,例如目標檢測,人體部分探測器以及圖像區(qū)域的聚類中心。雖然這些方法在基礎層目標和場景分類任務中已經展現了很好的結果,但是它們仍然面臨著粗糙編碼或者冗長的人類注釋的問題,而且這些代表方法目前還沒有一個用在細粒度圖像分類上。4、細粒度圖像分類方法細粒度圖像分類方法是用各種數據庫來進行細粒度圖

13、像分類,它是最近研究比較多的。這種方法可以識別數據中的具有相似外表的圖像。這也是我們這次設計的主要思想,具體詳見下文。5、其它圖像分類方法這些超出了我們這篇文章的討論大型目標分類工作的范疇,例如一些基于局部模型工作在最小范圍的分類目標或從背景中局部化目標可以完成的很好。然而,在怎樣使用這些方法來區(qū)分那些有相似視覺外表的細粒度目標并且展示這些目標的的重要部分還不清楚。1.3文章框架精細圖像分類是解決限制人類視覺效能以達到區(qū)分相似目標的有效方法。例如當人看到一種自己并不認識的花或鳥時,很想知道這種花或鳥的具體名稱以及其相關信息,但是人的視覺以及學識可能會不能幫助人們區(qū)分這種花或鳥,這時,細粒度圖像

14、分類就會幫助人們來解決這個問題。而在文章中,我們主要想做的也是細粒度圖像分類,這種方法亦可以廣泛擴展到其它領域中,并且其分類范圍也可以廣泛運用到任何的數據庫中。在文章中,為了實現圖像的細粒度圖像分類,整個實驗步驟如圖1-1:BoWSVM空間金字塔特征提取使用包圍盒截取圖片圖片RFEMK圖1-1 細粒度圖像分類實驗過程文章我們采用了以下框架:1、特征提取在文章的第二章中我們介紹了整個程序中的特征提取,而在特征提取的過程中,我們采用了兩種特征描述子來提取圖片的特征信息以作后續(xù)分類結果的對比。而這兩個特征我們采取了尺度不變特征轉換(SIFT)特征以及方向梯度直方圖(HOG)特征。對全文的精細圖像分類

15、起到基礎作用。2、使用中層特征在文章的第三章中,我們介紹了將第二章中所提取的特征進一步處理以達到我們的精細圖像分類要求。在這一章中,我們介紹了我們在實驗過程中所用到過的詞包(BoW,Bag of Word),高效匹配核函數(EMK,Efficient Match Kernel)以及空間金字塔(SP,Spatial Pyramid)。對比了相互之間的關系以及差別,對全文的精細圖像分類起到很重要的作用。3、分類器介紹在文章的第四章中,我們介紹了本實驗的最后一步匹配環(huán)節(jié),在這一環(huán)節(jié)中,我們使用了支持向量機(SVM,Support Vector Machine)以及隨機森林(RF,Random For

16、est)這兩種方法。在第四章中,我們重點介紹了每種分類器的特點、結構以及優(yōu)缺點。4、實驗環(huán)節(jié)在文章的第五章中,我們介紹了整個文章的實驗環(huán)節(jié)。首先介紹了我們實驗中所使用的數據庫,之后介紹了實驗結果以及實驗結果分析。第2章 底層特征文章中對于底層特征的描述,我們采用了局部描述子SIFT特征以及HOG特征,對于這兩種基本特征的詳細描述如下。2.1 SIFT算法介紹尺度不變特征轉換(Scale-invariant feature transform或SIFT)是David Lowe在1999年提出的一種局部特征描述子算法,并且在2004年進行了更深入的發(fā)展和完善。SIFT算法是一種

17、電腦視覺的算法,它可以用來檢測與描述圖像中的局部性特征。該算法通過求一幅圖片中的特征點(interest points,or corner points),包括這些特征點的尺度(scale)以及方向(orientation)的描述子來得到特征描述子,并進行圖像特征點匹配,這種方法獲得了良好效果。SIFT特征不僅僅具有尺度不變性,即使改變其圖像亮度、旋轉角度或拍攝視角,仍然能夠得到好的檢測效果。而且對視角變化、噪聲也能夠保持一定的穩(wěn)定性。整個SIFT算法分為以下幾個部分:1、 尺度空間的極值檢測:第一階段的計算搜索了所有的尺度和圖片位置信息。通過使用差分高斯(difference-of-Gaus

18、sian或DoG)函數來有效的區(qū)分具有潛在的尺度以及方向不變的興趣點;2、 關鍵點定位:在每一個可能的位置,找出具有決定性的位置和尺度所匹配的詳細模型,然后基于它們的穩(wěn)定性來選擇關鍵點;3、 分配方向:基于局部圖像的梯度方向,每一個關鍵點位置都被分配了一個活多個方向。對于圖像數據都會轉換成相應的特征點,而每個特征點都會分配尺度、方向以及位置信息,這些是以后我們圖像分類操作的基礎,因此,我們應提供這些轉換過程一個不變性;4、 關鍵點描述子:局部圖像的梯度是由我們所選擇的在每個關鍵點周圍區(qū)域的尺度得出來的,這些使得在光照改變以及發(fā)生局部形變時這些特征點仍具有代表性。2.1.1SIFT算法的具體步驟

19、: 1、 構建尺度空間首先,要構建一個尺度空間,這是一個初始化的操作,該尺度空間理論的目的在于模擬圖像數據的多尺度特征。Koenderink (1984) and Lindeberg (1994)已經證明,在各種合理的假設下,高斯函數是唯一可能的尺度空間函數。由于高斯卷積核是實現尺度變換的唯一線性核,因此,我們可以將一副圖像的尺度空間定義為: (2-1)其中,*代表卷積運算,是尺度可變高斯函數, 在公式(2-1)中(x,y)是空間坐標,同時也是尺度坐標。值的大小決定圖像的平滑程度,大尺度對應圖像的概貌特征,小尺度則對應圖像的細節(jié)特征。大的值對應粗糙尺度(低分辨率),反之,則對應精細尺度(高分辨

20、率)。不同所對應的尺度空間如下圖:圖2-1 不同所對應的尺度空間為了能夠有效的在尺度空間檢測穩(wěn)定的關鍵點坐標,Lowe于1999年提出了使用高斯差分尺度空間(DOG scale-space)來計算尺度空間的極值。它是利用不同尺度的高斯差分核函數來卷積圖像I生成??梢杂蓛蓚€被一常量因子所分開的相鄰尺度間的差別來計算。即(2-2)對于選擇這個函數的方法有很多種。首先,這個函數要是一個能計算出來的有效函數,例如給出一副平滑圖像,我們需要在任意尺度空間特征描述子情況下都能計算出L,而D能由簡單的圖像差分來計算。除此之外,由Lindeberg (1994).的研究我們可以得到,高斯差分函數可以近似的看做

21、一種高斯函數的拉普拉斯標準尺度變換,。Lindeberg研究表明,帶有因子的拉普拉斯變換的標準化需要尺度不變性。在詳細的實驗對比中,Mikolajczyk (2002)發(fā)現,的最大值和最小值相比于其它的如梯度或者Harris角函數這些可能的圖片函數所得到的圖片特征更加穩(wěn)定。和之間的關系就參數而言可以從熱擴散方程方面理解。即(2-3)從公式(2-3)可以看到,可以由有限差分逼近來計算,這就利用了在以及這兩個相鄰出度空間的的不同處,即(2-4)因此有:(2-5)公式2-5表明,當差分高斯函數具有尺度而不同于一個常量時,它就已經包含了標準化所需的拉普拉斯尺度不變性。方程中的在所有的尺度中都是一個常數

22、,因此不會影響到極值的定位。近似誤差也會由0到1,但是在實際實驗中,近似誤差對極值檢測的穩(wěn)定性或在尺度中顯著差異的定位幾乎沒有影響。在SIFT算法過程中,一般要建立圖像金字塔:如何建立圖像金字塔如下:對于一幅圖像I,需要建立其在不同尺度(scale)的圖像,也稱為塔或子八度(octave),這是為了圖像能夠具有尺度不變性(scale-invariant),也就是在任何尺度都能有對應的特征點,第一層子八度的尺度為原圖大小,后面的每一層子八度都為其上一層子八度降采樣的結果,即為原圖的1/4(長寬分別減半),構成了下一個子八度(高一層的金字塔)。例如1塔的第0層可以由0塔的第3層down sampl

23、e得到,然后進行與0塔類似的高斯卷積操作。如何建立一個有效的可以由圖2-2得到:圖2-2:圖像的左側表示對于每一個尺度空間的子八度,初始化后的圖片就會由高斯函數不停的卷積以生成圖像尺度空間的集合。圖的右側表示,相鄰的高斯圖像依次相減以生成差分高斯圖像。在每一個八度后,高斯圖像進行降采樣。之后過程重復。首先,最初的圖像逐漸由高斯函數進行卷積,生成被常數在尺度空間內分割的圖像,即圖2-2的左邊部分。我們選擇將尺度空間中的每一個子八度分成s層,所以就有,而對于每一個子八度中的大量模糊圖片,我們必須生成幅圖片,這樣最后的極值檢測才能覆蓋整個的子八度。相鄰的圖像尺度相減后得到圖2-2中右面的差分高斯圖像

24、。在完成該尺度空間的處理后,我們就會以重新采樣高斯圖像。關于的采樣準確率和之前子八度的采樣準確率是沒有差別的。但是計算卻簡單了很多。一般來說,我們由圖片的大小來決定建幾個子八度,每層子八度幾層圖像(S一般為3-5層)。0層子八度的第0層是原始圖像(或是我們取雙精度(double)后的圖像),往上每一層是對其下一層進行差分高斯卷積變換(其中值是越來越大的,例如可以是, , 等等),從直觀上看,越往上圖片就越模糊。2、 局部極值點檢測為了檢測局部的極大值與極小值,每一個樣本點都要和它周圍所有的相鄰點比較,看其是否比它的圖像域和尺度域的相鄰點的大或者小。即每個樣本點都要和它周圍同尺度的八個點以及上下

25、相鄰兩層的個點,共26個點進行比較,以確保在尺度空間和二維圖像空間都檢測到極值點。 一個點如果在DOG尺度空間本層以及上下兩層的26個領域中是最大或最小值時,就認為該點是圖像在該尺度下的一個特征點,如圖所示。圖2-3:差分高斯圖像的極大值與極小值的檢測,是通過比較一個像素點在的區(qū)域內與其相鄰的26個相鄰像素點的比較得來的在極值比較的過程中,同一組中的相鄰尺度(由于k的取值關系)肯定是上下層之間進行尋找,每一組圖像的首末兩層是無法進行極值比較的,為了滿足尺度變化的連續(xù)性,我們在每一組圖像的頂層繼續(xù)用高斯模糊生成了3幅圖像,高斯金字塔有每組S+3層圖像。DOG金字塔每組有S+2層圖像。3、 關鍵點

26、定位一個可能的關鍵點已經經由對比像素周圍的值得到,第二步就是要形成一個詳細的適合位置、尺度和主曲率的數據。這就允許我們放棄一些具有低對比度(對噪聲比較敏感)的點,或者在圖像邊緣的邊緣響應點。這種方法的初步實現僅僅是定位在某一位置、尺度的中央采樣點處確定關鍵點。然而,最近Brown提出了一個新的方法來確定關鍵點。它通過擬和三維的二次函數到局部采樣點,以檢測最大值的曲線位置。實驗證明,這個方法對圖像的匹配和穩(wěn)定性具有實質性的改進。(1)去除低對比度的點這個方法使用了尺度空間函數泰勒展開式(展開到二次項),所以在采樣點處,公式(2-2)可以轉換成:(2-6)其中D和它的一維及二維導數在采樣點處均可求

27、,是采樣點處的補償。將公式(2-6)對x求導,并令導數為0,得到的即可得到精確位置,即:(2-7)正如Brown 提出的那樣,Hessian 和D的導數在通過使用不同的相鄰的采樣點是近似的。的線性系統(tǒng)可以以最小的消耗來得到解決。如果在任一維度的值大于0.5,這就說明極值點考進來一個不同的采樣點,這種情況下,采樣點就會由插入的采樣點代替。最后的代入采樣點的位置以獲得插值的極值點。將公式(2-7)代入公式(2-6)中即可得到極值,它可以有效的去除低對比度的關鍵點和不穩(wěn)定的點。為:(2-8)若,該特征點就保留下來,否則就舍去。(2) 去除邊緣響應點為了特征點的穩(wěn)定,光去除低對比度的點是不夠的,邊緣點

28、對于高斯差分函數有強烈的影響。因為邊緣響應點是不容易確定的,因此,即使一點點的噪聲也會對邊緣點殘生很大的干擾。一個定義不好的高斯差分函數的極值在橫跨邊緣的地方有較大的主曲率,而在垂直邊緣的方向有較小的主曲率。主曲率可以通過一個的Hessian矩陣H求出:(2-9)D的主曲率和H的特征值成正比,借用Harris and Stephens (1988)的方法,我們可以避免明確的結算特征值,因為我們只需要考慮它們的比例問題。令為較大特征值,為較小的特征值,我們可以從H以及行列式中計算出特征值的和: (2-10)(2-11)令r為最大特征值與最小特征值之間的比率,即令,有;(2-12)由此可見,這個公

29、式僅取決于特征最大值與最小值的比例r,的值在兩個特征值相等的時候最小,隨著r的增大而增大,因此,為了檢測主曲率是否在某域值r下,只需檢測(2-13)如果則舍掉,對于本文章來說,我們通常按Lowe文章中的經驗值取。4、 方向分配上一步中我們確定了每幅圖中的特征點,接下來要為每個特征點計算一個方向,對于每一個基于局部圖像特性的關鍵點分配一個一直的方向,則關鍵點描述子就會由它的方向表示,這個方法和Schmid andMohr (1997)的方向不變描述子具有相似性。在這里,每一幅圖片的特性都是由旋轉不變性測量來的。關鍵點的尺度用來尋找高斯平滑圖像L,依照這個方向做進一步的計算,對每一幅圖像在某一尺度

30、進行采樣得,梯度幅值為和方向。利用關鍵點鄰域像素的梯度方向分布特性為每個關鍵點指定方向參數,使算子具備旋轉不變性。(2-14)公式(2-14)為(x,y)處梯度的模值和方向公式。其中L所用的尺度為每個關鍵點各自所在的尺度。至此,圖像的關鍵點已經檢測完畢,每個關鍵點有三個信息:位置,所處尺度、方向,由此可以確定一個SIFT特征區(qū)域。由關鍵點區(qū)域內的梯度方向的采樣點可以形成梯度直方圖。梯度直方圖的范圍是0360度,其中每10度一個柱,總共36個柱。隨著距離中心點越遠的領域其對直方圖的貢獻也響應減小.在實際計算時,我們在以關鍵點為中心的鄰域窗口內采樣,并用直方圖統(tǒng)計鄰域像素的梯度方向。梯度直方圖的范

31、圍是0360度,其中每45度一個柱,總共8個柱, 或者每10度一個柱,總共36個柱。直方圖的峰值則代表了該關鍵點處鄰域梯度的主方向,即作為該關鍵點的方向。圖2-4直方圖中的峰值就是主方向,其它的達到最大值80%的方向可作為輔助方向圖2-5由梯度方向直方圖確定主梯度方向圖2-6通過對關鍵點周圍圖像區(qū)域分塊,計算塊內梯度直方圖,生成具有獨特性的向量,這個向量是該區(qū)域圖像信息的一種抽象,具有唯一性。5、 局部圖像描述子首先將坐標軸旋轉為關鍵點的方向,以確保旋轉不變性。以關鍵點為中心取8×8的窗口。圖2-7:16*16的圖中其中1/4的特征點梯度方向及scale,右圖為其加權到8個主方向后的

32、效果。圖中的左部分的中央為當前關鍵點的位置,每個小格代表關鍵點鄰域所在尺度空間的一個像素,利用公式求得每個像素的梯度幅值與梯度方向,箭頭方向代表該像素的梯度方向,箭頭長度代表梯度模值,然后用高斯窗口對其進行加權運算。圖中藍色的圈代表高斯加權的范圍(越靠近關鍵點的像素梯度方向信息貢獻越大)。然后在每4×4的小塊上計算8個方向的梯度方向直方圖,繪制每個梯度方向的累加值,即可形成一個種子點,如圖右部分示。此圖中一個關鍵點由2×2共4個種子點組成,每個種子點有8個方向向量信息。這種鄰域方向性信息聯合的思想增強了算法抗噪聲的效能,同時對于含有定位誤差的特征匹配也提供了較好的容錯性。計

33、算關鍵點周圍的16*16的窗口中每一個像素的梯度,而且使用高斯下降函數降低遠離中心的權重。圖2-8:在每個4*4的1/16象限中,通過加權梯度值加到直方圖8個方向區(qū)間中的一個,計算出一個梯度方向直方圖。這樣每個特征就可以形成一個維的描述子,每一維都可以表示個格子中一個的尺度或方向。將這個向量歸一化之后,就進一步去除了光照的影響。最后經過SIFT運算后得到的圖像特征點如圖所示: 圖2-9 狗和鳥類的特征點提取2.1.2 SIFT算法的特點:SIFT特征作為局部特征,它是基于物體上的一些局部外觀的興趣點形成的,與影像的大小和旋轉無關。對于光線、噪聲、些微視角改變的容忍度也相當高。它的信息量大,適合

34、在大亮點數據庫中做快速準確匹配。SIFT算法的優(yōu)缺點:1. SIFT特征是圖像的局部特征,其對旋轉、尺度縮放、亮度變化保持不變性,對視角變化、仿射變換、噪聲也保持一定程度的穩(wěn)定性;2. 獨特性(Distinctiveness)好,信息量豐富,適用于在海量特征數據庫中進行快速、準確的匹配;3. 多量性,即使少數的幾個物體也可以產生大量的SIFT特征向量;4. 高速性,經優(yōu)化的SIFT匹配算法甚至可以達到實時的要求;5. 可擴展性,可以很方便的與其它形式的特征向量進行聯合;6、缺點是SIFT特征為128維,維數高、且是不完全的仿射不變。2.2 HO

35、G特征 方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征是一種在計算機視覺和圖像處理中用來進行物體檢測的特征描述子。它通過計算和統(tǒng)計圖像局部區(qū)域的梯度方向直方圖來構成特征。 HOG特征是一種局部區(qū)域描述符,它通過計算局部區(qū)域上的梯度方向直方圖來構成人體特征,能夠很好地描述人體的邊緣。而且它對光照變化和小量的偏移不敏感。2.2.1 36維HOG特征提取算法的實現HOG特征提取步驟如下:(1)顏色空間灰度化 在HOG算法中由于顏色信息的作用不大,所以我們通常將所要檢測的圖像先轉化為灰度圖像(即將要檢測的圖像看作一個灰度的三維圖像)在進行HOG特

36、征提取。(2)標準化gamma空間為了減少光照因素的影響,首先需要將整個圖像進行規(guī)范化(歸一化)。在圖像的紋理強度中,局部的表層曝光貢獻的比重較大,所以,這種壓縮處理能夠有效地降低圖像局部的陰影和光照變化。在文中采用Gamma校正法對輸入圖像進行顏色空間的標準化(歸一化);目的是調節(jié)圖像的對比度,降低圖像局部的陰影和光照變化所造成的影響,同時可以抑制噪音的干擾;壓縮圖像的方法是將院圖像進行(gamma)冪指數處理。即Gamma壓縮公式為:(2-15)一般可以取Gamma=1/2。(3)梯度計算檢測器的性能對梯度的計算方法是非常敏感的,但是最簡單的方法被證明也是最好的方法。我們在一個離散導數后使

37、用高斯平滑計算圖像橫坐標和縱坐標方向的梯度,并據此計算每個像素位置的梯度方向值。求導操作不僅能夠捕獲圖像的輪廓,人影和一些紋理信息,還能進一步減弱光照對此的影響。在一幅圖像中像素點(x,y)的水平以及垂直梯度為:(2-16)式中分別表示輸入圖像中像素點處的水平方向梯度、垂直方向梯度和像素值。像素點處的梯度幅值和梯度方向分別為:(2-17)一般來說,最常用的求梯度的方法是:首先用-1,0,1梯度算子對原圖像做卷積運算,得到x軸方向(水平方向,以向右為正方向)的梯度分量的梯度,然后用1,0,-1T梯度算子對原圖像做卷積運算,得到y(tǒng)軸方向(豎直方向,以向上為正方向)的梯度分量的梯度y。然后再利用公式

38、(2-17)計算該像素點的梯度大小和方向。(4)為每個細胞單元構建梯度方向直方圖我們將圖像分成若干個“單元格(cell)”,例如一個單元格為6*6個像素。假設我們采用9個通道的直方圖來統(tǒng)計這6*6個像素的梯度信息。那么也就是將單元格的梯度方向360度分成9個方向塊。起初令方向塊的每一個的值都為0,當單元格內的像素的梯度方向在某一方向塊內,則這一方塊的值加1。例如,如果這個像素的梯度方向是20-40度,符合直方圖的第二個方向塊,則直方圖的第2個方向塊內的計數就加一。這樣,對單元格內每個像素用梯度方向在直方圖中進行加權投影(映射到固定的角度范圍),就可以得到這個單元格的梯度方向直方圖了,就是該單元

39、格對應的9維特征向量(因為有9個方向塊)。如圖所示:圖2-10將360度分成9個方向塊        梯度大小就是作為投影的權值的。例如:某一像素的梯度方向是20-40度,假設它的梯度大小是2,那么直方圖第2個方向塊的計數就是加2。(5)合并細胞單元,歸一化梯度直方圖由于局部光照的變化以及前景-背景對比度的變化,使得梯度強度的變化范圍非常大。這就需要對梯度強度做歸一化。歸一化能夠進一步地對光照、陰影和邊緣進行壓縮。我們所采取的辦法是:將各個細胞單元組合成一個大的、空間上連通的區(qū)域塊(blocks)。在我們的實驗中,

40、一般采用Dalal提出的Hog特征提取,也就是每相鄰的4個細胞單元構成一個區(qū)域塊(block)。通常情況下,我們所使用HOG特征中一般都采用9個方向塊,即每個細胞單元有9個特征。所以每個區(qū)域塊內就有個特征向量。這樣由于每個細胞單元這樣,一個塊內所有單元格的特征向量串聯起來便能得到這個塊內的HOG特征。但是這些區(qū)域塊有些是相互重疊的,這也就意味著:每一個單元格的特征會以不同的結果,重復出現在最后的特征向量中。我們將歸一化之后的塊描述子(向量)就稱之為HOG描述子。(6)合并HOG特征將各個區(qū)域塊中的特征描述子串聯起來就可以得到該圖像的HOG特征描述子,即最后的HOG特征向量。例如一副64*128

41、維的圖像,以8個像素點為步長,那么在該圖像的水平方向將會有8個掃描窗口,垂直方向將會有16個掃描窗口,則該圖像所能得到的HOG特征向量為8*16*36,共有8*16*36=4608個特征。圖像36維HOG特征示意圖如下: 圖2-11 狗和鳥的36維HOG特征2.2.2 HOG特征的降維在本實驗中,我們采用的是31維的HOG特征。這一特征是從大量各種分辨率的圖片中收集了很多36維的HOG特征,并在這些特征向量上進行主成分分析(PCA)分析得來的。圖2-12展示了分析出的主成分,從中我們發(fā)現了很多有趣的現象。圖2-12HOG特征的PCA分析。由圖2-12可以看到,每個特征向量(eigenvecto

42、r)都顯示為的矩陣,所以每一特征向量的一行對應一個歸一化因子,每一列對應一個方向塊。每個特征向量所對應的特征值在特征向量上方。由前11個主特征向量所定義的線性子空間基本上包含了HOG特征的所有信息。注意到,所有主特征向量沿著其矩陣表達的行或列是定值。由前11個主特征向量(eigenvector)所定義的線性子空間基本上間包含了HOG特征的所有信息 。實際上,我們用起初的36維特征以及向主特征向量投影所得到的11維特征在目標分類上所得到的結果都差不多。而且使用低維特征可以產生參數較少的模型,并且能夠加速學習和檢測算法。但是由于在計算特征金字塔的時候需要相對比較耗時的投影步驟,這就減少了獲得的加速

43、優(yōu)勢。36維的HOG特征向量是來自4個不同的歸一化的9維方向直方圖,所以36維的HOG特征向量也可以很自然地看做一個的矩陣。而在圖2-12中的主特征向量中,有一個非常特殊的結構:它們沿其矩陣表達的行或列(近似)是定值。所以主特征向量所依賴的線性子空間可由沿其矩陣表達的某一行或列為定值的稀疏向量定義。令,其中和都是36維向量,其的矩陣表達式滿足下列條件:(2-18)(2-19),例如,定義一個13維向量,其中的元素是36維HOG特征與每個和的點積。HOG特征向每個的投影并通過計算對應方向的4個歸一化值的和(即矩陣表達的某列的和)來獲得,HOG特征向每個的投影通過計算對應歸一化方法的9個方向值的和

44、(即矩陣表達的某行的和)來獲得。(注:13維特征并不是36維特征向量V的線性投影,因為和不是正交的。事實上,由V定義的線性子空間的維數是12)使用11維PCA特征和使用36維HOG特征或由V定義的13維特征進行圖像分類可以獲得同樣的性能表現。然而,由于和是稀疏向量 ,所以計算由V定義的13維特征比計算向PCA主特征向量的投影要簡單的多。此外,13維特征有還可以看做是9個方向特征和反應單元格周圍區(qū)域的梯度能量的4個特征。我們也可以定義對比度敏感的低維特征。我們發(fā)現有些目標類別適合使用對比度敏感特征,有些目標類別又適合用對比度不敏感特征。所以在實際中我們既使用對比度敏感特征又使用對比度不敏感特征。

45、設C是聚合有9個對比度不敏感方向的像素級特征映射而獲得的基于單元格的特征映射,D是聚合有18個對比度敏感方向的像素級特征而獲得的基于單元格的特征映射。定義C和D的4種歸一化因子??梢垣@得一個4*(9+18)=108維的特征向量F(i,j)。實際中我們使用的是此108維向量的一個解析投影,此投影由下面幾個統(tǒng)計量定義:27個在不同歸一化因子上的累加和(即列的和),F中的每個方向通道對應一個;以及4個在不同方向(9維對比度不敏感方向)上的累加和(即行的和),每個歸一化因子對應一個。最終的特征映射是31維向量 G(i,j),其中27維對應不同的方向通道(9個對比度不敏感方向和18個對比度敏感方向),其

46、中4維捕獲(i,j)周圍4個單元格組成的block的梯度能量。形成31維特征向量的解釋圖如圖:圖2-13 31維特征向量解釋圖下圖為利用31維HOG特征所提取的狗和鳥的圖像特征示意圖: 圖2-14 狗和鳥的31維HOG特征2.2.3 HOG特征優(yōu)缺點:與其它的特征描述方法相比,HOG有很多優(yōu)點。1、 HOG表示的是邊緣梯度的結構特征,因此可以用來描述局部形狀信息;2、 HOG特征在位置和方向空間的量化,在一定程度上可以抑制圖像旋轉和平移所帶來的影響;3、 HOG特征將局部區(qū)域也歸一化成直方圖,這樣可以減弱光照變化所帶來的影響;4、 由于在HOG特征中可以忽略光照對圖像的影響,使得圖像所需要表示

47、特征的數據位數降低;5、 由于HOG特征有將數據進行分塊和分單元格的處理方式,使得圖像的局部像素點之間的關系得到很好的表達。HOG的缺點:1、 HOG的特征描述子生成過程比較長,這樣就使得提取特征的速度較慢,實時性差;2、 HOG特征很難處理遮擋的圖像;3、 由于梯度自身的性質,HOG特征對噪聲比較敏感。2.3 小結HOG及SIFT算法都是局部特征,其中Hog沒有旋轉和尺度不變性,因此計算量?。欢鳶IFT中每個特征需要用128維的向量來描述,因此計算量相對很大。對于兩種不同的底層特征,各有其自身優(yōu)勢。所以我們選用這兩個特征作為本實驗的底層特征。3、 中層特征目前,基于局部特征的模型在視覺目標分

48、類中都取得了較好的結果。而中層特征就是利用這些原始的圖像的特征向量將其進行整理,以使原始圖像的局部特征向量更具有代表性,能更好的實現目標分類。在這一章中,我們重點介紹了我們所使用的中層特征有:詞包(BoW)模型以及高效匹配核函數(EMK)模型。具體介紹見下文。3.1 BoW(Bag of Word)模型BoW模型的全稱為Bag of Words,早先是為了處理文本數據而在文本處理領域提出的一種簡單有效的分類方法。由于其簡單易行的原理,圖像分類領域中也開始使用這種分類模型。本節(jié)我們將對BoW這一經典模型的概念以及具體實現進行詳細的闡述。由于圖像可以類比為文檔(document), 圖像中的單詞(

49、words)可以定義為一個圖像塊(image patch)的特征向量. 那么圖像的BoW模型即是 “圖像中所有圖像塊的特征向量得到的直方圖”。將圖像表達為BoW模型的類似于圖像3-1:圖3-1 對于圖像的BoW模型表示示意圖BoW的關鍵之處在于將局部特征描述子映射到一個新的特征空間空間中去,而這個特征空間的基礎就是視覺單詞所組成的向量。在新的映射空間中,一副圖片中的局部特征向量被轉換成了一組新的向量。而在做圖像匹配時,可以由歐幾里德距離等來計算。BoW模型在圖像分類中的具體實現的流程示意圖如圖:圖3-2:BoW模型在圖像分類中的具體實現的流程示意圖建立BoW模型主要分為如下幾個步驟:1. 特征

50、提取假設共有N張圖像, 第i張圖像圖像由n(i)個圖像塊組成, 即可以用n(i)個特征向量來表達這張圖像。則所有圖像的的特征向量的總和就是BoW的單詞。特征向量可以根據特征問題自行設計, 常用特征有Color histogram, SIFT, LBP等.在第二章中,我們已經講述了我們所用來提取特征的算法為SIFT特征算法以及HOG特征算法。這里不再敘述。2. 生成字典/碼本(codebook)在提取完圖像的特征向量后,我們接下來的任務就是要將這些特征向量轉換成能夠表示為圖像的“關鍵詞”,并將全部關鍵詞結合起來完成碼本的構建。為了能夠得到碼本,我們將第一步中所得到的特征向量進行聚類。在文章中,我

51、們使用的聚類方法是K-means聚類方法。K-means聚類算法是最簡單的一種聚類算法。由于簡潔和效率,K-means聚類算法成為人們最廣泛使用的聚類算法。它在一個給定數據點集合和需要的聚類中心數目k(k由用戶指定)的情況下,根據某一個距離函數,反復的把數據分入到k個聚類中心中去。K-means聚類算法的一般步驟是:(1)在給定對象集合的情況下,隨機選取k個值作為起始的聚類中心。注:這個過程大多數情況都是采用隨機選取的辦法,或者針對不同的聚類情況選取特定的聚類中心;(2)計算每個聚類對象到各個聚類中心的距離,將每一個對象歸類到離它最近的那個聚類中心。聚類中心及所分配給它的對象就表示一個聚類;(

52、3)當對象集合中的所有對象都被分配給某一個聚類中心時,每個聚類的聚類中心就會根據它所被分配的對象被重新計算;(4)由于K-means聚類的結果過度依賴于初值的選取。我們不能保證在每一次的聚類中都會取得收斂到全局的最優(yōu)解的。因此是用新的聚類中心,重復第二步,一直到迭代到聚類中心基本不在變化為止。3. 根據碼本生成直方圖將K-means聚類中每個聚類中心及被分配給該聚類中心的對象轉化成直方圖,這樣就可以得到該圖片對應于該碼本的BoW表示。聚類過程的示意圖如下:圖3-3:聚類過程示意圖3.2 EMK(Efficient match kernel)高效匹配核函數(EMK)方法是一種特殊的核函數方法,所

53、以在介紹EMK之前,我們要先知道什么是核函數方法,核函數方法可以用來解決不同維數集合的匹配問題。它可以用來解決在將低維線性不可分空間通過非線性映射到高維特征空間中實現線性可分的時候所帶來的在高維空間中位數過高問題的一種方法。核函數方法使得高維空間的特征位數減少,大大的減少了計算量。它是除了BoW之外另一種計算局部無序特征相似性的方法。核函數方法可以和不同的算法相結合,形成多種不同的基于核函數技術的方法。而論文6也證明了BoW也可以看做是一個特殊視覺核函數。通常情況下,核函數方法都需要明確的求出所有核函數的矩陣,因此它們需要的空間以及時間復雜度是圖片數量的二次方。而高效匹配核函數(EMK)這一結

54、合了BoW和核函數集合的方法就被提了出來。我們將圖像的局部特征映射到低維度的特征空間中去并且通過平均這個結果特征向量構建一個特征層集合。所以EMK不需要計算全部的核函數矩陣,這就使得在有大量的圖片進行處理時,它的時間以及空間復雜度都是線性的。3.2.1 核函數框架目前,基于局部特征的模型方法在許多視覺目標識別實驗中都取得了很好的結果。對于一幅圖片,它可以由其塊中所提取的局部特征集合來表示。由于不同圖像所提取的局部特征集合不一定相同,因此在匹配過程中,如何將這寫局部特征集合所有的技術不同的圖片進行匹配就成了一個需要重點決定的問題。核函數方法是就用來解決不同維數集合圖像的匹配問題的。對于具有不同模

55、的圖像集合X和集合Y,我們可以使用公式(3-1)來進行集合的匹配過程:(3-1)基于數學中的封閉屬性,我們可以確定只要是正定的,則就是一個正定的核函數。為了方便起見,我們將看做是一個局部核函數,我們可以看到這個核函數在計算的過程中,需要計算所有的匹配函數的和,也就是說,對于一個由向量定義的單獨的核函數的來說,它的計算復雜度是而不是O(1)這就使得這個核分別花費和度來存儲和計算所有的核函數矩陣。其中n為訓練集中的圖像數目,d是描述子的維數,m是所有集合的平均基數。對于圖片分類來說,m可以是成千上萬個單元,因此,它的計算花費能夠以n的四次方的形式快速增長。核函數方法除了在訓練時需要花費很高的代價外

56、,它在測試方面所花費的代價也是非常高的。對于一些稀疏的核函數分類方法,它在各個方面所花費的代價在一定程度上能夠得到降低,但是由于稀疏的層數往往都會隨著n線性增長,所以還是不會改變其其復雜度。3.2.2 用核函數的方法重新審視BoW在監(jiān)督類圖像分類中,我們給出了圖片的訓練集合以及這些圖片所對應的標簽。我們的目的就是為了訓練一個分類器,使得我們能夠標注出那些看不到的圖像。我們就采用了特征包的方法。令,分別為圖片、的局部特征集合。為詞表,即視覺單詞的集合,其中為詞表大小。是基于詞典的的編碼系數向量。在BoW中,每一個特征向量都被量化到D維的二進制向量中去,在通常情況下采用硬性分配,令,則有當時的值即

57、為1,否則為0。即如下公式:(3-2) 由公式(3-2)我們可以知道,很明顯是一個正定函數。而且會被分配到此表中與其最近的詞匯。在稀疏編碼中,匹配的整個過程都是與公式(3-2)相似,除了它不僅僅是屬于稀疏編碼中的一個基礎,也就是說在中,不僅僅只有一個元素是非零的。對于圖片的直方圖,我們可以將其看成在公式(3-2)中,稀疏編碼中的對于的一種合并求和的方法。即為:(3-3)在實際的許多應用中,一幅圖片的表示并不是我們所要求的最終結果,而是為了得到在圖像匹配的過程中所需要圖片之間的相似性。為了比較圖片之間的相似性,我們一般會采用計算直方圖之間距離的方法。假設圖片以及它們的直方圖,一般來說,最常見的匹配方法就是計算的直方圖之間的歐幾里德距離。那么和之間的距離表示如下:(3-4)在公式(3-4)中,如果我們采用內積的方法來代替歐幾里德距離,則公式(3-4)會轉化為如下形式:(3-5)也可以將公式(3-5)寫成(3-6)其中,并且。這就將BoW看成核函數方法的過程。3.2.3 EMK的實現過程在核函數方法的實際應用當中,我們在3.2.1節(jié)中已經知道,公式(3-1)對于核函數矩陣的計算復雜度是,其中n是訓練集中圖片的張數,d是描述子的維數,m是所有集合的平均基數。它的昂貴的計算代價阻礙了核函數方法在一些大數據集中的應用。由于受到公式(3-6)的啟發(fā),如果在公式(3-1)中我們使,那么公式(3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論