用于圖像場景分類的空間視覺詞袋模型

上傳人：門*** IP屬地：江西上傳時間：2022-01-28 格式：DOC 頁數(shù)：4 大?。?.06MB 積分：12 舉報 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第卷第期年月計(jì) 算機(jī) 科學(xué) 用于圖像場景分類的空間視覺詞袋模型王宇新郭（大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院禾何昌欽馮振，賈棋大連）（大連理工大學(xué)軟件學(xué)院大連）摘要以傳統(tǒng)的詞袋模型為基礎(chǔ)，根據(jù)同類場景圖像具有空間相似性的特點(diǎn)，提出了一種用于圖像場景分類的空視覺詞袋模型。首先將圖像進(jìn)行不同等級的空間劃分，針對對應(yīng)空間子區(qū)域進(jìn)行特征提取和均值聚類，形成該區(qū) 的視覺關(guān)鍵詞，進(jìn)而構(gòu)建整個訓(xùn)練圖像集的空間視覺詞典。進(jìn)行場景識別時，將所有空間子區(qū)域的視覺關(guān)鍵詞連接一個全局特征向量進(jìn)行相似度計(jì)算。最終的場景分類結(jié)果使用濾波器和兩種特征在支持向量機(jī) 上獲得。關(guān)鍵詞場景分類，詞袋，

2、空間聚類，空間視覺詞典，支持向量機(jī)中圖法分類號文獻(xiàn)標(biāo)識碼，（，，）（，，），：“” ，人類視覺感知的一個顯著特點(diǎn)是能夠很快掌握一圖像所表達(dá)的含義。通過實(shí)驗(yàn)證明，僅僅組快速的圖像流，觀察者也能識別出每一幅圖像的語和一些圖像中的對象及其屬性。這種通過快速引言隨著數(shù)碼設(shè) 備的普及和信息存儲與傳輸技術(shù)的快速發(fā) 展，圖像數(shù)據(jù)發(fā)生爆炸性增長。如何用計(jì)算機(jī)對大量且不斷增加的圖像進(jìn)行分析和理解，成為一項(xiàng)越來越緊迫的任務(wù)。因此基于內(nèi)容的檢索技術(shù)已成為國內(nèi)外研究的熱點(diǎn)，并成為世紀(jì)初必須攻克的關(guān)鍵技術(shù)之一。本文將重點(diǎn)關(guān)注圖像場景識別和分類問題。傳統(tǒng)的

3、場景分類方法通常使用色彩、紋理和形狀等圖像底層視覺特征直接與監(jiān)督學(xué)習(xí)方法相結(jié)合進(jìn)行圖像場景分類；或者對場景中的目標(biāo)進(jìn)行有效的分析，以完成場景的整體識別，具有代表性的如王濤、胡事民和孫家廣院士提出的基于顏色空間特征的圖像檢索方法；或者采用文本主題模型的方法將圖像分類到不同的語義類別中：將圖像的局部不變特征聚類為一組視覺詞匯，并用詞袋（）模型來表示，最后用（）或（）等主題分析模型找出圖像的潛在語義和最可能屬于的主題，從而完成場景分類。）觀察圖像所獲得的視覺和語義信息稱為圖。在拍攝照片時，攝影師總是盡可能把能反映圖或者語義的對象和特征顯示在圖像中心。這一拍攝

4、習(xí) 大多數(shù)針對同類目標(biāo)的圖像都有相同的拍攝角度，即像具有空間相似度。例如，許多城市的圖像是這樣一種高樓下面連接著人行橫道，而頂上是藍(lán)天；高速公路是大的平面向水平線方向延伸，期間充滿了一些凹凸。這果我們把圖像劃分為一些空間子區(qū)域，對應(yīng)的子區(qū)域該有相似的特征，如圖所示。上述主題分析模型是根據(jù)圖像中視覺詞匯出現(xiàn)的況進(jìn)行分類的，既沒有考慮視覺詞匯在空間的分布特點(diǎn)有利用圖像中區(qū)域語義構(gòu)成的上下文信息，而這些是被忽視的。空間金字塔模型的提出更是給了研究者的啟示。本文提出了一種用于圖像場景識別的空間視到稿日期：返修日期：王宇新（），男，博士生，講師，會員，主要研究方向?yàn)閳D像處理、計(jì)算機(jī)系

5、統(tǒng)結(jié)構(gòu)，：；郭禾（）授，博士生導(dǎo)師，高級會員，主要研究方向?yàn)橛?jì)算機(jī)系統(tǒng)結(jié)構(gòu)、計(jì)算機(jī)視覺；何昌欽（），男，碩士生，主要研究方向?yàn)閳D像識別；（），男，博士生，主要研究方向?yàn)榛趦?nèi)容的圖像檢索；賈棋（），女，博士生，講師，主要研究方向?yàn)橛?jì)算機(jī)視覺、人工神經(jīng)網(wǎng)提取并聚類，以形成該區(qū)域的視覺關(guān)鍵字，進(jìn)而構(gòu)建整個訓(xùn)練圖像集的空間視覺詞典。進(jìn)行場景識別時，把所有空間子區(qū) 域的視覺關(guān)鍵詞連接起來形成一個全局特征向量進(jìn)行相似度計(jì)算，以獲得最終的場景分類結(jié)果?？臻g視覺詞典我們已經(jīng)知道大多數(shù)圖像具有空間相似度，并且在空間子區(qū)域內(nèi)聚類能得到屬于對應(yīng)空間子區(qū)域的原型特征。

6、因此，提出一種 “空間視覺詞袋”模型，它是視覺詞袋模型的擴(kuò) 展。具體來說，首先有層次地把圖像進(jìn)行空間劃分（如圖所示），再把空間對應(yīng)子區(qū)域聚集在一起，構(gòu)建屬于對應(yīng)空間子區(qū)域的空間詞典，過程如圖所示。圖不同層次的圖像空間劃分圖空間子區(qū)域具有相似性示例空間視覺詞袋模型詞袋模型與視覺詞典詞袋（）模型原是自然語言處理領(lǐng)域用于文本信息檢索和文本分類的技術(shù)。用它做圖像表示模型（我們稱之為視覺詞袋模型），需要將二維的圖像信息映射成視覺關(guān)鍵詞集合，這樣既保存了圖像的局部特征又有效地壓縮了圖像的描述。為了使用視覺詞袋模型，首先要在學(xué)習(xí)階段建立視

7、覺關(guān) 鍵詞的集合：在訓(xùn)練圖像集中，提取出所有局部特征，然后對這些特征進(jìn)行聚類，得到的結(jié)果是訓(xùn)練集中的普遍特征。我們稱這些原型特征為“視覺詞典”。圖空間視覺詞典的構(gòu)建形式上，定義，為第個空間子區(qū)域的級劃分，為級劃分下空間子區(qū)域的數(shù)目，這樣就得到（，，）。同時可以定義，為級劃分下第個空間子區(qū) 域內(nèi)的視覺詞典，， ?；诳臻g視覺詞袋模型的場景分類過程一旦得到了每一個空間子區(qū)域的視覺詞典，視覺詞袋表示就能通過常規(guī)的方式得到。對于每一幅圖像，空間子區(qū) 域內(nèi)的每一個像素的特征表示被投影到相應(yīng)空間詞典的一個單

8、詞通道上。每個子區(qū)域的第直方圖通過統(tǒng)計(jì)有多少像素在單詞通道上得到，這個直方圖表示在空間子區(qū)域內(nèi) 的視覺詞典的詞頻，見式（）。空間聚類視覺詞袋模型在從訓(xùn)練圖像集的圖片中提取低級特征后，需要使用一種無監(jiān)督的算法，如均值算法，對這些低級別特征進(jìn)行給定聚類中心數(shù)目的聚類。給定一組觀察值的序列（，，，），這里，每一個觀察值都是一個維的實(shí) 值向量。均值聚類的目標(biāo)是劃分這個觀察值到個序列里，，（），見式（），其中是的均值。（，）（）（）（），式中，是指示函數(shù)，（）是返回映射到像素的關(guān) 鍵詞通過這種方式就引入了空間子區(qū)域的空間相似

9、信息。，。（）為了識別一個場景的類別，需要把所有空間子區(qū) 域的視覺關(guān)鍵詞連接起來，得到一個全局特征向量。最終的分類識別率通過支持向量機(jī)來獲得，整個過程如圖所示。通過把一個聚類中心當(dāng)作一個視覺關(guān)鍵詞，就能把每一個從圖像中提取的特征映射到它最接近的視覺詞典上，并且能把圖像表示為一個視覺詞典上的直方圖特征。圖不同范圍的聚類示例圖空間視覺詞袋模型分類過程在視覺詞袋模型中，聚類是最重要的。詞典的語義準(zhǔn)確性對最后的識別率有著直接的影響，它取決于詞典中的特征圖像間的相似度度量相似度。令（，）和（）分別為兩幅不同圖像和在，（）級別劃分下的第

10、個子區(qū)域的視覺詞袋表示。我們用相似度來衡量二者之間的距離，計(jì) 算方法見式（），相似度示例如圖所示。通過強(qiáng)度值比較得到的位數(shù)可以以任何順序組（采用從上到下、從左到右的順序），得到一個位二進(jìn)與它對應(yīng)的十進(jìn)制數(shù)范圍在，區(qū)間。如圖（）、，（）（）（）（），（），（），示，變換后的圖像不僅包含了全局特征，而且捕捉到了節(jié)特征。（）（）（）（），（）在級別劃分下，圖像和之間的距離用式（）進(jìn) 行計(jì)算。（（），（）（，）（），，（）原始圖像（）變換后圖像圖變換示例視覺詞袋模型采用聚類來獲得詞典，詞典

11、中的單圖像集中最普遍的特征。而我們的模型是基于空間相的，換句話說，就是想找出圖像集的空間對應(yīng)子區(qū)域內(nèi)遍的特征。中提取了中心變換直方圖分重要的特征，從一定角度上說，和視覺詞典具有類似的所以我們想獲得空間的實(shí)驗(yàn)結(jié)果來加以比較。圖不同圖像間的相似度示例特征提取實(shí)驗(yàn)與分析本文提出的是一種能適用于各種類型特征的通用框架，本節(jié)將簡單介紹兩種用在實(shí)驗(yàn)章節(jié)的圖像特征：表述人類的紋理識別力的 “”濾波器和中心變換的主成分分析。濾波器區(qū)域是靈長類動物的大腦皮層的視覺區(qū)域，是最簡單、最早的視覺皮層區(qū)。它在處

12、理靜態(tài)和動態(tài)對象信息以及在模式識別中具有重要作用。許多多尺度濾波器模型能描述人類的紋理識別力，這些濾波器滿足了區(qū) 域中簡單皮層細(xì)胞感受野的定義。本文模型是基于空間對應(yīng)子區(qū)域的相似度的，我們是從人類認(rèn)知識別角度找到這一特性的。所以首先選擇濾波器作為一種特征類型，并采用高斯函數(shù)的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)去構(gòu)造積分對，見式（）。實(shí)驗(yàn)首先使用和提供的圖像數(shù)據(jù)庫測試，此數(shù)據(jù)庫包含類場景圖片，每類中有到大小為像素的圖像，如圖所示。分類識別支持向量機(jī) 來獲得。圖和圖像數(shù)據(jù)庫（，）（）（）表顯示了使用濾波器作為基

13、本提取特征，每（）景用幅圖像做訓(xùn) 練，其余圖像做測試時的實(shí)驗(yàn) 結(jié)（，）（）（）式中，（）表示一個具有標(biāo)準(zhǔn)差為的高斯函數(shù)。是衡量濾波器延伸率的一個標(biāo)準(zhǔn)。濾波器組具有個尺度自由度、個角度自由度，它們比濾波器具有更廣的感受野。為了更好地闡述模型的優(yōu) 點(diǎn)，同時采用另外一種完全不同于濾波器的特征（），即中心變換直方圖的主成分分析。主成分分析（）是一種統(tǒng)計(jì)分析方法，它能從多元事物中提取主要因素，從而反映事物的本質(zhì)。中的中心變換比較了中心像素與周圍像素的強(qiáng) 度值，舉列如下：（）表示空間劃分級別，表示每個子區(qū)域內(nèi)聚類量（視覺關(guān)鍵詞數(shù)），

14、做對比的是經(jīng)典的詞袋模型方法。表特征的實(shí)驗(yàn) 結(jié)果（）（經(jīng)典詞袋空間視覺詞袋經(jīng)典詞袋空間視覺詞表中可以看出無論空間怎樣劃分，聚類中心有多文方法都比傳統(tǒng)的不含空間信息的詞袋方法的識別率當(dāng)子區(qū)域內(nèi)聚類中心數(shù)合理時（如），空間劃分越細(xì) 王濤，胡事民，孫家廣基于顏色空間特征的圖像檢索軟件學(xué)報，（）：，，，（）：，，：：，（）：，：，：，：（）：（），：，：李遠(yuǎn)寧，劉汀，蔣樹強(qiáng)，等基于的視頻匹配方法通信學(xué)報，（）：，，：，，（）：，：，，？，（）：，：，：，：，：，：：，：，因素比更多的視覺關(guān)鍵詞具有更高的辨別力?？臻g詞典中的視

15、覺關(guān)鍵詞能夠捕捉子區(qū)域內(nèi)普遍特征的廣義上的詞匯，而能夠從多元事物中提取主要因素從而反映事物的本質(zhì)。我們同樣在空間視覺詞典框架內(nèi)計(jì)算每個子區(qū)域的特征。表顯示了使用的實(shí)驗(yàn)結(jié)果，可以看到空間方法的識別率遠(yuǎn)高于經(jīng)典方法。表特征的實(shí)驗(yàn) 結(jié)果（）經(jīng)典算法空間實(shí)驗(yàn)是由等構(gòu)建的包含個物品分類（如人臉、飛機(jī)、古物、鋼琴等）共幅圖像的圖像庫，如圖所示，很多類型的物品圖片也具有空間相似性。圖圖像數(shù)據(jù)庫按照的方法在圖像庫上做物體識別的實(shí)驗(yàn)：每個類別中訓(xùn)練幅圖片，測試圖片是每類幅。表給出空間劃分級別時使用和特征時的平均識別率，可以看出空間相似度被發(fā)掘出來后識別率大大提高。表實(shí)驗(yàn) 結(jié)果（）（）經(jīng)典詞袋空間視覺詞典經(jīng)典算法空間結(jié)束語本文基于傳統(tǒng)的詞袋模型提出了一種空間視覺詞袋模型。圖像被劃

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

用于圖像場景分類的空間視覺詞袋模型

文檔簡介

溫馨提示

最新文檔

評論

用于圖像場景分類的空間視覺詞袋模型

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔