用于圖像場(chǎng)景分類(lèi)的空間視覺(jué)詞袋模型_第1頁(yè)
用于圖像場(chǎng)景分類(lèi)的空間視覺(jué)詞袋模型_第2頁(yè)
用于圖像場(chǎng)景分類(lèi)的空間視覺(jué)詞袋模型_第3頁(yè)
用于圖像場(chǎng)景分類(lèi)的空間視覺(jué)詞袋模型_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第 卷 第 期 年 月計(jì) 算 機(jī) 科 學(xué) 用于圖像場(chǎng)景分類(lèi)的空間視覺(jué)詞袋模型王宇新郭(大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院禾何昌欽馮振,賈棋大連)(大連理工大學(xué)軟件學(xué)院大連)摘 要 以傳統(tǒng)的詞袋模型為基礎(chǔ),根據(jù)同類(lèi)場(chǎng)景圖像具有空間相似性的特點(diǎn),提出了一種用于圖像場(chǎng)景分類(lèi)的空視覺(jué)詞袋模型。 首先將圖像進(jìn)行不同等級(jí)的空間劃分,針對(duì)對(duì)應(yīng)空間子區(qū)域進(jìn)行特征提取和 均值聚類(lèi),形成該區(qū) 的視覺(jué)關(guān)鍵詞,進(jìn)而構(gòu)建整個(gè)訓(xùn)練圖像集的空間視覺(jué)詞典。 進(jìn)行場(chǎng)景識(shí)別時(shí),將所有空間子區(qū)域的視覺(jué)關(guān)鍵詞連接 一個(gè)全局特征向量進(jìn)行相似度計(jì)算。 最終的場(chǎng)景分類(lèi)結(jié)果使用 濾波器和 兩種特征在支持向量機(jī) 上獲得。關(guān)鍵詞 場(chǎng)景分類(lèi),詞袋,

2、空間聚類(lèi),空間視覺(jué)詞典,支持向量機(jī)中圖法分類(lèi)號(hào)文獻(xiàn)標(biāo)識(shí)碼 , (, ,)(, ,) , :“” ,人類(lèi)視覺(jué)感知的一個(gè)顯著特點(diǎn)是能夠很快掌握一圖像所表達(dá)的含義。通過(guò)實(shí)驗(yàn)證明,僅僅 組快速的圖像流,觀察者也能識(shí)別出每一幅圖像的語(yǔ) 和一 些圖像中的對(duì)象及其屬 性。 這 種 通 過(guò) 快 速引言隨著數(shù)碼設(shè) 備的普及和信息存儲(chǔ)與傳 輸技術(shù)的快速發(fā) 展,圖像數(shù)據(jù)發(fā)生爆炸 性 增 長(zhǎng)。 如何用計(jì)算機(jī)對(duì)大 量 且 不 斷 增加的圖像進(jìn)行分析和理解,成為一項(xiàng)越來(lái)越緊 迫 的 任 務(wù)。 因此基于內(nèi)容的檢索技術(shù)已成為國(guó)內(nèi)外研究的熱點(diǎn),并成為 世紀(jì)初必須攻克的關(guān)鍵技術(shù)之一。本文將重點(diǎn)關(guān)注圖像場(chǎng)景識(shí)別和分類(lèi)問(wèn)題。 傳統(tǒng)的

3、場(chǎng)景 分類(lèi)方法通常使用色彩、紋理和形狀等圖像底層視覺(jué)特征直 接與監(jiān)督學(xué)習(xí)方法相結(jié)合進(jìn)行圖像場(chǎng)景分類(lèi);或 者 對(duì) 場(chǎng) 景 中的目標(biāo)進(jìn)行有效的分析,以完成場(chǎng)景的整體識(shí)別,具有代表 性的如王濤、胡事民和孫家廣院士提出的基于顏色空間特征 的圖像檢索方法;或者采用文本主題模型的方法將 圖 像 分 類(lèi)到不同的語(yǔ)義類(lèi)別中:將圖像的局部不變特征聚類(lèi)為一組 視覺(jué)詞匯,并用詞袋()模型來(lái)表示,最后用 ()或 ()等主題分析模型找出圖像的潛在語(yǔ)義和 最可能屬于的主題,從而完成場(chǎng)景分類(lèi)。)觀察圖像所獲得 的視覺(jué)和語(yǔ)義信息稱(chēng)為 圖。 在拍攝照片時(shí),攝影師總是盡可能把能反映圖或者語(yǔ)義的對(duì)象和特征顯示在圖像中心。 這一拍攝

4、習(xí) 大多數(shù)針對(duì)同類(lèi)目標(biāo)的圖像都有相同的拍攝角度,即像具有空間相似度。 例如,許多城市的圖像是這樣一種高樓下面連接著人行橫道,而頂上是藍(lán)天;高速公路是大的平面向水平線方向延伸,期間充滿了一些凹凸。 這果我們把圖像劃分為一些空間子區(qū)域,對(duì)應(yīng)的子區(qū)域該有相似的特征,如圖 所示。上述主題分析模型是根據(jù)圖像中視覺(jué)詞匯出現(xiàn)的況進(jìn)行分類(lèi)的,既沒(méi)有考慮視覺(jué)詞匯在空間的分布特點(diǎn)有利用圖像中區(qū)域語(yǔ)義構(gòu)成的上下文信息,而這些是被忽視的。 空間金字塔模型的提出更是給了研究者 的啟示。 本文提出了一種用于圖像場(chǎng)景識(shí)別的空間視到稿日期: 返修日期:王宇新(),男,博士生,講師, 會(huì)員,主要研究方向?yàn)閳D像 處 理、計(jì)算機(jī)系

5、統(tǒng)結(jié)構(gòu),:;郭 禾( )授,博士生導(dǎo)師, 高級(jí)會(huì)員,主要研究方向?yàn)橛?jì)算機(jī)系統(tǒng)結(jié)構(gòu)、計(jì)算機(jī)視覺(jué);何昌欽( ),男,碩士生,主要研究方向?yàn)閳D像識(shí)別;(),男,博士生,主要研究方向?yàn)榛趦?nèi)容的圖像檢索;賈 棋(),女,博士生,講師,主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)、人工神經(jīng)網(wǎng)提取并聚類(lèi),以形成該區(qū)域的視覺(jué)關(guān)鍵字,進(jìn)而構(gòu)建整個(gè)訓(xùn)練圖像集的空間視覺(jué)詞 典。 進(jìn)行場(chǎng)景識(shí)別時(shí),把 所 有 空 間 子 區(qū) 域的視覺(jué)關(guān)鍵詞連接起來(lái)形成一個(gè)全局特征向量進(jìn)行相似度 計(jì)算,以獲得最終的場(chǎng)景分類(lèi)結(jié)果。空間視覺(jué)詞典我們已經(jīng)知道大多數(shù)圖像具有空間相似度,并 且 在 空 間 子區(qū)域內(nèi)聚 類(lèi)能得到屬于對(duì)應(yīng)空間子區(qū)域的原 型 特 征。

6、因 此,提 出 一 種 “空 間 視 覺(jué) 詞 袋”模 型,它是視覺(jué)詞袋模型的擴(kuò) 展。 具體來(lái)說(shuō),首先有層次地把圖像進(jìn)行空間劃分(如圖 所 示),再把空間對(duì)應(yīng)子區(qū)域聚集在一起,構(gòu)建屬于對(duì)應(yīng)空 間 子 區(qū)域的空間詞典,過(guò)程如圖 所示。圖不同層次的圖像空間劃分圖空間子區(qū)域具有相似性示例空間視覺(jué)詞袋模型詞袋模型與視覺(jué)詞典詞袋()模型原是自然語(yǔ)言處理領(lǐng)域用 于 文 本信息檢索和文本 分 類(lèi) 的 技 術(shù)。 用它做圖像表示 模 型(我 們稱(chēng)之為視覺(jué)詞袋模型),需要將二維的圖像信息映射成視覺(jué) 關(guān)鍵詞集合,這樣既保存了圖像的局部特征又有效地壓縮了圖像的描述。為了使用視覺(jué)詞袋模 型,首先要在學(xué)習(xí)階段 建 立 視

7、覺(jué) 關(guān) 鍵詞的集合:在訓(xùn)練圖 像 集 中,提取出所有局部特征,然 后 對(duì) 這些特征進(jìn)行聚類(lèi),得到的結(jié)果是訓(xùn)練集中的普 遍 特 征。 我 們稱(chēng)這些原型特征為“視覺(jué)詞典”。圖空間視覺(jué)詞典的構(gòu)建形式上,定義,為第 個(gè)空間子區(qū)域的 級(jí)劃分, 為 級(jí)劃分下空間子區(qū)域的數(shù)目,這 樣 就 得 到 (, ,)。 同時(shí)可以定義 , 為 級(jí) 劃 分 下 第 個(gè) 空 間 子 區(qū) 域 內(nèi)的視覺(jué)詞典, , 。基于空間視覺(jué)詞袋模型的場(chǎng)景分類(lèi)過(guò)程一旦得到了每一個(gè)空間子區(qū)域的視覺(jué)詞典,視 覺(jué) 詞 袋 表 示就能通過(guò)常規(guī)的方 式 得 到。 對(duì)于每一幅圖像,空 間 子 區(qū) 域 內(nèi)的每一個(gè)像素的特征表示被投影到相應(yīng)空間詞典的一個(gè)單

8、 詞通道上。 每個(gè)子區(qū)域的第 直方圖通過(guò)統(tǒng)計(jì)有多少像素在 單詞通道 上得到,這個(gè)直方圖表示在空間子區(qū)域內(nèi) 的 視 覺(jué) 詞典的詞頻,見(jiàn)式()。空間聚類(lèi)視覺(jué)詞袋模 型在從訓(xùn)練圖像集的圖片 中提取低級(jí)特征 后,需要使用一種無(wú)監(jiān)督的算法,如 均值算法,對(duì)這些低 級(jí)別特征進(jìn)行給定聚類(lèi)中心數(shù)目的聚類(lèi)。 給定一組觀察值的 序列( , , , ),這里,每一個(gè)觀察值都是一個(gè) 維 的 實(shí) 值向量。 均值聚類(lèi)的目標(biāo)是劃分這 個(gè)觀察值到 個(gè)序列 里 , ,(),見(jiàn)式(),其中 是 的均值。(,)() ()(),式中, 是 指 示 函 數(shù),()是返回映射到像素 的 關(guān) 鍵詞 通過(guò)這種方式 就引入了空間子區(qū)域的空間相似

9、信息。,。() 為了識(shí)別一個(gè)場(chǎng)景的 類(lèi) 別,需要把所有空間 子 區(qū) 域 的 視覺(jué)關(guān)鍵詞連接起來(lái),得到一個(gè)全局特征向量。 最 終 的 分 類(lèi) 識(shí) 別率通過(guò)支持向量機(jī)來(lái)獲得,整個(gè)過(guò)程如圖 所示。通過(guò)把一個(gè)聚類(lèi)中心當(dāng)作一個(gè)視覺(jué)關(guān)鍵詞,就 能 把 每 一個(gè)從圖像中提取的特征映射到它最接近的視覺(jué)詞典上,并且 能把圖像表示為一個(gè)視覺(jué)詞典上的直方圖特征。圖不同范圍的聚類(lèi)示例圖空間視覺(jué)詞袋模型分類(lèi)過(guò)程在視覺(jué)詞袋模型中,聚類(lèi)是最重要的。 詞典的語(yǔ)義準(zhǔn)確 性對(duì)最后的識(shí)別率有著直接的影響,它取決于詞典中的特征圖像間的相似度度量相似度。 令 ( ,)和( )分別為兩幅不同圖像和 在, () 級(jí)別 劃 分 下 的 第

10、個(gè)子區(qū)域的視覺(jué)詞袋表示。 我 們 用 相似度來(lái)衡量二者之間 的 距 離,計(jì) 算 方 法 見(jiàn) 式(),相 似 度 示 例如圖 所示。通過(guò)強(qiáng)度值比較得到的 位數(shù)可以以任何順序組(采用從上到下、從左 到 右 的 順 序),得 到 一 個(gè) 位 二 進(jìn)與它對(duì)應(yīng)的十進(jìn)制數(shù)范圍在,區(qū)間。 如 圖 ()、 , ( )()( )() ,( ),( ) ,示,變換后的圖像不僅包含了全局特征,而且捕捉到了節(jié)特征。 ( )()( )(),()在級(jí)別劃分下,圖像 和 之間的距離用式()進(jìn) 行 計(jì)算。( ( ), ( )( ,) ( ) , ,()原始圖像()變換后圖像圖 變換示例視覺(jué)詞袋模型采用聚類(lèi)來(lái)獲得詞典,詞 典

11、中 的 單圖像集中最 普 遍 的 特 征。 而我們的模型是基于空 間 相的,換句話說(shuō),就是想找出圖像集的空間對(duì)應(yīng)子區(qū)域內(nèi)遍的特征。 中 提取了中心變換直方圖分 重要的特征,從一定角 度 上 說(shuō),和視覺(jué)詞典具有類(lèi) 似 的 所以我們想獲得空間 的實(shí)驗(yàn)結(jié)果來(lái)加以比較。圖不同圖像間的相似度示例特征提取實(shí)驗(yàn)與分析本文提出的是一種能適用于各種類(lèi)型特征 的 通 用 框 架,本節(jié)將簡(jiǎn)單介紹兩種用在實(shí)驗(yàn)章節(jié)的圖像特征:表述人類(lèi)的 紋理識(shí) 別 力 的 “”濾 波 器 和 中 心 變 換 的 主 成 分 分 析 。 濾波器 區(qū)域是靈 長(zhǎng) 類(lèi) 動(dòng) 物 的 大腦皮層的視覺(jué)區(qū)域,是 最 簡(jiǎn) 單、最早的視覺(jué)皮層區(qū)。 它在處

12、理靜態(tài)和動(dòng)態(tài)對(duì)象 信 息 以 及 在模式識(shí)別中具有重要作用。 許多多尺度濾波器模型能描述 人類(lèi)的紋理識(shí)別 力,這些濾波器滿足了 區(qū) 域 中 簡(jiǎn) 單 皮 層 細(xì)胞感受野的定義。本文模型是基于空間對(duì)應(yīng)子區(qū)域的相似度的,我 們 是 從 人類(lèi)認(rèn)知識(shí)別角度找到這一特性的。 所 以 首 先 選 擇 濾波器作為一種特征類(lèi)型,并采用高斯函數(shù)的一階導(dǎo)數(shù)和二 階導(dǎo)數(shù)去構(gòu)造積分對(duì),見(jiàn)式()。 實(shí)驗(yàn)首先使用 和 提供的圖像數(shù)據(jù)庫(kù)測(cè)試,此數(shù)據(jù)庫(kù)包含 類(lèi) 場(chǎng) 景 圖 片,每 類(lèi) 中 有 到 大小為 像素的圖像,如圖 所示。 分類(lèi)識(shí)別支持向量機(jī) 來(lái)獲得。圖 和 圖像數(shù)據(jù)庫(kù)(,) () ()表 顯示了使用 濾 波 器 作為基

13、本提取特征,每()景用 幅 圖 像 做 訓(xùn) 練,其余圖像做測(cè)試時(shí)的實(shí)驗(yàn) 結(jié)(,) ( ) ( ) 式中,()表示一個(gè)具有標(biāo)準(zhǔn)差為 的高斯函數(shù)。 是衡量濾波器延伸率的一個(gè)標(biāo)準(zhǔn)。 濾波器組具有 個(gè)尺度自由 度、 個(gè)角度自由度,它們比 濾波器具有更廣的感受野。 為了更好地闡述模型 的 優(yōu) 點(diǎn),同時(shí)采用另外 一 種 完 全 不 同于 濾波器的 特 征 ( ),即中心變換直方圖的主成分分析。 主 成分分析 ()是一種統(tǒng)計(jì)分析 方法,它能從多元事物中提取主要因素,從而反映事物的本質(zhì)。 中的中心變換比較了中心像素與周?chē)?像素的強(qiáng) 度值,舉列如下:()表示空間劃分級(jí)別,表示每個(gè)子區(qū)域內(nèi)聚類(lèi)量(視覺(jué)關(guān)鍵詞數(shù)),

14、做對(duì)比的是經(jīng)典的詞袋模型方法。表 特征的實(shí)驗(yàn) 結(jié)果()(經(jīng)典詞袋空間視覺(jué)詞袋經(jīng)典詞袋空間視覺(jué)詞表 中可以看出無(wú)論空間怎樣劃分,聚類(lèi)中心有多文方法都比傳統(tǒng)的不含空間信息的詞袋方法的識(shí)別率當(dāng)子區(qū)域內(nèi)聚類(lèi)中心數(shù)合理時(shí)(如),空間劃分 越 細(xì) 王濤,胡事民,孫家廣基于顏色空間特征的圖像檢索軟件學(xué)報(bào),(): , , ,(): , ,: : ,(): ,: ,: ,: (): (),: ,: 李遠(yuǎn)寧,劉汀,蔣樹(shù)強(qiáng),等基 于 的視頻匹配方法 通信學(xué)報(bào),(): , ,: , ,(): , :, ,? ,(): , : ,: , : ,:,: : , : ,因素比更多的視覺(jué)關(guān)鍵詞具有更高的辨別力。空間詞典中的視

15、覺(jué)關(guān)鍵詞能夠捕捉子區(qū)域內(nèi)普遍特征的 廣義上的詞匯,而 能夠從多元事物中提取主要因素從而 反映事物的本質(zhì)。 我們同樣在空間視覺(jué)詞典框架內(nèi)計(jì)算每個(gè) 子區(qū)域的 特征。 表 顯示了使用 的實(shí)驗(yàn)結(jié)果,可 以看到空間 方法的識(shí)別率遠(yuǎn)高于經(jīng)典 方法。表 特征的實(shí)驗(yàn) 結(jié)果()經(jīng)典算法空間 實(shí)驗(yàn)是由等構(gòu)建的 包 含 個(gè) 物 品分類(lèi)(如人臉、飛機(jī)、古物、鋼 琴 等)共 幅圖像的圖像庫(kù),如圖 所示,很多類(lèi)型的物品圖片也具有空間相似性。圖 圖像數(shù)據(jù)庫(kù)按照 的 方 法 在 圖 像 庫(kù) 上做物體識(shí)別的實(shí)驗(yàn):每個(gè)類(lèi)別中訓(xùn)練 幅 圖 片,測(cè) 試 圖 片 是每類(lèi) 幅。 表 給出空間劃分級(jí)別 時(shí) 使 用 和 特征時(shí)的平均識(shí)別率,可以看出空間相似度被發(fā)掘 出來(lái)后識(shí)別率大大提高。表 實(shí)驗(yàn) 結(jié)果()()經(jīng)典詞袋空間視覺(jué)詞典經(jīng)典算法空間 結(jié)束語(yǔ) 本文基于傳統(tǒng)的詞袋模型提出了一種空間視覺(jué)詞袋模型。 圖像被劃

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論