基于場景語義的遙感圖像目標(biāo)識別

上傳人：賈*** IP屬地：上海上傳時(shí)間：2022-09-05 格式：DOCX 頁數(shù)：10 大?。?8.88KB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩5頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、基于場景語義的遙感圖像目標(biāo)識別劉寧波+孫艷麗+王杰摘要：高分辨率遙感圖像的信息解譯的通常思路是從特定類型目標(biāo)的檢測與識別分析入手，最終實(shí)現(xiàn)圖像場景的認(rèn)知理解。給出一種利用CSIFT特征的遙感圖像視覺特征表示方法和基于PLSA的遙感圖像場景語義識別方法，并利用10類典型遙感圖像場景進(jìn)行實(shí)驗(yàn)，充分驗(yàn)證了該方法的有效性。Key：高分辨率遙感圖像；場景語義識別；視覺特征表示；概率潛在語義分析： TN751?34 ： A ： 1004?373X（2017）11?0043?03Remote sensing image target recognition based on scene se

2、mantemeLIU Ningbo1， SUN Yanli2， WANG Jie2（1. Research Institute of Information Fusion， Naval Aeronautical and Astronautical University， Yantai 264001， China；2. Department of Basic Experiment， Naval Aeronautical and Astronautical University， Yantai 264001， China）Abstract： The typical thought of infor

3、mation interpretation for high?resolution remote sensing image proceeds from the detection and recognition analysis of the specific targets to understand the image scene. A remote sensing image visual feature representation method based on CSIFT feature and a remote sensing image scene semantic reco

4、gnition method based on probabilistic latent semantic analysis （PLSA） are given. Effectiveness of the proposed methods was verified in the experiment with ten typical remote sensing image scenes.Keywords： high?resolution remote sensing image； scene semantic recognition； visual feature representation

5、； PLSA0 引言高分辨率遙感圖像的信息解譯是近年來的研究熱點(diǎn)，從特定類型目標(biāo)的檢測與識別分析入手，最終實(shí)現(xiàn)圖像場景的認(rèn)知理解1是廣泛采用的研究范式，乃至形成一種思維定勢，即只有完整地檢測與識別場景中的各種目標(biāo)才能進(jìn)行場景的認(rèn)知理解。然而，在軍事偵察中經(jīng)常需要從高分辨率遙感圖像中快速識別出諸如港口、機(jī)場、油庫等有明確語義的局部圖像場景，這些局部場景往往對應(yīng)一個(gè)復(fù)雜的目標(biāo)群，由很多不同類型的剛性子目標(biāo)按照一定的空間拓?fù)潢P(guān)系構(gòu)成。如果采用常規(guī)的方法，首先檢測復(fù)雜目標(biāo)群的子目標(biāo)，然后利用其空間拓?fù)潢P(guān)系進(jìn)行推理以確定復(fù)雜目標(biāo)群語義屬性，其處理效率將是非常低的。而且對子目標(biāo)的分析主要是利用其隱含的啟

6、發(fā)式特征在像素層進(jìn)行，這種完全像素層的處理與圖像的語義理解之間存在難以逾越的鴻溝2。建立一種能夠快速識別遙感圖像中復(fù)雜局部場景的語義認(rèn)知方法，進(jìn)而指導(dǎo)該場景中特定目標(biāo)的檢測與識別具有非常重要的意義。本文首先概述圖像場景語義識別的有關(guān)概念與方法，然后給出遙感圖像的視覺特征表示和基于PLSA的遙感圖像場景語義識別方法，最后利用10類典型遙感圖像場景進(jìn)行實(shí)驗(yàn)驗(yàn)證。1 圖像場景語義識別的概念與方法圖像中層語義建模主要有以下三類方法：（1）構(gòu)建語義對象法3，通過檢測或識別出圖像中的語義對象來描述整幅場景。（2）文獻(xiàn)4提出的場景Gist模型，該模型避開了對單個(gè)目標(biāo)或區(qū)域的分割，利用一種低維的空域包絡(luò)描

7、述場景的結(jié)構(gòu)，其中自然度、開放度、粗糙度、展開度和崎嶇度這五種感官屬性分別對應(yīng)于空域包絡(luò)空間中的一維，每一維均對應(yīng)于場景中的某一個(gè)有意義的空間屬性，作為場景語義劃分的依據(jù)。（3）建立圖像的局部語義概念5，首先在圖像中自動地檢測出感興趣點(diǎn)，并采用局部描述子描述這些點(diǎn)，隨后建立局部描述子到某種局部語義概念的映射，再利用圖像中局部語義概念的分布實(shí)現(xiàn)圖像場景的識別。本文針對遙感圖像的場景識別主要采取此方法。2 遙感圖像的視覺特征包表達(dá)為了實(shí)現(xiàn)遙感圖像場景的準(zhǔn)確識別，無論采取低層特征建模法還是中層語義建模法，都必須從遙感圖像中提取有鑒別力的特征。如區(qū)域特征、分塊特征、局部不變特征等。由于不同的特征反映

8、不同的類別信息，對特定的類別各有其優(yōu)勢，而在很多情形下，分析圖像內(nèi)容也需要結(jié)合不同的特征，所以集成多種特征對提高圖像場景識別的性能是有益的。詞袋模型（Bag of Words，BOW）6是文本處理領(lǐng)域最常使用的文本簡化描述模型，該模型不考慮語法與詞序，將文本表達(dá)成無序的單詞組合。在文本分類應(yīng)用中，BOW模型常和SVM分類器、樸素貝葉斯分類器結(jié)合，獲得了非常好的分類效果。該模型應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域后被推廣為特征包（Bag of Features， BOF）方法5，7，其基本原理是通過矢量量化各種局部視覺特征，生成視覺詞語或詞匯表來描述圖像或圖像集。對于一幅待識別遙感圖像（或區(qū)域），采用與訓(xùn)練圖

9、像相同的方法提取其CSIFT特征8，根據(jù)最近鄰規(guī)則，確定各個(gè)CSIFT的視覺詞匯類別，統(tǒng)計(jì)待分類遙感圖像（或區(qū)域）中各視覺詞匯出現(xiàn)的頻率，即得到待識別遙感圖像的視覺特征包表達(dá)。遙感圖像的視覺特征包表達(dá)避開了場景中目標(biāo)分割和檢測的過程，將場景的識別問題轉(zhuǎn)化為對視覺詞匯分布的學(xué)習(xí)問題，從而為跨越圖像低層特征表示與高層語義之間的“語義鴻溝”搭建了橋梁。3 基于PLSA的圖像場景語義識別盡管視覺詞匯的出現(xiàn)頻率可以作為區(qū)分不同場景的一項(xiàng)重要依據(jù)，但是在復(fù)雜的遙感圖像場景中，由于相同的目標(biāo)實(shí)體可能出現(xiàn)在不同的場景類別中，由此導(dǎo)致視覺詞匯與場景語義之間出現(xiàn)多義性和相似性問題。在訓(xùn)練樣本不充分的情況下，采用將

10、場景類別與提取的特征向量直接相關(guān)聯(lián)的識別方式，無法逼近實(shí)際的場景語義，導(dǎo)致場景識別的準(zhǔn)確性下降。本文的思路是將概率潛在語義分析（PLSA）模型9應(yīng)用到典型的訓(xùn)練圖像中，提取圖像中的潛在語義，根據(jù)潛在語義的概率分布完成待識別圖像的場景類型判斷。算法流程具體如下：（1）提取所有圖像的特征。從每類訓(xùn)練圖像集中隨機(jī)選取部分圖像，提取這些圖像的CSIFT特征向量，用K?均值聚類算法生成個(gè)視覺詞匯。把各視覺詞匯與每一幅訓(xùn)練圖像的特征向量進(jìn)行相似性度量，得到維的“圖像?詞匯”共現(xiàn)頻率矩陣其中表示視覺詞匯在圖像中出現(xiàn)的頻率。（2）利用EM算法求得PLSA模型的近似最大似然解，獲取圖像中潛在語義出現(xiàn)時(shí)視覺詞

11、匯的分布規(guī)律。（3）提取測試圖像的特征向量，分別與步驟（1）中得到的個(gè)視覺詞匯進(jìn)行相似性度量，得到測試圖像的“圖像?詞匯”共現(xiàn)頻率矩陣將和測試圖像的共現(xiàn)頻率矩陣作為PLSA模型的輸入，保持不變，得到測試圖像的潛在語義分布，構(gòu)成測試圖像的維語義向量。（4）對測試圖像的潛在語義向量應(yīng)用KNN分類器，完成圖像的場景識別。4 實(shí)驗(yàn)結(jié)果與分析從Google Earth上截取來自10類不同場景的圖像切片共計(jì)1 794幅，對圖像分辨率和大小不做限定，場景類型是由切片中的主體目標(biāo)確定的。從10類圖像中分別隨機(jī)選取50幅作為訓(xùn)練圖像，其余作為測試圖像。為了驗(yàn)證本文算法的性能，首先分析采取不同特征提取方法對識

12、別結(jié)果的影響，再進(jìn)一步比較直接采用基于CSIFT特征的BOF表達(dá)進(jìn)行最近鄰分類和引入PLSA模型的識別效果，最后比較不同視覺詞匯數(shù)和不同潛在語義主題數(shù)條件下的識別效果。4.1 采用不同低層特征提取方法的比較本文設(shè)計(jì)的視覺詞匯生成方法是CSIFT特征，而最常用的SIFT特征主要針對灰度圖像，提取該特征時(shí)首先將彩色圖像轉(zhuǎn)換為灰度圖像。密集網(wǎng)格采樣間隔為88，視覺詞匯數(shù)量為600個(gè)，潛在語義主題數(shù)為20。圖1給出了采用不同低層特征描述方法得到的實(shí)驗(yàn)結(jié)果。從圖1中來看，利用CSIFT特征作為低層特征整體優(yōu)于常規(guī)的基于灰度的SIFT特征，僅對于“oil?fuel depot”場景基于灰度的SIFT特征識

13、別性能略優(yōu)。這主要是因?yàn)檫@類場景中處于主體地位的目標(biāo)是一些圓筒狀的儲油罐，其形狀特征是最有效的鑒別特征，而不同地區(qū)的油庫在色調(diào)上的差異較大，因此，對于該類型的場景，CSIFT的優(yōu)勢并不明顯。就10類目標(biāo)的平均識別率而言，CSIFT為90.2%，SIFT為79.67%，前者明顯占優(yōu)。4.2 引入PLSA對識別結(jié)果的改善本文算法是在遙感圖像BOF表達(dá)的基礎(chǔ)上引入PLSA模型訓(xùn)練KNN分類器而實(shí)現(xiàn)的，記為PLSA+BOF?KNN，而實(shí)際上得到遙感圖像的BOF表達(dá)也可以直接訓(xùn)練KNN分類器進(jìn)行場景識別，記為BOF?KNN。仍然設(shè)置密集網(wǎng)格采樣間隔為88，視覺詞匯數(shù)量為600個(gè)。識別結(jié)果以分類混淆矩陣的

14、形式分別給出，如圖2所示，直接應(yīng)用BOF進(jìn)行識別，部分場景之間由于共享了大量視覺詞匯，由此導(dǎo)致識別結(jié)果存在較大歧義，而引入PLSA后，可有效消除這種“一詞多義”的現(xiàn)象，提高場景識別性能。4.3 不同視覺詞匯數(shù)量對識別結(jié)果的影響前面的實(shí)驗(yàn)中，視覺詞匯的數(shù)量均設(shè)置為600，下面僅調(diào)整視覺詞匯數(shù)量，密集網(wǎng)格采樣間隔和潛在語義主題數(shù)均不變，比較最終的平均識別率。結(jié)果如圖3所示，視覺詞匯數(shù)量在500900之間取值時(shí)，總體性能相對較好，較少的視覺詞匯數(shù)量會導(dǎo)致有鑒別力的潛在語義主題缺失，過多的視覺詞匯中大量冗余信息增大了部分潛在語義主題的模糊性，因而導(dǎo)致總體性能的下降。4.4 不同潛在語義主題數(shù)目對識別結(jié)

15、果的影響實(shí)驗(yàn)中待識別場景類型數(shù)目為10，視覺詞匯提取方法不變，固定視覺詞匯的數(shù)量為600，潛在語義主題數(shù)目在850之間變化，比較其平均識別率，結(jié)果如圖4所示。當(dāng)潛在語義主題數(shù)為20時(shí)的平均識別率最高，過多或過少的潛在語義主題數(shù)都會導(dǎo)致識別率的下降。盡管最優(yōu)視覺詞匯數(shù)和潛在語義主題數(shù)在理論上是存在的，但在實(shí)際應(yīng)用中要準(zhǔn)確求解卻是十分困難的，目前主要是通過大量實(shí)驗(yàn)來確定一個(gè)經(jīng)驗(yàn)值。為進(jìn)一步驗(yàn)證場景語義識別方法的可行性，沿用前述實(shí)驗(yàn)中訓(xùn)練得到的識別模型對朝鮮平壤地區(qū)的一幅遙感影像進(jìn)行交互式標(biāo)注?？紤]到該識別模型僅對10類典型的場景進(jìn)行了有針對性的訓(xùn)練，因此在交互式選擇時(shí)，盡量選取能夠人工判定為前述1

16、0類場景的區(qū)域。識別結(jié)果如圖5所示，可以看出對不同類型的場景都有較好的識別效果。5 總結(jié)圖像場景的語義識別是高分辨率遙感圖像解譯的重要內(nèi)容，本文在梳理圖像場景語義識別有關(guān)概念與方法的基礎(chǔ)上，給出一種利用CSIFT特征的遙感圖像視覺特征表示方法和基于PLSA的遙感圖像場景語義識別方法，并利用10類典型遙感圖像場景進(jìn)行實(shí)驗(yàn)，充分驗(yàn)證了該方法的有效性。訓(xùn)練得到的識別模型還可進(jìn)一步應(yīng)用于對大幅遙感圖像進(jìn)行交互式標(biāo)注。 Reference1 高雋，謝昭.圖像理解理論與方法M.北京：科學(xué)出版社，2009.2 GROSKY W I， ZHAO R. Negotiating the semantic gap

17、：from feature maps to semantic landscapes C/ Proceedings of the 28th Conference on Current Trends in Theory and Practice of Informatics Piestany： Theory and Practice of Informatics. London： Springer， 2001： 33?52.3 BARNARD K， FORSYTH D. Learning the semantics of words and pictures C/ Proceeding of 20

18、01 IEEE International Conference on Computer Vision. Vancouver： IEEE， 2001： 408?415.4 OLIVA A， TORRALBA A. Building the gist of a scene： the role of global image features in recognition J. Progress in brain research， 2006， 155（2）： 23?26.5 LI F F， PERONA P. A Bayesian hierarchical model for learning

19、natural scene categories C/ Proceedings of 2013 IEEE Confe?rence on Computer Vision and Pattern Recognition. San Diego： IEEE， 2005： 524?531.6 LAZEBNIK S， SCHMID C， PONCE J. Beyond bags of features： spatial pyramid matching for recognizing natural scene categories C/ Proceedings 2006 IEEE Computer Society Conference on Compute

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于場景語義的遙感圖像目標(biāo)識別

文檔簡介

溫馨提示

最新文檔

評論

基于場景語義的遙感圖像目標(biāo)識別

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔