圖像語義自動標注介紹課件_第1頁
圖像語義自動標注介紹課件_第2頁
圖像語義自動標注介紹課件_第3頁
圖像語義自動標注介紹課件_第4頁
圖像語義自動標注介紹課件_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、介紹人:李思輝圖像語義自動標注 課題介紹1 問題提出背景問題提出背景隨著數(shù)字影像技術與互聯(lián)網(wǎng)技術的迅速發(fā)展,互聯(lián)網(wǎng)上有約數(shù)以百億記的圖像,如何快速的檢索到用戶需要的圖片成為一個關鍵問題。目前商業(yè)化的圖像搜索引擎如baidu、Google、Yahoo等都是以文本關鍵字的形式來查詢,其關鍵字主要依靠人工標注及Web文本,工作量巨大,且缺乏一定的客觀性。2 目前圖像檢索方式目前圖像檢索方式(1)基于文本的圖像檢索(Text-based Image RetrievalTBIR)通過關鍵字檢索,圖像庫中的關鍵字由人工標注,現(xiàn)有互聯(lián)網(wǎng)搜索引擎主要使用此方式。優(yōu)點:將圖的檢索問題轉為文本的檢索問題,效率高,

2、技術成熟。缺點:需要人工給每幅圖片標注對應的若干個語義詞,工作量巨大。(2)基于內容的圖像檢索(Content-based Image Retrieval CBIR)輸一幅圖像,通過計算圖像的可視特征(如顏色、紋理、形狀等)來實現(xiàn)圖像的匹配與檢索。優(yōu)點:無需人工標注,由計算機自動計算特征并匹配。缺點:“語義鴻溝”使檢索出的結果不能完全反映檢索者的意圖?;趦热莸臋z索結果基于內容的檢索結果 1基于內容的檢索結果基于內容的檢索結果 2此概念于1992年由T.Kato在論文“Query by Visual Example - Content based Image Retrieval”中提出。最早應

3、用是IBM的QBIC系統(tǒng),是為一個俄國博物館制作的繪畫作品查詢系統(tǒng)。目前基于內容的圖像檢索系統(tǒng),例如:谷歌搜圖、百度識圖等,因為“語義鴻溝”的原因,都不能很好的匹配用戶的檢索意圖。所謂“語義鴻溝”是指基于圖像底層可視特征(顏色、紋理、形狀等)的匹配,并不能完全反映用戶更高層次的語義查詢,例如:生命、呵護、沉思圖像檢索問題的思考?(1)如何克服方式1中人工標注的難題?(2)如何克服方式2中“語義鴻溝問題”?答案:讓機器代替人去做。答案:讓機器進行多示例學習。結論:結論:讓機器通過多示例學習后自動完成圖像內容語義的標注,即圖像語義自動標注。3 什么是圖像語義自動標注什么是圖像語義自動標注圖像自動標

4、注圖像自動標注(Automatic Image Annotation,AIA)就是讓計算機自動地給圖像加上能夠反映其內容的語義關鍵詞。自動標注的使用可以有效改善目前的圖像檢索困境。使檢索在保留基于文本關鍵詞搜索的同時,免去了人工標注的巨大工作量,也一定程度的跨越了“語義鴻溝”。它是圖像語義理解研究領域的一個熱點。由Mori等人在1999年提出。涉及技術:涉及技術:圖像處理(增強、去噪、分割等)、計算機視覺(特征提?。?、模式識別(分類和理解)、機器學習(建立分類器)等。4自動標注方法原理自動標注方法原理利用已標注圖像集或其他可獲得的信息自動學習語義概念空間與視覺特征空間的關系模型,并用此模型標注

5、未知語義的圖像。即試圖在圖像的高層語義和低層視覺特征之間建立一種映射關系,一定程度上解決“語義鴻溝”問題。(1)基于整幅圖特征的語義映射;(自然場景、紋理、建筑,不區(qū)分前后景)(2)基于規(guī)則塊或同質區(qū)域的語義映射; (比(1)多了位置區(qū)分)(3)基于圖中物體識別的語義詞射;(語義更準確、更豐富)5 用于標注實驗的數(shù)據(jù)集用于標注實驗的數(shù)據(jù)集目前較為公認的圖像集是目前較為公認的圖像集是Corel-5kCorel-5k它由科雷爾公司收集整理,分成三部分:(1)4000張像作為訓練集;(2)500張作為驗證集用來估計模型參數(shù);(3)500張作為測試集評價算法性能;5000張圖片按照每100張一個主題,

6、共分為50個主題。圖像庫中的每張圖片被標注35個標注詞,訓練集中總共有374個標注詞,在測試集中總共使用了263個標注詞。6 特征提取的主要方法特征提取的主要方法(1)基于顏色的特征提取由于顏色特征具有對尺度、平移和旋轉等不變的特性,同時顏色特征是我們辨別物體的主要方法,所以基于顏色的特征提取是目前圖像特征提取的最常用方法。常用的顏色特征提取方法有:顏色直方圖法 顏色矩法 顏色聚合向量法顏色相關圖法 顏色集法 6 特征提取的主要方法特征提取的主要方法(2)基于紋理的特征提取紋理是物體表面固有的一種特性,它具有區(qū)域特性和旋轉不變性,反映了不同對象之間的區(qū)分。所以紋理也是圖像的主要提取特征。常用的

7、紋理特征提取方法有:局部二值模式法 灰度共生矩陣法 隨機場模型法法基于小波變化法 基于Gabor濾波器法 自回歸紋理模型法結構法 6 特征提取的主要方法特征提取的主要方法(3)基于形狀的特征提取形狀是刻畫物體的基本特征之一,用形狀區(qū)別物體非常直觀。通過形狀特征的提取可以識別圖像中所包含的事物或對象,從而提取出其中感興趣的目標。常用的形狀特征提取方法有:邊界特征值法 幾何參數(shù)法形狀不變矩法 傅里葉形狀描述法 6 特征提取的主要方法特征提取的主要方法(4)基于空間關系的特征提取空間關系是指圖像中多個目標之間的相互位置或方向關系。這些關系可分為連接、鄰接、交疊、包含等??臻g關系加強了圖像內容的描述和

8、區(qū)分能力??臻g關系特征提取方法:基于圖像的規(guī)則子塊分割,建立子塊索引法?;趫D像中對象或區(qū)域的分割,建立對象索引。7 圖像相似度的計算圖像相似度的計算判斷兩幅圖像是否相似,就是計算兩幅圖像的特征向量,然后將特征向量看做多維空間中的點,然后計算兩點之間的距 離 , 距 離 越 短 越 相 似 。 常 用 的 距 離 度 量 公 式 有 :Minkkowsky距離,Manhattan距離,Euclidean距離,加權Euclidean距離,Chebyshev距離,Mahalanobis距離等。當然還有其它方法,例如:支持向量機的分類學習方法,它將圖像的匹配過程看成是相似圖像的分類過程。8 圖像標注

9、的主要方法圖像標注的主要方法(1)基于分類的標注算法將標注問題看成是圖像語義分類問題。將每個語義關鍵詞都看成是一個類別標記,則圖像標注問題就轉化為圖像分類問題。按照每個標注詞將訓練集分為正例和反例;提取所有正例的全局特征和反例的全局特征;根據(jù)正反例特征值構造分類器;用每個標注詞分類器為待標注圖像分類; 在所有標注詞中選取分類值最高的幾個作為標注詞;(具體方法模型:多示例學習、SVM、語言索引法、多樣性密度法、高斯混合模型等)8 圖像標注的主要方法圖像標注的主要方法(2)基于概率關聯(lián)模型的標注算法在概率統(tǒng)計模型的基礎上,分析圖像區(qū)域特征與語義關鍵詞之間的共生概率關系,并以此為待標注圖像進行語義標

10、注。(兩篇內容最相似的文章,其相同單詞出現(xiàn)的概率就最高)將訓練集中每幅圖像進行區(qū)域分割;(每個區(qū)域可為一個視覺單詞)提取每幅圖像的區(qū)域視覺區(qū)域視覺特征;(顏色、紋理、形狀等;即提取視覺單詞)將所有圖像的區(qū)域視覺區(qū)域視覺特征聚類; (即建立視覺單詞字典)用統(tǒng)計方法計算每個區(qū)域視覺區(qū)域視覺特征與標注詞的相關概率; (?)根據(jù)待標注圖像的區(qū)域視覺區(qū)域視覺特征對其標注最相關的幾個標注詞;(具體方法模型:Co-occurrence模型、翻譯模型、LDA、CMRM、CRM、MBRM模型)8 圖像標注的主要方法圖像標注的主要方法(3)基于圖學習的標注算法將已標注圖像和未標注圖像放在一起,將每一幅圖像視為一個

11、圖節(jié)點,以圖像間的相似關系作為邊,實現(xiàn)標注信息從已標注圖像到未知圖像的傳播,從而完成對待標注圖像的標注任務。同樣的方法也可用于標注詞,并依據(jù)標注詞之間的語義相關性進一步改善基于圖學習生成的標注。9 標注的評價指標標注的評價指標相關相關不相關不相關檢索到檢索到AB未檢索到未檢索到CD(1)查全率 = A/(A+C) (2)查準率 = A/(A+B)該評價指標主要借鑒于文本檢索領域的查全率和查準率,針對圖像的非精確度匹配原則,有待于尋找一種更適合的評價標準。10 WordNet在標注中的作用WordNet是由Princeton大學的心理學家、語言學家和計算機工程師聯(lián)合設計的一種基于認知語言學的英語

12、詞典。它按照單詞的語義將其組成一個“單詞網(wǎng)絡”,體現(xiàn)了不同單詞間的語義層次和關系(相近、對立、包容等)。在自然語言理解和人工智能的應用研究上都具有重要的價值。在圖像語義自動標注中,可以借助WordNet的結構化語義信息來衡量詞匯之間的關系,從而更好的選取適當?shù)恼Z義詞(生物、鳥類、白鴿),以及剔除冗余的語義詞(計算機、電腦)。11 課題研究可能的切入點課題研究可能的切入點(1)顏色、紋理、形狀這些底層特征間的權重、優(yōu)先序。(2)文本檢索比較成熟,從文本檢索中找一些啟發(fā)。(3)基于區(qū)域的不均勻塊分割(快速、易分割、位置相關)(4)基于視覺權重的圖像特征提?。ɑ谛睦韺W的視覺焦點)(5)從圖像+相關文本+人反饋的綜合角度提出新的方法思路,從質上改變鴻溝現(xiàn)狀。12 問題與疑惑問題與疑惑(1)“語義鴻溝”似乎永遠無法逾越,目前所有工作只是縮小“鴻溝”而已。人工標注的訓練集也不是最客觀、無“鴻溝”的。(特征語義,對象語義,空間關系語義,場景語義,行為語義以及情感語義)(2)若訓練集共有500個標注詞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論