論文——數(shù)據(jù)挖掘在圖像相似性檢索當中的應用_第1頁
論文——數(shù)據(jù)挖掘在圖像相似性檢索當中的應用_第2頁
論文——數(shù)據(jù)挖掘在圖像相似性檢索當中的應用_第3頁
論文——數(shù)據(jù)挖掘在圖像相似性檢索當中的應用_第4頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)挖掘結課 題 目 數(shù)據(jù)挖掘在圖像相似性檢索當中的應用 目錄1.引言32數(shù)據(jù)挖掘技術理論與發(fā)展33.圖像數(shù)據(jù)挖掘簡介53.1圖像數(shù)據(jù)挖掘的定義53.2圖像數(shù)據(jù)挖掘的過程54.數(shù)據(jù)挖掘在圖像相似檢索中的應用64.1基于特征描述的CBIR64.2數(shù)據(jù)挖掘在CBIR中的應用模型64.2.1關鍵字查詢模型84.2.2圖像查詢模型85總結9引用9數(shù)據(jù)挖掘在圖像相似性檢索當中的應用 摘要:隨著計算機網(wǎng)絡的發(fā)展,我們需要檢索的圖像內容也在迅猛的增加,互聯(lián)上的一些傳統(tǒng)的檢索方案無法滿足現(xiàn)在人們日益增加的要求。圖像數(shù)據(jù)挖掘就是在這樣的大環(huán)境中產生的。圖像數(shù)據(jù)挖掘是用來挖掘大規(guī)模的圖像數(shù)據(jù)中隱含的知識、圖像內或者圖像間的各種關系,以及其他隱藏在圖像數(shù)據(jù)中的各種模式的一種模式的一種技術。本文主要簡單的介紹了數(shù)據(jù)挖掘還有圖像數(shù)據(jù)挖掘的一些簡單的知識,以及數(shù)據(jù)挖掘在圖像相似檢索上的一些應用。關鍵詞:數(shù)據(jù)挖掘,圖像檢索,應用模型1.引言隨著科學技術的迅速發(fā)展,圖像的存儲,圖像的獲取,使得我們能夠便捷的獲取大量的有用的圖像數(shù)據(jù),例如:遙感數(shù)據(jù)圖像,醫(yī)療數(shù)據(jù)圖像等。可是隨著計算機網(wǎng)絡的發(fā)展,我們需要檢索的圖像內容也在迅猛的增加,互聯(lián)上的一些傳統(tǒng)的檢索方案無法滿足現(xiàn)在人們日益增加的要求。如何在日趨龐大的圖像數(shù)據(jù)當中挖掘出對于我們來說的有用的信息,并且利用這些信息中所含有的巨大的利用價值。圖像數(shù)據(jù)挖掘就是在這樣的大環(huán)境中產生的。圖像數(shù)據(jù)挖掘是用來挖掘大規(guī)模的圖像數(shù)據(jù)中隱含的知識、圖像內或者圖像間的各種關系,以及其他隱藏在圖像數(shù)據(jù)中的各種模式的一種模式的一種技術。早期的圖像數(shù)據(jù)挖掘僅僅就是針對圖像的某一些預處理,包括基于數(shù)據(jù)挖掘的圖像分割、基于數(shù)據(jù)挖掘的額圖像特征提取1。隨著圖像挖掘的發(fā)展,數(shù)據(jù)圖像挖掘的實現(xiàn),需要包括計算機視覺,圖像處理,圖像檢、數(shù)據(jù)挖掘,機器學習、數(shù)據(jù)庫和人工智能等的綜合學科共同實現(xiàn),其中某些領域已經發(fā)展地非常成熟, 而圖像挖掘到數(shù)據(jù)挖掘還在成長研究期, 處于經驗階段2。本文中我們主要介紹了數(shù)據(jù)挖掘的一些簡單的理論,圖像數(shù)據(jù)挖掘的一些簡單的相關知識,以及數(shù)據(jù)挖掘在圖像的相似性檢索上的一些簡單的應用模型。2.數(shù)據(jù)挖掘技術理論與發(fā)展 數(shù)據(jù)挖掘(Data Mining簡稱DM)又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery Database簡稱KDD),就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。目前KDD的主要對象仍然是關系數(shù)據(jù)庫3。數(shù)據(jù)挖掘的全過程定義描述如圖1.1所示 圖1.1知識挖掘全過程數(shù)據(jù)挖掘的過程主要包括以下四個步驟:(1)數(shù)據(jù)采集(2)數(shù)據(jù)預處理(3)數(shù)據(jù)采掘(4)評價、解釋模式模型 以上的數(shù)據(jù)挖掘過程是一個交互式的迭代的過程,其中需由用戶做出許多選擇,每一個步驟,一旦與預期目標不符,都要回到前面的步驟,重新調整,重新執(zhí)行。數(shù)據(jù)挖掘的實質就是從數(shù)據(jù)中發(fā)現(xiàn)未知的關系和模式,而發(fā)現(xiàn)的關系和模式就是我們的目標知識。數(shù)據(jù)是指一個有關事實的集合,它是用來描述事物有關方面的信息,一般說來這些數(shù)據(jù)應該是準確無誤的。模式是一個用語言來表示的一個表達式,它可以用來描述數(shù)據(jù)中數(shù)據(jù)的特性。3.圖像數(shù)據(jù)挖掘簡介3.1圖像數(shù)據(jù)挖掘的定義圖像數(shù)據(jù)挖掘(Image Mining,IM)是指從大規(guī)模的圖像集中提取或挖掘出有用的信息或知識4。從理論上來講,圖像數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的一個很重要的分支。盡管如此,圖像數(shù)據(jù)挖掘并不是傳統(tǒng)的數(shù)據(jù)挖掘理論和技術在圖像數(shù)據(jù)上的簡單的擴展或者延伸。因為圖像數(shù)據(jù)的組織結構有不同于其他數(shù)據(jù)的組織結構特點,因為,所涉及到的挖掘的方法,跟挖掘的領域知識比一般對數(shù)據(jù)挖掘的技術更加的廣泛3。圖像數(shù)據(jù)挖掘概念的兩個根本點是“大規(guī)模圖像集”和“提取挖掘出有用的信息和知識”。從“大規(guī)模圖像集”的角度,涉及到圖像獲取、圖像存儲、圖像壓縮、多媒體數(shù)據(jù)庫等領域5,6; 從“挖掘出有用的信息和知識”角度,其又涉及到圖像處理和分析、模式識別、計算機視覺、圖像檢索、機器學習、人工智能、知識表現(xiàn)等領域。因此,圖像數(shù)據(jù)挖掘是一個多學科交叉的新興領域,其所涉及到的其他領域大部分也都處于發(fā)展階段,其自身也是處于試驗階段。3.2圖像數(shù)據(jù)挖掘的過程本文提出的是一個基于目標識別的圖像挖掘的框架, 圖像挖掘在目標識別的基礎上實現(xiàn), 期望得到目標之間及目標和背景之間的潛在關系, 得到的潛在關系可以用于后續(xù)的目標識別的任務。圖像數(shù)據(jù)挖掘的一個關鍵的問題是圖像數(shù)據(jù)本身的表示問題,這也是圖像處理和模式識別的關鍵問題。一般可以用顏色、紋理等特征來表示圖像基本特征。高級概念可以看成是一種特征模式。比如、河流可認為是具有某種顏色特征的長條形;莊稼區(qū)可以認為是具有某種顏色分布和紋理特征的大片區(qū)域。底層的基本特征與高層概念之間必然存在著某種映射關系,這種關系可以用數(shù)據(jù)挖掘的方法來發(fā)現(xiàn)。圖像挖掘過程所示:4.數(shù)據(jù)挖掘在圖像相似檢索中的應用 4.1基于特征描述的CBIR文章的前面我們已經提到了,數(shù)據(jù)挖掘在圖像上的研究,就是為了從大規(guī)模的圖像集當中,提取挖掘出有用的信息和知識。本文主要就數(shù)據(jù)挖掘在我們圖像的相似性檢索上的具體應用。相似檢索系統(tǒng)主要有:基于描述的檢索系統(tǒng),基于內容的檢索系統(tǒng)(CBIR)。本文主要講的是基于內容的檢索系統(tǒng)?;趦热莸臋z索系統(tǒng)是通過對圖像的低級別特征如顏色構成、紋理、形狀等的匹配實現(xiàn)相似性搜索。對基于內容的檢索,通常有兩種查詢方法:基于圖像樣本的查詢,該方法找出所有與給定的圖像樣本相似的圖像。圖像特征描述查詢,該方法給出圖像的特征描述或概括并把其轉換為特征向量,與數(shù)據(jù)庫中已有的圖像特征向量相匹配3。本文主要講的是基于特征描述的CBIR。4.2數(shù)據(jù)挖掘在CBIR中的應用模型數(shù)據(jù)挖掘在CBIR中的應用模型,簡單來說就是我們輸入一個關鍵詞/一幅圖圖片,例如“小狗”,系統(tǒng)自動會在我們的左右圖片庫中查詢出所有與小狗有關系的圖片,并且返還給需要的用戶。聽起來確實就是我們會在搜索引擎用直接查詢圖片。可是現(xiàn)實生活中,我們的圖片庫數(shù)量龐大,我們并不可能做到,人工來對每一張圖片進行標識,比如一幅圖片,人工標記為:有小狗,有藍天,有太陽怎樣能夠準確,且全面的找到我們用戶所需要圖片,就需要我們的數(shù)據(jù)挖掘。數(shù)據(jù)挖掘就是提取有用的我們需要的信息。例如我們對圖像提取特征,發(fā)現(xiàn)所有有類似的一種特征的圖片可能是同一類圖片,然后計算機就能夠將這一類圖片標記出來,便于日后的查找。本文詳細建立的是一個以關鍵詞檢索圖片、以圖片檢索圖片的一個數(shù)據(jù)挖掘在CBIR上的應用模型。這個模型當中我們定義了幾個簡單的算法:(1) 圖像預處理圖像預處理算法并不是必須的,采用圖像預處理主要為了將圖像處理成為統(tǒng)一的大小,去噪或者其他一些操作,便于后面的操作。(2) 特征提取本文采用的特征提取算法為顏色直方圖。我們圖像每一個像素的顏色值是由RGB三個維度的三個值(每一個值的范圍為0255)來確定的,我們將一幅圖提取顏色特征就是根據(jù)在三個維度,每一個值的頻率來確定一個顏色直方圖。(3) 建立詞匯樹本文采用的是BOVW( Bag of vision Word), 顧名思義,即將某些Word打包,就像我們經常會把類似的物品裝到一個柜子,或者即使是隨意打包一些物品,也是為了我們能夠方便的攜帶,在對大數(shù)據(jù)作處理的時候,為了能夠方便的攜帶這些數(shù)據(jù)中的信息,與其一個一個的處理,還不如打包來的容易一點。(4) 建立一個挖掘模型挖掘模型,就是根據(jù)我們已經建立的一個詞匯樹,建立一個挖掘的模型,簡單來說就是一個視覺詞匯,我們會在后面標注:出自哪張圖片,代表的是什么物體等等一些我們所需要的信息。4.2.1關鍵字檢索模型以關鍵字,關鍵詞檢索圖片,顧名思義,就是輸入關鍵字、關鍵詞,系統(tǒng)根據(jù)關鍵字/詞找到相關的圖片返還給用戶。剛剛已經提到定義的一些算法,根據(jù)這些算法最后建立的一個挖掘模型,魔門就能夠很容易的實現(xiàn)我們的關鍵詞、關鍵字的檢索。如下圖所示,用戶輸入一個關鍵詞/字,我們會再建立的挖掘模型里,找到我們標注的有關的關鍵的所有詞,并且找出原圖,返還給我們的用戶。預處理圖片集圖片庫特征提取特征bovw詞匯樹挖掘模型關鍵詞相關圖片用戶4.2.2圖像檢索模型以圖片檢索圖片,就是我們用戶上傳或者輸入一張圖片,系統(tǒng)根據(jù)圖片找到相似的圖片返還給用戶。與關鍵詞/字檢索檢索相同的是,都是與建立的挖掘模型相似匹配。不同的是,系統(tǒng)在接收到用戶提交的查詢圖片,他首先用預先定義好的特征提取的算法對我們的圖片進行特征提取,特征提取之后,從我們建立的詞匯樹上找出一個最能夠代表這張圖片的一個視覺詞匯,然后用這張視覺詞匯在我們的挖掘模型上進行信息的匹配。我們的挖掘模型可以根據(jù)視覺單詞,還有一些計算方法,例如漢明句子,EMD距離等,找出最相近的K張圖(K是我們自己定義的常數(shù),這個k可以變化),返還給我們的用戶。圖片集圖片庫特征提取特征bovw詞匯樹挖掘模型待檢索圖片預處理處理后圖片特征提取特征視覺單詞分數(shù)功能最接近的k張圖用戶預處理5.總結本文簡單的介紹了數(shù)據(jù)挖掘的一些簡單的知識,同時也簡單的介紹了一些簡單的數(shù)據(jù)挖掘中的應用。根據(jù)現(xiàn)有的一些數(shù)據(jù)挖掘在圖像中的一些應用,建立了數(shù)據(jù)挖掘在基于內容的圖像檢索中的應用。本文就數(shù)據(jù)挖掘在圖像檢索中的兩個應用,并且提出了現(xiàn)在圖像處理中最常用的幾個算法來進行檢索。數(shù)據(jù)挖掘可以挖掘出很多有用的信息,數(shù)據(jù)挖掘近幾年來發(fā)展的很好,但是我覺得他可以應用的的地方遠遠超出了我們每一個人的想象。引用1 杜琳, 陳云亮, 朱靜. 圖像數(shù)據(jù)挖掘研究綜述J. 計算機應用與軟件, 2011, 28(2):125-128.2 薄華, 馬縛龍, 焦李成. 圖像數(shù)據(jù)挖掘的模型和技術J. 西安郵電大學學報, 2004, 9(3):81-85.3 王迪. 圖像數(shù)據(jù)挖掘的分類算法研究D. 長春理工大學, 2009.4 Zhang J,Hsu W,Lee M L Image mining: Issues, frameworks and techniquesC/ /International Workshop on Multimedia Data Mining ( withACM SIGKDD 2001) , 20015 Osmar R Zaiane,Jiawei Han,Ze Nian Li,et al MultimediaMiner: A System Prototype for Multimedia Data M

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論