版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、摘 要隨著多媒體技術(shù)及internet技術(shù)的迅速發(fā)展,各行各業(yè)對圖象的使用越來越廣泛,圖象信息資源的管理和檢索顯得越來越重要,其中基于內(nèi)容的圖象檢索(content based image retrieval, cbir)已經(jīng)成為近幾年來最活躍的研究領(lǐng)域只之一?;趦?nèi)容的圖象檢索技術(shù)是指利用圖象內(nèi)容對圖象進行查詢。圖象的內(nèi)容包括圖象的顏色特征、紋理特征、形狀特征等。本論文主要針對如何描述圖象內(nèi)容,準確、自動地提取特征,以及精確地對圖象內(nèi)容進行相似性度量。本文的主要工作和成果如下:針對基于內(nèi)容圖像檢索技術(shù)做了廣泛和深入的研究,介紹了國內(nèi)外cbir技術(shù)的歷史發(fā)展、最新進展及應(yīng)用狀況,討論了其面臨的
2、挑戰(zhàn)和問題;分析和研究了圖象檢索中的基本技術(shù),針對目前圖象數(shù)據(jù)庫的特點,提出了一種基于顏色和形狀特征的圖象檢索算法,并通過編程構(gòu)造了實驗系統(tǒng),驗證了算法的有效性;組織了一個相對完備的圖像測試數(shù)據(jù)庫,對各種方法的檢索性能進行了評測和比較,并對出現(xiàn)的問題進行了分析研究。本文構(gòu)造的實驗系統(tǒng)以文中提出的基于顏色和形狀特征的圖象檢索方法為主,共實現(xiàn)了兩種特征的索引和檢索方法,提供瀏覽檢索和跨庫檢索的功能,具有一定的實用性。關(guān)鍵詞:基于內(nèi)容的圖像檢索 cbir 基于顏色和形狀 相似性度量目 錄1 前言11.1 課題的背景與研究意義11.2 基于內(nèi)容的圖象檢索(content based image ret
3、rieval, cbir)的概念21.3 基于內(nèi)容的圖象檢索的應(yīng)用21.4 國內(nèi)外研究熱點及現(xiàn)狀31.5 基于內(nèi)容的圖象檢索面臨的挑戰(zhàn)和問題41.5.1 高維索引技術(shù)51.5.2 缺乏客觀的評價標準51.5.3計算機視覺、模式識別技術(shù)51.5.4web環(huán)境下的通用檢索方法51.5.5綜合檢索手段51.6 本文的主要研究工作51.7 論文的結(jié)構(gòu)62 基于內(nèi)容的圖象檢索的基本技術(shù)62.1 特征提取62.2 相似性度量82.3 檢索模式82.4 相關(guān)反饋92.5 性能評價102.6 系統(tǒng)結(jié)構(gòu)設(shè)計113基于不同特征的圖象檢索技術(shù)113.1 基于顏色特征的圖象檢索123.1.1 顏色空間的選擇123.1
4、.2 直方圖相交方法143.1.3 累積直方圖方法153.1.4 分塊主顏色方法153.1.5 顏色矩方法163.1.6 小結(jié)163.2 基于紋理特征的圖象檢索173.2.1 共生矩陣方法(co-matrix)173.2.2 小波變換方法(wavelet transform)173.2.3 小結(jié)183.3 基于形狀特征的圖象檢索183.3.1 基于輪廓特征的方法183.3.2 基于區(qū)域特征的方法193.3.3 區(qū)域約束方法203.3.4 小結(jié)204 基于顏色和形狀特征的圖象檢索204.1 前言204.2 檢索算法描述214.3 檢索算法實現(xiàn)214.3.1 顏色空間的選擇214.3.2 圖象分割
5、的實現(xiàn)214.3.3 區(qū)域顏色特征的提取224.3.4 區(qū)域形狀特征的提取234.3.5 相似性度量234.4系統(tǒng)實現(xiàn)244.4.1 系統(tǒng)框架244.4.2 圖象入庫254.4.3 圖象查詢264.5 實驗結(jié)果和分析285 總結(jié)29致 謝32參 考 文 獻33abstract36 361 前言伴隨網(wǎng)絡(luò)時代數(shù)字家庭概念的產(chǎn)生,20世紀90年代多媒體硬件和軟件技術(shù)得到迅速發(fā)展,多媒體已廣泛地應(yīng)用于多個領(lǐng)域,如公共信息業(yè)、廣告、教育、醫(yī)學(xué)、商業(yè)及娛樂等??色@取的圖像等多媒體數(shù)據(jù)急劇增長。如何組織、表達、存儲、管理、查詢和檢索這些海量的數(shù)據(jù),是對傳統(tǒng)數(shù)據(jù)庫技術(shù)的一個重大挑戰(zhàn)1。據(jù)統(tǒng)計,人類接受的外部信
6、息,70%以上來自視覺,圖像作為一種內(nèi)容豐富,表現(xiàn)直觀的多媒體信息被大量廣泛的使用,如何有效的管理、檢索圖像信息成為迫切需要解決的問題。因此,如何將數(shù)字圖像處理、模式識別技術(shù)、計算機視覺技術(shù)與傳統(tǒng)數(shù)據(jù)庫技術(shù)結(jié)合起來,建立高效的圖像檢索機制成為迫切需要解決的問題。1.1 課題的背景與研究意義傳統(tǒng)的圖象檢索技術(shù)是基于文本的檢索技術(shù),其檢索信息來源于與圖象相關(guān)的文本信息,如圖象的獲取日期、文件名、標引詞等。換句話說,圖象庫只有經(jīng)過標引之后才能成為可檢索信息。于是,對圖象的查詢變成了基于文本的查詢,這種方法的特點是簡單易行,但存在幾個根本的問題影響對圖象信息的有效使用2。首先,文字描述只是一種特定的抽
7、象,圖象所表現(xiàn)出來的豐富內(nèi)容是很難用文字表現(xiàn)出來的。圖象的獲取日期、文件名、標引詞等雖然可以提供有用的索引線索,但都不能完全抓取圖象的視覺信息。事實上,圖象內(nèi)容帶給人的信息是多方面的,人們是通過圖象的內(nèi)容特征比如顏色、紋理、目標形狀、分布位置等來記憶圖象的,沒有人是僅借助標號、文件名來記憶圖象的。其次,圖象標引存在很大的主觀性,不同的觀察者或同一個觀察者在不同條件下對同一幅圖象有不同的描述,因而文本標注不夠客觀,可能會出現(xiàn)用戶輸入的關(guān)鍵詞和數(shù)據(jù)庫中的關(guān)鍵詞不一致或該關(guān)鍵詞根本不存在的情況,這就造成查詢的失敗。另外,目前圖象的標引仍由人工完成,隨著圖象數(shù)據(jù)的來源越來越廣泛,數(shù)量越來越大,這種費時
8、費力的方法猶如杯水車薪,不能滿足日益增長的需要。為了解決以上問題,就需要全面的、客觀的來提取圖象內(nèi)容。事實上,人們利用圖象不僅僅是利用其視覺質(zhì)量,更重要的是利用其視覺內(nèi)容,所有只有根據(jù)內(nèi)容進行檢索才可能有效地獲得所需的視覺信息。例如,商標是否雷同主要看商標的圖案,僅僅靠商標的文字標簽是不能解決問題的,把商標的圖案信息提取出來才可能有效地比較不同的商標。綜上所述,只有根據(jù)圖象的內(nèi)容來檢索,才可能有效的獲取所需要的信息,同時只有在掌握圖象內(nèi)容的基礎(chǔ)上,圖象數(shù)據(jù)庫中的信息才可以得到有效的管理。基于內(nèi)容的圖象檢索技術(shù)就是在這樣的需求下被逐步重視起來的。基于內(nèi)容的圖象檢索技術(shù)涉及數(shù)學(xué)、心理學(xué)等學(xué)科,涉及
9、圖象處理、計算機、數(shù)據(jù)庫等信息技術(shù),有著廣闊的應(yīng)用前景,并且仍有許多關(guān)鍵技術(shù)沒有解決或不夠完善,因此,研究該項技術(shù)既有深遠的意義,也將面臨巨大的挑戰(zhàn)。1.2 基于內(nèi)容的圖象檢索(content based image retrieval, cbir)的概念基于內(nèi)容的圖像檢索(cbir)就是一項從圖像數(shù)據(jù)庫中找出與檢索式內(nèi)容相似的圖像的檢索技術(shù)。它利用從圖像中自動抽取出來的底層特征,如顏色、紋理、輪廓和形狀等特征,進行計算和比較,檢索出符合用戶需求的結(jié)果圖像集,且其檢索結(jié)果可以借鑒文本檢索技術(shù)中的相關(guān)反饋技術(shù)得到優(yōu)化提高。目前圖像檢索系統(tǒng)技術(shù)實現(xiàn)的基礎(chǔ)是對底層特征信息的計算和比較,也即是“視覺相
10、似”。 3 圖像的內(nèi)容包括圖像的視覺信息等物理特征,還包括視覺特征所帶來的高層語義特征。物理特征屬于低層視覺信息,主要包括顏色、紋理、形狀;語義信息屬于圖像的高層視覺信息,主要包括對象、空間關(guān)系、場景、行為、情感等圖像內(nèi)容?;趦?nèi)容的圖像檢索的目的一般可為三類:(1)準確查詢,找出一致的復(fù)制件;(2)范圍查詢,找出與輸入圖像特征相差在一定范圍內(nèi)的圖像;(3)k-最近鄰查詢,根據(jù)輸入圖像與待檢測圖像的相似度對檢索結(jié)果進行排序2。1.3 基于內(nèi)容的圖象檢索的應(yīng)用對圖像內(nèi)容檢索的研究起步于二十世紀80年代,到了網(wǎng)絡(luò)技術(shù)逐漸普及的90年代才取得較大的突破,多種成果開始轉(zhuǎn)化為應(yīng)用技術(shù),而日益增長的應(yīng)用需
11、求反過來推動其研究向更高的層次發(fā)展。如下領(lǐng)域開始應(yīng)用和驅(qū)動圖像檢索技術(shù)的發(fā)展。防止犯罪等司法部門。應(yīng)用人臉識別技術(shù),根據(jù)專家對犯罪嫌疑人的頭像特征的描繪圖像,定位犯罪人的真實面目。軍事領(lǐng)域??梢杂糜谖淦鞯木_制導(dǎo),通過實時獲取的圖像信息,對其進行解譯,保證打擊的準確性。版權(quán)保護領(lǐng)域。針對商標與設(shè)計專利類的圖像進行檢索,防止專利糾紛的產(chǎn)生。建筑和工程設(shè)計。通過對建筑及工程設(shè)計物體的圖像檢索,可以聚類相同風(fēng)格特色的建筑及工程設(shè)計產(chǎn)品。廣告業(yè)、藝術(shù)設(shè)計。應(yīng)用圖像檢索,可以找到需要的各種素材,進行藝術(shù)設(shè)計的再創(chuàng)造。醫(yī)學(xué)領(lǐng)域。對各種醫(yī)學(xué)透視ct圖像進行檢索,可以快速定位類似病例,及時快速的幫助病人找到病
12、因,會對臨床、醫(yī)學(xué)研究、遠程醫(yī)療、異地會診乃至醫(yī)學(xué)教育等方面產(chǎn)生積極和深遠的影響。古生物學(xué)、考古學(xué)。通過對古生物化石圖像的解釋,確定古生物所屬類型等信息,便于發(fā)現(xiàn)新的物種;應(yīng)用于古文物的圖像檢索,通過對比,簽定文物的真?zhèn)?、所屬歷史時期等。地理信息系統(tǒng)和遙感。對遙感圖像的檢索,主要是解譯影像數(shù)據(jù)中的建筑、村莊、耕地等不同種類地物信息,制作實時、準確、逼真效果的專題圖件,應(yīng)用于地理信息系統(tǒng)中矢量處理模塊。安全技術(shù)。應(yīng)用指紋、眼膜識別技術(shù),對用戶的指紋或者眼膜提取圖像特征進行匹配,鑒定用戶真實身份。總之,cbir技術(shù)是一項快速發(fā)展的頗具發(fā)展?jié)摿Φ那罢靶约夹g(shù),在許多領(lǐng)域都具有很高的應(yīng)用價值。1.4 國
13、內(nèi)外研究熱點及現(xiàn)狀近年來,cbir已經(jīng)成為一個非?;钴S的研究領(lǐng)域,各國科研機構(gòu)與公司已陸續(xù)推出了一些cbir系統(tǒng)的產(chǎn)品4,有的已經(jīng)成功應(yīng)用到醫(yī)學(xué)、商標、專利檢索等領(lǐng)域。1) qbic5,6ibm 的qbic(query by image content) 是第一個商業(yè)性的cbir 系統(tǒng)。它提供了基于顏色、紋理、形狀和手繪草圖的圖像索引方法。顏色特征的表達采用了平均色和顏色直方圖兩種方法;紋理特征的表達采用了紋理的粗糙度、對比度和方向性三者的綜合。目前,qbic 系統(tǒng)的基于內(nèi)容檢索技術(shù)已經(jīng)在ibm 數(shù)字圖書館中得到了應(yīng)用,實現(xiàn)了自動索引、
14、歸并、對比、特征抽取和翻譯功能。2) visual seek & web seek7/afchang/demos.htmlcolumbia 大學(xué)的visual seek 提供了基于色彩和紋理的索引方法. 在visual seek 中,整幅圖像色彩的分布使用了全局色彩直方圖,區(qū)域色彩的索引采用二進制色彩集表達方法. 它采用基于小波變換的方法來表示圖像的紋理特征. 為加快檢索速度,還開發(fā)出了基于二叉樹的索引算法. 該系統(tǒng)具有java 瀏覽器,可以在sgl 、sun 和ibm pc平臺上運行。3) photobook8,9http:/vismod.m
15、/vismod/demos/photobookphotobook 是麻省理工學(xué)院(mit) 媒體實驗室開發(fā)的一套檢索、瀏覽圖像的交互式工具,它包含三個子系統(tǒng)分別提取形狀、紋理和人臉特征,用戶可以分別做基于上述一種特征的檢索. 由于目前還沒有一種特征可以很好地對圖像建模,在photobook的最新版本foureyes 中,picard 等提出將人也包括在圖像的標注和檢索過程中,實驗結(jié)果顯示這種方法對圖像的自動標注很有效。4) mars10,11:8080mars (multimedia analysis and retri
16、eval system)系統(tǒng)由美國uiuc 大學(xué)開發(fā),其不同之處在于用到了很多領(lǐng)域的知識:計算機視覺、數(shù)據(jù)庫管理系統(tǒng)和信息檢索. mars 系統(tǒng)的注重點不在于單個的最佳特征表示,而在于如何將不同的視覺特征組織成有意義的檢索體系,以動態(tài)適應(yīng)不同的用戶及應(yīng)用場合。mars 系統(tǒng)是正式提出相關(guān)反饋的系統(tǒng),它將相關(guān)反饋技術(shù)集成到檢索的不同層次過程中。5) core新加坡國立大學(xué)開發(fā)的一個基于內(nèi)容的圖像檢索系統(tǒng),其顯著技術(shù)特色包括:多種特征提取方法、多種基于內(nèi)容檢索方法、使用自組織神經(jīng)網(wǎng)絡(luò)對復(fù)雜特征度量、建立基于內(nèi)容索引的新方法以及對多媒體信息進行模糊檢索的新技術(shù)。6) imgretr12雖然國內(nèi)在圖像
17、檢索技術(shù)方面的研究起步較晚,但是清華大學(xué)、中國科學(xué)技術(shù)大學(xué)等院校都先后取得一定的研究成果。其中清華大學(xué)的imgretr結(jié)合了多種組織方法,能提供基于主色、紋理、直方圖、顏色分布、框架等多種方式的檢索。中國科學(xué)技術(shù)大學(xué)計算機系研制的用于個性化圖像檢索和服裝設(shè)計的情感信息獲取系統(tǒng)于2002年12月順利通過安徽省科技廳鑒定。1.5 基于內(nèi)容的圖象檢索面臨的挑戰(zhàn)和問題1.5.1 高維索引技術(shù)一幅圖像的特征多種多樣,而且某些特征的索引無法用一個量化值來表示,必須應(yīng)用多維矢量,導(dǎo)致在綜合多特征的檢索中,特征矢量更是高達102 量級,大大多于常規(guī)數(shù)據(jù)庫的索引能力,因此,需要研究新的索引結(jié)構(gòu)和算法,以高效地支
18、持多特征、異構(gòu)特征、權(quán)重、主鍵特征方面的查詢要求1。1.5.2 缺乏客觀的評價標準目前基于內(nèi)容檢索結(jié)果的評價方法采用的是傳統(tǒng)信息檢索領(lǐng)域的查全率和查準率。人在使用系統(tǒng)時采取的檢索手段十分有限,人對圖像內(nèi)容認知上的主觀性使得很難定義一個客觀的標準,因而很難定義一個好的評價方法。同時,對于檢索效率的評價也將是今后研究中需要解決的問題。1.5.3 計算機視覺、模式識別技術(shù)在上述提到的基于形狀和基于對象及其空間關(guān)系等高層語義檢索中,如何識別圖像上的各個對象是檢索的基礎(chǔ),這涉及到圖像處理、圖像理解等計算機視覺和人工智能領(lǐng)域的模式識別技術(shù),由于這些技術(shù)本身仍然不成熟,導(dǎo)致檢索陷入尷尬的境地,無法深入開展下
19、去。1.5.4 web環(huán)境下的通用檢索方法網(wǎng)絡(luò)環(huán)境下,圖像文件的自動獲取與普通html文檔的抓取沒有什么本質(zhì)區(qū)別,不同之處在于網(wǎng)絡(luò)環(huán)境下存在著不同格式、大小、類型及不同領(lǐng)域內(nèi)的海量多元圖像,這決定了cbir系統(tǒng)中索引過程的復(fù)雜性,同時從用戶體驗的角度講,網(wǎng)絡(luò)環(huán)境下用戶對響應(yīng)時間的要求比較苛刻。尋找一個高效、通用的檢索方法,以及符合用戶交互習(xí)慣的檢索流程,是web環(huán)境下cbir系統(tǒng)必須解決的問題。1.5.5 綜合檢索手段基于圖像低層視覺特征的檢索和基于圖像語義特征的檢索等方面均有了一定的成果,如何實現(xiàn)融合低層視覺特征和高層語義特征的多特征綜合檢索將是今后研究的重點。解決從低層視覺特征到高層語義的
20、映射,縮短人機之間對相似圖像理解的差距。此外,系統(tǒng)應(yīng)該具有自適應(yīng)學(xué)習(xí)能力,能夠在檢索交互中理解用戶的語意,及使檢索性能更接近人類視覺的特性。1.6 本文的主要研究工作本文深入研究了國內(nèi)外cbir技術(shù)的歷史發(fā)展、最新進展及應(yīng)用狀況,對基于內(nèi)容的圖象檢索系統(tǒng)進行了介紹,分析和研究了圖象檢索中的基本技術(shù),包括各種特征提取、相似性度量、檢索模式、相關(guān)反饋、性能評介及其系統(tǒng)結(jié)構(gòu)設(shè)計。圖象特征提取技術(shù)和相似性度量技術(shù)都屬于基于內(nèi)容的圖象檢索技術(shù)的核心問題。本文主要針對這兩個問題,研究如何描述圖象內(nèi)容,準確、自動的提取特征,以及精確的對圖象內(nèi)容進行相似性度量。本文提出了一種基于顏色和形狀特征的圖象檢索方法。
21、實驗證明這種方法比基于顏色特征的圖象檢索和基于形狀特征的圖象檢索具有明顯的優(yōu)越性;另外,本文提出了一種適合本文的形狀的相似性度量方法,大量的實驗證明了該方法的有效性。作者根據(jù)上述的檢索方法設(shè)計了一個簡單的圖象檢索系統(tǒng),該系統(tǒng)可視性好,檢索直觀、方便,可支持瀏覽查詢和示例查詢。1.7 論文的結(jié)構(gòu)本文共分五章,組織結(jié)構(gòu)如下:第一章介紹cbir技術(shù)的來龍去脈,包括其背景、研究意義、概念和應(yīng)用,以及國內(nèi)外的研究的熱點和現(xiàn)狀、面臨的挑戰(zhàn)和問題。第二章從宏觀角度介紹cbir的幾項基本技術(shù)模塊,指出其關(guān)鍵技術(shù)所在。第三章從微觀角度和技術(shù)本身介紹幾種具體的檢索技術(shù),包括基于顏色、紋理和形狀特征的檢索算法,并比
22、較它們各自的優(yōu)缺點。第四章研究綜合檢索手段下的cbir技術(shù),并提出一種基于顏色和形狀特征的圖象檢索技術(shù)。介紹基于顏色和形狀特征的圖象檢索系統(tǒng)的總體設(shè)計和具體實現(xiàn),并組織了測試圖像數(shù)據(jù)庫,進行了多項實驗比較,給出了測試結(jié)果及分析。第五章是對全文的總結(jié),分析了cbir技術(shù)的特點,總結(jié)了本文的創(chuàng)新點,展望了cbir技術(shù)未來的發(fā)展趨勢。2 基于內(nèi)容的圖象檢索的基本技術(shù) cbir的基本技術(shù)包括:特征提取、相似性度量、檢索模式、相關(guān)反饋和性能評價、系統(tǒng)結(jié)構(gòu)設(shè)計幾個方面13-19。2.1 特征提取與文本檢索相比,cbir技術(shù)使用了完全不同的檢索策略。圖象內(nèi)容的特征信息預(yù)先提取出來存入特征數(shù)據(jù)庫,檢索時通過匹
23、配示例圖象和庫中圖象的特征信息來判斷二者的相似程度。所以,如何準確有效地抽取圖象的特征信息是cbir技術(shù)的重點。特征抽取的好壞將直接影響圖象的匹配和檢索效果。作為一幅靜態(tài)圖像,它有許多可以用來進行檢索的特征,這些特征內(nèi)容可以理解為一個簡化了的層次模型20。如圖2.1所示,第一層是圖像的底層物理特征,如顏色、紋理、輪廓和形狀等;第二層是邏輯語義特征,反映了圖像所描述對象的標識及其空間關(guān)系等;第三層是抽象語義特征,是人們對圖像內(nèi)容在認知層次的概括和描述。圖2.1 圖像特征的層次模型根據(jù)圖像特征的層次模型,eakins把用戶的檢索需求也分為三個層次21:第1個層次:根據(jù)圖像的顏色、紋理、形狀或輪廓等
24、原始特征構(gòu)成檢索式。這樣的檢索例子為:“查找一張藍色占60%的圖片”,或“檢索一張含有橢圓狀物體的圖片”,或者“檢索一張和這張圖像相似的圖片”等。第2個層次:根據(jù)圖像的邏輯特征信息,包括圖像所含對象及其相互關(guān)系來構(gòu)成檢索式。這個層次的檢索需求可以是檢索一個既定類型的物體,比如“找一張航天飛機的圖片”,也可以是檢索一個獨一無二的人或物,比如“找一張自由女神像的圖片”。這個層次的檢索需求要比第1層次的更容易碰到,要回答這一類檢索需求,就必須獲得圖像邏輯特征在計算機內(nèi)部的適當(dāng)表示,這就需要存儲在圖像外部的知識信息了。第3個層次:根據(jù)圖像的抽象特征構(gòu)成檢索式,包括物體或場景的描述以及由此推理出來的場景
25、語義、行為語義和情感語義,這個層次的檢索需求可以是檢索被命名的事件或活動,比如“查找蘇格蘭民間舞蹈的照片”,也可以是檢索具有情緒特點的圖像,比如“查找一張描述痛苦的圖片”。要回答這一類檢索需求,就需要復(fù)雜的推理和主觀判斷,需要抽象的描述圖像內(nèi)容。這類推理和判斷往往建立在知識學(xué)習(xí)的基礎(chǔ)之上,需要用到機器學(xué)習(xí)和人工智能等方面的知識。此類檢索需求常見于報紙和圖書館領(lǐng)域。許多學(xué)者把第2和第3層次的圖像檢索概括為“語義層次”的圖像檢索,而把第1層次和“語義層次”之間的距離稱作圖像檢索的“語義鴻溝”。目前cbir技術(shù)的特征提取技術(shù)仍然集中在顏色、紋理、形狀、輪廓等底層物理特征的基礎(chǔ)上。2.2 相似性度量圖
26、像的特征信息被抽取出來后將以向量的形式存放在索引庫中,向量的每個值代表圖像的某一個特征值,這樣一幅圖像的特征就可以用一個n維特征空間里的向量來表示。同時,查詢向量也可以表達為特征空間中的點,稱為查詢點,從而圖像之間的相似性計算就轉(zhuǎn)化為特征向量之間的相似性計算。要計算向量形似性程度,需要一定的計量或測量方法。常用的距離函數(shù)主要是歐氏距離de,和城區(qū)距離dc。 式(2.1) 式(2.2)de和dc都可看作是如下minkowsky距離 式(2.3)的特例。在具體的檢索應(yīng)用系統(tǒng)中,采用哪種距離度量方法要視具體情況而定,上述minkowsky距離因為其計算簡單效果好而比較常用。具體的應(yīng)用還可以將不同的距
27、離測度方式組合起來構(gòu)成復(fù)合測度以增強應(yīng)用的靈活性。例如求加權(quán)和、最大值、最小值等,通常在不同的應(yīng)用需求下有不同的相似性計算法則。2.3 檢索模式對用戶來講,基于內(nèi)容圖像檢索系統(tǒng)的查詢方式多種多樣,許多商業(yè)性和研究性的系統(tǒng)都提供了以下一種或幾種方式的組合:按特征查詢、按示例查詢、按關(guān)鍵字查詢、瀏覽查詢和草圖查詢。按特征查詢。用戶提供圖像的具體特征,這些特征包括顏色、紋理、形狀、輪廓、空間關(guān)系等,可以是單個的也可以是復(fù)合的特征,各種特征還可以附加不同的權(quán)值。例如,“查找藍色占50%,紅色占50%的圖片”。這種方式在ibm的qbic系統(tǒng)5里得到了較好的實現(xiàn)。按示例查詢。這種方式需要用戶提供一幅示例圖
28、像,查詢系統(tǒng)根據(jù)示例圖像自動提取其特征,然后在圖像庫中找出與示例相似的圖像。這種方式為用戶提供了一種簡便的方式來表達圖像的內(nèi)容。按關(guān)鍵字查詢。用戶可以把關(guān)鍵字作為檢索入口,把檢索結(jié)果中感興趣的目標作為檢索圖像再進行示例查詢。這種方式需要對圖像做文本索引,需要文本檢索技術(shù)和內(nèi)容檢索技術(shù)的有機結(jié)合來實現(xiàn)。瀏覽查詢。當(dāng)用戶要查找的圖像比較含糊、不熟悉其具體內(nèi)容時,可以先按系統(tǒng)的分類體系瀏覽圖像庫,待發(fā)現(xiàn)感興趣的目標后再做示例查詢。草圖查詢。系統(tǒng)提供一個可以畫草圖的窗口,用戶將想要查找的圖像以草圖的形式畫出來并染上相應(yīng)的顏色,系統(tǒng)從中抽取特征進行檢索。這種方式能提供給用戶更大的想象和發(fā)揮空間,qbic
29、系統(tǒng)中提供了這種查詢方式。2.4 相關(guān)反饋由于目前cbir技術(shù)中所抽取的圖像特征基本上是圖像的底層視覺特征,它們與圖像的實際語義是脫離的,因而還沒有能力辨別出圖像中所包含的物體。所以,無論采用哪種特征、采用哪種距離測度規(guī)則,最終決定兩幅圖像是否相似還取決于用戶。所以,檢索系統(tǒng)需要一種能夠使計算機適應(yīng)和學(xué)習(xí)用戶需求的機制,從而實現(xiàn)更好的查詢效果。相關(guān)反饋是一種有效的機制,它可以使系統(tǒng)更準確的把握用戶的檢索需求,幫助用戶找到想要找的圖片。相關(guān)反饋是一個指導(dǎo)性的學(xué)習(xí)過程,其目標是從用戶與查詢系統(tǒng)實際交互過程中進行學(xué)習(xí),發(fā)現(xiàn)并捕捉用戶實際意圖,并以此修整系統(tǒng)的查詢策略,得到更好的查詢結(jié)果的機制22,2
30、3,24。相關(guān)反饋技術(shù)在文本檢索技術(shù)領(lǐng)域里已經(jīng)有了比較成熟的應(yīng)用。它的一般的實現(xiàn)模式是:用戶在檢索結(jié)果中選擇一組符合要求和一組不符合要求的圖像分別作為正負反饋提交給系統(tǒng),系統(tǒng)根據(jù)正負反饋結(jié)果的共同特征進行檢索優(yōu)化并再次輸出結(jié)果,如此反復(fù),直到用戶滿意為止。對于采用向量空間模型的系統(tǒng),相關(guān)反饋技術(shù)一般采用兩種策略:一是查詢向量優(yōu)化,二是調(diào)整距離測度策略。查詢向量優(yōu)化算法的本質(zhì)是根據(jù)用戶的反饋信息調(diào)整查詢點,使之更接近正反饋所在特征空間的點,同時遠離負反饋所對應(yīng)的點。優(yōu)化后的查詢通常能夠得到明顯優(yōu)于前一次查詢的結(jié)果。調(diào)整距離測度的策略通常通過調(diào)整權(quán)重的方法實現(xiàn)。每個圖像都對應(yīng)一個多維特征向量,檢索
31、開始時各個維度上的權(quán)重是相等的,在相關(guān)反饋中,如果所有正反饋在某個維度上的值相差很大,則認為這個維度和用戶查詢的關(guān)系不大,可以降低其權(quán)重,反之則增大其權(quán)重。mars系統(tǒng)很好的實現(xiàn)了這個策略。相關(guān)反饋方法不僅可以提高檢索精度,還可以實現(xiàn)接近于語義層次檢索的效果。ifind系統(tǒng)使用語義傳遞方法來達到這個目的,它結(jié)合了用關(guān)鍵詞檢索和用圖像示例檢索兩種方法:事先對一小部分圖像做關(guān)鍵詞標引,然后通過用戶的相關(guān)反饋操作,傳遞關(guān)鍵詞給所有正反饋圖像,并付給權(quán)值或增加其權(quán)值,同時減小與負反饋圖像相關(guān)聯(lián)的關(guān)鍵詞權(quán)值或取消此關(guān)聯(lián)。在經(jīng)過足夠多次的學(xué)習(xí)訓(xùn)練之后,系統(tǒng)會建立起相對真實的語義映射網(wǎng)絡(luò),在將來的檢索事件中
32、,結(jié)合語義映射網(wǎng)絡(luò)來返回結(jié)果圖像,以此來達到語義檢索的目的。2.5 性能評價衡量一個檢索系統(tǒng)好壞需要一個公正的性能評價標準。對信息檢索的性能評價早在20世紀50年代就已開始,在文本信息檢索系統(tǒng)中得到了較好的應(yīng)用。在圖像檢索領(lǐng)域里,同樣也使用查準率(precision)、查全率(recall)以及檢索速度為評價準則25。通常檢索結(jié)果可以總結(jié)出以下4個參數(shù):用戶評判相關(guān)不相關(guān)檢索到的a(正確結(jié)果)b(誤檢)沒檢索到的c(漏檢)d(正確排除)表2.1 性能評價標準設(shè)檢索時間是t,則查準率、查全率、檢索速度的定義如下: 式(2.4) 式(2.5) 式(2.6) 式(2.7) 式(2.8)2.6 系統(tǒng)結(jié)
33、構(gòu)設(shè)計一個實用的基于內(nèi)容的圖像檢索系統(tǒng)需要合理的框架結(jié)構(gòu),需要眾多模塊的合理組織。它包括圖像數(shù)據(jù)庫管理模塊、人機接口模塊、相似性度量和相關(guān)反饋等模塊,一個典型的系統(tǒng)結(jié)構(gòu)如圖2.1所示:在離線狀態(tài)下,圖像數(shù)據(jù)庫管理系統(tǒng)對圖像庫做特征抽取和索引構(gòu)建,特征信息存儲在特征數(shù)據(jù)庫里。在線狀態(tài)下,用戶通過人機界面提交特征信息或示例圖像給檢索系統(tǒng),檢索系統(tǒng)提取其特征并與索引庫里的圖像特征做匹配計算,將符合檢索閾值要求的圖像返回給用戶,檢索結(jié)果通常按相似度從大到小的順序排列。假如第一次檢索結(jié)果并不令人滿意,則用戶根據(jù)判斷提交正負反饋給系統(tǒng),檢索系統(tǒng)通過二次匹配,返回更加準確的結(jié)果,如果需要,可以多次反饋,直到
34、用戶滿意為止。特征庫圖像庫特征提取檢索結(jié)果相關(guān)反饋相似性度量特征集合示例圖像特征提取人機接口相似性度量結(jié)果輸出和相關(guān)反饋圖像數(shù)據(jù)庫管理圖2.2 基于內(nèi)容圖像檢索系統(tǒng)的結(jié)構(gòu)3 基于不同特征的圖象檢索技術(shù)目前基于內(nèi)容的圖象檢索技術(shù)仍然集中在對顏色、紋理、形狀等低層圖象特征提取的基礎(chǔ)上 2。3.1 基于顏色特征的圖象檢索顏色是圖像的一種重要視覺性質(zhì),最先被用于cbir技術(shù)。一般來講,圖像的顏色特征比較明確,抽取也相對容易,所以在圖像檢索中得到廣泛的重視和研究,已有很多算法被先后提出。對于基于顏色特征的檢索方法來講,一方面,選擇一個合適的顏色特征表達方式很重要,另一方面,對顏色特征的表達依賴于所使用的
35、顏色模型,并不是所有的顏色空間都與人的感覺相一致。本節(jié)首先介紹幾種典型的顏色空間,然后介紹幾種基于顏色特征的檢索方法。3.1.1 顏色空間的選擇顏色空間根據(jù)其用途可以分為兩大類,一是面向硬件設(shè)備的顏色空間,一是面向感知或者顏色分析應(yīng)用的顏色空間。1rgb模型rgb顏色模型是面向硬件設(shè)備的模型,它與人的視覺系統(tǒng)結(jié)構(gòu)密切相關(guān)。根據(jù)人眼結(jié)構(gòu),所有的顏色都可看作是3個基本顏色紅、綠、籃的不同組合。rgb模型可以建立在笛卡爾坐標系里,如圖3.1所示:brg圖3.1 rgb顏色空間模型其中3個軸分別為r、g、b。rgb模型的空間是個正方體,原點對應(yīng)黑色,離原點最遠的頂點對應(yīng)白色,其余各點對應(yīng)不同的顏色,可
36、用從原點到該點的向量(r,g,b)表示。2cmy模型cmy模型也是面向硬件設(shè)備的模型,主要用于彩色打印,它的三個分量分別是:藍綠(c,cyan),品紅(m,magenta),黃(y,yellow),這3種顏色可分別通過從白光中減去3種基色而得到。從cmy空間到rgb空間的近似的轉(zhuǎn)換關(guān)系為: 式(3.1) 式(3.2) 式(3.3)3hsi模型hsi模型是面向感知和彩色處理最常用的模型,其中h表示色度(hue),s表示飽和度(saturation),i表示密度(intensity),也叫亮度。hsi模型的空間坐標系統(tǒng)如圖3.2所示:藍h=240。黑 i = 0綠h=120。白 i = 1h =
37、0。 紅i圖3.2 hsi顏色空間模型色度h由顏色的名稱來辨別,如紅、橙、綠,它用角度-180180或0360來度量;飽和度s指顏色的深淺,例如同樣是紅色,也會因濃度不同而分為深紅和淺紅,它也用百分比來度量,從0%到完全飽和的100%。密度i是顏色的明暗程度,通常用百分比度量,從黑0%到白100%;對其中任意一點p,其h值對應(yīng)指向該點的向量與水平軸的夾角,s值對應(yīng)指向該點的向量的長度,i值對應(yīng)該點所在平面距離最下端黑色點的距離。這里需要注意兩點,一是亮度分量與色度分量是無關(guān)的,即i分量與色彩信息無關(guān)。二是h和s分量與人感受色彩的方式緊密相連。這兩個特點使得hsi模型非常適合基于人的視覺系統(tǒng)對色
38、彩感知特定進行處理分析的算法。從圖像中得到的一般是像素的rgb值,rgb值可以很方便的轉(zhuǎn)換成hsi值,轉(zhuǎn)換公式如下: 式(3.4) 式(3.5) 式(3.6)java語言的api直接提供了從rgb空間到hsi空間的轉(zhuǎn)換函數(shù),可以方便的使用。該顏色空間中兩種顏色c1(h1,s1,i1)和c2(h2,s2,i2)之間的距離為: 式(3.7)hsi顏色空間因其固有的良好感知特性而得到了廣泛采用,本文的實驗系統(tǒng)采用的就是hsi顏色模型。4lab模型lab顏色模型是面向視覺感知的模型,同時也是視覺感知均勻的顏色模型,意思是指人所感知到的兩個顏色的差別和這兩個顏色在顏色空間里的歐氏距離成比例。從圖像處理的
39、角度來看,這種對顏色的描述與人對顏色的感知相接近的顏色空間更適合于圖像處理的應(yīng)用。3.1.2 直方圖相交方法最早使用顏色特征進行檢索的方法是swain和ballad提出的直方圖相交的方法26。顏色直方圖是一個一維的離散函數(shù),即 式(3.8)其中k代表圖像的特征取值,l是特征可取的個數(shù),nk是圖像中具有特征值為k的象素的個數(shù),n是圖像象素的總數(shù)。設(shè)hq和hd分別為查詢圖像q和庫中圖像d的統(tǒng)計直方圖,則兩圖之間的匹配值可以用下式計算: 式(3.9)它描述的是兩個直方圖的交集部分占查詢圖像的百分比,如圖3.3所示:%2550查詢圖q目標圖d圖3.3 直方圖相交求相似度這種方法的優(yōu)點是簡單易行,且具有
40、旋轉(zhuǎn)不變性,但由于色彩直方圖不包含顏色的空間信息,因而兩個顏色數(shù)量信息相近的圖像可能在外觀上有很大不同,而這種方法并不能辨別。例如,全家福照片中,你站在左邊和你站在右邊得到的圖像是不一樣的,但直方圖是一樣的,所以這種方法認為兩者是相似的。正是由于這個缺陷的存在,所以很多人提出了改進方法。3.1.3 累積直方圖方法stricker和orengo提出了累積直方圖的方法27,通過證明指出了這種方法優(yōu)于傳統(tǒng)的色彩直方圖方法。累積直方圖也是一個一維的離散函數(shù): 式(3.10)累積直方圖能大大減少原統(tǒng)計直方圖中的零值數(shù)量,并能較好的解決量化所帶來的顏色鑒別能力差的問題,使兩種顏色在特征軸上的距離將保持與它
41、們之間的相似度成正比,所以,累積直方圖的效果要好于統(tǒng)計直方圖的效果。3.1.4 分塊主顏色方法hsu提出了分塊主顏色技術(shù)28,29,30,其主要思想是把圖像劃分成一定數(shù)目的矩形區(qū)域,在每個區(qū)域里計算出平均色作為代表色,或者計算出像素數(shù)目最多的那種顏色作為代表色,兩個圖像間的相似度是兩個圖像間具有相似色彩區(qū)域的重疊程度。實現(xiàn)時可先計算出對應(yīng)分塊主顏色間的距離,進而計算兩個圖像間的距離。設(shè)查詢圖像q和庫中圖像d均被分為n*n的分塊,和分別為第k分塊的主顏色,則兩個圖像間的距離為: 式(3.11)值得注意的是,盡可能讓表現(xiàn)圖像內(nèi)容的主題位于同一個分塊是一種好的選擇。但由于對要處理的圖像缺乏先驗知識,
42、所以很難知道主題畫面是否被劃分到了一個分塊。所以預(yù)先準備多個可選擇的分辨率,對相似度加權(quán)求和是不錯的改進措施,將來還可以通過相關(guān)反饋改變加權(quán)系數(shù),以求最佳的檢索效果。3.1.5 顏色矩方法stricker和orengo還提出了顏色矩的方法27,認為圖像的顏色信息主要包含在色彩的低階矩中,他們對圖像的每個色彩分量分別計算一階,二階,三階中心矩,分別代表顏色分量的平均值、方差和不對稱度。這樣每個圖像都可以用由9個浮點數(shù)組成的向量來描述,它們因為量綱相同而具有可比性,圖像間的相似度由向量間的距離來決定。假設(shè)一幅圖像有n個像素,第i個顏色分量的第j個像素的值是pij,則這個顏色分量的相關(guān)索引值是; 式
43、(3.12) 式(3.13) 式(3.14)設(shè)查詢圖像q和庫中圖像d,它們各有r個顏色分量,他們的三個顏色矩分別是ei和fi,i和i,si和ti,則兩圖像間的距離為: 式(3.15)其中是用戶定義的權(quán)值矩陣。通常我們在hsi顏色空間中進行顏色矩計算,并且人們通常對色度相似性的要求要高于飽和度和亮度的相似性,這個要求可以通過設(shè)置適當(dāng)?shù)臋?quán)值矩陣來實現(xiàn)。另外,權(quán)值矩陣也可以通過相關(guān)反饋加以調(diào)整,以求最佳的檢索效果。3.1.6 小結(jié)顏色表達的是圖像的全局特征,是圖像的主要視覺性質(zhì),在人們對圖像的印象中,顏色占了很大的比重。但由于顏色對圖像或圖像區(qū)域的方向、大小等變化不敏感,所以顏色特征不能很好的捕捉圖
44、像中對象的局部特征,當(dāng)數(shù)據(jù)庫很大時,經(jīng)常有不相關(guān)的圖像被檢索出來。這說明單靠顏色本身并不能完全表達出圖像的所有特征信息,事實上,基于顏色的檢索方法通常和其他方法結(jié)合使用才能獲得更好的效果。3.2 基于紋理特征的圖象檢索紋理是某些圖像的重要屬性,紋理可以看作是某些紋理元素的重復(fù)分布或者有規(guī)律的排列組合。這些特征在水波、布匹、建材等類型的圖像中有較明顯的體現(xiàn),紋理特征對檢索這一類圖像顯得極為有用。3.2.1 共生矩陣方法(co-matrix)在20世紀70年代,haralick等人提出了紋理特征的共生矩陣31,即表示圖像灰度級空間相關(guān)的矩陣。共生矩陣表示圖像中相距()的兩個灰度象素同時出現(xiàn)的聯(lián)合頻
45、率分布。假設(shè)圖像的灰度級l,那么共生矩陣為l*l的矩陣,可表示為,其中位于(h,k)的元素mhk的值表示一個灰度為h而另一個灰度為k的兩個相距()的象素對出現(xiàn)的次數(shù)。設(shè)s為目標區(qū)域r中具有特定空間關(guān)系的象素對的集合,則共生矩陣p可以定義為: 式(3.16)其中分子是具有某種空間關(guān)系、灰度值分別為g1,g2的象素對的個數(shù),分母為象素對的總合個數(shù)(#代表數(shù)量)。在得到圖像的灰度共生矩陣的基礎(chǔ)上,可以定義多種有意義的統(tǒng)計數(shù)據(jù)作為紋理描述符,諸如紋理二階矩、熵、對比度和均勻性等構(gòu)成圖像的特征表達,進而計算圖像間的相似度。其缺點是這些統(tǒng)計特征都是純粹從數(shù)學(xué)角度考慮的,沒有很好的符合人在視覺上對紋理信息的
46、鑒別特點,另外,共生矩陣很大且有大量的冗余信息。3.2.2 小波變換方法(wavelet transform)小波變換也是一種常用的紋理分析方法。小波變換指的是把信號分解為一系列的基本函數(shù)。這些基本函數(shù)都是通過對母函數(shù)的變形得到的: 式(3.17)其中m和n都是整數(shù)。這樣,信號f(x)可以表示為: 式(3.18)二維小波變換的計算需要進行遞歸的過濾和采樣。在每個層次上,二維信號被分解為一系列的頻道,根據(jù)頻率特征分別稱為ll、lh、hl和hh。通常用于紋理分析的小波變換有金字塔結(jié)構(gòu)的小波變換(pwt)和樹狀結(jié)構(gòu)的小波變換(twt)。pwt只遞歸分解ll波段,twt遞歸分解所有波段。這樣,在各個分
47、解層次上的各個頻道的能量分布的均值和方差構(gòu)成紋理的特征描述符。例如,三層pwt分解所提取的小波紋理特征可以表達為3*4*2的特征向量。smith和chang利用小波分析提取統(tǒng)計特征值做索引進行檢索,取得了良好的效果32。chang和kuo研究了小波中波段的特征,采用樹結(jié)構(gòu)小波變換進一步提高了圖像分類能力的準確度33。3.2.3 小結(jié)圖像的紋理也是一種全局特征,它描述了圖像的表面性質(zhì)。在檢索具有粗細、疏密等方面有較大差別的圖像時,利用紋理特征是一種有效的方法。但由于紋理只是一種物體表面的特性,并不能完全反映出物體的本質(zhì)屬性,所以僅利用紋理特征無法獲得圖像高層語義特征。3.3 基于形狀特征的圖象檢
48、索形狀特征通常和目標聯(lián)系在一起,因而含有一定的語義信息,可以有效的對圖像中感興趣的目標進行檢索。由于形狀通常是由封閉的輪廓曲線包括起來的一個區(qū)域,所以形狀特征的索引方法分為對輪廓特征的索引和對區(qū)域特征的索引。3.3.1 基于輪廓特征的方法基于形狀輪廓特征的描述方法有多種,其中使用傅立葉描述子描述形狀的邊界信息最具有代表性34。傅立葉描述子具有很好的平移、旋轉(zhuǎn)、伸縮等幾何不變性,適合用于對形狀的輪廓特征進行索引和檢索。其基本思想如下:把封閉輪廓上的每個點表示成復(fù)數(shù)的形式,這樣將輪廓由xy空間轉(zhuǎn)換到uv空間,則一個點k繞輪廓一周可以得到一個復(fù)數(shù)序列: 式(3.19)c(k)的離散傅立葉變換是: 式
49、(3.20)c(w)稱為輪廓的傅立葉描述,它能夠以一定的精度描述輪廓的特性,并可以進行定量比較,設(shè)a(n)和b(n)分別代表兩個輪廓的特征符號,則它們之間的相似度可以表示為: 式(3.21)其他幾種關(guān)于輪廓特征的描述方法還有直線段描述、樣條擬合曲線描述以及內(nèi)角直方圖描述等,這里不再細述。3.3.2 基于區(qū)域特征的方法形狀的區(qū)域特征同樣能有效的描述形狀的特性。形狀的區(qū)域特征主要有區(qū)域的面積、重心、縱橫比、離散度、離心率等,flicker等人在ibm的qbic中采用了形狀面積、圓度、離心率、主軸慣量等特征5,形狀間的相似度由特征矢量的加權(quán)歐幾里德距離來度量。幾個典型區(qū)域特征定義如下:1區(qū)域面積:區(qū)
50、域面積是封閉區(qū)域占圖像總面積的百分比,反映了區(qū)域的尺度特征。 式(3.22)2離散度:形狀的離散度v類似于區(qū)域的包圍盒,反映了該區(qū)域相對于中心的離散程度,因為它統(tǒng)計特征,顯然要比矩形包圍盒更具有魯棒性。 式(3.23)3離心率:離心率e是物體最適橢圓的短、長軸之比,反映了物體的大致形狀并且具有旋轉(zhuǎn)不變性。 式(3.24)其中up,q=最終,一個區(qū)域的形狀特征可以表示為,含有m個區(qū)域的圖像的形狀特征矢量可以表示成為f1f2fm,區(qū)域間的相似度由可由式(4.1)計算得到。區(qū)域的形狀特征通常和其他特征一起,聯(lián)合構(gòu)成特征矢量,進而計算得到圖像間的相似度。3.3.3 區(qū)域約束方法stricker和dim
51、ai認為圖像對有意義的區(qū)域位于圖像的中心35,把圖像劃分成五個區(qū)域,中間的一個是橢圓如圖3.4(a),然后對每個區(qū)域計算顏色矩信息,這樣保留了圖像的空間信息和旋轉(zhuǎn)不變性,收到了較好效果。類似的,我們可以取圖像的內(nèi)接菱形如圖3.4 (b)或內(nèi)嵌矩形如圖3.4 (c)等其他區(qū)域來輔助尋找感興趣的區(qū)域,然后再根據(jù)目標的物理特征來索引和檢索。這種方法的目的和優(yōu)點在于,它可以把檢索的重心放在感興趣的目標區(qū)域里,從而較好的避免背景等其他不重要的目標信息的干擾。目標區(qū)域 目標區(qū)域目標區(qū)域圖3.4(a) 圖3.4(b) 圖3.4(c)3.3.4 小結(jié)基于形狀特征的檢索需要找到圖像的具體目標,因而形狀特征更接近
52、于目標的語義特征,具有一定的語義信息,可以幫助用戶避開不相關(guān)的背景或不重要的目標,直接搜索與目標圖像相似的圖像,其效果在理論上要優(yōu)于顏色和紋理特征的索引方法。其缺點在于,要獲得有關(guān)目標的形狀參數(shù),通常需要對圖像進行邊界提取或分割操作,所以形狀特征的提取會受到圖像分割效果的影響。4 基于顏色和形狀特征的圖象檢索4.1 前言基于顏色、紋理、形狀特征的圖像檢索都各有優(yōu)、缺點,分別從不同角度反映圖像的某個特征,為了更完整的描述圖像內(nèi)容,有效地提高檢索的準確率,人們經(jīng)常將不同類型的綜合特征來檢索圖像,以取長補短。如綜合顏色和紋理特征進行檢索,綜合顏色和形狀特征進行檢索,綜合紋理和形狀特征的檢索,綜合顏色
53、和空間關(guān)系特征的檢索等。對于多特征綜合檢索而言,除了特征的選擇及其組合方式的選擇之外,合理設(shè)置各個特征的權(quán)重是影響檢索結(jié)果的另一個重要因素。本文采用綜合顏色和形狀特征進行檢索。4.2 檢索算法描述設(shè)計檢索方法如下:先將圖像分割成若干對象區(qū)域,對每個區(qū)域抽取顏色矩特征和形狀特征,聯(lián)合構(gòu)成特征向量,并根據(jù)區(qū)域重心距離圖像中心的遠近來設(shè)置權(quán)重系數(shù),按照一定算法來計算區(qū)域之間的相似度,進而計算圖像之間的相似度,在相關(guān)反饋中調(diào)整區(qū)域的權(quán)重系數(shù),讓系統(tǒng)記住區(qū)域?qū)τ诒磉_圖像語義信息的重要程度,通過學(xué)習(xí)積累,獲得更好的檢索效果。具體表述如下:1方法的假設(shè)前提是:圖片總有一個要表達的主要物體,它以圖像的一個區(qū)域表達出來,而這個區(qū)域則表達了整個圖像最主要的語義信息。如果能有效的判斷圖像之間主要對象的相似程度,就抓住了圖像的相似程度。所以選擇使用基于圖像分割的方法,通過匹配區(qū)域間的相似度來實現(xiàn)檢索。2 對于區(qū)域之間的相似度,可以使用stricker在similarity of color images文中提出的顏色矩方法,這種方法認為圖像的特征主要體現(xiàn)在顏色的前三階中心矩上,這樣在hsi顏色空間中,圖像可以用9個浮點數(shù)字來表示
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 科技園區(qū)門衛(wèi)招聘協(xié)議
- 醫(yī)藥企業(yè)運營總監(jiān)聘用協(xié)議
- 市場部個人培訓(xùn)小結(jié)
- 旅游設(shè)施建設(shè)合同樣本
- 傳統(tǒng)產(chǎn)業(yè)用地預(yù)審管理辦法
- 移動通信公司安全管理實施辦法
- 2022年大學(xué)物理學(xué)專業(yè)大學(xué)物理二期末考試試卷A卷-含答案
- 2022年大學(xué)機械專業(yè)大學(xué)物理二期末考試試卷D卷-含答案
- 互聯(lián)網(wǎng)企業(yè)協(xié)議休假管理辦法
- 2022年大學(xué)航空航天專業(yè)大學(xué)物理二月考試題D卷-含答案
- 水球(集體球類運動)
- T-JLA 003-2023 高速公路車距抓拍系統(tǒng)技術(shù)要求和檢驗方法
- 口內(nèi)數(shù)字化印模
- 玄學(xué)凈明明派丹法轉(zhuǎn)自萬景元
- 基層中醫(yī)藥適宜技術(shù)培訓(xùn)
- 斯派克直讀光譜儀
- 遼寧毅菲生物科技有限公司年產(chǎn)1500噸水楊酰胺、1000噸8-羥基喹啉建設(shè)項目環(huán)評報告
- 數(shù)學(xué)成語故事《朝三暮四》-完整版課件
- 科室每月院感自查記錄
- 教練場地技術(shù)條件說明
- 2023年春季高考英語試題(上海卷)
評論
0/150
提交評論