




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、摘 要隨著多媒體技術(shù)及internet技術(shù)的迅速發(fā)展,各行各業(yè)對圖象的使用越來越廣泛,圖象信息資源的管理和檢索顯得越來越重要,其中基于內(nèi)容的圖象檢索(content based image retrieval, cbir)已經(jīng)成為近幾年來最活躍的研究領(lǐng)域只之一?;趦?nèi)容的圖象檢索技術(shù)是指利用圖象內(nèi)容對圖象進(jìn)行查詢。圖象的內(nèi)容包括圖象的顏色特征、紋理特征、形狀特征等。本論文主要針對如何描述圖象內(nèi)容,準(zhǔn)確、自動地提取特征,以及精確地對圖象內(nèi)容進(jìn)行相似性度量。本文的主要工作和成果如下:針對基于內(nèi)容圖像檢索技術(shù)做了廣泛和深入的研究,介紹了國內(nèi)外cbir技術(shù)的歷史發(fā)展、最新進(jìn)展及應(yīng)用狀況,討論了其面臨的
2、挑戰(zhàn)和問題;分析和研究了圖象檢索中的基本技術(shù),針對目前圖象數(shù)據(jù)庫的特點(diǎn),提出了一種基于顏色和形狀特征的圖象檢索算法,并通過編程構(gòu)造了實(shí)驗(yàn)系統(tǒng),驗(yàn)證了算法的有效性;組織了一個(gè)相對完備的圖像測試數(shù)據(jù)庫,對各種方法的檢索性能進(jìn)行了評測和比較,并對出現(xiàn)的問題進(jìn)行了分析研究。本文構(gòu)造的實(shí)驗(yàn)系統(tǒng)以文中提出的基于顏色和形狀特征的圖象檢索方法為主,共實(shí)現(xiàn)了兩種特征的索引和檢索方法,提供瀏覽檢索和跨庫檢索的功能,具有一定的實(shí)用性。關(guān)鍵詞:基于內(nèi)容的圖像檢索 cbir 基于顏色和形狀 相似性度量目 錄1 前言11.1 課題的背景與研究意義11.2 基于內(nèi)容的圖象檢索(content based image ret
3、rieval, cbir)的概念21.3 基于內(nèi)容的圖象檢索的應(yīng)用21.4 國內(nèi)外研究熱點(diǎn)及現(xiàn)狀31.5 基于內(nèi)容的圖象檢索面臨的挑戰(zhàn)和問題41.5.1 高維索引技術(shù)51.5.2 缺乏客觀的評價(jià)標(biāo)準(zhǔn)51.5.3計(jì)算機(jī)視覺、模式識別技術(shù)51.5.4web環(huán)境下的通用檢索方法51.5.5綜合檢索手段51.6 本文的主要研究工作51.7 論文的結(jié)構(gòu)62 基于內(nèi)容的圖象檢索的基本技術(shù)62.1 特征提取62.2 相似性度量82.3 檢索模式82.4 相關(guān)反饋92.5 性能評價(jià)102.6 系統(tǒng)結(jié)構(gòu)設(shè)計(jì)113基于不同特征的圖象檢索技術(shù)113.1 基于顏色特征的圖象檢索123.1.1 顏色空間的選擇123.1
4、.2 直方圖相交方法143.1.3 累積直方圖方法153.1.4 分塊主顏色方法153.1.5 顏色矩方法163.1.6 小結(jié)163.2 基于紋理特征的圖象檢索173.2.1 共生矩陣方法(co-matrix)173.2.2 小波變換方法(wavelet transform)173.2.3 小結(jié)183.3 基于形狀特征的圖象檢索183.3.1 基于輪廓特征的方法183.3.2 基于區(qū)域特征的方法193.3.3 區(qū)域約束方法203.3.4 小結(jié)204 基于顏色和形狀特征的圖象檢索204.1 前言204.2 檢索算法描述214.3 檢索算法實(shí)現(xiàn)214.3.1 顏色空間的選擇214.3.2 圖象分割
5、的實(shí)現(xiàn)214.3.3 區(qū)域顏色特征的提取224.3.4 區(qū)域形狀特征的提取234.3.5 相似性度量234.4系統(tǒng)實(shí)現(xiàn)244.4.1 系統(tǒng)框架244.4.2 圖象入庫254.4.3 圖象查詢264.5 實(shí)驗(yàn)結(jié)果和分析285 總結(jié)29致 謝32參 考 文 獻(xiàn)33abstract36 361 前言伴隨網(wǎng)絡(luò)時(shí)代數(shù)字家庭概念的產(chǎn)生,20世紀(jì)90年代多媒體硬件和軟件技術(shù)得到迅速發(fā)展,多媒體已廣泛地應(yīng)用于多個(gè)領(lǐng)域,如公共信息業(yè)、廣告、教育、醫(yī)學(xué)、商業(yè)及娛樂等??色@取的圖像等多媒體數(shù)據(jù)急劇增長。如何組織、表達(dá)、存儲、管理、查詢和檢索這些海量的數(shù)據(jù),是對傳統(tǒng)數(shù)據(jù)庫技術(shù)的一個(gè)重大挑戰(zhàn)1。據(jù)統(tǒng)計(jì),人類接受的外部信
6、息,70%以上來自視覺,圖像作為一種內(nèi)容豐富,表現(xiàn)直觀的多媒體信息被大量廣泛的使用,如何有效的管理、檢索圖像信息成為迫切需要解決的問題。因此,如何將數(shù)字圖像處理、模式識別技術(shù)、計(jì)算機(jī)視覺技術(shù)與傳統(tǒng)數(shù)據(jù)庫技術(shù)結(jié)合起來,建立高效的圖像檢索機(jī)制成為迫切需要解決的問題。1.1 課題的背景與研究意義傳統(tǒng)的圖象檢索技術(shù)是基于文本的檢索技術(shù),其檢索信息來源于與圖象相關(guān)的文本信息,如圖象的獲取日期、文件名、標(biāo)引詞等。換句話說,圖象庫只有經(jīng)過標(biāo)引之后才能成為可檢索信息。于是,對圖象的查詢變成了基于文本的查詢,這種方法的特點(diǎn)是簡單易行,但存在幾個(gè)根本的問題影響對圖象信息的有效使用2。首先,文字描述只是一種特定的抽
7、象,圖象所表現(xiàn)出來的豐富內(nèi)容是很難用文字表現(xiàn)出來的。圖象的獲取日期、文件名、標(biāo)引詞等雖然可以提供有用的索引線索,但都不能完全抓取圖象的視覺信息。事實(shí)上,圖象內(nèi)容帶給人的信息是多方面的,人們是通過圖象的內(nèi)容特征比如顏色、紋理、目標(biāo)形狀、分布位置等來記憶圖象的,沒有人是僅借助標(biāo)號、文件名來記憶圖象的。其次,圖象標(biāo)引存在很大的主觀性,不同的觀察者或同一個(gè)觀察者在不同條件下對同一幅圖象有不同的描述,因而文本標(biāo)注不夠客觀,可能會出現(xiàn)用戶輸入的關(guān)鍵詞和數(shù)據(jù)庫中的關(guān)鍵詞不一致或該關(guān)鍵詞根本不存在的情況,這就造成查詢的失敗。另外,目前圖象的標(biāo)引仍由人工完成,隨著圖象數(shù)據(jù)的來源越來越廣泛,數(shù)量越來越大,這種費(fèi)時(shí)
8、費(fèi)力的方法猶如杯水車薪,不能滿足日益增長的需要。為了解決以上問題,就需要全面的、客觀的來提取圖象內(nèi)容。事實(shí)上,人們利用圖象不僅僅是利用其視覺質(zhì)量,更重要的是利用其視覺內(nèi)容,所有只有根據(jù)內(nèi)容進(jìn)行檢索才可能有效地獲得所需的視覺信息。例如,商標(biāo)是否雷同主要看商標(biāo)的圖案,僅僅靠商標(biāo)的文字標(biāo)簽是不能解決問題的,把商標(biāo)的圖案信息提取出來才可能有效地比較不同的商標(biāo)。綜上所述,只有根據(jù)圖象的內(nèi)容來檢索,才可能有效的獲取所需要的信息,同時(shí)只有在掌握圖象內(nèi)容的基礎(chǔ)上,圖象數(shù)據(jù)庫中的信息才可以得到有效的管理?;趦?nèi)容的圖象檢索技術(shù)就是在這樣的需求下被逐步重視起來的?;趦?nèi)容的圖象檢索技術(shù)涉及數(shù)學(xué)、心理學(xué)等學(xué)科,涉及
9、圖象處理、計(jì)算機(jī)、數(shù)據(jù)庫等信息技術(shù),有著廣闊的應(yīng)用前景,并且仍有許多關(guān)鍵技術(shù)沒有解決或不夠完善,因此,研究該項(xiàng)技術(shù)既有深遠(yuǎn)的意義,也將面臨巨大的挑戰(zhàn)。1.2 基于內(nèi)容的圖象檢索(content based image retrieval, cbir)的概念基于內(nèi)容的圖像檢索(cbir)就是一項(xiàng)從圖像數(shù)據(jù)庫中找出與檢索式內(nèi)容相似的圖像的檢索技術(shù)。它利用從圖像中自動抽取出來的底層特征,如顏色、紋理、輪廓和形狀等特征,進(jìn)行計(jì)算和比較,檢索出符合用戶需求的結(jié)果圖像集,且其檢索結(jié)果可以借鑒文本檢索技術(shù)中的相關(guān)反饋技術(shù)得到優(yōu)化提高。目前圖像檢索系統(tǒng)技術(shù)實(shí)現(xiàn)的基礎(chǔ)是對底層特征信息的計(jì)算和比較,也即是“視覺相
10、似”。 3 圖像的內(nèi)容包括圖像的視覺信息等物理特征,還包括視覺特征所帶來的高層語義特征。物理特征屬于低層視覺信息,主要包括顏色、紋理、形狀;語義信息屬于圖像的高層視覺信息,主要包括對象、空間關(guān)系、場景、行為、情感等圖像內(nèi)容?;趦?nèi)容的圖像檢索的目的一般可為三類:(1)準(zhǔn)確查詢,找出一致的復(fù)制件;(2)范圍查詢,找出與輸入圖像特征相差在一定范圍內(nèi)的圖像;(3)k-最近鄰查詢,根據(jù)輸入圖像與待檢測圖像的相似度對檢索結(jié)果進(jìn)行排序2。1.3 基于內(nèi)容的圖象檢索的應(yīng)用對圖像內(nèi)容檢索的研究起步于二十世紀(jì)80年代,到了網(wǎng)絡(luò)技術(shù)逐漸普及的90年代才取得較大的突破,多種成果開始轉(zhuǎn)化為應(yīng)用技術(shù),而日益增長的應(yīng)用需
11、求反過來推動其研究向更高的層次發(fā)展。如下領(lǐng)域開始應(yīng)用和驅(qū)動圖像檢索技術(shù)的發(fā)展。防止犯罪等司法部門。應(yīng)用人臉識別技術(shù),根據(jù)專家對犯罪嫌疑人的頭像特征的描繪圖像,定位犯罪人的真實(shí)面目。軍事領(lǐng)域??梢杂糜谖淦鞯木_制導(dǎo),通過實(shí)時(shí)獲取的圖像信息,對其進(jìn)行解譯,保證打擊的準(zhǔn)確性。版權(quán)保護(hù)領(lǐng)域。針對商標(biāo)與設(shè)計(jì)專利類的圖像進(jìn)行檢索,防止專利糾紛的產(chǎn)生。建筑和工程設(shè)計(jì)。通過對建筑及工程設(shè)計(jì)物體的圖像檢索,可以聚類相同風(fēng)格特色的建筑及工程設(shè)計(jì)產(chǎn)品。廣告業(yè)、藝術(shù)設(shè)計(jì)。應(yīng)用圖像檢索,可以找到需要的各種素材,進(jìn)行藝術(shù)設(shè)計(jì)的再創(chuàng)造。醫(yī)學(xué)領(lǐng)域。對各種醫(yī)學(xué)透視ct圖像進(jìn)行檢索,可以快速定位類似病例,及時(shí)快速的幫助病人找到病
12、因,會對臨床、醫(yī)學(xué)研究、遠(yuǎn)程醫(yī)療、異地會診乃至醫(yī)學(xué)教育等方面產(chǎn)生積極和深遠(yuǎn)的影響。古生物學(xué)、考古學(xué)。通過對古生物化石圖像的解釋,確定古生物所屬類型等信息,便于發(fā)現(xiàn)新的物種;應(yīng)用于古文物的圖像檢索,通過對比,簽定文物的真?zhèn)?、所屬歷史時(shí)期等。地理信息系統(tǒng)和遙感。對遙感圖像的檢索,主要是解譯影像數(shù)據(jù)中的建筑、村莊、耕地等不同種類地物信息,制作實(shí)時(shí)、準(zhǔn)確、逼真效果的專題圖件,應(yīng)用于地理信息系統(tǒng)中矢量處理模塊。安全技術(shù)。應(yīng)用指紋、眼膜識別技術(shù),對用戶的指紋或者眼膜提取圖像特征進(jìn)行匹配,鑒定用戶真實(shí)身份??傊琧bir技術(shù)是一項(xiàng)快速發(fā)展的頗具發(fā)展?jié)摿Φ那罢靶约夹g(shù),在許多領(lǐng)域都具有很高的應(yīng)用價(jià)值。1.4 國
13、內(nèi)外研究熱點(diǎn)及現(xiàn)狀近年來,cbir已經(jīng)成為一個(gè)非?;钴S的研究領(lǐng)域,各國科研機(jī)構(gòu)與公司已陸續(xù)推出了一些cbir系統(tǒng)的產(chǎn)品4,有的已經(jīng)成功應(yīng)用到醫(yī)學(xué)、商標(biāo)、專利檢索等領(lǐng)域。1) qbic5,6ibm 的qbic(query by image content) 是第一個(gè)商業(yè)性的cbir 系統(tǒng)。它提供了基于顏色、紋理、形狀和手繪草圖的圖像索引方法。顏色特征的表達(dá)采用了平均色和顏色直方圖兩種方法;紋理特征的表達(dá)采用了紋理的粗糙度、對比度和方向性三者的綜合。目前,qbic 系統(tǒng)的基于內(nèi)容檢索技術(shù)已經(jīng)在ibm 數(shù)字圖書館中得到了應(yīng)用,實(shí)現(xiàn)了自動索引、
14、歸并、對比、特征抽取和翻譯功能。2) visual seek & web seek7/afchang/demos.htmlcolumbia 大學(xué)的visual seek 提供了基于色彩和紋理的索引方法. 在visual seek 中,整幅圖像色彩的分布使用了全局色彩直方圖,區(qū)域色彩的索引采用二進(jìn)制色彩集表達(dá)方法. 它采用基于小波變換的方法來表示圖像的紋理特征. 為加快檢索速度,還開發(fā)出了基于二叉樹的索引算法. 該系統(tǒng)具有java 瀏覽器,可以在sgl 、sun 和ibm pc平臺上運(yùn)行。3) photobook8,9http:/vismod.m
15、/vismod/demos/photobookphotobook 是麻省理工學(xué)院(mit) 媒體實(shí)驗(yàn)室開發(fā)的一套檢索、瀏覽圖像的交互式工具,它包含三個(gè)子系統(tǒng)分別提取形狀、紋理和人臉特征,用戶可以分別做基于上述一種特征的檢索. 由于目前還沒有一種特征可以很好地對圖像建模,在photobook的最新版本foureyes 中,picard 等提出將人也包括在圖像的標(biāo)注和檢索過程中,實(shí)驗(yàn)結(jié)果顯示這種方法對圖像的自動標(biāo)注很有效。4) mars10,11:8080mars (multimedia analysis and retri
16、eval system)系統(tǒng)由美國uiuc 大學(xué)開發(fā),其不同之處在于用到了很多領(lǐng)域的知識:計(jì)算機(jī)視覺、數(shù)據(jù)庫管理系統(tǒng)和信息檢索. mars 系統(tǒng)的注重點(diǎn)不在于單個(gè)的最佳特征表示,而在于如何將不同的視覺特征組織成有意義的檢索體系,以動態(tài)適應(yīng)不同的用戶及應(yīng)用場合。mars 系統(tǒng)是正式提出相關(guān)反饋的系統(tǒng),它將相關(guān)反饋技術(shù)集成到檢索的不同層次過程中。5) core新加坡國立大學(xué)開發(fā)的一個(gè)基于內(nèi)容的圖像檢索系統(tǒng),其顯著技術(shù)特色包括:多種特征提取方法、多種基于內(nèi)容檢索方法、使用自組織神經(jīng)網(wǎng)絡(luò)對復(fù)雜特征度量、建立基于內(nèi)容索引的新方法以及對多媒體信息進(jìn)行模糊檢索的新技術(shù)。6) imgretr12雖然國內(nèi)在圖像
17、檢索技術(shù)方面的研究起步較晚,但是清華大學(xué)、中國科學(xué)技術(shù)大學(xué)等院校都先后取得一定的研究成果。其中清華大學(xué)的imgretr結(jié)合了多種組織方法,能提供基于主色、紋理、直方圖、顏色分布、框架等多種方式的檢索。中國科學(xué)技術(shù)大學(xué)計(jì)算機(jī)系研制的用于個(gè)性化圖像檢索和服裝設(shè)計(jì)的情感信息獲取系統(tǒng)于2002年12月順利通過安徽省科技廳鑒定。1.5 基于內(nèi)容的圖象檢索面臨的挑戰(zhàn)和問題1.5.1 高維索引技術(shù)一幅圖像的特征多種多樣,而且某些特征的索引無法用一個(gè)量化值來表示,必須應(yīng)用多維矢量,導(dǎo)致在綜合多特征的檢索中,特征矢量更是高達(dá)102 量級,大大多于常規(guī)數(shù)據(jù)庫的索引能力,因此,需要研究新的索引結(jié)構(gòu)和算法,以高效地支
18、持多特征、異構(gòu)特征、權(quán)重、主鍵特征方面的查詢要求1。1.5.2 缺乏客觀的評價(jià)標(biāo)準(zhǔn)目前基于內(nèi)容檢索結(jié)果的評價(jià)方法采用的是傳統(tǒng)信息檢索領(lǐng)域的查全率和查準(zhǔn)率。人在使用系統(tǒng)時(shí)采取的檢索手段十分有限,人對圖像內(nèi)容認(rèn)知上的主觀性使得很難定義一個(gè)客觀的標(biāo)準(zhǔn),因而很難定義一個(gè)好的評價(jià)方法。同時(shí),對于檢索效率的評價(jià)也將是今后研究中需要解決的問題。1.5.3 計(jì)算機(jī)視覺、模式識別技術(shù)在上述提到的基于形狀和基于對象及其空間關(guān)系等高層語義檢索中,如何識別圖像上的各個(gè)對象是檢索的基礎(chǔ),這涉及到圖像處理、圖像理解等計(jì)算機(jī)視覺和人工智能領(lǐng)域的模式識別技術(shù),由于這些技術(shù)本身仍然不成熟,導(dǎo)致檢索陷入尷尬的境地,無法深入開展下
19、去。1.5.4 web環(huán)境下的通用檢索方法網(wǎng)絡(luò)環(huán)境下,圖像文件的自動獲取與普通html文檔的抓取沒有什么本質(zhì)區(qū)別,不同之處在于網(wǎng)絡(luò)環(huán)境下存在著不同格式、大小、類型及不同領(lǐng)域內(nèi)的海量多元圖像,這決定了cbir系統(tǒng)中索引過程的復(fù)雜性,同時(shí)從用戶體驗(yàn)的角度講,網(wǎng)絡(luò)環(huán)境下用戶對響應(yīng)時(shí)間的要求比較苛刻。尋找一個(gè)高效、通用的檢索方法,以及符合用戶交互習(xí)慣的檢索流程,是web環(huán)境下cbir系統(tǒng)必須解決的問題。1.5.5 綜合檢索手段基于圖像低層視覺特征的檢索和基于圖像語義特征的檢索等方面均有了一定的成果,如何實(shí)現(xiàn)融合低層視覺特征和高層語義特征的多特征綜合檢索將是今后研究的重點(diǎn)。解決從低層視覺特征到高層語義的
20、映射,縮短人機(jī)之間對相似圖像理解的差距。此外,系統(tǒng)應(yīng)該具有自適應(yīng)學(xué)習(xí)能力,能夠在檢索交互中理解用戶的語意,及使檢索性能更接近人類視覺的特性。1.6 本文的主要研究工作本文深入研究了國內(nèi)外cbir技術(shù)的歷史發(fā)展、最新進(jìn)展及應(yīng)用狀況,對基于內(nèi)容的圖象檢索系統(tǒng)進(jìn)行了介紹,分析和研究了圖象檢索中的基本技術(shù),包括各種特征提取、相似性度量、檢索模式、相關(guān)反饋、性能評介及其系統(tǒng)結(jié)構(gòu)設(shè)計(jì)。圖象特征提取技術(shù)和相似性度量技術(shù)都屬于基于內(nèi)容的圖象檢索技術(shù)的核心問題。本文主要針對這兩個(gè)問題,研究如何描述圖象內(nèi)容,準(zhǔn)確、自動的提取特征,以及精確的對圖象內(nèi)容進(jìn)行相似性度量。本文提出了一種基于顏色和形狀特征的圖象檢索方法。
21、實(shí)驗(yàn)證明這種方法比基于顏色特征的圖象檢索和基于形狀特征的圖象檢索具有明顯的優(yōu)越性;另外,本文提出了一種適合本文的形狀的相似性度量方法,大量的實(shí)驗(yàn)證明了該方法的有效性。作者根據(jù)上述的檢索方法設(shè)計(jì)了一個(gè)簡單的圖象檢索系統(tǒng),該系統(tǒng)可視性好,檢索直觀、方便,可支持瀏覽查詢和示例查詢。1.7 論文的結(jié)構(gòu)本文共分五章,組織結(jié)構(gòu)如下:第一章介紹cbir技術(shù)的來龍去脈,包括其背景、研究意義、概念和應(yīng)用,以及國內(nèi)外的研究的熱點(diǎn)和現(xiàn)狀、面臨的挑戰(zhàn)和問題。第二章從宏觀角度介紹cbir的幾項(xiàng)基本技術(shù)模塊,指出其關(guān)鍵技術(shù)所在。第三章從微觀角度和技術(shù)本身介紹幾種具體的檢索技術(shù),包括基于顏色、紋理和形狀特征的檢索算法,并比
22、較它們各自的優(yōu)缺點(diǎn)。第四章研究綜合檢索手段下的cbir技術(shù),并提出一種基于顏色和形狀特征的圖象檢索技術(shù)。介紹基于顏色和形狀特征的圖象檢索系統(tǒng)的總體設(shè)計(jì)和具體實(shí)現(xiàn),并組織了測試圖像數(shù)據(jù)庫,進(jìn)行了多項(xiàng)實(shí)驗(yàn)比較,給出了測試結(jié)果及分析。第五章是對全文的總結(jié),分析了cbir技術(shù)的特點(diǎn),總結(jié)了本文的創(chuàng)新點(diǎn),展望了cbir技術(shù)未來的發(fā)展趨勢。2 基于內(nèi)容的圖象檢索的基本技術(shù) cbir的基本技術(shù)包括:特征提取、相似性度量、檢索模式、相關(guān)反饋和性能評價(jià)、系統(tǒng)結(jié)構(gòu)設(shè)計(jì)幾個(gè)方面13-19。2.1 特征提取與文本檢索相比,cbir技術(shù)使用了完全不同的檢索策略。圖象內(nèi)容的特征信息預(yù)先提取出來存入特征數(shù)據(jù)庫,檢索時(shí)通過匹
23、配示例圖象和庫中圖象的特征信息來判斷二者的相似程度。所以,如何準(zhǔn)確有效地抽取圖象的特征信息是cbir技術(shù)的重點(diǎn)。特征抽取的好壞將直接影響圖象的匹配和檢索效果。作為一幅靜態(tài)圖像,它有許多可以用來進(jìn)行檢索的特征,這些特征內(nèi)容可以理解為一個(gè)簡化了的層次模型20。如圖2.1所示,第一層是圖像的底層物理特征,如顏色、紋理、輪廓和形狀等;第二層是邏輯語義特征,反映了圖像所描述對象的標(biāo)識及其空間關(guān)系等;第三層是抽象語義特征,是人們對圖像內(nèi)容在認(rèn)知層次的概括和描述。圖2.1 圖像特征的層次模型根據(jù)圖像特征的層次模型,eakins把用戶的檢索需求也分為三個(gè)層次21:第1個(gè)層次:根據(jù)圖像的顏色、紋理、形狀或輪廓等
24、原始特征構(gòu)成檢索式。這樣的檢索例子為:“查找一張藍(lán)色占60%的圖片”,或“檢索一張含有橢圓狀物體的圖片”,或者“檢索一張和這張圖像相似的圖片”等。第2個(gè)層次:根據(jù)圖像的邏輯特征信息,包括圖像所含對象及其相互關(guān)系來構(gòu)成檢索式。這個(gè)層次的檢索需求可以是檢索一個(gè)既定類型的物體,比如“找一張航天飛機(jī)的圖片”,也可以是檢索一個(gè)獨(dú)一無二的人或物,比如“找一張自由女神像的圖片”。這個(gè)層次的檢索需求要比第1層次的更容易碰到,要回答這一類檢索需求,就必須獲得圖像邏輯特征在計(jì)算機(jī)內(nèi)部的適當(dāng)表示,這就需要存儲在圖像外部的知識信息了。第3個(gè)層次:根據(jù)圖像的抽象特征構(gòu)成檢索式,包括物體或場景的描述以及由此推理出來的場景
25、語義、行為語義和情感語義,這個(gè)層次的檢索需求可以是檢索被命名的事件或活動,比如“查找蘇格蘭民間舞蹈的照片”,也可以是檢索具有情緒特點(diǎn)的圖像,比如“查找一張描述痛苦的圖片”。要回答這一類檢索需求,就需要復(fù)雜的推理和主觀判斷,需要抽象的描述圖像內(nèi)容。這類推理和判斷往往建立在知識學(xué)習(xí)的基礎(chǔ)之上,需要用到機(jī)器學(xué)習(xí)和人工智能等方面的知識。此類檢索需求常見于報(bào)紙和圖書館領(lǐng)域。許多學(xué)者把第2和第3層次的圖像檢索概括為“語義層次”的圖像檢索,而把第1層次和“語義層次”之間的距離稱作圖像檢索的“語義鴻溝”。目前cbir技術(shù)的特征提取技術(shù)仍然集中在顏色、紋理、形狀、輪廓等底層物理特征的基礎(chǔ)上。2.2 相似性度量圖
26、像的特征信息被抽取出來后將以向量的形式存放在索引庫中,向量的每個(gè)值代表圖像的某一個(gè)特征值,這樣一幅圖像的特征就可以用一個(gè)n維特征空間里的向量來表示。同時(shí),查詢向量也可以表達(dá)為特征空間中的點(diǎn),稱為查詢點(diǎn),從而圖像之間的相似性計(jì)算就轉(zhuǎn)化為特征向量之間的相似性計(jì)算。要計(jì)算向量形似性程度,需要一定的計(jì)量或測量方法。常用的距離函數(shù)主要是歐氏距離de,和城區(qū)距離dc。 式(2.1) 式(2.2)de和dc都可看作是如下minkowsky距離 式(2.3)的特例。在具體的檢索應(yīng)用系統(tǒng)中,采用哪種距離度量方法要視具體情況而定,上述minkowsky距離因?yàn)槠溆?jì)算簡單效果好而比較常用。具體的應(yīng)用還可以將不同的距
27、離測度方式組合起來構(gòu)成復(fù)合測度以增強(qiáng)應(yīng)用的靈活性。例如求加權(quán)和、最大值、最小值等,通常在不同的應(yīng)用需求下有不同的相似性計(jì)算法則。2.3 檢索模式對用戶來講,基于內(nèi)容圖像檢索系統(tǒng)的查詢方式多種多樣,許多商業(yè)性和研究性的系統(tǒng)都提供了以下一種或幾種方式的組合:按特征查詢、按示例查詢、按關(guān)鍵字查詢、瀏覽查詢和草圖查詢。按特征查詢。用戶提供圖像的具體特征,這些特征包括顏色、紋理、形狀、輪廓、空間關(guān)系等,可以是單個(gè)的也可以是復(fù)合的特征,各種特征還可以附加不同的權(quán)值。例如,“查找藍(lán)色占50%,紅色占50%的圖片”。這種方式在ibm的qbic系統(tǒng)5里得到了較好的實(shí)現(xiàn)。按示例查詢。這種方式需要用戶提供一幅示例圖
28、像,查詢系統(tǒng)根據(jù)示例圖像自動提取其特征,然后在圖像庫中找出與示例相似的圖像。這種方式為用戶提供了一種簡便的方式來表達(dá)圖像的內(nèi)容。按關(guān)鍵字查詢。用戶可以把關(guān)鍵字作為檢索入口,把檢索結(jié)果中感興趣的目標(biāo)作為檢索圖像再進(jìn)行示例查詢。這種方式需要對圖像做文本索引,需要文本檢索技術(shù)和內(nèi)容檢索技術(shù)的有機(jī)結(jié)合來實(shí)現(xiàn)。瀏覽查詢。當(dāng)用戶要查找的圖像比較含糊、不熟悉其具體內(nèi)容時(shí),可以先按系統(tǒng)的分類體系瀏覽圖像庫,待發(fā)現(xiàn)感興趣的目標(biāo)后再做示例查詢。草圖查詢。系統(tǒng)提供一個(gè)可以畫草圖的窗口,用戶將想要查找的圖像以草圖的形式畫出來并染上相應(yīng)的顏色,系統(tǒng)從中抽取特征進(jìn)行檢索。這種方式能提供給用戶更大的想象和發(fā)揮空間,qbic
29、系統(tǒng)中提供了這種查詢方式。2.4 相關(guān)反饋由于目前cbir技術(shù)中所抽取的圖像特征基本上是圖像的底層視覺特征,它們與圖像的實(shí)際語義是脫離的,因而還沒有能力辨別出圖像中所包含的物體。所以,無論采用哪種特征、采用哪種距離測度規(guī)則,最終決定兩幅圖像是否相似還取決于用戶。所以,檢索系統(tǒng)需要一種能夠使計(jì)算機(jī)適應(yīng)和學(xué)習(xí)用戶需求的機(jī)制,從而實(shí)現(xiàn)更好的查詢效果。相關(guān)反饋是一種有效的機(jī)制,它可以使系統(tǒng)更準(zhǔn)確的把握用戶的檢索需求,幫助用戶找到想要找的圖片。相關(guān)反饋是一個(gè)指導(dǎo)性的學(xué)習(xí)過程,其目標(biāo)是從用戶與查詢系統(tǒng)實(shí)際交互過程中進(jìn)行學(xué)習(xí),發(fā)現(xiàn)并捕捉用戶實(shí)際意圖,并以此修整系統(tǒng)的查詢策略,得到更好的查詢結(jié)果的機(jī)制22,2
30、3,24。相關(guān)反饋技術(shù)在文本檢索技術(shù)領(lǐng)域里已經(jīng)有了比較成熟的應(yīng)用。它的一般的實(shí)現(xiàn)模式是:用戶在檢索結(jié)果中選擇一組符合要求和一組不符合要求的圖像分別作為正負(fù)反饋提交給系統(tǒng),系統(tǒng)根據(jù)正負(fù)反饋結(jié)果的共同特征進(jìn)行檢索優(yōu)化并再次輸出結(jié)果,如此反復(fù),直到用戶滿意為止。對于采用向量空間模型的系統(tǒng),相關(guān)反饋技術(shù)一般采用兩種策略:一是查詢向量優(yōu)化,二是調(diào)整距離測度策略。查詢向量優(yōu)化算法的本質(zhì)是根據(jù)用戶的反饋信息調(diào)整查詢點(diǎn),使之更接近正反饋所在特征空間的點(diǎn),同時(shí)遠(yuǎn)離負(fù)反饋所對應(yīng)的點(diǎn)。優(yōu)化后的查詢通常能夠得到明顯優(yōu)于前一次查詢的結(jié)果。調(diào)整距離測度的策略通常通過調(diào)整權(quán)重的方法實(shí)現(xiàn)。每個(gè)圖像都對應(yīng)一個(gè)多維特征向量,檢索
31、開始時(shí)各個(gè)維度上的權(quán)重是相等的,在相關(guān)反饋中,如果所有正反饋在某個(gè)維度上的值相差很大,則認(rèn)為這個(gè)維度和用戶查詢的關(guān)系不大,可以降低其權(quán)重,反之則增大其權(quán)重。mars系統(tǒng)很好的實(shí)現(xiàn)了這個(gè)策略。相關(guān)反饋方法不僅可以提高檢索精度,還可以實(shí)現(xiàn)接近于語義層次檢索的效果。ifind系統(tǒng)使用語義傳遞方法來達(dá)到這個(gè)目的,它結(jié)合了用關(guān)鍵詞檢索和用圖像示例檢索兩種方法:事先對一小部分圖像做關(guān)鍵詞標(biāo)引,然后通過用戶的相關(guān)反饋操作,傳遞關(guān)鍵詞給所有正反饋圖像,并付給權(quán)值或增加其權(quán)值,同時(shí)減小與負(fù)反饋圖像相關(guān)聯(lián)的關(guān)鍵詞權(quán)值或取消此關(guān)聯(lián)。在經(jīng)過足夠多次的學(xué)習(xí)訓(xùn)練之后,系統(tǒng)會建立起相對真實(shí)的語義映射網(wǎng)絡(luò),在將來的檢索事件中
32、,結(jié)合語義映射網(wǎng)絡(luò)來返回結(jié)果圖像,以此來達(dá)到語義檢索的目的。2.5 性能評價(jià)衡量一個(gè)檢索系統(tǒng)好壞需要一個(gè)公正的性能評價(jià)標(biāo)準(zhǔn)。對信息檢索的性能評價(jià)早在20世紀(jì)50年代就已開始,在文本信息檢索系統(tǒng)中得到了較好的應(yīng)用。在圖像檢索領(lǐng)域里,同樣也使用查準(zhǔn)率(precision)、查全率(recall)以及檢索速度為評價(jià)準(zhǔn)則25。通常檢索結(jié)果可以總結(jié)出以下4個(gè)參數(shù):用戶評判相關(guān)不相關(guān)檢索到的a(正確結(jié)果)b(誤檢)沒檢索到的c(漏檢)d(正確排除)表2.1 性能評價(jià)標(biāo)準(zhǔn)設(shè)檢索時(shí)間是t,則查準(zhǔn)率、查全率、檢索速度的定義如下: 式(2.4) 式(2.5) 式(2.6) 式(2.7) 式(2.8)2.6 系統(tǒng)結(jié)
33、構(gòu)設(shè)計(jì)一個(gè)實(shí)用的基于內(nèi)容的圖像檢索系統(tǒng)需要合理的框架結(jié)構(gòu),需要眾多模塊的合理組織。它包括圖像數(shù)據(jù)庫管理模塊、人機(jī)接口模塊、相似性度量和相關(guān)反饋等模塊,一個(gè)典型的系統(tǒng)結(jié)構(gòu)如圖2.1所示:在離線狀態(tài)下,圖像數(shù)據(jù)庫管理系統(tǒng)對圖像庫做特征抽取和索引構(gòu)建,特征信息存儲在特征數(shù)據(jù)庫里。在線狀態(tài)下,用戶通過人機(jī)界面提交特征信息或示例圖像給檢索系統(tǒng),檢索系統(tǒng)提取其特征并與索引庫里的圖像特征做匹配計(jì)算,將符合檢索閾值要求的圖像返回給用戶,檢索結(jié)果通常按相似度從大到小的順序排列。假如第一次檢索結(jié)果并不令人滿意,則用戶根據(jù)判斷提交正負(fù)反饋給系統(tǒng),檢索系統(tǒng)通過二次匹配,返回更加準(zhǔn)確的結(jié)果,如果需要,可以多次反饋,直到
34、用戶滿意為止。特征庫圖像庫特征提取檢索結(jié)果相關(guān)反饋相似性度量特征集合示例圖像特征提取人機(jī)接口相似性度量結(jié)果輸出和相關(guān)反饋圖像數(shù)據(jù)庫管理圖2.2 基于內(nèi)容圖像檢索系統(tǒng)的結(jié)構(gòu)3 基于不同特征的圖象檢索技術(shù)目前基于內(nèi)容的圖象檢索技術(shù)仍然集中在對顏色、紋理、形狀等低層圖象特征提取的基礎(chǔ)上 2。3.1 基于顏色特征的圖象檢索顏色是圖像的一種重要視覺性質(zhì),最先被用于cbir技術(shù)。一般來講,圖像的顏色特征比較明確,抽取也相對容易,所以在圖像檢索中得到廣泛的重視和研究,已有很多算法被先后提出。對于基于顏色特征的檢索方法來講,一方面,選擇一個(gè)合適的顏色特征表達(dá)方式很重要,另一方面,對顏色特征的表達(dá)依賴于所使用的
35、顏色模型,并不是所有的顏色空間都與人的感覺相一致。本節(jié)首先介紹幾種典型的顏色空間,然后介紹幾種基于顏色特征的檢索方法。3.1.1 顏色空間的選擇顏色空間根據(jù)其用途可以分為兩大類,一是面向硬件設(shè)備的顏色空間,一是面向感知或者顏色分析應(yīng)用的顏色空間。1rgb模型rgb顏色模型是面向硬件設(shè)備的模型,它與人的視覺系統(tǒng)結(jié)構(gòu)密切相關(guān)。根據(jù)人眼結(jié)構(gòu),所有的顏色都可看作是3個(gè)基本顏色紅、綠、籃的不同組合。rgb模型可以建立在笛卡爾坐標(biāo)系里,如圖3.1所示:brg圖3.1 rgb顏色空間模型其中3個(gè)軸分別為r、g、b。rgb模型的空間是個(gè)正方體,原點(diǎn)對應(yīng)黑色,離原點(diǎn)最遠(yuǎn)的頂點(diǎn)對應(yīng)白色,其余各點(diǎn)對應(yīng)不同的顏色,可
36、用從原點(diǎn)到該點(diǎn)的向量(r,g,b)表示。2cmy模型cmy模型也是面向硬件設(shè)備的模型,主要用于彩色打印,它的三個(gè)分量分別是:藍(lán)綠(c,cyan),品紅(m,magenta),黃(y,yellow),這3種顏色可分別通過從白光中減去3種基色而得到。從cmy空間到rgb空間的近似的轉(zhuǎn)換關(guān)系為: 式(3.1) 式(3.2) 式(3.3)3hsi模型hsi模型是面向感知和彩色處理最常用的模型,其中h表示色度(hue),s表示飽和度(saturation),i表示密度(intensity),也叫亮度。hsi模型的空間坐標(biāo)系統(tǒng)如圖3.2所示:藍(lán)h=240。黑 i = 0綠h=120。白 i = 1h =
37、0。 紅i圖3.2 hsi顏色空間模型色度h由顏色的名稱來辨別,如紅、橙、綠,它用角度-180180或0360來度量;飽和度s指顏色的深淺,例如同樣是紅色,也會因濃度不同而分為深紅和淺紅,它也用百分比來度量,從0%到完全飽和的100%。密度i是顏色的明暗程度,通常用百分比度量,從黑0%到白100%;對其中任意一點(diǎn)p,其h值對應(yīng)指向該點(diǎn)的向量與水平軸的夾角,s值對應(yīng)指向該點(diǎn)的向量的長度,i值對應(yīng)該點(diǎn)所在平面距離最下端黑色點(diǎn)的距離。這里需要注意兩點(diǎn),一是亮度分量與色度分量是無關(guān)的,即i分量與色彩信息無關(guān)。二是h和s分量與人感受色彩的方式緊密相連。這兩個(gè)特點(diǎn)使得hsi模型非常適合基于人的視覺系統(tǒng)對色
38、彩感知特定進(jìn)行處理分析的算法。從圖像中得到的一般是像素的rgb值,rgb值可以很方便的轉(zhuǎn)換成hsi值,轉(zhuǎn)換公式如下: 式(3.4) 式(3.5) 式(3.6)java語言的api直接提供了從rgb空間到hsi空間的轉(zhuǎn)換函數(shù),可以方便的使用。該顏色空間中兩種顏色c1(h1,s1,i1)和c2(h2,s2,i2)之間的距離為: 式(3.7)hsi顏色空間因其固有的良好感知特性而得到了廣泛采用,本文的實(shí)驗(yàn)系統(tǒng)采用的就是hsi顏色模型。4lab模型lab顏色模型是面向視覺感知的模型,同時(shí)也是視覺感知均勻的顏色模型,意思是指人所感知到的兩個(gè)顏色的差別和這兩個(gè)顏色在顏色空間里的歐氏距離成比例。從圖像處理的
39、角度來看,這種對顏色的描述與人對顏色的感知相接近的顏色空間更適合于圖像處理的應(yīng)用。3.1.2 直方圖相交方法最早使用顏色特征進(jìn)行檢索的方法是swain和ballad提出的直方圖相交的方法26。顏色直方圖是一個(gè)一維的離散函數(shù),即 式(3.8)其中k代表圖像的特征取值,l是特征可取的個(gè)數(shù),nk是圖像中具有特征值為k的象素的個(gè)數(shù),n是圖像象素的總數(shù)。設(shè)hq和hd分別為查詢圖像q和庫中圖像d的統(tǒng)計(jì)直方圖,則兩圖之間的匹配值可以用下式計(jì)算: 式(3.9)它描述的是兩個(gè)直方圖的交集部分占查詢圖像的百分比,如圖3.3所示:%2550查詢圖q目標(biāo)圖d圖3.3 直方圖相交求相似度這種方法的優(yōu)點(diǎn)是簡單易行,且具有
40、旋轉(zhuǎn)不變性,但由于色彩直方圖不包含顏色的空間信息,因而兩個(gè)顏色數(shù)量信息相近的圖像可能在外觀上有很大不同,而這種方法并不能辨別。例如,全家福照片中,你站在左邊和你站在右邊得到的圖像是不一樣的,但直方圖是一樣的,所以這種方法認(rèn)為兩者是相似的。正是由于這個(gè)缺陷的存在,所以很多人提出了改進(jìn)方法。3.1.3 累積直方圖方法stricker和orengo提出了累積直方圖的方法27,通過證明指出了這種方法優(yōu)于傳統(tǒng)的色彩直方圖方法。累積直方圖也是一個(gè)一維的離散函數(shù): 式(3.10)累積直方圖能大大減少原統(tǒng)計(jì)直方圖中的零值數(shù)量,并能較好的解決量化所帶來的顏色鑒別能力差的問題,使兩種顏色在特征軸上的距離將保持與它
41、們之間的相似度成正比,所以,累積直方圖的效果要好于統(tǒng)計(jì)直方圖的效果。3.1.4 分塊主顏色方法hsu提出了分塊主顏色技術(shù)28,29,30,其主要思想是把圖像劃分成一定數(shù)目的矩形區(qū)域,在每個(gè)區(qū)域里計(jì)算出平均色作為代表色,或者計(jì)算出像素?cái)?shù)目最多的那種顏色作為代表色,兩個(gè)圖像間的相似度是兩個(gè)圖像間具有相似色彩區(qū)域的重疊程度。實(shí)現(xiàn)時(shí)可先計(jì)算出對應(yīng)分塊主顏色間的距離,進(jìn)而計(jì)算兩個(gè)圖像間的距離。設(shè)查詢圖像q和庫中圖像d均被分為n*n的分塊,和分別為第k分塊的主顏色,則兩個(gè)圖像間的距離為: 式(3.11)值得注意的是,盡可能讓表現(xiàn)圖像內(nèi)容的主題位于同一個(gè)分塊是一種好的選擇。但由于對要處理的圖像缺乏先驗(yàn)知識,
42、所以很難知道主題畫面是否被劃分到了一個(gè)分塊。所以預(yù)先準(zhǔn)備多個(gè)可選擇的分辨率,對相似度加權(quán)求和是不錯(cuò)的改進(jìn)措施,將來還可以通過相關(guān)反饋改變加權(quán)系數(shù),以求最佳的檢索效果。3.1.5 顏色矩方法stricker和orengo還提出了顏色矩的方法27,認(rèn)為圖像的顏色信息主要包含在色彩的低階矩中,他們對圖像的每個(gè)色彩分量分別計(jì)算一階,二階,三階中心矩,分別代表顏色分量的平均值、方差和不對稱度。這樣每個(gè)圖像都可以用由9個(gè)浮點(diǎn)數(shù)組成的向量來描述,它們因?yàn)榱烤V相同而具有可比性,圖像間的相似度由向量間的距離來決定。假設(shè)一幅圖像有n個(gè)像素,第i個(gè)顏色分量的第j個(gè)像素的值是pij,則這個(gè)顏色分量的相關(guān)索引值是; 式
43、(3.12) 式(3.13) 式(3.14)設(shè)查詢圖像q和庫中圖像d,它們各有r個(gè)顏色分量,他們的三個(gè)顏色矩分別是ei和fi,i和i,si和ti,則兩圖像間的距離為: 式(3.15)其中是用戶定義的權(quán)值矩陣。通常我們在hsi顏色空間中進(jìn)行顏色矩計(jì)算,并且人們通常對色度相似性的要求要高于飽和度和亮度的相似性,這個(gè)要求可以通過設(shè)置適當(dāng)?shù)臋?quán)值矩陣來實(shí)現(xiàn)。另外,權(quán)值矩陣也可以通過相關(guān)反饋加以調(diào)整,以求最佳的檢索效果。3.1.6 小結(jié)顏色表達(dá)的是圖像的全局特征,是圖像的主要視覺性質(zhì),在人們對圖像的印象中,顏色占了很大的比重。但由于顏色對圖像或圖像區(qū)域的方向、大小等變化不敏感,所以顏色特征不能很好的捕捉圖
44、像中對象的局部特征,當(dāng)數(shù)據(jù)庫很大時(shí),經(jīng)常有不相關(guān)的圖像被檢索出來。這說明單靠顏色本身并不能完全表達(dá)出圖像的所有特征信息,事實(shí)上,基于顏色的檢索方法通常和其他方法結(jié)合使用才能獲得更好的效果。3.2 基于紋理特征的圖象檢索紋理是某些圖像的重要屬性,紋理可以看作是某些紋理元素的重復(fù)分布或者有規(guī)律的排列組合。這些特征在水波、布匹、建材等類型的圖像中有較明顯的體現(xiàn),紋理特征對檢索這一類圖像顯得極為有用。3.2.1 共生矩陣方法(co-matrix)在20世紀(jì)70年代,haralick等人提出了紋理特征的共生矩陣31,即表示圖像灰度級空間相關(guān)的矩陣。共生矩陣表示圖像中相距()的兩個(gè)灰度象素同時(shí)出現(xiàn)的聯(lián)合頻
45、率分布。假設(shè)圖像的灰度級l,那么共生矩陣為l*l的矩陣,可表示為,其中位于(h,k)的元素mhk的值表示一個(gè)灰度為h而另一個(gè)灰度為k的兩個(gè)相距()的象素對出現(xiàn)的次數(shù)。設(shè)s為目標(biāo)區(qū)域r中具有特定空間關(guān)系的象素對的集合,則共生矩陣p可以定義為: 式(3.16)其中分子是具有某種空間關(guān)系、灰度值分別為g1,g2的象素對的個(gè)數(shù),分母為象素對的總合個(gè)數(shù)(#代表數(shù)量)。在得到圖像的灰度共生矩陣的基礎(chǔ)上,可以定義多種有意義的統(tǒng)計(jì)數(shù)據(jù)作為紋理描述符,諸如紋理二階矩、熵、對比度和均勻性等構(gòu)成圖像的特征表達(dá),進(jìn)而計(jì)算圖像間的相似度。其缺點(diǎn)是這些統(tǒng)計(jì)特征都是純粹從數(shù)學(xué)角度考慮的,沒有很好的符合人在視覺上對紋理信息的
46、鑒別特點(diǎn),另外,共生矩陣很大且有大量的冗余信息。3.2.2 小波變換方法(wavelet transform)小波變換也是一種常用的紋理分析方法。小波變換指的是把信號分解為一系列的基本函數(shù)。這些基本函數(shù)都是通過對母函數(shù)的變形得到的: 式(3.17)其中m和n都是整數(shù)。這樣,信號f(x)可以表示為: 式(3.18)二維小波變換的計(jì)算需要進(jìn)行遞歸的過濾和采樣。在每個(gè)層次上,二維信號被分解為一系列的頻道,根據(jù)頻率特征分別稱為ll、lh、hl和hh。通常用于紋理分析的小波變換有金字塔結(jié)構(gòu)的小波變換(pwt)和樹狀結(jié)構(gòu)的小波變換(twt)。pwt只遞歸分解ll波段,twt遞歸分解所有波段。這樣,在各個(gè)分
47、解層次上的各個(gè)頻道的能量分布的均值和方差構(gòu)成紋理的特征描述符。例如,三層pwt分解所提取的小波紋理特征可以表達(dá)為3*4*2的特征向量。smith和chang利用小波分析提取統(tǒng)計(jì)特征值做索引進(jìn)行檢索,取得了良好的效果32。chang和kuo研究了小波中波段的特征,采用樹結(jié)構(gòu)小波變換進(jìn)一步提高了圖像分類能力的準(zhǔn)確度33。3.2.3 小結(jié)圖像的紋理也是一種全局特征,它描述了圖像的表面性質(zhì)。在檢索具有粗細(xì)、疏密等方面有較大差別的圖像時(shí),利用紋理特征是一種有效的方法。但由于紋理只是一種物體表面的特性,并不能完全反映出物體的本質(zhì)屬性,所以僅利用紋理特征無法獲得圖像高層語義特征。3.3 基于形狀特征的圖象檢
48、索形狀特征通常和目標(biāo)聯(lián)系在一起,因而含有一定的語義信息,可以有效的對圖像中感興趣的目標(biāo)進(jìn)行檢索。由于形狀通常是由封閉的輪廓曲線包括起來的一個(gè)區(qū)域,所以形狀特征的索引方法分為對輪廓特征的索引和對區(qū)域特征的索引。3.3.1 基于輪廓特征的方法基于形狀輪廓特征的描述方法有多種,其中使用傅立葉描述子描述形狀的邊界信息最具有代表性34。傅立葉描述子具有很好的平移、旋轉(zhuǎn)、伸縮等幾何不變性,適合用于對形狀的輪廓特征進(jìn)行索引和檢索。其基本思想如下:把封閉輪廓上的每個(gè)點(diǎn)表示成復(fù)數(shù)的形式,這樣將輪廓由xy空間轉(zhuǎn)換到uv空間,則一個(gè)點(diǎn)k繞輪廓一周可以得到一個(gè)復(fù)數(shù)序列: 式(3.19)c(k)的離散傅立葉變換是: 式
49、(3.20)c(w)稱為輪廓的傅立葉描述,它能夠以一定的精度描述輪廓的特性,并可以進(jìn)行定量比較,設(shè)a(n)和b(n)分別代表兩個(gè)輪廓的特征符號,則它們之間的相似度可以表示為: 式(3.21)其他幾種關(guān)于輪廓特征的描述方法還有直線段描述、樣條擬合曲線描述以及內(nèi)角直方圖描述等,這里不再細(xì)述。3.3.2 基于區(qū)域特征的方法形狀的區(qū)域特征同樣能有效的描述形狀的特性。形狀的區(qū)域特征主要有區(qū)域的面積、重心、縱橫比、離散度、離心率等,flicker等人在ibm的qbic中采用了形狀面積、圓度、離心率、主軸慣量等特征5,形狀間的相似度由特征矢量的加權(quán)歐幾里德距離來度量。幾個(gè)典型區(qū)域特征定義如下:1區(qū)域面積:區(qū)
50、域面積是封閉區(qū)域占圖像總面積的百分比,反映了區(qū)域的尺度特征。 式(3.22)2離散度:形狀的離散度v類似于區(qū)域的包圍盒,反映了該區(qū)域相對于中心的離散程度,因?yàn)樗y(tǒng)計(jì)特征,顯然要比矩形包圍盒更具有魯棒性。 式(3.23)3離心率:離心率e是物體最適橢圓的短、長軸之比,反映了物體的大致形狀并且具有旋轉(zhuǎn)不變性。 式(3.24)其中up,q=最終,一個(gè)區(qū)域的形狀特征可以表示為,含有m個(gè)區(qū)域的圖像的形狀特征矢量可以表示成為f1f2fm,區(qū)域間的相似度由可由式(4.1)計(jì)算得到。區(qū)域的形狀特征通常和其他特征一起,聯(lián)合構(gòu)成特征矢量,進(jìn)而計(jì)算得到圖像間的相似度。3.3.3 區(qū)域約束方法stricker和dim
51、ai認(rèn)為圖像對有意義的區(qū)域位于圖像的中心35,把圖像劃分成五個(gè)區(qū)域,中間的一個(gè)是橢圓如圖3.4(a),然后對每個(gè)區(qū)域計(jì)算顏色矩信息,這樣保留了圖像的空間信息和旋轉(zhuǎn)不變性,收到了較好效果。類似的,我們可以取圖像的內(nèi)接菱形如圖3.4 (b)或內(nèi)嵌矩形如圖3.4 (c)等其他區(qū)域來輔助尋找感興趣的區(qū)域,然后再根據(jù)目標(biāo)的物理特征來索引和檢索。這種方法的目的和優(yōu)點(diǎn)在于,它可以把檢索的重心放在感興趣的目標(biāo)區(qū)域里,從而較好的避免背景等其他不重要的目標(biāo)信息的干擾。目標(biāo)區(qū)域 目標(biāo)區(qū)域目標(biāo)區(qū)域圖3.4(a) 圖3.4(b) 圖3.4(c)3.3.4 小結(jié)基于形狀特征的檢索需要找到圖像的具體目標(biāo),因而形狀特征更接近
52、于目標(biāo)的語義特征,具有一定的語義信息,可以幫助用戶避開不相關(guān)的背景或不重要的目標(biāo),直接搜索與目標(biāo)圖像相似的圖像,其效果在理論上要優(yōu)于顏色和紋理特征的索引方法。其缺點(diǎn)在于,要獲得有關(guān)目標(biāo)的形狀參數(shù),通常需要對圖像進(jìn)行邊界提取或分割操作,所以形狀特征的提取會受到圖像分割效果的影響。4 基于顏色和形狀特征的圖象檢索4.1 前言基于顏色、紋理、形狀特征的圖像檢索都各有優(yōu)、缺點(diǎn),分別從不同角度反映圖像的某個(gè)特征,為了更完整的描述圖像內(nèi)容,有效地提高檢索的準(zhǔn)確率,人們經(jīng)常將不同類型的綜合特征來檢索圖像,以取長補(bǔ)短。如綜合顏色和紋理特征進(jìn)行檢索,綜合顏色和形狀特征進(jìn)行檢索,綜合紋理和形狀特征的檢索,綜合顏色
53、和空間關(guān)系特征的檢索等。對于多特征綜合檢索而言,除了特征的選擇及其組合方式的選擇之外,合理設(shè)置各個(gè)特征的權(quán)重是影響檢索結(jié)果的另一個(gè)重要因素。本文采用綜合顏色和形狀特征進(jìn)行檢索。4.2 檢索算法描述設(shè)計(jì)檢索方法如下:先將圖像分割成若干對象區(qū)域,對每個(gè)區(qū)域抽取顏色矩特征和形狀特征,聯(lián)合構(gòu)成特征向量,并根據(jù)區(qū)域重心距離圖像中心的遠(yuǎn)近來設(shè)置權(quán)重系數(shù),按照一定算法來計(jì)算區(qū)域之間的相似度,進(jìn)而計(jì)算圖像之間的相似度,在相關(guān)反饋中調(diào)整區(qū)域的權(quán)重系數(shù),讓系統(tǒng)記住區(qū)域?qū)τ诒磉_(dá)圖像語義信息的重要程度,通過學(xué)習(xí)積累,獲得更好的檢索效果。具體表述如下:1方法的假設(shè)前提是:圖片總有一個(gè)要表達(dá)的主要物體,它以圖像的一個(gè)區(qū)域表達(dá)出來,而這個(gè)區(qū)域則表達(dá)了整個(gè)圖像最主要的語義信息。如果能有效的判斷圖像之間主要對象的相似程度,就抓住了圖像的相似程度。所以選擇使用基于圖像分割的方法,通過匹配區(qū)域間的相似度來實(shí)現(xiàn)檢索。2 對于區(qū)域之間的相似度,可以使用stricker在similarity of color images文中提出的顏色矩方法,這種方法認(rèn)為圖像的特征主要體現(xiàn)在顏色的前三階中心矩上,這樣在hsi顏色空間中,圖像可以用9個(gè)浮點(diǎn)數(shù)字來表示
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 硝酸鋱企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報(bào)告
- 濃縮梨汁企業(yè)縣域市場拓展與下沉戰(zhàn)略研究報(bào)告
- 二零二五年度主播與游戲公司合作合同
- 二零二五年度高空吊裝作業(yè)安全及風(fēng)險(xiǎn)評估協(xié)議
- 二零二五年度醫(yī)療衛(wèi)生機(jī)構(gòu)人事聘用管理合同
- 2025年度籃球運(yùn)動傷害賠償處理合同
- 二零二五年度餐飲場所裝修工程合同書
- 二零二五年度戶外裝飾裝修工人安全責(zé)任合同
- 二零二五年度自媒體合伙人品牌合作與內(nèi)容共享協(xié)議
- 二零二五年度高校食堂經(jīng)營權(quán)招標(biāo)合同
- 洗胃技術(shù)操作流程及評分標(biāo)準(zhǔn)
- 2024年普通高等學(xué)校招生全國統(tǒng)一考試·新課標(biāo)卷(化學(xué))附試卷分析
- 人教版五年級下冊數(shù)學(xué)第2單元測試題帶答案
- DB62-T 3268-2024 人民防空工程平戰(zhàn)功能轉(zhuǎn)換技術(shù)標(biāo)準(zhǔn)
- 天車工技能競賽理論考試題庫500題(含答案)
- 醫(yī)共體信息化項(xiàng)目建設(shè)方案(技術(shù)方案)
- 2024-2025年跨境電商行業(yè)女裝市場前景及投資研究報(bào)告
- 2024年新疆中考英語試卷真題(含答案)
- 【國內(nèi)外關(guān)于融資擔(dān)保業(yè)務(wù)風(fēng)險(xiǎn)管理的探究綜述2300字】
- JBT 14543-2024 無刷穩(wěn)速直流電動機(jī)技術(shù)規(guī)范(正式版)
- 執(zhí)行信息屏蔽申請書
評論
0/150
提交評論