ch04 基于深度學(xué)習(xí)的圖像檢索_第1頁
ch04 基于深度學(xué)習(xí)的圖像檢索_第2頁
ch04 基于深度學(xué)習(xí)的圖像檢索_第3頁
ch04 基于深度學(xué)習(xí)的圖像檢索_第4頁
ch04 基于深度學(xué)習(xí)的圖像檢索_第5頁
已閱讀5頁,還剩30頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第四章基于深度學(xué)習(xí)的圖像檢索新工科建設(shè)·人工智能與智能科學(xué)系列深度學(xué)習(xí)在數(shù)字圖像處理中的應(yīng)用01圖像檢索的研究背景和研究現(xiàn)狀PARTONE圖像檢索的研究背景和研究現(xiàn)狀當(dāng)今是互聯(lián)網(wǎng)與多媒體技術(shù)日新月異的時代,海量信息日益增長,視頻、圖像等多媒體信息成為常用的信息表現(xiàn)方式。從擁有豐富視覺信息的龐大圖像庫中,如何更加精確、快速地查詢并檢索出用戶想要的圖像,是圖像檢索領(lǐng)域的研究內(nèi)容?,F(xiàn)代社會對圖像檢索技術(shù)的需求遍布人們生活各處,特別是在電子商務(wù)、版權(quán)保護(hù)、醫(yī)療診斷、公共安全、街景地圖等領(lǐng)域,圖像檢索應(yīng)用都具有廣闊的商業(yè)前景。常用的圖像檢索技術(shù)主要為基于文本的圖像檢索、基于內(nèi)容的圖像檢索以及基于語義的圖像檢索。1圖像檢索的研究背景圖像檢索的研究背景和研究現(xiàn)狀以往因為受計算機(jī)視覺與圖像理解技術(shù)的限制,CBIR大都是用底層視覺特征來表示圖像的,然而底層視覺特征區(qū)分圖像的能力較弱,與人類對圖像的理解間還存在著“語義鴻溝",導(dǎo)致檢索效果較差。因此如何縮小“語義鴻溝",是如今圖像檢索領(lǐng)域的主要研究內(nèi)容。自2006年莊nton提出深度信念網(wǎng)絡(luò)后,深度學(xué)習(xí)技術(shù)蓬勃發(fā)展。伴隨著硬件的發(fā)展和數(shù)據(jù)集的完善,以及更多類別的神經(jīng)網(wǎng)絡(luò)模型被提出,深度學(xué)習(xí)在越來越多的技術(shù)領(lǐng)域壓倒了傳統(tǒng)的方法,尤其是在處理圖像數(shù)據(jù)和文本數(shù)據(jù)上,深度學(xué)習(xí)具有無可比擬的優(yōu)勢。2為什么要引人深度學(xué)習(xí)圖像檢索的研究背景和研究現(xiàn)狀如何在龐大的圖像資源庫中更準(zhǔn)確地檢索出所需圖像,是圖像檢索技術(shù)的研究內(nèi)容。TBIR起源于20世紀(jì)70年代,是當(dāng)時主流的圖像檢索方法。TBIR將圖像用一些詞語來表示:根據(jù)圖像內(nèi)容,用若于關(guān)鍵詞對圖像進(jìn)行描述,關(guān)鍵詞通過自動標(biāo)引或人工標(biāo)注的方式生成。在檢索階段,通過查詢匹配這些關(guān)鍵詞獲得檢索結(jié)果,這樣,檢索圖像就變?yōu)榱藢﹃P(guān)鍵詞的查找匠系統(tǒng)通過匹配輸入的關(guān)鍵字返回查詢的圖像,有人形象地稱這種方法為“以字搜圖”。使用TBIR進(jìn)行圖像檢索的查準(zhǔn)率很高,但是這種技術(shù)需要進(jìn)行關(guān)鍵詞標(biāo)注以建立圖像描述庫,這需要耗費一定的時間。而且由于圖像內(nèi)容的豐宮性,以及標(biāo)注者對于圖像的理解帶有主觀色彩,這都會導(dǎo)致圖像檢索出現(xiàn)歧義。隨著信息技術(shù)不斷發(fā)展,供人們使用的多媒體設(shè)備更加多樣化,圖像數(shù)量呈指數(shù)倍增長,人工標(biāo)注成本過高,機(jī)器標(biāo)注技術(shù)尚不成熟,導(dǎo)致TBIR無法滿足實際需求。TBIR由于自身的缺陷在各個領(lǐng)域已經(jīng)逐漸被CBIR和SBIR替代。3圖像檢索的研究現(xiàn)狀02圖像特征和相似性度量PARTTWO圖像特征和相似性度量顏色直方圖顏色直方圖是較為常見的用于圖像檢索的圖像特征。顏色直方圖法首先計算圖像中的每種顏色出現(xiàn)的概率,然后計算每兩個顏色直方圖的交集,從而衡量兩種顏色的相似性。當(dāng)顏色直方圖通過計算確定后,可以按照直方圖相似性對圖像庫中的圖像排序。顏色直方圖法具有簡單、高效的優(yōu)點。1原始數(shù)據(jù)層特征圖像特征和相似性度量2.顏色矩顏色矩是一類基于圖像顏色矩陣的統(tǒng)計值,并且所有圖像的顏色分布都可以通過顏色矩描述。圖像的顏色信息主要集中在低階矩中,因此使用圖像顏色特征的一階矩、二階矩、三階中心矩這3個基本統(tǒng)計矩就能夠充分表達(dá)圖像的特征。雖然顏色矩具有計算簡單的優(yōu)點,但是基于圖像低階矩特征的檢索存在分辨率低、區(qū)分性差的問題,并不能完全滿足現(xiàn)實應(yīng)用。為了解決這個問題,可以同時提取低階矩和其他類型的圖像特征,然后將多類特征融合后再使用。1原始數(shù)據(jù)層特征圖像特征和相似性度量3.顏色相關(guān)圖除使用顏色矩外,使用顏色相關(guān)圖也可以改善顏色直方圖缺乏對顏色空間分布信息的考慮的問題。顏色相關(guān)圖的定義如下:假設(shè)存在圖像I,而Ci,C2,···,Cn為圖像中出現(xiàn)的顏色,d=do,d1--·,dn為顏色間距離的集合.基于顏色相關(guān)圖特征的圖像檢索算法在直方圖之外還提取了顏色空間分布信息,因此往往比僅基于顏色直方圖的檢索算法具有更高的精確率。1原始數(shù)據(jù)層特征圖像特征和相似性度量1.邊界特征法邊界特征法通過使用算子來描述圖像的邊界,并在此基礎(chǔ)上獲得形狀的參數(shù)。常用的邊界特征算子主要包括邊界方向直方圖法及Hough變換法兩類。2物理層特征圖像特征和相似性度量2.傅里葉描述子圖像形狀邊界存在周期性和封閉性等特性,因此可以使用基于傅里葉形狀描述符的算法對圖像進(jìn)行變換,將原本二一圖像進(jìn)行變換,將原本二維的特征提取問題轉(zhuǎn)化到維空間中進(jìn)行求解。維的特征提取問題轉(zhuǎn)化到一維空間中進(jìn)行求解。2物理層特征3.圖像紋理除圖像的形狀外,圖像紋理也是物理特征層的組成部分。圖像紋理特征常用于織物、波紋、巖層等細(xì)節(jié)變化明顯的圖像的整理和檢索,因為紋理可以反映圖像本身的粗細(xì)程度、光滑程度和均勻程度等細(xì)節(jié)。圖像特征和相似性度量語義層特征是對圖像的高級抽象,在使用底層特征進(jìn)行圖像檢索的效果不理想時,就需要引入高級語義特征實現(xiàn)檢索功能。對于存在的數(shù)據(jù),數(shù)據(jù)所對應(yīng)的事物在現(xiàn)實中所代表的概念的含義,以及這些概念含義之間的關(guān)系,一般稱為語義。簡而言之,語義是數(shù)據(jù)在某個領(lǐng)域上的解釋和邏輯表示。圖像語義表示圖像內(nèi)容所蘊(yùn)含的意義,圖像語義存在多個層次,基于不同層次語義的語義特征對圖像檢索具有不同程度的影響。3語義層特征圖像特征和相似性度量圖像檢索需要計算待查詢圖像和候選圖像間在視覺特征上的匹配程度,這對圖像檢索是一個很大的影響因素,因此必須定義合適的相似性度量方法。圖像檢索過程中最后輸出的是多個描述圖像的標(biāo)簽向量,常用的計算相似性的方式是將標(biāo)簽向量看作向量空間中的點,計算兩個點之間的距離,使用距離衡量圖像間的相似性。4圖像相似性度量03基于內(nèi)容的圖像檢索PARTTHREE基于內(nèi)容的圖像檢索顏色是人眼識別范圍內(nèi)最敏感的特征之一,許多物體都帶有特殊的色彩標(biāo)記。例如黃色的香蕉、橙色的橘子等?;陬伾膱D像檢索就是利用顏色特征對圖像全局像素點特征進(jìn)行描述,表示的是相關(guān)圖像區(qū)域最直觀的特征。相對于灰度圖像,彩色圖像的三維特征識別效果更好。顏色直方圖、局部直方圖、參考顏色表、自組織聚類等方法都是常用的以顏色為基礎(chǔ)的圖像檢索方法體。由于顏色直方圖可以更為直觀地表現(xiàn)出圖像的色彩特點,因此被人們廣泛使用。1基于顏色特征的圖像檢索基于內(nèi)容的圖像檢索紋理特征體現(xiàn)在物體的表面構(gòu)造上,其組織結(jié)構(gòu)代表了許多至關(guān)重要的內(nèi)容。如何判定膽像是否適合進(jìn)行紋理特征提取,有幾個相對條件:首先紋理特征盡可能地明顯,紋理特征越明顯,對于特征識別的效果就越出色;其次,圖像的紋理特性要具有代表性,找出其他圖像不具有的紋理特征就會縮短檢索范圍,加快檢索效率。經(jīng)過大量的實驗研究,發(fā)現(xiàn)紋理特征主要體現(xiàn)在粗糙度(Coarseness)、方向性(Directionality)、對比度(Contrast)、規(guī)整度(Regularity)、線性狀(Line)和平滑度(Roughness)等方面。2基于紋理特征的圖像檢索基于內(nèi)容的圖像檢索對于一些圖像,其紋理和顏色特征不夠明顯,基于圖像的形狀檢索無疑是最好的選擇。形狀是物體的輪廓表現(xiàn),是物體可直觀的穩(wěn)定特征。為了檢測出目標(biāo)的輪廓線,采用基于形狀的圖像檢索方法,主要是提取出它的形狀特征或適當(dāng)?shù)南蛄刻卣鳌P螤蠲枋霾粌H能區(qū)別不同目標(biāo),而且一般的幾何變化對形狀描述的影響非常小。3基于形狀特征的圖像檢索基于內(nèi)容的圖像檢索1.引言Lu將每個8x8的DCT塊分割成4個向量,使用4個對應(yīng)的碼本進(jìn)行量化,得到VQ指數(shù)直方圖特征。Wang等人基于4個DWT最低分辨率子帶,采用三步漸進(jìn)檢索圖像。Yu等人根據(jù)從BTC和VQ壓縮數(shù)據(jù)中獲得的有效特征來檢索彩色圖像。VQ算法因為其相對簡單的壓縮結(jié)構(gòu)和較低的譯碼計算復(fù)雜度,受到了人們廣泛的關(guān)注,因此,Uchiyama等人從VQ索引表中提取了特征。4基于多特征的圖像檢索基于內(nèi)容的圖像檢索2.基于多特征分類直方圖的圖像檢索方案基于多特征的CBIR系統(tǒng)提取圖像的顏色、形狀和紋理特征。該方案的基本思想是將輸入圖像分塊,并根據(jù)多個特征對圖像分塊進(jìn)行分類,然后得到每幅圖像的直方圖。4基于多特征的圖像檢索3.亮度特征眾所周知,顏色可以在不同的視覺特征之間更有主導(dǎo)性和區(qū)別性地描述圖像,因此在圖像檢索中得到了廣泛的應(yīng)用。顏色直方圖是一幅圖像中顏色分布的表示?;趦?nèi)容的圖像檢索4.對比度特征對比度是圖像各部分之間的顏色和光線的差異,圖像塊的對比度衡量圖像塊內(nèi)像素值的分布情況,可以反映陰影的紋理深度和圖像的清晰度。對比度越大,紋理就越深。4基于多特征的圖像檢索5.邊緣方向特征因為邊緣方向信息對圖像是至關(guān)重要的。文獻(xiàn)提出的結(jié)構(gòu)化局部二值KirschPattern(SLBKP)采用8個3x3的Kirsch模板來區(qū)分8個邊緣方向,受此啟發(fā),本書作者提出了一種基于邊緣方向模式(EOP)的直方圖特征。基于內(nèi)容的圖像檢索1.視覺詞袋模型在基于局部視覺特征的計算機(jī)應(yīng)用中,圖像特征的出現(xiàn)為圖像內(nèi)容的表達(dá)提供了方式,將圖像轉(zhuǎn)換成便于處理的向量形式繼而進(jìn)行相似性比較。對于圖像特征的處理,視覺詞袋倒排索引模型是被廣泛采用的方法,其以突出的簡單構(gòu)造、性能卓越、擴(kuò)展能力強(qiáng)大出現(xiàn)于各級實際應(yīng)用中。5基于視覺詞袋的圖像檢索基于內(nèi)容的圖像檢索2.基于Bow圖像檢索的投票機(jī)制BoW模型得到圖像最終檢索結(jié)果有兩種方法。一是直接將圖像的特征在各個視覺詞上出現(xiàn)的頻率作為圖像表達(dá)方式,繼而計算相似性。這種方式簡單、實用、計算快速,但缺陷是致命的,檢索精度過于低下且基本沒有擴(kuò)展的余地。故一般傾向于選擇第二種基于投票機(jī)制的圖像檢索方法。5基于視覺詞袋的圖像檢索04基于注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)的圖像檢索PARTFOUR基于注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)的圖像檢索注意力機(jī)制(AttentionMechanism)思想借鑒了人類視覺注意力,最早在計算機(jī)視覺領(lǐng)域被提出,但真正被研究領(lǐng)域廣泛應(yīng)用是因為Googlemind團(tuán)隊在RNN模型上使用注意力機(jī)制進(jìn)行圖像分類?,F(xiàn)在已應(yīng)用于深度學(xué)習(xí)各個領(lǐng)域,如自然語言處理、語音識別和圖像識別等多種不同類型的任務(wù)中。視覺注意力機(jī)制是人腦所具有的一種信號處理機(jī)制。1注意力機(jī)制簡介基于注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)的圖像檢索將注意力機(jī)制引入圖像檢索的領(lǐng)域內(nèi),是為了重點關(guān)注聚集觀察者焦點的區(qū)域,以便更加高效地檢索和查詢。視覺心理學(xué)研究普遍將早期視覺過程劃分為兩個階段:前注意階段和注意階段。在前注意階段,能夠快速吸引觀察者注意的程度被稱為視覺顯著性。當(dāng)檢索圖像時,大部分區(qū)域經(jīng)常會被圖像的背景占據(jù),所以在提取圖像特征的過程中,主要特征的提取將受到制約。而如果把圖像顯著區(qū)域特征的提取放在開始,之后再進(jìn)行圖像檢索,那么基于內(nèi)容的圖像檢索的性能將會提升。2圖像檢索中的注意力機(jī)制基于注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)的圖像檢索1.總體思路圖像中往往包含著豐富的信息,就算是一幅簡單的圖像也至少包括前景和背景兩部分。進(jìn)行圖像檢索時,要從龐大的圖像庫中準(zhǔn)確、快速地檢索出與給定查詢圖像相同或相似的圖像,需要重點關(guān)注圖像中的顯著區(qū)域,也就是人們看到這幅圖像時一般最關(guān)注的區(qū)域。2.LeNet-5模型1998年,YannLeCun設(shè)計了用于手寫數(shù)字識別的卷積神經(jīng)網(wǎng)絡(luò),這是卷積神經(jīng)網(wǎng)絡(luò)的經(jīng)典結(jié)構(gòu)之一。3基于注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)模型的圖像檢索基于注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)的圖像檢索3.改進(jìn)的模型現(xiàn)在很多人使用卷積神經(jīng)網(wǎng)絡(luò)都只使用卷積層,這是因為池化層在池化過程中,由于降維,知造成數(shù)據(jù)信息的丟失。針對數(shù)據(jù)丟失問題,曾有學(xué)者提出重疊池化和空間金字塔池化,以避免因池化造成的數(shù)據(jù)損失。4.GoogLeNet模型GoogLeNet的主要創(chuàng)新在于它的Inception模塊,這是一種網(wǎng)中網(wǎng)(NetworkInNetwork)結(jié)構(gòu),也就是原來網(wǎng)絡(luò)的節(jié)點同樣也是一個網(wǎng)絡(luò)。用Inception模塊的主要目的是在保證網(wǎng)絡(luò)結(jié)構(gòu)稀疏性的同時,又可以利用密集矩陣的高計算性能。3基于注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)模型的圖像檢索基于注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)的圖像檢索實驗數(shù)據(jù)集與預(yù)處理文獻(xiàn)的數(shù)據(jù)集選用兩個常用圖像庫。第個是去除了BACKGROUND_Google類的CaltechIOI數(shù)據(jù)集。但在文獻(xiàn)的實驗中,又從80%的訓(xùn)練集隨機(jī)抽出80%用以訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),20%用以驗證網(wǎng)絡(luò)性能。第二個是Holidays數(shù)據(jù)集,這個數(shù)據(jù)集是由HerveJegou等人建立的,圖像都是他們在度假時所拍攝的照片(風(fēng)景為主),共500類、1491幅圖像,其中500幅作為檢索圖像。為了驗證色彩是否會對圖像的特征提取產(chǎn)生影響,文獻(xiàn)將Caltechlol數(shù)據(jù)集分為RGB圖像和灰度圖像分別進(jìn)行實驗。在使用灰度圖像做實驗時,需要將所有的彩色圖像灰度化。4實驗結(jié)果基于注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)的圖像檢索2.實驗環(huán)境文獻(xiàn)的深度學(xué)習(xí)實驗使用Python3.5.2編寫,使用的深度學(xué)習(xí)框架是Keras2.0.1,后端選用TensorFlow1.1.0。Keras是基于TensorFlow或Theano的開源深度學(xué)習(xí)框架,運用Python語言實現(xiàn),其特點是高度模塊化,宗旨是讓用戶可以進(jìn)行最快速的原型實驗。Keras中的模型都是在Python中定義的,這樣就能夠通過編程的方式調(diào)試模型結(jié)構(gòu)及各種參數(shù)。Keras提供了便利的APL用戶只需要將高級的模塊組合在一起,就能夠設(shè)計神經(jīng)網(wǎng)絡(luò),這樣就很大程度地降低了編程開銷和閱讀他人代碼時所需的理解開銷。4實驗結(jié)果基于注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)的圖像檢索3.實驗結(jié)果與分析當(dāng)采用灰度圖像時,LeNet-5模型的M凡>(36.83%)比基于LDA主題模型的M戰(zhàn)(17.11%)提升了115%,說明使用深度學(xué)習(xí)表示圖像比使用底層視覺特征表示圖像的效果更好。當(dāng)采用RGB彩色圖像時,LeNet-5模型的M凡汀丁達(dá)40.43%。在對LeNet-5三種形式的改進(jìn)模型中,只去除池化層S4的效果最好,使用RGB圖像的M凡瑾丁以達(dá)到46.07%,使用灰度圖像的M心可以達(dá)到45.72%。4實驗結(jié)果05基于深度信念網(wǎng)絡(luò)的人臉圖像檢索PARTFIVE基于深度信念網(wǎng)絡(luò)的人臉圖像檢索人臉圖像的LBP特征很容易計算。因為深度神經(jīng)網(wǎng)絡(luò)雖然具有功能強(qiáng)大自主學(xué)習(xí)能力,卻需要大量的學(xué)習(xí)數(shù)據(jù)作為其訓(xùn)練的前提,所以文獻(xiàn)在實驗中特意使用簡單的LBP

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論