人工智能技術(shù)及應(yīng)用 課件 第二章 基于人工智能的數(shù)字圖像識(shí)別技術(shù)與應(yīng)用_第1頁
人工智能技術(shù)及應(yīng)用 課件 第二章 基于人工智能的數(shù)字圖像識(shí)別技術(shù)與應(yīng)用_第2頁
人工智能技術(shù)及應(yīng)用 課件 第二章 基于人工智能的數(shù)字圖像識(shí)別技術(shù)與應(yīng)用_第3頁
人工智能技術(shù)及應(yīng)用 課件 第二章 基于人工智能的數(shù)字圖像識(shí)別技術(shù)與應(yīng)用_第4頁
人工智能技術(shù)及應(yīng)用 課件 第二章 基于人工智能的數(shù)字圖像識(shí)別技術(shù)與應(yīng)用_第5頁
已閱讀5頁,還剩61頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2.1數(shù)字圖像識(shí)別概述2.2基于人工智能的數(shù)字圖像識(shí)別新技術(shù)2.3深度神經(jīng)網(wǎng)絡(luò)在數(shù)字圖像處理中的典型應(yīng)用2.4幾種圖像智能目標(biāo)跟蹤算法簡介2.5智能數(shù)字圖像識(shí)別技術(shù)的主要應(yīng)用領(lǐng)域2.6智能數(shù)字圖像識(shí)別技術(shù)的未來展望2.1數(shù)字圖像識(shí)別概述2.1.1數(shù)字圖像處理的概念及應(yīng)用數(shù)字圖像處理是將圖像轉(zhuǎn)換成數(shù)字信號(hào)并利用計(jì)算機(jī)對(duì)其進(jìn)行處理,從而滿足各種應(yīng)用的需要。由于人類的信息獲取80%左右來自視覺,因此數(shù)字圖像處理目前已被廣泛應(yīng)用于科學(xué)研究、工農(nóng)業(yè)生產(chǎn)、生物醫(yī)學(xué)工程、航空航天、軍工、工業(yè)檢測(cè)、機(jī)器人視覺、公安偵察等,該學(xué)科已成為一門應(yīng)用廣泛、效益巨大的工程學(xué)科。數(shù)字圖像處理作為一門學(xué)科,形成于20世紀(jì)60年代初期。早期的數(shù)字圖像處理主要是改善圖像的質(zhì)量,增強(qiáng)人的視覺效果。1964年,美國噴氣推進(jìn)實(shí)驗(yàn)室對(duì)航天探測(cè)器徘徊者7號(hào)發(fā)回的幾千張?jiān)虑蛘掌褂昧藬?shù)字圖像處理技術(shù)進(jìn)行處理,獲得了月球的地形圖、彩色圖及全景鑲嵌圖,為人類成功登月奠定了堅(jiān)實(shí)的基礎(chǔ),也推動(dòng)了數(shù)字圖像處理這門學(xué)科的成熟與發(fā)展。數(shù)字圖像處理在醫(yī)學(xué)領(lǐng)域也取得了巨大的成就。1972年,英國EMI公司工程師Housfield發(fā)明了用于頭顱疾病診斷的X射線計(jì)算機(jī)斷層攝影裝置;1975年EMI公司又成功研制出全身用的CT裝置,獲得了人體各個(gè)部位鮮明清晰的斷層圖像。這項(xiàng)無損傷診斷技術(shù)為人類的健康檢查做出了杰出的貢獻(xiàn),并于1979年獲得了諾貝爾獎(jiǎng)。2.1.2數(shù)字圖像識(shí)別的概念及應(yīng)用圖像識(shí)別,顧名思義,就是對(duì)圖像做出各種處理、分析,最終識(shí)別出我們所要關(guān)注的目標(biāo)。數(shù)字圖像識(shí)別技術(shù)是一門重要的信息處理技術(shù),也是當(dāng)前人工智能領(lǐng)域一個(gè)非?;钴S、應(yīng)用前景非常廣闊的研究課題,可用計(jì)算機(jī)及其相應(yīng)算法替代人類去快速分析、處理和識(shí)別海量的數(shù)字圖像信息,為科學(xué)研究、工農(nóng)業(yè)生產(chǎn)活動(dòng)、軍事、安防等服務(wù)。數(shù)字圖像識(shí)別過程分為圖像信息的獲取、圖像預(yù)處理、圖像特征抽取和選擇、圖像分類器設(shè)計(jì)和分類決策等。隨著科學(xué)技術(shù)的飛速發(fā)展和工業(yè)、農(nóng)業(yè)、醫(yī)療、軍事、安防等領(lǐng)域?qū)?shù)字圖像識(shí)別技術(shù)的廣泛需求,科學(xué)工作者對(duì)數(shù)字圖像識(shí)別技術(shù)的研究日益深入,認(rèn)識(shí)越來越深刻。因此,研究數(shù)字圖像識(shí)別技術(shù)具有重大的理論意義和應(yīng)用價(jià)值。經(jīng)典的數(shù)字圖像識(shí)別方法主要通過圖像的各種特征,包括顏色、紋理、形狀和空間關(guān)系等要素來實(shí)現(xiàn)識(shí)別。20世紀(jì)90年代,人工神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)相結(jié)合,促進(jìn)了圖像識(shí)別技術(shù)的發(fā)展,圖像識(shí)別技術(shù)在車牌識(shí)別、人臉識(shí)別、物體檢測(cè)等方面得到廣泛的應(yīng)用。但是,傳統(tǒng)的圖像識(shí)別技術(shù)是以淺層次結(jié)構(gòu)模型為主,需要人為對(duì)圖像進(jìn)行預(yù)處理和特征標(biāo)注,這降低了圖像識(shí)別的準(zhǔn)確率和識(shí)別速度,增加了難度。針對(duì)此問題,科學(xué)工作者開始研究更深層次的網(wǎng)絡(luò)結(jié)構(gòu)模型,用模型自身提取圖像特征,避免人為干預(yù)。經(jīng)過科學(xué)家多年的共同努力,許多深度學(xué)習(xí)模型被提出,如:深度信念網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、生成式對(duì)抗網(wǎng)絡(luò)、膠囊網(wǎng)絡(luò)等。深度學(xué)習(xí)的目的是通過構(gòu)建一個(gè)多層網(wǎng)絡(luò),在此網(wǎng)絡(luò)上計(jì)算機(jī)自動(dòng)學(xué)習(xí)并得到數(shù)據(jù)隱含在內(nèi)部的關(guān)系,提取出更高維、更抽象的數(shù)據(jù),使學(xué)習(xí)到的特征更具有表達(dá)力。因此深度學(xué)習(xí)在圖像識(shí)別中的應(yīng)用研究是現(xiàn)在和未來很長一段時(shí)間內(nèi)圖像識(shí)別領(lǐng)域的重要研究課題。基于計(jì)算機(jī)及其有關(guān)算法的數(shù)字圖像識(shí)別技術(shù)和人類的數(shù)字圖像識(shí)別在原理上有相同之處,只是機(jī)器在識(shí)別圖像時(shí)缺少人類的情感、好惡等主觀因素的影響。人類在進(jìn)行圖像識(shí)別時(shí),一般是根據(jù)圖像所具有的本身特征,首先將圖像進(jìn)行預(yù)先分類,然后通過不同類別圖像所具有的特征將圖像識(shí)別出來。當(dāng)人看到一張圖片時(shí),大腦會(huì)迅速搜索此圖片或與其相似的圖片是否曾見過。在搜索過程中,大腦會(huì)根據(jù)記憶中已經(jīng)分好的圖像類別進(jìn)行識(shí)別。機(jī)器進(jìn)行數(shù)字圖像識(shí)別與人類進(jìn)行圖像識(shí)別的過程是很相似的。它借助計(jì)算機(jī)技術(shù)和信號(hào)處理、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)等技術(shù),首先通過訓(xùn)練大量圖像,分類提取并存儲(chǔ)圖像的重要特征,排除多余的信息,然后在進(jìn)行圖像識(shí)別測(cè)試時(shí),識(shí)別出圖像的類別和屬性。機(jī)器識(shí)別圖像的速度和準(zhǔn)確性取決于識(shí)別系統(tǒng)的硬件平臺(tái)性能和所采用的數(shù)字圖像識(shí)別算法。當(dāng)前數(shù)字圖像識(shí)別面臨的主要任務(wù)是研究新的識(shí)別方法,構(gòu)造新的識(shí)別系統(tǒng),開拓更廣泛的應(yīng)用領(lǐng)域。雖然人類的視覺識(shí)別能力很強(qiáng)大,但是面對(duì)高度信息化,經(jīng)濟(jì)、科技和文化高速發(fā)展的社會(huì),人類自身的視覺識(shí)別能力已經(jīng)遠(yuǎn)遠(yuǎn)滿足不了實(shí)際應(yīng)用的需要,因此,基于計(jì)算機(jī)的智能圖像識(shí)別技術(shù)應(yīng)運(yùn)而生。這就像人類研究生物細(xì)胞,完全靠肉眼來觀察細(xì)胞的結(jié)構(gòu)是不可能的,需要借助顯微鏡才能精確觀測(cè)細(xì)胞的各種信息。數(shù)字圖像識(shí)別技術(shù)的產(chǎn)生就是為了讓計(jì)算機(jī)代替人類去處理大量的圖像信息,解決人類無法識(shí)別或者識(shí)別率特別低、識(shí)別速度慢的問題。數(shù)字圖像識(shí)別系統(tǒng)的流程圖如圖2.1所示。數(shù)字圖像預(yù)處理可在圖像識(shí)別過程中減少后續(xù)算法的復(fù)雜度并提高識(shí)別效率,且能借助降噪手段,將原圖還原為一張質(zhì)量清晰的點(diǎn)線圖。數(shù)字圖像預(yù)處理的目的是正確提取圖像的各個(gè)特征。在數(shù)字圖像預(yù)處理的過程中,圖像分割的質(zhì)量直接影響著最終的識(shí)別結(jié)果,而特征提取對(duì)目標(biāo)圖像識(shí)別的精度和速度具有重要影響。特征提取就是將圖像上的特征點(diǎn)劃分為不同特征子集的過程,這些特征子集通常是孤立的點(diǎn)集、連續(xù)的曲線集或者連通的區(qū)域集。一般情況下,數(shù)字圖像的特征包含顏色、紋理、形狀以及圖像各部分之間的空間關(guān)系。數(shù)字圖像識(shí)別以圖像提取的特征為基礎(chǔ),特征提取必須排除輸入的多余信息,抽出關(guān)鍵的信息,再經(jīng)過特征的整合處理,把分階段獲得的信息整合成一個(gè)完整的知覺映像。在數(shù)字圖像預(yù)處理中,需要加強(qiáng)抗干擾能力,從而保證較高的匹配率,提高匹配速度。數(shù)字圖像處理主要包括以下幾種處理方法,如圖2.2所示。1.圖像變換由于圖像陣列很大,直接在空間域中進(jìn)行處理,涉及的計(jì)算量也很大。因此,往往采用各種圖像變換的方法,如傅里葉變換、沃爾什變換、離散余弦變換等處理技術(shù),將空間域的處理轉(zhuǎn)換為變換域處理,不僅可減少計(jì)算量,而且可獲得更有效的處理、。目前新興的小波變換在時(shí)域和頻域中都具有良好的局部化特性,在數(shù)字圖像處理中也有著廣泛而有效的應(yīng)用。2.圖像增強(qiáng)和復(fù)原圖像增強(qiáng)和復(fù)原的目的是提高圖像的質(zhì)量,如去除噪聲,提高圖像的清晰度等。圖像增強(qiáng)是為了突出圖像中所感興趣的部分,如強(qiáng)化圖像高頻分量,可使圖像中物體輪廓清晰,細(xì)節(jié)明顯,而不考慮圖像降質(zhì)的原因;強(qiáng)化低頻分量可減少圖像中噪聲的影響。圖像復(fù)原要求對(duì)圖像降質(zhì)的原因有一定的了解,一般講應(yīng)根據(jù)降質(zhì)過程建立“降質(zhì)模型”,再采用某種濾波方法,恢復(fù)或重建原來的圖像。3.圖像分割圖像分割是數(shù)字圖像處理中的關(guān)鍵技術(shù)之一。圖像分割是將圖像中有意義的特征部分提取出來,包括圖像的邊緣、區(qū)域和空間位置等,這是進(jìn)一步進(jìn)行圖像識(shí)別、分析和理解的基礎(chǔ)。雖然目前已研究出不少邊緣提取、區(qū)域分割的方法,但還沒有一種普遍適用于各種圖像分割的有效方法。4.圖像描述圖像描述是圖像識(shí)別和理解的必要前提。作為最簡單的二值圖像可采用其幾何特性描述物體的特征,一般圖像的描述方法采用二維形狀描述,它有邊界描述和區(qū)域描述兩類方法。對(duì)于特殊的紋理圖像,可采用二維紋理特征描述。隨著數(shù)字圖像處理研究的深入發(fā)展,已經(jīng)開始進(jìn)行三維物體描述的研究,并提出了體積描述、表面描述、廣義圓柱體描述等方法。5.圖像分類(識(shí)別)圖像分類(識(shí)別)屬于模式識(shí)別的范疇,其主要內(nèi)容是圖像經(jīng)過某些預(yù)處理后,進(jìn)行圖像分割和特征提取,從而進(jìn)行判決分類。常采用的經(jīng)典模式識(shí)別方法,有統(tǒng)計(jì)模式分類和句法(結(jié)構(gòu))模式分類。近年來新發(fā)展起來的模糊模式識(shí)別和人工神經(jīng)網(wǎng)絡(luò)模式分類在圖像識(shí)別中也越來越受到重視,特別是基于卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的智能圖像識(shí)別技術(shù)發(fā)展迅猛,近年來取得重大突破,例如人臉識(shí)別、超分辨率重建、翻譯等應(yīng)用。2.2基于人工智能的數(shù)字圖像識(shí)別新技術(shù)2.2.1數(shù)字圖像的數(shù)據(jù)結(jié)構(gòu)首先我們來解釋一下數(shù)字圖像的存儲(chǔ)方式。數(shù)字圖像實(shí)際上是巨大的數(shù)字矩陣。矩陣中的每個(gè)數(shù)字對(duì)應(yīng)于其像素的亮度。對(duì)于灰度圖像,只需要一個(gè)矩陣,矩陣中的每個(gè)數(shù)字的取值區(qū)間都是0到255。該范圍是存儲(chǔ)圖像信息的效率與人眼的靈敏度之間的折衷,如圖2.3所示。彩色圖像同樣是一個(gè)矩陣,只是矩陣中的每一個(gè)點(diǎn)不是一個(gè)值,而是包含3個(gè)值的數(shù)組。描述彩色圖像有三種模型,分別是RGB顏色模型、YUV顏色模型和HSV顏色模型。在RGB顏色模型中,包含紅、綠、藍(lán)三個(gè)顏色通道。YUV顏色模型、HSV顏色模型與RGB顏色模型都是描述彩色空間的模型,只是產(chǎn)生顏色的方式不同而已。三種顏色模型可以相互轉(zhuǎn)換,并滿足一定的數(shù)學(xué)關(guān)系。例如YUV顏色模型和RGB顏色模型之間的轉(zhuǎn)換公式如下:式(2.1)中,R、G、B取值范圍均為0~255。在實(shí)際應(yīng)用中,可根據(jù)應(yīng)用的需要采用不同的顏色模型來實(shí)現(xiàn)彩色圖像顯示。例如,在多媒體計(jì)算機(jī)技術(shù)中,用得最多的是RGB顏色模型,而YUV顏色模型主要用于PAL制式的電視系統(tǒng)。2.2.2卷積神經(jīng)網(wǎng)絡(luò)的工作原理簡介卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),也是深度學(xué)習(xí)的代表模型之一。CNN具有表征學(xué)習(xí)能力,能夠按其階層結(jié)構(gòu)對(duì)輸入信息進(jìn)行平移不變分類,因此也被稱為平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)仿照生物的視知覺機(jī)制構(gòu)建,可以進(jìn)行監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí),其權(quán)值共享機(jī)制大大提高了網(wǎng)絡(luò)的計(jì)算效率,為卷積神經(jīng)網(wǎng)絡(luò)層數(shù)加深提供了有效的支持。因?yàn)殡S著CNN層數(shù)的加深,輸入圖像的特征被提取得更加充分,從而可以提高圖像識(shí)別率,所以CNN成為圖像分類識(shí)別領(lǐng)域的一種十分重要的模型和方法。1.卷積神經(jīng)網(wǎng)絡(luò)的工作原理由于使用梯度下降法進(jìn)行學(xué)習(xí),CNN的輸入特征需要進(jìn)行標(biāo)準(zhǔn)化處理。即將學(xué)習(xí)數(shù)據(jù)輸入到CNN前,需要對(duì)輸入數(shù)據(jù)進(jìn)行歸一化,若輸入數(shù)據(jù)為像素,也可將分布于[0,255]的原始像素值歸一化至[0,1]區(qū)間。輸入特征的標(biāo)準(zhǔn)化有利于提升CNN的學(xué)習(xí)效率和表現(xiàn)。CNN學(xué)習(xí)的過程其實(shí)就是根據(jù)輸出值和實(shí)際值之間的誤差,修正網(wǎng)絡(luò)參數(shù)使得損失函數(shù)逐漸收斂的過程。在學(xué)習(xí)的過程中,數(shù)字圖像可以作為一個(gè)整體輸入,往后的每一層都會(huì)對(duì)圖像進(jìn)行卷積處理,這個(gè)過程也是特征提取的過程。在整個(gè)CNN中靠前的卷積層往往卷積核尺寸較大,這樣的設(shè)計(jì)可以大范圍地提取圖像特征;在整個(gè)CNN中靠后的卷積核尺寸一般較小,這樣可以更精細(xì)地處理前面比較粗糙的特征,達(dá)到精致整合特征的目的。將卷積層提取的特征輸入到全連接層,全連接層將其特征轉(zhuǎn)換成為特征向量,輸入到分類器進(jìn)行分類,最終完成圖像的識(shí)別。CNN在訓(xùn)練過程中,各層權(quán)值的調(diào)整采用梯度下降法,從后往前依次修正網(wǎng)絡(luò)的權(quán)重,損失函數(shù)收斂到規(guī)定值時(shí)就會(huì)停止各層權(quán)值的調(diào)整。2.卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)CNN發(fā)展比較曲折,在機(jī)器硬件迅速發(fā)展后,CNN成為數(shù)字圖像處理領(lǐng)域最有力的工具,在目標(biāo)檢測(cè)和目標(biāo)識(shí)別上的應(yīng)用非常廣泛。CNN的結(jié)構(gòu)組成有卷積層、激勵(lì)層、池化層和全連接層。圖2.4展示了一個(gè)簡單的CNN結(jié)構(gòu)示意圖。1)卷積層卷積層的功能是對(duì)輸入數(shù)字圖像數(shù)據(jù)進(jìn)行特征提取,其內(nèi)部包含多個(gè)卷積核,組成卷積核的每個(gè)元素都相應(yīng)有一個(gè)權(quán)重系數(shù)和一個(gè)偏差量,類似于一個(gè)前饋神經(jīng)網(wǎng)絡(luò)的神經(jīng)元。卷積層內(nèi)每個(gè)神經(jīng)元都與前一層中位置接近的區(qū)域的多個(gè)神經(jīng)元相連,區(qū)域的大小取決于卷積核的大小,且區(qū)域的大小被稱為感受野。卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí),將整張圖像作為一個(gè)整體輸入到卷積神經(jīng)網(wǎng)絡(luò)中,卷積層中的卷積核和圖像進(jìn)行卷積計(jì)算并輸出特征圖。卷積神經(jīng)網(wǎng)絡(luò)里面的卷積層采取權(quán)值共享的機(jī)制,這種計(jì)算方法和人工神經(jīng)網(wǎng)絡(luò)中全連接的計(jì)算方法有本質(zhì)的區(qū)別。即不是每一個(gè)值都進(jìn)行一對(duì)一的連接計(jì)算,而是幾個(gè)參數(shù)集合和整個(gè)特征圖進(jìn)行連接結(jié)算,這個(gè)參數(shù)集合稱為卷積核。這樣,卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)會(huì)大量減少,在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練迭代的過程中,計(jì)算量會(huì)大幅度減少,卷積神經(jīng)網(wǎng)絡(luò)參數(shù)更新會(huì)更加迅速,以加快卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度。卷積核就像一個(gè)特征提取器,里面的參數(shù)在最開始時(shí)是隨機(jī)賦予的值,但是在訓(xùn)練的過程中,特征提取器里面參數(shù)的值在不停地更新,這是為了達(dá)到更好的特征提取效果。卷積核尺寸的大小決定了在特征圖上提取特征的數(shù)量。通過卷積核的特征提取,特征圖的感受野不斷地變化,通過卷積核在特征圖上滑動(dòng)將前面提取的簡單的特征不停地融合,最后圖像的特征被集合到特征圖上的一個(gè)感受野里。卷積核的尺寸大小非常重要,特征的提取和融合效果會(huì)影響特征圖每個(gè)感受野里面的圖像完整性。圖2.5給出了卷積的過程。下面由式(2.3)給出卷積的計(jì)算過程。式(2.3)中,*?代表卷積,Wl-1代表第l?-?1層權(quán)重,bl-1代表第l?-?1層的偏置。從式(2.3)可以看出卷積核在卷積過程中是權(quán)值共享的,這樣可以大大減少計(jì)算量和卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)量。從圖2.5中可以看出影響下一層特征圖的因素包括卷積核的大小和滑動(dòng)步長,當(dāng)卷積核在特征圖上滑動(dòng)時(shí),如果因?yàn)椴介L問題,卷積核越過了特征圖的邊界,則需要邊界填充。卷積層參數(shù)包括卷積核大小、步長和填充,三者共同決定了卷積層輸出特征圖的尺寸。其中卷積核大小可以指定為小于輸入圖像尺寸的任意值,卷積核越大,可提取的輸入特征越復(fù)雜。卷積步長定義了卷積核相鄰兩次掃過特征圖時(shí)位置的距離。當(dāng)卷積步長為1時(shí),卷積核會(huì)逐個(gè)掃過特征圖的元素,當(dāng)步長為n時(shí)會(huì)在下一次掃描跳過n?-?1個(gè)像素。2)激勵(lì)層卷積神經(jīng)網(wǎng)絡(luò)的激勵(lì)層是對(duì)卷積后的值進(jìn)行非線性變換。非線性變換在卷積神經(jīng)網(wǎng)絡(luò)中非常重要。非線性變換[15-17]相當(dāng)于對(duì)圖像進(jìn)行扭曲,以提高卷積神經(jīng)網(wǎng)絡(luò)的泛化能力。泛化能力(GeneralizationAbility)是指機(jī)器學(xué)習(xí)算法對(duì)新鮮樣本的適應(yīng)能力,即在原有的數(shù)據(jù)集上添加新的數(shù)據(jù)集,通過訓(xùn)練輸出一個(gè)合理的結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)相對(duì)于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)來說層數(shù)較深,經(jīng)過龐大的前向計(jì)算以后,在卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行反向傳播計(jì)算時(shí)會(huì)產(chǎn)生梯度彌散和梯度爆炸現(xiàn)象。為了避免這種現(xiàn)象的發(fā)生,激勵(lì)層中激活函數(shù)的選取非常重要。一般可以在激勵(lì)層中選取修正線性單元,其激勵(lì)函數(shù)如圖2.6所示。3)池化層(PoolingLayer)池化就是降低特征圖的維數(shù),提取特征圖中的主要特征,防止卷積神經(jīng)網(wǎng)絡(luò)提取特征過于精細(xì),限制了訓(xùn)練出來的模型對(duì)數(shù)字圖像的分類識(shí)別效果,也就是增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的泛化能力。經(jīng)過卷積提取特征輸出特征圖,如果特征圖的尺寸較大,計(jì)算量也隨之上升,卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練也會(huì)變緩慢且遲鈍,所以經(jīng)過池化會(huì)降低特征圖的維度,也會(huì)使得卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練變得簡單。池化主要分為最大值池化和平均池化,池化層的池化操作類似于卷積層的卷積操作,即在特征圖上進(jìn)行滑動(dòng),對(duì)特征圖上的特征進(jìn)行二次提取。池化和卷積不同之處在于,一個(gè)池化窗口在特征圖上的池化區(qū)域不用像卷積一樣每個(gè)像素點(diǎn)相乘然后疊加,而是提取這個(gè)區(qū)域像素值最大的點(diǎn)或者這個(gè)池化區(qū)域像素點(diǎn)相加的平均值。采樣函數(shù)如式(2.4)所示:式(2.4)中,Rk代表池化的區(qū)域。最大值池化和平均池化的函數(shù)表達(dá)式分別如式(2.5)和式(2.6)所示。簡單的池化過程如圖2.7所示。4)全連接層為了將卷積和池化后的特征轉(zhuǎn)變?yōu)樘卣飨蛄?,卷積神經(jīng)網(wǎng)絡(luò)的最后一層一般是全接層,全連接層會(huì)連接所有的像素點(diǎn),然后將特征圖的像素點(diǎn)進(jìn)一步整合提取特征。全連接層類似于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),前后相互連接,然后將特征向量輸入分類器,根據(jù)特征向量的概率值判斷類別。全連接層的函數(shù)表達(dá)式如式(2.7)所示。式中,n代表l?-?1層特征點(diǎn)的個(gè)數(shù),l表示當(dāng)前的層數(shù),Wl-1代表第l?-?1層的權(quán)重,bl-1代表第l?-?1層的偏置,激活函數(shù)用f?(·)表示,代表輸出。2.2.3反向傳播算法BP神經(jīng)網(wǎng)絡(luò)更新權(quán)重采取梯度下降法。根據(jù)前向計(jì)算得出的結(jié)果和實(shí)際值之間的誤差得到損失函數(shù)。對(duì)損失函數(shù)求導(dǎo),因?yàn)閾p失函數(shù)的變量較多,可通過矩陣的方式進(jìn)行排列計(jì)算,導(dǎo)數(shù)的矩陣稱為梯度。在對(duì)損失函數(shù)尋求最小值的過程中通過梯度來更新權(quán)重和偏置。給定一組輸入值和實(shí)際值(xi,yi),

,設(shè)權(quán)重為W,偏置為b,網(wǎng)絡(luò)的損失函數(shù)為實(shí)際值和輸出值的誤差,常用的損失函數(shù)為均方誤差的形式,表達(dá)式可以采用式(2.8)的形式。式(2.8)中,

表示為損失函數(shù),

表示正則化項(xiàng),正則化的目的是防止網(wǎng)絡(luò)的權(quán)重幅度變化過大。網(wǎng)絡(luò)權(quán)重的更新和偏置參數(shù)的更新分別由式(2.9)和式(2.10)表示。在上面兩個(gè)式子中,α代表網(wǎng)絡(luò)的學(xué)習(xí)率,用來控制權(quán)重和偏置變化幅度的步長。根據(jù)高等數(shù)學(xué)中復(fù)合函數(shù)求偏導(dǎo)的鏈?zhǔn)椒▌t,通過理論推導(dǎo)可得隱含層第l層的殘差項(xiàng)

為詳細(xì)推導(dǎo)過程見參考文獻(xiàn)[18]。2.2.4三種典型用于數(shù)字圖像檢測(cè)的卷積神經(jīng)網(wǎng)絡(luò)模型簡介數(shù)字圖像檢測(cè)是圖像識(shí)別的基礎(chǔ),因此下面首先介紹三種典型的用于數(shù)字圖像檢測(cè)的卷積神經(jīng)網(wǎng)絡(luò)模型。1.?R-CNN圖像檢測(cè)模型[19]R-CNN圖像檢測(cè)流程圖如圖2.8所示。當(dāng)我們輸入一張圖片時(shí),需要搜索出所有可能是待識(shí)別物體的區(qū)域,通過傳統(tǒng)算法我們可能搜索出上千個(gè)候選框。然后從總流程圖中可以看到,搜索出的候選框是矩形的,而且是大小各不相同的。然而,CNN要求輸入圖片的大小是固定的,如果把搜索到的候選框(矩形框)不做處理,就直接輸入到CNN中是不行的。因此對(duì)于每個(gè)輸入的候選框都需要縮放到固定的尺度大小。一般有各向異性縮放和各向同性縮放兩種縮放方法。縮放完成后,可以得到指定大小的圖片,然后用這上千個(gè)候選框圖片,繼續(xù)訓(xùn)練CNN。然而一張圖片中人工標(biāo)注的數(shù)據(jù)就只標(biāo)注了正確的邊界框,我們搜索出來的上千個(gè)矩形框也不可能會(huì)出現(xiàn)一個(gè)與人工標(biāo)注完全匹配的候選框。因此需要用交并比為上千個(gè)邊界框打標(biāo)簽,以便下一步CNN訓(xùn)練使用。如果用選擇性搜索挑選出來的候選框與物體的人工標(biāo)注矩形框的重疊區(qū)域IOU大于0.5,那么我們就把這個(gè)候選框標(biāo)注成物體圖像類別,否則我們就把它當(dāng)作背景圖像類別。R-CNN圖像檢測(cè)流程如下:1)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)階段實(shí)現(xiàn)數(shù)字圖像檢測(cè)的具體神經(jīng)網(wǎng)絡(luò)有多個(gè)可選方案:這里第一選擇是經(jīng)典的Alexnet模型[20];第二選擇是VGG16模型[21]。VGG16模型雖然識(shí)別精度高,但計(jì)算量是Alexnet模型的7倍,所以一般選用Alexnet模型。Alexnet模型的特征提取部分包含了5個(gè)卷積層、2個(gè)全連接層,在Alexnet模型中p5層神經(jīng)元個(gè)數(shù)為9216,f6、f7的神經(jīng)元個(gè)數(shù)都是4096。通過這個(gè)網(wǎng)絡(luò)訓(xùn)練完畢后,最后提取特征時(shí)每個(gè)輸入候選框圖片都能得到一個(gè)4096維的特征向量。2)有監(jiān)督的網(wǎng)絡(luò)預(yù)訓(xùn)練階段物體檢測(cè)的一個(gè)難點(diǎn)在于,物體標(biāo)簽訓(xùn)練數(shù)據(jù)一般偏少,如果直接采用隨機(jī)初始化CNN參數(shù)的方法,那么一般訓(xùn)練數(shù)據(jù)量是遠(yuǎn)遠(yuǎn)不夠的。在這種情況下,最好是通過某種方法進(jìn)行初始化,然后再進(jìn)行有監(jiān)督的參數(shù)微調(diào)。有些文獻(xiàn)采用的是有監(jiān)督的預(yù)訓(xùn)練,所以在設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)的時(shí)候,直接用Alexnet模型,然后采用它的參數(shù)作為初始的參數(shù)值,最后再微調(diào)訓(xùn)練。網(wǎng)絡(luò)優(yōu)化求解采用隨機(jī)梯度下降法,學(xué)習(xí)速率一般取0.001。3)?Fine-Tuning[22]階段采用選擇性搜索搜索出來的候選框,經(jīng)過處理達(dá)到指定大小后,便繼續(xù)對(duì)上面預(yù)訓(xùn)練的CNN模型進(jìn)行微調(diào)訓(xùn)練。假設(shè)要檢測(cè)的物體類別有N類,那么我們就需要把上面預(yù)訓(xùn)練階段的CNN模型的最后一層給替換掉,替換成N?+?1個(gè)輸出神經(jīng)元(加1表示還有一個(gè)背景),然后這一層直接采用參數(shù)隨機(jī)初始化的方法,其他網(wǎng)絡(luò)層的參數(shù)不變;接著就可以開始繼續(xù)隨機(jī)梯度下降訓(xùn)練了。2.?Faster-RCNN目標(biāo)圖像檢測(cè)模型[23]Faster-RCNN目標(biāo)圖像檢測(cè)模型有兩個(gè)關(guān)鍵點(diǎn):一是使用區(qū)域選取網(wǎng)絡(luò)代替原來的選擇性搜索方法產(chǎn)生建議窗口;二是產(chǎn)生建議窗口的CNN和目標(biāo)檢測(cè)的CNN共享。整體框架流程如下:(1)?Faster-RCNN把整張圖片輸入CNN,進(jìn)行特征提取。(2)?Faster-RCNN用PRN生成建議窗口,每張圖片生成300個(gè)建議窗口。(3)?Faster-RCNN把建議窗口映射到CNN的最后一層卷積特征圖上。(4)通過感興趣區(qū)域,池化層使每個(gè)RoI生成固定尺寸的特征圖。(5)??利用Softmax損失[24]和平滑L1損失[25]對(duì)分類概率和邊框回歸聯(lián)合訓(xùn)練。Faster-RCNN目標(biāo)圖像檢測(cè)流程圖如圖2.9所示。3.?SSD圖像目標(biāo)檢測(cè)模型[26]SSD圖像目標(biāo)檢測(cè)模型的主要優(yōu)點(diǎn)有:數(shù)字圖像目標(biāo)檢測(cè)速度比Faster-RCNN目標(biāo)檢測(cè)模型快,精度比Yolo模型高[27]。為提高不同尺度下的結(jié)果預(yù)測(cè)準(zhǔn)確率,采用特征金字塔預(yù)測(cè)方式和End-To-End訓(xùn)練方式,即使分辨率比較低的圖片,分類結(jié)果也很準(zhǔn)確。SSD目標(biāo)檢測(cè)模型效果好的主要原因有以下三點(diǎn):(1)多尺度的網(wǎng)絡(luò)結(jié)構(gòu),如圖2.10所示。(2)設(shè)置了多種寬高比的默認(rèn)框(DefalutBox)。在特征圖的每個(gè)像素點(diǎn)處,生成不同寬高比的默認(rèn)框。假設(shè)每個(gè)像素點(diǎn)有K個(gè)默認(rèn)框,需要對(duì)每一個(gè)默認(rèn)框進(jìn)行分類和回歸,其中用于分類的卷積核個(gè)數(shù)為C?×?K(C表示類別數(shù)),回歸的卷積核個(gè)數(shù)為4K。SSD300中默認(rèn)框的數(shù)量:(38?×?38?×?4?+?19?×?19?×?6?+?5?×?5?×?6?+?3?×?3×4?+?1?×?1?×?4)?=?8732。每一層的默認(rèn)框設(shè)置了特征圖的有效感受野,然后可使用這些默認(rèn)框與標(biāo)準(zhǔn)分割(GroundTruth)結(jié)果進(jìn)行匹配來確定特征圖上每個(gè)像素點(diǎn)的實(shí)際有效感受野的標(biāo)簽(Label)(包含分類標(biāo)簽和回歸標(biāo)簽),分別用于分類和邊界框回歸。說簡單點(diǎn),默認(rèn)框就是用來確定特征圖上每個(gè)像素點(diǎn)實(shí)際的有效感受野的標(biāo)簽。SSD圖像目標(biāo)檢測(cè)模型對(duì)6個(gè)特征圖上所有的默認(rèn)框進(jìn)行分類和回歸,其實(shí)就是對(duì)6個(gè)特征圖對(duì)應(yīng)的實(shí)際有效感受野進(jìn)行分類和回歸。說的更加通俗一點(diǎn),這些有效感受野其實(shí)就是原圖中的滑動(dòng)窗口。所以SSD圖像目標(biāo)檢測(cè)模型本質(zhì)上就是對(duì)所有滑動(dòng)窗口進(jìn)行分類和回歸。這些滑動(dòng)窗口圖像其實(shí)就是SSD圖像目標(biāo)檢測(cè)模型實(shí)際的訓(xùn)練樣本。知道SSD圖像目標(biāo)檢測(cè)模型的原理后我們發(fā)現(xiàn)深度學(xué)習(xí)的目標(biāo)檢測(cè)方法本質(zhì)與傳統(tǒng)的目標(biāo)檢測(cè)方法是相同的,都是對(duì)滑動(dòng)窗口的分類。為什么要設(shè)置多種寬高比的默認(rèn)框?我們知道默認(rèn)框其實(shí)就是SSD圖像目標(biāo)檢測(cè)模型的實(shí)際訓(xùn)練樣本,如果只設(shè)置寬高比為1的默認(rèn)框,最多只有1個(gè)默認(rèn)框匹配到;而設(shè)置多個(gè)寬高比的默認(rèn)框,將會(huì)有更多的默認(rèn)框匹配到。也就是相當(dāng)于有更多的訓(xùn)練樣本參與訓(xùn)練,模型訓(xùn)練效果越好,檢測(cè)精度越高。(3)使用了數(shù)據(jù)增強(qiáng)方式,其錨框如圖2.11所示。SSD圖像目標(biāo)檢測(cè)模型中使用了兩種數(shù)據(jù)增強(qiáng)的方式?!し糯蟛僮鳎弘S機(jī)裁剪的圖像塊(Patch)與任意一個(gè)目標(biāo)的IOU為0.1,0.3,0.5,0.7,0.9,每個(gè)Patch的大小為原圖大小的[0.1,1],寬高比在1/2到2之間,能夠生成更多的尺度較大的目標(biāo)?!たs小操作:首先創(chuàng)建16倍原圖大小的畫布,再將原圖放置其中,然后隨機(jī)裁剪(RandomCrop),能夠生成更多尺度較小的目標(biāo)??s小和放大操作如圖2.12所示。2.2.5基于卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)圖像識(shí)別卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行卷積的示意圖如圖2.13所示。我們來看看在圖像處理領(lǐng)域如何使用CNN模型來對(duì)圖片進(jìn)行分類。圖片分類就是輸入一張圖片,輸出該圖片對(duì)應(yīng)的類別(狗,貓,船,鳥),或者說輸出該圖片屬于哪種分類的可能性最大。人類看到一張圖片馬上就能分辨出里面的內(nèi)容,但是計(jì)算機(jī)分辨一張圖片就完全不一樣了。同一張圖片,人眼看到的是這樣的圖景,如圖2.14所示。計(jì)算機(jī)看到的是一個(gè)充滿像素值的矩陣,如圖2.15所示。所以給計(jì)算機(jī)一張圖片讓它對(duì)圖片進(jìn)行分類,就是向計(jì)算機(jī)輸入一個(gè)充滿像素值的數(shù)組,數(shù)組里的每一個(gè)數(shù)字范圍都是0~255,代表該點(diǎn)上的像素值。最后讓它返回這個(gè)數(shù)組對(duì)應(yīng)的可能分類概率(狗0.01,貓0.04,船0.94,鳥0.02)。人類分辨一張船的圖片可能是通過圖片里船的邊緣、線條等特征。類似的計(jì)算機(jī)分辨一張船的圖片也是通過這些底層特征來進(jìn)行判斷,比如圖片里的圖像邊緣和圖像輪廓,然后通過CNN模型建立更抽象的概念。接下來,本節(jié)給出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別模型[28-34]。該模型首先利用SSD圖像目標(biāo)檢測(cè)模型進(jìn)行手勢(shì)的檢測(cè),然后利用AlexNet模型對(duì)檢測(cè)出的手勢(shì)進(jìn)行識(shí)別。為了模擬真實(shí)場(chǎng)景中的手勢(shì)識(shí)別,建立了兩個(gè)手勢(shì)數(shù)據(jù)集:單一手勢(shì)數(shù)據(jù)集和復(fù)雜背景下的手勢(shì)數(shù)據(jù)集。單一手勢(shì)數(shù)據(jù)集包含10種不同環(huán)境下拍攝的手勢(shì)圖像,手勢(shì)圖像在不同的光照和角度下拍攝,一共30?000張。圖2.16給出了單一手勢(shì)數(shù)據(jù)集中的10種手勢(shì)與標(biāo)簽。復(fù)雜背景下的手勢(shì)數(shù)據(jù)集包含了10種手勢(shì)在不同復(fù)雜背景下采集的15000張圖片(圖略)。圖2.17給出了一種復(fù)雜背景下的復(fù)合卷積神經(jīng)網(wǎng)絡(luò)手勢(shì)圖像識(shí)別方法。圖2.18給出了基于SSD圖像目標(biāo)檢測(cè)模型的手勢(shì)檢測(cè)結(jié)果,模型的具體參數(shù)細(xì)節(jié)見參考文獻(xiàn)[26]。圖2.19給出了測(cè)試的手勢(shì)圖像識(shí)別準(zhǔn)確率迭代圖,其中橫坐標(biāo)代表迭代次數(shù),縱坐標(biāo)表示手勢(shì)圖像識(shí)別的準(zhǔn)確率。該手勢(shì)圖像的分類以識(shí)別率為評(píng)判標(biāo)準(zhǔn),損失函數(shù)圖也是卷積神經(jīng)網(wǎng)絡(luò)超參數(shù)調(diào)整的依據(jù),可根據(jù)損失函數(shù)的振蕩和收斂情況進(jìn)行分析,適當(dāng)?shù)卣{(diào)整卷積神經(jīng)網(wǎng)絡(luò)的超參數(shù)。我們?cè)O(shè)計(jì)了兩組實(shí)驗(yàn),分別在兩種手勢(shì)圖像上進(jìn)行,一組是經(jīng)過SSD卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)分割的手勢(shì)圖像,另一組是SSD卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)分割下來經(jīng)過手勢(shì)的一系列預(yù)處理的二值化手勢(shì)圖像。具體模型詳見文獻(xiàn)[20]。2.3深度神經(jīng)網(wǎng)絡(luò)在數(shù)字圖像處理中的典型應(yīng)用2.3.1ResNet實(shí)現(xiàn)圖像識(shí)別在圖像識(shí)別任務(wù)中,加深卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)是一種提高網(wǎng)絡(luò)學(xué)習(xí)能力的途徑,如VGG和GoogleNet。然而,He等人發(fā)現(xiàn),隨著網(wǎng)絡(luò)層數(shù)增加到一定深度,會(huì)出現(xiàn)網(wǎng)絡(luò)退化問題。這種退化問題并不是由于網(wǎng)絡(luò)模型的過擬合導(dǎo)致。過擬合通常表現(xiàn)為訓(xùn)練誤差降低,測(cè)試誤差升高,而網(wǎng)絡(luò)加深之后會(huì)出現(xiàn)訓(xùn)練誤差升高的現(xiàn)象。為了解決網(wǎng)絡(luò)退化問題,他們提出了一種殘差網(wǎng)絡(luò)(ResNet)[35],該網(wǎng)絡(luò)并不會(huì)受到網(wǎng)絡(luò)層數(shù)的限制,可以通過不斷加深網(wǎng)絡(luò)層數(shù)提升網(wǎng)絡(luò)性能,進(jìn)而一舉拿下當(dāng)年大規(guī)模圖像識(shí)別比賽ILSVRC的冠軍。圖2.20展示了ResNet中的基本殘差單元,其公式可以表示為:式中,x和y是網(wǎng)絡(luò)層的輸入值和輸出值,w和b表示權(quán)重和偏置,f?(·)是參數(shù)層,*?表示卷積操作。這種簡單的跨層連接方式,能在幾乎未增加參數(shù)量的前提下,有效提升深層網(wǎng)絡(luò)的學(xué)習(xí)能力,其性能主要?dú)w功于一種恒等映射的思想:假設(shè)在網(wǎng)絡(luò)達(dá)到最優(yōu)的條件下繼續(xù)加深網(wǎng)絡(luò),只需讓深層的網(wǎng)絡(luò)能夠保持恒等映射,網(wǎng)絡(luò)性能不會(huì)受到干擾而出現(xiàn)退化現(xiàn)象。對(duì)于輸入數(shù)據(jù)x與參數(shù)層f(·),如果網(wǎng)絡(luò)層之間不包含跨層連接,其學(xué)習(xí)目標(biāo)是讓參數(shù)層f(·)直接去擬合輸入數(shù)據(jù)x,這樣很難形成恒等映射。而殘差學(xué)習(xí)的方式是使用f(·)?+?x去擬合數(shù)據(jù)x,在網(wǎng)絡(luò)達(dá)到最優(yōu)時(shí)只需要懲罰f(·)?=?0,其學(xué)習(xí)目標(biāo)會(huì)變成輸入數(shù)據(jù)x自身的恒等映射,網(wǎng)絡(luò)則可以一直保持最優(yōu)狀態(tài),加深網(wǎng)絡(luò)層數(shù)并不會(huì)降低網(wǎng)絡(luò)的性能。雖然ResNet具有很強(qiáng)的學(xué)習(xí)能力,但由于無法確定多少網(wǎng)絡(luò)層能夠使網(wǎng)絡(luò)達(dá)到最優(yōu)狀態(tài),通常會(huì)設(shè)置很深的網(wǎng)絡(luò)層,易導(dǎo)致網(wǎng)絡(luò)參數(shù)量過大,某些網(wǎng)絡(luò)模塊處于無用狀態(tài)。2.3.2DenseNet實(shí)現(xiàn)圖像識(shí)別隨著網(wǎng)絡(luò)層數(shù)加深,會(huì)出現(xiàn)明顯的梯度消失的問題,這主要是由于淺層網(wǎng)絡(luò)中的特征信息無法有效地傳遞到深層網(wǎng)絡(luò)。針對(duì)上述問題,Huang等人提出了一種密集連接的DenseNet[36],其基本網(wǎng)絡(luò)模塊如圖2.21所示。具體操作是將網(wǎng)絡(luò)層的輸出特征與后面所有層的輸出特征連接起來,這種連接不同于ResNet中的簡單相加,而是將特征圖級(jí)聯(lián)到一起變成更深的特征圖,其表達(dá)式如下:式中,yi為當(dāng)前層的輸出,

為第一層至當(dāng)前層上一層的輸出,C[?]是特征圖級(jí)聯(lián),即網(wǎng)絡(luò)通道合并。這種密集連接的網(wǎng)絡(luò)方式可以增強(qiáng)網(wǎng)絡(luò)中的特征傳遞與重復(fù)利用,將淺層的特征傳遞到更深層的網(wǎng)絡(luò),緩解了網(wǎng)絡(luò)訓(xùn)練過程中梯度消失的問題。DenseNet通過合理地設(shè)計(jì)網(wǎng)絡(luò)增長率與過渡層,以更小的網(wǎng)絡(luò)模型和更少的參數(shù)量超越了ResNet的圖像分類性能。其中增長率為每個(gè)單元模塊最后卷積層的輸出特征圖個(gè)數(shù),如圖2.21中權(quán)重層中最后一層的特征圖數(shù)量;過渡層被用來減少密集連接方式所產(chǎn)生的特征圖總量,具有降維的作用。2.3.3簡單殘差密集去雨網(wǎng)絡(luò)(SRDN)目前,單幅圖像去雨算法仍存在兩個(gè)重要的挑戰(zhàn):一個(gè)是去雨圖像質(zhì)量欠佳,另一個(gè)是運(yùn)算時(shí)間過長導(dǎo)致處理單幅圖像速度過慢。針對(duì)上述問題,下面闡明一種基于簡單殘差密集網(wǎng)絡(luò)的單幅圖像去雨方法,網(wǎng)絡(luò)結(jié)構(gòu)如圖2.22所示。該網(wǎng)絡(luò)主要包含一種改進(jìn)的殘差網(wǎng)絡(luò)連接方式和一個(gè)簡單的密集連接網(wǎng)絡(luò)模塊。殘差連接方式有效解決了由不恰當(dāng)圖像分解方式造成的去雨圖像過亮問題,密集連接網(wǎng)絡(luò)模塊能夠提升網(wǎng)絡(luò)的學(xué)習(xí)能力,保留更多圖像細(xì)節(jié)信息,同時(shí)又因其簡潔性大幅度縮減了運(yùn)算時(shí)間。在單幅圖像去雨任務(wù)中,網(wǎng)絡(luò)模塊的設(shè)計(jì)同時(shí)要兼顧去雨效果與運(yùn)算速度。使用深層的ResNet,雖然參數(shù)量有所減少,但由于ResNet的特征傳遞能力不強(qiáng),去雨性能仍有待提升。圖2.23展示了不同網(wǎng)絡(luò)的對(duì)比,包括ResNet、DenseNet和SRDN(見圖2.23(a)、圖2.23(b)和圖2.23(c))。從圖中可以看出,ResNet直接將輸入特征圖與兩個(gè)連續(xù)卷積層之后的特征圖相加,雖然這種恒等映射的思想有助于網(wǎng)絡(luò)學(xué)習(xí),訓(xùn)練更深的網(wǎng)絡(luò),但是簡單的特征相加并不能有效地促進(jìn)特征傳遞,而且由于需要通過不斷加深網(wǎng)絡(luò)層數(shù)來提升性能,故而會(huì)造成參數(shù)量的冗余。DenseNet中采用特征級(jí)聯(lián)的方式,將當(dāng)前網(wǎng)絡(luò)特征圖與后續(xù)特征圖密集連接,促進(jìn)了特征傳遞且提高了特征的使用效率,能夠在使用較少網(wǎng)絡(luò)層數(shù)的前提下達(dá)到較為理想的性能。這種密集連接的思想可以借鑒到單幅圖像去雨任務(wù)中,但是DenseNet設(shè)計(jì)的初衷是為了處理高水平圖像分類任務(wù),直接將其應(yīng)用于單幅圖像去雨這種低水平任務(wù)并不合適,因此本節(jié)設(shè)計(jì)了一種簡單殘差密集去雨網(wǎng)絡(luò),如圖2.23(c)所示。該模塊在DenseNet的基礎(chǔ)上,移除了網(wǎng)絡(luò)層中所有批量正則化(BatchNormalization,BN)與一部分線性修正單元(ReLU),對(duì)于單幅圖像去雨任務(wù)更為簡捷有效。圖2.23中Conv代表卷積。2.3.4對(duì)比算法及結(jié)果展示CVPR為計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)會(huì)議IEEEConferenceonComputerVisionandPatternRecognition的簡寫,TIP為圖像處理領(lǐng)域頂級(jí)期刊IEEETransactionsonImageProcessing的簡寫。表2.1所示為與SRDN算法相對(duì)比的幾個(gè)算法的展示。表2.2展示了不同算法在三個(gè)數(shù)據(jù)集上的SSIM(結(jié)構(gòu)相似度)和PSNR(峰值信噪比)對(duì)比。從表2.2所示結(jié)果中可以看出,相比于其他算法,SRDN算法的性能指標(biāo)較好,尤其是結(jié)構(gòu)相似度,在三個(gè)數(shù)據(jù)集上都達(dá)到了優(yōu)良指標(biāo)。同時(shí)在峰值信噪比方面,SRDN算法在數(shù)據(jù)集一和數(shù)據(jù)集二上也獲得了優(yōu)良指標(biāo),并在數(shù)據(jù)集三上取得次佳指標(biāo)。其中,優(yōu)良結(jié)果用粗體字標(biāo)出。上述實(shí)驗(yàn)通過客觀的評(píng)估標(biāo)準(zhǔn)證明了SRDN算法的有效性。圖2.24~圖2.28展示了不同算法在實(shí)際圖片上的實(shí)驗(yàn)結(jié)果對(duì)比。從圖中可看出,GMM算法生成了大量的去雨痕跡導(dǎo)致圖片模糊不清。DCN算法的去雨圖像留下了明顯的雨條。DNN算法和JORDER算法的去雨圖像丟失了大量細(xì)節(jié)。DID算法處理之后的去雨圖像過度平滑,背景模糊不清。相比于其他方法,SRDN算法在處理現(xiàn)實(shí)圖片時(shí)去雨視覺效果良好,能夠保留更多圖像的細(xì)節(jié)信息。從結(jié)果圖像中可以看出,基于圖像分解增強(qiáng)的方法在處理有霧雨圖時(shí)比后處理方法色彩信息更加飽滿。SRDN方法充分結(jié)合了去雨優(yōu)勢(shì)與圖像分解增強(qiáng)去霧優(yōu)勢(shì),在處理霧天拍攝的雨圖時(shí)視覺效果更佳且圖像細(xì)節(jié)明顯。2.4幾種圖像智能目標(biāo)跟蹤算法簡介2.4.1智能圖像目標(biāo)跟蹤概述圖像目標(biāo)跟蹤是計(jì)算機(jī)視覺研究領(lǐng)域的熱點(diǎn)之一,并得到了廣泛應(yīng)用,其在視頻監(jiān)控、智能交通、人機(jī)交互、視覺導(dǎo)航和軍事制導(dǎo)等方面都有著重大的研究意義和廣泛的應(yīng)用前景。圖像目標(biāo)跟蹤就是在連續(xù)的視頻序列中,建立所要跟蹤物體的位置關(guān)系,得到物體完整的運(yùn)動(dòng)軌跡,給定圖像第一幀的目標(biāo)坐標(biāo)位置,并計(jì)算下一幀圖像中目標(biāo)的確切位置。在運(yùn)動(dòng)的過程中,目標(biāo)可能會(huì)呈現(xiàn)一些圖像特征上的變化,比如姿態(tài)或形狀的變化、尺度的變化、背景遮擋或光線亮度的變化等。圖像目標(biāo)跟蹤算法的研究也圍繞著解決這些變化和具體的應(yīng)用展開。圖像目標(biāo)跟蹤一般由四個(gè)基本部分構(gòu)成:圖像特征提取、運(yùn)動(dòng)模型、外觀模型、在線更新機(jī)制。(1)圖像特征提取:適用于圖像目標(biāo)跟蹤的一般特征要求,它既能較好地描述跟蹤圖像目標(biāo),又能快速計(jì)算。常見的圖像特征有灰度特征、顏色特征、紋理特征、Haar-like矩形特征、興趣點(diǎn)特征、超像素特征等。(2)運(yùn)動(dòng)模型:旨在描述圖像中幀與幀目標(biāo)運(yùn)動(dòng)狀態(tài)之間的關(guān)系,顯式或隱式地在視頻幀中預(yù)測(cè)目標(biāo)圖像區(qū)域,并給出一組可能的候選區(qū)域。經(jīng)典的運(yùn)動(dòng)模型有均值漂移、滑動(dòng)窗口、卡爾曼濾波、粒子濾波等。(3)外觀模型:作用是在當(dāng)前幀中判決候選圖像區(qū)域是被跟蹤目標(biāo)的可能性。提取圖像區(qū)域的視覺特征,輸入外觀模型進(jìn)行匹配或決策,最終確定被跟蹤目標(biāo)的空間位置。在視覺跟蹤的四個(gè)基本組成中,外觀模型處于核心地位。如何設(shè)計(jì)一個(gè)魯棒的外觀模型是在線視覺跟蹤算法的關(guān)鍵。(4)在線更新機(jī)制:為了捕捉目標(biāo)(和背景)在跟蹤過程中的變化,目標(biāo)跟蹤需要包含一個(gè)在線更新機(jī)制,在跟蹤過程中不斷更新外觀模型。常見的外觀模型更新方式有模板更新、增量子空間學(xué)習(xí)算法及在線分類器等。如何設(shè)計(jì)一個(gè)合理的在線更新機(jī)制,既能捕捉目標(biāo)(和背景)的變化又不會(huì)導(dǎo)致模型退化,也是目標(biāo)跟蹤研究的一個(gè)關(guān)鍵問題。2.4.2智能圖像目標(biāo)跟蹤的主要方法圖像視覺目標(biāo)跟蹤方法根據(jù)觀測(cè)模型的種類可以被分為生成式方法和判別式方法。前幾年最火的生成式跟蹤方法基本是稀疏編碼,而近年來判別式跟蹤方法逐漸占據(jù)了主流地位,以相關(guān)濾波和深度學(xué)習(xí)為代表的判別式方法也取得了令人滿意的成果。下面我們分別簡要概括這幾種方法的大體思想和其中的一些具體跟蹤方法。1.稀疏表示給定一組過完備字典,將輸入信號(hào)用這組過完備字典線性表示,對(duì)線性表示的系數(shù)做一個(gè)稀疏性的約束(即使得系數(shù)向量的分量盡可能多的為0),那么這一過程就稱為稀疏表示?;谙∈璞硎镜哪繕?biāo)跟蹤方法則將跟蹤問題轉(zhuǎn)化為稀疏逼近問題來求解。如稀疏跟蹤的開山之作L1Tracker[42],其認(rèn)為候選樣本通過目標(biāo)模板和瑣碎模板可以被稀疏地表示,而一個(gè)好的候選樣本應(yīng)該擁有更稀疏的系數(shù)向量。稀疏性可通過解決一個(gè)L1正則化的最小二乘優(yōu)化問題獲得,最后將與目標(biāo)模板擁有最小重構(gòu)誤差的候選樣本作為跟蹤結(jié)果。L1Tracker利用瑣碎模板處理遮擋,利用稀疏系數(shù)的非負(fù)約束解決背景雜斑問題。隨后在L1Tracker基礎(chǔ)上改進(jìn)的方法有很多,比較有代表性的有ALSA[43]、L1APG[44]等。2.相關(guān)濾波相關(guān)濾波源于信號(hào)處理領(lǐng)域,相關(guān)性用于表示兩個(gè)信號(hào)之間的相似程度,通常用卷積表示相關(guān)操作?;谙嚓P(guān)濾波的跟蹤方法的基本思想是:尋找一個(gè)濾波模板,讓下一幀的圖像與我們的濾波模板做卷積操作,響應(yīng)最大的區(qū)域則是預(yù)測(cè)的目標(biāo)。根據(jù)這一思想先后提出了大量的基于相關(guān)濾波的方法,如最早的平方誤差最小輸出和MOSSE[45]利用的就是最樸素的相關(guān)濾波思想的跟蹤方法。隨后基于MOSSE有了很多相關(guān)的改進(jìn),如引入核方法的CSK[46]、KCF[47]等都取得了很好的效果,特別是利用循環(huán)矩陣計(jì)算的KCF,跟蹤速度驚人。在KCF的基礎(chǔ)上又發(fā)展了一系列的方法用于處理各種挑戰(zhàn)。如DSST[48]可以處理尺度變化,基于分塊的相關(guān)濾波方法可處理遮擋等。但是所有上述的基于相關(guān)濾波的方法都受到邊界效應(yīng)的影響。為了克服這個(gè)問題,SRDCF[49]應(yīng)運(yùn)而生。SRDCF利用空間正則化懲罰了相關(guān)濾波系數(shù)獲得了可與深度學(xué)習(xí)跟蹤方法相比的結(jié)果。3.深度學(xué)習(xí)深度特征對(duì)目標(biāo)擁有強(qiáng)大的表示能力,深度學(xué)習(xí)在計(jì)算機(jī)視覺的其他領(lǐng)域,如檢測(cè)、人臉識(shí)別中已經(jīng)展現(xiàn)出巨大的潛力。但早些年,深度學(xué)習(xí)在目標(biāo)跟蹤領(lǐng)域的應(yīng)用并不順利,因?yàn)槟繕?biāo)跟蹤任務(wù)的特殊性,只有初始幀的圖片數(shù)據(jù)可以利用,因此缺乏大量的數(shù)據(jù)供神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。在研究人員把分類圖像數(shù)據(jù)集上訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)遷移到目標(biāo)跟蹤中后,基于深度學(xué)習(xí)的目標(biāo)跟蹤方法才得到充分的發(fā)展。然而,跟蹤任務(wù)與分類任務(wù)始終是不同的,分類任務(wù)關(guān)心的是區(qū)分類間差異,忽視類內(nèi)的區(qū)別。目標(biāo)跟蹤任務(wù)關(guān)心的則是區(qū)分特定目標(biāo)與背景,抑制同類目標(biāo)。兩個(gè)任務(wù)有著本質(zhì)的區(qū)別,因此在分類數(shù)據(jù)集上預(yù)訓(xùn)練的網(wǎng)絡(luò)可能并不完全適用于目標(biāo)跟蹤任務(wù)。于是,Nam設(shè)計(jì)了一個(gè)專門在跟蹤視頻序列上訓(xùn)練的多域卷積神經(jīng)網(wǎng)絡(luò)(MDNet)[55],結(jié)果取得了視覺目標(biāo)跟蹤VOT2015[56]比賽的第一名。但是MDNet在標(biāo)準(zhǔn)集上進(jìn)行訓(xùn)練多少有一點(diǎn)過擬合的嫌疑,于是VOT2016[57]比賽中禁止在標(biāo)準(zhǔn)跟蹤數(shù)據(jù)集上進(jìn)行訓(xùn)練。2016年SRDCF的作者繼續(xù)發(fā)力,利用了卷積神經(jīng)網(wǎng)絡(luò)提取目標(biāo)特征然后結(jié)合相關(guān)濾波提出了C-COT[58]的跟蹤方法,取得了VOT2016比賽的冠軍。過去幾十年以來,目標(biāo)跟蹤的研究取得了長足的發(fā)展。2010年,Kalal等人提出一種新穎的“跟蹤-學(xué)習(xí)-檢測(cè)(TLD)”[59]的目標(biāo)跟蹤框架。該框架將長時(shí)間目標(biāo)跟蹤劃分為三個(gè)子模塊,即跟蹤、學(xué)習(xí)和檢測(cè)。跟蹤模塊基于光流實(shí)現(xiàn)目標(biāo)在相鄰圖像幀的短期跟蹤;檢測(cè)模塊通過一個(gè)級(jí)聯(lián)檢測(cè)器全局地定位所有已經(jīng)觀測(cè)到的外觀;學(xué)習(xí)模塊則通過“正負(fù)專家”識(shí)別和糾正檢測(cè)器誤差,從而降低漂移誤差。2014年,Henriques等人提出了KCF[47]目標(biāo)跟蹤算法,這是一種鑒別式追蹤方法。這類方法一般都是在追蹤過程中訓(xùn)練一個(gè)目標(biāo)檢測(cè)器,使用目標(biāo)檢測(cè)器去檢測(cè)下一幀預(yù)測(cè)位置是否是目標(biāo),然后再使用新檢測(cè)結(jié)果去更新訓(xùn)練集進(jìn)而更新目標(biāo)檢測(cè)器。2016年,D.Held提出了基于深度學(xué)習(xí)的GOTURN[60]目標(biāo)跟蹤方法。該算法利用深度學(xué)習(xí)強(qiáng)大的特征表達(dá)方式,且在GPUGTX680上跟蹤速度達(dá)到了100幀每秒(PFS)。基于深度學(xué)習(xí)的跟蹤框架目前還在不斷發(fā)展中,比如牛津大學(xué)的LucaBertinetto提出的端到端的跟蹤框架,即從SiameseFC[61]到CFNet[62]。雖然相比于相關(guān)濾波等傳統(tǒng)方法,其在性能上發(fā)展還非常慢,但是這種端到端輸出可以與其他的任務(wù)一起訓(xùn)練,特別是和檢測(cè)分類網(wǎng)絡(luò)相結(jié)合,它們?cè)趯?shí)際中有著十分廣泛的應(yīng)用前景。下面簡要介紹三種典型的用于目標(biāo)跟蹤的卷積神經(jīng)網(wǎng)絡(luò)模型。2.4.3三種典型的用于圖像目標(biāo)跟蹤的卷積神經(jīng)網(wǎng)絡(luò)模型簡介1.全卷積孿生網(wǎng)絡(luò)模型[61]孿生網(wǎng)絡(luò)(SiameseFC)的總體構(gòu)架如圖2.29所示。圖中z代表的是模板圖像,算法中使用的是第一幀的真實(shí)值;x代表的是搜索域,即為后面的待跟蹤幀中的候選框搜索區(qū)域;φ代表的是一種特征映射操作,將原始圖像映射到特定的特征空間,文中采用的是CNN中的卷積層和池化層;6?×?6?×?128代表z經(jīng)過φ后得到的特征,是一個(gè)128通道6?×?6大小的特征,同理,22?×?22?×?128也是x經(jīng)過φ后的特征;后面的*代表卷積操作,讓22?×?22?×?128的特征被6?×?6?×?128的卷積核卷積,得到一個(gè)17?×?17的分?jǐn)?shù)圖,代表著搜索域中各個(gè)位置與模板相似度值。這是一種典型的孿生神經(jīng)網(wǎng)絡(luò),并且在整個(gè)模型中只有卷積層和池化層,因此這也是一種典型的全卷積神經(jīng)網(wǎng)絡(luò)。具體實(shí)現(xiàn)步驟如下:(1)損失函數(shù)。在訓(xùn)練模型時(shí)需要損失函數(shù),并需通過最小化損失函數(shù)來獲取最優(yōu)模型。孿生網(wǎng)絡(luò)為了構(gòu)造有效的損失函數(shù),對(duì)搜索區(qū)域的位置點(diǎn)進(jìn)行了正負(fù)樣本的區(qū)分,即目標(biāo)一定范圍內(nèi)的點(diǎn)作為正樣本,這個(gè)范圍外的點(diǎn)作為負(fù)樣本,例如圖2.29中最右側(cè)生成的分?jǐn)?shù)圖中,左上點(diǎn)為正樣本,右下點(diǎn)為負(fù)樣本,它們都對(duì)應(yīng)于搜索域中的兩個(gè)矩形區(qū)域。孿生網(wǎng)絡(luò)采用的是邏輯回歸損失。(2)訓(xùn)練數(shù)據(jù)庫。與以前的算法不一樣的是,孿生網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)庫并不是傳統(tǒng)的VOT、ALOV、OTB三個(gè)跟蹤基準(zhǔn)數(shù)據(jù)集,而是ILSVRC中用于視頻目標(biāo)檢測(cè)中的視頻,這個(gè)數(shù)據(jù)集一共有4500個(gè)視頻,視頻的每一幀都標(biāo)記有真實(shí)值。(3)網(wǎng)絡(luò)結(jié)構(gòu)。整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)類似于AlexNet[5],但是沒有最后的全連接層,只有前面的卷積層和池化層。整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)如表2.3所示,其中池化層采用的是最大池化層,每個(gè)卷積層后面都有一個(gè)非線性激活(ReLU)層,但是第五層沒有。另外,在訓(xùn)練的時(shí)候,每個(gè)ReLU層前都使用了批量歸一化,用于降低過擬合的風(fēng)險(xiǎn)。2.孿生候選區(qū)域生成網(wǎng)絡(luò)模型[63]孿生候選區(qū)域生成網(wǎng)絡(luò),簡稱SiamRPN,它能夠利用大尺度的圖像進(jìn)行離線端到端訓(xùn)練。具體來講,這個(gè)結(jié)構(gòu)包含用于特征提取的孿生子網(wǎng)絡(luò)和候選區(qū)域生成網(wǎng)絡(luò),其中候選區(qū)域生成網(wǎng)絡(luò)包含分類和回歸兩條支路。孿生候選區(qū)域生成網(wǎng)絡(luò)模型的提出主要有以下三點(diǎn)貢獻(xiàn):(1)能夠利用ILSVRC和Youtube-BB[64]大量的數(shù)據(jù)進(jìn)行離線端到端訓(xùn)練。(2)在跟蹤階段將跟蹤任務(wù)構(gòu)造成局部單目標(biāo)檢測(cè)任務(wù)。(3)在VOT2015[56]、VOT2016[57]和VOT2017[65]中取得了領(lǐng)先的性能,并且速度能達(dá)到160?FPS。1)網(wǎng)絡(luò)結(jié)構(gòu)流程圖2.30是孿生候選區(qū)域生成網(wǎng)絡(luò)算法的框架圖,左邊陰影部分是原始孿生網(wǎng)絡(luò)結(jié)構(gòu),上下支路的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)完全相同,上面是輸入第一幀的邊界框,靠此信息檢測(cè)候選區(qū)域中的目標(biāo),即為模板幀。下面是待檢測(cè)幀,顯然,待檢測(cè)幀的搜索區(qū)域比模板幀的區(qū)域大。中間部分是候選區(qū)域(RPN)結(jié)構(gòu),又分為兩部分,上部分是分類分支,模板幀和待檢測(cè)幀經(jīng)過孿生網(wǎng)絡(luò)后的特征再經(jīng)過一個(gè)卷積層,模板幀特征經(jīng)過卷積層后變?yōu)?k?×?256通道,k是錨點(diǎn)框(AnchorBox)的數(shù)量,因?yàn)榉謨深?,所以?k。下面是邊界框回歸支路,因?yàn)橛兴膫€(gè)量[x,y,w,h],所以是4k,右邊是輸出。2)單樣本檢測(cè)任務(wù)圖2.31直觀地表示出了將跟蹤當(dāng)作單樣本檢測(cè)任務(wù),模板幀在RPN中經(jīng)過卷積層、回歸層和分類層當(dāng)作檢測(cè)所用的核。借鑒了元學(xué)習(xí)的思想,可通過模板幀來學(xué)習(xí)檢測(cè)分支候選區(qū)域的網(wǎng)絡(luò)參數(shù)。簡單地說,就是預(yù)訓(xùn)練模板分支,然后利用第一幀的目標(biāo)特征輸出一系列權(quán)值,而這些權(quán)值編碼了目標(biāo)的信息,可作為檢測(cè)分支候選區(qū)域網(wǎng)絡(luò)的參數(shù)去檢測(cè)目標(biāo)。這樣做的好處是:①模板只能學(xué)到一個(gè)編碼了目標(biāo)的特征,并用這個(gè)特征去尋找目標(biāo),這會(huì)比直接用第一幀的特征圖去做匹配更具魯棒性。②相比原始的SiameseFC[61]網(wǎng)絡(luò),候選區(qū)域(RPN)網(wǎng)絡(luò)可以直接回歸出目標(biāo)的坐標(biāo)和尺寸,既精確又不需要像多尺度一樣浪費(fèi)時(shí)間。3.?SiameseRPN++?網(wǎng)絡(luò)模型[66]基于孿生網(wǎng)絡(luò)的跟蹤器將跟蹤表述為目標(biāo)模板和搜索區(qū)域之間的卷積特征互相關(guān)。然而,與最先進(jìn)的算法相比,在精度方面孿生網(wǎng)絡(luò)的算法仍然有明顯差距,即不能利用來自深層網(wǎng)絡(luò)的特征,如殘差網(wǎng)絡(luò)(ResNet-50)或更深層網(wǎng)絡(luò),其核心的原因在于用深層網(wǎng)絡(luò)提取特征會(huì)導(dǎo)致缺乏嚴(yán)格的平移不變性。SiameseRPN++網(wǎng)絡(luò)模型通過一種簡單而有效的空間感知采樣策略打破這一限制,成功地訓(xùn)練了一個(gè)性能顯著的孿生網(wǎng)絡(luò)跟蹤器;提出了一種新的模型結(jié)構(gòu)來實(shí)現(xiàn)分層和深度的聚合,這不僅進(jìn)一步提高了模型的精度,而且減小了模型的尺寸。SiameseRPN++?網(wǎng)絡(luò)模型的主要貢獻(xiàn)如下:(1)對(duì)孿生跟蹤器進(jìn)行了深入的分析,并證明在使用深層網(wǎng)絡(luò)時(shí),精度的降低是由于平移不變性被破壞所導(dǎo)致。(2)提出了一種簡單而有效的采樣策略,以打破空間不變性限制,成功地訓(xùn)練了基于殘差網(wǎng)絡(luò)架構(gòu)的孿生跟蹤器。(3)提出了一種基于層次的互相關(guān)操作特征聚集結(jié)構(gòu),該結(jié)構(gòu)有助于跟蹤器根據(jù)多層次學(xué)習(xí)的特征預(yù)測(cè)相似度圖。(4)提出了一個(gè)深度可分離的相關(guān)結(jié)構(gòu)來增強(qiáng)互相關(guān),從而產(chǎn)生與不同語義相關(guān)的多重相似度。(5)使用深層網(wǎng)絡(luò)、多層特征融合、深度互相關(guān),并在多層使用SiamRPN[64],成功地緩解平移不變性問題。1)緩解平移不變性問題SiameseFC中的相關(guān)操作可以看成是按照滑窗的形式計(jì)算每個(gè)位置的相似度。這就會(huì)帶來兩個(gè)具體的限制:網(wǎng)絡(luò)需要滿足嚴(yán)格的平移不變性和對(duì)稱性。如果現(xiàn)代網(wǎng)絡(luò)(ModernNetworks)[66]的平移不變性被破壞,則帶來的弊端就是會(huì)學(xué)習(xí)到位置偏差。因此在訓(xùn)練過程中不再把正樣本塊放在圖像正中心,而是按照均勻分布的采樣方式讓目標(biāo)在中心點(diǎn)附近進(jìn)行偏移。由圖2.32可以看出,隨著偏移的范圍增大,深度網(wǎng)絡(luò)可以由剛開始的完全沒有效果逐漸變好。所以說,通過均勻分布的采樣方式讓目標(biāo)在中心點(diǎn)附近進(jìn)行偏移,可以緩解網(wǎng)絡(luò)因?yàn)槠茐膰?yán)格平移不變性帶來的影響,即消除了位置偏差,讓現(xiàn)代網(wǎng)絡(luò)可以應(yīng)用于跟蹤算法中。2)使用深層網(wǎng)絡(luò)實(shí)驗(yàn)是在殘差網(wǎng)絡(luò)上完成的。現(xiàn)代網(wǎng)絡(luò)的步長一般都是32,但跟蹤為了定位的準(zhǔn)確性,一般步長都比較小(Siamese系列一般都為8),所以這里把殘差網(wǎng)絡(luò)最后兩個(gè)塊的步長去掉,同時(shí)增加了膨脹卷積,一是為了增加感受野,二是為了能利用預(yù)訓(xùn)練參數(shù);MobileNet[67]等現(xiàn)代網(wǎng)絡(luò)也是進(jìn)行了這樣的改動(dòng)。如圖2.33所示,改過之后,后面三個(gè)塊的分辨率就一致了。在訓(xùn)練過程中采用了新的采樣策略后,我們就可以訓(xùn)練殘差網(wǎng)絡(luò)了,并且能夠正常跟蹤一些視頻。3)多層特征融合如圖2.33所示,由于深層網(wǎng)絡(luò)中的層數(shù)比較多,網(wǎng)絡(luò)的不同塊(Block)能夠獲取的特征也具有很大的差別,淺層網(wǎng)絡(luò)特征更關(guān)注于提取一些顏色、邊緣等信息,而深層網(wǎng)絡(luò)特征則更關(guān)注于目標(biāo)的語義特征,因此將深層網(wǎng)絡(luò)的多層特征進(jìn)行融合是一個(gè)值得去研究的工作。SiameseRPN++?選擇了網(wǎng)絡(luò)最后三個(gè)塊(Block)的輸出進(jìn)行融合,其公式如下:式中,S表示分類;B表示回歸。4)深度互相關(guān)互相關(guān)(CrossCorrelation):如圖2.34(a)所示,用于SiamFC[61]中,模板特征在搜索區(qū)域上按照滑窗的方式獲取不同位置的響應(yīng)值,最終獲得一個(gè)一維的響應(yīng)映射圖。(1)上通道互相關(guān):如圖2.34(b)所示,用于SiamRPN中,與互相關(guān)操作不同的是在做相關(guān)操作之前多了兩個(gè)卷積層,通道個(gè)數(shù)分別為256和256?×?2k,其中k表示每一個(gè)錨點(diǎn)(Anchor)上面的錨點(diǎn)個(gè)數(shù)。其中一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論