




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、計(jì)算機(jī)視覺Computer Vision第一章緒論目錄背景介紹Contents1小節(jié)介紹2本章總結(jié)3背景介紹BACKGROUNDEvery image tells a story. Computer vision develops theories and methods to allow computers to extract relevant information from digital images or videos.ONE背 景 介 紹作為人類,我們可以輕松感知周圍的三維世界。相比之下,不管近年來計(jì)算機(jī)視覺已經(jīng)取得多么令人矚目的成果,但要讓計(jì)算機(jī)能像人類那樣理解和解釋圖像,卻仍
2、然是一個(gè)遙遠(yuǎn)的夢想。為什么計(jì)算機(jī)視覺會成為如此富有挑戰(zhàn)性的難題?它的發(fā)展歷史與現(xiàn)狀又是怎樣的?小節(jié)介紹SECTION INTRODUCTIONEvery image tells a story. Computer vision develops theories and methods to allow computers to extract relevant information from digital images or videos.TWO1.1 計(jì)算機(jī)視覺簡史美國計(jì)算機(jī)科學(xué)家拉里羅伯茨在麻省理工大學(xué)的博士畢業(yè)論文Machine Perception of Three-Dimens
3、ional Solids1963年熱點(diǎn)偏向于圖像內(nèi)容的建模,如三維建模、立體視覺等20世紀(jì)70年代主動視覺理論和定性視覺理論等被提出,進(jìn)入了最蓬勃發(fā)展的一個(gè)時(shí)期20世紀(jì)80年代機(jī)器學(xué)習(xí)開始成為計(jì)算機(jī)視覺,尤其是識別、檢測和分類等應(yīng)用中一個(gè)不可分割的重要工具成為計(jì)算機(jī)領(lǐng)域的一個(gè)大學(xué)科21世紀(jì)20世紀(jì)90年代基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法2012年,Hinton的小組參加了ImageNet競賽,提出卷積神經(jīng)網(wǎng)絡(luò)AlexNet,取得十個(gè)百分點(diǎn)的改進(jìn),完勝第二名沖擊傳統(tǒng)計(jì)算機(jī)視覺分類算法更深的網(wǎng)絡(luò)結(jié)構(gòu)校正線性單元(Rectified Linear Unit, ReLU)、Dropout等方法的應(yīng)用GPU訓(xùn)
4、練網(wǎng)絡(luò)三點(diǎn)改進(jìn)自從2012年后,基于深度學(xué)習(xí)的檢測和識別、基于深度學(xué)習(xí)的圖像分割、基于深度學(xué)習(xí)的立體視覺等如雨后春筍般一夜之間全冒了出來。在各領(lǐng)域發(fā)揮作用1.2 計(jì)算機(jī)視覺發(fā)展的新起點(diǎn)現(xiàn)實(shí)生活應(yīng)用安防交通工業(yè)生產(chǎn)在線購物信息檢索游戲娛樂攝影攝像機(jī)器人無人機(jī)體育醫(yī)療1.3 計(jì)算機(jī)視覺應(yīng)用相對其他許多傳統(tǒng)的機(jī)器學(xué)習(xí)方法,深度神經(jīng)網(wǎng)絡(luò)本身就是一個(gè)消耗計(jì)算量的大戶。另一方面,由于多層神經(jīng)網(wǎng)絡(luò)本身極強(qiáng)的表達(dá)能力,對數(shù)據(jù)量也提出了很高的要求。20世紀(jì)80年代,使用專門的運(yùn)算單元負(fù)責(zé)對三維模型形成的圖像進(jìn)行渲染。1999年,NVIDTA發(fā)布GeForce 256,正式提出了GPU的概念。2000年, 嘗試用
5、GPU來加速通用高密度、大吞吐量的計(jì)算任務(wù)。2001年,通用圖形處理器(General-Purpose computing on CPU, GPGPU)的概念被正式提出。2002年,多倫多大學(xué)的James Fung發(fā)布了Open VIDIA,利用GPU實(shí)現(xiàn)了一些計(jì)算機(jī)視覺庫的加速,這是第一次正式將GPU用到了渲染以外的用途上。2006年,NVIDIA推出了利用GPU進(jìn)行通用計(jì)算的平臺CUDA,很快就流行開并成為了GPU通用計(jì)算的主流框架。2012年,Alex一戰(zhàn)成名,同時(shí)GPU也成為了訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的標(biāo)配。1.4 GPU與并行技術(shù)圖像搜索圖像分割生成對抗網(wǎng)絡(luò)圖像描述圖像分類物體檢測人臉識別卷
6、積神經(jīng)網(wǎng)絡(luò)01020304051.5 基于卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算機(jī)視覺應(yīng)用本章總結(jié)CHAPTER SUMMARYEvery image tells a story. Computer vision develops theories and methods to allow computers to extract relevant information from digital images or videos.Three本書從基本的視覺色彩原理到神經(jīng)網(wǎng)絡(luò)模型,再到之后的卷積模型與具體應(yīng)用,對計(jì)算機(jī)視覺領(lǐng)域的知識進(jìn)行了較為系統(tǒng)的介紹。全書共分為八個(gè)章節(jié):第二、三章介紹基礎(chǔ)的圖像色彩表示及傳統(tǒng)特
7、征提取方法;第四章介紹深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)方法及卷積、循環(huán)神經(jīng)網(wǎng)絡(luò);第五至八章介紹圖像分類、目標(biāo)檢測與分割、圖片描述與關(guān)系識別及生成對抗網(wǎng)絡(luò)等主要任務(wù)及算法。1.6 全書章節(jié)簡介計(jì)算機(jī)視覺Computer Vision第二章圖像的表示目錄背景介紹Contents1章節(jié)概述2小節(jié)介紹3本章總結(jié)4背景介紹BACKGROUNDEvery image tells a story. Computer vision develops theories and methods to allow computers to extract relevant information froONE背 景 介 紹彩色是光
8、的一種屬性,沒有光就沒有彩色。在光的照射下,人們通過眼睛感覺到各種物體的彩色,這些彩色是人眼特性和物體客觀特性的綜合效果。一般而言,一個(gè)完整的圖像處理系統(tǒng)輸入和顯示的都是便于人眼觀察的物理圖像(模擬圖像)。而物理圖像(模擬圖像)是不能直接用數(shù)字計(jì)算機(jī)來處理。圖像分析中,圖像質(zhì)量的好壞直接影響識別算法的設(shè)計(jì)與效果的精度,因此在圖像分析(特征提取、分割、匹配和識別等)前,需要進(jìn)行預(yù)處理。圖像的表示自然表示數(shù)字化表示計(jì)算機(jī)識別預(yù)處理章節(jié)概述CHAPTER OVERVIEWEvery image tells a story. Computer vision develops theories and
9、methods to allow computers to extract relevant information froTWO本章主要介紹了色彩和圖像的基礎(chǔ)知識,這些內(nèi)容與計(jì)算機(jī)視覺有緊密的關(guān)系,是后續(xù)章節(jié)的基礎(chǔ)。首先介紹了與圖像有關(guān)的色彩學(xué)基礎(chǔ),包括電磁波譜、三基色原理和彩色模型;接著介紹了圖像數(shù)字化的表示方法和有關(guān)概念,包括采樣、量化和圖像的性質(zhì);最后介紹了圖像的預(yù)處理方法,包括灰度化、幾何變換和圖像增強(qiáng)。章 節(jié) 概 述小節(jié)介紹SECTION INTRODUCTIONEvery image tells a story. Computer vision develops theories
10、 and methods to allow computers to extract relevant information froTHREE欲要處理圖像先學(xué)色彩基礎(chǔ)紅(R)、綠(G)、藍(lán)(B)這3 種顏色被稱為三基色。3種基色是相互獨(dú)立的,任何一種基色都不能由其他兩種顏色合成。根據(jù)人眼的三基色吸收特性,人眼所感受到的顏色其實(shí)是3種基色按照不同比例的組合。國際照明委員會(CIE)為了建立統(tǒng)一的標(biāo)準(zhǔn),于1931年制定了特定波長的三基色標(biāo)準(zhǔn):藍(lán)(B=435.8nm)、綠(G=546.1nm)、紅(R=700nm)。這樣,任一色彩均可由這三種基色來表示。2.1.1 三基色原理色彩如何感知與處理2.
11、1.2 彩色模型2.1 色彩學(xué)基礎(chǔ)常見彩色圖像處理流程可見光電磁波譜本節(jié)介紹圖像處理方面所需要的最基礎(chǔ)的顏色表示;通過光的電磁波譜到三基色原理,再到常見的彩色模型,把顏色用一種科學(xué)的方法表示出來;建立一種能夠用數(shù)學(xué)表達(dá)的模型,為計(jì)算機(jī)能夠處理圖像提供了最基本的數(shù)學(xué)前提。2.1 色彩學(xué)基礎(chǔ)圖像的數(shù)字化物理圖像(模擬圖像)是不能直接用數(shù)字計(jì)算機(jī)來處理。首先必須將各類圖像(如照片、圖形、X光照片等)轉(zhuǎn)化為數(shù)字圖像。2.2.1 采樣將空間上連續(xù)的圖像變成離散點(diǎn)的操作2.2.2 量化將圖像函數(shù)的連續(xù)數(shù)值轉(zhuǎn)變?yōu)槠鋽?shù)字等價(jià)量,方法有兩種:一種是等間隔量化,另一種是非等間隔量化。圖像數(shù)字化矩陣2.2 圖像的數(shù)
12、字化圖像性質(zhì)像素的相鄰和領(lǐng)域像素間距離的度量像素的連通性像素間的關(guān)系對比度是亮度的局部變化,定義為物體亮度的平均值與背景亮度的比值對比度敏銳度是覺察圖像細(xì)節(jié)的能力敏銳度實(shí)際的圖像常受一些隨機(jī)誤差的影響而退化,通常稱這個(gè)退化為噪聲。在圖像的捕獲、傳輸或處理過程中都可能出現(xiàn)噪聲,噪聲可能依賴于圖像內(nèi)容,也可能與其無關(guān)。噪聲一般由其概率特征來描述圖像中的噪聲2.2 圖像的數(shù)字化2.2.3 圖像的性質(zhì)本節(jié)介紹圖像在計(jì)算機(jī)中如何存儲和如何表示;介紹圖像在數(shù)字化后的一些基本性質(zhì),包括像素間關(guān)系、對比度、敏銳度以及圖像中的噪聲。2.2 圖像的數(shù)字化010203為提高整個(gè)應(yīng)用系統(tǒng)的處理速度,減少所需處理的數(shù)據(jù)
13、量灰度化通過平移、轉(zhuǎn)置、鏡像、旋轉(zhuǎn)、縮放等變換處理采集的圖像,改正圖像采集系統(tǒng)的系統(tǒng)誤差和儀器位置的隨機(jī)誤差幾何變換增強(qiáng)圖像中的有用信息,改善圖像的視覺效果圖像增強(qiáng)2.3 圖像預(yù)處理灰度化分量法最大值法平均值法加權(quán)平均法將彩色圖像中的三分量的亮度作為三個(gè)灰度圖像的灰度值,可根據(jù)應(yīng)用需要選取一種灰度圖像。對R、G、B 求出平均值,采用平均法對彩色圖像進(jìn)行灰度化處理會形成比較柔和的灰度圖像。使R、G、B 的值等于三個(gè)值中最大的一個(gè),用最大值法對彩色圖像進(jìn)行灰度化處理會使圖像的整體亮度增強(qiáng)。根據(jù)重要性及其它指標(biāo),將三個(gè)分量以不同的權(quán)值進(jìn)行加權(quán)平均。2.3 圖像預(yù)處理2.3.1 灰度化最鄰近插值:選擇
14、離它所映射到的位置最近的輸入像素的灰度值為插值結(jié)果雙線性插值:輸出像素的灰度值是該像素在輸入圖像中2*2領(lǐng)域采樣點(diǎn)的平均值,利用周圍四個(gè)相鄰像素的灰度值在垂直和水平兩個(gè)方向上做線性插值雙三次插值:利用三次多項(xiàng)式來逼近理論上的最佳正弦插值函數(shù),插值領(lǐng)域的大小為4*42.3 圖像預(yù)處理2.3.2 幾何變換 圖像增強(qiáng)算法目的是要改善圖像的視覺效果,有目的地強(qiáng)調(diào)圖像的整體或局部特性,擴(kuò)大圖像中不同物體特征之間的差別,抑制不感興趣的特征,改善圖像質(zhì)量、豐富信息量,加強(qiáng)圖像判讀和識別效果。注意:不能增加原始圖像的信息,只能增強(qiáng)對某種信息的辨別能力,會損失一些其它信息。強(qiáng)調(diào)根據(jù)具體應(yīng)用而言,更“好”更“有用
15、”的視覺效果圖像。難以定量描述。2.3 圖像預(yù)處理2.3.3 圖像增強(qiáng)對圖像中的每一個(gè)點(diǎn)單獨(dú)地進(jìn)行處理,或使圖像成像均勻,或擴(kuò)大圖像動態(tài)范圍,擴(kuò)展對比度。強(qiáng)調(diào)對圖像整體進(jìn)行調(diào)整。灰度變換(對比度拉伸)灰度求反:將原圖灰度值翻轉(zhuǎn)增強(qiáng)對比度:增強(qiáng)原圖的各部分的反差動態(tài)圖像壓縮:對原圖進(jìn)行灰度壓縮灰度切分(和增強(qiáng)對比度類似):將某個(gè)灰度值范圍變得比較突出直方圖修正直方圖均衡化:把原始圖像的直方圖變換成均勻分布的形式,增加圖像灰度值的動態(tài)范圍。本質(zhì)是擴(kuò)大量化間隔,而量化級別反而減少。直方圖規(guī)定化:有選擇地增強(qiáng)某個(gè)灰度值范圍的對比度。2.3 圖像預(yù)處理 空間域法空域變換增強(qiáng)(點(diǎn)運(yùn)算算法)強(qiáng)調(diào)對圖像局部進(jìn)
16、行改善(比如增強(qiáng)邊緣和紋理信息)圖像平滑:用于消除圖像噪聲,但是也容易引起邊緣的模糊均值濾波中值濾波空域?yàn)V波圖像銳化:突出物體的邊緣輪廓,便于目標(biāo)識別梯度算子法二階導(dǎo)數(shù)算子法高通濾波掩模匹配法2.3 圖像預(yù)處理 空間域法空域?yàn)V波增強(qiáng)(鄰域增強(qiáng)算法)2.3 圖像預(yù)處理 頻率域法圖像平滑2.3 圖像預(yù)處理 頻率域法圖像銳化本節(jié)主要介紹圖像預(yù)處理過程中常用的方法。幾何變換用于改正圖像采集系統(tǒng)的系統(tǒng)誤差和儀器位置的隨機(jī)誤差;平滑消除圖像中的隨機(jī)噪聲,同時(shí)不使圖像輪廓或線條變得模糊;增強(qiáng)對圖像中的信息有選擇地加強(qiáng)或抑制,達(dá)到改善圖像視覺效果的目的,或?qū)D像轉(zhuǎn)變?yōu)楦m合于機(jī)器處理的形式,以便于數(shù)據(jù)抽取或識
17、別。2.3 圖像預(yù)處理本章總結(jié)CHAPTER SUMMARYEvery image tells a story. Computer vision develops theories and methods to allow computers to extract relevant information froFOUR預(yù)處理基本方法色彩學(xué)基礎(chǔ)表示方法及基本性質(zhì)包括像素的距離、像素的連通性、像素的領(lǐng)域,以及對比度、敏銳度和噪聲的基本知識。這些在圖像的處理中都是最基本的要素,也是進(jìn)行圖像處理的基礎(chǔ)。圖像的表示方法及基本性質(zhì)包括基本的灰度化和幾何變換以及進(jìn)一步的圖像空域增強(qiáng)和圖像頻域增強(qiáng)。圖像預(yù)處
18、理基本方法2.4 本 章 總 結(jié)介紹了最常用的RGB模型和HSI模型的基本原理。圖像處理中的色彩學(xué)基礎(chǔ)計(jì)算機(jī)視覺Computer Vision第三章特征提取目錄背景介紹Contents1章節(jié)概述2小節(jié)介紹3本章總結(jié)4背景介紹BACKGROUND在傳統(tǒng)的圖形學(xué)中,凡是能反映圖像某種潛在規(guī)律的就被稱作圖像特征,譬如顏色特征、紋理特征、形狀特征和空間關(guān)系特征等等。在計(jì)算機(jī)視覺領(lǐng)域中,最具價(jià)值的圖像特征主要是局部特征點(diǎn)和邊緣特征,前者主要被應(yīng)用在圖像定位、圖像識別等,而后者主要被應(yīng)用在圖像分割上。ONE圖像特征的局部表達(dá),它只能反映圖像上具有的局部特殊性,譬如圖像的線條、交叉、輪廓等等。在圖像發(fā)生光線
19、或位置的變化時(shí),局部特征點(diǎn)往往具有穩(wěn)定不變性。局部特征點(diǎn)邊緣檢測背 景 介 紹角點(diǎn)斑點(diǎn)特征描述子特征描述子(Feature Descriptors)指的是檢測圖像的局部特征(比如邊緣、角點(diǎn)、輪廓等),然后據(jù)匹配目標(biāo)的需要進(jìn)行特征的組合、變換,以形成易于匹配、穩(wěn)定性好的特征向量,從而把圖像匹配問題轉(zhuǎn)化為特征的匹配問題,進(jìn)而將特征的匹配問題轉(zhuǎn)化為特征空間向量的聚類問題。邊緣是不同區(qū)域的分界線,是周圍(局部)灰度值有顯著變化的像素點(diǎn)的集合,有幅值與方向兩個(gè)屬性。階躍型、屋脊型、斜坡型、脈沖型邊緣一階邊緣算子二階邊緣算子窗口模板算子章節(jié)概述CHAPTER OVERVIEW本章主要介紹兩種最重要的圖像特
20、征,一種是局部特征點(diǎn),另一種是邊緣特征。對于局部特征點(diǎn)提取,本章介紹了角點(diǎn)、斑點(diǎn)和基于特征描述子的檢測方法。對于邊緣檢測,本章主要介紹了基于一階/二階的微分邊緣算子和基于窗口模板的檢測方法,以及簡略提及部分新興的邊緣檢測方法。TWO章 節(jié) 概 述小節(jié)介紹SECTION INTRODUCTION 3.1 角點(diǎn)檢測算法 3.2 斑點(diǎn)檢測算法 3.3 特征描述子 3.4 邊緣檢測算法 3.5 一階微分邊緣算子 3.6 二階微分邊緣算子 3.7 窗口模板的檢測方法 3.8 新興的邊緣檢測算法 THREE3.1 角點(diǎn)檢測算法3.1.1 Harris角點(diǎn)Harris角點(diǎn)定義為:如果在各個(gè)方向上移動這個(gè)特征
21、的小窗口,窗口內(nèi)區(qū)域的灰度發(fā)生了較大的變化,那么就認(rèn)為在窗口內(nèi)遇到了角點(diǎn)。其中,W(x,y)是以點(diǎn) (x,y)為中心的窗口, w(u,v)為加權(quán)函數(shù),它既可是常數(shù),也可以是高斯加權(quán)函數(shù)。u,v是窗口的偏移量;(x,y)是窗口內(nèi)所對應(yīng)的像素坐標(biāo)位置,窗口有多大,就有多少個(gè)位置;w(x,y)是窗口函數(shù),最簡單情形就是窗口內(nèi)的所有像素所對應(yīng)的w權(quán)重系數(shù)均為1,但有時(shí)候,我們會將w(x,y)函數(shù)設(shè)定為以窗口中心為原點(diǎn)的二元正態(tài)分布。3.1.1 Harris角點(diǎn)至此,我們就可以通過判斷R的值來判斷某個(gè)點(diǎn)是不是角點(diǎn)了。角點(diǎn):R為大數(shù)值整數(shù)邊緣:R為大數(shù)值負(fù)數(shù)平坦區(qū):絕對值R是小數(shù)值3.1 角點(diǎn)檢測算法3.
22、1.1 Harris角點(diǎn)3.1 角點(diǎn)檢測算法FAST角點(diǎn)定義:若某像素點(diǎn)與其周圍領(lǐng)域內(nèi)足夠多的像素點(diǎn)處于不同的區(qū)域,則該像素點(diǎn)可能為角點(diǎn)。也就是某些屬性與眾不同,考慮灰度圖像,即若該點(diǎn)的灰度值比其周圍領(lǐng)域內(nèi)足夠多的像素點(diǎn)的灰度值大或者小,則該點(diǎn)可能為角點(diǎn)。3.1.2 Fast角點(diǎn)FAST角點(diǎn)的算法步驟如下:1.從圖片中選取一個(gè)像素P,下面我們將判斷它是否是一個(gè)特征點(diǎn)。我們首先把它的亮度值設(shè)為Ip。2.設(shè)定一個(gè)合適的閾值t。3.考慮以該像素點(diǎn)為中心的一個(gè)半徑等于3像素的離散化的Bresenham圓,這個(gè)圓的邊界上有16個(gè)像素(如上圖所示)。4.如上圖3所示,如果在這個(gè)大小為16個(gè)像素的圓上有n個(gè)
23、連續(xù)的像素點(diǎn),它們的像素值要么都比Ip+t大,要么都比Ip-t小,那么它就是一個(gè)角點(diǎn)(如圖中的白色虛線所示)。n的值可以設(shè)置為12或者9,實(shí)驗(yàn)證明選擇9可能會有更好的效果。3.1 角點(diǎn)檢測算法3.2.1 LOG斑點(diǎn)檢測利用高斯拉普通拉斯(Laplace of Gaussian,LOG)算子檢測圖像斑點(diǎn)是一種十分常用的方法,對于二維高斯函數(shù):它的拉普拉斯變換為:規(guī)范化的高斯拉普變換為:規(guī)范化算法子在二維圖像上顯示是一個(gè)圓對稱函數(shù)。我們可以用這個(gè)算子來檢測圖像中的斑點(diǎn),并且可以通過改變的值,可以檢測不同尺寸的二維斑點(diǎn)。3.2 斑點(diǎn)檢測算法3.2.1 LOG斑點(diǎn)檢測從更直觀的角度去解釋為什么LOG算
24、子可以檢測圖像中的斑點(diǎn):1、圖像與某一個(gè)二維函數(shù)進(jìn)行卷積運(yùn)算實(shí)際就是求取圖像與這一函數(shù)的相似性。同理,圖像與高斯拉普拉斯函數(shù)的卷積實(shí)際就是求取圖像與高斯拉普拉斯函數(shù)的相似性。當(dāng)圖像中的斑點(diǎn)尺寸與高斯拉普拉斯函數(shù)的形狀趨近一致時(shí),圖像的拉普拉斯響應(yīng)達(dá)到最大。2、從概率的角度解釋為:假設(shè)原圖像是一個(gè)與位置有關(guān)的隨機(jī)變量X的密度函數(shù),而LOG為隨機(jī)變量Y的密度函數(shù),則隨機(jī)變量X+Y的密度分布函數(shù)即為兩個(gè)函數(shù)的卷積形式。如果想讓X+Y能取到最大值,則X與Y能保持步調(diào)一致最好,即X上升時(shí),Y也上升,X最大時(shí),Y也最大。3.2 斑點(diǎn)檢測算法3.2.1 LOG斑點(diǎn)檢測LOG算子的具體計(jì)算過程:先對圖像f(x
25、,y)用方差為的高斯核進(jìn)行高斯濾波,去除圖像中的噪點(diǎn)。然后對圖像的拉普拉斯圖像則為:而實(shí)際上有下面等式:所以,我們可以先求高斯核的拉普拉斯算子,再對圖像進(jìn)行卷積。也就是一開始描述的步驟。3.2 斑點(diǎn)檢測算法3.2.2 DOG斑點(diǎn)檢測前面介紹的微分算子在近圓的斑點(diǎn)檢測方面效果很好,但是這些檢測算子被限定于只能檢測圓形斑點(diǎn),而且不能估計(jì)斑點(diǎn)的方向,因?yàn)長OG算子等都是中心對稱的。如果我們定義一種二維高斯核的變形,記它在X方向與Y方向上具有不同的方差,則這種算子可以用來檢測帶有方向的斑點(diǎn)。如左圖所示,DOG可以看作為LOG的一個(gè)近似,但是它比LOG的效率更高上式是算子的計(jì)算方法,其中A是規(guī)一性因子。
26、3.2 斑點(diǎn)檢測算法3.2.3 SIFT斑點(diǎn)檢測SIFT 算法分為 4 個(gè)階段:1、尺度空間極值檢測:該階段是在圖像的全部尺度和全部位置上進(jìn)行搜索,并通過應(yīng)用高斯差分函數(shù)可以有效地識別出尺度不變性和旋轉(zhuǎn)不變性的潛在特征點(diǎn)來;2、特征點(diǎn)的定位:在每個(gè)候選特征點(diǎn)上,一個(gè)精細(xì)的模型被擬合出來用于確定特性點(diǎn)的位置和尺度。而特征點(diǎn)的最后選取依賴的是它們的穩(wěn)定程度;3、方向角度的確定:基于圖像的局部梯度方向,為每個(gè)特性點(diǎn)分配一個(gè)或多個(gè)方向角度。所有后續(xù)的操作都是相對于所確定下來的特征點(diǎn)的角度、尺度和位置的基礎(chǔ)上進(jìn)行的,因此特征點(diǎn)具有這些角度、尺度和位置的不變性;4、特征點(diǎn)的描述符:在所選定的尺度空間內(nèi),測
27、量特征點(diǎn)鄰域區(qū)域的局部圖像梯度,將這些梯度轉(zhuǎn)換成一種允許局部較大程度的形狀變形和亮度變化的描述符形式。SIFT斑點(diǎn)檢測流程3.2 斑點(diǎn)檢測算法3.2.4 SURF斑點(diǎn)檢測SURF 算法包括下面幾個(gè)階段:第一部分:特征點(diǎn)檢測1、基于 Hessian 矩陣的特征點(diǎn)檢測2、尺度空間表示3、特征點(diǎn)定位第二部分:特征點(diǎn)描述1、方向角度的分配2、基于 Haar 小波的特征點(diǎn)描述符積分圖像Hessian矩陣特征點(diǎn)表示尺度空間3.2 斑點(diǎn)檢測算法3.3.1 BRIEF描述子BRIEF(Binary Robust Independent Elementary Features)與傳統(tǒng)的利用圖像局部鄰域的灰度直方
28、圖或梯度直方圖提取特征的方式不同,BRIEF是一種二進(jìn)制編碼的特征描述子,既降低了存儲空間的需求,提升了特征描述子生成的速度,也減少了特征匹配時(shí)所需的時(shí)間。 值得注意的是,對于BRIEF,它僅僅是一種特征描述符,它不提供提取特征點(diǎn)的方法。所以,如果你必須使用一種特征點(diǎn)定位的方法,如FAST、SIFT、SURF等。這里,我們將使用CenSurE方法來提取關(guān)鍵點(diǎn),對BRIEF來說,CenSurE的表現(xiàn)比SURF特征點(diǎn)稍好一些。3.3 特征描述子3.3.1 BRIEF描述子3.3 特征描述子3.3.2 ORB特征提取算法ORB對BRIEF的改進(jìn):ORB在計(jì)算BRIEF描述子時(shí)建立的坐標(biāo)系是以關(guān)鍵點(diǎn)為
29、圓心,以關(guān)鍵點(diǎn)和取點(diǎn)區(qū)域的形心(圓形)的連線為X軸建立坐標(biāo)系;計(jì)算形心時(shí),圓形區(qū)域上每個(gè)點(diǎn)的質(zhì)量是其對應(yīng)的像素值。ORB特征,從它的名字中可以看出它是對FAST特征點(diǎn)與BREIF特征描述子的一種結(jié)合與改進(jìn),這個(gè)算法是由Ethan Rublee,Vincent Rabaud,Kurt Konolige以及Gary R.Bradski在2011年一篇名為“ORB:An Efficient Alternative to SIFT or SURF”的文章中提出。就像文章題目所寫一樣,ORB是除了SIFT與SURF外一個(gè)很好的選擇,而且它有很高的效率,最重要的一點(diǎn)是它是免費(fèi)的,SIFT與SURF都是有專
30、利的,你如果在商業(yè)軟件中使用,需要購買許可。 ORB特征是將FAST特征點(diǎn)的檢測方法與BRIEF特征描述子結(jié)合起來,并在它們原來的基礎(chǔ)上做了改進(jìn)與優(yōu)化。3.3 特征描述子3.3.3 BRISK特征提取算法BRISK的算法步驟如下:第一步進(jìn)行特征點(diǎn)檢測,主要分為建立尺度空間、特征點(diǎn)檢測、非極大值抑制和亞像素差值這四個(gè)部分;第二步進(jìn)行特征點(diǎn)描述,主要分為高斯濾波、局部梯度計(jì)算、特征描述符和匹配方法這四個(gè)部分。BRISK算法是2011年ICCV上BRISK:Binary Robust Invariant Scalable Keypoints文章中,提出來的一種特征提取算法,也是一種二進(jìn)制的特征描述算
31、子。它具有較好的旋轉(zhuǎn)不變性、尺度不變性,較好的魯棒性等。在圖像配準(zhǔn)應(yīng)用中,速度比較:SIFTSURFBRISKFREAK 卷積層 - 線性整流層*N - 池化層?*M - 全連接層 - 線性整流層*K - 全連接層堆疊幾個(gè)卷積和整流層,再加一個(gè)池化層,然后再用全連接層控制輸出。上述表達(dá)式中,問號符號代表0次或1次,符號N和M則代表具體的數(shù)值。通常情況下,取N = 0 & N = 0,K = 0 & K 隱藏單元 隱藏單元-輸出單元在隱藏層增加了上下文單元,上下文單元節(jié)點(diǎn)與隱藏層中的節(jié)點(diǎn)的連接是固定的,并且權(quán)值也是固定的,其實(shí)是一個(gè)上下文節(jié)點(diǎn)與隱藏層節(jié)點(diǎn)一一對應(yīng),并且值是確定的。Simple-R
32、NN循環(huán)神經(jīng)網(wǎng)絡(luò)拓展與改進(jìn)雙向神經(jīng)網(wǎng)絡(luò)的隱藏層要保存兩個(gè)值,一個(gè)參與正向計(jì)算,另一個(gè)值則參與反向計(jì)算。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的改進(jìn)之處便是,假設(shè)當(dāng)前的輸出不僅僅與前面的序列有關(guān),并且還與后面的序列有關(guān)。它是由兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)上下疊加在一起組成的,而其輸出則由這兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏層狀態(tài)共同決定。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)拓展與改進(jìn)疊兩個(gè)以上的隱藏層,對于每一步的輸入有多層網(wǎng)絡(luò)。這樣,該網(wǎng)絡(luò)便有更強(qiáng)大的表達(dá)與學(xué)習(xí)能力,但是復(fù)雜性也提高了,同時(shí)需要更多的訓(xùn)練數(shù)據(jù)。深度循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)拓展與改進(jìn)在長短期記憶網(wǎng)絡(luò)中,最基本的結(jié)構(gòu)單位被稱為cells,可以把cells看作是黑盒用以保存當(dāng)前輸入x_
33、t之前的保存的狀態(tài)h_(t-1),這些cells更加一定的條件決定哪些cell抑制,哪些cell興奮。它們結(jié)合前面的狀態(tài)、當(dāng)前的記憶與當(dāng)前的輸入。已經(jīng)證明,該網(wǎng)絡(luò)結(jié)構(gòu)在長序列依賴問題中非常有效。長短期記憶網(wǎng)絡(luò)與門控循環(huán)單元網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)拓展與改進(jìn)可以看到它們之間非常相像,不同點(diǎn)在于:(1)新生成的記憶的計(jì)算方法都是根據(jù)之前的狀態(tài)及輸入進(jìn)行計(jì)算,但是門控循環(huán)單元中有一個(gè)重置門控制之前狀態(tài)的進(jìn)入量,而在長短期記憶里沒有這個(gè)門;(2)產(chǎn)生新的狀態(tài)的方式不同,長短期記憶有兩個(gè)不同的門,分別是遺忘門和輸入門,而門控循環(huán)單元的結(jié)構(gòu)相對簡單,只有一個(gè)更新門;(3)長短期記憶對新產(chǎn)生的狀態(tài)有一個(gè)輸出門可以調(diào)
34、節(jié)大小,而門控循環(huán)單元直接輸出無任何調(diào)節(jié)。長短期記憶網(wǎng)絡(luò)與門控循環(huán)單元網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)拓展與改進(jìn)本章總結(jié)CHAPTER SUMMARYFOUR本章總結(jié)本章首先介紹了神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)感知器模型的原理及激活函數(shù)相關(guān)內(nèi)容,之后從原理及公式推導(dǎo)方面講解了神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與前向傳播及反向傳播算法,最后在普通神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)之上,詳細(xì)介紹了卷積神經(jīng)網(wǎng)絡(luò)及循環(huán)神經(jīng)網(wǎng)絡(luò)的原理、結(jié)構(gòu)、應(yīng)用及演變模型。 作為深度學(xué)習(xí)及計(jì)算機(jī)視覺的基礎(chǔ)及重要組成部分,神經(jīng)網(wǎng)絡(luò)及卷積神經(jīng)網(wǎng)絡(luò)等是利用深度學(xué)習(xí)解決計(jì)算機(jī)視覺相關(guān)問題及應(yīng)用的有力工具,在對本章進(jìn)行了充分的學(xué)習(xí)后,將會為之后章節(jié)有關(guān)計(jì)算機(jī)視覺具體任務(wù)及應(yīng)用的學(xué)習(xí)做好準(zhǔn)備。計(jì)算機(jī)視
35、覺Computer Vision第五章物體分類與識別目錄背景介紹Contents1章節(jié)概述2小節(jié)介紹3本章總結(jié)4背景介紹BACKGROUNDEvery image tells a story. Computer vision develops theories and methods to allow computers to extract relevant information from digital images or videos.ONESWQT輸入圖像圖像特征提取分類器輸出類別概率分布圖像分類基本流程人工設(shè)計(jì)的圖像描述符,如HOG,SIFTSVM,決策樹等圖像特征的設(shè)計(jì)難度很大,
36、準(zhǔn)確率提升難度大傳統(tǒng)機(jī)器學(xué)習(xí)方法圖像特征分類器缺點(diǎn)圖像分類方法深度卷積神經(jīng)網(wǎng)絡(luò)全連接神經(jīng)網(wǎng)絡(luò)(多層感知機(jī))參數(shù)量大,學(xué)習(xí)能力強(qiáng),但容易過擬合,需要大量計(jì)算資源,在大規(guī)模數(shù)據(jù)集和強(qiáng)大的GPU的支持下效率遠(yuǎn)高于傳統(tǒng)機(jī)器學(xué)習(xí)方法深度學(xué)習(xí)方法圖像特征分類器特點(diǎn)圖像分類方法章節(jié)概述CHAPTER OVERVIEWEvery image tells a story. Computer vision develops theories and methods to allow computers to extract relevant information from digital images or v
37、ideos.TWO章節(jié)概述本章將介紹深度學(xué)習(xí)復(fù)興以來的經(jīng)典的深度卷積神經(jīng)網(wǎng)絡(luò),包括 DCNN 的開山之作 AlexNet、深度更深而結(jié)構(gòu)優(yōu)雅的 VGG 網(wǎng)絡(luò)、性能優(yōu)良的 GoogLeNet,以及大大提高網(wǎng)絡(luò)深度的 ResNet,并針對這些網(wǎng)絡(luò)的創(chuàng)新點(diǎn)、改進(jìn)思路等逐一做分析。在最后對遷移學(xué)習(xí)做簡要的介紹,從中了解使用遷移學(xué)習(xí)進(jìn)行圖像分類的兩種常用策略。小節(jié)介紹SECTION INTRODUCTIONEvery image tells a story. Computer vision develops theories and methods to allow computers to extra
38、ct relevant information from digital images or videos.THREE5.1 從AlexNet到GoogLeNetAlexNet、VGGNet 和 GoogLeNet 是早期深度卷積神經(jīng)網(wǎng)絡(luò)的典型代表,相較于更早之前的淺層網(wǎng)絡(luò),它們的網(wǎng)絡(luò)深度有了相當(dāng)大的提高,同時(shí)也針對網(wǎng)絡(luò)加深帶來的一系列問題,提出了一系列改進(jìn)、優(yōu)化的方法,奠定了深度學(xué)習(xí)的基礎(chǔ)。010203深度學(xué)習(xí)里程碑AlexNet大大提高了網(wǎng)絡(luò)深度VGGNet增加網(wǎng)絡(luò)深度的同時(shí)降低了模型復(fù)雜度GoogLeNetAlexNet2006 年深度學(xué)習(xí)復(fù)興以來,卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到了許多任務(wù)中,包括圖
39、像分類和識別、 人臉檢測和語義分割等,同時(shí)也在場景解析、無人駕駛和手勢識別中有很不錯(cuò)的應(yīng)用。盡管如此,早期深度學(xué)習(xí)仍然不是計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)的主流,直到 2012 年 ILSVRC上,Alex Krizhevsky 等人的全監(jiān)督的深度卷積神經(jīng)網(wǎng)絡(luò)模型打破了分類任務(wù)的準(zhǔn)確度記錄,以高出第二名 10%的性能取得了冠軍,Alex 將它起名為 AlexNet。AlexNet 是計(jì)算機(jī)視覺領(lǐng)域的革命性成果,從此深度卷積神經(jīng)網(wǎng)絡(luò)成為大多數(shù)視覺任務(wù)的主導(dǎo)的結(jié)構(gòu)。AlexNet 的創(chuàng)新點(diǎn) Relu 激活函數(shù) 局部響應(yīng)歸一化重疊池化(Overlap pooling)Relu 激活函數(shù)與使用傳統(tǒng)的 sigmoi
40、d 或者 tanh 作為激活函數(shù)不同,AlexNet 使用 Relu 作為激活函數(shù), 大大加快了訓(xùn)練速度。sigmoid 或者 tanh 這兩種函數(shù)最大的缺點(diǎn)就是其飽和性,當(dāng)輸入的 x 過大或過小時(shí),函數(shù)的輸出會非常接近+1 與-1,在這里斜率會非常小,那么在訓(xùn)練時(shí)應(yīng)用梯度下降時(shí),其飽和性會使梯度非常小,嚴(yán)重降低了網(wǎng)絡(luò)的訓(xùn)練速度。而 ReLU 的函數(shù)表達(dá) 式為 max(0, x),當(dāng) x0 時(shí)輸出為 x,斜率恒為 1,在實(shí)際使用時(shí),神經(jīng)網(wǎng)絡(luò)的收斂速度要快 過傳統(tǒng)的激活函數(shù)數(shù)十倍。 對于一個(gè)四層的神經(jīng)網(wǎng)絡(luò),利用 CIFAR-10 數(shù)據(jù)集進(jìn)行訓(xùn)練,使用ReLU 函數(shù)達(dá)到 25%錯(cuò)誤率需要的迭代數(shù)是
41、 tanh 函數(shù)所需迭代數(shù)的六分之一。而對于大型的數(shù)據(jù)集,使用更深的神經(jīng)網(wǎng)絡(luò),ReLU 對訓(xùn)練的加速更為明顯。局部響應(yīng)歸一化受到局部對比歸一化的啟發(fā),AlexNet 使用了局部響應(yīng)歸一化(Local Response Normalization)。在使用飽和型的激活函數(shù)時(shí),通常需要對輸入進(jìn)行歸一化處理,以利用激活函數(shù)在 0 附近的線性特性與非線性特性,并避免飽和,但對于 ReLU 函數(shù),不需要輸入歸 一化。然而,Alex 等人發(fā)現(xiàn)通過 LRN 這種歸一化方式可以幫助提高網(wǎng)絡(luò)的泛化性能。LRN 的作用就是,對位置(x, y)處的像素計(jì)算其與幾個(gè)相鄰的 kernel maps 的像素值的和,并除以
42、這個(gè)和來歸一化。kernel maps 的順序可以是任意的,在訓(xùn)練開始前確定順序即可。在 AlexNet 中,LRN 層位于 ReLU 之后。在論文中,Alex 指出應(yīng)用 LRN 后 top-1 與 top-5 錯(cuò)誤率分別提升了1.4%與 1.2%。重疊池化(Overlap pooling)通過 overlapping pooling(池化的大小大于步進(jìn)),Alexnet 進(jìn)一步降低了分類誤差。作者提到,使用這種池化可以一定程度上減小過擬合現(xiàn)象。AlexNet 的總體結(jié)構(gòu)AlexNet包括由5個(gè)卷積層組成的特征特征提取網(wǎng)絡(luò)和3個(gè)全連接層組成的分類器數(shù)據(jù)增強(qiáng)DropoutAlexNet 整個(gè)網(wǎng)絡(luò)
43、一共有六千萬個(gè)參數(shù),很容易產(chǎn)生過擬合的現(xiàn)象。對抗過擬合數(shù)據(jù)增強(qiáng)1. 隨機(jī)裁剪和水平翻轉(zhuǎn)對原始的 256x256 大小的圖片隨機(jī)裁剪為 224x224 大小,并進(jìn)行隨機(jī)翻轉(zhuǎn),這兩種操作相當(dāng)于把訓(xùn)練集擴(kuò)大了 32x32x2=2048 倍。在測試時(shí),AlexNet 把輸入圖片與其水平翻轉(zhuǎn)在四個(gè)角處與正中心共五個(gè)地方各裁剪下 224x224 大小的子圖,即共裁剪出 10 個(gè)子圖,均送入 AlexNet 中,并把 10 個(gè) softmax 輸出求平均。如果沒有這些操作,AlexNet 將出現(xiàn)嚴(yán)重 的過擬合,使網(wǎng)絡(luò)的深度不能達(dá)到這么深。2. 主成分分析AlexNet 對 RGB 通道使用了 PCA(主成分
44、分析),對每個(gè)訓(xùn)練圖片的每個(gè)像素,提取出 RGB 三個(gè)通道的特征向量與特征值,對每個(gè)特征值乘以一個(gè),是一個(gè)均值 0.1 方差服從 高斯分布的隨機(jī)變量。Dropout對每個(gè)神經(jīng)元設(shè)置一個(gè)被保留的概率keep_prob,如果神經(jīng)元沒被保留,那么這個(gè)神經(jīng)元的輸出將被設(shè)置為 0,在梯度反向傳播時(shí),傳播到該神經(jīng)元的值也為 0,因此可以認(rèn)為神經(jīng)網(wǎng)絡(luò)中不存在這個(gè)神經(jīng)元; 而在下次迭代中,所有神經(jīng)元將會根據(jù) keep_prob 被重新隨機(jī) dropout。相當(dāng)于每次迭代,神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)都會有所不同,這就會迫使神經(jīng)網(wǎng)絡(luò)不會過度依賴某幾個(gè)神經(jīng)元或者說某些特征,因此, 神經(jīng)元會被迫去學(xué)習(xí)更具有魯棒性的特征。在
45、AlexNet 中,在訓(xùn)練時(shí),每層的 keep_prob 被設(shè)置為 0.5,而在測試時(shí),所有的 keep_prob 都為 1.0,也即關(guān)閉 dropout,并把所有神經(jīng)元的輸出均乘以 0.5,保證訓(xùn)練時(shí)和測試時(shí)輸出的均值接近。AlexNet 小結(jié)本節(jié)介紹了 AlexNet 的主要創(chuàng)新點(diǎn),包括使用 Relu 激活函數(shù)替代 sigmoid 函數(shù)加快訓(xùn) 練速度、使用 LRN 增強(qiáng)網(wǎng)絡(luò)泛化能力、使用 overlap pooling 的技巧等,展示了 AlexNet 的 網(wǎng)絡(luò)結(jié)構(gòu),以及講述了 AlexNet 作者在對抗過擬合過程中所采用的數(shù)據(jù)增強(qiáng)和 dropout。AlexNet 之后,深度卷積神經(jīng)網(wǎng)絡(luò)
46、主宰了幾乎所有的圖形分類的比賽。為了理解卷積神 經(jīng)網(wǎng)絡(luò)強(qiáng)大而神秘的特征提取能力,也為了能更進(jìn)一步地改進(jìn)網(wǎng)絡(luò)的性能,2014 年 Zeiler 等人提出使用反卷積網(wǎng)絡(luò)來可視化卷積神經(jīng)網(wǎng)絡(luò)隱藏層學(xué)習(xí)到的特征。利用可視化技術(shù),改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)有了相對明朗的方向,因此在 ILSVRC2013 上,很多參賽的模型,無論是在準(zhǔn)確度還是泛化能力上都超過了 AlexNetVGGNet2014 年,牛津大學(xué)計(jì)算機(jī)視覺組(Visual Geometry Group)和 Google DeepMind 公司的研究員一起研發(fā)出了新的深度卷積神經(jīng)網(wǎng)絡(luò): VGGNet,并取得了 ILSVRC2014 比賽分類項(xiàng)目的第二名
47、(第一名是 GoogLeNet,也是同年提出的)和定位項(xiàng)目的第一名。VGGNet探索了卷積神經(jīng)網(wǎng)絡(luò)的深度與其性能之間的關(guān)系,成功地構(gòu)筑了 1619 層深的卷積神經(jīng)網(wǎng)絡(luò),證明了增加網(wǎng)絡(luò)的深度能夠在一定程度上影響網(wǎng)絡(luò)最終的性能,使錯(cuò)誤率大幅下降,同時(shí)拓展性又很強(qiáng),遷移到其它圖片數(shù)據(jù)上的泛化性也非常好。到目前為止,VGG 仍 然常常被用來提取圖像特征。VGG的特點(diǎn)1. 結(jié)構(gòu)簡潔VGG 由 5 層卷積層、3 層全連接層、softmax 輸出層構(gòu)成,層與層之間使用 max-pooling(最大化池)分開,所有隱層的激活單元都采用 ReLU 函數(shù)。 VGG的特點(diǎn)2. 小卷積核和多卷積子層VGG 使用多個(gè)較
48、小卷積核(3x3)的卷積層代替一個(gè)卷積核較大的卷積層,一方面可以減少參數(shù),另一方面相當(dāng)于進(jìn)行了更多的非線性映射,可以增加網(wǎng)絡(luò)的擬合/表達(dá)能力。小卷積核是 VGG 的一個(gè)重要特點(diǎn),雖然 VGG 是在模仿 AlexNet 的網(wǎng)絡(luò)結(jié)構(gòu),但沒有采用 AlexNet 中比較大的卷積核尺寸(如 7x7),而是通過降低卷積核的大小(3x3),增加卷積子層數(shù)來達(dá)到同樣的性能。VGG 的作者認(rèn)為兩個(gè) 3x3 的卷積堆疊獲得的感受野大小,相當(dāng)一個(gè) 5x5 的卷積; 而 3 個(gè) 3x3 卷積的堆疊獲取到的感受野相當(dāng)于一個(gè) 7x7 的卷積。這樣可以增加非線性映射,也能很好地減少參數(shù)(例如 7x7 的參數(shù)為 49 個(gè),
49、而 3 個(gè) 3x3 的參數(shù)為 27個(gè))。 VGG的特點(diǎn)3. 小池化核相比 AlexNet 的 3x3 的池化核,VGG 全部采用 2x2 的池化核。4. 通道數(shù)多VGG 網(wǎng)絡(luò)第一層的通道數(shù)為 64,后面每層都進(jìn)行了翻倍,最多到 512 個(gè)通道,通道數(shù)的增加,使得更多的信息可以被提取出來。5. 層數(shù)更深、特征圖更寬由于卷積核專注于擴(kuò)大通道數(shù)、池化專注于縮小寬和高,使得模型架構(gòu)上更深更寬的同 時(shí),控制了計(jì)算量的增加規(guī)模。 VGG的特點(diǎn)6. 全連接轉(zhuǎn)卷積(測試階段)這也是 VGG 的一個(gè)特點(diǎn),在網(wǎng)絡(luò)測試階段將訓(xùn)練階段的三個(gè)全連接替換為三個(gè)卷積,使得測試得到的全卷積網(wǎng)絡(luò)因?yàn)闆]有全連接的限制,因而可以接
50、收任意寬或高維的輸入,這在測試階段很重要。 VGG 的網(wǎng)絡(luò)結(jié)構(gòu)VGG使用了 A、A-LRN、B、C、D、E 這 6 種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行測試。這 6 種網(wǎng)絡(luò)結(jié)構(gòu)相似,都是由 5 層卷積層、3 層全連接層組成。其中區(qū)別在于每個(gè)卷積層的子層數(shù)量不同,從 A 至 E 依次增加(子層數(shù)量從 1 到 4),總的網(wǎng)絡(luò)深度從 11 層到 19 層(添加的 層以粗體顯示)。表格中的卷積層參數(shù)表示為“conv-通道數(shù)”,例如 con3-128,表示使用 3x3 的卷積核,通道數(shù)為 128。為了簡潔起見,在表格中不顯示 ReLU 激活功 能。 VGG16預(yù)測過程1、輸入 224x224x3 的圖片,經(jīng) 64 個(gè) 3x3
51、 的卷積核作兩次卷積+ReLU,卷積后的尺寸變?yōu)?224x224x64;2、作 max pooling(最大化池化),池化單元尺寸為 2x2(效果為圖像尺寸減半),池化后的 尺寸變?yōu)?112x112x64;3、經(jīng) 128 個(gè) 3x3 的卷積核作兩次卷積+ReLU,尺寸變?yōu)?112x112x128;4、作 2x2 的 max pooling 池化,尺寸變?yōu)?56x56x128;5、經(jīng) 256 個(gè) 3x3 的卷積核作三次卷積+ReLU,尺寸變?yōu)?56x56x256;6、作 2x2 的 max pooling 池化,尺寸變?yōu)?28x28x256;7、經(jīng) 512 個(gè) 3x3 的卷積核作三次卷積+ReL
52、U,尺寸變?yōu)?28x28x512; 8、作 2x2 的 max pooling 池化,尺寸變?yōu)?14x14x512;9、經(jīng) 512 個(gè) 3x3 的卷積核作三次卷積+ReLU,尺寸變?yōu)?14x14x512; 10、作 2x2 的 max pooling 池化,尺寸變?yōu)?7x7x512;11、與兩層 1x1x4096,一層 1x1x1000 進(jìn)行全連接+ReLU(共三層); 12、通過 softmax 輸出 1000 個(gè)預(yù)測結(jié)果。 VGG網(wǎng)絡(luò)參數(shù)量A、A-LRN、B、C、D、E 這 6 種網(wǎng)絡(luò)結(jié)構(gòu)的深度雖然從 11 層增加至 19 層,但參數(shù)量變化不大。這是由于基本上都是采用了小卷積核(3x3,只
53、有 9 個(gè)參數(shù)),這 6 種結(jié)構(gòu)的參數(shù)數(shù)量(百萬級)并未發(fā)生太大變化,這是因?yàn)樵诰W(wǎng)絡(luò)中,參數(shù)主要集中在全連接層。VGG 網(wǎng)絡(luò)參數(shù)數(shù)量(單位:百萬)VGG網(wǎng)絡(luò)評估結(jié)果VGG 作者對 A、A-LRN、B、C、D、E 這 6 種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行單尺度的評估,結(jié)果如表所示。VGG 網(wǎng)絡(luò)評估結(jié)果。 S 和 Q 表示輸入圖像的尺寸。VGG網(wǎng)絡(luò)評估結(jié)果1、LRN 層無性能增益(A-LRN)VGG 作者通過網(wǎng)絡(luò) A-LRN 發(fā)現(xiàn),AlexNet 曾經(jīng)用到的 LRN 層(local response normalization,局部響應(yīng)歸一化)并沒有帶來性能的提升,因此在其它組的網(wǎng)絡(luò)中均沒再出 現(xiàn)LRN層。2、隨著
54、深度增加,分類性能逐漸提高(A、B、C、D、E)從 11 層的 A 到 19 層的 E,網(wǎng)絡(luò)深度增加對 top1 和 top5 的錯(cuò)誤率下降很明顯。3、多個(gè)小卷積核比單個(gè)大卷積核性能好(B)VGG 作者做了實(shí)驗(yàn)用 B 和自己一個(gè)不在實(shí)驗(yàn)組里的較淺網(wǎng)絡(luò)比較,較淺網(wǎng)絡(luò)用 conv5x5 來代替 B 的兩個(gè) conv3x3,結(jié)果顯示多個(gè)小卷積核比單個(gè)大卷積核效果要好。VGGNet 小結(jié)本節(jié)講解了 VGG 網(wǎng)絡(luò)的特點(diǎn),展示了 VGG 網(wǎng)絡(luò)的總體結(jié)構(gòu),深入解析 VGG16 的圖像 處理過程并展示了 VGG 網(wǎng)絡(luò)在驗(yàn)證集上的評估結(jié)果。關(guān)于 VGG 的幾個(gè)關(guān)鍵點(diǎn)總結(jié)如下:1、通過增加深度能有效地提升性能;2
55、、最佳模型: VGG16,從頭到尾只有 3x3 卷積與 2x2 池化,簡潔優(yōu)美;3、卷積可代替全連接,可適應(yīng)各種尺寸的圖片。GoogLeNet2014 年,GoogLeNet和 VGG 是當(dāng)年 ImageNet 挑戰(zhàn)賽(ILSVRC14)的雙雄,GoogLeNet獲得了第一名、VGG 獲得了第二名,這兩類模型結(jié)構(gòu)的共同特點(diǎn)是層次更深了。VGG 繼承了 LeNet 以及 AlexNet 的一些框架結(jié)構(gòu),而 GoogLeNet 則做了更加大膽的網(wǎng)絡(luò)結(jié)構(gòu)嘗試, 雖然深度只有 22 層,但大小卻比 AlexNet 和 VGG 小很多,GoogleNet 參數(shù)為 500 萬個(gè), AlexNet 參數(shù)個(gè)數(shù)
56、是 GoogleNet 的 12 倍,VGGNet 參數(shù)又是 AlexNet 的 3 倍,因此在內(nèi)存或計(jì)算資源有限時(shí),GoogleNet 是比較好的選擇; 從模型結(jié)果來看,GoogLeNet 的性能卻更加優(yōu)越。Inception的提出一般來說,提升網(wǎng)絡(luò)性能最直接的辦法就是增加網(wǎng)絡(luò)深度和寬度,深度指網(wǎng)絡(luò)層次數(shù)量、 寬度指神經(jīng)元數(shù)量。但這種方式存在以下問題: (1)參數(shù)太多,如果訓(xùn)練數(shù)據(jù)集有限,很容易產(chǎn)生過擬合; (2)網(wǎng)絡(luò)越大、參數(shù)越多,計(jì)算復(fù)雜度越大,難以應(yīng)用; (3)網(wǎng)絡(luò)越深,容易出現(xiàn)梯度彌散問題(梯度越往后穿越容易消失),難以優(yōu)化模型。所以,有人調(diào)侃“深度學(xué)習(xí)”其實(shí)是“深度調(diào)參”。解決這些
57、問題的方法當(dāng)然就是在增加網(wǎng)絡(luò)深度和寬度的同時(shí)減少參數(shù),為了減少參數(shù), 自然就想到將全連接變成稀疏連接。但是在實(shí)現(xiàn)上,全連接變成稀疏連接后實(shí)際計(jì)算量并不會有質(zhì)的提升,因?yàn)榇蟛糠钟布轻槍γ芗仃囉?jì)算優(yōu)化的,稀疏矩陣雖然數(shù)據(jù)量少,但是計(jì)算所消耗的時(shí)間卻很難減少。那么,有沒有一種方法既能保持網(wǎng)絡(luò)結(jié)構(gòu)的稀疏性,又能利用密集矩陣的高計(jì)算性能。 大量的文獻(xiàn)表明可以將稀疏矩陣聚類為較為密集的子矩陣來提高計(jì)算性能,就如人類的大腦 是可以看做是神經(jīng)元的重復(fù)堆積,因此,GoogLeNet 團(tuán)隊(duì)提出了 Inception 網(wǎng)絡(luò)結(jié)構(gòu),就是構(gòu)造一種“基礎(chǔ)神經(jīng)元”結(jié)構(gòu),來搭建一個(gè)稀疏性、高計(jì)算性能的網(wǎng)絡(luò)結(jié)構(gòu)。Incept
58、ion v1通過設(shè)計(jì)一個(gè)稀疏網(wǎng)絡(luò)結(jié)構(gòu),但是能夠產(chǎn)生稠密的數(shù)據(jù),既能增加神經(jīng)網(wǎng)絡(luò)表現(xiàn),又能保證計(jì)算資源的使用效率。谷歌提出了最原始 Inception 的基本結(jié)構(gòu)。Inception 原始結(jié)構(gòu)將 CNN 中常用的卷積(1x1,3x3,5x5)、池化操作(3x3-s1)堆疊 在一起(卷積、池化后的尺寸相同,將通道拼接起來),一方面增加了網(wǎng)絡(luò)的寬度,另一方面也增加了網(wǎng)絡(luò)對尺度的適應(yīng)性。Inception v1Inception 原始版本,所有的卷積核都在上一層的所有輸出上來做,拼接以后 特征圖的厚度很大,同時(shí)那個(gè) 5x5 的卷積核所需的計(jì)算量太大了。為了避免這種情況,在 3x3 前、5x5 前、ma
59、x pooling 后分別加上了 1x1 的卷積核,以起到了降低特征圖厚度(降 維)的作用,這也就形成了 Inception v1 的網(wǎng)絡(luò)結(jié)構(gòu)。Inception v11x1 卷積的主要目的是為了減少維度。比如,上一層的輸出為 100 x100 x128,經(jīng)過具有 256 個(gè)通道的 5x5 卷積層之后(stride=1,pad=2),輸出數(shù)據(jù) 為 100 x100 x256,其中,卷積層的參數(shù)為 128x5x5x256= 819200。而假如上一層輸出先經(jīng)過具有 32 個(gè)通道的 1x1 卷積層,再經(jīng)過具有 256 個(gè)輸出的 5x5 卷積層,那么輸出數(shù)據(jù)仍為為 100 x100 x256,但卷積
60、參數(shù)量已經(jīng)減少為 128x1x1x32 + 32x5x5x256= 204800,大約減少了 4 倍。GoogLeNet 詳解GoogLeNet 網(wǎng)絡(luò)結(jié)構(gòu)圖。“depth”表示卷積層的深度,而不是卷積核的深度,如第一個(gè)卷積 層深度為 1,max pool 深度為 0,Inception 深度為 2;“#3x3 reduce”,“#5x5 reduce”表示在 3x3, 5x5 卷積操作之前使用的 1x1 卷積的卷積核數(shù),“pool proj”表示 Inception 模塊中 max pooling 之后的 1x1 卷積的卷積核數(shù)。GoogLeNet 實(shí)驗(yàn)結(jié)果Top5 差錯(cuò)率表示預(yù)測的前 5 大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年青海貨運(yùn)從業(yè)資格證考試試卷題庫
- 小學(xué)英語命題試卷創(chuàng)意
- 小學(xué)英語試卷模式
- 健身館員工合同范本
- 減水劑供貨合同范本
- FOB買賣合同范本
- 美容師初級習(xí)題庫及答案
- 工業(yè)鍋爐司爐??荚囶}與答案
- 個(gè)人年度簡短的工作總結(jié)
- 中級電工模擬習(xí)題含參考答案
- 2024年英德中小學(xué)教師招聘真題
- 2024年車險(xiǎn)理賠保險(xiǎn)知識試題庫(附含答案)
- 食品安全追溯管理體系制度
- 2024-2025學(xué)年新教材高中語文 第六單元 13.2 裝在套子里的人教案 部編版必修下冊
- JBT 14732-2024《中碳和中碳合金鋼滾珠絲杠熱處理技術(shù)要求》
- 2024入贅協(xié)議書范本
- 2024屆江蘇省蘇北七市(南通)高三二??荚囉⒄Z試題讀后續(xù)寫思路分析My best examination 講義
- 2024年益陽醫(yī)學(xué)高等??茖W(xué)校單招職業(yè)技能測試題庫及答案解析
- 《新能源發(fā)電技術(shù)第2版》 課件全套 朱永強(qiáng) 第1-10章 能源概述- 分布式發(fā)電與能源互補(bǔ)
- 【音樂】繽紛舞曲-青年友誼圓舞曲課件 2023-2024學(xué)年人音版初中音樂七年級上冊
- DB-T29-260-2019天津市建筑物移動通信基礎(chǔ)設(shè)施建設(shè)標(biāo)準(zhǔn)
評論
0/150
提交評論