深度學(xué)習(xí)-電子工業(yè)出版社-劉鵬張燕-第7章-深度學(xué)習(xí)在圖像中的應(yīng)用_第1頁(yè)
深度學(xué)習(xí)-電子工業(yè)出版社-劉鵬張燕-第7章-深度學(xué)習(xí)在圖像中的應(yīng)用_第2頁(yè)
深度學(xué)習(xí)-電子工業(yè)出版社-劉鵬張燕-第7章-深度學(xué)習(xí)在圖像中的應(yīng)用_第3頁(yè)
深度學(xué)習(xí)-電子工業(yè)出版社-劉鵬張燕-第7章-深度學(xué)習(xí)在圖像中的應(yīng)用_第4頁(yè)
深度學(xué)習(xí)-電子工業(yè)出版社-劉鵬張燕-第7章-深度學(xué)習(xí)在圖像中的應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩22頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用劉鵬主編趙海峰副主編BIGDATA劉鵬張燕總主編深度學(xué)習(xí)第七章深度學(xué)習(xí)在圖像中的應(yīng)用全國(guó)高校標(biāo)準(zhǔn)教材《云計(jì)算》姊妹篇,剖析深度學(xué)習(xí)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用of3127.1圖像識(shí)別基礎(chǔ)7.2基于深度學(xué)習(xí)的大規(guī)模圖像識(shí)別7.3應(yīng)用舉例:人臉識(shí)別7.4應(yīng)用舉例:圖像風(fēng)格化習(xí)題7.5應(yīng)用舉例:圖像標(biāo)注7.1圖像識(shí)別基礎(chǔ)第七章深度學(xué)習(xí)在圖像中的應(yīng)用of3131.人眼和計(jì)算機(jī)的圖像識(shí)別過(guò)程7.1圖像識(shí)別基礎(chǔ)第七章深度學(xué)習(xí)在圖像中的應(yīng)用of314

對(duì)于一張自然場(chǎng)景圖像,我們?nèi)搜劭吹降臅?huì)是左邊這張生動(dòng)的圖像;而對(duì)于計(jì)算機(jī)而言,看到的確是一堆枯燥的數(shù)字(這些數(shù)字對(duì)應(yīng)的是圖像各像素點(diǎn)的灰度等特征值)。如何在像素點(diǎn)的特征值和圖像語(yǔ)義之間進(jìn)行處理和關(guān)聯(lián)是計(jì)算機(jī)進(jìn)行圖像識(shí)別的一大難題。2.計(jì)算機(jī)對(duì)圖像進(jìn)行識(shí)別的難點(diǎn)第七章深度學(xué)習(xí)在圖像中的應(yīng)用全國(guó)高校標(biāo)準(zhǔn)教材《云計(jì)算》姊妹篇,剖析深度學(xué)習(xí)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用of3157.1圖像識(shí)別基礎(chǔ)7.2基于深度學(xué)習(xí)的大規(guī)模圖像識(shí)別7.3應(yīng)用舉例:人臉識(shí)別7.4應(yīng)用舉例:圖像風(fēng)格化習(xí)題7.5應(yīng)用舉例:圖像標(biāo)注7.2基于深度學(xué)習(xí)的大規(guī)模圖像識(shí)別第七章深度學(xué)習(xí)在圖像中的應(yīng)用of3161.大規(guī)模圖像數(shù)據(jù)庫(kù):Imagenet

ImageNet由美國(guó)斯坦福大學(xué)LiFei-fei教授的研究團(tuán)隊(duì)提出,是一個(gè)很大規(guī)模的數(shù)據(jù)庫(kù),包含超過(guò)一千五百萬(wàn)具有標(biāo)簽的高清圖像,這些圖像可以分成約兩萬(wàn)兩千個(gè)類別。這些圖像均從網(wǎng)絡(luò)中采集而得;并使用亞馬遜的“土耳其機(jī)器人”眾包工具,集廣大網(wǎng)民的力量手工標(biāo)注獲得圖像對(duì)應(yīng)的標(biāo)簽。

7.2基于深度學(xué)習(xí)的大規(guī)模圖像識(shí)別第七章深度學(xué)習(xí)在圖像中的應(yīng)用of3172.AlexNet網(wǎng)絡(luò)結(jié)構(gòu)

AlexNet總共包含8個(gè)學(xué)習(xí)層:前5層是卷積層,最后3層是全連接層。在這5個(gè)卷積層中,第1、2、5層后面有最大值池化(Maxpooling)層。7.2基于深度學(xué)習(xí)的大規(guī)模圖像識(shí)別第七章深度學(xué)習(xí)在圖像中的應(yīng)用of3183.非線性激活函數(shù)ReLU

AlexNet中,使用ReLU激活函數(shù)來(lái)替代Sigmoid激活函數(shù)。相比較于Sigmoid激活函數(shù)而言:(1)ReLU激活函數(shù)在大于0的部分梯度為常數(shù),不會(huì)出現(xiàn)梯度彌散現(xiàn)象;(2)ReLU激活函數(shù)在小于0的部分梯度都為0,可以在一定程度上緩解過(guò)擬合現(xiàn)象的發(fā)生;(3)ReLU激活函數(shù)的導(dǎo)數(shù)計(jì)算非常簡(jiǎn)單快速(3)ReLU激活函數(shù)的導(dǎo)數(shù)計(jì)算非常簡(jiǎn)單快速7.2基于深度學(xué)習(xí)的大規(guī)模圖像識(shí)別第七章深度學(xué)習(xí)在圖像中的應(yīng)用of3194.增加訓(xùn)練樣本

增加訓(xùn)練樣本,又稱為數(shù)據(jù)增強(qiáng)(dataaugmentation),通過(guò)對(duì)圖像進(jìn)行變換人為地?cái)U(kuò)大訓(xùn)練數(shù)據(jù)集。該方法是減少過(guò)擬合現(xiàn)象的一個(gè)最容易和最普遍的方法。常見數(shù)據(jù)增強(qiáng)方法:1、隨機(jī)裁剪和水平翻轉(zhuǎn);2、顏色調(diào)整7.2基于深度學(xué)習(xí)的大規(guī)模圖像識(shí)別第七章深度學(xué)習(xí)在圖像中的應(yīng)用of31105.dropout技術(shù)

在網(wǎng)絡(luò)訓(xùn)練期間,dropout技術(shù)相當(dāng)于是對(duì)整體神經(jīng)網(wǎng)絡(luò)進(jìn)行子采樣。具體實(shí)現(xiàn)方法為:以50%的概率將神經(jīng)網(wǎng)絡(luò)中每一個(gè)隱層結(jié)點(diǎn)的輸出設(shè)置為0,使之不參與前向傳播和反向傳播。第七章深度學(xué)習(xí)在圖像中的應(yīng)用全國(guó)高校標(biāo)準(zhǔn)教材《云計(jì)算》姊妹篇,剖析深度學(xué)習(xí)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用of31117.1圖像識(shí)別基礎(chǔ)7.2基于深度學(xué)習(xí)的大規(guī)模圖像識(shí)別7.3應(yīng)用舉例:人臉識(shí)別7.4應(yīng)用舉例:圖像風(fēng)格化習(xí)題7.5應(yīng)用舉例:圖像標(biāo)注7.3應(yīng)用舉例:人臉識(shí)別第七章深度學(xué)習(xí)在圖像中的應(yīng)用of3112

在自然場(chǎng)景中進(jìn)行自動(dòng)人臉識(shí)別的經(jīng)典流程一般分為以下三個(gè)步驟:人臉檢測(cè)(facerecognition)、人臉對(duì)齊(facealignment,又稱作面部特征點(diǎn)對(duì)齊)、特征提取和分類器設(shè)計(jì)1.人臉識(shí)別的經(jīng)典流程7.3應(yīng)用舉例:人臉識(shí)別第七章深度學(xué)習(xí)在圖像中的應(yīng)用of3113

LFW(LabeledFacesintheWild)數(shù)據(jù)庫(kù)是自然場(chǎng)景環(huán)境下人臉識(shí)別問(wèn)題的測(cè)試基準(zhǔn),是目前用得最多的自然場(chǎng)景人臉圖像數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)中的圖像來(lái)源于因特網(wǎng),采集的是自然場(chǎng)景環(huán)境下的人臉圖像,目的是提高自然場(chǎng)景環(huán)境下人臉識(shí)別的準(zhǔn)確率。這個(gè)數(shù)據(jù)庫(kù)包含5749個(gè)人,共13233幅圖像。2.人臉圖像數(shù)據(jù)庫(kù)7.3應(yīng)用舉例:人臉識(shí)別第七章深度學(xué)習(xí)在圖像中的應(yīng)用of3114DeepFace方法的貢獻(xiàn)主要包括兩點(diǎn):一是基于3D模型對(duì)人臉進(jìn)行對(duì)齊;二是使用大數(shù)據(jù)訓(xùn)練深層的人工神經(jīng)網(wǎng)絡(luò),得到具有判別性的人臉特征。3.基于深度學(xué)習(xí)的人臉識(shí)別方法第七章深度學(xué)習(xí)在圖像中的應(yīng)用全國(guó)高校標(biāo)準(zhǔn)教材《云計(jì)算》姊妹篇,剖析深度學(xué)習(xí)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用of31157.1圖像識(shí)別基礎(chǔ)7.2基于深度學(xué)習(xí)的大規(guī)模圖像識(shí)別7.3應(yīng)用舉例:人臉識(shí)別7.4應(yīng)用舉例:圖像風(fēng)格化習(xí)題7.5應(yīng)用舉例:圖像標(biāo)注7.4應(yīng)用舉例:圖像風(fēng)格化第七章深度學(xué)習(xí)在圖像中的應(yīng)用of31161.內(nèi)容重構(gòu)

下圖中所得到的五個(gè)內(nèi)容重構(gòu)結(jié)果分別基于VGG模型中的‘conv1_1’層(a),‘conv2_1’層(b),‘conv3_1’層(c),‘conv4_1’層(d)和‘conv5_1’層(e)。7.4應(yīng)用舉例:圖像風(fēng)格化第七章深度學(xué)習(xí)在圖像中的應(yīng)用of31172.風(fēng)格重構(gòu)

通過(guò)計(jì)算卷積神經(jīng)網(wǎng)絡(luò)在某一層各特征圖之間的相關(guān)性對(duì)圖像的風(fēng)格進(jìn)行重構(gòu),可以得到一個(gè)相對(duì)應(yīng)的風(fēng)格表示圖。為了生成與給定圖的風(fēng)格相匹配的紋理圖像,Gatys等人首先初始化一個(gè)白噪聲圖像,接著使用梯度下降法來(lái)尋找與原圖的風(fēng)格表示相匹配的圖像,得到在該層風(fēng)格重構(gòu)的生成圖像。上頁(yè)圖中所得到的五個(gè)風(fēng)格重構(gòu)結(jié)果分別基于VGG模型中的‘conv1_1’層(a),‘conv1_1’和‘conv2_1’層(b),‘conv1_1’、‘conv2_1’和‘conv3_1’層(c),‘conv1_1’、‘conv2_1’、‘conv3_1’和‘conv4_1’層(d),‘conv1_1’、‘conv2_1’、‘conv3_1’、‘conv4_1’和‘conv5_1’層(e)對(duì)風(fēng)格表示進(jìn)行匹配而得。7.4應(yīng)用舉例:圖像風(fēng)格化第七章深度學(xué)習(xí)在圖像中的應(yīng)用of31183.內(nèi)容與風(fēng)格的重組

下圖中第A行顯示的是與VGG模型中‘conv1_1’層風(fēng)格重構(gòu)相匹配的結(jié)果,第B行顯示的是與VGG模型中‘conv1_1’和‘conv2_1’層風(fēng)格重構(gòu)相匹配的結(jié)果,第C行顯示的是與VGG模型中‘conv1_1’、‘conv2_1’和‘conv3_1’層風(fēng)格重構(gòu)相匹配的結(jié)果,第D行顯示的是與VGG模型中‘conv1_1’、‘conv2_1’、‘conv3_1’和‘conv4_1’層風(fēng)格重構(gòu)相匹配的結(jié)果,第E行顯示的是與VGG模型中‘conv1_1’、‘conv2_1’、‘conv3_1’、‘conv4_1’和‘conv5_1’層風(fēng)格重構(gòu)相匹配的結(jié)果。第七章深度學(xué)習(xí)在圖像中的應(yīng)用全國(guó)高校標(biāo)準(zhǔn)教材《云計(jì)算》姊妹篇,剖析深度學(xué)習(xí)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用of31197.1圖像識(shí)別基礎(chǔ)7.2基于深度學(xué)習(xí)的大規(guī)模圖像識(shí)別7.3應(yīng)用舉例:人臉識(shí)別7.4應(yīng)用舉例:圖像風(fēng)格化習(xí)題7.5應(yīng)用舉例:圖像標(biāo)注7.5應(yīng)用舉例:圖像標(biāo)注第七章深度學(xué)習(xí)在圖像中的應(yīng)用of3120

圖像標(biāo)注是由計(jì)算機(jī)以說(shuō)明或關(guān)鍵詞的形式分配語(yǔ)言數(shù)據(jù)給一張圖像的過(guò)程。1.基于深度網(wǎng)絡(luò)的圖像標(biāo)注方法概述圖像標(biāo)注流程7.5應(yīng)用舉例:圖像標(biāo)注第七章深度學(xué)習(xí)在圖像中的應(yīng)用of3121

視覺和語(yǔ)義的對(duì)齊模型主要由三個(gè)部分組成2.視覺語(yǔ)義對(duì)齊視覺表示語(yǔ)義表示視覺語(yǔ)義對(duì)齊

構(gòu)造卷積神經(jīng)網(wǎng)路(ConvolutionNeuralNetwork,CNN),用于表示圖像區(qū)域

構(gòu)造雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BidirectionalRecurrentNeuralNetworks),用于表示語(yǔ)句

構(gòu)造結(jié)構(gòu)化的目標(biāo)函數(shù),使用多模態(tài)嵌入方法將圖像區(qū)域與語(yǔ)義進(jìn)行對(duì)齊7.5應(yīng)用舉例:圖像標(biāo)注第七章深度學(xué)習(xí)在圖像中的應(yīng)用of3122

假定我們有一些圖像和相關(guān)語(yǔ)句描述的集合,這些集合可以是整幅的圖像和相關(guān)的語(yǔ)句描述,也可以是圖像區(qū)域和相關(guān)的語(yǔ)句片段。主要的挑戰(zhàn)是設(shè)計(jì)一個(gè)模型,使之可以根據(jù)給定的新圖像預(yù)測(cè)相對(duì)應(yīng)的文本描述3.為新圖像生成對(duì)應(yīng)文本描述多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)MRNN的流程圖習(xí)題:1.傳統(tǒng)的圖像識(shí)別由哪兩個(gè)經(jīng)典步驟組成?2.傳統(tǒng)的圖像識(shí)別與基于深度學(xué)習(xí)的圖像識(shí)別之間的主要區(qū)別是什么?3.最早用于圖像識(shí)別并取得突破性進(jìn)展的深度網(wǎng)絡(luò)是什么網(wǎng)絡(luò)?它由多少卷積層和多少全連接層構(gòu)成?4.Sigmoid激活函數(shù)和ReLU激活函數(shù)的公式分別是什么?ReLU激活函數(shù)具有哪些優(yōu)點(diǎn)?5.常用的數(shù)據(jù)增強(qiáng)方法有哪些?AlexNet中使用了哪些數(shù)據(jù)增強(qiáng)方法?在線學(xué)習(xí)、在線動(dòng)手做實(shí)驗(yàn)學(xué)習(xí)云創(chuàng)大數(shù)據(jù)大量實(shí)際項(xiàng)目獲取云創(chuàng)工程師認(rèn)證、工信部認(rèn)證、國(guó)際認(rèn)證大數(shù)據(jù)能力分析、工作匹配、智能推薦云創(chuàng)大學(xué)微信公眾號(hào)云

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論