計(jì)算機(jī)視覺PPT課件:生成對(duì)抗網(wǎng)絡(luò)_第1頁(yè)
計(jì)算機(jī)視覺PPT課件:生成對(duì)抗網(wǎng)絡(luò)_第2頁(yè)
計(jì)算機(jī)視覺PPT課件:生成對(duì)抗網(wǎng)絡(luò)_第3頁(yè)
計(jì)算機(jī)視覺PPT課件:生成對(duì)抗網(wǎng)絡(luò)_第4頁(yè)
計(jì)算機(jī)視覺PPT課件:生成對(duì)抗網(wǎng)絡(luò)_第5頁(yè)
已閱讀5頁(yè),還剩44頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

生成對(duì)抗網(wǎng)絡(luò)計(jì)算機(jī)視覺本章結(jié)構(gòu)2/48變分自編碼器對(duì)抗生成網(wǎng)絡(luò)(GAN)常見的改進(jìn)式GANDCGANWGANSRGANGAN在圖像生成中的應(yīng)用GAN在傳統(tǒng)CV問題中的應(yīng)用應(yīng)用實(shí)例:GAN判別式模型與生成式模型3/48判別式模型:已知觀察變量X和隱含變量z,它對(duì)p(z|X)進(jìn)行建模,它根據(jù)輸入的觀察變量x得到隱含變量z出現(xiàn)的可能性。根據(jù)原始圖像推測(cè)圖像具備的一些性質(zhì),例如根據(jù)數(shù)字圖像推測(cè)數(shù)字的名稱等;生成式模型則相反,它對(duì)p(X|z)進(jìn)行建模,輸入是隱含變量,輸出是觀察變量的概率。通常給出的輸入是圖像具備的性質(zhì),而輸出是性質(zhì)對(duì)應(yīng)的圖像。生成模型模型目標(biāo):訓(xùn)練數(shù)據(jù)集的模型:生成樣本的模型:令解決問題:構(gòu)建高維、復(fù)雜概率分布數(shù)據(jù)缺失多模態(tài)輸出真實(shí)輸出任務(wù)未來(lái)數(shù)據(jù)預(yù)測(cè)4/48生成模型5/48MLE樣本集中的樣本都是獨(dú)立同分布,可以只考慮一類樣本集D,來(lái)估計(jì)參數(shù)向量θ。記已知的樣本集為:似然函數(shù)(linkehood

function):聯(lián)合概率密度函數(shù)p(D|θ)稱為相對(duì)于的θ的似然函數(shù)。

如果θ^是參數(shù)空間中能使似然函數(shù)l(θ)最大的θ^值,則θ^應(yīng)該是“最可能”的參數(shù)值,那么θ^就是θ的極大似然估計(jì)量。6/48MLEMLE:求使得出現(xiàn)該組樣本的概率最大的θ值。

實(shí)際中為了便于分析,定義了對(duì)數(shù)似然函數(shù)7/48VAE8/48經(jīng)典的自編碼機(jī):左側(cè)把原始圖像編碼卷積(編碼)成向量;解卷積層則能把這些向量“解碼”回原始圖像。可以用盡可能多的圖像來(lái)訓(xùn)練網(wǎng)絡(luò),如果保存了某張圖像的編碼向量,我們隨時(shí)就能用解碼組件來(lái)重建該圖像。VAE問題:潛在向量除了從已有圖像中編碼得到,能否憑空創(chuàng)造出這些潛在向量來(lái)?簡(jiǎn)單的辦法:給編碼網(wǎng)絡(luò)增加一個(gè)約束,使它所生成的潛在向量大體上服從單位高斯分布。

生成新的圖像就變得容易了:只需從單位高斯分布中采樣出一個(gè)潛在向量,并將其傳到解碼器。服從高斯分布這就是VAE9/48VAE10/48假定認(rèn)為輸入數(shù)據(jù)的數(shù)據(jù)集D(顯變量)

的分布完全由一組隱變量

z操控,而這組隱變量之間相互獨(dú)立而且服從高斯分布。

VAE讓

encoder

取學(xué)習(xí)輸入數(shù)據(jù)的隱變量模型,也就是去學(xué)習(xí)這組隱變量的高斯概率分布的參數(shù):隱變量高斯分布的均值(μ)和方差(σ)的log值。而隱變量

z

就可以從這組分布參數(shù)的正態(tài)分布中采樣得到:z~ N(μ,σ),

再通過

decoder對(duì)z隱變量進(jìn)行解碼來(lái)重構(gòu)輸入。VAE11/48本質(zhì)上是實(shí)現(xiàn)了連續(xù)的,平滑的潛在空間表示VAE12/48誤差項(xiàng)精確度與潛在變量在單位高斯分布上的契合程度,包括兩部分內(nèi)容:生成誤差,用以衡量網(wǎng)絡(luò)重構(gòu)圖像精確度的均方誤差;潛在誤差,用以衡量潛在變量在單位高斯分布上的契合程度的KL散度??偟哪繕?biāo)函數(shù):VAE假設(shè)現(xiàn)在有一個(gè)樣本集中兩個(gè)概率分布p、q,其中p為真實(shí)分布,q為非真實(shí)分布。則按照真實(shí)分布p來(lái)衡量識(shí)別一個(gè)樣本所需要的編碼長(zhǎng)度的期望為:如果采用錯(cuò)誤的分布q來(lái)表示來(lái)自真實(shí)分布p的平均編碼長(zhǎng)度,則應(yīng)該是:此時(shí)就將H(p,q)稱之為交叉熵。13/48VAEKL散度又稱為相對(duì)熵,是是兩個(gè)概率分布P和Q

差別的非對(duì)稱性的度量。

典型情況下,P表示數(shù)據(jù)的真實(shí)分布,Q表示數(shù)據(jù)的理論分布(模型分布或P的近似分布)。KL散度不是對(duì)稱的,并不滿足距離的性質(zhì);JS散度度量了兩個(gè)概率分布的相似度,基于KL散度的變體,解決了KL散度非對(duì)稱的問題。一般地,JS散度是對(duì)稱的,其取值是0到1之間。14/48VAEReparameterization:VAE模型并沒有真正的用z~

N(μ,σ)來(lái)采樣得到z變量,

因?yàn)檫@樣采樣之后,沒有辦法對(duì)(μ,σ)進(jìn)行求導(dǎo)。先采樣一個(gè)標(biāo)準(zhǔn)高斯分布(正態(tài)分布):?~

N(0,1),然后z=μ+??

σ,這樣得到的z就是服從z~

N(μ,σ),同時(shí)也可以正常的對(duì)(μ,σ)進(jìn)行求導(dǎo)了。15/48VAE

VAE全過程:16/48VAE優(yōu)點(diǎn):遵循“編碼-解碼”模式,能直接把生成的圖像同原始圖像進(jìn)行對(duì)比。不足:由于它是直接采用均方誤差,其神經(jīng)網(wǎng)絡(luò)傾向于生成較為模糊的圖像。第九代17/48第一代 真實(shí)樣本VAE與GANVAE和GAN的區(qū)別:GAN是VAE的“后一半”再加上了一個(gè)鑒別網(wǎng)絡(luò)。由此導(dǎo)致了完全不同的訓(xùn)練方式。18/48生成式對(duì)抗網(wǎng)絡(luò)(GAN)結(jié)構(gòu):生成器(Generator)判別器(Discriminator)噪聲輸入z生成器G生成的樣本數(shù)據(jù)GeneratedSamples判別器D判別結(jié)果False(0)真實(shí)樣本數(shù)據(jù)TrueSamples判別結(jié)果True(1)19/48生成式對(duì)抗網(wǎng)絡(luò)(GAN)生成器網(wǎng)絡(luò)(Generator

Network):負(fù)責(zé)生成樣本數(shù)據(jù)輸入:高斯白噪聲向量

z輸出:樣本數(shù)據(jù)向量

xz x必須可微分深度神經(jīng)網(wǎng)絡(luò)(CNN)20/48生成式對(duì)抗網(wǎng)絡(luò)(GAN)判別器網(wǎng)絡(luò)(Discriminator

Network)負(fù)責(zé)檢測(cè)樣本數(shù)據(jù)真假輸入:真實(shí)或生成的樣本數(shù)據(jù)輸出:真/假標(biāo)簽必須可微分深度神經(jīng)網(wǎng)絡(luò)(CNN)x1G(z)021/48生成式對(duì)抗網(wǎng)絡(luò)(GAN)22/48生成式對(duì)抗網(wǎng)絡(luò)(GAN)讓第一代G產(chǎn)生一些圖片,然后把這些圖片和一些真實(shí)的圖片丟到第一代的D里面去學(xué)習(xí),讓第一代的D能夠分辨生成的圖片和真實(shí)的圖片。然后訓(xùn)練第二代的G,第二代的G產(chǎn)生的圖片,能夠騙過第一代的D,再訓(xùn)練第二代的D,依此迭代。23/48生成式對(duì)抗網(wǎng)絡(luò)(GAN)如何訓(xùn)練新一代的G來(lái)騙過上一代的D?很簡(jiǎn)單,可以把新一代的G和上一代的D連起來(lái)形成一個(gè)新的NN,我們希望最終的輸出接近1,訓(xùn)練之……然后我們就可以拿中間的結(jié)果當(dāng)作我們的新的圖片的輸出。24/48生成式對(duì)抗網(wǎng)絡(luò)(GAN)優(yōu)化目標(biāo)價(jià)值函數(shù)(Value

Function)生成器G固定后,使用maxDV(D,G)來(lái)評(píng)價(jià)pdata和pz之間的差異。優(yōu)化方式生成器優(yōu)化方向:最小化價(jià)值函數(shù)判別器優(yōu)化方向:最大化價(jià)值函數(shù)交替優(yōu)化,直到達(dá)到納什均衡點(diǎn)(Nash

equilibrium)25/48生成式對(duì)抗網(wǎng)絡(luò)(GAN)MinimaxGameD-step:G-step:生成器最小化目標(biāo)判別器將生成數(shù)據(jù)識(shí)別為假的概率的log值均衡點(diǎn)是判別器代價(jià)函數(shù)的鞍點(diǎn)(Saddle

Point)類似于Jensen-Shannon

divergence26/48生成式對(duì)抗網(wǎng)絡(luò)(GAN)

變換成這個(gè)樣子是為了引入KL散度和JS散度

在最優(yōu)判別器下,GAN定義的生成器loss可等價(jià)變換為最小化真實(shí)分布與生成分布之間的JS散度。27/48生成式對(duì)抗網(wǎng)絡(luò)(GAN)訓(xùn)練算法執(zhí)行D-step的minibatch優(yōu)化k次:從先驗(yàn)分布pg(z)隨機(jī)生成m個(gè)隨機(jī)噪聲向量z(i)從數(shù)據(jù)集分布pdata(x)里隨機(jī)獲取m個(gè)樣本x(i)使用梯度上升優(yōu)化判別器的代價(jià)函數(shù):執(zhí)行G-step的minibatch優(yōu)化1次:從先驗(yàn)分布pg(z)隨機(jī)生成m個(gè)隨機(jī)噪聲向量z(i)使用梯度下降優(yōu)化判別器的代價(jià)函數(shù):默認(rèn)為1重復(fù)多次28/48生成式對(duì)抗網(wǎng)絡(luò)(GAN)訓(xùn)練過程:綠線:生成器的數(shù)據(jù)分布黑線:真實(shí)數(shù)據(jù)分布藍(lán)線:判別器的結(jié)果分布隨著綠色的線與黑色的線的偏移,藍(lán)色的線下降了,也就是判別器準(zhǔn)確率也下降了。29/48生成式對(duì)抗網(wǎng)絡(luò)(GAN)30/48問題及挑戰(zhàn):訓(xùn)練困難收斂問題:很難達(dá)到納什均衡點(diǎn)無(wú)法有效監(jiān)控收斂狀態(tài)模型崩潰(Model

collapse)判別器快速達(dá)到最優(yōu),能力明顯強(qiáng)于生成器生成器將數(shù)據(jù)集中生成在判別器認(rèn)最認(rèn)可的空間點(diǎn)上,即輸出多樣性很低不適用于離散輸出(不可微分)文本生成為GAN的訓(xùn)練提供了一個(gè)適合的網(wǎng)絡(luò)結(jié)構(gòu)。表明生成的特征具有向量的計(jì)算特性。特征可以進(jìn)行“加減”運(yùn)算31/48DCGAN模型穩(wěn)定訓(xùn)練的技巧(tricks)全連接層卷積層池化層、上采樣層卷積層生成器:帶步長(zhǎng)的卷積(Fractional

strided

convolution)使用批量歸一化(batch

normalization)生成器中使用ReLU激活函數(shù),輸出使用Tanh判別器中使用Leaky

ReLU激活函數(shù)使用adam優(yōu)化器訓(xùn)練,學(xué)習(xí)率最好是0.000232/48DCGAN生成效果(LSUN數(shù)據(jù)集上的效果)僅支持低分辨率圖片無(wú)法捕捉物體結(jié)構(gòu)特性33/48DCGANZ向量的計(jì)算特性DCGAN男士戴眼鏡34/48男士女士女士戴眼鏡Z向量的插值特性圖片生成DCGAN向左看向右看35/48CGAN36/48GAN中輸入是隨機(jī)的數(shù)據(jù),那么很自然就會(huì)想到能否用輸入改成一個(gè)有意義的數(shù)據(jù)?最簡(jiǎn)單的就是數(shù)字字體生成,能否輸入一個(gè)數(shù)字,然后輸出對(duì)應(yīng)的字體。這就是CGAN思路。CGAN連實(shí)現(xiàn)方式:在G網(wǎng)絡(luò)的輸入在z的基礎(chǔ)上連接一個(gè)輸入y;然后在D網(wǎng)絡(luò)的輸入在x的基礎(chǔ)上也接一個(gè)y。目標(biāo)函數(shù):37/48Wasserstein

GAN38/48WGAN相比原始GAN的算法只改了四點(diǎn):判別器最后一層去掉sigmoid生成器和判別器的loss不取log每次更新判別器的參數(shù)之后把它們的絕對(duì)值截?cái)嗟讲怀^一個(gè)固定常數(shù)c不要用基于動(dòng)量的優(yōu)化算法(包括momentum和Adam),推薦RMSProp,SGD也行Wasserstein

GAN39/48Wasserstein

GAN實(shí)現(xiàn)了以下關(guān)鍵點(diǎn):徹底解決GAN訓(xùn)練不穩(wěn)定的問題,不再需要小心平衡生成器和判別器的訓(xùn)練程度;基本解決了collapse

mode的問題,確保了生成樣本的多樣性;訓(xùn)練過程中終于有一個(gè)像交叉熵、準(zhǔn)確率這樣的數(shù)值來(lái)指示訓(xùn)練的進(jìn)程,這個(gè)數(shù)值越小代表GAN訓(xùn)練得越好,代表生成器產(chǎn)生的圖像質(zhì)量越高;以上一切好處不需要精心設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu),最簡(jiǎn)單的多層全連接網(wǎng)絡(luò)就可以做到。Wasserstein

GAN40/48只要pr和pg沒有一點(diǎn)重疊或者重疊部分可忽略,JS散度就固定是常數(shù),而這對(duì)于梯度下降方法意味著梯度為0。pr和pg不重疊或重疊部分可忽略的可能性有多大?不嚴(yán)謹(jǐn)?shù)恼f是:非常大。在(近似)最優(yōu)判別器下,最小化生成器的loss等價(jià)于最小化pr和pg之間的JS散度,而由于pr和pg幾乎肯定有可忽略的重疊,所以無(wú)論它們相距多遠(yuǎn)JS散度都是常數(shù),最終導(dǎo)致生成器的梯度(近似)為0,梯度消失。Wasserstein

GAN

Wasserstein距離又叫Earth-Mover距離:可理解為在這個(gè)“路徑規(guī)劃”下把pr這堆“土”挪到pg“位置”所需的“消耗”,而W(pr

,pg)就是“最優(yōu)路徑規(guī)劃”下的“最小消耗”。Wasserstein距離相比KL散度、JS散度的優(yōu)越性在于,即便兩個(gè)分布沒有重疊,Wasserstein距離仍然能夠反映它們的遠(yuǎn)近。41/48Wasserstein

GAN原GAN的目標(biāo)函數(shù)中的log(x)不能用,因?yàn)樗膶?dǎo)數(shù)沒有上界,就不是Lipschitz連續(xù)。Lipschitz連續(xù)——其實(shí)就是在一個(gè)連續(xù)函數(shù)上面額外施加了一個(gè)限制。原GAN的判別器做的是二分類任務(wù),所以最后一層是sigmoid;現(xiàn)在判別器做的是近似擬合Wasserstein距離,屬于回歸任務(wù),所以要把最后一層的sigmoid拿掉。這樣得到了WGAN的兩個(gè)loss:WGAN生成器loss函數(shù)WGAN判別器loss函數(shù)42/48Wasserstein

GAN

判別器所近似的Wasserstein距離與生成器的生成圖片質(zhì)量高度相關(guān)。43/48Wasserstein

GANWGAN如果用類似DCGAN架構(gòu),生成圖片的效果與DCGAN差不多。但是厲害的地方在于:WGAN不用DCGAN各種特殊的架構(gòu)設(shè)計(jì)也能做到不錯(cuò)的效果。在所有WGAN的實(shí)驗(yàn)中

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論