生成對抗網(wǎng)絡GAN_第1頁
生成對抗網(wǎng)絡GAN_第2頁
生成對抗網(wǎng)絡GAN_第3頁
生成對抗網(wǎng)絡GAN_第4頁
生成對抗網(wǎng)絡GAN_第5頁
已閱讀5頁,還剩54頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

生成對抗網(wǎng)絡GAN

趙衛(wèi)東

復旦大學計算機科學技術學院目錄生成與判別生成模型:貝葉斯、HMM到深度生成模型GAN對抗生成神經(jīng)網(wǎng)絡DCGAN

ConditionalGANInfoGanWassersteinGAN生成對抗網(wǎng)絡家譜A非監(jiān)督學習及GAN非監(jiān)督學習:訓練集沒有標注,學習的結果是數(shù)據(jù)的隱含規(guī)律,表現(xiàn)形式可以使數(shù)據(jù)按相似性分組、數(shù)據(jù)的分布、數(shù)據(jù)分量間的關聯(lián)規(guī)則,最主要的是探討非監(jiān)督學習中的聚類問題。GAN是IanGoodfellow在2014年的經(jīng)典之作,在許多地方作為非監(jiān)督深度學習的代表作給予推廣。

GAN解決了非監(jiān)督學習中的著名問題:給定一批樣本,訓練一個系統(tǒng),能夠生成(generate)類似的新樣本。

機器學習方法可以分為生成方法和判別方法,所學到的模型分別稱為生成式模型和判別式模型。生成方法通過觀測數(shù)據(jù)學習樣本與標簽的聯(lián)合概率分布P(X,Y),訓練好的模型能夠生成符合樣本分布的新數(shù)據(jù),它可以用于有監(jiān)督學習和無監(jiān)督學習。判別方法由數(shù)據(jù)直接學習決策函數(shù)f(X)或者條件概率分布P(Y|X)作為預測的模型,即判別模型。生成方法和判別方法深度產(chǎn)生式模型的深度信念網(wǎng)絡(DBN)。DBN是由一組受限玻爾茲曼機(RBMs)堆疊而成的深度生成式網(wǎng)絡,它的核心部分是貪婪的、逐層學習的算法,這種算法可以最優(yōu)化深度置信網(wǎng)絡的權重。以無監(jiān)督方式預訓練的生成式模型(DBN)可以提供良好的初始點,然后通過有監(jiān)督的反向傳播算法微調(diào)權值早期深層生成模型

生成對抗網(wǎng)絡,由兩個網(wǎng)絡組成,即生成器和判別器,生成器用來建立滿足一定分布的隨機噪聲和目標分布的映射關系,判別器用來區(qū)別實際數(shù)據(jù)分布和生成器產(chǎn)生的數(shù)據(jù)分布。GAN生成模型GAN之前的非監(jiān)督學習根據(jù)訓練集估計樣本分布p(x),之后對p(x)進行采樣,可以生成“和訓練集類似”的新樣本。對于低維樣本,可以使用簡單的,只有少量參數(shù)的概率模型(例如高斯)擬合p(x),但高維樣本(例如圖像)就不好處理了。RBM(RestrictedBoltzmannMachine):構造一個無向圖,圖的能量和節(jié)點取值的概率有指數(shù)關系。利用訓練集設定圖中節(jié)點和邊的系數(shù),用來表述樣本中單個元素和相連元素的關系。DBN(DeepBeliefNetworks):用單個RBM和若干有向?qū)訕嫵删W(wǎng)絡。計算復雜AutoEncoder(1)VAE不是將輸入圖像壓縮成潛在空間中的固定編碼AutoEncoder(2)AutoEncoder(3)–文本檢索AutoEncoder(4)

–相似圖形檢索32x328192409620481024512256code以圖搜圖AutoEncoder(5)

–噪聲去除利用無噪圖像樣本集上訓練生成去噪模型,濾除新圖像中的噪聲。圖像的反卷積deconvolution過程如下:輸入圖片每個像素進行一次full卷積,每個像素卷積后大小為1+4-1=4,即4x4大小的特征圖4個將4個特征圖進行步長為3的相加;輸出的位置和輸入的位置相同。步長為3是指每隔3個像素進行相加,重疊部分進行相加,即輸出的第1行第4列是由紅色特征陣圖的第一行第四列與綠色特征圖的第一行第一列相加得到,其他如此類推。輸入:2x2,卷積核:4x4,滑動步長:3,輸出:7x7反卷積的大小是由卷積核大小與滑動步長決定,in是輸入大小,k是卷積核大小,s是滑動步長,out是輸出大小得到out=(in-1)*s+k(2-1)*3+4=7Encoder-Decoder變分自編碼器VAEVAE在2013年12月被提出,是一種利用深度學習自編碼器,將深度學習和貝葉斯推斷結合,以完成低維向量空間的編碼和向高維向量空間的反解碼。VAE在經(jīng)典自編碼器的基礎上,改變了編解碼方式,得到連續(xù)、結構化的潛在空間。VAE將圖像轉(zhuǎn)換為統(tǒng)計分布參數(shù)(平均值和方差)。然后使用這兩個參數(shù)從分布中隨機采樣并將其解碼到原始輸入。VAE的目標函數(shù)VAE存在的問題GAN對抗網(wǎng)絡:使用兩個網(wǎng)絡互相競爭,稱之為對抗式(adversarial)結構隨機向量隨機取樣生成器G:通過一個參數(shù)化概率生成模型(通常用深度神經(jīng)網(wǎng)絡進行參數(shù)化)進行概率分布的逆變換采樣,得到一個生成的概率分布。判別器D:給定樣本,判斷(通常也是深度卷積神經(jīng)網(wǎng)絡)這個樣本來自真實數(shù)據(jù)還是偽造數(shù)據(jù)。GAN基本原理生成器與鑒別器GAN訓練過程TheevolutionofgenerationNNGeneratorv1Discri-minatorv1Realimages:NNGeneratorv2Discri-minatorv2NNGeneratorv3Discri-minatorv3GAN-DiscriminatorNNGeneratorv1Realimages:Discri-minatorv1image1/0(realorfake)SomethinglikeDecoderinVAERandomlysampleavector11110000GAN-GeneratorUpdatingtheparametersofgeneratorTheoutputbeclassifiedas“real”(ascloseto1aspossible)Generator+Discriminator=anetworkUsinggradientdescenttoupdatetheparametersinthegenerator,butfixthediscriminator通過優(yōu)化目標,使得我們可以調(diào)節(jié)概率生成模型的參數(shù),從而使得生成的概率分布和真實數(shù)據(jù)分布盡量接近。但是這里的分布參數(shù)不再與傳統(tǒng)概率統(tǒng)計一樣,這些參數(shù)保存在一個黑盒中:最后所學到的一個數(shù)據(jù)分布Pg(G),沒有顯示的表達式。生成式對抗網(wǎng)絡--如何定義損失GAN損失函數(shù)這個Loss其實就是交叉熵。對于判別器D,它的任務是最小化-L(G,D),即如果采用零和博弈,生成器G的目標是最小化L(G,D),而實際操作發(fā)現(xiàn)零和博弈訓練效果并不好,G的目標一般采用最小化

一般來說,更新D是,G是固定的;更新G時,D是固定的?;騼?yōu)化函數(shù)的目標函數(shù)D(x)表示判別器認為x是真實樣本的概率,而1-D(G(z))則是判別器認為合成樣本為假的概率。訓練GAN的時候,判別器希望目標函數(shù)最大化,也就是使判別器判斷真實樣本為“真”,判斷合成樣本為“假”的概率最大化;與之相反,生成器希望該目標函數(shù)最小化,也就是降低判別器對數(shù)據(jù)來源判斷正確的概率。在訓練的過程中固定一方,更新另一方的網(wǎng)絡權重,交替迭代,在這個過程中,雙方都極力優(yōu)化自己的網(wǎng)絡,從而形成競爭對抗,直到雙方達到一個動態(tài)的平衡(納什均衡),此時生成模型G恢復了訓練數(shù)據(jù)的分布(造出了和真實數(shù)據(jù)一模一樣的樣本),判別模型再也判別不出來結果,準確率為50%,約等于亂猜。生成式對抗網(wǎng)絡--GAN的訓練方法生成模型:要最小化判別模型D的判別準確率。判別模型:要盡量最大化自己的判別準確率黑色大點虛線P(X)是真實的數(shù)據(jù)分布

A.Pg和Pdata相似,D是部分精確的分類器綠線G(z)是通過生成模型產(chǎn)生的數(shù)據(jù)分布(輸入是均勻分布變量z,輸出是綠色的線)B.D被訓練以區(qū)分樣本和數(shù)據(jù),并收斂到藍色的小點虛線D(X)代表判別函數(shù)C.在更新g之后,d的梯度引導g(Z)流向更有可能被歸類為數(shù)據(jù)的區(qū)域。較低的水平線是z采樣的區(qū)域,在這種情況下,上面的水平線是X域的一部分。向上箭頭顯示映射x=g(Z)如何將非均勻分布的pg強加于轉(zhuǎn)換后的樣本上。g在高密度區(qū)域收縮,在pg低密度區(qū)域擴展。D.產(chǎn)生的綠色分布和真實數(shù)據(jù)分布已經(jīng)完全重合。這時,判別函數(shù)對所有的數(shù)據(jù)(無論真實的還是生成的數(shù)據(jù)),輸出都是一樣的值,已經(jīng)不能正確進行分類。G成功學習到了數(shù)據(jù)分布,這樣就達到了GAN的訓練和學習目的。Pg=Pdata,判別器無法區(qū)分這兩個分布,此時D(X)=1/2生成式對抗網(wǎng)絡--訓練方法首先,如果固定G,那么D的最優(yōu)解就是一個貝葉斯分類器。將這個最優(yōu)解形式帶入,可以得到關于G的優(yōu)化函數(shù)。簡單的計算可以證明,當產(chǎn)生的數(shù)據(jù)分布與真實數(shù)據(jù)分布完全一致時,這個優(yōu)化函數(shù)達到全局最小值。Pg=Pdata生成模型G隱式地定義了一個概率分布Pg,我們希望Pg收斂到數(shù)據(jù)真實分布Pdata。論文證明了這個極小化極大博弈當且僅當Pg=Pdata時存在最優(yōu)解,即達到納什均衡,此時生成模型G恢復了訓練數(shù)據(jù)的分布,判別模型D的準確率等于50%。GAN是存在全局最優(yōu)解的全局最優(yōu)解和收斂性生成式對抗網(wǎng)絡--全局最優(yōu)解和收斂性如果G和D的學習能力足夠強,兩個模型可以收斂。但是GAN模型的收斂性和均衡點存在性需要新的理論突破,模型結構和訓練穩(wěn)定性需要進一步提高。GAN的收斂是很困難的。第一,就是梯度消失的問題,當優(yōu)化的時候,對于公式里生成器、判別器的損失函數(shù)會存在梯度消失的問題,那么我們需要設計一些更好的損失函數(shù),使得梯度消失問題得到解決。第二個就是模式發(fā)現(xiàn)問題,也就是說我們的生成器可能生成同樣的數(shù)據(jù)而不是多樣的數(shù)據(jù)。GAN的收斂性GAN缺點(1)在原始GAN的(近似)最優(yōu)判別器下,第一種生成器loss面臨梯度消失問題,第二種生成器loss面臨梯度不穩(wěn)定、對多樣性與準確性懲罰不平衡導致缺乏多樣性的問題。原始GAN問題的根源可以歸結為兩點,一是等價優(yōu)化的距離衡量(JS散度、KL散度)不合理,二是生成器隨機初始化后的生成分布很難與真實分布有不可忽略的重疊。衡量兩個分部的相似程度衡量兩個分布的相似程度GAN缺點(2)當生成器和鑒別器的樣本分布不重疊時,JS散度的梯度始終為0,從而導致此時GAN的訓練出現(xiàn)梯度消失現(xiàn)象。GAN模型collapse由于判別由于判別器并沒有對樣本多樣性進行顯式約束,導致生成模型可能傾向于生成真實分布的部分區(qū)間中的少量高質(zhì)量樣本,以此來在判別器的輸出中獲得較高的概率值。鑒別單個樣本是否采樣自真實分布,并沒有對樣本多樣性進行顯式約束,導致生成模型可能傾向于生成真實分布的部分區(qū)間中的少量高質(zhì)量樣本,以此來在判別器的輸出中獲得較高的概率值。應用:DCGAN2015年的DCGAN把類似的理念應用到人臉圖像上。通過對編碼(輸入的隨機向量)進行代數(shù)運算,控制生成人臉圖像的屬性。生成式對抗網(wǎng)絡--衍生模型DCGAN把有監(jiān)督學習的CNN與無監(jiān)督學習的GAN整合到一起提出了DeepConvolutionalGenerativeAdversarialNetworks-DCGANs,是生成器和判別器分別學到對輸入圖像層次化的表示。1.使用DCGANs從大量的無標記數(shù)據(jù)(圖像、語音)學習到有用的特征,相當于利用無標記數(shù)據(jù)初始化DCGANs的生成器和判別器的參數(shù),在用于有監(jiān)督場景.2.表示學習representationlearning的工作:嘗試理解和可視化GAN是如何工作的.3.穩(wěn)定訓練DCGANsFacebookAIResearchTSFacebookAIResearchWGANGAN算法的損失函數(shù)使用了JS散度,當生成器和鑒別器的樣本分布不重疊時,導致GAN的訓練出現(xiàn)梯度消失現(xiàn)象,參數(shù)很難更新,網(wǎng)絡無法收斂。WGAN使用一種分布距離度量方法:Wasserstein距離,即推土機Earth-Mover距離解決上述問題。Wasserstein距離Wasserstein距離又叫Earth-Mover(EM)距離,定義如下:Ⅱ(Pr,Pg)是Pr和Pg組合起來的所有可能的聯(lián)合分布的集合,反過來說,Ⅱ(Pr,Pg)中每一個分布的邊緣分布都是Pr和Pg。對于每一個可能的聯(lián)合分布γ而言,可以從中采樣得到一個真實樣本x和一個生成樣本y,并算出這對樣本的距離||x-y||,所以可以計算該聯(lián)合分布γ下樣本對距離的期望值。在所有可能的聯(lián)合分布中能夠?qū)@個期望值取到的下界,就定義為Wasserstein距離。直觀上可以把理解為在γ這個“路徑規(guī)劃”下把Pr這堆“沙土”挪到Pg“位置”所需的“消耗”,而W(Pr,Pg)就是“最優(yōu)路徑規(guī)劃”下的“最小消耗”,所以才叫Earth-Mover(推土機)距離。Wasserstein距離相比KL散度、JS散度的優(yōu)越性在于,即便兩個分布沒有重疊,Wasserstein距離仍然能夠反映它們的遠近。EM距離—>WGANWasserstein距離定義中的沒法直接求解,用了一個已有的定理把它變換為如下形式:Lipschitz連續(xù):對于連續(xù)函數(shù)f,存在常數(shù)K大于等于0,使得:對于定義域內(nèi)任意x1,x2滿足:把f用一個帶參數(shù)w的神經(jīng)網(wǎng)絡來表示,并對w進行限制,此時所有偏導數(shù)也不會超過某個范圍使得f

Lipschitz連續(xù)。EM距離—>WGAN構造一個含參數(shù)w、最后一層不是非線性激活層的判別器網(wǎng)絡,在限制w不超過某個范圍的條件下,使得盡可能取到最大,此時L就會近似真實分布與生成分布之間的Wasserstein距離(忽略常數(shù)倍數(shù)K)原始GAN的判別器做的是真假二分類任務,所以最后一層是sigmoid,但是現(xiàn)在WGAN中的判別器做的是近似擬合Wasserstein距離,屬于回歸任務,所以要把最后一層的sigmoid拿掉WassersteinGAN(WGAN)生成器要近似地最小化Wasserstein距離,可以最小化L,由于Wasserstein距離的優(yōu)良性質(zhì),我們不需要擔心生成器梯度消失的問題。再考慮到L的第一項與生成器無關,就得到了WGAN的兩個loss生成器損失函數(shù):判別器損失函數(shù):可以指示訓練進程,其數(shù)值越小,表示真實分布與生成分布的Wasserstein距離越小,GAN訓練得越好。WGAN生成式對抗網(wǎng)絡--衍生模型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論