VAE背后的哲學(xué)思想及數(shù)學(xué)原理_第1頁
VAE背后的哲學(xué)思想及數(shù)學(xué)原理_第2頁
VAE背后的哲學(xué)思想及數(shù)學(xué)原理_第3頁
VAE背后的哲學(xué)思想及數(shù)學(xué)原理_第4頁
VAE背后的哲學(xué)思想及數(shù)學(xué)原理_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

VAE背后的哲學(xué)思想及數(shù)學(xué)原理短短三年時間,變分編碼器VAE(VariationalAuto-encoder)同GAN—樣,成為無監(jiān)督復(fù)雜概率分布學(xué)習(xí)的最流行的方法。VAE之所以流行,是因為它建立在標(biāo)準(zhǔn)函數(shù)逼近單元,即神經(jīng)網(wǎng)絡(luò),此外它可以利用隨機梯度下降進行優(yōu)化。本文將解釋重點介紹VAE背后的哲學(xué)思想和直觀認識及其數(shù)學(xué)原理。VAE的最大特點是模仿自動編碼機的學(xué)習(xí)預(yù)測機制,在可測函數(shù)之間進行編碼、解碼。同GAN類似,其最重要的idea是基于一個令人驚嘆的數(shù)學(xué)事實:對于一個目標(biāo)概率分布,給定任何一種概率分布,總存在一個可微的可測函數(shù),將其映射到另一種概率分布,使得這種概率分布與目標(biāo)的概率分布任意的接近??吹竭@里讀者可能會一頭霧水。下面我們來一一闡明其中的含義。可測函數(shù)之間的編解碼?什么樣的可測函數(shù)?可測函數(shù)是測度論中的概念,它是真實世界的隨機事件到數(shù)學(xué)世界的隨機事件的映射。當(dāng)然,在形式化問題過程中我們需要對這里面的所有事件進行量化,于是我們自然地會將這個數(shù)學(xué)世界選取為歐式空間,相應(yīng)的-代數(shù)也就是Borel-代數(shù)了?;氐竭x取可測函數(shù)的問題。VAE的一個重要的哲學(xué)思想是,遵從圖模型,我們希望生成的樣本是由某些隱含變量所構(gòu)造出來的。舉個例子,比如我們想要生成0-9的手寫體,影響生成這些數(shù)字的樣式可能有很多因素,比如筆畫粗細、筆尖的角度、寫者的書寫習(xí)慣、天氣好壞(天氣會影響寫者的心情,進而影響書寫方式。根據(jù)蝴蝶效應(yīng),初始條件的微小變化會影響最終的結(jié)果)。這些因素不勝枚舉,一些看似不相關(guān)的因素,都有可能影響最終的結(jié)果。一個直接的方法是顯示地構(gòu)造出這些隱含因素的概率分布,但是這些因素實在是太多了,無窮多個,我們顯然不能手工構(gòu)造oVAE巧妙地避開了這個問題,利用一個聯(lián)合高斯分布作為隱含可測函數(shù)的分布(這個隱含可測函數(shù)將上面所說的所有現(xiàn)實世界影響寫字樣式的隱含因素映射到歐式空間中去了),隨即將問題轉(zhuǎn)化為學(xué)習(xí)一個從隱含可測函數(shù)(隱含變量)到一個所希望生成樣本的映射。后面我們會看到,這個過程就是解碼過程??梢韵胂螅@個映射會極為復(fù)雜。我們自然會想到利用深度學(xué)習(xí)強大的函數(shù)擬合能力來學(xué)習(xí)這個映射。模型推導(dǎo)因此,我們希望得到這樣一個生成模型,如下圖所示。Decoder不SamplezfromAr(0.1)其中是隱含變量(隱含可測函數(shù)),將其輸入到某種解碼器,輸出,使得盡可能在保證樣本多樣性的同時與真實樣本相似。但是如何通過學(xué)習(xí)得到這樣的解碼器呢?這就需要我們回歸到目標(biāo)函數(shù)中去考慮問題了。我們僅僅已知一些現(xiàn)成的樣本,比如,回到我們的例子,我們僅僅已知0-9這些手寫體圖片的樣本,希望生成一些具有多樣性類似的樣本。那么自然會想到利用極大似然法來估計可學(xué)習(xí)的參數(shù),即不失一般性,我們下面只針對單樣本進行討論(略去其指標(biāo)和可學(xué)習(xí)參數(shù))。上面的似然函數(shù)僅僅是關(guān)于的函數(shù),我們需要想辦法湊出隱變量來。其中是給定樣本下的某一個條件概率分布。這一步變換值得深思,為什么選用一個條件概率分布呢,而不選用或者呢?因為的選取范圍太大,我們更感興趣的是那些更有可能生成的隱變量;關(guān)于,可以認為是真實的概率分布,我們很難得到,我們希望做的是通過去逼近,因此前者可以理解為某一種近似的概率分布。我們繼續(xù)進行推導(dǎo),我們考查其中的第一項,利用貝葉斯公式這樣我們就推導(dǎo)出VAE的一個核心等式,F面可以開始建模了。由前面的討論(利用一個聯(lián)合高斯分布作為隱含可測函數(shù)的分布),同樣,和用聯(lián)合高斯去建模,自然地,問題就轉(zhuǎn)化成了用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)四種映射關(guān)系。但是,即使做了這樣的建模,對于,我們?nèi)匀浑y以給出其閉式解(歸一化因子是一個復(fù)雜的多重積分)。因此只能退而求其次,我們對其做縮放對對數(shù)似然的下界進行最大化。進一步推導(dǎo),我們將前面建模的概率模型帶入這個下界中去。注意到在實際實現(xiàn)過程中,為了簡化起見,取與無關(guān)的單位陣,于是有最大化這個下界等價于最小化其中為四個待學(xué)習(xí)映射的可學(xué)習(xí)參數(shù)集合??偨Y(jié)起來,整個訓(xùn)練框架就是在對樣本進行編解碼。是將樣本編碼為隱變量,而又將隱含變量解碼成,進而最小化重構(gòu)誤差。訓(xùn)練的目的是學(xué)習(xí)出編碼器的映射函數(shù)和解碼器的映射函數(shù),所以訓(xùn)練過程實際上是在進行變分推斷,即尋找出某一個函數(shù)來優(yōu)化目標(biāo)。因此取名為變分編碼器VAE(VariationalAuto-encoder).

關(guān)注具體實現(xiàn)的讀者可能會發(fā)現(xiàn)在“解碼器Decoder到和”這個階段從技術(shù)上沒辦法進行梯度反傳。的確如此,上圖只是作為幫助大家理解的示意圖,而真正實現(xiàn)過程中,我們需要利用重參數(shù)化這個trick,如下圖所示。重參數(shù)化這個名字聽起來很神秘,其實就是基于下面的一個簡單的數(shù)學(xué)事實:如果,那么隨機變量可以寫成其中.利用重參數(shù)化這個trick,我們成功地規(guī)避了這個問題。討論既然任意概率分布都可以作為隱變量的分布,為什么都用高斯分布去建模呢?這個問題的答案可能在于兩個方面。一方面是,建模高斯分布給我們帶來了良好的可計算性,能得到一些解析的結(jié)果。另一方面,可能是基于下面的數(shù)學(xué)事實,這個問題的解是即給定概率分布的均值和方差,使得信息熵最大的概率分布是高斯分布。我們雖然退而求其次地僅僅最大化對數(shù)似然的下界,但如果網(wǎng)絡(luò)實際的合理,我們實際上是在最大化,這意味著訓(xùn)練過程中一方面最大化對數(shù)似然(我們的終極目標(biāo)),另一方面最小化和的KL散度,即兩者的概率分布距離。這樣我們就一舉兩得:一方面完成了終極目標(biāo),另一方面使得原來不可計算的可計算,將最為其良好的近似。聯(lián)合高斯分布之間的KL散度根據(jù)上一篇關(guān)于GAN的“

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論