WGAN應(yīng)用于金融時間序列生成_第1頁
WGAN應(yīng)用于金融時間序列生成_第2頁
WGAN應(yīng)用于金融時間序列生成_第3頁
WGAN應(yīng)用于金融時間序列生成_第4頁
WGAN應(yīng)用于金融時間序列生成_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

正文目錄

研究導(dǎo)讀...........................................................................5

生成對抗網(wǎng)絡(luò)GAN的缺點(diǎn)..........................................................6

GAN的矮點(diǎn)回顧...............................................................6

GAN塊點(diǎn)一:G和D訓(xùn)練不同步...............................................6

JS散度的進(jìn)一步探討......................................................6

訓(xùn)練生成器梯度消失.......................................................7

GAN塊點(diǎn)二;訓(xùn)練不收斂......................................................8

GAN塊點(diǎn)三:模式崩潰........................................................8

Non-saturatingGAN中J(G)的等價表達(dá)....................................9

模式崩潰的原因...........................................................9

WassersteinGAN介紹.............................................................11

Wasserstein距離.............................................................11

W距離的通俗解釋........................................................11

W距離的數(shù)學(xué)定義及性質(zhì).................................................11

WassersteinGAN的原理.....................................................12

WGAN的原理...........................................................12

WGAN-GP的原理.......................................................12

WGAN-GP的訓(xùn)練算法........................................................13

GAN與WGAN的比較........................................................14

方法..............................................................................15

訓(xùn)練數(shù)據(jù)......................................................................15

網(wǎng)絡(luò)構(gòu)建......................................................................15

序列真實(shí)性指標(biāo)...............................................................16

方差比率檢舲............................................................16

長時程相關(guān)..............................................................17

評吩指標(biāo)小結(jié)............................................................18

序列相似性指標(biāo)...............................................................18

WGAN與GAN結(jié)果對比...........................................................20

上證綜而日頻序列............................................................20

損失函數(shù)及真假序列展示.................................................20

評介指標(biāo)對比............................................................2I

樣本多樣性..............................................................24

標(biāo)普500月頻序列............................................................24

損失函數(shù)及奧?假樣本展示.................................................24

評汾指標(biāo)對比............................................................25

樣本多樣性..............................................................28

評價指標(biāo)匯總.................................................................29

總結(jié)與討論........................................................................30

參考文獻(xiàn).....................................................................31

風(fēng)險提示.....................................................................31

附錄..............................................................................32

JS散度性質(zhì)的證明............................................................32

方差比里檢臉統(tǒng)計量計算公式.................................................33

評級說明.....................................................................35

法律實(shí)體披露.................................................................36

圖表目錄

圖表1:GAN的缺點(diǎn)..............................................................6

圖表2:不同距離下兩個分布間的JS散度..........................................7

圖表3:GAN中G和D訓(xùn)練不同步...............................................8

圖表4:生成手寫數(shù)據(jù)集的模式崩潰現(xiàn)象...........................................9

圖表5:GAN生成樣本的兩種情形...............................................10

圖表6:EM距離示意圖..........................................................11

圖表7:WGAN-GP訓(xùn)練算法的偽代碼............................................13

圖表8:GAN與WGAN比較.....................................................14

圖表9:WGAN-GP訓(xùn)練數(shù)據(jù)集..................................................15

圖表10:WGAN-GP生成器G網(wǎng)絡(luò)結(jié)構(gòu).........................................15

圖表11:WGAN-GP判別器D網(wǎng)絡(luò)結(jié)構(gòu)..........................................16

圖表12:GAN與WGAN-GP通用參數(shù)比較.......................................16

圖表13:Hurst指數(shù)計算的R/S分析法...........................................17

圖表14:8項生成虛假序列評價指標(biāo).............................................18

圖表15:歐式距離方法與DTW方法..............................................19

圖表16:上證綜指日頻序列:WGAN-GP損失函數(shù)................................20

圖表17:上證綜指日頻序列:其實(shí)價格序列(2004/12/31-2020/07/31).....................20

圖表18:上證綜指日頻序列:GAN生成價格序列范例1..................................................20

圖表19:上證綜指日頻序列:GAN生成價格序列范例2..................................................20

圖表20:上證綜指日頻序列:WGAN-GP生成價格序列范例1.......................................21

圖表21:上證綜指日頻序列:WGAN-GP生成價格序列范例2.......................................21

圖表22:上證綜指日頻序列:其實(shí)序列6項評價指標(biāo)..............................21

圖表23:上證綜指日頻序列:GAN生成序列6項評價指標(biāo).........................21

圖表24:上證綜指日頻序列:WGAN-GP生成序列6項評價指標(biāo)..................22

圖表25:上證綜指日頻序列:GAN與WGAN-GP生成序列前6項指標(biāo)對比........22

圖表26:上證綜指日頻序列:GAN方差比檢臉結(jié)果...............................22

圖表27:上證綜指日頻序列:WGAN-GP方差比檢臉結(jié)果.........................22

圖表28:上證綜指日頻序列:方差比率檢臉統(tǒng)計值................................23

圖表29:上證綜指日頻序列:GAN與WGANGP生成序列Hurst指數(shù)分布........23

030:J外等指El頻序列:GAN與WGAN-GP生成樣本Hurst值假設(shè)撿臉結(jié)罷...24

圖表31:上證綜指日頻序列:GAN與WGANGP生成序列DTW分布.............24

圖表32:標(biāo)普500月頗序列:WGAN-GP損失函數(shù)...............................25

圖表33:標(biāo)普500月頻序列:奧?實(shí)價格序列(1927/12/30-2020/07/31)..................25

圖表34:標(biāo)普500月須序列:GAN生成價格序列范例1............................................25

困表35:標(biāo)普500月頻序列:GAN生成價格序列范例2............................................25

圖表36:標(biāo)普500月頻序列:WGAN-GP生成價格序列范例1...................................25

圖表37:標(biāo)普500月頻序列:WGAN-GP生成價格序列范例2...................................25

圖表38:標(biāo)普500月頻序列:其實(shí)序列6項評價指標(biāo).............................26

圖表39:標(biāo)普500月頻序列:GAN生成序列8項評價指標(biāo)........................26

圖表40:標(biāo)普500月頻序列:WGAN-GP生成序列6項評價指標(biāo)..................26

圖表41:標(biāo)普500月頻序列:GAN與WGAN-GP生成序列前6項指標(biāo)對比.......27

圖表42:標(biāo)普500月須序列:GAN方差比檢臉結(jié)果..............................27

圖表43:標(biāo)普500月頻序列:WGAN-GP方袤比檢舲結(jié)果........................27

圖表44:標(biāo)普500月頻序列:方差比率檢臉統(tǒng)計值................................27

圖表45:標(biāo)普500月頻序列:GAN與WGAN-GP生成序列Hurst指數(shù)分布........28

圖表46:標(biāo)普500月頻序列:GAN與WGAN-GP生成樣本Hurst值假設(shè)檢險結(jié)果....28

圖表47:標(biāo)普500月頻序列:GAN與WGAN-GP生成序列DTW分布.............28

圖表48:上證綜指日頻序列:GAN與WGAN-GP生成序列8項評價指標(biāo)對比......29

圖表49:標(biāo)普500月頻序列:GAN與WGAN-GP生成序列8項評價指標(biāo)對比......29

生成對抗網(wǎng)絡(luò)GAN的缺點(diǎn)

GAN的跳點(diǎn)回顧

在引入WGAN之前,我們首先討論GAN模型的缺點(diǎn),主要包括以下三方面:

1.生成器G和判別器D訓(xùn)練不同步問題。生武器與判別器的訓(xùn)練進(jìn)度需要小心匹配,若

匹配不當(dāng),導(dǎo)致判別器D訓(xùn)練不好,則生成器G難以提升:若判別器D訓(xùn)練得太好,

則生成器G訓(xùn)練容易梯度消失,難以訓(xùn)練。

2.訓(xùn)練不妝效問題。生成器G與判別器D相互博弈,此流披長,訓(xùn)練過程中任何一方的

損失函數(shù)都不會出現(xiàn)明顯的收斂過程,我們只能通過觀察生成樣本的的好壞判斷訓(xùn)練

是否充分,狹少輔助指示訓(xùn)練進(jìn)程的指標(biāo)。

3.模式期涉(ModeCollapse)問題。GAN模型的生成樣本容易過于單一,缺乏多樣性。

注意樣本單一并不一定導(dǎo)致樣本失真:GAN生成的妝拉率序列表現(xiàn)出的經(jīng)臉特征與真

實(shí)序列十分接近,但并不代表生成序列包含市場可能出現(xiàn)的各種情況。

用表1:GAN的缺點(diǎn)

GAN的缺點(diǎn)

^科來該:GenerativeAdversarialNets.華叁證券研咒所

GAN缺點(diǎn)一:G和D訓(xùn)練不同步

一方面,由于生成器與判別器的“博弈”關(guān)系,如果判別器訓(xùn)練得不好,無法給聲假樣本

作出公允評判,那么生成器將無法得到正確反饋,生成水平無法得到提升,生成數(shù)據(jù)質(zhì)量

大概率較低。

另一方面,到別器訓(xùn)練得太好也會阻礙生成器的訓(xùn)練,原因分以下兩步驟討論:

1.JS散度的進(jìn)一步探討;

2.訓(xùn)練生成器梯度消失。

JS散度的進(jìn)一步探討

首先我們對JS散度進(jìn)行簡要回顧。JS散度和KL散度均可衡量兩個分布p和q之句的距

離,其中JS散度定義在KL散度的基礎(chǔ)上,解決了KL散度不對稱的問題。二者定義為:

p(x)-p(x)

KL(p\\q)=EDog___]=JP(x)log____dx

7(x)而.湎

I)p+qip+q

/S(p|q=-KL[p\\—^-KL{q\\—^

GAN使用JS散度衡量真實(shí)分布p『與生成分布pq間的距離,模型的訓(xùn)練過程近似等價于

就小化JS(p,||po),隨著JS散應(yīng)越來越小,生成分布逼近立實(shí)分布,生成樣本則越來越擬

真,最終達(dá)到“以假亂真”的效果。

當(dāng)兩個分布有重合部分時,分布離得越近,JS散度越小:當(dāng)兩個分布完全重合時,JS散

度取值為零。JS散度的特殊性質(zhì)體現(xiàn)在,當(dāng)兩個分布無重合部分時,分布離得越遠(yuǎn),并

不意味著JS散度一定越大。嚴(yán)謹(jǐn)?shù)谋硎鰹椋喝绻鸓r和Pg的支撐集相交部分測度為零,

則它們之間的JS散度恒為常數(shù)Iog2:

/S(p「||pg)=log2

上述命題的希確解釋及證明過程請參考附錄部分。該命題的通俗解釋是,如果5和Pg不

相交或者近似不相交(即支撐集相交部分測度為零),那么JS散度恒為常藪Iog2,這個結(jié)

論意味著只要p「和pg不重合,那么無論二者距離多遠(yuǎn),JS散度都為常數(shù),如下圖的Statel

和State2所示。換言之,此時JS散度失去了判別距離遠(yuǎn)近的能力。GAN訓(xùn)練時如果判

別器訓(xùn)練太好,往往就會出現(xiàn)這種情況,阻礙生成器的訓(xùn)練,我們在下一小節(jié)詳細(xì)展開。

困表2:不同距離下兩個分布間的JS激度

f■科來.源:華奉證券研究所

訓(xùn)練生成器弗度消失

為敘述清晰,我們再次展示原始GAN模型的目馀函教:

叭G,D)=&”』og(D(x))]+Ez~p』og(l-D(G(z)))]

或者可以直接寫成下述目標(biāo)函數(shù)形式,其中p,表示真實(shí)分布,出表示生成分布:

VCG.D)=&-〃』og(DQ))]+Fx-pjlog(l-DM)]

在《人工智能31:生成對抗網(wǎng)絡(luò)GAN初探》(20200508)中我們證明對于給定的生成器

G,如果判別器D訓(xùn)練到最優(yōu),則訓(xùn)練生成器的損失函數(shù)將變成:

C(G)=-log4+2/S-)

上式中的JS散度導(dǎo)致生成器難以訓(xùn)練。事實(shí)上,拓?fù)鋵W(xué)理論可以證明,大部分情況下生

成分布與真實(shí)分布二者的支掙集相交部分的測度是零,即絕大部分情況下兩個分乖不相交

或者近似不相交。那么根據(jù)JS散度的性質(zhì)可以推出,在判別器達(dá)到最優(yōu)的情況下,優(yōu)化

生成器的損失函數(shù)會變成常數(shù),而常教的梯度恒為零。換官之,此時訓(xùn)練生成器會出現(xiàn)嚴(yán)

重的梯度消失問題。

從更直觀的角度而言,判別器最優(yōu)時,JS數(shù)度只能告訴生成器當(dāng)前的生成分布與亮實(shí)分

布距離遠(yuǎn),但是到底距離多遠(yuǎn)?JS散度無法告訴生成器率案,因此只要生成分布與真實(shí)

分布近似不重合,那么二者差很遠(yuǎn)或較接近對生成器沒有任何區(qū)別,損失函數(shù)糅度都是零,

生成器自然難以訓(xùn)練。

在實(shí)際訓(xùn)練過程中,我們畢竟難以達(dá)到理論上的“最優(yōu)判別器”,但是Arjovsky等(2017)指

出,隨著判別器接近最優(yōu),生成器損失函數(shù)的梯度仍會接近于零,出現(xiàn)梯度消失現(xiàn)象:

limVeEz.pflogfl-D(Ge(z))]=0

IlfIEz

我們對GAN的抉點(diǎn)一進(jìn)行總結(jié):GAN在訓(xùn)練過程中如果判別器訓(xùn)練得不好,則生成器難

以提升;如果判別器訓(xùn)練得太好,再去訓(xùn)練生成器容易產(chǎn)生樣度消失的問題,導(dǎo)致生成器

難以訓(xùn)練。

困表3:GAN中G和D訓(xùn)練不同步

判別器不能訓(xùn)練太弱

判別器不能訓(xùn)練太保

許外表算:Towardsprincipledmethodsfortraininggenerativeadversarialnetworks.華泰逐季叼無所

GAN缺點(diǎn)二:訓(xùn)練不收斂

從邏輯上說,生成器G和判別器D始終處于相互博弈、相互提升的過程中,因此無法看

到任何一方的損失晶數(shù)收斂,損失函數(shù)無法提供有意義的指導(dǎo)價值。從損失函數(shù)表達(dá)式出

發(fā),可以更清斷地觀察不收斂的過程。

在原始的GAN中,我們實(shí)際訓(xùn)練判別器和生成器使用的損失函數(shù)分別為下面兩式。判別

器的損失函數(shù)J(D)在GAN原始目標(biāo)函數(shù)前加負(fù)號,是因為訓(xùn)練中默認(rèn)使用梯度下降法最

小化損失函教。生成器損失函數(shù)J(G)只有J(D)的第二項,是因為在訓(xùn)練生成器時,log(D(x))

不包含G且D固定,相當(dāng)于常數(shù),故喀去。

判別器:/(D)=-(&%口八(。=))]+&口[1。虱1一D(G(z)))])

生成器:/(G)=Ez~pz【log(l-"G(z)))]

在訓(xùn)練時每輪迭代優(yōu)化判別器,使得J(D)減小,印要求Ez~pz[log(1-D(G(z)))]增大:優(yōu)化生

成器,使得J(G)減小,印要求Ez-p』og(1-D(G(z)))]減小。一方增大而一方減小,即判別器

與生成器的損失函數(shù)優(yōu)化過程相背離,無法看出任何一方收斂。

GAN跳點(diǎn)三:模式崩潰

GAN在生成時容易出現(xiàn)生成樣本過才單一,缺乏多樣性的現(xiàn)象,這種現(xiàn)象稱為模式崩潰。

例如在生成手寫數(shù)據(jù)集樣本時,某種結(jié)構(gòu)的GAN生成結(jié)果如下圖所示。模型最終只生成

手寫數(shù)字“6”,雖然形態(tài)十分逼真,但顯然不是我們想要的生成模型。

在論證模式崩潰的問題之前,我們首先引入Non-saturatingGAN的概念。在原始妁GAN

目標(biāo)函數(shù)中包含Ez融og(1-D(G(z)))],由于log(1-D(G(z)))在訓(xùn)練初期梯度太小,因此在

實(shí)踐中我們更常使用-Ez、pz[log(D(G(z)))]代替上面這項,此時判別器與生成器的損失函數(shù)

分別為:

判別器:/(。)=Fz^[logD((7(z))]-Ex-Pr[log(D(r))]

生成器:/(G)=-E/r』ogD(G(z))]

這種形式的GAN稱為Non-saturatingGAN,原始的GAN稱為MinimaxGAN,二者在網(wǎng)

絡(luò)對抗的思想上一致,但Non-saturatingGAN更便于解釋模式崩潰的問題。以下我們分

兩步論述模式崩潰:

1.Non-saturatingGAN生成器損失函數(shù)的等價表達(dá);

2.模式崩潰的原因。

圖表4:生成手方敢據(jù)集的模式崩清現(xiàn)象

mm,GA6-G64-

GGj4

m?m646-4A

Zr6-6-4-

q4G」6-

446-46-4G6464-

mi,mG△A-444

6

i,mm4。G4

44-6-4-4-6-4-4-

10ksltps20ksleptSOKMepi100ksups

并未源:UnrolledGenerativeAdversarialNetworks,華泰券研究所

Non-saturatingGAN中J(G)的等價表達(dá)

前文我們已經(jīng)提到,在MinimaxGAN模型中,如果判別翳達(dá)到最優(yōu)(不妨假設(shè)為D(x)),

那么訓(xùn)練生成器的目標(biāo)函數(shù)將變?yōu)椋?/p>

C(G)=&r』k)g(D?))]+&~p』og(l-??&))]

=一,。。4+2/S(Pr||pg)

對應(yīng)的最優(yōu)判別器表達(dá)式為:

D.(x)=.⑶

PrG)+PgS)

下面我們考慮生成分布與真實(shí)分布的KL散度:

P.(X)

KL(p||p)=EDog']

r

9pr(x)

..Pg(x)/(即(x)+pg(XQ

=x~P。Igp4)/(pC)+pM))」

1-DO

=Exq口。g^F】

=&~Pg[】og(l-D*(x))]-Ef[logD*(x)]

聯(lián)立C(G)的表達(dá)式,我們可以得到Non-saturatingGAN中生成器損失函數(shù)的等價表達(dá)為:

J⑹=-&~Pz【log。'(G(z))]=-Fx^[logD*(x)]

=KL(pg\\pr)-2/S(pr||pg)+-g4+Ex~pog(ZT(x))]

由于在訓(xùn)練生成器時完全依賴于判別器的損失函數(shù)項為常數(shù)可以忽略,因此簡化的等價表

達(dá)為:

/(G)=KL(pg\\pr)-2JS(pr\\pg)

注意,上述表達(dá)式的前提是判別器達(dá)到最優(yōu)。實(shí)際上,當(dāng)GAN訓(xùn)練到后期,判另I器的能

力已經(jīng)很強(qiáng),可近似認(rèn)為判別器接近最優(yōu)。因此,訓(xùn)練生成器近似于最小化上述J:G)的表

達(dá)式。生成器的模式崩潰正是由J(G)的第一項KL散度的不對稱性導(dǎo)致。

模式崩潰的原因

基于上文J(G)的等價表達(dá)式可以進(jìn)一步推導(dǎo)出模式崩潰的原因。首先將KL散度寫成積分

的形式:,、

pQ(X)

KL[p||p)=E[log]

9rX』淑y

,x.P,g(x),

=JrP{X)log____dx

x9兩

我們考慮生成樣本的兩種情膨:

1.生成器生成了不真實(shí)的樣本。對應(yīng)于那些不奏實(shí)的樣本,Pg(X)>0但Pr(X)%0,此時

KL散度中間的被積項將會趨于8;

2,生成器沒能生成真實(shí)的樣本。對應(yīng)于沒能生成的那些真實(shí)樣本,Pr(X)>0但Pg(X)'O,

此時KL散度中間的被積項將會趨于0。

Non-saturatingGAN中優(yōu)化生成器的損失函數(shù)要求KL散度盡量小。由于第一種精形損失

接近無窮,懲罰巨大,生成器就會避免生成不真實(shí)的樣本:由于第二種情形損失接近零,

懲罰微小,因此生成器完全有可能只生成單一的真實(shí)樣本,而不生成更多不同的真實(shí)樣本。

生成單一的真實(shí)樣本已經(jīng)足夠“安全二生成器沒有必要冒著失真的風(fēng)險生成多樣化的樣本,

模式崩潰問題由此產(chǎn)生。

生成不真實(shí)的樣本:懲罰巨大未生成真實(shí)的樣本:懲罰微小

簧於來源:華泰證券橋咒所

WassersteinGAN介紹

Wasserstein距離

從上一章可知,GAN的大部分抉陷與JS散度有關(guān),因此JS散度可能不適用于GANo

Arjovsky等(2017)提出使用Wasserstein距離(簡稱W距離)替代JS散度,這樣構(gòu)建

的生成對抗網(wǎng)絡(luò)稱為WassersteinGAN(簡稱WGAN)。

W距離的通俗解釋

W距離用來衡量兩個分布之間的遠(yuǎn)近,也稱為“推土機(jī)距離”(EarthMoverDistance,后

文簡稱EM距離),這個名稱十分形象。如果將兩個分布p和q分別比作兩堆土,那么我

們可以有不同的方式將土堆p推到和土堆q相同的位置和杉狀。如下圖所示.我們展示兩

種將土堆p推成土堆q的方案,很顯然這兩種方式的平均推土距離(以推土量為權(quán)重,推

土距離的加權(quán)和)不相等。EM距離表示在所有推土方案中,平均推土距離最小的方案對

應(yīng)的推土距離。

圖表6:EM距離示意圖

將土堆p推向土堆q

上述兩種推土方案中,右側(cè)即為當(dāng)前兩分布間的EM距離

資阱來源:華泰證券研究所

從“推土”的角度出發(fā),EM距離的表達(dá)式如下所示:

W(P,q)=min兌y(a,Xq)||xp-Mil

yen

Xp.Xq

其中y(Xp,Xq)表示某種推土方案下對應(yīng)的Xp到Xq的推土量,||Xp-Xq||則表示二者之間的某種

距離(如歐式距離),n表示所有可能的推土方案。根據(jù)EM距離的直觀定義可知,EM距

離沒有上界,隨著兩個分布之間越來越遠(yuǎn),EM距離會趨于無窮。換言之,EM距離和JS

散度不同,不會出現(xiàn)梯度為零的情況。

W距離的數(shù)學(xué)定義及性質(zhì)

上一小節(jié)我們從“推土”的角度定義了EM距離也即W距離,這里我們從概率分布的角

度定義W距離。根據(jù)Arjovsky等(201/),衡量其實(shí)分布與生成分布的W距崗我學(xué)定義

如下:

皿0,麴)=inf^x.yhrdlx-yll]

y~n(p~p.g)

其中x~pr,y-pg,y表示(x,y)的聯(lián)合分布,n(pr.pg)表示所有可能的y取值空間。上式的本

質(zhì)是將分布p『推向分布的所要經(jīng)過的最小距離,

在論證原始的GAN模型G與D訓(xùn)練不同步的問懣時,我們提到若真實(shí)分布與生成分布的

支撐集相交部分測度為零,JS散度恒為常數(shù)。真實(shí)分布與生成分布近似不相交或者完全

不相交時,那么無論其實(shí)分布與生成分布是距離一步之遙,還是距離海憊天涯,JS散度

都是常數(shù)。換言之,JS散度無法指示不重合的兩個分布到底距離多遠(yuǎn)。

W距離的優(yōu)越性正體現(xiàn)于此。W距離隨分布間“距離”的變化是連續(xù)的,印使兩個分布

完全不相交,W距離也不會收斂到常數(shù),而是應(yīng)分布間“距離”的增加而不斷增大,直至

無窮。因此,W距離沒有梯度消失的問題,可以用W距離替代GAN中的JS散度。

WassersteinGAN的原理

WGAN的原理

W距離的原始數(shù)學(xué)定義過于理論,旦在實(shí)際中無法直接計舁。為便于使用,可以通過

Kantorovich-RubinsteinDuality^A.(Arjovsky.2017)將其等價變換為下式:

W(P,P)=_sup(£[/(叫一O[/W])

rg“?x~pW

;MIW.r

=RSUP(%,[九G)]-樂PM,(G(Z))])

W:||fj|產(chǎn)

關(guān)于這個等價定義,我們進(jìn)行如下三點(diǎn)解釋:

1.V”(x),WeW}表示一族依賴于參效W的函數(shù)f,參數(shù)W的取值空間為w。函數(shù)/■可以

是能寫出表達(dá)式的簡單初等函數(shù),也可以是一個復(fù)雜的深度學(xué)習(xí)網(wǎng)絡(luò)。如果/是一個

深度學(xué)習(xí)網(wǎng)絡(luò),則參數(shù)W就是網(wǎng)絡(luò)中的一系列權(quán)重。

2.w:||fw||MK森示函數(shù)/H?滿足Lipschitz條件:即對于/?■定義域內(nèi)的任何取值a和b.滿足

IA(a)-A(fe)|<K|a-b|,K稱為Lipschitz常數(shù)。在W距離的等價定義式中,K可

以是任意正實(shí)數(shù)。

3.sup表示對所有滿足條件的函數(shù)/'w求括號中表達(dá)式的上確界,在實(shí)際應(yīng)用中近似等價

于求括號中表達(dá)式的最大值。

W距離的等價定義式實(shí)際上就是WGAN的目標(biāo)函數(shù)。在給定生成器G時,上述定義式中

的函數(shù)外可以用一個深度學(xué)習(xí)網(wǎng)絡(luò)來代替,這個深度學(xué)習(xí)網(wǎng)絡(luò)的目標(biāo)就是要最大化

Ex-M加(x)]-Ez~pz[fw(G(z川,在訓(xùn)練時K是一個常數(shù),因此系數(shù)項可以忽略。為保持與GAN

統(tǒng)一,這里我們?nèi)苑Q這個深度學(xué)習(xí)網(wǎng)絡(luò)為“判別器''(原文稱為critic),當(dāng)然此時“罰別器”

已不再執(zhí)行判別其假的功能,而是估計真假樣本分布的W距離。類似于GAN,WGAN在

實(shí)踐中判別器與生成器也是交替訓(xùn)練的,這里我們列出二者的損失函數(shù):

判別器:/(D)=E"Pz(A(G⑵)]-

生成器:/(G)=-EZ~/>ZIA(G(Z))]

在原始的GAN模型里,判別器的作用本質(zhì)上也是在估計生成分布與真實(shí)分布之間的距離

(用JS散度衡量),然后用生成器去拉近JS故度。在WGAN中這種思想則更為直接:

用判別器去擬合兩個分布之間的W距離,用生成器去拉近W距離。

WGAN-GP的原理

WGAN的原理邏楫枝清晰,但是在等價定義式中對捌別鬻有一個重費(fèi)限制——判別器需

滿足Lipschi:z條件。通常來說有兩種處理辦法,一種是權(quán)重剪裁(WeightClipping),-

種是梯度懲罰(GradientPenalty),這里分別介紹。

權(quán)重剪裁的思想是對判別器網(wǎng)絡(luò)的權(quán)重進(jìn)行限制,因為神經(jīng)網(wǎng)絡(luò)僅僅是有限個權(quán)值與神經(jīng)

元相乘的結(jié)果,所以如果權(quán)重在某個有限范閨內(nèi)變化,那么判別器的榆出值/w(X)也不會變

得太大,近似可以滿足K-Lipschitz條件。實(shí)際操作中,會在訓(xùn)練判別器的每一步反向傳播

更新權(quán)值之后對權(quán)重進(jìn)行剪裁,例如可以將更新后的權(quán)值限制到卜0.01,0.01]中:

0.01,ifWupdalc0.01

W:;「ate={Wupdate,if-0.01<Wupdate工0.01

-0.01,ifWupdate<-0.01

權(quán)型剪裁實(shí)際上并沒有真正讓判別器滿足K-Lipschitz條件,且實(shí)證表明權(quán)曳剪裁會讓大部

分網(wǎng)絡(luò)權(quán)重落在限制邊界上,使得生成樣本的質(zhì)量不佳。

更常用的方法是梯度懲罰。加果能將判別器外相對于輸入x的描度限制在一定范圍內(nèi),那

么自然的就能滿足K-Lipschitz條件。根據(jù)這個思想,可以在判別器損失函數(shù)中增加懲罰項,

將判別器損失函數(shù)寫成:

/(力=&~PztA(G(z))]-取切+得[QM衣QII_15

這個損失函數(shù)對■判別器fw相對于揄入的梯度進(jìn)行懲罰,將梯度的L2-范數(shù)約束在1附近,

從而保證Lipschitz條件的成立。通過這種改進(jìn)的WGAN模型就稱為WGAN-GP模型

(Gulrajani.2017)。這里我們進(jìn)行額外幾點(diǎn)說明:

1.在約束KLipschitz條件時,我們弁不關(guān)心K是多少,實(shí)際上根據(jù)W距離的等價關(guān)系,

K可以是任意的正實(shí)教,所以只要能讓fw滿足某個尺度的Lipschitz條件即可。

2.帶花梯度懲罰的損失函數(shù)中將櫛度的L2-危數(shù)約束在1附近,這個常數(shù)1是原文作者

經(jīng)過多次嘗試選擇出的較合適的常數(shù),并無理論依據(jù)。

3.理論上梯度懲罰應(yīng)該對所有可能的輸入x進(jìn)行梯度約束,而上述損失函數(shù)實(shí)際上僅對

介于真實(shí)樣本與生成樣本之間的那些樣本比行梯度約束,p*表示言勺分布,實(shí)證表明這

樣做的效果已經(jīng)較為理想。在實(shí)際應(yīng)用時,某一次迭代對腦采樣由下式產(chǎn)生:

gax+(1-a)G(z)

其中a是。1)中的隨機(jī)數(shù),工為隨機(jī)的真實(shí)樣本,z為標(biāo)準(zhǔn)正態(tài)分布的稹機(jī)采樣。

4.WGAN-GP中生成器的損失函數(shù)J(D)和原始WGAN保持一致。

WGAN-GP的訓(xùn)練算法

在WGAN-Gn的實(shí)際訓(xùn)練過程中,判別器D與生成器G交替進(jìn)行訓(xùn)練,一般判別器D訓(xùn)

練K次,生成器G訓(xùn)練1次?;谇拔牡姆治?,WGAN-GP訓(xùn)練算法的偽代碼如下所示。

困表7:WGAN-GP調(diào)練算法的偽代碼

榆入:迭代次敦T,每輪迭代判別潞D訓(xùn)練次數(shù)K,小批量(minibatch)樣本數(shù)量m

1成機(jī)初始也D網(wǎng)絡(luò)參數(shù)g和G網(wǎng)絡(luò)參數(shù)為

2fort<-1toTdo

#調(diào)線判別器D

3fork*-1toKdo

#裊集小批量樣本

4從澗練集p(x)中采集m條樣本{乂⑴}}

5從豕準(zhǔn)正態(tài)分布內(nèi)(z)中采集m條樣本{z(M}

6從位J均句分布中采集m個隨機(jī)改{£(*")},并計算*)=e(0x(0+(1_e(0)G(z0)),得到四叫

7位通機(jī)悌度下降更新判別若D,鼻度為:

V1m(|)SG)2

%/Z2))-[⑥)+〃1仔。6)11-1)1

1=14

8end

#訓(xùn)凍土成器G

9從標(biāo)底正態(tài)分布內(nèi)(2)中采集m條杼本{2(m)}

10使用通機(jī)悌度下降更新生成卷G,梯度為:

V1m⑴

%江尸2))1

11end

瑜出:生成器G

科?來源:ImprovedTrainingofWassersteinGAN.華泰認(rèn)秦研究航

GAN與WGAN的比較

本小節(jié)我們分析WGAN是否針對GAN的三項缺點(diǎn)有所改迸。

1.GAN的劌別器D與生成器G訓(xùn)練進(jìn)程必須小心平衡,否則會出現(xiàn)訓(xùn)練不同步的問題。

一般每輪迭代D訓(xùn)練K次,G訓(xùn)練1次,對于GAN我們要重點(diǎn)調(diào)整K的值,避免判

別落太好或太差:對于WGAN則無需小心網(wǎng)整K,可以讓判別器的訓(xùn)練進(jìn)度迂當(dāng)快于

生成器。即使判別器D訓(xùn)練得很好,再去訓(xùn)練生成器也不會出現(xiàn)梯度消失的問題。例

如,在實(shí)踐中每輪迭代可以令D訓(xùn)練5次,再令G訓(xùn)練1次。

2.GAN模型D和G的損失函數(shù)都不收斂,無法指示訓(xùn)練進(jìn)程。在WGAN中,因為判別

器的損失函教是在近似估計真假樣本分布之間的W距離,隨著訓(xùn)練的推進(jìn),這個W

距離會存在收斂的過程,可以輔助指示訓(xùn)練的進(jìn)程。

3.GAN模型容易產(chǎn)生模式崩潰的問題。前文我們提到,模式崩潰主要和KL散度以及JS

散度有關(guān),在WGAN中JS散度被替換成W距離,因此導(dǎo)致GAN發(fā)生模式崩潰的原

因在WGAN中也就消失了。但值得注意的是,這并不意味著WGAN生成的樣本完全

沒有模式崩潰的可能性。

困表8:GAN與WGAN比校

GAN

WGAN

朱源:iVa$$ers/efnGan.華泰證孤臂無所

方法

在實(shí)證部分,我們圍繞GAN與WGAN的對比展開實(shí)驗,展示在生成金融時間序列上

WGAN相對于GAN的改進(jìn)。在展示結(jié)果之前,我們同樣對訓(xùn)練數(shù)據(jù)、網(wǎng)絡(luò)構(gòu)建和評價指

標(biāo)進(jìn)行說明。此外我們還引入衡量序列相似性的指標(biāo),用來判別樣本的多樣性。這里特別

說明,由于WGAN-GP的梯度懲罰方法在實(shí)際應(yīng)用中生成效果更好,因此本文教據(jù)測試

均基于WGAN-GP模型,后文提到WGAN也及指代WGAN-GP,不作嚴(yán)格區(qū)別。

訓(xùn)練數(shù)據(jù)

為方便后續(xù)對比,本文選取《人工智能31:生成對抗網(wǎng)絡(luò)GAN初探》(20200508)中具

有代表性的指數(shù)日頻及月頻對數(shù)收益率進(jìn)行訓(xùn)練建模,標(biāo)的和數(shù)據(jù)起止日期如下。

困表9:WGAN-GP調(diào)練數(shù)據(jù)集

標(biāo)的頻率起止日期每條樣本長度

上證綜指日頻2004/12/31~2020/07/312520個交。日(韻為104)

標(biāo)普500月頻1927/12/30?2020/0力31252個交易月份(21年)

資料來源:Wind.Bloomberg,華琴法養(yǎng)研無所

與GAN建模時相同,在處理真實(shí)樣本時,采用滾動的方式對原始的對數(shù)收益率數(shù)據(jù)進(jìn)行

采樣。例如計于上證綜指原始近16年的時序數(shù)據(jù),滾動生成長度為2520個交易日(約

為10年)的樣本,那么其實(shí)樣本約有1500條。

網(wǎng)絡(luò)構(gòu)建

相比于GAN模型,WGAN在網(wǎng)絡(luò)結(jié)構(gòu)上的主要改動在于判別器最后的輸出層沒有進(jìn)行

sigmoid激活。這是因為GAN模型中的判別器需要對真假樣本進(jìn)行判別,最后的榆出必

須是。?1之間的值,表示揄入樣本是真實(shí)樣本的概率。而WGAN中的判別器作用是擬合

生成分布與實(shí)實(shí)分布間的W距離,所以網(wǎng)絡(luò)不應(yīng)對輸出值進(jìn)行0?1的限制。

此外在構(gòu)建判別器網(wǎng)絡(luò)時,由于判別器的,員失函數(shù)加入了梯度恁罰項,且梯度懲罰項對每

一個輸入樣本的梯度進(jìn)行限制,因此在判別器的網(wǎng)絡(luò)結(jié)構(gòu)中不應(yīng)該加入

Batch-Normalization(批歸一化,簡稱BN)層,BN會將同一批其他樣本的信息融入到對

單個樣本的和度計算中,破壞樣本間的獨(dú)立性,此時算出來的梯度并不是真實(shí)的判別器對

單個樣本的楞度。一般可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論