《深度學(xué)習(xí)入門-基于Python的實現(xiàn)》課件 7 現(xiàn)代 Hopfield 網(wǎng)絡(luò)_第1頁
《深度學(xué)習(xí)入門-基于Python的實現(xiàn)》課件 7 現(xiàn)代 Hopfield 網(wǎng)絡(luò)_第2頁
《深度學(xué)習(xí)入門-基于Python的實現(xiàn)》課件 7 現(xiàn)代 Hopfield 網(wǎng)絡(luò)_第3頁
《深度學(xué)習(xí)入門-基于Python的實現(xiàn)》課件 7 現(xiàn)代 Hopfield 網(wǎng)絡(luò)_第4頁
《深度學(xué)習(xí)入門-基于Python的實現(xiàn)》課件 7 現(xiàn)代 Hopfield 網(wǎng)絡(luò)_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

October15,2024PAGE4/43張敏October15,2024PAGE4/43張敏《深度學(xué)習(xí)入門—基于Python的實現(xiàn)》(吳喜之張敏)現(xiàn)代Hopfield網(wǎng)絡(luò)張敏October15,2024概論Hopfield(Hopfield1970年代引入由Hopfield(1982)1進行普及在機器學(xué)習(xí)歷史的大部分時間里,HopfieldBERT等的變換器的引進而漸漸不被人關(guān)注.1HopfieldJJ.(1982)Neuralnetworksandphysicalsystemswithemergentcollectivecomputationalabilities.ProceedingsoftheNationalAcademyofSciences,79(8):2554–2558.Hopfield網(wǎng)絡(luò)的要點是關(guān)聯(lián)記憶或關(guān)聯(lián)存儲(associativememories),其主要目的是將輸入與其最相似的模式相關(guān)聯(lián)目的是存儲和檢索模式2.Hopfield網(wǎng)絡(luò)充當(dāng)具有二進制閾值節(jié)(binarythresholdnode)(content-addressable)關(guān)聯(lián)記憶系統(tǒng).它們保證收斂到局部最小值,因此,可能會收斂(錯誤的本地最小值),(預(yù)期的本地最小值).2(retrieve)也可以翻譯成回收或者再現(xiàn)(也可能受到部分損壞或加入了噪聲(即存儲的模式中把它尋找出來這個過程就稱為檢索/回收/再現(xiàn).October15,20245/43張敏October15,20245/43張敏LSTMSeppHochreiter與一組研究人員一起重Hopfield網(wǎng)絡(luò)并得出了令人驚訝的結(jié)論Ramsaueretal.(2008)在題為《Hopfield網(wǎng)絡(luò)就是您所需要的一切》(Hopfieldisallneed)的論文中3Hopfield網(wǎng)絡(luò)與最新的變換器模型互換的幾個要素.我們稱這篇論文HopfieldHopfield網(wǎng)絡(luò)(modernHopfield3RamsauerH,Sch?flB,LehnerJ,SeidlWidrichM,GruberL,HolzleitnerM,PavlovicM,SandveGK,GreiffV,KreilD,KoppM,KlambauerG,BrandstetterJ,andHochreiterS.(2020)Hopfieldisallneed,arXiv:2008.02217.October15,2024PAGE15/43張敏October15,2024PAGE15/43張敏傳統(tǒng)的Hopfield網(wǎng)絡(luò)考慮傳統(tǒng)的Hopfield網(wǎng)絡(luò),將N個存儲模式(storedpatterns)表示為{xi}N ,X=(x1,x2,...,xN).∈{? }在傳統(tǒng)的Hopfield網(wǎng)絡(luò)中,這些模式是極性或二元的(polar或binary),即xi 1,1d,其中d是模式的長度.并將任何狀態(tài)模式或狀態(tài)表示為∈{? }上面對于模式的二元限制在實踐中可以理解為黑白網(wǎng)格那樣的離散圖形,每個圖形都是一個由二元像素(按照d維二元向量記錄)組成的狀態(tài)或模式(即這里的ξ).如果存儲了N個圖片(這里記為{xi}N ),在應(yīng)用中,個(可能屬于存儲模式之一,但并不完全相同的)新圖片(記為ξ)來尋找出它是存儲模式中的哪一個,這就是檢索或回收的一個簡單目的.(associativememory)只是我們想要存儲的N(sumofouterproducts),相應(yīng)的權(quán)重矩陣W為:∑N∑W= ixi. (2.1)iWξ開始能檢索到的那些模式.檢索過程是一個迭代更新過程,每次都從一個狀態(tài)(ξt)(ξt+1),直到滿足某種設(shè)定的條件為止.下面介紹更新規(guī)則.更新規(guī)則及能量函數(shù)( )基本的同步更新規(guī)則(synchronuousupdaterule)是將狀態(tài)模式ξ與權(quán)重矩陣W重復(fù)相乘,減去偏差并取符號:( )ξt+1=sgn Wξt?b , (2.2)∈bRd是一個偏差向量,可以將其解釋為每個分量的閾值(asynchronousupdaterule)ξ的一個組(onecomponent執(zhí)行此更新然后選擇下一個要更新的組件.ξt+1=ξt則達(dá)到收斂.∈更新規(guī)則式(2.2)最小化能量函數(shù)(energyfunction)E:d d d( ξ ? )22E=?1ξ?Wξ+ξ?b=?1∑∑wijξiξj( ξ ? )22對于異步更新規(guī)則和對稱權(quán)重,E t+1 E t 成立.當(dāng)部最小值.{xi}NHopfield網(wǎng)絡(luò)的E(ξt+1)=E(ξt)時部最小值.{xi}NHopfield網(wǎng)絡(luò)的固定點,即

ξ=sgn(Wxi?b). (2.4)它們甚至應(yīng)該是E的局部最小值.Hopfield網(wǎng)絡(luò)性能討論在實踐中發(fā)現(xiàn),Hopfield網(wǎng)絡(luò)的檢索模式是不完善的.有人懷疑Hopfield網(wǎng)絡(luò)的存儲容量有限就是問題所在.實際上,存儲容量并不直接導(dǎo)致不完善的檢索.無錯誤模式檢索(retrievalofpatternsfreeoferrors)的存儲容量為:2log(d)C= 2log(d)其中d是輸入維數(shù).(retrievalofpatternswithasmallpercentageoferrors)的存儲容量為:C=0.14d. (2.6)因此,存儲容量不足并不直接導(dǎo)致檢索錯誤.相反,人們發(fā)現(xiàn),可能的示例模式相關(guān)性反而產(chǎn)生檢索錯誤.允許拉開緊密的模式,以便(強)相關(guān)的模式可以區(qū)分.現(xiàn)代Hopfield網(wǎng)絡(luò)新能量函數(shù) 由于存儲容量是Hopfield網(wǎng)絡(luò)的關(guān)鍵之一,現(xiàn)代Hopfield網(wǎng)絡(luò),又名密集聯(lián)想記憶(DenseAssociativeMemories),引入了新的能量函數(shù),而不是式(2.3)中的能量函數(shù),創(chuàng)造了更高的存儲容量.KrotovandHopfield(2016)4引入了下面的能量函數(shù):??∑E= (xiξ), (3.1)i=1其中F(interactionfunction);N是存儲模式的數(shù)量.他們選擇了多項式相F(z)=za.4KrotovD,HopfieldJJ.(2016)Denseassociativememoryforpatternrecognition,arXiv:1606.01164,/abs/1606.01164.無錯誤模式檢索的存儲容量為:C= 1

da?1.

(3.2)2(2a?3)!!log(d)小錯誤模式檢索的存儲容量為:C=αaa?1, (3.3)其中,αa是一個常數(shù),(任意)閾值.作為特例a2Hopfield模型(Hopfield,1982)對小錯誤模式檢索C=0.14d的值.Demircigiletal.(2017)5通過使用指數(shù)相互作用函數(shù)F(z)=exp(z)擴展能量函數(shù):??E= ex(iξ), (3.4)i=1其中,N是存儲模式的數(shù)量.5DemircigilM,HeuselJ,M,UpgangS,andVermetF.(2017)OnamodelofassociativememorywithhugestoragearXiv:1702.01929,/abs/1702.01929.( )式(3.4)也可以寫成:( )E=?explse(1,X?ξ) , (3.5)其中,X=(x1,x2,...,xN)是數(shù)據(jù)矩陣(存儲模式的矩陣),而(lse為指數(shù)和的對數(shù)(log-sum-expfunction,lse)(lse

(β,

z)=β?1

log Nl=1

l)).

(3.6)該能量函數(shù)導(dǎo)致存儲容量為:dC=22. (3.7)更新規(guī)則 現(xiàn)在我們看一下更新規(guī)則(updaterule),該規(guī)則對于式(3.1)及式(3.4)都有效.對于極性模式(polarpatterns),即∈{? }ξ 11dξ[l]l個分量.(3.1及式∈{? }(3.4)的能量函數(shù),第l個分量ξ[l]的更新規(guī)則通過當(dāng)前狀態(tài)ξξ[l]的狀態(tài)的能量之差來描述.分ξ[l]被更新以減小能量.更新規(guī)則為:ξnew[l]=sgn[?E(ξ(l+)[l])+E(ξ(l?)[l])], (3.8)更新規(guī)則 這時(例如對于式(3.4)):ξnewξ

[N

l l)

(expx(

l l)]

,(3.9), N[l]=sgni ξ(+)[]?i ξ(?)[]其中,ξ(l+)[l]=1,ξ(l?)[lN[l]=sgni ξ(+)[]?i ξ(?)[]k?=l).Demircigiletal.(2017)表明(3.4的能量函數(shù)最小的更(異步)ξ之后高概率收斂.注意,ξd個異步更新步驟,即針dξ[l](l=12d)中的每一個的一個更新.Hopfield網(wǎng)絡(luò)相反Hopfield網(wǎng)絡(luò)沒有經(jīng)典Hopfield網(wǎng)絡(luò)的權(quán)重矩陣相反Hopfield網(wǎng)絡(luò)的能量函xiξ的點積的函數(shù)的和.用于連續(xù)值模式和狀態(tài)的新能量函數(shù)及更新規(guī)則 把式(3.5)的能量函數(shù)推廣到連續(xù)值模式.我們使用負(fù)能量方程式(3.5)的對數(shù),并添加一個二次項.二次項可確保狀態(tài)ξ的范數(shù)保持有限.新能量函數(shù)定義為:(E=?lse(β,X?ξ)(

1ξ?2

ξ+β

?1logN+1M22=?β?1log

N

xiξ))+

1ξ?ξ+β?12

logN+

1M2,2(3.10)它由N個連續(xù)的存儲模式通過矩陣X=(x1,x2,...,xN)構(gòu)造而成,其中M是所有存儲模式中的最大范數(shù),即iM=max∥xi∥.iKrotovandHopfield(2016),Hopfield網(wǎng)絡(luò)的存儲模Xξ到隱藏單元的權(quán)重X可以看作從隱ξ的權(quán)重根據(jù)這種解釋我們并不存儲模式而是Hopfield網(wǎng)絡(luò)中那樣僅在模型中使用權(quán)重.6YuilleAL,6YuilleAL,RangarajanA.(2002)Theconcave-convexprocedure(CCCP).InDietterichOctober15,202425/43張敏式(3.10)的能量函數(shù)等式允許通過凹凸過程(Concave-Convex-ProcedureCCCP)ξ的更新規(guī)則andRangarajan(2002)6的描述有下面結(jié)果:總能量E(ξ)分為凸項和凹項:E(ξ)=E1(ξ)+E2(ξ).( ?0.5ξ?ξCE1(ξ(Cξ( ?項 lseβ,X?ξ =E2(ξ)是凹的(因為Hessian是正半定的,所以lse是凸的).ECCCP為:?ξE1(ξ

t+1

)=??ξE2(ξt) (3.11)October15,2024PAGE26/43張敏October15,2024PAGE26/43張敏2( )ξξ?(1ξ?ξ+C)(ξt+1)=?lse(β,X?ξt) (3.12)2( )ξξξt+1=XsoftmaxβX?ξ? , (3.13)其中?ξlse(β,X?ξ)=Xsoftmax(βX?ξ).( )因此,狀態(tài)模式ξ的更新規(guī)則為:( )ξnew=XsoftmaxβX?ξ . (3.14)應(yīng)用凹凸程序獲得更新規(guī)則可確保能量函數(shù)單調(diào)遞減.Ramsaueretal.(2008)234中表明新能量函數(shù)的最重要屬性是:全局收斂到局部最小值.指數(shù)存儲容量.一個更新步驟后的收斂.指數(shù)存儲容量和一個更新步驟后的收斂是從Demircigiletal.(2017)繼承的.(3.14的(3.10)(局部最小值或鞍點).新能量函數(shù)更新與變換器自我關(guān)注的等價性 首先,將新的更新規(guī)則推廣到多個模式,并且做到關(guān)聯(lián)空間的投影.對于S個狀態(tài)模式Ξ=(ξ1,ξ2,...,ξS),式(3.13)可概括為:Ξnew=Xsoftmax(βX?Ξ). (3.15)我們首先將X?視為N個原始存儲模式Y(jié)=(y1,y2,...,yN)?,通過WK映射到一個關(guān)聯(lián)空間,而Ξ?作為S個原始狀態(tài)模式R=(ξ1,ξ2,...,ξS)?,通過WQ映射到關(guān)聯(lián)空間.設(shè)置Q=Ξ?=RWQ, (3.16)K=X?=YWK, (3.17)1β=√dk, (3.18)可得Q=Ksoftmax√dkKQ. Q=Ksoftmax√dkKQ. (3.19)

(1 ?)(3.16(3.17中WQWK是將各自的模式映射到關(guān)聯(lián)空間的矩陣.(3.19中softmax逐列應(yīng)用KQ?.接下來(3.19這也意味著(1 softmax現(xiàn)在按行應(yīng)用于其轉(zhuǎn)置輸入QK?(1 Qnew

=softmax

√dkQK?)

K. (3.20)現(xiàn)在,我們只需要通過另一個投影矩陣WV來投影Qnew:new V

(1 ?) V

(1 ?Z=Q W =softmax

√dkQK KW =softmax

√dkQK(3.21)我們已經(jīng)得到了變換器的關(guān)注.N個原始存儲模式Y(jié)=(y1y2yN)?R,將會獲得變換器的自我專注.October15,202434/43張敏October15,202434/43張敏新Hopfield層 ( )YR重新替代,則(3.21為:( )Z=softmaxβ·RWQWKY?YWKWV, (3.22)Ramsaueretal.(2008)Hopfield層的基礎(chǔ)式( · )(3.22Z是輸出的相當(dāng)于自我專注的結(jié)果模式為原始YRWQ,WK,WV的函數(shù)(3.22可以寫成下面的形式:( · )Z=f(Y,,WQ,K,WV)=softmaxβRQKY?YKV.(3.23)October15,2024PAGE43/43張敏October15,2024PAGE43/43張敏?圖1Hopfield層的示意圖.為了理解圖1及上述結(jié)果我們回顧一下投影到關(guān)聯(lián)空間的過程及投影矩陣:?R=(ξ1

?,ξ2?

,...,ξS)?

WQQ=RWQ;Y=(y1

,y2

,...,yN)?

WK

K=YWK;?KV?

V=KWV.多功能Hopfield層(versatileHopfieldlayer)的模塊在網(wǎng)頁/ml-jku/hopfield-layers中有提供,其功能超越了自我關(guān)注.LNormWQLNormWQLNormKyes yes yesyesRnormalizenoprojectnonormalizenoQLNormWKLNormMatMulScaleMaskSoftmaxyes yesyesmultipleupdatesnononoYnormalizeprojectnormalizeKnoLNormWVLNormyes yes yesno no noYnormalizeprojectnormalizeVMatMul圖1:新Hopfield層Hopfield網(wǎng)絡(luò)上的工作所產(chǎn)生的見解使我們能夠Hopfield層該層可用作現(xiàn)有層的即時替代以及諸如多實例學(xué)習(xí)、基于集合和置換不變學(xué)習(xí)、聯(lián)想學(xué)習(xí)等應(yīng)用上.圖1Hopfield(yes-no)(及默認(rèn)值)為:fromtypingimportOptional,Tuple,Unionnormalize_stored_pattern:bool=True,normalize_stored_pattern_affine:bool=True,normalize_state_pattern:bool=True,normalize_state_pattern_affine:bool=True,normalize_pattern_projection:bool=True,normalize_pattern_projection_affine:bool=True,normalize_hopfield_space:bool=False,normalize_hopfield_space_affine:bool=False,stored_pattern_as_static:bool=False,state_pattern_as_static:bool=False,pattern_projection_as_static:bool=False,pattern_projection_as_connected:bool=False,stored_pattern_size:Optional[int]=None,pattern_projection_size:Optional[int]=None,圖1中總的向前傳播要點為:輸入數(shù)據(jù)到Hopfield關(guān)聯(lián)模型.(padding)(mask)模式.應(yīng)用屏蔽于內(nèi)部關(guān)聯(lián)矩陣.把處理過的輸入數(shù)據(jù)輸出.使用新Hopfield層做檢索Hopfield層做模式檢索.這時不需要可訓(xùn)練的WQ,WK,WV,Z為檢索結(jié)果,R(可能與某些存儲模式相似),Y為存儲模式.下面是公式:Z=softmax(βRY?)Y. (3.24)使用新Hopfield

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論