理解玻爾茲曼機(jī)和深度學(xué)習(xí)_第1頁(yè)
理解玻爾茲曼機(jī)和深度學(xué)習(xí)_第2頁(yè)
理解玻爾茲曼機(jī)和深度學(xué)習(xí)_第3頁(yè)
理解玻爾茲曼機(jī)和深度學(xué)習(xí)_第4頁(yè)
理解玻爾茲曼機(jī)和深度學(xué)習(xí)_第5頁(yè)
已閱讀5頁(yè),還剩34頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、理解玻爾茲曼機(jī)和深度學(xué)習(xí)2014-11-031動(dòng)機(jī)解釋玻爾茲曼機(jī)(BM)和深度學(xué)習(xí)(DL)模型的經(jīng)驗(yàn)成功啟發(fā)面向維數(shù)約簡(jiǎn)、信息抽象和去噪應(yīng)用的新穎方法和模型2存在的解釋神經(jīng)生理解釋通用近似解釋?zhuān)山菩院徒茝?fù)雜性)規(guī)則化解釋3我們的觀(guān)點(diǎn)現(xiàn)有解釋中包含了有益的啟發(fā)現(xiàn)有解釋遠(yuǎn)不完備,玻爾茲曼機(jī)和深度學(xué)習(xí)的有效性需要基于“第一原則”的形式化澄清信息幾何為形式化解釋提供了理論工具4維數(shù)約簡(jiǎn)、信息抽象和去噪的“第一原則”第一原則:維數(shù)約簡(jiǎn)、信息抽象和去噪應(yīng)該盡可能地保留數(shù)據(jù)中的主要信息,同時(shí)濾除噪聲或次要信息“第一原則”能否被一般地實(shí)現(xiàn)?5存在的方法常用維數(shù)約簡(jiǎn)、信息抽象和去噪算法實(shí)現(xiàn)了“第一原則”嗎

2、?例子:PCA例子:低通濾波6反思基于特征空間的模型似乎都建議在特定先驗(yàn)假設(shè)之上為了更一般地實(shí)現(xiàn)維數(shù)約簡(jiǎn)、信息抽象和去噪目的,有必要考慮替換的數(shù)據(jù)表示空間7我們的基本思路考慮數(shù)據(jù)的參數(shù)空間!一般地定義生成模型的參數(shù)的相對(duì)重要性根據(jù)參數(shù)的相對(duì)重要性,在參數(shù)空間中實(shí)現(xiàn)維數(shù)約簡(jiǎn)、信息抽象和去噪8例子:log-linear分布族與高斯分布 滿(mǎn)足參數(shù)約減!9關(guān)鍵技術(shù)問(wèn)題如何一般地定義參數(shù)的相對(duì)重要性?解決方案: 1 定義概率分布或密度之間的距離度量 2 由參數(shù)相對(duì)于距離度量的重要性給出參數(shù)之間的相對(duì)重要性10度量概率分布(或密度)之間距離的“公理”1 滿(mǎn)足基本的度量三公理2 似然一致性:可有效反映統(tǒng)計(jì)推

3、斷的似然性11度量概率分布(或密度)之間距離的“公理”(續(xù)1)3 重參數(shù)化不變性 對(duì)于概率分布(或密度)和的任兩種參數(shù)化和,均有 這里是距離度量12度量概率分布(或密度)之間距離的“公理”(續(xù)2)4 相對(duì)于變量集上的隨機(jī)映像的單調(diào)性: (1) 如果隨機(jī)映像對(duì)應(yīng)于充分統(tǒng)計(jì)量,則距離度量不變 (2) 否則,距離度量減小13是否存在同時(shí)滿(mǎn)足上述所有公理的距離度量?存在且唯一!里程碑: 1 Fisher (Early 1930) 2 Rao (1945) 3 Cencov (1982)14Fisher-Rao度量單參數(shù)定義多參數(shù)定義15Fisher-Rao距離(信息距離)局域定義: 全局定義:16Cr

4、amer-Rao下界與Fisher-Rao度量的似然一致性Fisher信息決定了參數(shù)無(wú)偏估計(jì)的方差下界 單參數(shù)情形 多參數(shù)情形由參數(shù)估計(jì)的漸進(jìn)正態(tài)性及漸進(jìn)有效性,可直接說(shuō)明Fisher-Rao度量對(duì)應(yīng)于參數(shù)被“誤估計(jì)”的可能性(似然一致性) 17參數(shù)約簡(jiǎn)基本思路(Refined)1 特征空間 - 參數(shù)空間2 利用參數(shù)的Fisher信息,定義參數(shù)的相對(duì)重要性3 根據(jù)參數(shù)的相對(duì)重要性,在參數(shù)空間中實(shí)現(xiàn)維數(shù)約簡(jiǎn)、信息抽象和去噪可信信息優(yōu)先原則(Confident Information First)!18實(shí)例:n布爾變量分布個(gè)布爾型隨機(jī)變量個(gè)布爾型隨機(jī)變量的參數(shù)化中的任意項(xiàng),這里表示,其余類(lèi)似如何對(duì)

5、上述分布應(yīng)用CIF原則?19實(shí)例:n布爾變量分布(續(xù)1)技術(shù)困難:各個(gè)p參數(shù)具有相等的Fisher信息解決辦法:尋找替換的參數(shù)表示(利用信息幾何)20實(shí)例:n布爾變量分布(續(xù)2)布爾變量分布的坐標(biāo)表示(即參數(shù)化)坐標(biāo):-1個(gè)歸一化的正數(shù)坐標(biāo):坐標(biāo):21實(shí)例:n布爾變量分布(續(xù)3)混合坐標(biāo): (l-分割混合坐標(biāo))在混合坐標(biāo)系下,參數(shù)譜系的信息含量(Fisher信息)可建立顯著的層次結(jié)構(gòu),且低Fisher信息含量的參數(shù)可自然地確定中立值!22玻爾茲曼機(jī)與n布爾變量分布隨機(jī)神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的整體能量函數(shù):玻爾茲曼-吉布斯分布:BM模型參數(shù)23玻爾茲曼機(jī)與CIF原則(1)結(jié)論1(Amari et. al

6、. , 1992):給定目標(biāo)概率分布: 單層波爾茲曼機(jī)(SBM)實(shí)現(xiàn)了2-分割混合坐標(biāo) 上的參數(shù)剪切,即: l-分割混合坐標(biāo) 24玻爾茲曼機(jī)與CIF原則(2)結(jié)論2(Zhao, Hou and et. al., 2013):SBM實(shí)現(xiàn)的參數(shù)剪切符合CIF原則:保留具有大Fisher信息的參數(shù),同時(shí)對(duì)小Fisher信息的參數(shù)采用中立估計(jì)。可信參數(shù)非可信參數(shù)25玻爾茲曼機(jī)與CIF原則(3)結(jié)論3(Zhao, Hou and et. al., 2013):在所有同維度子流行M中,SBM所實(shí)現(xiàn)的映像在期望意義上最大程度地保持概率分布間的Fisher信息距離為以為中心的KL等距球面和分別為在上的投影26

7、玻爾茲曼機(jī)與CIF原則(4)結(jié)論4(Zhao, Hou and et. al., 2013):給定聯(lián)合概率分布的分?jǐn)?shù)2-分割混合坐標(biāo): RBM實(shí)現(xiàn)了分?jǐn)?shù)2-分割混合坐標(biāo)下參數(shù)剪切27玻爾茲曼機(jī)與CIF原則(5)結(jié)論5 (Zhao, Hou and et. al., 2013):RBM實(shí)現(xiàn)的參數(shù)剪切符合CIF原則:保留具有大Fisher信息的參數(shù),同時(shí)對(duì)小Fisher信息的參數(shù)采用中立估計(jì)可信參數(shù)非可信參數(shù)28玻爾茲曼機(jī)與CIF原則(6)結(jié)論6(貝葉斯分析):假設(shè)背景分布中的絕大多數(shù)p項(xiàng) 趨近于0,則可證明:由任意被BM剪切掉的參數(shù)所導(dǎo)致的信息距離損失典型地趨近于0;而任意被BM保留的參數(shù)所對(duì)應(yīng)

8、的信息距離典型地大于0。,為小常數(shù),為任意小常數(shù),為的階數(shù)29深度結(jié)構(gòu)多層CIF原則的應(yīng)用逐層保持可信信息、并實(shí)現(xiàn)信息抽象在最高層同時(shí)達(dá)到“最可信”和“最抽象”的目標(biāo)30訓(xùn)練波爾茲曼機(jī):-Maximum Likelihood and Contrastive Divergence ML目標(biāo):最大化log似然函數(shù)隨機(jī)梯度方法分別表示在樣本分布穩(wěn)態(tài)分布和迭代次的近似穩(wěn)態(tài)分布上的期望值正Gibbs采樣:負(fù)Gibbs采樣:CD-m:使用近似梯度31受限波爾茲曼機(jī)(RBM)-迭代映像算法(IP)為所有RBM穩(wěn)態(tài)分布的集合為正Gibbs采樣的樣本分布的集合最小化KL距離:背景分布邊際穩(wěn)態(tài)分布32任務(wù):5個(gè)顯

9、式變量概率密度估計(jì)受限波爾茲曼機(jī)-迭代映像算法(IP)33基于CIF的模型選擇最小化模型誤差最大保持Fisher信息距離如何區(qū)分可信參數(shù)及非可信參數(shù)?對(duì)Fisher信息距離的貢獻(xiàn)程度大小結(jié)論:對(duì)于布爾分布,BM為同等參數(shù)規(guī)模下的最優(yōu)模型。34對(duì)BM的模型選擇-無(wú)隱含節(jié)點(diǎn)參數(shù)過(guò)多模型復(fù)雜過(guò)度擬合樣本權(quán)衡:模型復(fù)雜度 vs 保留的樣本信息保留可信參數(shù),約減非可信參數(shù)abcdabcd35BM模型選擇-無(wú)隱含節(jié)點(diǎn)評(píng)價(jià):10變量的概率密度估計(jì);對(duì)比模型:隨機(jī)選邊橫軸:參數(shù)保留比率縱軸:與樣本分布(第一行)和真實(shí)分布(第二行)的KL距離36BM模型選擇-有隱含節(jié)點(diǎn)權(quán)衡:模型復(fù)雜度 vs 保留的樣本信息RBM + 可視結(jié)點(diǎn)邊37BM模型選擇-有隱含節(jié)點(diǎn)評(píng)價(jià):10變量的概率密度估計(jì)(隱變量10個(gè));對(duì)比模型:隨機(jī)選邊橫軸:參數(shù)保留比率;縱軸:與樣本分布(第一行)和真實(shí)分布(第二行)的KL距離38問(wèn)題和回答X. Zhao, Y. Hou et al: Understanding Deep Learning by Revisiting Boltzmann Machines: An Information Geometry Approach. CoRR abs/1302.3931 (2013).Xiaozhao Zhao, Yuexian Hou et a

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論