理解玻爾茲曼機(jī)和深度學(xué)習(xí)

上傳人：d*** IP屬地：山西上傳時(shí)間：2022-07-16 格式：PPT 頁(yè)數(shù)：39 大小：1.47MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩34頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、理解玻爾茲曼機(jī)和深度學(xué)習(xí)2014-11-031動(dòng)機(jī)解釋玻爾茲曼機(jī)（BM）和深度學(xué)習(xí)（DL）模型的經(jīng)驗(yàn)成功啟發(fā)面向維數(shù)約簡(jiǎn)、信息抽象和去噪應(yīng)用的新穎方法和模型2存在的解釋神經(jīng)生理解釋通用近似解釋?zhuān)山菩院徒茝?fù)雜性）規(guī)則化解釋3我們的觀(guān)點(diǎn)現(xiàn)有解釋中包含了有益的啟發(fā)現(xiàn)有解釋遠(yuǎn)不完備，玻爾茲曼機(jī)和深度學(xué)習(xí)的有效性需要基于“第一原則”的形式化澄清信息幾何為形式化解釋提供了理論工具4維數(shù)約簡(jiǎn)、信息抽象和去噪的“第一原則”第一原則：維數(shù)約簡(jiǎn)、信息抽象和去噪應(yīng)該盡可能地保留數(shù)據(jù)中的主要信息，同時(shí)濾除噪聲或次要信息“第一原則”能否被一般地實(shí)現(xiàn)？5存在的方法常用維數(shù)約簡(jiǎn)、信息抽象和去噪算法實(shí)現(xiàn)了“第一原則”嗎

2、？例子：PCA例子：低通濾波6反思基于特征空間的模型似乎都建議在特定先驗(yàn)假設(shè)之上為了更一般地實(shí)現(xiàn)維數(shù)約簡(jiǎn)、信息抽象和去噪目的，有必要考慮替換的數(shù)據(jù)表示空間7我們的基本思路考慮數(shù)據(jù)的參數(shù)空間！一般地定義生成模型的參數(shù)的相對(duì)重要性根據(jù)參數(shù)的相對(duì)重要性，在參數(shù)空間中實(shí)現(xiàn)維數(shù)約簡(jiǎn)、信息抽象和去噪8例子：log-linear分布族與高斯分布滿(mǎn)足參數(shù)約減！9關(guān)鍵技術(shù)問(wèn)題如何一般地定義參數(shù)的相對(duì)重要性？解決方案： 1 定義概率分布或密度之間的距離度量 2 由參數(shù)相對(duì)于距離度量的重要性給出參數(shù)之間的相對(duì)重要性10度量概率分布（或密度）之間距離的“公理”1 滿(mǎn)足基本的度量三公理2 似然一致性：可有效反映統(tǒng)計(jì)推

3、斷的似然性11度量概率分布（或密度）之間距離的“公理”（續(xù)1）3 重參數(shù)化不變性對(duì)于概率分布（或密度）和的任兩種參數(shù)化和，均有這里是距離度量12度量概率分布（或密度）之間距離的“公理”（續(xù)2）4 相對(duì)于變量集上的隨機(jī)映像的單調(diào)性： (1) 如果隨機(jī)映像對(duì)應(yīng)于充分統(tǒng)計(jì)量，則距離度量不變 (2) 否則，距離度量減小13是否存在同時(shí)滿(mǎn)足上述所有公理的距離度量？存在且唯一！里程碑： 1 Fisher (Early 1930) 2 Rao (1945) 3 Cencov (1982)14Fisher-Rao度量單參數(shù)定義多參數(shù)定義15Fisher-Rao距離（信息距離）局域定義：全局定義：16Cr

4、amer-Rao下界與Fisher-Rao度量的似然一致性Fisher信息決定了參數(shù)無(wú)偏估計(jì)的方差下界單參數(shù)情形多參數(shù)情形由參數(shù)估計(jì)的漸進(jìn)正態(tài)性及漸進(jìn)有效性，可直接說(shuō)明Fisher-Rao度量對(duì)應(yīng)于參數(shù)被“誤估計(jì)”的可能性（似然一致性） 17參數(shù)約簡(jiǎn)基本思路（Refined）1 特征空間 - 參數(shù)空間2 利用參數(shù)的Fisher信息，定義參數(shù)的相對(duì)重要性3 根據(jù)參數(shù)的相對(duì)重要性，在參數(shù)空間中實(shí)現(xiàn)維數(shù)約簡(jiǎn)、信息抽象和去噪可信信息優(yōu)先原則（Confident Information First）！18實(shí)例：n布爾變量分布個(gè)布爾型隨機(jī)變量個(gè)布爾型隨機(jī)變量的參數(shù)化中的任意項(xiàng)，這里表示，其余類(lèi)似如何對(duì)

5、上述分布應(yīng)用CIF原則？19實(shí)例：n布爾變量分布（續(xù)1）技術(shù)困難：各個(gè)p參數(shù)具有相等的Fisher信息解決辦法：尋找替換的參數(shù)表示（利用信息幾何）20實(shí)例：n布爾變量分布（續(xù)2）布爾變量分布的坐標(biāo)表示（即參數(shù)化）坐標(biāo)：-1個(gè)歸一化的正數(shù)坐標(biāo)：坐標(biāo)：21實(shí)例：n布爾變量分布（續(xù)3）混合坐標(biāo)：（l-分割混合坐標(biāo)）在混合坐標(biāo)系下，參數(shù)譜系的信息含量（Fisher信息）可建立顯著的層次結(jié)構(gòu)，且低Fisher信息含量的參數(shù)可自然地確定中立值！22玻爾茲曼機(jī)與n布爾變量分布隨機(jī)神經(jīng)網(wǎng)絡(luò)，網(wǎng)絡(luò)的整體能量函數(shù)：玻爾茲曼-吉布斯分布：BM模型參數(shù)23玻爾茲曼機(jī)與CIF原則（1）結(jié)論1(Amari et. al

6、. , 1992)：給定目標(biāo)概率分布：單層波爾茲曼機(jī)（SBM）實(shí)現(xiàn)了2-分割混合坐標(biāo) 上的參數(shù)剪切，即： l-分割混合坐標(biāo) 24玻爾茲曼機(jī)與CIF原則（2）結(jié)論2(Zhao, Hou and et. al., 2013)：SBM實(shí)現(xiàn)的參數(shù)剪切符合CIF原則：保留具有大Fisher信息的參數(shù)，同時(shí)對(duì)小Fisher信息的參數(shù)采用中立估計(jì)。可信參數(shù)非可信參數(shù)25玻爾茲曼機(jī)與CIF原則（3）結(jié)論3(Zhao, Hou and et. al., 2013)：在所有同維度子流行M中，SBM所實(shí)現(xiàn)的映像在期望意義上最大程度地保持概率分布間的Fisher信息距離為以為中心的KL等距球面和分別為在上的投影26

7、玻爾茲曼機(jī)與CIF原則（4）結(jié)論4(Zhao, Hou and et. al., 2013)：給定聯(lián)合概率分布的分?jǐn)?shù)2-分割混合坐標(biāo)： RBM實(shí)現(xiàn)了分?jǐn)?shù)2-分割混合坐標(biāo)下參數(shù)剪切27玻爾茲曼機(jī)與CIF原則（5）結(jié)論5 (Zhao, Hou and et. al., 2013)：RBM實(shí)現(xiàn)的參數(shù)剪切符合CIF原則：保留具有大Fisher信息的參數(shù)，同時(shí)對(duì)小Fisher信息的參數(shù)采用中立估計(jì)可信參數(shù)非可信參數(shù)28玻爾茲曼機(jī)與CIF原則（6）結(jié)論6（貝葉斯分析）：假設(shè)背景分布中的絕大多數(shù)p項(xiàng) 趨近于0，則可證明：由任意被BM剪切掉的參數(shù)所導(dǎo)致的信息距離損失典型地趨近于0；而任意被BM保留的參數(shù)所對(duì)應(yīng)

8、的信息距離典型地大于0。，為小常數(shù)，為任意小常數(shù)，為的階數(shù)29深度結(jié)構(gòu)多層CIF原則的應(yīng)用逐層保持可信信息、并實(shí)現(xiàn)信息抽象在最高層同時(shí)達(dá)到“最可信”和“最抽象”的目標(biāo)30訓(xùn)練波爾茲曼機(jī):-Maximum Likelihood and Contrastive Divergence ML目標(biāo)：最大化log似然函數(shù)隨機(jī)梯度方法分別表示在樣本分布穩(wěn)態(tài)分布和迭代次的近似穩(wěn)態(tài)分布上的期望值正Gibbs采樣：負(fù)Gibbs采樣：CD-m：使用近似梯度31受限波爾茲曼機(jī)（RBM）-迭代映像算法（IP）為所有RBM穩(wěn)態(tài)分布的集合為正Gibbs采樣的樣本分布的集合最小化KL距離：背景分布邊際穩(wěn)態(tài)分布32任務(wù)：5個(gè)顯

9、式變量概率密度估計(jì)受限波爾茲曼機(jī)-迭代映像算法（IP）33基于CIF的模型選擇最小化模型誤差最大保持Fisher信息距離如何區(qū)分可信參數(shù)及非可信參數(shù)？對(duì)Fisher信息距離的貢獻(xiàn)程度大小結(jié)論：對(duì)于布爾分布，BM為同等參數(shù)規(guī)模下的最優(yōu)模型。34對(duì)BM的模型選擇-無(wú)隱含節(jié)點(diǎn)參數(shù)過(guò)多模型復(fù)雜過(guò)度擬合樣本權(quán)衡：模型復(fù)雜度 vs 保留的樣本信息保留可信參數(shù)，約減非可信參數(shù)abcdabcd35BM模型選擇-無(wú)隱含節(jié)點(diǎn)評(píng)價(jià)：10變量的概率密度估計(jì)；對(duì)比模型：隨機(jī)選邊橫軸：參數(shù)保留比率縱軸：與樣本分布（第一行）和真實(shí)分布（第二行）的KL距離36BM模型選擇-有隱含節(jié)點(diǎn)權(quán)衡：模型復(fù)雜度 vs 保留的樣本信息RBM + 可視結(jié)點(diǎn)邊37BM模型選擇-有隱含節(jié)點(diǎn)評(píng)價(jià)：10變量的概率密度估計(jì)(隱變量10個(gè))；對(duì)比模型：隨機(jī)選邊橫軸：參數(shù)保留比率；縱軸：與樣本分布（第一行）和真實(shí)分布（第二行）的KL距離38問(wèn)題和回答X. Zhao, Y. Hou et al: Understanding Deep Learning by Revisiting Boltzmann Machines: An Information Geometry Approach. CoRR abs/1302.3931 (2013).Xiaozhao Zhao, Yuexian Hou et a

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

理解玻爾茲曼機(jī)和深度學(xué)習(xí)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

理解玻爾茲曼機(jī)和深度學(xué)習(xí)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔