教案2021-09深度學(xué)習(xí)1.mlpwin

上傳人：我*** IP屬地：北京上傳時間：2022-10-12 格式：PPTX 頁數(shù)：29 大?。?.25MB 積分：14 舉報 版權(quán)申訴

已閱讀5頁，還剩24頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、深度前饋網(wǎng)絡(luò)Deep Feedforward Network multilayer perceptron MLP AI學(xué)科的關(guān)系人工智能（AI）機器學(xué)習(xí)表示學(xué)習(xí)深度學(xué)習(xí)深度學(xué)習(xí):讓計算機從經(jīng)驗中學(xué)習(xí)，根據(jù)層次化的概念體系來理解世界，每個概念通過與某些相對簡單的概念之間的關(guān)系來定義。深度學(xué)習(xí)思想通過簡單的概念構(gòu)建復(fù)雜的概念1.學(xué)習(xí)數(shù)據(jù)的正確表示2.深度促使計算機學(xué)習(xí)一個多步驟的計算機程序。深度學(xué)習(xí)算法：特定的數(shù)據(jù)集、代價函數(shù)、優(yōu)化過程和模型。代價函數(shù)優(yōu)化過程模型最大似然的理解梯度下降算法隱藏層激活函數(shù)反向傳播學(xué)習(xí) XOR 函數(shù)使用線性模型搭配均方誤差損失函數(shù)得到w0，b0.5。在任意一點都輸出

2、0.5重新審視問題：尋找超平面使樣本分開使用一個模型來學(xué)習(xí)一個不同的特征空間,在這個空間上線性模型能夠表示這個解。學(xué)習(xí) XOR 函數(shù)多層感知機：將一組輸入值映射到輸出值的數(shù)學(xué)函數(shù)。有一層隱藏層并且隱藏層中包含兩個單元。隱藏單元的向量h的值隨后被用作第二層的輸入。第二層就是這個網(wǎng)絡(luò)的輸出層。輸出層仍然只是一個線性回歸模型。學(xué)習(xí) XOR 函數(shù)模型思考：隱藏層：隱節(jié)點代表兩個超平面激活函數(shù)：對非線性樣本的線性化轉(zhuǎn)化算法思考：線性模型和神經(jīng)網(wǎng)絡(luò)的最大區(qū)別,在于神經(jīng)網(wǎng)絡(luò)的非線性導(dǎo)致大多數(shù)我們感興趣的代價函數(shù)都變得非凸。用于非凸損失函數(shù)的隨機梯度下降沒有收斂性保證,并且對參數(shù)的初始值很敏感。對于前饋神

3、經(jīng)網(wǎng)絡(luò),將所有的權(quán)重值初始化為小隨機數(shù)是很重要的。偏置可以初始化為零或者小的正值。Sigmoid VS tanhtanh 函數(shù)實際上是一個放大的 sigmoid 函數(shù)。tanh(x)=2(2x)1把實值得輸入壓縮到-11的范圍，因此它基本是0均值的，解決了上述Sigmoid缺點中的第二個。在 0 附近與單位函數(shù)類似，類似于訓(xùn)練一個線性模型。接收一個實值的信號，將它壓縮到0-1的范圍內(nèi)。特別地，大的負數(shù)被映射成0，大的正數(shù)被映射成1。很好的表達“激活”的意思，未激活就是0，完全飽和的激活則是1。Sigmoids saturate and kill gradients. 當(dāng)使用一個合適的代價函數(shù)來

4、抵消 sigmoid 的飽和性時,它們作為輸出單元可以與基于梯度的學(xué)習(xí)相兼容。 Sigmoid outputs are not zero-centered.softplussoftplus 函數(shù)被設(shè)計成正部函數(shù)(positive part function)的平滑版本。它的范圍是 (0, )。x+=max0,xRelu-線性整流函數(shù)f(x)=max(0,x)隨機梯度下降法（SGD）的收斂速度會比 sigmoid/tanh 快很多（linear，這使得只要整流線性單元處于激活狀態(tài),它的導(dǎo)數(shù)都能保持較大。它的梯度不僅大而且一致，不會飽和）相比于 sigmoid/tanh需要計算指數(shù)等，計算復(fù)雜度

5、高；ReLU 只需要一個閾值就可以得到激活值。脆弱神經(jīng)元”壞死”。初始化仿射變換的參數(shù)時,將所有元素設(shè)置成一個小的正值,例如 0.1。使得整流線性單元很可能初始時就對訓(xùn)練集中的大多數(shù)輸入呈現(xiàn)激活狀態(tài), 注：在 x = 0 處不可微。在實踐中,梯度下降對這些機器學(xué)習(xí)模型仍然表現(xiàn)得足夠好。神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法中不再期望訓(xùn)練能夠?qū)嶋H到達梯度為 0 的點,而是僅僅顯著地減小它的值，所以代價函數(shù)的最小值對應(yīng)于梯度未定義的點是可以接受的。 Relu-線性整流函數(shù)不能通過基于梯度的方法學(xué)習(xí)那些使它們激活為零的樣本。整流線性單元的各種擴展保證了它們能在各個位置都接收到梯度。 absolute value rec

6、tificationLeaky ReLUparametric ReLUMaxout NetworksReLU 和 Leaky ReLU 都是Maxout的一個變形將劃分為每組具有 k 個值的組,而不是使用作用于每個元素的函數(shù) g(z)傳統(tǒng)的MLP算法在第i層到第i+1層，參數(shù)只有一組，然而現(xiàn)在我們在這一層同時訓(xùn)練n組參數(shù)，然后選擇激活值最大的作為下一層神經(jīng)元的激活值。maxout激活函數(shù)并不是一個固定的函數(shù)，不像Sigmod、Relu、Tanh等函數(shù)，是一個固定的函數(shù)方程一個分段線性函數(shù)一個可學(xué)習(xí)的激活函數(shù)參數(shù)個數(shù)成k倍增加信息論補充知識主要使用信息論的一些關(guān)鍵思想來描述概率分布或者量化概率

7、分布之間的相似性。如果我們對于同一個隨機變量有兩個單獨的概率分布 P (x) 和 Q(x),我們可以使用 KL 散度(Kullback-Leibler divergence)or相對熵（relative entropy)來衡量這兩個分布的差異:當(dāng)用概率分布Q來擬合真實分布P時，產(chǎn)生的信息損耗。交叉熵(cross-entropy)：H(P,Q) = H(P) + DKL (P |Q)代價函數(shù)以我們的參數(shù)模型定義了一個分布 p(y|x; ) 并且我們簡單地使用最大似然原理。這意味著我們使用訓(xùn)練數(shù)據(jù)和模型預(yù)測間的交叉熵作為代價函數(shù)。神經(jīng)網(wǎng)絡(luò)的代價函數(shù)基本是和其他的參數(shù)模型例如線性模型的代價函數(shù)相同

8、的，再結(jié)合一個正則項（權(quán)重衰減）。優(yōu)點：它減輕了為每個模型設(shè)計代價函數(shù)的負擔(dān)。明確一個模型則自動地確定了一個代價函數(shù)。負的對數(shù)似然幫助我們在很多模型中抵消激活函數(shù)飽和問題?；谔荻鹊膬?yōu)化最小化或最大化的函數(shù)稱為目標(biāo)函數(shù) 。對其進行最小化時,我們也把它稱為代價函數(shù)(cost function)、損失函數(shù)(loss function)或誤差函數(shù)(error function)。導(dǎo)數(shù)：表明如何縮放輸入的小變化才能在輸出獲得相應(yīng)的變化:01J(0,1)輸入和輸出都為向量的函數(shù)的所有偏導(dǎo)數(shù)。包含所有這樣的偏導(dǎo)數(shù)的矩陣被稱為 Jacobian矩陣。當(dāng)我們的函數(shù)具有多維輸入時,二階導(dǎo)數(shù)也有很多。我們可

9、以將這些導(dǎo)數(shù)合并成一個矩陣,稱為 Hessian矩陣。Hessian 等價于梯度的 Jacobian 矩陣。函數(shù)的原始值、函數(shù)斜率導(dǎo)致的預(yù)期改善、函數(shù)曲率導(dǎo)致的校正。梯度算法的要求初始值的設(shè)置線性模型和神經(jīng)網(wǎng)絡(luò)的最大區(qū)別,在于神經(jīng)網(wǎng)絡(luò)的非線性導(dǎo)致大多數(shù)我們感興趣的代價函數(shù)都變得非凸。用于非凸損失函數(shù)的隨機梯度下降沒有收斂性保證,并且對參數(shù)的初始值很敏感。無論何時模型給出了錯誤的答案時,總能有一個較大的梯度。權(quán)重值初始化為小隨機數(shù)。反向傳播向前傳播：信息通過網(wǎng)絡(luò)向前流動。在訓(xùn)練過程中,前向傳播可以持續(xù)向前直到它產(chǎn)生一個標(biāo)量代價函數(shù) J()。反向傳播(back propagation)算法：允許

10、來自代價函數(shù)的信息通過網(wǎng)絡(luò)向后流動, 以便計算梯度。最常需要的梯度是代價函數(shù)關(guān)于參數(shù)的梯度。反向傳播是一種計算鏈式法則的算法,使用高效的特定運算順序。要算什么？單個樣本代價函數(shù)整體代價函數(shù)（包含正則項-權(quán)重衰減）迭代更新如何計算偏導(dǎo)？反向傳播算法用矩陣-向量表示法重寫算法沒有免費的午餐定理在所有可能的數(shù)據(jù)生成分布上平均之后,每一個分類算法在未事先觀測的點上都有相同的錯誤率。換言之,在某種意義上,沒有一個機器學(xué)習(xí)算法總是比其他的要好。必須在特定任務(wù)上設(shè)計性能良好的機器學(xué)習(xí)算法。正則化與過擬合萬能近似定理一個前饋神經(jīng)網(wǎng)絡(luò)如果具有線性輸出層和至少一層具有任何一種擠壓性質(zhì)的激活函數(shù)(例如logistic sigmoid激活函數(shù))的隱藏層,只要給予網(wǎng)絡(luò)足夠數(shù)量的隱藏單元,它可以以任意的精度來近似任何從一個有限維空間到另一個有限維空間的 Borel 可測函數(shù)。架構(gòu)深度具有單隱層的前饋網(wǎng)絡(luò)足以表示任何函數(shù),但是網(wǎng)絡(luò)層可能大得不可實現(xiàn), 并且可能無法正確地學(xué)習(xí)和泛化。我們還可能出于統(tǒng)

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

教案2021-09深度學(xué)習(xí)1.mlpwin

文檔簡介

溫馨提示

最新文檔

評論

教案2021-09深度學(xué)習(xí)1.mlpwin

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔