




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、深度學(xué)習(xí)準(zhǔn)備稿監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)有一類學(xué)習(xí)方法叫做監(jiān)督學(xué)習(xí),它是說為了訓(xùn)練一個(gè)模型,我們要提供這樣一堆訓(xùn)練樣本:每個(gè)訓(xùn)練樣本既包括輸入特征x,也包括對應(yīng)的輸出y(y也叫做標(biāo)記,label)。也就是說,我們要找到很多人,我們既知道他們的特征(工作年限,行業(yè).),也知道他們的收入。另外一類學(xué)習(xí)方法叫做無監(jiān)督學(xué)習(xí),這種方法的訓(xùn)練樣本中只有x而沒有y。模型可以總結(jié)出特征x的一些規(guī)律,但是無法知道其對應(yīng)的答案y。機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)是給定一些訓(xùn)練樣本,讓計(jì)算機(jī)自動(dòng)尋找一個(gè)決策函數(shù)f()來建立x和丫之間的關(guān)系。損失函數(shù)我們還要建立一些準(zhǔn)則來衡量決策函數(shù)的好壞。在很多機(jī)器學(xué)習(xí)算法中,一般是定義一個(gè)損失
2、函數(shù),然后在所有的訓(xùn)練樣本上來評價(jià)決策函數(shù)的風(fēng)險(xiǎn)。用對參數(shù)求經(jīng)驗(yàn)風(fēng)險(xiǎn)來逐漸逼近理想的期望風(fēng)險(xiǎn)的最小值,就是我們常說的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則。我們的目標(biāo)就是變成了找到一個(gè)參數(shù)使得經(jīng)驗(yàn)風(fēng)險(xiǎn)最小。過擬合經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則很容易導(dǎo)致模型在訓(xùn)練集上錯(cuò)誤率很低,但是在未知數(shù)據(jù)上錯(cuò)誤率很高。這就是所謂的過擬合。過擬合問題往往是由于訓(xùn)練數(shù)據(jù)少和噪聲等原因造成的。解決過擬合問題為了解決過擬合問題,一般在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的原則上加上參數(shù)的正則化,也叫結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則。常見的損失函數(shù)0-1損失函數(shù)平方損失函數(shù)交叉熵?fù)p失函數(shù)(負(fù)對數(shù)似然損失函數(shù))Hinge損失函數(shù)批量梯度下降法與隨機(jī)梯度下降法的區(qū)別區(qū)別在于每次迭代的風(fēng)險(xiǎn)
3、是對所有樣本匯總的風(fēng)險(xiǎn)還是單個(gè)樣本的風(fēng)險(xiǎn)。隨機(jī)梯度下降法因?yàn)閷?shí)現(xiàn)簡單,收斂速度也非常快,因此使用非常廣泛。學(xué)習(xí)率設(shè)置在梯度下降中,學(xué)習(xí)率的取值非常關(guān)鍵,如果過大就不會(huì)收斂,如果過小則收斂速度太慢。一般步長可以由線性搜索算法來確定。在機(jī)器學(xué)習(xí)中,經(jīng)常使用自適應(yīng)調(diào)整學(xué)習(xí)率的方法。線性回歸如果輸入乂是列向量,目標(biāo)丫是連續(xù)值(實(shí)數(shù)或連續(xù)整數(shù)),預(yù)測函數(shù)f(x)的輸出也是連續(xù)值。這種機(jī)器學(xué)習(xí)問題是回歸問題。線性回歸的損失函數(shù)通常定義為平方損失函數(shù)。模型的經(jīng)驗(yàn)風(fēng)險(xiǎn)為。最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)。線性分類Logistic回歸給定N個(gè)樣本,我們使用交叉熵?fù)p失函數(shù)。模型在訓(xùn)練集的風(fēng)險(xiǎn)函數(shù)為。采用批量梯度下降法進(jìn)行權(quán)值更新。
4、多類線性分類SoftMax回歸是Logistic回歸的多類推廣給定N個(gè)樣本我們使用交叉熵?fù)p失函數(shù)。模型在訓(xùn)練集的風(fēng)險(xiǎn)函數(shù)為。采用批量梯度下降法進(jìn)行權(quán)值更新。評價(jià)方法正確率錯(cuò)誤率準(zhǔn)確率召回率F1值一綜合的評價(jià)指標(biāo)感知器生物神經(jīng)細(xì)胞細(xì)胞體樹突軸突突觸感知器模型兩類感知器算法人工神經(jīng)網(wǎng)絡(luò):前饋神經(jīng)網(wǎng)絡(luò)、反饋神經(jīng)網(wǎng)絡(luò)。神經(jīng)元及其模型前饋神經(jīng)網(wǎng)絡(luò)及其模型前饋網(wǎng)絡(luò)應(yīng)用于機(jī)器學(xué)習(xí)前饋神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù)。采用批量梯度下降法更新權(quán)值。用反向傳播算法計(jì)算bxy)和mw,b;x,y)。dW(i)db(i)反向傳播算法第l層的誤差項(xiàng)可以通過第l+1層的誤差項(xiàng)計(jì)算得到。這就是誤差的反向傳播(Backpropagatio
5、n,BP)。反向傳播算法的含義是:第l層的一個(gè)神經(jīng)元的誤差項(xiàng)(或敏感性)是所有與該神經(jīng)元相連的第l+1層的神經(jīng)元的誤差項(xiàng)的權(quán)重和。然后,在乘上該神經(jīng)元激活函數(shù)的梯度。前饋神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程可以分為以下三步:(1)先前饋計(jì)算每一層的狀態(tài)和激活值,直到最后一層;(2)反向傳播計(jì)算每一層的誤差;(3)計(jì)算每一層參數(shù)的偏導(dǎo)數(shù),并更新參數(shù)。梯度消失問題sigmoid型函數(shù)的值域都小于1。這樣誤差經(jīng)過每一層傳遞都會(huì)不斷衰減。當(dāng)網(wǎng)絡(luò)層數(shù)很深時(shí),梯度就會(huì)不停的衰減,甚至消失,使得整個(gè)網(wǎng)絡(luò)很難訓(xùn)練。這就是所謂的梯度消失問題(VanishingGradientProblem),也叫梯度彌散。減輕梯度消失問題的一個(gè)
6、方法是使用線性激活函數(shù)(比如rectifier函數(shù))或近似線性函數(shù)(比如softplus函數(shù))。這樣,激活函數(shù)的導(dǎo)數(shù)為,誤差可以很好地傳播,訓(xùn)練速度得到了很大的提高。卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)是一種前饋神經(jīng)網(wǎng)絡(luò)。感受野主要是指聽覺系統(tǒng)、本體感覺系統(tǒng)和視覺系統(tǒng)中神經(jīng)元的一些性質(zhì)。比如在視覺神經(jīng)系統(tǒng)中,一個(gè)神經(jīng)元的感受野是指視網(wǎng)膜上的特定區(qū)域,只有這個(gè)區(qū)域內(nèi)的刺激才能夠激活該神經(jīng)元。卷積神經(jīng)網(wǎng)絡(luò)有三個(gè)結(jié)構(gòu)上的特性:局部連接、權(quán)重共享以及空間或時(shí)間上的次采樣。卷積神經(jīng)網(wǎng)絡(luò)具有一定程度上的平移、縮放和扭曲不變性。卷積神經(jīng)網(wǎng)絡(luò)由卷積層和下采
7、樣層交替層疊而成。卷積層采用權(quán)重共享,使得網(wǎng)絡(luò)的參數(shù)減少;下采樣層由于采用最大值或均值下采樣的方式,使得圖像維度降低。卷積層:用卷積來代替全連接在全連接前饋神經(jīng)網(wǎng)絡(luò)中,當(dāng)m和n都很大時(shí),權(quán)重矩陣的參數(shù)非常多,訓(xùn)練的效率會(huì)非常低。如果采用卷積來代替全連接,第l層的每一個(gè)神經(jīng)元都只和第l-1層的一個(gè)局部窗口內(nèi)的神經(jīng)元相連,構(gòu)成一個(gè)局部連接網(wǎng)絡(luò)。權(quán)值共享子采樣層卷積層雖然可以顯著減少連接的個(gè)數(shù),但是每一個(gè)特征映射的神經(jīng)元個(gè)數(shù)并沒有顯著減少。這樣,如果后面接一個(gè)分類器,分類器的輸入維數(shù)依然很高,很容易出現(xiàn)過擬合。為了解決這個(gè)問題,在卷積神經(jīng)網(wǎng)絡(luò)一般會(huì)在卷積層之后再加上一個(gè)池化(Pooling)操作,也
8、就是子采樣(Subsampling),構(gòu)成一個(gè)子采樣層。子采樣層可以用來大大降低特征映射的維數(shù),避免過擬合。子采樣的作用還在于可以使得下一層的神經(jīng)元對一些小的形態(tài)改變保持不變性,并擁有更大的感受野。循環(huán)神經(jīng)網(wǎng)絡(luò)前饋神經(jīng)網(wǎng)絡(luò)的輸入和輸出的維數(shù)都是固定的,不能任意改變。當(dāng)處理序列數(shù)據(jù)時(shí),前饋神經(jīng)網(wǎng)絡(luò)就無能力為了。因?yàn)樾蛄袛?shù)據(jù)是變長的。循環(huán)神經(jīng)網(wǎng)絡(luò)通過使用帶自反饋的神經(jīng)元,能夠處理任意長度的序列。循環(huán)神經(jīng)網(wǎng)絡(luò)比前饋神經(jīng)網(wǎng)絡(luò)更加符合生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。循環(huán)神經(jīng)網(wǎng)絡(luò)已經(jīng)被廣泛應(yīng)用在語音識別、語言模型以及自然語言生成等任務(wù)上。循環(huán)神經(jīng)網(wǎng)絡(luò)的一個(gè)最大問題是訓(xùn)練時(shí)梯度需要隨著時(shí)間進(jìn)行反向傳播。當(dāng)輸入序列比較長
9、時(shí),會(huì)存在梯度爆炸和消失問題。循環(huán)神經(jīng)網(wǎng)絡(luò)又稱遞歸神經(jīng)網(wǎng)絡(luò)。遞歸神經(jīng)網(wǎng)絡(luò)會(huì)對前面的信息進(jìn)行記憶,并應(yīng)用于當(dāng)前層計(jì)算輸出,即隱層之間的節(jié)點(diǎn)有連接。遞歸神經(jīng)網(wǎng)絡(luò)一次處理一個(gè)輸入序列元素,每個(gè)節(jié)點(diǎn)同時(shí)包含過去時(shí)刻序列元素的歷史信息。長期依賴問題雖然簡單循環(huán)網(wǎng)絡(luò)從理論上可以建立長時(shí)間間隔的狀態(tài)之間的依賴關(guān)系(Long-TermDependencies),但是由于梯度爆炸或消失問題,實(shí)際上只能學(xué)習(xí)到短周期的依賴關(guān)系。這就是所謂的長期依賴問題。長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LongShort-TermMemoryNeuralNetwork,LSTM)LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)的一個(gè)變體,可以有效地解決簡單循環(huán)神經(jīng)網(wǎng)絡(luò)的
10、梯度爆炸或消失問題。LSTM模型的關(guān)鍵是引入了一組記憶單元(MemoryUnits),允許網(wǎng)絡(luò)可以學(xué)習(xí)何時(shí)遺忘歷史信息,何時(shí)用新信息更新記憶單元。LSTM可以學(xué)習(xí)到長周期的歷史信息。AlphaGo線下學(xué)習(xí)過程分為三個(gè)訓(xùn)練階段。第1階段:利用16萬多幅專業(yè)棋手對局的棋譜來訓(xùn)練兩個(gè)網(wǎng)絡(luò)。一個(gè)是基于全局特征和深度卷積網(wǎng)絡(luò)(CNN)訓(xùn)練出來的策略網(wǎng)絡(luò)(PolicyNetwork)。其主要作用是給定當(dāng)前盤面狀態(tài)作為輸入,輸出下一步棋在棋盤其它空地上的落子概率。另一個(gè)是利用局部特征和線性模型訓(xùn)練出來的快速走棋策略(RolloutPolicy)。策略網(wǎng)絡(luò)速度較慢,但精度較高;快速走棋策略反之。第2階段:利用
11、第l輪的策略網(wǎng)絡(luò)與先前訓(xùn)練好的策略網(wǎng)絡(luò)互相對弈,利用增強(qiáng)式學(xué)習(xí)來修正第l輪的策略網(wǎng)絡(luò)的參數(shù),最終得到增強(qiáng)的策略網(wǎng)絡(luò)。這部分被很多“磚”家極大的鼓吹,但實(shí)際上應(yīng)該存在理論上的瓶頸(提升能力有限)。這就好比2個(gè)6歲的小孩不斷對弈,其水平就會(huì)達(dá)到職業(yè)9段?第3階段:先利用普通的策略網(wǎng)絡(luò)來生成棋局的前U-1步(U是一個(gè)屬于1,450的隨機(jī)變量),然后利用隨機(jī)采樣來決定第U步的位置(這是為了增加棋的多樣性,防止過擬合)。隨后,利用增強(qiáng)的策略網(wǎng)絡(luò)來完成后面的自我對弈過程,直至棋局結(jié)束分出勝負(fù)。此后,第U步的盤面作為特征輸入,勝負(fù)作為label,學(xué)習(xí)一個(gè)價(jià)值網(wǎng)絡(luò)(ValueNetwork),用于判斷結(jié)果的輸
12、贏概率。價(jià)值網(wǎng)絡(luò)其實(shí)是AlphaGo的一大創(chuàng)新,圍棋最為困難的地方在于很難根據(jù)當(dāng)前的局勢來判斷最后的結(jié)果,這點(diǎn)職業(yè)棋手也很難掌握。通過大量的自我對弈,AlphaGo產(chǎn)生了3000萬盤棋局,用來訓(xùn)練價(jià)值網(wǎng)絡(luò)。但由于圍棋的搜索空間太大,3000萬盤棋局也不能幫AlphaGo完全攻克這個(gè)問題。在線對弈過程包括以下5個(gè)關(guān)鍵步驟:其核心思想是在蒙特卡羅搜索樹(MCTS)中嵌入了深度神經(jīng)網(wǎng)絡(luò)來減少搜索空間。AlphaGo并沒有具備真正的思維能力。1.根據(jù)當(dāng)前盤面已經(jīng)落子的情況提取相應(yīng)特征。.利用策略網(wǎng)絡(luò)估計(jì)出棋盤其他空地的落子概率。.根據(jù)落子概率來計(jì)算此處往下發(fā)展的權(quán)重,初始值為落子概率本身(如0.18)
13、。實(shí)際情況可能是一個(gè)以概率值為輸入的函數(shù),此處為了理解簡便。.利用價(jià)值網(wǎng)絡(luò)和快速走棋網(wǎng)絡(luò)分別判斷局勢,兩個(gè)局勢得分相加為此處最后走棋獲勝的得分。這里使用快速走棋策略是一個(gè)用速度來換取量的方法,從被判斷的位置出發(fā),快速行棋至最后,每一次行棋結(jié)束后都會(huì)有個(gè)輸贏結(jié)果,然后綜合統(tǒng)計(jì)這個(gè)節(jié)點(diǎn)對應(yīng)的勝率。而價(jià)值網(wǎng)絡(luò)只要根據(jù)當(dāng)前的狀態(tài)便可直接評估出最后的結(jié)果。兩者各有優(yōu)缺點(diǎn)、互補(bǔ)。.利用第4步計(jì)算的得分來更新之前那個(gè)走棋位置的權(quán)重(如從0.18變成了0.12);此后,從權(quán)重最大的0.15那條邊開始繼續(xù)搜索和更新。這些權(quán)重的更新過程應(yīng)該是可以并行的。當(dāng)某個(gè)節(jié)點(diǎn)的被訪問次數(shù)超過了一定的門限值,則在蒙特卡羅樹上進(jìn)
14、一步展開下一級別的搜索(如圖2所示)。AlphaGo的弱點(diǎn)1.攻其策略網(wǎng)絡(luò),加大搜索空間。進(jìn)入中盤后,職業(yè)選手如能建立起比較復(fù)雜的局面,每一步棋都牽連很多個(gè)局部棋的命運(yùn)(避免單塊、局部作戰(zhàn)),則AlphaGo需要搜索空間則急劇加大,短時(shí)間內(nèi)得到的解的精度就會(huì)大打折扣。通俗地說,非常復(fù)雜的變化,人算不清楚,現(xiàn)階段計(jì)算機(jī)的計(jì)算力更沒辦法。為了在一定的時(shí)間內(nèi)有結(jié)果,只能放棄搜索精度。2.攻其價(jià)值網(wǎng)絡(luò),萬劫不復(fù)。AlphaGo的價(jià)值網(wǎng)絡(luò)極大地提高了之前單純依靠MCTS來做局勢判斷的精度,但離準(zhǔn)確判斷圍棋局勢還有不小的差距。神經(jīng)網(wǎng)絡(luò)還不能完全避免在某些時(shí)候出現(xiàn)一些怪異(甚至錯(cuò)誤)的判斷,更何況其訓(xùn)練樣本
15、還遠(yuǎn)遠(yuǎn)不足。這也是為什么有了價(jià)值網(wǎng)絡(luò)還仍然需要依靠快速走棋來判斷局勢。大家都曾經(jīng)懷疑過AlphaGo的打劫能力,也感覺到了AlphaGo有躲避打劫的跡象。不能說AlphaGo不會(huì)打劫,而是害怕在棋局早期的多劫并存。打劫要乘早,太晚了搜索空間變小,即便價(jià)值網(wǎng)絡(luò)失效,還可以靠快速走棋網(wǎng)絡(luò)來彌補(bǔ)。開劫應(yīng)該以在剛剛進(jìn)入中盤時(shí)期為好(太早劫財(cái)還不夠),并且保持長時(shí)間不消劫,最好在盤面上能同時(shí)有兩處以上打劫。沒有了價(jià)值網(wǎng)絡(luò)的AlphaGo其實(shí)水平也就職業(yè)3-5段左右。AlphaGoZeroAlphaGoZero的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)AlphaGoZerc的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包含卷積層、批歸一化層、全連接層。批歸一化層:殘差函數(shù)引入批歸一化(batchnormalization,BN)作優(yōu)化,使神經(jīng)網(wǎng)絡(luò)輸出分布白化,從而使數(shù)據(jù)歸一化來抑制梯度彌散或是爆炸現(xiàn)象卷積層:在全連接前饋神經(jīng)網(wǎng)絡(luò)中,當(dāng)m和n都很大時(shí),權(quán)重矩陣的參數(shù)非常多,訓(xùn)練的效率會(huì)非常低。如果采用卷積來代替全連接,第l層的每一個(gè)神經(jīng)元都只和第l-1層的一個(gè)局部
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個(gè)人裝修委托書
- 雙方設(shè)備合作合同范本
- 南瓜訂貨合同范例
- 斷層解剖復(fù)習(xí)題+答案
- 合伙買車合作協(xié)議合同范例
- 七年級下學(xué)期語文總結(jié)
- 兼職游泳教練合同范本
- 保潔合同范本(完美版)
- 廠里員工租房合同范本
- 《贈(zèng)劉景文》和《山行》古詩的教學(xué)反思
- 倉儲(chǔ)物流中心物業(yè)管理服務(wù)費(fèi)報(bào)價(jià)單
- 室內(nèi)給水管道安裝安全技術(shù)交底
- 全身望診課件
- 蘇教版三年級下冊《植物的一生》
- 《研學(xué)旅行課程設(shè)計(jì)》課件-理解研學(xué)課程設(shè)計(jì)內(nèi)涵
- 《西式點(diǎn)心制作》課件-抹茶戚風(fēng)蛋糕卷
- MOOC 體能攻略-浙江工商大學(xué) 中國大學(xué)慕課答案
- 部編版二年級語文下冊第一單元大單元整體作業(yè)設(shè)計(jì)
- 中國十五冶招聘線上筆試測評題庫
- xx基層團(tuán)支部建設(shè)培訓(xùn)
- 2020年山西省公務(wù)員錄用考試《行測》真題及答案
評論
0/150
提交評論