




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、深度學(xué)習(xí)Deep Learning目錄深度學(xué)習(xí)簡介數(shù)學(xué)基礎(chǔ)機(jī)器學(xué)習(xí)簡介感知器前饋神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)應(yīng)用深度學(xué)習(xí)概念機(jī)器學(xué)習(xí)(Machine Learning,ML)主要是研究如何使計算機(jī)從給定的數(shù)據(jù)中學(xué)習(xí)規(guī)律,即從觀測數(shù)據(jù)(樣本)中尋找規(guī)律,并利用學(xué)習(xí)到的規(guī)律(模型)對未知或無法觀測的數(shù)據(jù)進(jìn)行預(yù)測。目前,主流的機(jī)器學(xué)習(xí)算法是基于統(tǒng)計的方法,也叫統(tǒng)計機(jī)器學(xué)習(xí)。人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN),也簡稱神經(jīng)網(wǎng)絡(luò),是眾多機(jī)器學(xué)習(xí)算法中比較接近生物神經(jīng)網(wǎng)絡(luò)特性的數(shù)學(xué)模型。人工神經(jīng)網(wǎng)絡(luò)通過模擬生物神經(jīng)網(wǎng)絡(luò)(大腦)的結(jié)構(gòu)和功能,由大量的節(jié)點(或
2、稱“神經(jīng)元”,或“單元”)和之間相互聯(lián)接構(gòu)成,可以用來對數(shù)據(jù)之間的復(fù)雜關(guān)系進(jìn)行建模。深度學(xué)習(xí)概念2006 年,Hinton and Salakhutdinov 發(fā)現(xiàn)多層前饋神經(jīng)網(wǎng)絡(luò)可以先通過逐層預(yù)訓(xùn)練,再用反向傳播算法進(jìn)行精調(diào)的方式進(jìn)行有效學(xué)習(xí)。并且近年來計算機(jī)計算能力的提高(大規(guī)模并行計算,GPU),計算機(jī)已經(jīng)可以訓(xùn)練大規(guī)模的人工神經(jīng)網(wǎng)絡(luò)。隨著深度的人工神經(jīng)網(wǎng)絡(luò)在語音識別和圖像分類等任務(wù)上的巨大成功,越來越多的人開始關(guān)注這一個“嶄新”的研究領(lǐng)域:深度學(xué)習(xí)。深度學(xué)習(xí)(Deep Learning,DL)是從機(jī)器學(xué)習(xí)中的人工神經(jīng)網(wǎng)絡(luò)發(fā)展出來的新領(lǐng)域。早期所謂的“深度”是指超過一層的神經(jīng)網(wǎng)絡(luò)。但隨著
3、深度學(xué)習(xí)的快速發(fā)展,其內(nèi)涵已經(jīng)超出了傳統(tǒng)的多層神經(jīng)網(wǎng)絡(luò),甚至機(jī)器學(xué)習(xí)的范疇,逐漸朝著人工智能的方向快速發(fā)展。深度學(xué)習(xí)歷史1958 年Rosenblatt 感知器1969 年Minsky XOR1986 年Hinton、LeCun 人工神經(jīng)網(wǎng)絡(luò)(BP算法)1998 年LeCun 卷積神經(jīng)網(wǎng)絡(luò)2006 Hinton在DBN中提出了一種逐層預(yù)訓(xùn)練方法, 解決了梯度彌散問題2008 Vincent等提出了降噪自編碼器2011 Rafir等提出了收縮自編碼器2012 微軟研究員建立深度神經(jīng)網(wǎng)絡(luò)隱馬爾科夫混合模型, 在語音識別領(lǐng)域取得突深度學(xué)習(xí)歷史2012 Krizhevsky 等提出應(yīng)用于ImageNe
4、t的AlexNet, 在圖像分類領(lǐng)域取得突破2012 Ng在“GoogleBrain”項目中使用無監(jiān)督深度學(xué)習(xí)方法2015 Xu提出了結(jié)合注意力的場景識別2015 微軟研究員He等人提出了擁有152層的深度殘差網(wǎng)絡(luò)深度學(xué)習(xí)難點參數(shù)過多,影響訓(xùn)練非凸優(yōu)化問題:即存在局部最優(yōu)而非全局最優(yōu)解,影響迭代下層參數(shù)比較難調(diào)參數(shù)解釋起來比較困難計算資源要大數(shù)據(jù)要多算法效率要好:即收斂快深度學(xué)習(xí)的局限性模型規(guī)模與訓(xùn)練速度、訓(xùn)練精度之間的權(quán)衡。 一般地,相同數(shù)據(jù)集下,模型規(guī)模越大,訓(xùn)練精度越高,訓(xùn)練速度會越慢。如何在保證一定的訓(xùn)練精度的前提下,提高訓(xùn)練速度,是深度學(xué)習(xí)方向研究的課題之一。深度學(xué)習(xí)網(wǎng)絡(luò)的架構(gòu)規(guī)模、
5、參數(shù)選擇等問題都是由經(jīng)驗來確定。深度學(xué)習(xí)由于缺乏邏輯推理能力, 在面對需要復(fù)雜推理的任務(wù)時受到一定限制。目前大多數(shù)的深度學(xué)習(xí)方法都基于有監(jiān)督學(xué)習(xí)。而在實際生活中, 大部分事物都是未知的、不帶標(biāo)記的, 這就增加了可以發(fā)現(xiàn)事物內(nèi)在結(jié)構(gòu)關(guān)系的無監(jiān)督學(xué)習(xí)算法的需求。深度學(xué)習(xí)的優(yōu)勢深度學(xué)習(xí)緩解了傳統(tǒng)訓(xùn)練算法的局部最小性。深度學(xué)習(xí)具有多層非線性映射的深層結(jié)構(gòu),可以完成復(fù)雜的函數(shù)逼近。深度學(xué)習(xí)理論上可獲取分布式表示,即可通過逐層學(xué)習(xí)算法獲取輸入數(shù)據(jù)的主要驅(qū)動變量。目錄深度學(xué)習(xí)簡介數(shù)學(xué)基礎(chǔ)機(jī)器學(xué)習(xí)簡介感知器前饋神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)應(yīng)用向量向量的模和范數(shù)常見的向量矩陣矩陣的基本運(yùn)算矩陣的基本
6、運(yùn)算常見的矩陣常見的矩陣導(dǎo)數(shù)向量導(dǎo)數(shù)導(dǎo)數(shù)法則導(dǎo)數(shù)法則導(dǎo)數(shù)法則常用函數(shù)及其導(dǎo)數(shù)常用函數(shù)及其導(dǎo)數(shù)向量函數(shù)及其導(dǎo)數(shù)按位計算的向量函數(shù)及其導(dǎo)數(shù)logistic函數(shù)softmax函數(shù)softmax函數(shù)softmax函數(shù)softmax函數(shù)目錄深度學(xué)習(xí)簡介數(shù)學(xué)基礎(chǔ)機(jī)器學(xué)習(xí)簡介感知器前饋神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)應(yīng)用機(jī)器學(xué)習(xí)中的一些概念數(shù)據(jù):指所有能被計算機(jī)程序處理的對象的總稱,可以是數(shù)字、字母和符號等。在不同的任務(wù)中,表現(xiàn)形式不一樣,比如圖像、聲音、文字、傳感器數(shù)據(jù)等。特征:機(jī)器學(xué)習(xí)中很多算法的輸入要求是數(shù)學(xué)上可計算的。而在現(xiàn)實世界中,原始數(shù)據(jù)通常是并不都以連續(xù)變量或離散變量的形式存在的。我們
7、首先需要將抽取出一些可以表征這些數(shù)據(jù)的數(shù)值型特征。這些數(shù)值型特征一般可以表示為向量形式,也稱為特征向量。機(jī)器學(xué)習(xí)中的一些概念特征學(xué)習(xí):原始數(shù)據(jù)的特征有很多,但是并不是所有的特征都是有用的。并且,很多特征通常是冗余并且易變的。我們需要抽取有效的、穩(wěn)定的特征。傳統(tǒng)的特征提取是通過人工方式進(jìn)行的,這需要大量的人工和專家知識。即使這樣,人工總結(jié)的特征在很多任務(wù)上也不能滿足需要。因此,如何自動地學(xué)習(xí)有效的特征也成為機(jī)器學(xué)習(xí)中一個重要的研究內(nèi)容,也就是特征學(xué)習(xí),也叫表示學(xué)習(xí)。特征學(xué)習(xí)分成兩種,一種是特征選擇,是在很多特征集合選取有效的子集;另一種是特征提取,是構(gòu)造一個新的特征空間,并將原始特征投影在新的空
8、間中。機(jī)器學(xué)習(xí)中的一些概念樣本:是指按照一定的抽樣規(guī)則從全部數(shù)據(jù)中取出的一部分?jǐn)?shù)據(jù),是指實際觀測得到的數(shù)據(jù)。在有監(jiān)督學(xué)習(xí)中,需要提供一組有輸出目標(biāo)的樣本用來學(xué)習(xí)模型以及檢驗?zāi)P偷暮脡摹U拓?fù)例:對于兩類分類問題,類別可以表示為+1,1,或者直接用正負(fù)號表示。因此,常用正例和負(fù)例來分別表示屬于不同類別的樣本。機(jī)器學(xué)習(xí)中的一些概念判別函數(shù):經(jīng)過特征抽取后,一個樣本可以表示為k 維特征空間中的一個點。為了對這個特征空間中的點進(jìn)行區(qū)分,就需要尋找一些超平面來將這個特征空間分為一些互不重疊的子區(qū)域,使得不同類別的點分布在不同的子區(qū)域中,這些超平面就成為判別界面。為了定義這些用來進(jìn)行空間分割的超平面,就
9、需要引入判別函數(shù)的概念。假設(shè)變量 為特征空間中的點,這個超平面由所有滿足函數(shù)f(z) = 0 的點組成。這里的 f(z)就稱為判別函數(shù)。有了判別函數(shù),分類就變得很簡單,就是看一個樣本在特征空間中位于哪個區(qū)域,從而確定這個樣本的類別。判別函數(shù)的形式多種多樣,在自然語言處理中,最為常用的判別函數(shù)為線性函數(shù)。機(jī)器學(xué)習(xí)中的一些概念學(xué)習(xí)算法:就是如何從訓(xùn)練集的樣本中,自動學(xué)習(xí)決策函數(shù)的參數(shù)。不同機(jī)器學(xué)習(xí)算法的區(qū)別在于決策函數(shù)和學(xué)習(xí)算法的差異。相同的決策函數(shù)可以有不同的學(xué)習(xí)算法。比如線性分類器,其參數(shù)的學(xué)習(xí)算法可以是感知器、支持向量機(jī)以及梯度下降法等。通過一個學(xué)習(xí)算法進(jìn)行自動學(xué)習(xí)參數(shù)的過程也叫作訓(xùn)練過程。
10、機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)損失函數(shù)過擬合結(jié)構(gòu)風(fēng)險最小化原則損失函數(shù)損失函數(shù)損失函數(shù)損失函數(shù)機(jī)器學(xué)習(xí)算法類型:有監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)算法類型:無監(jiān)督學(xué)習(xí)參數(shù)估計梯度下降法Early-Stop學(xué)習(xí)率設(shè)置:動量法學(xué)習(xí)率設(shè)置:AdaGrad學(xué)習(xí)率設(shè)置:AdaDelta學(xué)習(xí)率設(shè)置:AdaDelta線性回歸平方損失函數(shù)平方損失函數(shù)最小二乘法估計梯度下降法線性分類線性分類圖中給了一個兩維數(shù)據(jù)的判別函數(shù)以及對應(yīng)的判別界面。在二維空間中,分類界面為一個直線。在三維空間中,分類界面為一個平面。在高維空間中,分類界面為一個超平面。對于線性函數(shù)來說,權(quán)重向量在線性空間中垂直于分類界面的向量。Logistic回歸Logistic回歸
11、梯度下降法多類線性分類多類線性分類SoftMax回歸SoftMax回歸SoftMax回歸梯度下降法梯度下降法梯度下降法評價方法評價方法F1值F1 值是根據(jù)正確率和召回率二者給出的一個綜合的評價指標(biāo),具體定義如下:目錄深度學(xué)習(xí)簡介數(shù)學(xué)基礎(chǔ)機(jī)器學(xué)習(xí)簡介感知器前饋神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)應(yīng)用感知器生物神經(jīng)細(xì)胞生物神經(jīng)細(xì)胞感知器模型感知器兩類感知器算法目錄深度學(xué)習(xí)簡介數(shù)學(xué)基礎(chǔ)機(jī)器學(xué)習(xí)簡介感知器前饋神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)應(yīng)用人工神經(jīng)網(wǎng)絡(luò)神經(jīng)元神經(jīng)元示例激活函數(shù)激活函數(shù)激活函數(shù)前饋神經(jīng)網(wǎng)絡(luò)前饋計算前饋計算將前饋網(wǎng)絡(luò)應(yīng)用于機(jī)器學(xué)習(xí)參數(shù)估計反向傳播算法反向傳播算法反向傳播算法
12、誤差項反向傳播反向傳播算法梯度消失問題梯度消失問題梯度消失問題我們可以看到,sigmoid型函數(shù)的值域都小于1。這樣誤差經(jīng)過每一層傳遞都會不斷衰減。當(dāng)網(wǎng)絡(luò)層數(shù)很深時,梯度就會不停的衰減,甚至消失,使得整個網(wǎng)絡(luò)很難訓(xùn)練。這就是所謂的梯度消失問題(Vanishing Gradient Problem),也叫梯度彌散。減輕梯度消失問題的一個方法是使用線性激活函數(shù)(比如rectifier 函數(shù))或近似線性函數(shù)(比如softplus 函數(shù))。這樣,激活函數(shù)的導(dǎo)數(shù)為1,誤差可以很好地傳播,訓(xùn)練速度得到了很大的提高。目錄深度學(xué)習(xí)簡介數(shù)學(xué)基礎(chǔ)機(jī)器學(xué)習(xí)簡介感知器前饋神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)應(yīng)用卷
13、積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)由卷積層和下采樣層交替層疊而成。卷積層采用權(quán)重共享, 使得網(wǎng)絡(luò)的參數(shù)減少;下采樣層由于采用最大值或均值下采樣的方式, 使得圖像維度降低。通過卷積和下采樣學(xué)習(xí)到的特征具有平移、旋轉(zhuǎn)不變性。卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)非常適合處理圖像數(shù)據(jù), 隨著網(wǎng)絡(luò)層數(shù)的增加, 卷積神經(jīng)網(wǎng)絡(luò)能夠從原始數(shù)據(jù)中抽取更抽象的特征, 更加有利于圖像的識別。卷積兩維卷積卷積層:用卷積來代替全連接卷積層:用卷積來代替全連接全連接層和卷積層二維卷積層特征映射特征映射兩維卷積層的映射關(guān)系連接表兩維卷積層示例子采樣層子采樣層卷積神經(jīng)網(wǎng)絡(luò)示例:LeNet-5LeNet 示例LeNet 示例LeNet 示例梯度計
14、算卷積層的梯度卷積層的梯度卷積層的梯度卷積層的梯度子采樣層的梯度子采樣層的梯度目錄深度學(xué)習(xí)簡介數(shù)學(xué)基礎(chǔ)機(jī)器學(xué)習(xí)簡介感知器前饋神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)應(yīng)用循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)從數(shù)學(xué)上講,公式7.1可以看成一個動態(tài)系統(tǒng)。動態(tài)系統(tǒng)是指系統(tǒng)的狀態(tài)按照一定的規(guī)律隨時間變化的系統(tǒng)。因此,活性值 在很多文獻(xiàn)上也稱為狀態(tài)。但這里的狀態(tài)是數(shù)學(xué)上的概念,區(qū)別與我們在前饋網(wǎng)絡(luò)中定義的神經(jīng)元的狀態(tài)。理論上循環(huán)神經(jīng)網(wǎng)絡(luò)可以近似任意的動態(tài)系統(tǒng)。圖給出了循環(huán)神經(jīng)網(wǎng)絡(luò)的示例。循環(huán)神經(jīng)網(wǎng)絡(luò)的參數(shù)訓(xùn)練可以通過隨時間進(jìn)行反向傳播(Backpropaga -tion ThroughTime,BPTT)算法。但循環(huán)
15、神經(jīng)網(wǎng)絡(luò)的一個最大問題是訓(xùn)練時梯度需要隨著時間進(jìn)行反向傳播。當(dāng)輸入序列比較長時,會存在梯度爆炸和消失問題。長短時記憶神經(jīng)網(wǎng)絡(luò)(long short memory neural network,LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一個擴(kuò)展。循環(huán)神經(jīng)網(wǎng)絡(luò)的示例簡單循環(huán)網(wǎng)絡(luò)簡單循環(huán)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)又稱遞歸神經(jīng)網(wǎng)絡(luò)。遞歸神經(jīng)網(wǎng)絡(luò)會對前面的信息進(jìn)行記憶,并應(yīng)用于當(dāng)前層計算輸出, 即隱層之間的節(jié)點有連接。遞歸神經(jīng)網(wǎng)絡(luò)一次處理一個輸入序列元素, 每個節(jié)點同時包含過去時刻序列元素的歷史信息。遞歸神經(jīng)網(wǎng)絡(luò)主要用于處理時序數(shù)據(jù), 常應(yīng)用在預(yù)測文本和語音識別中。梯度梯度梯度長期依賴問題改進(jìn)方案改進(jìn)方案為了解決這個問題,Hoc
16、hreiter和Schmidhuber提出一個非常好的解決方案,就是引入門機(jī)制(Gating Mechanism)來控制信息的累積速度,并可以選擇遺忘之前累積的信息。這就是下面要介紹的長短時記憶神經(jīng)網(wǎng)絡(luò)。長短時記憶神經(jīng)網(wǎng)絡(luò):LSTM長短時記憶神經(jīng)網(wǎng)絡(luò):LSTMLSTM結(jié)構(gòu)示例門限循環(huán)單元:GRU目錄深度學(xué)習(xí)簡介數(shù)學(xué)基礎(chǔ)機(jī)器學(xué)習(xí)簡介感知器前饋神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)應(yīng)用AlphaGo概述計算機(jī)圍棋起源于20世紀(jì)60年代, 長期以來, 它被認(rèn)為是人工智能領(lǐng)域的一大挑戰(zhàn), 并為智能學(xué)習(xí)算法的研究提供了一個很好的測試平臺。圍棋的計算復(fù)雜度約為250。如果采用傳統(tǒng)的暴力搜索方式, 按照現(xiàn)
17、有的計算能力是遠(yuǎn)遠(yuǎn)無法解決圍棋問題的。人工智能領(lǐng)域一個里程碑式的工作是由Deep-Mind 在2016年初發(fā)表于Nature上的圍棋AI:AlphaGo。AlphaGo概述AlphaGo的問世將深度強(qiáng)化學(xué)習(xí)的研究推向了新的高度。它創(chuàng)新性地結(jié)合深度強(qiáng)化學(xué)習(xí)和蒙特卡羅樹搜索, 通過策略網(wǎng)絡(luò)選擇落子位置降低搜索寬度, 使用價值網(wǎng)絡(luò)評估局面以減小搜索深度, 使搜索效率得到了大幅提升, 勝率估算也更加精確。與此同時, AlphaGo使用強(qiáng)化學(xué)習(xí)的自我博弈來對策略網(wǎng)絡(luò)進(jìn)行調(diào)整, 改善策略網(wǎng)絡(luò)的性能, 使用自我對弈和快速走子結(jié)合形成的棋譜數(shù)據(jù)進(jìn)一步訓(xùn)練價值網(wǎng)絡(luò)。最終在線對弈時, 結(jié)合策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)的蒙特
18、卡羅樹搜索在當(dāng)前局面下選擇最終的落子位置。AlphaGo原理分析AlphaGo創(chuàng)新性地結(jié)合深度強(qiáng)化學(xué)習(xí)和蒙特卡羅樹搜索, 通過價值網(wǎng)絡(luò)(value network)評估局面以減小搜索深度, 利用策略網(wǎng)絡(luò)(policy network)降低搜索寬度, 使搜索效率得到大幅提升, 勝率估算也更加精確。AlphaGo的原理流程主要包含線下學(xué)習(xí)和在線對弈兩部分。AlphaGo原理分析AlphaGo的線下學(xué)習(xí)AlphaGo的線下學(xué)習(xí)包含3個階段:第1 階段, 深智團(tuán)隊使用棋圣堂圍棋服務(wù)器(Kiseido Go server, KGS)上3000萬個專業(yè)棋手對弈棋譜的落子數(shù)據(jù), 基于監(jiān)督學(xué)習(xí)得到一個策略網(wǎng)絡(luò)
19、, 來預(yù)測棋手的落子情況, 稱之為監(jiān)督學(xué)習(xí)的策略網(wǎng)絡(luò) 。訓(xùn)練策略網(wǎng)絡(luò)時采用隨機(jī)梯度升序法更新網(wǎng)絡(luò)權(quán)重 (197) 在使用全部48個輸入特征的情況下, 預(yù)測準(zhǔn)確率達(dá)到了55.7%, 這遠(yuǎn)遠(yuǎn)高于其他方法的結(jié)果。同時他們也使用了局部特征匹配和線性回歸的方法訓(xùn)練了一個快速走子策略網(wǎng)絡(luò) ,在犧牲部分準(zhǔn)確度的情況下極大地提高了走棋的速率。 AlphaGo的線下學(xué)習(xí)第2階段,在第1階段結(jié)果的基礎(chǔ)上, 使用強(qiáng)化學(xué)習(xí)進(jìn)一步對策略網(wǎng)絡(luò)進(jìn)行學(xué)習(xí), 得到強(qiáng)化學(xué)習(xí)的策略網(wǎng)絡(luò) 。訓(xùn)練過程中先使用監(jiān)督學(xué)習(xí)的策略網(wǎng)絡(luò)對強(qiáng)化學(xué)習(xí)的策略網(wǎng)絡(luò)進(jìn)行初始化, 然后兩者通過“自我博弈”來改善策略網(wǎng)絡(luò)的性能。訓(xùn)練過程中采用策略梯度算法,
20、按照預(yù)期結(jié)果最大值的方向, 更新權(quán)重。 (198)其中 是在時間步長為t 時的獎賞, 勝方為+1、敗方為1。在與監(jiān)督學(xué)習(xí)的策略網(wǎng)絡(luò) 的對弈中, 強(qiáng)化學(xué)習(xí)的策略網(wǎng)絡(luò) 能夠獲得80%的勝率。AlphaGo的線下學(xué)習(xí)第3階段, 使用“自我博弈”產(chǎn)生的棋譜, 根據(jù)最終勝負(fù)結(jié)果來訓(xùn)練價值網(wǎng)絡(luò) 。訓(xùn)練價值網(wǎng)絡(luò)時, 使用隨機(jī)梯度降序法來最小化預(yù)測值 和相應(yīng)結(jié)果z間的差值。 (199)訓(xùn)練好的價值網(wǎng)絡(luò)可以對棋局進(jìn)行評估, 預(yù)測最終勝負(fù)的概率。AlphaGo的線下學(xué)習(xí)AlphaGo的在線對弈AlphaGo通過蒙特卡羅樹搜索將策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)結(jié)合起來, 利用前向搜索選擇動作, 主要包含5個步驟。預(yù)處理: 利用當(dāng)
21、前棋盤局面提取特征, 作為深度網(wǎng)絡(luò)的輸入, 最終的AlphaGo網(wǎng)絡(luò)輸入包含了48個特征層。選擇: 每次模擬時從根節(jié)點出發(fā)遍歷搜索樹, 根據(jù)最大動作值Q和激勵值u(s,a)選擇下一個節(jié)點。 (200) 其中N(s,a)是訪問次數(shù)。遍歷進(jìn)行到步驟L時, 節(jié)點記為 。 AlphaGo的在線對弈展開: 訪問次數(shù)達(dá)到一定數(shù)目時, 葉節(jié)點展開, 展開時被監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò) 處理一次, 此時的輸出概率保存為對應(yīng)動作的前向概率P(s, a)= ,根據(jù)前向概率計算不同落子位置往下發(fā)展的權(quán)重。評估: 葉節(jié)點有兩種評估方式: 價值網(wǎng)絡(luò)的估值 和快速走子產(chǎn)生的結(jié)果 。這是因為棋局開始時, 價值網(wǎng)絡(luò)的估值比較重要, 隨
22、著棋局的進(jìn)行, 局面狀態(tài)變得復(fù)雜, 這時會更加看重快速走子產(chǎn)生的結(jié)果。兩者通過加權(quán)的方式計算葉節(jié)點的估值 。AlphaGo的在線對弈備份: 將評估結(jié)果作為當(dāng)前棋局下一步走法的Q值。 (201)其中1(s,a,i)表示進(jìn)行第i次模擬時狀態(tài)動作對(s,a)是否被訪問。Q值越大, 之后的模擬選擇此走法的次數(shù)越多。模擬結(jié)束時, 遍歷過的節(jié)點的狀態(tài)動作值和訪問次數(shù)得到更新。每個節(jié)點累計經(jīng)過此節(jié)點的訪問次數(shù)和平均估值。反復(fù)進(jìn)行上述過程達(dá)到一定次數(shù)后搜索完成, 算法選取從根節(jié)點出發(fā)訪問次數(shù)最多的那條路徑落子。AlphaGo的原理圖AlphaGo的弱點攻其策略網(wǎng)絡(luò),加大搜索空間。進(jìn)入中盤后,職業(yè)選手如能建立起
23、比較復(fù)雜的局面,每一步棋都牽連很多個局部棋的命運(yùn)(避免單塊、局部作戰(zhàn)),則AlphaGo需要搜索空間則急劇加大,短時間內(nèi)得到的解的精度就會大打折扣。通俗地說,非常復(fù)雜的變化,人算不清楚,現(xiàn)階段計算機(jī)的計算力更沒辦法。為了在一定的時間內(nèi)有結(jié)果,只能放棄搜索精度。AlphaGo的弱點攻其價值網(wǎng)絡(luò),萬劫不復(fù)。AlphaGo的價值網(wǎng)絡(luò)極大地提高了之前單純依靠MCTS來做局勢判斷的精度,但離準(zhǔn)確判斷圍棋局勢還有不小的差距。神經(jīng)網(wǎng)絡(luò)還不能完全避免在某些時候出現(xiàn)一些怪異(甚至錯誤)的判斷,更何況其訓(xùn)練樣本還遠(yuǎn)遠(yuǎn)不足。這也是為什么有了價值網(wǎng)絡(luò)還仍然需要依靠快速走棋來判斷局勢。大家都曾經(jīng)懷疑過AlphaGo的打
24、劫能力,也感覺到了AlphaGo有躲避打劫的跡象。不能說AlphaGo不會打劫,而是害怕在棋局早期的多劫并存。打劫要乘早,太晚了搜索空間變小,即便價值網(wǎng)絡(luò)失效,還可以靠快速走棋網(wǎng)絡(luò)來彌補(bǔ)。開劫應(yīng)該以在剛剛進(jìn)入中盤時期為好(太早劫財還不夠),并且保持長時間不消劫,最好在盤面上能同時有兩處以上打劫。沒有了價值網(wǎng)絡(luò)的AlphaGo其實水平也就職業(yè)3-5段左右。AlphaGo評價圍棋因為復(fù)雜的落子選擇和龐大的搜索空間在人工智能領(lǐng)域具有顯著的代表性。 AlphaGo基于深度卷積神經(jīng)網(wǎng)絡(luò)的策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)減小了搜索空間, 并且在訓(xùn)練過程中創(chuàng)新性地結(jié)合了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí), 最后成功地整合蒙特卡羅樹搜索算
25、法。其智能突出體現(xiàn)以下4點:棋譜數(shù)據(jù)可以完全獲取, 知識能夠自動表達(dá)。AlphaGo能夠較好地應(yīng)對對手下一步棋的不確定性, 按搜索和評價策略進(jìn)行決策。以標(biāo)準(zhǔn)賽制產(chǎn)生的人類棋手為智能標(biāo)準(zhǔn), 設(shè)計了較好的智能評價準(zhǔn)則。AlphaGo通過“自我博弈”產(chǎn)生3000萬盤棋,深度模仿人類頂尖棋手的對弈, 提升系統(tǒng)的智能水平。AlphaGo Zero概述在AlphaGo的基礎(chǔ)上, DeepMind進(jìn)一步提出了AlphaGo Zero。AlphaGo Zero與之前的版本有很大不同, 如表6所示。AlphaGo Zero概述神經(jīng)網(wǎng)絡(luò)權(quán)值完全隨機(jī)初始化。 AlphaGo Zero不利用任何人類專家的經(jīng)驗或數(shù)據(jù)。
26、無需先驗知識。 AlphaGo Zero不再需要人工設(shè)計特征,僅利用棋盤上的黑白棋子的擺放情況作為原始數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)中。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜性降低。舍棄快速走子網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)引入殘差結(jié)構(gòu)。硬件資源需求更少。學(xué)習(xí)時間更短。AlphaGo Zero棋力提升的關(guān)鍵因素一是使用基于殘差模塊構(gòu)成的深度神經(jīng)網(wǎng)絡(luò),不需要人工制定特征,通過原始棋盤信息便可提取相關(guān)表示特征。二是使用新的神經(jīng)網(wǎng)絡(luò)構(gòu)造啟發(fā)式搜索函數(shù),優(yōu)化蒙特卡羅樹搜索算法,使用神經(jīng)網(wǎng)絡(luò)估值函數(shù)替換快速走子過程,使算法訓(xùn)練學(xué)習(xí)和執(zhí)行走子所需要的時間大幅減少。AlphaGo Zero的訓(xùn)練過程深度殘差網(wǎng)絡(luò)深度殘差網(wǎng)絡(luò), 由何愷明等在2016年提出。深
27、度殘差網(wǎng)絡(luò)是真正意義上的“深度學(xué)習(xí)”, 與其他深度神經(jīng)網(wǎng)絡(luò)模型相比, 深度殘差網(wǎng)絡(luò)能進(jìn)行成百乃至上千層的網(wǎng)絡(luò)學(xué)習(xí)。深度殘差網(wǎng)絡(luò)由多層“殘差單元”堆疊而成, 其通式表達(dá)為 (202) (203)其中, 是神經(jīng)網(wǎng)絡(luò)權(quán)值, 是中間輸出, 和 分別是第l個單元的輸入和輸出, F是一個殘差函數(shù),h是恒等映射, f為常用ReLU函數(shù)的激活函數(shù)。深度殘差網(wǎng)絡(luò)的優(yōu)點深度殘差網(wǎng)絡(luò)與其他常見的卷積型前向神經(jīng)網(wǎng)絡(luò)的最大不同在于多了一條跨層傳播直連接通路, 使得神經(jīng)網(wǎng)絡(luò)在進(jìn)行前向傳播和后向傳播時, 傳播信號都能從一層直接平滑地傳遞到另一指定層。殘差函數(shù)引入批歸一化(batch normalization, BN)作優(yōu)
28、化, 使神經(jīng)網(wǎng)絡(luò)輸出分布白化, 從而使數(shù)據(jù)歸一化來抑制梯度彌散或是爆炸現(xiàn)象。AlphaGo Zero神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的主要模塊AlphaGo Zero中的蒙特卡羅樹搜索圍棋棋面總共有 19 * 19 = 361 個落子位置。假如電腦有足夠的計算能力,理論上來說,我們可以窮舉黑白雙方所有可能的落子位置,找到最優(yōu)落子策略。如果窮舉黑白雙方所有可能的落子位置,各種組合的總數(shù),大約是 250150 數(shù)量級。這個數(shù)太大了,以至于用當(dāng)今世界最強(qiáng)大云計算系統(tǒng),算幾十年也算不完。有沒有不窮舉所有組合,就能找到最優(yōu)或者次優(yōu)落子策略的算法呢?有,蒙特卡羅樹搜索就是這樣一種算法。AlphaGo Zero中的蒙特卡羅樹搜
29、索AlphaGo Zero中的蒙特卡羅樹搜索搜索樹的當(dāng)前狀態(tài)為s, 選擇動作為a, 各節(jié)點間的連接邊為e(s, a), 各條邊e存儲了四元集為遍歷次數(shù)N(s, a)、動作累計值W(s, a), 動作平均值Q(s, a), 先驗概率P(s, a)。與AlphaGo以往版不同, AlphaGo Zero將原來蒙特卡羅樹搜索所需要的4個階段合并成3個階段, 將原來的展開階段和評估階段合并成一個階段, 搜索過程具體為選擇階段、展開與評估階段、回傳階段。最后通過執(zhí)行階段選擇落子位置。AlphaGo Zero中的蒙特卡羅樹搜索:選擇階段假定搜索樹的根節(jié)點為 , 從根節(jié)點 到葉子節(jié)點 需要經(jīng)過的路徑長度為L
30、, 在路徑L上的每步t中,根據(jù)當(dāng)前時刻的搜索樹的數(shù)據(jù)存儲情況, 由下式所得, 選擇值對應(yīng)當(dāng)前狀態(tài) 的最大動作值作為搜索路徑。 (204) (205) (206)AlphaGo Zero中的蒙特卡羅樹搜索:選擇階段其中: 是重要的超參數(shù), 平衡探索與利用間的權(quán)重分配, 當(dāng) 較大時, 驅(qū)使搜索樹向未知區(qū)域探索,反之則驅(qū)使搜索樹快速收斂; 表示經(jīng)過狀態(tài) 的所有次數(shù); 為深度神經(jīng)網(wǎng)絡(luò) 的策略輸出對應(yīng)動作a的概率值, 并且引入噪聲服從Dirchlet(0.03)分布, 慣性因子 = 0.25, 從而使神經(jīng)網(wǎng)絡(luò)的估值魯棒性得到增強(qiáng).AlphaGo Zero中的蒙特卡羅樹搜索:展開與評估階段在搜索樹的葉子節(jié)
31、點, 進(jìn)行展開與評估。當(dāng)葉子節(jié)點處于狀態(tài) 時, 由神經(jīng)網(wǎng)絡(luò) 得到策略輸出 和估值輸出 。然后初始化邊 中的四元集: 。在棋局狀態(tài)估值時,需要對棋面旋轉(zhuǎn)n45,n0,1,7或雙面反射后輸入到神經(jīng)網(wǎng)絡(luò)。在神經(jīng)網(wǎng)絡(luò)進(jìn)行盤面評估時, 其他并行線程皆會處于鎖死狀態(tài), 直至神經(jīng)網(wǎng)絡(luò)運(yùn)算結(jié)束。AlphaGo Zero中的蒙特卡羅樹搜索:回傳階段當(dāng)展開與評估階段完成后, 搜索樹中各節(jié)點連接邊的信息都已經(jīng)得到. 此時需要將搜索后所得最新結(jié)構(gòu)由葉子節(jié)點回傳到根節(jié)點上進(jìn)行更新. 訪問次數(shù) 、動作累計值 、動作平均值 。具體的更新方式為 (207) (208) (209)其中 為神經(jīng)網(wǎng)絡(luò) 的估值輸出。從式中可見, 隨
32、著模擬次數(shù)的增加, 動作平均值 會逐漸趨于穩(wěn)定, 且從數(shù)值形式上與神經(jīng)網(wǎng)絡(luò)的策略輸出 沒有直接關(guān)系。AlphaGo Zero中的蒙特卡羅樹搜索:執(zhí)行階段經(jīng)過1600次蒙特卡羅樹搜索, 樹中的各邊存儲著歷史信息, 根據(jù)這些歷史信息得到落子概率分布 , 是由葉子節(jié)點的訪問次數(shù)經(jīng)過模擬退火算法得到, 具體表示為 (210)其中模擬退火參數(shù)初始為1, 在前30步走子一直為1,然后隨著走子步數(shù)的增加而減小趨向于0。引入了模擬退火算法后, 極大地豐富圍棋開局的變化情況, 并保證在收官階段能夠作出最為有利的選擇。AlphaGo Zero中的蒙特卡羅樹搜索:執(zhí)行階段在執(zhí)行完落子動作后, 當(dāng)前搜索樹的擴(kuò)展子節(jié)點
33、及子樹的歷史信息會被保留, 而擴(kuò)展子節(jié)點的所有父節(jié)點及信息都會被刪除, 在保留歷史信息的前提下,減少搜索樹所占內(nèi)存空間。并最終以擴(kuò)展節(jié)點作為新的根節(jié)點, 為下一輪蒙特卡羅樹搜索作準(zhǔn)備。AlphaGo Zero的訓(xùn)練流程AlphaGo Zero的訓(xùn)練流程第1階段 假設(shè)當(dāng)前棋面狀態(tài)為 , 以 作為數(shù)據(jù)起點, 得到距今最近的本方歷史7步棋面狀態(tài)和對方歷史8步棋面狀態(tài),分別記作 和 。并記本方執(zhí)棋顏色為c,拼接在一起, 記輸入元 為 。并以此開始進(jìn)行評估。第2階段 使用基于深度神經(jīng)網(wǎng)絡(luò) 的蒙特卡羅樹搜索展開策略評估過程, 經(jīng)過1600次蒙特卡羅樹搜索, 得到當(dāng)前局面 的策略 和參數(shù)下深度神經(jīng)網(wǎng)絡(luò) 輸出
34、的策略函數(shù) 和估值 。AlphaGo Zero的訓(xùn)練流程第3階段 由蒙特卡羅樹搜索得到的策略 ,結(jié)合模擬退火算法, 在對弈前期, 增加落子位置多樣性, 豐富圍棋數(shù)據(jù)樣本。 一直持續(xù)這步操作, 直至棋局終了,得到最終勝負(fù)結(jié)果z。第4階段 根據(jù)上一階段所得的勝負(fù)結(jié)果z與價值 使用均方和誤差, 策略函數(shù) 和蒙特卡羅樹搜索的策略 使用交叉信息熵誤差, 兩者一起構(gòu)成損失函數(shù)。同時并行反向傳播至神經(jīng)網(wǎng)絡(luò)的每步輸出, 使深度神經(jīng)網(wǎng)絡(luò) 的權(quán)值得到進(jìn)一步優(yōu)化。深度學(xué)習(xí)在其他領(lǐng)域的應(yīng)用在機(jī)器人領(lǐng)域的應(yīng)用Levine等以卷積神經(jīng)網(wǎng)絡(luò)作為策略特征表示, 提出指導(dǎo)性策略搜索算法(guided policy search
35、,GPS), 將策略搜索轉(zhuǎn)化為監(jiān)督學(xué)習(xí), 以視覺圖像作為輸入樣本, 實現(xiàn)直接端到端的從眼到手的機(jī)械臂操作控制。LEVINE S, FINN C, DARRELL T, et al. End-to-end training of deep visuomotor policies J. Journal of Machine Learning Research,2016, 17(39): 1 40.深度學(xué)習(xí)在其他領(lǐng)域的應(yīng)用在智能駕駛領(lǐng)域的應(yīng)用普林斯頓大學(xué)的Chen等使用深度學(xué)習(xí)算法, 根據(jù)攝像頭采集的圖像數(shù)據(jù)預(yù)測目標(biāo)的距離, 同時輸出操作指令。CHEN C, SEFF A, KORNHAUSER A
36、, et al. Deepdriving: learning affordance for direct perception in autonomous driving C /Proceedings of the IEEE International Conference on Computer Vision(ICCV). Santiago: IEEE, 2015: 2722 2730.深度學(xué)習(xí)在其他領(lǐng)域的應(yīng)用在智能醫(yī)療領(lǐng)域的應(yīng)用谷歌的Gulshan等使用深度卷積神經(jīng)網(wǎng)絡(luò)對13萬個視網(wǎng)膜照片進(jìn)行訓(xùn)練, 最終表現(xiàn)的水平和單個眼科醫(yī)生的水平相當(dāng)。 斯坦福大學(xué)的Esteva等采用了深度卷積神經(jīng)網(wǎng)絡(luò)
37、, 對皮膚損傷照片進(jìn)行訓(xùn)練, 判斷水平達(dá)到了皮膚病學(xué)家的分類水平。GULSHAN V, PENG L, CORAM M, et al. Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs J. Jama, 2016, 316(22): 2402 2410.ESTEVA A, KUPREL B, NOVOA R A, et al. Dermatologist-level classification o
38、f skin cancer with deep neural networks J. Nature,2017, 542(7639): 115 118.深度學(xué)習(xí)在其他領(lǐng)域的應(yīng)用在大規(guī)模圖像數(shù)據(jù)集中領(lǐng)域的應(yīng)用A Krizhevsky 等首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于ImageNet 大規(guī)模視覺識別挑戰(zhàn)賽( ImageNet large scale visual recognition chall -enge,ILSVC) 中,所訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)在ILSVC2012 挑戰(zhàn)賽中,取得了圖像分類和目標(biāo)定位任務(wù)的第一。KRIZHEVSKY A, SUTSKEVE I, HINTON G EImagenet classification with deep convolutional neural networksCAdvances in Neural Information Processing Systems ed Hook,NY: Cu
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年涂料助劑:流平劑項目合作計劃書
- 房屋市政工程生產(chǎn)安全重大事故隱患判定標(biāo)準(zhǔn)(2024版)檢查指引(西安住房和城鄉(xiāng)建設(shè)局)
- 2025年吡蟲啉合作協(xié)議書
- 2024福建福州城市泊車管理有限公司招聘2人筆試參考題庫附帶答案詳解
- 2024浙江寧波市余姚市牟山湖開發(fā)有限公司招聘筆試及人員筆試參考題庫附帶答案詳解
- 2025銷售工作總結(jié)
- 2024國投(張掖)金種科技有限公司招聘65人筆試參考題庫附帶答案詳解
- 2025年檸檬酸及其鹽類合作協(xié)議書
- 2024中廣核環(huán)保產(chǎn)業(yè)有限公司招聘筆試參考題庫附帶答案詳解
- 2025年石油鉆探、開采專用設(shè)備項目建議書
- DB34T 1591-2012 茶樹凍害氣象指標(biāo)
- 盤盤轉(zhuǎn)轉(zhuǎn)制作國風(fēng)標(biāo)簽(課件)六年級下冊勞動
- 02S515排水檢查井圖集
- 項目班子組成資歷情況
- 《工程勘察設(shè)計收費(fèi)標(biāo)準(zhǔn)》(2002年修訂本)-工程設(shè)計收費(fèi)標(biāo)準(zhǔn)2002修訂版
- 2024山東能源集團(tuán)中級人才庫選拔(高頻重點提升專題訓(xùn)練)共500題附帶答案詳解
- 【實習(xí)護(hù)生職業(yè)認(rèn)同感及留職意愿現(xiàn)況問卷調(diào)查報告(含問卷)5400字(論文)】
- 廣東省廣州市2023-2024學(xué)年一年級下學(xué)期期末數(shù)學(xué)試卷
- DL-T5493-2014電力工程基樁檢測技術(shù)規(guī)程
- 中西醫(yī)結(jié)合思路與方法學(xué)課件
- 二年級數(shù)學(xué)下冊混合運(yùn)算計算100題(含詳細(xì)答案)
評論
0/150
提交評論