深學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)

上傳人：伊*** IP屬地：上海上傳時(shí)間：2022-11-17 格式：PPTX 頁(yè)數(shù)：49 大?。?.17MB 積分：20 舉報(bào) 版權(quán)申訴

深學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)_第2頁(yè)

深學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)_第3頁(yè)

深學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)_第4頁(yè)

深學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)_第5頁(yè)

已閱讀5頁(yè)，還剩44頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

深度學(xué)習(xí)之循環(huán)神經(jīng)網(wǎng)絡(luò)1目錄1：深度學(xué)習(xí)發(fā)展史2：從神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)3：循環(huán)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)4：自然語(yǔ)言處理基礎(chǔ)（擴(kuò)充知識(shí)）21：深度學(xué)習(xí)發(fā)展史3深度學(xué)習(xí)發(fā)展史SVMBoostingDecisiontreeKNN…NeuralnetworkBackpropagation19862006DeepbeliefnetScienceSpeech20112012ComputervisionNLPSpeech……2014GeoffreyHinton1949Learningmodelofneurons1958PerceptronHebbRosenblattGeoffreyHintonDBNCNNRBMRNN…機(jī)器學(xué)習(xí)第一次浪潮：機(jī)器學(xué)習(xí)第二次浪潮淺層學(xué)習(xí)模型(ShallowLearning)深度學(xué)習(xí)模型(DeepLearning)FirstWinterofNNSecondWinterofNN4深度學(xué)習(xí)（多層神經(jīng)網(wǎng)絡(luò)）神經(jīng)網(wǎng)絡(luò)神經(jīng)元5synapsedendriteCellbodySynapticterminalsAxon軸突末梢突觸樹突細(xì)胞體軸突w1x1xnΣ線性動(dòng)態(tài)系統(tǒng)激勵(lì)函數(shù)own神經(jīng)元是構(gòu)成神經(jīng)網(wǎng)絡(luò)的最基本單元(構(gòu)件),因此,首要任務(wù)是構(gòu)造人工神經(jīng)元模型。細(xì)胞體Cellbody樹突dendrite突觸synapse軸突Axon來自其它神經(jīng)元神經(jīng)元模型6yθyaxox2x1xnw1w2wn???w1x1xnΣ激勵(lì)函數(shù)o=f(net)wnnet

=WTX

典型的激勵(lì)函數(shù)(ActivationFunction)：線性函數(shù)，非線性斜面函數(shù)，階躍函數(shù)，S型函數(shù)等。神經(jīng)元模型7InputLayerHiddenLayerOutputLayerx1xMh1hLo1oNw11wm1wM1wmLwMLw1Lv11vl1vL1vLN神經(jīng)網(wǎng)絡(luò)一般形式?

Nonlinearity非線性

?ParallelProcessing并行處理?Input—OutputMapping輸入輸出匹配

?Adaptivity自適應(yīng)性ocx2x1xnw1w2wn???8最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)：Perceptrons9SingleLayerPerceptronsybx2x1xMw1w2wM???Rosenblatt,1957u>0u<010兩類樣本：白色和黑色

分類錯(cuò)誤的樣本用紅色輪廓目標(biāo)：分類正確所有樣本，直到?jīng)]有紅色輪廓的樣本。W=[1.661.11]b=[1.25]W=[1.541.28]b=[-0.64]W=[1.161.63]b=[-1.8]W=[1.661.11]b=[-0.823]W=[1.49-1.39]b=[-0.743]SingleLayerPerceptrons：迭代過程where?11SingleLayerPerceptrons：局限性Theobjectiveisonlytofindthelinethatseparatestwolinearlyseparableclasses.Assoonasthefirstsolutionweightsvector,whichseparatesallthedatapairscorretly,isfound,therewillbenofurtherchangesofthevector.So,theperceptronlearningisnotanoptimizationmethod.線性可分問題Problems:itcannotseparatepatternswhenthereisanoverlappingofdataorwhenclassesarenotlinearlySeparable不能處理線性不可分問題x10011x20101d0110異或問題：120001AND1011OR1010XORx1x2y000100010111x1x2y000101011111x1x2y000101011110LinearSeparableProblem131010XORSingleLayerPerceptronsForXORproblem:1.introducingoneadditionalneuroninaspecialway;2.usingdifferentiableactivationfunction;?

一個(gè)單級(jí)網(wǎng)絡(luò)可以將平面劃分成兩部分，用多個(gè)單級(jí)網(wǎng)組合在一起，

就可以構(gòu)成一個(gè)兩級(jí)網(wǎng)，該網(wǎng)絡(luò)可以被用來在平面上劃分出一個(gè)封閉

或者開放的凸域來；?

采用特殊的激勵(lì)函數(shù)。142：從神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)15神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)網(wǎng)絡(luò)相似之處：不同之處：模擬人腦的分層網(wǎng)絡(luò)結(jié)構(gòu)；強(qiáng)調(diào)深度的重要性；突出特征學(xué)習(xí)的重要性；（逐層抽象）訓(xùn)練機(jī)制；16深度學(xué)習(xí)思想起源：人腦視覺機(jī)理后腦皮層的不同視覺神經(jīng)元，與瞳孔所受刺激之間，存在某種對(duì)應(yīng)關(guān)系。17人的視覺系統(tǒng)的信息處理是分級(jí)的；高層的特征是低層特征的組合，從低層到高層的特征表示越來越抽象，越來越能表現(xiàn)語(yǔ)義或者意圖；抽象層面越高，存在的可能猜測(cè)就越少，就越利于分類；如何用計(jì)算機(jī)模擬？深度學(xué)習(xí)起源：人腦視覺機(jī)理18為什么需要深度？深層網(wǎng)絡(luò)具有刻畫復(fù)雜函數(shù)的能力19常見深度學(xué)習(xí)網(wǎng)絡(luò)一覽20深度學(xué)習(xí)網(wǎng)絡(luò)按是否有監(jiān)督分類：213：循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）22遞歸神經(jīng)網(wǎng)絡(luò)模型23遞歸神經(jīng)網(wǎng)絡(luò)吸收了HMM模型的有限序列關(guān)聯(lián)的思想。神經(jīng)網(wǎng)絡(luò)的隱藏層結(jié)構(gòu)能夠更好的表達(dá)有限的觀察值背后的復(fù)雜分布。遞歸神經(jīng)網(wǎng)絡(luò)（RNN），是兩種人工神經(jīng)網(wǎng)絡(luò)的總稱：一種是時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)（recurrentneuralnetwork）；一種是結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)（recursiveneuralnetwork）；遞歸神經(jīng)網(wǎng)絡(luò)模型24時(shí)序擴(kuò)展RecurrentNeuralNetwork25針對(duì)對(duì)象：序列數(shù)據(jù)。例如文本，是字母和詞匯的序列；語(yǔ)音，是音節(jié)的序列；視頻，是圖像的序列；氣象觀測(cè)數(shù)據(jù)，股票交易數(shù)據(jù)等等，也都是序列數(shù)據(jù)。核心思想：樣本間存在順序關(guān)系，每個(gè)樣本和它之前的樣本存在關(guān)聯(lián)。通過神經(jīng)網(wǎng)絡(luò)在時(shí)序上的展開，我們能夠找到樣本之間的序列相關(guān)性。RNN是一類擴(kuò)展的人工神經(jīng)網(wǎng)絡(luò)，它是為了對(duì)序列數(shù)據(jù)進(jìn)行建模而產(chǎn)生的。RNN發(fā)展歷史26Hop?eldnetworksJ.Hop?eld19821986JordanNetworkElmanNetwork1990

J.ElmanBPTTP.WerbosHochreiter&Schmidhuber

LSTM1997Schuster&PaliwalBRNNA.

GravesNeuralturingmachine2014Cho,etalGRUM.Jordan早期（80、90年代）主要思想：重新使用參數(shù)和計(jì)算中期（90-2010）除LSTM以外，RNN基本從主流研究中消失了。當(dāng)前（2010-）應(yīng)用廣泛：自然語(yǔ)言應(yīng)用視頻建模，手寫識(shí)別，用戶意圖預(yù)測(cè)StackRNN2015Joulin&Mikolov開源工具包：TheanoTorch

PyBrain

TensorFlow,,,RecurrentNeuralNetwork27RNN基本框架e.g.ImageCaptioning

image->sequenceofwords

e.g.SentimentClassificationsequenceofwords->sentimente.g.MachineTranslation

seqofwords->seqofwords

e.g.Videoclassificationonframelevel

RecurrentNeuralNetwork28典型應(yīng)用：圖像標(biāo)注RecurrentNeuralNetwork29典型應(yīng)用：語(yǔ)言生成RecurrentNeuralNetwork30典型應(yīng)用：音樂作曲循環(huán)神經(jīng)網(wǎng)絡(luò)模型31激活函數(shù)RNN常用的激活函數(shù)是tanh和sigmoid。循環(huán)神經(jīng)網(wǎng)絡(luò)模型32softmaxSoftmax函數(shù)是sigmoid函數(shù)的一個(gè)變種，通常我們將其用在多分類任務(wù)的輸出層，將輸入轉(zhuǎn)化成標(biāo)簽的概率。本質(zhì)就是將一個(gè)K維的任意實(shí)數(shù)向量壓縮（映射）成另一個(gè)K維的實(shí)數(shù)向量，其中向量中的每個(gè)元素取值都介于（0，1）之間。

循環(huán)神經(jīng)網(wǎng)絡(luò)模型33簡(jiǎn)單循環(huán)網(wǎng)絡(luò)SRN神經(jīng)元之間的連接權(quán)重在時(shí)域上不變。循環(huán)神經(jīng)網(wǎng)絡(luò)模型34隨時(shí)間反向傳播算法BPTTBP回顧：定義損失函數(shù)E

來表示輸出

和真實(shí)標(biāo)簽y的誤差，通過鏈?zhǔn)椒▌t自頂向下求得E對(duì)網(wǎng)絡(luò)權(quán)重的偏導(dǎo)。沿梯度的反方向更新權(quán)重的值，直到E收斂。 BPTT的本質(zhì)其實(shí)和BP很像，就是加上了時(shí)序演化。定義權(quán)重U，V，W。

定義損失函數(shù):我們將整個(gè)序列作為一次訓(xùn)練，所以需要對(duì)每個(gè)時(shí)刻的誤差進(jìn)行求和。循環(huán)神經(jīng)網(wǎng)絡(luò)模型35隨時(shí)間反向傳播算法BPTT目前的任務(wù)是求E對(duì)于U，V，W的梯度。定義E對(duì)于W的梯度(U，V同理):（1）求E對(duì)于V的梯度。先求E3

對(duì)于V的梯度:WVU其中：求和可得。其中：依賴于，而又依賴于和W

，依賴關(guān)系一直傳遞到t=0的時(shí)刻。因此，當(dāng)我們計(jì)算對(duì)于W的偏導(dǎo)數(shù)時(shí)，不能把看作是常數(shù)項(xiàng)！循環(huán)神經(jīng)網(wǎng)絡(luò)模型36隨時(shí)間反向傳播算法BPTT（2）求E對(duì)于W

的梯度。注意，現(xiàn)在情況開始變得復(fù)雜起來。先求E3

對(duì)于W的梯度:WVU當(dāng)我們求對(duì)于W的偏導(dǎo)時(shí)。注意到：求和可得。同樣：依賴于，而又依賴于和U

。類似求W，當(dāng)我們計(jì)算對(duì)于U的偏導(dǎo)數(shù)時(shí)，也不能把看作是常數(shù)項(xiàng)！循環(huán)神經(jīng)網(wǎng)絡(luò)模型37隨時(shí)間反向傳播算法BPTT（3）求E對(duì)于U的梯度。情況與W類似。先求E3

對(duì)于U

的梯度:WVU當(dāng)我們求對(duì)于W的偏導(dǎo)時(shí)。注意到：求和可得。循環(huán)神經(jīng)網(wǎng)絡(luò)模型38隨時(shí)間反向傳播算法BPTT參數(shù)意義:Whv:輸入層到隱含層的權(quán)重參數(shù)，Whh:隱含層到隱含層的權(quán)重參數(shù)，Woh：隱含層到輸出層的權(quán)重參數(shù)，bh:隱含層的偏移量,bo輸出層的偏移量，h0:起始狀態(tài)的隱含層的輸出，一般初始為0。

遞歸神經(jīng)網(wǎng)絡(luò)模型39隨時(shí)間反向傳播算法BPTT面臨的問題：梯度消失問題梯度爆炸問題解決方案：選擇其他的激活函數(shù)。例如ReLU。引入改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)的機(jī)制，例如LSTM，GRU?，F(xiàn)在在自然語(yǔ)言處理上應(yīng)用十分廣的的就是LSTM。4：自然語(yǔ)言處理基礎(chǔ)404.1：什么是自然語(yǔ)言處理？概念：研究人和計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行通信的各種理論和方法414.2：詞向量421：傳統(tǒng)的One-HotEncode

離散單獨(dú)符號(hào)表示單詞

將一個(gè)單詞轉(zhuǎn)換成一個(gè)很長(zhǎng)的向量。例子：{0,0,0,0,0，，，1，，，，0}

缺點(diǎn)：

A：維數(shù)災(zāi)難，稀疏

B：不能反映出單詞之間的相似性

2：分布式表示

將一個(gè)單詞表示成固定維度（小維度）向量

分布式假設(shè)（distribute）:上下文相似的詞，其語(yǔ)義也相似

相近的詞投影到高維空間后距離很近詞的表示-詞向量4.3：Word2Vec43現(xiàn)在常用的工具是Google2013年開源的Word2Vec：根據(jù)采用的策略和模型我們主要分為以下幾類框架模型基于HierarchicalSoftMax策略CBOW模型Skip-gram模型基于NegativeSampling策略CBOW模型Skip-gram模型我們主要介紹架是Negat

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

深學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

深學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔