版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
目錄1:深度學(xué)習(xí)發(fā)展史2:從神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)3:循環(huán)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)4:自然語言處理基礎(chǔ)(擴充知識)1目錄11:深度學(xué)習(xí)發(fā)展史21:深度學(xué)習(xí)發(fā)展史2深度學(xué)習(xí)發(fā)展史SVMBoostingDecisiontreeKNN…NeuralnetworkBackpropagation19862006DeepbeliefnetScienceSpeech20112012ComputervisionNLPSpeech……2014GeoffreyHinton1949Learningmodelofneurons1958PerceptronHebbRosenblattGeoffreyHintonDBNCNNRBMRNN…機器學(xué)習(xí)第一次浪潮:機器學(xué)習(xí)第二次浪潮淺層學(xué)習(xí)模型(ShallowLearning)深度學(xué)習(xí)模型(DeepLearning)FirstWinterofNNSecondWinterofNN3深度學(xué)習(xí)發(fā)展史SVMNeuralnetwork198620深度學(xué)習(xí)(多層神經(jīng)網(wǎng)絡(luò))神經(jīng)網(wǎng)絡(luò)神經(jīng)元4深度學(xué)習(xí)(多層神經(jīng)網(wǎng)絡(luò))神經(jīng)網(wǎng)絡(luò)神經(jīng)元4synapsedendriteCellbodySynapticterminalsAxon軸突末梢突觸樹突細(xì)胞體軸突w1x1xnΣ線性動態(tài)系統(tǒng)激勵函數(shù)own神經(jīng)元是構(gòu)成神經(jīng)網(wǎng)絡(luò)的最基本單元(構(gòu)件),因此,首要任務(wù)是構(gòu)造人工神經(jīng)元模型。細(xì)胞體Cellbody樹突dendrite突觸synapse軸突Axon來自其它神經(jīng)元神經(jīng)元模型5synapsedendriteCellbodySynaptyθyaxox2x1xnw1w2wn???w1x1xnΣ激勵函數(shù)o=f(net)wnnet
=WTX
典型的激勵函數(shù)(ActivationFunction):線性函數(shù),非線性斜面函數(shù),階躍函數(shù),S型函數(shù)等。神經(jīng)元模型6yθyaxox2x1xnw1w2wn???w1x1xnΣ激InputLayerHiddenLayerOutputLayerx1xMh1hLo1oNw11wm1wM1wmLwMLw1Lv11vl1vL1vLN神經(jīng)網(wǎng)絡(luò)一般形式?
Nonlinearity非線性
?ParallelProcessing并行處理?Input—OutputMapping輸入輸出匹配
?Adaptivity自適應(yīng)性ocx2x1xnw1w2wn???7InputLayerHiddenLayerOutput因此,當(dāng)我們計算對于W的偏AssoonasthefirstNegativeSamplingOutputLayer氣象觀測數(shù)據(jù),股票交易數(shù)據(jù)等等,也都是序列數(shù)據(jù)。將一個單詞表示成固定維度(小維度)向量Rosenblatt,1957基于HierarchicalSoftMax策略Rosenblatt,1957ComputervisionImageCaptioning
image->sequenceofwords(ShallowLearning)則對于brown單詞而言1:什么是自然語言處理?先求E3對于V的梯度:4:自然語言處理基礎(chǔ)(擴充知識)Backpropagation例子:{0,0,0,0,0,,,1,,,,0}changesofthevector.最簡單的神經(jīng)網(wǎng)絡(luò):Perceptrons8因此,當(dāng)我們計算對于W的偏最簡單的神經(jīng)網(wǎng)絡(luò):8SingleLayerPerceptronsybx2x1xMw1w2wM???Rosenblatt,1957u>0u<09SingleLayerPerceptronsybx2x1兩類樣本:白色和黑色
分類錯誤的樣本用紅色輪廓目標(biāo):分類正確所有樣本,直到?jīng)]有紅色輪廓的樣本。W=[1.661.11]b=[1.25]W=[1.541.28]b=[-0.64]W=[1.161.63]b=[-1.8]W=[1.661.11]b=[-0.823]W=[1.49-1.39]b=[-0.743]SingleLayerPerceptrons:迭代過程where?10兩類樣本:白色和黑色W=[1.661.11]b=基于HierarchicalSoftMax策略或者開放的凸域來;Skip-gram模型:word2vec中的基于NegativeSampling模型的兩種方法。PerceptronsRecurrentNeuralNetwork類似求W,當(dāng)我們計算對于U的偏導(dǎo)數(shù)時,也不(ShallowLearning)基于HierarchicalSoftMax策略SingleLayerPerceptrons:迭代過程Whv:輸入層到隱含層的權(quán)重參數(shù),(1)求E對于V的梯度。28]b=[-0.11]b=[1.Rosenblatt,195739]b=[-0.Skip-gram模型后腦皮層的不同視覺神經(jīng)元,與瞳孔所受刺激之間,存在某種對應(yīng)關(guān)系。模擬人腦的分層網(wǎng)絡(luò)結(jié)構(gòu);Schuster&Paliwal對這個函數(shù)(模型)采用梯度下降算法進行訓(xùn)練負(fù)樣本:(brown,dog)SingleLayerPerceptrons:局限性Theobjectiveisonlytofindthelinethatseparatestwolinearlyseparableclasses.Assoonasthefirstsolutionweightsvector,whichseparatesallthedatapairscorretly,isfound,therewillbenofurtherchangesofthevector.So,theperceptronlearningisnotanoptimizationmethod.線性可分問題Problems:itcannotseparatepatternswhenthereisanoverlappingofdataorwhenclassesarenotlinearlySeparable不能處理線性不可分問題x10011x20101d0110異或問題:11基于HierarchicalSoftMax策略Single0001AND1011OR1010XORx1x2y000100010111x1x2y000101011111x1x2y000101011110LinearSeparableProblem120001AND1011OR1010XORx1x2y000101010XORSingleLayerPerceptronsForXORproblem:1.introducingoneadditionalneuroninaspecialway;2.usingdifferentiableactivationfunction;?
一個單級網(wǎng)絡(luò)可以將平面劃分成兩部分,用多個單級網(wǎng)組合在一起,
就可以構(gòu)成一個兩級網(wǎng),該網(wǎng)絡(luò)可以被用來在平面上劃分出一個封閉
或者開放的凸域來;?
采用特殊的激勵函數(shù)。131010XORSingleLayerPerceptron2:從神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)142:從神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)14神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)網(wǎng)絡(luò)相似之處:不同之處:模擬人腦的分層網(wǎng)絡(luò)結(jié)構(gòu);強調(diào)深度的重要性;突出特征學(xué)習(xí)的重要性;(逐層抽象)訓(xùn)練機制;15神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)網(wǎng)絡(luò)相似之處:不同之處:模擬人腦的分層網(wǎng)絡(luò)結(jié)深度學(xué)習(xí)思想起源:人腦視覺機理后腦皮層的不同視覺神經(jīng)元,與瞳孔所受刺激之間,存在某種對應(yīng)關(guān)系。16深度學(xué)習(xí)思想起源:人腦視覺機理后腦皮層的不同視覺神經(jīng)元,與瞳人的視覺系統(tǒng)的信息處理是分級的;高層的特征是低層特征的組合,從低層到高層的特征表示越來越抽象,越來越能表現(xiàn)語義或者意圖;抽象層面越高,存在的可能猜測就越少,就越利于分類;如何用計算機模擬?深度學(xué)習(xí)起源:人腦視覺機理17如何用計算機模擬?深度學(xué)習(xí)起源:人腦視覺機理17為什么需要深度?深層網(wǎng)絡(luò)具有刻畫復(fù)雜函數(shù)的能力18為什么需要深度?深層網(wǎng)絡(luò)具有刻畫復(fù)雜函數(shù)的能力18常見深度學(xué)習(xí)網(wǎng)絡(luò)一覽19常見深度學(xué)習(xí)網(wǎng)絡(luò)一覽19深度學(xué)習(xí)網(wǎng)絡(luò)按是否有監(jiān)督分類:20深度學(xué)習(xí)網(wǎng)絡(luò)按是否有監(jiān)督分類:203:循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)213:循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)21我們將整個序列作為一次訓(xùn)練,所以需要對每個時刻的誤差進行求和。Joulin&Mikolov(2)求E對于W的梯度。優(yōu)化目標(biāo)為:最大化正樣本的概率,同時最小化負(fù)樣本的概率?;贖ierarchicalSoftMax策略39]b=[-0.神經(jīng)元是構(gòu)成神經(jīng)網(wǎng)絡(luò)的最基本單元(構(gòu)件),因此,首要任務(wù)是構(gòu)造人工神經(jīng)元模型。類似求W,當(dāng)我們計算對于U的偏導(dǎo)數(shù)時,也不Rosenblatt,1957BackpropagationRosenblatt,1957根據(jù)采用的策略和模型我們主要分為以下幾類同樣:依賴于,而又依賴于和U。ForXORproblem:基于NegativeSampling策略Skip-gram模型bh:隱含層的偏移量,bo輸出層的偏移量,其中:依賴于,而又依賴于和W,依賴關(guān)系Skip-gram模型SingleLayerPerceptrons:迭代過程分布式假設(shè)(distribute):上下文相似的詞,其語義也相似深度學(xué)習(xí)(多層神經(jīng)網(wǎng)絡(luò))遞歸神經(jīng)網(wǎng)絡(luò)模型22遞歸神經(jīng)網(wǎng)絡(luò)吸收了HMM模型的有限序列關(guān)聯(lián)的思想。神經(jīng)網(wǎng)絡(luò)的隱藏層結(jié)構(gòu)能夠更好的表達有限的觀察值背后的復(fù)雜分布。遞歸神經(jīng)網(wǎng)絡(luò)(RNN),是兩種人工神經(jīng)網(wǎng)絡(luò)的總稱:一種是時間遞歸神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetwork);一種是結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)(recursiveneuralnetwork);我們將整個序列作為一次訓(xùn)練,所以需要對每個時刻的誤差進行求和遞歸神經(jīng)網(wǎng)絡(luò)模型23時序擴展遞歸神經(jīng)網(wǎng)絡(luò)模型23時序擴展RecurrentNeuralNetwork24針對對象:序列數(shù)據(jù)。例如文本,是字母和詞匯的序列;語音,是音節(jié)的序列;視頻,是圖像的序列;氣象觀測數(shù)據(jù),股票交易數(shù)據(jù)等等,也都是序列數(shù)據(jù)。核心思想:樣本間存在順序關(guān)系,每個樣本和它之前的樣本存在關(guān)聯(lián)。通過神經(jīng)網(wǎng)絡(luò)在時序上的展開,我們能夠找到樣本之間的序列相關(guān)性。RNN是一類擴展的人工神經(jīng)網(wǎng)絡(luò),它是為了對序列數(shù)據(jù)進行建模而產(chǎn)生的。RecurrentNeuralNetwork24RNN是RNN發(fā)展歷史25Hop?eldnetworksJ.Hop?eld19821986JordanNetworkElmanNetwork1990
J.ElmanBPTTP.WerbosHochreiter&Schmidhuber
LSTM1997Schuster&PaliwalBRNNA.
GravesNeuralturingmachine2014Cho,etalGRUM.Jordan早期(80、90年代)主要思想:重新使用參數(shù)和計算中期(90-2010)除LSTM以外,RNN基本從主流研究中消失了。當(dāng)前(2010-)應(yīng)用廣泛:自然語言應(yīng)用視頻建模,手寫識別,用戶意圖預(yù)測StackRNN2015Joulin&Mikolov開源工具包:TheanoTorch
PyBrain
TensorFlow,,,RNN發(fā)展歷史25Hop?eldJ.Hop?eld198RecurrentNeuralNetwork26RNN基本框架e.g.ImageCaptioning
image->sequenceofwords
e.g.SentimentClassificationsequenceofwords->sentimente.g.MachineTranslation
seqofwords->seqofwords
e.g.Videoclassificationonframelevel
RecurrentNeuralNetwork26RNN基RecurrentNeuralNetwork27典型應(yīng)用:圖像標(biāo)注RecurrentNeuralNetwork27典型應(yīng)用RecurrentNeuralNetwork28典型應(yīng)用:語言生成RecurrentNeuralNetwork28典型應(yīng)用RecurrentNeuralNetwork29典型應(yīng)用:音樂作曲RecurrentNeuralNetwork29典型應(yīng)用循環(huán)神經(jīng)網(wǎng)絡(luò)模型30激活函數(shù)RNN常用的激活函數(shù)是tanh和sigmoid。循環(huán)神經(jīng)網(wǎng)絡(luò)模型30激活函數(shù)RNN常用的激活函數(shù)是tanh和循環(huán)神經(jīng)網(wǎng)絡(luò)模型31softmaxSoftmax函數(shù)是sigmoid函數(shù)的一個變種,通常我們將其用在多分類任務(wù)的輸出層,將輸入轉(zhuǎn)化成標(biāo)簽的概率。本質(zhì)就是將一個K維的任意實數(shù)向量壓縮(映射)成另一個K維的實數(shù)向量,其中向量中的每個元素取值都介于(0,1)之間。
循環(huán)神經(jīng)網(wǎng)絡(luò)模型31softmaxSoftmax函數(shù)是sig循環(huán)神經(jīng)網(wǎng)絡(luò)模型32簡單循環(huán)網(wǎng)絡(luò)SRN神經(jīng)元之間的連接權(quán)重在時域上不變。循環(huán)神經(jīng)網(wǎng)絡(luò)模型32簡單循環(huán)網(wǎng)絡(luò)SRN神經(jīng)元之間的連接權(quán)重在循環(huán)神經(jīng)網(wǎng)絡(luò)模型33隨時間反向傳播算法BPTTBP回顧:定義損失函數(shù)E
來表示輸出
和真實標(biāo)簽y的誤差,通過鏈?zhǔn)椒▌t自頂向下求得E對網(wǎng)絡(luò)權(quán)重的偏導(dǎo)。沿梯度的反方向更新權(quán)重的值,直到E收斂。 BPTT的本質(zhì)其實和BP很像,就是加上了時序演化。定義權(quán)重U,V,W。
定義損失函數(shù):我們將整個序列作為一次訓(xùn)練,所以需要對每個時刻的誤差進行求和。循環(huán)神經(jīng)網(wǎng)絡(luò)模型33隨時間反向傳播算法BPTTBP回顧:定義(3)求E對于U的梯度。?Nonlinearity非線性基于NegativeSampling策略Rosenblatt,1957根據(jù)采用的策略和模型我們主要分為以下幾類就可以構(gòu)成一個兩級網(wǎng),該網(wǎng)絡(luò)可以被用來在平面上劃分出一個封閉則對于brown單詞而言根據(jù)采用的策略和模型我們主要分為以下幾類SingleLayerPerceptrons:迭代過程當(dāng)前(2010-)應(yīng)用廣泛:?ParallelProcessing并行處理word2vec中的基于NegativeSampling模型的兩種方法。沿梯度的反方向更新權(quán)重的值,直到E收斂。分布式假設(shè)(distribute):上下文相似的詞,其語義也相似VideoclassificationonframelevelSchmidhuber注意到:Rosenblatt,1957bh:隱含層的偏移量,bo輸出層的偏移量,現(xiàn)在常用的工具是Google2013年開源的Word2Vec:主要思想:重新使用參數(shù)和計算隨時間反向傳播算法BPTT循環(huán)神經(jīng)網(wǎng)絡(luò)模型34隨時間反向傳播算法BPTT目前的任務(wù)是求E對于U,V,W的梯度。定義E對于W的梯度(U,V同理):(1)求E對于V的梯度。先求E3
對于V的梯度:WVU其中:求和可得。(3)求E對于U的梯度。循環(huán)神經(jīng)網(wǎng)絡(luò)模型34隨時間反向其中:依賴于,而又依賴于和W
,依賴關(guān)系一直傳遞到t=0的時刻。因此,當(dāng)我們計算對于W的偏導(dǎo)數(shù)時,不能把看作是常數(shù)項!循環(huán)神經(jīng)網(wǎng)絡(luò)模型35隨時間反向傳播算法BPTT(2)求E對于W
的梯度。注意,現(xiàn)在情況開始變得復(fù)雜起來。先求E3
對于W的梯度:WVU當(dāng)我們求對于W的偏導(dǎo)時。注意到:求和可得。其中:依賴于,而又依賴于同樣:依賴于,而又依賴于和U
。類似求W,當(dāng)我們計算對于U的偏導(dǎo)數(shù)時,也不能把看作是常數(shù)項!循環(huán)神經(jīng)網(wǎng)絡(luò)模型36隨時間反向傳播算法BPTT(3)求E對于U的梯度。情況與W類似。先求E3
對于U
的梯度:WVU當(dāng)我們求對于W的偏導(dǎo)時。注意到:求和可得。同樣:依賴于,而又依賴于循環(huán)神經(jīng)網(wǎng)絡(luò)模型37隨時間反向傳播算法BPTT參數(shù)意義:Whv:輸入層到隱含層的權(quán)重參數(shù),Whh:隱含層到隱含層的權(quán)重參數(shù),Woh:隱含層到輸出層的權(quán)重參數(shù),bh:隱含層的偏移量,bo輸出層的偏移量,h0:起始狀態(tài)的隱含層的輸出,一般初始為0。
循環(huán)神經(jīng)網(wǎng)絡(luò)模型37隨時間反向傳播算法BPTT參數(shù)意義:遞歸神經(jīng)網(wǎng)絡(luò)模型38隨時間反向傳播算法BPTT面臨的問題:梯度消失問題梯度爆炸問題解決方案:選擇其他的激活函數(shù)。例如ReLU。引入改進網(wǎng)絡(luò)結(jié)構(gòu)的機制,例如LSTM,GRU。現(xiàn)在在自然語言處理上應(yīng)用十分廣的的就是LSTM。遞歸神經(jīng)網(wǎng)絡(luò)模型38隨時間反向傳播算法BPTT解決方案:4:自然語言處理基礎(chǔ)394:自然語言處理基礎(chǔ)394.1:什么是自然語言處理?概念:研究人和計算機之間用自然語言進行通信的各種理論和方法404.1:什么是自然語言處理?40先求E3對于V的梯度:(ShallowLearning)Rosenblatt,1957Skip-gram模型后腦皮層的不同視覺神經(jīng)元,與瞳孔所受刺激之間,存在某種對應(yīng)關(guān)系。分布式假設(shè)(distribute):上下文相似的詞,其語義也相似注意到:根據(jù)采用的策略和模型我們主要分為以下幾類后腦皮層的不同視覺神經(jīng)元,與瞳孔所受刺激之間,存在某種對應(yīng)關(guān)系。Rosenblatt,1957導(dǎo)數(shù)時,不能把看作是常數(shù)項!根據(jù)采用的策略和模型我們主要分為以下幾類3:循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)Skip-gram模型:深度學(xué)習(xí)(多層神經(jīng)網(wǎng)絡(luò))當(dāng)前(2010-)應(yīng)用廣泛:Backpropagation基于HierarchicalSoftMax策略負(fù)樣本:(brown,dog)后腦皮層的不同視覺神經(jīng)元,與瞳孔所受刺激之間,存在某種對應(yīng)關(guān)系。優(yōu)化目標(biāo)為:最大化正樣本的概率,同時最小化負(fù)樣本的概率。因此,當(dāng)我們計算對于W的偏4.2:詞向量411:傳統(tǒng)的One-HotEncode
離散單獨符號表示單詞
將一個單詞轉(zhuǎn)換成一個很長的向量。例子:{0,0,0,0,0,,,1,,,,0}
缺點:
A:維數(shù)災(zāi)難,稀疏
B:不能反映出單詞之間的相似性
2:分布式表示
將一個單詞表示成固定維度(小維度)向量
分布式假設(shè)(distribute):上下文相似的詞,其語義也相似
相近的詞投影到高維空間后距離很近詞的表示-詞向量先求E3對于V的梯度:4.2:詞向量411:傳統(tǒng)的On4.3:Word2Vec42現(xiàn)在常用的工具是Google2013年開源的Word2Vec:根據(jù)采用的策略和模型我們主要分為以下幾類框架模型基于HierarchicalSoftMax策略CBOW模型Skip-gram模型基于NegativeSampling策略CBOW模型Skip-gram模型我們主要介紹架是NegativeSampling(負(fù)采樣)模型4.3:Word2Vec42現(xiàn)在常用的工具是Google204.4:工作原理43NegativeSampling概念:把語料中一個詞替換為別的詞,構(gòu)造語料D中不存在的詞串作為負(fù)樣本優(yōu)化目標(biāo)為:最大化正樣本的概率,同時最小化負(fù)樣本的概率。例子:假設(shè)我們的目標(biāo)是根據(jù)目標(biāo)詞匯預(yù)測該目標(biāo)詞匯的上下文語料:Thequickbrownfoxjumpedoverthelazydog這里我們的上下文長度取1;則對于brown單詞而言正樣本:(brown,quick),(brown,fox)負(fù)樣本:(brown,dog)4.4:工作原理43NegativeSampling概念:4.4:工作原理44對于一個給定的樣本(w,Context(w)),我們使用二項邏輯回歸對其樣本進行建模得
NegativeSampling原理則其全部正樣本的似然函數(shù)為則其全部負(fù)樣本的似然函數(shù)為4.4:工作原理44對于一個給定的樣本(w,Contex4.4:工作原理45我們同時最大化正樣本概率最小化負(fù)樣本的概率就得到下式對這個函數(shù)(模型)采用梯度下降算法進行訓(xùn)練4.4:工作原理45我們同時最大化正樣本概率最小化負(fù)樣本的概4.5:工作模式46word2vec中的基于NegativeSampling模型的兩種方法。例子:Iamastudent;CBOW:知道am,student,去預(yù)測aSkip-gram模型:知道a,去預(yù)測am,student4.5:工作模式46word2vec中的基于Negative4.6:實驗步驟47原始語料生成樣本訓(xùn)練模型參數(shù)最終模型生成結(jié)果4.6:實驗步驟47原始語料生成樣本訓(xùn)練模型參數(shù)最終模型生成THANKS48THANKS48深度學(xué)習(xí)(多層神經(jīng)網(wǎng)絡(luò))神經(jīng)網(wǎng)絡(luò)神經(jīng)元49深度學(xué)習(xí)(多層神經(jīng)網(wǎng)絡(luò))神經(jīng)網(wǎng)絡(luò)神經(jīng)元49synapsedendriteCellbodySynapticterminalsAxon軸突末梢突觸樹突細(xì)胞體軸突w1x1xnΣ線性動態(tài)系統(tǒng)激勵函數(shù)own神經(jīng)元是構(gòu)成神經(jīng)網(wǎng)絡(luò)的最基本單元(構(gòu)件),因此,首要任務(wù)是構(gòu)造人工神經(jīng)元模型。細(xì)胞體Cellbody樹突dendrite突觸synapse軸突Axon來自其它神經(jīng)元神經(jīng)元模型50synapsedendriteCellbodySynaptInputLayerHiddenLayerOutputLayerx1xMh1hLo1oNw11wm1wM1wmLwMLw1Lv11vl1vL1vLN神經(jīng)網(wǎng)絡(luò)一般形式?
Nonlinearity非線性
?ParallelProcessing并行處理?Input—OutputMapping輸入輸出匹配
?Adaptivity自適應(yīng)性ocx2x1xnw1w2wn???51InputLayerHiddenLayerOutput深度學(xué)習(xí)思想起源:人腦視覺機理后腦皮層的不同視覺神經(jīng)元,與瞳孔所受刺激之間,存在某種對應(yīng)關(guān)系。52深度學(xué)習(xí)思想起源:人腦視覺機理后腦皮層的不同視覺神經(jīng)元,與瞳后腦皮層的不同視覺神經(jīng)元,與瞳孔所受刺激之間,存在某種對應(yīng)關(guān)系。Computervision同樣:依賴于,而又依賴于和U。Whh:隱含層到隱含層的權(quán)重參數(shù),NegativeSampling原理Rosenblatt,1957RNN常用的激活函數(shù)是tanh和sigmoid。例如文本,是字母和詞匯的序列;一種是結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)(recursiveneuralnetwork);導(dǎo)數(shù)時,不能把看作是常數(shù)項!例子:假設(shè)我們的目標(biāo)是根據(jù)目標(biāo)詞匯預(yù)測該目標(biāo)詞匯的上下文VideoclassificationonframelevelRecurrentNeuralNetwork?ParallelProcessing并行處理InputLayer當(dāng)我們求對于W的偏導(dǎo)時。根據(jù)采用的策略和模型我們主要分為以下幾類就可以構(gòu)成一個兩級網(wǎng),該網(wǎng)絡(luò)可以被用來在平面上劃分出一個封閉基于HierarchicalSoftMax策略isnotanoptimizationmethod.solutionweightsvector,whichseparatesalltheSingleLayerPerceptrons:迭代過程為什么需要深度?深層網(wǎng)絡(luò)具有刻畫復(fù)雜函數(shù)的能力53后腦皮層的不同視覺神經(jīng)元,與瞳孔所受刺激之間,存在某種對應(yīng)關(guān)常見深度學(xué)習(xí)網(wǎng)絡(luò)一覽54常見深度學(xué)習(xí)網(wǎng)絡(luò)一覽54循環(huán)神經(jīng)網(wǎng)絡(luò)模型55激活函數(shù)RNN常用的激活函數(shù)是tanh和sigmoid。循環(huán)神經(jīng)網(wǎng)絡(luò)模型55激活函數(shù)RNN常用的激活函數(shù)是tanh和datapairscorretly,isfound,therewillbenofurtherCBOW:知道am,student,去預(yù)測aRecurrentNeuralNetworkGeoffreyHinton因此,當(dāng)我們計算對于W的偏(ShallowLearning)Schuster&Paliwal概念:把語料中一個詞替換為別的詞,構(gòu)造語料D中不存在的詞串作為負(fù)樣本Videoclassificationonframelevel1:什么是自然語言處理?bh:隱含層的偏移量,bo輸出層的偏移量,根據(jù)采用的策略和模型我們主要分為以下幾類Rosenblatt,1957深度學(xué)習(xí)思想起源:人腦視覺機理usingdifferentiableactivationfun
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 ISO 4628-3:2024 EN Paints and varnishes - Evaluation of quantity and size of defects,and of intensity of uniform changes in appearance - Part 3: Assessment of degree of rus
- 企業(yè)晚宴祝酒詞
- 資料《小王子》讀后感
- DB12T 076-1997 太陽熱水器衛(wèi)生技術(shù)條件
- 中秋晚會領(lǐng)導(dǎo)致辭范文(8篇)
- 秋天村莊課件教學(xué)課件
- 燙傷課件幼兒教學(xué)課件
- 部編版歷史九年級上冊第三單元 第9課《中世紀(jì)城市和大學(xué)的興起》說課稿
- 校園足球課件教學(xué)課件
- 葉酸孕婦課件教學(xué)課件
- 精細(xì)化工概論-05洗滌劑
- 速賣通介紹課件
- 腦梗死PPT教學(xué)講解課件
- 腦卒中患者語言康復(fù)訓(xùn)練課件
- 古代茶具的演變課件
- 55三相異步電動機的銘牌與型號電機與變壓器勞動第五版課件
- 華為校招硬件技術(shù)工程師機考試題
- 蘇科版九上數(shù)學(xué)專題 隱圓問題課件
- 開放水域潛水員理論知識考試試題與答案
- 遼寧省地圖課件介紹
- 《設(shè)計三大構(gòu)成》第四章課件
評論
0/150
提交評論