版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》2025緒論《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》20251.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)緒論,pptx2.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)機(jī)器學(xué)習(xí)概述,pptx3.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)前饋神經(jīng)網(wǎng)絡(luò).pptx4.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)線性模型,pptx5.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí).pptx6.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)深度信念網(wǎng)絡(luò),pptx7.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)概率圖模型.pptx8.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò).pptx9.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)深度強(qiáng)化學(xué)習(xí).pptx10.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)注意力機(jī)制與外部記憶.pptx11.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)深度生成模型,pptx12.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)序列生成模型,pptx13.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)網(wǎng)絡(luò)優(yōu)化與正則化.pptx關(guān)于本課程人工智能的一個(gè)子領(lǐng)域神經(jīng)網(wǎng)絡(luò):一種以(人工)神經(jīng)元為基本單元的模型深度學(xué)習(xí):一類機(jī)器學(xué)習(xí)問(wèn)題,主要解決貢獻(xiàn)度分配問(wèn)題。神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》3更詳細(xì)的課程概括《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》4概述機(jī)器學(xué)習(xí)概述線性模型基礎(chǔ)網(wǎng)絡(luò)模型前饋神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)優(yōu)化與正則化記憶與注意力機(jī)制無(wú)監(jiān)督學(xué)習(xí)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》5進(jìn)階模型概率圖模型玻爾茲曼機(jī)深度信念網(wǎng)絡(luò)深度生成模型深度強(qiáng)化學(xué)習(xí)序列生成模型課程大綱預(yù)備知識(shí)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》6線性代數(shù)微積分?jǐn)?shù)學(xué)優(yōu)化概率論信息論《數(shù)學(xué)基礎(chǔ)》推薦教材《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》7邱錫鵬,神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí),機(jī)械工業(yè)出版社,2020,ISBN
9787111649687提供配套練習(xí)阿斯頓·張等,動(dòng)手學(xué)深度學(xué)習(xí),ISBN:
9787115505835https://d2l.ai/有PyTorch版Bishop,
C.M.
(2006).
Pattern
recognition
and
MachineLearning.
Springer.
ISBN
9780387310732.網(wǎng)上有中文版by馬春鵬推薦教材
Wright,
S.,
&
Nocedal,
J.
(1999).
Numerical
optimization.Springer
Science,
35(67-68),
7.
Boyd,
S.,
&
Vandenberghe,
L.
(2004).
Convex
optimization.Cambridge
university
press.《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》8推薦課程《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》9
斯坦福大學(xué)CS224n:
Deep
Learning
for
Natural
LanguageProcessing/class/archive/cs/cs224n/cs224n.1194/ChrisManning主要講解自然語(yǔ)言處理領(lǐng)域的各種深度學(xué)習(xí)模型
斯坦福大學(xué)CS231n:
Convolutional
Neural
Networks
for
VisualRecognition/Fei-Fei
Li
Andrej
Karpathy
主要講解CNN、RNN在圖像領(lǐng)域的應(yīng)用加州大學(xué)伯克利分校CS
294:
Deep
Reinforcement
Learning/deeprlcourse/推薦材料《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》10林軒田“機(jī)器學(xué)習(xí)基石”“機(jī)器學(xué)習(xí)技法”https://.tw/~htlin/mooc/李宏毅“1天搞懂深度學(xué)習(xí)”.tw/~tlkagk/slide/Tutorial_HYLee_Deep.pptx李宏毅“機(jī)器學(xué)習(xí)2020”https:///video/av94519857/頂會(huì)論文NeurIPS、ICLR、ICML、AAAI、IJCAIACL、EMNLPCVPR、ICCV
…《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》11成績(jī)(研究生)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》12課程建設(shè)40%期末作業(yè)60%2人一組編程語(yǔ)言:Python人工智能《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》13
人工智能(artificialintelligence,AI)就是讓機(jī)器具有人類的智能?!坝?jì)算機(jī)控制”+“智能行為”人工智能這個(gè)學(xué)科的誕生有著明確的標(biāo)志性事件,就是1956年的達(dá)特茅斯(Dartmouth)會(huì)議。在這次會(huì)議上,“人工智能”被提出并作為本研究領(lǐng)域的名稱。人工智能就是要讓機(jī)器的行為看起來(lái)就像是人所表現(xiàn)出的智能行為一樣。John
McCarthy(1927-2011)圖靈測(cè)試Alan
Turing《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》14“一個(gè)人在不接觸對(duì)方的情況下,通過(guò)一種特殊的方式,和對(duì)方進(jìn)行一系列的問(wèn)答。如果在相當(dāng)長(zhǎng)時(shí)間內(nèi),他無(wú)法根據(jù)這些問(wèn)題判斷對(duì)方是人還是計(jì)算機(jī),那么就可以認(rèn)為這個(gè)計(jì)算機(jī)是智能的”。---Alan
Turing
[1950]《Computing
Machinery
and
Intelligence》人工智能的研究領(lǐng)域《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》15讓機(jī)器具有人類的智能機(jī)器感知(計(jì)算機(jī)視覺(jué)、語(yǔ)音信息處理)學(xué)習(xí)(模式識(shí)別、機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí))語(yǔ)言(自然語(yǔ)言處理)記憶(知識(shí)表示)決策(規(guī)劃、數(shù)據(jù)挖掘)發(fā)展歷史《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》16如何開(kāi)發(fā)一個(gè)人工智能系統(tǒng)?專家知識(shí)(人工規(guī)則)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》17What’s
theRule?機(jī)器學(xué)習(xí)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》18機(jī)器學(xué)習(xí)≈構(gòu)建一個(gè)映射函數(shù)語(yǔ)音識(shí)別圖像識(shí)別圍棋機(jī)器翻譯f
“你好”f
“9”f
“6-5”f
“Hello!”“你好!”(落子位置)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》19芒果機(jī)器學(xué)習(xí)https:///How-do-you-explain-Machine-Learning-and-Data-Mining-to-non-Computer-Science-people如果判斷芒果是否甜蜜?《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》20芒果機(jī)器學(xué)習(xí)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》21從市場(chǎng)上隨機(jī)選取的芒果樣本(訓(xùn)練數(shù)據(jù)),列出每個(gè)芒果的所有特征:如顏色,大小,形狀,產(chǎn)地,品牌以及芒果質(zhì)量(輸出變量):甜蜜,多汁,成熟度。設(shè)計(jì)一個(gè)學(xué)習(xí)算法來(lái)學(xué)習(xí)芒果的特征與輸出變量之間的相關(guān)性模型。下次從市場(chǎng)上買(mǎi)芒果時(shí),可以根據(jù)芒果(測(cè)試數(shù)據(jù))的特征,使用前面計(jì)算的模型來(lái)預(yù)測(cè)芒果的質(zhì)量。知識(shí)知道怎么做專家系統(tǒng)…不知道怎么做容易做機(jī)器學(xué)習(xí)圖像識(shí)別自然語(yǔ)言處理語(yǔ)音識(shí)別不容易做強(qiáng)化學(xué)習(xí)圍棋《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》22如何開(kāi)發(fā)一個(gè)人工智能系統(tǒng)?規(guī)則深度學(xué)習(xí)機(jī)器學(xué)習(xí)當(dāng)我們用機(jī)器學(xué)習(xí)來(lái)解決一些模式識(shí)別任務(wù)時(shí),一般的流程包含以下幾個(gè)步驟:
淺層學(xué)習(xí)(Shallow
Learning):不涉及特征學(xué)習(xí),其特征主要靠人工經(jīng)驗(yàn)或特征轉(zhuǎn)換方法來(lái)抽取。特征工程(Feature
Engineering)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》24語(yǔ)義鴻溝:人工智能的挑戰(zhàn)之一底層特征VS
高層語(yǔ)義人們對(duì)文本、圖像的理解無(wú)法從字符串或者圖像的底層特征直接獲得床前明月光,疑是地上霜。舉頭望明月,低頭思故鄉(xiāng)?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》25表示學(xué)習(xí)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》26數(shù)據(jù)表示是機(jī)器學(xué)習(xí)的核心問(wèn)題。特征工程:需要借助人類智能表示學(xué)習(xí)如何自動(dòng)從數(shù)據(jù)中學(xué)習(xí)好的表示難點(diǎn)沒(méi)有明確的目標(biāo)Bengio,
Yoshua,
Aaron
Courville,
and
Pascal
Vincent.
"Representation
learning:
A
reviewand
new
perspectives."
IEEE
transactions
on
pattern
analysis
and
machine
intelligence35.8
(2013):
1798-1828.什么是好的數(shù)據(jù)表示?《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》27“好的表示”是一個(gè)非常主觀的概念,沒(méi)有一個(gè)明確的標(biāo)準(zhǔn)。但一般而言,一個(gè)好的表示具有以下幾個(gè)優(yōu)點(diǎn):應(yīng)該具有很強(qiáng)的表示能力。應(yīng)該使后續(xù)的學(xué)習(xí)任務(wù)變得簡(jiǎn)單。應(yīng)該具有一般性,是任務(wù)或領(lǐng)域獨(dú)立的。語(yǔ)義表示如何在計(jì)算機(jī)中表示語(yǔ)義?局部(符號(hào))表示分布式表示知識(shí)庫(kù)、規(guī)則嵌入:壓縮、低維、稠密向量《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》28One-Hot向量一個(gè)生活中的例子:顏色《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》29表示形式局部表示離散表示、符號(hào)表示One-Hot向量分布式(distributed)表示壓縮、低維、稠密向量用O(N)個(gè)參數(shù)表示O(2k)區(qū)間k為非0參數(shù),k<N局部表示分布式表示A[1
000][0.250.5]B[0
100][0.2
0.9]C[0
010][0.8
0.2]D[0
001][0.9
0.1]分布式表示《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》30詞嵌入(Word
Embeddings)https://indico.io/blog/visualizing-with-t-sne/《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》31上海北京高興難過(guò)表示學(xué)習(xí)與深度學(xué)習(xí)一個(gè)好的表示學(xué)習(xí)策略必須具備一定的深度特征重用指數(shù)級(jí)的表示能力抽象表示與不變性抽象表示需要多步的構(gòu)造/2008/11/24/concrete-and-abstract-representations-using-mathematical-tools/《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》32傳統(tǒng)的特征提取《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》33特征提取線性投影(子空間)PCA、LDA非線性嵌入LLE、Isomap、譜方法自編碼器特征提取VS表示學(xué)習(xí)特征提?。夯谌蝿?wù)或先驗(yàn)對(duì)去除無(wú)用特征表示學(xué)習(xí):通過(guò)深度模型學(xué)習(xí)高層語(yǔ)義特征深度學(xué)習(xí)通過(guò)構(gòu)建具有一定“深度”的模型,可以讓模型來(lái)自動(dòng)學(xué)習(xí)好的特征表示(從底層特征,到中層特征,再到高層特征),從而最終提升預(yù)測(cè)或識(shí)別的準(zhǔn)確性?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》34表示學(xué)習(xí)與深度學(xué)習(xí)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》35深度學(xué)習(xí)的數(shù)學(xué)描述…淺層學(xué)習(xí)深度學(xué)習(xí)當(dāng)??l
??
連續(xù)時(shí),
比如??l
?? =
??
??l??l
?
1
??
,這個(gè)復(fù)合函數(shù)稱為神經(jīng)網(wǎng)絡(luò)。??l??
為非線性函數(shù),不一定連續(xù)。《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》36神經(jīng)網(wǎng)絡(luò)生物神經(jīng)元單個(gè)神經(jīng)細(xì)胞只有兩種狀態(tài):興奮和抑制video:
structure
ofbrain《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》38人腦有860億個(gè)神經(jīng)元神經(jīng)網(wǎng)絡(luò)如何學(xué)習(xí)?《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》39赫布法則Hebb'sRule“當(dāng)神經(jīng)元A的一個(gè)軸突和神經(jīng)元B很近,足以對(duì)它產(chǎn)生影響,并且持續(xù)地、重復(fù)地參與了對(duì)神經(jīng)元B的興奮,那么在這兩個(gè)神經(jīng)元或其中之一會(huì)發(fā)生某種生長(zhǎng)過(guò)程或新陳代謝變化,以致于神經(jīng)元A作為能使神經(jīng)元B興奮的細(xì)胞之一,它的效能加強(qiáng)了?!?---加拿大心理學(xué)家Donald
Hebb,《行為的組織》,1949人腦有兩種記憶:長(zhǎng)期記憶和短期記憶。短期記憶持續(xù)時(shí)間不超過(guò)一分鐘。如果一個(gè)經(jīng)驗(yàn)重復(fù)足夠的次數(shù),此經(jīng)驗(yàn)就可儲(chǔ)存在長(zhǎng)期記憶中。短期記憶轉(zhuǎn)化為長(zhǎng)期記憶的過(guò)程就稱為凝固作用。人腦中的海馬區(qū)為大腦結(jié)構(gòu)凝固作用的核心區(qū)域。人工神經(jīng)元《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》40人工神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》41人工神經(jīng)網(wǎng)絡(luò)主要由大量的神經(jīng)元以及它們之間的有向連接構(gòu)成。因此考慮三方面:神經(jīng)元的激活規(guī)則主要是指神經(jīng)元輸入到輸出之間的映射關(guān)系,一般為非線性函數(shù)。網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)不同神經(jīng)元之間的連接關(guān)系。學(xué)習(xí)算法通過(guò)訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的參數(shù)。人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)由神經(jīng)元模型構(gòu)成,這種由許多神經(jīng)元組成的信息處理網(wǎng)絡(luò)具有并行分布結(jié)構(gòu)。雖然這里將神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)大體上分為三種類型,但是大多數(shù)網(wǎng)絡(luò)都是復(fù)合型結(jié)構(gòu),即一個(gè)神經(jīng)網(wǎng)絡(luò)中包括多種網(wǎng)絡(luò)結(jié)構(gòu)。《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》42神經(jīng)網(wǎng)絡(luò)??
=
(??3(??2(??1
??
))??l?? =
??
??l??l
?
1
??《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》43如果解決貢獻(xiàn)度分配問(wèn)題?偏導(dǎo)數(shù)貢獻(xiàn)度?
??(????)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》44???? ??
????
+
???????????
=
?????神經(jīng)網(wǎng)絡(luò)天然不是深度學(xué)習(xí),但深度學(xué)習(xí)天然是神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)發(fā)展史《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》45神經(jīng)網(wǎng)絡(luò)的發(fā)展大致經(jīng)過(guò)五個(gè)階段。第一階段:模型提出在1943年,心理學(xué)家Warren
McCulloch和數(shù)學(xué)家Walter
Pitts和最早描述了一種理想化的人工神經(jīng)網(wǎng)絡(luò),并構(gòu)建了一種基于簡(jiǎn)單邏輯運(yùn)算的計(jì)算機(jī)制。他們提出的神經(jīng)網(wǎng)絡(luò)模型稱為MP模型。阿蘭·圖靈在1948年的論文中描述了一種“B型圖靈機(jī)”。(赫布型學(xué)習(xí))1951年,McCulloch和Pitts的學(xué)生MarvinMinsky建造了第一臺(tái)神經(jīng)網(wǎng)絡(luò)機(jī),稱為SNARC。Rosenblatt[1958]最早提出可以模擬人類感知能力的神經(jīng)網(wǎng)絡(luò)模型,并稱之為感知器(Perceptron),并提出了一種接近于人類學(xué)習(xí)過(guò)程(迭代、試錯(cuò))的學(xué)習(xí)算法。神經(jīng)網(wǎng)絡(luò)發(fā)展史《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》46第二階段:冰河期1969年,MarvinMinsky出版《感知器》一書(shū),書(shū)中論斷直接將神經(jīng)網(wǎng)絡(luò)打入冷宮,導(dǎo)致神經(jīng)網(wǎng)絡(luò)十多年的“冰河期”。他們發(fā)現(xiàn)了神經(jīng)網(wǎng)絡(luò)的兩個(gè)關(guān)鍵問(wèn)題:1)基本感知器無(wú)法處理異或回路。2)電腦沒(méi)有足夠的能力來(lái)處理大型神經(jīng)網(wǎng)絡(luò)所需要的很長(zhǎng)的計(jì)算時(shí)間。1974年,哈佛大學(xué)的PaulWebos發(fā)明反向傳播算法,但當(dāng)時(shí)未受到應(yīng)有的重視。1980年,KunihikoFukushima(福島邦彥)提出了一種帶卷積和子采樣操作的多層神經(jīng)網(wǎng)絡(luò):新知機(jī)(Neocognitron)神經(jīng)網(wǎng)絡(luò)發(fā)展史《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》47第三階段:反向傳播算法引起的復(fù)興1983年,物理學(xué)家JohnHopfield對(duì)神經(jīng)網(wǎng)絡(luò)引入能量函數(shù)的概念,并提出了用于聯(lián)想記憶和優(yōu)化計(jì)算的網(wǎng)絡(luò)(稱為Hopfield網(wǎng)絡(luò)),在旅行商問(wèn)題上獲得當(dāng)時(shí)最好結(jié)果,引起轟動(dòng)。1984年,GeoffreyHinton提出一種隨機(jī)化版本的Hopfield網(wǎng)絡(luò),即玻爾茲曼機(jī)。1986年,DavidRumelhart和JamesMcClelland對(duì)于聯(lián)結(jié)主義在計(jì)算機(jī)模擬神經(jīng)活動(dòng)中的應(yīng)用提供了全面的論述,并重新發(fā)明了反向傳播算法。1986年,Geoffrey
Hinton等人將引入反向傳播算法到多層感知器1989年,LeCun等人將反向傳播算法引入了卷積神經(jīng)網(wǎng)絡(luò),并在手寫(xiě)體數(shù)字識(shí)別上取得了很大的成功。神經(jīng)網(wǎng)絡(luò)發(fā)展史《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》48第四階段:流行度降低在20世紀(jì)90年代中期,統(tǒng)計(jì)學(xué)習(xí)理論和以支持向量機(jī)為代表的機(jī)器學(xué)習(xí)模型開(kāi)始興起。相比之下,神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ)不清晰、優(yōu)化困難、可解釋性差等缺點(diǎn)更加凸顯,神經(jīng)網(wǎng)絡(luò)的研究又一次陷入低潮。神經(jīng)網(wǎng)絡(luò)發(fā)展史《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》49第五階段:深度學(xué)習(xí)的崛起
2006年,Hinton等人發(fā)現(xiàn)多層前饋神經(jīng)網(wǎng)絡(luò)可以先通過(guò)逐層預(yù)訓(xùn)練,再用反向傳播算法進(jìn)行精調(diào)的方式進(jìn)行有效學(xué)習(xí)。深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別和圖像分類等任務(wù)上的巨大成功。2013年,AlexNet:第一個(gè)現(xiàn)代深度卷積網(wǎng)絡(luò)模型,是深度學(xué)習(xí)技術(shù)在圖像分類上取得真正突破的開(kāi)端。AlexNet不用預(yù)訓(xùn)練和逐層訓(xùn)練,首次使用了很多現(xiàn)代深度網(wǎng)絡(luò)的技術(shù)隨著大規(guī)模并行計(jì)算以及GPU設(shè)備的普及,計(jì)算機(jī)的計(jì)算能力得以大幅提高。此外,可供機(jī)器學(xué)習(xí)的數(shù)據(jù)規(guī)模也越來(lái)越大。在計(jì)算能力和數(shù)據(jù)規(guī)模的支持下,計(jì)算機(jī)已經(jīng)可以訓(xùn)練大規(guī)模的人工神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)革命《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》50AI領(lǐng)域語(yǔ)音識(shí)別:可以使得詞錯(cuò)誤率從1/4下降到1/8計(jì)算機(jī)視覺(jué):目標(biāo)識(shí)別、圖像分類等自然語(yǔ)言處理:分布式表示、機(jī)器翻譯、問(wèn)題回答等信息檢索、社會(huì)化網(wǎng)絡(luò)三個(gè)Deep:DeepBlueDeep
QADeep
LearningToronto
大學(xué)Hinton
75
年Edinburgh
大學(xué)博士NYULecun
(Now
Facebook)87
年Hinton博士后Montreal大學(xué)Bengio
91
年M.
Jordan
博士后IDSIAJürgen
Schmidhuber早期的學(xué)術(shù)機(jī)構(gòu)2018圖靈獎(jiǎng)獲得者《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》51常用的深度學(xué)習(xí)框架簡(jiǎn)易和快速的原型設(shè)計(jì)自動(dòng)梯度計(jì)算無(wú)縫CPU和GPU切換《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》54課后作業(yè)復(fù)習(xí)數(shù)學(xué)知識(shí)附錄《數(shù)學(xué)基礎(chǔ)》編程練習(xí)熟悉基本的Numpy操作Numpy是Python中對(duì)于矩陣處理很實(shí)用的工具包/nndl/exercisechap1_warmup《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》55《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》2025前饋神經(jīng)網(wǎng)絡(luò)內(nèi)容神經(jīng)網(wǎng)絡(luò)神經(jīng)元網(wǎng)絡(luò)結(jié)構(gòu)前饋神經(jīng)網(wǎng)絡(luò)參數(shù)學(xué)習(xí)計(jì)算圖與自動(dòng)微分優(yōu)化問(wèn)題《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》2神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》4神經(jīng)網(wǎng)絡(luò)最早是作為一種主要的連接主義模型。20世紀(jì)80年代后期,最流行的一種連接主義模型是分布式并行處理(Parallel
Distributed
Processing,PDP)網(wǎng)絡(luò),其有3個(gè)主要特性:1)信息表示是分布式的(非局部的);2)記憶和知識(shí)是存儲(chǔ)在單元之間的連接上;3)通過(guò)逐漸改變單元之間的連接強(qiáng)度來(lái)學(xué)習(xí)新的知識(shí)。引入誤差反向傳播來(lái)改進(jìn)其學(xué)習(xí)能力之后,神經(jīng)網(wǎng)絡(luò)也越來(lái)越多地應(yīng)用在各種機(jī)器學(xué)習(xí)任務(wù)上。神經(jīng)元生物神經(jīng)元單個(gè)神經(jīng)細(xì)胞只有兩種狀態(tài):興奮和抑制video:
structure
ofbrain《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》6人工神經(jīng)元一個(gè)簡(jiǎn)單的線性模型!《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》7激活函數(shù)的性質(zhì)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》8連續(xù)并可導(dǎo)(允許少數(shù)點(diǎn)上不可導(dǎo))的非線性函數(shù)??蓪?dǎo)的激活函數(shù)可以直接利用數(shù)值優(yōu)化的方法來(lái)學(xué)習(xí)網(wǎng)絡(luò)參數(shù)。激活函數(shù)及其導(dǎo)函數(shù)要盡可能的簡(jiǎn)單有利于提高網(wǎng)絡(luò)計(jì)算效率。激活函數(shù)的導(dǎo)函數(shù)的值域要在一個(gè)合適的區(qū)間內(nèi)不能太大也不能太小,否則會(huì)影響訓(xùn)練的效率和穩(wěn)定性。單調(diào)遞增???常見(jiàn)激活函數(shù)非零中心化的輸出會(huì)使得其后一層的神經(jīng)元的輸入發(fā)生偏置偏移(biasshift),并進(jìn)一步使得梯度下降的收斂速度變慢?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》9性質(zhì):飽和函數(shù)Tanh函數(shù)是零中心化的,而logistic函數(shù)的輸出恒大于0常見(jiàn)激活函數(shù)計(jì)算上更加高效生物學(xué)合理性單側(cè)抑制、寬興奮邊界 在一定程度上緩解梯度消失問(wèn)題《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》10死亡ReLU問(wèn)題(Dying
ReLU
Problem)常見(jiàn)激活函數(shù)Swish函數(shù)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》11常見(jiàn)激活函數(shù)高斯誤差線性單元(Gaussian
Error
Linear
Unit,GELU)其中P(X≤x)是高斯分布N(μ,σ2)的累積分布函數(shù),其中μ,σ為超參數(shù),一般設(shè)μ=0,σ=1即可由于高斯分布的累積分布函數(shù)為S型函數(shù),因此GELU可以用Tanh函數(shù)或Logistic函數(shù)來(lái)近似《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》12常見(jiàn)激活函數(shù)及其導(dǎo)數(shù)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》13人工神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》14人工神經(jīng)網(wǎng)絡(luò)主要由大量的神經(jīng)元以及它們之間的有向連接構(gòu)成。因此考慮三方面:神經(jīng)元的激活規(guī)則主要是指神經(jīng)元輸入到輸出之間的映射關(guān)系,一般為非線性函數(shù)。網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)不同神經(jīng)元之間的連接關(guān)系。學(xué)習(xí)算法通過(guò)訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的參數(shù)。網(wǎng)絡(luò)結(jié)構(gòu)人工神經(jīng)網(wǎng)絡(luò)由神經(jīng)元模型構(gòu)成,這種由許多神經(jīng)元組成的信息處理網(wǎng)絡(luò)具有并行分布結(jié)構(gòu)。圓形節(jié)點(diǎn)表示一個(gè)神經(jīng)元,方形節(jié)點(diǎn)表示一組神經(jīng)元?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》15前饋神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)前饋神經(jīng)網(wǎng)絡(luò)(全連接神經(jīng)網(wǎng)絡(luò)、多層感知器)各神經(jīng)元分別屬于不同的層,層內(nèi)無(wú)連接。相鄰兩層之間的神經(jīng)元全部?jī)蓛蛇B接。整個(gè)網(wǎng)絡(luò)中無(wú)反饋,信號(hào)從輸入層向輸出層單向傳播,可用一個(gè)有向無(wú)環(huán)圖表示?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》17前饋網(wǎng)絡(luò)給定一個(gè)前饋神經(jīng)網(wǎng)絡(luò),用下面的記號(hào)來(lái)描述這樣網(wǎng)絡(luò):《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》18信息傳遞過(guò)程前饋神經(jīng)網(wǎng)絡(luò)通過(guò)下面公式進(jìn)行信息傳播。前饋計(jì)算:《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》19深層前饋神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》20通用近似定理根據(jù)通用近似定理,對(duì)于具有線性輸出層和至少一個(gè)使用“擠壓”性質(zhì)的激活函數(shù)的隱藏層組成的前饋神經(jīng)網(wǎng)絡(luò),只要其隱藏層神經(jīng)元的數(shù)量足夠,它可以以任意的精度來(lái)近似任何從一個(gè)定義在實(shí)數(shù)空間中的有界閉集函數(shù)。《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》21應(yīng)用到機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)可以作為一個(gè)“萬(wàn)能”函數(shù)來(lái)使用,可以用來(lái)進(jìn)行復(fù)雜的特征轉(zhuǎn)換,或逼近一個(gè)復(fù)雜的條件分布。分類器 神經(jīng)網(wǎng)絡(luò)如果??(?)為L(zhǎng)ogistic回歸,那么Logistic回歸分類器可以看成神經(jīng)網(wǎng)絡(luò)的最后一層?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》22參數(shù)學(xué)習(xí)應(yīng)用到機(jī)器學(xué)習(xí)對(duì)于多分類問(wèn)題如果使用Softmax回歸分類器,相當(dāng)于網(wǎng)絡(luò)最后一層設(shè)置C個(gè)神經(jīng)元,其輸出經(jīng)過(guò)Softmax函數(shù)進(jìn)行歸一化后可以作為每個(gè)類的條件概率。采用交叉熵?fù)p失函數(shù),對(duì)于樣本(x,y),其損失函數(shù)為《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》24參數(shù)學(xué)習(xí)??=1給定訓(xùn)練集為??
= {(??(??),
??(??)
)}??
,將每個(gè)樣本??(??)輸入給前饋神經(jīng)網(wǎng)絡(luò),得到網(wǎng)絡(luò)輸出為???(??),其在數(shù)據(jù)集D上的結(jié)構(gòu)化風(fēng)險(xiǎn)函數(shù)為:梯度下降《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》25梯度下降Loss
?初始化w重復(fù)計(jì)算梯度???Τ????更新參數(shù)??←?????
???Τ????梯度:????(??)
=??
????????????→0??(??+????)????w網(wǎng)絡(luò)參數(shù)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》26如何計(jì)算梯度?神經(jīng)網(wǎng)絡(luò)為一個(gè)復(fù)雜的復(fù)合函數(shù)鏈?zhǔn)椒▌t反向傳播算法根據(jù)前饋網(wǎng)絡(luò)的特點(diǎn)而設(shè)計(jì)的高效方法一個(gè)更加通用的計(jì)算方法自動(dòng)微分(Automatic
Differentiation,AD)??
=
??5(??4(??3(??2(??11
2
3
4
5?? ))))
→
????
=
????
????
????
????
????????
??x
????1
????2
????3
????4《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》27矩陣微積分
矩陣微積分(Matrix
Calculus)是多元微積分的一種表達(dá)方式,即使用矩陣和向量來(lái)表示因變量每個(gè)成分關(guān)于自變量每個(gè)成分的偏導(dǎo)數(shù)。分母布局標(biāo)量關(guān)于向量的偏導(dǎo)數(shù)向量關(guān)于向量的偏導(dǎo)數(shù)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》28鏈?zhǔn)椒▌t
鏈?zhǔn)椒▌t(Chain
Rule)是在微積分中求復(fù)合函數(shù)導(dǎo)數(shù)的一種常用方法。《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》29反向傳播算法誤差項(xiàng)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》30計(jì)算《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》31反向傳播算法《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》32計(jì)算圖與自動(dòng)微分計(jì)算圖與自動(dòng)微分自動(dòng)微分是利用鏈?zhǔn)椒▌t來(lái)自動(dòng)計(jì)算一個(gè)復(fù)合函數(shù)的梯度。計(jì)算圖《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》34計(jì)算圖當(dāng)x=1,w=0,b=0時(shí),可以得到《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》35自動(dòng)微分《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》36前向模式和反向模式反向模式和反向傳播的計(jì)算梯度的方式相同如果函數(shù)和參數(shù)之間有多條路徑,可以將這多條路徑上的導(dǎo)數(shù)再進(jìn)行相加,得到最終的梯度。反向傳播算法(自動(dòng)微分的反向模式)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》37前饋神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程可以分為以下三步前向計(jì)算每一層的狀態(tài)和激活值,直到最后一層反向計(jì)算每一層的參數(shù)的偏導(dǎo)數(shù)更新參數(shù)靜態(tài)計(jì)算圖和動(dòng)態(tài)計(jì)算圖《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》38靜態(tài)計(jì)算圖是在編譯時(shí)構(gòu)建計(jì)算圖,計(jì)算圖構(gòu)建好之后在程序運(yùn)行時(shí)不能改變。Theano和Tensorflow動(dòng)態(tài)計(jì)算圖是在程序運(yùn)行時(shí)動(dòng)態(tài)構(gòu)建。兩種構(gòu)建方式各有優(yōu)缺點(diǎn)。DyNet,Chainer和PyTorch靜態(tài)計(jì)算圖在構(gòu)建時(shí)可以進(jìn)行優(yōu)化,并行能力強(qiáng),但靈活性比較差低。動(dòng)態(tài)計(jì)算圖則不容易優(yōu)化,當(dāng)不同輸入的網(wǎng)絡(luò)結(jié)構(gòu)不一致時(shí),難以并行計(jì)算,但是靈活性比較高。如何實(shí)現(xiàn)?《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》39Getting
started:
30
seconds
to
Keras《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》40from
keras.models
import
Sequentialfrom
keras.layers
import
Dense,
Activationfrom
keras.optimizersimport
SGDmodel
=
Sequential()model.add(Dense(output_dim=64,
input_dim=100))model.add(Activation("relu"))model.add(Dense(output_dim=10))model.add(Activation("softmax"))pile(loss='categorical_crossentropy',optimizer='sgd',
metrics=['accuracy'])model.fit(X_train,
Y_train,
nb_epoch=5,
batch_size=32)loss
=model.evaluate(X_test,
Y_test,
batch_size=32)深度學(xué)習(xí)的三個(gè)步驟Deep
Learning
is
so
simple
……定義網(wǎng)絡(luò)1損失函數(shù)2優(yōu)化3《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》41優(yōu)化問(wèn)題優(yōu)化問(wèn)題《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》43難點(diǎn)參數(shù)過(guò)多,影響訓(xùn)練非凸優(yōu)化問(wèn)題:即存在局部最優(yōu)而非全局最優(yōu)解,影響迭代梯度消失問(wèn)題,下層參數(shù)比較難調(diào)參數(shù)解釋起來(lái)比較困難需求計(jì)算資源要大數(shù)據(jù)要多算法效率要好:即收斂快優(yōu)化問(wèn)題非凸優(yōu)化問(wèn)題《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》44優(yōu)化問(wèn)題梯度消失問(wèn)題(Vanishing
Gradient
Problem)??
=
??5(??4(??3(??2(??1
??
))))???? ????1
????2
????3
????4
????5=????
??x ????1
????2
????3
????4《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》45課后練習(xí)知識(shí)點(diǎn)激活函數(shù)誤差反向傳播自動(dòng)微分與計(jì)算圖編程練習(xí)1使用Numpy實(shí)現(xiàn)前饋神經(jīng)網(wǎng)絡(luò)chap4_
simple
neural
network編程練習(xí)2理論和實(shí)驗(yàn)證明,一個(gè)兩層的ReLU網(wǎng)絡(luò)可以模擬任何有界閉集函數(shù)。chap4_
simple
neural
network《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》46謝
謝《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》卷積神經(jīng)網(wǎng)絡(luò)2025全連接前饋神經(jīng)網(wǎng)絡(luò)權(quán)重矩陣的參數(shù)非常多局部不變性特征自然圖像中的物體都具有局部不變性特征尺度縮放、平移、旋轉(zhuǎn)等操作不影響其語(yǔ)義信息。全連接前饋網(wǎng)絡(luò)很難提取這些局部不變特征《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》2卷積神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》3卷積神經(jīng)網(wǎng)絡(luò)(Convolutional
Neural
Networks,CNN)一種前饋神經(jīng)網(wǎng)絡(luò)受生物學(xué)上感受野(Receptive
Field)的機(jī)制而提出的在視覺(jué)神經(jīng)系統(tǒng)中,一個(gè)神經(jīng)元的感受野是指視網(wǎng)膜上的特定區(qū)域,只有這個(gè)區(qū)域內(nèi)的刺激才能夠激活該神經(jīng)元。卷積神經(jīng)網(wǎng)絡(luò)有三個(gè)結(jié)構(gòu)上的特性:局部連接權(quán)重共享空間或時(shí)間上的次采樣卷積《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》4卷積經(jīng)常用在信號(hào)處理中,用于計(jì)算信號(hào)的延遲累積。假設(shè)一個(gè)信號(hào)發(fā)生器每個(gè)時(shí)刻t產(chǎn)生一個(gè)信號(hào)xt
,其信息的衰減率為wk
,即在k?1個(gè)時(shí)間步長(zhǎng)后,信息為原來(lái)的wk
倍假設(shè)w1
=1,w2
=1/2,w3
=1/4時(shí)刻t收到的信號(hào)yt
為當(dāng)前時(shí)刻產(chǎn)生的信息和以前時(shí)刻延遲信息的疊加。卷積卷積經(jīng)常用在信號(hào)處理中,用于計(jì)算信號(hào)的延遲累積。假設(shè)一個(gè)信號(hào)發(fā)生器每個(gè)時(shí)刻t產(chǎn)生一個(gè)信號(hào)xt
,其信息的衰減率為wk
,即在k?1個(gè)時(shí)間步長(zhǎng)后,信息為原來(lái)的wk
倍假設(shè)w1
=1,w2
=1/2,w3
=1/4時(shí)刻t收到的信號(hào)yt
為當(dāng)前時(shí)刻產(chǎn)生的信息和以前時(shí)刻延遲信息的疊加濾波器(filter)或卷積核(convolution
kernel)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》5卷積給定一個(gè)輸入信號(hào)序列??和濾波器??,卷積的輸出為:Filter:
[-1,0,1]??????
=
????????????+1??=1《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》6卷積不同的濾波器來(lái)提取信號(hào)序列中的不同特征低頻信息《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》7高頻信息??
′′(??)
=
??(??
+
1)
+
??(??
?
1)
?
2??(??)二階微分卷積擴(kuò)展引入濾波器的滑動(dòng)步長(zhǎng)S和零填充P《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》8卷積類型《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》9卷積的結(jié)果按輸出長(zhǎng)度不同可以分為三類:窄卷積:步長(zhǎng)??
=1
,兩端不補(bǔ)零??
=0,卷積后輸出長(zhǎng)度為??
???+
1寬卷積:步長(zhǎng)??
=1,兩端補(bǔ)零??
=??
?1
,卷積后輸出長(zhǎng)度??
+??
?1等寬卷積:步長(zhǎng)??
=1
,兩端補(bǔ)零??
=(??
?1)/2
,卷積后輸出長(zhǎng)度??在早期的文獻(xiàn)中,卷積一般默認(rèn)為窄卷積。而目前的文獻(xiàn)中,卷積一般默認(rèn)為等寬卷積。兩維卷積在圖像處理中,圖像是以二維矩陣的形式輸入到神經(jīng)網(wǎng)絡(luò)中,因此我們需要二維卷積。《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》10卷積作為特征提取器《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》11二維卷積步長(zhǎng)1,零填充0步長(zhǎng)2,零填充0步長(zhǎng)1,零填充1步長(zhǎng)2,零填充1《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》12卷積神經(jīng)網(wǎng)絡(luò)用卷積層代替全連接層《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》13互相關(guān)計(jì)算卷積需要進(jìn)行卷積核翻轉(zhuǎn)。卷積操作的目標(biāo):提取特征。翻轉(zhuǎn)是不必要的!互相關(guān)除非特別聲明,卷積一般指“互相關(guān)”?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》14多個(gè)卷積核《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》15特征映射(Feature
Map):圖像經(jīng)過(guò)卷積后得到的特征。卷積核看成一個(gè)特征提取器卷積層輸入:D個(gè)特征映射M×N×D輸出:P個(gè)特征映射M′×N′×P卷積層的映射關(guān)系《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》16步長(zhǎng)2
filter3*3filter個(gè)數(shù)6零填充1卷積層典型的卷積層為3維結(jié)構(gòu)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》18匯聚層卷積層雖然可以顯著減少連接的個(gè)數(shù),但是每一個(gè)特征映射的神經(jīng)元個(gè)數(shù)并沒(méi)有顯著減少?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》19卷積網(wǎng)絡(luò)結(jié)構(gòu)卷積網(wǎng)絡(luò)是由卷積層、匯聚層、全連接層交叉堆疊而成。趨向于小卷積、大深度趨向于全卷積典型結(jié)構(gòu)一個(gè)卷積塊為連續(xù)M個(gè)卷積層和b個(gè)匯聚層(M通常設(shè)置為2
~5,b為0或1)。一個(gè)卷積網(wǎng)絡(luò)中可以堆疊
N個(gè)連續(xù)的卷積塊,然后在接著K個(gè)全連接層(N的取值區(qū)間比較大,比如1
~100或者更大;K一般為0~2)?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》20表示學(xué)習(xí)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》21表示學(xué)習(xí)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》22其它卷積種類轉(zhuǎn)置卷積/微步卷積低維特征映射到高維特征《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》24如何增加輸出單元的感受野增加卷積核的大小增加層數(shù)來(lái)實(shí)現(xiàn)在卷積之前進(jìn)行匯聚操作空洞卷積通過(guò)給卷積核插入“空洞”來(lái)變相地增加其大小??斩淳矸e《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》25典型的卷積網(wǎng)絡(luò)LeNet-5LeNet-5
是一個(gè)非常成功的神經(jīng)網(wǎng)絡(luò)模型?;贚eNet-5的手寫(xiě)數(shù)字識(shí)別系統(tǒng)在90年代被美國(guó)很多銀行使用,用來(lái)識(shí)別支票上面的手寫(xiě)數(shù)字。LeNet-5
共有7
層。需要多少個(gè)卷積核?《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》27Large
Scale
Visual
Recognition
Challenge《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》28AlexNet《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》292012
ILSVRC
winner(top
5
error
of
16%
compared
to
runner-up
with
26%
error)第一個(gè)現(xiàn)代深度卷積網(wǎng)絡(luò)模型首次使用了很多現(xiàn)代深度卷積網(wǎng)絡(luò)的一些技術(shù)方法
使用GPU進(jìn)行并行訓(xùn)練,采用了ReLU作為非線性激活函數(shù),使用Dropout防止過(guò)擬合,使用數(shù)據(jù)增強(qiáng)5個(gè)卷積層、3個(gè)匯聚層和3個(gè)全連接層Inception網(wǎng)絡(luò)2014
ILSVRC
winner
(22層)參數(shù):GoogLeNet:4M
VS
AlexNet:60M錯(cuò)誤率:6.7%Inception網(wǎng)絡(luò)是由有多個(gè)inception模塊和少量的匯聚層堆疊而成?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》30Inception模塊v1在卷積網(wǎng)絡(luò)中,如何設(shè)置卷積層的卷積核大小是一個(gè)十分關(guān)鍵的問(wèn)題。在Inception網(wǎng)絡(luò)中,一個(gè)卷積層包含多個(gè)不同大小的卷積操作,稱為Inception模塊。Inception模塊同時(shí)使用1
×1、3
×3、5
×5等不同大小的卷積核,并將得到的特征映射在深度上拼接(堆疊)起來(lái)作為輸出特征映射。卷積和最大匯聚都是等寬的?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》31Inception模塊v3用多層小卷積核替換大卷積核,以減少計(jì)算量和參數(shù)量。使用兩層3x3的卷積來(lái)替換v1中的5x5的卷積使用連續(xù)的nx1和1xn來(lái)替換nxn的卷積。《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》32殘差網(wǎng)絡(luò)殘差網(wǎng)絡(luò)(ResidualNetwork,ResNet)是通過(guò)給非線性的卷積層增加直連邊的方式來(lái)提高信息的傳播效率。假設(shè)在一個(gè)深度網(wǎng)絡(luò)中,我們期望一個(gè)非線性單元(可以為一層或多層的卷積層)f(x,θ)去逼近一個(gè)目標(biāo)函數(shù)為h(x)。將目標(biāo)函數(shù)拆分成兩部分:恒等函數(shù)和殘差函數(shù)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》33殘差單元《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》34ResNet2015
ILSVRC
winner
(152層)錯(cuò)誤率:3.57%《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》35Ngram特征與卷積如何用卷積操作來(lái)實(shí)現(xiàn)?《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》36文本序列的卷積《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》37基于卷積模型的句子表示Y.
Kim.
“Convolutional
neural
networks
for
sentence
classification”.
In:
arXivpreprintarXiv:1408.5882
(2014).《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》38文本序列的卷積模型Filter輸入卷積層Pooling層輸出《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》39CNN
可視化:濾波器AlexNet中的濾波器(96
filters[11x11x3])《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》40卷積的應(yīng)用AlphaGo分布式系統(tǒng):1202
個(gè)CPU
和176
塊GPU單機(jī)版:48
個(gè)CPU
和8
塊GPU走子速度:3
毫秒-2微秒《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》42目標(biāo)檢測(cè)(Object
Detection)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》43Mask
RCNN《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》44OCR《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》45圖像生成《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》46Deep
Dream《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》47畫(huà)風(fēng)遷移《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》48對(duì)抗樣本《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》49課后作業(yè)CNN的局部性假設(shè)合理嗎?如何改進(jìn)?編程練習(xí)/nndl/exercise/chap5_CNN圖像分類《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》50謝
謝《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》序列生成模型2025序列數(shù)據(jù)神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)2在深度學(xué)習(xí)的應(yīng)用中,有很多數(shù)據(jù)是以序列的形式存在,比如聲音、語(yǔ)言、視頻、DNA序列或者其它的時(shí)序數(shù)據(jù)等。序列數(shù)據(jù)的潛在規(guī)律以自然語(yǔ)言為例,后一個(gè)句子在人腦的語(yǔ)義整合時(shí)需要更多的處理時(shí)間,更不符合自然語(yǔ)言規(guī)則。規(guī)則是什么?神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)3語(yǔ)言模型自然語(yǔ)言理解→一個(gè)句子的可能性/合理性!在報(bào)那貓告做只那只貓?jiān)谧鲌?bào)告!那個(gè)人在作報(bào)告!一切都是概率!神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)4序列概率模型給定一個(gè)序列樣本,其概率為p
??1:T神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)5=
p(??1,
??2,
?
,
??T)和一般的概率模型類似,序列概率模型有兩個(gè)基本問(wèn)題:(1)學(xué)習(xí)問(wèn)題:給定一組序列數(shù)據(jù),估計(jì)這些數(shù)據(jù)背后的概率分布;(2)生成問(wèn)題:從已知的序列分布中生成新的序列樣本。序列概率模型給定一個(gè)序列樣本,其概率為p
??1:T=
p(??1,
??2,
?
,
??T)序列數(shù)據(jù)有兩個(gè)特點(diǎn):(1)樣本是變長(zhǎng)的;(2)樣本空間為非常大。對(duì)于一個(gè)長(zhǎng)度為??的序列,其樣本空間為V
??
。因此,我們很難用已知的概率模型來(lái)直接建模整個(gè)序列的概率。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)6序列概率模型序列概率p
??1:T=
??
p
??t
??1:t?1t≈
?t
p(??t|??t?1,
?
,
??t???+1)
=
?t
??(???)因此,序列數(shù)據(jù)的概率密度估計(jì)問(wèn)題可以轉(zhuǎn)換為單變量的條件概率估計(jì)問(wèn)題,即給定??1:t?1時(shí)??t的條件概率p
??t
??1:t?1。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)7序列概率模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)8序列概率p(??1,
??2,
?
,
??T)
=
?t
p(??t|??t?1,
?
,
??1)≈
?t
p(??t|??t?1,
?
,
??t???+1)
=
?t
??(???)因此,序列數(shù)據(jù)的概率密度估計(jì)問(wèn)題可以轉(zhuǎn)換為單變量的條件概率估計(jì)問(wèn)題,即給定??1:(???1)時(shí)????的條件概率??(????|??1:(???1))。自回歸生成模型在這種序列模型方式中,每一步都需要將前面的輸出作為當(dāng)前步的輸入,是一種自回歸(autoregressive)的方式。自回歸生成模型(Autoregressive
Generative
Model)神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)9序列生成自回歸生成模型(Autoregressive
Generative
Model)非自回歸生成模型同時(shí)生成所有詞神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)10序列生成機(jī)習(xí)器學(xué)<eos>$自回歸的方式可以生成一個(gè)無(wú)限長(zhǎng)度的序列。為了避免這種情況,通常會(huì)設(shè)置一個(gè)特殊的符號(hào)“<eos>”來(lái)表示序列的結(jié)束。在訓(xùn)練時(shí),每個(gè)序列樣本的結(jié)尾都加上符號(hào)“<eos>”。在測(cè)試時(shí),一旦生成了符號(hào)“<eos>”,就中止生成過(guò)程。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)11生成最可能序列當(dāng)使用自回歸模型生成一個(gè)最可能的序列時(shí),生成過(guò)程是一種從左到右的貪婪式搜索過(guò)程。在每一步都生成最可能的詞。這種貪婪式的搜索方式是次優(yōu)的,生成的序列并不保證是全局最優(yōu)的。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)12束搜索一種常用的減少搜索錯(cuò)誤的啟發(fā)式方法是束搜索(BeamSearch)。在每一步的生成中,生成K個(gè)最可能的前綴序列,其中K為束的大?。˙eamSize),是一個(gè)超參數(shù)。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)13N元統(tǒng)計(jì)模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)14平滑技術(shù)N元模型的一個(gè)主要問(wèn)題是數(shù)據(jù)稀疏問(wèn)題。數(shù)據(jù)稀疏問(wèn)題的一種解決方法是平滑技術(shù)(Smoothing),即給一些沒(méi)有出現(xiàn)的詞組合賦予一定先驗(yàn)概率。平滑技術(shù)是N元模型中的一項(xiàng)必不可少的技術(shù),比如加法平滑的計(jì)算公式為:δ=1時(shí),稱為加1平滑。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)15深度序列模型深度序列模型一般可以分為三個(gè)部分:嵌入層、特征層、輸出層。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)16嵌入層神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)17詞嵌入(Word
Embeddings)https://indico.io/blog/visualizing-with-t-sne/神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)18上海北京高興難過(guò)特征層神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)19特征層可以通過(guò)不同類型的神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn),比如前饋神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。常見(jiàn)的網(wǎng)絡(luò)類型有以下三種:簡(jiǎn)單平均前饋神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)特征層:簡(jiǎn)單平均歷史信息的平均神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)20特征層:前饋神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)21特征層:循環(huán)網(wǎng)絡(luò)前饋網(wǎng)絡(luò)模型和循環(huán)網(wǎng)絡(luò)模型的不同之處在于循環(huán)神經(jīng)網(wǎng)絡(luò)利用隱藏狀態(tài)來(lái)記錄以前所有時(shí)刻的信息,而前饋神經(jīng)網(wǎng)絡(luò)只能接受前n?1個(gè)時(shí)刻的信息。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)22輸出層輸出層為一般使用softmax分類器,接受歷史信息的向量表示,輸出為詞表中每個(gè)詞的后驗(yàn)概率。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)23評(píng)價(jià)方法神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)24困惑度困惑度(Perplexity)是信息論的一個(gè)概念,可以用來(lái)衡量一個(gè)分布的不確定性。給定一個(gè)測(cè)試文本集合,一個(gè)好的序列生成模型應(yīng)該使得測(cè)試集合中的句子的聯(lián)合概率盡可能高。困惑度可以衡量模型分布與樣本經(jīng)驗(yàn)分布之間的契合程度。困惑度越低則兩個(gè)分布越接近。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)25困惑度神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)26BLEU神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)27BLEU(Bilingual
Evaluation
Understudy)是衡量模型生成序列和參考序列之間的N元詞組(N-Gram)的重合度,最早用來(lái)評(píng)價(jià)機(jī)器翻譯模型的質(zhì)量,目前也廣泛應(yīng)用在各種序列生成任務(wù)中。BLEU神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)28ROUGEROUGE(Recall-Oriented
Understudy
forGistingEvaluation)最早應(yīng)用于文本摘要領(lǐng)域。和BLEU類似,但ROUGE計(jì)算的是召回率(Recall)。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)29序列到序列模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)30序列到序列模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)31序列到序列模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)32基于循環(huán)神經(jīng)網(wǎng)絡(luò)的序列到序列模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)33基于前饋神經(jīng)網(wǎng)絡(luò)的序列到序列模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)34基于注意力的序列到序列模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)35基于卷積神經(jīng)網(wǎng)絡(luò)的序列到序列模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)36基于自注意力的序列到序列模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)37回顧:注意力模型根據(jù)α來(lái)計(jì)算輸入信息的加權(quán)平均。軟性注意力機(jī)制(soft
attention
mechanism)注意力機(jī)制可以分為兩步計(jì)算注意力分布??
,??(????,??)打分函數(shù)神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)38回顧:自注意力基于自注意力的全連接神經(jīng)網(wǎng)絡(luò)連接權(quán)重??????
由注意力機(jī)制動(dòng)態(tài)生成也可以看作是一種全連接的圖神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)39回顧:自注意力示例圖片來(lái)源:http://fuyw.top/NLP_02_QANet/神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)40QKV模式(Query-Key-Value)圖片來(lái)源:http://jalammar.github.io/illustrated-transformer/神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)41ThinksMachinesThinksMachinesThinksMachines多頭(multi-head)自注意力模型圖片來(lái)源:http://jalammar.github.io/illustrated-transformer/神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)42Transformer神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)43Transformer神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)44神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)45基于Transformer的序列到序列模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)46其它應(yīng)用神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)47文本摘要/2017/04/16/taming-rnns-for-better-summarization.html神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)48文本摘要神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)49/2017/04/16/taming-rnns-for-better-summarization.html對(duì)話Li
J,
MonroeW,
Ritter
A,
et
al.
Deep
reinforcementlearning
for
dialogue
generation[J].
arXiv
preprintarXiv:1606.01541,
2016.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)50看圖說(shuō)話神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)51看圖說(shuō)話神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)52作詩(shī)神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)53謝
謝神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)54《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》循環(huán)神經(jīng)網(wǎng)絡(luò)2025參考資料《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》2《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》第6章網(wǎng)絡(luò)資料An
Introduction
to
Recurrent
NeuralNetworks/explore-artificial-intelligence/an-introduction-to-recurrent-neural-networks-72c97bf0912Recurrent
Neural
Networks/recurrent-neural-networks-d4642c9bc7ce前饋網(wǎng)絡(luò)連接存在層與層之間,每層的節(jié)點(diǎn)之間是無(wú)連接的。(無(wú)循環(huán))輸入和輸出的維數(shù)都是固定的,不能任意改變。無(wú)法處理變長(zhǎng)的序列數(shù)據(jù)?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》3前饋網(wǎng)絡(luò)假設(shè)每次輸入都是獨(dú)立的,也就是說(shuō)每次網(wǎng)絡(luò)的輸出只依賴于當(dāng)前的輸入?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》4有限狀態(tài)自動(dòng)機(jī)(Finite
Automata)如何用FNN去模擬一個(gè)有限狀態(tài)自動(dòng)機(jī)?《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》5圖靈機(jī)一種抽象數(shù)學(xué)模型,可以用來(lái)模擬任何可計(jì)算問(wèn)題?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》6可計(jì)算問(wèn)題可計(jì)算問(wèn)題函數(shù)有限狀態(tài)機(jī)圖靈機(jī)前饋網(wǎng)絡(luò)通用近似定理需要記憶能力《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》7如何給網(wǎng)絡(luò)增加記憶能力?
延時(shí)神經(jīng)網(wǎng)絡(luò)(Time
DelayNeural
Network,TDNN)建立一個(gè)額外的延時(shí)單元,用來(lái)存儲(chǔ)網(wǎng)絡(luò)的歷史信息(可以包括輸入、輸出、隱狀態(tài)等)這樣,前饋網(wǎng)絡(luò)就具有了短期記憶的能力。如何給網(wǎng)絡(luò)增加記憶能力?/publication/12314435_Neural_system_identifi《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》8cation_model_of_human_sound_localization如何給網(wǎng)絡(luò)增加記憶能力?自回歸模型(Autoregressive
Model,AR)一類時(shí)間序列模型,用變量????的歷史信息來(lái)預(yù)測(cè)自己????
~??(0,??2)為第t個(gè)時(shí)刻的噪聲
有外部輸入的非線性自回歸模型(Nonlinear
Autoregressivewith
Exogenous
Inputs
Model,NARX)其中??(?)表示非線性函數(shù),可以是一個(gè)前饋網(wǎng)絡(luò),????
和????
為超參數(shù).《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》9非線性自回歸模型/publication/234052442_Braking_torque_control_using_reccurent_neural_
networks《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》10循環(huán)神經(jīng)網(wǎng)絡(luò)(
Recurrent
Neural
Network
,RNN
)循環(huán)神經(jīng)網(wǎng)絡(luò)通過(guò)使用帶自反饋的神經(jīng)元,能夠處理任意長(zhǎng)度的時(shí)序數(shù)據(jù)。循環(huán)神經(jīng)網(wǎng)絡(luò)比前饋神經(jīng)網(wǎng)絡(luò)更加符合生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。循環(huán)神經(jīng)網(wǎng)絡(luò)已經(jīng)被廣泛應(yīng)用在語(yǔ)音識(shí)別、語(yǔ)言模型以及自然語(yǔ)言生成等任務(wù)上活性值狀態(tài)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》11按時(shí)間展開(kāi)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》12簡(jiǎn)單循環(huán)網(wǎng)絡(luò)(
Simple
Recurrent
Network
,SRN
)狀態(tài)更新:一個(gè)完全連接的循環(huán)網(wǎng)絡(luò)是任何非線性動(dòng)力系統(tǒng)的近似器?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》13圖靈完備
圖靈完備(Turing
Completeness)是指一種數(shù)據(jù)操作規(guī)則,比如一種計(jì)算機(jī)編程語(yǔ)言,可以實(shí)現(xiàn)圖靈機(jī)的所有功能,解決所有的可計(jì)算問(wèn)題。一個(gè)完全連接的循環(huán)神經(jīng)網(wǎng)絡(luò)可以近似解決所有的可計(jì)算問(wèn)題。《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》14循環(huán)神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》15作用輸入-輸出映射機(jī)器學(xué)習(xí)模型(本節(jié)主要關(guān)注這種情況)存儲(chǔ)器聯(lián)想記憶模型應(yīng)用到機(jī)器學(xué)習(xí)應(yīng)用到機(jī)器學(xué)習(xí)序列到類別同步的序列到序列模式異步的序列到序列模式《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》17應(yīng)用到機(jī)器學(xué)習(xí)序列到類別《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》18序列到類別情感分類…我覺(jué)太得好了帶著愉悅的心情看了這部電影這部電影太糟了這部電影很棒Positive(正面)Negative(負(fù)面)Positive(正面)…《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》19應(yīng)用到機(jī)器學(xué)習(xí)同步的序列到序列模式《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》20同步的序列到序列模式中文分詞他說(shuō)實(shí)的在理確SSESBEB《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》21同步的序列到序列模式信息抽取(Information
Extraction,IE)從無(wú)結(jié)構(gòu)的文本中抽取結(jié)構(gòu)化的信息,形成知識(shí)小米創(chuàng)始人雷軍表示,該公司2015年?duì)I收達(dá)到780億元人民幣,較2014年的743億元人民幣增長(zhǎng)了5%?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》22同步的序列到序列模式Connectionist
Temporal
Classification
(CTC)
[Alex
Graves,ICML’06][Alex
Graves,
ICML’14][Ha?im
Sak,
Interspeech’15][Jie
Li,Interspeech’15][Andrew
Senior,
ASRU’15]好
φφ
棒
φ
φ
φ
φ好
φφ
棒
φ
棒
φ
φ“好棒”“好棒棒”語(yǔ)音識(shí)別《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》23應(yīng)用到機(jī)器學(xué)習(xí)異步的序列到序列模式《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》24learning異步的序列到序列模式機(jī)器翻譯machine機(jī)器學(xué)習(xí)
?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》25參數(shù)學(xué)習(xí)機(jī)器學(xué)習(xí)給定一個(gè)訓(xùn)練樣本(x,y),其中x=(x1,…,xT)為長(zhǎng)度是T
的輸入序列,y=(y1,…,yT)是長(zhǎng)度為T(mén)
的標(biāo)簽序列。時(shí)刻t的瞬時(shí)損失函數(shù)為總損失函數(shù)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》26梯度隨時(shí)間反向傳播算法δt,k為第t時(shí)刻的損失對(duì)第k步隱藏神經(jīng)元的凈輸入zk的導(dǎo)數(shù)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》27梯度消失/爆炸梯度其中??由于梯度爆炸或消失問(wèn)題,實(shí)際上只能學(xué)習(xí)到短周期的依賴關(guān)系。這就是所謂的長(zhǎng)程依賴問(wèn)題?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》28長(zhǎng)程依賴問(wèn)題《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》29循環(huán)神經(jīng)網(wǎng)絡(luò)在時(shí)間維度上非常深!梯度消失或梯度爆炸如何改進(jìn)?梯度爆炸問(wèn)題權(quán)重衰減梯度截?cái)嗵荻认?wèn)題改進(jìn)模型長(zhǎng)程依賴問(wèn)題改進(jìn)方法循環(huán)邊改為線性依賴關(guān)系增加非線性殘差網(wǎng)絡(luò)?《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》30長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long
Short-Term
Memory,LSTM
)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》31LSTM的各種變體沒(méi)有遺忘門(mén)耦合輸入門(mén)和遺忘門(mén)peephole連接《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》32Gated
Recurrent
Unit,
GRU更新門(mén)重置門(mén)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》33深層模型堆疊循環(huán)神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》35雙向循環(huán)神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》36擴(kuò)展到圖結(jié)構(gòu)擴(kuò)展到圖結(jié)構(gòu)循環(huán)神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》38序列遞歸樹(shù)神經(jīng)網(wǎng)絡(luò)圖網(wǎng) 絡(luò)圖樹(shù)結(jié)構(gòu)程序語(yǔ)言的句法結(jié)構(gòu)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》39樹(shù)結(jié)構(gòu)自然語(yǔ)言的句法結(jié)構(gòu)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》40遞歸神經(jīng)網(wǎng)絡(luò)Recursive
Neural
Network遞歸神經(jīng)網(wǎng)絡(luò)實(shí)在一個(gè)有向圖無(wú)循環(huán)圖上共享一個(gè)組合函數(shù)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》41遞歸神經(jīng)網(wǎng)絡(luò)退化為循環(huán)神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》42遞歸神經(jīng)網(wǎng)絡(luò)給定一個(gè)語(yǔ)法樹(shù),p2
→
ap1,p1
→
bc.《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》43圖網(wǎng)絡(luò)在實(shí)際應(yīng)用中,很多數(shù)據(jù)是圖結(jié)構(gòu)的,比如知識(shí)圖譜、社交網(wǎng)絡(luò)、分子網(wǎng)絡(luò)等。而前饋網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò)很難處理圖結(jié)構(gòu)的數(shù)據(jù)?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》44圖數(shù)據(jù)/pdf/1806.01261.pdf《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》45圖網(wǎng)絡(luò)/pdf/1806.01261.pdf《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》46圖網(wǎng)絡(luò)/pdf/1806.01261.pdf《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》47圖網(wǎng)絡(luò)對(duì)于一個(gè)任意的圖結(jié)構(gòu)G(V,E)更新函數(shù)讀出函數(shù)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》48循環(huán)網(wǎng)絡(luò)應(yīng)用語(yǔ)言模型理性自然語(yǔ)言理解→一個(gè)句子的可能性/合!在報(bào)那貓告做只那只貓?jiān)谧鲌?bào)告!那個(gè)人在作報(bào)告!一切都是概率!??(??1,
??2,
?
,
??T)
=
???
??(????|?????1,
?
,
??1)≈
???
??(????|?????1,
?
,
???????+1)N元語(yǔ)言模型《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》50語(yǔ)言模型《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》51生成LINUX內(nèi)核代碼《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》52作詞機(jī)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》53RNN在“學(xué)習(xí)”過(guò)汪峰全部作品后自動(dòng)生成的歌詞/phunterlau/wangfeng-rnn我在這里中的夜里就像一場(chǎng)是一種生命的意旪就像我的生活變得在我一樣可我們這是一個(gè)知道我只是一天你會(huì)怎嗎可我們這是我們的是不要為你我們想這有一種生活的時(shí)候作詩(shī)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》54傳統(tǒng)統(tǒng)計(jì)機(jī)器翻譯源語(yǔ)言:f目標(biāo)語(yǔ)言:e模型:???
=
argmax??
??(??|??)
= argmax??
??(??|??)??(??)p(f|e):翻譯模型p(e):語(yǔ)言模型《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》55基于序列到序列的機(jī)器翻譯一個(gè)RNN用來(lái)編碼另一個(gè)RNN用來(lái)解碼《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》56看圖說(shuō)話《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》57看圖說(shuō)話《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》58Demo
WebsiteVQA:
Given
an
image
and
a
natural
languagequestion
about
the
image,
the
task
is
to
provide
anaccurate
natural
language
answerVisual
Question
Answering
(VQA)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》59Picture
from
(Antol
et
al.,2015)寫(xiě)字把一個(gè)字母的書(shū)寫(xiě)軌跡看作是一連串的點(diǎn)。一個(gè)字母的“寫(xiě)法”其實(shí)是每一個(gè)點(diǎn)相對(duì)于前一個(gè)點(diǎn)的偏移量,記為(offsetx,offset
y)。再增加一維取值為0或1來(lái)記錄是否應(yīng)該“提筆”?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》60對(duì)話系統(tǒng)/lukalabs/cakechat《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》61循環(huán)神經(jīng)網(wǎng)絡(luò)總結(jié)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》62優(yōu)點(diǎn):引入記憶圖靈完備缺點(diǎn):長(zhǎng)程依賴問(wèn)題記憶容量問(wèn)題并行能力課后作業(yè)編程練習(xí)/nndl/exercise/chap6_RNN1)利用循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)生成唐詩(shī)2)利用循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行加法運(yùn)算《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》63謝
謝《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》2025無(wú)監(jiān)督學(xué)習(xí)內(nèi)容《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》2無(wú)監(jiān)督學(xué)習(xí)無(wú)監(jiān)督特征學(xué)習(xí)主成分分析稀疏編碼自編碼器稀疏自編碼器降噪自編碼器概率密度估計(jì)參數(shù)密度估計(jì)非參數(shù)密度估計(jì)
核方法
K近鄰方法無(wú)監(jiān)督學(xué)習(xí)(
Unsupervised
Learning
)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》3監(jiān)督學(xué)習(xí)建立映射關(guān)系
??: ??
→
??無(wú)監(jiān)督學(xué)習(xí)指從無(wú)標(biāo)簽的數(shù)據(jù)中學(xué)習(xí)出一些有用的模式。聚類:建立映射關(guān)系
??: ??
→
??不借助于任何人工給出標(biāo)簽或者反饋等指導(dǎo)信息特征學(xué)習(xí)密度估計(jì)??(??)典型的無(wú)監(jiān)督學(xué)習(xí)問(wèn)題無(wú)監(jiān)督特征學(xué)習(xí)聚類密度估計(jì)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》4為什么要無(wú)監(jiān)督學(xué)習(xí)?《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》5大腦有大約1014個(gè)突觸,我們只能活大約109秒。所以我們有比數(shù)據(jù)更多的參數(shù)。這啟發(fā)了我們必須進(jìn)行大量無(wú)監(jiān)督學(xué)習(xí)的想法,因?yàn)楦兄斎耄òū倔w感受)是我們可以獲得每秒
105維約束的唯一途徑。--
Geoffrey
Hinton,
2014
AMA
on
Reddit無(wú)監(jiān)督特征學(xué)習(xí)一種最常用的數(shù)據(jù)降維方法,使得在轉(zhuǎn)換后的空間中數(shù)據(jù)的方差最大。樣本點(diǎn)??(??)投影之后的表示為所有樣本投影后的方差為目標(biāo)函數(shù)對(duì)目標(biāo)函數(shù)求導(dǎo)并令導(dǎo)數(shù)等于0,可得主成份分析(Principal
Component
Analysis,PCA)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》7給定一組基向量??
= [????
,···,????],將輸入樣本??表示為這些基向量的線性組合(線性)編碼編碼(encoding)字典(dictionary)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》8稀疏編碼找到一組“過(guò)完備”的基向量(即??>??)來(lái)進(jìn)行編碼。完備性《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》9稀疏編碼(Sparse
Coding)(??)給定一組N
個(gè)輸入向量??
??
,
…
,
??
,其稀疏編碼的目標(biāo)函數(shù)定義為??(·)是一個(gè)稀疏性衡量函數(shù),??是一個(gè)超參數(shù),用來(lái)控制稀疏性的強(qiáng)度?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》10訓(xùn)練過(guò)程稀疏編碼的訓(xùn)練過(guò)程一般用交替優(yōu)化的方法進(jìn)行?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》11稀疏編碼的優(yōu)點(diǎn)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》12計(jì)算量稀疏性帶來(lái)的最大好處就是可以極大地降低計(jì)算量??山忉屝砸?yàn)橄∈杈幋a只有少數(shù)的非零元素,相當(dāng)于將一個(gè)輸入樣本表示為少數(shù)幾個(gè)相關(guān)的特征。這樣我們可以更好地描述其特征,并易于理解。特征選擇稀疏性帶來(lái)的另外一個(gè)好處是可以實(shí)現(xiàn)特征的自動(dòng)選擇,只選擇和輸入樣本相關(guān)的最少特征,從而可以更好地表示輸入樣本,降低噪聲并減輕過(guò)擬合。編碼器(Encoder)解碼器(Decoder)目標(biāo)函數(shù):重構(gòu)錯(cuò)誤兩層網(wǎng)絡(luò)結(jié)構(gòu)的自編碼器自編碼器(
Auto-Encoder
)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》13通過(guò)給自編碼器中隱藏層單元z加上稀疏性限制,自編碼器可以學(xué)習(xí)到數(shù)據(jù)中一些有用的結(jié)構(gòu)。目標(biāo)函數(shù)??表示自編碼器中的參數(shù)和稀疏編碼一樣,稀疏自編碼器的優(yōu)點(diǎn)是有很高的可解釋性,并同時(shí)進(jìn)行了隱式的特征選擇.稀疏自編碼器《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》14降噪自編碼器通過(guò)引入噪聲來(lái)增加編碼魯棒性的自編碼器對(duì)于一個(gè)向量??,我們首先根據(jù)一個(gè)比例μ隨機(jī)將??的一些維度的值設(shè)置為0,得到一個(gè)被損壞的向量???。然后將被損壞的向量???輸入給自編碼器得到編碼??,并重構(gòu)出原始的無(wú)損輸入??
?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》15概率密度估計(jì)概率密度估計(jì)參數(shù)密度估計(jì)(Parametric
Density
Estimation)根據(jù)先驗(yàn)知識(shí)假設(shè)隨機(jī)變量服從某種分布,然后通過(guò)訓(xùn)練樣本來(lái)估計(jì)分布的參數(shù).估計(jì)方法:最大
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025便利店商品采購(gòu)與配送合同范本3篇
- 二零二五年度家居裝飾材料區(qū)域代理采購(gòu)合同3篇
- 2025年度10架AC311A直升機(jī)購(gòu)銷與地面服務(wù)保障合同3篇
- 二零二四年度三方貸款資金管理合同3篇
- 二零二五版高端裝備制造工廠生產(chǎn)承包合同書(shū)模板3篇
- 年度智慧停車戰(zhàn)略市場(chǎng)規(guī)劃報(bào)告
- 2025年蔬菜大棚農(nóng)業(yè)科技研發(fā)與創(chuàng)新合作合同2篇
- 年度丙二酮戰(zhàn)略市場(chǎng)規(guī)劃報(bào)告
- 二零二五版?zhèn)€人短期租房合同補(bǔ)充協(xié)議2篇
- 2024-2025學(xué)年高中歷史第8單元20世紀(jì)下半葉世界的新變化第21課世界殖民體系的瓦解與新興國(guó)家的發(fā)展課時(shí)作業(yè)含解析新人教版必修中外歷史綱要下
- 第12講 語(yǔ)態(tài)一般現(xiàn)在時(shí)、一般過(guò)去時(shí)、一般將來(lái)時(shí)(原卷版)
- 2024年采購(gòu)員年終總結(jié)
- 2024年新疆區(qū)公務(wù)員錄用考試《行測(cè)》試題及答案解析
- 肺動(dòng)脈高壓的護(hù)理查房課件
- 2025屆北京巿通州區(qū)英語(yǔ)高三上期末綜合測(cè)試試題含解析
- 公婆贈(zèng)予兒媳婦的房產(chǎn)協(xié)議書(shū)(2篇)
- 煤炭行業(yè)智能化煤炭篩分與洗選方案
- 2024年機(jī)修鉗工(初級(jí))考試題庫(kù)附答案
- Unit 5 同步練習(xí)人教版2024七年級(jí)英語(yǔ)上冊(cè)
- 矽塵對(duì)神經(jīng)系統(tǒng)的影響研究
- 分潤(rùn)模式合同模板
評(píng)論
0/150
提交評(píng)論