版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
DEEPLEARNING深度學(xué)習(xí)第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)6.1從數(shù)據(jù)中學(xué)習(xí)6.2
損失函數(shù)6.3MiniBatch學(xué)習(xí)of412第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of413神經(jīng)網(wǎng)絡(luò)的特征就是可以從數(shù)據(jù)中學(xué)習(xí)。所謂“從數(shù)據(jù)中學(xué)習(xí)”,是指可以由數(shù)據(jù)自動(dòng)決定權(quán)重參數(shù)的值。這是非常了不起的事情!因?yàn)槿绻械膮?shù)都需要人工決定的話,工作量就太大了。在感知機(jī)的例子中,我們對(duì)照著真值表,人工設(shè)定了參數(shù)的值,但是那時(shí)的參數(shù)只有3個(gè)。而在實(shí)際的神經(jīng)網(wǎng)絡(luò)中,參數(shù)的數(shù)量成千上萬,在層數(shù)更深的深度學(xué)習(xí)中,參數(shù)的數(shù)量甚至可以上億,想要人工決定這些參數(shù)的值是不可能的。6.1從數(shù)據(jù)中學(xué)習(xí)第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of414數(shù)據(jù)是機(jī)器學(xué)習(xí)的關(guān)鍵。從數(shù)據(jù)中尋找答案、從數(shù)據(jù)中發(fā)現(xiàn)模式、根據(jù)數(shù)據(jù)講故事……這些機(jī)器學(xué)習(xí)所做的事情,如果沒有數(shù)據(jù)的話,就無從談起。因此,數(shù)據(jù)是機(jī)器學(xué)習(xí)的核心。如何實(shí)現(xiàn)數(shù)字“5”的識(shí)別?6.1從數(shù)據(jù)中學(xué)習(xí)6.1.1數(shù)據(jù)驅(qū)動(dòng)第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of415如果讓我們自己來設(shè)計(jì)一個(gè)能將5正確分類的程序,就會(huì)意外地發(fā)現(xiàn)這是一個(gè)很難的問題。6.1從數(shù)據(jù)中學(xué)習(xí)6.1.1數(shù)據(jù)驅(qū)動(dòng)第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of416人可以簡(jiǎn)單地識(shí)別出5,但卻很難明確說出是基于何種規(guī)律而識(shí)別出了5。從圖像中提取特征量,再用機(jī)器學(xué)習(xí)技術(shù)學(xué)習(xí)這些特征量的模式。神經(jīng)網(wǎng)絡(luò)(深度學(xué)習(xí))的方法,可以不存在人為介入。神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是對(duì)所有的問題都可以用同樣的流程來解決。比如,不管要求解的問題是識(shí)別5,還是識(shí)別狗,抑或是識(shí)別人臉,神經(jīng)網(wǎng)絡(luò)都是通過不斷地學(xué)習(xí)所提供的數(shù)據(jù),嘗試發(fā)現(xiàn)待求解的問題的模式。也就是說,與待處理的問題無關(guān),神經(jīng)網(wǎng)絡(luò)可以將數(shù)據(jù)直接作為原始數(shù)據(jù),進(jìn)行“端對(duì)端”的學(xué)習(xí)。6.1從數(shù)據(jù)中學(xué)習(xí)6.1.1數(shù)據(jù)驅(qū)動(dòng)第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of417機(jī)器學(xué)習(xí)中,一般將數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)兩部分來進(jìn)行學(xué)習(xí)和實(shí)驗(yàn)等。首先,使用訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),尋找最優(yōu)的參數(shù);然后,使用測(cè)試數(shù)據(jù)評(píng)價(jià)訓(xùn)練得到的模型的實(shí)際能力。為什么需要將數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)呢?因?yàn)槲覀冏非蟮氖悄P偷姆夯芰Α榱苏_評(píng)價(jià)模型的泛化能力,就必須劃分訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。泛化能力是指處理未被觀察過的數(shù)據(jù)(不包含在訓(xùn)練數(shù)據(jù)中的數(shù)據(jù))的能力。獲得泛化能力是機(jī)器學(xué)習(xí)的最終目標(biāo)。因此,僅僅用一個(gè)數(shù)據(jù)集去學(xué)習(xí)和評(píng)價(jià)參數(shù),是無法進(jìn)行正確評(píng)價(jià)的。這樣會(huì)導(dǎo)致可以順利地處理某個(gè)數(shù)據(jù)集,但無法處理其他數(shù)據(jù)集的情況。順便說一下,只對(duì)某個(gè)數(shù)據(jù)集過度擬合的狀態(tài)稱為過擬合(overfitting)。避免過擬合也是機(jī)器學(xué)習(xí)的一個(gè)重要課題。6.1從數(shù)據(jù)中學(xué)習(xí)6.1.2訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of418如果有人問你現(xiàn)在有多幸福,你會(huì)如何回答呢?一般的人可能會(huì)給出諸如“還可以吧”或者“不是那么幸?!钡然\統(tǒng)的回答。如果有人回答“我現(xiàn)在的幸福指數(shù)是10.23”的話,可能會(huì)把人嚇一跳吧。因?yàn)樗靡粋€(gè)數(shù)值指標(biāo)來評(píng)判自己的幸福程度。實(shí)際上神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)也在做同樣的事情。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)通過某個(gè)指標(biāo)表示現(xiàn)在的狀態(tài)。然后,以這個(gè)指標(biāo)為基準(zhǔn),尋找最優(yōu)權(quán)重參數(shù)。和剛剛那位以幸福指數(shù)為指引尋找“最優(yōu)人生”的人一樣,神經(jīng)網(wǎng)絡(luò)以某個(gè)指標(biāo)為線索尋找最優(yōu)權(quán)重參數(shù)。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)中所用的指標(biāo)稱為損失函數(shù)(lossfunction)。這個(gè)損失函數(shù)可以使用任意函數(shù),但一般用均方誤差和交叉熵誤差等。6.2損失函數(shù)第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of419可以用作損失函數(shù)的函數(shù)有很多,其中最有名的是均方誤差(meansquarederror)yk
是表示神經(jīng)網(wǎng)絡(luò)的輸出,tk
表示監(jiān)督數(shù)據(jù),k
表示數(shù)據(jù)的維數(shù)。比如,在手寫數(shù)字識(shí)別的例子中,yk、tk
是由如下10個(gè)元素構(gòu)成的數(shù)據(jù)。y=[0.1,0.05,0.6,0.0,0.05,0.1,0.0,0.1,0.0,0.0]t=[0,0,1,0,0,0,0,0,0,0]6.2損失函數(shù)6.2.1均方誤差第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4110數(shù)組元素的索引從第一個(gè)開始依次對(duì)應(yīng)數(shù)字“0”“1”“2”……這里,神經(jīng)網(wǎng)絡(luò)的輸出
y
是softmax函數(shù)的輸出。由于softmax函數(shù)的輸出可以理解為概率,因此上例表示“0”的概率是0.1,“1”的概率是0.05,“2”的概率是0.6等。t
是監(jiān)督數(shù)據(jù),將正確解標(biāo)簽設(shè)為1,其他均設(shè)為0。這里,標(biāo)簽“2”為1,表示正確解是“2”。將正確解標(biāo)簽表示為1,其他標(biāo)簽表示為0的表示方法稱為
one-hot表示。6.2損失函數(shù)6.2.1均方誤差第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4111均方誤差會(huì)計(jì)算神經(jīng)網(wǎng)絡(luò)的輸出和正確解監(jiān)督數(shù)據(jù)的各個(gè)元素之差的平方,再求總和。測(cè)試:defmean_squared_error(y,t):return0.5*np.sum((y-t)**2)#設(shè)“2”為正確解t=[0,0,1,0,0,0,0,0,0,0]#例1:“2”的概率最高的情況(0.6)y=[0.1,0.05,0.6,0.0,0.05,0.1,0.0,0.1,0.0,0.0]mean_squared_error(np.array(y),np.array(t))0.0975000000000000316.2損失函數(shù)6.2.1均方誤差第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4112#例2:“7”的概率最高的情況(0.6)y=[0.1,0.05,0.1,0.0,0.05,0.1,0.0,0.6,0.0,0.0]mean_squared_error(np.array(y),np.array(t))0.59750000000000003第一個(gè)例子中,正確解是“2”,神經(jīng)網(wǎng)絡(luò)的輸出的最大值是“2”;第二個(gè)例子中,正確解是“2”,神經(jīng)網(wǎng)絡(luò)的輸出的最大值是“7”。如實(shí)驗(yàn)結(jié)果所示,我們發(fā)現(xiàn)第一個(gè)例子的損失函數(shù)的值更小,和監(jiān)督數(shù)據(jù)之間的誤差較小。也就是說,均方誤差顯示第一個(gè)例子的輸出結(jié)果與監(jiān)督數(shù)據(jù)更加吻合6.2損失函數(shù)6.2.1均方誤差第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4113交叉熵誤差(crossentropyerror)也經(jīng)常被用作損失函數(shù)。log表示以e為底數(shù)的自然對(duì)數(shù)(loge)。yk
是神經(jīng)網(wǎng)絡(luò)的輸出,tk
是正確解標(biāo)簽。并且,tk
中只有正確解標(biāo)簽的索引為2,其他均為0(one-hot表示)。因此,實(shí)際上只計(jì)算對(duì)應(yīng)正確解標(biāo)簽的輸出的自然對(duì)數(shù)。比如,假設(shè)正確解標(biāo)簽的索引是“2”,與之對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)的輸出是0.6,則交叉熵誤差是-log0.6=0.51;若“2”對(duì)應(yīng)的輸出是0.1,則交叉熵誤差為-log0.1=2.30。也就是說,交叉熵誤差的值是由正確解標(biāo)簽所對(duì)應(yīng)的輸出結(jié)果決定的。6.2損失函數(shù)6.2.2交叉熵誤差第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4114自然對(duì)數(shù)的圖像log(x)-log(x)x
等于1時(shí),y
為0;隨著
x
向0靠近,y
逐漸變小。因此,正確解標(biāo)簽對(duì)應(yīng)的輸出越大,式(4.2)的值越接近0;當(dāng)輸出為1時(shí),交叉熵誤差為0。此外,如果正確解標(biāo)簽對(duì)應(yīng)的輸出較小,則式的值較大。6.2損失函數(shù)6.2.2交叉熵誤差第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4115參數(shù)
y
和
t
是NumPy數(shù)組。函數(shù)內(nèi)部在計(jì)算
np.log
時(shí),加上了一個(gè)微小值
delta。這是因?yàn)?,?dāng)出現(xiàn)
np.log(0)
時(shí),np.log(0)
會(huì)變?yōu)樨?fù)無限大的
-inf,這樣一來就會(huì)導(dǎo)致后續(xù)計(jì)算無法進(jìn)行。作為保護(hù)性對(duì)策,添加一個(gè)微小值可以防止負(fù)無限大的發(fā)生。測(cè)試defcross_entropy_error(y,t): delta=1e-7 return-np.sum(t*np.log(y+delta))t=[0,0,1,0,0,0,0,0,0,0]y=[0.1,0.05,0.6,0.0,0.05,0.1,0.0,0.1,0.0,0.0]cross_entropy_error(np.array(y),np.array(t))#
0.51082545709933802y=[0.1,0.05,0.1,0.0,0.05,0.1,0.0,0.6,0.0,0.0]cross_entropy_error(np.array(y),np.array(t))#2.30258409299454586.2損失函數(shù)6.2.2交叉熵誤差第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4116在神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)中,尋找最優(yōu)參數(shù)(權(quán)重和偏置)時(shí),要尋找使損失函數(shù)的值盡可能小的參數(shù)。為了找到使損失函數(shù)的值盡可能小的地方,需要計(jì)算參數(shù)的導(dǎo)數(shù)(確切地講是梯度),然后以這個(gè)導(dǎo)數(shù)為指引,逐步更新參數(shù)的值。假設(shè)有一個(gè)神經(jīng)網(wǎng)絡(luò),現(xiàn)在我們來關(guān)注這個(gè)神經(jīng)網(wǎng)絡(luò)中的某一個(gè)權(quán)重參數(shù)。此時(shí),對(duì)該權(quán)重參數(shù)的損失函數(shù)求導(dǎo),表示的是“如果稍微改變這個(gè)權(quán)重參數(shù)的值,損失函數(shù)的值會(huì)如何變化”。如果導(dǎo)數(shù)的值為負(fù),通過使該權(quán)重參數(shù)向正方向改變,可以減小損失函數(shù)的值;反過來,如果導(dǎo)數(shù)的值為正,則通過使該權(quán)重參數(shù)向負(fù)方向改變,可以減小損失函數(shù)的值。不過,當(dāng)導(dǎo)數(shù)的值為0時(shí),無論權(quán)重參數(shù)向哪個(gè)方向變化,損失函數(shù)的值都不會(huì)改變,此時(shí)該權(quán)重參數(shù)的更新會(huì)停在此處。6.2損失函數(shù)6.2.3激活函數(shù)的損失函數(shù)第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4117階躍函數(shù),只在某個(gè)瞬間產(chǎn)生變化。而sigmoid函數(shù),不僅函數(shù)的輸出(豎軸的值)是連續(xù)變化的,曲線的斜率(導(dǎo)數(shù))也是連續(xù)變化的。也就是說,sigmoid函數(shù)的導(dǎo)數(shù)在任何地方都不為0。這對(duì)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)非常重要。得益于這個(gè)斜率不會(huì)為0的性質(zhì),神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)得以正確進(jìn)行。6.2損失函數(shù)6.2.3激活函數(shù)的損失函數(shù)第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4118機(jī)器學(xué)習(xí)使用訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)。使用訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),嚴(yán)格來說,就是針對(duì)訓(xùn)練數(shù)據(jù)計(jì)算損失函數(shù)的值,找出使該值盡可能小的參數(shù)。因此,計(jì)算損失函數(shù)時(shí)必須將所有的訓(xùn)練數(shù)據(jù)作為對(duì)象。也就是說,如果訓(xùn)練數(shù)據(jù)有100個(gè)的話,我們就要把這100個(gè)損失函數(shù)的總和作為學(xué)習(xí)的指標(biāo)。前面介紹的損失函數(shù)的例子中考慮的都是針對(duì)單個(gè)數(shù)據(jù)的損失函數(shù)。如果要求所有訓(xùn)練數(shù)據(jù)的損失函數(shù)的總和,以交叉熵誤差為例,可以寫成下面的式6.3mini-batch學(xué)習(xí)第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4119假設(shè)數(shù)據(jù)有
N
個(gè),tnk
表示第
n
個(gè)數(shù)據(jù)的第
k
個(gè)元素的值(ynk
是神經(jīng)網(wǎng)絡(luò)的輸出,tnk
是監(jiān)督數(shù)據(jù))。式子雖然看起來有一些復(fù)雜,其實(shí)只是把求單個(gè)數(shù)據(jù)的損失函數(shù)的式擴(kuò)大到了
N
份數(shù)據(jù),不過最后還要除以
N
進(jìn)行正規(guī)化。通過除以
N,可以求單個(gè)數(shù)據(jù)的“平均損失函數(shù)”。通過這樣的平均化,可以獲得和訓(xùn)練數(shù)據(jù)的數(shù)量無關(guān)的統(tǒng)一指標(biāo)。比如,即便訓(xùn)練數(shù)據(jù)有1000個(gè)或10000個(gè),也可以求得單個(gè)數(shù)據(jù)的平均損失函數(shù)。6.3mini-batch學(xué)習(xí)第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4120另外,MNIST數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)有60000個(gè),如果以全部數(shù)據(jù)為對(duì)象求損失函數(shù)的和,則計(jì)算過程需要花費(fèi)較長(zhǎng)的時(shí)間。再者,如果遇到大數(shù)據(jù),數(shù)據(jù)量會(huì)有幾百萬、幾千萬之多,這種情況下以全部數(shù)據(jù)為對(duì)象計(jì)算損失函數(shù)是不現(xiàn)實(shí)的。因此,我們從全部數(shù)據(jù)中選出一部分,作為全部數(shù)據(jù)的“近似”。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)也是從訓(xùn)練數(shù)據(jù)中選出一批數(shù)據(jù)(稱為mini-batch,小批量),然后對(duì)每個(gè)mini-batch進(jìn)行學(xué)習(xí)。比如,從60000個(gè)訓(xùn)練數(shù)據(jù)中隨機(jī)選擇100筆,再用這100筆數(shù)據(jù)進(jìn)行學(xué)習(xí)。這種學(xué)習(xí)方式稱為
mini-batch學(xué)習(xí)。6.3mini-batch學(xué)習(xí)第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4121利用微小的差分求導(dǎo)數(shù)的過程稱為數(shù)值微分導(dǎo)數(shù)導(dǎo)數(shù)就是表示某個(gè)瞬間的變化量偏導(dǎo)數(shù)6.4數(shù)值微分第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4122梯度由全部變量的偏導(dǎo)數(shù)匯總而成的向量稱為梯度(gradient)6.4數(shù)值微分第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4123梯度右圖是梯度呈現(xiàn)為有向向量(箭頭)。梯度指向函數(shù)
f(x0,x1)的“最低處”(最小值),就像指南針一樣,所有的箭頭都指向同一點(diǎn)。離“最低處”越遠(yuǎn),箭頭越大。6.4數(shù)值微分第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4124梯度梯度指向了最低處,但并非任何時(shí)候都這樣。梯度會(huì)指向各點(diǎn)處的函數(shù)值降低的方向。梯度指示的方向是各點(diǎn)處的函數(shù)值減小最多的方向(方向?qū)?shù)=cos(θ)×梯度θ
是方向?qū)?shù)的方向與梯度方向的夾角)。因此,所有的下降方向中,梯度方向下降最多。6.4數(shù)值微分第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4125梯度法機(jī)器學(xué)習(xí)的主要任務(wù)是在學(xué)習(xí)時(shí)尋找最優(yōu)參數(shù)。同樣地,神經(jīng)網(wǎng)絡(luò)也必須在學(xué)習(xí)時(shí)找到最優(yōu)參數(shù)(權(quán)重和偏置)。這里所說的最優(yōu)參數(shù)是指損失函數(shù)取最小值時(shí)的參數(shù)。但是,一般而言,損失函數(shù)很復(fù)雜,參數(shù)空間龐大,我們不知道它在何處能取得最小值。而通過巧妙地使用梯度來尋找函數(shù)最小值(或者盡可能小的值)的方法就是梯度法。梯度表示的是各點(diǎn)處的函數(shù)值減小最多的方向。因此,無法保證梯度所指的方向就是函數(shù)的最小值或者真正應(yīng)該前進(jìn)的方向。實(shí)際上,在復(fù)雜的函數(shù)中,梯度指示的方向基本上都不是函數(shù)值最小處。6.4數(shù)值微分第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4126梯度法雖然梯度的方向并不一定指向最小值,但沿著它的方向能夠最大限度地減小函數(shù)的值。因此,在尋找函數(shù)的最小值(或者盡可能小的值)的位置的任務(wù)中,要以梯度的信息為線索,決定前進(jìn)的方向。在梯度法中,函數(shù)的取值從當(dāng)前位置沿著梯度方向前進(jìn)一定距離,然后在新的地方重新求梯度,再沿著新梯度方向前進(jìn),如此反復(fù),不斷地沿梯度方向前進(jìn)。像這樣,通過不斷地沿梯度方向前進(jìn),逐漸減小函數(shù)值的過程就是梯度法(gradientmethod)。梯度法是解決人工智能中最優(yōu)化問題的常用方法,特別是在神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)中經(jīng)常被使用。6.4數(shù)值微分第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4127梯度法請(qǐng)用梯度法求
的最小值(gradient_method.py)右圖為梯度法的更新過程,虛線是函數(shù)的等高線。原點(diǎn)處是最低的地方,函數(shù)的取值一點(diǎn)點(diǎn)在向其靠近。6.4數(shù)值微分第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4128神經(jīng)網(wǎng)絡(luò)的梯度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)也要求梯度。這里所說的梯度是指損失函數(shù)關(guān)于權(quán)重參數(shù)的梯度。比如,有一個(gè)只有一個(gè)形狀為2×3的權(quán)重
W
的神經(jīng)網(wǎng)絡(luò),損失函數(shù)用
L
表示。此時(shí),梯度可以用
表示。6.4數(shù)值微分第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4129神經(jīng)網(wǎng)絡(luò)的梯度以一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)為例,來實(shí)現(xiàn)求梯度的代碼6.4數(shù)值微分第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4130二層神經(jīng)網(wǎng)咯實(shí)現(xiàn)手寫數(shù)字?jǐn)?shù)據(jù)集分類TwolayerNet
6.5二層神經(jīng)網(wǎng)絡(luò)第六章神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)of4131二層神經(jīng)網(wǎng)咯實(shí)現(xiàn)手寫數(shù)字?jǐn)?shù)據(jù)集分類mini-batch的實(shí)現(xiàn)mini-batch學(xué)習(xí),就是從訓(xùn)練數(shù)據(jù)中隨機(jī)選擇一部分?jǐn)?shù)據(jù)(稱為mini-batch),再以這些mini-batch為對(duì)象,使用梯度法更新參數(shù)的過程mini-batch的大小為100,需要每次從60000個(gè)訓(xùn)練數(shù)據(jù)中隨機(jī)取出100個(gè)數(shù)據(jù)(圖像數(shù)據(jù)和正確解標(biāo)簽數(shù)據(jù))。對(duì)這個(gè)包含100筆數(shù)據(jù)的mini-batch求梯度,使用隨機(jī)梯度下降法(SGD)更新參數(shù)。這里,梯度法的更新次數(shù)(循環(huán)的次數(shù))為10000。每
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 融合創(chuàng)新學(xué)科教學(xué)與個(gè)人興趣的互動(dòng)藝術(shù)
- 音樂治療中的節(jié)奏感培訓(xùn)實(shí)踐分享
- 旅行中的季節(jié)性傳染病預(yù)防知識(shí)
- 2025年武漢貨運(yùn)從業(yè)資格證
- 文化傳承背景下的學(xué)生德育工作策略研究
- 教育技術(shù)學(xué)生創(chuàng)新力培養(yǎng)的新路徑
- 2025年度汽車零部件退貨賠償合同范本匯編
- 2025年度高端家政服務(wù)雇傭保姆合同
- 科技助力改善學(xué)生膳食結(jié)構(gòu)的實(shí)踐
- 語音鍛煉與小學(xué)生朗讀
- 第二章《有理數(shù)的運(yùn)算》單元備課教學(xué)實(shí)錄2024-2025學(xué)年人教版數(shù)學(xué)七年級(jí)上冊(cè)
- DB31-T 596-2021 城市軌道交通合理通風(fēng)技術(shù)管理要求
- 華為智慧園區(qū)解決方案介紹
- 2022年江西省公務(wù)員錄用考試《申論》真題(縣鄉(xiāng)卷)及答案解析
- 人教版八年級(jí)英語上冊(cè)期末專項(xiàng)復(fù)習(xí)-完形填空和閱讀理解(含答案)
- 一例蛇串瘡患者個(gè)案護(hù)理課件
- 低壓電工理論考試題庫低壓電工考試題
- 國(guó)家電網(wǎng)培訓(xùn)課件
- 五年級(jí)上冊(cè)口算練習(xí)400題及答案
- 駱駝祥子選擇題100道及答案
- 2024年公務(wù)員考試題庫附答案【完整版】
評(píng)論
0/150
提交評(píng)論