ML中的過(guò)擬合問(wèn)題復(fù)習(xí)過(guò)程_第1頁(yè)
ML中的過(guò)擬合問(wèn)題復(fù)習(xí)過(guò)程_第2頁(yè)
ML中的過(guò)擬合問(wèn)題復(fù)習(xí)過(guò)程_第3頁(yè)
ML中的過(guò)擬合問(wèn)題復(fù)習(xí)過(guò)程_第4頁(yè)
ML中的過(guò)擬合問(wèn)題復(fù)習(xí)過(guò)程_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、ML 中 的 過(guò) 擬 合 問(wèn) 題精品文檔防止過(guò)擬合:1. 機(jī)器學(xué)習(xí)中防止過(guò)擬合的方法?答:早停、數(shù)據(jù)擴(kuò)展、正則化( L1、L2 (權(quán)值衰減)、 dropout早停:在訓(xùn)練數(shù)據(jù)不足時(shí),或者過(guò)訓(xùn)練時(shí),常常會(huì)導(dǎo)致過(guò)擬合問(wèn)題。其直觀表達(dá)如下圖:隨著訓(xùn)練的進(jìn)行,網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)上的誤差越來(lái)越小,但是在驗(yàn)證集上的誤差 卻漸漸增大,因?yàn)橛?xùn)練出的網(wǎng)絡(luò)過(guò)擬合了訓(xùn)練集,對(duì)訓(xùn)練集已經(jīng)不工作了。在機(jī)器學(xué)習(xí)中,我們常常將原始數(shù)據(jù)劃分為三部分: 訓(xùn)練、驗(yàn)證和測(cè)試 。驗(yàn)證 集其實(shí)就是為了防止過(guò)擬合的,在訓(xùn)練過(guò)程中,我們常常用它來(lái)確定一組超參 數(shù)(如通過(guò) 驗(yàn)證集確定算法停止訓(xùn)練的 epoch大小,根據(jù) 驗(yàn)證集確定學(xué)習(xí)率 等 等

2、)。這些過(guò)程并不在測(cè)試數(shù)據(jù)上進(jìn)行,因?yàn)榉乐鼓P驮跍y(cè)試數(shù)據(jù)上過(guò)擬合, 這樣導(dǎo)致后邊的測(cè)試誤差沒(méi)有參考價(jià)值。L2 正則化問(wèn)題(也稱為權(quán)值衰減):L2 正則化方法主要在代價(jià)函數(shù)后邊添加一個(gè)正則項(xiàng):收集于網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系管理員刪除精品文檔C0代表原始代價(jià)函數(shù),后面的一項(xiàng)就是 L2正則項(xiàng),是參數(shù) w的 2-范數(shù)的平 方,除以訓(xùn)練集樣本數(shù) n,然后乘以一個(gè)權(quán)衡系數(shù) ,1/2 主要是方便于后邊的 求導(dǎo)計(jì)算。從上式可以看出, L2 正則化項(xiàng)對(duì)偏置 b的更新沒(méi)有影響,但是對(duì) w 有影響從上式可以看出,權(quán)值 w 是在減小的,也即是通常所說(shuō)的權(quán)值衰減問(wèn)題( weight decay)。另外,對(duì)于 mini-ba

3、tch 的隨機(jī)梯度下降方法, w 和 b 的更新公式有所差異:m 表示一個(gè) mini-batch 中的樣本數(shù)目 Cx 表示第 x 個(gè) batch 的代價(jià)函數(shù)L2 正則化方法之所以可以防止過(guò)擬合,是因?yàn)槟P偷膮?shù)越小,復(fù)雜度就越小,對(duì)數(shù)據(jù)的擬合也就剛剛好 。L1 正則化:收集于網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系管理員刪除精品文檔在原始的代價(jià)函數(shù)后邊加上一個(gè) L1的正則項(xiàng),即是 權(quán)值 w的絕對(duì)值之和 ,乘以 lamda/n求導(dǎo)之后:當(dāng) w 為正時(shí), w 減小,為負(fù)時(shí),上式中的 sng(w)表示 w 的符號(hào),那么權(quán)值 w 的更新公式為:w 增大。這樣就使得 w 往 0 方向移動(dòng),也就相當(dāng)于減小了網(wǎng)絡(luò)的復(fù)雜度,防止

4、過(guò)擬合Drop-out 方法 :Drop-out 則是通過(guò)修改神L1和 L2正則化方法是通過(guò)修改代價(jià)函數(shù)來(lái)實(shí)現(xiàn),而經(jīng)網(wǎng)絡(luò)本身來(lái)實(shí)現(xiàn),它是訓(xùn)練網(wǎng)絡(luò)時(shí)的一種技巧。在深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練中,對(duì)于神經(jīng)單元而言, 按照一定的概率將其暫時(shí)從網(wǎng)絡(luò) 中丟棄。對(duì)于 SGD方法,由于是隨機(jī)丟棄,故而每一個(gè) mini-batch 都在訓(xùn)練不 同的網(wǎng)絡(luò)。每一個(gè)網(wǎng)絡(luò)都可以給出一個(gè)分類結(jié)果,有的正確,有的錯(cuò)誤,隨著 訓(xùn)練的進(jìn)行, 大部分網(wǎng)絡(luò)可以給出正確的分類結(jié)果,但是不會(huì)影響到整體的分 類結(jié)果。對(duì)于大規(guī)模神經(jīng)網(wǎng)絡(luò)而言,存在兩個(gè)缺點(diǎn): 訓(xùn)練費(fèi)時(shí)和容易過(guò)擬合每次做完 Drop-out,相當(dāng)于從原始網(wǎng)絡(luò)中找到一個(gè)更瘦的網(wǎng)絡(luò)。收集于

5、網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系管理員刪除精品文檔假如在每一次的迭代中,丟棄網(wǎng)絡(luò)中半數(shù)的隱層神經(jīng)元,得到一個(gè)半數(shù)網(wǎng)絡(luò)。那么在若干次的迭代中,得到若干個(gè)半數(shù)網(wǎng)絡(luò),當(dāng)然每一次的迭代所丟棄的神經(jīng)元是不一樣的。數(shù)據(jù)擴(kuò)展:因?yàn)橛?xùn)練數(shù)據(jù)中的帶標(biāo)記數(shù)據(jù)收集比較困難,我們?yōu)榱双@取更多的訓(xùn)練數(shù)據(jù), 可以在原始數(shù)據(jù)上做改動(dòng),從而得到更多數(shù)據(jù)。如:添加隨機(jī)噪聲平移、旋轉(zhuǎn)、縮放、翻轉(zhuǎn)截取原始圖像中的一部分顏色變換樣本偏斜問(wèn)題:樣本偏斜也叫做數(shù)據(jù)集偏斜( unbalanced),它是指參與分類的兩個(gè)類別之間的 訓(xùn)練樣本數(shù)目差異較大。如正類有 10,000 個(gè)樣本,負(fù)類有 100個(gè),則會(huì)導(dǎo)致樣 本偏斜問(wèn)題。收集于網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系

6、管理員刪除精品文檔類別不平衡是指在分類任務(wù)中,不同類別的訓(xùn)練樣本數(shù)目差別很大的情況。現(xiàn)有的應(yīng)對(duì)樣本傾斜問(wèn)題的方法有三種: 對(duì)數(shù)目較多的一類采用 欠采樣方法 。 即是去除一些多余的樣本,使得樣本平衡,然后再進(jìn)行學(xué)習(xí);第二類方法即是 對(duì)樣本數(shù)目少的一類采用 過(guò)采樣的方法 ,即是增加一些樣本,然后再進(jìn)行學(xué) 習(xí);第三類方法則是直接基于原始訓(xùn)練集進(jìn)行學(xué)習(xí),但是在用訓(xùn)練好的分類器 上預(yù)測(cè)時(shí),利用上式做決策,稱為 閾值移動(dòng) 。欠采樣 并不是簡(jiǎn)單的去除樣本,可能會(huì)導(dǎo)致重要信息丟失,有效的方法為 Easy-Ensemble。主要思想在于利用集成學(xué)習(xí)機(jī)制,將多數(shù)樣本類劃分為多個(gè)部 分,供多個(gè)學(xué)習(xí)器使用,這樣相當(dāng)于

7、對(duì)每一個(gè)學(xué)習(xí)器都進(jìn)行了欠采樣,對(duì)于整 體而言,并不會(huì)丟失重要信息。過(guò)采樣 不能簡(jiǎn)單的對(duì)初始正樣本進(jìn)行重復(fù)采樣,否則會(huì)招致嚴(yán)重的過(guò)擬合,過(guò) 采樣代表性方法為 SMOTE ,即是通過(guò)對(duì)訓(xùn)練數(shù)據(jù)里的少量樣本進(jìn)行插值產(chǎn)生 額外的樣本。再縮放方法 :對(duì)于線性分類問(wèn)題而言,通常利用預(yù)測(cè)值 y 與閾值進(jìn)行比較, y0.5則認(rèn)為正類,反之為負(fù)類, y其實(shí)表示的是屬于正樣本的可能性, t= y/1-y 表示的即是幾率。通常認(rèn)為 t1 為正類,反之為負(fù)類。這種判別方法適用于正 樣本和負(fù)樣本數(shù)目差不多時(shí)。但是當(dāng)兩類差別較大時(shí),通常是通過(guò)t 和觀測(cè)幾率進(jìn)行比較。即是 t= y/1-y m+/m- ,m+和 m-分別表

8、示正負(fù)樣本數(shù)。基于前者 和后者,對(duì)預(yù)測(cè)幾率進(jìn)行調(diào)整,得到:收集于網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系管理員刪除精品文檔這就是 類別不平衡的一種基本策略 再縮放或再平衡 。再縮放的思想是建立在訓(xùn)練集是整體樣本的無(wú)偏采樣,但是這個(gè)假設(shè)并不一定成立,即是未必能夠推 斷出真實(shí)的觀測(cè)幾率。1)實(shí)現(xiàn)參數(shù)的稀疏有什么好處嗎?一個(gè)好處是可以簡(jiǎn)化模型,避免過(guò)擬合。 因?yàn)橐粋€(gè)模型中真正重要的參數(shù)可能并不多,如 果考慮所有的參數(shù)起作用,那么可以對(duì)訓(xùn)練數(shù)據(jù)可以預(yù)測(cè)的很好,但是對(duì)測(cè)試數(shù)據(jù)就只能 呵呵了。另一個(gè)好處是 參數(shù)變少 可以使整個(gè)模型 獲得更好的可解釋性 。2)參數(shù)值越小代表模型越簡(jiǎn)單嗎?是的。為什么參數(shù)越小,說(shuō)明模型越簡(jiǎn)單呢,

9、這是因?yàn)樵綇?fù)雜的模型,越是會(huì)嘗試對(duì)所有 的樣本進(jìn)行擬合,甚至包括一些異常樣本點(diǎn),這就容易造成 在較小的區(qū)間里預(yù)測(cè)值產(chǎn)生較 大的波動(dòng),這種較大的波動(dòng)也反映了在這個(gè)區(qū)間里的導(dǎo)數(shù)很大,而只有較大的參數(shù)值才能 產(chǎn)生較大的導(dǎo)數(shù) 。 因此復(fù)雜的模型,其參數(shù)值會(huì)比較大 。L0 正則化表示的是非零元素的數(shù)目;( NP- 難題)L1 正則化在實(shí)際中往往替代 L0 正則化,來(lái)防止過(guò)擬合,在江湖中也人稱Lasso ;L2 正則化江湖人稱 Ridge ,也稱“嶺回歸”。L1 會(huì)趨向于產(chǎn)生少量的特征,而其他的特征都是0,而 L2 會(huì)選擇更多的特征,這些特征都會(huì)接近于 0。 Lasso 在特征選擇時(shí)候非常有用,而 Rid

10、ge 就只是一種規(guī)則化而已。在所 有特征中只有少數(shù)特征起重要作用的情況下,選擇 Lasso 比較合適,因?yàn)樗茏詣?dòng)選擇特 征。而如果所有特征中,大部分特征都能起作用,而且起的作用很平均,那么使用 Ridge 也許更合適。我們大概知道了 L1 可以實(shí)現(xiàn)稀疏 ,但我們會(huì)想呀,為什么要稀疏?讓我們的參數(shù)稀疏有什么好處呢?這里扯兩點(diǎn):收集于網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系管理員刪除精品文檔1)特征選擇 (Feature Selection) :大家對(duì)稀疏規(guī)則化趨之若鶩的一個(gè)關(guān)鍵原因在于它能實(shí)現(xiàn)特征的自動(dòng)選擇。一般來(lái) 說(shuō), xi的大部分元素(也就是特征)都是和最終的輸出yi沒(méi)有關(guān)系或者不提供任何信息的,在最小化目標(biāo)

11、函數(shù)的時(shí)候考慮xi 這些額外的特征,雖然可以獲得更小的訓(xùn)練誤差,但在預(yù)測(cè)新的樣本時(shí),這些沒(méi)用的信息反而會(huì)被考慮,從而干擾了對(duì)正確yi 的預(yù)測(cè)。稀疏規(guī)則化算子的引入就是為了完成特征自動(dòng)選擇的光榮使命,它會(huì)學(xué)習(xí)地去掉這些沒(méi)有信息的 特征,也就是把這些特征對(duì)應(yīng)的權(quán)重置為 0 。2)可解釋性 (Interpretability) :另一個(gè)青睞于稀疏的理由是,模型更容易解釋。例如患某種病的概率是y,然后我們收集到的數(shù)據(jù) x 是 1000 維的,也就是我們需要尋找這 1000 種因素到底是怎么影響患上這 種病的概率的。假設(shè)我們這個(gè)是個(gè)回歸模型:y=w 1 *x 1+w 2*x 2 + +w 1000 *x 1000 +b (當(dāng)然了,為了讓 y 限定在 0,1 的范圍,一般還得加個(gè) Logistic

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論