ML中的過擬合問題_第1頁
ML中的過擬合問題_第2頁
ML中的過擬合問題_第3頁
ML中的過擬合問題_第4頁
ML中的過擬合問題_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、防止過擬合:1. 機器學習中防止過擬合的方法?答:早停、數據擴展、正則化(L1、L2(權值衰減)、dropout早停:在訓練數據不足時,或者過訓練時,常常會導致過擬合問題。其直觀表達如下圖:隨著訓練的進行,網絡在訓練數據上的誤差越來越小,但是在驗證集上的誤差卻漸漸增大,因為訓練出的網絡過擬合了訓練集,對訓練集已經不工作了。在機器學習中,我們常常將原始數據劃分為三部分:訓練、驗證和測試。驗證集其實就是為了防止過擬合的,在訓練過程中,我們常常用它來確定一組超參數(如通過驗證集確定算法停止訓練的epoch大小,根據驗證集確定學習率等等)。這些過程并不在測試數據上進行,因為防止模型在測試數據上過擬合,

2、這樣導致后邊的測試誤差沒有參考價值。L2正則化問題(也稱為權值衰減):L2正則化方法主要在代價函數后邊添加一個正則項:C0代表原始代價函數,后面的一項就是L2正則項,是參數w的2-范數的平方,除以訓練集樣本數n,然后乘以一個權衡系數,1/2主要是方便于后邊的求導計算。從上式可以看出,L2正則化項對偏置b的更新沒有影響,但是對w有影響。從上式可以看出,權值w是在減小的,也即是通常所說的權值衰減問題(weight decay)。另外,對于mini-batch的隨機梯度下降方法,w和b的更新公式有所差異:m表示一個mini-batch中的樣本數目Cx表示第x個batch的代價函數。L2正則化方法之所

3、以可以防止過擬合,是因為模型的參數越小,復雜度就越小,對數據的擬合也就剛剛好。L1正則化:在原始的代價函數后邊加上一個L1的正則項,即是權值w的絕對值之和,乘以lamda/n求導之后:上式中的sng(w)表示w的符號,那么權值w的更新公式為:當w為正時,w減小,為負時,w增大。這樣就使得w往0方向移動,也就相當于減小了網絡的復雜度,防止過擬合。Drop-out方法:L1和L2正則化方法是通過修改代價函數來實現(xiàn),而Drop-out則是通過修改神經網絡本身來實現(xiàn),它是訓練網絡時的一種技巧。在深度學習網絡訓練中,對于神經單元而言,按照一定的概率將其暫時從網絡中丟棄。對于SGD方法,由于是隨機丟棄,故

4、而每一個mini-batch都在訓練不同的網絡。每一個網絡都可以給出一個分類結果,有的正確,有的錯誤,隨著訓練的進行,大部分網絡可以給出正確的分類結果,但是不會影響到整體的分類結果。對于大規(guī)模神經網絡而言,存在兩個缺點:訓練費時和容易過擬合每次做完Drop-out,相當于從原始網絡中找到一個更瘦的網絡。假如在每一次的迭代中,丟棄網絡中半數的隱層神經元,得到一個半數網絡。那么在若干次的迭代中,得到若干個半數網絡,當然每一次的迭代所丟棄的神經元是不一樣的。數據擴展:因為訓練數據中的帶標記數據收集比較困難,我們?yōu)榱双@取更多的訓練數據,可以在原始數據上做改動,從而得到更多數據。如:l 添加隨機噪聲l

5、平移、旋轉、縮放、翻轉l 截取原始圖像中的一部分l 顏色變換樣本偏斜問題:樣本偏斜也叫做數據集偏斜(unbalanced),它是指參與分類的兩個類別之間的訓練樣本數目差異較大。如正類有10,000個樣本,負類有100個,則會導致樣本偏斜問題。類別不平衡是指在分類任務中,不同類別的訓練樣本數目差別很大的情況?,F(xiàn)有的應對樣本傾斜問題的方法有三種:對數目較多的一類采用欠采樣方法。即是去除一些多余的樣本,使得樣本平衡,然后再進行學習;第二類方法即是對樣本數目少的一類采用過采樣的方法,即是增加一些樣本,然后再進行學習;第三類方法則是直接基于原始訓練集進行學習,但是在用訓練好的分類器上預測時,利用上式做決

6、策,稱為閾值移動。欠采樣并不是簡單的去除樣本,可能會導致重要信息丟失,有效的方法為Easy-Ensemble。主要思想在于利用集成學習機制,將多數樣本類劃分為多個部分,供多個學習器使用,這樣相當于對每一個學習器都進行了欠采樣,對于整體而言,并不會丟失重要信息。過采樣不能簡單的對初始正樣本進行重復采樣,否則會招致嚴重的過擬合,過采樣代表性方法為SMOTE,即是通過對訓練數據里的少量樣本進行插值產生額外的樣本。再縮放方法:對于線性分類問題而言,通常利用預測值y與閾值進行比較,y>0.5則認為正類,反之為負類,y其實表示的是屬于正樣本的可能性,t= y/1-y表示的即是幾率。通常認為t>

7、1為正類,反之為負類。這種判別方法適用于正樣本和負樣本數目差不多時。但是當兩類差別較大時,通常是通過t和觀測幾率進行比較。即是t= y/1-y > m+/m-,m+和m-分別表示正負樣本數?;谇罢吆秃笳?,對預測幾率進行調整,得到:這就是類別不平衡的一種基本策略-再縮放或再平衡。再縮放的思想是建立在訓練集是整體樣本的無偏采樣,但是這個假設并不一定成立,即是未必能夠推斷出真實的觀測幾率。1)實現(xiàn)參數的稀疏有什么好處嗎?一個好處是可以簡化模型,避免過擬合。因為一個模型中真正重要的參數可能并不多,如果考慮所有的參數起作用,那么可以對訓練數據可以預測的很好,但是對測試數據就只能呵呵了。另一個好處

8、是參數變少可以使整個模型獲得更好的可解釋性。2)參數值越小代表模型越簡單嗎?是的。為什么參數越小,說明模型越簡單呢,這是因為越復雜的模型,越是會嘗試對所有的樣本進行擬合,甚至包括一些異常樣本點,這就容易造成在較小的區(qū)間里預測值產生較大的波動,這種較大的波動也反映了在這個區(qū)間里的導數很大,而只有較大的參數值才能產生較大的導數。因此復雜的模型,其參數值會比較大。L0正則化表示的是非零元素的數目;(NP-難題)L1正則化在實際中往往替代L0正則化,來防止過擬合,在江湖中也人稱Lasso;L2正則化江湖人稱Ridge,也稱“嶺回歸”。L1會趨向于產生少量的特征,而其他的特征都是0,而L2會選擇更多的特

9、征,這些特征都會接近于0。Lasso在特征選擇時候非常有用,而Ridge就只是一種規(guī)則化而已。在所有特征中只有少數特征起重要作用的情況下,選擇Lasso比較合適,因為它能自動選擇特征。而如果所有特征中,大部分特征都能起作用,而且起的作用很平均,那么使用Ridge也許更合適。我們大概知道了L1可以實現(xiàn)稀疏,但我們會想呀,為什么要稀疏?讓我們的參數稀疏有什么好處呢?這里扯兩點:1)特征選擇(Feature Selection):大家對稀疏規(guī)則化趨之若鶩的一個關鍵原因在于它能實現(xiàn)特征的自動選擇。一般來說,xi的大部分元素(也就是特征)都是和最終的輸出yi沒有關系或者不提供任何信息的,在最小化目標函數

10、的時候考慮xi這些額外的特征,雖然可以獲得更小的訓練誤差,但在預測新的樣本時,這些沒用的信息反而會被考慮,從而干擾了對正確yi的預測。稀疏規(guī)則化算子的引入就是為了完成特征自動選擇的光榮使命,它會學習地去掉這些沒有信息的特征,也就是把這些特征對應的權重置為0。2)可解釋性(Interpretability):另一個青睞于稀疏的理由是,模型更容易解釋。例如患某種病的概率是y,然后我們收集到的數據x是1000維的,也就是我們需要尋找這1000種因素到底是怎么影響患上這種病的概率的。假設我們這個是個回歸模型:y=w1*x1+w2*x2+w1000*x1000+b(當然了,為了讓y限定在0,1的范圍,一般

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論