




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
01數(shù)據(jù)集劃分02評(píng)價(jià)指標(biāo)03正則化、偏差和方差本章目錄01數(shù)據(jù)集劃分02評(píng)價(jià)指標(biāo)1.數(shù)據(jù)集劃分03正則化、偏差和方差訓(xùn)練集(TrainingSet):幫助我們訓(xùn)練模型,簡(jiǎn)單的說(shuō)就是通過(guò)訓(xùn)練集的數(shù)據(jù)讓我們確定擬合曲線的參數(shù)。
驗(yàn)證集(ValidationSet):也叫做開(kāi)發(fā)集(DevSet),用來(lái)做模型選擇(modelselection),即做模型的最終優(yōu)化及確定的,用來(lái)輔助我們的模型的構(gòu)建,即訓(xùn)練超參數(shù),可選;測(cè)試集(TestSet):為了測(cè)試已經(jīng)訓(xùn)練好的模型的精確度。三者劃分:訓(xùn)練集、驗(yàn)證集、測(cè)試集機(jī)器學(xué)習(xí):60%,20%,20%;70%,10%,20%深度學(xué)習(xí):98%,1%,1%(假設(shè)百萬(wàn)條數(shù)據(jù))1.數(shù)據(jù)集劃分?jǐn)?shù)據(jù)集訓(xùn)練集驗(yàn)證集測(cè)試集交叉驗(yàn)證1.使用訓(xùn)練集訓(xùn)練出k個(gè)模型2.用k個(gè)模型分別對(duì)交叉驗(yàn)證集計(jì)算得出交叉驗(yàn)證誤差(代價(jià)函數(shù)的值)3.選取代價(jià)函數(shù)值最小的模型4.用步驟3中選出的模型對(duì)測(cè)試集計(jì)算得出推廣誤差(代價(jià)函數(shù)的值)數(shù)據(jù)不平衡是指數(shù)據(jù)集中各類樣本數(shù)量不均衡的情況.常用不平衡處理方法有采樣和代價(jià)敏感學(xué)習(xí)采樣欠采樣、過(guò)采樣和綜合采樣的方法不平衡數(shù)據(jù)的處理SMOTE(SyntheticMinorityOver-samplingTechnique)算法是過(guò)采樣中比較常用的一種。算法的思想是合成新的少數(shù)類樣本,而不是簡(jiǎn)單地復(fù)制樣本。算法過(guò)程如圖:不平衡數(shù)據(jù)的處理(a)原始樣本(b)選定少類樣本
(d)增加樣本代價(jià)敏感學(xué)習(xí)不平衡數(shù)據(jù)的處理代價(jià)敏感學(xué)習(xí)是指為不同類別的樣本提供不同的權(quán)重,從而讓機(jī)器學(xué)習(xí)模型進(jìn)行學(xué)習(xí)的一種方法比如風(fēng)控或者入侵檢測(cè),這兩類任務(wù)都具有嚴(yán)重的數(shù)據(jù)不平衡問(wèn)題,可以在算法學(xué)習(xí)的時(shí)候,為少類樣本設(shè)置更高的學(xué)習(xí)權(quán)重,從而讓算法更加專注于少類樣本的分類情況,提高對(duì)少類樣本分類的查全率,但是也會(huì)將很多多類樣本分類為少類樣本,降低少類樣本分類的查準(zhǔn)率。01數(shù)據(jù)集劃分02評(píng)價(jià)指標(biāo)2.評(píng)價(jià)指標(biāo)03正則化、偏差和方差預(yù)測(cè)值PositiveNegtive實(shí)際值PositiveTPFNNegtiveFPTN1.正確肯定(TruePositive,TP):
預(yù)測(cè)為真,實(shí)際為真2.正確否定(TrueNegative,TN):預(yù)測(cè)為假,實(shí)際為假3.錯(cuò)誤肯定(FalsePositive,FP):
預(yù)測(cè)為真,實(shí)際為假4.錯(cuò)誤否定(FalseNegative,FN):預(yù)測(cè)為假,實(shí)際為真混淆矩陣(confusion_matrix)評(píng)價(jià)指標(biāo)
評(píng)價(jià)指標(biāo)有100張照片,其中,貓的照片有60張,狗的照片是40張。輸入這100張照片進(jìn)行二分類識(shí)別,找出這100張照片中的所有的貓。正例(Positives):識(shí)別對(duì)的負(fù)例(Negatives):識(shí)別錯(cuò)的
預(yù)測(cè)值PositiveNegtive實(shí)際值PositiveTP=40FN=20NegtiveFP=10TN=30識(shí)別結(jié)果的混淆矩陣評(píng)價(jià)指標(biāo)
正確率(Accuracy)=(TP+TN)/STP+TN=70,S=100,則正確率為:Accuracy=70/100=0.7
精度(Precision)=TP/(TP+FP)TP=40,TP+FP=50。Precision=40/50=0.8
召回率(Recall)=TP/(TP+FN)TP=40,TP+FN=60。則召回率為:Recall=40/60=0.67項(xiàng)目符號(hào)貓狗的例子識(shí)別出的正例TP+FP40+10=50識(shí)別出的負(fù)例TN+FN30+20=50總識(shí)別樣本數(shù)TP+FP+TN+FN50+50=100識(shí)別對(duì)了的正例與負(fù)例真正例+真負(fù)例=TP+TN40+30=70識(shí)別錯(cuò)了的正例與負(fù)例偽正例+偽負(fù)例=FP+FN10+20=30實(shí)際總正例數(shù)量真正例+偽負(fù)例=TP+FN40+20=60實(shí)際總負(fù)例數(shù)量真負(fù)例+偽正例=TN+FP30+10=40評(píng)價(jià)指標(biāo)ROC和PR曲線01數(shù)據(jù)集劃分02評(píng)價(jià)指標(biāo)3.正則化、偏差和方差03正則化、偏差和方差
梯度
梯度為什么要標(biāo)準(zhǔn)化/歸一化?提升模型精度:不同維度之間的特征在數(shù)值上有一定比較性,可以大大提高分類器的準(zhǔn)確性。加速模型收斂:最優(yōu)解的尋優(yōu)過(guò)程明顯會(huì)變得平緩,更容易正確的收斂到最優(yōu)解。3.正則化、偏差和方差w1w1w2Jw1w2Jw1w2w2BeforeNormalizationAfterNormalizationx1x2r=1x1x2Normalization3.正則化、偏差和方差歸一化(最大-最小規(guī)范化)
將數(shù)據(jù)映射到[0,1]區(qū)間Z-Score標(biāo)準(zhǔn)化
處理后的數(shù)據(jù)均值為0,方差為1數(shù)據(jù)歸一化的目的是使得各特征對(duì)目標(biāo)變量的影響一致,會(huì)將特征數(shù)據(jù)進(jìn)行伸縮變化,所以數(shù)據(jù)歸一化是會(huì)改變特征數(shù)據(jù)分布的。數(shù)據(jù)標(biāo)準(zhǔn)化為了不同特征之間具備可比性,經(jīng)過(guò)標(biāo)準(zhǔn)化變換之后的特征數(shù)據(jù)分布沒(méi)有發(fā)生改變。就是當(dāng)數(shù)據(jù)特征取值范圍或單位差異較大時(shí),最好是做一下標(biāo)準(zhǔn)化處理。3.正則化、偏差和方差需要做數(shù)據(jù)歸一化/標(biāo)準(zhǔn)化線性模型,如基于距離度量的模型包括KNN(K近鄰)、K-means聚類、感知機(jī)和SVM、神經(jīng)網(wǎng)絡(luò)。另外,線性回歸類的幾個(gè)模型一般情況下也是需要做數(shù)據(jù)歸一化/標(biāo)準(zhǔn)化處理的。不需要做數(shù)據(jù)歸一化/標(biāo)準(zhǔn)化決策樹(shù)、基于決策樹(shù)的Boosting和Bagging等集成學(xué)習(xí)模型對(duì)于特征取值大小并不敏感,如隨機(jī)森林、XGBoost、LightGBM等樹(shù)模型,以及樸素貝葉斯,以上這些模型一般不需要做數(shù)據(jù)歸一化/標(biāo)準(zhǔn)化處理。3.正則化、偏差和方差過(guò)擬合和欠擬合欠擬合過(guò)擬合正合適過(guò)擬合的處理1.獲得更多的訓(xùn)練數(shù)據(jù)使用更多的訓(xùn)練數(shù)據(jù)是解決過(guò)擬合問(wèn)題最有效的手段,因?yàn)楦嗟臉颖灸軌蜃屇P蛯W(xué)習(xí)到更多更有效的特征,減小噪聲的影響。2.降維即丟棄一些不能幫助我們正確預(yù)測(cè)的特征??梢允鞘止みx擇保留哪些特征,或者使用一些模型選擇的算法來(lái)幫忙(例如PCA)。3.正則化正則化(regularization)的技術(shù),保留所有的特征,但是減少參數(shù)的大?。╩agnitude),它可以改善或者減少過(guò)擬合問(wèn)題。4.集成學(xué)習(xí)方法集成學(xué)習(xí)是把多個(gè)模型集成在一起,來(lái)降低單一模型的過(guò)擬合風(fēng)險(xiǎn)。通過(guò)這張圖可以看出,各種不同算法在輸入的數(shù)據(jù)量達(dá)到一定級(jí)數(shù)后,都有相近的高準(zhǔn)確度。于是誕生了機(jī)器學(xué)習(xí)界的名言:成功的機(jī)器學(xué)習(xí)應(yīng)用不是擁有最好的算法,而是擁有最多的數(shù)據(jù)!
數(shù)據(jù)決定一切
數(shù)據(jù)大小準(zhǔn)確率欠擬合的處理1.添加新特征當(dāng)特征不足或者現(xiàn)有特征與樣本標(biāo)簽的相關(guān)性不強(qiáng)時(shí),模型容易出現(xiàn)欠擬合。通過(guò)挖掘組合特征等新的特征,往往能夠取得更好的效果。2.增加模型復(fù)雜度簡(jiǎn)單模型的學(xué)習(xí)能力較差,通過(guò)增加模型的復(fù)雜度可以使模型擁有更強(qiáng)的擬合能力。例如,在線性模型中添加高次項(xiàng),在神經(jīng)網(wǎng)絡(luò)模型中增加網(wǎng)絡(luò)層數(shù)或神經(jīng)元個(gè)數(shù)等。3.減小正則化系數(shù)正則化是用來(lái)防止過(guò)擬合的,但當(dāng)模型出現(xiàn)欠擬合現(xiàn)象時(shí),則需要有針對(duì)性地減小正則化系數(shù)。
正則化
正則化
正則化x[2]x[3]x[1]a[L]DropOut
keep-prob=1(沒(méi)有dropout)keep-prob=0.5(常用取值,保留一半神經(jīng)元)在訓(xùn)練階段使用,在測(cè)試階段不使用!Dropout正則化正則化Earlystopping代表提早停止訓(xùn)練神經(jīng)網(wǎng)絡(luò)
正則化大部分的計(jì)算機(jī)視覺(jué)任務(wù)使用很多的數(shù)據(jù),所以數(shù)據(jù)增強(qiáng)是經(jīng)常使用的一種技巧來(lái)提高計(jì)算機(jī)視覺(jué)系統(tǒng)的表現(xiàn)。計(jì)算機(jī)視覺(jué)任務(wù)的數(shù)據(jù)增強(qiáng)通常以下方法實(shí)現(xiàn):(1)隨意翻轉(zhuǎn)、鏡像。(2)隨意裁剪。(3)扭曲變形圖片。(4)顏色轉(zhuǎn)換,然后給R、G和B三個(gè)通道上加上不同的失真值。產(chǎn)生大量的樣本,進(jìn)行數(shù)據(jù)增強(qiáng)。偏差和方差方差Variance:描述的是預(yù)測(cè)值的變化范圍,離散程度,也就是離其期望值的距離。方差越大,數(shù)據(jù)的分布越分散,如右圖右列所示。偏差Bias:描述的是預(yù)測(cè)值(估計(jì)值)的期望與真實(shí)值之間的差距。偏差越大,越偏離真實(shí)數(shù)據(jù),如右圖第二行所示。低方差高方差高偏差低偏差偏差和方差總體誤差方差偏差2最優(yōu)模型復(fù)雜度模型復(fù)雜度誤差方差、偏差和模型復(fù)雜度右圖是模型復(fù)雜度與誤差的關(guān)系,一般來(lái)說(shuō),隨著模型復(fù)雜度的增加,方差會(huì)逐漸增大,偏差會(huì)逐漸減小,在虛線處,差不多是模型復(fù)雜度的最恰當(dāng)?shù)倪x擇,其“偏差”和“方差”也都適度,才能“適度擬合”。偏差和方差訓(xùn)練集誤差和交叉驗(yàn)證集誤差近似時(shí):偏差/欠擬合交叉驗(yàn)證集誤差遠(yuǎn)大于訓(xùn)練集誤差時(shí):方差/過(guò)擬合x(chóng)1x2x1x2x1x2UnderfittingGoodfitOverfitting偏差和方差1.獲得更多的訓(xùn)練實(shí)例——解決高方差2.嘗試減少特征的數(shù)量——解決高方差3.嘗試獲得更多的特征——解決高偏差4.嘗試增加多項(xiàng)式特征——解決高偏差5.嘗試減少正則化程度λ——解決高偏差6.嘗試增加正則化程度λ——解決高方差x1x2參考文獻(xiàn)[1]AndrewNg.MachineLearning[EB/OL].StanfordUniversity,2014./course/ml[2]PeterHarrington.機(jī)器學(xué)習(xí)實(shí)戰(zhàn)[M].北京:人民郵電出版社,2013.[3]TOMMMICHELLE.MachineLearning[M].NewYork:McGraw-HillCompanies,Inc,1997.[4]HastieT.,TibshiraniR.,FriedmanJ.TheElementsofStatisticalLearning[M].NewYork:Springer,2001.[5]CHRISTOPHERM.BISHOP.PatternRecognitionandMachineLearning[M].NewYork:Springer,2006.[6]KohaviR.,Scalinguptheaccuracyofna?veBayesclassifiers:Adecision-treehybrid[C]//Proceedingsofthe2ndInternationalConferenceonKnowledgeDiscoveryandDa
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 薪酬福利調(diào)整說(shuō)明書(shū)與實(shí)施方案解讀
- 綠色能源供應(yīng)協(xié)議書(shū)
- 兄妹共同出資購(gòu)房合同
- 全新綠化工程協(xié)議書(shū)
- 電力行業(yè)電力供應(yīng)穩(wěn)定性免責(zé)協(xié)議
- 員工年度工作總結(jié)與未來(lái)發(fā)展規(guī)劃報(bào)告
- 項(xiàng)目合作方案設(shè)計(jì)建議書(shū)
- 購(gòu)買公司股份協(xié)議書(shū)十
- 第二單元 社會(huì)主義制度的建立與社會(huì)主義建設(shè)的探索 大單元教學(xué)設(shè)計(jì) 2023-2024學(xué)年部編版八年級(jí)歷史下冊(cè)
- 第二單元4《古詩(shī)三首》教學(xué)設(shè)計(jì)-2024-2025學(xué)年統(tǒng)編版語(yǔ)文三年級(jí)上冊(cè)
- 《物理學(xué)的發(fā)展史》課件
- 2025年廣東廣州市海珠區(qū)官洲街道辦事處政府雇員招聘5人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 《道路交通安全法》課件完整版
- 《小腸梗阻的診斷與治療中國(guó)專家共識(shí)(2023版)》解讀
- 2024屆廣東省廣州市高三一??荚囉⒄Z(yǔ)試題講評(píng)課件
- 切削加工中的刀具路徑規(guī)劃算法考核試卷
- 《推拿學(xué)》期末考試復(fù)習(xí)題庫(kù)(含答案)
- 2024年經(jīng)濟(jì)師考試工商管理(中級(jí))專業(yè)知識(shí)和實(shí)務(wù)試卷及解答參考
- 10kV配電室工程施工方案設(shè)計(jì)
- 2025年中國(guó)洗衣凝珠行業(yè)市場(chǎng)現(xiàn)狀及投資態(tài)勢(shì)分析報(bào)告(智研咨詢)
- DB41T 2466-2023 浸水電梯使用管理規(guī)范
評(píng)論
0/150
提交評(píng)論