版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第二章機器學(xué)習(xí)基本理論機器學(xué)習(xí)方法離不開數(shù)據(jù)和模型,俗話說,“巧婦難為無米之炊”,數(shù)據(jù)便是“米”,模型則是“巧婦”。沒有充足的數(shù)據(jù)、合適的特征,再強大的模型結(jié)構(gòu)也無法得到滿意的輸出。機器學(xué)習(xí)業(yè)界有一句經(jīng)典“Garbagein,garbageout”。對于一個機器學(xué)習(xí)問題,數(shù)據(jù)和特征往往決定了結(jié)果的上限,而模型和算法的選擇及優(yōu)化則逐步接近這個上限。12.1機器學(xué)習(xí)術(shù)語基本概念過擬合和欠擬合模型評估22.1.1基本概念數(shù)據(jù)集(dataset)是一種由數(shù)據(jù)所組成的集合,通常以表格的形式出現(xiàn),其中每一行是一個數(shù)據(jù),表示對一個事件或?qū)ο蟮拿枋觯址Q為樣本(sample)或?qū)嵗╥nstance)。每一列反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì),稱為特征(feature)或?qū)傩裕╝ttribute)。屬性上的取值稱為屬性值(attributevalue)或特征值。所有屬性構(gòu)成的空間稱為屬性空間(attributespace)、樣本空間(samplespace)或輸入空間(inputspace)。
屬性空間中的每一個點通常用一個向量來表示,稱為特征向量(featurevector),即每個特征向量附屬于一個實例。32.1.1基本概念模型(model)指描述特征和問題之間關(guān)系的數(shù)學(xué)對象。從數(shù)據(jù)中使用算法得到模型的過程稱為學(xué)習(xí)(learning)或訓(xùn)練(training)。訓(xùn)練過程中使用的數(shù)據(jù)集又被分為以下3種:訓(xùn)練集(trainningset):通常取數(shù)據(jù)集中一部分?jǐn)?shù)據(jù)作為訓(xùn)練集來訓(xùn)練模型。測試集(testingset):用來對已經(jīng)學(xué)習(xí)好的模型或者算法進(jìn)行測試和評估的數(shù)據(jù)集。驗證集(validationset):有時需要把訓(xùn)練集進(jìn)一步拆分成訓(xùn)練集和驗證集,驗證集用于在學(xué)習(xí)過程中對模型進(jìn)行調(diào)整和選擇。42.1.1基本概念每個實例中描述模型輸出的可能值稱為標(biāo)簽(label)或標(biāo)記。特征是事物固有屬性,標(biāo)簽是根據(jù)固有屬性產(chǎn)生的認(rèn)知。在經(jīng)過一定次數(shù)的訓(xùn)練迭代后,模型損失不再發(fā)生變化或變化很小,說明當(dāng)前訓(xùn)練樣本已經(jīng)無法改進(jìn)模型,稱為模型達(dá)到收斂(convergence)狀態(tài)。新的數(shù)據(jù)輸入到訓(xùn)練好的模型中,以對其進(jìn)行判斷稱為預(yù)測(prediction)。通過學(xué)習(xí)得到的模型適用于新樣本的能力,稱為泛化(generalization)能力。檢驗?zāi)P托Ч姆椒ǚQ為模型評估(evaluation)。52.1.2過擬合和欠擬合
當(dāng)學(xué)習(xí)器把訓(xùn)練樣本學(xué)得“太好”的時候,很可能將訓(xùn)練樣本自身的一些特點當(dāng)作所有潛在樣本的共有特性,這樣會導(dǎo)致泛化性能下降,這在機器學(xué)習(xí)中稱為“過擬合”。與之相反地,“欠擬合”是指對訓(xùn)練樣本的一般性質(zhì)尚未學(xué)習(xí)好。62.1.2過擬合和欠擬合處理過擬合的方法大致分為以下幾種:從數(shù)據(jù)入手,獲得更多的訓(xùn)練數(shù)據(jù)。降低模型復(fù)雜度。正則化方法。集成學(xué)習(xí)方法。處理欠擬合的方法大致分為以下幾種:添加新特征。增加模型復(fù)雜度。減小正則化系數(shù)。72.1.3模型評估現(xiàn)實中如何進(jìn)行模型的評估與選擇呢?通過實驗測試來對學(xué)習(xí)器的泛化誤差進(jìn)行評估并進(jìn)而做出選擇。具體地講,先使用某種實驗評估方法測得學(xué)習(xí)器的某個性能度量結(jié)果,然后對這些結(jié)果進(jìn)行比較。這個評估的過程涉及到實驗評估方法的選擇、性能度量指標(biāo)以及比較檢驗等幾個步驟。82.2實驗估計方法
92.2.1留出法
“留出法”是最簡單也是最直接的驗證方法,它將原始的樣本集合隨機劃分成訓(xùn)練集和驗證集兩部分。比方說,對于一個點擊率預(yù)測模型,我們把樣本按照70%~30%的比例分成兩部分,70%的樣本用于模型訓(xùn)練;30%的樣本用于模型驗證Scikit-learn提供的train_test_split函數(shù)能夠?qū)?shù)據(jù)集切分成訓(xùn)練集和測試集兩類,其函數(shù)原型如下:sklearn.model_selection.train_test_split(X,y,**options)102.2.2交叉驗證法
“交叉驗證法”首先將全部樣本劃分成k個大小相等的樣本子集;依次遍歷這k個子集,每次把當(dāng)前子集作為驗證集,其余所有子集作為訓(xùn)練集,進(jìn)行模型的訓(xùn)練和評估;最后把k次評估指標(biāo)的平均值作為最終的評估指標(biāo)。
112.2.3自助法
自助法是基于自助采樣法的檢驗方法。對于總數(shù)為n的樣本集合,進(jìn)行n次有放回的隨機抽樣,得到大小為n的訓(xùn)練集。n次采樣過程中,有的樣本會被重復(fù)采樣,有的樣本沒有被抽出過,將這些沒有被抽出的樣本作為驗證集,進(jìn)行模型驗證,這就是自助法的驗證過程。
122.3性能度量性能度量(performancemeasure)是指衡量模型泛化能力的評價標(biāo)準(zhǔn),同時反映了任務(wù)需求。在對比不同模型能力時,使用不同的性能度量往往會導(dǎo)致不同的評判結(jié)果;這意味著模型的“優(yōu)劣”是相對的,對模型評價的標(biāo)準(zhǔn)不僅取決于算法和數(shù)據(jù),還決定于任務(wù)需求。132.3.1錯誤率與精度
精度則定義為
142.3.2查準(zhǔn)率、查全率與F1真實情況預(yù)測結(jié)果正例反例正例TP(真正例)FN(假反例)反例FP(假正例)TN(真反例)
152.3.3查準(zhǔn)率、查全率與F1“平衡點”(Break-EventPoint,簡稱BEP)是“查準(zhǔn)率=查全率”時的取值
162.3.4ROC與AUCROC全稱是“受試者工作特征”(ReceiverOperatingCharacteristic)曲線AUC(AreaUnderROCCurve)
172.4比較檢驗統(tǒng)計假設(shè)檢驗(hypothesistest)為我們進(jìn)行學(xué)習(xí)器性能比較提供了重要依據(jù)?;诩僭O(shè)檢驗結(jié)果可以推斷出,若在測試集上觀察到學(xué)習(xí)器A比B好,則A的泛化性能是否在統(tǒng)計意義上由于B,以及這個推斷結(jié)論的準(zhǔn)確性有多大。182.4.1假設(shè)檢驗
192.4.1假設(shè)檢驗
202.4.1假設(shè)檢驗
αk251020300.0512.7062.7762.2622.0932.0450.106.3142.1321.8331.7291.699雙邊t檢驗的常用臨界值212.4.2交叉驗證t檢驗
222.4.2交叉驗證t檢驗
232.4.2交叉驗證t檢驗
242.5參數(shù)調(diào)優(yōu)機器學(xué)習(xí)常涉及兩類參數(shù):一類是算法的參數(shù)亦稱“超參數(shù)”,數(shù)目常在10以內(nèi);另一類是模型的參數(shù),數(shù)目可能很多,例如大型“深度學(xué)習(xí)”模型甚至有上百億個參數(shù)。參數(shù)搜索算法一般包括三個要素:目標(biāo)函數(shù),即算法需要最大化/最小化的目標(biāo);搜索范圍,一般通過上限和下限來確定;算法的其他參數(shù),如搜索步長。252.5.1網(wǎng)格搜索網(wǎng)格搜索是最簡單、應(yīng)用最廣泛的超參數(shù)搜索算法,它通過查找搜索范圍內(nèi)的所有點來確定最優(yōu)值。如果采用較大的搜索范圍以及較小的步長,網(wǎng)格搜索有很大概率找到全局最優(yōu)值。
在實際應(yīng)用中,網(wǎng)格搜索法一般會先使用較廣的搜索范圍和較大的步長,來尋找全局最優(yōu)值可能的位置;然后會逐漸縮小搜索范圍和步長,來尋找更精確的最優(yōu)值。這種操作方案可以降低所需的時間和計算量,但由于目標(biāo)函數(shù)一般是非凸的,所以很可能會錯過全局最優(yōu)值。262.5.2隨機搜索隨機搜索(GridSearchCV)的思想與網(wǎng)格搜索比較相似,只是不再測試上界和下界之間的所有值,而是在搜索范圍中隨機選取樣本點。它的理論依據(jù)是,如果樣本點集足夠大,那么通過隨機采樣也能大概率地找到全局最優(yōu)值,或其近似值。GridSearchCV采用的是暴力尋找的方法來尋找最優(yōu)參數(shù)。當(dāng)待優(yōu)化的參數(shù)是離散的取值的時候,GridSearchCV能夠順利地找出最優(yōu)的參數(shù)。但是當(dāng)待優(yōu)化的參數(shù)是連續(xù)取值的時候暴力尋找就有心無力了。272.5.3貝葉斯優(yōu)化算法貝葉斯優(yōu)化算法通過對目標(biāo)函數(shù)形狀進(jìn)行學(xué)習(xí),找到使目標(biāo)函數(shù)向全局最優(yōu)值提升的參數(shù)。它學(xué)習(xí)目標(biāo)函數(shù)形狀的方法是:首先根據(jù)先驗分布,假設(shè)一個搜集函數(shù);然后,每一次使用新的采樣點來測試目標(biāo)函數(shù)時,利用這個信息來更新目標(biāo)函數(shù)的先驗分布;最后,算法測試由后驗分布給出的全局最值最可能出現(xiàn)的位置的點。28
2.6本章小結(jié)本章首先介紹了包含數(shù)據(jù)集、模型、泛化等常見的機器學(xué)習(xí)基礎(chǔ)概念,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣西欽州市第四中學(xué)2024-2025學(xué)年高一上學(xué)期期中考試政治試題
- 桃花心木課件教學(xué)課件
- 驚蟄創(chuàng)意美術(shù)課件
- 彼得潘課件英語
- 房車租賃廚具合同模板
- 菜園改造工程合同模板
- 電機維修安裝合同模板
- 汽車接供合同模板
- 餐廳承包轉(zhuǎn)讓合同模板
- 土地權(quán)屬糾紛處理決議(草案)
- 設(shè)備利用率統(tǒng)計表
- 電力排管工程計劃項目施工計劃組織
- 電力可靠性監(jiān)督管理工作規(guī)范
- 淺談塑料加工用激光焊接技術(shù)
- 基于PLC的門禁系統(tǒng)的設(shè)計
- 竣工驗收監(jiān)理工作總結(jié)報告
- 報廢農(nóng)業(yè)機械回收確認(rèn)表(樣式)
- 形物代與名物代練習(xí)題2頁
- 打拔機施工長鋼護筒專項施工方案
- 廣西珍貴樹種發(fā)展規(guī)劃(2011~2020年)講解
評論
0/150
提交評論