蘑菇分類案例學(xué)習(xí)_第1頁
蘑菇分類案例學(xué)習(xí)_第2頁
蘑菇分類案例學(xué)習(xí)_第3頁
蘑菇分類案例學(xué)習(xí)_第4頁
蘑菇分類案例學(xué)習(xí)_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、蘑菇分類案例學(xué)習(xí)李昱勇2020年12月14日 數(shù)據(jù)集概覽02 特征工程03 數(shù)據(jù)預(yù)處理04 機器學(xué)習(xí)算法及實驗結(jié)果05CONTENT 背景介紹01 小結(jié)061背景介紹PART ONE背景介紹案例來源蘑菇分類(Mushroom Classification)來自于加州大學(xué)UCI 機器學(xué)習(xí)數(shù)據(jù)網(wǎng)站1987年收集發(fā)布的一個機器學(xué)習(xí)數(shù)據(jù)集,但是最近三年在kaggle上火爆起來,成為一個經(jīng)典的入門級機器學(xué)習(xí)實操訓(xùn)練數(shù)據(jù)集機器學(xué)習(xí) 2020秋季學(xué)期背景介紹問題提出該數(shù)據(jù)集涵蓋了23個大類的有帽的蘑菇,每一種蘑菇都被標(biāo)注為了 edible or poisonous ,來源于一個指南手冊:The Audubo

2、n Society Field Guide to North American Mushrooms (1981)。該手冊指出沒有一種簡單的方法來判斷蘑菇是否是可食用的,比如簡單的根據(jù)顏色。所以提出蘑菇分類的問題問題:機器學(xué)習(xí) 2020秋季學(xué)期2數(shù)據(jù)集概覽PART TWO數(shù)據(jù)集概覽數(shù)據(jù)條目該數(shù)據(jù)集總共包含了8124條數(shù)據(jù)記錄,22個屬性列,每條記錄對應(yīng)一種蘑菇的描述以及對其是否有毒的分類標(biāo)簽。數(shù)據(jù)的具體取值情況不存在空值許多屬性列有多種可能的取值機器學(xué)習(xí) 2020秋季學(xué)期3特征工程PART THREE特征工程特征選擇在該數(shù)據(jù)集中,對蘑菇的特征的描述涵蓋了22個屬性列,包括對其顏色、氣味等方面的描

3、述,但是并非每一個特征都是“判別毒蘑菇的好特征”因此有必要進行特征的選擇名稱替換為了便于特征選擇,首先進行了名稱的替換。機器學(xué)習(xí) 2020秋季學(xué)期特征工程特征工程的方法因為22個屬性列并不算特別多,使用PCA(主成分分析法)進行降維得不償失,并且特征選擇的過程會失去可解釋性,或者使用定類變量的相關(guān)性判別的方法進行選擇工作量較大且不直觀。因此直接采用可視化分析的方法,進行人工的特征選擇機器學(xué)習(xí) 2020秋季學(xué)期特征工程特征工程的方法例如在右圖中,gill attachment 和 gill spacing 這兩個屬性列對于有毒和無毒的蘑菇之間的區(qū)分度就不大,因此這兩個特征就不是“找出毒蘑菇的好特

4、征”,相應(yīng)的,gill size 和gill color 在有毒和無毒蘑菇上的區(qū)分就比較明顯,這兩個特征可以保留。機器學(xué)習(xí) 2020秋季學(xué)期特征工程特征工程的方法經(jīng)過上述的方法,我們剔除了,“cap-shape”,“cap-surface”,“cap-color”,“gill-attachment”等9個特征,使用其余的13個特征作為我們進行分類的依據(jù)屬性。(可以發(fā)現(xiàn)帽子的顏色確實是沒有區(qū)分度的)機器學(xué)習(xí) 2020秋季學(xué)期4數(shù)據(jù)預(yù)處理PART FOUR數(shù)據(jù)預(yù)處理沒有空值,不需要進行空值處理數(shù)據(jù)的編碼將原本的類別數(shù)據(jù)進行數(shù)字編碼將特征工程中不滿足條件的屬性列刪除啞變量編碼對于一個屬性取值可能有多

5、種的情況,直接用數(shù)字1-n進行編碼可能會產(chǎn)生一些問題,例如用數(shù)字1-12表示1-12月,那么就潛在表示了12月和1月差的很遠(yuǎn),其實離的很近,因此將不同的取值劃分成不同的列,變?yōu)?7個屬性列機器學(xué)習(xí) 2020秋季學(xué)期5機器學(xué)習(xí)算法以及主要結(jié)果PART FIVESVM算法簡介找到數(shù)據(jù)點中距離分割超平面距離最近的點(找最小)盡量使得距離超平面最近的點的距離的絕對值盡量的大(求最大)目標(biāo)函數(shù)機器學(xué)習(xí) 2020秋季學(xué)期/p/28660098求解過程使用拉格朗日乘數(shù)法對于線性不可分的問題可以選取非線性的核函數(shù)來解決,高斯核函數(shù):算法結(jié)果注意到SVM算法使用的要求,將分類標(biāo)簽編碼為1和-1按照1:1的比例將

6、數(shù)據(jù)集隨即劃分為訓(xùn)練集和測試集不使用啞變量進行編碼時,測試集分類的的結(jié)果:機器學(xué)習(xí) 2020秋季學(xué)期算法結(jié)果使用啞變量進行編碼時,測試集分類的的結(jié)果達到了百分之百在訓(xùn)練集和測試集的劃分上,是完全隨機劃分的,并且兩部分?jǐn)?shù)據(jù)集之間沒有交集,因此排除了模型過擬合的可能。說明可以通過特征選擇機器學(xué)習(xí)的方式來有效判別一個蘑菇是否是毒蘑菇機器學(xué)習(xí) 2020秋季學(xué)期算法結(jié)果采用樸素貝葉斯算法(還是有點危險的):機器學(xué)習(xí) 2020秋季學(xué)期采用決策樹算法:6小結(jié)PART FIVE小結(jié)特征選擇一定要根據(jù)數(shù)據(jù)的特點來進行方法的選擇有時候不一定需要使用復(fù)雜的主成分分析法等方法來降維優(yōu)秀的可視化能夠事半功倍數(shù)據(jù)的預(yù)處理使用的數(shù)據(jù)編碼的方式應(yīng)該要與選取的機器學(xué)習(xí)算法保持一致在某屬性列有多個取值可能的時候,考慮啞變量編碼來消除數(shù)據(jù)結(jié)構(gòu)上的誤差

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論