




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、多分類(lèi)決策樹(shù)r語(yǔ)言R語(yǔ)言構(gòu)造決策樹(shù)注:為了限制過(guò)擬合,可以限制生長(zhǎng),修剪樹(shù)枝監(jiān)督機(jī)器學(xué)習(xí)中會(huì)出現(xiàn)的問(wèn)題:決策樹(shù)會(huì)用到基尼指數(shù),信息增益等知識(shí)點(diǎn),其他分類(lèi)器:KNN和隨機(jī)森林*下一版我們將用KNN和隨機(jī)森林進(jìn)行數(shù)據(jù)分類(lèi)#讀取數(shù)據(jù)library(tree)dataView(data)str(data)table(data$是否預(yù)定)#將數(shù)據(jù)分為測(cè)試集和訓(xùn)練集,70:30set.seed(2134)indtrain_settest_setnrow(train_set)127nrow(test_set)111#使用tree函數(shù)構(gòu)建決策樹(shù)模型#builddecisiontreemodelusingtre
2、e()str(data)data.frame:38obs.of6variables:TOC o 1-5 h z$性別:Factorw/2levels男,”女:1122121221.$年齡:Factorw/3levels00后,80后,.:3133323333.$價(jià)格敏感:Factorw/2levels否,”是:1122112111.$是否連住:Factorw/2levels否,”是:1112211211.$提各種問(wèn)題:Factorw/2levels否,是:1111121111.$是否預(yù)定:Factorw/2levels否,”是:2221212222.mytree#summarizethemod
3、elsummary(mytree)30.Classificationtree:tree(formula=是否預(yù)定性別+年齡+價(jià)格敏感+是否連住+提各種問(wèn)題,data=train_set)Variablesactuallyusedintreeconstruction:1是否連住提各種問(wèn)題Numberofterminalnodes:3Residualmeandeviance:0.4904=11.77/24Misclassificationerrorrate:0.07407=2/27模型結(jié)果顯示,剩余偏差為0.4904,誤分類(lèi)誤差為7.407%。現(xiàn)在繪制樹(shù)結(jié)構(gòu)#plotthetreeplot(myt
4、ree)text(mytree,pretty=0,cex=0.6)模型準(zhǔn)備就緒后,使用測(cè)試數(shù)據(jù)集測(cè)試模型??梢粤私饽P偷谋憩F(xiàn)程度,以及是否過(guò)擬合和欠擬合pred_mytreepred_mytree1是否否否否是是是是是否Levels:否是#predictvaluesofclasssummary(pred_mytree)否是56#comparethepredictwithactualtable(pred_mytree)pred_mytree否是TOC o 1-5 h z56table(test_set,6)15.否是38table(pred_mytree,test_set,6)19.pred_m
5、ytree否是否23是15mean(pred_mytree!=test_set,6)10.3636364正如可見(jiàn),誤分類(lèi)誤差是36.4%,使用從未見(jiàn)過(guò)的測(cè)試機(jī)數(shù)據(jù)后,模型看起來(lái)表現(xiàn)不佳,可能是由于數(shù)據(jù)量太小所導(dǎo)致的。因此,我們把所有數(shù)據(jù)加入,并作圖mytreesummary(mytree)3.Classificationtree:tree(formula=是否預(yù)定性別+年齡+價(jià)格敏感+是否連住+提各種問(wèn)題,data=data)Variablesactuallyusedintreeconstruction:1是否連住性別價(jià)格敏感Numberofterminalnodes:4Residualmea
6、ndeviance:0.7214=24.53/34Misclassificationerrorrate:0.1316=5/38plot(mytree)text(mytree,pretty=0,cex=0.6)mytreesummary(mytree)3.Classificationtree:tree(formula=是否預(yù)定性別+年齡+價(jià)格敏感+是否連住+提各種問(wèn)題,data=data)Variablesactuallyusedintreeconstruction:1是否連住性別價(jià)格敏感Numberofterminalnodes:4Residualmeandeviance:0.7214=24.
7、53/34Misclassificationerrorrate:0.1316=5/38plot(mytree)text(mytree,pretty=0,cex=0.6)pred_mytreepred_mytreepred_mytree1是是否是是是是是是是否Levels:否是summary(pred_mytree)否是TOC o 1-5 h z29table(pred_mytree,test_set,6)23.pred_mytree否是否11是27table(pred_mytree)pred_mytree否是29table(test_set,6)32.否是38mean(pred_mytree!
8、=test_set,6)10.2727273誤分類(lèi)誤差為27.2%,有所降低下面通過(guò)修剪樹(shù)來(lái)提高模型的性能,然后使用訓(xùn)練集set.seed(2345)prune_mytreeprune_mytree$size1432144.TOC o 1-5 h z$dev17661247.$k1-Inf01450.$method1misclass53.attr(,class)1prunetree.sequenceplot(prune_mytree$size,prune_mytree$dev,type=b)樹(shù)的偏差與size的關(guān)系圖通過(guò)繪制樹(shù)的偏差與size的關(guān)系圖,可以看出,最小誤差出現(xiàn)在size=3的地方
9、,將修剪樹(shù)size設(shè)為3,并重新計(jì)算性能prune_modelsummary(prune_model)3.Classificationtree:snip.tree(tree=mytree,nodes=2L)Variablesactuallyusedintreeconstruction:1是否連住價(jià)格敏感Numberofterminalnodes:3Residualmeandeviance:0.7592=26.57/35Misclassificationerrorrate:0.1316=5/3811.plot(prune_model)text(prune_model,pretty=0,cex=0.6)pred_prunetable(pred_prune,test_set,6)3.pred_prune否是否11是27mean(pred_prune!=test_set,6)10.2727273樹(shù)修剪后的誤分類(lèi)誤差為13.16%,剩余均值偏差為0.7592,且測(cè)試集的誤分類(lèi)誤差為27.3%,剩余均值偏差有所提高,且誤分類(lèi)誤差沒(méi)有改變。因此,樹(shù)修剪后的模型并沒(méi)有改進(jìn)原來(lái)模型的性能。下一步可以執(zhí)行k-折驗(yàn)證。過(guò)程如下:1將數(shù)據(jù)集拆分成k個(gè)折疊,建議值為k=102,對(duì)于數(shù)據(jù)集中的每個(gè)k折,在k-1折疊上建立模型,并測(cè)試模型以檢查左側(cè)折疊的有效性
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 組織領(lǐng)導(dǎo)力的多維度研究計(jì)劃
- 如何有效管理生活部的日常事務(wù)計(jì)劃
- 準(zhǔn)確預(yù)測(cè)倉(cāng)庫(kù)需求的方法計(jì)劃
- 保安工作總結(jié)計(jì)劃金融行業(yè)保安工作的技術(shù)改進(jìn)
- 社區(qū)個(gè)人工作計(jì)劃改善社區(qū)停車(chē)設(shè)施
- 《貴州新恒基礦業(yè)有限公司興仁市太平洞金礦(新建)礦產(chǎn)資源綠色開(kāi)發(fā)利用方案(三合一)》評(píng)審意見(jiàn)
- 《貴州畢節(jié)百礦大能煤業(yè)有限責(zé)任公司水城縣玉舍鄉(xiāng)中寨煤礦(變更)礦產(chǎn)資源綠色開(kāi)發(fā)利用方案(三合一)》評(píng)審意見(jiàn)
- 腦梗死靜脈溶栓護(hù)理后護(hù)理
- 統(tǒng)編版小學(xué)語(yǔ)文二年級(jí)下冊(cè)第9課《楓樹(shù)上的喜鵲》精美課件
- 2025年長(zhǎng)春貨運(yùn)員初級(jí)考試題庫(kù)
- 甘肅四年級(jí)信息技術(shù)下冊(cè)教學(xué)設(shè)計(jì)(簡(jiǎn)版)(含核心素養(yǎng))
- 作文復(fù)習(xí):破繭成蝶逆天改命-《哪吒2》現(xiàn)象級(jí)成功的高考寫(xiě)作啟示 課件
- 2025年湖南機(jī)電職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)1套
- 2025中建三局(中原)社會(huì)招聘高頻重點(diǎn)模擬試卷提升(共500題附帶答案詳解)
- 【生 物】光合作用課件-2024-2025學(xué)年人教版生物七年級(jí)下冊(cè)
- 人教版 七年級(jí)英語(yǔ)下冊(cè) UNIT 2 單元綜合測(cè)試卷(2025年春)
- 2024年湖北省武漢市中考數(shù)學(xué)試題(解析版)
- 2024年“新能源汽車(chē)裝調(diào)工”技能及理論知識(shí)考試題與答案
- 【地理】非洲-位置與范圍 高原為主的地形課件-2024-2025學(xué)年湘教版(2024)七下
- 搶救車(chē)的管理
- GB/T 17350-2024專(zhuān)用汽車(chē)和專(zhuān)用掛車(chē)分類(lèi)、名稱(chēng)及型號(hào)編制方法
評(píng)論
0/150
提交評(píng)論