大數(shù)據(jù)技術(shù)與應(yīng)用項目R語言高級分類方法原理2_第1頁
大數(shù)據(jù)技術(shù)與應(yīng)用項目R語言高級分類方法原理2_第2頁
大數(shù)據(jù)技術(shù)與應(yīng)用項目R語言高級分類方法原理2_第3頁
大數(shù)據(jù)技術(shù)與應(yīng)用項目R語言高級分類方法原理2_第4頁
大數(shù)據(jù)技術(shù)與應(yīng)用項目R語言高級分類方法原理2_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)技術(shù)與應(yīng)用項目——

R語言決策樹分類方法原理2

項目來自北京諾程佳華教育科技有限公司教學(xué)目標(biāo)?熟悉決策樹和隨機森林回歸和分類算法的基本概念;?熟悉在R語言中做決策樹和隨機森林回歸和分類預(yù)測。

R語言決策樹分類方法原理2.隨機森林算法首先引入概念重抽樣(bootstrap),即有放回的抽樣,一個樣本已經(jīng)被抽取后還可以再一次被抽取到集合中。

隨機森林算法的基本思想是,建立多棵決策樹,最后的預(yù)測結(jié)果取決于所有決策樹的預(yù)測結(jié)果多數(shù)者為整個隨機森林的預(yù)測結(jié)果。而建立每棵決策樹時,重抽樣一定數(shù)量的數(shù)據(jù)樣本為訓(xùn)練集,并且在分割時重抽樣字段。

R語言決策樹分類方法原理2.隨機森林算法其優(yōu)點是準(zhǔn)確度較高。

而其缺點是,速度較慢,可解釋性較差,且容易導(dǎo)致過擬合。下圖所示就是一個隨機森林。

R語言決策樹分類方法原理

R語言決策樹分類方法原理R語言中可調(diào)用程序包randomForest中的函數(shù)randomForest(y~.,data=train,ntree,mtry)建立隨機森林模型,返回一個類型為randomForest的對象,如果因變量y是因子類型則建立分類隨機森林,否則建立回歸隨機森林,參數(shù)ntree表示隨機森林中包含的樹的數(shù)量,參數(shù)mtry表示在每個分割節(jié)點隨機抽樣的預(yù)測變量范圍中包含的預(yù)測變量數(shù)量。

R語言決策樹分類方法原理可以調(diào)用程序包caret中的函數(shù)rf<-train(outcome~.,data=train,method="rf",prox,ntree)建立隨機森林模型,其中參數(shù)prox表示樣本之間的接近程度是否需要計算,參數(shù)ntree表示隨機森林包含的樹的數(shù)量,返回一個類型為train的對象。

可以調(diào)用函數(shù)predict(rf,test)在新數(shù)據(jù)上做分類預(yù)測??梢哉{(diào)用函數(shù)getTree(rf$finalModel,k)返回隨機森林的某一棵樹,其中參數(shù)k指定樹的序號。

R語言決策樹分類方法原理3.實驗數(shù)據(jù)本實驗所用數(shù)據(jù)為234種車輛油耗數(shù)據(jù),位于程序包ggplot2中名稱為mpg,包含了5個字段:制造商(manufacturer)、型號(model)、發(fā)動機排量(dspl)、年份(year)、發(fā)動機缸數(shù)(cyl)、變速箱類型(trans)、驅(qū)動類型(drv)、每加侖燃油在城市行駛英里數(shù)(cty)、每加侖燃油在高速公路行駛英里數(shù)(hwy)、燃油類型(fl)和類型(class)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論