![大數(shù)據(jù)挖掘與應用-第7章-隨機森林分類算法_第1頁](http://file4.renrendoc.com/view14/M0B/33/15/wKhkGWdMQbKAQ4DDAABqFBDcpwY806.jpg)
![大數(shù)據(jù)挖掘與應用-第7章-隨機森林分類算法_第2頁](http://file4.renrendoc.com/view14/M0B/33/15/wKhkGWdMQbKAQ4DDAABqFBDcpwY8062.jpg)
![大數(shù)據(jù)挖掘與應用-第7章-隨機森林分類算法_第3頁](http://file4.renrendoc.com/view14/M0B/33/15/wKhkGWdMQbKAQ4DDAABqFBDcpwY8063.jpg)
![大數(shù)據(jù)挖掘與應用-第7章-隨機森林分類算法_第4頁](http://file4.renrendoc.com/view14/M0B/33/15/wKhkGWdMQbKAQ4DDAABqFBDcpwY8064.jpg)
![大數(shù)據(jù)挖掘與應用-第7章-隨機森林分類算法_第5頁](http://file4.renrendoc.com/view14/M0B/33/15/wKhkGWdMQbKAQ4DDAABqFBDcpwY8065.jpg)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第7章隨機森林分類算法由于傳統(tǒng)的很多分類方法具有精度不高且容易出現(xiàn)過擬合的問題,因此可以通過聚集多個模型的方法來提高預測精度,這種方法稱為組合(ensemble)或分類器組合(classifiercombination)方法。該類方法首先利用訓練集數(shù)據(jù)構建一組基本的分類模型(baseclassifier),然后通過對每個基分類模型的預測值進行投票(因變量為分類或離散變量時)或取平均值(因變量為連續(xù)數(shù)值變量)來決定最終預測值。7.1隨機森林算法原理7.1.1隨機森林算法原理為了生成這些組合模型,通常要生成隨機向量來控制組合中每個決策樹的生成。Bagging是早期組合樹方法之一,這是一種從訓練集中隨機抽取部分樣本來生成決策樹的方法,還有一種方法是隨機分割選取,該方法在每個結點從K個最優(yōu)分割中隨機選取一種分割。Ho對隨機子空間方法進行了深入研究并通過對特征變量隨機選取子集來生成每棵決策樹。LeoBreiman和AdeleCutler給出了隨機森林(RadomForest,RF)算法,該方法是結合了自助聚集(Bootstrapaggregating)想法和Ho的隨機子空間(randomsubspace)方法以建造決策樹的集合。
7.2隨機森林算法的特點及應用7.2.1隨機森林算法的特點大量的理論和實證研究都證明了RF具有很高的預測準確率,對異常值和噪聲具有很好的容忍度,且不容易出現(xiàn)過擬合??梢哉f,RF是一種自然的非線性建模工具。隨機森林的優(yōu)點有:1.對于很多種資料,它可以產生高準確度的分類器。2.它可以處理大量的輸入變量。3.它可以在決定類別時評估變量的重要性。4.在建造森林時它可以在內部對于一般化后的誤差產生不偏差的估計。5.它可以估計遺失的資料,并且如果有很大一部分的資料遺失,仍可以維持準確度。6.對于不平衡的分類資料集來說,它可以平衡誤差。7.它計算各例中的親近度,對異常檢測和資料視覺化非常有用。8.學習過程是很快速的。9.隨機森林不會產生過擬合問題。7.2.2隨機森林算法的應用近年來,隨機森林在國內外得到了迅速發(fā)展,在醫(yī)學、管理學、經濟學等眾多領域得到了廣泛的應用。下面通過三個實例說明隨機森林算法的應用情況。1.利用隨機森林算法進行電力系統(tǒng)短期負荷預測2.基于隨機森林算法的農耕區(qū)土地利用分類研究3.隨機森林在企業(yè)信用評估指標體系確定中的應用7.3隨機森林算法源程序分析隨機森林源程序包括如下文件:CARTTool.java、DecisionTree.java、RandomForestTest.java、RandomForestTool.java和TreeNode.java。相關程序和實驗數(shù)據(jù)可從github中下載,網(wǎng)址為/guanyao1/randomforest.git。當測試的數(shù)據(jù)是Age=Youth,Income=Low,Student=No,careditRating=Fair時,從運行結果得到兩個決策樹,兩個決策樹對每個屬性值都作出了準確的預測;最后的給的預測結果是Yes,也就是會買電腦。程序運行結果如圖7-3所示。7.4基于阿里云數(shù)加平臺的隨機森林分類實例隨機森林是一個包含多個決策樹的分類器,并且其輸出的類別是由單棵樹輸出的類別的眾數(shù)而定,其操作思路與邏輯回歸分類算法一致。這里使用第五章中的數(shù)據(jù)來操作隨機森林算法,其流程圖為,下圖左側數(shù)據(jù)為帶有標簽的訓練集,右側為不帶標簽的預測集。隨機森林的字段信息與參數(shù)設置如下圖所示,其中,字段設置前三項在第六章已有解釋,這里沒有權重列,故權重列列名可不填寫,標簽列選擇的是“l(fā)abel”列,參數(shù)設置中需要注意的有,單棵樹的算法在隨機森林中的位置,如果有則長度為2.比如有n棵樹,algorithmTypes=[a,b],則[0,a)是id3,[a,b)是cart,[b,n)是c4.5。例如:在一個擁有5棵樹的森林中,[2,4]表示0,1為id3算法,2,3為cart算法,4為c4.5算法。如果輸入為None,則算法在森林中均分;單棵樹隨機特征數(shù),為單棵樹在生成時,每次分列時選擇的隨機的特征個數(shù)。預測的實驗結果為,與KNN算法得到的預測結果一致。生成的模型為:7.5小結機器學習中,隨機森林是一個包含多個決策樹的分類器,并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。隨機森林算法有很多優(yōu)點,如分類精度
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 道德與法治七年級上冊8.1 《生命可以永恒嗎》聽課評課記錄
- 湘教版數(shù)學七年級上冊《3.2 等式的性質》聽評課記錄
- 新北師大版數(shù)學一年級下冊《誰的紅果多》聽評課記錄
- 獨立住宅買賣協(xié)議書(2篇)
- 【2022年新課標】部編版七年級上冊道德與法治7.3 讓家更美好 聽課評課記錄
- 魯教版地理六年級下冊8.3《撒哈拉以南非洲》聽課評課記錄1
- 湘教版數(shù)學七年級下冊《2.1.4多項式的乘法(2)》聽評課記錄2
- 湘教版數(shù)學八年級下冊《2.3中心對稱》聽評課記錄
- 商務星球版地理八年級下冊活動課《區(qū)際聯(lián)系對經濟發(fā)展的影響》聽課評課記錄
- 蘇科版數(shù)學八年級下冊11.3《用反比例函數(shù)解決問題》聽評課記錄2
- 知識產權保護執(zhí)法
- 手術安全管理之手術部位標識安全
- 2022年版煤礦安全規(guī)程
- 高質量社區(qū)建設的路徑與探索
- 數(shù)字化時代的酒店員工培訓:技能升級
- 足球守門員撲救技巧:撲救結合守護球門安全
- 《學術規(guī)范和論文寫作》課件全套 第1-10章 知:認識研究與論文寫作 - 引文規(guī)范
- 帶式輸送機滾筒出廠檢驗規(guī)范
- 起重機更換卷筒施工方案
- 《信息檢索基礎知識》課件
- 具有履行合同所必須的設備和專業(yè)技術能力的承諾函-設備和專業(yè)技術能力承諾
評論
0/150
提交評論