![人工智能創(chuàng)新實(shí)驗(yàn)教程 課件 第9章 隨機(jī)森林算法_第1頁(yè)](http://file4.renrendoc.com/view3/M03/1E/17/wKhkFmZv8jmACiUKAAGY0bURYa8559.jpg)
![人工智能創(chuàng)新實(shí)驗(yàn)教程 課件 第9章 隨機(jī)森林算法_第2頁(yè)](http://file4.renrendoc.com/view3/M03/1E/17/wKhkFmZv8jmACiUKAAGY0bURYa85592.jpg)
![人工智能創(chuàng)新實(shí)驗(yàn)教程 課件 第9章 隨機(jī)森林算法_第3頁(yè)](http://file4.renrendoc.com/view3/M03/1E/17/wKhkFmZv8jmACiUKAAGY0bURYa85593.jpg)
![人工智能創(chuàng)新實(shí)驗(yàn)教程 課件 第9章 隨機(jī)森林算法_第4頁(yè)](http://file4.renrendoc.com/view3/M03/1E/17/wKhkFmZv8jmACiUKAAGY0bURYa85594.jpg)
![人工智能創(chuàng)新實(shí)驗(yàn)教程 課件 第9章 隨機(jī)森林算法_第5頁(yè)](http://file4.renrendoc.com/view3/M03/1E/17/wKhkFmZv8jmACiUKAAGY0bURYa85595.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
寧夏大學(xué)
第九章隨機(jī)森林算法隨機(jī)森林算法www.islide.cc2目錄
CONTENT01引言02算法概述03實(shí)驗(yàn)數(shù)據(jù)04算法實(shí)戰(zhàn)05本章小結(jié)01引言引言
通過(guò)前面章節(jié)的學(xué)習(xí),了解到?jīng)Q策樹算法可以通過(guò)根據(jù)給定的訓(xùn)練數(shù)據(jù)集構(gòu)建一個(gè)決策樹模型,使它能夠?qū)?shí)例進(jìn)行正確的分類。但是俗話說(shuō)得好,三個(gè)臭皮匠頂過(guò)諸葛亮,一棵樹的生成肯定還是不如多棵樹。隨機(jī)森林就是希望構(gòu)建多個(gè)臭皮匠,使最終的分類效果能夠超過(guò)單個(gè)決策樹的一種算法。
隨機(jī)森林就是通過(guò)集成學(xué)習(xí)的思想集成多棵樹的一種算法,它的基本單元是決策樹,而它的本質(zhì)屬于機(jī)器學(xué)習(xí)的一大分支——集成學(xué)習(xí)(EnsembleLearning)方法。隨機(jī)森林的名稱中有兩個(gè)關(guān)鍵詞,一個(gè)是“隨機(jī)”,一個(gè)就是“森林”。其中,“森林”可以比喻為成百上千棵的樹,其實(shí)這就是隨機(jī)森林的主要思想——集成思想的體現(xiàn)。通常,隨機(jī)森林算法可以應(yīng)用在離散值的分類、連續(xù)值的回歸、無(wú)監(jiān)督學(xué)習(xí)聚類以及異常點(diǎn)檢測(cè)等方面。引言
第四章所講的決策樹,雖然有剪枝等處理方法,但其泛化能力較弱,也極易受異常值的影響。而本章所講的隨機(jī)森林算法,可以一定程度上降低過(guò)擬合的可能性,降低異常值帶來(lái)的影響,使分類準(zhǔn)確性更高。
本章首先學(xué)習(xí)集成學(xué)習(xí)及其兩大流派,再圍繞集成思想的具體實(shí)現(xiàn)——隨機(jī)森林算法,介紹其算法流程,分析其優(yōu)缺點(diǎn);其次,依托汽車評(píng)價(jià)數(shù)據(jù)集,對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)分析、數(shù)據(jù)處理操作;最后,構(gòu)建隨機(jī)森林模型,并對(duì)模型參數(shù)和特征數(shù)量進(jìn)行修改,分析各因素對(duì)模型準(zhǔn)確率的影響。02算法概述1、集成學(xué)習(xí)概述
集成學(xué)習(xí)(Ensemblelearning)就是將若干個(gè)弱分類器通過(guò)一定的**策略組合**之后產(chǎn)生一個(gè)強(qiáng)分類器。弱分類器(WeakClassififier)指的就是那些分類準(zhǔn)確率只比隨機(jī)猜測(cè)略好一點(diǎn)的分類器,而強(qiáng)分類器(StrongClassififier)的分類準(zhǔn)確率會(huì)高很多。這里的"強(qiáng)"和"弱"是相對(duì)的。
目前集成學(xué)習(xí)算法的流派主要有兩種:(1)bagging、(2)boosting1.1bagging
自舉匯聚法(bootstrapaggregating),也稱為bagging方法,是一種根據(jù)均勻概率分布從數(shù)據(jù)集中重復(fù)抽樣(有放回的)的技術(shù)。
這種方法將訓(xùn)練集分成m個(gè)新的訓(xùn)練集,然后在每個(gè)新訓(xùn)練集上構(gòu)建一個(gè)模型,各自不相干,最后預(yù)測(cè)時(shí)將這個(gè)m個(gè)模型的結(jié)果進(jìn)行整合,得到最終結(jié)果。
整合方式分為兩種,分類問(wèn)題用投票表決(最多票的類別即為預(yù)測(cè)類別),回歸用均值。
值得注意的是,由于新數(shù)據(jù)集中的每個(gè)樣本都是從原始數(shù)據(jù)集中有放回的隨機(jī)抽樣出來(lái)的,使得新數(shù)據(jù)集中存在重復(fù)的值,而原始數(shù)據(jù)集的某些值就不會(huì)出現(xiàn)在新集合當(dāng)中。1.1baggingbagging方法的流程,如下圖所示:
從圖中可以看出,bagging方法根據(jù)有放回的隨機(jī)抽樣構(gòu)造n個(gè)數(shù)據(jù)集,將某個(gè)學(xué)習(xí)算法分別作用于每個(gè)數(shù)據(jù)集就得到了n個(gè)弱分類器,然后根據(jù)每個(gè)弱分類器返回的結(jié)果,采用一定的組合策略得到最后需要的強(qiáng)分類器。?
bagging方法的代表算法是**隨機(jī)森林**,準(zhǔn)確的來(lái)說(shuō),隨機(jī)森林是bagging的一個(gè)特化進(jìn)階版。1.2boosting
Boosting是集成學(xué)習(xí)的重要分支,其核心思想就是通過(guò)弱分類器的不斷集成,形成一個(gè)強(qiáng)分類器。具體地,每輪迭代產(chǎn)生的新分類器都是重點(diǎn)改進(jìn)之前輪沒(méi)有處理好的地方,這樣新產(chǎn)生的分類器與之前分類器的集成就能夠產(chǎn)生一個(gè)更強(qiáng)的分類器,重復(fù)這一過(guò)程,直到達(dá)到任務(wù)目標(biāo)。與上述bagging相比,兩者的區(qū)別如下:(1)Bagging采用均勻取樣,而Boosting根據(jù)錯(cuò)誤率來(lái)取樣,因此Boosting的分類精度要優(yōu)于Bagging。(2)Bagging的訓(xùn)練集的選擇是隨機(jī)的,各輪訓(xùn)練集之間相互獨(dú)立,而Boosting的各輪訓(xùn)練集的選擇與前面各輪的學(xué)習(xí)結(jié)果有關(guān)。(3)Bagging的各個(gè)預(yù)測(cè)函數(shù)沒(méi)有權(quán)重,而Boosting是有權(quán)重的。(4)Bagging的各個(gè)預(yù)測(cè)函數(shù)可以并行生成,而Boosting的各個(gè)預(yù)測(cè)函數(shù)只能順序生成。2.1隨機(jī)森林算法流程
為了描述方便,我們?cè)O(shè)訓(xùn)練集為T,有N個(gè)樣本,即T={t1,t2,…,tN},設(shè)特征集為F,有M維特征,即F={f1,f2,…,fM},類別集合為C,有L種類別,即C={c1,c2,…,cL},測(cè)試集為D,有λ個(gè)測(cè)試樣本,即D={d1,d2,…,dλ}。
隨機(jī)森林的算法流程如下所示:(1)從容量為N的訓(xùn)練集T中,采用自助抽樣法(bootstrap),即有放回地抽取N個(gè)樣本,作為一個(gè)訓(xùn)練子集Tk。子數(shù)據(jù)集的數(shù)據(jù)量是和原始數(shù)據(jù)集相同的,不同子數(shù)據(jù)集的元素可以重復(fù),同一個(gè)子數(shù)據(jù)集中的元素也可以重復(fù)。(2)對(duì)于訓(xùn)練子集Tk,從特征集F中無(wú)放回地隨機(jī)抽取m個(gè)特征,其中m=log2M(向上取整),作為當(dāng)前節(jié)點(diǎn)下決策的備選特征,從這些特征中選擇最好地劃分訓(xùn)練樣本的特征。在單個(gè)決策樹在產(chǎn)生樣本集和確定特征后,從根結(jié)點(diǎn)開始,自上而下生成一個(gè)完整的決策樹Sk(不需要剪枝);2.1隨機(jī)森林算法流程(3)重復(fù)n次步驟1和2,得到n個(gè)訓(xùn)練子集T1,T2,…,Tn,并生成決策樹S1,S2,…,Sn,將n個(gè)決策樹組合起來(lái),形成隨機(jī)森林;?(4)將測(cè)試集D的樣本dμ輸入隨機(jī)森林中,讓每個(gè)決策樹對(duì)dμ進(jìn)行決策,然后采用多數(shù)投票法(MajorityVotingAlgorithm)對(duì)決策結(jié)果投票,最終決定dμ的分類;(5)重復(fù)λ次步驟4,直到測(cè)試集D分類完成。隨機(jī)森林建立過(guò)程如下圖所示:
2.2隨機(jī)森林算法優(yōu)缺點(diǎn)?
隨機(jī)森林算法的優(yōu)點(diǎn)如下:?
(1)隨機(jī)森林的方法即對(duì)訓(xùn)練樣本進(jìn)行了采樣,又對(duì)特征進(jìn)行了采樣,充分保證了所構(gòu)建的每個(gè)樹之間的獨(dú)立性,使得投票結(jié)果更準(zhǔn)確。?
(2)隨機(jī)森林的隨機(jī)性體現(xiàn)在每棵樹的訓(xùn)練樣本是隨機(jī)的,樹中每個(gè)節(jié)點(diǎn)的分裂屬性也是隨機(jī)選擇的。有了這2個(gè)隨機(jī)因素,即使每棵決策樹沒(méi)有進(jìn)行剪枝,隨機(jī)森林也不會(huì)產(chǎn)生過(guò)擬合的現(xiàn)象。?
(3)隨機(jī)森林可以判斷特征的重要程度,可以判斷出不同特征之間的相互影響。?
(4)隨機(jī)森林對(duì)某些特殊數(shù)據(jù)集,仍有較好效果。比如:對(duì)于不平衡的數(shù)據(jù)集來(lái)說(shuō),它可以平衡誤差;對(duì)于有很大一部分特征遺失的數(shù)據(jù)集來(lái)說(shuō),仍可以維持準(zhǔn)確度。2.2隨機(jī)森林算法優(yōu)缺點(diǎn)?隨機(jī)森林算法的缺點(diǎn)如下:?
(1)隨機(jī)森林已經(jīng)被證明在某些噪音較大的分類或回歸問(wèn)題上會(huì)過(guò)擬合。?
(2)對(duì)于有不同取值的屬性的數(shù)據(jù),取值劃分較多的屬性會(huì)對(duì)隨機(jī)森林產(chǎn)生更大的影響,所以隨機(jī)森林在這種數(shù)據(jù)上產(chǎn)出的屬性權(quán)值是不可信的。?
(3)隨機(jī)森林的最大缺點(diǎn)是計(jì)算復(fù)雜。因?yàn)榇罅康臎Q策樹被用來(lái)進(jìn)行預(yù)測(cè),使得隨機(jī)森林在進(jìn)行預(yù)測(cè)時(shí)非常緩慢,非常耗時(shí)。03實(shí)驗(yàn)數(shù)據(jù)1.1數(shù)據(jù)集介紹實(shí)驗(yàn)數(shù)據(jù)集:CarEvaluationDatabase(汽車評(píng)估數(shù)據(jù)集)實(shí)驗(yàn)?zāi)康模豪闷囋u(píng)估數(shù)據(jù)集構(gòu)建隨機(jī)森林模型來(lái)預(yù)測(cè)汽車的質(zhì)量。
本實(shí)驗(yàn)所采用的汽車評(píng)估數(shù)據(jù)庫(kù)源自一個(gè)簡(jiǎn)單的分層決策模型,最初是為演示DEX開發(fā)的。通過(guò)對(duì)數(shù)據(jù)集中包含的汽車多種細(xì)節(jié),例如:車門數(shù)量、后備箱大小、維修成本等,來(lái)確定汽車的質(zhì)量,將汽車質(zhì)量分成4種類型:不達(dá)標(biāo)、達(dá)標(biāo)、良好、優(yōu)秀。數(shù)據(jù)集中7個(gè)屬性列的具體信息如下表所示:1.2數(shù)據(jù)集下載及導(dǎo)入
本實(shí)驗(yàn)所采用的數(shù)據(jù)集依舊來(lái)源于UCI數(shù)據(jù)集,鏈接為:
/ml/datasets/Car+Evaluation。
導(dǎo)入數(shù)據(jù)集:2、分析數(shù)據(jù)
首先,查看數(shù)據(jù)集的維度,并查看數(shù)據(jù)前五行,了解各屬性列列名和屬性值情況。從數(shù)據(jù)集前五行可以看出,每列列名含義未知,故需要對(duì)列名進(jìn)行重命名。對(duì)上述導(dǎo)入的數(shù)據(jù)集數(shù)據(jù)進(jìn)行探索性分析,增強(qiáng)對(duì)其中數(shù)據(jù)的理解。2、分析數(shù)據(jù)其次,查看數(shù)據(jù)集摘要,了解數(shù)據(jù)集各列的數(shù)據(jù)類型、是否為空值及內(nèi)存占用情況。
可以從輸出結(jié)果看出,數(shù)據(jù)集中沒(méi)有缺失值。接下來(lái)將進(jìn)一步確認(rèn)這一點(diǎn)。從上面看出數(shù)據(jù)集中不存在缺失值。2、分析數(shù)據(jù)最后,查看分類變量的各值頻率分布??梢詮纳蠄D看出,這些分類變量本質(zhì)上是有序的。3、處理數(shù)據(jù)
完成數(shù)據(jù)分析后,開始對(duì)數(shù)據(jù)進(jìn)行處理。首先按照一定比例地要求(test_size=0.33),將新生成的數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩部分。
經(jīng)過(guò)劃分,可以看出訓(xùn)練集共有1157條記錄,測(cè)試集共有571條記錄。3.2特征工程
由于原始數(shù)據(jù)的屬性值較為復(fù)雜,故需要進(jìn)一步采取特征工程,將原始數(shù)據(jù)轉(zhuǎn)換為有用特征,提高模型的預(yù)測(cè)能力,接下來(lái)將對(duì)變量進(jìn)行特征工程。
從上述結(jié)果可以看到數(shù)據(jù)集中的六種變量都是分類變量,下一步對(duì)訓(xùn)練集和測(cè)試集的分類變量進(jìn)行編碼。
完成特征工程后,所有分類變量都已進(jìn)行簡(jiǎn)單的順序編碼。數(shù)據(jù)處理完畢后,接下來(lái)將開始算法實(shí)戰(zhàn)環(huán)節(jié)。04案例實(shí)戰(zhàn)1、創(chuàng)建隨機(jī)森林分類器
首先,借助sklearn包中的RandomForestClassifier()函數(shù)來(lái)實(shí)現(xiàn)隨機(jī)森林分類器的創(chuàng)建,將其實(shí)例化。n_estimators參數(shù),即隨機(jī)森林中數(shù)目的數(shù)量,它的默認(rèn)值為10。
其次,使用訓(xùn)練集來(lái)訓(xùn)練模型,這里使用fit()函數(shù)來(lái)進(jìn)行訓(xùn)練。
最后,來(lái)預(yù)測(cè)測(cè)試集的結(jié)果,并檢查分類的準(zhǔn)確率。
在這里,建立了隨機(jī)森林分類器模型,其中默認(rèn)參數(shù)為n_estimators=10,即使用了10個(gè)決策樹來(lái)構(gòu)建模型。接下來(lái),將增加決策樹的數(shù)量,并查看其對(duì)準(zhǔn)確性的影響。輸出結(jié)果為:Modelaccuracyscorewith10decision-trees:0.9247。2、創(chuàng)建修改參數(shù)的隨機(jī)森林
將RandomForestClassifier()函數(shù)中n_estimators屬性值改為100,即采用100棵決策樹來(lái)進(jìn)行預(yù)測(cè)。輸出結(jié)果為:Modelaccuracyscorewith100decision-trees:0.9457。10棵決策樹的模型準(zhǔn)確度得分為0.9247,而100棵決策樹的模型準(zhǔn)確度得分為0.9457。因此可以看出隨機(jī)森林的準(zhǔn)確度隨著模型中決策樹的數(shù)量而增加。3、使用隨機(jī)森林模型找重要特征
上述的實(shí)驗(yàn),將六個(gè)特征全部采用。但從實(shí)際角度出發(fā),所有特征對(duì)目標(biāo)變量的影響力并非是相同的,他們其中有的對(duì)目標(biāo)變量起決定性作用,有的甚至不起任何作用。接下來(lái),將只選擇重要的特性,使用這些特征構(gòu)建模型,并查看其對(duì)準(zhǔn)確度的影響。
從上述輸出的結(jié)果,可以看到其中最重要的特征是安全性,最不重要的是車門數(shù)量,這一點(diǎn)和現(xiàn)實(shí)情況完全吻合。4、可視化特征分?jǐn)?shù)
為進(jìn)一步將各個(gè)特征的重要性體現(xiàn)出來(lái),這里通過(guò)繪制條形圖來(lái)可視化特征分?jǐn)?shù)。
各特征的特征分?jǐn)?shù)如下圖所示:5、在選定的特征上建立隨機(jī)森林模型
從上述的特征重要性分布情況來(lái)看,車門的數(shù)量是影響力最小的特征。接下來(lái)刪除這一特征,重新建模并檢查其對(duì)準(zhǔn)確性的影響。其實(shí)現(xiàn)步驟如下:?
輸出結(jié)果為:Modelaccuracyscorewith100decision-trees:0.9264。?
去除doors變量后的模型精度為0.9264,而考慮所有變量的模型的精度為0.9247。因此,可以看出從模型中刪除doors變量后,模型精度得到了提高。05本章小結(jié)本章小結(jié)
算法實(shí)戰(zhàn)部分,主要從模型參數(shù)和特征數(shù)量?jī)煞矫?,?duì)模型進(jìn)行優(yōu)化。從具體結(jié)果可以看出,n_estimators參數(shù)值的增加和特征重要性較小變量的刪除,都會(huì)使得模型準(zhǔn)確率得到提升。
本章完整闡述了集成學(xué)習(xí)及其兩大流派,并重點(diǎn)圍繞bagging系列的代表算
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 養(yǎng)殖買賣的合同范本
- 2025企業(yè)年金基金托管合同范本
- 2025江蘇省建設(shè)工程造價(jià)咨詢合同(示范文本)
- 油罐安全合同范本
- 2025企業(yè)管理資料范本福建勞動(dòng)合同范本
- 2025衢州市衢江區(qū)高家鎮(zhèn)湖仁村物業(yè)用房及廠房租賃合同
- 汽車貨物運(yùn)輸合同協(xié)議書
- 2025【合同范本】農(nóng)村土地承包合同
- 2025“誰(shuí)造誰(shuí)有”林地使用合同書
- 貨物運(yùn)輸合同協(xié)議書模板
- 工程造價(jià)咨詢服務(wù)方案(技術(shù)方案)
- 整體租賃底商運(yùn)營(yíng)方案(技術(shù)方案)
- 常用藥物作用及副作用課件
- 小學(xué)生作文方格紙A4紙直接打印版
- 老人心理特征和溝通技巧
- 幼兒阿拉伯?dāng)?shù)字描紅(0-100)打印版
- 標(biāo)桿地產(chǎn)集團(tuán) 研發(fā)設(shè)計(jì) 工程管理 品質(zhì)地庫(kù)標(biāo)準(zhǔn)研發(fā)成果V1.0
- TMS開發(fā)業(yè)務(wù)需求文檔
- 2023年1月浙江高考英語(yǔ)聽(tīng)力試題及答案(含MP3+錄音原文)
- HI-IPDV10芯片產(chǎn)品開發(fā)流程V10宣課件
- 房產(chǎn)抵押注銷申請(qǐng)表
評(píng)論
0/150
提交評(píng)論