Clementine 第四講_第1頁
Clementine 第四講_第2頁
Clementine 第四講_第3頁
Clementine 第四講_第4頁
Clementine 第四講_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、分類預(yù)測:決策樹(一)分類預(yù)測:決策樹(一)主要內(nèi)容n決策樹算法概述決策樹算法概述n從學(xué)習(xí)角度看,決策樹屬有指導(dǎo)學(xué)習(xí)算法從學(xué)習(xí)角度看,決策樹屬有指導(dǎo)學(xué)習(xí)算法n目標(biāo):用于分類和回歸目標(biāo):用于分類和回歸nC5.0C5.0算法及應(yīng)用算法及應(yīng)用n分類回歸樹及應(yīng)用分類回歸樹及應(yīng)用n模型的對比分析模型的對比分析決策樹算法概述:基本概念n得名其分析結(jié)論的展示方式類似一棵倒置的樹得名其分析結(jié)論的展示方式類似一棵倒置的樹根節(jié)點根節(jié)點葉節(jié)點葉節(jié)點中間節(jié)點中間節(jié)點2 2叉樹和多叉樹和多叉樹叉樹決策樹算法概述:特點n體現(xiàn)了對樣本數(shù)據(jù)的不斷分組過程體現(xiàn)了對樣本數(shù)據(jù)的不斷分組過程n決策樹分為分類樹和回歸樹決策樹分為分類樹

2、和回歸樹n體現(xiàn)了輸入變量和輸出變量取值的邏輯關(guān)系體現(xiàn)了輸入變量和輸出變量取值的邏輯關(guān)系n邏輯比較形式表述的是一種推理規(guī)則邏輯比較形式表述的是一種推理規(guī)則n每個葉節(jié)點都對應(yīng)一條推理規(guī)則每個葉節(jié)點都對應(yīng)一條推理規(guī)則n對新數(shù)據(jù)對象的分類預(yù)測對新數(shù)據(jù)對象的分類預(yù)測決策樹算法概述:幾何理解n決策樹建立的過程就是決策樹各個分枝依次形成決策樹建立的過程就是決策樹各個分枝依次形成的過程的過程n決策樹的每個分枝在一定規(guī)則下完成對決策樹的每個分枝在一定規(guī)則下完成對n n維特征維特征空間的區(qū)域劃分空間的區(qū)域劃分n決策樹建立好后,決策樹建立好后,n n維特征空間會被劃分成若干維特征空間會被劃分成若干個小的邊界平行或垂

3、直于坐標(biāo)軸的矩形區(qū)域個小的邊界平行或垂直于坐標(biāo)軸的矩形區(qū)域確定每一步特征空間劃分標(biāo)準(zhǔn)時,都同時兼顧由此將確定每一步特征空間劃分標(biāo)準(zhǔn)時,都同時兼顧由此將形成的兩個區(qū)域,希望劃分形成的兩個區(qū)域所包含的形成的兩個區(qū)域,希望劃分形成的兩個區(qū)域所包含的樣本點盡可能同時樣本點盡可能同時“純正純正”決策樹算法概述:核心問題n第一,決策樹的生長第一,決策樹的生長n利用訓(xùn)練樣本集完成決策樹的建立過程利用訓(xùn)練樣本集完成決策樹的建立過程n第二,決策樹的剪枝第二,決策樹的剪枝n利用測試樣本集對所形成的決策樹進(jìn)行精簡利用測試樣本集對所形成的決策樹進(jìn)行精簡決策樹算法概述:樹生長n決策樹的生長是對訓(xùn)練樣本集的不斷分組決策樹

4、的生長是對訓(xùn)練樣本集的不斷分組分枝準(zhǔn)則的確定涉及:分枝準(zhǔn)則的確定涉及:第一,如何從眾多的輸入第一,如何從眾多的輸入變量中選擇一個當(dāng)前最佳的變量中選擇一個當(dāng)前最佳的分組變量分組變量第二,如何從分組變量的第二,如何從分組變量的眾多取值中找到一個最佳的眾多取值中找到一個最佳的分割點分割點決策樹算法概述:樹剪枝n樹剪枝的原因:完整的決策樹對訓(xùn)練樣本特征的樹剪枝的原因:完整的決策樹對訓(xùn)練樣本特征的捕捉捕捉“過于精確過于精確”- 過擬和(過擬和(OverfittingOverfitting)n常用的修剪技術(shù):常用的修剪技術(shù):n預(yù)修剪(預(yù)修剪(pre-pruningpre-pruning):用來限制決策樹的

5、):用來限制決策樹的充分生長。策略:充分生長。策略:n事先指定決策樹生長的最大深度事先指定決策樹生長的最大深度n事先指定樹節(jié)點樣本量的最小值事先指定樹節(jié)點樣本量的最小值n后修剪(后修剪(post-pruningpost-pruning):待決策樹充分生):待決策樹充分生長完畢后再進(jìn)行剪枝長完畢后再進(jìn)行剪枝決策樹算法概述:樹剪枝n后修剪:待決策樹生長完畢,根據(jù)一定規(guī)則,剪后修剪:待決策樹生長完畢,根據(jù)一定規(guī)則,剪去不具一般代表性的子樹。策略:去不具一般代表性的子樹。策略:n事先指定允許的事先指定允許的最大誤差值最大誤差值n通常依據(jù)測試樣通常依據(jù)測試樣本集剪枝本集剪枝C5.0算法nC5.0C5.0

6、是在是在ID3(J R Quinlan,1979)ID3(J R Quinlan,1979)基礎(chǔ)上發(fā)展起基礎(chǔ)上發(fā)展起來。來。C5.0C5.0是是C4.5C4.5算法的商業(yè)化版本算法的商業(yè)化版本n特點:特點:nC5.0C5.0用于建立多叉分類樹用于建立多叉分類樹n輸入變量是分類型或數(shù)值型,輸出變量應(yīng)為分輸入變量是分類型或數(shù)值型,輸出變量應(yīng)為分類型類型n以信息增益率確定最佳分組變量和分割點以信息增益率確定最佳分組變量和分割點C5.0算法:熵n信息熵是信息論信息熵是信息論( (C.E.Shannon,1948C.E.Shannon,1948) )中的基本概中的基本概念。信息論主要用于解決信息傳遞過程

7、中的問題念。信息論主要用于解決信息傳遞過程中的問題,也稱統(tǒng)計通信理論,也稱統(tǒng)計通信理論n信息論的基本出發(fā)點認(rèn)為:信息論的基本出發(fā)點認(rèn)為:n信息傳遞通過由信源、信道和信宿組成的傳遞信息傳遞通過由信源、信道和信宿組成的傳遞系統(tǒng)實現(xiàn)系統(tǒng)實現(xiàn)信道信道信源信源( (發(fā)送端發(fā)送端) )信宿信宿( (接收端接收端) )C5.0算法:熵n信息論的基本出發(fā)點認(rèn)為:信息論的基本出發(fā)點認(rèn)為:n傳遞系統(tǒng)存在于一個隨機(jī)干擾環(huán)境之中傳遞系統(tǒng)存在于一個隨機(jī)干擾環(huán)境之中n將發(fā)送的信息記為將發(fā)送的信息記為U U,接收的信息記為,接收的信息記為V V,那么,那么信道可看作為信道模型,記為信道可看作為信道模型,記為P(U|V)P(

8、U|V)信道信道信源信源( (發(fā)送端發(fā)送端) )U Uu1,u2,.uru1,u2,.ur信宿信宿( (接收端接收端) )V Vv1,v2,.vqv1,v2,.vqP(U|V)P(U|V)C5.0算法:熵n信道模型是一個條件概率矩陣信道模型是一個條件概率矩陣P(U|V)P(U|V),稱為信道,稱為信道傳輸概率矩陣傳輸概率矩陣nP(ui|vj)是信宿收到是信宿收到vj而信源發(fā)出而信源發(fā)出ui的概率的概率 ,且,且n信源也同樣被看做是某種隨機(jī)過程,有:信源也同樣被看做是某種隨機(jī)過程,有:)|(. )|( )|(. . . .)|( . )|( )|()|( . )|( )|(21222211121

9、1qrqqrrvuPvuPvuPvuPvuPvuPvuPvuPvuP),.,2 , 1( 1)|(rivuPji),.,2 , 1( 1)(riuPiC5.0算法:熵n例如:二元信道模型例如:二元信道模型2212211122211211 )|( )|()|( )|(PPPPvuPvuPvuPvuPC5.0算法:熵n先驗不確定性:通信發(fā)生前,信宿對信源的狀態(tài)具先驗不確定性:通信發(fā)生前,信宿對信源的狀態(tài)具有不確定性有不確定性n后驗不確定性:通信發(fā)生后,信宿收到發(fā)自信源的后驗不確定性:通信發(fā)生后,信宿收到發(fā)自信源的信息,先驗不確定性部分被消除,信宿對信源仍有信息,先驗不確定性部分被消除,信宿對信源仍

10、有一定程度的不確定性一定程度的不確定性n后驗不確定性等于先驗不確定性,表示信宿沒有后驗不確定性等于先驗不確定性,表示信宿沒有收到信息;收到信息;n后驗不確定性等于零,表示信宿收到了全部信息后驗不確定性等于零,表示信宿收到了全部信息n信息是用來消除隨機(jī)不確定性的,信息量的大小信息是用來消除隨機(jī)不確定性的,信息量的大小可由所消除的不確定性大小來計量可由所消除的不確定性大小來計量C5.0算法:熵n信息量的數(shù)學(xué)定義:信息量的數(shù)學(xué)定義:n信息熵是信息量的數(shù)學(xué)期望,是信源發(fā)出信息前的信息熵是信息量的數(shù)學(xué)期望,是信源發(fā)出信息前的平均不確定性,也稱先驗熵。信息熵的數(shù)學(xué)定義:平均不確定性,也稱先驗熵。信息熵的數(shù)

11、學(xué)定義:n信息熵等于信息熵等于0,表示只存在唯一的信息發(fā)送可能表示只存在唯一的信息發(fā)送可能,P(ui)=1,沒有發(fā)送的不確定性沒有發(fā)送的不確定性;n如果信源的如果信源的k個信號有相同的發(fā)送概率個信號有相同的發(fā)送概率,P(ui)=1/k,則信息發(fā)送的不確定性最大,信息熵達(dá)到最大則信息發(fā)送的不確定性最大,信息熵達(dá)到最大nP(ui)差別小,信息熵大,平均不確定性大;反之差別小,信息熵大,平均不確定性大;反之)(log)(1log)(22iiiuPuPuI)(log)()(1log)()(22iiiiiiuPuPuPuPUEntC5.0算法:信息增益n已知信號已知信號U的概率分布的概率分布P(U)且收

12、到信號且收到信號V=vj,發(fā)出信發(fā)出信號的概率分布為號的概率分布為P(U|vj),信源的平均不確定性:信源的平均不確定性:n稱為后驗熵。后驗熵的期望稱為后驗熵。后驗熵的期望( (條件熵或信道疑義條件熵或信道疑義度度) ):n信息增益信息增益n信息消除隨機(jī)不確定性的程度信息消除隨機(jī)不確定性的程度)|(log)|()|(1log)|()|(22jiijiijijijvuPvuPvuPvuPvUEnt)|(log)|( )()|(1log)|()()|(22jiijijjijijijjvuPvuPvPvuPvuPvPVUEnt)|()(),(VUEntUEntVUGainsC5.0:生長算法n如何從

13、眾多輸入變量中選擇一個最佳分組變量:如何從眾多輸入變量中選擇一個最佳分組變量:nC5.0C5.0以信息增益率為標(biāo)準(zhǔn)。例如:以信息增益率為標(biāo)準(zhǔn)。例如:n決策樹建立之前:決策樹建立之前:940. 0)145(log145)149(log149)(log)()(1log)()(2222iiiiiiuPuPuPuPUEntn決策樹建立過程中,考察輸入變量,如決策樹建立過程中,考察輸入變量,如T1T1:694. 0)52(log52)53(log53(145 )40(log40)44(log44(144 )53(log53)52(log52(145)1|(log)1|( )1() 1|(2222222j

14、iijijjtuPtuPtPTUEnt246. 0694. 0940. 0) 1|()() 1,(TUEntUEntTUGains048. 0892. 0940. 0)3|()()3,(TUEntUEntTUGainsn問題:類別值多的輸入變量比類別值少的輸入變量問題:類別值多的輸入變量比類別值少的輸入變量有更多的機(jī)會成為當(dāng)前最佳分組變量有更多的機(jī)會成為當(dāng)前最佳分組變量686867. 0)52(log52)53(log53(145 )40(log40)44(log44(144 )21(log21)21(log21(142)32(log32)31(log31(143)1|(log)1|( )1(

15、) 1|(222222222jiijijjtuPtuPtPTUEnt253133. 069686867. 0940. 0) 1|()() 1,(TUEntUEntTUGainsn信息增益率:信息增益率:n如何評價數(shù)值型輸入變量消除平均不確定性的能力如何評價數(shù)值型輸入變量消除平均不確定性的能力n首先分箱:首先分箱: Clementine Clementine的的C5.0C5.0節(jié)點包含了節(jié)點包含了MDLPMDLP分箱算法分箱算法n然后再根據(jù)上述方法判定然后再根據(jù)上述方法判定)(/ ),(),(VEntVUGainVUGainsR156. 0577. 1/246. 0)145(log145)144

16、(log144)145(log145/(246. 0) 1,(222TUGainsR049. 0985. 0/048. 0)148(log148)146(log146/(048. 0)3,(22TUGainsRC5.0:生長算法n如何從分組變量的眾多取值中找到最佳分割點如何從分組變量的眾多取值中找到最佳分割點n默認(rèn)策略默認(rèn)策略:n對分類型分組變量:有對分類型分組變量:有k個類別,將樣本分成個類別,將樣本分成k組,形成樹的組,形成樹的k個分支個分支n對數(shù)值型分組變量:以對數(shù)值型分組變量:以MDLPMDLP分箱所得的最小分箱所得的最小組限值為界,將小于組限的樣本劃為一組,組限值為界,將小于組限的樣

17、本劃為一組,大于的劃為另一組,形成兩個分叉大于的劃為另一組,形成兩個分叉n其他策略其他策略:nChiMerge分箱法,合并分組變量的多個類別分箱法,合并分組變量的多個類別后再分支后再分支C5.0:生長算法nChiMergeChiMerge分箱:有指導(dǎo)的分箱方法,基本思路:分箱:有指導(dǎo)的分箱方法,基本思路:n將輸入變量按變量值升序排序?qū)⑤斎胱兞堪醋兞恐瞪蚺判騨定義初始區(qū)間,將輸入變量值分成若干組定義初始區(qū)間,將輸入變量值分成若干組C5.0:生長算法nChiMergeChiMerge分箱基本思路:分箱基本思路:n計算輸入變量相鄰兩組與輸出變量的列聯(lián)表計算輸入變量相鄰兩組與輸出變量的列聯(lián)表n在列聯(lián)

18、表的基礎(chǔ)上計算卡方觀測值在列聯(lián)表的基礎(chǔ)上計算卡方觀測值n觀測值小于臨界值,輸入變量在該相鄰區(qū)間上的劃分觀測值小于臨界值,輸入變量在該相鄰區(qū)間上的劃分對輸出變量取值沒有顯著影響,應(yīng)合并。首先合并卡對輸出變量取值沒有顯著影響,應(yīng)合并。首先合并卡方觀測值最小的區(qū)間。方觀測值最小的區(qū)間。n重復(fù)以上,直到任何兩個相臨組無法合并,即卡重復(fù)以上,直到任何兩個相臨組無法合并,即卡方觀測值都不小于臨界為止。方觀測值都不小于臨界為止。C5.0:剪枝算法n采用后修剪方法,從葉節(jié)點向上逐層剪枝,關(guān)鍵:采用后修剪方法,從葉節(jié)點向上逐層剪枝,關(guān)鍵:n誤差的估計、剪枝標(biāo)準(zhǔn)的設(shè)置誤差的估計、剪枝標(biāo)準(zhǔn)的設(shè)置n誤差估計:利用統(tǒng)計

19、學(xué)置信區(qū)間的估計方法,直接誤差估計:利用統(tǒng)計學(xué)置信區(qū)間的估計方法,直接在訓(xùn)練樣本集上估計誤差在訓(xùn)練樣本集上估計誤差nClementineClementine中中1-1- 默認(rèn)默認(rèn)75%75%。置信度用于控制剪枝。置信度用于控制剪枝的程度,決定了所允許的誤差上限的程度,決定了所允許的誤差上限1|)|)1 (2zNffefPiiiiiiiiiiNffzfe)1 (2C5.0:剪枝算法n剪枝標(biāo)準(zhǔn):剪枝標(biāo)準(zhǔn):“減少誤差(減少誤差(reduce -errorreduce -error)”法法nk為待剪子樹中葉節(jié)點的個數(shù)為待剪子樹中葉節(jié)點的個數(shù),pi為第為第i個葉節(jié)點個葉節(jié)點所含樣本占子樹所含樣本的比例所

20、含樣本占子樹所含樣本的比例,ei為第為第i個葉節(jié)個葉節(jié)點的估計誤差點的估計誤差,e為父節(jié)點的估計誤差為父節(jié)點的估計誤差),.,2 , 1(1kieepkiiiC5.0:剪枝算法n例:能否剪掉例:能否剪掉C C節(jié)點下的節(jié)點下的3 3個葉節(jié)點(個葉節(jié)點(E E、F F、G G)估計估計3 3個節(jié)點的誤差:個節(jié)點的誤差:0.550.55、0.910.91、0.550.55加權(quán)求和:加權(quán)求和:計算計算C C節(jié)點的誤差估計:節(jié)點的誤差估計:0.500.50可剪掉葉節(jié)點可剪掉葉節(jié)點E E、F F、G G60. 014655. 014291. 014655. 0第一個數(shù)字是本節(jié)點所含樣第一個數(shù)字是本節(jié)點所含

21、樣本量本量N,第二個數(shù)為錯判樣第二個數(shù)為錯判樣本數(shù)本數(shù)EC5.0的應(yīng)用舉例n以以Students.xlsStudents.xls為例,目標(biāo):研究哪些因素是顯著為例,目標(biāo):研究哪些因素是顯著影響學(xué)生是否參與社會公益活動的因素影響學(xué)生是否參與社會公益活動的因素n變量重要性的測度變量重要性的測度( (Calculate variable importance) )nPropensity Scores(valid only for flag targets):計算計算變量的傾向性得分變量的傾向性得分nCalculate raw propensity scores:基于訓(xùn)練樣本基于訓(xùn)練樣本集計算分類模型

22、給出預(yù)測值為真的概率集計算分類模型給出預(yù)測值為真的概率iiiiPPEvaluaton)1 (1n置信度:經(jīng)拉普拉斯調(diào)整后的結(jié)果置信度:經(jīng)拉普拉斯調(diào)整后的結(jié)果jjjjyyAxPyyxPyyPyesyAxPyesyxPyesyPAxxyesyP)|()|1()()|()|1()(), 1|(212121jjjjyyAxPyyxPyyPnoyAxPnoyxPnoyPAxxnoyP)|()|1()()|()|1()(), 1|(212121ktNkptNij)()(ktNtNj)(1)(N(t)N(t)是節(jié)點是節(jié)點t t包含的樣本量包含的樣本量Nj(t) Nj(t) 是節(jié)點是節(jié)點t t包含第包含第j

23、j類的樣本量類的樣本量k k是輸出變量的類別個數(shù)是輸出變量的類別個數(shù)kiiiABPAPABPAPBPABPAPBPABPBAP1)|()()|()()()|()()()()|(C5.0的推理規(guī)則集n決策樹對邏輯關(guān)系的表述并非是最簡潔的決策樹對邏輯關(guān)系的表述并非是最簡潔的IF a AND b THEN yesELSE IF c AND d THEN yesOTHERWISE no推理規(guī)則集的生成算法nPRISMPRISM(Patient Rule Induction Space MethodPatient Rule Induction Space Method,CendrowskaCendrow

24、ska,19871987),),“覆蓋覆蓋”算法,規(guī)則在訓(xùn)練樣算法,規(guī)則在訓(xùn)練樣本集上本集上100100正確正確n基本思路:確定輸出變量的某個類別為期望類別基本思路:確定輸出變量的某個類別為期望類別n在當(dāng)前樣本范圍內(nèi),尋找能最大限度在當(dāng)前樣本范圍內(nèi),尋找能最大限度“覆蓋覆蓋”期望類別期望類別樣本的推理規(guī)則樣本的推理規(guī)則n在在M M個樣本范圍內(nèi),按照正確覆蓋率最大原則確定附加條個樣本范圍內(nèi),按照正確覆蓋率最大原則確定附加條件,得到一個再小些的樣本范圍,直到推理規(guī)則不再件,得到一個再小些的樣本范圍,直到推理規(guī)則不再“覆蓋覆蓋”屬于期望類別外的樣本屬于期望類別外的樣本n從當(dāng)前樣本集合中剔除已經(jīng)被正確

25、從當(dāng)前樣本集合中剔除已經(jīng)被正確“覆蓋覆蓋”的樣本,檢的樣本,檢查剩余樣本中是否還有屬于期望類別的樣本。如果有則查剩余樣本中是否還有屬于期望類別的樣本。如果有則回到第一步。否則結(jié)束?;氐降谝徊?。否則結(jié)束。年齡段年齡段=A(2/5)=A(2/5),年齡段,年齡段=B(4/4)=B(4/4),年齡段,年齡段=C(3/5)=C(3/5),性別,性別=0(6/8)=0(6/8),性別,性別=1(3/6)=1(3/6),推理規(guī)則為:,推理規(guī)則為:IF IF 年齡段年齡段=B THEN =B THEN 是否是否購買購買=yes=yes。剔除已被正確覆蓋的。剔除已被正確覆蓋的4 4個樣本個樣本年齡段年齡段=A

26、(2/5)=A(2/5),年齡段,年齡段=C(3/5)=C(3/5),性別,性別=0(4/6)=0(4/6),性別,性別=1(1/4)=1(1/4),推理規(guī)則為:,推理規(guī)則為:IF IF 性別性別=0 THEN =0 THEN 是否購買是否購買=yes=yes需附加邏輯與條件,樣本范圍為表中灰色部分。需附加邏輯與條件,樣本范圍為表中灰色部分。年齡段年齡段=A(1/3)=A(1/3),年齡段,年齡段=C(3/3)=C(3/3)。推理規(guī)則修正為:。推理規(guī)則修正為:IF IF 性別性別=0 AND =0 AND 年齡段年齡段=C THEN =C THEN 是否購買是否購買=yes=yesYes為期望

27、類別為期望類別C5.0其他:損失矩陣n不同錯誤類型所造成的實際損失可能不同,置信度不同錯誤類型所造成的實際損失可能不同,置信度會影響決策,錯判損失同樣會影響決策會影響決策,錯判損失同樣會影響決策n損失矩陣損失矩陣n使用損失矩陣的策略:使用損失矩陣的策略:n數(shù)據(jù)建模型階段使用損失矩陣數(shù)據(jù)建模型階段使用損失矩陣n樣本預(yù)測時使用損失矩陣樣本預(yù)測時使用損失矩陣C5.0其他:損失矩陣nC5.0C5.0對損失矩陣的使用對損失矩陣的使用n剪枝時采用剪枝時采用“減少損失減少損失”法,判斷待剪子樹中法,判斷待剪子樹中葉節(jié)點的加權(quán)損失是否大于父層節(jié)點的損失,如葉節(jié)點的加權(quán)損失是否大于父層節(jié)點的損失,如果大于則可以

28、剪掉果大于則可以剪掉),.,2 , 1(1kieccepkiiiiC5.0其他:損失矩陣n損失矩陣對預(yù)測的影響:損失矩陣對預(yù)測的影響:nc(i|j)是損失矩陣中將是損失矩陣中將j類錯判為類錯判為i類的損失類的損失,p(j|t)是被節(jié)點是被節(jié)點t判為判為j類的歸一化概率,定義為:類的歸一化概率,定義為:n例如:例如:) )|()|(min jitjpjicjtjjNNtjptjptjptjp,),(,),(),()|(預(yù)測值123實際值1c(2|1)c(3|1)2c(1|2)c(3|2)3c(1|3)c(2|3)C5.0其他:N折交叉驗證n偏差和方差:預(yù)測的差異性來自兩個方面,定義輸偏差和方差:

29、預(yù)測的差異性來自兩個方面,定義輸出變量出變量Y Y的均方誤差(的均方誤差(Mean Squared ErrorMean Squared Error)為:)為:n模型復(fù)雜度是導(dǎo)致偏差大小的重要因素:模型復(fù)雜度是導(dǎo)致偏差大小的重要因素:n常數(shù)預(yù)測和復(fù)雜模型的預(yù)測常數(shù)預(yù)測和復(fù)雜模型的預(yù)測n方差較大的預(yù)測仍是無法令人滿意的方差較大的預(yù)測仍是無法令人滿意的n方差測度了模型對訓(xùn)練樣本的敏感程度方差測度了模型對訓(xùn)練樣本的敏感程度n偏差總是未知的,方差的測度顯得較為重要偏差總是未知的,方差的測度顯得較為重要nN N折交叉驗證:估計模型參數(shù)的方差,估計預(yù)測精度折交叉驗證:估計模型參數(shù)的方差,估計預(yù)測精度的方差的

30、方差222)() ()(yEyEyEEyEYMSEyyC5.0其他n偏差和方差的存在,使建立在一組訓(xùn)練樣本集上的偏差和方差的存在,使建立在一組訓(xùn)練樣本集上的一個模型,所給出的預(yù)測往往缺乏穩(wěn)健性一個模型,所給出的預(yù)測往往缺乏穩(wěn)健性n數(shù)據(jù)挖掘中的策略數(shù)據(jù)挖掘中的策略nBaggingBagging技術(shù)技術(shù)nBoostingBoosting技術(shù)技術(shù)n均包括建模和投票兩個階段均包括建模和投票兩個階段C5.0應(yīng)用其他:Bagging技術(shù)建模過程(輸入:訓(xùn)練樣本集建模過程(輸入:訓(xùn)練樣本集T T,訓(xùn)練次數(shù),訓(xùn)練次數(shù)k k;輸出:;輸出:多個決策樹模型多個決策樹模型C1,C2,Ck)C1,C2,Ck)For

31、i=1,2,k doFor i=1,2,k do 從從T T中隨機(jī)有放回抽取樣本,形成有相同樣本中隨機(jī)有放回抽取樣本,形成有相同樣本容量的樣本集合容量的樣本集合TiTi 以以TiTi為訓(xùn)練集構(gòu)造模型為訓(xùn)練集構(gòu)造模型CiCiEnd forEnd forC5.0其他:Bagging技術(shù)決策過程(輸入:新數(shù)據(jù)決策過程(輸入:新數(shù)據(jù)X X,多個決策樹模型,多個決策樹模型C1,C2,CkC1,C2,Ck;輸出:分類預(yù)測結(jié)果;輸出:分類預(yù)測結(jié)果C(X) C(X) )For i=1,2,k doFor i=1,2,k do 根據(jù)根據(jù)CiCi對對X X做預(yù)測,結(jié)果為做預(yù)測,結(jié)果為Ci(X)Ci(X)End forEnd for統(tǒng)計各類別得票,得票數(shù)最高的為統(tǒng)計各類別得票,得票數(shù)最高的為C(X)C(X),或計算平,或計算平均值均值 如果將投票改進(jìn)為:輸出概率而非簡單的分類結(jié)果,如果將投票改進(jìn)為:輸出概率而非簡單的分類結(jié)果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論