分類預(yù)測決策樹方法_第1頁
分類預(yù)測決策樹方法_第2頁
分類預(yù)測決策樹方法_第3頁
分類預(yù)測決策樹方法_第4頁
分類預(yù)測決策樹方法_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、分類預(yù)測決策樹方法第1頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)2 / 344.1 分類預(yù)測概念目的(通用)學(xué)習(xí)模型建立的算法了解該算法在相應(yīng)數(shù)據(jù)挖掘問題中的應(yīng)用分類預(yù)測的含義分類預(yù)測算法的類型第2頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)3 / 344.1 分類預(yù)測概念目的(通用)分類預(yù)測的含義通過對現(xiàn)有數(shù)據(jù)的學(xué)習(xí)建立起擬合數(shù)據(jù)的模型利用該模型對未來新數(shù)據(jù)進行分類,具備預(yù)測能力分類預(yù)測算法的類型第3頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù)

2、 (數(shù)據(jù)挖掘)4 / 344.1 分類預(yù)測概念目的(通用)分類預(yù)測的含義分類預(yù)測算法的類型分析新數(shù)據(jù)在離散型輸出變量上的取值分類決策樹分析新數(shù)據(jù)在數(shù)值型(連續(xù))輸出變量上的取值回歸決策樹第4頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)5 / 34聚類、分類和模式識別聚類子集劃分,把一個集合分割為無交集的子集;模式分類標(biāo)識出樣本歸屬的子集(標(biāo)簽)模式識別標(biāo)識出樣本對應(yīng)的個體(樣例)本身,或標(biāo)識出樣本所屬子集本身(如考古、物種鑒別等)【注】樣本,只需是個體或集合的特征表示第5頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/

3、3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)6 / 34從二分類問題開始很多問題可以歸結(jié)為上課、習(xí)題,以及考試都不是目的,只是為一個結(jié)果:及格?通過?優(yōu)秀看電影:這是好人還是壞人求職:多項測試之后,決定喜歡還是不喜歡?滿意還是不滿意?研究方向:Major in or out在上述選擇過程中,涉及到多個因素,如何比較不同因素重要性的差別?第6頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)7 / 34在“虛度的日子”的判別中最關(guān)鍵的是哪一個因素?睡眠時間:6/7/8/9/10成功事例數(shù)目:1/2/3開心指數(shù):快樂、憂傷、憤怒、平淡、無聊人際交往:有成效、封閉健康

4、指數(shù):生病、恢復(fù)、亞健康、正常學(xué)思比數(shù):10:1,3:1,2:1,1:2第7頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)8 / 34基于樹型結(jié)構(gòu)的排序算法樹中節(jié)點的位置的確定和調(diào)整是通過對每一個節(jié)點中某個特定域的屬性值排序決定,通常,樹中節(jié)點都具有該屬性二叉排序樹堆排序如果樹中節(jié)點沒有現(xiàn)成的公共屬性,無法據(jù)以比較節(jié)點以安排其在生成樹中位置,怎么辦?第8頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)9 / 342. 什么是決策樹決策樹來自決策論, 由多個決策分支和可能的結(jié)果 (包括資源成本和

5、風(fēng)險) 組成,用來創(chuàng)建到達目標(biāo)的規(guī)劃;A Decision tree is a tree with branching nodes with a choice between two or more choices.也可以用來表示算法。分類預(yù)測:決策樹表示決策樹學(xué)習(xí)結(jié)果:表示為決策樹形式的離散值(布爾)函數(shù);Node, test attributesBranches, valuesRoot Node, first attributeLeaf Nodes, discrete values決策樹的表示?第9頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)

6、挖掘)10 / 34兩類問題, 右圖IF (Outlook = Sunny) (Humidity = High) THEN PlayTennis =?IF (Outlook = Sunny) (Humidity = Normal) THEN PlayTennis = ?兩步驟求解過程:Training examples:Day Outlook Temp. Humidity Wind Play TennisD1 Sunny Hot High Weak NoD2 Overcast Hot High Strong Yes 1. 歸納推理求得一般性結(jié)論(決策樹生成學(xué)習(xí))2. 由決策樹演繹推理得到新樣例

7、對應(yīng)的結(jié)果;OutlookSunnyOvercastRainHumidityYesWindHighNormalYesNoStrongWeakYesNo2.1 決策樹學(xué)習(xí) 和分類預(yù)測第10頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)11 / 34決策樹生成算法有指導(dǎo)學(xué)習(xí)樣本數(shù)據(jù)中既包含輸入字段、也包含輸出字段學(xué)習(xí)階段,生成決策樹模型基于特定屬性值比較,放置樣本在生成樹上修剪生成樹的特定算法分類預(yù)測階段,判斷分類結(jié)果基于邏輯,即通過對輸入字段取值的布爾邏輯比較實現(xiàn)對輸出變量的(分類)值的預(yù)測第11頁,共46頁,2022年,5月20日,11點5分

8、,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)12 / 34決策樹分類算法基于邏輯樣本數(shù)據(jù)中既包含輸入字段、也包含輸出字段學(xué)習(xí)階段,生成決策樹模型分類預(yù)測階段,判斷分類結(jié)果基于邏輯,即通過對輸入字段取值的布爾邏輯比較實現(xiàn)對輸出變量的(分類)值的預(yù)測每個葉子節(jié)點對應(yīng)一條推理規(guī)則,作為對新的數(shù)據(jù)對象進行分類預(yù)測的依據(jù)。第12頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)13 / 343. 決策樹的核心問題決策樹的生成對訓(xùn)練樣本進行分組關(guān)鍵,確定樹根節(jié)點和分支準(zhǔn)則停止生長時機決策樹的修剪解決過度擬合問題預(yù)先修剪,限值決策樹的充分生長,如:限制樹

9、的高度滯后修剪,待決策樹充分生長完畢后再進行修剪當(dāng)節(jié)點和分支數(shù)較多時,顯然不合適第13頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)14 / 343.1 決策樹表示法決策樹通過把樣本從根節(jié)點排列到某個葉子節(jié)點來分類樣本葉子節(jié)點即為樣本所屬的分類樹上每個節(jié)點說明了對樣本的某個屬性的測試, 如:濕度節(jié)點的每個后繼分支對應(yīng)于該屬性的一個可能值, High決策樹代表樣本的屬性值約束的合取的析取式OutlookSunnyOvercastRainHumidityYesWindHighNormalYesNoStrongWeakYesNo第14頁,共46頁,

10、2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)15 / 34OutlookSunnyOvercastRainHumidityYesWindHighNormalYesNoStrongWeakYesNo決策樹例圖的邏輯表達式?jīng)Q策樹代表實例屬性值約束的合取的析取式。從樹根到樹葉的每一條路徑對應(yīng)一組屬性測試的合取樹本身對應(yīng)這些合取的析取。 (Outlook=Sunny Humidity=High) (Outlook=Sunny Humidity=Normal)(Outlook=Overcast) (Outlook=Rain Wind=Weak) (Outlook=

11、Rain Wind=Strong)注意:右面的決策樹中沒有Temperature (溫度)屬性;而Outlook的屬性值有三個。第15頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)16 / 343.2 決策樹學(xué)習(xí)的適用問題適用問題的特征實例由“屬性-值”對表示(傳統(tǒng)的數(shù)據(jù)庫記錄屬性)目標(biāo)函數(shù)具有離散的輸出值可能需要析取的描述訓(xùn)練數(shù)據(jù)可以包含錯誤/訓(xùn)練數(shù)據(jù)可以包含缺少屬性值的實例問題舉例分類問題核心任務(wù)是把新(舊)樣例分派到各可能的離散值對應(yīng)的類別第16頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)

12、挖掘)17 / 343.2 決策樹方法的適用問題適用問題的特征問題舉例根據(jù)疾病分類患者/根據(jù)起因分類設(shè)備故障根據(jù)拖欠支付的可能性分類貸款申請(是否拒絕)根據(jù)人員分類情形更新數(shù)據(jù)庫記錄數(shù)據(jù)創(chuàng)新點?大型稀疏庫分類問題核心任務(wù)是把新(舊)樣例分派到各可能的離散值對應(yīng)的類別第17頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)18 / 344. C5.0算法大多數(shù)決策樹學(xué)習(xí)算法是一種核心算法的變體采用自頂向下的貪婪搜索 遍歷 可能的決策樹空間ID3 Iterative Dichotomiser 3是這種算法的代表, ID3C4.5C5.0如何安排節(jié)點在

13、樹中的順序樹(堆)結(jié)構(gòu)排序,需要樹中節(jié)點具有相同屬性,比較其屬性值大??;而后移動節(jié)點如何定義這個可以在決策樹中進行比較的屬性?換言之,該屬性測度如何計算以便于比較?第18頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)19 / 344.1 ID3算法算法思想:如何安排節(jié)點在樹中的順序自頂向下構(gòu)造決策樹從“哪一個屬性將在樹的根節(jié)點被測試”開始?使用統(tǒng)計測試來確定每一個實例屬性單獨分類 訓(xùn)練樣例的能力ID3的算法執(zhí)行過程對樣例集合S 分類能力最好的屬性被選作樹的根節(jié)點根節(jié)點的每個可能值產(chǎn)生一個分支訓(xùn)練樣例排列到適當(dāng)?shù)姆种е貜?fù)上面的過程,直到訓(xùn)練樣例

14、被安排到適當(dāng)?shù)娜~子上確定對應(yīng)的分類第19頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)20 / 344.1.1 最佳分類屬性信息增益用來衡量給定的屬性區(qū)分訓(xùn)練樣例的能力,中間(間接)表示屬性ID3算法在生成 樹 的每一步使用信息增益從候選屬性中選擇屬性用熵度量樣例的均一性第20頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)21 / 344.1.1 最佳分類屬性信息增益用熵度量樣例的均一性熵刻畫了任意樣例集合 S 的純度給定包含關(guān)于某個目標(biāo)概念的正反樣例的樣例集S,那么 S 相對這個布爾型分類

15、(函數(shù))的熵為信息論中對熵的一種解釋:熵確定了要編碼集合S中任意成員的分類所需要的最少二進制位數(shù);熵值越大,需要的位數(shù)越多。更一般地,如果目標(biāo)屬性具有c個不同的值,那么 S 相對于c個狀態(tài)的分類的熵定義為第21頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)22 / 344.1.1 最佳分類屬性(2)用信息增益度量熵的降低程度屬性A 的信息增益,使用屬性A分割樣例集合S 而導(dǎo)致的熵的降低程度Gain (S, A)是在知道屬性A的值后可以節(jié)省的二進制位數(shù)例子,注意是對當(dāng)前樣例集合計算上式第22頁,共46頁,2022年,5月20日,11點5分,星期

16、一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)23 / 34PlayTennis的14個訓(xùn)練樣例DayOutlookTemperatureHumidityWindPlayTennisD1SunnyHotHighWeakNoD2SunnyHotHighStrongNoD3OvercastHotHighWeakYesD4RainMildHighWeakYesD5RainCoolNormalWeakYesD6RainCoolNormalStrongNoD7OvercastCoolNormalStrongYesD8SunnyMildHighWeakNoD9SunnyCoolNormalWeakYesD1

17、0RainMildNormalWeakYesD11SunnyMildNormalStrongYesD12OvercastMildHighStrongYesD13OvercastHotNormalWeakYesD14RainMildHighStrongNo第23頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)24 / 34當(dāng)前樣例集合中的最佳分類屬性Gain (S, Outlook)=0.246Gain (S, Temperature)=0.029第24頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖

18、掘)25 / 34然后呢?類別值較多的輸入變量更容易成為當(dāng)前最佳GainsR(U,V)=Gains(U,V)/Entropy(V)是不是再比較剩余的幾個信息增益值?應(yīng)該怎么辦?注意決策樹每個分支上屬性間的關(guān)系第25頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)26 / 34根節(jié)點的左右孩子順序全正例、全負(fù)例第26頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)27 / 34用于學(xué)習(xí)布爾函數(shù)的ID3算法概要ID3(Examples, Target_attribute, Attributes)創(chuàng)建

19、樹的root節(jié)點,整棵樹的指針如果Examples都為正,返回label=+的單節(jié)點樹root; %原因在例子中說明如果Examples都為反,返回label=-的單節(jié)點樹root如果Attributes為空,那么返回單節(jié)點root,label=Examples中最普遍的Target_attribute值否則開始AAttributes中分類examples能力最好的屬性root的決策屬性A對于A的每個可能值vi(當(dāng)前子樹,根節(jié)點的每一個孩子節(jié)點)在root下加一個新的分支對應(yīng)測試A=vi令Examplesvi為Examples中滿足A屬性值為vi的子集如果Examplesvi為空在這個新分支下

20、加一個葉子節(jié)點,節(jié)點的label=Examples中最普遍的Target_attribute值否則在新分支下加一個子樹ID3( Examplesvi,Target_attribute,Attributes-A)結(jié)束返回root第27頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)28 / 34ID3算法舉例繼續(xù)這個過程,直到滿足以下兩個條件中的任一個所有的屬性已經(jīng)被這條路經(jīng)包括與這個節(jié)點關(guān)聯(lián)的所有訓(xùn)練樣例都具有相同的目標(biāo)屬性值第28頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)29 / 34E

21、ntropy and Information Gain這個信息增益到底怎么來的?在信息論中信息增益是什么含義?二者存在確定的關(guān)系嗎?譬如:等價;提示:不是從Y到X的信息增益而是從p(x) p(y)到p(x, y)的信息增益Pattern recognition and machine learningpp:4858第29頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)30 / 34決策樹學(xué)習(xí)中的假設(shè)空間搜索觀察ID3的搜索空間和搜索策略,認(rèn)識到這個算法的優(yōu)勢和不足在假設(shè)空間中搜索一個擬合訓(xùn)練樣例的最優(yōu)假設(shè)假設(shè)空間包含所有的決策樹,它是關(guān)于現(xiàn)有屬

22、性的有限離散值函數(shù)的一個完整空間,避免(有偏的)不完備假設(shè)空間不含目標(biāo)假設(shè)的問題維護單一的當(dāng)前假設(shè),不顧其它假設(shè), 前向策略不進行回溯,可能收斂到局部最優(yōu)每一步使用所有的訓(xùn)練樣例,不同于基于單獨的訓(xùn)練樣例遞增作出決定,容錯性增強第30頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)31 / 34決策樹學(xué)習(xí)的深入話題決策樹學(xué)習(xí)的實際問題確定決策樹增長的深(高)度處理連續(xù)值的屬性選擇一個適當(dāng)?shù)膶傩院Y選度量標(biāo)準(zhǔn)處理屬性值不完整的訓(xùn)練數(shù)據(jù)處理不同代價的屬性提高計算效率 /download.html為解決這些問題,ID3被擴展成C4.5第31頁,共46頁

23、,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)32 / 344.2 C4.5的修剪算法滯后修剪將生成樹轉(zhuǎn)換成規(guī)則再修剪,自己閱讀從葉子節(jié)點向上逐層修剪誤差估計,在訓(xùn)練樣本集上估計誤差通常,估計生成的決策樹在測試集上的預(yù)測誤差修剪標(biāo)準(zhǔn)修剪示例第32頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)33 / 344.2.1 避免過度擬合數(shù)據(jù)過度擬合對于一個假設(shè)h,如果存在其他的假設(shè)對訓(xùn)練樣例的擬合比它差,但在實例的整個分布上卻表現(xiàn)得更好時,我們說這個假設(shè)h過度擬合訓(xùn)練樣例定義:給定一個假設(shè)空間H,一個假設(shè)hH,

24、如果存在其他的假設(shè)hH,使得在訓(xùn)練樣例上h的錯誤率比h小,但在整個實例分布上h的錯誤率比h小,那么就說假設(shè)h過度擬合訓(xùn)練數(shù)據(jù)。圖3-6的例子 ,說明樹的尺寸(節(jié)點數(shù))對測試精度和訓(xùn)練精度的影響避免過度擬合必須控制樹尺寸!第33頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)34 / 34Overfitting第34頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)35 / 34避免過度擬合必須控制樹尺寸High accuracy, small errorLow accuracy, big erro

25、r第35頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)36 / 34避免過度擬合數(shù)據(jù)(2)導(dǎo)致過度擬合的原因一種可能原因是訓(xùn)練樣例含有隨機噪聲當(dāng)訓(xùn)練數(shù)據(jù)沒有噪聲時,過度擬合也有可能發(fā)生,特別是當(dāng)少量的樣例被關(guān)聯(lián)到葉子節(jié)點時,很可能出現(xiàn)巧合的規(guī)律性,使得一些屬性恰巧可以很好地分割樣例,但卻與實際的目標(biāo)函數(shù)并無關(guān)系。第36頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)37 / 34避免過度擬合數(shù)據(jù)(3)避免過度擬合的方法及早停止樹增長后修剪法兩種方法的特點第一種方法更直觀,但是精確地估計何時停止

26、樹增長很困難第二種方法被證明在實踐中更成功第37頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)38 / 34避免過度擬合數(shù)據(jù)(4)避免過度擬合的關(guān)鍵使用什么樣的準(zhǔn)則來計算最終決策樹的尺寸解決方法使用與訓(xùn)練樣例不同的一套分離的樣例來評估通過后修剪方法從樹上修剪節(jié)點的效用。使用所有可用數(shù)據(jù)進行訓(xùn)練,但進行統(tǒng)計測試來估計擴展(或修剪)一個特定的節(jié)點是否有可能改善在訓(xùn)練集合外的實例上的性能。使用一個顯式的標(biāo)準(zhǔn)來測度訓(xùn)練樣例和決策樹的編碼復(fù)雜度,當(dāng)這個測度最小時停止樹增長。第38頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)

27、據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)39 / 34避免過度擬合數(shù)據(jù)(5)方法評述第一種方法是最普通的,常被稱為訓(xùn)練和驗證集法可用的數(shù)據(jù)分成兩個樣例集合:訓(xùn)練集合,形成學(xué)習(xí)到的假設(shè)驗證集合,評估這個假設(shè)在后續(xù)數(shù)據(jù)上的精度方法的動機:即使學(xué)習(xí)器可能會被訓(xùn)練集合誤導(dǎo),但驗證集合不大可能表現(xiàn)出同樣的隨機波動驗證集合應(yīng)該足夠大,以便它本身可提供具有統(tǒng)計意義的實例樣本。常見的做法是,樣例的三分之二作訓(xùn)練集合, 三分之一作驗證集合。第39頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)40 / 344.2.1 C5.0決策樹的誤差估計針對決策樹的每個節(jié)點,以輸出變量的眾

28、數(shù)類別為預(yù)測類別;設(shè)第i個節(jié)點包含Ni個觀測樣本值,有Ei個預(yù)測錯誤的觀測,錯誤率,即誤差在誤差近似正態(tài)分布的假設(shè)下,對第i個節(jié)點的真實誤差 進行區(qū)間估計,置信度定位1- ,有悲觀估計:第40頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)41 / 344.2.2 C5.0決策樹的修剪標(biāo)準(zhǔn)在誤差估計的基礎(chǔ)上,依據(jù)“減少誤差”法判斷是否修剪節(jié)點;計算待剪子樹中葉子節(jié)點的加權(quán)誤差與父節(jié)點的誤差進行比較父節(jié)點的誤差較小,則剪掉該子樹父節(jié)點的誤差較大,保留該子樹第41頁,共46頁,2022年,5月20日,11點5分,星期一2022/9/3數(shù)據(jù)庫新技術(shù) (數(shù)據(jù)挖掘)42 / 34修剪節(jié)點、降低錯誤率將樹上的每一個節(jié)點作為修剪的候選對象修剪步驟刪除以此節(jié)點為根的子樹,使它成為葉結(jié)點把和該節(jié)點關(guān)聯(lián)的訓(xùn)練樣例的最常見分類賦給它反復(fù)修剪節(jié)點,每

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論