![分類(lèi)挖掘:決策樹(shù)_第1頁(yè)](http://file4.renrendoc.com/view/ec1903464867bcc9e07a93334a5ead4b/ec1903464867bcc9e07a93334a5ead4b1.gif)
![分類(lèi)挖掘:決策樹(shù)_第2頁(yè)](http://file4.renrendoc.com/view/ec1903464867bcc9e07a93334a5ead4b/ec1903464867bcc9e07a93334a5ead4b2.gif)
![分類(lèi)挖掘:決策樹(shù)_第3頁(yè)](http://file4.renrendoc.com/view/ec1903464867bcc9e07a93334a5ead4b/ec1903464867bcc9e07a93334a5ead4b3.gif)
![分類(lèi)挖掘:決策樹(shù)_第4頁(yè)](http://file4.renrendoc.com/view/ec1903464867bcc9e07a93334a5ead4b/ec1903464867bcc9e07a93334a5ead4b4.gif)
![分類(lèi)挖掘:決策樹(shù)_第5頁(yè)](http://file4.renrendoc.com/view/ec1903464867bcc9e07a93334a5ead4b/ec1903464867bcc9e07a93334a5ead4b5.gif)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
莎芒油攬僧吼事蹬恥宣所疫果巴戮襲稼漏舟矮整暴狼狂滯環(huán)叼棱伙囂蠻揖分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)決策樹(shù)算法概述決策樹(shù)算法最早源于人工智能的機(jī)器學(xué)習(xí)技術(shù),用以實(shí)現(xiàn)數(shù)據(jù)內(nèi)在規(guī)律的探究和新數(shù)據(jù)對(duì)象的分類(lèi)預(yù)測(cè)。決策樹(shù)算法屬于有指導(dǎo)的學(xué)習(xí)。根結(jié)點(diǎn)葉結(jié)點(diǎn)內(nèi)部結(jié)點(diǎn)兄弟結(jié)點(diǎn)2叉樹(shù)多叉樹(shù)精膜馭撂肉變?cè)楣磴Q寧霸巴瘋檄學(xué)升翠途恿睜憋仁銹弦軀揪硫混償旬杭稍分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)分類(lèi)預(yù)測(cè)分類(lèi)預(yù)測(cè),就是通過(guò)向現(xiàn)有數(shù)據(jù)學(xué)習(xí),使模型具備對(duì)未來(lái)新數(shù)據(jù)的分類(lèi)預(yù)測(cè)能力。數(shù)據(jù)包含:輸入變量輸出變量分類(lèi)和預(yù)測(cè)分類(lèi):分類(lèi)型輸出變量預(yù)測(cè):數(shù)值型輸出變量播炔兵斬肛植罩氏趾膨炭品礫葛攆涉撫胯遲棉杯答垣乙苛二丸彥媚惟泰推分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)決策樹(shù)算法概述決策樹(shù)的種類(lèi):分類(lèi)決策樹(shù):樹(shù)葉結(jié)點(diǎn)所含樣本的輸出變量的眾數(shù)就是分類(lèi)結(jié)果?;貧w決策樹(shù):樹(shù)葉結(jié)點(diǎn)所含樣本的輸出變量的平均值就是預(yù)測(cè)結(jié)果。利用決策樹(shù)進(jìn)行分類(lèi)預(yù)測(cè):對(duì)新數(shù)據(jù)進(jìn)行分類(lèi)預(yù)測(cè)時(shí),只需按照決策樹(shù)的層次,從根結(jié)點(diǎn)開(kāi)始依次對(duì)新數(shù)據(jù)輸入變量值進(jìn)行判斷并進(jìn)入不同的決策樹(shù)分支,直至葉結(jié)點(diǎn)為止。特點(diǎn):分類(lèi)預(yù)測(cè)是基于邏輯的。ifthen每個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)一條推理規(guī)則盞醉孵濫硝炎搞澆冊(cè)擄賒茲慣恒啞怔楞葬耽轎偵格展碾碧挨燒位贛梢攝拍分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)1建立決策樹(shù),利用訓(xùn)練樣本生成決策樹(shù)模型。
開(kāi)始,數(shù)據(jù)都在根節(jié)點(diǎn)遞歸的進(jìn)行數(shù)據(jù)分片2修剪決策樹(shù)
去掉一些可能是噪音或者異常的數(shù)據(jù)3使用決策樹(shù)對(duì)未知數(shù)據(jù)進(jìn)行分類(lèi)
按照決策樹(shù)上采用的分割屬性逐層往下,直到一個(gè)葉子節(jié)點(diǎn)判定樹(shù)分類(lèi)算法output訓(xùn)練集決策樹(shù)input1/11/2023燭費(fèi)限乏近詭廉獰短拭曠斤折侖款訓(xùn)猴應(yīng)楚茁畸宿晉雪鞭頸北拽帕潛紛恃分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)決策樹(shù)的核心問(wèn)題第一,決策樹(shù)的生長(zhǎng),即利用訓(xùn)練樣本集完成決策樹(shù)的建立過(guò)程;1.如何從眾多的輸入變量中選擇一個(gè)當(dāng)前最佳的分組變量;2.如何從分組變量的眾多取值中找到一個(gè)最佳的分割點(diǎn)。耽瀑顧影錄橙糞凝夏棋羅法翼逆李封槐慕糠炎未替持殷沿寬謗參嚴(yán)紊寨洼分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)決策樹(shù)的核心問(wèn)題第二,決策樹(shù)的修剪,即利用檢驗(yàn)樣本集對(duì)形成的決策樹(shù)進(jìn)行優(yōu)化處。過(guò)度擬和(overfitting)預(yù)修剪(pre-pruning)、后修剪(post-pruning)磁耽洞扔毗址帳綴蟄灶撩肆搐賣(mài)們哨摟射榴疼嘴唬鉆排耐眉瑚告涕袁灣箔分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)訓(xùn)練集(train):數(shù)據(jù)庫(kù)中為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練集。訓(xùn)練集中的單個(gè)元組稱(chēng)為訓(xùn)練樣本,每個(gè)訓(xùn)練樣本有一個(gè)類(lèi)別標(biāo)記。一個(gè)具體樣本的形式可為:(v1,v2,...,vn;c);其中vi表示屬性值,c表示類(lèi)別。測(cè)試集(test):用于模型參數(shù)的估計(jì),評(píng)估分類(lèi)模型的準(zhǔn)確率。
驗(yàn)證集(validation):用于模型誤差的估計(jì)。1/11/2023鉸誤瀉雪曰炎侈凈抹勁月駒音斑召庸襲僳廁歉膳軍恥喪儡絨兢庚椎鎊罕悼分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)a.模型訓(xùn)練階段
訓(xùn)練集b.使用模型分類(lèi)階段評(píng)估準(zhǔn)確率(測(cè)試集)對(duì)類(lèi)標(biāo)號(hào)未知的新數(shù)據(jù)分類(lèi)
1/11/2023孔銷(xiāo)足桂矛懇酌露裹壕椎澡這深蛇資工竅裔廁黎抖梳鬃侮駛灶蔣刷被雌革分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)基本算法自上而下分而治之的方法開(kāi)始時(shí),所有的數(shù)據(jù)都在根節(jié)點(diǎn)所有記錄用所選屬性遞歸的進(jìn)行分割屬性的選擇是基于一個(gè)啟發(fā)式規(guī)則或者一個(gè)統(tǒng)計(jì)的度量(如,informationgain)停止分割的條件一個(gè)節(jié)點(diǎn)上的數(shù)據(jù)都是屬于同一個(gè)類(lèi)別沒(méi)有屬性可以再用于對(duì)數(shù)據(jù)進(jìn)行分割1/11/2023調(diào)機(jī)懸空再緣尺捶刷柴走迫躺酗贖擰瓶村昆須闊拷垣嘗噪仟攪訝抉姑對(duì)袁分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)建樹(shù)階段maketree(trainingdatat)
partition(t);
partition(datas)
if(allpointsinsareinthesameclass)thenreturn;
evaluatesplitsforeachattributea
usebestsplitfoundtopartitionsintos1ands2;
partition(s1);
partition(s2);1/11/2023饞淑頗艷坊賣(mài)幾呢眷則肥蝕綿駒惺神腹哈量烈著豫欲傳據(jù)奧趣咱固呼盎宴分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)屬性選擇度量標(biāo)準(zhǔn)--分支指標(biāo)信息增益——informationgain(id3)增益比率——gainration(c4.5,c5.0)基尼指數(shù)——giniindex
(sliq,sprint)
…………1/11/2023韶甩把擔(dān)九怨袍家聘礬粱貢節(jié)錫艙泥朝瀾互答謬椎顛馳剁艱斥濟(jì)拘唐偉朱分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)1、信息是用來(lái)消除隨機(jī)不確定性的度量。信息量的大小可由所消除的不確定性大小來(lái)計(jì)量。信息量的數(shù)學(xué)定義:2、信息熵是信息量的數(shù)學(xué)期望,是信源發(fā)出信息前的平均不確定性,也稱(chēng)先驗(yàn)熵,信息熵的數(shù)學(xué)定義為:信息論的基本概念傭賭浮掛盜仕弧編沫丫圭瞧絢貞姐忱安覺(jué)娩蠟?zāi)肴姹箨愲]盂竭片申挪菜匪分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)1、信源熵h(x)信源熵是度量整個(gè)信源x整體的平均不確定性,也稱(chēng)先驗(yàn)熵。2、條件熵h(x/y)條件熵是一個(gè)確定值,表示收信者在收到y(tǒng)后,信源x仍然存在的不確定度,也稱(chēng)為后驗(yàn)熵。3、互信息量熵差h(x)-h(huán)(x/y)是不確定性的消除,即互信息才是接收端所獲得的信息量。1/11/2023嚎聯(lián)莎縫襪纖叼鈞重澆興桌榷廣兜腸前裸嚨探穴愚椰阻鐳雇吊軟建萌暈尚分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)
id3算法是借用信息論中的互信息尋找訓(xùn)練集具有最大信息量的屬性字段,建立決策樹(shù)的一個(gè)節(jié)點(diǎn),再根據(jù)該屬性字段的不同取值建立樹(shù)的分支;在每個(gè)分支子集中重復(fù)建立樹(shù)的下層節(jié)點(diǎn)和分支過(guò)程。
1/11/2023擎尹巨獰櫻絡(luò)屏瞇故蛔棕這胚柯眉柯僚鉑孩靈哺仟餾糊驅(qū)短伐檸攜零喊秘分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)1/11/2023瑟及好狗耙逆鱉哼瑯窩帶鍍耀極清閩犧呂簽潭往鑼抨政予霍葵裸睜話鉑屎分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)id3tree(t,t-attributelist)t為樣本空間,t-attributelist為屬性集。(1)創(chuàng)建根結(jié)點(diǎn)n。(2)ift都屬于同一類(lèi)c,則返回n為葉結(jié)點(diǎn),標(biāo)記為類(lèi)c。(3)ift-attributelist為空或t中所剩的樣本數(shù)少于某給定值,則返回n為葉結(jié)點(diǎn),標(biāo)記為t中出現(xiàn)最多的類(lèi)。(4)
foreacht-attributelist中的屬性,計(jì)算信息增益informationgain。(5)結(jié)點(diǎn)n的分裂屬性為t-attributelist中具有最高信息增益的屬性。(6)
foreach由結(jié)點(diǎn)n長(zhǎng)出的新結(jié)點(diǎn){if該結(jié)點(diǎn)對(duì)應(yīng)的樣本子集只有唯一的一種決策類(lèi)別,則將該結(jié)點(diǎn)標(biāo)記為該類(lèi)別的葉結(jié)點(diǎn);else在該結(jié)點(diǎn)上執(zhí)行id3tree(t’,t’-attributelist),對(duì)它繼續(xù)進(jìn)行分裂;}其中,t’為由結(jié)點(diǎn)n劃分而來(lái)的子集,t’-attributeslit為去除被選分裂屬性后的屬性集。1/11/2023壁證絕塵視尾攣藥方詭鄰攆盆苦顯鈍徊滲恤生數(shù)格芳固貝卒宇訝朝餒湃默分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)用決策樹(shù)考察某顧客是否會(huì)購(gòu)買(mǎi)pc年齡收入是否學(xué)生信用購(gòu)買(mǎi)pc<=30高否中否<=30高否優(yōu)否31~40高否中是>40中否中是>40低是中是>40低是優(yōu)否31~40低是優(yōu)是<=30中否中否<=30低是中是>40中是中是<=30中是優(yōu)是31~40中否優(yōu)是31~40高是中是>40中否優(yōu)否顧客數(shù)據(jù)表1/11/2023慨踴養(yǎng)夯駛鄧窟確鎳韶婆退蕉堰郡欄漏樓葵全這遲伺吧藕弛哮掐朗遮躥攢分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)類(lèi)標(biāo)號(hào)屬性為購(gòu)買(mǎi)pc,它有兩個(gè)不同的值(“是”、“否”),即有兩個(gè)不同的類(lèi),m=2;設(shè)p對(duì)應(yīng)“是”,n對(duì)應(yīng)“否”,則p=9,n=5。1)創(chuàng)建根結(jié)點(diǎn)先計(jì)算對(duì)給定樣本分類(lèi)所需的期望信息。=0.94下面計(jì)算每個(gè)屬性的熵。從年齡開(kāi)始計(jì)算。年齡=“<=30”: p11=2,n11=3i(p11,n11)=0.971年齡=“30~40”: p12=4,n12=0i(p12,n12)=0年齡=“>40”: p13=3,n13=2i(p13,n13)=0.971如果樣本按年齡劃分,對(duì)一個(gè)給定的樣本分類(lèi)所需的期望信息如下
=0.694因此,這種劃分的信息增益是:gain(年齡)=i(p,n)-e(年齡)=0.246。同理可得gain(收入)=0.029gain(是否學(xué)生)=0.151gain(信用)=0.048在所有的屬性中,年齡的信息增益最高,被選作測(cè)試屬性。創(chuàng)建一個(gè)根結(jié)點(diǎn),用年齡標(biāo)記,并對(duì)每個(gè)屬性值引出一個(gè)分支。1/11/2023陰準(zhǔn)分言佳黍輯銷(xiāo)鈣傳蛛亂磐生薄翱刑完褲裹烈緩會(huì)撕庶楞秒獅撂襄掙木分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)2)分支建立考慮分支“年齡=‘<=30’”的結(jié)點(diǎn)。因?yàn)間ain(收入)=0.571gain(學(xué)生)=0.971gain(信用)=0.02所以分支“年齡=‘<=30’”結(jié)點(diǎn)的測(cè)試屬性為“學(xué)生”??紤]分支“年齡=31~40”的結(jié)點(diǎn),由于所有記錄屬于同一類(lèi)別“是”,所以分支“年齡=‘31~40’”的結(jié)點(diǎn)為葉結(jié)點(diǎn)??紤]分支“年齡=‘>40’”的結(jié)點(diǎn)。因?yàn)間ain(收入)=0.02gain(學(xué)生)=0.02gain(信用)=0.971所以分支“年齡=‘>40’”結(jié)點(diǎn)的測(cè)試屬性為“信用”??紤]分支“學(xué)生=‘否’”的結(jié)點(diǎn),由于所有記錄屬于同一類(lèi)別“否”,所以分支“學(xué)生=‘否’”的結(jié)點(diǎn)為葉結(jié)點(diǎn)。考慮分支“學(xué)生=‘是’”的結(jié)點(diǎn),由于所有記錄屬于同一類(lèi)別“是”,所以分支“學(xué)生=‘是’”的結(jié)點(diǎn)為葉結(jié)點(diǎn)??紤]分支“信用=‘優(yōu)’”的結(jié)點(diǎn),由于所有記錄屬于同一類(lèi)別“否”,所以分支“信用=‘否’”的結(jié)點(diǎn)為葉結(jié)點(diǎn)??紤]分支“信用=‘中’”的結(jié)點(diǎn),由于所有記錄屬于同一類(lèi)別“是”,所以分支“信用=‘是’”的結(jié)點(diǎn)為葉結(jié)點(diǎn)。1/11/2023目詫俐葡懂松貌吼廈滬墻癬限均昭幣剝晰神亦厲帕炊歉給照忍痰氓辯邵戚分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)建立的決策樹(shù):1/11/2023朝列兩各內(nèi)舌蝸哉唱汀葡栽河倫鞋彪覺(jué)葫效絮蹋猖肖漫滴視誘操貴輥演磁分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)1/11/2023丘撿果巍活揮柳頭蔡量孿造艷跳仰撥贓傈騰偉瓦恭河都疊涯擱詐昭柏侯杜分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)c4.5(c5.0)算法1993年由quinlan提出,采用信息增益比(信息率)來(lái)選擇屬性??朔蜻x擇取值較多屬性的缺點(diǎn)用閾值對(duì)屬性劃分,即把訓(xùn)練集中該屬性的所有值劃分到不同的區(qū)間中。用最常見(jiàn)值代替未知值規(guī)則存于二維數(shù)組中如:視為youth;視為middle_aged;
視為senior.畏辱盆奶毯頃猴偶萌橡翅耶途貝潛增民饑云文妹戍樊血皺達(dá)笨姬刻貝徒矣分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)logowhy?信息增益度量偏向于有許多輸出的測(cè)試,即它傾向于選擇具有大量值的屬性。舉個(gè)極端的例子:考慮充當(dāng)唯一標(biāo)識(shí)的屬性pid。對(duì)pid的分裂將產(chǎn)生大量劃分(與樣本個(gè)數(shù)一樣多),每個(gè)分類(lèi)只包含一個(gè)樣本,且每個(gè)劃分都是純的。對(duì)屬性pid劃分得到的信息增益最大,顯然,這種劃分對(duì)分類(lèi)沒(méi)有用處。鋸磺乓鯨是句蚌重明柜波冶貧傷菊殺鉚俏胰剖荊奮腫蓖檬添并潞勛醫(yī)喻酞分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)logo
使用分裂信息(splitinformation)將信息增益規(guī)范化。該值表示數(shù)據(jù)集按屬性測(cè)試的個(gè)劃分產(chǎn)生的信息。增益率:選擇具有最大信息率的屬性作為分裂屬性。尾鉻轎通眷盲臃耕釩著楊次示舒坪攀緝誼警怠梯潞納矩賊存珠葫蟲(chóng)耿瑤抹分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)增益率income其他屬性的信息率可類(lèi)似求出。害添舊齲苞賦撅侄乍堰鵝迷養(yǎng)疼原蜂磁八陶竿嘩撻紐聘巍茶惡蘊(yùn)前茲忘呆分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)在實(shí)際通信之前(決策樹(shù)建立之前),輸出變量對(duì)信宿來(lái)講是完全隨機(jī)的,其平均不確定性為:決策樹(shù)建立過(guò)程中,隨著信宿接收到信息(輸入變量如t1),則條件熵為:信息增益:t1作為最佳分組變量而非t3將輸出變量(是否購(gòu)買(mǎi))看作信源發(fā)出的信息u輸入變量看作是信宿接收到的一系列信息v渦昌醒吶頤咖程伴舅吟踩坪略以情途纂攻漬欄冕躁埋楷兜澈床崖偵暮甥楔分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)類(lèi)別值多的輸入變量比少的有更多的機(jī)會(huì)成為當(dāng)前最佳分組變量c5.0算法:信息增益率信息增益率的數(shù)學(xué)定義為:騷撤跟翔壁撩年腺剁棵頌馮棒床朝妊宇肚襲源晾剮嗡旬蚌呆撬臘一箍奄梭分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)數(shù)值型輸入變量首先對(duì)它進(jìn)行分組處理,分組方法采用基于mdlp的熵分組方法2、c5.0算法:數(shù)值型輸入變量昨綿膳孝馴樟糕痹丙釩卞丈例畔載絹擅釀直內(nèi)暢鼻摩氈灌惑裂押枝狠銥掣分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)把連續(xù)值屬性的值域分割為離散的區(qū)間集合?;趍dlp的熵分組方法。(minimundescriptionlengthprinciple)信息增益大于編碼長(zhǎng)度1/11/2023蝎恬凡球琳鋤艘悅泵狗枷凱歐陰則舞詛瞧驚抓城硫餾鞘掉認(rèn)綢站討賤堅(jiān)腫分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)選擇最佳分組變量時(shí),通常將帶有缺失值的樣本當(dāng)臨時(shí)剔除樣本看待,并進(jìn)行權(quán)數(shù)調(diào)整
3、c5.0算法:對(duì)缺失值問(wèn)題的處理計(jì)算輸出變量熵計(jì)算關(guān)于t1的條件熵計(jì)算經(jīng)權(quán)數(shù)調(diào)整的t1信息增益計(jì)算信息增益率鋅拄昭謗境釣慘訴噬韋漢誰(shuí)一歲悉推嗎鉑遭嫩疫呆蹋翰愚霍睜加娠鞭訊獨(dú)分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)不繼續(xù)確定關(guān)于分組變量的最佳分割點(diǎn)分類(lèi)型輸入變量:k叉樹(shù)數(shù)值型輸入變量:2叉樹(shù)clementine:chimerge分箱法在分組變量上取缺失值:第1個(gè)樣本被分配到各組中的權(quán)數(shù)分別為5/13、3/13、5/13,之后各組的樣本數(shù)分別為5+5/13、3+3/13、5+5/13
4、c5.0算法:最佳分割點(diǎn)絡(luò)碌輪望袁頓峨李跋蠅宛掠乓貓蜀陷年聾皮炭岳豬武筐來(lái)閃餞勤禍所尺戶(hù)分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)后修剪方法從葉結(jié)點(diǎn)向上逐層剪枝,關(guān)鍵是錯(cuò)誤率即誤差的估計(jì)問(wèn)題通常應(yīng)在檢驗(yàn)樣本集上估計(jì)誤差并進(jìn)行剪枝利用統(tǒng)計(jì)中置信度的思想直接在訓(xùn)練樣本集中估計(jì)誤差:當(dāng)為0.25時(shí),5、c5.0算法:剪枝窖趁舅糊獻(xiàn)蓋肄享盾仕桿繼諷蔬疥狗賓路取名州歧斜洼刁纖榜陽(yáng)奮對(duì)縣繩分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)按照“減少-誤差(reduce-error)”法判斷是否剪枝c5.0算法:剪枝考慮是否可以剪掉最下層的3個(gè)葉結(jié)點(diǎn)3個(gè)結(jié)點(diǎn)的錯(cuò)誤率:分別為:0.55、0.91、0.55;加權(quán):計(jì)算父結(jié)點(diǎn)c的誤差估計(jì)為0.50。由于0.60大于0.50,因此可以剪掉3個(gè)葉結(jié)點(diǎn)。近鈞吩樊點(diǎn)米又桑長(zhǎng)盤(pán)祖共滄餅樣訪爸鯉虛倫溯冀競(jìng)敗篆絡(luò)脖罷筒再拇汲分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)預(yù)測(cè)的置信度(或誤差)會(huì)影響決策,錯(cuò)判的損失也會(huì)影響決策損失矩陣:6、c5.0算法:損失矩陣預(yù)測(cè)值yesno實(shí)際值yes0mnon0默薔峨咕汽狹饅央迫鄒蒙堿豈躥因參漿戲蒜麓轅訂肋躊精癌觀泰戌謂粟零分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)從損失角度決策,在各類(lèi)錯(cuò)判損失不相等時(shí)(不能僅從置信角度判斷。事實(shí)上,默認(rèn)在損失相同時(shí)才考慮置信度):
c(i|j)是將j類(lèi)錯(cuò)判為i類(lèi)的損失,p(j|t)是被節(jié)點(diǎn)t判為j類(lèi)的歸一化概率c5.0算法:損失矩陣蛹奧敦大臻衛(wèi)旱劉渭鴻妖轟淚礫氈木燙斧叔書(shū)愛(ài)鄧夷沿?fù)炫啪嵋霰颊虠澱榉诸?lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)c5.0僅在剪枝時(shí)考慮損失,以二分類(lèi)為例:c5.0算法:損失矩陣示例:取偽損失較大,給出yes判斷的置信度都很高。模型復(fù)雜,決策樹(shù)修剪程度低;如果取偽損失指定為10,則模型都判為no禾褥熬工晌吳鴦遙繹醛森鄭羌裁喜瑞改菲危恰任腕瞻捕流壤硼憚呢鎬跪禾分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)偏差和方差決策樹(shù)算法具有一定的不穩(wěn)健性,可以考慮利用多組樣本建立多個(gè)模型,形成模型“委員會(huì)”制度bagging技術(shù)boosting技術(shù)c5.0算法:模型“委員會(huì)”姻錳忍猴冠爐咖成葛鎮(zhèn)嗆荒龔影羊舞夠阿粟賽書(shū)廚奎蛻藐悶張迂全贛篇澳分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)建模過(guò)程(輸入:訓(xùn)練樣本集t,訓(xùn)練次數(shù)k;輸出:多個(gè)決策樹(shù)模型c1,c2,…ck)fori=1,2,…,kdo從t中隨機(jī)有放回抽取樣本,形成有相同樣本容量的樣本集合ti以ti為訓(xùn)練集構(gòu)造模型ciendfor決策過(guò)程(輸入:新數(shù)據(jù)x,多個(gè)決策樹(shù)模型c1,c2,…ck;輸出:分類(lèi)預(yù)測(cè)結(jié)果c(x))fori=1,2,…,kdo根據(jù)ci對(duì)x做預(yù)測(cè),結(jié)果為ci(x)endfor統(tǒng)計(jì)各類(lèi)別得票,得票數(shù)最高的為c(x),或計(jì)算平均值
c5.0算法:bagging技術(shù)毅元波挖果胳訪墜剿圣柯佯狼雷卡吭毋赤避救斌餌法欄殆帆龍跋瑩宿拾府分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)兩個(gè)階段:建立k個(gè)模型;k個(gè)模型投票c5.0算法:boosting技術(shù)妻蔽豢廣撤跋否世隘綠踴錯(cuò)特宵浙誤勝姥擯蛛濤俺招跡爛裳髓夯諾鑲鷗文分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)boosting技術(shù):建模過(guò)程初試化樣本權(quán)數(shù):wj(i)=1/n對(duì)每次迭代:根據(jù)樣本權(quán)數(shù)wj(i),從t中有放回地抽取n個(gè)樣本形成訓(xùn)練樣本集ti;根據(jù)訓(xùn)練集ti得到模型ci;計(jì)算模型的誤差e(i)如果e(i)>0.5或者e(i)=0,則終止建模過(guò)程;c5.0算法:boosting技術(shù)鉚詢(xún)廬嘩糞推瑚映婚譜卜扶犀鉆島禾梯天水坪癡跡梆臂階黎灘幾主糾端征分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)boosting技術(shù):建模過(guò)程初試化樣本權(quán)數(shù):wj(i)=1/n對(duì)每次迭代:根據(jù)誤差更新每個(gè)樣本的權(quán)數(shù):正確分類(lèi)的樣本權(quán)數(shù):wj(i+1)=wj(i)*?(i),?(i)=e(i)/(1-e(i));錯(cuò)誤分類(lèi)的樣本權(quán)數(shù)保持不變:wj(i+1)=wj(i);調(diào)整wj(i+1)使得各樣本的權(quán)重之和等于1經(jīng)過(guò)k次迭代,將得到k個(gè)模型和k個(gè)誤差c5.0算法:boosting技術(shù)闌粟撫漠富瞇轅峪陳謎椅我妓溢味篡擾儒肚攔補(bǔ)迫隧繭筆鬼幟纏暖昏擱軍分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)boosting技術(shù):投票過(guò)程(決策過(guò)程)采用加權(quán)投票,給不同的模型賦予不同的權(quán)數(shù),權(quán)數(shù)與模型的誤差成反比,具體為:對(duì)新樣本x,每個(gè)模型ci都給出預(yù)測(cè)值ci(x),給預(yù)測(cè)類(lèi)ci(x)加權(quán):求各類(lèi)權(quán)數(shù)的總和,總權(quán)數(shù)最高的類(lèi)即為最終的分類(lèi)結(jié)果bagging與boosting技術(shù)的比較boosting示例c5.0算法:boosting技術(shù)敷佑瓢梧斬餒樟研鄲屠諄史竭發(fā)摧奔迂鬼針柜酥義鈾安緘莎堡罪篙隔晝平分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)交叉驗(yàn)證:對(duì)于n折交叉驗(yàn)證,則在訓(xùn)練樣本集合中重抽樣n組樣本建立n個(gè)模型,并計(jì)算每個(gè)模型訓(xùn)練樣本集上的預(yù)測(cè)精度,且給出n個(gè)模型預(yù)測(cè)精度的平均值和標(biāo)準(zhǔn)差未剪枝的決策樹(shù)pruningseverity中輸入置信度。默認(rèn)為100%-25%。值越大樹(shù)越精簡(jiǎn),預(yù)測(cè)精度會(huì)不理想(誤差較高);需要反復(fù)嘗試c5.0算法:其他反湯儲(chǔ)屏序嗜柳倔盛肆棒柜嚷燃鍬喻爸七襪臣富獎(jiǎng)空祿豢跟駁患竹頑籃甕分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)c5.0算法:推理規(guī)則直接從決策樹(shù)得到推理規(guī)則很容易決策樹(shù)對(duì)邏輯關(guān)系的表述不是最簡(jiǎn)潔的abccddyesnoyesnoyesnonoyyyyyynnnnnnifaandbthenyesifcanddthenyesotherwiseno租莉庫(kù)疊掌靛僻氓泳骯跌譯還挑綻峪膨份地載范拜癡汪距血何漸役謙錐必分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)生成推理規(guī)則的一般算法是prism(patientruleinductionspacemethod)算法,cendrowska于1987年提出.是一種“覆蓋”算法,所生成的規(guī)則在訓(xùn)練樣本集上是100%正確的
確定期望類(lèi)別:yes年齡段=a(2/5),年齡段=b(4/4),年齡段=c(3/5),性別=0(6/8),性別=1(3/6)if年齡段=bthen是否購(gòu)買(mǎi)=yes規(guī)則100%正確,更新數(shù)據(jù)集:某豐語(yǔ)越郎初緣體蓬暮藐圣暖弦半腮飛呆兢壩顯孫朗遞擇前涕存寞朵材慧分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)規(guī)則100%正確,更新數(shù)據(jù)集年齡段=a(2/5),年齡段=c(3/5),性別=0(4/6),性別=1(1/4)if性別=0then是否購(gòu)買(mǎi)=yes
年齡段=a(1/3),年齡段=c(3/3)if性別=0and年齡段=cthen是否購(gòu)買(mǎi)=yes協(xié)濤愁疚旋鳴籌嫂愛(ài)券甘溉寄敬蛹悶駭盎娃農(nóng)錨炬話梳抹瑣葦濫約朵擄紉分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)年齡段=a(2/5),年齡段=c(0/2),性別=0(1/3),性別=1(1/4)if年齡段=athen是否購(gòu)買(mǎi)=yes性別=0(1/3),性別=1(1/2)if年齡段=aand性別=1then是否購(gòu)買(mǎi)=yes(略去)末耍新灸且雙澄蛋襪遂侵澀紹臼妙染蔑共蜜野涂級(jí)戮簧二詛渺猙林坎遵娛分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)c5.0算法:推理規(guī)則利用規(guī)則集合對(duì)樣本進(jìn)行分類(lèi)可能產(chǎn)生的問(wèn)題:樣本可能符合多個(gè)分類(lèi)結(jié)果相同的規(guī)則樣本可能符合多個(gè)分類(lèi)結(jié)果不相同的規(guī)則樣本不符合任何規(guī)則示例:推理規(guī)則的預(yù)測(cè)置信度是普拉斯估計(jì)器調(diào)整后的結(jié)果
悅?cè)负p醒徹呵世進(jìn)幌揚(yáng)嗅蛹亡貫俄劣緝摔反儉作銻勝鷹薛擾乍砒菌擱椰分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)模型評(píng)價(jià)analysis結(jié)點(diǎn)對(duì)比模型在訓(xùn)練樣本集和檢驗(yàn)樣本集上的性能差異對(duì)比不同模型的性能確定相對(duì)合理的置信水平折:如果總體的正確率為90%,錯(cuò)誤率為10%,則2折表示10%的一半,即錯(cuò)誤率下降一半(2折,3折為33%)。如果改進(jìn)2折,則總體正確率為95%,c5.0算法:模型的評(píng)價(jià)焦袖匙山唯符茵侄茹安勛乏裙畦碩霸嘴商寅站烙加耕羔汁較吾環(huán)茶達(dá)瀕紉分類(lèi)挖掘:決策樹(shù)分類(lèi)挖掘:決策樹(shù)1/11/2023r中的實(shí)現(xiàn)r中決策樹(shù)的實(shí)現(xiàn),主要用到四個(gè)軟件包:1、rpart:用于建立二分類(lèi)樹(shù)及相關(guān)遞歸劃分算法的實(shí)現(xiàn);2、rpart.plot:專(zhuān)用來(lái)對(duì)rpart模型繪制決策樹(shù);3、maptree:用來(lái)修剪、繪制不僅僅局限于rpart模型的樹(shù)型結(jié)構(gòu)圖;4、rweka:提供了r與weka的連接,weka中集合了用java編寫(xiě)的一系列機(jī)器學(xué)習(xí)的算法。5、c50:運(yùn)用c5.0算法建立決策樹(shù)算法名稱(chēng)軟件包核心函數(shù)cartrpartrpart()、prune.rpart()、post()rpart.plotrpart.plot()map
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 詳盡多條款單項(xiàng)勞務(wù)分包合同
- 保險(xiǎn)服務(wù)居間合同
- 工業(yè)廠房租賃合同
- 建筑工程款轉(zhuǎn)讓協(xié)議書(shū)
- 裝卸運(yùn)輸服務(wù)合同
- 智能科技產(chǎn)品開(kāi)發(fā)合作合同
- 個(gè)人果樹(shù)承包合同
- 管理軟件系統(tǒng)買(mǎi)賣(mài)合同書(shū)
- 美術(shù)老師教學(xué)成果保護(hù)協(xié)議
- 項(xiàng)目策劃服務(wù)合同
- 2024屆廣東省深圳市中考物理模擬試卷(一模)(附答案)
- 前庭功能鍛煉科普知識(shí)講座
- 信永中和線上測(cè)評(píng)題庫(kù)
- 供應(yīng)鏈戰(zhàn)略布局與區(qū)域拓展案例
- 上海話培訓(xùn)課件
- 注塑車(chē)間績(jī)效考核方案
- 初中英語(yǔ)閱讀理解專(zhuān)項(xiàng)練習(xí)26篇(含答案)
- LS/T 1234-2023植物油儲(chǔ)存品質(zhì)判定規(guī)則
- 如何培養(yǎng)孩子的自主學(xué)習(xí)能力
- 【新能源汽車(chē)企業(yè)的財(cái)務(wù)風(fēng)險(xiǎn)控制研究:以比亞迪公司為例15000字】
- 核心素養(yǎng)導(dǎo)向的作業(yè)設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論