第5章數(shù)據(jù)分類_第1頁
第5章數(shù)據(jù)分類_第2頁
第5章數(shù)據(jù)分類_第3頁
第5章數(shù)據(jù)分類_第4頁
第5章數(shù)據(jù)分類_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2023/2/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘1第5章數(shù)據(jù)分類5.1引例2023/2/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2通俗來說,決策樹分類的思想類似于找對象?,F(xiàn)想象一個女孩的母親要給這個女孩介紹男朋友,于是有了下面的對話:女兒:多大年紀(jì)了?女母親:26。女兒:長的帥不帥?母親:挺帥的。女兒:收入高不?母親:不算很高,中等情況。

女兒:是公務(wù)員不?母親:是,在稅務(wù)局上班呢。女兒:那好,我去見見。5.1引例2023/2/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘3這個女孩的決策過程就是典型的分類樹決策。相當(dāng)于通過年齡、長相、收入和是否公務(wù)員對將男人分為兩個類別:見和不見。假設(shè)這個女孩對男人的要求是:30歲以下、長相中等以上并且是高收入者或中等以上收入的公務(wù)員,那么這個可以用下圖表示女孩的決策邏輯:年齡長相收入公務(wù)員決策26帥高是32帥高是28帥中等是28帥低否28丑高是2023/2/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘45.1引例分類的定義分類是指把數(shù)據(jù)樣本映射到一個事先定義的類中的學(xué)習(xí)過程,即給定一組輸入的屬性向量及其對應(yīng)的類,用基于歸納的學(xué)習(xí)算法得出分類。醫(yī)療診斷

銀行信貸等領(lǐng)域應(yīng)用2023/2/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘55.1引例AgeSalaryClass30highc125highc2………描述屬性類別屬性分類問題使用的數(shù)據(jù)集格式:2023/2/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘65.1引例分類問題使用的數(shù)據(jù)集格式描述屬性可以是連續(xù)型屬性,也可以是離散型屬性;而類別屬性必須是離散型屬性。連續(xù)型屬性是指在某一個區(qū)間或者無窮區(qū)間內(nèi)該屬性的取值是連續(xù)的,例如屬性“年齡”離散型屬性是指該屬性的取值是不連續(xù)的,例如屬性“長相”和“收入”2023/2/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘75.1引例分類問題使用的數(shù)據(jù)集格式分類問題中使用的數(shù)據(jù)集可以表示為X={(xi,yi)|i=1,2,…,total}xi=(xi1,xi2,…,xid),其中xi1,xi2,…,xid分別對應(yīng)d個描述屬性A1,A2,…,Ad的具體取值yi表示數(shù)據(jù)樣本Xi的類標(biāo)號,假設(shè)給定數(shù)據(jù)集包含m個類別,則yi∈{c1,c2,…,cm},其中c1,c2,…,cm是類別屬性C的具體取值未知類標(biāo)號的數(shù)據(jù)樣本x用d維特征向量x=(x1,x2,…,xd)來表示2023/2/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘85.3決策樹5.3.1決策樹的基本概念5.3.2決策樹算法ID35.3.3ID3算法應(yīng)用舉例5.3.4決策樹算法C4.55.3.5SQLServer2005中的決策樹應(yīng)用5.3.6決策樹剪枝2023/2/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘95.3決策樹決策樹Quinlan在1986提出的ID3

在1993提出的C4.5ID3只能處理離散型描述屬性

選用信息增益最大的屬性劃分訓(xùn)練樣本C4.5能處理離散型以及連續(xù)型描述類型

采用信息增益比作為選擇分枝屬性的標(biāo)準(zhǔn)2023/2/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘105.3決策樹決策樹的優(yōu)點(diǎn):進(jìn)行分類器設(shè)計(jì)時(shí),決策樹分類方法所需時(shí)間相對較少決策樹的分類模型是樹狀結(jié)構(gòu),簡單直觀,比較符合人類的理解方式可以將決策樹中到達(dá)每個葉節(jié)點(diǎn)的路徑轉(zhuǎn)換為IF—THEN形式的分類規(guī)則,這種形式更有利于理解年齡公司職員信譽(yù)度c1c2c1c2c1≤4041~50>50是否良優(yōu)2023/2/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘5.3.1決策樹的基本概念是一種歸納學(xué)習(xí)的方法,采用自頂向下的遞歸方式產(chǎn)生一個類似于流程圖的樹結(jié)構(gòu)在根節(jié)點(diǎn)和各內(nèi)部節(jié)點(diǎn)上選擇合適的描述屬性,并且根據(jù)該屬性的不同取值向下建立分枝年齡公司職員信譽(yù)度c1c2c1c2c1≤4041~50>50是否良優(yōu)2023/2/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘125.3.1決策樹的基本概念公司職員年齡收入信譽(yù)度買保險(xiǎn)否≤40高良c2否≤40高優(yōu)c2否41~50高良c1否>50中良c1是>50低良c1是>50低優(yōu)c2是41~50低優(yōu)c1否≤40中良c2是≤40低良c1是>50中良c1是≤40中優(yōu)c1否41~50中優(yōu)c1是41~50高良c1否>50中優(yōu)c2描述屬性類別屬性12年齡公司職員信譽(yù)度c1c2c1c2c1≤4041~50>50是否良優(yōu)2023/2/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘135.3.1決策樹的基本概念年齡公司職員信譽(yù)度c1c2c1c2c1≤4041~50>50是否良優(yōu)2023/2/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘145.3.2決策樹算法ID3ID3只能處理離散型描述屬性;在選擇根節(jié)點(diǎn)和各個內(nèi)部節(jié)點(diǎn)上的分枝屬性時(shí),采用信息增益作為度量標(biāo)準(zhǔn),選擇具有最高信息增益的描述屬性作為分枝屬性測試樣例的信息期望:√信息期望的計(jì)算;平均信息期望;

√信息期望的減少(Gain)2023/2/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘155.3.2決策樹算法ID3需要說明的是:在創(chuàng)建根節(jié)點(diǎn)的時(shí)候,數(shù)據(jù)集X是最初給定的所有數(shù)據(jù)公司職員年齡收入信譽(yù)度買保險(xiǎn)否≤40高良c2否≤40高優(yōu)c2否41~50高良c1否>50中良c1是>50低良c1是>50低優(yōu)c2是41~50低優(yōu)c1否≤40中良c2是≤40低良c1是>50中良c1是≤40中優(yōu)c1否41~50中優(yōu)c1是41~50高良c1否>50中優(yōu)c2年齡2023/2/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘165.3.2決策樹算法ID3需要說明的是:在創(chuàng)建內(nèi)部節(jié)點(diǎn)時(shí),數(shù)據(jù)集X是上層節(jié)點(diǎn)的某個分枝對應(yīng)的數(shù)據(jù)集.公司職員年齡收入信譽(yù)度買保險(xiǎn)是41~50低優(yōu)c1否41~50高良c1否41~50中優(yōu)c1是41~50高良c1年齡C12/6/202317決策樹的建立計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64青高否良不買64青高否優(yōu)不買128中高否良買60老中否良買64老低是良買64老低是優(yōu)不買64中低是優(yōu)買128青中否良不買64青低是良買132老中是良買64青中是優(yōu)買32中中否優(yōu)買32中高是良買63老中否優(yōu)不買1老中否優(yōu)買樹根?建立一個好的決策樹的關(guān)鍵是決定樹根和子樹根的屬性2/6/202318決策樹的建立年齡計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64青高否良不買64青高否優(yōu)不買128青中否良不買64青低是良買64青中是優(yōu)買計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?128中高否良買64中低是優(yōu)買32中中否優(yōu)買32中高是良買計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?60老中否良買64老低是良買64老低是優(yōu)不買132老中是良買63老中否優(yōu)不買1老中否優(yōu)買青中老2/6/202319決策樹的建立--對測試樣例的信息期望年齡計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64青高否良不買64青高否優(yōu)不買128中高否良買60老中否良買64老低是良買64老低是優(yōu)不買64中低是優(yōu)買128青中否良不買64青低是良買132老中是良買64青中是優(yōu)買32中中否優(yōu)買32中高是良買63老中否優(yōu)不買1老中否優(yōu)買計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64青高否良不買64青高否優(yōu)不買128青中否良不買64青低是良買64青中是優(yōu)買計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?128中高否良買64中低是優(yōu)買32中中否優(yōu)買32中高是良買計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?60老中否良買64老低是良買64老低是優(yōu)不買132老中是良買63老中否優(yōu)不買1老中否優(yōu)買信息期望=0信息期望=?信息期望=?張三屬于哪一類?為了回答該問題,對張三的信息期望值是多少?信息期望=?2/6/202320決策樹的建立--對測試樣例的信息期望年齡計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64青高否良不買64青高否優(yōu)不買128中高否良買60老中否良買64老低是良買64老低是優(yōu)不買64中低是優(yōu)買128青中否良不買64青低是良買132老中是良買64青中是優(yōu)買32中中否優(yōu)買32中高是良買63老中否優(yōu)不買1老中否優(yōu)買計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64青高否良不買64青高否優(yōu)不買128青中否良不買64青低是良買64青中是優(yōu)買計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?128中高否良買64中低是優(yōu)買32中中否優(yōu)買32中高是良買計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?60老中否良買64老低是良買64老低是優(yōu)不買132老中是良買63老中否優(yōu)不買1老中否優(yōu)買平均信息期望?信息期望的減少?信息期望?2/6/202321決策樹的建立--對測試樣例的信息期望所需要研究的屬性為“分類屬性”。假設(shè)該屬性共分m類,而它們每一類在數(shù)據(jù)表中計(jì)數(shù)的總和分別為s1,s2…,sm。 令s=s1+s2+…+sm

那么對于任一樣例,決定它所屬類別的信息期望可以用下面的公式來計(jì)算:

I(s1,s2…,sm)=-pilog2(pi)

其中pi=si/si=1m計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64青高否良不買64青高否優(yōu)不買128中高否良買60老中否良買64老低是良買64老低是優(yōu)不買64中低是優(yōu)買128青中否良不買64青低是良買132老中是良買64青中是優(yōu)買32中中否優(yōu)買32中高是良買63老中否優(yōu)不買1老中否優(yōu)買信息期望?2/6/202322例:左表 分類屬性:買計(jì)算機(jī)? 該屬性共分兩類(m=2):買/不買

s1=641, s2=383 s=s1+s2=1024 p1=s1/s=641/1024=0.6260 p2=s2/s=383/1024=0.3740I(s1,s2)=I(641,383) =-(p1log2(p1)+p2log2(p2))

=0.9537計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64青高否良不買64青高否優(yōu)不買128中高否良買60老中否良買64老低是良買64老低是優(yōu)不買64中低是優(yōu)買128青中否良不買64青低是良買132老中是良買64青中是優(yōu)買32中中否優(yōu)買32中高是良買63老中否優(yōu)不買1老中否優(yōu)買信息期望?決策樹的建立--對測試樣例的信息期望2/6/202323討論:“買”/“不買”計(jì)算機(jī)的人數(shù)之間的比例對于信息期望值的影響

I(641,383)=0.9537 I(512,512)=I(4,4)=1 I(51,973)=I(973,51)=0.2856 I(0,1024)=I(256,0)=0 I(128,256)=0.9183 I(257,127)=0.9157信息期望的數(shù)值與分類屬性中各類計(jì)數(shù)之間的比例有關(guān)信息期望的數(shù)值與計(jì)數(shù)總數(shù)無關(guān)計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64青高否良不買64青高否優(yōu)不買128中高否良買60老中否良買64老低是良買64老低是優(yōu)不買64中低是優(yōu)買128青中否良不買64青低是良買132老中是良買64青中是優(yōu)買32中中否優(yōu)買32中高是良買63老中否優(yōu)不買1老中否優(yōu)買信息期望?決策樹的建立--對測試樣例的信息期望2/6/202324計(jì)數(shù)年齡收入種族信譽(yù)加何種油2000老低亞裔良Supreme1500老高白人良Regular3900中中西班牙良Plus3200中低非洲優(yōu)Supreme5200青高白人優(yōu)Regular1800青中亞裔優(yōu)Plus2400青高亞裔良Regular2200青高非洲優(yōu)Regular1600老中西班牙良Plus2000青高西班牙良Regular例:分類屬性:加何種油? 該屬性共分三類(m=3):Regular/Plus/Supreme s1=13300,s2=7300,s3=5200 s=s1+s2+s3=25800 p1=s1/s=13300/25800=0.5155 p2=s2/s=7300/25800=0.2829 p3=s3/s=5200/25800=0.2016

I(s1,s2,s3)=I(13300,7300,5200)

=-(p1log2(p1)+p2log2(p2)+p3log2(p3)) =1.4739

信息期望=?決策樹的建立--對測試樣例的信息期望2/6/202325計(jì)數(shù)年齡收入種族信譽(yù)加何種油2000老低亞裔良Supreme1500老高白人良Regular3900中中西班牙良Plus3200中低非洲優(yōu)Supreme5200青高白人優(yōu)Regular1800青中亞裔優(yōu)Plus2400青高亞裔良Regular2200青高非洲優(yōu)Regular1600老中西班牙良Plus2000青高西班牙良Regular討論:三種汽油購買人數(shù)之間的比例對于需解決的信息量的影響

I(13300,7300,5200)=1.4739

I(25800,0,0)=0 I(0,10,0)=0 I(641,383,0)=0.9537 I(900,100,24)=0.6183 I(64,64,64)=1.5851當(dāng)分類屬性的種類增加時(shí),對測試樣例的信息期望通常也相應(yīng)增加。信息期望=?決策樹的建立--對測試樣例的信息期望2/6/202326年齡計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64青高否良不買64青高否優(yōu)不買128中高否良買60老中否良買64老低是良買64老低是優(yōu)不買64中低是優(yōu)買128青中否良不買64青低是良買132老中是良買64青中是優(yōu)買32中中否優(yōu)買32中高是良買63老中否優(yōu)不買1老中否優(yōu)買計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64青高否良不買64青高否優(yōu)不買128青中否良不買64青低是良買64青中是優(yōu)買計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?128中高否良買64中低是優(yōu)買32中中否優(yōu)買32中高是良買計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?60老中否良買64老低是良買64老低是優(yōu)不買132老中是良買63老中否優(yōu)不買1老中否優(yōu)買平均信息期望?信息期望的減少?信息期望?決策樹的建立--對測試樣例的信息期望2/6/202327信息期望的減少(又稱Gain—信息增益)=信息期望–平均信息期望

基于節(jié)點(diǎn)數(shù)據(jù)表基于該節(jié)點(diǎn)的所有直系分支數(shù)據(jù)表決策樹的建立--對測試樣例的信息期望2/6/2023DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved28計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64青高否良不買64青高否優(yōu)不買128青中否良不買64青低是良買64青中是優(yōu)買計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?128中高否良買64中低是優(yōu)買32中中否優(yōu)買32中高是良買計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?60老中否良買64老低是良買64老低是優(yōu)不買132老中是良買63老中否優(yōu)不買1老中否優(yōu)買平均信息期望,E,是節(jié)點(diǎn)各直系分支的信息期望值的加權(quán)總和1. 假定選擇年齡作樹根節(jié)點(diǎn),則:

青年組:I(128,256)=0.9183

中年組:I(256,0)=0

老年組:I(257,127)=0.91572. 青年組比例:(128+256)/1024=0.375

中年組比例:256/1024=0.25

老年組比例:(257+127)/1024=0.3753. 平均信息期望(加權(quán)總和):

E(年齡)=0.375*0.9183 +0.25*0+0.375*0.9157=0.68774. Gain(年齡)=I(641,383)-E(年齡) =0.9537–0.6877=0.2660平均信息期望?決策樹的建立--對測試樣例的信息期望2/6/2023DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved29計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?60老中否良買128青中否良不買132老中是良買64青中是優(yōu)買32中中否優(yōu)買63老中否優(yōu)不買1老中否優(yōu)買1. 假定選擇收入作樹根節(jié)點(diǎn),則:

高收入組:I(160,128)=0.9911

中收入組:I(289,191)=0.9697

低收入組:I(192,64)=0.81332. 高收入組比例:288/1024=0.2813

中收入組比例:480/1024=0.4687

低收入組比例:256/1024=0.253. 平均信息期望(加權(quán)總和):

E(收入)=0.2813*0.9911 +0.4687*0.9697 +0.25*0.8133=0.93614. Gain(收入)=I(641,383)-E(收入) =0.9537–0.9361=0.0176平均信息期望?計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64青高否良不買64青高否優(yōu)不買128中高否良買32中高是良買計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64老低是良買64老低是優(yōu)不買64中低是優(yōu)買64青低是良買決策樹的建立--對測試樣例的信息期望2/6/2023DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved301. 假定選擇學(xué)生作樹根節(jié)點(diǎn),則:

學(xué)生組:I(420,64)=0.5635

非學(xué)生組:I(221,319)=0.97612. 學(xué)生組比例:484/1024=0.4727

非學(xué)生組比例:540/1024=0.52733. 平均信息期望(加權(quán)總和):

E(學(xué)生)=0.4727*0.5635 +0.5273*0.9761 =0.78114. Gain(學(xué)生)=I(641,383)-E(學(xué)生) =0.9537–0.7811=0.1726計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64青高否良不買64青高否優(yōu)不買128中高否良買60老中否良買128青中否良不買32中中否優(yōu)買63老中否優(yōu)不買1老中否優(yōu)買計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64老低是良買64老低是優(yōu)不買64中低是優(yōu)買64青低是良買132老中是良買64青中是優(yōu)買32中高是良買平均信息期望?決策樹的建立--對測試樣例的信息期望2/6/2023DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved311. 假定選擇信譽(yù)作樹根節(jié)點(diǎn),則:

良好組:I(480,192)=0.8631

優(yōu)秀組:I(161,191)=0.99482. 良好組比例:672/1024=0.6563

優(yōu)秀組比例:352/1024=0.34373. 平均信息期望(加權(quán)總和):

E(信譽(yù))=0.6563*0.8631 +0.3437*0.9948 =0.90484. Gain(信譽(yù))=I(641,383)-E(信譽(yù)) =0.9537–0.9048=0.0453計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64青高否優(yōu)不買64老低是優(yōu)不買64中低是優(yōu)買64青中是優(yōu)買32中中否優(yōu)買63老中否優(yōu)不買1老中否優(yōu)買計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64青高否良不買128中高否良買60老中否良買64老低是良買128青中否良不買64青低是良買132老中是良買32中高是良買平均信息期望?決策樹的建立--對測試樣例的信息期望2/6/2023DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved32決定樹根節(jié)點(diǎn)

E(年齡)=0.6877,Gain(年齡)=0.2660 E(收入)=0.9361,Gain(收入)=0.0176 E(學(xué)生)=0.7811,Gain(學(xué)生)=0.1726 E(信譽(yù))=0.9048,Gain(信譽(yù))=0.0453決策樹的建立--對測試樣例的信息期望2/6/2023DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved33年齡計(jì)數(shù)收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64高否良不買64高否優(yōu)不買128中否良不買64低是良買64中是優(yōu)買計(jì)數(shù)收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?60中否良買64低是良買64低是優(yōu)不買132中是良買63中否優(yōu)不買1中否優(yōu)買青中老樹葉計(jì)數(shù)收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?128高否良買64低是優(yōu)買32中否優(yōu)買32高是良買決策樹的建立--對測試樣例的信息期望2/6/2023DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved34年齡計(jì)數(shù)收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64高否良不買64高否優(yōu)不買128中否良不買64低是良買64中是優(yōu)買計(jì)數(shù)收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?60中否良買64低是良買64低是優(yōu)不買132中是良買63中否優(yōu)不買1中否優(yōu)買青中老買決策樹的建立--對測試樣例的信息期望2/6/2023DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved35平均信息期望?信息期望?計(jì)數(shù)收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64高否良不買64高否優(yōu)不買128中否良不買64低是良買64中是優(yōu)買平均信息期望(加權(quán)總和):

E(收入)=0.3333*0+0.5*0.9183+0.1667*0=0.4592Gain(收入)=I(128,256)-E(收入)=0.9183–0.4592=0.4591計(jì)數(shù)收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64高否良不買64高否優(yōu)不買計(jì)數(shù)收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?128中否良不買64中是優(yōu)買計(jì)數(shù)收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64低是良買青年組數(shù)據(jù)表分析:1.假定選擇收入作節(jié)點(diǎn)I(128,256)=0.9183I(0,128)=0比例:128/384=0.3333I(64,128)=0.9183比例:192/384=0.5I(64,0)=0比例:64/384=0.1667決策樹的建立--對測試樣例的信息期望2/6/2023DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved36信息期望?計(jì)數(shù)收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64高否良不買64高否優(yōu)不買128中否良不買64低是良買64中是優(yōu)買平均信息期望(加權(quán)總和):E(學(xué)生)=0.3333*0+0.6667*0=0Gain(學(xué)生)=I(128,256)-E(學(xué)生)=0.9183–0=0.9183結(jié)論:不需要考慮屬性信譽(yù),決定選擇屬性學(xué)生青年組數(shù)據(jù)表分析:

2.假定選擇學(xué)生作節(jié)點(diǎn)I(128,256)=0.9183I(128,0)=0比例:128/384=0.3333I(0,256)=0比例:256/384=0.6667計(jì)數(shù)收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64高否良不買64高否優(yōu)不買128中否良不買計(jì)數(shù)收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64低是良買64中是優(yōu)買平均信息期望?決策樹的建立--對測試樣例的信息期望2/6/2023DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved37年齡計(jì)數(shù)收入信譽(yù)歸類:買計(jì)算機(jī)?64低良買64中優(yōu)買計(jì)數(shù)收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?60中否良買64低是良買64低是優(yōu)不買132中是良買63中否優(yōu)不買1中否優(yōu)買青中老買學(xué)生計(jì)數(shù)收入信譽(yù)歸類:買計(jì)算機(jī)?64高良不買64高優(yōu)不買128中良不買否是樹葉決策樹的建立--對測試樣例的信息期望2/6/2023DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved38年齡計(jì)數(shù)收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?60中否良買64低是良買64低是優(yōu)不買132中是良買63中否優(yōu)不買1中否優(yōu)買青中老買學(xué)生否是買不買決策樹的建立--對測試樣例的信息期望2/6/2023DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved39信息期望?平均信息期望(加權(quán)總和):E(收入)=0.3333*1+0.6667*0.8050=0.8700Gain(收入)=I(257,127)-E(收入)=0.9157–0.8700=0.0457老年組數(shù)據(jù)表分析:

1.假定選擇收入作節(jié)點(diǎn)I(257,127)=0.9157I(64,64)=1比例:128/384=0.3333I(193,63)=0.8050比例:256/384=0.6667計(jì)數(shù)收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?60中否良買64低是良買64低是優(yōu)不買132中是良買63中否優(yōu)不買1中否優(yōu)買計(jì)數(shù)收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?60中否良買132中是良買63中否優(yōu)不買1中否優(yōu)買計(jì)數(shù)收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?64低是良買64低是優(yōu)不買平均信息期望?決策樹的建立--對測試樣例的信息期望2/6/2023DataMiningTool-DecisionTree,JiahuangJi,Ph.D.AllRightsReserved40信息期望?平均信息期望(加權(quán)總和):E(學(xué)生)=0.6771*0.8051+0.3229*0.9998

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論