第二章決策樹(shù)(ID3分類(lèi)算法)_第1頁(yè)
第二章決策樹(shù)(ID3分類(lèi)算法)_第2頁(yè)
第二章決策樹(shù)(ID3分類(lèi)算法)_第3頁(yè)
第二章決策樹(shù)(ID3分類(lèi)算法)_第4頁(yè)
第二章決策樹(shù)(ID3分類(lèi)算法)_第5頁(yè)
已閱讀5頁(yè),還剩39頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二章決策樹(shù)(ID3分類(lèi)算法)為解決上述問(wèn)題必須進(jìn)行分類(lèi)分類(lèi)是數(shù)據(jù)挖掘中的一種主要分析手段分類(lèi)的任務(wù)是對(duì)數(shù)據(jù)集進(jìn)行學(xué)習(xí)并構(gòu)造一個(gè)擁有預(yù)測(cè)功能的分類(lèi)模型,用于預(yù)測(cè)未知樣本的類(lèi)標(biāo)號(hào),如:根據(jù)瓦斯?fàn)顟B(tài)、開(kāi)采技術(shù)條件、煤層賦存狀況等對(duì)危險(xiǎn)進(jìn)行分類(lèi)評(píng)估根據(jù)核磁共振的結(jié)果區(qū)分腫瘤是惡性還是良性的根據(jù)星系的形狀對(duì)它們進(jìn)行分類(lèi)劃分出交易是合法或欺詐將新聞分類(lèi)金融、天氣、娛樂(lè)體育等主要分類(lèi)方法決策樹(shù)分類(lèi)方法貝葉斯分類(lèi)方法K-最近鄰分類(lèi)方法神經(jīng)網(wǎng)絡(luò)分類(lèi)方法支持向量機(jī)組合學(xué)習(xí)方法不平衡數(shù)據(jù)分類(lèi)問(wèn)題分類(lèi)模型的評(píng)價(jià)回歸方法研究生學(xué)院舉例說(shuō)明分類(lèi)任務(wù)應(yīng)用模型l歸納推論

學(xué)習(xí)模型模型Tid

有房者

婚姻狀況

年收入

拖欠貸款

1

單身

125K

2

已婚

100K

3

單身

70K

4

已婚

120K

5

離異

95K

6

已婚

60K

7

離異

220K

8

單身

85K

9

已婚

75K

10

單身

90K

10

Tid

有房者

婚姻狀況2

年收入

拖欠貸款

11

單身l

55K

?

12

已婚

80K

?

13

離異

110K

?

14

單身

95K

?

15

已婚

67K

?

10

學(xué)習(xí)算法研究生學(xué)院有房婚姻狀況年收入是否否否是沒(méi)有已婚單身,離婚<80K>80K極快的屬性訓(xùn)練數(shù)據(jù)模型:決策樹(shù)Tid

有房者

婚姻狀況

年收入

拖欠貸款

1

單身

125K

2

已婚

100K

3

單身

70K

4

已婚

120K

5

離異

95K

6

已婚

60K

7

離異

220K

8

單身

85K

9

已婚

75K

10

單身

90K

10

研究生學(xué)院婚姻狀況有房年收入是否否否是沒(méi)有已婚單身,離異<80K>80KTid

有房者

婚姻狀況

年收入

拖欠貸款

1

單身

125K

2

已婚

100K

3

單身

70K

4

已婚

120K

5

離異

95K

6

已婚

60K

7

離異

220K

8

單身

85K

9

已婚

75K

10

單身

90K

10

測(cè)試數(shù)據(jù)申請(qǐng)模型到測(cè)試數(shù)據(jù)研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K開(kāi)始從樹(shù).的根測(cè)試數(shù)據(jù)研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測(cè)試數(shù)據(jù)開(kāi)始從樹(shù).的根研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測(cè)試數(shù)據(jù)開(kāi)始從樹(shù).的根研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測(cè)試數(shù)據(jù)開(kāi)始從樹(shù).的根研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測(cè)試數(shù)據(jù)開(kāi)始從樹(shù).的根研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測(cè)試數(shù)據(jù)開(kāi)始從樹(shù).的根研究生學(xué)院應(yīng)用模型l歸納推論

學(xué)習(xí)模型模型Tid

有房者

婚姻狀況

年收入

拖欠貸款

1

單身

125K

2

已婚

100K

3

單身

70K

4

已婚

120K

5

離異

95K

6

已婚

60K

7

離異

220K

8

單身

85K

9

已婚

75K

10

單身

90K

10

Tid

有房者

婚姻狀況2

年收入

拖欠貸款

11

單身l

55K

?

12

已婚

80K

?

13

離異

110K

?

14

單身

95K

?

15

已婚

67K

?

10

學(xué)習(xí)算法研究生學(xué)院有房婚姻狀況年收入是否否否是沒(méi)有已婚單身,離婚<80K>80K極快的屬性訓(xùn)練數(shù)據(jù)模型:決策樹(shù)Tid

有房者

婚姻狀況

年收入

拖欠貸款

1

單身

125K

2

已婚

100K

3

單身

70K

4

已婚

120K

5

離異

95K

6

已婚

60K

7

離異

220K

8

單身

85K

9

已婚

75K

10

單身

90K

10

決策樹(shù)的例子研究生學(xué)院婚姻狀況有房年收入是否否否是沒(méi)有已婚單身,離異<80K>80KTid

有房者

婚姻狀況

年收入

拖欠貸款

1

單身

125K

2

已婚

100K

3

單身

70K

4

已婚

120K

5

離異

95K

6

已婚

60K

7

離異

220K

8

單身

85K

9

已婚

75K

10

單身

90K

10

決策樹(shù)的例子研究生學(xué)院應(yīng)用模型l歸納推論

學(xué)習(xí)模型模型Tid

有房者

婚姻狀況

年收入

拖欠貸款

1

單身

125K

2

已婚

100K

3

單身

70K

4

已婚

120K

5

離異

95K

6

已婚

60K

7

離異

220K

8

單身

85K

9

已婚

75K

10

單身

90K

10

Tid

有房者

婚姻狀況2

年收入

拖欠貸款

11

單身l

55K

?

12

已婚

80K

?

13

離異

110K

?

14

單身

95K

?

15

已婚

67K

?

10

學(xué)習(xí)算法研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測(cè)試數(shù)據(jù)開(kāi)始從樹(shù).的根申請(qǐng)模型到測(cè)試數(shù)據(jù)研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測(cè)試數(shù)據(jù)開(kāi)始從樹(shù).的根研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測(cè)試數(shù)據(jù)開(kāi)始從樹(shù).的根研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測(cè)試數(shù)據(jù)開(kāi)始從樹(shù).的根研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測(cè)試數(shù)據(jù)開(kāi)始從樹(shù).的根研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測(cè)試數(shù)據(jù)開(kāi)始從樹(shù).的根舉例說(shuō)明分類(lèi)任務(wù)研究生學(xué)院應(yīng)用模型l歸納推論

學(xué)習(xí)模型模型Tid

有房者

婚姻狀況

年收入

拖欠貸款

1

單身

125K

2

已婚

100K

3

單身

70K

4

已婚

120K

5

離異

95K

6

已婚

60K

7

離異

220K

8

單身

85K

9

已婚

75K

10

單身

90K

10

Tid

有房者

婚姻狀況2

年收入

拖欠貸款

11

單身l

55K

?

12

已婚

80K

?

13

離異

110K

?

14

單身

95K

?

15

已婚

67K

?

10

學(xué)習(xí)算法決策樹(shù)在構(gòu)建過(guò)程中需重點(diǎn)解決2個(gè)問(wèn)題:(1)如何選擇合適的屬性作為決策樹(shù)的節(jié)點(diǎn)去劃分訓(xùn)練樣本;(2)如何在適當(dāng)位置停止劃分過(guò)程,從而得到大小合適的決策樹(shù)。雖然可以采用任何一個(gè)屬性對(duì)數(shù)據(jù)集進(jìn)行劃分,但最后形成的決策樹(shù)會(huì)差異很大。需要尋找合適的屬性選擇方法。屬性選擇是決策樹(shù)算法中重要的步驟,常見(jiàn)的屬性選擇標(biāo)準(zhǔn)包括信息增益(informationgain)和Gini系數(shù)。信息增益是決策樹(shù)常用的分枝準(zhǔn)則,在樹(shù)的每個(gè)結(jié)點(diǎn)上選擇具有最高信息增益的屬性作為當(dāng)前結(jié)點(diǎn)的劃分屬性。Gini系數(shù)是一種不純度函數(shù),用來(lái)度量數(shù)據(jù)集的數(shù)據(jù)關(guān)于類(lèi)的純度。二、DI3分類(lèi)算法1.ID3分類(lèi)算法提出:由Quinlan于1986年提出,它使用信息增益(informationgain)作為屬性的選擇標(biāo)準(zhǔn)。首先檢測(cè)所有的屬性,選擇信息增益最大的屬性產(chǎn)生決策樹(shù)結(jié)點(diǎn),由該屬性的不同取值建立分支,再對(duì)各分支的子集遞歸調(diào)用該方法建立決策樹(shù)結(jié)點(diǎn)的分支,直到所有子集僅包含同一個(gè)類(lèi)別的數(shù)據(jù)為止。最后得到一棵決策樹(shù),它可以用來(lái)對(duì)新的樣本進(jìn)行分類(lèi)。2.ID3分類(lèi)算法相關(guān)的基本概念:1)信息熵2)信息增益熵(entropy,也稱(chēng)信息熵)用來(lái)度量一個(gè)屬性的信息量。假定S為訓(xùn)練集,S的目標(biāo)屬性C具有m個(gè)可能的類(lèi)標(biāo)號(hào)值,C={C1,C2,…,Cm},假定訓(xùn)練集S中,Ci在所有樣本中出現(xiàn)的頻率為(i=1,2,3,…,m),則該訓(xùn)練集S所包含的信息熵定義為:熵越小表示樣本對(duì)目標(biāo)屬性的分布越純,反之熵越大表示樣本對(duì)目標(biāo)屬性分布越混亂。outlooktemperaturehumiditywindplayballsunnyhothighweaknosunnyhothighstrongnoovercasthothighweakyesrainmildhighweakyesraincoolnormalweakyesraincoolnormalstrongnoOvercast(陰天)coolnormalstrongyessunnymildhighweaknosunnycoolnormalweakyesrainmildnormalweakyessunnymildnormalstrongyesovercastmildhighstrongyesovercasthotnormalweakyesrainmildhighstrongno信息熵例題演示考慮數(shù)據(jù)集weather如下,求weather數(shù)據(jù)集關(guān)于目標(biāo)屬性playball的熵。目標(biāo)屬性解答:令weather數(shù)據(jù)集為S,其中有14個(gè)樣本,目標(biāo)屬性playball有2個(gè)值{C1=yes,C2=no}。14個(gè)樣本的分布為:9個(gè)樣本的類(lèi)標(biāo)號(hào)取值為yes,5個(gè)樣本的類(lèi)標(biāo)號(hào)取值為No。C1=yes在所有樣本S中出現(xiàn)的概率為9/14,C2=no在所有樣本S中出現(xiàn)的概率為5/14。因此數(shù)據(jù)集S的熵為:信息增益:是劃分前樣本數(shù)據(jù)集的不純程度(熵)和劃分后樣本數(shù)據(jù)集的不純程度(熵)的差值。假設(shè)劃分前樣本數(shù)據(jù)集為S,并用屬性A來(lái)劃分樣本集S,則按屬性A劃分S的信息增益Gain(S,A)為樣本集S的熵減去按屬性A劃分S后的樣本子集的熵:按屬性A劃分S后的樣本子集的熵定義如下:假定屬性A有k個(gè)不同的取值,從而將S劃分為k個(gè)樣本子集{S1,S2,…,Sk},則按屬性A劃分S后的樣本子集的信息熵為:其中|Si|(i,=1,2,…k)為樣本子集Si中包含的樣本數(shù),|S|為樣本集S中包含的樣本數(shù)。信息增益越大,說(shuō)明使用屬性A劃分后的樣本子集越純,越有利于分類(lèi)。以數(shù)據(jù)集weather為例,設(shè)該數(shù)據(jù)集為S,假定用屬性wind來(lái)劃分S,求S對(duì)屬性wind的信息增益。outlooktemperaturehumiditywindplayballsunnyhothighweaknosunnyhothighstrongnoovercasthothighweakyesrainmildhighweakyesraincoolnormalweakyesraincoolnormalstrongnoovercastcoolnormalstrongyessunnymildhighweaknosunnycoolnormalweakyesrainmildnormalweakyessunnymildnormalstrongyesovercastmildhighstrongyesovercasthotnormalweakyesrainmildhighstrongno解:(1)首先由前例計(jì)算得到數(shù)據(jù)集S的熵值為0.94;(2)屬性wind有2個(gè)可能的取值{weak,strong},它將S劃分為2個(gè)子集:{S1,S2},S1為wind屬性取值為weak的樣本子集,共有8個(gè)樣本;S2為wind屬性取值為strong的樣本子集,共有6個(gè)樣本;下面分別計(jì)算樣本子集S1和S2的熵。對(duì)樣本子集S1,playball=yes的有6個(gè)樣本,playball=no的有2個(gè)樣本,則:對(duì)樣本子集S2,playball=yes的有3個(gè)樣本,playball=no的有3個(gè)樣本,則:利用屬性wind劃分S后的熵為:按屬性wind劃分?jǐn)?shù)據(jù)集S所得的信息增益值為:函數(shù):DT(S,F)輸入:訓(xùn)練集數(shù)據(jù)S,訓(xùn)練集數(shù)據(jù)屬性集合F輸出:ID3決策樹(shù)(1)if

樣本S全部屬于同一個(gè)類(lèi)別Cthen(2)創(chuàng)建一個(gè)葉結(jié)點(diǎn),并標(biāo)記類(lèi)標(biāo)號(hào)為C;(3)return;(4)else(5)計(jì)算屬性集F中每一個(gè)屬性的信息增益,假定增益值最大的屬性為A;(6)創(chuàng)建結(jié)點(diǎn),取屬性A為該結(jié)點(diǎn)的決策屬性;(7)for結(jié)點(diǎn)屬性A的每個(gè)可能的取值Vdo(8)為該結(jié)點(diǎn)添加一個(gè)新的分支,假設(shè)SV為屬性A取值為V的樣本子集;(9)if

樣本SV全部屬于同一個(gè)類(lèi)別Cthen(10)為該分支添加一個(gè)葉結(jié)點(diǎn),并標(biāo)記類(lèi)標(biāo)號(hào)為C;(11)else(12)遞歸調(diào)用DT(SV,F-{A}),為該分支創(chuàng)建子樹(shù);(13)endif(11)endfor(12)endif以weather數(shù)據(jù)集為例,講解ID3的建立過(guò)程。outlooktemperaturehumiditywindplayballsunnyhothighweaknosunnyhothighstrongnoovercasthothighweakyesrainmildhighweakyesraincoolnormalweakyesraincoolnormalstrongnoovercastcoolnormalstrongyessunnymildhighweaknosunnycoolnormalweakyesrainmildnormalweakyessunnymildnormalstrongyesovercastmildhighstrongyesovercasthotnormalweakyesrainmildhighstrongno數(shù)據(jù)集具有屬性:outlook,temperature,humidity,wind.outlook={sunny,overcast,rain}temperature={hot,mild,cool}humidity={high,normal}wind={weak,strong}首先計(jì)算總數(shù)據(jù)集S對(duì)所有屬性的信息增益,尋找根節(jié)點(diǎn)的最佳分裂屬性:Gain(S,outlook)=0.246Gain(S,temperature)=0.029Gain(S,humidity)=0.152Gain(S,wind)=0.049顯然,這里outlook屬性具有最高信息增益值,因此將它選為根結(jié)點(diǎn).以outlook做為根結(jié)點(diǎn),繼續(xù)往下:思想是,以outlook的可能取值建立分支,對(duì)每個(gè)分支遞歸建立子樹(shù)。因?yàn)閛utlook有3個(gè)可能值,因此對(duì)根結(jié)點(diǎn)建立3個(gè)分支{sunny,overcast,rain}.那么,哪個(gè)屬性用來(lái)最佳劃分根結(jié)點(diǎn)的Sunny分支?overcast分支?Rain分支?outlooksunnyovercastrain???首先對(duì)outlook的sunny分支建立子樹(shù)。找出數(shù)據(jù)集中outlook=sunny的樣本子集Soutlook=sunny,然后依次計(jì)算剩下三個(gè)屬性對(duì)該樣本子集Ssunny劃分后的信息增益:Gain(Ssunny,humidity)=0.971Gain(Ssunny,temperature)=0.571Gain(Ssunny,wind)=0.371顯然humidity具有最高信息增益值,因此它被選為outlook結(jié)點(diǎn)下sunny分支下的決策結(jié)點(diǎn)。outlooksunnyovercastrain?Humidity采用同樣的方法,依次對(duì)outlook的overcast分支、rain分支建立子樹(shù),最后得到一棵可以預(yù)測(cè)類(lèi)標(biāo)號(hào)未知的樣本的決策樹(shù)。ID3決策樹(shù)對(duì)未知樣本進(jìn)行預(yù)測(cè)下面利用決策樹(shù)對(duì)類(lèi)標(biāo)號(hào)未知的樣本X進(jìn)行預(yù)測(cè):X={rain,hot,normal,weak,?}ID3算法總結(jié)ID3算法是所有可能的決策樹(shù)空間中一種自頂向下、貪婪的搜索方法。ID3搜索的假設(shè)空間是可能的決策樹(shù)的集合,搜索目的是構(gòu)造與訓(xùn)練數(shù)據(jù)一致的一棵決策樹(shù),搜索策略是爬山法,在構(gòu)造決策樹(shù)時(shí)從簡(jiǎn)單到復(fù)雜,用信息熵作為爬山法的評(píng)價(jià)函數(shù)。ID3算法的核心是在決策樹(shù)各級(jí)結(jié)點(diǎn)上選擇屬性,用信息增益作為屬性選擇的標(biāo)準(zhǔn),使得在每個(gè)非葉節(jié)點(diǎn)進(jìn)行測(cè)試時(shí)能獲得關(guān)于

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論