決策樹的重要性_第1頁
決策樹的重要性_第2頁
決策樹的重要性_第3頁
決策樹的重要性_第4頁
決策樹的重要性_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

決策樹的重要性第一頁,共二十九頁,編輯于2023年,星期日決策樹的重要性在商業(yè)界最常用的方法之一第二頁,共二十九頁,編輯于2023年,星期日DecisionTree之意義第三頁,共二十九頁,編輯于2023年,星期日DecisionTree之意義If WehavemuchmoneyAND WearebuyingagiftforanadultTHEN BuyacarIf WehavemuchmoneyAND WerebuyingagiftforachildTHEN Buyacomputer第四頁,共二十九頁,編輯于2023年,星期日YesYesYesYesYesYesYesYesYesYesYesYesYesYesYesYesNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoYes有弦?用吹的?彎如弓的?演奏時(shí)要用下巴夾的?用彈的?有鍵盤的?木管樂器?有簧片?有雙簧片?銅管樂器?常用於通俗樂器中?比演奏者高?常用於通俗樂器中?有十根弦以上?打擊樂器?有弦?鼓棒?有音鎚的?曲型的?筆直的?彈奏?小提琴中提琴低音提琴大提琴不知道豎琴詩琴揚(yáng)琴不知道電子樂器風(fēng)琴Yes撥弦古鋼琴鋼琴YesNoYesNo第五頁,共二十九頁,編輯于2023年,星期日名詞解釋根節(jié)點(diǎn)葉節(jié)點(diǎn)內(nèi)部節(jié)點(diǎn)第六頁,共二十九頁,編輯于2023年,星期日決策樹本質(zhì):是一個(gè)分類器收入年齡職業(yè)…分類器好普通差銀行客戶:信用分類“信用”為

目標(biāo)屬性:第七頁,共二十九頁,編輯于2023年,星期日決策樹決策樹優(yōu)點(diǎn):可以萃取分類規(guī)則例如:銀行新客戶的信用分類問題決策樹X1X2Y第八頁,共二十九頁,編輯于2023年,星期日決策樹例子1:信用好,2:信用差收入年齡X2X1

2222222

111

11307萬5萬3萬年齡1111112222222年齡<30年齡>30收入1122221111222

收入<5萬

收入>5萬單純資料混亂資料第九頁,共二十九頁,編輯于2023年,星期日例子:舊客戶購買之歷史資料No性別學(xué)院購買產(chǎn)品1男商電腦2男人文手機(jī)3女商電腦4女人文手機(jī)新客戶:女生、商學(xué)院,請問她最可能購買的產(chǎn)品?第十頁,共二十九頁,編輯于2023年,星期日決策樹例子1:電腦,2:手機(jī)學(xué)院

性別1212男女學(xué)院2211商

人文單純資料男女商人文電腦電腦手機(jī)手機(jī)性別混亂資料(混亂度高)(混亂度低)第十一頁,共二十九頁,編輯于2023年,星期日決策樹目標(biāo)屬性:購買產(chǎn)品類別輸入屬性:性別、學(xué)院、年級(jí)性別年級(jí)學(xué)院……購買產(chǎn)品購買產(chǎn)品第十二頁,共二十九頁,編輯于2023年,星期日混亂度定義:一群物件的目標(biāo)屬性混亂的程度三種計(jì)算方式:P1*

P2[0~1/4]P1:這群物件目標(biāo)屬性值為1的機(jī)率P2:這群物件目標(biāo)屬性值為2的機(jī)率Min(P1,P2)[0~1/2]Entropy:-P1log2P1-P2log2P2

[0~1]第十三頁,共二十九頁,編輯于2023年,星期日練習(xí):計(jì)算混亂度1,1,1,11,1,1,21,1,2,2Min(P1,P2)P1

*P2第十四頁,共二十九頁,編輯于2023年,星期日決策樹精神挑選一輸入屬性,能將目標(biāo)屬性的混亂度降到最低第十五頁,共二十九頁,編輯于2023年,星期日決策樹演算法(Step1)選擇一輸入屬性,將所有objects作分類(Step2)計(jì)算分類後之平均混亂度

(Step3)選擇能使混亂度降得最低的屬性,作為節(jié)點(diǎn)之判別屬性(Step4)反覆(Step1~3),直到停止條件第十六頁,共二十九頁,編輯于2023年,星期日停止條件當(dāng)葉節(jié)點(diǎn)滿足下列條件即停止1.所有物件的目標(biāo)屬性,皆為同一類2.沒有輸入屬性可以降低混亂度第十七頁,共二十九頁,編輯于2023年,星期日決策樹模型:三階段模式訓(xùn)練階段將決策樹訓(xùn)練出來測試階段測試決策樹的準(zhǔn)確性運(yùn)用階段可對一未知資料作分類第十八頁,共二十九頁,編輯于2023年,星期日DecisionTree之準(zhǔn)確率利用”測試資料”作測試第十九頁,共二十九頁,編輯于2023年,星期日練習(xí)ageincomestudentcredit_ratingbuys_computer<=30highnofairno<=30highnoexcellentno31…40highnofairyes>40mediumnofairyes>40lowyesfairyes>40lowyesexcellentno31…40lowyesexcellentyes<=30mediumnofairno<=30lowyesfairyes>40mediumyesfairyes<=30mediumyesexcellentyes31…40mediumnoexcellentyes31…40highyesfairyes>40mediumnoexcellentno第二十頁,共二十九頁,編輯于2023年,星期日age?income?creditrating?fairexcellent<=30>40nonoyesyesyes30~40RootNodeChildNodeLeafNodehmlno第二十一頁,共二十九頁,編輯于2023年,星期日決策樹相關(guān)演算法ID3:(前面所教)Quinlan1979輸入屬性為離散C4.5:(IBMMining軟體所採用)Breiman1984輸入屬性可為連續(xù)第二十二頁,共二十九頁,編輯于2023年,星期日決策樹mining過程A決定想解決的問題B決定目標(biāo)屬性與輸入屬性C決定資料範(fàn)圍D資料前處理或許需要將連續(xù)變數(shù)改為”離散”變數(shù)E建構(gòu)決策樹,並解釋結(jié)果F若無法解釋,應(yīng)回到A或B再思考第二十三頁,共二十九頁,編輯于2023年,星期日決策樹專案注意事項(xiàng)(1/2)目標(biāo)變數(shù)應(yīng)為”離散(類別)”

變數(shù)值不能太多輸入變數(shù)關(guān)聯(lián)性太高不適合使用預(yù)測所得高低:輸入變數(shù)為年齡,職業(yè),繳稅高低預(yù)測打擊率高低:輸入變數(shù)為年齡,守備位置,長打率,月薪第二十四頁,共二十九頁,編輯于2023年,星期日決策樹專案注意事項(xiàng)(2/2)目標(biāo)屬性與輸入屬性關(guān)聯(lián)性太低例如:樂透獎(jiǎng)輸入:年,月,週,日輸出:樂透號(hào)碼第二十五頁,共二十九頁,編輯于2023年,星期日作業(yè)(碩專)時(shí)間:2週請於3/24(一)前,將報(bào)告mail給老師與上課成員報(bào)告請用Word檔撰寫,約3~6頁應(yīng)說明每位組員的貢獻(xiàn)若有問題詢問,每位組員皆可回答第二十六頁,共二十九頁,編輯于2023年,星期日附錄第二十七頁,共二十九頁,編輯于2023年,星期日

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論