決策樹模型概述教學(xué)課件_第1頁
決策樹模型概述教學(xué)課件_第2頁
決策樹模型概述教學(xué)課件_第3頁
決策樹模型概述教學(xué)課件_第4頁
決策樹模型概述教學(xué)課件_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

決策樹模型概述決策樹模型概述決策樹模型概述cDM2006會議的算法投票結(jié)果共有145人參加了CDM2006Pane(會議的專題討論),并對18種候選算法進(jìn)行投票,選岀了數(shù)據(jù)挖掘10大算法排名挖掘主題算法得票數(shù)發(fā)表時(shí)間作者陳述人1993QuinlanJ2聚類K-MeansMacQueen,JBJoydeepGhosh3統(tǒng)計(jì)學(xué)習(xí)Vapnik,VNQiangYang4關(guān)聯(lián)分析Apriori1994RakeshAgrawalChristosFaloutsos5統(tǒng)計(jì)學(xué)2000McLachlan,GJoydeepGhosh6鏈接挖掘PageRank1998ChristosFaloutsos7集裝與推進(jìn)AdaBoostFreund.Y.Zhi-HuaZhou8分類1996Hastie,TVipinKumar9分類NaiveBayes200Hand.DJQiangYangCARTLBreimanDanSteinberg路漫漫其悠信息的定量描述衡量信息多少的物理量稱為信息量。●若概率很大,受信者事先已有所估計(jì),則該消息信息量就很小若概率很小,受信者感覺很突然,該消息所含信息量就很大。路漫漫其悠cDM2006會議的算法投票結(jié)果共有145人參加了CDM2006Pane(會議的專題討論),并對18種候選算法進(jìn)行投票,選岀了數(shù)據(jù)挖掘10大算法排名挖掘主題算法得票數(shù)發(fā)表時(shí)間作者陳述人1993QuinlanJ2聚類K-MeansMacQueen,JBJoydeepGhosh3統(tǒng)計(jì)學(xué)習(xí)Vapnik,VNQiangYang4關(guān)聯(lián)分析Apriori1994RakeshAgrawalChristosFaloutsos5統(tǒng)計(jì)學(xué)2000McLachlan,GJoydeepGhosh6鏈接挖掘PageRank1998ChristosFaloutsos7集裝與推進(jìn)AdaBoostFreund.Y.Zhi-HuaZhou8分類1996Hastie,TVipinKumar9分類NaiveBayes200Hand.DJQiangYangCARTLBreimanDanSteinberg路漫漫其悠信息的定量描述衡量信息多少的物理量稱為信息量?!袢舾怕屎艽?受信者事先已有所估計(jì),則該消息信息量就很小若概率很小,受信者感覺很突然,該消息所含信息量就很大。路漫漫其悠信息量的定義。根據(jù)客觀事實(shí)和人們的習(xí)慣概念,函數(shù)f(p)應(yīng)滿足以下條件1.八p)應(yīng)是概率p的嚴(yán)格單調(diào)遞減函數(shù),即當(dāng)p1>p2,f(p1)<(p2);2.當(dāng)p=1時(shí),(p)=03.當(dāng)p=0時(shí),p)=04.兩個獨(dú)立事件的聯(lián)合信息量應(yīng)等于它們分別的信息量之和。路漫漫其悠◆信息量的定義若一個消息出現(xiàn)的概率為p,則這一消息所含的信息量冫其中,對數(shù)的底大于1◆信息量單位以2為底時(shí),單位為bit(binaryunit,比特)以e為底時(shí),單位為nat(naturalunit,奈特)為hartHartley,哈特)認(rèn)識理解0.10.203040.506070809拋一枚均勻硬幣,出現(xiàn)正面與反面的信息量是多少?解:出現(xiàn)正面與反面的概率均為0.5,它們的信息量是I(正)=bp(正)=b05=1bI(反)=bp(反)=b05=1b路漫漫其悠拋一枚畸形硬幣,出現(xiàn)正面與反面的概率分別是1/4,3/4,出現(xiàn)正面與反面時(shí)的信息量是多少?解:出現(xiàn)正面與反面的概率分別是1/43/4,它們的信息量是I(正)=bp(正)=1b1/4=2bI(反)=bP(反)=b3/4=0415b路漫漫其悠信源含有的信息量是信源發(fā)出的所有可能消息的平均不確定性,香農(nóng)把信源所含有的信息量稱為信息熵,是指每個符號所含信息量的統(tǒng)計(jì)平均值。m種符號的平均信息量為H(X)=∑p(x)(x)=∑px)ogpx)路漫漫其悠拋一枚均勻硬幣的信息是多少?解:出現(xiàn)正面與反面的概率均為0.5,信息是()=∑(x)gpx(0.5log0.5+0.5lg0.5)路漫漫其悠。拋一枚畸形硬幣,出現(xiàn)正面與反面的概率分別是1/4,3/4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論