決策樹ppt課件_第1頁
決策樹ppt課件_第2頁
決策樹ppt課件_第3頁
決策樹ppt課件_第4頁
決策樹ppt課件_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、決策樹.決策樹簡介決策樹算法.A1,A2兩方案投資分別為450萬和240萬,運營年限為5年,銷路好的概率為0.7,銷路差的概率為0.3,A1方案銷路好年、差年的損益值分別為300萬和負60萬,A2方案分別為120萬和30萬。決策樹簡介.決策樹簡介決策形狀形狀結(jié)結(jié)果點A1A20.70.30.70.33006012030.決策樹簡介決策形狀形狀結(jié)結(jié)果點最后選擇的最正確方案代表備選方案的經(jīng)濟效果將每個方案在各種自然形狀下獲得的損益值標注于結(jié)果節(jié)點的右端.決策樹的普通流程:1搜集數(shù)據(jù)2預備數(shù)據(jù)3分析數(shù)據(jù)4訓練算法5測試算法6運用算法決策樹簡介. 劃分數(shù)據(jù)集的大原那么就是將無序的數(shù)據(jù)變得更加有序。 劃分

2、數(shù)據(jù)集前后信息發(fā)生的變化成為信息增益。 決策樹簡介. 集合信息的度量方式稱為香農(nóng)熵熵 條件熵決策樹簡介.計算給定數(shù)據(jù)集的香農(nóng)熵from math import log def calcShannonEnt(dataSet) :numEntries = len(dataSet)labelCounts = for featVec in dataSet:currentLabel = featVec-1if currentLabel not in labelCounts.keys():labelCountscurrentLabel= 0labelCountscurrentLabel+=1shannon

3、Ent = 0.0for key in labelCounts: prob = float(labelCountkey)/numEntries shannonEnt-=prob*log(prob,2) return shannonEnt 決策樹簡介(1)(2).計算給定數(shù)據(jù)集的香農(nóng)熵首先,計算數(shù)據(jù)集中實例的總數(shù)。為了提高代碼效率,我們顯式的聲明一個變量保管實例總數(shù)。然后,創(chuàng)建一個數(shù)據(jù)字典,它的鍵值是最后一列的數(shù)值1。假設當前鍵值不存在,那么擴展字典并將當前鍵值參與字典。每個鍵值都記錄了當前類別出現(xiàn)的次數(shù)。最后,運用一切類標簽的發(fā)生頻率計算類別出現(xiàn)的頻率2。我們將用這個概率計算香農(nóng)熵。決策樹簡介

4、.選擇最好的數(shù)據(jù)集劃分方式要求: 1 數(shù)據(jù)必需是一種列表元素組成的列表,而且一切的列表元素都要具有一樣的數(shù)據(jù)長度。 2 數(shù)據(jù)的最后一列或者每個實例的最后一個元素是當前實例的類別標簽。決策樹簡介.遞歸構(gòu)建決策樹def createTree(dataSet,labels): classList = example-1 for example in dataSet if classList.count(classList0) = len(classList): return classList0#stop splitting when all of the classes are equal if

5、len(dataSet0) = 1: #stop splitting when there are no more features in dataSet return majorityCnt(classList) bestFeat = chooseBestFeatureToSplit(dataSet) bestFeatLabel = labelsbestFeat myTree = bestFeatLabel: del(labelsbestFeat) featValues = examplebestFeat for example in dataSet uniqueVals = set(fea

6、tValues) for value in uniqueVals: subLabels = labels: #copy all of labels, so trees dont mess up existing labels myTreebestFeatLabelvalue = createTree(splitDataSet(dataSet, bestFeat, value),subLabels) return myTree 決策樹簡介(1)(2)(3).遞歸構(gòu)建決策樹首先創(chuàng)建了名為classList列變量,其中包含了數(shù)據(jù)集的一切類標簽。遞歸函數(shù)的第一個停頓條件是一切的類標簽完全一樣,那么直接

7、前往該類標簽(1)。遞歸函數(shù)的第二個停頓條件是運用完了一切特征,依然不能將數(shù)據(jù)集劃分成僅包含獨一類別的分組(2)。決策樹簡介.遞歸構(gòu)建決策樹第二步,開場創(chuàng)建樹,這里運用python言語的字典類型存儲樹的信息(3)。決策樹簡介.遞歸構(gòu)建決策樹第三步,代碼遍歷當前選擇特征包含的一切屬性值,在每個數(shù)據(jù)集劃分上遞歸調(diào)用函數(shù)createTree(),得到的前往值將被插入到字典變量MyTree中。決策樹簡介.3種算法比較ID3 較小數(shù)據(jù) 算法明晰C4 添加信息增益率 可以處置延續(xù)數(shù)值型屬性 規(guī)那么后修剪C5 Unix決策樹算法. 一 ID3根本思想 二 ID3算法 三 實例 四 ID3缺陷決策樹算法. 在

8、決策樹各個結(jié)點上運用信息增益準那么選擇特征遞歸地構(gòu)建決策樹。 天氣,取值為:晴,多云,雨。 氣溫,取值為:冷,適中,熱。 濕度,取值為:高,正常。 風,取值為:有風,無風。決策樹算法ID3根本思想.某天早晨氣候描畫為:天氣多云;氣溫冷;濕度正常;風無風。它屬于哪類氣候呢?要處理這個問題,需求用某個原那么來斷定,這個原那么來自于大量的實踐例子,從例子中總結(jié)出原那么,有了原那么就可以斷定任何一天的氣候了。每個實體在世界中屬于不同的類別,為簡單起見,假定僅有兩個類別,分別為P、N。在這種兩個類別的歸納義務中,P類和N類的實體分別稱為概念的正例和反例。將一些知正例和反例放在一同便得到訓練集。決策樹算法

9、ID3根本思想.決策樹算法ID3根本思想.決策樹算法晴多云雨P(guān)正常PNNP有風無風濕度風天氣高ID3根本思想.決策樹算法PN多云 (12)雨 (14)風有風(2,6,7,11,12,14)溫度高 (2,12,14)正常 (6,7,11)氣溫氣溫N熱 (2)適中 (12,14)天氣P適中 (11)冷 (6,7)NP多云 (6)雨 (7)天氣高 (1,3,4,8)無風(1,3,4,5,8,9,10,13)正常 (5,9,10,13)適中 (4,8)P熱 (1,3)PNPN晴 (1)多云 (3)晴 (8)雨 (4)溫度氣溫天氣天氣ID3算法.從根結(jié)點root node開場,對結(jié)點計算一切能夠的特征的

10、信息增益,選擇信息增益最大的特征作為結(jié)點的特征,由該特征的不同取值建立子結(jié)點;再對子結(jié)點遞歸的調(diào)用以上方法,構(gòu)建決策樹;直到一切特征的信息增益均很小或者沒有特征可以選擇為止。最后,得到一個決策樹。決策樹算法ID3算法.決策樹算法三 實例 對于氣候分類問題進展以下詳細計算。 1、信息熵計算: 類別ui出現(xiàn)概率: |S|表例如子集S的總數(shù),|ui|表示類別 ui的例子數(shù)。 對9個正例u1和5個反例u2有:.2條件熵計算 條件熵: 屬性A1取值vj時,類別ui的條件概率: A1天氣的取值:v1晴,v2多云,v3雨在A1處取值“晴的例子5個,取值“多云的例子4個,取值“雨的例子5個,故:決策樹算法三

11、實例. 取值為晴的5個例子中有兩個正例、3個反例,故: 同理有決策樹算法三 實例.3互信息計算 對A1天氣,有: 類似可得: 氣溫0.029bit 濕度0.151bit 風0.048bit決策樹算法三 實例.決策樹算法三 實例.4建決策樹的樹根和分支ID3算法將選擇互信息最大的屬性“天氣作為樹根,在14個例子中對“天氣的3個取值進展分支,3個分支對應3個子集,分別是:F1晴1,2,8,9,11,F(xiàn)2多云3,7,12,13,F(xiàn)3雨4,5,6,10,14其中,F(xiàn)2中的例子全屬于P類,因此對應分支標志為P,其他兩個子集既含有正例P又含有反例,將遞歸調(diào)用建樹算法決策樹算法三 實例.5遞歸建樹分別對F1

12、和F3子集利用ID3算法,在每個子集中對各屬性仍為4個屬性求互信息。1F1中的天氣全取“晴值,那么HUHUV,有IUV0,在余下3個屬性中求出“濕度互信息最大,以它為該分支的根結(jié)點。再向下分支,“濕度取“高的例子全為N類,該分支標志N;取值“正常的例子全為P類,該分支標志P。決策樹算法三 實例.2在F3中,對4個屬性求互信息,得到“風屬性互信息最大,那么以它為該分支的根結(jié)點。再向下分支,“風取“有風時全為N類,該分支標志N;取“無風時全為P類,該分支標志P。 這樣就得到如圖 所示的決策樹。決策樹算法三 實例晴多云雨P(guān)高正常PNNP有風無風濕度風天氣圖1. ID3算法的缺陷: 1只適宜屬性值為離散的; 2決策樹層次較多時,決策質(zhì)量低; 3傾向于選擇取值較多的屬性;決策樹算法四 ID3缺陷.決策樹.優(yōu)點:決策樹易于了解和實現(xiàn),人們在在學習過程中不需求運用者了解很多的背景知識這同時是它的可以直接表達數(shù)據(jù)的特點,只需經(jīng)過解釋后都有才干去理處理策樹所表達的意義。對于決策

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論