分類(lèi)和預(yù)測(cè)決策樹(shù)_第1頁(yè)
分類(lèi)和預(yù)測(cè)決策樹(shù)_第2頁(yè)
分類(lèi)和預(yù)測(cè)決策樹(shù)_第3頁(yè)
分類(lèi)和預(yù)測(cè)決策樹(shù)_第4頁(yè)
分類(lèi)和預(yù)測(cè)決策樹(shù)_第5頁(yè)
已閱讀5頁(yè),還剩48頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第四章分類(lèi)和預(yù)測(cè)主講教師:魏宏喜(博士,副教授)2第四章分類(lèi)和預(yù)測(cè)4.1分類(lèi)和預(yù)測(cè)的定義4.2數(shù)據(jù)分類(lèi)方法決策樹(shù)神經(jīng)網(wǎng)絡(luò)SVM貝葉斯網(wǎng)絡(luò)4.3數(shù)據(jù)預(yù)測(cè)方法線(xiàn)性回歸非線(xiàn)性回歸3第四章分類(lèi)和預(yù)測(cè)4.1分類(lèi)和預(yù)測(cè)的定義4.2數(shù)據(jù)分類(lèi)方法決策樹(shù)神經(jīng)網(wǎng)絡(luò)SVM貝葉斯網(wǎng)絡(luò)4.3數(shù)據(jù)預(yù)測(cè)方法線(xiàn)性回歸非線(xiàn)性回歸44.1分類(lèi)和預(yù)測(cè)的定義分類(lèi)(Classification)給定一個(gè)數(shù)據(jù)集D={t1,t2,…,tn}和一個(gè)類(lèi)別集合C={C1,C2,…,Cm},數(shù)據(jù)分類(lèi)就是通過(guò)定義一個(gè)映射f:DC,為數(shù)據(jù)集D中的每條數(shù)據(jù)ti分配C中的一個(gè)類(lèi)Cj。預(yù)測(cè)(Prediction)它是一種分類(lèi)的泛化,當(dāng)分類(lèi)的類(lèi)別是一個(gè)連續(xù)值時(shí)(可看成無(wú)限多類(lèi)),就是數(shù)據(jù)預(yù)測(cè)。54.1分類(lèi)和預(yù)測(cè)的定義——示例分類(lèi)銀行貸款員需要分析數(shù)據(jù),來(lái)弄清哪些貸款申請(qǐng)者是安全的,哪些是有風(fēng)險(xiǎn)的。構(gòu)造一個(gè)映射(模型)將申請(qǐng)者分為兩類(lèi):安全有風(fēng)險(xiǎn)預(yù)測(cè)銀行貸款員需要分析數(shù)據(jù),來(lái)預(yù)測(cè)貸給某個(gè)顧客多少錢(qián)是安全的。構(gòu)造一個(gè)映射(模型)來(lái)預(yù)測(cè)一個(gè)連續(xù)值。如何建立具體的映射(模型)?64.1分類(lèi)和預(yù)測(cè)的定義數(shù)據(jù)分類(lèi)和預(yù)測(cè)的步驟如下:第一步——建立模型第二步——使用模型下面以分類(lèi)為例,詳細(xì)介紹這兩個(gè)步驟。74.1分類(lèi)和預(yù)測(cè)的定義第一步——建立模型訓(xùn)練數(shù)據(jù)集:由若干數(shù)據(jù)(通常用n維屬性向量表示)和它們相對(duì)應(yīng)的類(lèi)標(biāo)號(hào)組成。訓(xùn)練樣本:訓(xùn)練數(shù)據(jù)集中的單個(gè)數(shù)據(jù)及其類(lèi)標(biāo)號(hào)。從訓(xùn)練數(shù)據(jù)集“學(xué)習(xí)”相關(guān)知識(shí)來(lái)構(gòu)造分類(lèi)模型。分類(lèi)模型可能會(huì)以分類(lèi)規(guī)則、決策樹(shù)或數(shù)學(xué)公式等形式呈現(xiàn)出來(lái)。第二步——使用模型對(duì)未知類(lèi)別的數(shù)據(jù)進(jìn)行分類(lèi)(分配類(lèi)別標(biāo)號(hào))。8第一步——建立模型訓(xùn)練數(shù)據(jù)集分類(lèi)模型IFrank=‘professor’ORyears>6THENtenured=‘yes’分類(lèi)規(guī)則9第二步——使用模型分類(lèi)規(guī)則測(cè)試數(shù)據(jù)集未知數(shù)據(jù)(Jeff,Professor,4)Tenured?10第四章分類(lèi)和預(yù)測(cè)4.1分類(lèi)和預(yù)測(cè)的定義4.2數(shù)據(jù)分類(lèi)方法決策樹(shù)神經(jīng)網(wǎng)絡(luò)SVM貝葉斯網(wǎng)絡(luò)4.3數(shù)據(jù)預(yù)測(cè)方法線(xiàn)性回歸非線(xiàn)性回歸114.2數(shù)據(jù)據(jù)分分類(lèi)類(lèi)方方法法分類(lèi)類(lèi)過(guò)過(guò)程程的的數(shù)數(shù)據(jù)據(jù)預(yù)預(yù)處處理理分類(lèi)類(lèi)的的評(píng)評(píng)價(jià)價(jià)標(biāo)標(biāo)準(zhǔn)準(zhǔn)————性性能能度度量量12分類(lèi)類(lèi)過(guò)過(guò)程程的的數(shù)數(shù)據(jù)據(jù)預(yù)預(yù)處處理理在執(zhí)執(zhí)行行分分類(lèi)類(lèi)過(guò)過(guò)程程之之前前,,通通過(guò)過(guò)對(duì)對(duì)數(shù)數(shù)據(jù)據(jù)進(jìn)進(jìn)行行預(yù)預(yù)處處理理,,可可以以提提高高分分類(lèi)類(lèi)過(guò)過(guò)程程的的準(zhǔn)確確性性、有效效性性和可伸伸縮縮性性。常用的預(yù)處處理操作包包括:數(shù)據(jù)清理相關(guān)分析數(shù)據(jù)變換13分類(lèi)過(guò)程的的數(shù)據(jù)預(yù)處處理在執(zhí)行分類(lèi)類(lèi)過(guò)程之前前,通過(guò)對(duì)對(duì)數(shù)據(jù)進(jìn)行行預(yù)處理,,可以提高高分類(lèi)過(guò)程程的準(zhǔn)確性、有效性和可伸縮性。常用的預(yù)處處理操作包包括:數(shù)據(jù)清理:消除或減減少噪聲,,處理空缺缺值,從而而減少學(xué)習(xí)習(xí)時(shí)的混亂亂。相關(guān)分析數(shù)據(jù)變換14分類(lèi)過(guò)程的的數(shù)據(jù)預(yù)處處理在執(zhí)行分類(lèi)類(lèi)過(guò)程之前前,通過(guò)對(duì)對(duì)數(shù)據(jù)進(jìn)行行預(yù)處理,,可以提高高分類(lèi)過(guò)程程的準(zhǔn)確性、有效性和可伸縮性。常用的預(yù)處處理操作包包括:數(shù)據(jù)清理相關(guān)分析:數(shù)據(jù)中的的有些屬性性可能與當(dāng)當(dāng)前任務(wù)不不相關(guān)或者者是冗余的的,則可以以刪除這些些屬性以加加快學(xué)習(xí)過(guò)過(guò)程,并使使學(xué)習(xí)結(jié)果果更精確。。例如:主成成分分析((PCA)數(shù)據(jù)變換15分類(lèi)過(guò)程的的數(shù)據(jù)預(yù)處處理在執(zhí)行分類(lèi)類(lèi)過(guò)程之前前,通過(guò)對(duì)對(duì)數(shù)據(jù)進(jìn)行行預(yù)處理,,可以提高高分類(lèi)過(guò)程程的準(zhǔn)確性、有效性和可伸縮性。常用的預(yù)處處理操作包包括:數(shù)據(jù)清理相關(guān)分析數(shù)據(jù)變換:數(shù)據(jù)可以以通過(guò)規(guī)范范化,將給給定屬性的的所有值按按比例進(jìn)行行縮放,使使其落入一一個(gè)較小的的指定區(qū)間間中。例如:[0.0,1.0](神經(jīng)網(wǎng)絡(luò)絡(luò)中常用))。16分類(lèi)過(guò)程的的數(shù)據(jù)預(yù)處處理在執(zhí)行分類(lèi)類(lèi)過(guò)程之前前,通過(guò)對(duì)對(duì)數(shù)據(jù)進(jìn)行行預(yù)處理,,可以提高高分類(lèi)過(guò)程程的準(zhǔn)確性、有效性和可伸縮性。常用的預(yù)處處理操作包包括:數(shù)據(jù)清理相關(guān)分析數(shù)據(jù)變換在模式識(shí)別別領(lǐng)域特征提取與與特征選擇17分類(lèi)的評(píng)價(jià)價(jià)標(biāo)準(zhǔn)假設(shè):給定定測(cè)試集Xtest={(xi,yi)|i=1,2,……,N}N表示測(cè)試集集中的樣本本個(gè)數(shù);xi表示測(cè)試集集中第i個(gè)樣本;yi表示樣本xi的類(lèi)標(biāo)號(hào)。。對(duì)于測(cè)試集集的第j個(gè)類(lèi)別,分分類(lèi)結(jié)果如如下:被正確分類(lèi)類(lèi)的樣本數(shù)數(shù)量為T(mén)Pj;被錯(cuò)誤分類(lèi)類(lèi)的樣本數(shù)數(shù)量為FNj;其他類(lèi)別被被錯(cuò)誤分類(lèi)類(lèi)為該類(lèi)的的樣本數(shù)據(jù)據(jù)量為FPj。18分類(lèi)的評(píng)價(jià)價(jià)標(biāo)準(zhǔn)精確度(正正確率):表示測(cè)試試集中被正正確分類(lèi)的的數(shù)據(jù)所占占的比例。。例如:在文文字識(shí)別中中,經(jīng)常統(tǒng)統(tǒng)計(jì)識(shí)別正確率率,以此來(lái)表表示識(shí)別系系統(tǒng)的性能能。19第四章分分類(lèi)和預(yù)測(cè)測(cè)4.1分類(lèi)和預(yù)測(cè)測(cè)的定義4.2數(shù)據(jù)分類(lèi)方方法決策樹(shù)神經(jīng)網(wǎng)絡(luò)SVM貝葉斯網(wǎng)絡(luò)絡(luò)4.3數(shù)據(jù)預(yù)測(cè)方方法線(xiàn)性回歸非線(xiàn)性回歸歸20決策樹(shù)什么是決策策樹(shù)?由數(shù)據(jù)的不同屬性逐次劃分?jǐn)?shù)數(shù)據(jù)集,直直至得到的的數(shù)據(jù)子集只包含同一一類(lèi)數(shù)據(jù)為為止,這樣樣可形成一一棵樹(shù),稱(chēng)稱(chēng)為決策樹(shù)樹(shù)。結(jié)構(gòu)上類(lèi)似似于程序流流程圖;每個(gè)內(nèi)部結(jié)結(jié)點(diǎn)表示在在一個(gè)屬性性上的測(cè)試;每個(gè)分枝代代表一個(gè)測(cè)測(cè)試的輸出;每個(gè)葉結(jié)點(diǎn)點(diǎn)存放一個(gè)個(gè)類(lèi)標(biāo)號(hào)。由樹(shù)的根結(jié)結(jié)點(diǎn)到某個(gè)個(gè)葉結(jié)點(diǎn)的的屬性的合取可形成一條條分類(lèi)規(guī)則則;所有規(guī)規(guī)則的析取可形成一整整套分類(lèi)規(guī)規(guī)則。21決策樹(shù)生成目標(biāo):根據(jù)據(jù)客戶(hù)的如如下屬性,,是否有貸款款、婚姻狀況、收入水平,來(lái)判斷客客戶(hù)是否存存在“金融融欺騙”行行為。如何從訓(xùn)練數(shù)據(jù)集生成相應(yīng)決策樹(shù),是本節(jié)所關(guān)注的內(nèi)容。22決策樹(shù)———分類(lèi)過(guò)程程23決策樹(shù)———分類(lèi)過(guò)程程24決策樹(shù)———分類(lèi)過(guò)程程25決策樹(shù)———分類(lèi)過(guò)程程26決策樹(shù)———分類(lèi)過(guò)程程27決策樹(shù)———分類(lèi)過(guò)程程28決策樹(shù)———屬性選擇擇的次序問(wèn)問(wèn)題哪棵樹(shù)更好好?or哪種次序更更好?29決策樹(shù)決策樹(shù)關(guān)注注的主要問(wèn)問(wèn)題:決策樹(shù)的生生成算法ID3算法C4.5算法決策樹(shù)的剪剪枝策略::許多分枝枝反映的是是訓(xùn)練數(shù)據(jù)據(jù)集中的噪噪聲和離群群點(diǎn),剪枝枝試圖識(shí)別別并剪去這這種分枝,,以提高對(duì)對(duì)未知數(shù)據(jù)據(jù)分類(lèi)的準(zhǔn)準(zhǔn)確性。先剪枝方法法后剪枝方法法30ID3算法法特點(diǎn):在選選擇根結(jié)點(diǎn)點(diǎn)和各個(gè)內(nèi)內(nèi)部結(jié)點(diǎn)的的分枝屬性性時(shí),采用用信息增益作為度量標(biāo)標(biāo)準(zhǔn),因因此每次都都會(huì)選擇具具有最高信息增增益的屬性作為為分枝屬性性。ID3算法只能處處理屬性值值為離散型的數(shù)據(jù)集的的劃分。31ID3算法法給定數(shù)據(jù)集集X={(xi,yi)|i=1,2,……,total}。xi(i=1,2,...,total)用d維特征向量量xi=(xi1,xi2,...,xid)來(lái)表示,xi1,xi2,...,xid分別對(duì)應(yīng)d個(gè)屬性A1,A2,...,Ad的具體取值值;yi(i=1,2,...,total)表示樣本xi的類(lèi)標(biāo)號(hào),,假設(shè)要研研究的分類(lèi)類(lèi)問(wèn)題有m個(gè)類(lèi)別,則則yi∈{c1,c2,...,cm}。假設(shè)nj是數(shù)據(jù)集X中屬于類(lèi)別別cj的樣本數(shù)量量,則各類(lèi)類(lèi)別的先驗(yàn)概率為:對(duì)于數(shù)據(jù)集集X,將其分為為m類(lèi)的期望信息為:32ID3算法法計(jì)算屬性Af劃分?jǐn)?shù)據(jù)集集X所得的熵:假設(shè)Af有q個(gè)不同取值值,可按q的不同取值值將X劃分為q個(gè)不同的子子集{X1,X2,…,Xs,…,Xq};假設(shè)ns表示Xs中的樣本本數(shù)量,,njs表示Xs中屬于類(lèi)類(lèi)別cj的樣本數(shù)數(shù)量,則則由屬性性Af劃分?jǐn)?shù)據(jù)據(jù)集X的熵為::其中:33ID3算算法計(jì)算屬性性Af劃分?jǐn)?shù)據(jù)據(jù)集時(shí)的的信息增益益:屬性的信信息增益益值越大大,表示示它的區(qū)區(qū)分度就就越高,,使用該該屬性進(jìn)進(jìn)行分類(lèi)類(lèi)的效果果就越好好。ID3算法是通通過(guò)選擇擇具有最高信息息增益的屬性作作為數(shù)據(jù)據(jù)集的劃劃分,從從而可創(chuàng)創(chuàng)建決策策樹(shù)中的的一個(gè)結(jié)結(jié)點(diǎn),根根據(jù)該屬屬性的不不同取值值可形成成該結(jié)點(diǎn)點(diǎn)的不同同分枝。。再對(duì)各分分枝中的的數(shù)據(jù)子子集進(jìn)行行遞歸劃分分,直至形形成葉結(jié)結(jié)點(diǎn)或者者某分枝枝上的所所有數(shù)據(jù)據(jù)不屬于于同一類(lèi)類(lèi)別,但但又沒(méi)有有剩余的的屬性可可以進(jìn)一一步劃分分為止。。34ageincomestudentcredit_ratingbuy_computeryouthhighnofairnoyouthhighnoexcellentnomiddle_agedhighnofairyesseniormediumnofairyesseniorlowyesfairyesseniorlowyesexcellentnomiddle_agedlowyesexcellentyesyouthmediumnofairnoyouthlowyesfairyesseniormediumyesfairyesyouthmediumyesexcellentyesmiddle_agedmediumnoexcellentyesmiddle_agedhighyesfairyesseniormediumnoexcellentnoID3算法——示例(buy_computer)35ID3算法——示例(buy_computer)首先,計(jì)計(jì)算數(shù)據(jù)據(jù)集分類(lèi)類(lèi)所需的的期望信信息:在數(shù)據(jù)集集中,給給定的樣樣本數(shù)量量為14,類(lèi)標(biāo)號(hào)號(hào)為Yes(表示購(gòu)買(mǎi)買(mǎi)電腦)的樣本數(shù)數(shù)量為n1=9,類(lèi)標(biāo)號(hào)號(hào)為No(表示不購(gòu)購(gòu)買(mǎi)電腦腦)的樣本數(shù)數(shù)量為n2=5,因此數(shù)數(shù)據(jù)集中中兩個(gè)類(lèi)類(lèi)別的先先驗(yàn)概率率分別為為:p(Yes)=n1/total=9/14p(No)=n2/total=5/14對(duì)數(shù)據(jù)集集分類(lèi)所所需的期期望信息息為:Info(n1,n2)=-p(Yes)*log(p(Yes))-p(No)*log(p(No))=-9/14*log(9/14)-5/14*log(5/14)≈0.9436ID3算法——示例(buy_computer)其次,計(jì)計(jì)算各屬屬性劃分分?jǐn)?shù)據(jù)集集時(shí)的信信息增益益:先計(jì)算屬屬性age的熵。由由于屬性性age有三個(gè)不不同取值值(youth,middle_aged,senior),因此此可將數(shù)數(shù)據(jù)集劃劃分成三三個(gè)子集集:X1,X2和X3。對(duì)于子集集X1(age=youth),它的樣樣本數(shù)量量為n1=5,其中類(lèi)類(lèi)標(biāo)號(hào)為為Yes的數(shù)量n11=2,類(lèi)標(biāo)號(hào)號(hào)為No的數(shù)量n12=3,則這兩兩類(lèi)樣本本在子集集X1中所占的的比例分分別為::p11=n11/n1=2/5=0.4p12=n12/n1=3/5=0.6這樣,子子集X1的期望信信息為::Info(n11,n12)=-p11*log(p11)-p12*log(p12)=-0.4*log(0.4)-0.6*log(0.6)37ID3算法法———示例例((buy_computer)其次次,,計(jì)計(jì)算算各各屬屬性性劃劃分分?jǐn)?shù)數(shù)據(jù)據(jù)集集時(shí)時(shí)的的信信息息增增益益::先計(jì)計(jì)算算屬屬性性age的熵熵。。由由于于屬屬性性age有三三個(gè)個(gè)不不同同取取值值((youth,middle_aged,senior),,因因此此可可將將數(shù)數(shù)據(jù)據(jù)集集劃劃分分成成三三個(gè)個(gè)子子集集::X1,X2和X3。對(duì)于于子子集集X2(age=middle_aged),它它的的樣樣本本數(shù)數(shù)量量為為n2=4,其其中中類(lèi)類(lèi)標(biāo)標(biāo)號(hào)號(hào)為為Yes的數(shù)數(shù)量量n12=4,類(lèi)類(lèi)標(biāo)標(biāo)號(hào)號(hào)為為No的數(shù)數(shù)量量n22=0,則則這這兩兩類(lèi)類(lèi)樣樣本本在在子子集集X2中所所占占的的比比例例分分別別為為::p21=n12/n2=4/4=1p22=n22/n2=0/4=0這樣樣,,子子集集X2的期期望望信信息息為為::Info(n12,n22)=-p12*log(p12)-p22*log(p22)=038ID3算法法———示例例((buy_computer)其次次,,計(jì)計(jì)算算各各屬屬性性劃劃分分?jǐn)?shù)數(shù)據(jù)據(jù)集集時(shí)時(shí)的的信信息息增增益益::先計(jì)計(jì)算算屬屬性性age的熵熵。。由由于于屬屬性性age有三三個(gè)個(gè)不不同同取取值值((youth,middle_aged,senior),,因因此此可可將將數(shù)數(shù)據(jù)據(jù)集集劃劃分分成成三三個(gè)個(gè)子子集集::X1,X2和X3。對(duì)于于子子集集X3(age=senior),它它的的樣樣本本數(shù)數(shù)量量為為n3=5,其其中中類(lèi)類(lèi)標(biāo)標(biāo)號(hào)號(hào)為為Yes的數(shù)數(shù)量量n13=3,類(lèi)類(lèi)標(biāo)標(biāo)號(hào)號(hào)為為No的數(shù)數(shù)量量n23=2,則則這這兩兩類(lèi)類(lèi)樣樣本本在在子子集集X3中所占的的比例分分別為::p13=n13/n3=3/5=0.6p23=n23/n3=2/5=0.4這樣,子子集X3的期望信信息為::Info(n13,n23)=-p13*log(p13)-p23*log(p23)=-0.6*log(0.6)-0.4*log(0.4)39ID3算法——示例(buy_computer)其次,計(jì)計(jì)算各屬屬性劃分分?jǐn)?shù)據(jù)集集時(shí)的信信息增益益:先計(jì)算屬屬性age的熵。由由于屬性性age有三個(gè)不不同取值值(youth,middle_aged,senior),因此此可將數(shù)數(shù)據(jù)集劃劃分成三三個(gè)子集集:X1,X2和X3。由于子集集X1,X2和X3各自的期期望信息息分別為為Info(n11,n12),Info(n12,n22)和Info(n13,n23),因此,,屬性age劃分?jǐn)?shù)據(jù)據(jù)集的熵熵為:E(age)=5/14*Info(n11,n12)+4/14*Info(n12,n22)+5/14*Info(n13,n23)≈0.694計(jì)算屬性性age的信息增增益為::Gain(age)=Info(Yes,No)––E(age)=0.94–0.694=0.24640ID3算法——示例(buy_computer)其次,計(jì)計(jì)算各屬屬性劃分分?jǐn)?shù)據(jù)集集時(shí)的信信息增益益:按上述方方式,可可依次計(jì)計(jì)算其他他屬性的的信息增增益分別別為:Gain(income)=0.029Gain(student)=0.151Gain(credit_rating)=0.048在4個(gè)屬性中中,age的信息增增益最大大(0.246),因此先先以該屬屬性來(lái)劃劃分?jǐn)?shù)據(jù)據(jù)集。41ID3算法——示例(buy_computer)42ID3算算法ID3算法的優(yōu)點(diǎn):ID3算法通常常只需要要測(cè)試一一部分屬屬性就可可完成對(duì)對(duì)訓(xùn)練數(shù)數(shù)據(jù)集的的分類(lèi)。。從ID3算法構(gòu)建建的決策策樹(shù)中,,很容易易獲得相相應(yīng)的決決策規(guī)則則。43ID3算算法ID3算法的缺點(diǎn):ID3算法在選選擇根節(jié)節(jié)點(diǎn)和內(nèi)內(nèi)部結(jié)點(diǎn)點(diǎn)的屬性性時(shí),使使用信息息增益作作為評(píng)價(jià)價(jià)標(biāo)準(zhǔn)。。信息增益益更傾向向于選擇擇取值種種類(lèi)較多多的屬性性進(jìn)行劃劃分,而而不一定定是最優(yōu)屬性性進(jìn)行劃分分。ID3算法只能能對(duì)屬性性值為離離散型的的數(shù)據(jù)集集進(jìn)行劃劃分(構(gòu)構(gòu)建決策策樹(shù)),,不能處處理屬性性值為連連續(xù)型的的數(shù)據(jù)集集。44C4.5算法C4.5算法使用用信息增益益比來(lái)確定分分枝屬性性,能夠夠克服ID3算法使用用信息增增益時(shí)偏偏向于取取值類(lèi)型型較多屬屬性的不不足。屬性Af的信息增益益比的定義為為:其中:當(dāng)q的值較大時(shí),就會(huì)降低信息增益比。45C4.5算法C4.5算法既可可以處理理離散型型描述屬屬性,也也可以處處理連續(xù)續(xù)型描述述屬性。。當(dāng)處理離離散型屬屬性時(shí),,C4.5算法與ID3算法相同同;當(dāng)處理連連續(xù)型屬屬性時(shí),,C4.5算法需要要先將連連續(xù)型屬屬性轉(zhuǎn)換換成離散散型屬性性。46C4.5算法C4.5算法既可可以處理理離散型型描述屬屬性,也也可以處處理連續(xù)續(xù)型描述述屬性。。當(dāng)處理離離散型屬屬性時(shí),,C4.5算法與ID3算法相同同;當(dāng)處理連連續(xù)型屬屬性時(shí),,C4.5算法需要要先將連連續(xù)型屬屬性轉(zhuǎn)換換成離散散型屬性性。對(duì)于連續(xù)續(xù)值屬性性Ac,假設(shè)在在某個(gè)結(jié)結(jié)點(diǎn)上的的樣本數(shù)數(shù)量為total,則C4.5算法將進(jìn)進(jìn)行如下下操作::(1)將該結(jié)點(diǎn)點(diǎn)上的所所有樣本本按照屬屬性的取取值由小到大大排序,得得到排序序結(jié)果{A1c,A2c,...,Atotalc};47C4.5算法C4.5算法既可可以處理理離散型型描述屬屬性,也也可以處處理連續(xù)續(xù)型描述述屬性。。當(dāng)處理離離散型屬屬性時(shí),,C4.5算法與ID3算法相同同;當(dāng)處理連連續(xù)型屬屬性時(shí),,C4.5算法需要要先將連連續(xù)型屬屬性轉(zhuǎn)換換成離散散型屬性性。對(duì)于連續(xù)續(xù)值屬性性Ac,假設(shè)在在某個(gè)結(jié)結(jié)點(diǎn)上的的樣本數(shù)數(shù)量為total,則C4.5算法將進(jìn)進(jìn)行如下下操作::(2)在{A1c,A2c,...,Atotalc}中生成total-1個(gè)分割點(diǎn)點(diǎn)其中:第第i個(gè)(1≤i≤total-1)分割點(diǎn)的的取值設(shè)設(shè)置為vi=(Aic+A(i+1)c)/2。48C4.5算法C4.5算法既可可以處理理離散型型描述屬屬性,也也可以處處理連續(xù)續(xù)型描述述屬性。。當(dāng)處理離離散型屬屬性時(shí),,C4.5算法與ID3算法相同同;當(dāng)處理連連續(xù)型屬屬性時(shí),,C4.5算法需要要先將連連續(xù)型屬屬性轉(zhuǎn)換換成離散散型屬性性。對(duì)于連續(xù)續(xù)值屬性性Ac,假設(shè)在在某個(gè)結(jié)結(jié)點(diǎn)上的的樣本數(shù)數(shù)量為total,則C4.5算法將進(jìn)進(jìn)行如下下操作::(3)從total-1個(gè)分割點(diǎn)點(diǎn)中選擇擇最佳分分割點(diǎn)。。其中:最最佳分割割點(diǎn)具有有最大信息息增益比比。49C4.5算法———離散散化示例例將“buy_computer””中的屬性性age的取值由由{youth,middle_aged,senior}改為具體體年齡{32,25,46,56,60,52,42,36,23,51,38,43,41,65},C4.5算法離散散化的具具體過(guò)程程。(1)對(duì)年齡序序列由小小到大排排序,新新的序列列為{23,25,32,36,38,41,42,43,46,51,52,56,60,65};(2)對(duì)新的年年齡序列列生成分分割點(diǎn)::由于樣樣本數(shù)量量為14,因此可可生成13個(gè)分割點(diǎn)點(diǎn)。例如:第第一個(gè)分分割點(diǎn)為為(23+25)/2=24,它可將將數(shù)據(jù)集集劃分為為年齡在在區(qū)間[23,24]的樣本和和在

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論