實(shí)驗(yàn)5 建立決策樹(shù)并進(jìn)行分類(lèi)_第1頁(yè)
實(shí)驗(yàn)5 建立決策樹(shù)并進(jìn)行分類(lèi)_第2頁(yè)
實(shí)驗(yàn)5 建立決策樹(shù)并進(jìn)行分類(lèi)_第3頁(yè)
實(shí)驗(yàn)5 建立決策樹(shù)并進(jìn)行分類(lèi)_第4頁(yè)
實(shí)驗(yàn)5 建立決策樹(shù)并進(jìn)行分類(lèi)_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

實(shí)驗(yàn)5建立決策樹(shù)并進(jìn)行分類(lèi)實(shí)驗(yàn)?zāi)康耐ㄟ^(guò)使用SPSS對(duì)數(shù)據(jù)集進(jìn)行分析并建立決策樹(shù),學(xué)會(huì)建立決策樹(shù)的數(shù)據(jù)處理過(guò)程和方法,從而深入地理解分類(lèi)的一般過(guò)程和基本原理,以及如何利用決策樹(shù)分類(lèi)解決現(xiàn)實(shí)的問(wèn)題。實(shí)驗(yàn)內(nèi)容建立決策樹(shù)使用決策樹(shù)對(duì)未知類(lèi)別的數(shù)據(jù)(集)進(jìn)行類(lèi)別預(yù)測(cè)分析實(shí)驗(yàn)條件1.操作系統(tǒng):WindowsXPSP22.SPSS13。1實(shí)驗(yàn)要求現(xiàn)有1000位顧客個(gè)人信息,主要包括性別、地址、收入、婚姻狀況、教育程度、職業(yè)等信息(保存在顧客.xls文件中),數(shù)據(jù)表的結(jié)構(gòu)如下圖所示:請(qǐng)你運(yùn)用SPSS統(tǒng)計(jì)分析軟件分析數(shù)據(jù),并將實(shí)驗(yàn)步驟和結(jié)果記錄到實(shí)驗(yàn)報(bào)告單上。以顧客.xls作為訓(xùn)練數(shù)據(jù)集,收入、職業(yè)、年齡為測(cè)試屬性,是否購(gòu)買(mǎi)自行車(chē)為類(lèi)別屬性,分別選擇四種分類(lèi)方法建立決策樹(shù),記錄準(zhǔn)確率最高的分析結(jié)果。使用分類(lèi)規(guī)則預(yù)測(cè)預(yù)測(cè)1.xls中數(shù)據(jù)所屬的類(lèi)別(是否購(gòu)買(mǎi)自行車(chē))。對(duì)分類(lèi)結(jié)果和預(yù)測(cè)結(jié)果進(jìn)行分析?,F(xiàn)有2646位顧客的年齡、收入、信用卡數(shù)、教育程度、車(chē)貸數(shù)、信用等級(jí)信息(保存在tree_credit.sav中),請(qǐng)你運(yùn)用SPSS統(tǒng)計(jì)分析軟件分析數(shù)據(jù),并將實(shí)驗(yàn)步驟和結(jié)果記錄到實(shí)驗(yàn)報(bào)告單上。(1)分別選擇四種分類(lèi)方法建立決策樹(shù),記錄準(zhǔn)確率最高的分類(lèi)析果。(2)使用分類(lèi)規(guī)則預(yù)測(cè)tree.sav中數(shù)據(jù)所屬的類(lèi)別(信用等級(jí))。(3)對(duì)分類(lèi)結(jié)果和預(yù)測(cè)結(jié)果進(jìn)行分析。實(shí)驗(yàn)步驟及指導(dǎo)1、建立決策樹(shù)第一步:數(shù)據(jù)準(zhǔn)備,將待處理的數(shù)據(jù)輸入或?qū)隨PSS中,本例將顧客.xls導(dǎo)入SPSS中。第二步:建立決策樹(shù)(1)選擇統(tǒng)計(jì)分析[Statistics]菜單,選聚類(lèi)分析[Classify]中的樹(shù)狀分析[ClassificationTree...]項(xiàng),彈出樹(shù)狀分析[ClassificationTree]對(duì)話框,從對(duì)話框左側(cè)的變量列表中分別選擇類(lèi)別屬性和測(cè)試屬性進(jìn)入右側(cè)類(lèi)別屬性[DependentVariable]和測(cè)試屬性[IndependentVariable]框中。本例選擇是否購(gòu)房為類(lèi)別屬性,婚姻狀況、收入、撫養(yǎng)的孩子數(shù)、年齡為測(cè)試屬性。GrowingMethod下拉列表中有CHAID、ExhaustiveCHAID、CRT、QUEST四種建立分類(lèi)樹(shù)的方法,本例選擇ExhaustiveCHAID。圖5-1(2)點(diǎn)擊輸出[Output...]鈕,彈出分類(lèi)樹(shù):輸出[ClassificationTree:Output]對(duì)話框,該對(duì)話框有樹(shù)[tree]、統(tǒng)計(jì)[statistics]、規(guī)則[rule]三個(gè)選項(xiàng)卡,在樹(shù)[tree]選項(xiàng)卡中設(shè)置分類(lèi)樹(shù)的顯示方式,在統(tǒng)計(jì)[statistics]選項(xiàng)卡中設(shè)置輸出哪些統(tǒng)計(jì)結(jié)果,在規(guī)則[rule]選項(xiàng)卡中設(shè)置規(guī)則的顯示方式和輸出路徑。本例選擇樹(shù)[tree]選項(xiàng)卡下的NodeContents:tableandcharts(結(jié)點(diǎn)內(nèi)容:表和圖),規(guī)則[rule]選項(xiàng)卡的generateclassificationrules->syntax下的SPSS,規(guī)則[rule]選項(xiàng)卡下的exportrulestoafile,并在文本框中輸入c:\output.sps.(圖5.2)圖5.2(3)點(diǎn)擊輸出[Criteria...]鈕,彈出[ClassificationTree:Criteria]對(duì)話框,該對(duì)話框有[Growthlimit]、[CHAID]、[Inteverl]三個(gè)選項(xiàng)卡,在樹(shù)[Growthlimit]選項(xiàng)卡中設(shè)置分類(lèi)樹(shù)最大深度和結(jié)點(diǎn)中最少包含多少個(gè)數(shù)據(jù),automatic和custom單選按鈕分別表示設(shè)置分類(lèi)數(shù)的深度為自動(dòng)和用戶(hù)自定義(在文本框中輸入最大深度),在parentnode和childnode文本框中設(shè)置分類(lèi)樹(shù)父結(jié)點(diǎn)和子結(jié)點(diǎn)中最少包括多少個(gè)數(shù)據(jù),即如果分類(lèi)樹(shù)結(jié)點(diǎn)中的數(shù)據(jù)數(shù)少于規(guī)則的數(shù)據(jù),分類(lèi)樹(shù)就不再繼續(xù)向下生長(zhǎng),這兩個(gè)值越大,產(chǎn)生的樹(shù)的分枝越少,值越小,產(chǎn)生的分枝越多。本例設(shè)置parentnode為50,childnode為10(如圖5-3)。5.3(4)點(diǎn)擊確定[OK...]完成。第三步:分析結(jié)果(1)描述概要 ModelSummarySpecifications(說(shuō)明)GrowingMethod(決策樹(shù)生成方法)EXHAUSTIVECHAIDDependentVariable(類(lèi)別屬性)是否購(gòu)房IndependentVariables(測(cè)試屬性)婚姻狀況,收入,撫養(yǎng)的孩子數(shù),年齡Validation(驗(yàn)證)NONE(沒(méi)有設(shè)置)MaximumTreeDepth(最大深度)3MinimumCasesinParentNode(父結(jié)點(diǎn)中包含的最少數(shù)據(jù)數(shù))50MinimumCasesinChildNode(子結(jié)點(diǎn)中包含的最少數(shù)據(jù)數(shù))10Results(結(jié)果)IndependentVariablesIncluded婚姻狀況,年齡,撫養(yǎng)的孩子數(shù)NumberofNodes(分類(lèi)樹(shù)的結(jié)點(diǎn)總樹(shù))11NumberofTerminalNodes(葉子結(jié)點(diǎn)數(shù))7Depth(樹(shù)的深度)3Specifications(說(shuō)明)中顯示的是用戶(hù)在生成分類(lèi)樹(shù)之前自行設(shè)置的信息,Results(結(jié)果)是生成的結(jié)果信息。(2)評(píng)估 RiskEstimateStd.Error.255.014GrowingMethod:EXHAUSTIVECHAID DependentVariable:是否購(gòu)房 該表中Estimate的值是分類(lèi)準(zhǔn)確性的一個(gè)評(píng)估值,其值表示決策樹(shù)的錯(cuò)誤率為25.5%,說(shuō)明該分類(lèi)樹(shù)的準(zhǔn)確率是74.5%,Estimate越小說(shuō)明該分類(lèi)樹(shù)越準(zhǔn)確。(3)分類(lèi) ClassificationObservedPredictedNoYesPercentCorrectNo12718840.3%Yes6761890.2%OverallPercentage19.4%80.6%74.5%GrowingMethod:EXHAUSTIVECHAID DependentVariable:是否購(gòu)房 該表中第一行表示分類(lèi)樹(shù)把本該是No類(lèi)(即沒(méi)有購(gòu)房)的人分別劃到No類(lèi)127人、Yes類(lèi)188,準(zhǔn)確率是40.3%,第二行表示分類(lèi)樹(shù)把本該是Yes類(lèi)(即有購(gòu)房)的人分別劃到No類(lèi)67人、Yes類(lèi)618,準(zhǔn)確率是90.2%,總的準(zhǔn)確率是74.5%,總的準(zhǔn)確率與risk表中的Estimate值的總和為100%。該結(jié)果表明該分類(lèi)樹(shù)中對(duì)于yes類(lèi)的分類(lèi)準(zhǔn)確類(lèi)是比較高的。(4)輸出規(guī)則在文件->打開(kāi)->語(yǔ)句文件中打開(kāi)分類(lèi)規(guī)則輸出文件output.sps,一個(gè)葉結(jié)點(diǎn)生成一條分類(lèi)規(guī)則,上圖中顯示的是編號(hào)是3的葉結(jié)果上的規(guī)則。(5)分類(lèi)樹(shù)第四步:利用分類(lèi)規(guī)則對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)打開(kāi)需要進(jìn)行分類(lèi)預(yù)測(cè)的數(shù)據(jù)集(該數(shù)據(jù)集的結(jié)構(gòu)應(yīng)該和原數(shù)據(jù)集相同),為了便和原數(shù)據(jù)類(lèi)別進(jìn)行對(duì)比,本例選擇原數(shù)據(jù)集為預(yù)測(cè)數(shù)據(jù)集(理論和現(xiàn)實(shí)中數(shù)據(jù)集和預(yù)測(cè)數(shù)據(jù)集不可能是同一個(gè)數(shù)據(jù)集,用戶(hù)可以自己定義新和原數(shù)據(jù)集結(jié)構(gòu)相同的數(shù)據(jù),然后輸入除分類(lèi)變量以外的各個(gè)變量的值,利用分類(lèi)規(guī)則預(yù)測(cè)分類(lèi)變量的取值)。然后選擇主菜單文件->新建->語(yǔ)句文件,在彈出的文件中輸入INSERTFILE=’C

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論