使用決策樹的預(yù)測建模_第1頁
使用決策樹的預(yù)測建模_第2頁
使用決策樹的預(yù)測建模_第3頁
使用決策樹的預(yù)測建模_第4頁
使用決策樹的預(yù)測建模_第5頁
已閱讀5頁,還剩29頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、2.1問題和數(shù)據(jù)探索2.2建模問題和數(shù)據(jù)難點2.3生成和解釋決策樹錯誤!未定義書簽表2.1SAMPSIO.HMEQ數(shù)據(jù)集合的變量2.1問題和數(shù)據(jù)探索內(nèi)容:問題和數(shù)據(jù)初步數(shù)據(jù)探索問題和數(shù)據(jù)a.預(yù)測建模問題一家金融服務(wù)公司為其客戶提供房屋凈值信貸額度。該公司曾把該項貸款擴展給了數(shù)千客戶,其中的許多接收者(大約20%)有貸款欺詐行為。該公司希望使用地理信息、人口信息、和經(jīng)濟狀況信息變量建立一個模型預(yù)測一個申請人將來會不會欺詐。b.輸入數(shù)據(jù)源在對數(shù)據(jù)進行了分析之后,該公司選擇了12個預(yù)測變量來建立每一個申請人是否欺詐的模型。輸出變量(或目標(biāo))變量(BAD)表示申請人在房屋凈值信貸中是否有欺詐活動。這些

2、變量及其模型角色、測量水平、變量描述列表如下。YOJInputIntervalYearsatpresentjobIntervalDebt-to-incomeratioInputNameModelRoleMeasurementLevelDescriptionBADTargetBinaryl=defaultedonloan,0=paidbackloanREASONInputBinaryHomeImp=homeimprovement,DebtCon=debtconsolidationJOBInputNominalSixoccupationalcategoriesLOANInputIntervalAm

3、ountofloanrequestMORTDUEInputIntervalAmountdueonexistingmortgageVALUEInputIntervalValueofcurrentpropertyDEBTINCDEROGInputIntervalNumberofmajorderogatoryreportsCLNOInputIntervalNumberoftradelinesDELINQInputIntervalNumberofdelinquenttradelinesCLAGEInputIntervalAgeofoldesttradelineinmonthsNINQInputInte

4、rvalNumberofrecentcreditinquiries需要的結(jié)果信用評分模型該信用評分模型給每一個貸款申請人計算還貸欺詐的概率。在此要設(shè)定一個閾值,欺詐概率超過閾值的那些申請人將建議不批準(zhǔn)。建立項目和數(shù)據(jù)初步探索建造簡單的過程流(Flow)假定MyProject項目的Projectl框圖是開著的,通過從工具條上(或Tools標(biāo)簽)拖動InputDataSource節(jié)點到diagram工作區(qū)把節(jié)點加到Project1框圖中。把Multiplot節(jié)點工作區(qū)InputDataSource節(jié)點的右邊.你的框圖看起來如下圖InputDataMuitiplotSource連接工作區(qū)的兩個節(jié)點:

5、最后開始時醫(yī)二=任InputDataMuitiplotSourcennInputDataMuitiplotSource調(diào)用輸入數(shù)據(jù)這個例子使用SAMPSIO文件夾的HMEQ數(shù)據(jù)集合.1.要指定數(shù)據(jù)集合,雙擊InputDataSource節(jié)點,或右擊該節(jié)點并選擇Open,Data標(biāo)簽處于激活狀態(tài)你的窗口如下:2點擊Select來選擇數(shù)據(jù)集合.或者把數(shù)據(jù)集合的名稱鍵入進來。3.SASUSER文件夾是缺省文件夾.要瀏覽SAMPSIO文件夾的數(shù)據(jù)集合,點擊專并從這些文件夾里選擇SAMPSIO4.從SAMPSIO文件夾的數(shù)據(jù)集合里選擇HMEQ然后選OK.下面的對話框打開:5.可以看到該數(shù)據(jù)集合里有5,9

6、60個觀測(行)和13個變量(列).SAMPSIO.HMEQ是源數(shù)據(jù).注意在右下角指示的是metadata(元數(shù)據(jù))樣本大小為2,000.所有分析包必須決定在分析中如何使用變量.EM使用元數(shù)據(jù)對如何使用每一個變量作一個初步的評估。按缺省方式,它從感興趣的數(shù)據(jù)集合里隨機抽取2,000個觀測記錄,并使用這里的信息為每一個變量確定其模型中的作用和變量類型。要抽取一個較大的樣本,你得選擇對話框右下角Change按鈕.1點擊Variables標(biāo)簽可看到所有的變量及其相關(guān)的指定.2.點擊第一列的標(biāo)頭,Name,這些變量就按名稱的順序排列。把窗口拉大你會看到所有的變量。下表顯示了13個變量的部分信息.注意有

7、兩列顯灰色。這些列代表這個節(jié)點里不能改變的SAS數(shù)據(jù)集合的信息。Type或者是字符型(char)或者是數(shù)值型(num),它對一個變量如何被使用有影響。2,000元數(shù)據(jù)樣本的Type的值和不重復(fù)數(shù)值個數(shù)用于確定模型以及測量水平.第一個變量BAD是目標(biāo)變量盡管BAD是數(shù)據(jù)集合里的一個數(shù)值變量,EM把它認作binary(二元變量)因為在元數(shù)據(jù)樣本里它只有兩個不同的非缺失值。所有二元變量的模型角色的缺省設(shè)置都是輸入變量(input)。在做分析之前你需要把BAD的模型角色改為目標(biāo)變量。Thenextfivevariables(CLAGEthroughDEROG)havethemeasurementlev

8、elintervalbecausetheyarenumericvariablesintheSASdatasetandhavemorethan10distinctlevelsinthemetadatasample.Themodelroleforallintervalvariablesissettoinputbydefault.ThevariablesJOBandREASONarebothcharactervariablesinthedataset,buttheyhavedifferentmeasurementlevels.REASONisbinarybecauseithasonlytwodist

9、inctnonmissinglevelsinthemetadatasample.ThemodelroleforJOB,however,isnominalbecauseitisacharactervariablewithmorethantwolevels.Forthepurposeofthisanalysis,treattheremainingvariablesasintervalvariables./Attimes,variablessuchasDEROGandDELINQwillbeassignedthemodelroleofordinal.Avariableislistedasordina

10、lwhenitisanumericvariablewithmorethantwobutnomorethantendistinctnonmissinglevelsinthemetadatasample.Thisoftenoccurswithcountingvariables,suchasavariableforthenumberofchildren.Becausethisassignmentdependsonthemetadatasample,themeasurementlevelofDEROGorDELINQforyouranalysismightbesettoordinal.Allordin

11、alvariablesaresettohavetheinputmodelrole;however,youtreatthesevariablesasintervalinputsforthepurposeofthisanalysis.確定目標(biāo)變量BAD是這個分析的反應(yīng)變量,因此要把BAD的模型作用改為target.要改變模型作用信息,方法如下:把光標(biāo)頭指向BAD行的ModelRole一欄并右擊。從彈出菜單選擇SetModelRole。target.檢查分布你可以檢查元數(shù)據(jù)樣本里每一個變量的數(shù)值分布。要查看BAD的分布:把光標(biāo)頭指向BAD變量Name欄.右擊鼠標(biāo),你可以按名稱給變量排序、找變量、或者

12、查看BAD的分布.選擇ViewDistributionofBAD查看BAD的分布Percentage01BADfromthetoolbarattheToobtainadditionalinformation,selectthetheViewInfotool,topofthewindowandclickononeofthebars.EnterpriseMinerdisplaysthelevelandtheproportionofobservationsrepresentedbythebar.Theseplotsprovideaninitialoverviewofthedata.Forthisex

13、ample,approximately20%oftheobservationswereloanswheretheclientdefaulted.Becausetheplotsarebasedonthemetadatasample,theymayvaryslightlyduetothedifferencesinthesampledobservations,butthebarforBAD=1shouldrepresentapproximately20%ofthedata.ClosetheVariableHistogramwindowwhenyouarefinishedinspectingthepl

14、ot.Youcanevaluatethedistributionofothervariablesasdesired.修改變量信息保證余下變量的模型作用和測量水平信息是正確的。如果必要,可以把DEROG的測量水平改為interval.要修改測量水平信息:把光標(biāo)頭指向DEROG行的測量(Measurement)欄,并右擊鼠標(biāo)從彈出菜單選擇SetMeasurementinterval查看描述統(tǒng)計量元數(shù)據(jù)可用來計算描述統(tǒng)計量。選擇IntervalVariables標(biāo)簽?zāi)憧梢圆榭催B續(xù)變量的最小值、最大值、均值、標(biāo)準(zhǔn)差、缺失記錄的百分數(shù)、偏度和峰度。根據(jù)數(shù)據(jù)的商務(wù)知識,查看最小值和最大值指的是有沒有異常值

15、。注意DEBTINC變量的缺失值百分數(shù)很高(21%).選擇類別變量ClassVariables標(biāo)簽查看數(shù)據(jù)的水平級數(shù)、缺失值百分數(shù)、以及變量的排序方式。注意BAD變量是降序,而其它變量是升序。這是因為它是二元目標(biāo)變量。通常對于二元變量當(dāng)事件發(fā)生時編碼為1否則為0。降序排序使得1成為第一個水平,是二元變量的目標(biāo)變量。在回歸模型里把其它類似編碼的二元變量按降序排列對于解釋參數(shù)估計也是有用的。關(guān)閉InputDataSource節(jié)點,并存儲這些改變。其它的數(shù)據(jù)探索EM的其它工具可讓你進一步探索數(shù)據(jù)。工具之一是Multiplot(多圖)節(jié)點.Multiplot節(jié)點建立一系列的直方圖和條形圖可使你檢查輸入

16、變量和二元目標(biāo)變量的關(guān)系。右擊Multiplot節(jié)點并選擇Run.在出現(xiàn)的彈出框里選Yes瀏覽結(jié)果.通過使用鍵盤上的PageDown,你可以瀏覽關(guān)于該數(shù)據(jù)的直方圖。從這個直方圖你可以知道許多的欺詐貸款是由債務(wù)收入比高或者債務(wù)收入比未知的購房者造成的。2.2數(shù)據(jù)劃分了解DataPartition(數(shù)據(jù)劃分)節(jié)點查看數(shù)據(jù)劃分節(jié)點的缺省設(shè)置把DataPartition節(jié)點放到框圖里.把DataPartition節(jié)點和CRSSAMP.HMEQ節(jié)點連起來.Notes1DataUariablesPartitiont,-Method:Simp1eRandomStratifiedUserDefinedRand

17、omSeed:GenerateNeuSeedI45Percentages:Train:|40Ualidation:|30Test:|30Total:100iFi匕為tifiOutput3.打開DataPartition節(jié)點,或者通過雙擊節(jié)點或者右擊鼠標(biāo)并選擇Open.Inlxl建DataPartition選擇標(biāo)簽左上部的劃分方法.按缺省方式,EM在輸入數(shù)據(jù)中抽取簡單隨機樣本并劃分為訓(xùn)練數(shù)據(jù)、驗證數(shù)據(jù)和測試數(shù)據(jù).如要進行分層抽樣,選擇Stratified圓鈕并使用Stratified標(biāo)簽中的選擇項建立各個層次.如要進行用戶自定義的抽樣,選擇UserDefined圓鈕并使用UserDefined標(biāo)

18、簽中的選擇項挑選出數(shù)據(jù)集合中的某個變量,該變量確定劃分.在啟動抽樣過程前你可以在標(biāo)簽的左下部分指定一個隨機種子。計算機程序的隨機化過程經(jīng)常始于某種種子。如果你在不同的挖掘流程使用相同的數(shù)據(jù)集合和相同的種子,你會得到相同的數(shù)據(jù)劃分。注意對數(shù)據(jù)的重新排序會導(dǎo)致數(shù)據(jù)的不同的順序,因此導(dǎo)致不同的數(shù)據(jù)劃分,這有可能會產(chǎn)生不同的挖掘結(jié)果.該標(biāo)簽的右邊你可以指定數(shù)據(jù)劃分到訓(xùn)練數(shù)據(jù)、驗證數(shù)據(jù)和測試數(shù)據(jù)的百分數(shù).劃分HMEQ數(shù)據(jù)集合用于建模.根據(jù)現(xiàn)有的數(shù)據(jù)創(chuàng)建訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù)集合,忽略測試數(shù)據(jù).分布設(shè)置Train,Validation,和Test為67,33,和0.關(guān)閉DataPartition節(jié)點,選擇Ye

19、s把所做的改動存起來.2.3生成和解釋決策樹目標(biāo):學(xué)習(xí)EM可用的決策樹模型類型生成決策樹模型檢查模型結(jié)果和解釋這些結(jié)果理論和實證角度選擇決策閾值要完成第一個框圖的第一階段,需把一個Tree節(jié)點和一個Assessment節(jié)點加到工作區(qū)并連接如下:檢查決策樹的缺省設(shè)置.1.雙擊打開Tree節(jié)點.2.查看Variables標(biāo)簽以確保所有的變量具有適當(dāng)?shù)臓顟B(tài)、模型作用以及測量水平.如果變量的模型角色或者測量水平信息不正確,在這個節(jié)點里是不能修改的。你必須返回到輸入數(shù)據(jù)源(inputdatasource)節(jié)點去修正.3.選擇Basic.以前討論的生成決策樹的選擇項均在此標(biāo)簽中.可用的裂分標(biāo)準(zhǔn)依賴于目標(biāo)變

20、量的測量水平。對于二元或者名義目標(biāo)變量,缺省的裂分標(biāo)準(zhǔn)是chi-square檢驗,顯著性水平為0.2.如果不用缺省設(shè)置,你可以用entropy減少或者Gini(基尼數(shù))減少的方法作為裂分標(biāo)準(zhǔn)。對于有序目標(biāo)變量,只有entropy或者基尼數(shù)方法。對于連續(xù)型目標(biāo)變量,你有兩個裂分標(biāo)準(zhǔn)供選擇:缺省F檢驗或者方差減少。這一標(biāo)簽的其它選擇項影響樹的生長和大小。按照缺省,只有二元裂分可用,樹的最大深度是6個層次,樹葉中最小的觀測記錄數(shù)是1.然而,還有一個節(jié)點裂分所需要的觀測記錄數(shù)的設(shè)置。這個數(shù)值的缺省值是訓(xùn)練數(shù)據(jù)里所有的記錄數(shù)除以100.4.關(guān)閉Tree節(jié)點.從Tree節(jié)點運行框圖。右擊Tree節(jié)點并選擇

21、Run.選擇彈出框的Yes查看結(jié)果.當(dāng)查看樹節(jié)點的結(jié)果時,All標(biāo)簽處于活動狀態(tài),界面展示了后面幾個子標(biāo)簽的總結(jié)從右下角的圖形我們知道訓(xùn)練數(shù)據(jù)集合最初生成的是18個樹葉的樹,然后根據(jù)驗證數(shù)據(jù)集合被修剪成有8個樹葉的樹。左下角的表告訴我們這個8個樹葉的樹在驗證數(shù)據(jù)上的精度是89.02%.7.通過選擇菜單條ViewTree查看樹.以下是樹的一部分.盡管這棵樹應(yīng)該有8個樹葉,但這些樹葉并不都能看到。根據(jù)缺省,決策樹瀏覽器只顯示3層.要修改可瀏覽的層數(shù),操作如下:選擇ViewOTreeOptions在Treedepthdown區(qū)域鍵入6.選擇OK.檢查一下所有8個樹葉是否都能看到.Thecolorsi

22、nthetreeringdiagramandthedecisiontreeitselfindicatenodepuritybydefault.Ifthenodecontainsallonesorallzeros,thenodeiscoloredred.Ifthenodecontainsanequalmixofonesandzeros,itiscoloredyellow.Youcanchangethecoloringschemeasfollows:1.SelectToolsODefineColors.ColorPalette-TreeCo1ortreeringby:廠Targetva1uesPr

23、oportionofatargetva1ue$Assessmentva1ues廠InputvartablesCo1orGroups:D8Bound:|MINT|0.50.51570.5470.57830.60360.64090.67220.7035匸匸匸0.7348OKIApp1yI2.SelecttheProportionofatargetvalueradiobutton.Select0intheSelectatargetvaluetable.Selectingzeroasthetargetvaluemakestheleaveswithallzerosgreenandthosewithnoz

24、eros(thatis,allones)red.Inotherwords,leavesthatincludeonlyindividualswhowilldefaultontheirloanwillbered.SelectOK.Inspectthetreediagramtoidentifytheterminalnodeswithahighpercentageofbadloans(coloredred)andthosewithahighpercentageofgoodloans(coloredgreen).你還可以改變樹節(jié)點統(tǒng)計量的顯示.1.選擇ViewOStatistics2.要關(guān)閉Countp

25、erclass(每類別的數(shù)量),右擊Countperclass行的Select列。在彈出菜單里選擇SetSelectONo.3.同樣方法關(guān)閉Ninnode,PredictedValue,TrainingData,以及NodeID行,你的屏幕上可以看到更多的樹葉.4.選擇OK.注意第一次裂分發(fā)生在DEBTINC變量上。以下步驟可用來決定哪一個分枝包含缺失值:把光標(biāo)頭指在樹圖根節(jié)點下的變量名DEBTINC上.右擊并選擇ViewcompetingsplitsCompetingSplits(可選擇裂分)窗口打開。該表列出了按worth的測量值排列的前5個可考慮用于裂分的變量.選擇DEBTINC.選擇B

26、rowseruleModifyIntervalVariableSplittingRule(修正連續(xù)變量裂分法則)窗口打開.該表給出了每一個分枝的變量數(shù)值范圍以及包含缺失值的分枝號。在目前情況下,包含45.1848的變量值的分枝包含缺失值.關(guān)閉ModifyIntervalVariableSplittingRule窗口,CompetingSplits窗口,以及樹圖.使用樹選擇項你可以調(diào)整缺省樹算法以便生成不同的樹。這些改變并不一定改進樹的分類性能,但可以改進其可解釋性.Tree節(jié)點按缺省裂分為二分為兩個節(jié)點(被稱為binaryspl)t理論上使用多方向裂分的樹并不比使用binarysplits的樹

27、更靈活或者更有效果。其主要目的是加強最終結(jié)果的可解釋性.考慮生成一個可允許4方向裂分的樹.1.點擊框圖上的樹名稱,把它改為DefaultTree.在工作區(qū)加入另一個樹節(jié)點.連接DataPartition節(jié)點和這個Tree節(jié)點.4.打開這個新的Tree節(jié)點.選擇Basic標(biāo)簽.在Maximumnumberofbranchesfromanode(一節(jié)點最多分叉數(shù))處輸入4.這個選項允許2,3,4個分叉.Maximumnumberofbranchesfromanode:4關(guān)閉這個Tree節(jié)點,并在彈出框中同意存儲改動.在彈出框中輸入DT4way作為模型的名稱??吹剿銜氲侥阒付ǖ氖?-方向裂分樹.

28、選擇OK.從這個樹節(jié)點運行挖掘流并瀏覽結(jié)果.這棵樹樹葉的數(shù)量從8增加到33.這棵樹是否比二分樹更容易為人理解只是個人的偏好而已。增加的樹葉數(shù)量可以增加模型較低層次的解釋力。在驗證數(shù)據(jù)上的分類精度只增加了0.25%雖然模型的復(fù)雜度增加了許多.如果你看樹圖,你會發(fā)現(xiàn)許多節(jié)點只包括幾個申請人。你可以使用其它的生成選擇去限制這一現(xiàn)象.12.關(guān)閉Results窗口.限制樹的生長各種停止或者阻止法則(也被成為預(yù)剪枝)可以用來限制決策樹的生長。例如,人們通常會認為一個節(jié)點的記錄2*(Minimumnumberofobservationsinaleaf).Inthisexample,theobservatio

29、nsrequiredforasplitsearchmustbegreaterthan2*25=50.Anodewithfewerthan50observationscannotbesplitintotwonodeswitheachhavingatleast25observations.Ifyouspecifynumbersthatviolatethisrequirement,youwillnotbeabletoclosethewindow.5.關(guān)閉Tree節(jié)點并存儲所做的改動./在關(guān)閉時如果Tree節(jié)點沒有彈出對話框讓你存儲改動,這說明原有的設(shè)置沒有被修改,這是你要重新打開這個節(jié)點并重新修改設(shè)

30、置.6.重新運行Tree節(jié)點并瀏覽結(jié)果.這個最佳樹有8個樹葉。在驗證數(shù)據(jù)上的精度略有下降,為88.56%.7.選擇View。Tree看樹圖.119.8/220.25?080.2/279.8K1791398032021569Total39931967134.4/522.剛16.75?6.9/5196.4/596.3/5I162.15?61.9/5065.GX77.85?093.35?93.IX03.GX3.7037.95?38.IX11121207104153261520266021A0286213970210317164Total329Total30691501Total5527Total83

31、7430注意在DEBTINC上的第一個裂分下面有4個分枝.8.瀏覽后關(guān)閉樹圖及節(jié)點窗口.比較模型Assessment節(jié)點用于比較模型.要從Assessment節(jié)點運行框圖,右擊Assessment節(jié)點并選擇Run.在彈出的對話框中選Yes查看結(jié)果.3.在AssessmentTool窗口,點擊并拖拽鼠標(biāo)把兩個模型都選上.4.選擇Tools。LftChart.右擊ToolName框內(nèi)空白處,選擇format,選擇modelname缺省給出的是一個Cumulative%Response(累積因變量)圖。根據(jù)缺省,人群按預(yù)測的因變量概率劃分為10個等分組,然后畫出實際的因變量百分數(shù)(即Y軸)要看實際值

32、,點擊ViewInfo工具然后點擊模型對應(yīng)的折線。點擊靠近圖形左上角的Tree-2線,得到%Response為82.06,含義是什么呢?要解釋Cumulative%Response圖,需知道它是如何生成的.就這個例子而言,響應(yīng)人(responder)被定義為一個欺詐貸款的人(BAD=1).對每一個人,擬和的模型(在此是一個決策樹)給出了此人將來會欺詐貸款的概率預(yù)測。把所有的記錄按響應(yīng)的預(yù)測概率從大到小排序.把人分成有序組,每一組包含大約10%的數(shù)據(jù)記錄.Cumulative%ResponseCumulativeLiftValue使用目標(biāo)變量BAD,計算每一組實際響應(yīng)人的百分數(shù)c.如果模型有用,

33、響應(yīng)者(欺詐者)的比例在響應(yīng)預(yù)測概率高的組將會相對高。前面給出的累積響應(yīng)曲線顯示了前10%,20%,30%等實際響應(yīng)者的百分數(shù)。在前10%的組里,80%多的人是貸款欺詐者;在前10%的組里,欺詐者的比例下降到只有72%.水平線代表的是用于比較的基準(zhǔn)比率(大約20%),這個比率是你隨機抽樣時預(yù)期的欺詐者百分數(shù)的估計.上圖給出的累積百分數(shù),但你還可以選擇圖形左邊Non-Cumulative旁邊的圓鈕查看每一個組里響應(yīng)者的比例.選擇Non-Cumulative旁邊的圓鈕并查看圖形.Cumulative%ResponseNon-Cumulative%ResponseNon-Cumulative圖形表明

34、一旦預(yù)測概率的值在前20%以外,欺詐率要比你選一個隨機樣本所期望的欺詐率要低.選擇Cumulative然后選LiftValue提升圖描畫的在不同標(biāo)度上的相同信息。記得總體的響應(yīng)率大約為20%。提升圖可通過把每一個小組的響應(yīng)率除以總體響應(yīng)率得到。因此提升圖描繪的是基于基礎(chǔ)線的相對改進.LiftValue5103050709020406080100PercentileTooINameI|BaselineOTreeI|Tree-2我們知道在按預(yù)測概率排序的前10%的組里欺詐者比例為82.06%.82.06%除以20%(baselinerate)得到略大于4的數(shù),這表明你在這個組里會得到比相同人數(shù)的簡

35、單隨機樣本里4倍多的欺詐者.你可能會提出這樣的問題:每一個組里響應(yīng)者占全部響應(yīng)者的百分數(shù)是多少?。這個百分數(shù)是用%CapturedResponse計算的。要查看計算結(jié)果,選擇CapturedResponse旁邊的圓鈕。用ViewInfo工具評價模型的性能。你可以看到如果你拒絕申請者的百分數(shù)為20%,你可能挑出了大約70%將會欺詐的人(提升比例是3.5!).40%,你可能挑出了大約80%將會欺詐的人(提升比例大于2!).關(guān)閉LiftChart和AssessmentTool窗口.Inordertochoosetheappropriatethresholdtoclassifyobservations

36、positivelyornegatively,thecostofmisclassificationmustbeconsidered.Inthehomeequitylineofcreditexample,youaremodelingtheprobabilityofadefault,whichiscodedasa1.Therefore,EnterpriseMinersetsuptheprofitmatrixasshownabove.ExampleRecallthehomeequitylineofcreditscoringexample.Presumethateverytwodollarsloane

37、deventuallyreturnsthreedollarsiftheloanispaidoffinfull.Assumethateverytwodollarsloanedreturnsthreedollarsiftheborrowerdoesnotdefault.Rejectingagoodloanfortwodollarsforgoestheexpecteddollarprofit.Acceptingabadloanfortwodollarsforgoesthetwo-dollarloanitself(assumingthatthedefaultisearlyintherepaymentp

38、eriod).Thecostsofmisclassificationareshowninthetable.Onewaytodeterminetheappropriatethresholdisatheoreticalapproach.ThisapproachusesthepluginBayesrule.Usingsimpledecisiontheory,theoptimalthresholdisgivenby0.Usingthecoststructuredefinedforthehomeequityexample,theoptimalthresholdis1/(1+(2/1)=1/3.Thati

39、s,rejectallapplicationswhosepredictedprobabilityofdefaultexceeds0.33.YoucanobtainthesameresultusingtheAssessmentnodeinEnterpriseMinerbyusingtheprofitmatrixtospecifytheprofitassociatedwiththeleveloftheresponsebeingmodeled(inthiscase,aloandefaultora1).Asabonus,youcanestimatethefractionofloanapplicatio

40、nsyoumustrejectwhenusingtheselectedthreshold.選擇決策閾值首先考慮從理論上決定的決策閾值返回到項目Projectl流程圖,打開DefaultTree節(jié)點,并選擇打分(Score)標(biāo)簽選擇Training,Validation,andTest旁的選箱,這樣預(yù)測值被加到數(shù)據(jù)集合。關(guān)閉樹節(jié)點,并保存改動。在DefaultTree節(jié)點后加入一個Insight節(jié)點。打開Insight.6點擊Data標(biāo)簽,選擇Select查看前面用過的數(shù)據(jù)集合。7.從這個DefaultTree節(jié)點選擇驗證數(shù)據(jù)集合。8.選擇OK.在InsightSettings窗口的Data標(biāo)簽

41、中,選擇EntireDataSet,因此Insight將使用驗證數(shù)據(jù)集合的所有記錄。關(guān)閉節(jié)點,保存所做的改動。運行Insight節(jié)點并瀏覽運行結(jié)果。該數(shù)據(jù)集合的新變量之一是P_BAD1,它是預(yù)測的貸款人目標(biāo)變量=1(貸款欺詐)的概率。如果想按這個變量給數(shù)據(jù)集合排序:12.點擊該數(shù)據(jù)表左上角的三角形,并選擇Sort.19B22|1IntiIntIIntiNonInt1NomIIIntIIIntIFindNext3AD01BADUBADFBADRBAD1RBhD0|11734J10.17341734B幫EMDATA.SVALOECWMovetoFirstMovetoLastSort.35290.3529-.3529NewObservationsNewVariables氐fineVariables.FillValues.Extract337500109375-.9375337500i09375-.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論