使用決策樹的預(yù)測建模和企管培訓資料經(jīng)營決策條件分析

上傳人：N*** IP屬地：浙江上傳時間：2023-05-30 格式：DOCX 頁數(shù)：36 大?。?83.02KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩31頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

使用決策樹的預(yù)測建模 TOC\t"Heading2,7"2.1 問題和數(shù)據(jù)探索 2.2 建模問題和數(shù)據(jù)難點 2.3 生成和解釋決策樹 .2.1問題和數(shù)據(jù)探索內(nèi)容：問題和數(shù)據(jù)初步數(shù)據(jù)探索問題和數(shù)據(jù)a.預(yù)測建模問題一家金融服務(wù)公司為其客戶提供房屋凈值信貸額度。該公司曾把該項貸款擴展給了數(shù)千客戶，其中的許多接收者（大約20%）有貸款欺詐行為。該公司希望使用地理信息、人口信息、和經(jīng)濟狀況信息變量建立一個模型預(yù)測一個申請人將來會不會欺詐。b.輸入數(shù)據(jù)源在對數(shù)據(jù)進行了分析之后，該公司選擇了12個預(yù)測變量來建立每一個申請人是否欺詐的模型。輸出變量（或目標）變量(BAD)表示申請人在房屋凈值信貸中是否有欺詐活動。這些變量及其模型角色、測量水平、變量描述列表如下。表2.1SAMPSIO.HMEQ數(shù)據(jù)集合的變量NameModelRoleMeasurementLevelDescriptionBADTargetBinary1=defaultedonloan,0=paidbackloanREASONInputBinaryHomeImp=homeimprovement,DebtCon=debtconsolidationJOBInputNominalSixoccupationalcategoriesLOANInputIntervalAmountofloanrequestMORTDUEInputIntervalAmountdueonexistingmortgageVALUEInputIntervalValueofcurrentpropertyDEBTINCInputIntervalDebt-to-incomeratioYOJInputIntervalYearsatpresentjobDEROGInputIntervalNumberofmajorderogatoryreportsCLNOInputIntervalNumberoftradelinesDELINQInputIntervalNumberofdelinquenttradelinesCLAGEInputIntervalAgeofoldesttradelineinmonthsNINQInputIntervalNumberofrecentcreditinquiries需要的結(jié)果－信用評分模型該信用評分模型給每一個貸款申請人計算還貸欺詐的概率。在此要設(shè)定一個閾值，欺詐概率超過閾值的那些申請人將建議不批準。建立項目和數(shù)據(jù)初步探索建造簡單的過程流（Flow）假定MyProject項目的Project1框圖是開著的，通過從工具條上（或Tools標簽）拖動InputDataSource節(jié)點到diagram工作區(qū)把節(jié)點加到Project1框圖中。把Multiplot節(jié)點工作區(qū)InputDataSource節(jié)點的右邊.你的框圖看起來如下圖連接工作區(qū)的兩個節(jié)點:開始時最后調(diào)用輸入數(shù)據(jù)這個例子使用SAMPSIO文件夾的HMEQ數(shù)據(jù)集合.要指定數(shù)據(jù)集合，雙擊InputDataSource節(jié)點，或右擊該節(jié)點并選擇Open….Data標簽處于激活狀態(tài).你的窗口如下:點擊Select…來選擇數(shù)據(jù)集合.或者把數(shù)據(jù)集合的名稱鍵入進來。SASUSER文件夾是缺省文件夾.要瀏覽SAMPSIO文件夾的數(shù)據(jù)集合,點擊并從這些文件夾里選擇SAMPSIO從SAMPSIO文件夾的數(shù)據(jù)集合里選擇HMEQ然后選OK.下面的對話框打開：可以看到該數(shù)據(jù)集合里有5,960個觀測（行）和13個變量(列).SAMPSIO.HMEQ是源數(shù)據(jù).注意在右下角指示的是metadata（元數(shù)據(jù)）樣本大小為2,000.所有分析包必須決定在分析中如何使用變量.EM使用元數(shù)據(jù)對如何使用每一個變量作一個初步的評估。按缺省方式，它從感興趣的數(shù)據(jù)集合里隨機抽取2,000個觀測記錄，并使用這里的信息為每一個變量確定其模型中的作用和變量類型。要抽取一個較大的樣本，你得選擇對話框右下角Change…按鈕.點擊Variables標簽可看到所有的變量及其相關(guān)的指定.點擊第一列的標頭，Name,這些變量就按名稱的順序排列。把窗口拉大你會看到所有的變量。下表顯示了13個變量的部分信息.注意有兩列顯灰色。這些列代表這個節(jié)點里不能改變的SAS數(shù)據(jù)集合的信息。Type或者是字符型(char)或者是數(shù)值型(num)，它對一個變量如何被使用有影響。2,000元數(shù)據(jù)樣本的Type的值和不重復(fù)數(shù)值個數(shù)用于確定模型以及測量水平.第一個變量BAD是目標變量.盡管BAD是數(shù)據(jù)集合里的一個數(shù)值變量，EM把它認作binary（二元變量）因為在元數(shù)據(jù)樣本里它只有兩個不同的非缺失值。所有二元變量的模型角色的缺省設(shè)置都是輸入變量（input）。在做分析之前你需要把BAD的模型角色改為目標變量。Thenextfivevariables(CLAGEthroughDEROG)havethemeasurementlevelintervalbecausetheyarenumericvariablesintheSASdatasetandhavemorethan10distinctlevelsinthemetadatasample.Themodelroleforallintervalvariablesissettoinputbydefault.ThevariablesJOBandREASONarebothcharactervariablesinthedataset,buttheyhavedifferentmeasurementlevels.REASONisbinarybecauseithasonlytwodistinctnonmissinglevelsinthemetadatasample.ThemodelroleforJOB,however,isnominalbecauseitisacharactervariablewithmorethantwolevels.Forthepurposeofthisanalysis,treattheremainingvariablesasintervalvariables. Attimes,variablessuchasDEROGandDELINQwillbeassignedthemodelroleofordinal.Avariableislistedasordinalwhenitisanumericvariablewithmorethantwobutnomorethantendistinctnonmissinglevelsinthemetadatasample.Thisoftenoccurswithcountingvariables,suchasavariableforthenumberofchildren.Becausethisassignmentdependsonthemetadatasample,themeasurementlevelofDEROGorDELINQforyouranalysismightbesettoordinal.Allordinalvariablesaresettohavetheinputmodelrole;however,youtreatthesevariablesasintervalinputsforthepurposeofthisanalysis.確定目標變量BAD是這個分析的反應(yīng)變量，因此要把BAD的模型作用改為target.要改變模型作用信息，方法如下：把光標頭指向BAD行的ModelRole一欄并右擊。從彈出菜單選擇SetModelRoletarget.檢查分布你可以檢查元數(shù)據(jù)樣本里每一個變量的數(shù)值分布。要查看BAD的分布:把光標頭指向BAD變量Name欄.右擊鼠標，你可以按名稱給變量排序、找變量、或者查看BAD的分布.選擇ViewDistributionofBAD查看BAD的分布Toobtainadditionalinformation,selectthetheViewInfotool,,fromthetoolbaratthetopofthewindowandclickononeofthebars.EnterpriseMinerdisplaysthelevelandtheproportionofobservationsrepresentedbythebar.Theseplotsprovideaninitialoverviewofthedata.Forthisexample,approximately20%oftheobservationswereloanswheretheclientdefaulted.Becausetheplotsarebasedonthemetadatasample,theymayvaryslightlyduetothedifferencesinthesampledobservations,butthebarforBAD=1shouldrepresentapproximately20%ofthedata.ClosetheVariableHistogramwindowwhenyouarefinishedinspectingtheplot.Youcanevaluatethedistributionofothervariablesasdesired.修改變量信息保證余下變量的模型作用和測量水平信息是正確的。如果必要，可以把DEROG的測量水平改為interval.要修改測量水平信息:把光標頭指向DEROG行的測量（Measurement）欄，并右擊鼠標從彈出菜單選擇SetMeasurementinterval查看描述統(tǒng)計量元數(shù)據(jù)可用來計算描述統(tǒng)計量。選擇IntervalVariables標簽?zāi)憧梢圆榭催B續(xù)變量的最小值、最大值、均值、標準差、缺失記錄的百分數(shù)、偏度和峰度。根據(jù)數(shù)據(jù)的商務(wù)知識，查看最小值和最大值指的是有沒有異常值。注意DEBTINC變量的缺失值百分數(shù)很高(21%).選擇類別變量ClassVariables標簽查看數(shù)據(jù)的水平級數(shù)、缺失值百分數(shù)、以及變量的排序方式。注意BAD變量是降序，而其它變量是升序。這是因為它是二元目標變量。通常對于二元變量當事件發(fā)生時編碼為1否則為0。降序排序使得1成為第一個水平，是二元變量的目標變量。在回歸模型里把其它類似編碼的二元變量按降序排列對于解釋參數(shù)估計也是有用的。關(guān)閉InputDataSource節(jié)點，并存儲這些改變。其它的數(shù)據(jù)探索EM的其它工具可讓你進一步探索數(shù)據(jù)。工具之一是Multiplot（多圖）節(jié)點.Multiplot節(jié)點建立一系列的直方圖和條形圖可使你檢查輸入變量和二元目標變量的關(guān)系。右擊Multiplot節(jié)點并選擇Run.在出現(xiàn)的彈出框里選Yes瀏覽結(jié)果.通過使用鍵盤上的PageDown，你可以瀏覽關(guān)于該數(shù)據(jù)的直方圖。從這個直方圖你可以知道許多的欺詐貸款是由債務(wù)收入比高或者債務(wù)收入比未知的購房者造成的。2.2數(shù)據(jù)劃分了解DataPartition（數(shù)據(jù)劃分）節(jié)點查看數(shù)據(jù)劃分節(jié)點的缺省設(shè)置把DataPartition節(jié)點放到框圖里.把DataPartition節(jié)點和CRSSAMP.HMEQ節(jié)點連起來.打開DataPartition節(jié)點，或者通過雙擊節(jié)點或者右擊鼠標并選擇Open….選擇標簽左上部的劃分方法.按缺省方式，EM在輸入數(shù)據(jù)中抽取簡單隨機樣本并劃分為訓練數(shù)據(jù)、驗證數(shù)據(jù)和測試數(shù)據(jù).如要進行分層抽樣，選擇Stratified圓鈕并使用Stratified標簽中的選擇項建立各個層次.如要進行用戶自定義的抽樣，選擇UserDefined圓鈕并使用UserDefined標簽中的選擇項挑選出數(shù)據(jù)集合中的某個變量，該變量確定劃分.在啟動抽樣過程前你可以在標簽的左下部分指定一個隨機種子。計算機程序的隨機化過程經(jīng)常始于某種種子。如果你在不同的挖掘流程使用相同的數(shù)據(jù)集合和相同的種子，你會得到相同的數(shù)據(jù)劃分。注意對數(shù)據(jù)的重新排序會導致數(shù)據(jù)的不同的順序，因此導致不同的數(shù)據(jù)劃分，這有可能會產(chǎn)生不同的挖掘結(jié)果.該標簽的右邊你可以指定數(shù)據(jù)劃分到訓練數(shù)據(jù)、驗證數(shù)據(jù)和測試數(shù)據(jù)的百分數(shù).劃分HMEQ數(shù)據(jù)集合用于建模.根據(jù)現(xiàn)有的數(shù)據(jù)創(chuàng)建訓練數(shù)據(jù)和驗證數(shù)據(jù)集合，忽略測試數(shù)據(jù).分布設(shè)置Train,Validation,和Test為67,33,和0.關(guān)閉DataPartition節(jié)點，選擇Yes把所做的改動存起來.2.3生成和解釋決策樹目標：學習EM可用的決策樹模型類型生成決策樹模型檢查模型結(jié)果和解釋這些結(jié)果理論和實證角度選擇決策閾值要完成第一個框圖的第一階段，需把一個Tree節(jié)點和一個Assessment節(jié)點加到工作區(qū)并連接如下:檢查決策樹的缺省設(shè)置.雙擊打開Tree節(jié)點.查看Variables標簽以確保所有的變量具有適當?shù)臓顟B(tài)、模型作用以及測量水平. 如果變量的模型角色或者測量水平信息不正確，在這個節(jié)點里是不能修改的。你必須返回到輸入數(shù)據(jù)源（inputdatasource）節(jié)點去修正.選擇Basic.以前討論的生成決策樹的選擇項均在此標簽中.可用的裂分標準依賴于目標變量的測量水平。對于二元或者名義目標變量，缺省的裂分標準是chi-square檢驗，顯著性水平為0.2.如果不用缺省設(shè)置，你可以用entropy減少或者Gini（基尼數(shù)）減少的方法作為裂分標準。對于有序目標變量，只有entropy或者基尼數(shù)方法。對于連續(xù)型目標變量，你有兩個裂分標準供選擇：缺省F檢驗或者方差減少。這一標簽的其它選擇項影響樹的生長和大小。按照缺省，只有二元裂分可用，樹的最大深度是6個層次，樹葉中最小的觀測記錄數(shù)是1.然而，還有一個節(jié)點裂分所需要的觀測記錄數(shù)的設(shè)置。這個數(shù)值的缺省值是訓練數(shù)據(jù)里所有的記錄數(shù)除以100.關(guān)閉Tree節(jié)點.從Tree節(jié)點運行框圖。右擊Tree節(jié)點并選擇Run.選擇彈出框的Yes查看結(jié)果.當查看樹節(jié)點的結(jié)果時，All標簽處于活動狀態(tài)，界面展示了后面幾個子標簽的總結(jié)。從右下角的圖形我們知道訓練數(shù)據(jù)集合最初生成的是18個樹葉的樹，然后根據(jù)驗證數(shù)據(jù)集合被修剪成有8個樹葉的樹。左下角的表告訴我們這個8個樹葉的樹在驗證數(shù)據(jù)上的精度是89.02%.通過選擇菜單條ViewTree查看樹.以下是樹的一部分.盡管這棵樹應(yīng)該有８個樹葉，但這些樹葉并不都能看到。根據(jù)缺省，決策樹瀏覽器只顯示３層.要修改可瀏覽的層數(shù)，操作如下:選擇ViewTreeOptions….在Treedepthdown區(qū)域鍵入6.選擇OK.檢查一下所有８個樹葉是否都能看到.Thecolorsinthetreeringdiagramandthedecisiontreeitselfindicatenodepuritybydefault.Ifthenodecontainsallonesorallzeros,thenodeiscoloredred.Ifthenodecontainsanequalmixofonesandzeros,itiscoloredyellow.Youcanchangethecoloringschemeasfollows:SelectToolsDefineColors.SelecttheProportionofatargetvalueradiobutton.Select0intheSelectatargetvaluetable.Selectingzeroasthetargetvaluemakestheleaveswithallzerosgreenandthosewithnozeros(thatis,allones)red.Inotherwords,leavesthatincludeonlyindividualswhowilldefaultontheirloanwillbered.SelectOK.Inspectthetreediagramtoidentifytheterminalnodeswithahighpercentageofbadloans(coloredred)andthosewithahighpercentageofgoodloans(coloredgreen).你還可以改變樹節(jié)點統(tǒng)計量的顯示.選擇ViewStatistics….要關(guān)閉Countperclass（每類別的數(shù)量），右擊Countperclass行的Select列。在彈出菜單里選擇SetSelectNo.同樣方法關(guān)閉Ninnode,PredictedValue,TrainingData,以及NodeID行，你的屏幕上可以看到更多的樹葉.選擇OK.注意第一次裂分發(fā)生在DEBTINC變量上。以下步驟可用來決定哪一個分枝包含缺失值:把光標頭指在樹圖根節(jié)點下的變量名DEBTINC上.右擊并選擇Viewcompetingsplits….CompetingSplits（可選擇裂分）窗口打開。該表列出了按worth的測量值排列的前５個可考慮用于裂分的變量.選擇DEBTINC.選擇Browserule.ModifyIntervalVariableSplittingRule（修正連續(xù)變量裂分法則）窗口打開.該表給出了每一個分枝的變量數(shù)值范圍以及包含缺失值的分枝號。在目前情況下，包含>45.1848的變量值的分枝包含缺失值.關(guān)閉ModifyIntervalVariableSplittingRule窗口，CompetingSplits窗口,以及樹圖.使用樹選擇項你可以調(diào)整缺省樹算法以便生成不同的樹。這些改變并不一定改進樹的分類性能，但可以改進其可解釋性.Tree節(jié)點按缺省裂分為二分為兩個節(jié)點(被稱為binarysplits).理論上使用多方向裂分的樹并不比使用binarysplits的樹更靈活或者更有效果。其主要目的是加強最終結(jié)果的可解釋性.考慮生成一個可允許４方向裂分的樹.點擊框圖上的樹名稱，把它改為DefaultTree.在工作區(qū)加入另一個樹節(jié)點.連接DataPartition節(jié)點和這個Tree節(jié)點.連接這個Tree節(jié)點和Assessment（評價）節(jié)點.打開這個新的Tree節(jié)點.選擇Basic標簽.在Maximumnumberofbranchesfromanode（一節(jié)點最多分叉數(shù)）處輸入4.這個選項允許2,3,4個分叉.關(guān)閉這個Tree節(jié)點，并在彈出框中同意存儲改動.在彈出框中輸入DT4way作為模型的名稱?？吹剿銜氲侥阒付ǖ氖?-方向裂分樹.選擇OK.從這個樹節(jié)點運行挖掘流并瀏覽結(jié)果.這棵樹樹葉的數(shù)量從8增加到33.這棵樹是否比二分樹更容易為人理解只是個人的偏好而已。增加的樹葉數(shù)量可以增加模型較低層次的解釋力。在驗證數(shù)據(jù)上的分類精度只增加了0.25%雖然模型的復(fù)雜度增加了許多.如果你看樹圖，你會發(fā)現(xiàn)許多節(jié)點只包括幾個申請人。你可以使用其它的生成選擇去限制這一現(xiàn)象.關(guān)閉Results窗口.限制樹的生長各種停止或者阻止法則（也被成為預(yù)剪枝）可以用來限制決策樹的生長。例如，人們通常會認為一個節(jié)點的記錄<50就不再裂分、或者要求每一個節(jié)點的記錄至少為25.修改最后創(chuàng)建的Tree節(jié)點，并采用這些終止法則以阻止生成太多的終端節(jié)點.打開Tree節(jié)點.選擇Basic標簽.在minimumnumberofobservationsinaleaf區(qū)域鍵入25,然后點擊Enter.在numberofobservationsrequiredforasplitsearch區(qū)域鍵入50，然后點擊Enter. TheDecisionTreenoderequiresthat(Observationsrequiredforasplitsearch)2(Minimumnumberofobservationsinaleaf).Inthisexample,theobservationsrequiredforasplitsearchmustbegreaterthan225=50.Anodewithfewerthan50observationscannotbesplitintotwonodeswitheachhavingatleast25observations.Ifyouspecifynumbersthatviolatethisrequirement,youwillnotbeabletoclosethewindow.關(guān)閉Tree節(jié)點并存儲所做的改動. 在關(guān)閉時如果Tree節(jié)點沒有彈出對話框讓你存儲改動，這說明原有的設(shè)置沒有被修改，這是你要重新打開這個節(jié)點并重新修改設(shè)置.重新運行Tree節(jié)點并瀏覽結(jié)果.這個最佳樹有8個樹葉。在驗證數(shù)據(jù)上的精度略有下降，為88.56%.選擇ViewTree看樹圖.注意在DEBTINC上的第一個裂分下面有4個分枝.瀏覽后關(guān)閉樹圖及節(jié)點窗口.比較模型Assessment節(jié)點用于比較模型.要從Assessment節(jié)點運行框圖,右擊Assessment節(jié)點并選擇Run.在彈出的對話框中選Yes查看結(jié)果.在AssessmentTool窗口,點擊并拖拽鼠標把兩個模型都選上.選擇ToolsLiftChart.右擊ToolName框內(nèi)空白處，選擇format，選擇modelname缺省給出的是一個Cumulative%Response（累積因變量％）圖。根據(jù)缺省，人群按預(yù)測的因變量概率劃分為10個等分組，然后畫出實際的因變量百分數(shù)（即Ｙ軸）。要看實際值，點擊ViewInfo工具然后點擊模型對應(yīng)的折線。點擊靠近圖形左上角的Tree-2線，得到%Response為82.06,含義是什么呢？要解釋Cumulative%Response圖，需知道它是如何生成的.就這個例子而言，響應(yīng)人（responder）被定義為一個欺詐貸款的人(BAD=1).對每一個人，擬和的模型（在此是一個決策樹）給出了此人將來會欺詐貸款的概率預(yù)測。把所有的記錄按響應(yīng)的預(yù)測概率從大到小排序.把人分成有序組，每一組包含大約10%的數(shù)據(jù)記錄.使用目標變量BAD,計算每一組實際響應(yīng)人的百分數(shù)c.如果模型有用，響應(yīng)者（欺詐者）的比例在響應(yīng)預(yù)測概率高的組將會相對高。前面給出的累積響應(yīng)曲線顯示了前10%,20%,30%等實際響應(yīng)者的百分數(shù)。在前10%的組里,80%多的人是貸款欺詐者；在前10%的組里,欺詐者的比例下降到只有72%.水平線代表的是用于比較的基準比率（大約20%）,這個比率是你隨機抽樣時預(yù)期的欺詐者百分數(shù)的估計.上圖給出的累積百分數(shù)，但你還可以選擇圖形左邊Non-Cumulative旁邊的圓鈕查看每一個組里響應(yīng)者的比例.選擇Non-Cumulative旁邊的圓鈕并查看圖形.Cumulative%ResponseNon-Cumulative%ResponseNon-Cumulative圖形表明一旦預(yù)測概率的值在前20%以外，欺詐率要比你選一個隨機樣本所期望的欺詐率要低.選擇Cumulative然后選LiftValue.提升圖描畫的在不同標度上的相同信息。記得總體的響應(yīng)率大約為20%。提升圖可通過把每一個小組的響應(yīng)率除以總體響應(yīng)率得到。因此提升圖描繪的是基于基礎(chǔ)線的相對改進.Cumulative%ResponseCumulativeLiftValue我們知道在按預(yù)測概率排序的前10%的組里欺詐者比例為82.06%.82.06%除以20%(baselinerate)得到略大于4的數(shù),這表明你在這個組里會得到比相同人數(shù)的簡單隨機樣本里4倍多的欺詐者.你可能會提出這樣的問題："每一個組里響應(yīng)者占全部響應(yīng)者的百分數(shù)是多少？"。這個百分數(shù)是用％CapturedResponse計算的。要查看計算結(jié)果，選擇%CapturedResponse旁邊的圓鈕。用ViewInfo工具評價模型的性能。你可以看到如果你拒絕申請者的百分數(shù)為20%,你可能挑出了大約70%將會欺詐的人(提升比例是3.5!).40%,你可能挑出了大約80%將會欺詐的人(提升比例大于2!).關(guān)閉LiftChart和AssessmentTool窗口.Inordertochoosetheappropriatethresholdtoclassifyobservationspositivelyornegatively,thecostofmisclassificationmustbeconsidered.Inthehomeequitylineofcreditexample,youaremodelingtheprobabilityofadefault,whichiscodedas

a1.Therefore,EnterpriseMinersetsuptheprofitmatrixasshownabove.Assumethateverytwodollarsloanedreturnsthreedollarsiftheborrowerdoesnotdefault.Rejectingagoodloanfortwodollarsforgoestheexpecteddollarprofit.Acceptingabadloanfortwodollarsforgoesthetwo-dollarloanitself(assumingthatthedefaultisearlyintherepaymentperiod).Thecostsofmisclassificationareshowninthetable.Onewaytodeterminetheappropriatethresholdisatheoreticalapproach.ThisapproachusesthepluginBayesrule.Usingsimpledecisiontheory,theoptimalthresholdisgivenby.Usingthecoststructuredefinedforthehomeequityexample,theoptimalthresholdis1/(1+(2/1))=1/3.Thatis,rejectallapplicationswhosepredictedprobabilityofdefaultexceeds0.33.YoucanobtainthesameresultusingtheAssessmentnodeinEnterpriseMinerbyusingtheprofitmatrixtospecifytheprofitassociatedwiththeleveloftheresponsebeingmodeled(inthiscase,aloandefaultora1).Asabonus,youcanestimatethefractionofloanapplicationsyoumustrejectwhenusingtheselectedthreshold.選擇決策閾值首先考慮從理論上決定的決策閾值返回到項目Project1流程圖，打開DefaultTree節(jié)點,并選擇打分（Score）標簽選擇Training,Validation,andTest旁的選箱，這樣預(yù)測值被加到數(shù)據(jù)集合。關(guān)閉樹節(jié)點，并保存改動。在DefaultTree節(jié)點后加入一個Insight節(jié)點。打開Insight.點擊Data標簽,選擇Select…查看前面用過的數(shù)據(jù)集合。從這個DefaultTree節(jié)點選擇驗證數(shù)據(jù)集合。選擇OK.在InsightSettings窗口的Data標簽中，選擇EntireDataSet，因此Insight將使用驗證數(shù)據(jù)集合的所有記錄。關(guān)閉節(jié)點，保存所做的改動。運行Insight節(jié)點并瀏覽運行結(jié)果。該數(shù)據(jù)集合的新變量之一是P_BAD1,它是預(yù)測的貸款人目標變量＝1（貸款欺詐）的概率。如果想按這個變量給數(shù)據(jù)集合排序：點擊該數(shù)據(jù)表左上角的三角形，并選擇Sort….在排序Sort窗口,選擇P_BAD1Y.在Y欄涂黑P_BAD1并選擇Asc/Des以排序選擇OK.在數(shù)據(jù)表中移動鼠標，你可以看到380個觀測記錄其預(yù)測的欺詐概率大于1/3.因此根據(jù)理論方法，1967個申請人中380個將被拒絕，或者近似地19%的申請人要被拒絕。你也可以使用Assessment節(jié)點得到相同的結(jié)果.關(guān)閉Insight數(shù)據(jù)表右擊Assessment節(jié)點并選擇Results….選擇Assessment節(jié)點的缺省模型從菜單條選擇ToolsLiftChart.在提升圖窗口的左下角，選擇Edit…來定義一個目標特征（targetprofile）.在EditingAssessmentProfileforBAD窗口里,右擊列有向量和矩陣（vectorsandmatrices）的區(qū)域的空白區(qū)并選擇Add.涂黑這個新的Profitmatrix,并在矩陣里輸入數(shù)值如下圖 Forcreditscreening,atargetvalueof1impliesadefaultand,thus,aloss.Atargetvalueof0impliesapaidrepaidloanand,thus,aprofit.Thefixedcostofprocessingeachloanapplicationisinsubstantialandtakentobezero.右擊Profitmatrix并選擇SettoUse.現(xiàn)在profitmatrix處于活動狀態(tài)，因為它前面有*號。關(guān)閉ProfitMatrixDefinition窗口,選擇保存改動選擇Apply.選擇Profit電鈕選擇Non-Cumulative電鈕該圖顯示的是被決策樹模型排序的每一部分申請人實際的利潤。前20%的部分顯示了拒絕申請人的利潤。這和理論結(jié)果一樣。 InEnterpriseMiner,theNon-Cumulativeprofitchartneverdipsbelowzero.Thisisbecauseacutoffvalueischosenandthereisnocostbelowthislevelbecausethereisnoaction.Asaresult,thecumulativeprofitchartcanbemislead。

企管培訓資料經(jīng)營決策條件分析一.企業(yè)外部環(huán)境分析企業(yè)的外部環(huán)境是指“存在于企業(yè)之外，對企業(yè)的生存和發(fā)展產(chǎn)生決定性影響的各種因素的總和?！逼髽I(yè)外部環(huán)境主要包括企業(yè)的宏觀環(huán)境、微觀環(huán)境兩部分。（一）宏觀環(huán)境分析企業(yè)的宏觀環(huán)境，是指企業(yè)所面對的其所在產(chǎn)業(yè)外的宏觀環(huán)境，是企業(yè)的間接環(huán)境因素。它主要包括經(jīng)濟環(huán)境、政治法律環(huán)境、社會人文環(huán)境、科學技術(shù)環(huán)境和國際環(huán)境等。1.經(jīng)濟環(huán)境。它主要指一個國家的經(jīng)濟制度、經(jīng)濟結(jié)構(gòu)、產(chǎn)業(yè)布局、資源狀況、經(jīng)濟發(fā)展水平以及未來的經(jīng)濟走勢。2.政治、法律環(huán)境。它主要指對企業(yè)經(jīng)營活動具有實際與潛在影響的政治力量和有關(guān)的法律法規(guī)等因素的總稱。3.社會人文環(huán)境。它主要指企業(yè)所在社會中成員的民族特征、人口統(tǒng)計特征、文化傳統(tǒng)、價值觀念、宗教信仰、教育水平以及風俗習慣等因素。社會人文環(huán)境直接影響著居民的消費結(jié)構(gòu)和偏好，強烈地影響著人們的購買決策和企業(yè)的經(jīng)營行為。4.科學技術(shù)環(huán)境。它不僅包括那些引起時代革命性變化的發(fā)明，而且還包括與企業(yè)生產(chǎn)有關(guān)的新技術(shù)、新工藝和新材料的出現(xiàn)和發(fā)展趨勢以及應(yīng)用前景。5.國際環(huán)境。經(jīng)濟全球化作為不可逆轉(zhuǎn)的進程，使得世界各國經(jīng)濟愈益相互開放和融合。從世界經(jīng)濟聯(lián)系的范圍和廣度看，經(jīng)濟全球化囊括了世界所有的國家和地區(qū)，無論發(fā)達國家還是發(fā)展中國家都無法回避，任何一個國家都成為世界市場的一部分。在這個大背景下，企業(yè)管理者應(yīng)十分關(guān)注全球范圍內(nèi)的環(huán)境機會和威脅的戰(zhàn)略分析。一方面，企業(yè)應(yīng)正確確定自己在經(jīng)濟全球化進程中的位置，以此為前提，制定企業(yè)的全球戰(zhàn)略；另一方面，也要充分認識國際跨國集團在世界內(nèi)建立市場的形勢，努力做到準確定位，充分發(fā)揮自己的優(yōu)勢和克服自己的劣勢，在與跨國集團的競爭和合作中，不斷提升競爭力，維持自己的生存和爭取更好的發(fā)展。（二）微觀環(huán)境分析企業(yè)微觀環(huán)境是從個別企業(yè)視角來觀察、分析其競爭對手競爭實力的分析。對競爭對手的分析有三種診斷因素：未來目標、現(xiàn)行戰(zhàn)略、假設(shè)。1.未來目標.分析與了解競爭對手的競爭目標，有利于預(yù)測競爭對手對其自身定位及檢測財務(wù)成果的滿意度，有助于推斷競爭對手改變競爭戰(zhàn)略的可能性及對其他企業(yè)戰(zhàn)略行為的反應(yīng)程度。競爭對手未來目標的關(guān)鍵問題主要包括了：競爭對手追求的市場地位總體目標；競爭對手各管理部門對未來目標是否取得一致性意見；競爭對手的當前財務(wù)目標及未來財務(wù)目標；競爭對手的核心領(lǐng)導的個人行為對整個企業(yè)未來目標的影響。2.現(xiàn)行戰(zhàn)略.對競爭對手現(xiàn)行戰(zhàn)略的分析，目的是觀察競爭對手正在做什么以及能夠做什么，對競爭對手作分析，主要包括了三個關(guān)鍵性的問題：競爭對手的研發(fā)能力如何和投資能力如何；競爭對手的市場占有率如何以及采取什么樣的銷售方式和促銷策略；競爭對手的產(chǎn)品價格如何制定以及在產(chǎn)品設(shè)計、要素成本和勞動生產(chǎn)率等因素中哪些對產(chǎn)品成本影響較大等等。3.假設(shè).它包括競爭對手自身企業(yè)的假設(shè)和所處行業(yè)及其他公司的假設(shè)。自我假設(shè)是企業(yè)各種行為取向的最根本的原因。但是，對競爭對手作出分析也是重要的，競爭對手的自我假設(shè)包含了幾個關(guān)鍵性的問題：競爭對手如何估計同產(chǎn)業(yè)中的其他企業(yè)的潛在競爭能力；競爭對手如何看待自己在戰(zhàn)略方面的優(yōu)勢和劣勢；競爭對手如何預(yù)測產(chǎn)品的未來需求和產(chǎn)業(yè)的發(fā)展趨勢及其預(yù)測依據(jù)是否可靠；是否有影響競爭對手對其他企業(yè)的戰(zhàn)略行為看法的嚴密的組織準則或法規(guī)或某種強烈的信條。二.企業(yè)內(nèi)部條件分析企業(yè)在制定經(jīng)營決策時，不僅要考慮企業(yè)所處的外部環(huán)境，而且還要知己，即對企業(yè)自身的內(nèi)部條件和能力加以正確的估計。所謂企業(yè)的內(nèi)部條件是指企業(yè)能夠加以控制的內(nèi)部因素。企業(yè)內(nèi)部環(huán)境或條件是企業(yè)經(jīng)營的基礎(chǔ)，是企業(yè)制定經(jīng)營目標和經(jīng)營決策的出發(fā)點、依據(jù)和條件，是競爭取勝的根本，對企業(yè)的內(nèi)部條件進行分析，其目的在于掌握企業(yè)目前的狀況，明確企業(yè)所具有的長處和弱點，以便使確定的目標能夠?qū)崿F(xiàn)，并使選定的經(jīng)營活動能發(fā)揮企業(yè)的優(yōu)勢，有效的利用企業(yè)的資源；同時對企業(yè)的弱點，能夠加以避免或采取積極改進的態(tài)度。企業(yè)內(nèi)部條件分析包括以下內(nèi)容：第一，基本情況分析。包括企業(yè)領(lǐng)導狀況、企業(yè)經(jīng)營目標與經(jīng)營方針、長遠計劃、企業(yè)改造、經(jīng)營組織等等。第二，生產(chǎn)分析。包括生產(chǎn)概況、生產(chǎn)計劃、工序管理、作業(yè)管理、質(zhì)量管理、搬運管理、設(shè)備、動力管理等等。第三，銷售分析。包括市場調(diào)查及情報工作、銷售計劃、產(chǎn)銷銜接、銷售渠道、銷售策略等等。第四，科技分析。包括有科技人員結(jié)構(gòu)及分布使用情況、科技手段、科技開發(fā)、科技工作組織等等。第五，財務(wù)分析。包括對企業(yè)的收支、決策的經(jīng)濟評價、財務(wù)管理等方面的問題。企業(yè)內(nèi)部條件分析的主要內(nèi)容是以上幾個方面，但是企業(yè)并不是經(jīng)常進行全面的分析，企業(yè)內(nèi)部條件的分析應(yīng)該有重點，我們認為企業(yè)內(nèi)部條件分析的重點是產(chǎn)品、市場和財務(wù)。產(chǎn)品分析是為了產(chǎn)品品種決策，市場分析是為了銷售決策，而財務(wù)分析是為了財務(wù)決策，同時也是產(chǎn)品和市場在經(jīng)濟上的反映，三者是密不可分的。（一）產(chǎn)品分析產(chǎn)品分析主要是對產(chǎn)品的現(xiàn)狀進行分析、評價，并做出預(yù)測。具體的分析如下：1.競爭能力分析.競爭能力是綜合性指標，它包括的內(nèi)容視產(chǎn)品而定?？蓮漠a(chǎn)品的競爭性強弱、價格、成本、質(zhì)量、服務(wù)、信譽六個方面入手。競爭性強弱是指一種產(chǎn)品有多少與它的用途、功能相同或相似但又不是同類的競爭產(chǎn)品。一般競爭性越強，對企業(yè)的生產(chǎn)經(jīng)營越不利；價格和成本分析，主要是確定其現(xiàn)狀，預(yù)測其發(fā)展趨勢，并用預(yù)測和現(xiàn)狀作比較。這兩項分析的目的是與同行業(yè)作比較，看自己企業(yè)產(chǎn)品在同行業(yè)中價格和成本是否占優(yōu)勢；質(zhì)量、服務(wù)、信譽主要是比較本企業(yè)產(chǎn)品在同行業(yè)中的地位，通過質(zhì)量、服務(wù)、信譽的分析以確定本企業(yè)

人人文庫> 全部分類> 應(yīng)用文書 > 項目管理

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

使用決策樹的預(yù)測建模和企管培訓資料經(jīng)營決策條件分析

文檔簡介

溫馨提示

最新文檔

評論

使用決策樹的預(yù)測建模和企管培訓資料經(jīng)營決策條件分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔