下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
分類綜合案該模型將基于近期申請人的數(shù)據(jù),這些申請通過當前承保的處理給予申請人信用。模型HMEQ數(shù)據(jù)集包含了5960筆近期住房的基本信息和表現(xiàn)情況目標變(BAD)是一個二元變量取值為1表示申請人最終違約或嚴重拖欠這些不利的結果發(fā)生在1189(20%(一) 打開SASEnterpriseMiner(以下簡稱EM),創(chuàng)建一個新的項目homeloan,并將該項目存放 SAS編輯器中執(zhí)行以下命令新建數(shù)據(jù)集HMEQ:Datadata.hmeq;SetSASEMinputdatasourceinputdatasource或點擊右鍵選擇openSelect選擇上述新建數(shù)據(jù)集data..HMEQ。13個變量(列2000個。EM使用元數(shù)據(jù)是為了對如何使用每一個變量做初步估計。在默認的情況下,EM2000個隨機樣本并用樣本信modelrolemeasurementlevel.EM同時也根據(jù)這一樣本打開顯示窗口中的Variable,我們看到了13個變量的情況。觀察Name和Type(numBADBAD變量是一個數(shù)值型變量,但由于在元數(shù)據(jù)樣BADEM將其視為一個二元變量(binary)。(interval這三個數(shù)值型變量在元數(shù)據(jù)樣本中均擁有超過10個不同的數(shù)值。所有區(qū)間變量的Modelroleinput。變量REASON和JOB都是字符型變量而度量方式(measurement)卻不同。變量REASONJOB(nominalModelroleinput。(ordinal(argetvariable操作過:BAD的modelrole,在彈出的菜單中選擇SetModelRole,再在彈出target.:BAD的Name列,在彈出的菜單中選擇Viewdistribution。變量BAD的狀圖如下圖所示。之后可以用鼠標左鍵單擊ViewInfo圖標(,再用左鍵單擊每個柱(BAD=1source查看描述性統(tǒng)計數(shù)據(jù)描述性統(tǒng)計數(shù)據(jù)源于元數(shù)據(jù)樣本首先選擇IntervalVariables。查看每個變量的分類數(shù)量,缺失數(shù)據(jù)百分比和排列次序。變量BAD(descending(ascendingDatapartition窗口左上方顯示了三種不同的分割方法。默認情況下的方法為簡單隨機抽簡單隨機抽樣法(SimpleRandomSampling)為默認設置,數(shù)據(jù)集中每一個觀察值被抽SamplingDefined,選擇你可以在aron的下角指定一個隨開始抽樣過程。電腦序的隨機化常始于某類型的果在不的流程使用同數(shù)據(jù)集相同的ee=0除,此的右側顯示了將數(shù)據(jù)分為訓練數(shù)據(jù)集檢驗數(shù)據(jù)集和測試數(shù)據(jù)集的比例但是無建立一個默認設置的回歸模型。在datapartition節(jié)點之后添加并連接一個Regression節(jié)點。Estimates以條形圖方式展示了各變量的effectT-scoresEstimates(參數(shù)估計和所有的建模節(jié)點均包含一個ModelManagerassessmentchartsreports,功能和assessment節(jié)點一樣。但是在modelmanager中我們只能查看本模型,而assessment節(jié)點卻可以用來比較各個建模節(jié)點所產(chǎn)生的模型。右鍵單擊回歸節(jié)點并選擇ModelManager選項。在彈出的窗口中選擇Tools,再選擇LiftChart,或者通過點擊圖標來實現(xiàn)。彈出liftchart為一個cumulativeResponse如果這個回歸模型是可用的,那么拖欠的那一部分客戶將會在靠前的十分位組上有在DataPartition節(jié)點后連接一個Replacement節(jié)點,再添加一個Regression節(jié)點和一個出的窗口中選擇Tools,再選擇LiftChart,或者通過點擊圖標來實現(xiàn)。用鼠標左鍵單首先,對于這個案例而言,theResponseofinterest為拖欠,因此,respondents就(BAD=1(Descending如果這個模型是可用的,那么相對靠前的有序組(拖欠的客戶的預測概率相對高)Non-Cumulative來查看每一我們也可以通過選擇LiftValue選項查看各個有序組的lift值。實際上,CumulativeResponseCumulativeLiftValue的圖表形狀完全一致,只是刻度不一Non-cumulativeResponseNon-cumulativeLiftValue的圖表也是一致的。Responserate21%responserate21%即可得到lift值。%CapturedResponse代表了某一有序組中包含的拖欠的客戶數(shù)量占全部客戶的百分比。如果我們隨機抽取10%的客戶,那么將有10%的拖欠的客戶在這一抽樣中被抽線在Cumulative%CapturedResponse圖表中為45°Non-cumulative%CapturedResponse圖表中為一條水平直線。下面計算lift值。20%的客戶中,拖欠的客戶數(shù)量占拖欠的全部客戶數(shù)量的50%,用50%除以20%即得到相對lift2.5LiftValue圖表顯示的數(shù)值一致。隨著選取的客戶數(shù)量逐漸增多,lift值lift值的那個模型相對較好。但是要注意的是,一個模型在一個十分位距上的表現(xiàn)比另一個LiftassessmentView,ModelResults來查看此Replacement節(jié)點之后,變量DELINQ,DEROG,NINQ和CLAGE成為四個最重要的預測變量(predictorvariablesDataPartitionInsightInsightrunYes查看結果。結果的一部Insight節(jié)點并返回到工作流設計區(qū)。右鍵單擊Insight節(jié)點選擇open選項。Data被打開。Description表明被選用的數(shù)據(jù)集為訓練數(shù)據(jù)集,此訓練數(shù)據(jù)集的名稱為EMDATA.TRN8YJKH(TRN8YJKHTRN,節(jié)點產(chǎn)生的是一個樣本大小為2000隨機為12345的源于訓練數(shù)據(jù)集的隨機抽樣樣本。右側的Properties2384個觀察值和13個變量。2384HMEQ596040%(在DataPartition節(jié)點中已InsightSettingSelectDataPartition前面的+SAS_DATA_SETS前面的+號,得到如下圖示:(TRNYJH(AL6W7UWOK確認修改。本例中不做修改。我們也可以使用整個訓練數(shù)據(jù)集來運行InsightInsight節(jié)點使用適當大小的樣本時它就足能很好的數(shù)據(jù)而及其大的樣本是沒有必要的在InsightSettings窗口中選擇右下角的EntiredatasetYes保存修改。InsightYesEMDATA.TRN8YJKH彈出窗口。接下來查看各變量的分布情況選擇最上方菜單的yze選項在彈出菜單中選擇Distribution(Y)。選出窗口中左側的所有變量,再點擊Y,最后選擇OK。以上操作使我們得到了各個變YOJ變量DEROG為0的觀察值Transform節(jié)點,并從DataPartitionTransformVariableopen,或直接雙擊此節(jié)點。彈出的窗口(如下圖)10個區(qū)間變量的描述性統(tǒng)計數(shù)據(jù),這些數(shù)據(jù)是從元樣本中計算TransformVariable節(jié)點可以通過標準轉換立即對各區(qū)間變量進行變換,也可以創(chuàng)建新Keep一列允許被修改。transformationYOJTransformationlog。No00取對數(shù)沒有定義。接下來查看新變量的分布情況:DELINQDEROG 在彈出框中選擇右側的Define框的下方輸入公式DEROG>0對于一個觀察值而言,如果DEROG>0,則INDEROG=1;如果DEROG<0,則INDEROG=0。如果DEROG是缺失值,則INDEROG=0。點擊OK關閉此框。對變量DELINQ做類似的操作,結果如下圖。DEROGDELINQINDEROGINDELINQ,原變(Keep=esNINQNINQ首先,創(chuàng)建一個包含三組的分組變量,鼠標NINQ一行,選擇Transform,再Bin1Value=0.5(注意此變量為計數(shù)變量,輸入任何01之間的數(shù)值與0.5的結果一樣)Bin2Value=1.5。即得到如下圖示。關閉此框,保存修改,返回到TransformVariable框。如下圖所示,新變量查看新變量NINQ_RUA10%的缺失值比率。關閉所有框并返回到數(shù)據(jù)流設計區(qū)。DataReplacementtraining,選中Entiredata打開Replacement節(jié)點選擇Data確認在inputs子subtraining,選中Entiredata然后選擇Defaults,選中第三行的Createimputedindicatorvariables,這一選項將會imputation前來識別那些擁有缺失值的變量。在這一框中選擇ImputationMethods子。默認情況下,區(qū)間變量的(mean(classvariable)imputation方法為取最高頻率法(mostfrequentvalue(count),即缺失值EMtreeimputation方法,即用決策樹方法估計替換值。在兩個Methodtreeimputation。(StatusYOJ也不在此表內。Numericvariables0,在CharactervariablesUnknowndefaultconstant作為再更改變量DELINQimputationImputationMethod列,選擇SelectMethod,再選擇setvalue,在彈出的框中輸入替換值0。DEROGimputationImputationMethodDEROGDELINQimputation方法,但是它們子中設定的值變量DEROG的defaultconstant將被改變而變量DELINQ不受影響。打開ClassVariables,發(fā)現(xiàn)變量BAD的狀態(tài)為don’tuse,說明此變量的缺失值將REASONImputationMethodSelectMethoddefaultconstantUnknown。OK更改變量JOBImputationMethodSelectMethod,再選擇setvalue。在彈出的框中選擇DataValue一欄,并在下拉菜單中選擇OK查看OutputReplacement(四)型建立與評ReplacementAssessmentRegressionTools,再選擇InteractionBuilder默認情況下,回歸節(jié)點使用所有的effects來建模。這里我們保留默認設置,關閉框。量默認情況下節(jié)點不執(zhí)行變量選擇即所有的effects都被包含在最終的模型中。MethodStepwise。打開此框右下角的Criteria子,撤銷選擇左上角的Defaults,將左下角的Stepwisestopcriteria一欄修改為14(即在逐步回歸停止之前,最多進行14步),將右側的StaySignificantLevel0.025。 AssessmentAssessmentRegression節(jié)點,因此顯示的結果中有兩行,NameUntitledUntitled將DefReg。同時選中這兩行,選擇ToolsLiftChart。想要查看每一條線屬于哪一個模型,選擇FormatModelName。我們看到與右下角對應的兩條曲線基本一致。我們知道,在創(chuàng)建默認設置的回歸模型時,effectselectionmethodnone。也就是說,effectseffectsStepReg中呢?關LiftChart窗口,返回到AssessmentToolStepReg這一行,之后在主菜單中選擇View再選擇ModelResults。彈出窗口的Output顯示了逐步logistic回歸過程的每一13WaldChi-Squaretestcriterion刪除了最后一個effect(變量VALUEVALUEMORTDUE的所有變量。關閉所有Tree節(jié)點與DatapartitionReplacementTree節(jié)點能夠直接對缺失值進行處理而不需要對缺失值進行替換。我們也沒有將Tree節(jié)點與Transformation節(jié)點相連,是因為Transformation節(jié)點對區(qū)間變量的單調變換(monotonicbins,相接下來要查看LiftChart。默認情況下,將要生成的LiftChart是建立在檢驗數(shù)據(jù)oolalidation如果你看不到ModelName中所有的模型名稱,你可以將窗口最大化,或者通過使用圖標和圖標修改圖表的位置和大小。additionaltermsinteractionseffectspolynomialeffects。第二,決策樹模型能夠對缺All自動彈出,這一事實上是Summary,TreeRing,TableAll下方的Assessmenttable和assessmentplot顯示了所有子樹對訓練數(shù)據(jù)集和檢驗數(shù)據(jù)集的評價效果,這些評價揭示了一棵樹究竟要多大才能夠足夠擬合,overfitting的問overfitting的問題在訓練數(shù)據(jù)集中就不存在。默認地,對檢驗數(shù)據(jù)集擁有最高評價值和最少613個葉子的子樹,它們的檢驗數(shù)據(jù)集misclassificationrate(0.1214)6片葉子的子樹成為最佳的選擇。All左上方的Summary圖表總結了分類目表變量每一級的預測情況對于已經(jīng)選定的分類;在檢驗數(shù)據(jù)集中,大約14%的拖欠者和74%的非違約客戶被正確的分類。點擊主菜單的Tools,再選則DefineColors。在Selectatargetvalue表中選擇0。選擇0作為目 這個默認設置下的數(shù)為二叉樹,我們也可以通過修改節(jié)點最大分支數(shù)(Basicumnumberofbranchesfromanode)在修改的Replacement節(jié)點后添加并連接一個NeuralNetwork節(jié)點并與MLP默認地,彈出窗口的Tables顯示了擬合模型的各種統(tǒng)計數(shù)據(jù)errorAssessmentDefNN。選中這四個模LiftChart進行比較。indicators能夠使回歸模型和神經(jīng)網(wǎng)絡模型區(qū)分那些本來就存在缺失值的觀察值我們已經(jīng)在之前的操作中在修改的Replacement節(jié)點內選擇了添加這些indicators?,F(xiàn)在我們來打開修改的回歸模型(StepReg)來查看這些indicators。在Variables顯indicators。Assessment(StepReg)LiftChartindicator對所產(chǎn)生的影響。(五)使用模型對新數(shù)據(jù)進行分ScoringCodeScore節(jié)點能夠被用來評價保存以及從不同的模型中將scoringcode在本例中,score。打開Score節(jié)點,Settings中共有四個選項②Applytrainingdatascorecodetoscoredataset——③Accumulatedatasetsbytype——和輸出先前節(jié)點產(chǎn)生的數(shù)據(jù)集。若果在含有Groupprocessing節(jié)點的路徑中使用這一選項,則輸出的數(shù)據(jù)集都是相連的。④Mergedatasetsbytype——合并先前節(jié)點產(chǎn)生的數(shù)據(jù)集。例如,我們可以使用這一選項將ScoreCode顯示了每接到Score節(jié)點的模型節(jié)點的評分編碼。因為這里的codescoringcode被修改,可以將其保存。右鍵單擊左側列出的回歸模型,在彈出框中選擇Save。在新彈出的框中將這codeMyregressioncodeOK保存。Export,輸入保存名稱和地址進行保存。ScoringusingBASESASbaseSASscoringcodebaseSASSASEM對SAS SAMPSIO內的DMAHMEQ數(shù)據(jù)集進行評分。這一數(shù)據(jù)集包含所有對模型的WindowEditorFileOpenProgramcode.sasSAS的程序編輯器中,如下所示:數(shù)據(jù)集_PREDICT_SCORE代表了將要被評分的數(shù)據(jù)⑷對SAS館中SAMPSIO內的DMAHMEQ數(shù)據(jù)集進行
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《腦出血護理》課件
- 2024年收購互聯(lián)網(wǎng)公司股權及共同運營合作協(xié)議3篇
- 2025年瀘州道路運輸貨運考試題庫
- 2025年內蒙古貨運從業(yè)資格考試模擬考試題目
- 《裝修流程圖課件》課件
- 2025年遼陽道路貨物運輸從業(yè)資格證考試
- 2024年度國際貿易貨物包裝與標識合同范本6篇
- 《兒少與教育》課件
- 2024年旅游業(yè)務合作經(jīng)營合同
- 四川省達州市第一中學2023-2024學年八年級上學期第一次月考地理試題
- 《《紅樓夢》中薛寶釵與黛玉的形象分析與人物對比》
- 語文素養(yǎng)與跨學科學習
- 期末沖刺動員主題班會課件
- 級畢業(yè)班優(yōu)生勵志動員會-課件
- 2023年政府采購評審專家入庫考試題及答案
- 題庫(大氣科學基礎(一)-題庫)
- 部編版小學語文五年級下冊習作5《形形色色的人》教學反思共三篇
- 冷庫冷藏庫施工組織及售后服務投標方案
- 子女向父母過戶房屋協(xié)議書
- Unit 7.《It's a dog.》(說課稿)-2022-2023學年英語三年級上冊 湘少版(三起)
- 壓力容器質量安全風險管控清單
評論
0/150
提交評論