




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、sas2013年中國高校SAS數(shù)據(jù)分析大賽決賽考題2013年11月9日賽仕軟件(北京)有限公司北京市東城區(qū)東長安街1號(hào)東方廣場東一辦公樓(E1)18層郵編:100738Tel: +86 010 5913.2888Fax: +86 010 5913.2999The material contained in the present response and any material or information disclosed duri ng discussi ons of the proposal represe nts proprietary, con fide ntial inform
2、ation pertaining to SAS Institute products and methods. By accepting this resp on se, Clie nt agrees that the in formati on in the docume nt will not be disclosed outside of the orga ni zati on and will not be duplicated, used, or disclosed for any purpose other than to evaluate this proposal. This
3、proposal is subject to a mutually approved agreeme nt or con tract specify ing full terms and con diti ons.SAS is a registered trademark of SAS Institute Inc. in the USA and other countries. ? indicates USA registration. Copyright ? 2005, SAS Institute Inc. All rights reserved.版本信息創(chuàng)建者賽仕軟件(北京)有限公司日期N
4、ov. 9th, 2013目錄決賽提交材料 1決賽題目 1決賽提交材料?詳細(xì)的建模報(bào)告,格式內(nèi)容不限。?模型開發(fā)的全部程序決賽題目商業(yè)銀行在審批消費(fèi)信貸業(yè)務(wù)時(shí)廣泛使用了信用評(píng)分模型。它能夠根據(jù)申請人提供的 申請信息(如年齡、學(xué)歷、婚姻狀態(tài)、收入和工作年限等)給出評(píng)估其風(fēng)險(xiǎn)高低的分?jǐn)?shù), 這個(gè)分?jǐn)?shù)也叫做信用評(píng)分。其基本應(yīng)用是:銀行審批政策管理層首先根據(jù)風(fēng)險(xiǎn)控制的要求 估計(jì)并設(shè)定一個(gè)取舍點(diǎn)(cut-off ),如果申請人的分?jǐn)?shù)高于取舍點(diǎn),則可以獲得審批, 反之,則該申請人被拒絕。下面我們列舉一個(gè)信用評(píng)分模型的簡單例子來說明其作用。假如某銀行的信用評(píng)分模 型只考慮三個(gè)特征因素:年齡、性別和收入。該銀行
5、對這些因素做了特殊的處理(比如把 連續(xù)變量劃分為若干個(gè)離散的區(qū)間,把水平數(shù)太多的離散變量做合并),模型的最終結(jié)果 以評(píng)分卡的形式展現(xiàn)。評(píng)分模型對不同的因素特征賦予不同的分?jǐn)?shù),這個(gè)分?jǐn)?shù)是以統(tǒng)計(jì)分 析為基礎(chǔ),在考慮如特征因素的預(yù)測強(qiáng)度、特征因素間的關(guān)系和可操作性等多方面因素之 后得到的。分?jǐn)?shù)的總和就是表明消費(fèi)者信用風(fēng)險(xiǎn)大小的度量,分?jǐn)?shù)高的表明風(fēng)險(xiǎn)低,分?jǐn)?shù) 低的表明風(fēng)險(xiǎn)高。表1評(píng)分卡樣例特征名字品質(zhì)屬性評(píng)分年齡126歲以下100年齡226-35 歲120年齡335-37 歲185年齡437歲以上225性別1女180性別2男90收入11000元以下120收入21001-3000 元140收入33001
6、-5000 元160收入45001-10000 元200收入510001元以上240銀行的風(fēng)險(xiǎn)經(jīng)理會(huì)事先估計(jì)出最合適的臨界值,假設(shè)在這個(gè)例子中,這個(gè)恰當(dāng)?shù)呐R界 值為480分。假如該銀行新來了兩個(gè)申請人甲和乙。甲是32歲的女士,月收入為2000元,則她可獲得的分?jǐn)?shù)為120+180+140=440分,低于臨界值480分,因此銀行就拒絕了她 的申請。乙是40歲的男士,月收入為15000元,則他得到的評(píng)分為225+90+240=555分, 遠(yuǎn)遠(yuǎn)的高于臨界值480分,因此銀行就批準(zhǔn)了他的申請。這種評(píng)分卡格式的模型非常容易解釋,即使并不精通統(tǒng)計(jì)和數(shù)據(jù)挖掘的人也能接受。 這使得銀行可以用一種簡單的商業(yè)術(shù)語對
7、客戶、審計(jì)員和監(jiān)管機(jī)構(gòu)人員等來解釋拒絕、低 分、高分的原因,而不是給出一個(gè)“黑盒子”。這就使得評(píng)分卡成為了備受推崇的信用風(fēng) 險(xiǎn)模型風(fēng)險(xiǎn)的主要格式。信用評(píng)分模型的本質(zhì)就是計(jì)算每一位申請人在未來成為壞客戶的條件概率P(yt 11 xj,這個(gè)條件概率也稱為違約概率(Probability of Default ,簡稱PD,其中yt 1表示成為壞客戶,Xt就是在評(píng)分模型中作為解釋變量的若干個(gè)特征因素X1t , X2t , Xdt。信用評(píng)分模型的一般建模中,對于變量的分組處理非常關(guān)鍵,也就是如何對連續(xù)變量 做離散化處理,對于取值水平太多的變量做歸并處理。通常,對于每一個(gè)變量,分成不多 于五段。對變量分組
8、主要依賴于 W0這個(gè)統(tǒng)計(jì)量,W0的計(jì)算方法如下:表2 WOE計(jì)算樣例表AgeCountTot Distr石Dlstf GoadDlstr BadBad RateWOEMissingItOOO5.50%8602.38%Mo65%14.00%-4-71?18-224,00010.00%3,0408.-41%96025.00%24.00%-108.98023-266cxx)嶼+ 00%4*9-2013.61%1,08028a3%18.(X7a-7J &1327-299dooo22.50%B,ioc22.40%900巧.44%1O.CMJ%0630-3510.0002.00%9-50026.27%50
9、05*00%70.196芳-輛齊00017 50%6,Soc18.81%200S%2,86%JrOOO73%2.9408,13%601.56%2,00%低A934Total40,000100%3,160100%気840100%9.60%其中,WOE的計(jì)算公式為:| X W0. Oistr Cyoodn ( Distr Bad例如,23-26屬性的 WOE為:.I 0.1361 rr 八、0.2813 信息量In formation Value (以下簡稱IV)是對于每個(gè)變量的預(yù)測能力的一個(gè)度量,計(jì) 算公式如下:; (Distr (;ocdi Di str Ikid) * 血 I1 臺(tái)i、 Di
10、scr 1其中,n是變量的取值被分成若干個(gè)區(qū)間的段數(shù)。變量分組處理中最關(guān)鍵的就是對臨界值的選擇,比如為什么把18-22歲分為一組,23-26分為一組呢?在信用評(píng)分領(lǐng)域,通常會(huì)把變量先進(jìn)行細(xì)分組,比如分成50組或者20組(如果是屬性分類變量,就取原始的分類水平值),計(jì)算出每個(gè)分組的WOE值,然后把WOE相近的組進(jìn)行合并,合并時(shí)保證IV值損失的最小,直到不再能合并。通常, 最后的分組不多于五個(gè)。評(píng)分卡模型主要采用Logistic回歸。在創(chuàng)建評(píng)分卡模型時(shí)可以直接把每個(gè)變量在每- 個(gè)分組上的WOE值作為新的建模變量參與建模。比如一個(gè)年齡在 20歲的客戶,他的WOE值為-108.98,創(chuàng)建logsiti
11、c回歸不再用20這個(gè)年齡變量的取值而是用-108.98這個(gè)年 齡變量的WOE值作為解釋變量。因此,每個(gè)變量在不同取值上的評(píng)分為:*其中,A表示模型中第i個(gè)解釋變量的權(quán)重,表示該解釋變量第j個(gè)分組的WOE值,表示模型中的截距項(xiàng),n表示模型中解釋變量的個(gè)數(shù),Factor = 20/l n(2) = 28.8539Offset = 600(28.8539* ln(50) = 487.123請參考上述原理,利用數(shù)據(jù)集final開發(fā)一張房貸業(yè)務(wù)的 信用評(píng)分卡(如表1所示),其 中GB_MO為因變量(1表示壞客戶,0表示好客戶),其余變量為可選的解釋變量(采 用哪幾個(gè)變量作為解釋變量可以自行選擇變量選擇方
12、法)。對于開發(fā)出的信用評(píng)分卡將根據(jù) K-S統(tǒng)計(jì)量和ROC統(tǒng)計(jì)量作為評(píng)優(yōu)的準(zhǔn)則。K-S統(tǒng) 計(jì)量和AUC統(tǒng)計(jì)量可以自己編程寫,也可以利用 SAS過程步。附錄:1. K-S統(tǒng)計(jì)量K-S統(tǒng)計(jì)量被應(yīng)用于信用評(píng)級(jí)模型主要是為了驗(yàn)證模型對違約對象的區(qū)分能力,是表現(xiàn)模型區(qū)分 能力的驗(yàn)證指標(biāo)。首先利用模型會(huì)預(yù)測全體樣本的信用評(píng)分或者PD值,然后將全體樣本按正常客戶和違約客戶分為兩組樣本,然后用K-S統(tǒng)計(jì)量來檢驗(yàn)這兩組樣本信用評(píng)分或者PD值的分布是否有顯著差異。有效的模型能夠區(qū)別出違約客戶和正常客戶之間的差異,違約客戶的評(píng)分或者 PD分布應(yīng)當(dāng)不同于正??蛻舻脑u(píng)分或PD分布。當(dāng)正??蛻艉瓦`約客戶兩個(gè)子樣本的累積百分
13、比的差異非常小,且差異為隨機(jī)時(shí),則可以認(rèn)為兩樣本的評(píng)分或PD分布是一致的;反之當(dāng)兩個(gè)子樣本的累積百分比的差異非常大時(shí),則可以認(rèn)為兩樣本的評(píng)分或PD分布不一致。通常,如果模型的K-S統(tǒng)計(jì)量越大,表明模型區(qū)分正??蛻艉瓦`約客戶的能力越強(qiáng)。XK-S統(tǒng)計(jì)量除了用上圖所示的圖形表示以外,也可以有統(tǒng)計(jì)表的形式表現(xiàn),這也是近似計(jì)算K-S統(tǒng)計(jì)量的一個(gè)常用方法。等級(jí)% of Defaults% ofGoods% ofCumulativeDefaults% ofCumulativeGoodsGapKS在K-S統(tǒng)計(jì)量的近似計(jì)算中,等級(jí)這一列可以是 PD的區(qū)間范圍,也可以是客戶的評(píng)級(jí),PD區(qū)間的劃分主要依據(jù)建模樣本中
14、的情況。% of defaults這一列表示驗(yàn)證樣本中違約客戶的百分比。% of goods這一列表示驗(yàn)證樣本中正??蛻舻陌俜直取? of Cumulative defaults這一列表示驗(yàn)證樣本中違約客戶的累積百分比。% of Cumulative goods這一列表示驗(yàn)證樣本中正??蛻舻睦鄯e百分比。Gap這一列表示驗(yàn)證樣本中正常客戶的累積百分比和違約客戶的累積百分比之差,而K-S就是最大的Gap值。2. AUC統(tǒng)計(jì)量ROC曲線及AUC統(tǒng)計(jì)量主要用來檢驗(yàn)?zāi)P蛯蛻暨M(jìn)行正確排序的能力。ROC曲線描述了在一定累計(jì)好客戶比例下的累計(jì)壞客戶的比例,模型的分別能力越強(qiáng),ROC曲線越往左上角靠近。AUC
15、統(tǒng)計(jì)量表示ROC曲線下方的面積。AUC統(tǒng)計(jì)量越高,模型的風(fēng)險(xiǎn)區(qū)分能力越強(qiáng)ROC曲線的圖形表示如上圖,具體繪制步驟如下:(1) 制作模型預(yù)測的結(jié)果交叉分類表:實(shí)際違約正常違約Y1=DD/TDY2=DN/TD正常X1=ND/TNX2=NN/TN給定一個(gè)截?cái)帱c(diǎn),那么:預(yù)測違約概率大于截?cái)帱c(diǎn),視為違約戶 預(yù)測違約概率小于截?cái)帱c(diǎn),視為正常戶ROC曲線為不同截?cái)帱c(diǎn)下,Y1與X1之間的關(guān)系。Y1 (命中率)=DD/TD,含義為在給定臨界值 下正確劃分為違約客戶所占的比例,X1 (誤警率)=ND/TN,含義為在給定臨界值下,錯(cuò)誤的把 非違約客戶歸類為違約客戶的比例 如,預(yù)測01total霽際05E97666511U21833570&2941000則,命
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Unit 1 You and Me Section A 1a-1d 教學(xué)設(shè)計(jì) 2024-2025學(xué)年人教版英語七年級(jí)上冊
- 七上第二單元大單元教學(xué)設(shè)計(jì)
- 第《再塑生命的人》教學(xué)設(shè)計(jì) 2024-2025學(xué)年統(tǒng)編版語文七年級(jí)上冊
- 第一章第一節(jié)第二課時(shí)《緯線和緯度、經(jīng)線和經(jīng)度》教學(xué)設(shè)計(jì)-2023-2024學(xué)年人教版七年級(jí)地理上冊
- 2025年農(nóng)業(yè)科技進(jìn)步與技術(shù)合作合同
- 2025年全球技術(shù)支持與服務(wù)合同樣本
- 康師傅方便面代理合同樣本2025
- 2025年辦公二房東租賃合同樣本
- 2025年官方汽車貸款信貸合同范本
- 2025年事業(yè)單位辦公桌椅訂購合同
- 大灰狼兒童睡前故事大全
- 家長進(jìn)課堂--小學(xué)生食品安全知識(shí)
- 酒店預(yù)訂確認(rèn)單
- 會(huì)計(jì)人才培養(yǎng)方案調(diào)研報(bào)告書
- 企業(yè)標(biāo)準(zhǔn)自我聲明公開
- 大學(xué)生創(chuàng)新創(chuàng)業(yè)(微課版第3版)課件 第1、2章 了解創(chuàng)業(yè)規(guī)劃你的職業(yè)生涯、創(chuàng)新與創(chuàng)新思維
- E時(shí)代大學(xué)英語-讀寫教程2 第四單元
- 四年級(jí)語文上冊第一單元單元整體教學(xué)設(shè)計(jì)
- 玩具安全標(biāo)準(zhǔn)測試培訓(xùn)-(SGS)課件
- 員工工資條模板
- 高考英語備考-英語單詞構(gòu)詞法詞根和詞綴課件
評(píng)論
0/150
提交評(píng)論