信用評分卡開發(fā)流程報告_第1頁
信用評分卡開發(fā)流程報告_第2頁
信用評分卡開發(fā)流程報告_第3頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、評分卡開發(fā)流程文檔一、數(shù)據(jù)集切分 將數(shù)據(jù)集按照 70% 與 30%比例切分為訓練集和測試集兩部分; 、分別對訓練集與測試集進行數(shù)據(jù)預處理1. 衍生變量:進行衍生的變量1) 未銷戶信用卡最近 6 個月平均使用率 =未銷戶信用卡最近 6 個月平均使用額度 / 未銷戶信用卡授信總額2) 未銷戶信用卡已使用率 =未銷戶信用卡已用額度 / 未銷戶信用卡授信總額2. String 變量轉換為數(shù)值型。1) 性別: 男 =0 ;女 =1;缺失 =-1;2) 最高學歷: 碩士及以上 =5 ;本科 =4;大專 =3;高中 =2;初中及以下 =1;缺失 =-1;3) 婚姻狀況 已婚已育 =5;已婚未育 =4;離異

2、=3 ;未婚 =2;其他 =1;缺失 =-1 ;4) 現(xiàn)住房情況 多套自有 =11;自有 =10;小產權 =9;宅基地房 =8;共同擁有或與父母同住 =7;與父母同住 =6;租借或公司所有 =5;租房 =4 ;自購 現(xiàn)無貸款 =3; 自購現(xiàn)有貸款 =2;其他 =1;缺失 = -15) 單位職務 高層領導 =3;中層領導 =2 ;一般員工 =1;缺失 =-1;6) 單位性質 國有企業(yè) =4;政府機關 =3;微型企業(yè) =2;民營企業(yè) =1;缺失 =-1;7) 手機號碼是否一致 一致 = 1;不一致 =0;缺失 = -1;8) 壞客戶標簽 壞客戶 =1 ;好客戶 =03. 缺失值處理1) 變量初分類

3、:各變量元素個數(shù)檢查a) 當變量元素數(shù)值個數(shù) = 1,表示為常量;刪除該變量;b) 當變量元素為數(shù)值且剔除缺失類型后,元素類型>=10;歸為連續(xù)型變量;c) 其他變量歸類為類別型變量;2) 變量缺失值處理a) 對連續(xù)型變量:如果缺失值比例大于,刪除變量;其他變量中缺失值采用 -999999 特殊處理,單獨歸為一類;b) 對于類別型變量:如果缺失值比例大于,刪除變量;其他變量中缺失值采用 隨機插值法 補充缺失值;二、訓練集數(shù)據(jù)分箱1、類別型變量分箱方法根據(jù)數(shù)據(jù)預處理中得到的類別變量,1) 如果類別變量元素類型中有壞客戶率相同的組,如果元素類別大于2,合并元素。2) 如果類別變量元素中最小箱

4、占比小于總樣本比例2%,根據(jù)其壞客戶率,尋找壞客戶率最相近的組,進行合并,直到最小箱占比大于總樣本比例 2%。3) 如果類別變量元素類型超過 5 類,尋找變量中最小箱,計算其壞客戶率,尋找與其壞客戶率最相鄰的元素合并,直到變量元素類型 不超過 5 類。4) 如果類別變量元素類型不超過 5 類,檢查單個變量占箱的比例;如果類別中某一類超過變量整體個數(shù)比例90%;刪除該變量;5) 檢查每一組分箱中壞客戶比例,如果存在某個箱中壞客戶比例為0,則進行合并;a) 合并的原則如下:根據(jù)壞客戶比例從低到高排序,根據(jù)排序將壞客戶比例為0 的組與相鄰組合并,直到不存在壞客戶比例為0的組;b) 檢查是否存在某一類

5、超過變量整體個數(shù)比例90%,如果存在,則刪除該合并分組后的變量。6) 經過以上步驟后得到的類別變量,計算類別變量的WOE和IV值;2、連續(xù)型變量分箱方法連續(xù)型變量 = 預處理中得到的連續(xù)型變量。1) 如果數(shù)值變量中元素存在為 -999999 的,把 -999999 單獨歸為一類處理;2) 將以上連續(xù)型變量進行卡方分箱,得到分割點,進行初步分箱;分箱原則:最大分箱組數(shù)為 5 組,分箱保證了組內元素的卡方值差異最小,進行分箱合并;3) 得到初步分箱組a) 檢查每一組分箱中壞客戶比例是否存在 =0 的組,如果存在,需要對其進行合并,直到不存在為止。b) 檢查分箱組中,組間所對應的壞客戶比例是否單調;

6、如果不單調,根據(jù)卡方分箱原則,將分箱組數(shù)進行縮減,直到單調。a) 檢查分箱后某一組超過變量整體個數(shù)比例90%,如果存在,則刪除該變量。4) 經過以上步驟后得到的類別變量,計算類別變量的WOE和IV值;三、將訓練集原數(shù)據(jù)用WOE值替代;四、訓練集單變量及多變量篩選(剔除多重共線性)1、單變量篩選:1) IV 值篩選標準: IV ;2、多變量篩選1)計算WOE替代后變量間的相關系數(shù),如果變量間相關系數(shù) ,比較該組變量IV值,刪除IV值小的變量;2)通過對不同變量線性回歸得到的 R2,計算VIF值,剔除VIF = 1/( 1 -R2)10的變量;五、構建及評估邏輯回歸模型1、 利用上述步驟篩選得到的

7、變量,構建邏輯回歸方程;2、 采用后向逐步回歸,通過剔除邏輯回歸方程 P值最不顯著的變量(P值),重復以上步驟,直到所有變量均顯著,或者最 后沒有可剔除變量。3、最后得到的邏輯回歸方程即為所訓練的最終模型。4、通過計算 KS、 AR 指標評估模型;訓練集 KS and AR for the scorecard in the test dataset are 57% and 45%變量類別WOEIn terceptCofficie ntWOE*Coff+In tercep/11FactorOffsetScore性別女性別男最高學歷初中及以下最高學歷大專最高學歷高中最高學歷本科及缺失及碩士及以上婚

8、姻狀況已婚已育婚姻狀況未婚婚姻狀況其他及離異婚姻狀況已婚未育及缺失現(xiàn)住房情況其他現(xiàn)住房情況缺失現(xiàn)住房情況自購現(xiàn)有貸款及共同擁有或與父母 同住及小產權現(xiàn)住房情況宅基地房及與父母同住及自有及租 借或公司所有及多套自有現(xiàn)住房情況自購現(xiàn)無貸款及租房單位性質國有企業(yè)單位性質微型企業(yè)單位性質政府機關單位性質民營企業(yè)單位性質缺失本人查詢次數(shù)統(tǒng)計 BinBin0 <=2本人查詢次數(shù)統(tǒng)計 BinBini <=3本人查詢次數(shù)統(tǒng)計 BinBin2 <=4本人查詢次數(shù)統(tǒng)計 BinBin3 >4近6個月累計查詢次數(shù)BinBin0 <=8近6個月累計查詢次數(shù)BinBini <=11近6

9、個月累計查詢次數(shù)BinBin2 <=15近6個月累計查詢次數(shù)BinBin3 >15正在使用的信用卡超額Bin0 <=9便用賬尸數(shù)正在使用的信用卡超額 使用賬戶數(shù)Bin1 <=12止在使用的信用卡超額 使用賬戶數(shù)Bin2 <=16止在使用的信用卡超額 使用賬戶數(shù)Bin3 <=24正在使用的信用卡超額 使用賬戶數(shù)Bin4 >24查詢未放款次數(shù)Bin0 <=1查詢未放款次數(shù)Bin1 <=2查詢未放款次數(shù)Bin2 <=3查詢未放款次數(shù)Bin3 <=4查詢未放款次數(shù)Bin4 >4最近1個月內的查詢次 數(shù)(貸款審批)Bin0 <

10、=2最近1個月內的查詢次 數(shù)(貸款審批)Bin1 <=27最近1個月內的查詢次 數(shù)(貸款審批)Bin2 <=83最近1個月內的查詢次 數(shù)(貸款審批)Bin3 <=118最近1個月內的查詢次 數(shù)(貸款審批)Bin4 >118信用卡近24個月內正 常還款月數(shù) BinBin0 <=2信用卡近24個月內正 常還款月數(shù) BinBin1 <=27信用卡近24個月內正 常還款月數(shù) BinBin2 <=83信用卡近24個月內正 常還款月數(shù) BinBin3 <=118信用卡近24個月內正 常還款月數(shù) BinBin4 >118六、測試集數(shù)據(jù)分箱根據(jù)逐步回歸模型

11、得到的變量具有顯著意義的變量,對于連續(xù)行變量,依據(jù)其在訓練集的分箱的切點,對上述變量中連續(xù)型變量進行分箱操作 對于分類型變量,根據(jù)其在訓練集的合并規(guī)則,對上述變量中分類型變量進行分箱操作。七、根據(jù)測試集數(shù)據(jù)分箱,按照訓練集所得的 WOE進行替代。八、根據(jù)所得到的訓練集 WOE表計算評分按照公式 socre =?? ???7?算每個用戶所對應的評分。九、測試集用戶得到的評分進行等頻劃分根據(jù)用戶得分的順序,從低到高將用戶評分劃分為30組,根據(jù)所劃分的分組,計算測試集 KS =in dexbadgoodtotalscore b inBad CumRateGood CumRatetalPc ntKS0

12、194261<=2691144761(269,3042114960(304,325375461(325,3394105161(339,350585260(350,363695463(363,373746367(373,382825052(382,389966167(389,3981054651(398,4051146367(405,4111235356(411,4171356166(417,4241434952(424,4311576168(431,4371625052(437,4431746165(443,4491835760(449,4561935760(456,4632025860(463,4712145862(471,4782235255(478,4852356368(485,4932435356(493,5012545660(501,5082625860(508,5192715657(519,5312825961(531,5552905959>555十、模型的結論和感想 模型缺陷:1模型在對訓練集中連續(xù)型數(shù)據(jù)處理有一定缺陷;主要體

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論