信用評(píng)分卡開(kāi)發(fā)流程報(bào)告_第1頁(yè)
信用評(píng)分卡開(kāi)發(fā)流程報(bào)告_第2頁(yè)
信用評(píng)分卡開(kāi)發(fā)流程報(bào)告_第3頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余3頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、評(píng)分卡開(kāi)發(fā)流程文檔一、數(shù)據(jù)集切分 將數(shù)據(jù)集按照 70% 與 30%比例切分為訓(xùn)練集和測(cè)試集兩部分; 、分別對(duì)訓(xùn)練集與測(cè)試集進(jìn)行數(shù)據(jù)預(yù)處理1. 衍生變量:進(jìn)行衍生的變量1) 未銷(xiāo)戶信用卡最近 6 個(gè)月平均使用率 =未銷(xiāo)戶信用卡最近 6 個(gè)月平均使用額度 / 未銷(xiāo)戶信用卡授信總額2) 未銷(xiāo)戶信用卡已使用率 =未銷(xiāo)戶信用卡已用額度 / 未銷(xiāo)戶信用卡授信總額2. String 變量轉(zhuǎn)換為數(shù)值型。1) 性別: 男 =0 ;女 =1;缺失 =-1;2) 最高學(xué)歷: 碩士及以上 =5 ;本科 =4;大專(zhuān) =3;高中 =2;初中及以下 =1;缺失 =-1;3) 婚姻狀況 已婚已育 =5;已婚未育 =4;離異

2、=3 ;未婚 =2;其他 =1;缺失 =-1 ;4) 現(xiàn)住房情況 多套自有 =11;自有 =10;小產(chǎn)權(quán) =9;宅基地房 =8;共同擁有或與父母同住 =7;與父母同住 =6;租借或公司所有 =5;租房 =4 ;自購(gòu) 現(xiàn)無(wú)貸款 =3; 自購(gòu)現(xiàn)有貸款 =2;其他 =1;缺失 = -15) 單位職務(wù) 高層領(lǐng)導(dǎo) =3;中層領(lǐng)導(dǎo) =2 ;一般員工 =1;缺失 =-1;6) 單位性質(zhì) 國(guó)有企業(yè) =4;政府機(jī)關(guān) =3;微型企業(yè) =2;民營(yíng)企業(yè) =1;缺失 =-1;7) 手機(jī)號(hào)碼是否一致 一致 = 1;不一致 =0;缺失 = -1;8) 壞客戶標(biāo)簽 壞客戶 =1 ;好客戶 =03. 缺失值處理1) 變量初分類(lèi)

3、:各變量元素個(gè)數(shù)檢查a) 當(dāng)變量元素?cái)?shù)值個(gè)數(shù) = 1,表示為常量;刪除該變量;b) 當(dāng)變量元素為數(shù)值且剔除缺失類(lèi)型后,元素類(lèi)型>=10;歸為連續(xù)型變量;c) 其他變量歸類(lèi)為類(lèi)別型變量;2) 變量缺失值處理a) 對(duì)連續(xù)型變量:如果缺失值比例大于,刪除變量;其他變量中缺失值采用 -999999 特殊處理,單獨(dú)歸為一類(lèi);b) 對(duì)于類(lèi)別型變量:如果缺失值比例大于,刪除變量;其他變量中缺失值采用 隨機(jī)插值法 補(bǔ)充缺失值;二、訓(xùn)練集數(shù)據(jù)分箱1、類(lèi)別型變量分箱方法根據(jù)數(shù)據(jù)預(yù)處理中得到的類(lèi)別變量,1) 如果類(lèi)別變量元素類(lèi)型中有壞客戶率相同的組,如果元素類(lèi)別大于2,合并元素。2) 如果類(lèi)別變量元素中最小箱

4、占比小于總樣本比例2%,根據(jù)其壞客戶率,尋找壞客戶率最相近的組,進(jìn)行合并,直到最小箱占比大于總樣本比例 2%。3) 如果類(lèi)別變量元素類(lèi)型超過(guò) 5 類(lèi),尋找變量中最小箱,計(jì)算其壞客戶率,尋找與其壞客戶率最相鄰的元素合并,直到變量元素類(lèi)型 不超過(guò) 5 類(lèi)。4) 如果類(lèi)別變量元素類(lèi)型不超過(guò) 5 類(lèi),檢查單個(gè)變量占箱的比例;如果類(lèi)別中某一類(lèi)超過(guò)變量整體個(gè)數(shù)比例90%;刪除該變量;5) 檢查每一組分箱中壞客戶比例,如果存在某個(gè)箱中壞客戶比例為0,則進(jìn)行合并;a) 合并的原則如下:根據(jù)壞客戶比例從低到高排序,根據(jù)排序?qū)目蛻舯壤秊? 的組與相鄰組合并,直到不存在壞客戶比例為0的組;b) 檢查是否存在某一類(lèi)

5、超過(guò)變量整體個(gè)數(shù)比例90%,如果存在,則刪除該合并分組后的變量。6) 經(jīng)過(guò)以上步驟后得到的類(lèi)別變量,計(jì)算類(lèi)別變量的WOE和IV值;2、連續(xù)型變量分箱方法連續(xù)型變量 = 預(yù)處理中得到的連續(xù)型變量。1) 如果數(shù)值變量中元素存在為 -999999 的,把 -999999 單獨(dú)歸為一類(lèi)處理;2) 將以上連續(xù)型變量進(jìn)行卡方分箱,得到分割點(diǎn),進(jìn)行初步分箱;分箱原則:最大分箱組數(shù)為 5 組,分箱保證了組內(nèi)元素的卡方值差異最小,進(jìn)行分箱合并;3) 得到初步分箱組a) 檢查每一組分箱中壞客戶比例是否存在 =0 的組,如果存在,需要對(duì)其進(jìn)行合并,直到不存在為止。b) 檢查分箱組中,組間所對(duì)應(yīng)的壞客戶比例是否單調(diào);

6、如果不單調(diào),根據(jù)卡方分箱原則,將分箱組數(shù)進(jìn)行縮減,直到單調(diào)。a) 檢查分箱后某一組超過(guò)變量整體個(gè)數(shù)比例90%,如果存在,則刪除該變量。4) 經(jīng)過(guò)以上步驟后得到的類(lèi)別變量,計(jì)算類(lèi)別變量的WOE和IV值;三、將訓(xùn)練集原數(shù)據(jù)用WOE值替代;四、訓(xùn)練集單變量及多變量篩選(剔除多重共線性)1、單變量篩選:1) IV 值篩選標(biāo)準(zhǔn): IV ;2、多變量篩選1)計(jì)算WOE替代后變量間的相關(guān)系數(shù),如果變量間相關(guān)系數(shù) ,比較該組變量IV值,刪除IV值小的變量;2)通過(guò)對(duì)不同變量線性回歸得到的 R2,計(jì)算VIF值,剔除VIF = 1/( 1 -R2)10的變量;五、構(gòu)建及評(píng)估邏輯回歸模型1、 利用上述步驟篩選得到的

7、變量,構(gòu)建邏輯回歸方程;2、 采用后向逐步回歸,通過(guò)剔除邏輯回歸方程 P值最不顯著的變量(P值),重復(fù)以上步驟,直到所有變量均顯著,或者最 后沒(méi)有可剔除變量。3、最后得到的邏輯回歸方程即為所訓(xùn)練的最終模型。4、通過(guò)計(jì)算 KS、 AR 指標(biāo)評(píng)估模型;訓(xùn)練集 KS and AR for the scorecard in the test dataset are 57% and 45%變量類(lèi)別WOEIn terceptCofficie ntWOE*Coff+In tercep/11FactorOffsetScore性別女性別男最高學(xué)歷初中及以下最高學(xué)歷大專(zhuān)最高學(xué)歷高中最高學(xué)歷本科及缺失及碩士及以上婚

8、姻狀況已婚已育婚姻狀況未婚婚姻狀況其他及離異婚姻狀況已婚未育及缺失現(xiàn)住房情況其他現(xiàn)住房情況缺失現(xiàn)住房情況自購(gòu)現(xiàn)有貸款及共同擁有或與父母 同住及小產(chǎn)權(quán)現(xiàn)住房情況宅基地房及與父母同住及自有及租 借或公司所有及多套自有現(xiàn)住房情況自購(gòu)現(xiàn)無(wú)貸款及租房單位性質(zhì)國(guó)有企業(yè)單位性質(zhì)微型企業(yè)單位性質(zhì)政府機(jī)關(guān)單位性質(zhì)民營(yíng)企業(yè)單位性質(zhì)缺失本人查詢(xún)次數(shù)統(tǒng)計(jì) BinBin0 <=2本人查詢(xún)次數(shù)統(tǒng)計(jì) BinBini <=3本人查詢(xún)次數(shù)統(tǒng)計(jì) BinBin2 <=4本人查詢(xún)次數(shù)統(tǒng)計(jì) BinBin3 >4近6個(gè)月累計(jì)查詢(xún)次數(shù)BinBin0 <=8近6個(gè)月累計(jì)查詢(xún)次數(shù)BinBini <=11近6

9、個(gè)月累計(jì)查詢(xún)次數(shù)BinBin2 <=15近6個(gè)月累計(jì)查詢(xún)次數(shù)BinBin3 >15正在使用的信用卡超額Bin0 <=9便用賬尸數(shù)正在使用的信用卡超額 使用賬戶數(shù)Bin1 <=12止在使用的信用卡超額 使用賬戶數(shù)Bin2 <=16止在使用的信用卡超額 使用賬戶數(shù)Bin3 <=24正在使用的信用卡超額 使用賬戶數(shù)Bin4 >24查詢(xún)未放款次數(shù)Bin0 <=1查詢(xún)未放款次數(shù)Bin1 <=2查詢(xún)未放款次數(shù)Bin2 <=3查詢(xún)未放款次數(shù)Bin3 <=4查詢(xún)未放款次數(shù)Bin4 >4最近1個(gè)月內(nèi)的查詢(xún)次 數(shù)(貸款審批)Bin0 <

10、=2最近1個(gè)月內(nèi)的查詢(xún)次 數(shù)(貸款審批)Bin1 <=27最近1個(gè)月內(nèi)的查詢(xún)次 數(shù)(貸款審批)Bin2 <=83最近1個(gè)月內(nèi)的查詢(xún)次 數(shù)(貸款審批)Bin3 <=118最近1個(gè)月內(nèi)的查詢(xún)次 數(shù)(貸款審批)Bin4 >118信用卡近24個(gè)月內(nèi)正 常還款月數(shù) BinBin0 <=2信用卡近24個(gè)月內(nèi)正 常還款月數(shù) BinBin1 <=27信用卡近24個(gè)月內(nèi)正 常還款月數(shù) BinBin2 <=83信用卡近24個(gè)月內(nèi)正 常還款月數(shù) BinBin3 <=118信用卡近24個(gè)月內(nèi)正 常還款月數(shù) BinBin4 >118六、測(cè)試集數(shù)據(jù)分箱根據(jù)逐步回歸模型

11、得到的變量具有顯著意義的變量,對(duì)于連續(xù)行變量,依據(jù)其在訓(xùn)練集的分箱的切點(diǎn),對(duì)上述變量中連續(xù)型變量進(jìn)行分箱操作 對(duì)于分類(lèi)型變量,根據(jù)其在訓(xùn)練集的合并規(guī)則,對(duì)上述變量中分類(lèi)型變量進(jìn)行分箱操作。七、根據(jù)測(cè)試集數(shù)據(jù)分箱,按照訓(xùn)練集所得的 WOE進(jìn)行替代。八、根據(jù)所得到的訓(xùn)練集 WOE表計(jì)算評(píng)分按照公式 socre =?? ???7?算每個(gè)用戶所對(duì)應(yīng)的評(píng)分。九、測(cè)試集用戶得到的評(píng)分進(jìn)行等頻劃分根據(jù)用戶得分的順序,從低到高將用戶評(píng)分劃分為30組,根據(jù)所劃分的分組,計(jì)算測(cè)試集 KS =in dexbadgoodtotalscore b inBad CumRateGood CumRatetalPc ntKS0

12、194261<=2691144761(269,3042114960(304,325375461(325,3394105161(339,350585260(350,363695463(363,373746367(373,382825052(382,389966167(389,3981054651(398,4051146367(405,4111235356(411,4171356166(417,4241434952(424,4311576168(431,4371625052(437,4431746165(443,4491835760(449,4561935760(456,4632025860(463,4712145862(471,4782235255(478,4852356368(485,4932435356(493,5012545660(501,5082625860(508,5192715657(519,5312825961(531,5552905959>555十、模型的結(jié)論和感想 模型缺陷:1模型在對(duì)訓(xùn)練集中連續(xù)型數(shù)據(jù)處理有一定缺陷;主要體

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論