版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、.wd.wd.wd.評(píng)分卡開發(fā)流程文檔數(shù)據(jù)集切分將數(shù)據(jù)集按照70% 與30%比例切分為訓(xùn)練集和測(cè)試集兩局部;二、分別對(duì)訓(xùn)練集與測(cè)試集進(jìn)展數(shù)據(jù)預(yù)處理衍生變量:進(jìn)展衍生的變量未銷戶信用卡最近6個(gè)月平均使用率 =未銷戶信用卡最近6個(gè)月平均使用額度/未銷戶信用卡授信總額未銷戶信用卡已使用率 =未銷戶信用卡已用額度/未銷戶信用卡授信總額String 變量轉(zhuǎn)換為數(shù)值型。性別: 男=0 ;女=1;缺失=-1;最高學(xué)歷:碩士及以上=5;本科=4;大專=3;高中=2;初中及以下=1;缺失=-1;婚姻狀況已婚已育 =5;已婚未育=4;離異=3;未婚=2;其他=1;缺失=-1;現(xiàn)住房情況多套自有=11;自有=10;
2、小產(chǎn)權(quán)=9;宅基地房=8;共同擁有或與父母同住=7;與父母同住=6;租借或公司所有=5;租房=4 ;自購(gòu)現(xiàn)無貸款=3;自購(gòu)現(xiàn)有貸款=2;其他=1;缺失 = -1單位職務(wù)高層領(lǐng)導(dǎo)=3;中層領(lǐng)導(dǎo)=2 ;一般員工=1;缺失 =-1;單位性質(zhì)國(guó)有企業(yè)=4;政府機(jī)關(guān)=3;微型企業(yè)=2;民營(yíng)企業(yè)=1;缺失=-1;手機(jī)號(hào)碼是否一致一致 = 1;不一致=0;缺失 = -1;壞客戶標(biāo)簽壞客戶 =1 ;好客戶 =0缺失值處理變量初分類:各變量元素個(gè)數(shù)檢查當(dāng)變量元素?cái)?shù)值個(gè)數(shù) =1,表示為常量;刪除該變量;當(dāng)變量元素為數(shù)值且剔除缺失類型后,元素類型=10;歸為連續(xù)型變量;其他變量歸類為類別型變量;變量缺失值處理對(duì)連續(xù)
3、型變量:如果缺失值比例大于0.7,刪除變量;其他變量中缺失值采用-999999特殊處理,單獨(dú)歸為一類;對(duì)于類別型變量:如果缺失值比例大于0.5,刪除變量;其他變量中缺失值采用隨機(jī)插值法補(bǔ)充缺失值;二、訓(xùn)練集數(shù)據(jù)分箱類別型變量分箱方法根據(jù)數(shù)據(jù)預(yù)處理中得到的類別變量,如果類別變量元素類型中有壞客戶率一樣的組,如果元素類別大于2,合并元素。如果類別變量元素中最小箱占比小于總樣本比例2%,根據(jù)其壞客戶率,尋找壞客戶率最相近的組,進(jìn)展合并,直到最小箱占比大于總樣本比例2%。如果類別變量元素類型超過5類,尋找變量中最小箱,計(jì)算其壞客戶率,尋找與其壞客戶率最相鄰的元素合并,直到變量元素類型不超過5類。如果類
4、別變量元素類型不超過5類,檢查單個(gè)變量占箱的比例;如果類別中某一類超過變量整體個(gè)數(shù)比例90%;刪除該變量;檢查每一組分箱中壞客戶比例,如果存在某個(gè)箱中壞客戶比例為0,那么進(jìn)展合并;合并的原那么如下:根據(jù)壞客戶比例從低到高排序,根據(jù)排序?qū)目蛻舯壤秊?的組與相鄰組合并,直到不存在壞客戶比例為0的組;檢查是否存在某一類超過變量整體個(gè)數(shù)比例90%,如果存在,那么刪除該合并分組后的變量。經(jīng)過以上步驟后得到的類別變量,計(jì)算類別變量的WOE和IV值;連續(xù)型變量分箱方法連續(xù)型變量 = 預(yù)處理中得到的連續(xù)型變量。如果數(shù)值變量中元素存在為-999999的,把-999999單獨(dú)歸為一類處理;將以上連續(xù)型變量進(jìn)展卡
5、方分箱,得到分割點(diǎn),進(jìn)展初步分箱;分箱原那么:最大分箱組數(shù)為5組,分箱保證了組內(nèi)元素的卡方值差異最小,進(jìn)展分箱合并;得到初步分箱組檢查每一組分箱中壞客戶比例是否存在=0的組,如果存在,需要對(duì)其進(jìn)展合并,直到不存在為止。檢查分箱組中,組間所對(duì)應(yīng)的壞客戶比例是否單調(diào);如果不單調(diào),根據(jù)卡方分箱原那么,將分箱組數(shù)進(jìn)展縮減,直到單調(diào)。檢查分箱后某一組超過變量整體個(gè)數(shù)比例90%,如果存在,那么刪除該變量。經(jīng)過以上步驟后得到的類別變量,計(jì)算類別變量的WOE和IV值;三、將訓(xùn)練集原數(shù)據(jù)用WOE值替代;四、訓(xùn)練集單變量及多變量篩選剔除多重共線性1、單變量篩選:IV值篩選標(biāo)準(zhǔn):IV 0.2;2、多變量篩選計(jì)算WO
6、E替代后變量間的相關(guān)系數(shù),如果變量間相關(guān)系數(shù)0.6, 比較該組變量IV值,刪除IV值小的變量;通過對(duì)不同變量線性回歸得到的R2,計(jì)算VIF值, 剔除VIF = 1/1 R210的變量;五、構(gòu)建及評(píng)估邏輯回歸模型1、 利用上述步驟篩選得到的變量,構(gòu)建邏輯回歸方程;2、 采用后向逐步回歸,通過剔除邏輯回歸方程P值最不顯著的變量P值0.05,重復(fù)以上步驟,直到所有變量均顯著,或者最后沒有可剔除變量。3、最后得到的邏輯回歸方程即為所訓(xùn)練的最終模型。4、通過計(jì)算KS、AR指標(biāo)評(píng)估模型;訓(xùn)練集 KS and AR for the scorecard in the test dataset are 57%
7、and 45%變量類別WOEInterceptCofficientWOE*Coff+Intercep/11FactorOffsetScore性別女0.66-2.39-0.97-0.8672.13217.8181.70性別男-0.16-2.39-0.97-0.0672.13217.8124.25最高學(xué)歷初中及以下0.02-2.39-0.61-0.2372.13217.8136.47最高學(xué)歷大專-0.07-2.39-0.61-0.1772.13217.8132.31最高學(xué)歷高中-0.23-2.39-0.61-0.0872.13217.8125.41最高學(xué)歷本科及缺失及碩士及以上0.35-2.39-
8、0.61-0.4372.13217.8150.96婚姻狀況已婚已育0.16-2.39-0.91-0.3672.13217.8146.05婚姻狀況未婚0.10-2.39-0.91-0.3172.13217.8142.06婚姻狀況其他及離異-0.55-2.39-0.910.2872.13217.81-0.34婚姻狀況已婚未育及缺失1.03-2.39-0.91-1.1572.13217.81102.60現(xiàn)住房情況其他-0.29-2.39-0.900.0572.13217.8116.38現(xiàn)住房情況缺失0.35-2.39-0.90-0.5372.13217.8158.26現(xiàn)住房情況自購(gòu)現(xiàn)有貸款及共同擁有
9、或與父母同住及小產(chǎn)權(quán)0.44-2.39-0.90-0.6172.13217.8163.70現(xiàn)住房情況宅基地房及與父母同住及自有及租借或公司所有及多套自有-0.68-2.39-0.900.3972.13217.81-8.49現(xiàn)住房情況自購(gòu)現(xiàn)無貸款及租房0.16-2.39-0.90-0.3672.13217.8145.63單位性質(zhì)國(guó)有企業(yè)0.02-2.39-0.86-0.2472.13217.8136.84單位性質(zhì)微型企業(yè)0.30-2.39-0.86-0.4772.13217.8153.91單位性質(zhì)政府機(jī)關(guān)0.01-2.39-0.86-0.2372.13217.8136.16單位性質(zhì)民營(yíng)企業(yè)-0.
10、09-2.39-0.86-0.1472.13217.8129.64單位性質(zhì)缺失-0.37-2.39-0.860.1072.13217.8112.84本人查詢次數(shù)統(tǒng)計(jì)_BinBin0 =20.16-2.39-0.72-0.3372.13217.8143.69本人查詢次數(shù)統(tǒng)計(jì)_BinBin1 =3-0.68-2.39-0.720.2772.13217.810.13本人查詢次數(shù)統(tǒng)計(jì)_BinBin2 4-1.22-2.39-0.720.6572.13217.81-27.34近6個(gè)月累計(jì)查詢次數(shù)_BinBin0 =80.19-2.39-0.73-0.3672.13217.8145.50近6個(gè)月累計(jì)查詢次
11、數(shù)_BinBin1 =11-0.58-2.39-0.730.2072.13217.815.16近6個(gè)月累計(jì)查詢次數(shù)_BinBin2 15-1.52-2.39-0.730.8972.13217.81-44.24正在使用的信用卡超額使用賬戶數(shù)Bin0 =9-0.19-2.390.79-0.3772.13217.8146.34正在使用的信用卡超額使用賬戶數(shù)Bin1 =120.07-2.390.79-0.1672.13217.8131.39正在使用的信用卡超額使用賬戶數(shù)Bin2 =160.20-2.390.79-0.0672.13217.8124.21正在使用的信用卡超額使用賬戶數(shù)Bin3 241.0
12、9-2.390.790.6472.13217.81-26.46查詢未放款次數(shù)Bin0 =10.19-2.39-0.72-0.3572.13217.8145.27查詢未放款次數(shù)Bin1 =2-0.74-2.39-0.720.3172.13217.81-2.78查詢未放款次數(shù)Bin2 =3-0.75-2.39-0.720.3272.13217.81-3.12查詢未放款次數(shù)Bin3 4-1.43-2.39-0.720.8172.13217.81-38.55最近1個(gè)月內(nèi)的查詢次數(shù)(貸款審批)Bin0 =20.15-2.39-0.69-0.3272.13217.8142.80最近1個(gè)月內(nèi)的查詢次數(shù)(貸款
13、審批)Bin1 =27-0.60-2.39-0.690.1972.13217.815.79最近1個(gè)月內(nèi)的查詢次數(shù)(貸款審批)Bin2 =83-0.70-2.39-0.690.2772.13217.810.45最近1個(gè)月內(nèi)的查詢次數(shù)(貸款審批)Bin3 118-1.12-2.39-0.690.5672.13217.81-20.32信用卡近24個(gè)月內(nèi)正常還款月數(shù)_BinBin0 =2-0.77-2.39-1.360.8372.13217.81-39.87信用卡近24個(gè)月內(nèi)正常還款月數(shù)_BinBin1 =27-0.23-2.39-1.360.0972.13217.8112.99信用卡近24個(gè)月內(nèi)正常
14、還款月數(shù)_BinBin2 =830.46-2.39-1.36-0.8472.13217.8180.25信用卡近24個(gè)月內(nèi)正常還款月數(shù)_BinBin3 1180.85-2.39-1.36-1.3772.13217.81118.58六、測(cè)試集數(shù)據(jù)分箱根據(jù)逐步回歸模型得到的變量具有顯著意義的變量,對(duì)于連續(xù)行變量,依據(jù)其在訓(xùn)練集的分箱的切點(diǎn),對(duì)上述變量中連續(xù)型變量進(jìn)展分箱操作。對(duì)于分類型變量,根據(jù)其在訓(xùn)練集的合并規(guī)那么,對(duì)上述變量中分類型變量進(jìn)展分箱操作。七、根據(jù)測(cè)試集數(shù)據(jù)分箱,按照訓(xùn)練集所得的WOE進(jìn)展替代。八、根據(jù)所得到的訓(xùn)練集WOE表計(jì)算評(píng)分按照公式 socre= ivar-WOE*Coff+Intercep/n*factor + Offset/n 計(jì)算每個(gè)用戶所對(duì)應(yīng)的評(píng)分。九、測(cè)試集用戶得到的評(píng)分進(jìn)展等頻劃分根據(jù)用戶得分的順序,從低到高將用戶評(píng)分劃分為30組,根據(jù)所劃分的分組,計(jì)算測(cè)試集KS = 0.29。indexbadgoodtotalscore_binBad_CumRateGood_CumRatetalPcntKS01942615551.000 1.000 0.033 0.000 十、模型的結(jié)論和感想模型缺陷: 1、模型在對(duì)訓(xùn)練集中連續(xù)型數(shù)據(jù)處理有一定缺陷;主要表達(dá)在分箱未考慮最小箱占比過小帶來的分組隨機(jī)差異。2、在訓(xùn)練集的測(cè)試中,未進(jìn)展過采樣
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年八年級(jí)語文上冊(cè)期末專項(xiàng)復(fù)習(xí):文學(xué)文化常識(shí)【考題猜想】原卷版
- 銷售對(duì)抗協(xié)議書范文范本
- 聘用心理顧問協(xié)議書范文模板
- 電信入網(wǎng)協(xié)議書范文電子版下載
- 2024年備件倉(cāng)庫(kù)出售合同范本
- 吉林師范大學(xué)《視覺設(shè)計(jì)基礎(chǔ)》2021-2022學(xué)年第一學(xué)期期末試卷
- 吉林師范大學(xué)《行書理論與技法I》2021-2022學(xué)年第一學(xué)期期末試卷
- 中醫(yī)藥法與現(xiàn)代醫(yī)療結(jié)合的總結(jié)
- 2024個(gè)人保密合同范本
- 幼兒園文化建設(shè)與推廣制度
- 論文評(píng)審意見范文(通用7篇)
- 《當(dāng)代教育心理學(xué)》(第3版)配套題庫(kù)考研真題+章節(jié)題庫(kù)
- 2011深圳市公務(wù)員錄用考試《行測(cè)》真題
- 基因測(cè)試題樣本
- 2023年度軍隊(duì)文職《教育學(xué)》真題庫(kù)(含答案)
- 電氣安全管理程序
- 全國(guó)教育期刊雜志社網(wǎng)址投稿郵箱電話地址一覽
- GB/T 11836-2023混凝土和鋼筋混凝土排水管
- 第三章 繼承優(yōu)良傳統(tǒng) 弘揚(yáng)中國(guó)精神
- 科幻小說賞讀智慧樹知到答案章節(jié)測(cè)試2023年杭州師范大學(xué)
評(píng)論
0/150
提交評(píng)論