風(fēng)險(xiǎn)三方數(shù)據(jù)管理的HeadFirst_第1頁(yè)
風(fēng)險(xiǎn)三方數(shù)據(jù)管理的HeadFirst_第2頁(yè)
風(fēng)險(xiǎn)三方數(shù)據(jù)管理的HeadFirst_第3頁(yè)
風(fēng)險(xiǎn)三方數(shù)據(jù)管理的HeadFirst_第4頁(yè)
風(fēng)險(xiǎn)三方數(shù)據(jù)管理的HeadFirst_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

風(fēng)險(xiǎn)三方數(shù)據(jù)管理的HeadFirst三方數(shù)據(jù)希望能夠解決自己的部分工作事務(wù),以留出更多的時(shí)間來處理其他事務(wù)。那么關(guān)于三方數(shù)據(jù)該如何進(jìn)行管理呢?需要注意一些什么問題?本文梳理了相關(guān)工作流程,分享了三方數(shù)據(jù)掃盲貼,希望對(duì)你有所幫助。日常工作過于繁瑣,以至于感覺自己又從產(chǎn)品轉(zhuǎn)型成商務(wù)了。所以就三方數(shù)據(jù)管理希望交出部分工作以解放其余工作的時(shí)間。常規(guī)風(fēng)控系統(tǒng)、應(yīng)用的討論,至少在人人都是產(chǎn)品經(jīng)理上,已經(jīng)涉及了決策引擎、大數(shù)據(jù)平臺(tái)等,但如果就三方數(shù)據(jù)的日常管理作為一項(xiàng)單獨(dú)工作的討論較少。在《征信業(yè)務(wù)管理辦法》實(shí)施近一年,“過渡期”越來越短的當(dāng)前,三方數(shù)據(jù)管理應(yīng)當(dāng)可以單獨(dú)設(shè)置一個(gè)篇幅來討論日常的工作流程。此文既作為對(duì)接手三方數(shù)據(jù)部分工作的同事的掃盲貼,也作為自己這項(xiàng)工作的總結(jié),以供同行討論批評(píng)。一、《征信業(yè)務(wù)管理辦法》相關(guān)2022年后的三方數(shù)據(jù)管理,是繞不開此辦法的出臺(tái)及執(zhí)行的。此管理辦法共計(jì)八章53條,共計(jì)4800字左右,預(yù)計(jì)十五分鐘左右可以閱讀完。其也是基于原征信業(yè)管理辦法、之前試點(diǎn)八家征信機(jī)構(gòu)的實(shí)際,所出臺(tái)的。網(wǎng)上有諸多解讀,不再贅述,挑選幾個(gè)我個(gè)人覺得比較重要的點(diǎn)摘錄解讀。第三條本辦法所稱征信業(yè)務(wù),是指對(duì)企業(yè)和個(gè)人的信用信息進(jìn)行采集、整理、保存、加工,并向信息使用者提供的活動(dòng)。

本辦法所稱信用信息,是指依法采集,為金融等活動(dòng)提供服務(wù),用于識(shí)別判斷企業(yè)和個(gè)人信用狀況的基本信息、借貸信息、其他相關(guān)信息,以及基于前述信息形成的分析評(píng)價(jià)信息。相較于八家征信機(jī)構(gòu)試點(diǎn)期間的情況,當(dāng)時(shí)對(duì)于“個(gè)人信息”,及“個(gè)人征信信息”,是缺乏一個(gè)明確的界定的,大都特指一些多頭借貸數(shù)據(jù),以及在各種不同的機(jī)構(gòu)中借款的借貸信息等。至于如行程軌跡信息,支付信息等,我個(gè)人理解在之前是從未明確說明是否為“信用信息”的。根據(jù)本辦法的解讀,個(gè)人理解“只要用于金融活動(dòng)”,即可稱為“信用信息”。即“信用信息”的內(nèi)涵被擴(kuò)大。第五條金融機(jī)構(gòu)不得與未取得合法征信業(yè)務(wù)資質(zhì)的市場(chǎng)機(jī)構(gòu)開展商業(yè)合作獲取征信服務(wù)。本辦法所稱金融機(jī)構(gòu),是指國(guó)務(wù)院金融管理部門監(jiān)督管理的從事金融業(yè)務(wù)的機(jī)構(gòu)。地方金融監(jiān)管部門負(fù)責(zé)監(jiān)督管理的地方金融組織適用本辦法關(guān)于金融機(jī)構(gòu)的規(guī)定。

第五十條以“信用信息服務(wù)”“信用服務(wù)”“信用評(píng)分”“信用評(píng)級(jí)”“信用修復(fù)”等名義對(duì)外實(shí)質(zhì)提供征信服務(wù)的,適用本辦法。此條基本上堵死了所有原三方數(shù)據(jù)公司的路,使其不得不轉(zhuǎn)型。所有持牌金融機(jī)構(gòu)不得與百行、樸道之外的機(jī)構(gòu)合作。不論之前的名義與形式如何,此兩條與上述第三條結(jié)合,基本上框死了三方數(shù)據(jù)機(jī)構(gòu)、征信機(jī)構(gòu)及應(yīng)用方的位置。第十二條征信機(jī)構(gòu)采集個(gè)人信用信息應(yīng)當(dāng)經(jīng)信息主體本人同意,并且明確告知信息主體采集信用信息的目的。依照法律法規(guī)公開的信息除外。

第二十三條信息使用者應(yīng)當(dāng)采取必要的措施,保障查詢個(gè)人信用信息時(shí)取得信息主體的同意,并且按照約定用途使用個(gè)人信用信息。此兩條規(guī)定了采集方和使用方雙方的一個(gè)要求。即采集方需要獲得授權(quán),同時(shí)使用方也得獲得授權(quán)。基于以上三個(gè)部分,金融機(jī)構(gòu)使用任何信息應(yīng)用于金融業(yè)務(wù),都需要通過百行、樸道進(jìn)行,即所謂的數(shù)據(jù)”斷直連”。二、三方數(shù)據(jù)掃盲1.三方數(shù)據(jù)是平常買的菜常規(guī)的量化風(fēng)控決策,上游大體是核心系統(tǒng)、CRM系統(tǒng),推送的客戶信息由路由分解給人工審批或量化引擎(也存在量化引擎判斷’存疑’的客戶再推送給人工審批的可能)。決策引擎收到客戶信息后,結(jié)合數(shù)據(jù)集市、標(biāo)簽管理平臺(tái)(衍生變量計(jì)算平臺(tái))、風(fēng)控模型管理平臺(tái),對(duì)客戶的是否為黑名單進(jìn)行判斷,對(duì)客戶的綜合評(píng)分判斷是否準(zhǔn)入。三方數(shù)據(jù)參與數(shù)據(jù)集市及標(biāo)簽管理平臺(tái),乃至作為一個(gè)入?yún)⑴c模型的管理和變更。如果其他系統(tǒng)平臺(tái)是鍋碗瓢盆的話,三方數(shù)據(jù)更類似于每天要去菜市場(chǎng)采買的菜。一個(gè)常規(guī)的策略做飯過程為:客戶->基礎(chǔ)核驗(yàn)->涉法核驗(yàn)->反欺詐評(píng)估->多頭借貸情況評(píng)估->評(píng)分定價(jià)評(píng)估->自有模型評(píng)估。每個(gè)環(huán)節(jié)都需要不同數(shù)據(jù)產(chǎn)品參與。2.市場(chǎng)上都有什么菜就三方數(shù)據(jù),在淺薄的認(rèn)知中沒有一個(gè)權(quán)威的指導(dǎo)標(biāo)準(zhǔn)。結(jié)合近兩年的工作,大體整理如下。在此沒有包含人行征信數(shù)據(jù),人行征信數(shù)據(jù)是一個(gè)不斷完善的整體畫像,不能單純的歸為哪類。需要單獨(dú)說明的,是“其他”類的數(shù)據(jù),關(guān)于反洗錢的名單、貸后管理的情況及學(xué)生身份確認(rèn),不甚清楚是只有持牌機(jī)構(gòu)會(huì)被監(jiān)管機(jī)構(gòu)關(guān)注到,還是全行業(yè)均有同樣的需求和問題。不論各家公司產(chǎn)品描述的如何花里胡哨,但是分類上是一定能劃分進(jìn)如下的分類的。誠(chéng)然,不同的公司在技術(shù)實(shí)力、數(shù)據(jù)源獲取能力上,有一定的差異,但是在穿透過去的原始數(shù)據(jù)源中,一定仍然是那些信息。因此在之前的三方數(shù)據(jù)引入中,曾經(jīng)想過全數(shù)據(jù)類型制霸。但介于種種原因,最后并未完成。定性認(rèn)知上覺得可能效果不錯(cuò)的三方支付通道的支付數(shù)據(jù),也因?yàn)榉N種原因沒有完全覆蓋。曾經(jīng)設(shè)想過,因?yàn)榻鹑诮灰卓倸w會(huì)體現(xiàn)在賬戶余額變動(dòng)上,如果可以合理合法地獲取用戶基于銀聯(lián)、網(wǎng)聯(lián)、三方支付(支付寶、微信、平安付)的全部評(píng)分,很可能能做出來一個(gè)干凈的客戶畫像,但因?yàn)殡y度太大而作罷。希望百行、樸道入場(chǎng)后,有一天可以基于這個(gè)想法來談?wù)劷?jīng)驗(yàn)。核驗(yàn)類的數(shù)據(jù)均來源于權(quán)威數(shù)據(jù)源,這個(gè)“權(quán)威”是指,公安一所三所、銀聯(lián)、及三大運(yùn)營(yíng)商。市面上所提供此類驗(yàn)證服務(wù)的,原始數(shù)據(jù)源也只可能是這幾家權(quán)威數(shù)據(jù)源?!鲂蓬悺蓑?yàn),社保相關(guān)評(píng)分、工作公司驗(yàn)證除金保信外,似乎沒有其他可輸出的權(quán)威數(shù)據(jù)源。車輛信息,歷史有部分險(xiǎn)司或者導(dǎo)航公司輸出過。公積金信息據(jù)了解至今未完全地全國(guó)聯(lián)網(wǎng),各家數(shù)據(jù)源也是只能輸出部分信息。其他商業(yè)險(xiǎn)、增信保險(xiǎn)出險(xiǎn)情況等,了解到也只有銀保信在輸出。風(fēng)險(xiǎn)名單類整體分為兩個(gè)部分,一是金融機(jī)構(gòu)的黑名單,如各公司自行積累的,歷史逾期超過一定時(shí)間的客戶情況,另如歷史在P2P頻繁借款及逾期的客戶情況;另外二是公檢法類的黑名單,如客戶被起訴、被執(zhí)行、乃至涉及犯罪的信息。就實(shí)際感受來講,這部分黑名單從定性上來說,確實(shí)可以理解其“風(fēng)險(xiǎn)性”。但是沒有條件,也不敢,也未曾見過其他機(jī)構(gòu)去測(cè)試,稍微放寬一下要求后,整體的不良率表現(xiàn)如何。消費(fèi)金融或小貸公司,本身就面對(duì)著下沉客戶,用黑名單歷史框死客戶,是否會(huì)導(dǎo)致之后的客戶做無可做。評(píng)分是各家公司主要輸出的產(chǎn)品。不論名稱多么花里胡哨,按業(yè)務(wù)流程上只分為綜合、反欺詐、貸中三類。至于貸后評(píng)分,因?yàn)橛懻摰闹饕菧?zhǔn)入側(cè)的問題,就沒有納入。當(dāng)然各家公司也可以與輸出方進(jìn)行聯(lián)合建模,單獨(dú)列出來是想說明其特殊性。各類評(píng)分就如同碳水雕花。評(píng)分有其顯著的優(yōu)點(diǎn),如不需要過多去研究?jī)?nèi)在邏輯和關(guān)聯(lián)性,測(cè)試起來簡(jiǎn)單明了,基本上跑一遍L(zhǎng)R,大體會(huì)有一個(gè)初步的結(jié)果。但其顯著的缺點(diǎn)也是這個(gè),以前討論LR/xgb+boost等方法的優(yōu)缺點(diǎn)時(shí),經(jīng)常會(huì)說到,LR的變量具有清晰地解釋性,但xgb方法,經(jīng)常跑的結(jié)果莫名其妙。但是評(píng)分這類產(chǎn)品,LR的解釋性優(yōu)勢(shì)也當(dāng)然無存。但是某種意義上來說,“如非必要,勿增實(shí)體”的原則,在評(píng)分類產(chǎn)品中我個(gè)人理解是做的不太好的。經(jīng)??梢钥匆娭T多公司提供長(zhǎng)篇累牘汗牛充棟的評(píng)分產(chǎn)品。但測(cè)試起來相關(guān)性肉眼可見的高,對(duì)產(chǎn)品的增益也非常的接近。這就純屬浪費(fèi)使用方時(shí)間了。變量、標(biāo)簽、畫像與評(píng)分實(shí)際上是沒有刀琢斧砍的清晰的分界線的。與評(píng)分的差異,在于其字段名稱中,就業(yè)務(wù)上可以提供一些信息,如某字段的名稱叫做“客戶近一個(gè)月xx行為的分級(jí)”,就可以多提供一些業(yè)務(wù)上的信息,比揉成一坨的評(píng)分要稍微強(qiáng)些。畫像提供的變量,基本上可以滿足自行建模的需求了,當(dāng)然實(shí)際使用中也就會(huì)開始存在“你不知道為什么這個(gè)變量有用,但他就是有用”的情況。3.怎么去買菜在《辦法》執(zhí)行后,一開始我盼望著以后買菜,只需要找比如百行的郝芳晨、雷國(guó)軍,以及樸道的陶乾幾位厲害的老師。但實(shí)際執(zhí)行下來,基于三方數(shù)據(jù)從一開始就有的幾個(gè)痛點(diǎn),如①數(shù)據(jù)公司的數(shù)據(jù)源所提供的數(shù)據(jù),與你的客戶不可能完全重疊,即覆蓋率一定會(huì)有問題②百行樸道所覆蓋的數(shù)據(jù)源也是不斷完善,而不是已經(jīng)覆蓋了全行業(yè)的所有數(shù)據(jù)③另,每個(gè)公司策略實(shí)施的實(shí)踐是不一樣的。假如同行業(yè)的策略組都想做個(gè)“四喜丸子”,在其他公司的策略都是紅燒的做法的時(shí)候,你是攔不住本公司的策略組結(jié)合實(shí)際想做醋溜四喜丸子的。因此,在買菜之前,還是有一些流程要進(jìn)行。(1)三方數(shù)據(jù)公司的選擇針對(duì)實(shí)際原始的數(shù)據(jù)源公司,首先是有些唯一的排他性規(guī)則。即如果公司沒有客戶對(duì)其的清晰授權(quán),不接;公司與樸道百行沒有完成合作,不接。在過渡期到明年6月都截止的情況下,現(xiàn)在還去新增接入一些合規(guī)上可能有瑕疵的公司,是可能存在問題的。當(dāng)然,這部分的兩條要求其實(shí)可以簡(jiǎn)化為一條,即實(shí)際接入還是得通過百行樸道,由監(jiān)管授權(quán)的征信機(jī)構(gòu)對(duì)數(shù)據(jù)合規(guī)性進(jìn)行審查即可。(2)菜的選擇接入什么數(shù)據(jù),其實(shí)主要還是看目前策略模型執(zhí)行過程中,缺少哪些數(shù)據(jù)。這些是因公司,而且因策略實(shí)施而變化的。一個(gè)數(shù)據(jù)公司敢做這部分業(yè)務(wù),且活過三年,自有其可取之處。也不必踩高捧低。(3)數(shù)據(jù)的測(cè)試按我執(zhí)行的實(shí)際,在接入三方數(shù)據(jù)之前,是需要進(jìn)行初步的一些評(píng)估的,從流程整體最優(yōu)的角度,這也是為了減少不必要的合同簽署及流程對(duì)法務(wù)及綜合同事的壓力。這一部分也需要結(jié)合數(shù)據(jù)產(chǎn)品實(shí)際情況去做。在下面篇幅中再行展開。(4)過會(huì)、采購(gòu)、合同簽署執(zhí)行的實(shí)際中,因牽涉費(fèi)用等問題,三方數(shù)據(jù)的測(cè)試引入是需要經(jīng)過會(huì)議審議和采購(gòu)流程的。這些不同公司實(shí)際情況不同,按下不表。(5)日常對(duì)賬、開票、付款等4.科技與狠活三方數(shù)據(jù)既然作為一種“菜”,自然也存在美化造假的可能,這里稍微展開說一下幾個(gè)常規(guī)的科技與狠活。結(jié)果造假:既然談到數(shù)據(jù)測(cè)試,則數(shù)據(jù)測(cè)試就存在抽樣的問題,但抽樣的客戶,一定是貸后行為已經(jīng)表現(xiàn)了的。理論上我們需要測(cè)試回溯所以也就存在一種可能性,即利用貸后情況對(duì)三方數(shù)據(jù)的效果進(jìn)行一些’調(diào)整’。這樣的調(diào)整,其實(shí)是會(huì)讓使用方誤解產(chǎn)品的實(shí)際效果的。就實(shí)際效果而言,KS15-18的產(chǎn)品,是最令人放心的,10-15的產(chǎn)品,感覺效果一般,10以下的產(chǎn)品,又根本沒辦法寫測(cè)試報(bào)告。但是KS超過20的產(chǎn)品,就應(yīng)該開始謹(jǐn)慎。至于KS40以上的產(chǎn)品,我個(gè)人理解只有理論可能。但與單純的批評(píng)這樣的行為來說。實(shí)際上可以多想一步,既然此產(chǎn)品可以更快地發(fā)現(xiàn)客戶的貸后行為,或者基于現(xiàn)有數(shù)據(jù)能將KS做的非常高。那么反過來想,這個(gè)公司的產(chǎn)品,可能可以考慮在貸中使用。效果衰減:三方數(shù)據(jù)是存在衰減的可能性的。假如最上游的數(shù)據(jù)產(chǎn)生了變化,或者在與欺詐客戶的攻防中,欺詐團(tuán)體調(diào)整了自己的策略?;蛘邌渭兊淖约旱漠a(chǎn)品特質(zhì)、客群發(fā)生了變化;再或者就是三方數(shù)據(jù)源,基于成本考慮,在使用過一段時(shí)間后,對(duì)產(chǎn)品的上游數(shù)據(jù)源進(jìn)行了變更;都會(huì)導(dǎo)致效果的衰減。因此,三方數(shù)據(jù)也是需要定期的再次評(píng)估。三、什么是好的三方數(shù)據(jù)這部分純屬一些基礎(chǔ)概念展示掃盲,在其他的文章及其他的網(wǎng)站上,都有大量的展示,建議已經(jīng)了解的直接跳過。1.評(píng)估三方數(shù)據(jù)的流程大部分經(jīng)驗(yàn)貼中都在強(qiáng)調(diào)量化指標(biāo)的評(píng)估,但三方數(shù)據(jù)評(píng)估的上下游也直接決定評(píng)估效果。從流程上講,大體有:結(jié)合業(yè)務(wù)情況抽取樣本->提交測(cè)試流程->對(duì)產(chǎn)品進(jìn)行初步評(píng)估->通過模型對(duì)所有數(shù)據(jù)產(chǎn)品進(jìn)行綜合評(píng)估2.抽樣的注意事項(xiàng)在抽樣過程中,基于目前現(xiàn)有的,測(cè)試樣本只能支持2萬到3萬的現(xiàn)狀。建議還是有針對(duì)性的進(jìn)行選擇。選擇具體的場(chǎng)景和業(yè)務(wù),而不是雨露均沾的全隨機(jī)抽樣。至于黑樣本量的占比,目前實(shí)際會(huì)設(shè)置占比10%左右。這部分如果有同業(yè)有更好的建議,也希望斧正。3.評(píng)估在量化指標(biāo)之前,日常評(píng)估和分析的過程中,首先要對(duì)返回結(jié)果的分布進(jìn)行觀察。根據(jù)大數(shù)定律,如果抽樣整體比較均勻,不考慮黑樣本的情況下,則分?jǐn)?shù),也應(yīng)當(dāng)服從正態(tài)或者偏態(tài)分布??紤]到不良率是做的,則分?jǐn)?shù)應(yīng)當(dāng)服從一定的雙峰分布。如果分布上就比較詭異,這個(gè)產(chǎn)品可能效果也不佳。另外,盡管量化的指標(biāo)可以評(píng)估效果。但是理論上講,如果是連續(xù)的分?jǐn)?shù)評(píng)分的話,從高到低應(yīng)該有足夠的單調(diào)性,這也是在分箱的過程中就需要觀察的。如分布不佳,單調(diào)性也不佳,即使總的IV好看,也是不能使用的。如何評(píng)估一個(gè)三方數(shù)據(jù)是否優(yōu)秀,有哪些量化的指標(biāo)?數(shù)學(xué)部分建議直接翻CSDN。(1)覆蓋率三方公司提供的數(shù)據(jù)產(chǎn)品,與客群之間是存在一定的差異的。理論上講,產(chǎn)品的覆蓋率就不應(yīng)該是100%。其他量化指標(biāo)與覆蓋率需要綜合來看情況。如果覆蓋率只有40%、50%,即使IVKS較高,但可能實(shí)際使用上也有問題。(2)黑名單準(zhǔn)確度針對(duì)黑名單類產(chǎn)品。預(yù)測(cè)逾期的/實(shí)際逾期的+預(yù)測(cè)不逾期的/實(shí)際不逾期的。用來評(píng)估黑名單類產(chǎn)品好壞。(3)KSKS(Kolmogorov-Smirnov):KS用于模型風(fēng)險(xiǎn)區(qū)分能力進(jìn)行評(píng)估,指標(biāo)衡量的是好壞樣本累計(jì)分部之間的差值。

好壞樣本累計(jì)差異越大,KS指標(biāo)越大,那么模型的風(fēng)險(xiǎn)區(qū)分能力越強(qiáng)。人話:MAX(累計(jì)壞客戶–累計(jì)好客戶)。(4)WOE/IVWOE的全稱是“WeightofEvidence”,即證據(jù)權(quán)重。WOE是對(duì)原始自變量的一種編碼形式。分箱后做一些處理。pyi是這個(gè)組中響應(yīng)客戶(風(fēng)險(xiǎn)模型中,對(duì)應(yīng)的是違約客戶,總之,指的是模型中預(yù)測(cè)變量取值為“是”或者說1的個(gè)體)占所有樣本中所有響應(yīng)客戶的比例,pni是這個(gè)組中未響應(yīng)客戶占樣本中所有未響應(yīng)客戶的比例,#yi是這個(gè)組中響應(yīng)客戶的數(shù)量,#ni是這個(gè)組中未響應(yīng)客戶的數(shù)量,#yT是樣本中所有響應(yīng)客戶的數(shù)量,#nT是樣本中所有未響應(yīng)客戶的數(shù)量。人話:iv即在該分箱內(nèi),這個(gè)數(shù)據(jù)在多大的程度上解釋“現(xiàn)象”。(5)PSI檢驗(yàn)變量的穩(wěn)定性,當(dāng)一個(gè)變量的psi值大于0.0001時(shí),變量不穩(wěn)定。一個(gè)變量,將它的取值按照分位數(shù)來分組一下,每一組中測(cè)試模型的客戶數(shù)占比減去訓(xùn)練模型中的客戶數(shù)占比再乘以這兩者相除的對(duì)數(shù),就是這一組的穩(wěn)定性系數(shù)psi,然后變量的psi系數(shù)就是把這個(gè)變量的所有組的psi相加總起來。人話:這個(gè)產(chǎn)品在這個(gè)月的客戶上厲害,但是下個(gè)月會(huì)不會(huì)出現(xiàn)差異的評(píng)估。(6)貢獻(xiàn)度等在此就不做展開了以評(píng)分產(chǎn)品舉例,日常初步評(píng)估的代碼實(shí)例:—coding:utf-8—

importnumpyasnp

importpandasaspd

data_test=pd.read_excel(“”)

data_test.shape

data_()

data_test.head(10)

eda=data_test.describe()

path=”

bin=分箱數(shù)#no1.缺失及覆蓋率

miss_rate=data_test.isnull().sum()

miss_rate=miss_rate.reset_index()

miss_rate=miss_rate.rename(columns={‘index’:’varname’,0:’miss_num’})

miss_rate[‘miss_rate’]=miss_rate[‘miss_num’]/樣本量

miss_rate.to_excel(path)#no2.黑名單標(biāo)簽類的準(zhǔn)確性

verify_true=data_test[((data_test[‘blackflag’]==1)&(data_test[”]==1))|((data_test[‘blackflag’]==0)&(data_test[”]==1))]

print(verify_true.shape)#no3.整體相關(guān)性

df_new=data_test.drop([‘cust_name’,’id_no’,’mobile’,’blackflag’],axis=1)

corr=df_new.corr()

corr.to_excel(“path”)#no4.IV

defcal_iv(data,cut_num,feature,target):

data_cut=pd.qcut(data[feature],cut_num,duplicates=’drop’)

cut_group_all=data[target].groupby(data_cut).count()

cut_y=data[target].groupby(data_cut).sum()

cut_n=cut_group_all-cut_y

df=pd.DataFrame()

df[‘sum’]=cut_group_all

df[‘bad_count’]=cut_y

df[‘good_count’]=cut_n

df[‘bad_rate’]=df[‘bad_count’]/df[‘bad_count’].sum()

df[‘good_rate’]=df[‘good_count’]/df[‘good_count’].sum()

df[‘woe’]=np.log(df[‘bad_rate’]/df[‘good_rate’])

df[‘iv’]=df[‘woe’]*(df[‘bad_rate’]-df[‘good_rate’])

df.replace({np.inf:0,-np.inf:0},inplace=True)

iv=df[‘iv’].sum()

print(feature,’IV’,iv)

df.to_excel(“path/{}.xlsx”.format(feature))

return(feature,iv)

column_list=df_new.columns.tolist()

df_iv_result=[]

foriincolumn_list:

df_iv_result.append(cal_iv(data_test,bin,i,’blackflag’))

data_iv=pd.DataFrame(df_iv_result)

data_iv=data_iv.rename(columns={0:’feature’,1:’iv’})

data_iv.to_excel(“path”)#no5.KS

defcal_ks(data,cut_num,feature,target):

data_cut=pd.cut(data[feature],cut_num)

cut_group_all=data[target].groupby(data_cut).count()

cut_y=data[target].groupby(data_cut).sum()

cut_n=cut_group_all-cut_y

df=pd.DataFrame()

df[‘sum’]=cut_group_al

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論