基于融360數(shù)據(jù)的模型構(gòu)建及用戶貸款審批結(jié)果預(yù)測_第1頁
基于融360數(shù)據(jù)的模型構(gòu)建及用戶貸款審批結(jié)果預(yù)測_第2頁
基于融360數(shù)據(jù)的模型構(gòu)建及用戶貸款審批結(jié)果預(yù)測_第3頁
基于融360數(shù)據(jù)的模型構(gòu)建及用戶貸款審批結(jié)果預(yù)測_第4頁
基于融360數(shù)據(jù)的模型構(gòu)建及用戶貸款審批結(jié)果預(yù)測_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘課程論文基于融360數(shù)據(jù)的模型構(gòu)建及用戶貸款審批結(jié)果預(yù)測XXXX摘要本文的主要工作是運用數(shù)據(jù)挖掘的相關(guān)技術(shù)對申請貸款的客戶的大量數(shù)據(jù)進行數(shù)據(jù)挖掘,發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的隱含模式,最終得到風(fēng)險評估模型。本文的內(nèi)容主要分為數(shù)據(jù)獲取與探查、數(shù)據(jù)預(yù)處理、模型建立和結(jié)果分析與應(yīng)用四個部分。在模型建立的過程中使用了SAS企業(yè)數(shù)據(jù)挖掘模塊,基于決策樹、回歸和神經(jīng)網(wǎng)絡(luò)的方法, 充分利用已有數(shù)據(jù)建立模型, 對申請貸款客戶進行科學(xué)歸類, 從而幫助金融機構(gòu)提高對貸款信用風(fēng)險的控制能力。關(guān)鍵詞:SAS 分類技術(shù) 數(shù)據(jù)挖掘 預(yù)測 貸款風(fēng)險評估目錄:1.緒論31.1項目背景31.2文獻綜述32.數(shù)據(jù)獲取與探查52

2、.1數(shù)據(jù)獲取52.2數(shù)據(jù)簡介52.3字段說明62.4數(shù)據(jù)探查93.數(shù)據(jù)處理與建模93.1數(shù)據(jù)預(yù)處理93.2數(shù)據(jù)建模過程決策樹163.3數(shù)據(jù)建模過程神經(jīng)網(wǎng)絡(luò)183.4數(shù)據(jù)建模過程回歸203.5最佳模型選擇214.結(jié)果分析與應(yīng)用225.項目評估與收獲275.1項目改進275.2收獲28參考文獻281.緒論1.1項目背景金融是現(xiàn)代經(jīng)濟的核心,各類金融機構(gòu)則是現(xiàn)代金融的支柱。各類金融機構(gòu)在社會經(jīng)濟發(fā)展過程中, 發(fā)揮著籌集融通資金、引導(dǎo)資產(chǎn)流向、提高資金運用效率和調(diào)節(jié)社會總需求的作用。中國加入WTO后, 中外金融機構(gòu)的競爭日益激烈, 中國商業(yè)銀行必須加快改革步伐, 盡快打造自己的核心競爭力。但是中國金融

3、機構(gòu)的信貸資產(chǎn)質(zhì)量較差, 不良貸款的規(guī)模大、比例高, 嚴重阻礙中國金融業(yè)的發(fā)展。有效控制不良貸款信用風(fēng)險已經(jīng)成為中國金融機構(gòu)面對的主要課題。1.2文獻綜述目前國際銀行業(yè)對不良貸款信用風(fēng)險評估的方法主要采用的是古典分析法和多元統(tǒng)計法 1-2 。古典分析法是指銀行經(jīng)營者依賴一批訓(xùn)練有素的專家的主觀判斷對貸款人進行信用分析。多元統(tǒng)計分析的基本思想是根據(jù)歷史累積樣本建立數(shù)學(xué)模型, 并對新樣本發(fā)生某種事件的可能性進行預(yù)測的方法,具體包括線性概率模型、LOGIT法、PROBIT法以及判別分析法(MDA) 1 。巴塞爾委員會于2001 年1月公布了新巴塞爾資本協(xié)議草案, 新協(xié)議給出了兩種計量信用風(fēng)險的方法,

4、 即標準法和內(nèi)部評級法(IRB), IRB法對標準法中的風(fēng)險加權(quán)系數(shù)進行了修正。新協(xié)議允許銀行使用內(nèi)部評級方法, 使新協(xié)議的監(jiān)管規(guī)則有一定的靈活性。但目前, 金融界使用最多的兩個信用風(fēng)險評估模型是信用度量制(Credit Metrics)模型和KMV模型。Credit Metrics是J.P. Morgan于1997年開發(fā)的一種基于VAR方法的信貸風(fēng)險管理模型 3 。所謂VAR就是衡量一項資產(chǎn)或者負債在一定時間內(nèi)、在一定的置信水平下其價值的最大損益額。Credit Metrics是一種盯市(MTM)模型, 認為如果信用資產(chǎn)的信用等級發(fā)生了變化, 就產(chǎn)生了信用損失的可能性, 這種損失是多狀態(tài)的,

5、 不只是違約和不違約兩種狀態(tài)。KMV模型是KMV公司利用期權(quán)定價原理, 提出了以預(yù)期違約頻率為核心的信用風(fēng)險管理模型。KMV模型將資產(chǎn)的狀態(tài)分為違約和不違約兩種, 信用損失只發(fā)生在違約的時候。而且KMV模型有一個核心的假設(shè), 就是當(dāng)公司的資產(chǎn)價值下降到一定程度之后, 公司就會對其債務(wù)違約。由于受樣本數(shù)量限制, 國內(nèi)已有學(xué)者對信用風(fēng)險評估方法進行研究, 著重研究某一具體方法在信用風(fēng)險評估中的應(yīng)用。王春峰等 4-7 運用線性判別法、LOGIT法、遺傳規(guī)劃模型、神經(jīng)網(wǎng)絡(luò)模型, 以及距離判別法與神經(jīng)網(wǎng)絡(luò)方法相結(jié)合的組合預(yù)測法對信用風(fēng)險評估方法作了研究。施錫銓等 8 運用線性多元判別方法對上市企業(yè)的信用

6、風(fēng)險評估進行了研究, 得出評價上市企業(yè)信用風(fēng)險水平的線性判別模型。以上所述方法雖然被廣泛應(yīng)用, 但是它們只是針對某一方面如財務(wù), 進行分析建模, 不能夠充分利用有關(guān)客戶和信貸產(chǎn)品的大量且全面的信息。在信貸風(fēng)險評估中, 對信用風(fēng)險的評價, 不僅要考慮貸款者的財務(wù)能力, 還要考慮貸款者所需求產(chǎn)品的信息等各方面因素, 僅靠單一指標的評價體系不足以對信用風(fēng)險予以充分揭示。因此, 研究如何從貸款樣本數(shù)據(jù)中挖掘更豐富的信用信息, 建立更完備的信用風(fēng)險評估模型將成為一種必然。本文使用了SAS企業(yè)數(shù)據(jù)挖掘模塊,基于決策樹、回歸和神經(jīng)網(wǎng)絡(luò)的方法, 充分利用已有數(shù)據(jù)建立模型, 對申請貸款客戶進行科學(xué)歸類, 從而幫

7、助金融機構(gòu)提高對貸款信用風(fēng)險的控制能力。2.數(shù)據(jù)獲取與探查2.1數(shù)據(jù)獲取本文的實驗數(shù)據(jù)獲取于數(shù)據(jù)堂,來源于融360。融360是中國最大的網(wǎng)絡(luò)貸款平臺,平臺的一端是數(shù)億的有借款需求的小微企業(yè)和個人消費者,另一端是數(shù)萬的有貸款資金的金融機構(gòu)(銀行、小貸、擔(dān)保、典當(dāng)?shù)龋┖蛿?shù)百萬的金融產(chǎn)品,平臺通過搜索和推薦服務(wù)來撮合借款用戶和貸款。通常,用戶進入平臺后,會通過搜索和推薦服務(wù)找到合適的貸款產(chǎn)品,填寫自己的個人基本資料,最終提交貸款訂單。金融機構(gòu)通過平臺收到訂單后,對用戶資質(zhì)進行風(fēng)控審核,最終決定是否通過用戶的訂單。2.2數(shù)據(jù)簡介數(shù)據(jù)包含了user, product, quality和order四張表,

8、下面結(jié)合業(yè)務(wù)流程解釋一下四個數(shù)據(jù)的產(chǎn)生過程。第一步:用戶訪問融360網(wǎng)站搜索合適的貸款產(chǎn)品,這就產(chǎn)生了user數(shù)據(jù),它包含了用戶在網(wǎng)站的點擊、搜索和下單記錄,這里面的date字段記錄了是哪一天;第二步:用戶在提供的貸款產(chǎn)品中搜索符合自己需求的,在些產(chǎn)品保存在product數(shù)據(jù)中,包含了產(chǎn)品的申請金額、期限、申請所需的材料等信息;第三步:找到合適產(chǎn)品的用戶會在線填寫申請,這部分數(shù)據(jù)保存在quality數(shù)據(jù)中,包含了用戶的年齡、性別、職業(yè)、收入等信息;第四步:把用戶訂單提交給相應(yīng)的金融機構(gòu),金融機構(gòu)在進行風(fēng)控審核后會決定是否通過用戶的訂單,這部分數(shù)據(jù)保存在order數(shù)據(jù)中,其中包含用戶與其申請的產(chǎn)

9、品編號、訂單的申請金額和期限等基本信息以及訂單是否審核通過。具體每表的說明如下:order_train.txt:用于訓(xùn)練的訂單數(shù)據(jù)product_final.txt:產(chǎn)品相關(guān)數(shù)據(jù),包含訓(xùn)練集和測試集出現(xiàn)的所有產(chǎn)品quality_final.txt:用戶申請信息相關(guān)數(shù)據(jù),包含訓(xùn)練集和測試集出現(xiàn)的所有用戶user_final.txt:用戶訪問信息相關(guān)數(shù)據(jù),包含訓(xùn)練集和測試集出現(xiàn)的所有用戶order_test_no_label:用于測試的訂單數(shù)據(jù),與訓(xùn)練數(shù)據(jù)相比缺少最終結(jié)果標簽。2.3字段說明user表變量說明user_id用戶idpv總pvpv_inde x_loan:貸款首頁PVpv_apply

10、_total申請次數(shù)pv_ask問答頁Pvpv_calculator計算器頁PVorder_count_loan貸款下單量pv_daikuan貸款總PVpv_credit信用卡總PVpv_search_daikuan搜索頁pv_detail_daikuan貸款詳情頁PVdate不同日期product表變量說明product_id產(chǎn)品idcity_id城市idbank_id產(chǎn)品所屬機構(gòu)idproduct_type產(chǎn)品類型guarantee_type產(chǎn)品擔(dān)保類型loan_term_min最短期限loan_term_max最長期限loan_term_type期限類型decision_cycle審批時

11、間loan_cycle放款時間repayment_type還款方式loan_quota_min最小額度loan_quota_max最大額interest_rate_type利率類型guarantee_required是否必須有擔(dān)保quality表變量說明user_id用戶idcity_id城市idapplication_type申請類型application_term申請期限application_limit申請金額op_type職業(yè)類型col_type房產(chǎn)類型user_loan_experience兩年內(nèi)征信情況user_has_car是否有車user_social_security繳納社保

12、年份qid77是否有公積金cash_receipts現(xiàn)金收入user_income_by_card打卡收入user_work_period工作年限user_age用戶年齡company_type公司類型col_value房產(chǎn)價值com_op_period經(jīng)營年限com_month_flow月流水qid123文化程度qid122婚姻狀況qid135公司規(guī)模qid139居住類型qid93是否辦過營業(yè)執(zhí)照qid57能提供流水?dāng)?shù)order表變量說明user_id用戶idproduct_id產(chǎn)品iddate不同日期term申請期限limit申請金額Result0表示未被批準,1表示被批準2.4數(shù)據(jù)探查我

13、們利用SAS EM觀察到以下有關(guān)各個變量的基本統(tǒng)計指標的異常情況:偏度偏大(>5)的有:loan_term_max,loan_quota_min,loan_quota_max,limit,application_term,application_limit.缺失值過多(>50%)的有:user_age,qid93,qid78,qid135,qid133,qid123,qid122,col_has_morgage取值過于單一且集中的有:term,pv,loan_term_max,loan_quota_min,loan_quota_max,limit,fangkuan_num,dece

14、sion_cycle,apply_num3.數(shù)據(jù)處理與建模3.1數(shù)據(jù)預(yù)處理3.1.1導(dǎo)入EM之前的處理在將數(shù)據(jù)導(dǎo)入EM之前,先將四張表的數(shù)據(jù)整合到了一起,這里使用的是鏈接的方法,具體語句如下: 在這里使用了DISTINCT,是為了將重復(fù)數(shù)據(jù)去除。為了觀察數(shù)據(jù),先將數(shù)據(jù)導(dǎo)入EM中進行分析,使用INSIGHT節(jié)點,發(fā)現(xiàn)TOTAL一共含有79萬多條記錄,100多個字段。通過INPUT發(fā)現(xiàn),許多字段的缺失值比例已經(jīng)達到60%以上,有的甚至超過了95%,達到了100%。這樣的字段是毫無意義的,所以我們在后續(xù)的處理中可以直接REJECTED。另外,通過之前的觀察發(fā)現(xiàn),有些字段之間是有關(guān)聯(lián)的,比如說 EAR

15、LY_REPAYMENT字段和PENALTY字段,前者代表是否可以提前還款,后者代表提前還款是否需要交納違約金,對于后者,如果前者為0或者缺失,那么后者也就自然為缺失值,造成缺失值比例升高,同時,我們也注意到,如果采用后面的REPLACEMENT節(jié)點,使用的方法也是會產(chǎn)生歧義,因為EARLY_REPAYMENT字段為0的時候,PENALTY字段本身就是缺失的,而使用REPLACEMENT節(jié)點反而會導(dǎo)致錯誤的結(jié)果。所以在此我們通過建立一個新的字段EARLY_REPAY來代替兩個字段的含義。具體語句如下:/*去除無意義的字段PROC SQL;TITLE'SELECTION'CREA

16、TE TABLE DATA.TOTAL3 AS SELECT USER_ID,PRODUCT_ID,DATE,TERM,LIMIT,RESULT,CITY_ID,BANK_ID,PRODUCT_TYPE,GUARANTEE_TYPE,LOAN_TERM_MIN,LOAN_TERM_MAX,LOAN_TERM_TYPE,DECISION_CYCLE,REPAYMENT_TYPE,LOAN_QUOTA_MIN,LOAN_QUOTA_MAX,INTEREST_RATE_TYPE,GUARANTEE_REQUIRED,APPLY_NUM,FANGKUAN_NUM,ID,HOUSE_REGISTER,B

17、USINESS_LICENSE,LEGAL_PERSON,MARRIED,CAR,INCOME,HOUSE,TAX,SOCIALSECURITY,LIFECOST,EARLY_REPAYMENT,PENALTY,APPLICATION_TYPE,APPLICATION_TERM,APPLICATION_LIMIT,OP_TYPE,COL_TYPE,USER_LOAN_EXPERIENCE,USER_HAS_CAR,QID77,CASH_RECEIPTS,USER_INCOME_BY_CARD,USER_WORK_PERIOD,USER_AGE, QID123,QID122,QID135,QID

18、93,QID145,QID133,QID78,COL_HAS_MORTGAGE,SPAM_SCORE,SOURCE,PVFROM DATA.TOTAL;QUIT;/*對相關(guān)的字段進行處理PROC SQL;TITLE 'COMBINITION'CREATE TABLE DATA.TOTAL5 ASSELECT USER_ID,PRODUCT_ID,DATE,TERM,LIMIT,RESULT,CITY_ID,BANK_ID,PRODUCT_TYPE,GUARANTEE_TYPE,LOAN_TERM_MIN,LOAN_TERM_MAX,LOAN_TERM_TYPE,DECISION

19、_CYCLE,REPAYMENT_TYPE,LOAN_QUOTA_MIN,LOAN_QUOTA_MAX,INTEREST_RATE_TYPE,GUARANTEE_REQUIRED,APPLY_NUM,FANGKUAN_NUM,ID,HOUSE_REGISTER,BUSINESS_LICENSE,LEGAL_PERSON,MARRIED,CAR,INCOME,HOUSE,TAX,SOCIALSECURITY,LIFECOST,APPLICATION_TYPE,APPLICATION_TERM,APPLICATION_LIMIT,OP_TYPE,COL_TYPE,USER_LOAN_EXPERIE

20、NCE,USER_HAS_CAR,QID77,CASH_RECEIPTS,USER_INCOME_BY_CARD,USER_WORK_PERIOD,USER_AGE, QID123,QID122,QID135,QID93,QID145,QID133,QID78,COL_HAS_MORTGAGE,SPAM_SCORE,SOURCE,PV,CASE WHEN EARLY_REPAYMENT=0 THEN '0' WHEN EARLY_REPAYMENT=1 AND PENALTY=1 THEN '2' WHEN EARLY_REPAYMENT=1 AND PENAL

21、TY=0 THEN '1' WHEN EARLY_REPAYMENT=. OR PENALTY=. THEN '3' END AS EARLY_REPAYFROM DATA.TOTAL3;QUIT;/*對AGE缺失的記錄進行刪除DATA DATA.TOTAL6;SET DATA.TOTAL5;RUN;PROC SQL;TITLE 'DELETE'DELETE FROM DATA.TOTAL6 WHERE USER_AGE=''QUIT;解釋一下,這里做了處理以后的字段EARLY_REPAY,取值為0的時候表示不可以提前還款,取值為

22、1的時候表示可以提前還款且還款不需要支付違約金,取值為2的時候表示可以提前還款且還款需要支付違約金,取值為3的時候表示EARLY_REPAYMENT=. OR PENALTY=.。同時,我們也在這里刪除了一些對后續(xù)分析無意義的字段,比如說修改次數(shù)等,方便后續(xù)分析。處理完后的數(shù)據(jù)集為TOTAL5,將其導(dǎo)入EM進行處理。3.1.2導(dǎo)入EM后的處理整體項目圖: 數(shù)據(jù)導(dǎo)入:TOTAL5。在INPUT 后加上一個INSIGHT節(jié)點,觀察TOTAL5。 數(shù)據(jù)預(yù)處理:在INPUT SOURCE節(jié)點后一共增加了四個預(yù)處理節(jié)點。 ASAMPLE通過觀察數(shù)據(jù),發(fā)現(xiàn)到及時是處理后的TOTAL5,也是一個十分龐大的數(shù)

23、據(jù)集,所含的記錄有79萬條之多,由于我們的電腦配置有限,處理如此龐大的數(shù)據(jù)是十分困難的,所以,我們在這里使用了抽樣節(jié)點,抽取1%的樣本作為所要處理的數(shù)據(jù)。在這里,我們使用的是分層抽樣,用RESULT為0和1時分別抽樣。 BPARTITION將數(shù)據(jù)按照6:4的比例劃分訓(xùn)練集和驗證集,方便后續(xù)分析建模與驗證。CREPLACEMENTREPLACEMENT節(jié)點是用來對缺失值進行處理的。 我們對INTERVAL的變量采用決策樹的方法,對CLASS的變量采用眾數(shù)的方法。DTRAMSFORM通過對數(shù)據(jù)分布的觀察,發(fā)現(xiàn)大多數(shù)的數(shù)據(jù)都是分布不均勻,不利于后續(xù)探查,所以我們對數(shù)據(jù)進行轉(zhuǎn)化,根據(jù)最優(yōu)原則,所以采用

24、轉(zhuǎn)化方法如下: 3.2數(shù)據(jù)建模過程決策樹A.TREE 1由于在決策樹的建模過程中,缺失值的影響很小,所以直接在分層后的節(jié)點后加上TREE節(jié)點,建立模型TREE1。通過多次參數(shù)探查,最后得到相對較好的一組參數(shù)。具體參數(shù)設(shè)置如下: B.TREE 2在經(jīng)過討論后,發(fā)現(xiàn)雖然在決策樹的建模過程中,缺失值的影響很小,但這里指的是訓(xùn)練集,驗證集的缺失仍會對后續(xù)的建模產(chǎn)生影響,所以在REPLACEMENT節(jié)點后,添加TREE節(jié)點,建立模型TREE 2。通過多次參數(shù)探查,最后得到相對較好的一組參數(shù)。具體參數(shù)設(shè)置如下: C.TREE3在TRANSFORM節(jié)點后加上TREE節(jié)點,建立模型TREE3。通過多次參數(shù)探查

25、,最后得到相對較好的一組參數(shù)。具體參數(shù)設(shè)置如下: D.提升圖比較 最后發(fā)現(xiàn)TREE2的效果最好。3.3數(shù)據(jù)建模過程神經(jīng)網(wǎng)絡(luò) A.NET1在TRANSFORM后添加NET節(jié)點,建立模型NET1。經(jīng)過探查后,發(fā)現(xiàn)設(shè)置隱藏層為3效果最好。 B.NET 2在REPLACEMENT后直接添加NET節(jié)點,建立模型。經(jīng)過探查后,發(fā)現(xiàn)設(shè)置隱藏層為3效果最好。C.提升圖比對NET 2的效果更好。3.4數(shù)據(jù)建模過程回歸A.REG1在transform后添加reg節(jié)點,建立模型reg1。參數(shù)設(shè)置如下: B.REG2在replacement后添加reg節(jié)點,建立模型reg2。參數(shù)設(shè)置同上。C.提升圖比對Reg2的效果

26、更好。 3.5最佳模型選擇在所有建模節(jié)點后添加assessment節(jié)點,查看提升圖。 發(fā)現(xiàn)最好的模型是NET1。在第一個十分位點,它的精度已經(jīng)達到了51.62%。見下圖:4.結(jié)果分析與應(yīng)用經(jīng)過多次對不同方法的試探和調(diào)整,并對所有結(jié)果進行評估后,我們得到了一個相對最佳模型:模型名稱為net1的神經(jīng)網(wǎng)絡(luò)模型。下圖為net1的lift chart:與其他模型比較,在第一個十分位距上即前10%中,net1累計的百分比最高,大約51.6%的客戶申請貸款的批核結(jié)果為同意,保持著較高的數(shù)值,或陡峭的曲線;前20%中被同意申請貸款占比略大于35%,相對于基線一個隨機抽樣樣本中批核結(jié)果為同意的客戶的預(yù)計百分比,

27、net1有了顯著的提高,偏離baseline model足夠遠,然后曲線呈逐步下滑趨勢,說明該模型是可用且有效的。Net1模型的權(quán)重如下圖:通過試探,我們將隱藏層數(shù)設(shè)為3 ,得到的模型效果最好。該圖顯示了每一個變量到每一個隱藏層的連接權(quán)重,神經(jīng)網(wǎng)絡(luò)節(jié)點的隱藏層執(zhí)行非線性運算,使其功能比較強大,通過調(diào)整權(quán)重來建立不同的模型,減小誤差。Net1在不同迭代次數(shù)下的訓(xùn)練集和驗證集的誤差圖如下:該模型在迭代次數(shù)接近10時,誤差有了顯著降低,訓(xùn)練集的誤差理論上比驗證集的誤差小,擬合效果較好,訓(xùn)練時間較短。對net1模型加insight節(jié)點進行觀察分析:模型訓(xùn)練結(jié)果中的數(shù)據(jù)集多了一些變量,包括同意貸款申請的

28、概率、否定貸款申請的概率等,它通過內(nèi)部計算,得到了每個用戶id對應(yīng)的可能結(jié)果。在三千多條觀測的驗證集中,大約有13.6%的客戶能成功申請到貸款,即批核結(jié)果為同意;跟最初的訓(xùn)練樣本比較,數(shù)據(jù)占比并無太大差別。就該項目需要解決的問題而言,根據(jù)提供的用戶信息和貸款產(chǎn)品信息數(shù)據(jù)建立最佳模型,預(yù)測用于測試的訂單的批核結(jié)果,net1作為目前最好的統(tǒng)計模型,可以用測試集對其進行利用。在sas em中部分使用步驟如下:通俗地說要給這個最佳模型“打分”,使用score節(jié)點的評分代碼,對評分數(shù)據(jù)集增加預(yù)測信息。把新的訂單測試集與相關(guān)的貸款產(chǎn)品信息連接后,用net1模型去預(yù)測,哪些客戶可能申請到貸款,哪些可能會被拒

29、絕。每一個用戶對應(yīng)的觀測值(部分)如下:測試集中大約有9.5%的客戶申請貸款的要求會被同意,其他客戶申請可能會被否定。Insight的結(jié)果表給出了每個用戶申請審批的預(yù)測結(jié)果,并顯示出result=1即批核結(jié)果為同意的客戶的id等相關(guān)個人信息和貸款產(chǎn)品信息,由于該數(shù)據(jù)經(jīng)過特殊處理,申請被同意的客戶的部分特征(如:id、年齡、職業(yè)等)不具有太高的可信度和說服力,不足以形成一個直接可觀的特征群,但是本項目主要解決問題的方向是預(yù)測一批客戶的貸款申請的結(jié)果,根據(jù)模型,得出每一個user_id對應(yīng)的result為0還是1,有且只有兩種可能,即同意申請或否定申請,因此,利用net1神經(jīng)網(wǎng)絡(luò)模型生成最終的預(yù)測

30、結(jié)果即可。不僅是此次用于測試的訂單數(shù)據(jù)集,如果通過審核和檢測,該模型確實良好,那么之后所有在融360平臺上填寫的貸款申請都可利用net1神經(jīng)網(wǎng)絡(luò)模型提前進行預(yù)測金融機構(gòu)是否會對某一申請批核通過。5.項目評估與收獲5.1項目改進(1)待挖掘的數(shù)據(jù)的完整性和精確度需要提高。究其根本,一個數(shù)據(jù)挖掘項目的成功與否,很大程度上取決于待挖掘的數(shù)據(jù)集的完整性和精確度,即好的數(shù)據(jù)是成功的數(shù)據(jù)挖掘項目的起點。而我們這次項目的數(shù)據(jù),由于在獲取之前就因為涉及到其他人的隱私而被處理過,且缺失值過多,這使得數(shù)據(jù)的完整性和精確度大大降低,嚴重影響了我們后續(xù)的挖掘工作。(2)對數(shù)據(jù)的預(yù)處理與清洗需要更為細致。在本次的數(shù)據(jù)挖

31、掘項目中,源數(shù)據(jù)共有4張表,每一張表都有很多變量,而我們根據(jù)userid和productid將四張表合并為一張表后,觀測數(shù)目達到了79萬之多。如何對這79萬的龐大數(shù)據(jù)進行科學(xué)合理的預(yù)處理和清洗給我們提出了一個巨大的挑戰(zhàn)。經(jīng)過查閱資料和結(jié)合了我們自己的判斷后,我們篩選出了一部分對結(jié)果影響作用較大的變量來構(gòu)建模型。在挑選構(gòu)建模型的變量的過程中,無可避免的存在疏忽和遺漏,變量的選擇不準確可能在一定程度上對我們模型的有效性和準確性施加影響。(3)對模型的解讀能力需要提升本次數(shù)據(jù)挖掘項目最終確定的最佳模型是神經(jīng)網(wǎng)絡(luò),而我們在得到最佳模型后,缺乏對最佳神經(jīng)網(wǎng)絡(luò)模型的解讀能力。確定神經(jīng)網(wǎng)絡(luò)為最佳模型的原因是

32、我們在建模的過程中,經(jīng)過不停的試探修改后,根據(jù)提升圖來篩選出神經(jīng)網(wǎng)絡(luò)為最優(yōu)??墒窃诰唧w查看最佳神經(jīng)網(wǎng)絡(luò)模型的具體參數(shù)設(shè)置時,我們卻缺乏對其進行深入解讀的能力,這影響我們對該模型的再次改進和將之應(yīng)用于新數(shù)據(jù)的可能性。5.2收獲通過本次數(shù)據(jù)挖掘項目分析,我們的一大收獲是對利用SAS em中的決策樹、回歸、神經(jīng)網(wǎng)絡(luò)來建立模型,從而對新數(shù)據(jù)進行預(yù)測的過程有了更深的認識與感觸。我們深深意識到,一個好的模型的建立并非一蹴而就,而是在不斷的試探過程中得到的。在試探的過程中,會出現(xiàn)各種各樣未曾預(yù)期的差錯,如我們這次的挖掘項目中有一個樹的結(jié)點在參數(shù)均設(shè)置無誤的情況下仍然報錯,致使程序無法正常運行,這讓我們百思不得其解。最后迫于無奈,我們選擇了最為簡單粗暴的方法,即刪除這

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論