版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 證據(jù)權(quán)重方法在企業(yè)信用風險評估應(yīng)用 危明鑄 沈鳳山 袁峰 麥偉杰摘 要:本文以廣東省各個行政部門的企業(yè)數(shù)據(jù)為基礎(chǔ),研究了證據(jù)權(quán)重在企業(yè)信用風險等級評估中的應(yīng)用,并且根據(jù)國家“企業(yè)信用風險分類評價標準”系統(tǒng)建立了企業(yè)信用評價指標,成功地將證據(jù)權(quán)重邏輯回歸算法應(yīng)用到真實的企業(yè)信用數(shù)據(jù)集,建立企業(yè)信用風險評估模型,使得監(jiān)管部門能夠準確地掌握企業(yè)的信用情況。通過與經(jīng)典的邏輯算法比較,驗證了該方法的有效性。關(guān)鍵詞:證據(jù)權(quán)重 邏輯回歸 信用風險 企業(yè)信用:o212
2、 :a :1674-098x(2020)10(b)-0137-07abstract: based on the enterprise data of various administrative departments in guangdong province, this paper studi
3、es the application of weight of evidence in the assessment of enterprise credit risk levels, and establishes enterprise credit evaluation indicators based on the national "enterprise credit risk classification and evaluation standards". the weight-of-evidence logistic regression algorithm
4、is applied to real enterprise credit data sets to establish enterprise credit risk assessment model, enabling regulators to accurately grasp the enterprise credit situation. compared with the classical logic algorithm, the validity of the method is verified.key words: weight of evidence; logistic re
5、gression; credit risk; credit of enterprise企業(yè)信用是市場經(jīng)濟的產(chǎn)物,是對各類市場參與主體履行相應(yīng)經(jīng)濟契約的能力及其企業(yè)整體的可信程度所進行的一種綜合分析和測定,是企業(yè)的一項重要無形資產(chǎn)。隨著市場主體“寬進嚴管”改革的不斷深入,國務(wù)院相繼頒發(fā)了國務(wù)院辦公廳關(guān)于推廣隨機抽查規(guī)范事中事后監(jiān)管的通知(國辦發(fā)201558號)1、國務(wù)院關(guān)于“先照后證”改革后加強事中事后監(jiān)管的意見(國發(fā)201562號)2和國務(wù)院關(guān)于印發(fā)2016年推進簡政放權(quán)放管結(jié)合優(yōu)化服務(wù)改革工作要點的通知(國發(fā)201630號)3等相關(guān)文件,企業(yè)信用在社會經(jīng)營活動中變成一個有效的“身份證”,塑造
6、了一個企業(yè)在社會的面目和形象。針對目前市場主體規(guī)模龐大、難以把握重點監(jiān)管對象、雙隨機抽查的靶向性不強等不足,有些學者已經(jīng)發(fā)表了自己的研究成果。odom等人4早在1990年把人工神經(jīng)網(wǎng)絡(luò)應(yīng)用到企業(yè)信用風險評估上,并將其與經(jīng)典的多元回歸分析比較,實驗表明人工神經(jīng)網(wǎng)絡(luò)具有更優(yōu)越的性能;prinzie等人把邏輯回歸(logistic)引入隨機森林算法并對其進行優(yōu)化以及改進,然后將改進的算法應(yīng)用于預(yù)測公司的信用風險5;lin f等人研究隨機森林與kmv模型結(jié)合,提出將違約距離作為隨機森林的輸入,實驗表明對企業(yè)信用風險預(yù)測性能更有效6;traskin等人利用隨機森林具有篩選重要變量的特征,提出將其應(yīng)用在保
7、險公司償付判別中7;吳麗麗運用logistic回歸模型深入探討了我國商業(yè)銀行信用風險監(jiān)管的問題8;郭玉華根據(jù)微型企業(yè)的特征,運用logit模型進行實證分析,銀行可以借助該模型對微企的信用風險進行評估9;方匡南,范新妍等人指出傳統(tǒng)的logistic回歸建立企業(yè)運行風險預(yù)警模型效果不夠好,提出了基于網(wǎng)絡(luò)結(jié)構(gòu)關(guān)系的logistic模型10;楊俊等人使用gradient boosting算法對中國建設(shè)銀行上海分行的企業(yè)貸款客戶數(shù)據(jù)建立模型,并和邏輯回歸以及專家規(guī)則進行橫向比較,結(jié)果表明gradient boosting算法的模型要優(yōu)于另外兩種模型11;熊正得等人利用因子分析法對深滬a股上市的制造企業(yè)財
8、務(wù)數(shù)據(jù)構(gòu)建風險評價體系,并在違約測度階段應(yīng)用logistic回歸對不同組樣本進行測度12;劉丹等人使用證據(jù)權(quán)重、逐步回歸對信用評價指標進行篩選,構(gòu)建一套具有區(qū)分違約能力的信用風險模型13;劉麗君、韓靜磊等人運用woe法評估了生活垃圾焚燒廠固化飛灰中重金屬的非致癌健康風險,并將其與傳統(tǒng)的非致癌健康風險評價方法進行比較14;趙雅迪等人通過信息值(information value,)及證據(jù)權(quán)重轉(zhuǎn)化(weight of evidence,woe)結(jié)合邏輯回歸算法構(gòu)建用電客戶電費風險預(yù)測模型15;陳超等人采用卡方分箱法和woe編碼判別確定影響轉(zhuǎn)爐理想終點目標的關(guān)鍵工藝參數(shù),并且運用邏輯回歸算法對編碼后
9、數(shù)據(jù)構(gòu)建的轉(zhuǎn)爐操作工藝評價模型16;危明鑄等人在企業(yè)信用風險預(yù)測上綜合運用了各種機器學習算法比較各種方法的優(yōu)缺點17。本文對過去一定時期(如1年)出現(xiàn)過信用風險事件(如偷稅、行政處罰等)的企業(yè)數(shù)據(jù)集,根據(jù)國家“企業(yè)信用風險分類評價標準”系統(tǒng)建立企業(yè)信用評價指標體系。應(yīng)用機器學習方法預(yù)處理評價指標數(shù)據(jù)集,如特征選擇(information value,iv)、缺失值處理、異常值處理,并將評價指標以證據(jù)權(quán)重(weight of evidence,woe)編碼方式離散化形成woe數(shù)據(jù)集,之后結(jié)合邏輯回歸算法學習企業(yè)過去發(fā)生信用風險事件與否的規(guī)律,建模企業(yè)信用風險評分模型。1 相關(guān)技術(shù)1.
10、1 邏輯回歸邏輯回歸(logistic regression)是一種比較流行的二分類的機器學習算法。例如,探討企業(yè)信用風險與那些變量有關(guān),可將企業(yè)數(shù)據(jù)集標記為兩組,假設(shè)存在信用風險的一組企業(yè)標記為1,那么沒有信用風險的一組為0,并用y表示響應(yīng)變量,x表示自變量,邏輯回歸用(1)式表達:上面(8)式即為邏輯回歸的最后表達式,且有:,即與變量x為線性關(guān)系,而(9)式可以通過最大似然估計及梯度上升法18求解。1.2 信息價值和證據(jù)權(quán)重信息價值(information value,iv)是訓練模型之前所提取的有效的信息量,亦即提取有用的變量信息作為建模。當經(jīng)典的邏輯回歸算法用于自變量多的企業(yè)數(shù)據(jù)建立分
11、類模型時,經(jīng)常存在諸多不足。譬如變量共線比較敏感、很難擬合真實的數(shù)據(jù)分布,因此需要對自變量進行特征篩選,因此引入信息價值。iv可以根據(jù)量化指標的大小來衡量自變量的預(yù)測能力,它基于信息熵作為測量單位。信息熵用來描述“一個系統(tǒng)的混亂程度”,通常是度量樣本集合純度的一種指標。所謂“純”,就是讓分類器的一個分支擁有相同的屬性。當熵為1時,表示企業(yè)數(shù)據(jù)中某個變量趨于一個分段,此時信息價值iv較小;當熵為0時,表示企業(yè)數(shù)據(jù)中某個變量存在多個分段,此時信息價值iv較大。設(shè)x是x個企業(yè)數(shù)據(jù)樣本的集合,具有個不同的連續(xù)變量,其概率密度函數(shù)為,它的信息熵表示如下19:(10)式中e表示數(shù)學期望。由于信息熵能夠精確
12、地描述企業(yè)信用有風險與無風險樣本分布,本文將其引入企業(yè)信用風險評估中。對于給定的變量x,按照企業(yè)數(shù)據(jù)集將其分成兩部分,對應(yīng)有信用風險的數(shù)據(jù)密度概率為,對應(yīng)無信用風險的數(shù)據(jù)密度概率為,即iv值由有信用風險的數(shù)據(jù)分布與無信用風險的數(shù)據(jù)分布之比的信息熵加上無信用風險的數(shù)據(jù)分布與有信用風險的數(shù)據(jù)分布之比的信息熵20:(13)式表明woe為企業(yè)無信用風險概率與企業(yè)有信用風險概率之比取自然對數(shù)。到此,可以將(12)、(13)式寫在一起,得到iv與woe的關(guān)系式:在企業(yè)信用風險評估模型中,我們需要選擇具有好的預(yù)測能力變量,即要求信息價值值大。值越大,說明該變量對無信用風險的企業(yè)與有信用風險企業(yè)的區(qū)分度越大。
13、從(14)關(guān)系式中可知,為了使得較大,必須保證該變量的woe與分布函數(shù)具有一致性,亦即woe與企業(yè)的數(shù)據(jù)分布單調(diào)一致,否則需要根據(jù)實際業(yè)務(wù)中的情況進行具體的分析。2 建模與過程本文的企業(yè)信用風險評估使用評分卡的方式建立模型。評分卡是當前運用比較廣泛的信用風險評價方法,其原理是將評價指標以證據(jù)權(quán)重(woe)編碼方式離散化之后,再運用邏輯回歸進行模型訓練。該方法的特點為可解釋性強,模型結(jié)果穩(wěn)定。整個建模過程包括數(shù)據(jù)獲取和整合、目標確定和訓練窗口選擇、變量分段并計算信息價值、模型訓練及模型評價。2.1 數(shù)據(jù)獲取和整合根據(jù)企業(yè)該領(lǐng)域的特殊性,文本在建模中抽取以下三類變量:(1)原始變量。這
14、些變量從數(shù)據(jù)庫中提取,概括了基本情況、各類原始明細等。通常來說,這些變量易于理解,但往往不是對模型最有效的;(2)衍生業(yè)務(wù)指標。這些字段來源于原始變量,有明確業(yè)務(wù)含義(如企業(yè)過去3年被投訴舉報數(shù)量),這些變量通常比原始變量有更好地預(yù)測能力,也是評分卡最常用指標。然而,這些數(shù)據(jù)通常不自然存在于數(shù)據(jù)庫中,需要在實施階段通過計算得到;(3)衍生模型指標。這些變量由分析人員對原始數(shù)據(jù)進行多層轉(zhuǎn)換和計算,通常由其他模型計算得出(如輿情風險指數(shù)),這些變量的預(yù)測能力一般是很好的,但和衍生業(yè)務(wù)指標相比,最大的區(qū)別在于缺少簡單清晰的業(yè)務(wù)含義,由模型高度抽象后計算得出。2.2 目標確定和訓練窗口選擇針對過去出現(xiàn)
15、過信用風險事件的企業(yè),其目標變量標記為1,過去未出現(xiàn)過信用風險事件的企業(yè),其目標變量標記為0。評分卡模型是用特定時間段的數(shù)據(jù)訓練的,這個特定時間段被稱為建模窗口。選用窗口過短,企業(yè)數(shù)據(jù)在短期內(nèi)波動頻繁,容易引起模型預(yù)測結(jié)果的偏差,窗口過長則模型對企業(yè)及周圍環(huán)境的反應(yīng)容易產(chǎn)生滯后現(xiàn)象。本文以1年為上限,即模型將預(yù)測企業(yè)在未來一年內(nèi)是否發(fā)生信用風險事件的概率。2.3 變量分段并計算信息價值實際的企業(yè)信用風險數(shù)據(jù)集中變量有兩種情況,分別是定性變量和定量變量。對于類別變量,已分好段,直接計算iv值;對于連續(xù)變量和離散變量,假設(shè)將變量x2分成k段,我們需要尋找k-1分點使得woe與該變量保持單調(diào)性。必須
16、注意的是變量x2可能有多種劃分保證這種單調(diào)性,這時我們選取iv的最大值作為最優(yōu)分箱結(jié)果。分段后,設(shè)pbk、pgk分別表示變量x2第k段對應(yīng)目標變量為1(有信用風險)和0(無信用風險)的比例, 由(13)、(14)式得到:其中,有了每個分段的woek后,變量x2的信息價值的定義如下:計算完iv后,根據(jù)實際企業(yè)業(yè)務(wù)情況,選擇iv0.01的變量入模,因為iv在0.01以下的變量幾乎毫無預(yù)測能力,可舍棄。2.4 模型訓練模型的理論基礎(chǔ)為邏輯回歸算法,計算模型事件發(fā)生(本文y=1,即出現(xiàn)過信用風險事件)的概率,有(8)式展開得:這里,表示截距,為邏輯回歸中的系數(shù),由最大似然法(ml)求解,為原始變量經(jīng)轉(zhuǎn)
17、換后的woe值。模型開始訓練時,通常會選擇用逐步回歸對變量持續(xù)進行篩選,每一步都移入對模型預(yù)測能力有幫助的變量,同時移除對模型無增益的變量。除了模型本身對變量的選擇外,還考慮其它因素對變量進行選擇,如下幾項:(1)變量獨立:即共線問題。回歸中的多重共線性是一個當模型中一些預(yù)測變量與其他預(yù)測變量高度相關(guān)時發(fā)生的條件。嚴重的多重共線性可能會產(chǎn)生問題,因為它可以增大回歸系數(shù)的方差,使它們變得不穩(wěn)定。(2)變量一致性:即變量訓練出來的參數(shù)正負性,和變量與目標變量的相關(guān)系數(shù)正負性必須一致,否則說明變量有偏差,需剔除;(3)變量可解釋性:即變量及其變化趨勢是可以被業(yè)務(wù)理解和使用的,而不是完全黑盒不可解釋,
18、或者變量趨勢無業(yè)務(wù)含義。2.5 模型評價模型性能的好壞決定其在實際中的應(yīng)用效果,良好的模型會真實地反映出企業(yè)的發(fā)展趨勢。本文采用“柯爾莫哥洛夫-斯米爾諾夫曲線”和“受試者工作特征”對企業(yè)信用風險模型進行性能評價。(1)柯爾莫哥洛夫-斯米爾諾夫曲線(kolmogorov-smirnov,k-s):將總體樣本進行n等分(通常選用較大數(shù)值,如1000),并按模型計算出的違約概率降序排序,計算每一等分中信用風險事件發(fā)生的累計百分比(bad)和信用風險事件未發(fā)生的累計百分比(good),繪制出兩者的差異,驗證兩者的一致性。(2)受試者工作特征(receiver operating characteris
19、tic,roc)曲線:通過在0到1之間改變用于創(chuàng)建混淆矩陣(confusion matrix)的臨界值,繪制sensitivity(靈敏度)與1-specificity(1-特殊度)曲線。roc曲線下的面積為auc統(tǒng)計量,一般認為auc統(tǒng)計量0.75時,建立的模型具有較好的預(yù)測能力。3 實例分析3.1 數(shù)據(jù)說明與指標體系本節(jié)先根據(jù)“國家互聯(lián)網(wǎng)+監(jiān)管系統(tǒng)企業(yè)信用風險分類評價標準”建立企業(yè)信用風險指標體系,再從廣東省各個行政部門獲取過去一年內(nèi)的企業(yè)有關(guān)數(shù)據(jù)集共1000條記錄。我們隨機選擇700條記錄作為模型訓練集;剩余300條記錄作為測試集,用來驗證模型的性能及有效性。其數(shù)據(jù)格式與指標
20、體系分別如表1、表2所示。3.2 前期工作對1000條企業(yè)信用記錄,鑒于每條記錄擁有51個變量,可以考慮在建模前對了進行一些預(yù)處理工作。如下是實例分析前對數(shù)據(jù)集進行的預(yù)處理說明。(1)變量的相同率:指的是某個數(shù)據(jù)集中某個變量的值有多少個是相同的。高度一致的變量值包含的信息量少,無法區(qū)分各條記錄的差異,因此會導(dǎo)致該變量對模型的建立不起作用。本文定義變量的相同率閾值identical_limit0.9,高于0.9的變量直接刪除;(2)缺失值:這是數(shù)據(jù)挖掘建模中不可避免的步驟,造成數(shù)據(jù)缺失的原因是多方面的,文本根據(jù)企業(yè)業(yè)務(wù)情況,某變量的缺失率閾值missing_limit0.8,高于0.8的變量直接
21、刪除,其余用到如圖1的方式處理。3.3 結(jié)果分析實例分別運用經(jīng)典邏輯回歸及證據(jù)權(quán)重邏輯回歸對企業(yè)信用風險數(shù)據(jù)集建模,并在訓練集、測試集采用(kolmogorov-smirnov,k-s)、(receiver operating characteristic,roc)曲線檢驗?zāi)P偷挠行?。圖2、圖3為證據(jù)權(quán)重邏輯回歸法在訓練集、測試集的k-s、roc曲線圖。其中,圖中的虛線為訓練集、測試集的good數(shù)據(jù)(企業(yè)無信用風險)與bad(企業(yè)有信用風險)的累積概率分布,其意義表示兩個分布函數(shù)是否有差異,用p值衡量,并設(shè)置顯著水平為=0.05。這里,模型在訓練集、測試集均有,說明兩者來自同一分布。此外,k
22、-s值越大模型性能越好,而模型在訓練集、測試集中分別有k-s=0.5541、k-s=0.5404,查看表3的參考值可知,模型具有非常好的分辨力能。再者,模型在訓練集、測試集的roc曲線都有不錯的表現(xiàn),由其與橫坐標圍成的圖形面積值分別為auc=0.8279、auc=0.8097,均大于0.75,說明模型的二分類性能良好。最后,我們根據(jù)二分類的混合矩陣分析模型在預(yù)測陰性(文本為無信用風險企業(yè))和陽性(文本為有信用風險企業(yè))的單側(cè)能力,模型的混合矩陣如表4、表5所示。從表中看到模型在訓練集中識別“有信用風險”的記錄能力為88.1%,201條有風險的記錄只有24條記錄被錯誤預(yù)測為無風險;在測試集中識別
23、“有信用風險”的記錄能力為83.0%,87條有風險的記錄只有14條記錄被錯誤預(yù)測為無風險;同時,模型在上述數(shù)據(jù)集的整體準確率分別為85.6%、82.5%。圖4、圖5為經(jīng)典邏輯回歸算法在訓練集、測試集的k-s、roc曲線圖,其在訓練集和測試集k-s的值分別為0.5225、0.4306;roc中的auc值分別為0.8387、0.7667,很明顯經(jīng)典邏輯算法在訓練集上有過擬合現(xiàn)象。不論從k-s值或roc中的auc值比較,實例證明帶證據(jù)權(quán)重邏輯回歸法在企業(yè)信用風險模型評估中顯然由于經(jīng)典的邏輯回歸算法。4 結(jié)語本文基于廣東省有關(guān)行政部門的真實企業(yè)數(shù)據(jù),應(yīng)用證據(jù)權(quán)重邏輯回歸對其進行信用風險建模
24、。通過對模型的k-s值和roc中auc值作了深入分析,并與經(jīng)典的邏輯回歸做比較,實例驗證了帶證據(jù)權(quán)重邏輯回歸法在預(yù)測企業(yè)信用方面的有效性。展望未來,我們會應(yīng)用決策樹算法的信息增益結(jié)合證據(jù)權(quán)重再次探討它們在企業(yè)信用風險評估中的效果,然后做一個全面的分析、歸納。參考文獻1 國務(wù)院辦公廳關(guān)于推廣隨機抽查規(guī)范事中事后監(jiān)管的通知eb/ol.http:/2 國務(wù)院關(guān)于“先照后證”改革后加強事中事后監(jiān)管的意見eb/ol.http:/3 國務(wù)院關(guān)于印發(fā)2016年推進簡政放權(quán)放管結(jié)合優(yōu)化服務(wù)改革工作要點的通知eb/ol.http:/4 odom m d,sharda r.a neural network mod
25、el for bankruptcy predictionc/ ijcnn international joint conference on neural networks.ieee, 1990:163-168.5 prinzie a,poel d v d. random forest for multiclass classification: random multinomial logitj. working papers of faculty of economics & business administration ghent university belgium, 200
26、8,34(3):1721-1732.6 yeh c c, lin f, hsu c y. a hybrid kmv model, random forests and rough set theory approach for credit ratingj. knowledge-based systems, 2012, 33(3):166-172.7 kartasheva a v, traskin m. insurers insolvency prediction using random forest classificationj. social science electronic publishing, 2013, 10(3): 16-62.8 吳麗麗. 基于logistic回歸模型的商業(yè)銀行信用風險管理研究d.哈爾濱:哈爾濱工業(yè)大學,2007.9 郭玉華. 微型企業(yè)信用風險評估基于l
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年激光精密加工和蝕刻成套設(shè)備項目合作計劃書
- 滬教版三年級下冊數(shù)學第二單元 用兩位數(shù)乘除 測試卷【完整版】
- 2024年合成橡膠型膠粘劑項目發(fā)展計劃
- 2024戶外廣告合同樣本
- 2024年風電變流器柜體系統(tǒng)項目建議書
- 年產(chǎn)100萬套健身壺鈴擴建項目環(huán)評報告表
- 車站與區(qū)間信號培訓(高級工重點)復(fù)習測試附答案
- (世界近代史)復(fù)習測試附答案
- 2024年游戲陪玩合作協(xié)議書
- 2025年中國整體硬質(zhì)合金鉆頭行業(yè)市場規(guī)模、行業(yè)集中度及發(fā)展前景研究報告
- 2024年離婚協(xié)議書5篇(標準版)
- 電子版門窗合同范本
- 四川省宜賓市南溪區(qū)2022-2023學年七年級上學期期中歷史試題
- 2024巴黎奧運會秋季開學第一課主題班會
- 中等職業(yè)技術(shù)學校園藝技術(shù)專業(yè)建設(shè)規(guī)劃(2021-2025)
- 工業(yè)用地開發(fā)項目社會穩(wěn)定風險分析
- 《絲綢服飾文化》課件-第一講絲綢的起源與發(fā)展
- GB/T 44133-2024智能電化學儲能電站技術(shù)導(dǎo)則
- 2024年四川省內(nèi)江市中考英語試題(含答案)
- JGJ31-2003 體育建筑設(shè)計規(guī)范
- 管理學中的實證研究方法
評論
0/150
提交評論