基于svm的信用風險評估中的拒真納偽錯誤平衡控制研究_第1頁
基于svm的信用風險評估中的拒真納偽錯誤平衡控制研究_第2頁
基于svm的信用風險評估中的拒真納偽錯誤平衡控制研究_第3頁
基于svm的信用風險評估中的拒真納偽錯誤平衡控制研究_第4頁
基于svm的信用風險評估中的拒真納偽錯誤平衡控制研究_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

基于svm的信用風險評估中的拒真納偽錯誤平衡控制研究

信用風險評估是管理銀行信用風險的重要基礎工作。現(xiàn)在,國際上廣泛使用的評估模型主要包括統(tǒng)計模型和神經(jīng)網(wǎng)絡模型。在評估該模型時,我們不可避免地會犯兩個錯誤,即拒絕真和假。這兩個錯誤對銀行信貸業(yè)務的影響是很大的不同。然而,統(tǒng)計模型和神經(jīng)網(wǎng)絡模型并不能直接控制這兩個錯誤的分布,也不能影響它們在實際應用中的影響。鑒于此現(xiàn)狀,本文在統(tǒng)計學習理論的基礎上,采用了一種新的通用學習方法,即支持向量機作為銀行信用風險評估的工具,重點研究了信用風險評估中這兩個錯誤的平衡。在本文中,我們介紹了“損失比例系數(shù)”,該系數(shù)用于調(diào)整“第一和第二錯誤之間的懲罰系數(shù)的比率”。此外,本文還分析了第一個錯誤與第二個錯誤之間的經(jīng)濟意義差異,并給出了一個合理的價值范圍。實驗結(jié)果表明支持向量機可以在不同的錯誤類別上采用不同的懲罰系數(shù),從而有效控制“拒真納偽”兩類錯誤的分布.本文提出的模型較客觀地反映了信用風險評估的目的和本質(zhì),具有現(xiàn)實意義.1評估可靠風險的兩個錯誤1.1犯三類錯誤所導致的概率在統(tǒng)計學的假設檢驗中由于樣本的隨機性,在進行判斷時可能犯兩類錯誤,一是當假設H0為真時,拒絕了它,稱為犯第一類錯誤,其發(fā)生的概率或稱拒真概率,記作α=P{X∈W|H0為真}(1)其中W是一個檢驗的拒絕域.另一是當假設H0不真時,而接受了它,稱為犯第二類錯誤,其發(fā)生的概率或稱納偽概率,記作β=P{X?W|H0不真}(2)犯這兩類錯誤所造成的影響常常很不一樣.以銀行根據(jù)企業(yè)的信用度判斷是否給該企業(yè)貸款為例,原假設為H0(該企業(yè)信用較差).此時,犯第二類錯誤會使銀行損失一筆利息收入,但犯第一類錯誤可能導致所貸款項無法收回.我們希望根據(jù)歷史樣本的檢驗結(jié)果做出的預測使犯兩類錯誤的概率都盡可能小,但實際上是不可能的.由于兩類錯誤之間存在制約關系:當其它條件不變時α減小必導致β增大;反之,β減小則α增大.因此,在樣本容量一定的情況下,不能同時控制犯兩類錯誤的概率大小.在統(tǒng)計檢驗中,一般采取限制第一類錯誤的概率,即選一個正數(shù)作為α的上限,這個正數(shù)通常稱為檢驗水平或顯著水平.其他常用的解決方法是:增大樣本容量,盡量采用單邊檢測等.在實際應用時,必須根據(jù)客觀事物的背景,恰當選取合適的α或合適的β.1.2評估銀行信用風險的兩個錯誤1.2.1被商應性:“違約”企業(yè)或“法”企業(yè)構建一個適用的信用風險評估模型是商業(yè)銀行進行正常業(yè)務運轉(zhuǎn)的有力保障.我們將需要評判的企業(yè)分為:財務狀況良好,銀行對其發(fā)放貸款風險較小的企業(yè);財務狀況較差,若給予貸款,其違約的可能性較大的企業(yè).為了簡約起見,在本文中分別簡稱為“履約”企業(yè)和“違約”企業(yè).影響模型性能的主要因素之一是誤判率,即:將“違約”企業(yè)評判為“履約”企業(yè),和將“履約”企業(yè)評判為“違約”企業(yè)這兩類錯誤所引起的.根據(jù)常規(guī),本文中我們將“違約”企業(yè)評判為“履約”企業(yè)稱為第一類錯誤,將“履約”企業(yè)評判為“違約”企業(yè)稱為第二類錯誤.信用風險評估中出現(xiàn)的兩類錯誤是統(tǒng)計學中兩類錯誤在具體應用中的一種表現(xiàn),因此具有上述兩類錯誤的基本性質(zhì):由于樣本的隨機性及樣本容量的有限性,無法同時控制犯兩類錯誤的概率α和β都很小.大多數(shù)信用風險評估研究一味的強調(diào)整體的準確率,卻忽視了兩類錯誤對商業(yè)銀行信貸業(yè)務的不同影響,以至實際應用效果并不理想,因此有必要對這兩類錯誤進行深入的分析和探討.就本文所討論的問題而言,對于銀行犯第二類錯誤至多損失一筆利息收入,而犯第一類錯誤則面臨著本金無法收回的巨大風險,因此第一類錯誤的危害性要遠比第二類錯誤嚴重.Altman的研究指出:第一類錯誤造成的損失為第二類錯誤損失的20倍到60倍.兩類錯誤之間的制約關系及對實際問題的不同影響,要求我們在開發(fā)企業(yè)信用評估系統(tǒng)時,除了提高系統(tǒng)的整體評估準確率以外,還要盡可能的規(guī)避風險較大的第一類錯誤.1.2.2計算當前信用風險的一般方法和錯誤目前國際上廣泛采用的信用風險評估模型主要有統(tǒng)計模型和神經(jīng)網(wǎng)絡模型.1關于統(tǒng)計分析不足基于統(tǒng)計的判別方法中多元判別分析法(MDA)和Logit模型最受青睞.統(tǒng)計方法的引入克服了傳統(tǒng)比例分析法綜合分析能力差,定量分析不足等缺點,但也存在要求樣本數(shù)據(jù)有一定的規(guī)模、方法的可用性與建立分類模型時所需的多個假設和條件緊密相關等許多問題.如MDA就要求數(shù)據(jù)服從多元正態(tài)分布和等協(xié)方差,而現(xiàn)實中大量數(shù)據(jù)嚴重違背這些假定.因此統(tǒng)計方法在現(xiàn)實應用中很難達到理想的效果.2學習時的評估問題神經(jīng)網(wǎng)絡(NN,NeuralNetwork)是一種對樣本數(shù)據(jù)分布無任何要求的非線性技術,克服了統(tǒng)計方法的較強假設條件要求,能有效解決非正態(tài)分布、非線性的信用評估問題.但NN有其自身難以克服的缺陷,如:網(wǎng)絡結(jié)構難以確定,往往要使用試算的方法來選擇;訓練時易陷入局部極值;存在過學習與欠學習的問題;而且模型一般不具有直接可解釋性.更遺憾的是,上述傳統(tǒng)的MDA評估模型以及NN評估模型都無法直接控制兩類錯誤的分布,使其在實際應用中的效果不夠理想,而基于小樣本學習理論的通用學習算法——支持向量機(SVM,SupportVectorMachine)能夠?qū)Σ煌腻e分類型采用不同的懲罰系數(shù),從而達到控制錯分的分布,是一種較理想的評估工具.2支持向量機的信用風險評估模型2.1最優(yōu)分類面的生成SVM是針對兩類模式識別問題而提出的,它能較好地解決小樣本、非線性、高維數(shù)和局部極小點等實際問題.在線性可分情況下SVM尋找以最大間隔將兩類樣本正確分開的最優(yōu)分類超平面,對于兩類樣本分類這樣一個不適定問題,統(tǒng)計學習理論指出:最優(yōu)分類面具有最好的推廣性能.分類超平面方程的一般形式可寫為x·w+b=0,對它進行歸一化,使得對線性可分的樣本集(xi,yi),其中xi∈Rd,yi∈{+1,-1},i=1,…,n,滿足yi[(w·xi)+b]-1≥0,i=1,…,n(3)此時分類間隔等于2/‖w‖,因此使間隔最大等價于使‖w‖2最小.滿足條件(3),且使12∥w∥212∥w∥2最小的超平面叫做最優(yōu)分類超平面;使式(3)中等號成立的訓練樣本點稱作支持向量.該優(yōu)化問題還可以轉(zhuǎn)化為對偶問題,即轉(zhuǎn)化為一個不等式約束下二次函數(shù)尋優(yōu)的問題,從而存在惟一解.解上述問題后得到的最優(yōu)分類函數(shù)是f(x)=sgn{(w?xi)+b}=sgn{∑i=1nα?iyi(xi?x)+b?}(4)f(x)=sgn{(w?xi)+b}=sgn{∑i=1nαi*yi(xi?x)+b*}(4)其中,αi*為每個樣本對應的Lagrange乘子;根據(jù)Karush-Kuhn-Tucker條件,只有一部分(通常是很少部分)α*i不為零,其對應的樣本就是支持向量;b*是分類閾值,可以用任一個支持向量求得,或通過兩類中任意一對支持向量取中值求得.在樣本集線性不可分的情況下,可以在條件(3)中增加松弛項ξi≥0,使成為yi[(w·xi)+b]-1+ξi≥0i=1,…,n(5)并極小化目標函數(shù)(w,ξ)=12∥w∥2+C[∑i=1nξi](6)(w,ξ)=12∥w∥2+C[∑i=1nξi](6)即構造一個軟間隔,折衷考慮最少錯分樣本和最大分類間隔,從而得到一個廣義的最優(yōu)分類面;其中C>0是一個常數(shù),它控制對錯分樣本懲罰的程度.2.2分類函數(shù)的生成在SVM模型中,我們可以對第一類錯分和第二類錯分的樣本分別進行統(tǒng)計,因此可以針對信用風險評估中兩類錯誤間存在的差異,進一步考慮在目標函數(shù)中對它們分別采用不同的懲罰系數(shù)C1和C2(C1,C2>0),并通過對C1,C2的調(diào)整來控制兩類錯誤的分布.此時目標函數(shù)的具體表達式改為:(w,ξ)=12∥w∥2+C1∑{j:yj=?1,[(w?xj)+b]=1}ξj+C2∑{m:ym=1,[(w?xm)+b]=?1}ξm(7)(w,ξ)=12∥w∥2+C1∑{j:yj=-1,[(w?xj)+b]=1}ξj+C2∑{m:ym=1,[(w?xm)+b]=-1}ξm(7)其中C1表示第一類錯誤的懲罰系數(shù),C2表示第二類錯誤的懲罰系數(shù).對一般的復雜分類問題,可以通過一個非線性映射,將樣本數(shù)據(jù)變換到一個特征空間F,然后在這個特征空間使用線性分類器分類.一般來說,這種非線性變換比較復雜,不易實現(xiàn).但事實上,只要采用滿足Mercer條件的內(nèi)積核函數(shù)K(xi,xj)代替原空間中的內(nèi)積,就可以實現(xiàn)某一非線性變換后的線性分類,從而避開了非線性變換的具體形式.此時分類函數(shù)變?yōu)?f(x)=sgn{∑i=1nα?iyiK(xi,x)+b?}(8)f(x)=sgn{∑i=1nαi*yiΚ(xi,x)+b*}(8)3在評估可靠性風險時,對兩個錯誤的平衡3.1數(shù)據(jù)集的整理對于SVM模型,由于采用式(7)作為目標函數(shù),可將兩類錯誤之間的差異體現(xiàn)在所建立的模型中,從而控制錯分的分布.本文采用SVM作為商業(yè)銀行信用風險評估的建模工具,其具體做法是:在約束條件(5)下極小化目標函數(shù)(7),實際決策函數(shù)為式(8).我們用企業(yè)財務狀況來衡量其信用風險,根據(jù)常用的準則以及專家的建議,從償債能力、盈利能力、經(jīng)營能力3大方面來考察企業(yè)的財務狀況,并根據(jù)福建省某商業(yè)銀行提供的2003年度客戶資料,隨機抽取了270家“履約”企業(yè)與270家“違約”企業(yè),構成了一個規(guī)模為540家企業(yè)的樣本集;再從樣本集中隨機抽取50%(270家,“履約”、“違約”各135家)作為訓練樣本集,用于構造SVM模型;其余的50%(270家,“履約”、“違約”各135家)作為測試樣本集,用于檢驗模型的泛化能力,具體模型的建立可參閱文獻.在這里假設“履約”企業(yè)的類別屬性y為“1”,“違約”企業(yè)的類別屬性y為“-1”,選取適當?shù)腃1,C2來控制兩類錯誤的分布.分別對懲罰系數(shù)相同(C1=C2)及不同(C1=γ*C2,γ=1~60)的情況進行了建模,其中γ(γ>0)稱為損失比例系數(shù).根據(jù)文獻的建議,本文采用最常用的徑向基函數(shù)作為核函數(shù),具體形式如下:K(x,xi)=exp{-|x-xi|2/σ2}(9)為了更好地研究損失比例系數(shù)γ對模型性能的影響,我們經(jīng)驗地將核函數(shù)K(x,xi)的寬度參數(shù)σ2的取值固定在10,然后通過交叉驗證確定懲罰系數(shù)C1及γ的取值.本文使用了OSUSVMClassifierMatlabToolbox3.00工具包進行仿真,其中γ取1~12時兩類錯誤與模型整體準確率的變化趨勢如圖1所示(為便于作圖僅用整體錯誤率來表示模型的性能).3.2模型測試結(jié)果由圖1結(jié)合實驗數(shù)據(jù)可以看出:當不考慮兩類錯誤之間的差異,即引入相同的懲罰系數(shù)時,模型在測試樣本集上的整體準確率為89.63%,第一類錯誤率為6.30%,第二類錯誤率為4.07%,前者大于后者,因此這個模型不夠理想.調(diào)整懲罰系數(shù),隨著γ的增大,在測試樣本集上第一類錯誤逐漸減少,第二類錯誤逐漸增大;當γ增大到3時兩類錯誤基本平衡(兩類錯誤率均為4.07%),且這時模型整體準確率達到91.85%.當γ大于4時第一類錯誤率開始低于第二類錯誤率,當γ繼續(xù)增大到8時第一類錯誤率已降到3.33%.這一現(xiàn)象很好地說明:在SVM中,通過調(diào)整兩類錯分的懲罰系數(shù),確實可以控制兩類錯誤的分布率.我們還對損失比例系數(shù)為20,30,40,50,60的情況進行了測算.實驗結(jié)果表明,隨著損失比例系數(shù)γ的繼續(xù)增大,第一類錯誤進一步減小,第二類錯誤進一步增大.實際上可以通過參數(shù)的調(diào)整,控制第一類錯誤的概率達到非常小,但這時第二類錯誤率會大幅度上升,使模型的整體準確率變得很低,失去了使用的價值.考慮問題的實際應用背景,較理想的信用風險評估模型應該要盡可能地避免第一類錯誤引起的貸款損失,但同時也要考慮到第二類錯誤引起的盈利損失,畢竟盈利才是最終的目的.因此,評價一個模型的好壞應從模型在測試集上的整體準確率和第一類錯誤率兩方面來衡量,在整體準確率相當?shù)那闆r下,顯然第一類錯誤率越低越好.考察圖1中的整體錯誤率:當對第一類錯誤引入較大的懲罰系數(shù)時,整體錯誤率開始并沒有上升,反而還有少許的下降;當γ大于3時整體錯誤率開始上升,第一類錯誤率逐漸降低,綜合地考慮整體準確率和第一類錯誤率,γ取值3~8較為合適.從經(jīng)濟學意義上看,商業(yè)銀行信用風險評估中第一類錯誤的成本要遠遠高于第二類錯誤(根據(jù)Altman的研究,第一類錯誤成本是第二類錯誤成本的20~60倍).本文采用的模型在選取一個合適的損失比例系數(shù)γ時,既保證銀行進行信用風險評估時將“違約企業(yè)”誤判為“履約企業(yè)”和將“履約企業(yè)”誤判為“違約企業(yè)”的概率比較小(即整體準確率較高),又有效的控制了評估中犯第一類錯誤造成貸款本金無法收回的巨大風險;同時使犯第二類錯誤帶來的盈利損失也不致太大.當然,不同的銀行可根據(jù)自己的實力及經(jīng)營理念,選取適合本銀行發(fā)展的最佳損失比例系數(shù)γ.4svm方法的應用“拒真納偽”兩類錯誤是許多實際應用領域研究的重要問題,如何控制兩類錯

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論