Logistic模型及建模流程概述_第1頁
Logistic模型及建模流程概述_第2頁
Logistic模型及建模流程概述_第3頁
Logistic模型及建模流程概述_第4頁
Logistic模型及建模流程概述_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、Logistic模型及建模流程概述1.Logistic模型介紹1.1 問題的提出在商業(yè)及金融領(lǐng)域中,存在這么一類問題,問題中需要被解釋的目標量通??梢杂肶ES或者NO兩種取值來表示,如:。賣出了商品為YES,未賣出商品為NO;。顧客對超市的本次宣傳活動做了響應(yīng)為YES,沒有任何響應(yīng)為NO;。信用卡持卡人本月逾期付款為YES,按時還款了為NO;對于這類問題的分析,我們不可以采用標準的線性回歸對其進行建模分析,是因為。目標變量的二元分布違背了線性回歸的重要假設(shè)。模型的目標是給出一個(0,1)之間的概率,而標準的線性回歸模型產(chǎn)生的值是在這個范圍之外1.2Logistic模型對于上述問題,我們提出了l

2、ogistic模型:Pln()=為1- PiPiXiei1-PP二:iXi1 eiLogistic模型可以保證:。Xi值在-和+8之間;。估計出來的I率值在0和1之間;與事件odds(odds=p/(1p)直接相關(guān);。可以很好地將問題轉(zhuǎn)化為數(shù)學(xué)問題,并且模型結(jié)果容易解釋;1.3Logistics回歸的假設(shè)Q概率是自變量的logistics函數(shù)exp(飛:iXi:nXn)1exp(:0:iXi:nXn)這樣得到的概率似乎沒有實際意義,只是反映一種趨勢,p0+B1X+Bnx比較大時p就會比較大取log值得到:logodds這樣可以線性化,我們把這模型稱為linearinthelog-odds

3、9;.模型假設(shè):1)沒有重要變量被忽略,不包含使得系數(shù)有偏的相關(guān)變量2)不包含外來變量,包含的不相關(guān)變量會增加參數(shù)估計的標準誤差,但是卻不會使得系數(shù)有偏。觀測值獨立Q自變量的觀測值沒有誤差1.4 最大似然準則拋一枚硬幣10次,結(jié)果如下:THTTTHTTTH假設(shè)結(jié)果獨立,考慮得到的結(jié)果的概率,P(THTTTHTTTH)=P(T)P(H)P(T)P(T)P(T)P(H)P(T)P(T)P(T)P(H)=P(H)31-P(H)7,如果我們能計算出參數(shù)P(H)的值,就能得到擲硬幣結(jié)果的概率的數(shù)值。如果我們已知擲硬幣的結(jié)果,如何得到P(H)的值呢?假設(shè)P=P(H),y=硬幣頭像一面朝上的次數(shù),n=擲硬幣

4、的次數(shù)似然函數(shù)給出了擲硬幣結(jié)果的似然值,它是P的函數(shù);L(P|y)=Py(1-P)2最大似然估計指出p的最佳估計值是使得似然函數(shù)最大的值。為了簡化計算,代替最大化L(P),我們對L(P)取10g值,然后取最大值,10g是單調(diào)遞增函數(shù),這樣使得L(P)最大的P的值也是使得10g(L(P)最大的值。最大化log似然函數(shù),使:L(P|Y)=Py(1-P)n解出P值:n1.5 將最大似然估計用于logistics回歸令Y=(y1,y2,y3,yn)是隨機變量(丫1,丫2,丫3,.Yn)的一組樣本值,nwhereL(Y)二iyi(1-二i)i=1,但是假如樣本值不獨立的話,此步驟就存在P(Y=1)問題。

5、對似然函數(shù)取10g值,得:n1(Y)Tog("iyi(1-i)1yi)n='iog(i=1yii(1-二iV(1)nIi=1二.nyilog;1t)、1og1()Iii=1ji1og(;M=031-二Logistics回歸的似然等式n(。1丫)八yo洛i=1n1exp(0由)i=1對上式的參數(shù)取導(dǎo)數(shù):IL。1|Y)=J_Jexp(°Xi):0i=1ii=11.exp(10-Lx。L0,1|Y)八"x»-n;)二一1i=1i=11exp(0西)使上面兩式為零,解出參數(shù)的似然估計值。這些方程都是非線性的,所以利用迭代可以找出答案。這個過程也有可能是不

6、收斂的。在介2S完logistic模型后,我們開始按照數(shù)據(jù)建模的流程來對各個分析環(huán)節(jié)進行討論。2 .模型設(shè)計(ModelDesign)2.1 建模目標我們在對數(shù)據(jù)做分析之前,首先需要考慮的是構(gòu)造模型的商業(yè)目的所在。比如說我們針對汽車貸款的數(shù)據(jù)進行分析,是希望能夠估計出每筆汽車貸款人可能會發(fā)生違約的概率,從而建立一個信貸審批的決策流程。如果沒有明確模型的目的和用途,模型的構(gòu)建工作就難進行下去。除了明確建模商業(yè)目的外,我們還需要確定模型的實施事項。比如說構(gòu)建好的模型是實驗?zāi)P停钟蚍秶鷥?nèi)使用,還是全面推廣;模型的使用時間是多長;,這些問題都需要事先考慮清楚??偟膩碚f,我們在建模分析模型之前,需要考

7、慮好:。 我們?yōu)槭裁葱枰P???如何使用我們建好的模型?Q誰將使用我們的模型?。 模型什么時候需要?2.2 數(shù)據(jù)明確了建模目標之后,我們需要系統(tǒng)地整理我們的數(shù)據(jù)或者說樣本了。我們需要了解:。 我們可能可以運用的數(shù)據(jù)有哪些;。 哪些是內(nèi)部數(shù)據(jù)源的數(shù)據(jù),哪些是需要向客戶索取的;。 我們需要多久的數(shù)據(jù);。 數(shù)據(jù)有部分缺失怎么辦;。 如何抽取能夠代表總體的無偏樣本;。 是不是每個變量都有現(xiàn)實意義;我們還需要單獨針對目標變量進行分析。在解決某些問題的時候,目標變量并不能很容易的明確下來,我們需要根據(jù)實際的業(yè)務(wù)經(jīng)驗,將數(shù)據(jù)做一些統(tǒng)計、變換,得到建模所需的目標變量值。比方說,我們在預(yù)測每位汽車貸款人發(fā)生違

8、約的概率時,我們需要實現(xiàn)定義哪些貸款人發(fā)生過違約,那什么樣的行為才能定義為違約呢?在美國,通常定義聯(lián)系9個月以上沒有還款的行為定義為違約事件,在建模時,我們將這樣一批樣本的目標變量定義為“1”,剩余樣本的目標變量定義為“0”,然后再用logisitic模型對其建模分析。在建模過程之前,我們需要對抽取出來的樣本進行分成訓(xùn)練集、驗證集和測試集,分別用于不同的建模分析階段。3 .解釋變量分析(Exploratoryanalysis3.1 變量篩選(VariableReduction)在整理完我們允許使用的變量數(shù)據(jù)后,接下去的任務(wù)就是從大量的數(shù)據(jù)中找出對目標變量有解釋意義的變量來。我們可以通過下述的幾

9、個方面對變量進行分析,初步篩選。VVIP變量(VIPvariables)在解決某些實際問題的過程中,因為業(yè)務(wù)人員對變量選擇可能有一定的要求,他們因為實際的業(yè)務(wù)需求明確規(guī)定了哪些變量必須進入模型;另外,一些有類似建模經(jīng)驗的建模人員也可能會提出模型很大可能會用到某些變量,因此我們在變量篩選時首先需要建立一個VIP變量組,該組的變量不需要經(jīng)過篩選,直接進入模型。無監(jiān)督的變量篩選(Non-supervisedvariablereduction)無監(jiān)督的變量篩選是指在篩選變量時不需要利用目標量信息的篩選方法。代表方法有- 聚類分析- 主成分分析。有監(jiān)督的變量篩選同理,有監(jiān)督的變量篩選是指需要結(jié)合目標變量

10、的信息才能進行的篩選方法。我們一般采用的有:- 相關(guān)性分析- 建立回歸模型- 信息值在經(jīng)過一輪變量的預(yù)篩選之后,我們需要專門針對篩選出來的變量進行更進一步的分析。3.2變量分析每個變量的頻數(shù)統(tǒng)計分析每個變量與目標變量之間的關(guān)系i4.模型選擇(ModelSelection缺失值填充變量的截斷處理變量變換字符型變量的處理如何衡量模型是否有效?我們下面介紹幾種在實際操作中常用的判斷方法。4.1 Lift/Gain'schart優(yōu)勢:a.可以用業(yè)務(wù)語言非常容易地解釋;b.易觀察,對商業(yè)決策有直觀的幫助劣勢:a.無法直接用數(shù)字給出結(jié)果;b.圖形和程度有時候會給人錯覺;4.2 KS值Kolmogo

11、rov-SmirnovTest,MAD=Sup|F_r-F_n|,MAD是ROC曲線之間差值的最大值。(如右圖藍線就是MAD)我們通過曲線圖可以:Q對整體樣本按照轉(zhuǎn)移率進行排序;Q比較0,1兩種取值的分布;。確定兩種取值分布的分離度;這種方式比較容易理解,現(xiàn)已經(jīng)廣泛運用于模型選擇分析中,SAS中的NPAR1WAY過程步也可以直接計算出來。但是度量的效果受樣本排序方式的影響較大,某一排序區(qū)間的樣本分布也可能會對最終的結(jié)果產(chǎn)生較大的影響。一般情況下,訓(xùn)練集與測試集的KS值差別不會很大,好的模型KS值一般在0.25,0.75區(qū)間內(nèi)。4.3 信息值即A.K.AKullback-Liebler距離:fr

12、(s)IV=(fr(s)-fn(s)10gdsfn(s)這種方法與KS原理類似,也可以很容易地比較0,1兩種取值的分布,并且能夠用于處理字符型變量。但是與KS值一樣,某一排序區(qū)間的樣本分布也可能會對最終的結(jié)果產(chǎn)生較大的影響;另外SAS中沒有現(xiàn)成的過程步可以產(chǎn)生這個結(jié)果。4.4 Gini系數(shù)由意大利統(tǒng)計學(xué)家CorradoGini在1912年提出,它通常被定義為GINI圖中的A/(A+B)的值。Gini系數(shù)是通過0,1兩種分布的距離來衡量的,SAS里也有過程步可以直接計算,但是對于非統(tǒng)計學(xué)家來說,這個名詞較為專業(yè)了些。事實上,Gini系數(shù)一般在卜1,1區(qū)間內(nèi),很多分析師習慣用C-value進行分析

13、而忽略Gini系數(shù)的分析。4.5 C-value&ConcordantC-value是ROC曲線下的區(qū)域:A+D。八,NcConcordant=tTiesC=Concordant2tC-value與Gini系數(shù)的原理類似,通過Gini系數(shù)也可以C-value的值。C=Gini+0.5(1-Gini)ReceiverOperatingCharacteristic(ROC)Curve般情況下,C-value值在0,1區(qū)間內(nèi),好的模型該值一般在0.60.9之間。4.6 TotalvarianceReduction(TVR)1V0-VsdsTVR=0V0TVR可以衡量模型打分的排序能力,但是因

14、為在計算時我們通常用V0一:°NkZ.VkkTN0V。來代替TVR的值,所以我們得到只能是一種近似值。在實際處理過程中,我們可能還存在一些其他的度量方式,在這里就不一一贅述了。5 .建模的后續(xù)工作當我們構(gòu)建了合適的分析模型后,我們還有一些后續(xù)工作需要完成:模型后續(xù)分析模型實施模型監(jiān)控,模型險證,模型局部表現(xiàn)物證基于模型結(jié)果的商業(yè)策略“系統(tǒng)中的模型部署,數(shù)據(jù)及省型運行流程測試,系統(tǒng)中的模型效果測試,樣本穩(wěn)定性監(jiān)控,模型選取的變量監(jiān)控,定期的有效性報告另外,在提交成果時我們還需將模型的設(shè)計書、代碼、變量說明等材料打包一并提交,并且上報模型的更新計劃。6 .參考文獻(reference1

15、Agresti,A.(1990)CategoricalDataAnalysis,Wiley,Inc.,NewYork2 Allison,PD.(1999)LogisticRegression:UsingtheSASSysteSASInstitute,CaryN.C.3 Collett,D.(1991)ModellingBinaryData,Chapman&Hall,London4 Cox,D.R.,andSnell,E.J.(1989)TheAnalysisofBinaryData,SecondEdition.Chapman&Hall,London5 Dobson,A.(199

16、0)AnIntroductiontoGeneralizedLinearModelsChapman&Hall,London6 Fleiss,J.(1986StatisticalMethodsforRatesandProportionsWiley,Inc.,NewYork7 Harrell,F.(2001)RegressionModelingStrategiesSpringer-Verlag,NewYork8 Hosmer,D.W.,andLemeshow,S.(2000AppliedLogisticRegressioiSecondEdition,Wiley,Inc.,NewYork9 K

17、lienbaum,D.G.(1994)LogisticRegression:ASelf-LearningText.Springer-Verlag,NewYork10 McCullagh,R,andNelder,J.A.(1989)GeneralizedLinearModels,SecondEdition.Chapman&Hall,London11 Menard,S.(2002)AppliedLogisticRegressionAnalysisSecondEdition.SageUniversityPress,London12 Myers,R.,andMontgomery,D.,andVining,G.(2002)GeneralizedLinearModels,Wiley,Inc.,NewYork13 Pampel,F.(2000)LogisticRegression:APrimeSageUniversityPress,London14 Pawitan,Y(2001)InAllLikelihood:StatisticalModelingandInferenceUsingLikelihood,OxfordUniversityPre

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論