Logistic模型及建模流程概述_第1頁
Logistic模型及建模流程概述_第2頁
Logistic模型及建模流程概述_第3頁
Logistic模型及建模流程概述_第4頁
Logistic模型及建模流程概述_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、-Logistic模型及建模流程概述1. Logistic模型介紹1.1 問題的提出在商業(yè)及金融領域中,存在這么一類問題,問題中需要被解釋的目標量通常可以用YES或者NO兩種取值來表示,如:l 賣出了商品為YES,未賣出商品為NO;l 顧客對超市的本次宣傳活動做了響應為YES,沒有任何響應為NO;l 信用卡持卡人本月逾期付款為YES,按時還款了為NO;等等;對于這類問題的分析,我們不可以采用標準的線性回歸對其進展建模分析,是因為l 目標變量的二元分布違背了線性回歸的重要假設l 模型的目標是給出一個0,1之間的概率,而標準的線性回歸模型產(chǎn)生的值是在這個圍之外1.2 Logistic模型對于上述問

2、題,我們提出了logistic模型:Logistic模型可以保證:l 值在- ¥和+ ¥之間;l 估計出來的概率值在0和1之間;l 與事件odds直接相關;l 可以很好地將問題轉化為數(shù)學問題,并且模型結果容易解釋;1.3 Logistics回歸的假設l 概率是自變量的logistics函數(shù)這樣得到的概率似乎沒有實際意義,只是反映一種趨勢,比擬大時p就會比擬大取log值得到:logodds 這樣可以線性化,我們把這模型稱為linear in the log-oddsl 模型假設:1) 沒有重要變量被忽略,不包含使得系數(shù)有偏的相關變量2) 不包含外來變量,包含的不相關變量會增加

3、參數(shù)估計的標準誤差,但是卻不會使得系數(shù)有偏。l 觀測值獨立l 自變量的觀測值沒有誤差1.4 最大似然準則拋一枚硬幣10次,結果如下:T H T T T H T T T H假設結果獨立,考慮得到的結果的概率,P(T H T T T H T T T H) = P(T)P(H)P(T)P(T)P(T)P(H)P(T)P(T)P(T)P(H)=P(H)3 1-P(H)7 ,如果我們能計算出參數(shù)P(H)的值,就能得到擲硬幣結果的概率的數(shù)值。如果我們擲硬幣的結果,如何得到P(H)的值呢.假設P=P(H),y=硬幣頭像一面朝上的次數(shù),n=擲硬幣的次數(shù)似然函數(shù)給出了擲硬幣結果的似然值,它是P的函數(shù);最大似然估

4、計指出P的最正確估計值是使得似然函數(shù)最大的值。為了簡化計算,代替最大化L(P),我們對L(P)取log值,然后取最大值,log是單調遞增函數(shù),這樣使得L(P)最大的P的值也是使得logL(P)最大的值。最大化log似然函數(shù),使:解出P值:1.5 將最大似然估計用于logistics回歸令Y=(y1,y2,y3,yn)是隨機變量Y1,Y2,Y3,.Yn的一組樣本值,然后似然函數(shù)可以寫成where,但是假設樣本值不獨立的話,此步驟就存在問題。對似然函數(shù)取log值,得:令Logistics回歸的似然等式對上式的參數(shù)取導數(shù):使上面兩式為零,解出參數(shù)的似然估計值。這些方程都是非線性的,所以利用迭代可以找

5、出答案。這個過程也有可能是不收斂的。在介紹完logistic模型后,我們開場按照數(shù)據(jù)建模的流程來對各個分析環(huán)節(jié)進展討論。2. 模型設計Model Design2.1 建模目標我們在對數(shù)據(jù)做分析之前,首先需要考慮的是構造模型的商業(yè)目的所在。比方說我們針對汽車貸款的數(shù)據(jù)進展分析,是希望能夠估計出每筆汽車貸款人可能會發(fā)生違約的概率,從而建立一個信貸審批的決策流程。如果沒有明確模型的目的和用途,模型的構建工作就難進展下去。除了明確建模商業(yè)目的外,我們還需要確定模型的實施事項。比方說構建好的模型是實驗模型,局域圍使用,還是全面推廣;模型的使用時間是多長;,這些問題都需要事先考慮清楚??偟膩碚f,我們在建模

6、分析模型之前,需要考慮好:l 我們?yōu)槭裁葱枰P?l 如何使用我們建好的模型.l 誰將使用我們的模型.l 模型什么時候需要.2.2 數(shù)據(jù)明確了建模目標之后,我們需要系統(tǒng)地整理我們的數(shù)據(jù)或者說樣本了。我們需要了解:l 我們可能可以運用的數(shù)據(jù)有哪些;l 哪些是部數(shù)據(jù)源的數(shù)據(jù),哪些是需要向客戶索取的;l 我們需要多久的數(shù)據(jù);l 數(shù)據(jù)有局部缺失怎么辦;l 如何抽取能夠代表總體的無偏樣本;l 是不是每個變量都有現(xiàn)實意義;我們還需要單獨針對目標變量進展分析。在解決*些問題的時候,目標變量并不能很容易的明確下來,我們需要根據(jù)實際的業(yè)務經(jīng)歷,將數(shù)據(jù)做一些統(tǒng)計、變換,得到建模所需的目標變量值。比方說,我們在預測

7、每位汽車貸款人發(fā)生違約的概率時,我們需要實現(xiàn)定義哪些貸款人發(fā)生過違約,那什么樣的行為才能定義為違約呢.在美國,通常定義聯(lián)系9個月以上沒有還款的行為定義為違約事件,在建模時,我們將這樣一批樣本的目標變量定義為“1,剩余樣本的目標變量定義為“0,然后再用logisitic模型對其建模分析。在建模過程之前,我們需要對抽取出來的樣本進展分成訓練集、驗證集和測試集,分別用于不同的建模分析階段。3. 解釋變量分析E*ploratory analysis3.1 變量篩選Variable Reduction在整理完我們允許使用的變量數(shù)據(jù)后,接下去的任務就是從大量的數(shù)據(jù)中找出對目標變量有解釋意義的變量來。我們可

8、以通過下述的幾個方面對變量進展分析,初步篩選。l VIP變量VIP variables在解決*些實際問題的過程中,因為業(yè)務人員對變量選擇可能有一定的要求,他們因為實際的業(yè)務需求明確規(guī)定了哪些變量必須進入模型;另外,一些有類似建模經(jīng)歷的建模人員也可能會提出模型很大可能會用到*些變量,因此我們在變量篩選時首先需要建立一個VIP變量組,該組的變量不需要經(jīng)過篩選,直接進入模型。l 無監(jiān)視的變量篩選Non-supervised variable reduction無監(jiān)視的變量篩選是指在篩選變量時不需要利用目標量信息的篩選方法。代表方法有 聚類分析 主成分分析l 有監(jiān)視的變量篩選同理,有監(jiān)視的變量篩選是指

9、需要結合目標變量的信息才能進展的篩選方法。我們一般采用的有: 相關性分析 建立回歸模型 信息值3.2 變量分析在經(jīng)過一輪變量的預篩選之后,我們需要專門針對篩選出來的變量進展更進一步的分析。4. 模型選擇Model Selection如何衡量模型是否有效.我們下面介紹幾種在實際操作中常用的判斷方法。4.1 Lift/Gains chart優(yōu)勢:a. 可以用業(yè)務語言非常容易地解釋; b. 易觀察,對商業(yè)決策有直觀的幫助劣勢:a. 無法直接用數(shù)字給出結果;b. 圖形和程度有時候會給人錯覺;4.2 KS值Kolmogorov-Smirnov Test, MAD= Sup|F_r F_n|,MAD是RO

10、C曲線之間差值的最大值。如右圖藍線就是MAD)我們通過曲線圖可以:l 對整體樣本按照轉移率進展排序;l 比擬0,1兩種取值的分布;l 確定兩種取值分布的別離度;這種方式比擬容易理解,現(xiàn)已經(jīng)廣泛運用于模型選擇分析中,SAS中的NPAR1WAY 過程步也可以直接計算出來。但是度量的效果受樣本排序方式的影響較大,*一排序區(qū)間的樣本分布也可能會對最終的結果產(chǎn)生較大的影響。一般情況下,訓練集與測試集的KS值差異不會很大,好的模型KS值一般在0.25,0.75區(qū)間。4.3 信息值即A.K.A Kullback-Liebler距離: 這種方法與KS原理類似,也可以很容易地比擬0,1兩種取值的分布,并且能夠用

11、于處理字符型變量。但是與KS值一樣,*一排序區(qū)間的樣本分布也可能會對最終的結果產(chǎn)生較大的影響;另外SAS中沒有現(xiàn)成的過程步可以產(chǎn)生這個結果。4.4 Gini系數(shù) 由意大利統(tǒng)計學家Corrado Gini在1912年提出, 它通常被定義為GINI圖中的A/(A+B)的值。Gini系數(shù)是通過0,1兩種分布的距離來衡量的,SAS里也有過程步可以直接計算,但是對于非統(tǒng)計學家來說,這個名詞較為專業(yè)了些。 的數(shù)目影響。事實上,Gini系數(shù)一般在-1,1區(qū)間,很多分析師習慣用C-value進展分析而忽略Gini系數(shù)的分析。4.5 C-value & ConcordantC-value是ROC曲線下的

12、區(qū)域:A+D。C-value與Gini系數(shù)的原理類似,通過Gini系數(shù)也可以C-value的值。C= Gini+0.5(1-Gini)一般情況下,C-value值在0,1區(qū)間,好的模型該值一般在0.60.9之間。4.6 Total variance Reduction (TVR)TVR可以衡量模型打分的排序能力,但是因為在計算時我們通常用 來代替TVR的值,所以我們得到只能是一種近似值。 在實際處理過程中,我們可能還存在一些其他的度量方式,在這里就不一一贅述了。5. 建模的后續(xù)工作當我們構建了適宜的分析模型后,我們還有一些后續(xù)工作需要完成:另外,在提交成果時我們還需將模型的設計書、代碼、變量說

13、明等材料打包一并提交,并且上報模型的更新方案。6. 參考文獻reference1 Agresti, A. (1990) Categorical Data Analysis, Wiley, Inc., New York2 Allison, P.D. (1999) Logistic Regression: Using the SAS System, SAS Institute, Cary N.C. 3 Collett, D. (1991) Modelling Binary Data, Chapman & Hall, London 4 Co*, D. R., and Snell, E.J.

14、(1989) The Analysis of Binary Data, Second Edition. Chapman & Hall, London5 Dobson, A. (1990) An Introduction to Generalized Linear Models. Chapman & Hall, London6 Fleiss, J. (1986) Statistical Methods for Rates and Proportions. Wiley, Inc., New York7 Harrell, F. (2001) Regression Modeling S

15、trategies. Springer-Verlag, New York8 Hosmer, D.W., and Lemeshow, S. (2000) Applied Logistic Regression, Second Edition, Wiley, Inc., New York 9 Klienbaum, D.G. (1994) Logistic Regression: A Self-Learning Te*t. Springer-Verlag, New York10 McCullagh, P., and Nelder, J.A. (1989) Generalized Linear Mod

16、els, Second Edition. Chapman & Hall, London 11 Menard, S. (2002) Applied Logistic Regression Analysis, Second Edition. Sage University Press, London12 Myers, R., and Montgomery, D., and Vining, G. (2002) Generalized Linear Models, Wiley, Inc., New York 13 Pampel, F. (2000) Logistic Regression: A Primer, Sage University Press, London14 Pawitan, Y. (2001) In All Likelihood: Statistical Modeling and Inference Using Likelihood, O*ford University Press, O*ford15 Pregibon, D. (1981) Logistic Regression Diagnostics

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論