cox風(fēng)險比例模型分析客戶流失時間_第1頁
cox風(fēng)險比例模型分析客戶流失時間_第2頁
cox風(fēng)險比例模型分析客戶流失時間_第3頁
cox風(fēng)險比例模型分析客戶流失時間_第4頁
cox風(fēng)險比例模型分析客戶流失時間_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)說工作室 www.jiay oun Cox模型分析客戶流失時間Cox模型分析客戶流失時間一、 生存分析與cox比例風(fēng)險模型11. 生存分析12. cox比例風(fēng)險模型 1二、 案例分析31. 案例說明32. SAS 實現(xiàn)33. SPSS 實現(xiàn)54. SPSS Cleme nti ne 實現(xiàn) 7一、生存分析與cox比例風(fēng)險模型1.生存分析生存分析是研究和預(yù)測生物和人的生存時間的分析方法,最初源于生物學(xué)和醫(yī)學(xué)。而“生存”可以廣義的理解為自然界、人類社會、技術(shù)過程和市場行為中某種狀態(tài)持續(xù)的時間,因 此生存分析還廣泛的應(yīng)用于工程科學(xué)、心理學(xué)、經(jīng)濟學(xué)和市場研究分析。本文要研究的,就 是客戶能夠保持購買行

2、為的時間,換言之,客戶在什么時候會流失。2. cox比例風(fēng)險模型(1) 模型基本形式 令h(t)為風(fēng)險率,是患者在t時刻仍存活,在時間t后的瞬間死亡率。=死于區(qū)間(t,t+At)的病人數(shù)h二在t時刻尚存的病人數(shù)7其中,不存在因素 X1、X2 -Xp的影響的t時刻死亡率為 如®,存在因素X1、X2 -Xp影響的t時刻死亡的風(fēng)險率為 h(t)。借助logit模型的構(gòu)造思想,cox比例風(fēng)險模型為:ln= -1X< 2X2 :pXph°(t)它的常見形式為:h(t|X)=ho(t)eX由于ho(t)是未知的,所以又稱為半?yún)?shù)模型。該模型通過建立偏似然函數(shù),使對數(shù)偏似然函數(shù)最大

3、并用最大似然法的 Newton-Raphson迭代得到參數(shù)的估計值。假設(shè)檢驗通過似然比檢驗,構(gòu)造卡方統(tǒng)計量對系 數(shù)進行檢驗。(2) 系數(shù)意義該模型的系數(shù)意義為:'i表示存在Xi因素下,死亡的風(fēng)險率是不存在Xi因素的'-i倍。:1X-'.-2X2 ' .' '-'pXp 為風(fēng)險指數(shù)(hazard index),簡稱 HI,又稱預(yù)后指數(shù)(prognosticindex)或預(yù)后得分( prog nostic score )。HI=0代表風(fēng)險處于平均水平;HI<0代表風(fēng)險處于低水平;HI>0代表風(fēng)險處于高水平。(3) 生存函數(shù)生存函數(shù)

4、S(t|x)代表一直生存至t時間的概率,即生存時間 t的累積密度函數(shù)。令它的 概率密度函數(shù)為f(t|x),那么有S(t| X)二廣 f(u | x)du h(t|x)= f(u | x) 壯,S(t | X)S(t .|S (t )泊2 bpXp)解微分方程得,S(ti) 一 -S°(ti門(4) PH假定PH假定即比例風(fēng)險假定(proportional hazards assumption),即一個比例風(fēng)險模型具有 不同個體有成比例的性質(zhì),即對于兩個協(xié)變量 X1和X2, h(t|X1)/h(t|X2)不隨時間t改變,這是由比例風(fēng)險模型的形式?jīng)Q定的。同時,它意味著二次對數(shù)生存曲線(l

5、og-log survival curves )應(yīng)該平行。即s(tj - is0(ti)xp(b1X1 b2X2bpXp)兩邊取對數(shù),兩邊對數(shù)值加上負號,再取對數(shù)log-logS(t) = log-logS0(t) + bx這是二次對數(shù)生存率,記為LML ,可以發(fā)現(xiàn),不同的LML相差只是個常 數(shù):LML1-LML2=b(x1-x2),與t無關(guān)。如下圖示的一個例子就滿足PH假定。t (year)二、案例分析1. 案例說明在成功預(yù)測了客戶流失可能性之后(參見 Logit模型預(yù)測客戶流失),電信公司對客 戶的“流失時間很感興趣”,他們想知道哪些因素會導(dǎo)致客戶在很短時間內(nèi)更換使用其他電 信服務(wù),為此,

6、隨機選取了一些客戶樣本,和他們作為客戶的時間,以及其他一些變量。數(shù) 據(jù)文件仍為telco.sav。2. SAS實現(xiàn)(1 )數(shù)據(jù)清理數(shù)據(jù)在Logit模型預(yù)測客戶流已裝入sasuser庫中,本例中直接使用。(2 )模型構(gòu)建用SAS的phreg過程構(gòu)建cox比例風(fēng)險模型,注意建模去掉一些變量,包括缺失值過多的 變量、電信專家認為不需要的變量。proc phreg data=sasuser.telco;model x2*y(0)=x3-x5 x7-x20 x26-x34 x40 x41/selection=stepwise slentry=0.05 slstay=0.1;baseline out=te

7、lout survival=s_t stderr=stderr/method=ch;run;proc print data=telout;proc gplot data=telout;plot s_t*x2;run;數(shù)說工作室 www.jiay oun (3 )生存分析 建模結(jié)果如下Model Informat ionData SetDependent Variable Cnsoring: VarIabJe Censorine Value(s) T i es Hand I t ng:SASUSER.TELCO x2x2yyBRESLOW數(shù)說工作室 www.jiay oun 數(shù)說工作室 www.

8、jiay oun Summary of the Number ofEvent and Censored ValuesTotalEventCensoredPercentCensoredWQO27472, BO模型信息顯示刪失觀測值共726個,表示尚未流失的客戶量。已刪失的觀測值不能用于 計算回歸系數(shù),但可用于計算基線風(fēng)險。模型的迭代過程一共進行 12步,最后一步保留的變量及回歸系數(shù)如下:Ana lysis of Max a finum Like h hood EstI matesYarlab eLiFVarBableLabe I)1346867904581111122233XXXXXXXXXXX

9、X-0.034730.00912U.543I0.00010.9B6-0.051460.QI01426.7B72<JGOI0.950-0.103490,045115.03710J021.947GGD.3S0G526.18027.012-0.77701Q.Hioa2B.4S100,460-0.23312115.«160<,Q0010,792-0.0417Q臨415.3764<.Q001a,959-0.611710.1447717.8540<.00010.5420.60120DJ553510.19720.Q014U6510.361570.159066.11450.0

10、2371.4360.46J230.H8373.78980.0018L5310.393230.15591S.556S0.0104L491ParametefEst i mateStandardError Chi Square Pr、ChiSqHazardRat io13468673 od. 5 8 1 1 1 1 ? ? ? 3 3 XXX耳xxxx:xxxx最終的模型包含了地址、就業(yè)、居住、設(shè)備、電話卡、longmon、equipmon、多線程、聲音、因特網(wǎng)、callid、電子賬單這幾個變量,這說明COX比例風(fēng)險模型認為這幾個變量將影響客戶流失時間?;旧媲€是平均意義上客戶預(yù)測流失時間的可視

11、化顯示,由下圖可見,55個月后曲線不在平滑,這是由于可獲取的信息變少的緣故。3. SPSS實現(xiàn)(1 )數(shù)據(jù)導(dǎo)入 由于文件telco.sav是spss文件格式,故可以直接用SPSS丁開。(2 )模型構(gòu)建選擇 analyze-survival-cox regression將tenure變量選入time框,將churn選入status框,并點擊 define event,將值1指定 為已刪失值。 Geogiflphic ridicat , Age in v«rs age I 初 $tdtu£ mdiiti iy Years At current Adc 初 Household i

12、ncome i g' Level of tducation it1-Yeartw 帕 current e it - n-?lir-?d rvli« Q Gender gendar發(fā) Number of people irToN Fiee service toll 參 Equipcnent rental e> 會 Calling card service Wireless service wi fr - L': rig di:t jriCi- I jJ n ® T ol Fiee 1st month | TimerII | Months uiHq ser

13、vice tern£tdki$:| |chm'n(1Jdefine Event. |Block. 1 orTFf I: |Next丨1age marital address ed employ9JMelhod:Foiard;Wald Strata:C ovariales:MUOKPaste數(shù)說工作室 www.jiay oun 數(shù)說工作室 www.jiay oun 再將認為需要的變量都選入covariables框中,點擊plot,勾選生存圖。(3 )生存分析數(shù)說工作室 www.jiay oun 模型一共進行12步,最后一步模型中包括的變量如下:Variables in the

14、EquationBSEWalddfSig.Exp(B)Stepaddress-.035.00914.5431.000.96612employ-.051.01025.7671.000.950reside-.103.0465.0371.025.902equip1.948.38126.1801.0007.012callcard-.777.15126.4511.000.460longmon-.233.022115.6191.000.792equipmon-.042.01115.3771.000.959multline-.612.14517.8541.000.542voice.501.15710.197

15、1.0011.651internet.362.1605.1141.0241.436callid.464.1489.7901.0021.591ebill.399.1566.5571.0101.491與SAS分析結(jié)果一致,說明 COX風(fēng)險比例模型認為地址、就業(yè)、居住、設(shè)備、電話卡、Iongmon、equipmon、多線程、聲音、因特網(wǎng)、callid、電子賬單這幾個變量將影響客戶流失時間。生存函數(shù)曲線如下:Survival Function at mean of covariates1.0-ESQ.2o.I20I30140!soI60i70數(shù)說工作室 www.jiay oun Months with

16、 service數(shù)說工作室 www.jiay oun 這仍是平均意義上的基本生存曲線,55個月后曲線不在平滑,這是由于可獲取的信息變少的緣故。4. SPSS Clementine 實現(xiàn)(1 )數(shù)據(jù)裝載將telco.sav數(shù)據(jù)裝入SPSS節(jié)點,添加過濾節(jié)點,過濾地區(qū)( region)和收入(in come) 節(jié)點以及從Iongten到wireten、從loglong至U logwire節(jié)點。再添加類型節(jié)點, 將流失(churn) 字段設(shè)置為標(biāo)志和輸出,其余均設(shè)置為輸入。(2)建模將cox建模節(jié)點連接至類型節(jié)點,生存時間選擇tenure變量,逐步法,并顯示生存和風(fēng)險散點圖(專家選項卡一一輸出一一散

17、點圖),執(zhí)行。案例處理摘要N百分比分析中可用的案例事件(a)27427.4%刪失72672.6%合計1000100.0%刪除的案例帶有缺失值的案例0.0%帶有負時間的案例0.0%層中的最早事件之前刪失的案例0.0%合計0.0%合計1000100.0%a. 因變量:Mon ths with service從案件處理摘要來看,刪失觀測值共726個,表示尚未流失的客戶量。已刪失的觀測值 不能用于計算回歸系數(shù),但可用于計算基線風(fēng)險。分類變量碼是用來解釋回歸系數(shù)的參考。它顯示了哪個分類是參考分類(虛擬變量),分類變量碼中最后一個類別是參考分類。分類變量編碼(a,b,c,d,e,f,g,h,i,j,k,l

18、,m,n,o,p,q,r)頻率(1)(s)marital(t)0=U nm arried50511=Married4950ed(t)仁Did not complete high school20410002=High school degree28701003=Some college20900104=College degree2340001分類變量編碼(a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r)頻率(1)(s)5=Post- un dergraduate degree660000retire(t)0=No9531仁Yes470gen der(t)0=Male4

19、8311=Female5170tollfree(t)0=No5261 1仁Yes4740J J模型系數(shù)的綜合測試,對模型的每一步構(gòu)建進行檢測。表中可以看出,一共進行了12步,“從上一步驟開始更改”是上一步和當(dāng)前步驟的“-2對數(shù)似然值”之差,越大表示這一步越需要。如果某一步要添加變量,則在更改的顯著性小于0.5時才可以將變量包含;如果某一步要移除變量,則在更改的顯著性大于0.1時才能進行此排除操作。模型系數(shù)的綜合測試(a,b)步驟-2倍對數(shù)似然 值整體(得分)從上一步驟開始更 改從上一塊開始更 改卡方dfSig.卡方dfSig.卡方dfSig.1(c)3392.536162.3031.00013

20、3.8281.000133.8281.0002(d)3087.314249.3922.000305.2221.000439.0502.0003(e)3027.085328.4263.00060.2291.000499.2793.0004(f)2990.790347.1974.00036.2941.000535.5744.0005(g)2973.790362.6735.00017.0001.000552.5745.0006(h)2958.796376.1406.00014.9941.000567.5686.0007(i)2945.503384.7177.00013.2931.000580.861

21、7.0008(j)2936.993417.3418.0008.5101.004589.3718.0009(k)2926.000423.9119.00010.9941.001600.3649.00010(l)2917.551428.07810.0008.4491.004608.81310.00011(m)2913.308436.83711.0004.2431.039613.05611.00012(n)2908.078440.15812.0005.2301.022618.28612.000a.起始塊編號0 ,最初的對數(shù)似然函數(shù):-2倍對數(shù)似然值:3526.364b. 起始塊編號1.方法=向前逐步(似然比)c. 在步驟編號1: callcard處輸入變量d. 在步驟編號2: Iongmon 處輸入變量在步驟編號3: equip處輸入變量數(shù)說工作室 www.jiay oun 模型系數(shù)的綜合測試(a,b)步驟整體(得分)從上一步驟開始更 改從上一塊開始更 改卡方dfSig.卡方df Sig.卡方df Sig.-2倍對數(shù)似然 值數(shù)說工作室 www.jiay oun f. 在步驟編號4: employ處輸入變量g. 在步驟編號5: mul

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論