計(jì)數(shù)型因變量._第1頁(yè)
計(jì)數(shù)型因變量._第2頁(yè)
計(jì)數(shù)型因變量._第3頁(yè)
計(jì)數(shù)型因變量._第4頁(yè)
計(jì)數(shù)型因變量._第5頁(yè)
已閱讀5頁(yè),還剩74頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、徐睿,孫舟,崔躍中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院教材:孟生旺,回歸模型,中國(guó)人民大學(xué)出版社,2015( 2 )主要內(nèi)容主要內(nèi)容l泊松回歸模型l負(fù)二項(xiàng)回歸模型l模型擴(kuò)展l計(jì)數(shù)型變量:取值為非負(fù)整數(shù)的變量。l如保單的索賠次數(shù)、家庭的孩子數(shù)、旅游景點(diǎn)的訪問(wèn)人數(shù)等。l指數(shù)分布族中的計(jì)數(shù)型分布主要包括:l泊松分布泊松回歸模型l負(fù)二項(xiàng)分布負(fù)二項(xiàng)回歸模型( 3 )( 4 )4.1 泊松回歸泊松回歸模型模型 泊松回歸模型是假設(shè)因變量服從泊松分布的廣義線性模型,一般形式為:其中, 是泊松分布的均值, 是連接函數(shù)。Poisson( )iiTiiy g( )=ix i( )g4.1.1 泊松分布泊松分布( 5 ) 如果隨機(jī)變量

2、 Y 服從參數(shù)為 的泊松分布,則其概率密度函數(shù)可以表示為: 泊松分布的參數(shù)越大,分布形態(tài)越接近對(duì)稱分布。因此當(dāng)參數(shù)很大時(shí),可用正態(tài)分布近似計(jì)算泊松分布的概率。(), 0 , 1 , 2 , . (4.1)y- ef y; =y=y!( 6 )( 7 )注:圖中曲線為 正態(tài)分布密度函數(shù)( , )N 4.1.2 模型設(shè)定模型設(shè)定l指數(shù)分布族的密度函數(shù):l泊松分布的概率函數(shù):l有( 8 )( )( ; , )exp( ; )y -b f y =w+c y ( ; )exp lnln (1) (4.3)f yyyln ( )e( ) ( )ebbb均值方差函數(shù)l在廣義線性模型中,正則連接函數(shù)是使得 成

3、 立的函數(shù) 。l泊松分布假設(shè)下 ,所以對(duì)應(yīng)的正則連接函數(shù)就是對(duì)數(shù)連接函數(shù),即 。l泊松回歸模型的對(duì)數(shù)似然函數(shù):l當(dāng) y 取值為 0 時(shí),對(duì)數(shù)似然函數(shù)簡(jiǎn)化為( 9 )( )ggln( )lng1( ; )lnln (1)niiiiilyyy1niil l殘差偏差為:l當(dāng) y 為 0 時(shí),泊松回歸模型的偏差簡(jiǎn)化為l泊松回歸模型的Pearson 統(tǒng)計(jì)量:( 10 )112 ( , ; )( , ; )2lnln2ln()niiiiiiiniiiiiDl yylyyyyyyyy 12niiD222211()()()nniiiiiiiiyyv4.1.3 迭代加權(quán)最小二乘估計(jì)迭代加權(quán)最小二乘估計(jì)l建立泊松

4、回歸模型時(shí),通常使用對(duì)數(shù)連接函數(shù),即 ,故 。方差函數(shù)為 ,得到( 11 )( )lng( )1/gv211diagdiag()g ()()g ()()/in ni n niiiiiiniiii nwvyyWz( 12 )4.1.4 抵消項(xiàng)抵消項(xiàng)l在廣義線性模型中,如果某個(gè)解釋變量的回歸系數(shù)是已知的,就可以將其設(shè)定為抵消項(xiàng)(offset),即廣義線性模型的線性預(yù)測(cè)項(xiàng)可以表示為l使用對(duì)數(shù)連接函數(shù)時(shí),均值預(yù)測(cè)值為( 13 )offsetTiiix exp(offset )Tiiix l例:在汽車(chē)保險(xiǎn)中,索賠頻率等于索賠次數(shù) 與車(chē)年數(shù) 之比。使用對(duì)數(shù)連接函數(shù),索賠頻率模型可以表示為其中, 表示第 i

5、 個(gè)風(fēng)險(xiǎn)類別的期望索賠次數(shù); 是期望索賠頻率。 上式經(jīng)過(guò)變換,得到其中, 就是抵消項(xiàng)。雖然因變量不同,但參數(shù)估計(jì)值 完全相同。 在有抵消項(xiàng)的情況下,在索賠次數(shù)模型中引入抵消項(xiàng),等價(jià)于用車(chē)年數(shù)加權(quán)。( 14 )iyinln()Tiiin x i/iinlnlnTiiiinx lnin exp()Tiiinx 4.1.5 模型參數(shù)的解釋模型參數(shù)的解釋l假設(shè)泊松回歸模型包含 , 兩個(gè)解釋變量以及截距項(xiàng) , 的系數(shù) 的含義是什么?在正則連接函數(shù)下,l事件發(fā)生率之比(Incidence-rate ratio) 在對(duì)數(shù)連接函數(shù)下,為在 下事件發(fā)生的頻率與在 下的頻率之比,即( 15 )1x2x01x101

6、12201 122exp(1)expiiiiiyxxxx11x 1x011221101 122exp(1)exp()expiiiixxxxx的事件發(fā)生率之比4.1.6 模擬分析模擬分析l假設(shè)因變量 y 服從負(fù)二項(xiàng)分布,受4個(gè)解釋變量的影響, 和 是連續(xù)型解釋變量, 是分類解釋變量。因變量均值等于風(fēng)險(xiǎn)單位數(shù) 與平均索賠頻率的乘積:模擬的因變量服從均值為 ,方差為 的負(fù)二項(xiàng)分布。( 16 )1x2x34,x xiw1234exp( 20.450.80.30.2)iiwxxxx 22( 17 )( 18 )l補(bǔ)充:分位補(bǔ)充:分位殘差(殘差(P79)l如果因變量 是連續(xù)變量,分位殘差定義為:l如果因變

7、量 是離散變量,由于分位殘差是隨機(jī)的,故稱為隨機(jī)化分位殘差,定義為:l其中l(wèi)分位殘差和隨機(jī)化分位殘差在分布F假設(shè)正確時(shí),都服從標(biāo)準(zhǔn)正態(tài)分布。( 19 )iy1 (;, )QiiirF y iy 1Qiiru ( ,lim( ;, ); (;, )iiiiiiiiiyyuuniform a baF ybF y 4.2 負(fù)二項(xiàng)回歸模型負(fù)二項(xiàng)回歸模型l負(fù)二項(xiàng)回歸模型假設(shè)因變量服從負(fù)二項(xiàng)分布。l泊松分布:方差=均值= 負(fù)二項(xiàng)分布:方差= 均值= 當(dāng)因變量的觀察值呈現(xiàn)出方差大于均值的過(guò)離散特征時(shí),可以考慮使用負(fù)二項(xiàng)分布。l負(fù)二項(xiàng) I 型分布(使用較為廣泛)和負(fù)二項(xiàng) II 型分布,通常所說(shuō)的負(fù)二項(xiàng)分布即負(fù)

8、二項(xiàng) I 型分布。( 20 )(1)rr4.2.1 負(fù)二項(xiàng)負(fù)二項(xiàng) I 型分布型分布l本書(shū)中所說(shuō)的負(fù)二項(xiàng)分布指負(fù)二項(xiàng) I 型分布,在gamlss程序包中為NBI。l最常見(jiàn)的概率函數(shù)及參數(shù)形式之一如下:表示為指數(shù)分布族形式:知( 21 )1( ; , )(1)1ryyrf y r pppr 1( ; , )exp ln(1-)lnln1yrf y r pyprpr ln(1)1( )lnln(1)ppebrpre l負(fù)二項(xiàng)分布的均值為:l方差函數(shù)為:l離散參數(shù)為 1,故上式即為方差。l廣義線性模型主要是針對(duì)均值參數(shù)建立回歸模型,故將作為負(fù)二項(xiàng)分布的參數(shù)之一,令 ,則均值和方差分別為 和 。( 22

9、 )(1)( )1bprerpbpep 222( )(1)1( )bprrpbepppr1/ r2l負(fù)二項(xiàng)回歸模型的一般形式表示為:假設(shè)參數(shù) 對(duì)所有的觀察個(gè)體是相同的。 l在負(fù)二項(xiàng)分布假設(shè)下,正則連接函數(shù)為l概率函數(shù)為( 23 )(,)()iiTiiiyNBg x ( )ln(1)ln1gp1/(1/)1( ; ,)(1) (1/) 11yyf yy l可以表示為:l式(1)是指數(shù)分布族的自然參數(shù),但包含了兩個(gè)參數(shù),因此只有在尺度參數(shù) 已知的條件下,負(fù)二項(xiàng)分布才可以表示為指數(shù)分布族的形式。( 24 )211( ; ,)exp ln()ln()ln (1/)ln (1)ln (1/)11ln()

10、 (1)( )111( )( )ln()1f yyyybbb l負(fù)二項(xiàng)分布的對(duì)數(shù)似然函數(shù)可以表示為l殘差偏差為( 25 )1111( ; ,)ln()ln(1)ln ()ln (1)ln ()1niiiiiiilyyyy12 ( , ; )( , ; )112ln()()ln()1niiiiiiiDl yylyyyyy 4.2.2 負(fù)二項(xiàng)負(fù)二項(xiàng) II 型型分布分布l負(fù)二項(xiàng) II 型分布的概率函數(shù)為l均值為 ,方差為 。可見(jiàn)方差與均值之比為常數(shù)。l在 gamlss 中為NBII。l負(fù)二項(xiàng) II 型分布不屬于指數(shù)分布族,故只能使用極大似然法。( 26 )/(/)1( ; ,)()()(1) (/)

11、 11yyf yy ( 27 )隨著 增大,分布的右尾變長(zhǎng),且負(fù)二項(xiàng)I型分布的右尾比負(fù)二項(xiàng)II型的右尾更長(zhǎng)。( 28 )4.2.3迭代加權(quán)最小二乘估計(jì)迭代加權(quán)最小二乘估計(jì)l主要討論負(fù)二項(xiàng)I型回歸模型。l實(shí)際數(shù)據(jù)中,負(fù)二項(xiàng)回歸模型很少使用正則連接函數(shù),較長(zhǎng)使用對(duì)數(shù)連接函數(shù),即, 故有l(wèi)負(fù)二項(xiàng)分布的方差函數(shù)為 , 且l將他們代入公式得到W和Z:1( )g1( )lng2211()g ()1()g ()()/in nn niiiiiiniiii nwdiagdiagvyyWzl式4.28,在尺度參數(shù) sigma 已 知的情況下,可以表示為指數(shù)分布族的形式。因此迭代加權(quán)最小二乘法估計(jì)負(fù)二項(xiàng)回歸模型的參

12、數(shù)時(shí),必須給定 sigma的參數(shù)值。在尺度參數(shù)未知的情況下應(yīng)該使用極大似然法對(duì)回歸參數(shù)和尺度參數(shù)同時(shí)進(jìn)行估計(jì)。4.2.4模型參數(shù)的解釋模型參數(shù)的解釋l負(fù)二項(xiàng)回歸中 如果使用正則連接函數(shù),模型的參數(shù)不容易解釋,因?yàn)榫?與回歸參數(shù)之間的非線性關(guān)系難以找到與其相匹配的實(shí)際含義。此外負(fù)二項(xiàng)回歸通常需要與泊松回歸進(jìn)行比較,只有運(yùn)用相同的連接函數(shù),比較才有實(shí)際意義。因此在實(shí)際應(yīng)用中,負(fù)二項(xiàng)回歸模型通常選用對(duì)數(shù)連接函數(shù)。l不妨假設(shè)模型中包含兩個(gè)解釋變量和截距項(xiàng),在使用對(duì)數(shù)連接函數(shù)的情況下,l負(fù)二項(xiàng)回歸模直接考慮負(fù)二項(xiàng)回歸模型的預(yù)測(cè)值之差,則有l(wèi)為此與泊松回歸模型類似,可以定義事件發(fā)生率之比。在對(duì)數(shù)連接函數(shù)

13、下,事件發(fā)生率之比就是:0112201 122exp(1)expiiiiiyxxxx011221101 122exp(1)exp()expiiiixxxxx的事件發(fā)生率之比4.2.5模擬分析模擬分析l1、迭代算法l2、glm.nb函數(shù)l3、gamlss函數(shù)1迭代算法迭代算法2、glm.nb函數(shù)函數(shù)lMASS包,建立負(fù)二項(xiàng)回歸模型,比glm函數(shù)增加了對(duì)負(fù)二項(xiàng)回歸參數(shù)theta的估計(jì),glm 中沒(méi)有負(fù)二項(xiàng)回歸的參數(shù)選項(xiàng)。因?yàn)樵趨?shù)未知的情況下不能表示成指數(shù)分布族,所以要用glm.nb函數(shù)來(lái)估計(jì)。估計(jì)時(shí)采用迭代的方法對(duì)對(duì)數(shù)似然函數(shù)進(jìn)行估計(jì)。使均值mu和theta均達(dá)到收斂,估計(jì)出參數(shù)beta。Glm

14、函數(shù)中參數(shù)函數(shù)中參數(shù)lBinomiallGaussianlGammalInverse.gaussianlPoissonlQuasilQuasibinomiallQuasipoisson三種結(jié)果比較三種結(jié)果比較迭代法估計(jì):給定sigmaGlm.nb函數(shù)結(jié)果:Gamlss函數(shù)估計(jì)結(jié)果:012345-3-1123Against Fitted ValuesFitted ValuesQuantile Residuals0100300500-3-1123Against indexindexQuantile Residuals-4-20240.00.10.20.30.4Density EstimateQua

15、ntile. ResidualsDensity-3-2-10123-3-1123Normal Q-Q PlotTheoretical QuantilesSample Quantiles泊松分布的擬合效果泊松分布的擬合效果與負(fù)二項(xiàng)與負(fù)二項(xiàng)II型回歸模型比較型回歸模型比較4.3模型擴(kuò)展模型擴(kuò)展l廣義負(fù)二項(xiàng)模型l泊松逆高斯分布l零截?cái)鄶?shù)據(jù)l零膨脹數(shù)據(jù)幾個(gè)常見(jiàn)混合模型的均值和方差幾個(gè)常見(jiàn)混合模型的均值和方差l廣義負(fù)二項(xiàng)分布適合擬合過(guò)離散數(shù)據(jù)4.3.1廣義負(fù)二項(xiàng)回歸模型廣義負(fù)二項(xiàng)回歸模型GNBl廣義負(fù)二項(xiàng)分布是泊松分布和伽瑪分布的混合。l概率函數(shù)表示為:l廣義負(fù)二項(xiàng)分布不僅包括負(fù)二項(xiàng)分布的兩個(gè)參數(shù)均值參

16、數(shù)和過(guò)離散參數(shù),而且在方差中引入另一個(gè)參數(shù)p,解決過(guò)離散問(wèn)題時(shí)有較大的靈活性。121212121212()( ; , )()()(1) ()pppypppyf ypy l廣義負(fù)二項(xiàng)分布均值為 ,方差是均值的p次冪函數(shù),且大于均值。l當(dāng)p=2,廣義負(fù)二項(xiàng)分布退化為負(fù)二項(xiàng)I型分布;l當(dāng)p=1,廣義負(fù)二項(xiàng)分布退化為負(fù)二項(xiàng)II型分布。隨著隨著p值得增大,尾部概率變大值得增大,尾部概率變大0246810GNB( mu=3,sigma=0.5,p= 1 )0.000.100.200246810GNB( mu=3,sigma=0.5,p= 1.5 )0.000.100.200246810GNB( mu=3,

17、sigma=0.5,p= 2 )0.000.100.200246810GNB( mu=3,sigma=0.5,p= 2.5 )0.000.100.20廣義負(fù)二項(xiàng)分布的模型廣義負(fù)二項(xiàng)分布的模型l廣義負(fù)二項(xiàng)回歸模型的一般形式可以表示如下:l假設(shè)參數(shù) 和 對(duì)所有的觀測(cè)個(gè)體是相同的l該模型可以推廣到更加一般的形式,令不同的觀察具有不同的參數(shù) 和 ,且將他們表示為解釋變量的函數(shù)。(, )()iiTiiiyGNBpg x pp負(fù)二項(xiàng)分布模型參數(shù)估計(jì)負(fù)二項(xiàng)分布模型參數(shù)估計(jì)l負(fù)二項(xiàng)模型不屬于指數(shù)分布族假設(shè)下的廣義線性模型,所以估計(jì)模型參數(shù)不能使用第二章的迭代加權(quán)最小二乘估計(jì),通常使用極大似然法。4.3.2泊松

18、泊松逆高斯回歸模型逆高斯回歸模型PIGl泊松逆高斯分布的概率密度函數(shù):1/1/21/2( )2( ; ,)()()!yyyeKf yy 221/2 / 11011( )exp()22Ktxt xxdxl給定均值和方差的條件下,逆高斯分布比伽瑪分布的右尾更長(zhǎng)012345678910負(fù)二項(xiàng)分布泊松逆高斯分布0.000.050.100.150.200.250.30泊松泊松逆高斯回歸的一般形式逆高斯回歸的一般形式l如果令不同的觀察個(gè)體具有不同的參數(shù),且將他們表示為解釋變量的函數(shù),可以得到更一般的泊松逆高斯回歸l泊松逆高斯與負(fù)二項(xiàng)的比較:(,)()iiTiiiyPIGg x 4.3.3零截?cái)嗷貧w模型零截

19、斷回歸模型l計(jì)數(shù)因變量的一種常見(jiàn)形式是沒(méi)有零值,這種數(shù)據(jù)稱為零截?cái)鄶?shù)據(jù),因變量是零截?cái)嗟挠?jì)數(shù)數(shù)據(jù),相應(yīng)的回歸模型稱作零截?cái)嗷貧w模型。l比較常用的兩種零截?cái)嗄P停?零截?cái)嗖此苫貧w模型 零截?cái)嘭?fù)二項(xiàng)回歸模型 不屬于指數(shù)分布族假定下的廣義線性模型,使用極大似然法進(jìn)行估計(jì)。零截?cái)嗖此苫貧w零截?cái)嗖此苫貧wl泊松分布密度函數(shù)為:l零截?cái)嗖此煞植嫉母怕屎瘮?shù)表示為:(), 0 , 1 , 2 , . y- ef y; =y=y!( ;|0)(1) !yef yyeyl零截?cái)嗖此煞植嫉膶?duì)數(shù)似然函數(shù)可以表示為:l把均值表示為解釋變量的函數(shù):l零截?cái)嗖此苫貧w模型的對(duì)數(shù)似然函數(shù)為:( ;|0)lnln (1)ln(1)

20、ly yyyeexp()Tiix( ;|0)( ()exp()ln (1)ln(1 exp exp(exp()TTTiiily yy xxyx零截?cái)嘭?fù)二項(xiàng)回歸模型零截?cái)嘭?fù)二項(xiàng)回歸模型l負(fù)二項(xiàng)分布的密度函數(shù):l取零值的概率為l零截?cái)嘭?fù)二項(xiàng)分布的概率函數(shù)是:1/(1/)1( ; ,)(1) (1/) 11yyf yy 1/(1)( ; )( ;|0)1( ; )NBNBfyf yyfy1/1/(1/)11(1) (1/) 111 (1)yyyl零截?cái)嘭?fù)二項(xiàng)分布的對(duì)數(shù)似然函數(shù)為:l令 ,則零截?cái)嘭?fù)二項(xiàng)回歸模型的對(duì)數(shù)似然函數(shù)可以表示為:l 表示負(fù)二項(xiàng)分布的對(duì)數(shù)似然函數(shù)l在此事極大化條件下,可求得零截?cái)?/p>

21、負(fù)二項(xiàng)回歸模型的參數(shù)估計(jì)值1/( ;|0)ln1 (1)NBly ylexp()Tiix1/( ;|0)ln1 (1exp()TNBily ylxNBl建立零截?cái)嗄P徒⒘憬財(cái)嗄P蚻Gen.trun函數(shù)用來(lái)生成gamlss分布族中的分布對(duì)應(yīng)的零截?cái)喾植糽Gen.trun函數(shù)介紹:lgen.trun(par = c(0), family = NO, name = tr, type = c(left, right, both), varying = FALSE,.)lgen.trun(par=c(0),family=PO,type=left)lmod7=gamlss(yx1+x2+x3+x4,da

22、ta=dt1,family=POtr,mu.link=log)4.3.4 零膨脹回歸模型零膨脹回歸模型l當(dāng)假設(shè)因變量服從零膨脹分布時(shí),相應(yīng)的回歸模型就是零膨脹回歸模型,常用的零膨脹回歸模型包括零膨脹泊松回零膨脹泊松回歸歸和零膨脹負(fù)二項(xiàng)回歸零膨脹負(fù)二項(xiàng)回歸。l零膨脹分布也是一種混合分布。假設(shè)K是一個(gè)隨機(jī)變量,服從泊松分布或負(fù)二項(xiàng)分布,Y服從與其對(duì)應(yīng)的零膨脹分布,則概率函數(shù)可以表示為:( 57 )(1)(0),0( )(1)( ),1,2,3KYKpp fyfyp fyy(01)( )KKppfy式中稱作零膨脹參數(shù);表示隨機(jī)變量的概率函數(shù)1. 零膨脹泊松回歸零膨脹泊松回歸l當(dāng)K服從泊松分布時(shí),表示

23、為零膨脹泊松分布零膨脹泊松分布(ZIP);當(dāng)K服從負(fù)二項(xiàng)分布時(shí),表示為零膨脹負(fù)二項(xiàng)分布零膨脹負(fù)二項(xiàng)分布(ZINB)。l泊松分布的概率函數(shù):l所以零膨脹泊松分布的概率函數(shù)可以表示為:l零膨脹泊松分布的均值和方差分別為:( 58 )( ; ),0,1,2,3,!yYefyyy(1),0( ; , )(1),1,2,3!yYpp eyfypepyy( )(1)( )1( )E YpVarYE YE Yl零膨脹泊松分布方差大于均值,具有過(guò)離散特征過(guò)離散特征。l零膨脹泊松回歸模型有兩個(gè)參數(shù),一個(gè)均值參數(shù),一個(gè)零膨脹參數(shù)。在零膨脹泊松回歸模型中,通常假設(shè)零膨脹概率p取固定值,即對(duì)所有觀察值相同,僅對(duì)泊松參

24、數(shù)泊松參數(shù)建立回歸模型。l對(duì)數(shù)連接函數(shù),第i個(gè)觀察值的泊松參數(shù)表示為:l為了保證零膨脹概率在(0,1)之間,可以進(jìn)行l(wèi)ogit變化,即令( 59 )exp()Tiix1logit( )ln11appappel零膨脹泊松回歸模型的對(duì)數(shù)似然函數(shù)可以表示為:l在極大化上式的條件下,即可求得零膨脹泊松回歸模型參數(shù)估計(jì)值。( 60 )00(0)(0)(0)=ln(1)exp()(0)=ln(1)ln()ln (1)11exp()iiZIPZIPiZIPiZIPiiyZIPiiiiiyaTiiyyyppypyypex其中:2. 零膨脹負(fù)二項(xiàng)回歸零膨脹負(fù)二項(xiàng)回歸l假設(shè)隨機(jī)變量K服從負(fù)二項(xiàng)分布,則Y服從零膨脹

25、負(fù)二項(xiàng)分布,負(fù)二項(xiàng)分布概率密度函數(shù)表示為:l負(fù)二項(xiàng)分布在零點(diǎn)的概率為:l零膨脹負(fù)二項(xiàng)分布概率函數(shù)可以表示為:( 61 )1/111( ; ,)11yKyfyy 1/11/(1) 1,0( ; , , )(1)( ; ,),1,2,3YKppyfypp fyy l零膨脹負(fù)二項(xiàng)分布的均值和方差分別為:l零膨脹負(fù)二項(xiàng)分布的方差大于其均值,具有過(guò)離散特征。l假設(shè)負(fù)二項(xiàng)分布的參數(shù) 和零膨脹參數(shù)都是固定值,對(duì)所有觀察個(gè)體都是相同的,且僅對(duì)負(fù)二項(xiàng)分布的均值參數(shù)建立回歸模型,使用對(duì)數(shù)連接函數(shù),則零膨脹負(fù)二項(xiàng)回歸模型對(duì)數(shù)似然函數(shù)可以表示為:( 62 )( )(1)( )1(1)( )E YpVarYE YE Y

26、(0)(0)ZINBZINBiZINBiyy( 63 )l在極大化上式的條件下,即可求得零膨脹負(fù)二項(xiàng)回歸模型的參數(shù)估計(jì)值。1/01110(0)(0)(0)=ln(1) 1ln(1)ln()()ln(1)(0)=ln ()ln (1)ln ()11exp()iiZINBZINBiZINBiZINBiiyiiiiZINBiyiiaTiiyyypppyyyyypex其中:3. 零膨脹回歸模型的應(yīng)用零膨脹回歸模型的應(yīng)用l為了說(shuō)明零膨脹回歸模型的應(yīng)用,本節(jié)模擬2000個(gè)損失次數(shù)的觀察數(shù)據(jù)。假設(shè)損失次數(shù)受A和B兩個(gè)分類變量的影響。A有兩個(gè)水平,記為A1和A2,A1為基準(zhǔn)水平。B有三個(gè)水平,記為B1,B2和

27、B3,其中B1為基準(zhǔn)水平?;鶞?zhǔn)水平,水平A2,B2,B3的參數(shù)分別表示為:l在模擬數(shù)據(jù)時(shí),假設(shè)參數(shù)取值為:( 64 )0123, 01230.2,0.2,0.3,0.4 l下圖是泊松分布、負(fù)二項(xiàng)分布、零膨脹泊松分布和零膨脹負(fù)二項(xiàng)分布對(duì)模擬損失次數(shù)的擬合值,它們的AIC值分別為5561,5224,5246,和5215,零膨脹負(fù)二項(xiàng)分布的AIC值最小,其次是負(fù)二項(xiàng)分布。從圖形上直觀地看,也是零膨脹負(fù)二項(xiàng)分布的擬合效果較好。( 65 )l下圖為零膨脹泊松回歸模型的參數(shù)估計(jì)結(jié)果,Mu表示泊松參數(shù),Sigma表示零膨脹概率。使用了R語(yǔ)言中g(shù)amlss包,零膨脹概率估計(jì)使用logit函數(shù),零膨脹概率估計(jì)為

28、1/(1+exp(0.571)( 66 )l下圖是零膨脹負(fù)二項(xiàng)回歸的參數(shù)估計(jì)結(jié)果,Mu表示均值參數(shù),Sigma表示離散參數(shù),Nu表示零膨脹參數(shù),零膨 脹概率使用了logit連接函數(shù),故零膨脹概率估計(jì)值為 cc1/(1+exp(1.07)( 67 )( 68 )零膨脹泊松回歸零膨脹泊松回歸零膨脹負(fù)二項(xiàng)回歸零膨脹負(fù)二項(xiàng)回歸真值真值零膨脹概率0.3610.2550.3回歸系數(shù) 0.34066;-0.13135;-0.28601; 0.33427; 0.19077;-0.13264;-0.30239; 0.34179; 0.2;-0.2;-0.3; 0.4;AIC5163.45143.1*對(duì)比發(fā)現(xiàn),負(fù)

29、二項(xiàng)回歸模型中,有關(guān)回歸系數(shù)的估計(jì)值與模擬數(shù)據(jù)所設(shè)定的參數(shù)值更加接近;且零膨脹負(fù)二項(xiàng)回歸的AIC值小于零膨脹泊松回歸模型的AIC值,表明零膨脹負(fù)二項(xiàng)回歸對(duì)該組模擬數(shù)據(jù)擬合效果相對(duì)更好。4.3.5 零調(diào)整回歸模型零調(diào)整回歸模型l當(dāng)計(jì)數(shù)因變量在零點(diǎn)的概率大于泊松分布或負(fù)二項(xiàng)分布在零點(diǎn)的概率時(shí),可以建立零膨脹泊松回歸模型或零膨脹負(fù)二項(xiàng)回歸模型,也可以建立相應(yīng)的零調(diào)整回歸模型零調(diào)整回歸模型。而當(dāng)實(shí)際觀察到的索賠次數(shù)在零點(diǎn)的概率小于泊松分布或負(fù)二項(xiàng)分布在零點(diǎn)的概率時(shí),就只能建立零調(diào)整回歸模型。l假設(shè)K 是一個(gè)隨機(jī)變量,譬如服從泊松分布或負(fù)二項(xiàng)分布Y 服從與其對(duì)應(yīng)的零調(diào)整分布,則Y的概率函數(shù)可以表示為:( 69 ),0( )1( ),1,2,31(0)YKKvyfyvfyyf(01)( )KKvvfy式中表示零點(diǎn)的概率;表示隨機(jī)變量的概率函數(shù)。l如果K 服從泊松分布,則Y 服從零調(diào)整泊松分布零調(diào)整泊松分布(ZAP);如果K 服從負(fù)二項(xiàng)分布,則Y 服從零調(diào)整負(fù)二項(xiàng)分布零調(diào)整負(fù)二項(xiàng)分布(ZANB)。l零調(diào)整泊松分布概率函數(shù)為:l零調(diào)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論