第07章-離散因變量和受限因變量模型(第三版)課件_第1頁
第07章-離散因變量和受限因變量模型(第三版)課件_第2頁
第07章-離散因變量和受限因變量模型(第三版)課件_第3頁
第07章-離散因變量和受限因變量模型(第三版)課件_第4頁
第07章-離散因變量和受限因變量模型(第三版)課件_第5頁
已閱讀5頁,還剩125頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1第七章離散因變量和受限因變量模型

經(jīng)濟分析中經(jīng)常會遇到大量的個體和企業(yè)的調查數(shù)據(jù),這些數(shù)據(jù)具有很多與時間序列數(shù)據(jù)不同的特點,常存在離散選擇性問題、數(shù)據(jù)審查(截斷)、選擇性樣本等問題,一般來說需要采用微觀計量經(jīng)濟學方法進行定量分析。微觀計量經(jīng)濟學最凸顯的問題是所謂經(jīng)濟選擇和定性因變量問題。2

本章首先關注的一類問題是經(jīng)濟決策中經(jīng)常面臨的選擇問題,如購買者對某種商品的購買決策問題,求職者對某種職業(yè)的選擇問題,投票人對某候選人的投票決策,銀行對某客戶的貸款決策等。與通常的經(jīng)濟計量模型假定因變量是連續(xù)的不同,以這樣的決策結果作為因變量建立的計量經(jīng)濟模型稱為離散因變量數(shù)據(jù)計量經(jīng)濟學模型(modelswithdiscretedependentvariables)或離散選擇模型(discretechoicemodel,DCM)。3本章關注的第二類問題因變量受到某種限制的情況,這時需要建立的經(jīng)濟計量模型稱為受限因變量模型(limiteddependentvariablemodel)。這種情況下,由于數(shù)據(jù)搜集規(guī)則或者經(jīng)濟人自我選擇行為的結果,人們所獲得的樣本數(shù)據(jù)來自總體的一個子集,可能不能完全反映總體。如果使用傳統(tǒng)的經(jīng)濟計量方法來分析這樣的樣本而不考慮所抽樣本的選擇性,那么對經(jīng)濟關系進行的統(tǒng)計評估結果將會發(fā)生偏差,這就是所謂的“樣本選擇偏差”,赫克曼(Heckman)以微觀經(jīng)濟理論來解釋個體資料的樣本選擇問題并提出了Heckman樣本選擇模型。4許多經(jīng)濟社會問題的描述變量都為計數(shù)變量,計數(shù)數(shù)據(jù)中零元素和絕對值較小的數(shù)據(jù)出現(xiàn)得較為頻繁,以這些變量為被解釋變量,研究它們的影響因素構成了計量經(jīng)濟學中的另一類問題,稱為計數(shù)模型。本章的最后介紹了廣義線性模型,廣義線性模型是普通線性模型的一般化形式,具有較好的包容性,除了包含了第三章介紹的線性回歸模型外,還包含了本章即將介紹的離散因變量模型和泊松計數(shù)模型,在實際中有著廣泛的應用背景,尤其在微觀調查數(shù)據(jù)中。57.1二元選擇模型

在離散選擇模型中,最簡單的情形是在兩個可供選擇的方案中選擇其一,此時被解釋變量只取兩個值,稱為二元選擇模型(binarychoicemodel)。在實際生活中,我們經(jīng)常遇到二元選擇問題。例如,在買車與不買車的選擇中,買車記為1,不買記為0。是否買車與兩類因素有關系:一類是車本身所具有的屬性,如價格、型號等;另一類是決策者所具有的屬性如收入水平、對車的偏好程度等。如果我們要研究是否買車與收入之間的關系,即研究具有某一收入水平的個體買車的可能性。因此,二元選擇模型的目的是研究具有給定特征的個體作某種而不作另一種選擇的概率。

6

為了深刻地理解二元選擇模型,首先從最簡單的線性概率模型開始討論。線性概率模型的回歸形式為:,

(7.1.1)式中:N是樣本容量;k是解釋變量個數(shù);xj為第j個個體特征的取值。例如,x1表示收入;x2表示汽車的價格;x3表示消費者的偏好等。設yi表示取值為0和1的離散型隨機變量:

式(7.1.1)中ui為相互獨立且均值為0的隨機擾動項。7.1.1

線性概率模型及二元選擇模型的形式7

令pi=P(yi=1),那么

1

pi=P(yi=0),于是(7.1.2)又因為E(ui)

=0,所以E(yi)

=xi,xi=(x1i,

x2i,…,xki),

=(1

,

2,…,k),從而有下面的等式:(7.1.3)

8

式(7.1.3)只有當xi的取值在(0,1)之間時才成立,否則就會產(chǎn)生矛盾,而在實際應用時很可能超出這個范圍。因此,線性概率模型常常寫成下面的形式:

(7.1.4)此時就可以把因變量看成是一個概率。那么擾動項的方差為:

(7.1.5)或

(7.1.6)

9

由此可以看出,誤差項具有異方差性。異方差性使得參數(shù)估計不再是有效的,修正異方差的一個方法就是使用加權最小二乘估計。但是加權最小二乘法無法保證預測值?在(0,1)之內,這是線性概率模型一個嚴重的弱點。由于上述問題,我們考慮對線性概率模型進行一些變換,由此得到下面要討論的模型。假設有一個未被觀察到的潛在變量yi*,它與xi之間具有線性關系,即

(7.1.7)式中:ui*是擾動項。yi和yi*的關系如下:

(7.1.8)10yi*大于臨界值0時,yi=1;小于等于0時,yi=0。這里把臨界值選為0,但事實上只要xi包含有常數(shù)項,臨界值的選擇就是無關的,所以不妨設為0。這樣

(7.1.9)式中:F是ui*的分布函數(shù),要求它是一個連續(xù)函數(shù),并且是單調遞增的。因此,原始的回歸模型可以看成如下的一個回歸模型:

(7.1.10)即yi關于它的條件均值的一個回歸。11

分布函數(shù)的類型決定了二元選擇模型的類型,根據(jù)分布函數(shù)F的不同,二元選擇模型可以有不同的類型,常用的二元選擇模型如表7.1.1所示:

表7.1.1常用的二元選擇模型

ui*對應的分布分布函數(shù)F相應的二元選擇模型標準正態(tài)分布Probit模型邏輯分布Logit模型極值分布Extreme模型12

二元選擇模型一般采用極大似然估計。似然函數(shù)為

(7.1.11)即

(7.1.12)

對數(shù)似然函數(shù)為

(7.1.13)7.1.2二元選擇模型的估計問題13

對數(shù)似然函數(shù)的一階條件為

(7.1.14)式中:fi表示概率密度函數(shù)。那么如果已知分布函數(shù)和密度函數(shù)的表達式及樣本值,求解該方程組,就可以得到參數(shù)的極大似然估計量。例如,將上述3種分布函數(shù)和密度函數(shù)代入式(7.1.14)就可以得到3種模型的參數(shù)極大似然估計。但是式(7.1.14)通常是非線性的,需用迭代法進行求解。二元選擇模型中估計的系數(shù)不能被解釋成對因變量的邊際影響,只能從符號上判斷。如果為正,表明解釋變量越大,因變量取1的概率越大;反之,如果系數(shù)為負,表明相應的概率將越小。

14

例7.1二元選擇模型實例1

考慮Greene給出的斯佩克特和馬澤歐(1980)的例子,在例子中分析了某種教學方法對成績的有效性。因變量(GRADE)代表在接受新教學方法后成績是否改善,如果改善為1,未改善為0。解釋變量(PSI)代表是否接受新教學方法,如果接受為1,不接受為0。還有對新教學方法量度的其他解釋變量:平均分數(shù)(GPA)和測驗得分(TUCE),來分析新的教學方法的效果。15EViews軟件的操作(1)模型的估計

估計二元選擇模型,從EquationSpecification對話框中,選擇Binary估計方法。在二元模型的設定中分為兩部分。首先,在EquationSpecification區(qū)域中,鍵入二元因變量的名字,隨后鍵入一列回歸項。由于二元變量估計只支持列表形式的設定,所以不能輸入公式。然后,在Binaryestimationmethod中選擇Probit,Logit,Extremevalue選擇三種估計方法的一種。以例7.1為例,選擇Probit估計方法,對話框如圖7.7.1所示。16圖7.7.1二元選擇模型估計對話框17

例7.1的Probit方法估計輸出結果如下:18

參數(shù)估計結果的上半部分包含與一般的回歸結果類似的基本信息,標題包含關于估計方法(ML表示極大似然估計)和估計中所使用的樣本的基本信息,也包括達到收斂要求的迭代次數(shù)。和計算系數(shù)協(xié)方差矩陣所使用方法的信息。在其下面顯示的是系數(shù)的估計、漸近的標準誤差、z-統(tǒng)計量和相應的概率值及各種有關統(tǒng)計量。

在回歸結果中還提供幾種似然函數(shù):①loglikelihood是對數(shù)似然函數(shù)的最大值L(b),b是未知參數(shù)的估計值。②Avg.loglikelihood是用觀察值的個數(shù)N去除以對數(shù)似然函數(shù)L(b),即對數(shù)似然函數(shù)的平均值。19③Restr.Loglikelihood是除了常數(shù)以外所有系數(shù)被限制為0時的極大似然函數(shù)L(b)。④LR統(tǒng)計量檢驗除了常數(shù)以外所有系數(shù)都是0的假設,這類似于線性回歸模型中的統(tǒng)計量,測試模型整體的顯著性。圓括號中的數(shù)字表示自由度,它是該測試下約束變量的個數(shù)。⑤Probability(LRstat)是LR檢驗統(tǒng)計量的P值。在零假設下,LR檢驗統(tǒng)計量近似服從于自由度等于檢驗下約束變量的個數(shù)的2分布。⑥McFaddenR-squared是計算似然比率指標,正像它的名字所表示的,它同線性回歸模型中的R2是類似的。它具有總是介于0和1之間的性質。20例7.1二元選擇模型實例1(續(xù))利用式(7.1.10),分布函數(shù)采用標準正態(tài)分布,即Probit模型,例7.1計算結果為(7.1.15)

z=(-2.93)(2.34)

(0.62)

(2.39)

利用式(7.1.15)的Probit模型的系數(shù),本例按如下公式給出新教學法對學習成績影響的概率,當PSI=0時:

(7.1.19)

當PSI=1時:

(7.1.20)

式中測驗得分TUCE取均值(21.938),平均分數(shù)GPA是按從小到大重新排序后的序列。

21圖7.1.1

新教學法對學習成績影響的概率22

(2)估計選項

因為我們是用迭代法求極大似然函數(shù)的最大值,所以Option選項可以從估計選項中設定估計算法與迭代限制。單擊Options按鈕,打開對話框如下所示。Options對話框23Option對話框有以下幾項設置:①穩(wěn)健標準差

(RobustStandardErrors)對二元因變量模型而言,EViews允許使用準-極大似然函數(shù)(Huber/White)或廣義的線性模型(GLM)方法估計標準誤差。察看RobustCovariance對話框,并從兩種方法中選擇一種。②初始值

EViews的默認值是使用經(jīng)驗運算法則而選擇出來的,適用于二元選擇模型的每一種類型。③

估計法則

在Optimizationalgorithm一欄中選擇估計的運算法則。默認地,EViews使用quadratichill-climbing方法得到參數(shù)估計。這種運算法則使用對數(shù)似然分析二次導數(shù)的矩陣來形成迭代和計算估計的系數(shù)協(xié)方差矩陣。還有另外兩種不同的估計法則,Newton-Raphson也使用二次導數(shù),BHHH使用一次導數(shù),既確定迭代更新,又確定協(xié)方差矩陣估計。

24

(3)預測從方程工具欄選擇Procs/Forecast(FittedProbability/Index),然后單擊想要預測的對象。既可以計算擬合概率,,也可以計算指標的擬合值。像其他方法一樣,可以選擇預測樣本,顯示預測圖。如果解釋變量向量xt包括二元因變量yt的滯后值,選擇Dynamic選項預測,EViews使用擬合值得到預測值;而選擇Static選項,將使用實際的(滯后的)yt-1得到預測值。對于這種估計方法,無論預測評價還是預測標準誤差通常都無法自動計算。后者能夠通過使用View/CovarianceMatrix顯示的系數(shù)方差矩陣,或者使用@covariance函數(shù)來計算。25

可以在各種方式上使用擬合指標,舉個例子,計算解釋變量的邊際影響。計算預測擬合的指標,并用序列xb中保存這個結果。然后生成序列@dnorm(-xb)、@dlogistic(-xb)、@dextreme(-xb),可以與估計的系數(shù)j

相乘,提供一個yi的期望值對xi的第j個分量的導數(shù)的估計。

(7.5.1)26

(4)產(chǎn)生殘差序列

通過Procs/MakeReidualSeries選項產(chǎn)生下面三種殘差類型中的一種類型。

表7.1.2

殘差類型普通殘差(Ordinary)標準化殘差(Standardized)廣義殘差(Generalized)27

例7.2

二元選擇模型實例2某商業(yè)銀行從歷史貸款客戶中隨機抽取78個樣本,根據(jù)設計的指標體系分別計算它們的“商業(yè)信用支持度”(CC)和“市場競爭地位等級”(CM),式(7.1.1)中的因變量y取為對它們貸款的結果,是二元離散變量,yi=1表示貸款成功,yi=0表示貸款失敗。本例的目的是研究y與CC、CM之間的關系,并為正確貸款決策提供支持?!吧虡I(yè)信用支持度”是由一個指標體系計算得到的,表征客戶的財務狀況,該變量越大,表明客戶財務狀況越差;“市場競爭地位等級”也是由一個指標體系計算得到的,該變量越大表明客戶市場狀況越好。28

利用式(7.1.10),分布函數(shù)采用標準正態(tài)分布,即Probit模型,計算結果為:z=(1.17)(-1.13)

(1.135)從回歸結果可以看出商業(yè)信用支持度的值越大,貸款成功的概率越??;而市場競爭地位等級的值越大貸款成功的概率越大。將自變量的取值帶入到(7.1.9)式,就可以預測貸款成功和失敗的概率。例如,將第9個樣本觀測值CC=23,CM=0代入得:29表7.1.4樣本觀測值和貸款概率預測值序號yCCCMP(y1)序號yCCCMP(y1)10125-2040028-2020599-204112500.990630100-204212300.997940160-2043114015046-2044049-106080-2045014-10.549870133-204606102.1E-1280350-104714021912300.997948030-2010060-20490112-1011070-1050078-20121-801511001130400-20520131-20140720053054-10150120-1054142211614010.99985504200.02091713510.9999561182118126115708016.4E-1219115-10.4472581-50120069-105903262030表7.1.4樣本觀測值和貸款概率預測值(續(xù))

如果有一個新客戶,根據(jù)客戶資料,計算其“商業(yè)信用支持度”(CC)和“市場競爭地位等級”(CM),然后代入到(7.1.9)式就可以預測貸款成功和失敗的概率,以此決定是否給予貸款。21010710600261102212911611-2-10.999923121162014-23.9E-072413710.99996312200.999125053-1064011310260194006514210.99872701500-206615720.9999280960067014600291-8016811501300375-2069026-24.4E-1631042-16.5E-1370089-20321521711511330172-20721-9-11341-80173141135089-2074054-20360128-2075132113716017605401.5E-07380150-10770131-2039154217811501317.2排序選擇模型

當因變量不止是兩種選擇時,就要用到多元選擇模型(multiplechoicemodel)。多元離散選擇問題普遍存在于經(jīng)濟生活中。例如:

(1)一個人面臨多種職業(yè)選擇,將可供選擇的職業(yè)排隊,用0,1,2,3表示。影響選擇的因素有不同職業(yè)的收入、發(fā)展前景和個人偏好等;

(2)同一種商品,不同的消費者對其偏好不同。例如,十分喜歡、一般喜歡、無所謂、一般厭惡和十分厭惡,分別用0,1,2,3,4表示。而影響消費者偏好的因素有商品的價格、性能、收入及對商品的需求程度等;

(3)一個人選擇上班時所采用的方式——自己開車,乘出租車,乘公共汽車,還是騎自行車。32

上述3個例子代表了多元選擇問題的不同類型。前兩個例子屬于排序選擇問題,所謂“排序”是指在各個選擇項之間有一定的順序或級別種類。而第3個例子只是同一個決策者面臨多種選擇,多種選擇之間沒有排序,不屬于排序選擇問題。與一般的多元選擇模型不同,排序選擇問題需要建立排序選擇模型(orderedchoicemodel)。下面我們主要介紹排序選擇模型。

33

與二元選擇模型類似,設有一個潛在變量yi*,是不可觀測的,可觀測的是yi

,設yi有0,1,2,…,M等M+1個取值。,(7.2.1)其中:ui*是獨立同分布的隨機變量,yi可以通過yi*按下式得到

(7.2.2)

34

設ui*的分布函數(shù)為F(x),可以得到如下的概率

(7.2.3)

和二元選擇模型一樣,根據(jù)分布函數(shù)F(x)的不同可以有3種常見的模型:Probit模型、Logit模型和Extremevalue模型。仍然采用極大似然方法估計參數(shù),需要指出的是,M個臨界值c1,c2,…,cM事先也是不確定的,所以也作為參數(shù)和回歸系數(shù)一起估計。35

例7.3排序模型的實例1

在調查執(zhí)政者的支持率的民意測驗中,由于執(zhí)政者執(zhí)行了對某一收入階層有利的政策而使得不同收入的人對其支持不同,所以收入成為決定人們是否支持的因素。通過調查取得了市民收入(INC)與支持與否(Y)的數(shù)據(jù),其中如果選民支持則Yi取0,中立取1,不支持取2。我們選取24個樣本進行排序選擇模型分析。36EViews軟件的操作

(1)模型的估計與二元選擇模型類似,從主菜單中選擇Objects/NewObject,并從該菜單中選擇Equation選項。從EquationSpecification對話框,選擇估計方法ORDERED,標準估計對話框將會改變以匹配這種設定。在EquationSpecification區(qū)域,鍵入排序因變量的名字,其后列出回歸項。排序估計也只支持列表形式的設定,不用輸入一個明確的方程。然后選擇Normal,Logist,ExtremeValue三種誤差分布中的一種,單擊OK按鈕即可。對話框如下所示。37

排序模型的輸入對話框38

例7.3估計結果如下:39

有兩點需要指出:首先,EViews不能把常數(shù)項和臨界值區(qū)分開,因此在變量列表中設定的常數(shù)項會被忽略,即有無常數(shù)項都是等價的。其次,EViews要求因變量是整數(shù),否則將會出現(xiàn)錯誤信息,并且估計將會停止。然而,由于我們能夠在表達式中使用@round、@floor或@ceil函數(shù)自動將一個非整數(shù)序列轉化成整數(shù)序列,因此這并不是一個很嚴格的限制。估計收斂后,EViews將會在方程窗口顯示估計結果。表頭包含通常的標題信息,包括假定的誤差分布、估計樣本、迭代和收斂信息、y的排序選擇值的個數(shù)和計算系數(shù)協(xié)方差矩陣的方法。在標題信息之下是系數(shù)估計和漸近的標準誤差、相應的z-統(tǒng)計量及概率值。然后,還給出了臨界值LIMIT_1:C(2),LIMIT_2:C(3)的估計及相應的統(tǒng)計量。40

2.常用的兩個過程①MakeOrderedLimitVector產(chǎn)生一個臨界值向量c,此向量被命名為LIMITS01,如果該名稱已被使用,則命名為LIMITS02,以此類推。②MakeOrderedLimitCovarianceMatrix產(chǎn)生臨界值向量c的估計值的協(xié)方差矩陣。命名為VLIMITS01,如果該名稱已被使用,則命名為VLIMITS02,以此類推。41

3.預測

因為排序選擇模型的因變量代表種類或等級數(shù)據(jù),所以不能從估計排序模型中直接預測。選擇Procs/MakeModel,打開一個包含方程系統(tǒng)的沒有標題的模型窗口,單擊模型窗口方程欄的Solve按鈕。例7.3因變量

y

的擬合線性指標序列被命名為i_Y_0,擬和值落在第一類中的擬合概率被命名為Y_0_0的序列,落在第二類中的擬合概率命名為Y_1_0的序列中,落在第三類中的擬合概率命名為Y_2_0的序列中,等等。注意對每一個觀察值,落在每個種類中的擬合概率相加值為1。

表7.2.2中Y_0_0(P(y

=

0)),Y_1_0(P(y

=

1)),Y_2_0(P(y

=

2)),分別是支持、中立、不支持的概率,Y,INC是實際樣本。42

4.產(chǎn)生殘差序列

選擇Proc/MakeResidualSeries產(chǎn)生廣義殘差序列,輸入一個名字或用默認的名字,然后單擊OK按鈕。一個排序模型的廣義殘差由下式給出:

(7.5.2)其中:c0=-

,cM+1=

。43例7.4排序模型的實例2本例利用2010年中國社會綜合調查數(shù)據(jù)庫中的181個問卷調查數(shù)據(jù),按照調查問卷的原始問題以幸福程度(y)為因變量建立排序選擇模型,研究幸福感的影響因素。將幸福程度(y)分為4個等級,分別為:不幸福(用1表示),介于幸福和不幸福之間(用2表示),比較幸福(用3表示)和完全幸福(用4表示)。參考現(xiàn)有關于幸福的研究,選取與幸福程度相關的7個變量作為解釋變量,分別為教育水平x1(1為受過高等教育,0為沒接受過高等教育)、健康狀況x2(1為健康,0為不健康)、婚姻狀況x3(已婚為1,未婚或喪偶、離異等為0)、住房面積x4、收入水平x5,所在地是否為鄉(xiāng)村x6(1為是,0為否)、宗教信仰x7(1為信仰宗教,0為不信仰宗教)。建立排序因變量模型,分布函數(shù)采用標準正態(tài)分布,即Probit模型,估計結果為:44z=(0.18)(4.57)(-0.69)(2.01)(2.40)(0.73)(2.36)(7.2.6)回歸系數(shù)為正表示解釋變量的取值越大,潛在變量取較大值的概率越大,從而幸福的可能性越大。利用本例所選取的樣本數(shù)據(jù)進行估計表明,影響幸福感的主要因素包括健康狀況、是否具有宗教信仰、住房面積和收入水平。而婚姻似乎沒有提升個人的幸福感,教育水平和居住地也非影響幸福感的主要因素。45去掉不顯著變量重新進行回歸,分布函數(shù)采用Logit模型,估計結果為:另外,兩個臨界值的估計為:

并且均為顯著的。由此得出結論:健康是幸福的最重要因素,其次是宗教信仰和收入。z=(4.39)(1.86)(2.73)(2.36)(7.2.7)467.3受限因變量模型在現(xiàn)實的經(jīng)濟問題中,有時會遇到因變量是連續(xù)的,但是受到某種限制不能完全被觀測到的情形,此時得到的數(shù)據(jù)就出現(xiàn)了審查(Censoring)或者斷尾(Truncation)的現(xiàn)象。也就是說所得到的因變量的觀測值來源于總體的一個受限制的子集,并不能完全反映總體的實際特征,這一類數(shù)據(jù)由于違背了經(jīng)典計量經(jīng)濟學模型對被解釋變量樣本觀測值的要求,因此進行普通的最小二乘估計會產(chǎn)生偏誤。審查樣本、截斷樣本以及選擇性樣本在非實驗性的社會科學研究中廣泛存在,詹姆斯·托賓(JamesTobin)1958年的論文引發(fā)了對這類問題的現(xiàn)代研究。477.3.1審查、選擇性樣本和截斷數(shù)據(jù)對于三種類型的樣本數(shù)據(jù),因變量都具有截斷特征。具體表述如下:若對于隨機變量y有某個數(shù)值c,對于y≤c的所有樣本,y的觀測值是可獲得的,而對于其他樣本僅僅已知y>c的事實,具體觀測值獲得不了,則稱為y是右截斷的;同時還有左截斷,即已知所有大于某一閾值c的y的觀測值,但對于其他所有樣本僅僅知道y≤c的事實,具體觀測值獲得不了。一個典型的例子是收入,對于樣本中的高收入群體我們可能僅僅知道其年收入是10萬美元以上,而不知道具體是多少。還可能存在兩個或者更多的閾值,如存在兩個閾值d,c(不妨設d>c),若c<y<d時已知y的具體數(shù)值,而當y≤c時,僅知道y小于等于c的信息,而不知道y的具體樣本值;同樣當y≥d時,僅僅知道y大于等于d的信息,而非具體數(shù)值。48下面詳細說明三種樣本的特征、區(qū)別和聯(lián)系。1.審查樣本假設有一個截斷性的因變量y的樣本,設x是解釋變量。若對于所有樣本都有x的觀測值,則樣本稱為是被審查的(Censoring)。以右截斷為例,既能獲得所有y≤c的x值(此時y的觀測值可獲得),也可知道y>c時x

的觀測值。2.截斷樣本如果僅僅是對于那些有觀測值的y才可以觀測到x的樣本,則該樣本被稱為是截斷性樣本(Truncation),某些抽樣會導致截斷問題。截斷是數(shù)據(jù)收集效應與數(shù)據(jù)生成無關,當樣本數(shù)據(jù)從研究總體的子樣本中抽取時就會出現(xiàn)。493.選擇性樣本還存在一類選擇性樣本問題,它的因變量也是截斷樣本,但是和審查問題的區(qū)別在于決定因變量y是否有觀測值的機制不同。在審查問題中,如前面舉的因變量是高收入群體的例子,y的觀測值的特性取決于其本身,例如y大于閾值10萬美元時,y的觀測值是不可確切獲得的。而在選擇性樣本問題中,y能否被觀測到取決于另一個變量z的值。例如,我們要研究成年人給予其孩子零花錢的數(shù)額(y),因為不是所有的成年人都有孩子,所有在某些子樣本中我們不具備y的觀測值。設zi=1表示第i位成年人有孩子,反之,zi=0。50則我們需要兩個步驟來解決問題:

(1)擬合所有樣本中成年人有孩子的概率;

(2)在所有有孩子的成年人中擬合y的期望值。

此時會有兩類解釋變量:z用以解釋成年人是否有孩子;以及自變量x用以解釋y的觀測值。對于所有的樣本,我們都能得到z和x

的觀測值,并不管其處于被選擇范圍之內(y可被觀測到)還是之外(y不能具體觀測到)。表7.3.1給出了三類樣本的特征總結。51樣本類型因變量自變量審查樣本y僅在其值滿足某些條件時,如y>c時,才可獲知其確切取值。y是截斷的隨機變量。無論y是否有確切的取值,對于整個樣本,自變量x都具有觀測值。選擇性樣本y僅當一個隨機變量z滿足某些條件,如z=1時,才具有觀測值。y是截斷的隨機變量。無論y是否有觀測值,對于整個樣本,自變量x和z都可被觀測。截斷樣本y僅在其值滿足某些條件時,如y>c時,才具有觀測值。y是截斷的隨機變量。僅當y具備觀測值時,自變量才具有觀測值。表7.3.1審查、選擇性樣本和截斷樣本527.3.2受限因變量數(shù)據(jù)為什么不能用普通最小二乘估計受限因變量模型共同認為存在一個潛在的因變量yi*,y是yi*的現(xiàn)實觀測值,潛在因變量的回歸模型為:假設ui是獨立且服從正態(tài)分布的誤差項,均值為0,方差為

2。觀測變量和潛在變量的關系為:不妨設

c=0,求得

yi的條件均值為:(7.3.1)(7.3.2)(7.3.3)53式中:(7.3.4)將模型(7.3.1)與式(7.3.4)比較可知,由于因變量的截斷問題使得采用普通最小二乘估計忽略了非線性項。進一步的計算表明:由此可見普通最小二乘法同時忽略了隨機誤差項實際上的異方差性。(7.3.5)54

7.3.3審查回歸模型

1.模型的形式

考慮下面的潛在因變量回歸模型

(7.3.6)式中:是比例系數(shù);y*是潛在變量。被觀察的數(shù)據(jù)y與潛在變量y*的關系如下:

(7.3.7)55

換句話說,yi*的所有負值被定義為0值。我們稱這些數(shù)據(jù)在0處進行了左截取(審查)(leftcensored)。而不是把觀測不到的yi*的所有負值簡單地從樣本中除掉。此模型稱為規(guī)范的審查回歸模型,也稱為Tobit模型。更一般地,可以在任意有限點的左邊和右邊截取(審查),即

(7.3.8)式中:,代表截取(審查)點,是常數(shù)值。如果沒有左截取(審查)點,可以設為。如果沒有右截取(審查)點,可以設為。規(guī)范的Tobit模型是具有和的一個特例。

56

2.審查回歸模型的極大似然估計

與前邊介紹的幾個模型類似,可以采用極大似然法估計審查回歸模型的參數(shù),對數(shù)似然函數(shù)為

(7.3.12)求式(7.3.12)的最大值即可得參數(shù)

,

的估計。這里f,F分別是u的密度函數(shù)和分布函數(shù)。57

特別地,對于Tobit模型,設u~N(0,1),這時對數(shù)似然函數(shù)為

(7.3.13)式(7.3.5)是由兩部分組成的。第一部分對應沒有限制的觀測值,與經(jīng)典回歸的表達式是相同的;第二部分對應于受限制的觀測值。因此,此似然函數(shù)是離散分布與連續(xù)分布的混合。將似然函數(shù)最大化就可以得到參數(shù)的極大似然估計。58

例7.5審查模型的實例1

本例研究已婚婦女工作時間問題,共有50個調查數(shù)據(jù),來自于美國國勢調查局[U.S.BureauoftheCensus(CurrentPopulationSurvey,1993)],其中y表示已婚婦女工作時間,x1~x4分別表示已婚婦女的未成年子女個數(shù)、年齡、受教育的年限和丈夫的收入。只要已婚婦女沒有提供工作時間,就將工作時間作零對待,符合審查回歸模型的特點。59本例采用Tobit模型,分布函數(shù)采用標準正態(tài)分布,計算結果為:(7.3.14)z=(0.9)

(-1.95)

(-2.88)

(2.27)

(0.92)式(7.3.14)中回歸系數(shù)為正,則解釋變量越大,已婚婦女工作時間越長。例如已婚婦女受教育的年限(x3)越長或丈夫的收入(x4)越高,則工作的時間越長,但是x4的系數(shù)不顯著并且也很小,所以對已婚婦女工作時間影響不大。式(7.3.14)中回歸系數(shù)為負,則解釋變量越大,已婚婦女工作時間越短,如已婚婦女的未成年子女個數(shù)(x1)越多或年齡(x2)越大,則工作的時間越短。且x1,x2的系數(shù)都很顯著,說明這兩個因素對已婚婦女工作時間有較大影響。60EViews軟件的操作

1.模型的估計

為估計審查模型,打開Equation對話框,從EquationSpecification對話框所列估計方法中選擇CENSORED估計方法。在EquationSpecification區(qū)域,輸入被審查的因變量的名字及一系列回歸項。審查回歸模型的估計只支持列表形式的設定。

61

審查模型的估計對話框62

在三種分布中選擇一種作為誤差項的分布,EViews提供三種可供選擇的分布(表7.7.1)。

表7.7.1誤差項的分布

StandardnormalLogisticExtremevalue

(歐拉常數(shù)

)

還需要在DependentVariableCensoringPoints一欄提供關于被檢查因變量的臨界點的信息。臨界點可以是數(shù)值、表達式、序列,還可以是空的。有兩種情況需要考慮:①臨界點對于所有個體都是已知的;②臨界點只對具有審查觀察值的個體是已知的。

63

(1)臨界點對所有個體都已知

按照要求在編輯欄的左編輯區(qū)(Left)和右編輯區(qū)(Right)輸入臨界點表達式。注意如果在編輯區(qū)域留下空白,EViews將假定該種類型的觀測值沒有被審查。

例如,在規(guī)范的Tobit模型中,數(shù)據(jù)在0值左邊審查,在0值右邊不被審查。這種情況可以被指定為:左編輯區(qū):0

右編輯區(qū):[blank]

而一般的左邊和右邊審查由下式給出:

左編輯區(qū):右編輯區(qū):

EViews也允許更一般的設定,這時審查點已知,但在觀察值之間有所不同。簡單地在適當?shù)木庉媴^(qū)域輸入包含審查點的序列名字。64

(2)臨界點通過潛在變量產(chǎn)生并且只對被審查的觀測值個體已知

在一些情況下,假設臨界點對于一些個體(和不是對所有的觀察值都是可觀察到的)是未知的,此時可以通過設置0-1虛擬變量(審查指示變量)來審查數(shù)據(jù)。EViews提供了另外一種數(shù)據(jù)審查的方法來適應這種形式。簡單地,在估計對話框中選擇Fieldiszero/oneindicatorofcensoring選項,然后在合適的編輯區(qū)域輸入審查指示變量的序列名。對應于審查指示變量值為1的觀察值要進行審查處理,而值為0的觀察值不進行審查。65

例如,假定我們有個人失業(yè)時間的觀察值,但其中的一些觀察值反映的是在取得樣本時仍然繼續(xù)失業(yè)的情況,這些觀察值可以看作在報告值的右邊審查。如果變量rcens是一個代表審查的指示變量,可以選擇Fieldiszero/oneindicatorofcensoring設置,并在編輯區(qū)域輸入:左編輯區(qū):[blank]

右編輯區(qū):rcens

如果數(shù)據(jù)在左邊和右邊都需要審查的話,對于每種形式的審查使用單獨的審查指示變量:左編輯區(qū):lcens

右編輯區(qū):rcens這里,lcens也是審查指示變量。完成模型的指定后,單擊OK。EViews將會使用合適的迭代步驟估計模型的參數(shù)。66例7.5的估計結果如下:67

2.模型的預測與產(chǎn)生殘差

EViews提供了預測因變量期望E(y|x,,)的選項,或預測潛在變量期望E(y*|x,,)的選項。從工具欄選擇Forecast打開預測對話框。為了預測因變量的期望,應該選擇Expecteddependentvariable,并輸入一個序列名稱用于保存輸出結果。為了預測潛在變量的期望,單擊Index-Expectedlatentvariable,并輸入一個序列的名稱用于保存輸出結果。潛在變量的期望E(y*|x,,)可以從如下關系中得到:

(7.5.3)

通過選擇Procs/MakeResidualSeries,并從殘差的3種類型中進行一種,可以產(chǎn)生審查模型的殘差序列。審查模型的殘差也有3種類型,與前述類似。

68例7.6審查模型的實例2本例研究文化娛樂性支出的影響因素,利用409個觀測樣本,因變量為家庭消費性支出中文化娛樂性支出(y)。選取與該項支出相關的解釋變量包括:家庭全年總收入(x1)、被訪問者的年齡(x2)、被訪問者所在地是否為農(nóng)村(x3,農(nóng)村取1,否則取0)、是否受到過高等教育(x4,1表示是,0表示否)等。在本例中因變量有很多的0值,樣本數(shù)據(jù)符合審查回歸模型的特點,因此采用Tobit模型進行回歸,左截斷點為0,回歸結果如下:(7.3.15

(7.3.15)z=(6.42)(-7.63)(-2.34)(3.93)69從回歸結果可以看出,收入水平和教育水平對文化娛樂性支出有正向的影響,收入水平和教育水平越高此項支出越高,家庭收入每增加100元,文化娛樂性支出平均增加2.7元;而受過高等教育的家庭比沒有受過高等教育的家庭平均多支出3815.92元;文化娛樂性支出隨著年齡的增長會有所下降;生活在農(nóng)村的家庭文化娛樂性支出要比非農(nóng)村家庭平均低2372.33元。70

7.3.4截斷回歸模型

截斷問題,形象地說就是掐頭或者去尾。即在很多實際問題中,不能從全部個體中抽取因變量的樣本觀測值,而只能從大于或小于某個數(shù)的范圍內抽取樣本的觀測值,此時需要建立截斷因變量模型。例如,在研究與收入有關的問題時,收入作為被解釋變量。從理論上講,收入應該是從零到正無窮,但實際中由于各種客觀條件的限制,只能獲得處在某個范圍內的樣本觀測值。這就是一個截斷問題。截斷回歸模型的形式如下:(7.3.16)式中:yi只有在時才能取得樣本觀測值,,為兩個常數(shù)。對于截斷回歸模型,仍然可以采用極大似然法估計模型的參數(shù),只不過此時極大似然估計的密度函數(shù)是條件密度。

71

EViews軟件的操作

估計一個截斷回歸模型和估計一個審查模型遵循同樣的步驟,從主菜單中選擇Quick/EstimateEquation,并在EquationSpecification對話框中,選擇CENSORED估計方法。出現(xiàn)估計審查和截斷回歸模型對話框。在EquationSpecification區(qū)域鍵入截斷因變量的名稱和回歸項的列表,并從三種分布中選擇一種作為誤差項的分布。選擇Truncatedsample選項估計截斷模型。有幾點需要補充說明:首先,截斷估計只對截斷點已知的模型進行估計。如果用指標指定截斷點,EViews將會給出錯誤信息,指出這種選擇是無效的。其次,如果有一些因變量的值在截斷點之外,EViews將會發(fā)出錯誤信息。而且,EViews將會自動排除掉嚴格等于截斷點的所有觀察值。例如,如果指定零作為左截斷點,如果有觀察值低于零,EViews將會發(fā)出錯誤信息,并將排除嚴格等于零的任何觀察值。

72例7.7截斷回歸模型的實例仍然采用例7.5中研究婦女工作時間的數(shù)據(jù)。其中y表示已婚婦女工作時間,x1~x4分別表示已婚婦女的未成年子女個數(shù)、年齡、受教育的年限和丈夫的收入。在50個樣本中有18個樣本的因變量為0值,如果采用截斷回歸模型進行估計,截斷點選為0,則這部分樣本將被排除,利用其余的32個因變量非0的樣本進行估計,結果如下:(7.3.17)z=

(-0.26)

(0.12)

(-0.60)

(2.82)

(1.86)73利用截斷回歸模型(7.3.17)得出了與審查回歸模型(7.3.14)不同的估計結果?;貧w系數(shù)為正,則解釋變量越大,已婚婦女工作時間越長。式(7.3.17)中的估計結果為已婚婦女未成年子女個數(shù)(x1)越多,受教育的年限(x3)越長或丈夫的收入(x4)越高,則工作的時間越長,但是x1的系數(shù)不顯著,說明該變量對已婚婦女工作時間沒有顯著影響。注意到,例7.5的式(7.3.14)與式(7.3.17)中變量x1系數(shù)的符號相反,在式(7.3.14)中x1系數(shù)為負數(shù),則已婚婦女未成年子女個數(shù)越多,工作時間越短。說明如果利用工作時間大于零的截斷樣本來擬合變量之間的關系,可以發(fā)現(xiàn)未成年子女個數(shù)越多,則婦女的工作時間越長。747.4Heckman樣本選擇模型

Heckman(1974)在研究美國已婚婦女是否選擇工作這一經(jīng)濟現(xiàn)象時提出了選擇性問題。由于能直接觀測的是選擇工作的已婚婦女的市場工資,而選擇不工作的婦女的收入不能觀測,顯然市場工資只能從選擇工作的群體中觀測,這樣得到的市場工資樣本就是所謂選擇性樣本。選擇性樣本不是從已婚婦女這個總體中隨機抽取得到的,由此導致使用選擇性樣本來推斷總體特征就有可能產(chǎn)生偏差即所謂“選擇性偏差”,因此模型從設定到估計與檢驗均須考慮這種選擇性數(shù)據(jù)并基于模型分析其偏差。赫克曼(Heckman)以微觀經(jīng)濟理論來解釋個體資料的樣本選擇問題并提出了Heckman樣本選擇模型。751.Heckman樣本選擇模型的形式在Heckman選擇框架下,因變量僅對于部分數(shù)據(jù)可觀察得到,本質上是觀察值遺失問題。他認為觀察值經(jīng)常由于微觀經(jīng)濟主體的“自選擇”行為而遺失,觀察值遺失原因與未遺失觀察值性質之間的關系需要一個精妙的理論結構來解釋。Heckman(1976)選擇模型,有時也被稱為Heckit模型,是估計存在樣本選擇偏差的一種方法。令y

是選擇工作的已婚婦女的市場工資,x

是y的影響因素,由于樣本選擇問題,它不是總能觀測的到;z

為二元隱性變量,當zi=1時已婚婦女選擇工作;當zi=0時已婚婦女不工作,w

是z

的影響因素。z

的取值決定y

是否能觀測到,選擇不工作的婦女的收入不能觀測到。Heckman線性選擇模型包含兩個方程,分別為響應方程(responseequation)和選擇方程(selectionequation),則模型的一般框架的形式為:76選擇方程:響應方程:(7.4.1)(7.4.2)式中zi為一個二元變量,僅當zi

=1時,yi可被觀測,即(7.4.3)ui和i

是服從二元正態(tài)分布的誤差項:(7.4.4)式中為尺度參數(shù),

為相關系數(shù),在這個模型中i的方差不可識別,設為1。選擇方程用來確定yi是否可觀測到。估計Heckman選擇模型通常有兩種方法:Heckman兩步法和最大似然方法。772.Heckman兩步法Heckman兩步法是基于下面的觀察:

(7.4.5)式中,稱為逆米爾斯比率(InverseMillsRatio),(x)和(x)分別是標準正態(tài)密度和累計分布函數(shù)。這樣我們可以指定一個回歸模型:

(7.4.6)Heckman兩步法首先估計選擇方程(7.4.2)得到,并計算

然后利用最小二乘法估計如下的方程:(7.4.7)得到和=的一致估計。標準誤偏差的估計量可以從通常的回歸標準誤差s中得到。也可計算得到的估量。78兩步法的系數(shù)協(xié)方差陣由下式給出:式中,是對角線元素為的對角矩陣,

I

是單位矩陣,,是從選擇方程(7.4.2)得到的系數(shù)協(xié)方差矩陣。(7.4.8)3.最大似然法最大似然法利用給定的對數(shù)似然函數(shù)估計Heckman選擇模型:(7.4.9)79式中第一個求和項表示zi=0時的觀測(即yi不可觀測時),第二個求和項是zi=1時的觀測(即yi可觀測時)。這是一個簡單的關于參數(shù),,,最大化對數(shù)似然函數(shù)問題。

使用上面列出的Heckman兩步法可以得到優(yōu)化的起始值。與大多數(shù)最大似然估計一樣,估計參數(shù)的協(xié)方差矩陣可以通過(-H)-1(其中H為Hessian矩陣,信息矩陣)和GG-1(其中G是梯度的矩陣)中任一個被計算,或利用H-1GG-1H-1(Huber/White矩陣)來計算。80例7.8

Heckman選擇模型實例1Heckman選擇模型的一個典型例子是Mroz(1987)研究已婚婦女的勞動力供給問題。他建立了婦女工資方程來研究婦女參加工作的影響因素,Mroz所研究的753名婦女中只有428名有工作,所以利用Heckman選擇模型來模擬已婚婦女的樣本選擇行為。工資方程由下式給出:

(7.4.10)式中Wagei表示婦女工資,Experi是每位婦女經(jīng)歷的測度,Educi是她的受教育水平,Cityi為是否生活在城市的虛擬變量。81

選擇方程由下式給出:(7.4.11)式中LFPi是二進制變量,婦女有工作時值為1,否則為0,即式(7.4.11)中AGEi是婦女的年齡;FAMINCi是非婦女賺取的家庭收入的水平,Kidsi是婦女是否有孩子的虛擬變量。

82EViews軟件的操作1.模型的估計

為了估計此模型,從主菜單中選擇Objects/NewObject,并從該菜單中選擇Equation選項顯示EquationEstimation對話框。在Estimationsettings區(qū)域的Method對話框中,選擇HECKIT-HeckmanSelectiom估計方法。圖7.7.2赫克曼選擇模型的估計對話框83

方程設定對話框分成兩個部分,這兩個部分分別為響應方程(ResponseEquation)和選擇方程(SelectionEquation)對話框,在兩個對話框分別鍵入因變量和自變量來完成方程的設定。注意在選擇方程中因變量一定是取值為0和1的形式。在估計方法中可以選擇極大似然法(MaximunLikelihoc)和赫克曼兩步法(Heckmantwo-step)。如果選擇極大似然估計方法,單擊Option按鈕選項可以選擇,包括系數(shù)協(xié)方差矩陣的估計方法,初始值的設定和估計法則三個部分。在系數(shù)協(xié)方差矩陣的估計方法中可以選擇OuterProductofGradients,Information,Matrix和Huber/White方法。對于初值,可以選擇Eviews通過Heckman兩步法獲得初值或者不同權重的初值,如果選擇用戶設定選項EViews將從工作文件中的系數(shù)向量中獲得初值。在估計法則中,EViews默認的是Newton-Raphon方法。842.估計結果輸出85EViews會分別給出響應方程和選擇方程的估計結果,包括系數(shù)的估計值、標準誤、t統(tǒng)計量和相應的p-值。在估計結果的下面會給出一些與其他估計方法類似的統(tǒng)計量。如果選擇極大似然法進行估計,除了給出參數(shù)的估計結果外還會給出和的估計值及相應的標準差和顯著性檢驗信息。86工資方程:

t=(-0.82)(0.43)

(-0.03)

(4.45)

(1.42)選擇方程:

t=(-2.96)(2.80)(-3.12)(1.07)

(4.30)

(-3.48)

由選擇方程的估計結果可知,婦女選擇是否參加工作主要取決于年齡、教育水平和是否有孩子。并且與年齡呈倒U型的關系,教育水平越高越傾向于選擇參加工作,而沒有孩子的婦女比有孩子的婦女選擇參加工作的概率大。工資方程的估計結果表明,婦女的工資水平主要取決于教育水平和是否生活在城市中,教育水平越高工資越高,而城市婦女的工資高于非城市婦女的工資。87例7.9

Heckman選擇模型實例2本例研究老年人對子女的財富代際轉移問題。已有的研究表明,父母是否選擇向子女轉移財富及轉移數(shù)量代際轉移與父母和子女的特征變量有關,如父母年齡、健康狀況或收入水平等,子女的性別、是否為獨生子女等。利用中國健康與養(yǎng)老追蹤調查(CHARLS)2013年全國基線調查的4634個樣本數(shù)據(jù)定量研究老年人對子女財富代際轉移的影響因素。轉移方程中的因變量(y)為父母對子女家庭財富轉移的數(shù)量(單位:元),選擇方程的因變量為二元變量(z),表示父母是否選擇向子女家庭轉移財富(轉移取為1,不轉移則為0)。選取的解釋變量包括:父母的年齡(x1)、是否為獨生子女(x2,是取為1,否則為0)、子女的性別(x3,男性取為1,女性取為0)、父母是否為農(nóng)村戶口(x4,農(nóng)村戶口取1,否則取0),父母的收入(x5)、父母是否健康(x6,健康取1,否則取0);父母是否照顧孫子女(x7,照顧取1,否則取0)、是否與父母同?。▁8,與父母同住取1,否則取0)。利用Heckman選擇模型分別建立轉移方程和選擇方程。88Heckman兩步法的估計結果:轉移方程:

t=(-2.74)(3.69)(1.58)(-3.11)(4.73)(1.22)選擇方程:

t=(-16.6)(3.81)(10.14)(4.51)(7.34)(3.17)89從估計結果可以看出父母健康狀況良好,收入水平較高的家庭向子女轉移財富的概率更大。另外,獨生子女家庭、父母參與照顧孫子女或者與父母同住也會增加老人向子女財富轉移的概率。從轉移方程的估計結果可以看出,父母的年齡越大向子女財富轉移的數(shù)量越少,收入越低轉移給兒女的財富越少,相比較而言農(nóng)村的父母財富轉移量少于非農(nóng)村戶口的父母。以赫克曼兩步法的估計結果為例,父母對子女的財富轉移偏向于兒子,對兒子家庭財富轉移要比對女兒家庭財富轉移平均多799元;獨生子女家庭中,父母對子女家庭財富轉移的概率更大,并且與非獨生子女家庭相比,父母對獨生子女家庭的財富轉移平均要多約4570元,這說明在獨生子女家庭中父代財富向子代轉移的現(xiàn)象更明顯。90

在實際應用中,我們應該根據(jù)要研究的變量的數(shù)據(jù)類型選擇合適的模型。當因變量y表示事件發(fā)生的數(shù)目,是離散的整數(shù),即為計數(shù)變量,并且數(shù)值較小,取零的個數(shù)多,而解釋變量多為定性變量時,應該考慮應用計數(shù)模型(countmodels)。例如,一個公司提出申請的專利的數(shù)目,以及在一個固定的時間間隔內的失業(yè)人員的數(shù)目。在計數(shù)模型中應用較廣泛的為泊松模型。7.5計數(shù)模型917.5.1泊松模型的形式與參數(shù)估計

設每個觀測值yi都來自一個服從參數(shù)為m(xi,)的泊松分布的總體,(7.5.1)對于泊松模型(poissonmodel),給定xi時yi的條件密度是泊松分布:(7.5.2)由泊松分布的特點,(7.5.3)參數(shù)的極大似然估計量(MLE)通過最大化如下的對數(shù)似然函數(shù)來得到:(7.5.4)92

倘若條件均值函數(shù)被正確的指定且的條件分布為泊松分布,則極大似然估計量是一致的、有效的、且服從漸近正態(tài)分布。泊松假定的約束條件在經(jīng)驗應用中經(jīng)常不成立。最重要的約束條件是式(7.5.3)中的條件均值和條件方差相等。如果這一條件被拒絕,模型就被錯誤設定。這里要注意泊松估計量也可以被解釋成準極大似然估計量。這種結果的含義在下面討論。

93

7.5.2負二項式模型的形式與參數(shù)估計

對泊松模型的常用替代是使用一個負二項式(negativebinomial)分布的似然函數(shù)極大化來估計模型的參數(shù)。負二項式分布的對數(shù)似然函數(shù)如下:

(7.5.5)式中:2是和參數(shù)一起估計的參數(shù)。當數(shù)據(jù)過度分散時,經(jīng)常使用負二項式分布,這樣條件方差大于條件均值,由于下面的矩條件成立:(7.5.6)(7.5.7)因此,2測量了條件方差超過條件均值的程度。94

7.5.3準-極大似然估計

如果因變量的分布不能被假定為泊松分布,那么就要在其他分布假定之下執(zhí)行準-極大似然估計(quasi-maximumlikelihood,QML)。即使分布被錯誤假定,這些準-極大似然估計量也能產(chǎn)生一個條件均值被正確設定的參數(shù)的一致估計,即對于這些QML模型,對一致性的要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論