第4講多元回歸之推斷_第1頁
第4講多元回歸之推斷_第2頁
第4講多元回歸之推斷_第3頁
第4講多元回歸之推斷_第4頁
第4講多元回歸之推斷_第5頁
已閱讀5頁,還剩50頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第四章:多元回歸分析之推斷§4.1OLS估計量的樣本分布

§4.2單個總體參數(shù)的假設檢驗:t檢驗

§4.3

置信區(qū)間§4.4參數(shù)線性組合的假設檢驗§4.5多個線性約束的假設檢驗§4.6報告回歸結果第一節(jié)OLS估計量的樣本分布(SamplingDistributionsoftheOLSEstimators)一、樣本分布(SamplingDistribution):復習簡單隨機抽樣(Simplerandomsampling

)是指從總體(population)中隨機取樣n次,使得總體中的每個元素在樣本(sample)中的出現(xiàn)的可能性相同。如果y1,y2,…,yn

來自于同一分布且相互獨立,則稱這一組隨機變量獨立同分布(independentlyandidenticallydistributed)(i.i.d.)樣本分布(Samplingdistributions)在統(tǒng)計學和計量經(jīng)濟學發(fā)展中具有核心地位,它是指一個估計量(estimator)在其所有可能取值上的概率分布刻畫樣本分布的兩種方式:“準確(exact)”

方式和“近似(approximate)”

方式“準確”方式需要對任何n的取值都得到樣本分布的精確表達式,這樣的分布被稱為小樣本(有限樣本)的準確分布例如:如果y服從正態(tài)分布(normallydistributed),且y1,y2,…,yn

獨立同分布,則其均值(average)恰好服從正態(tài)分布“近似”方式對樣本分布進行大樣本下的近似,對樣本分布的大樣本近似常稱為漸近分布(asymptoticdistribution)。兩個重要工具:大數(shù)定律(lawoflargenumbers),中心極限定理(centrallimittheorem)只要樣本量足夠大,漸近分布就是對準確分布的很好的近似。大數(shù)定律:在一般情形下,當樣本量(samplesize)充分大時,樣本均值將以很高的概率逼近總體均值。本課中,為了應用大數(shù)定律,我們假設y為獨立同分布(i.i.d)具有有限方差(itsvarianceisfinite)的隨機取樣。中心極限定理:假設y1,y2,…,yn

獨立同分布,均值為μ,方差為σy2,其中0<σy2<。則當時,的分布可以被標準正態(tài)分布(standardnormaldistribution)近似得任意好。中心極限定理意味著,在一般條件下,如果樣本足夠大,標準化的樣本均值的樣本分布可以由標準正態(tài)分布近似。二、OLS估計量的樣本分布我們已經(jīng)討論了OLS估計量的期望和方差,但是為了進行統(tǒng)計推斷(statisticalinference),我們仍希望知道樣本分布。OLS估計量的樣本分布依賴于對誤差項分布的假設,下面我們將給出相關的假設。假設MLR.6(正態(tài)性)(Normality)我們已經(jīng)知道當高斯——馬爾科夫假設成立時,OLS是最優(yōu)線性無偏估計(BLUE)。為了進行經(jīng)典的假設檢驗(hypothesistesting),我們要在Gauss-Markov假設之外增加另一假設。假設MLR.6(正態(tài)性):假設u與x1,x2,…,xk獨立,且u服從均值為0,方差為s2的正態(tài)分布(normallydistribution)。假設MLR.1~MLR.6被稱為經(jīng)典線性模型假設(classicallinearmodel

assumptions)簡稱CLM。我們將滿足這六個假設的模型稱為經(jīng)典線性模型(classicallinearmodel)在經(jīng)典線性模型假設下,OLS不僅是BLUE,而且是最小方差無偏估計量,即在所有線性(linear)和非線性(nonlinear)的估計量中,OLS估計量均具有最小的方差。MLR.1~MLR.6假定MLR.1(對參數(shù)而言為線性)假定MLR.2(隨機抽樣性)假定MLR.3(不存在完全共線性)假定MLR.4(零條件均值)假定MLR.5(同方差性假定)Gauss-Markovassumptions對總體(population)的經(jīng)典線性模型假設做個總結:y|x~Normal(b0+b1x1+…+bkxk,s2)盡管現(xiàn)在我們假設了正態(tài),但有時候并不是這種情況,如果正態(tài)假設不成立怎么辦?通過變換,特別是通過取自然對數(shù),往往可以得到接近于正態(tài)的分布。另外,當樣本較大時,允許我們放棄正態(tài)假設(近似方式)..x1x2同方差(homoskedastic)正態(tài)分布——單解釋變量情形E(y|x)=b0+b1xyf(y|x)Normaldistributions定理4.1:正態(tài)樣本分布在CLM假設下,條件于解釋變量的樣本值,有:因此,有:其中,服從正態(tài)分布,因為它是誤差項的線性組合教材P119可以擴展定理4.1:的任意線性組合(linearcombination)服從正態(tài)分布,任意子集服從聯(lián)合正態(tài)分布(jointnormaldistribution)。我們將利用這些事實來進行下面的假設檢驗:第二節(jié)對單個總體參數(shù)的假設檢驗:t檢驗(HypothesesTestingaboutaSinglePopulationParameter:thet-test

)考慮總體中滿足CLM的模型:我們現(xiàn)在研究如何對一個特定的進行假設檢驗被檢驗的假設稱為零假設(nullhypothesis)假設檢驗利用數(shù)據(jù)將零假設和另一個假設也就是替代假設(alternativehypothesis)進行比較替代假設給出的是在零假設不成立時的真實情況。我們的目的在于:利用一個隨機選取的樣本提供給我們的數(shù)據(jù)來決定是否應當接受零假設。在假設檢驗中存在兩種可能的錯誤:第一類錯誤:當零假設為真時拒絕零假設(去真)第二類錯誤:當零假設為假時未拒絕零假設(存?zhèn)危┪覀兘⒁恍┘僭O檢驗的規(guī)則使發(fā)生第一類錯誤的概率非常小一個檢驗的顯著性水平(significancelevel

)是發(fā)生第一類錯誤的概率。通常設定的顯著性水平為:0.1,0.05,0.01。如果為0.05意味著研究者愿意在5%的檢驗中錯誤地拒絕零假設。檢驗統(tǒng)計量的臨界值(criticalvalue)是使得零假設剛好在給定顯著性水平上被拒絕的統(tǒng)計量的值。假設檢驗中,使得零假設被拒絕的檢驗統(tǒng)計量的取值范圍稱為拒絕域(rejectionregion),使得零假設不能被拒絕的檢驗統(tǒng)計量的取值范圍成為接受域(acceptanceregion)。一個檢驗統(tǒng)計量(T)是關于隨機樣本的一個函數(shù)。當我們用某一特定樣本計算此統(tǒng)計量時,我們得到這個檢驗統(tǒng)計量的一個實現(xiàn)(t)。Ateststatistic(T)issomefunctionoftherandomsample.Whenwecomputethestatisticforaparticularsample,weobtainanoutcomeoftheteststatistic(t).定理4.2:標準化估計量的t分布(tDistributionfortheStandardizedEstimators)在CLM假設下,有:注意,這是一個t分布,因為我們要用來估計。注意自由度:n-k-1。知道標準化估計量的樣本分布后,便可以進行假設檢驗由零假設出發(fā),例如,H0:bj=0接受零假設意味著控制其它解釋變量之后,

xj對y沒有影響。為了進行檢驗,我們首先要構造的t統(tǒng)計量:然后利用t統(tǒng)計量和拒絕條件來決定是否接受零假設H0t統(tǒng)計量度量了估計值相對0偏離了多少個估計的標準離差。它的符號與相同。值得注意的是我們檢驗的是關于總體參數(shù)的假設,而不是關于來自某一特定樣本的估計值的假設。t檢驗:單邊替代假設(tTest:One-SidedAlternatives)除了零假設外,我們還需要一個替代假設H1,并設定相應的顯著性水平,其中,H1可以是單邊的或雙邊的:H1:bj

>0和H1:bj<0是單邊的H1:bj

0是雙邊替代假設如果我們愿意在5%的概率上錯誤地拒絕實際上為真的零假設,則說我們的顯著水平為5%取定顯著性水平a后,找到自由度(degreeoffreedom)為n–k–1的t分布的(1–a)分位數(shù)((1–a)thpercentile)c,即臨界值(criticalvalue)如果H0:bj=0,相應的H1:bj>0,當時我們拒絕H0,若

,則不能拒絕H0由于t分布是對稱的,如果H0:bj=0,相應的H1:bj<0,當時我們拒絕H0,若,則不能拒絕H0yi=b0+b1xi1

+…

+bkxik+uiH0:bj=0H1:bj>0c0a(1-a)單邊替代假設(One-SidedAlternatives)Failtorejectrejectt分布與正態(tài)分布當t分布的自由度增大時,t分布趨近于標準正態(tài)分布。例子:學生表現(xiàn)與學校規(guī)模(meap93.raw)P125問題:較大的班級是否意味著較差的學生表現(xiàn)? math10:學生數(shù)學測驗成績;enroll:學校規(guī)模totcomp:教師平均年薪;staff:生師比確定被檢驗的假設:H0:βenroll=0,學校規(guī)模對學生成績沒有影響H1:βenroll<0,學校規(guī)模對學生成績有負效應檢驗結果:我們所關注的變量——學校規(guī)模(enroll)的系數(shù)為負,說明學校規(guī)模的確對學生成績存在負的效應,規(guī)模越大,學生的成績就越差。自由度為408-3-1=404,使用標準正態(tài)的臨界值,在5%顯著水平下,臨界值位-1.65,但此處的標準差為t=-0.0002/0.00022=-0.91>-1.65,我們不能拒絕零假設。如果我們同樣感興趣是否高收入的教師會使學生表現(xiàn)更好,我們可以檢驗:H0:βtotcomp=0,教師收入高低對學生成績沒有影響;H1:βtotcomp>0,教師收入越高學生表現(xiàn)越好計算得到的t統(tǒng)計量為4.6。由于4.6>2.326,故在1%顯著水平下拒絕零假設。在前面的回歸中,采取了“水平-水平”的模型形式,這使得我們所關注變量的系數(shù)并不顯著,而且,即便是這一系數(shù)顯著,也很難給出比較合理的解釋,因此我們可以考慮對解釋變量取對數(shù)的形式重新進行回歸,這樣log(enroll)的系數(shù)就可以解釋為:學校里學生注冊人數(shù)每變化一個百分點會引起學生成績變化β/100個單位?;貧w結果如下:

log(enroll)的系數(shù)在10%的顯著性水平下拒絕了零假設,說明在其他條件不變的情況下,學校里學生注冊人數(shù)增加一個百分點會引起學生成績變化減少0.013個百分點(成績的單位就是百分數(shù))。雙邊替代假設

(TheTwo-sidedAlternatives)H1:bj

0為雙邊替代假設。在此替代假設下,我們并不規(guī)定xj

對y影響的符號。對于雙邊檢驗,我們根據(jù)a/2計算臨界值。當t的絕對值大于臨界值c時,拒絕零假設。當a=0.05時,c是n-k-1自由度的t分布的97.5分位數(shù)。yi=b0+b1Xi1

+…

+bkXik+uiH0:bj=0H1:bj

≠0c0a/2(1-a)-ca/2雙邊替代假設

(Two-SidedAlternatives)rejectrejectfailtoreject仍以前面的例子的數(shù)據(jù)說明生師比對學生成績的影響:現(xiàn)在要進行檢驗的假設為:H0:bstaff=0,生師比對學生表現(xiàn)沒有影響;H1:bstaff≠0,生師比對學生表現(xiàn)有影響。計算得到的t值為1.2。標準正態(tài)分布的在5%的顯著水平對應的臨界值為1.96。由于1.2<1.96,我們不能拒絕零假設。小結除非特別指出,我們總認為替代假設是雙邊的如果拒絕了零假設,我們通常說“xj

在a%水平下顯著”(xjisstatisticallysignificantatthea%level)如果不能拒絕零假設,我們通常說“xj

在a%水平下不顯著”(xjisstatisticallyinsignificantatthea%level)其他假設檢驗

(Testingotherhypotheses)如果我們想對形如H0:bj=aj

的假設進行檢驗,需要更一般的t統(tǒng)計量,此時,恰當?shù)膖統(tǒng)計量是:當進行標準檢驗時,例子:校園犯罪與錄取(campus.raw)P129問題:錄取量提高1%是否會導致校園犯罪增加超過1%?假設犯罪總數(shù)由下式?jīng)Q定:我們將上面關系時進行變換,可以估計:log(crime)=b0+b1

log(enroll)+u待檢驗的假設為:H0:b1=1,H1:b1>1.回歸結果如下:t值=(1.27-1)/0.11=2.45。自由度為95的t分布,1%顯著水平下單邊檢驗的臨界值為2.37<2.45,拒絕零假設。計算t檢驗的p值

(Computingp-valuesfortTests)表述零假設和替代假設(Statethenullandthealternativehypothesis)決定顯著水平,找到臨界值(Decideasignificancelevelandfindtherelatedcriticalvalue)根據(jù)樣本數(shù)據(jù)計算

t統(tǒng)計量(Calculatethetstatisticbasedonthesampledata)比較

t

值與臨界值,決定是否拒絕零假設(Comparethetstatisticwiththecriticalvaluetodecidewhethertorejectthenull)。經(jīng)典假設檢驗的步驟:假設自由度為40,算得

t

值為2.423,對應5%和1%的臨界值分別為2.021和2.704。我們是否應當拒絕零假設?提前確定顯著水平可能會隱藏關于假設檢驗的一些有用信息。另一種想法:如果將算得的t

統(tǒng)計量作為臨界值,那么使得零假設被拒絕的最小顯著水平是多少?這個水平稱為p值。對于雙邊檢驗,有:p-value=P(|T|>|t|).C0.025C0.025C0.005C0.005C0.01C0.01pα/2pα/2在上面的例子中,下列不等式必然成立:1%<p<5%.p-value=P(|T|>2.423)=2P(T>2.423)=0.02.一些關于p值的信息

(Usefulinformationaboutp-values)由于這是一個概率,其取值范圍在0,1之間小p值提供了拒絕零假設的證據(jù),大p值不能提供證據(jù)拒絕零假設。經(jīng)濟重要性與統(tǒng)計顯著性

(EconomicSignificanceversusstatisticalsignificance)統(tǒng)計顯著性完全由t

統(tǒng)計量的大小決定經(jīng)濟上的重要性強調估計系數(shù)的大小權衡兩者來判斷解釋變量對被解釋變量的邊際影響第三節(jié)置信區(qū)間(

ConfidenceIntervals)由于隨機取樣誤差(randomsamplingerror)的存在,我們不可能通過樣本知道b

的準確值。但是利用來自隨機樣本的數(shù)據(jù)構造一個取值的集合,使得真值在給定概率下屬于這個集合是可能的。這樣的集合稱為置信集(confidenceset),預先設定的真值屬于此集合的概率稱為置信水平(confidencelevel置信度),置信集是下限和上限之間所有可能的取值,故置信集為一個區(qū)間,稱為置信區(qū)間(confidenceinterval)。b的置信區(qū)間

(ConfidenceIntervalsforb)通過對上述分析進行擴展,我們可以利用雙邊檢驗的臨界值來構造b的置信區(qū)間。如果服從n-k-1自由度的t

分布,簡單的運算可以得到關于未知的bj

的置信區(qū)間如果自由度為25,那么對任意bj

,95%的置信區(qū)間為當n-k-1>120,t(n-k-1)分布與正態(tài)分布充分接近,可以用標準正態(tài)分布的97.5分位數(shù)來構造95%置信區(qū)間構造了置信區(qū)間之后,可以進行雙尾假設檢驗零假設為H0:bj=aj,當且僅當aj不在95%的置信區(qū)間內時,零假設相對于H1:bj≠aj在5%的顯著水平上被拒絕。例子:研發(fā)支出模型(RD-CHEM.RAW)P137銷售額對數(shù)的系數(shù)為1.084,這意味著保持利潤率不變,銷售額提高1%將伴隨著研發(fā)支出提高1.084%。值得注意的是,自由度為29,在5%的顯著性水平上,t29的97.5%分位數(shù)為2.045,因此,可以算出銷售額對數(shù)的系數(shù)的95%置信區(qū)間為[1.804-2.045*0.060,1.804+2.045*0.060]=[0.961,1.207],顯然,0不在這個置信區(qū)間內,因此該系數(shù)為零的假設相對于不為零的假設在5%的顯著性水平上被拒絕。

(TestingaLinearCombination)在一些情況下,我們需要檢驗一個參數(shù)是否等于另一個參數(shù),而不是檢驗b1是否等于一個常數(shù)。在這種情況下,零假設為H0:b1=b2應用與構造t統(tǒng)計量相同的程序:第四節(jié)檢驗關于參數(shù)線性組合的假設需要s12帶入上式計算,標準的程序并不報告此值。許多軟件有計算此值的選項,或是可以直接進行檢驗,例如在stata中,可以在回歸之后,通過命令testx1=x2得到檢驗的p值例子:大專和本科教育對收入的影響是否相同(twoyear.raw)P139jc:就讀大專的年數(shù);univ:就讀本科的年數(shù)需要進行檢驗的假設為:H0:b1=b2,其他條件不變的情況下,多接受一年大專和多接受一年本科教育對收入的影響相同;

H1:b1<b2,其他條件不變的情況下,多接受一年大專和多接受一年本科教育對收入的影響不相同.要估計的模型為:估計的結果為:jc和univ的系數(shù)都顯著為正,說明二者都對收入有正向影響,但二者的系數(shù)差異并不大,為了驗證二者的系數(shù)是否相等,即b1是否等于b2,可以構造一個新的參數(shù)θ=b1-b2,從而檢驗θ

是否為零。θ=b1-b2,

b1=θ

+b2,因此回歸方程就可以整理為:其中:對模型進行改寫之后,估計的結果為:Jc的系數(shù)θ估計值為-0.0102,t統(tǒng)計量為-1.47,p值為0.142,但因為是單邊假設,因此,p值為0.071,只在10%的水平上顯著,因此我們可以拒絕θ=0的假設,即認為??坪捅究平逃龑べY收入的影響不相同,但這以結果并不特別顯著。如果我們在stata中直接檢驗b1=b2成立與否,結果不顯著,如右:第五節(jié)對多個線性約束的檢驗:F檢驗(TestingMultipleLinearRestrictions:TheFTest)多線性約束(MultipleLinearRestrictions)目前為止,我們討論了對單個線性約束的假設檢驗(例如,b1=0或b1=b2),然而,我們也想對我們的參數(shù)作多個檢驗一個典型的例子是檢驗“排除約束”(exclusionrestrictions)——我們想知道是不是一組參數(shù)都等于0檢驗排除約束(TestingExclusionRestrictions)此時,零假設形如H0:bk-q+1=0,...,bk=0,替代假設H1:H

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論