第三章雙變量模型 假設(shè)檢驗(yàn)_第1頁
第三章雙變量模型 假設(shè)檢驗(yàn)_第2頁
第三章雙變量模型 假設(shè)檢驗(yàn)_第3頁
第三章雙變量模型 假設(shè)檢驗(yàn)_第4頁
第三章雙變量模型 假設(shè)檢驗(yàn)_第5頁
已閱讀5頁,還剩152頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1回歸分析概述參數(shù)估計(jì)模型檢驗(yàn)?zāi)P皖A(yù)測(cè)第三章雙變量模型:假設(shè)檢驗(yàn)為什么會(huì)有“假設(shè)”?“假設(shè)”經(jīng)常是實(shí)際情況的簡(jiǎn)約表述通常如此,排除個(gè)別例外。如“理性人”或“經(jīng)濟(jì)人”假設(shè)劃定界限,說明本理論體系中只研究某領(lǐng)域的東西任何有條理的道理都不能太復(fù)雜也是力有不逮假設(shè)檢驗(yàn)思想舉例她是大學(xué)生?為什么不是?大學(xué)生如此著裝的概率很低基于概率判斷的“排除法”*理論的最初探索1710年,阿布茲諾特在英國(guó)皇家學(xué)會(huì)宣讀論文《從兩性出生數(shù)觀察的規(guī)律性所得關(guān)於神的意旨存在的一個(gè)論據(jù)》。他研究了1629-1710年倫敦出生的男女?dāng)?shù),全是男多女,推理:有兩種可能:⑴生男或生女純屬偶然;⑵“神的意旨”,生男的機(jī)會(huì)大于生女。如果⑴成立,則一年內(nèi)生男的機(jī)會(huì)大于生女機(jī)會(huì)的概率不大于0.5,連續(xù)82年出現(xiàn)這情況的概率不應(yīng)超過(1/2)82<10-24。一億億億分之一,這不合情理。他首先提出用統(tǒng)計(jì)數(shù)據(jù)去驗(yàn)證一種說法的問題。來自女士品茶的靈感20世紀(jì)的R.A.Fisher:一女士說她能分辨奶茶中先倒進(jìn)杯子的是奶還是茶。設(shè)計(jì)試驗(yàn):8杯奶茶,先倒奶的4杯,請(qǐng)她品嘗。設(shè)她挑出了這4杯。假設(shè)她無分辨能力,則8中選4共有70種方法()。全選對(duì)的概率僅為1/70,有假設(shè)1.無鑒別能力,純屬偶然2.有鑒別能力

*假設(shè)1與假設(shè)2相矛盾。如果承認(rèn)1,概率只有1/70,如果不願(yuàn)意接受這么低的概率,就必須放棄此假設(shè)。一個(gè)理智的選擇是假設(shè)2:她居然真的有能力區(qū)分出來。課堂問題1:什么是假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)的流程實(shí)訓(xùn)題:某餐廳以前營(yíng)業(yè)額8000元/天,標(biāo)準(zhǔn)差640元,改了菜單,觀察了9天,平均營(yíng)業(yè)額8300/天,標(biāo)準(zhǔn)差640元。這300元的差異是改菜單所導(dǎo)致嗎?請(qǐng)回憶切比雪夫經(jīng)驗(yàn)公式6假設(shè)檢驗(yàn)的過程和邏輯假設(shè)檢驗(yàn)的基本思想運(yùn)用“證明某個(gè)事物的正確性不如否定其對(duì)立面容易”的簡(jiǎn)單邏輯,通過數(shù)學(xué)過程來實(shí)現(xiàn)的一個(gè)方法;它通過數(shù)據(jù)和模型的矛盾來否定舊的模型。假設(shè)如此,如果“如此”的概率比較小,就說明實(shí)際上“不如此”概率一般是0.1,0.05,0.01*假設(shè)檢驗(yàn)的流程提出假設(shè)確定適當(dāng)?shù)臋z驗(yàn)統(tǒng)計(jì)量規(guī)定顯著性水平

計(jì)算檢驗(yàn)統(tǒng)計(jì)量的值作出統(tǒng)計(jì)決策均值檢驗(yàn)中檢驗(yàn)統(tǒng)計(jì)量的選擇總體正態(tài)?n≥30?σ2已知?否是是否否是實(shí)際中總體方差總是未知的,因而這是應(yīng)用最多的公式。大樣本時(shí)t值可以用z值來近似。根據(jù)中心極限定理得到的近似結(jié)果。

σ未知時(shí)用s來估計(jì)。增大n;數(shù)學(xué)變換等。檢驗(yàn)菜單的作用

猜測(cè):營(yíng)業(yè)額的提高有可能真的是“改了菜單”所帶來的,也可能因?yàn)樽罱@9天“恰好”是偏高的。假設(shè)營(yíng)業(yè)額服從正態(tài)分布。分析過程見"概率分佈.doc"*例1、提出零假設(shè)和備擇假設(shè)2、選擇檢驗(yàn)統(tǒng)計(jì)量:根據(jù)題意3、檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值4、顯著性水平等于0.05。根據(jù)z值(或t值)進(jìn)行雙側(cè)檢驗(yàn)0Za/2=1.96-Za/2=-1.96a/2

/2

Z,t拒絕域拒絕域接受域1-

置信水平?jīng)Q策規(guī)則:|Zobs|>

Z

/2時(shí)拒絕零假設(shè),

否則不能拒絕零假設(shè)。本例中統(tǒng)計(jì)量的觀測(cè)值等于1.4063,因此結(jié)論

是不拒絕零假設(shè),認(rèn)為菜單對(duì)銷售額不顯著。統(tǒng)計(jì)量的觀測(cè)

值等于1.4063H0m=

m0H1m≠m0曲線下面積分布規(guī)律0-11-1.961.96-2.582.5868.27%95.00%99.00%查附表

Chebyshev’stheorem

切比雪夫定理

經(jīng)驗(yàn)法則

經(jīng)驗(yàn)法則表明:當(dāng)一組數(shù)據(jù)對(duì)稱分布時(shí)約有68%的數(shù)據(jù)在平均數(shù)加減1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有95%的數(shù)據(jù)在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有99%的數(shù)據(jù)在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)切比雪夫不等式

(Chebyshev’sinequality)如果一組數(shù)據(jù)不是對(duì)稱分布,經(jīng)驗(yàn)法則就不再適用,這時(shí)可使用切比雪夫不等式,它對(duì)任何分布形狀的數(shù)據(jù)都適用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”對(duì)于任意分布形態(tài)的數(shù)據(jù),根據(jù)切比雪夫不等式,至少有1-1/k2的數(shù)據(jù)落在平均數(shù)加減k個(gè)標(biāo)準(zhǔn)差之內(nèi)。其中k是大于1的任意值,但不一定是整數(shù)切比雪夫不等式

(Chebyshev’sinequality)

對(duì)于k=2,3,4,該不等式的含義是至少有75%的數(shù)據(jù)落在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)至少有89%的數(shù)據(jù)落在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)至少有94%的數(shù)據(jù)落在平均數(shù)加減4個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)3.1古典線性回歸模型古典線性回歸模型的基本假設(shè)原因1:只有符合這些基本假定,才能保證OLS參數(shù)估計(jì)量具有良好的性質(zhì);原因3:隨機(jī)誤差項(xiàng)加上一個(gè)非隨機(jī)項(xiàng)X生成了Y,因而Y也是隨機(jī)變量。在根據(jù)SRF進(jìn)行假設(shè)檢驗(yàn)時(shí),如果不對(duì)隨機(jī)誤差項(xiàng)的生成做一些特殊的假定,則無法進(jìn)行假設(shè)檢驗(yàn)。原因2:如果不滿足這些假定,第二部分會(huì)進(jìn)一步進(jìn)行處理。這是基于學(xué)習(xí)的由淺入深、由理想狀態(tài)到現(xiàn)實(shí)實(shí)際的步驟。19古典線性回歸模型的基本假定總結(jié)假定1:回歸模型是參數(shù)線性的假定:隨機(jī)誤差項(xiàng)

與解釋變量X之間不相關(guān)。Cov(Xi,

i)=0i=1,2,…,n如果X是非隨機(jī)的(即為固定值),則該假定自動(dòng)滿足。我們所指的回歸分析是條件回歸分析,即給定X條件下的回歸分析,即我們一直假定X是非隨機(jī)的。20Assumption2假定2:在重複抽樣中X的值是固定的(非隨機(jī))Xvaluesare?xedinrepeatedsampling.ValuestakenbytheregressorXareconsidered?xedinrepeatedsamples.Moretechnically,Xisassumedtobenonstochastic.假定3:給定Xi,隨機(jī)誤差項(xiàng)的期望或均值為零。E(

iXi)=0i=1,2,…,n隨機(jī)誤差項(xiàng)(其他影響因素)與Xi(納入模型的變量)之間不相關(guān)。2223假定4:隨機(jī)誤差項(xiàng)

具有同方差,即方差為常數(shù)。Var(

i)=

2i=1,2,…,n與給定X相對(duì)應(yīng)的每個(gè)Y的條件分布具有同方差,即每個(gè)Y值以相同的方差分布在其均值周圍。24假定5:無自相關(guān)。即隨機(jī)誤差項(xiàng)

之間不相關(guān)。Cov(

i,

j)=0i≠ji,j=1,2,…,n表明誤差項(xiàng)之間沒有系統(tǒng)關(guān)系,即誤差是隨機(jī)的。25Assumption5假定5:各個(gè)干擾項(xiàng)無自相關(guān)。

Noautocorrelationbetweenthedisturbances.Cov(ui,uj|Xi,Xj)=E[ui-E(ui|Xi)][uj-E(uj|Xj)]=E(ui|Xi)(uj|Xj)=0假定6:回歸模型是正確設(shè)定的。即實(shí)證分析的模型不存在設(shè)定偏差。假定7:隨機(jī)誤差項(xiàng)服從零均值、同方差、零協(xié)方差的正態(tài)分布。

i~N(0,

2)i=1,2,…,n為了推導(dǎo)估計(jì)量的抽樣分布,需要增加以下假定可以計(jì)算出OLS的估計(jì)量及其標(biāo)準(zhǔn)誤、估計(jì)量的統(tǒng)計(jì)性質(zhì)根據(jù)中心極限定理可得,參數(shù)估計(jì)量也服從正態(tài)分布進(jìn)一步說明27Assumption6模型沒有設(shè)定誤差。Theregressionmodeliscorrectlyspeci?ed.Alternatively,thereisnospeci?cationbiasorerrorinthemodelusedinempiricalanalysis.Theprecedingexampleisaninstanceofwhatiscalledaspeci?cation

biasoraspeci?cationerror;herethebiasconsistsinchoosingthewrong

functional小結(jié)-古典線性回歸模型的基本假設(shè)假定1:回歸模型是參數(shù)線性的假定2:隨機(jī)誤差項(xiàng)

與解釋變量X之間不相關(guān)。假定6:回歸模型是正確設(shè)定的。即實(shí)證分析的模型不存在設(shè)定偏差。假定3、4、5、7:隨機(jī)誤差項(xiàng)服從零均值、同方差、零協(xié)方差的正態(tài)分布。i=1,2,…,n29課堂問題2:什么是正態(tài)分布什么是自由度,協(xié)方差的公式

什么是標(biāo)準(zhǔn)誤30正態(tài)分布統(tǒng)計(jì)學(xué)第五章內(nèi)容正態(tài)分布(normaldistribution)由均值與方差唯一決定概率密度函數(shù)(PDF,probabilitydistributionorprobabilitydensityfunction)如何決定概率密度或頻率高度的對(duì)應(yīng)規(guī)則)在X=μ處為極值,圖形軸對(duì)稱注:F(X)稱為累積分布函數(shù)(CDF,cumulativedistributionfunction),定義:F(X)=P(x≤X)*正態(tài)曲線(normalcurve

)圖形特點(diǎn):鐘型中間高兩頭低左右對(duì)稱最高處對(duì)應(yīng)于X軸的值就是均數(shù)曲線下面積為1標(biāo)準(zhǔn)差決定曲線的形狀Xf(X)m

μ決定曲線的位置,σ決定曲線的“胖瘦”

標(biāo)準(zhǔn)正態(tài)分布標(biāo)準(zhǔn)正態(tài)分布(standardnormaldistribution)的兩個(gè)參數(shù)為:μ=0,σ=1記為

N(0,1)

一般正態(tài)分布為一個(gè)分布族:N(m,s2)

;標(biāo)準(zhǔn)正態(tài)分布只有一個(gè)

N(0,1)

;這樣簡(jiǎn)化了應(yīng)用標(biāo)準(zhǔn)正態(tài)分布StandardNormal(Z)DistributionOneveryspecialmemberofthenormaldistributionfamilyiscalledthestandardnormaldistribution,orZ-distribution.TheZ-distributionisusedtohelpfindprobabilitiesandsolveothertypesofproblemswhenworkingwithanynormaldistribution.Thestandardnormal(Z)distributionhasameanofzeroandastandarddeviationof1.*

TransformingnumbersonthenormaldistributiontonumbersontheZ-distribution**自由度(DegreeofFreedom)自由度是不受任何約束,可以自由變動(dòng)的變量的個(gè)數(shù)。是反映分布或數(shù)據(jù)差異信息的個(gè)數(shù),即(xi-mean)誤差的個(gè)數(shù)。還可以將自由度n-1理解為n個(gè)數(shù)據(jù)中在樣本均值確定後只有n-1個(gè)數(shù)據(jù)可以自由取值,而第n個(gè)一定不能自由取值S2是總體方差的無偏、一致、有效估計(jì)量(通俗地說,是最準(zhǔn)確、最穩(wěn)定的)*3.2OLS估計(jì)量的方差與標(biāo)準(zhǔn)誤

VariancesandstandarderrorsofOLSestimatorsb1、b2都是從樣本中獲得的,是隨機(jī)變量,其變化依然服從正態(tài)分布這種抽樣變異性通常由估計(jì)量的方差或其標(biāo)準(zhǔn)誤來度量但其中“估計(jì)量的方差”只是個(gè)存在理論中的概念,它幾乎無法得知,故須估計(jì)它普通最小二乘估計(jì)量的方差與標(biāo)準(zhǔn)誤基于1-6假定,可以估計(jì)OLS估計(jì)量的方差和標(biāo)準(zhǔn)誤。OLS估計(jì)量是隨機(jī)變量,因?yàn)殡S著樣本的不同,OLS估計(jì)量是不同的。OLS估計(jì)量是如何隨樣本變化而變化的呢,即這些估計(jì)量的抽樣變異性是怎樣的呢?這種抽樣變異性通常由估計(jì)量的方差或其標(biāo)準(zhǔn)誤(方差的平方根)來度量。4041參數(shù)估計(jì)量的方差和標(biāo)準(zhǔn)誤42(二)普通最小二乘估計(jì)量的方差與標(biāo)準(zhǔn)誤4344453A.2:最小二乘估計(jì)量的線性和無偏性質(zhì)463A.6:最小二乘估計(jì)量的最小方差性質(zhì)474849505152隨機(jī)誤差項(xiàng)

的方差2的估計(jì)

由于隨機(jī)項(xiàng)

i不可觀測(cè),只能從

i的估計(jì)——?dú)埐頴i出發(fā),對(duì)總體方差進(jìn)行估計(jì)。

(二)普通最小二乘估計(jì)量的方差與標(biāo)準(zhǔn)誤

2又稱為總體方差。53

可以證明,

2的最小二乘估計(jì)量為隨機(jī)誤差項(xiàng)

的方差2的估計(jì)是

2的估計(jì)量是殘差平方和,即Y的真實(shí)值與估計(jì)值之差的平方和(n-2)稱為自由度,可簡(jiǎn)單看做觀測(cè)值個(gè)數(shù)減去待估參數(shù)的個(gè)數(shù)稱為回歸的標(biāo)準(zhǔn)誤(SER,standarderroroftheregression)該值越小,說明Y的實(shí)際值越接近根據(jù)回歸模型得到的估計(jì)值。54自由度σ-hat是回歸標(biāo)準(zhǔn)誤,SER可以衡量估計(jì)回歸線的估計(jì)質(zhì)量isknownasthestandarderrorofestimateorthestandarderroroftheregression(se).ItissimplythestandarddeviationoftheYvaluesabouttheestimatedregressionlineandisoftenusedasasummarymeasureofthe“goodnessoffit”oftheestimatedregressionline.標(biāo)準(zhǔn)誤標(biāo)準(zhǔn)誤方差方差5657

432.4138+0.0013XiSe=(16.9061)(0.000245)3.2.1數(shù)學(xué)S.A.T一例方差和標(biāo)準(zhǔn)誤文章中回歸結(jié)果的輸出形式更進(jìn)一步的含義后面再解釋參數(shù)估計(jì)值標(biāo)準(zhǔn)誤58

當(dāng)模型參數(shù)估計(jì)出后,需考慮參數(shù)估計(jì)值的精度,即是否能代表總體參數(shù)的真值,或者說需考察參數(shù)估計(jì)量的統(tǒng)計(jì)性質(zhì)。59

一個(gè)用于考察總體的估計(jì)量,可從如下幾個(gè)方面考察其優(yōu)劣性:

(1)線性性,即它是否是另一隨機(jī)變量的線性函數(shù);

(2)無偏性,即它的均值或期望值是否等于總體的真實(shí)值;

(3)有效性,即它是否在所有線性無偏估計(jì)量中具有最小方差。3.3最小二乘估計(jì)量的性質(zhì)-為什么使用OLS

高斯—馬爾柯夫定理(Gauss-Markovtheorem)如果滿足古典線性回歸模型的基本假定,則在所有線性估計(jì)量中,OLS估計(jì)是最優(yōu)線性無偏估計(jì)量(BestLinearUnbiasedEstimator,BLUE)簡(jiǎn)單易行很強(qiáng)的理論性質(zhì)6061高斯-馬爾柯夫定理:在CLRM假定下,在所有線性無偏估計(jì)量中,OLS估計(jì)量有最小方差,即OLS是BLUE(BestLinearUnbiasedEstimator)。為Yi的線性函數(shù)參數(shù)估計(jì)量b是Yi的線性函數(shù)平均而言,參數(shù)估計(jì)值與其真值是一致的。平均而言,誤差方差的估計(jì)值收斂于其真值;誤差方差的估計(jì)量也是無偏的64無偏性為的無偏估計(jì)量。證明最小方差性其中,ci=ki+di,di為不全為零的常數(shù)則容易證明66參數(shù)估計(jì)量b的均值等于模型參數(shù)值參數(shù)估計(jì)-小結(jié)古典線性回歸模型的基本假設(shè)最小二乘估計(jì)量的性質(zhì)普通最小二乘估計(jì)量的方差與標(biāo)準(zhǔn)誤參數(shù)的普通最小二乘估計(jì)i=1,2,…,n70結(jié)構(gòu)參數(shù)分布參數(shù)BLUE每個(gè)人打靶都滿足無偏性只有冠軍滿足了最優(yōu),即“有效性”全部估計(jì)線性估計(jì)線性無偏估計(jì)·最優(yōu)線性無偏估計(jì)蒙特卡洛(MonteCarlo)試驗(yàn)?zāi){哥著名賭城。又稱統(tǒng)計(jì)試驗(yàn)法or隨機(jī)模擬法。模型的解是試驗(yàn)生成的,而不是計(jì)算出來的,布豐投針當(dāng)問題可以抽象為某個(gè)確定的數(shù)學(xué)問題時(shí),應(yīng)當(dāng)首先建立一個(gè)恰當(dāng)?shù)母怕誓P?即確定某個(gè)隨機(jī)事件A或隨機(jī)變量X,使得待求的解等於隨機(jī)事件出現(xiàn)的概率或隨機(jī)變量的數(shù)學(xué)期望值.然後進(jìn)行模擬實(shí)驗(yàn),即重複多次地模擬隨機(jī)事件A或隨機(jī)變量X.最後對(duì)隨機(jī)實(shí)驗(yàn)結(jié)果進(jìn)行統(tǒng)計(jì)平均,求出A出現(xiàn)的頻數(shù)或X的平均值作為問題的近似解.這種方法也叫做間接蒙特卡洛模擬蒙特卡洛(MonteCarlo)試驗(yàn)蒙特卡洛方法的誤差與和n有關(guān).為了減小誤差,就應(yīng)當(dāng)選取最優(yōu)的隨機(jī)變量,使其方差最小.對(duì)同一個(gè)問題,往往會(huì)有多個(gè)可供選擇的隨機(jī)變量,這時(shí)就應(yīng)當(dāng)擇優(yōu)而用之.在方差固定時(shí),增加模擬次數(shù)可以有效地減小誤差.如試驗(yàn)次數(shù)增加100倍,精度提高10倍.當(dāng)然這樣做就增加了計(jì)算的機(jī)時(shí),提高了費(fèi)用.所以在考慮蒙特卡洛方法的精確度時(shí),不能只是簡(jiǎn)單地減少方差和增加模擬次數(shù),還要同時(shí)兼顧計(jì)算費(fèi)用,即機(jī)時(shí)耗費(fèi).通常以方差和費(fèi)用的乘積作為衡量方法優(yōu)劣的標(biāo)準(zhǔn).MonteCarloexperimentsTheexperimentsareoftenusedtostudythestatisticalpropertiesofvariousmethodsofestimatingpopulationparameters.Theyareparticularlyusefultostudythebehaviorofestimatorsinsmall,orfinite,samples.Theseexperimentsarealsoanexcellentmeansofdrivinghometheconceptofrepeatedsamplingthatisthebasisofmostofclassicalstatisticalinference.課堂問題3中心極限定理和大數(shù)定理?75*統(tǒng)計(jì)學(xué)第五章:抽樣推斷的理論基礎(chǔ)大數(shù)定律大數(shù)定律是闡明大量隨機(jī)現(xiàn)象平均結(jié)果的穩(wěn)定性的一系列定理的總稱。其一般意義是:在隨機(jī)試驗(yàn)過程中,每次試驗(yàn)的結(jié)果不同,但大量重複試驗(yàn),所出現(xiàn)結(jié)果的平均值總是接近某一確定的值。樣本容量增大,統(tǒng)計(jì)量趨向參數(shù)多次抽樣,樣本的規(guī)律也是穩(wěn)定的*概率的統(tǒng)計(jì)定義試驗(yàn)者拋硬幣次數(shù)

n正面(A)出現(xiàn)次數(shù)nA德·摩爾根204810610.5180浦豐404021480.5069皮爾遜1200060190.5016皮爾遜24000120120.5005維尼30000149940.4998正面(A)出現(xiàn)的頻率

*偶然性只會(huì)在各個(gè)必然過程的交叉點(diǎn)上出現(xiàn)?!樟袧h諾夫*中心極限定理中心極限定理(CentralLimitTheorem,CLT):如果X1,X2?Xn是來自N~(μ,σ2)任一總體的隨機(jī)樣本,隨著樣本容量無限增大,則其樣本均值趨于正態(tài)分布,均值為μ

,方差為σ2/n獨(dú)立同分布隨機(jī)變量,隨著變量個(gè)數(shù)的無限增加,其和的分布近似服從正態(tài)分布。f(X)X小樣本中心極限定理從均值為

,方差為

2的一個(gè)任意總體中抽取容量為n的樣本,當(dāng)n充分大時(shí),樣本均值的抽樣分布近似服從均值為μ、方差為σ2/n的正態(tài)分布。大樣本(n

30)樣本容量與樣本均值的抽樣分布的關(guān)系A(chǔ)sthesamplesizeincreased,thestandarderrorofthemeanisdecreased.Thelargersamplesizewillprovideahigherprobabilitythatthesamplemeaniswithinaspecifieddistanceofthepopulationmean.*中心極限定理的實(shí)際意義第一,如果總體很大,而且服從正態(tài)分布,樣本平均數(shù)(或成數(shù))的分布也同樣服從正態(tài)分布。第二,如果總體很大,但不服從正態(tài)分布,只要樣本容量足夠大(n≥30),樣本平均數(shù)(或成數(shù))的分布趨近於正態(tài)分布。第三,樣本平均數(shù)(或成數(shù))的平均數(shù),等於總體平均數(shù)(或成數(shù))。*中心極限定理的一個(gè)意義由眾多小因素所影響的變量,服從正態(tài)分布經(jīng)驗(yàn)表明:對(duì)于其值依賴于眾多微小因素且每一因素均產(chǎn)生微小的或正或負(fù)影響的連續(xù)型隨機(jī)變量來說,正態(tài)分布是一個(gè)相當(dāng)好的描述模型。比如體重,近似服從正態(tài)分布,因?yàn)檫z傳、骨骼結(jié)構(gòu)、飲食、鍛煉、新陳代謝等都對(duì)人的體重有影響,但又沒有一種因素起到壓到一切的主導(dǎo)作用。類似地,身高、考試分?jǐn)?shù)等都近似地服從正態(tài)分布。中心極限定理

(centrallimittheorem)的分布趨于正態(tài)分布的過程3.4OLS估計(jì)量的抽樣分布或概率分布b1、b2都服從正態(tài)分布理論基礎(chǔ)是中心極限定理centrallimittheoremiftherearealargenumberofindependentandidenticallydistributedrandomvariables,then,withafewexceptions,thedistributionoftheirsumtendstoanormaldistributionasthenumberofsuchvariablesincreaseindefinitely.CentrallimittheoremLetX1,X2,...,Xndenotenindependentrandomvariables,allofwhichhavethesamePDFwithmean=μandvariance=σ2.LetˉX=ΣXi/n.Thenasnincreasesindefinitely(i.e.,n→∞),Thatis,ˉXapproachesthenormaldistributionwithmeanμandvarianceσ2/n.NoticethatthisresultholdstrueregardlessoftheformofthePDF.Asaresult,itfollowsthatThatis,Zisastandardizednormalvariable.泊松Poisson中心極限定理fn(A)為事件A在n次試驗(yàn)中發(fā)生的次數(shù),pi為事件A第i次試驗(yàn)中發(fā)生的概率,x為任一實(shí)數(shù),若發(fā)散,則有:式中,Bn2=Σpi(1-pi)

課堂問題4假設(shè)檢驗(yàn)中兩類錯(cuò)誤?假設(shè)檢驗(yàn)的流程?88假設(shè)檢驗(yàn)的基本思想假設(shè)如此,如果“如此”的概率比較小,就說明實(shí)際上“不如此”概率一般是0.1,0.05,0.01既類似於數(shù)學(xué)中的反證法,又不同。因?yàn)樗罁?jù)的小概率原理,不是百分之百的正確,所以假設(shè)檢驗(yàn)也可能犯錯(cuò)誤假設(shè)檢驗(yàn)的主要目的是為了拒絕而不是接受“沒有足夠證據(jù)拒絕零假設(shè)”在理論上,這并不意味著“接受”零假設(shè)因?yàn)榱慵僭O(shè)并未包括另一類“納偽”錯(cuò)誤第Ⅰ類錯(cuò)誤和第Ⅱ類錯(cuò)誤零假設(shè)是正確的零假設(shè)是錯(cuò)誤的決策拒絕零假設(shè)第Ⅰ類錯(cuò)誤:拒真(拒絕一個(gè)正確的零假設(shè))概率:α正確決策不拒絕零假設(shè)正確決策第Ⅱ類錯(cuò)誤:納偽(未拒絕一個(gè)錯(cuò)誤的零假設(shè))概率:β理論的最初探索:1710,阿布茲諾特JohnArbuthnot1667-1735在英國(guó)皇家學(xué)會(huì)PhilosophicalTransactionsoftheRoyalSocietyofLondon

宣讀論文《從兩性出生數(shù)觀察的規(guī)律性所得關(guān)於神的意旨存在的一個(gè)論據(jù)AnargumentforDivineProvidence,takenfromtheconstantregularityobservedinthebirthsofbothsexes》。3.5假設(shè)檢驗(yàn)hypothesistesting統(tǒng)計(jì)檢驗(yàn)回歸分析是要通過樣本所估計(jì)的參數(shù)來代替總體的真實(shí)參數(shù),或者說是用樣本回歸線代替總體回歸線。盡管從統(tǒng)計(jì)性質(zhì)上已知,如果有足夠多的重復(fù)抽樣,參數(shù)的估計(jì)值的期望(均值)就等于其總體的參數(shù)真值,但在一次抽樣中,估計(jì)值不一定就等于該真值。那么,在一次抽樣中,參數(shù)的估計(jì)值與真值的差異有多大,是否顯著,這就需要進(jìn)一步進(jìn)行統(tǒng)計(jì)檢驗(yàn)。9394假設(shè)檢驗(yàn)三、擬合優(yōu)度檢驗(yàn)一、參數(shù)的置信區(qū)間法二、變量的顯著性檢驗(yàn)法四、回歸分析結(jié)果的報(bào)告五、正態(tài)性檢驗(yàn)檢驗(yàn)樣本回歸函數(shù)與總體回歸函數(shù)的“接近”程度即樣本回歸函數(shù)能否代表總體回歸函數(shù)進(jìn)行統(tǒng)計(jì)推斷檢驗(yàn)樣本回歸函數(shù)與樣本點(diǎn)的“擬合優(yōu)度”檢驗(yàn)解釋變量對(duì)被解釋變量是否存在著顯著的線性影響檢驗(yàn)樣本回歸函數(shù)與總體回歸函數(shù)的“接近”程度95假設(shè)檢驗(yàn)

所謂假設(shè)檢驗(yàn),就是事先對(duì)總體參數(shù)或總體分布形式作出一個(gè)假設(shè),然后利用樣本信息來判斷原假設(shè)是否合理,即判斷樣本信息與原假設(shè)是否有顯著差異,從而決定是否接受或否定原假設(shè)。先假定原假設(shè)正確,然后根據(jù)樣本信息,觀察由此假設(shè)而導(dǎo)致的結(jié)果是否合理,從而判斷是否接受原假設(shè)。零假設(shè)為:H0:B2=0這個(gè)“0”零假設(shè)(“Zero”nullhypothesis)也稱稻草人假設(shè)(strawmanhypothesis)。故意地選擇這樣一個(gè)假設(shè),是為了看Y究竟是否與X有關(guān)。如果一開始X與Y就無關(guān),那么再檢驗(yàn)假設(shè)B2為其他任何值就沒有意義了。當(dāng)然,如果零假設(shè)為真,則就沒有必要把X包括到模型之中。因此,如果X確實(shí)屬於這個(gè)模型,那么,就期望拒絕“0”零假設(shè)H0而接受備擇假設(shè)H1,B2≠0。零假設(shè)通常都是準(zhǔn)備否定的命題對(duì)B1和B2的參數(shù)b1、b2,進(jìn)行假設(shè)檢驗(yàn)二方法(1)置信區(qū)間法(2)顯著性檢驗(yàn)法假設(shè)檢驗(yàn)方法一:置信區(qū)間法隨機(jī)抽一個(gè)男生量身高,身高在什么範(fàn)圍才不會(huì)覺得怪?(設(shè)所有人中間95%的區(qū)間為“不怪”)185會(huì)在其中嗎?正態(tài)分佈二參數(shù)(均值171.2,標(biāo)準(zhǔn)差5.87)表現(xiàn)了這種現(xiàn)象的規(guī)律95%的Z分?jǐn)?shù)為1.96171.2±1.96×5.87為(159.7,182.7)185就顯得“怪”,或者,不相信是隨機(jī)抽取的方法總結(jié):根據(jù)置信水平α=5%查(1-α)的Z分?jǐn)?shù),得知從中心跨出“幾步”,步長(zhǎng)為標(biāo)準(zhǔn)差,可得置信區(qū)間,此區(qū)間之外者皆屬“怪”假設(shè)檢驗(yàn)方法一:置信區(qū)間法如果不知總體分佈,且為小樣本,須使用t分佈設(shè)20名男生身高均值172.7,標(biāo)準(zhǔn)差5.21自由度19雙尾t值2.09置信區(qū)間為172.7±2.09×5.21,即(160.8,183.6)假設(shè)檢驗(yàn)方法二:顯著性檢驗(yàn)法抽了一個(gè)男生,身高185,這怪不怪?or屬小概率事件的概率有多大?or是隨機(jī)抽的嗎?要計(jì)算出現(xiàn)185及以上的概率(185-171.2)/5.87=2.351,此為Z值2.351對(duì)應(yīng)的累計(jì)概率密度為99%,亦即,超過185的概率為1%,算“怪”方法總結(jié):一個(gè)特定變量值,根據(jù)分佈規(guī)律換算為Z分?jǐn)?shù),再察其出現(xiàn)概率根據(jù)此概率判斷“怪”或“不怪”,材料更精確,但判斷標(biāo)準(zhǔn)卻有彈性,如6%即正態(tài)分佈的95%的區(qū)域(u-2σ,u+2σ)之間。如果零假設(shè)為B2=0,計(jì)算得到的b2=0.0814,我們就能夠根據(jù)標(biāo)準(zhǔn)正態(tài)分佈Z,求得b2的概率。如果這個(gè)概率非常小,就能拒絕零假設(shè),但是,如果這個(gè)概率值較大,如10%,就不可以拒絕零假設(shè)。為了檢驗(yàn)零假設(shè),需用t分佈來代替(標(biāo)準(zhǔn))正態(tài)分佈,但假設(shè)檢驗(yàn)的過程不變。101假設(shè)檢驗(yàn)數(shù)學(xué)S.A.T一例現(xiàn)假定家庭年收入對(duì)學(xué)生的數(shù)學(xué)分?jǐn)?shù)沒有影響希望確認(rèn)Y是否與X有關(guān)H0:

1=0如果零假設(shè)為真,就沒有必要把X納入模型了雖然本例中的參數(shù)估計(jì)值不為零,但是由于抽樣的波動(dòng)性,數(shù)值結(jié)果會(huì)因?yàn)闃颖镜淖兓煌?。顯然,需要正規(guī)的檢驗(yàn)過程拒絕或接受零假設(shè)。如何進(jìn)行呢?102假設(shè)檢驗(yàn)數(shù)學(xué)S.A.T一例置信區(qū)間法可選擇兩種方法對(duì)

0和1的參數(shù)進(jìn)行檢驗(yàn)顯著性檢驗(yàn)法由于服從正態(tài)分布,則變量Z服從標(biāo)準(zhǔn)正態(tài)分布由于未知,需用代替,因此上式服從t分布3.5.1置信區(qū)間法confidenceinterval因?yàn)檫@個(gè)區(qū)間沒有包括零假設(shè)值0,所以拒絕零假設(shè)104一、置信區(qū)間法

數(shù)學(xué)S.A.T一例設(shè)定自由度為d.f;假定顯著性水平為,可得因?yàn)?/p>

H0:

1=0,H1:10Step1:Step2:Step3:Step4:如果原假設(shè)的值落在該區(qū)間中,則接受原假設(shè),否則,拒絕原假設(shè)。105接受區(qū)域拒絕區(qū)域拒絕區(qū)域如果接受區(qū)域包含零假設(shè)值,則不拒絕零假設(shè)。當(dāng)然,無論做何種決定,都會(huì)以一定的概率(如)犯錯(cuò)。置信區(qū)間顯著性水平端點(diǎn)稱為置信限(confidencelimit)或臨界值(criticalvalues)(confidencecoefficient)(confidenceinterval)(levelofsignificance)置信系數(shù)(置信度)置信區(qū)間臨界值臨界值106一、置信區(qū)間法

數(shù)學(xué)S.A.T一例本例中,自由度為8(10-2)假定顯著性水平為5%

H0:

1=0,H1:10則根據(jù)附錄可查由于這個(gè)區(qū)間沒有包括零假設(shè)值0,所以拒絕H0Step1:Step2:Step3:Step4:

由于置信區(qū)間一定程度地給出了樣本參數(shù)估計(jì)值與總體參數(shù)真值的“接近”程度,因此置信區(qū)間越小越好。

要縮小置信區(qū)間,需

(1)增大樣本容量n,因?yàn)樵谕瑯拥闹眯潘较?,n越大,t分布表中的臨界值越?。煌瑫r(shí),增大樣本容量,還可使樣本參數(shù)估計(jì)量的標(biāo)準(zhǔn)差減??;

(2)提高模型的擬合優(yōu)度,因?yàn)闃颖緟?shù)估計(jì)量的標(biāo)準(zhǔn)差與殘差平方和呈正比,模型擬合優(yōu)度越高,殘差平方和應(yīng)越小。107108H0的接受區(qū)域拒絕區(qū)域拒絕區(qū)域隨機(jī)區(qū)間確定性區(qū)間建立100個(gè)這樣的區(qū)間,則有95個(gè)區(qū)間包括真實(shí)的

1。95%的置信區(qū)間(自由度為8)0.000740.00187該隨機(jī)區(qū)間包含真實(shí)的

1的概率為95%3.5.2假設(shè)檢驗(yàn)的顯著性檢驗(yàn)法

testofsignificance回歸模型的解釋能力舉例設(shè)身高與體重的均值分別為171cm,60kg。二者之間的是y=0.6488x-51.267,如果某人180,他“應(yīng)該”重0.6488*180-51.267=65.5今有某大只佬,180cm,75.5kg,別人譏笑他太肥。他辯解:“因?yàn)槲冶纫话闳烁撸晕乙脖纫话闳酥亍比绻J(rèn)識(shí)不太細(xì),只好接受此人的辯解回歸模型的解釋能力舉例更進(jìn)一步的認(rèn)識(shí):一般規(guī)律是,越高則就越重,當(dāng)你高達(dá)180時(shí),你應(yīng)該重65.5,而你重達(dá)75.5,多出來的這10kg就是你超級(jí)肥的部分75.5-60=(75.5-65.5)+(65.5-60)實(shí)際值超出一般值的部分=回歸模型能夠解釋的超出部分+回歸模型無法解釋的部分個(gè)體的總差異=規(guī)律性的差異+個(gè)體異常所形成的差異變量的顯著性檢驗(yàn)

回歸分析是要判斷解釋變量X是否是被解釋變量Y的一個(gè)顯著性的影響因素。

112在一元線性模型中,就是要判斷X是否對(duì)Y具有顯著的線性性影響。這就需要進(jìn)行變量的顯著性檢驗(yàn)。113變量的顯著性檢驗(yàn)

核心思想:構(gòu)造一個(gè)檢驗(yàn)統(tǒng)計(jì)量,從樣本數(shù)據(jù)求得檢驗(yàn)統(tǒng)計(jì)量的值,以此決定接受或拒絕零假設(shè)

檢驗(yàn)步驟:

H0:

1=*,H1:1

*(2)以原假設(shè)H0構(gòu)造t統(tǒng)計(jì)量,并由樣本計(jì)算其值(3)給定顯著性水平,查t分布表,得臨界值|t|>t/2(n-2),則拒絕H0|t|

t/2(n-2),則不拒絕H0

(1)對(duì)總體參數(shù)提出假設(shè)(4)比較判斷變量的顯著性檢驗(yàn)

計(jì)量經(jīng)計(jì)學(xué)中,主要是針對(duì)變量的參數(shù)真值是否為零來進(jìn)行顯著性檢驗(yàn)的雙邊檢驗(yàn)t/2(n-2)t

(n-2)單邊檢驗(yàn)右側(cè)檢驗(yàn)t>t

(n-2)或左側(cè)檢驗(yàn)t<t

(n-2),則拒絕H0115變量的顯著性檢驗(yàn)

說明:在經(jīng)驗(yàn)分析中,常用的顯著性水平有1%、5%、10%。為了避免選擇顯著水平的隨意性,通常求出P值(精確地顯著水平)。如果計(jì)算的P值充分小,則拒絕零假設(shè)。計(jì)量經(jīng)計(jì)學(xué)中,主要是針對(duì)變量的參數(shù)真值是否為零來進(jìn)行顯著性檢驗(yàn)的,以判斷X是否對(duì)Y具有顯著的線性性影響。

即H0:

1=0變量的顯著性檢驗(yàn)

數(shù)學(xué)S.A.T一例

H0:

1=0,H1:10給定顯著性水平

,查臨界值:t/2(8)

顯著性水平臨界值3.3552.3061.8600.10~10%0.05~5%0.01~1%t=5.4354>臨界值3.355:在1%的顯著性水平下拒絕1=0的零假設(shè)。t=5.4354所對(duì)應(yīng)的P值約為0.0006。說明如果在該P(yáng)值水平上拒絕零假設(shè),則犯錯(cuò)的概率僅為萬分之六。零假設(shè)1=0為真卻被拒P值:統(tǒng)計(jì)量的精確顯著水平;拒絕零假設(shè)最低的顯著水平雙邊檢驗(yàn)117變量的顯著性檢驗(yàn)

數(shù)學(xué)S.A.T一例單邊檢驗(yàn)

H0:

1≤0,H1:1>0這是因?yàn)轭A(yù)期的收入系數(shù)為正顯著性水平臨界值0.01~1%0.05~5%0.10~10%2.8961.8601.397t=5.4354>臨界值2.896:在1%的顯著性水平下拒絕零假設(shè)給定顯著性水平

,查臨界值:t

(8)

3.6擬合回歸直線的優(yōu)良程度:判定系數(shù)r2

Thecoefficientofdeterminationr2:ameasureof“goodnessoffit”擬合優(yōu)度檢驗(yàn)

擬合優(yōu)度檢驗(yàn):對(duì)樣本回歸直線與樣本觀測(cè)值之間擬合程度的檢驗(yàn)。119

問題:采用普通最小二乘估計(jì)方法,已經(jīng)保證了模型最好地?cái)M合了樣本觀測(cè)值,為什么還要檢驗(yàn)擬合程度?度量擬合優(yōu)度的指標(biāo):判定系數(shù)(可決系數(shù))R2TSS=ESS+RSSTSS=ESS+RSSthetotalsumofsquarestheexplainedsumofsquarestheresidualsumofsquares

擬合優(yōu)度檢驗(yàn)是指對(duì)樣本回歸線與樣本觀測(cè)值之間擬合程度的檢驗(yàn)。度量擬合程度的指標(biāo)是判定系數(shù)r2。

基本思路:因變量Y的變異,能夠被X的變異解釋的比例越大,則OLS回歸線對(duì)總體的解釋程度就越好。

XiXSRFY總平方和(TSS):實(shí)測(cè)的Y值圍繞其均值的總變異:定義判定系數(shù):估計(jì)的Y值圍繞其均值的總變異未被解釋的圍繞回歸線的Y值的變異

r2測(cè)度了在Y的總變異中,由回歸模型解釋的部分所占的比例。r2越高,回歸模型擬合的程度就越好。

r2的性質(zhì):(1)非負(fù)。(2)0≤R2≤1其它表達(dá)方式:相關(guān)關(guān)係的Venndiagram表示TheBallentineviewofr2:(a)r2=0;(f)r2=1.每個(gè)圓代表一個(gè)變量的變異,其重疊部分代表Y的變異能夠由X的變異來解釋的程度a圖完全無關(guān),f圖完全重疊總離差平方和的分解

已知由一組樣本觀測(cè)值(Xi,Yi),i=1,2…,n得到如下樣本回歸直線

由X的變異所解釋的部分Yi的變異未解釋部分或殘差的變異125126

如果Yi=?i即實(shí)際觀測(cè)值落在樣本回歸“線”上,則擬合最好。即“離差”全部來自回歸線,而與“殘差”無關(guān)。

對(duì)于所有樣本點(diǎn),需考慮

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論