一講線性回歸擴(kuò)展篇_第1頁
一講線性回歸擴(kuò)展篇_第2頁
一講線性回歸擴(kuò)展篇_第3頁
一講線性回歸擴(kuò)展篇_第4頁
一講線性回歸擴(kuò)展篇_第5頁
已閱讀5頁,還剩96頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第一線性回歸擴(kuò)展第一節(jié)引進(jìn)虛擬變量的一、什么是虛擬變第一線性回歸擴(kuò)展第一節(jié)引進(jìn)虛擬變量的一、什么是虛擬變1-1話語種類WhetherspeakorLanguagespeakat 111000SpeakEnglishSpeakMandarin(國語Speaknoneofthe(k-1)個(gè)虛擬變量,(k-1)個(gè)虛擬變量二、為什么要在回歸分析中引入虛14)4)于男性;或女性收入低于男性是因?yàn)樗齻兏鼉A向集中于低回報(bào)的工作中segregation)2LoggedLogged三、案例分1:性別、教育與收入(Gender,Education,and數(shù)據(jù)\chip2005.dta",Stata操作\第一.tabsexof||+||+Total三、案例分1:性別、教育與收入(Gender,Education,and數(shù)據(jù)\chip2005.dta",Stata操作\第一.tabsexof||+||+Total.tabsex,sexof||+01+Total.recodesex(1=0(0=1"male"),gen(newsex)sexand(20421.tabRECODEofsex(sex||member)+01+3|.tabRECODEsex(sexof)|||||+||+|.regeducSource+NumberofobsF(2,Prob>FRootMSE======Model|.tabRECODEsex(sexof)|||||+||+|.regeducSource+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totallogearn+t[95%educ|newsex_consloggedearn上的平均數(shù)的差。由于女性編碼lninc=7.322+0.032educlninc=7.153+0.032educ故在同樣的教育程度下,男性總是要比女性的收入(logged)0.1697.322-7.153)..predictyhat1ifpredictyhat2if.graphyhat1yhat2educ,c(ll)s(iO)4FittedFitted4四、交互作不含交互項(xiàng)的模型我們稱作加疊模型(additivemodelsassuminggroupdifferenceinmeanofthedependentvariable(intercept))X2是虛擬變量。若以圖形來看,則組與組的差距可以用兩根平行線來表示(斜率一樣,差FittedFitted4四、交互作不含交互項(xiàng)的模型我們稱作加疊模型(additivemodelsassuminggroupdifferenceinmeanofthedependentvariable(intercept))X2是虛擬變量。若以圖形來看,則組與組的差距可以用兩根平行線來表示(斜率一樣,差的影響上(equationsfordistinctgroupsdiffernotonlyinintercepts,butinslopesaswell)Y=α+β1X1+β2X2+5Fitted第二節(jié)、因變量與自變量間違背基本假第二節(jié)、因變量與自變量間違背基本假設(shè)條件一、違背線性假(一)變量轉(zhuǎn)變量分布型態(tài)為斜分布(skewed),通過變量轉(zhuǎn)換可使其趨于正態(tài)分年美國GSSS1-220-64歲成2003年收入2004年年齡之間的關(guān)系6(1)經(jīng)濟(jì)學(xué)家主張生產(chǎn)力隨年齡增長到某一點(diǎn)到下降;社會學(xué)家有時(shí)也持類似的觀點(diǎn)(1)經(jīng)濟(jì)學(xué)家主張生產(chǎn)力隨年齡增長到某一點(diǎn)到下降;社會學(xué)家有時(shí)也持類似的觀點(diǎn),X→X’兩種常見的變量轉(zhuǎn)化方式對數(shù)轉(zhuǎn)換:Y’=log(Y),因而線性回歸方程變?yōu)閊log(Y)=增加平方項(xiàng):如人力資本模型。^XY=α+βX+1 2(1)我們要研究不同國家GDPpercapita(PcGDP95)InfantMortalityRate(IMR)的關(guān)系。.scatterIMRPcGDP95,XX2可能存在高bb變成X)X與X)2222②7.genindependentvariable.gen.scatterlIMRlPcGDP95,8.genindependentvariable.gen.scatterlIMRlPcGDP95,8123450 可見,盡管IMR與PcGDP95(a).regIMRSource+F(ProbofF======Model|Residual+1可見,盡管IMR與PcGDP95(a).regIMRSource+F(ProbofF======Model|Residual+1RootMSETotalIMR+Std.t[95%PcGDP95_cons回歸系數(shù)告訴我們每一個(gè)單位人均GDP的增加,將會使嬰兒死亡率下降2為0.265,是指人均GDP這個(gè)變量解釋了嬰兒死亡率總變異中的26.5%(b)912345 .reglIMRSource+NumberofobsF( Prob>FRootMSE======Model1Residual+TotallIMRStd..reglIMRSource+NumberofobsF( Prob>FRootMSE======Model1Residual+TotallIMRStd.t[95%+lPcGDP95_conslIMR'=7.089-loggedPcGDP的增加,loggedIMR0.498個(gè)單位(Hence,oneunitincreaseinlPcGDP95(loggedGDP)willbringadecreaseinlIMR(loggedIMR)by0.498.),R2=0.678,比原來大的多。.predict(optionxbassumed;fittedvalues)(19missingvaluesgenerated).graphfitIMRlIMRlPcGDP95,c(l) .genfit2IMR=exp(fitIMR)(*convertthe(19missing.sortfit2IMRf.genfit2IMR=exp(fitIMR)(*convertthe(19missing.sortfit2IMRf4UnitedNationspercapita(2)增加平方^Y=α+β1X1+X2----xx----xxmayberelocatedtopositionwithlessresponsibility,thusearnless)在經(jīng)濟(jì)學(xué)的人力資本模型中,通常會加入一個(gè)平方項(xiàng)來描述這種關(guān)系^log(INCOME)=α+β1EXP+β2EXP2+ββ1>0,β2<0(seetherightplot案例:工作經(jīng)驗(yàn)和收入、工資的關(guān)系(中國城*建立一個(gè)新的變量:工作經(jīng)驗(yàn)(年數(shù)),可用年齡減去18歲(假設(shè)18歲開始工作).genexp=age-*建立一個(gè)工作經(jīng)驗(yàn)的平方項(xiàng),試圖想觀察與收入之間的曲線關(guān)yz..gengraphearn,0yearly*此時(shí),我們開..gengraphearn,0yearly*此時(shí),我們開始對其進(jìn)log變換(logtransformation).gen*再來觀察log轉(zhuǎn)換過的變量分布.graphlnearn,bin(50)0現(xiàn)在我們對工作經(jīng)驗(yàn)的平方項(xiàng)進(jìn)行回首先假設(shè)在logearn與工作經(jīng)驗(yàn)之間存在線性關(guān)系.reglnearnSource+NumberofobsF(1,Prob>FRootMSE ==== 0現(xiàn)在我們對工作經(jīng)驗(yàn)的平方項(xiàng)進(jìn)行回首先假設(shè)在logearn與工作經(jīng)驗(yàn)之間存在線性關(guān)系.reglnearnSource+NumberofobsF(1,Prob>FRootMSE ==== Model|Residual+1Totallnearn+t[95%exp_cons*工作效應(yīng)變量是顯著的?,F(xiàn)在我們加入其平方項(xiàng)進(jìn)行回.reglnearnSource+F(Probof======Model|Residual+2RootMSETotallnearn+Std.t[95%Conf._cons 我們也可以考察工作經(jīng)驗(yàn)及其平方項(xiàng)的聯(lián)合效應(yīng)effect)有無顯著統(tǒng)計(jì)學(xué)意義.(lnearn+Std.t[95%Conf._cons 我們也可以考察工作經(jīng)驗(yàn)及其平方項(xiàng)的聯(lián)合效應(yīng)effect)有無顯著統(tǒng)計(jì)學(xué)意義.((expexp2,accumexp=0exp2=F(2,20418)=Prob>F*因P005,兩者的聯(lián)合效應(yīng)存在顯著統(tǒng)計(jì)學(xué)差異。我們可以得出結(jié)論,工作經(jīng)驗(yàn)與收入(od)之間存在曲線關(guān)系(rlirreaiosp):剛開始,效應(yīng)伴隨工作經(jīng)驗(yàn)的增長而遞增,在到達(dá)22年左右后開始下50。*在回歸后,我們可以用圖形來觀察這種曲線關(guān)系*y...predictexp,c(s)exp,c(s)s(.)xlabel4,8,10,22,26,42, 048Fittedexp2|- exp (二)非線性關(guān)系的解決方XYg(Y)=f(β,X,(二)非線性關(guān)系的解決方XYg(Y)=f(β,X,:XY的關(guān)系就被稱為―可轉(zhuǎn)化的線性關(guān)系(transformablylina),性(intrinsicallylinear)‖或―實(shí)質(zhì)的線性(essentiallyg(Y)=α+f(β,X,transformablylinar,―intrinsclynonlinear‖或―lynon-(1)1:Y可以寫XX平方的函數(shù)(多項(xiàng)式函數(shù)x例2:近似指數(shù)函數(shù)Y=e(α+βX)?log(Y)=Y取對數(shù)化為線性x例2:近似指數(shù)函數(shù)Y=e(α+βX)?log(Y)=Y取對數(shù)化為線性方程-x例3:乘數(shù)關(guān)系(MultiplicativeRelationship)(人口流動的重力模型PPijDlog(Yij)=log(α)+βlog(Pi)+γlog(Pj)-Yij*=α*βPi*+γPj*-例4:羅吉斯蒂回歸(LogisticXe(XiP(Yi1|X)1e(Xi-x例5:多因多果模型(MultipleIndicatorMultipleCauseModel,MIMICp則這一模型可以寫成如下的―因子模型Model)‖的模式ζFYX的情況。那么上述Y1i=λ1γ1X1i+λ1γ2X2i+λ1δiY3i=λ3γ1X1i+λ3γ2X2i+λ3δi們只做X對于Y的回歸分析,則其結(jié)果中的參數(shù)估計(jì)要受到非線性約束的影響。對于非線性模型,通常使用最大似然估計(jì)法(MLE)而非最小二乘法進(jìn)行參數(shù)分析軟件。目前,SPSS、STATA、SAS、(2)分析軟件。目前,SPSS、STATA、SAS、(2)可用F檢驗(yàn)來判斷相對于模型(1)來說,模型(2)的擬合能力是否有顯著的增強(qiáng);也非線性的全局檢驗(yàn)(Globald1….案例:使用F檢驗(yàn)判斷模型擬合能力的提升是否顯著。.setmemCurrentmemory①memoryusage(1M=setmaxvarsetmemorymax.variablesallowedmax.dataspacemax.RHSvarsin..lnwage=ln(income)*dependentmissingvalues.keepif*restrictanalysis(3386observations*Regular.regmemoryusage(1M=setmaxvarsetmemorymax.variablesallowedmax.dataspacemax.RHSvarsin..lnwage=ln(income)*dependentmissingvalues.keepif*restrictanalysis(3386observations*Regular.reglnwageSource+NumberofobsF(1,Prob>FRootMSE======Model|Residual+1Totallnwage+t[95%educ_hiy_cons*Nowwewanttestwhetherthelinearspecificationis*.copythegen*.recodethenewvariableinto4recodeeduc0/6=17/9=210/12=3(educ:3079changes*convertthe4-categoryvariableinto4dummyvariables(inregression,we*3.of...*tocheckifanything.tab1ed1-ed1+01+Totaled2+01+Totaled3+01+Total|+01||+*tocheckifanything.tab1ed1-ed1+01+Totaled2+01+Totaled3+01+Total|+01||+|.tab|+1234||||+|looks*Dummyvariable(Model.xi:reglnwagecoded;_Ieduc_1Source+NumberofobsF(3,Prob>FRootMSE======Model|Residual+3Totallnwaget[95%+_Ieduc_2_Ieduc_3_Ieduc_4_cons***Nowweliketotheeffectsforcoded;_Ieduc_1Source+NumberofobsF(3,Prob>FRootMSE======Model|Residual+3Totallnwaget[95%+_Ieduc_2_Ieduc_3_Ieduc_4_cons***Nowweliketotheeffectsforeacheducationalonwagelinear.Theeasiestwaytojusttreatacontinuousvariablevaluesrangingfrom14.xi:regSource+NumberofobsF(1,Prob>FRootMSE======Model|Residual+1Totallnwage+t[95%educ_cons*TheaboveistotheequationofModel**WecanconductanFtesttoseeincrementtoR2F2,2012=.genx=[(0.0695-0.064)/2]/[(1-.x.*Sincefprob(2,2014,isfarlessthan.05,werejectthenullhypothesisandacceptalternative:addinglinearconstraintsignificantlydecreasesthemodel’sgoodness-fit.Wecanalsorecodeeducintoacontinuousassignmentassignedtoeachcategory..genvariablewith.xi:regNumberofobsF(1,Prob>FRootMSE======Source+Model|Residual+1Totallnwage+t[95%educ2_cons*Again,fit.Wecanalsorecodeeducintoacontinuousassignmentassignedtoeachcategory..genvariablewith.xi:regNumberofobsF(1,Prob>FRootMSE======Source+Model|Residual+1Totallnwage+t[95%educ2_cons*Again,thisalsobedonein“recode”.gen.recodeeduc_hiy31=32=73=114=15(educ_hiy3:3083changesmade).xi:regSource+NumberofobsF(1,Prob>FRootMSE======Model|Residual+1Totallnwage+t[95%educ_hiy3_consNote,nothehowyouthevariable,theR2,residualsumsquare(namely,althoughwillupwiththesameFvaluewiththesamedegreecoefficientswillbeAnextremeversiondummiesforeachatestfornon-linearitymightbeanapproachtoofeducation(15categoriesthus14dummiesareAsimplerwayistocategorizeeducationintoseverallevels-theconventionalprimaryschoolorless;juniorhighschool;seniorhighschool;andcollegeorWhentherelationshipbetweenadependentandacontinuousindependentvariablenon-linearinsuchafashionthattransformationcannotlinearizeit,thenitmaybeappropriatetocategorizetheindependentvariable.InanissueofWhentherelationshipbetweenadependentandacontinuousindependentvariablenon-linearinsuchafashionthattransformationcannotlinearizeit,thenitmaybeappropriatetocategorizetheindependentvariable.InanissueofdummycaseitisturnedForexample,wecanusethegeneratecommandtocreateeducationallevel.Thecutoffpointsdependonhowquicklydummyvariablesthinkthevariableischangingasafunctionoftheindependentvariable.Ifyouthink,educationcouldhaveamuchgreaterimpactonoccupationalstatus,thencodecollegelevelseparately..gen.recodeeduc0/6=17/10=211/12=3(educ:6080changesmade)13/18=4.xi:regcoded;_Ieduc_1Source+NumberofobsF(3,Prob>FRootMSE======Model|Residual+3Totalrisei_c+t[95%_Ieduc_2_Ieduc_3_Ieduc_4_consThereferencecategoryprimaryschooleducationbelow.Inmodel,wethatpeoplewithjuniorhighschooleducationenjoy10.5pointshigherinoccupationalstatusthandopeoplewithprimaryschooleducation;Peoplewithseniorhighschooleducationenjoy19.9pointshigherinoccupationalstatusthandopeoplewithschooleducation.Fororaboveeducation,theadvantageisevenmoreComparedwiththeadditionvariablemethodforaquadraticterm,therearetwoadvantagestothenon-linearityinaregressiona)Themethoddoesnotindependentanyparticularpatternontherelationshipb)ThenumericalcanbesomewhatsimplertoThedisadvantage:thedivisionofThedisadvantage:thedivisionofintervalissomewhatarbitrary;theprecisionestimateis二、其它經(jīng)常遇(一)異方差性/方差不齊1、什么是異方差性的方差在x的不同取值時(shí)會有所不同,則被稱為存在―異方差性(heteroskedasticity)‖2、為什么要關(guān)心異方差性問xix若一估計(jì)量? 2xx 22Var(?)ii,1SSTxSSTx2、為什么要關(guān)心異方差性問xix若一估計(jì)量? 2xx 22Var(?)ii,1SSTxSSTxxix22x2 ,iii1xu?iOLSBLUEij2?,jji 是以X為因變量對所有其它自變量做回歸時(shí)得到的第i個(gè)殘差,而SSE則是jj案例.reglnearnSource+Numberofobs= F(1,20419)=Prob>F==Model|1Residual +RootMSE==Total11863.859320420lnearn+Std.t[95%educ_cons ..predictmu,*generateerror.egen*createaconstantmean+RootMSE==Total11863.859320420lnearn+Std.t[95%educ_cons ..predictmu,*generateerror.egen*createaconstantmeanofeduc_hiy,call.gen*renameeduc_hiyas...genb=(x-xbar)^2egen*sumuptogetthe.*..gendisplay.reglnearnLinearF(ProbofobsF=====Rootlnearn+Std.t[95%educ _cons.rreglnearnRobustNumberofF(1,===FProblnearn+Std.t[95%educ _cons.rreglnearnRobustNumberofF(1,===FProblnearn+Std.t[95%educ _consregression)是統(tǒng)計(jì)學(xué)穩(wěn)健估計(jì)中的一種方法。其主要思3、如何識別異方差 2)H:Var(u|x,x,...,x)或H: E 2220 0 若假定u2xju2x...xvH:0 1k k這樣,我們就可以利用s.reglnearnSource+NumberofobsF(1,Prob>FRootMSE ==== Model|Residual+1Totallnearn+s.reglnearnSource+NumberofobsF(1,Prob>FRootMSE ==== Model|Residual+1Totallnearn+t[95%exp_cons./Cook-WeisbergforHo:ConstantVariables:fittedvaluesof=Prob>chi2此處,P>0.05,意味著我們沒有能拒H0,因此認(rèn)為該殘差不存在異方差也可對各自變量進(jìn)行異方差性檢驗(yàn),命令如.estathettestp值小于0.05,則說明異方差性存4、解決異方差性常用方(1)AVar(bk (S1SS1SE* nn.regyx1x2…..,.rregyx1(2)加權(quán)最小二乘法(WeightedLeast以運(yùn)用加權(quán)最小二乘法(WLS),以得到比普通OLS假設(shè)異方差的形式可以寫為Var(.regyx1x2…..,.rregyx1(2)加權(quán)最小二乘法(WeightedLeast以運(yùn)用加權(quán)最小二乘法(WLS),以得到比普通OLS假設(shè)異方差的形式可以寫為Var(u|x)2h(x,那么需要知道的是如何建構(gòu)h(x)hi實(shí)上,若對整個(gè)等式兩側(cè)同時(shí)除以hiSTATAWLS.reglogearnSource+NumberofobsF(1,Prob>FRootMSE======Model|Residual+1Totallogearn+t[95%educ_cons.vwlslogearnNumberofobsModel ==Prob>chi2 ==>logearn+Std.zNumberofobsModel ==Prob>chi2 ==>logearn+Std.z[95%educ_cons 若我們事先知道Var(uj|xj)的形式,WLS是一個(gè)不錯(cuò)的方法。但更一般的情況是,我們并不能事先知道異方差性的形式。這時(shí),我們就需要去經(jīng)驗(yàn)地估計(jì)h(xi)或采用Huber-內(nèi)相關(guān)(intra-classcorrelation)、因變量的相關(guān)性問題等。它原采用Akaike’sinformationcriterion(AIC)的模型選擇準(zhǔn)則,目前采用準(zhǔn)似然獨(dú)立準(zhǔn)則(quasi-likelihoodundertheindependencemodelcriterionQIC)選擇GEE分析中的最佳結(jié)構(gòu)和最佳模型。該模型理解略難,故講解時(shí)只略提及并錄其面板數(shù)據(jù)中的Stata命令如下:.xtgeedepvarvarlist,family(family)link(link)corr(corr)i(idvar)t(timevar)**Family:binomial,gaussian,gamma,igaussian,nbinomial,**Link:identity,cloglog,log,logit,nbinomial,opwer,power,probit,**Correlation:independent,exchangeable,ar#,stationary#,nonstationary#,unstructured,fixed**Alsooptionstochangethescaleparameter,useweightedequations,.webuseunion,.idFita.unionagegradenot_smsasouth,family(binomial)FitaprobitmodelwithAR(1).xtgeeunionagegradenot_smsasouth,family(binomial).xtsetpanelvariable:id.setmatsizeCurrentmemorymemoryusage(1M=setmaxvarsetmemorymax.variables.xtgeeunionagegradenot_smsasouth,family(binomial).xtsetpanelvariable:id.setmatsizeCurrentmemorymemoryusage(1M=setmaxvarsetmemorymax.variablesallowedmax.dataspacemax.RHSvarsinedu,family(gaussian).xtgeeIteration1:tolerance=Iteration2:tolerance=.00002507Iteration3:tolerance=2.251e-Groupvariable:NumberofobsNumberofgroups=======ObsperWaldScaleProblogearnStd.z+edu|- _cons Generalizedestimatingequations:anannotatedbibliography(Ziegler,KastnerandBlettner,BiometricalJournal,1998).ReviewofsoftwaretofitGeneralizedEstimatingEquationregressionmodels(HortonLipsitz,TheAmericanStatistician,1999,articleonlineat(二)模型的不當(dāng)設(shè)定:忽略變量偏倚(OmittedVariable(1)(2)(二)模型的不當(dāng)設(shè)定:忽略變量偏倚(OmittedVariable(1)(2)先選擇易于解釋的模型。例如,x對y的百分比變化的效應(yīng)是不是比對yxx2xx 1可以用F-test等統(tǒng)計(jì)檢驗(yàn)聯(lián)合排他約束(jointexclusionrestrictions)的方法來判斷高階加入不相關(guān)自變量。在多元回歸方程中加入了不相關(guān)自變量會有什么影響?換句話②違背奧卡姆剃刀定律(Ockham’srazor),即簡約原則(LawofParsimony)F忽略了關(guān)鍵的自變量。假設(shè)真F忽略了關(guān)鍵的自變量。假設(shè)真實(shí)的回歸模型為yi01xi12xi23xi3重要的影響因素。這種因缺失重要變量所引起的偏倚,稱為忽略變量偏倚(omittedbias)。政府的統(tǒng)計(jì)數(shù)據(jù)就象比基尼,暴露出的那部分固然重要,但沒暴露出的那部ybias)。政府的統(tǒng)計(jì)數(shù)據(jù)就象比基尼,暴露出的那部分固然重要,但沒暴露出的那部y0y???x? 1 2??。 0(x部分的效果),xx22 請大家思考:若我們把本不該屬于這個(gè)模型中的變量納入進(jìn)來會怎么樣回答:最小二乘估計(jì)通常有偏,即出現(xiàn)忽略變量偏倚(omittedvariablesbias)忽略變量偏倚的模型驗(yàn)證y01x1? ? ∑yi01xi12xi2(xx)(xxu)x)(xx)x(xx(xx)(xxu)x)(xx)x(xx2 1 2i 1(xi1x1)xi2(xi1x1((xx)2 ((xx)2 (xi1x1)xiE()2((xx)2 1x20(xi1x1((xx)21 所以E(111)2=0x22)x2和x1如何檢查忽略變量的存在前處理協(xié)變量(pre-treatmentcovariate如何檢查忽略變量的存在前處理協(xié)變量(pre-treatmentcovariate)和后處理協(xié)變量(post-treatmentcovariate)。協(xié)變量的自變量。例如在研究X對Y的影響時(shí),自變量M對Y也存在影響,則稱自變量M為協(xié)變量。此時(shí)要注意辨別在社會現(xiàn)象產(chǎn)生的實(shí)際過程中協(xié)變量M是為前處理協(xié)變量還是后處理協(xié)變量,即M是在自變量X(treatment)之前出現(xiàn)還是在X之后出現(xiàn)。如果協(xié)變量M是前處理變量,則它可以作為X和Y的一個(gè)共同解釋原因或一個(gè)調(diào)節(jié)變量(moderator如性別、收入水平等。如果是后處理變量,則M就可以作為介入變量(interveningxip2)xip1)01xi1…(p2)xi(p2)(p1)xi(p1)假如在我們的研究中,我們的關(guān)注的是k(k(1,...p2)),Xk自變量對因變量Y01xi1…(p2)xi(p2)此時(shí),我們可以通過k和k是否相等來看忽略的變量是否產(chǎn)生偏差。如果k和k不相等則產(chǎn)生忽略變量偏差;如果k和k相等則不產(chǎn)生忽略變量偏差,此時(shí)模型中加入變量xp1對回歸系數(shù)k此時(shí),我們可以通過k和k是否相等來看忽略的變量是否產(chǎn)生偏差。如果k和k不相等則產(chǎn)生忽略變量偏差;如果k和k相等則不產(chǎn)生忽略變量偏差,此時(shí)模型中加入變量xp1對回歸系數(shù)kxip1)xi(p2)01xi1(p2)xi(xi(01xi1…(p2)xi(p2)(p1)(01xi1…(p2)xi(p2)i)0(p1)0(1(p1)1)xi1…((p2)(p1)(p2))xi(p2)(p1)kkp其中p1件(如圖1)①有關(guān)條件(RelevanceCondition):忽略變量影響因變量,即0②相關(guān)條件(CorrelationCondition):忽略變量與關(guān)鍵自變量相關(guān),即0p1)、k中只要有一個(gè)為零則不當(dāng)條件①或②有一個(gè)不成立時(shí),忽略變量X2不會影響自變量X1對因變量Y的效應(yīng),即不1來判斷忽略變量偏差的方向。如果忽略變量對因變量Y的效應(yīng)(1來判斷忽略變量偏差的方向。如果忽略變量對因變量Y的效應(yīng)(p1)Xk對忽略自變量的效應(yīng)(k)作用方向相同,即p1、k同時(shí)為正或同時(shí)為負(fù),那么實(shí)際得到的方程的系數(shù)(k)將被高估,即k大于真實(shí)值k;如果作用方向相反,則k檢查忽略變量方法之二:Link檢驗(yàn)或Ramsey判別忽略變量是否存在,其一是Link檢驗(yàn),二是Ramsey檢驗(yàn)。Ramsey檢驗(yàn)的基本思想:若模型設(shè)定無誤,則擬合值與自變量的高階項(xiàng)都不應(yīng)再有解(1)Link.usec:\data\wage1.dta,.regyx1x2x3use"D:\教學(xué)篇\中財(cái)教學(xué)\人大備課\課件\練習(xí)數(shù)據(jù)\chip1988.dta.regeduexpSource+NumberofobsF(4,===||+4Prob>|Root=|+t[95%|||||use"D:\教學(xué)篇\中財(cái)教學(xué)\人大備課\課件\練習(xí)數(shù)據(jù)\chip1988.dta.regeduexpSource+NumberofobsF(4,===||+4Prob>|Root=|+t[95%|||||.|+NumberofobsF(2,Prob>FRootMSE======Model|Residual2+Totallogearn+t[95%_hat_hatsq|- _cons|- 22.96%,不算高,可能是因?yàn)楹雎粤四承┲匾淖宰兞克鶎?dǎo).gen =AdjR-squared=.gen.regyx1x2x3x4x12若回歸結(jié)果中,擬合優(yōu)度有了顯著提高,且Linktesthatsqp值大于0.05,則說明無(2)使用Ramsey.gen.regyx1x2x3x4x12若回歸結(jié)果中,擬合優(yōu)度有了顯著提高,且Linktesthatsqp值大于0.05,則說明無(2)使用Ramsey.estatovtest[,.usec:\data\wage1.dta,.regyx1x2x3.estatRamsey檢驗(yàn)的原假設(shè)是模型不存在忽略變量,但檢驗(yàn)的p值若小于0.05,則為拒絕RamseyLinkyx1x2x3x4x12.estat.regeduexpSource+NumberofobsF(4,Prob>FRootMSE======Model|Residual+4Totallogearn+t[95%eduexp cpc sex|-_cons exp cpc sex|-_cons .estatRamseyRESETtestusingpowersoffittedvaluesHo:modelhasnoomittedF(3,15854)Prob>F(1)工具變量(IV)或代理xxv,(其中標(biāo)*的變量是我們沒有測量到的變量,稱之為潛變量)* 3 3y0301x12x233x3u3v3ux1,x2x*v3x1,x2ux1,x2x*v3x1,x2和x3x1和x23xxxxv* 1 2 y030131x1232x233x3u3v3,(2)用這個(gè)方法(比如說y是股票的價(jià)格或是一個(gè)城市中犯罪率等等)。(3)實(shí)驗(yàn)法利用實(shí)驗(yàn)設(shè)計(jì)讓條件②中k0(4應(yīng)用舉Xie&Hannum(1996)在―中國改革時(shí)期收入不平等的地區(qū)差異‖(CHIP數(shù)據(jù))2030歲之間的年輕人的教的工作經(jīng)歷的算法推算出年齡變量①應(yīng)用舉Xie&Hannum(1996)在―中國改革時(shí)期收入不平等的地區(qū)差異‖(CHIP數(shù)據(jù))2030歲之間的年輕人的教的工作經(jīng)歷的算法推算出年齡變量①。因?yàn)槲覀冎谎芯?0-30y=收入x1=教育程度x3=年齡輔助回歸和一步回歸的四個(gè)模型,模型一是用收入對教育程度、黨員身份回歸的模型(第二步),模型三是用模型一的殘差對模型二的殘差回歸的模型(三步計(jì)算法的第三步模型四是收入對于教育程度、黨員身份和年齡回歸的模型(一步計(jì)算法)yi01xi12xi2xi301xi12xi2①②yx**③i yi01xi12xi23xi3從STATA的分析結(jié)果(模型二和模型三)④①當(dāng)教育程度為小學(xué)及以下時(shí),age=exp+14;當(dāng)初中時(shí),age=exp+16;當(dāng)高中時(shí),age=exp+19;中專從0可以看出,年齡對收入有影響,即年齡較大的人收入較高從0可以看出,年齡對收入有影響,即年齡較大的人收入較高,滿足―有關(guān)條件‖10,20的人更可能受過更多的教育,黨員年齡很可能比非黨員年齡要大,滿足相關(guān)條件F(SSE1SSE3)/(df1df3)(827.413756.150)/12yx31x1x2①1x1x2回歸,取得②3③④y*x*3DF3=DF4=4061,而不是STATA分析結(jié)果中顯示的MSE3=SSE3/DF3,不是STATA分析結(jié)果中顯示的0.1861根據(jù)式(6)和10,20,30(4),我們可以得出p1k0(k1,2)式kkkkp024.26361,10.0819097,206.926389,10.0183922,205.897779,10.0149198,20.0974903,31310.01491980.04239310.08190970.01839221,即kk3k(k0,1,圖 年齡對收入、教育程度和黨員身份模型的影型中加入年齡變量將進(jìn)一步減少離差平方和SSE。這與前面的結(jié)論一致,即不能忽略年5中通過原點(diǎn)的回歸直線的斜率是b3(3的估計(jì)值),即年齡的偏回歸系數(shù),0.0423931(模型三)5年齡的偏回歸附錄(例題中使用的命令和分析結(jié)果.use"E:\chip1988.dta",.gen.replaceif.replaceif.replaceif.replaceif.replaceif.replaceif5年齡的偏回歸附錄(例題中使用的命令和分析結(jié)果.use"E:\chip1988.dta",.gen.replaceif.replaceif.replaceif.replaceif.replaceif.replaceif.dropif.reglogearncpc(模型一SourceNumberofobsF(2,Prob>FAdjR-Root======+Model|Residual2+TotallogearnStd.t[95%Conf.--024- - +edu|cpc_cons.predict.regageedu(模型二|+||+|======NumberofobsF(2,Prob>FRootMSE2|+|||Std.t[95%.predictx3resid,.regx3resid(模型三|+||+|======+edu|cpc_cons.predict.regageedu(模型二|+||+|======NumberofobsF(2,Prob>FRootMSE2|+|||Std.t[95%.predictx3resid,.regx3resid(模型三|+||+|======NumberofobsF(1,Prob>FRootMSE1|+||Std.t[95%-2.99e---.reglogearncpc(模型四|+||+|NumberofobsF(3,Prob>FRootMSE======3|t[95%+edu|cpc|age_cons+edu|cpc|age_cons.yresidx3resid)(三 內(nèi)生性問題與工具變量1、內(nèi)生變(三 內(nèi)生性問題與工具變量1、內(nèi)生變量與對聯(lián)立方程組模型(SimultaneousModel)而言,如凱恩斯模型(KeynesianctYtiYtctYtt的收入t為隨機(jī)誤差,其均值為0與況。在這里,我們的目標(biāo)是估計(jì)與,并對這些參數(shù)進(jìn)行統(tǒng)計(jì)分析。該模型包括兩個(gè)變量,即ct與Yt。它們相互依賴:消費(fèi)影響收入,同時(shí)收入影響消費(fèi)內(nèi)生變量(endogenousvariables)和外生變量(exogenousvariables)因素影響的變量被稱為內(nèi)生變量,即ct與Yt被稱為內(nèi)生變所謂內(nèi)生變量是具有某種概率分布的隨機(jī)變量,它的參數(shù)是聯(lián)立方程系統(tǒng)估計(jì)的元素(()性問題(endogeneity)OLS例:P=a+bQ,表示價(jià)格與數(shù)量的關(guān)系。在此式中,a、b是總體參數(shù),可算作外生變量;除此之外,譬如相關(guān)商品的價(jià)格、人們的收入等其他于模型有關(guān)的變量,也算作外生變量。而P、Q是模型要決定的變量,所以稱為內(nèi)生變量。先利用Hausman檢驗(yàn)(HausmanSpecificationtest)尋求工具變量(InstrumentalVariables)或傾向值分析(PropensityScoreAnalysis等方法來2、內(nèi)生性問題的檢判斷方法二:Hausman直接比較普通最小二乘估計(jì)和兩步最小二乘估計(jì)(2SLS,ivreg),即使用STATA提供若位于方程式右邊的變量是外生的,則通過比較,兩種估計(jì)方法(OLS回歸與兩步最小二乘估計(jì)2SLS)所得的估計(jì)應(yīng)該都是一致的。即原假設(shè)為:2SLS回歸所提供的估計(jì)值與OLS提供的估計(jì)值是相同的。若位于方程右邊的變量是內(nèi)生的,則兩種估計(jì)方法中只有以證明內(nèi)生性是個(gè)嚴(yán)重問題(canaskthedifferencebetweenthetwoestimatorsislargeenoughtosuggestthatendogeneityisasevereproblem)。 2SLS(或稱為加入輔助變量的回歸方法)的估計(jì)值相同。若被懷疑的方程式右邊①SeetoHausman,J.A.(1978).Specificationtestsineconometrics,Econometrics,46(6):1251-位于方程式右邊的變量是估計(jì)內(nèi)外假設(shè),即為了運(yùn)用Hausman檢驗(yàn),我們可以對一個(gè)多元回歸模型進(jìn)行回歸:該模型的自變量是內(nèi).ivregrisei_csex(educ_hiy=meduc_y)(outputomitted).hausman,***hausmanisaspecificationtest(storing假設(shè),即為了運(yùn)用Hausman檢驗(yàn),我們可以對一個(gè)多元回歸模型進(jìn)行回歸:該模型的自變量是內(nèi).ivregrisei_csex(educ_hiy=meduc_y)(outputomitted).hausman,***hausmanisaspecificationtest(storingestimationresultsas_HAUSMAN).regressrisei_ceduc_hiysex(outputomitted).hausman,constant----Coefficients---||+|||b=underandHa;fromB=inconsistentunderHa,efficientunderHo;fromTest:Ho:differenceincoefficientsnot=Prob>chi2 .hausmanname-consistent[name-efficient]hausman語句表示豪斯曼檢驗(yàn),其中語句中name-consistent是指一致估計(jì)量變量名計(jì)量的估計(jì)在下面中會詳細(xì)介紹。options內(nèi)容如下表所示:.regyx1.estimatesstore.ivregress.regyx1.estimatesstore.ivregress2slsyx1(x2=z1 .estimatesstore此命令存儲2SLS.hausmaniv.regrisei_ceduc_hiy.estimatesstore.ivregressrisei_csex.estimatesstore.hausmanivols,constantp=0educ3、工具變量Variables)是不一致的。為了改進(jìn)估計(jì)量特性,因而采用工具變量Zt。Xt高度相關(guān)又與ut不相關(guān),才可用Zt在估計(jì)模型參數(shù)時(shí),稱Z是不一致的。為了改進(jìn)估計(jì)量特性,因而采用工具變量Zt。Xt高度相關(guān)又與ut不相關(guān),才可用Zt在估計(jì)模型參數(shù)時(shí),稱Zt為工具變量,稱此種估計(jì)方法為工具變量法(IV法)忽略變量引起的偏倚問題,此外,IV還可以用來估計(jì)聯(lián)立方程模型(simultaneousequationmodels)。若想用變量z作為自變量xIV,z需要同時(shí)滿足如下要求:我們需要根據(jù)常識或是理論來判斷假定Cov(z,u)=0xπ0+π1zv中的原假設(shè)H0π10歸方程稱為第一步回歸(first-stageregression)對于一個(gè)簡單的例子:yβ0β1xuzIVCov(z,y)=β1Cov(zx)Cov(z,zizyiyzzxx1iiE(μ2|z)=ζ2=Var(μ)Varn12xx,1E(μ2|z)=ζ2=Var(μ)Varn12xx,1xx,OLS的結(jié)果IV估計(jì)與普通最小二乘估計(jì)的區(qū)別僅僅在于上式中包含有拿x對z做回歸時(shí)計(jì)算出的 由于R2<1,IV估計(jì)中的標(biāo)準(zhǔn)誤總是要比普通最小二乘估計(jì)中的標(biāo)準(zhǔn)誤要大。x和z之間的相關(guān)越強(qiáng),IV估計(jì)的標(biāo)準(zhǔn)誤就越小。然而,在Cov(x,u)≠0成立的前提下,IV估計(jì)是一Corrzu)/Corr(z,x)<Corr(x,u,我們?nèi)匀幌M笽VCorr(z,u)IV:plim?Corr(z, xOLS:plim~Corr(x,u) 同時(shí),IV方法與思想也可以推廣到多元回歸及將來要學(xué)x,如果―對未來的期望‖(ambition)以及其工具變量都不存在,則ambition和教育程度(educ)是相關(guān)的,β1IQ和母親的教育水平,有著相關(guān)關(guān)系。然后進(jìn)行如下的兩步最小IQ和母親的教育水平,有著相關(guān)關(guān)系。然后進(jìn)行如下的兩步最小二乘(2StageSquare,2SLS)回歸1步x對z^x01z^y01xu現(xiàn)以―中國城市生命史調(diào)查,1996(UrbanChina’sLifeHistorySurvey1996)‖數(shù)據(jù)能與對未來的期望相關(guān),不過,我們對于對未來的期望.use.keepif(3386observations.recoderisei_c-4/0=.(risei_c:959changesmade).recodeeduc_hiy-4/-1=.(educ_hiy:4changesmade).recodesex1=12=0(sex:1552changes.recodemeduc_y-4/-(meduc_y:19changes.keepifrisei_c!=.&educ_hiy~=.&(967observationsdeleted).sumrisei_ceduc_hiymeduc_yVariable+Std.risei_c①educ_hiy|meduc_ysex 0001 risei_c=β0+β1educ_hiy+β2male+.regrisei_ceduc_hiySource+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totalrisei_c+educ_hiy|meduc_ysex 0001 risei_c=β0+β1educ_hiy+β2male+.regrisei_ceduc_hiySource+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totalrisei_c+t[95%educ_hiysex_cons差項(xiàng)無關(guān)的工具變量。那么,母親的教育水平能否成為較好的IV呢?直觀上說,我們需要對個(gè)人的教育程度這一變量進(jìn)行純化.ivregrisei_csexInstrumentalvariables(2SLS)Source+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totalrisei_c+t[95%educ_hiysex_consInstrumented:educ_hiy .regsexSource+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totaleduc_hiyt[95%+sex|meduc_y_cons.predict(optionxbassumed;.regrisei_cp1Source+NumberofobsF(2,Prob>FSource+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totaleduc_hiyt[95%+sex|meduc_y_cons.predict(optionxbassumed;.regrisei_cp1Source+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totalrisei_c+t[95%p1sex_cons^y01根據(jù)我們的模型設(shè)定,正確的誤差應(yīng)當(dāng)是u,但二步回歸法的誤差項(xiàng)卻多了1v^u^1n1nu(y2^w(y2u當(dāng)然,上值手工計(jì)算可得,但STATA中的ivreg.regrisei_ceduc_hiySource+NumberofobsF(3,Prob>FRootMSE======Model|Residual+3Totalrisei_c當(dāng)然,上值手工計(jì)算可得,但STATA中的ivreg.regrisei_ceduc_hiySource+NumberofobsF(3,Prob>FRootMSE======Model|Residual+3Totalrisei_c+t[95%educ_hiysexmeduc_y_cons另一工具變量法案例:數(shù)據(jù)為“grilic.dta”(見課程操作數(shù)據(jù).use"D:\教學(xué)篇\中財(cái)教學(xué)\人大備課\回歸分析在社會科學(xué)中的應(yīng)用\課件\第一講endogenousproblem\grilic.dta",clear教育年限),kww(在“knowledgeoftheworldofwork”測試中的成績),.reglw80Source+Numberofobs=F( 754)Prob>=Model3Residual+RootMSE===Totallw80+t[95%s80||_cons.estimatesstore.ivregress2slstenure80iq=medkwwmrt***此處,三個(gè)工具變量(medkwwInstrumentalvariables(2SLS)age)對兩個(gè)變量(s80iq)NumberofobsWaldchi2(4)Prob>chi2RootMSEResidual+RootMSE===Totallw80+t[95%s80||_cons.estimatesstore.ivregress2slstenure80iq=medkwwmrt***此處,三個(gè)工具變量(medkwwInstrumentalvariables(2SLS)age)對兩個(gè)變量(s80iq)NumberofobsWaldchi2(4)Prob>chi2RootMSE=====lw80+Std. [95%| iqexpr80|tenure80|s80expr80tenure80medmrtstore.hausmanivols,constantNote:therankofthedifferencedvariancematrixdoesnotthecoefficientsbeingtested(4);besurethisiswhatexpect,ortheremaybeproblemscomputingthetest.Examinetheoutputyourestimatorsforanythingandconsiderscalingyourthatthecoefficientsareona----Coefficients---||+|||_consB=consistentHoandHa;obtainedfromunderHa,efficientunderHo;obtainedfromTest:Ho:incoefficientsnot=(V_b-V_Bnotpositive***解決內(nèi)生性問題lw801s802expr803tenure80=(V_b-V_Bnotpositive***解決內(nèi)生性問題lw801s802expr803tenure80.use"D:\教學(xué)篇\中財(cái)教學(xué)\人大備課\回歸分析在社會科學(xué)中的應(yīng)用\課件\第一講endogenous線性回歸擴(kuò)展篇.reglw80s80Source+NumberofobsF( Prob>FRootMSE======Model3Residual+Totallw80+Std.t[95%s80|expr80|tenure80_cons內(nèi)生性處理方法中2SLS,GMM和迭代GMM方法,在Stata.ivregressestimatory[varlist1](varlist2=varlist_iv)[if][in][weight][,ivregress表示對模型進(jìn)行內(nèi)生性處理語句,其中estimator代指2sls或者gmm兩種方法,varlist1表示模型不存在內(nèi)生性的解釋變量,varlist2=varlist_iv表示模型中存在內(nèi)生性的變量和解釋其的工具變量,if表示回歸的條件,in表示回歸的范圍,weight表示回歸中入放入權(quán)重,options的內(nèi)容如下表所示(1)2SLS.ivregress2slsy[varlist1](varlist2=instlist)[if][in][weight][,2sls2sls方法,(1)2SLS.ivregress2slsy[varlist1](varlist2=instlist)[if][in][weight][,2sls2sls方法,varlist1仍然表示不存在內(nèi)生性的回歸的條件,in表示回歸的范圍,weight表示回歸中加入放入權(quán)重,options內(nèi)容與前表中的選項(xiàng)是一致的(除了GMM項(xiàng))。具體來說最常用的兩個(gè)2SLS.ivregress2slsyx1(x2=z1.ivregress2slsyx1(x2=z1z2),r對模型進(jìn)行估計(jì)時(shí)在Stata命令窗口中輸入如下命令可以得到估計(jì)結(jié)果:.ivregress2slslw80expr80tenure80(iqs80=medkwwmrtrFirst-stageNumberofobs 751)Prob>FAdjR-squaredRootMSE====|iqt[95%+expr80|tenure80medkwwmrtage_consof 751)Prob>F== =|s80+t[95%|||||||kwwmrtage_consof 751)Prob>F== =|s80+t[95%|||||||variables(2SLS)NumberofobsWaldchi2(4)Prob>chi2RootMSE=====||+z[95%iqs80|expr80|tenure80_consiqexpr80tenure80medmrt.ivregress2slslw80expr80tenure80(iqs80=此命令表示使用2SLS法對模型進(jìn)行估計(jì),使用kwwmrtiqs80的工具變量Instrumentalvariables(2SLS)NumberofobsWaldchi2(4)Prob>chi2RootMSE====lw80+Std.z[95%iq|s80expr80|tenure80_consInstrumented:iq expr80tenure80medmrtexpr80|tenure80_consInstrumented:iq expr80tenure80medmrt在第二節(jié)段的結(jié)果中列示了instrumented(被使用工具變量解釋的原解釋變量)和tenure10%的置信度下未(2)GMM.ivregressgmmy[varlist1](varlist2=instlist)[if][in][weight][,gmmgmm方法,varlist1仍然表示不存在內(nèi)生表示回歸的條件,in表示回歸的范圍,weight表示回歸中加入的權(quán)重,options內(nèi)容與前mrt.ivregressgmmlw80expr80tenure80(iqs80=medFirst-stageNumberofobs 751)Prob>F== Root=|iqt[95%+|||||||of 751)Prob>F== =||++|||||||of 751)Prob>F== =||+t[95%|||||||variables(2SLS)NumberofobsWaldchi2(4)Prob>chi2RootMSE=====||+z[95%|||||iqexpr80tenure80medmrt.endofdo-do"C:\Users\臥薪嘗膽.ivregressgmmlw80expr80tenure80(iqs80=medkwwmrt此命令表示使用GMM法對模型進(jìn)行估計(jì),使用med,kww,mrt,ageiqs80的工具變量Instrumentalvariables(GMM)NumberofobsWaldchi2(4)=Prob> =RootMSE=.GMMweight=lw80+z[95%iqRootMSE=.GMMweight=lw80+z[95%iq|expr80|tenure80|iqexpr80tenure80medmrtt檢驗(yàn),lw80=3.998+0.0186iq+0.0411s80+0.0269expr80+0.0045tenure80(3)GMMGMMStata.ivregressgmmy[varlist1](varlist2=instlist)[if][in]GMMoptionsigmm具體化出來,所以此命令的解釋仍然是:varlist1仍然表示不存在內(nèi)生性的解釋變量,varlist2varlist_iv表示模型中存在內(nèi)生性的變量和解釋其的工具變量,if表示回歸的條件,in表示模型回歸的范圍,weight表示回歸中加入的權(quán)重,igmm表示迭代gmm估計(jì)法.ivregressgmmlw80expr80tenure80(iqs80=medkwwmrt***此命令表示使用迭GMM法對模型進(jìn)行估計(jì),使用med,kww,mrt,age作為iq和s80的工具變Iteration1:Iteration2:Iteration3:Iteration4:Iteration5:inbeta=5.821e-04inbeta=2.003e-05inbeta=7.138e-07inbeta=2.567e-08inbeta=9.315e-changeinWchangeinWchangeinWchangeinWchangein=3.471e-=1.282e-=4.592e-=1.655e-=5.973e-Instrumentalvariables(GMM)Numberofobs=Waldchi2(4).Prob>chi2RootMSE===GMMweightmatrix:|lw80+Std. [95%iqs80|expr80|tenure80_conslw80+Std. [95%iqs80|expr80|tenure80_cons iqexpr80tenure80medmrt估計(jì)結(jié)果圖顯示迭代GMM2SLSlw80=3.995+0.0186iq+0.041s80+0.0269expr80+0.00446tenure80(s80與tenure80(4)傾向值分析法(PropensityScore(2011).PropensityScoreAnalysis:StatisticalMethodsandApplications.Sage第三奇異值或重要影響第三奇異值或重要影響1GDP散點(diǎn)從散點(diǎn)圖上來看,右上方的阿富汗(Afghanistan)、伊拉克(Iraq)、加蓬(Gabon)利比里亞(ibeia)和波斯尼亞(osnia)是很明顯的奇異值;而左下方的蘇丹(Sudn)和圣多美(SoTome可能是重要影響點(diǎn)。X值的條件下,y取值中與眾不同的特殊觀察值?;蛘哒f,是一個(gè)殘差非常大的觀察值(xX值的條件下,y取值中與眾不同的特殊觀察值?;蛘哒f,是一個(gè)殘差非常大的觀察值(xy圖2均值附近的奇異值對回歸線的雖然這一點(diǎn)的殘差或差異很大,但它的杠桿作用(leverageeffect)x分布的中間,斜率只受到很小的影響。因此,盡管這是一個(gè)奇異值,但影響很小,可以a)看殘差。通常情況下是可以的,但有時(shí)會造成誤導(dǎo),因?yàn)椴糠钟^察值會將回b)看標(biāo)準(zhǔn)化殘差。標(biāo)準(zhǔn)化殘差是以原來的殘差除以標(biāo)準(zhǔn)差所得,用a)看殘差。通常情況下是可以的,但有時(shí)會造成誤導(dǎo),因?yàn)椴糠钟^察值會將回b)看標(biāo)準(zhǔn)化殘差。標(biāo)準(zhǔn)化殘差是以原來的殘差除以標(biāo)準(zhǔn)差所得,用以表明有多殘差的變化可以歸于通常的抽樣變異性(ordinarysamplingvariability)3在前面的GDP.reglIMR|+||+|Numberof======F(>1AdjR-squaredRootMSE|+|Std.t[95%----①小貼士:威廉?戈塞(WilliamSealyGosset,1876.6.13-1937.10.16),小樣本理論“StudentTK.皮爾遜生物統(tǒng)計(jì)學(xué)驗(yàn)室從事研致該統(tǒng)計(jì)被稱為“學(xué)生的T檢驗(yàn)”。1907-1937年間,戈塞發(fā)表了22篇統(tǒng)計(jì)學(xué)論文,這些論文于1942年以《“學(xué)生”論文集》為書名重新發(fā)行。_cons .predictyresid,(22missingvalues.predictyrstud,(22missingvalues.||||

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論