第三講統(tǒng)計分析_第1頁
第三講統(tǒng)計分析_第2頁
第三講統(tǒng)計分析_第3頁
第三講統(tǒng)計分析_第4頁
第三講統(tǒng)計分析_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 第三講:統(tǒng)計分析第三講:統(tǒng)計分析主要教學(xué)內(nèi)容:v 描述統(tǒng)計描述統(tǒng)計&相關(guān)系數(shù)相關(guān)系數(shù)v 均值均值&中位數(shù)檢驗中位數(shù)檢驗v OLS回歸回歸v 邏輯回歸邏輯回歸v logit&probit回歸回歸v tobit回歸回歸v cluster(聚類聚類)v 因子分析因子分析v spline回歸回歸v GLS回歸回歸v 2SLS回歸回歸v 中位數(shù)回歸中位數(shù)回歸描述統(tǒng)計 /*使用表m12*/data m12;set test.m12;run;proc means data=m12 n mean std max q3 median q1 min;var tc csp size lev

2、 roa purchs loan state;run; 以HTML格式數(shù)據(jù)結(jié)果:工具=選項=參數(shù)選擇=結(jié)果=創(chuàng)建HtmL(使用work文件夾)分組描述統(tǒng)計procproc meansmeans n n datadata=m12;=m12;varvar stock; stock;classclass year state; year state;runrun; ;/ /* *classclass可用可用byby替換,但要先按替換,但要先按byby變量排序變量排序* */ /procproc sortsort datadata=m12;=m12;byby state;state;runrun; ;

3、procproc meansmeans meanmean datadata=m12;=m12;varvar cspcsp tctc; ;byby state; state;runrun; ;3相關(guān)系數(shù) procproc corrcorr datadata=m12 =m12 pearsonpearson spearmanspearman; ; varvar tctc cspcsp size size levlev roaroa purchspurchs loan loan indpdtindpdt msharemshare state; state; runrun; ; procproc cor

4、rcorr datadata=m12 =m12 pearsonpearson; ; varvar tc csp size lev; tc csp size lev; wherewhere state= state=1 1; ; runrun; ; / /* *用用wherewhere子句選擇需要的樣本子句選擇需要的樣本* */ /4獨立樣本的均值檢驗又叫又叫T T檢驗檢驗procproc ttestttest datadata=m12;=m12; varvar tctc cspcsp; ; classclass state; state;runrun; ;獨立樣本的中位數(shù)檢驗又叫非參數(shù)檢驗又叫

5、非參數(shù)檢驗procproc npar1waynpar1way datadata=m12 =m12 wilcoxonwilcoxon; ; classclass state; state; varvar tctc cspcsp; ;runrun; ;OLS(最小二乘)回歸 因變量為因變量為連續(xù)變量連續(xù)變量 procproc regreg datadata=m12;=m12; modelmodel tctc= =cspcsp size size levlev roaroa purchspurchs loan loan indpdtindpdt msharemshare state year1-ye

6、ar3 ind1-ind11; state year1-year3 ind1-ind11; runrun; ; / /* *經(jīng)過行業(yè)、年度調(diào)整的回歸經(jīng)過行業(yè)、年度調(diào)整的回歸* */ /結(jié)果導(dǎo)出 /*在word中生成表格*/odsods rtfrtf filefile= =e:dataresult.rtfe:dataresult.rtf; ; proc proc regreg datadata=m12;=m12; model model tctc= =cspcsp size size levlev roaroa purchspurchs loan loan indpdtindpdt mshare

7、mshare state;state;runrun; ; odsods rtfrtf closeclose; ;ods rtf file=e:dataresult.rtf; proc corr data=m12 pearson spearman; var tc csp size lev; run; ods rtf close; /*保存為網(wǎng)頁格式保存為網(wǎng)頁格式*/ ods html file=“e:dataresult.htm; proc reg data=m12; model tc=csp size lev roa purchs loan indpdt mshare state;run; o

8、ds html close; /*保存為保存為PDF格式格式*/ ods printer file=d:dataresult.pdf pdf; proc reg data=m12; model tc=csp size lev roa purchs loan indpdt mshare state;run; ods printer close;報告模型估計結(jié)果(output)在數(shù)據(jù)集在數(shù)據(jù)集p中生成模型的各估計量:中生成模型的各估計量: proc reg data=test.m12; model tc=csp size lev roa purchs loan indpdt mshare stat

9、e; output out=p r=residual p=yhat stdi=stdi stdp=stdp stdr=stdr ; run;r: residualp: predicted y (yhat)stdi: 個體的預(yù)測標(biāo)準(zhǔn)誤stdp:平均的預(yù)測標(biāo)準(zhǔn)誤stdr: 殘差標(biāo)準(zhǔn)誤分組回歸 例:分年度回歸并報告每組的回歸系數(shù) proc sort data=test.m12; by year; run; /*先按by變量排序*/ proc reg data=test.m12 outest=est; model tc=csp size lev roa purchs loan indpdt mshar

10、e state; by year; run; outest選項表示在數(shù)據(jù)集中報告回歸系數(shù)。選項表示在數(shù)據(jù)集中報告回歸系數(shù)。logistic回歸邏輯回歸:邏輯回歸:是研究分類觀察結(jié)果(y)與一些影響因素(x)之間關(guān)系的一種多變量分析方法。即y 取某值(如y=1)的概率(p)與某影響因素(x)的關(guān)系,其中p(概率)的取值范圍介于01之間。因變量為分類變量,取值范圍在0,1.使用數(shù)據(jù)集使用數(shù)據(jù)集resdat.audit: data audit; set resdat.audit; run;logistic回歸 proc logistic data=audit descending; model bi

11、g4=sqrcratio cratio size lev roa growth rec int rf / rsquare; where state=1 and ind3=1; run;以上程序與下面這段程序等價以上程序與下面這段程序等價: (descending和和event的作用的作用) proc logistic data=audit; model big4(event=1)=sqrcratio cratio size lev roa growth rec int rf/rsquare; where state=1 and ind3=1; run;逐步回歸(stepwise) proc l

12、ogistic data=audit descending; model big4=sqrcratio cratio size lev roa growth rec int rf / selection=stepwise; where state=1 and ind3=1;run; selection=stepwise:逐步回歸,將Wald統(tǒng)計量的P值小于0.05的自變量自動剔除logit回歸 proc logistic data=audit descending; model big4=sqrcratio cratio size lev roa growth rec int rf / lin

13、k=logit; output out=out p=prob xbeta=yhat; where state=1 and ind3=1; run;logit (P) = ln (P / (1-P) = a + b*x =yhatP = exp (a + b*x) / (1 + exp (a + b*x) ) =prob非常重要:在非常重要:在logit和和probit回歸中,回歸中,p表示事件發(fā)生的概率值,表示事件發(fā)生的概率值,xbeta表示因變量表示因變量y的估計值。但在的估計值。但在OLS回歸中,回歸中,p表示表示y的估計的估計值,而值,而xbeta表達(dá)式不起作用。表達(dá)式不起作用。prob

14、it回歸 proc logistic data=audit descending; model big4=sqrcratio cratio size lev roa growth rec int rf / link=probit; output out=out p=prob xbeta=yhat; where state=1 and ind3=1; run;probit(P) = a + b*x = yhatP= prob =pnorm( yhat )(pnorm是標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù))probit模型服從正態(tài)分布。非常重要:在非常重要:在logit和和probit回歸中,回歸中,p表示事件

15、發(fā)生的概率值,表示事件發(fā)生的概率值,xbeta表表示因變量示因變量y的估計值。但在的估計值。但在OLS回歸中,回歸中,p表示表示y的估計值,而的估計值,而xbeta表表達(dá)式不起作用。達(dá)式不起作用。spline回歸 分段線性回歸:Knots(change points) :Spline回歸(樣條回歸): 在結(jié)點處(knots)光滑的分段回歸Spline回歸的模型:其中k kj j 表示結(jié)點,q為結(jié)點個數(shù)。spline回歸舉例現(xiàn)在,我們將cratio的下四分位數(shù)(q1)和上四分位數(shù)(q3)作為spline的兩個結(jié)點,則有:cratio1cratioq1q1cratio20cratio-q1q3-q

16、1cratio300cratio-q3cratio的值q1q3將cratio1-cratio3加入模型中回歸,代替原來模型中的sqrcratio和cratio。spline回歸舉例 首先,生成首先,生成cratio的結(jié)點:的結(jié)點:q1、q3: proc univariate data=audit; var cratio; output out=audit1 p ctlpts=25 75 pctlpre=a pctlname=q1 q3; quit; data audit1; set audit1; idd=1; run; data audit; set audit; idd=1; run; d

17、ata audit2; merge audit audit1; by idd; run;spline回歸舉例proc sql;create table audit3 as select *,case when cratioaq1 then cratio else aq1 end as cratio1,case when cratioaq1 then 0 when aq1=cratioaq3 then cratio-aq1 else aq3-aq1 end as cratio2,/*接左欄接左欄*/case when cratio=aq3 then 0 else cratio-aq3 end a

18、s cratio3from audit2;quit;其次,生成其次,生成cratio1-cratio3。spline回歸舉例最后,最后,spline回歸:用回歸:用cratio1-cratio3代替原來模型中的代替原來模型中的cratio 和和sqrcratio 。 proc logistic data=audit3 descending; model big4=cratio1 cratio2 cratio3 size lev roa growth rec int rf / rsquare; where state=1 and ind3=1; run;spline回歸結(jié)果與普通邏輯回歸結(jié)果的對

19、比回歸結(jié)果與普通邏輯回歸結(jié)果的對比GLS(廣義最小二乘)回歸OLS回歸必須在滿足高斯-馬爾可夫假定時才有效,當(dāng)MLR.5(同方差假定)不滿足時,就會產(chǎn)生異方差問題,此時使用GLS回歸比OLS更有效。例:假設(shè)如下回歸模型存在異方差問題,則使用GLS回歸程序:proc genmod data=audit descending;model big4=sqrcratio cratio size lev roa growth rec int rf /link=logit dist=binomial;run; link選項:選擇連接函數(shù)的類型選項:選擇連接函數(shù)的類型 dist選項:因變量的分布類型選項:因

20、變量的分布類型(該例中的該例中的binomial表示二項分布表示二項分布),如,如normal、tobit、poisson等。等。tobit回歸tobit模型適用于這樣一類受限因變量:在嚴(yán)格為正值時基本連續(xù),但總體中有一個不可忽略的部分取值為0。例:企業(yè)收到的政府補(bǔ)貼(受限因變量)受哪些因素的影響:data tobit; set resdat.tobit; run;proc qlim data=tobit;model subsidy=lnasset lev roa growth deficit;endogenous subsidy censored(lb=0 );run;endogenous:

21、 內(nèi)生變量,此處指受限因變量。censored(lb=0): 表示因變量的lower boundary是0。2SLS(兩階段工具變量法)回歸當(dāng)MLR.4(零條件均值假定)不滿足時,就會產(chǎn)生內(nèi)生性問題,使用兩階段工具變量法(2SLS)可以解決。例:假設(shè)在GDP的影響因素中,政府購買(gvmtpur)是內(nèi)生變量,用廣義貨幣供應(yīng)M2作為gvmtpur的工具。data gdp; set resdat.gdp; run;proc syslin data=gdp 2sls first; /*first: 報告第一階段回歸結(jié)果*/endogenous gvmtpur; /*指定內(nèi)生變量*/instrumen

22、ts consume invest m2 ; /*指定工具變量*/model gdp = gvmtpur consume invest ; /*第二階段模型*/run;Heckman 兩階段回歸Heckman模型用于解決自選擇問題。舉例舉例:假設(shè), 我們預(yù)計big4會顯著提高企業(yè)的Tobin-Q (二者正相關(guān)), 但是也有可能是由于big4主動選擇了Tobin-Q高的企業(yè)作為審計客戶。解決方法解決方法: stage1: 引入工具變量估計一個審計師選擇模型(因變量=big4), 根據(jù)估計值(big4=xbeta)的分布函數(shù)計算逆米爾斯比率invmr; stage2: 將invmr代入原模型回歸,

23、以控制自選擇偏差。 Heckman 兩階段回歸/*第一階段回歸第一階段回歸*/proc logistic data=audit; model big4(event=1)=size lev growth rf add fee/link=probit; output out=heck1 xbeta=xbeta; quit;data heck2; set heck1; invmr=pdf(NORMAL,xbeta)/cdf(NORMAL,xbeta); run; /*第二階段回歸第二階段回歸*/proc reg data=heck2; model tobinq=big4 size lev growt

24、h rf invmr; quit;新增加的工具變量add為企業(yè)所在省份, fee是審計費用。它們影響big4但不影響tobin Q。2SLS與Heckman的區(qū)別 二者都用來解決內(nèi)生性問題。 最主要的區(qū)別在于: 2SLS回歸用于內(nèi)生變量是連續(xù)型變量(如gvmtpur)的時候; Heckman 兩階段模型用于內(nèi)生變量是分類變量(如big4)的時候。panel data(面板)回歸面板數(shù)據(jù)是時間序列和截面數(shù)據(jù)的混合,指對一組個體連續(xù)追蹤觀察多期的資料。常用固定效應(yīng)(FE)和隨機(jī)效應(yīng)(RE)模型來回歸。例:datadata mvaluemvalue; ; setset resdat.mvaluere

25、sdat.mvalue; ; runrun; ;/*先計算每個公司有幾個觀測值no*/procproc sqlsql; ;create table mvalue1 asselect *,n(stock) as nofrom mvaluegroup by stock;quitquit; ;panel data(面板)回歸 /*刪除樣本期間內(nèi)只有一年觀測值的公司*/ datadata mvalue2; mvalue2;setset mvalue1; mvalue1; if no m21.220.5440panel data(面板)回歸 proc sort data=mvalue2; by stoc

26、k year; run; /*先排序先排序*/ proc tscsreg data=mvalue2; model mv=invest capital/ fixone ranone; id stock year; run;cluster(聚類)分析 proc surveyreg data=test.m12; cluster stock; /*按stock來聚類*/ model tc=csp size lev roa purchs loan indpdt mshare state; quit;因子分析:主成分分析將相關(guān)比較密切的幾個變量歸在同一類中,每一類就成為一個因子,以較少的幾個因子反映原資料的大部分信息。例:利用多個盈利指標(biāo)生成一個因子,衡量企業(yè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論