版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、 第三講:統(tǒng)計分析第三講:統(tǒng)計分析主要教學(xué)內(nèi)容:v 描述統(tǒng)計描述統(tǒng)計&相關(guān)系數(shù)相關(guān)系數(shù)v 均值均值&中位數(shù)檢驗中位數(shù)檢驗v OLS回歸回歸v 邏輯回歸邏輯回歸v logit&probit回歸回歸v tobit回歸回歸v cluster(聚類聚類)v 因子分析因子分析v spline回歸回歸v GLS回歸回歸v 2SLS回歸回歸v 中位數(shù)回歸中位數(shù)回歸描述統(tǒng)計 /*使用表m12*/data m12;set test.m12;run;proc means data=m12 n mean std max q3 median q1 min;var tc csp size lev
2、 roa purchs loan state;run; 以HTML格式數(shù)據(jù)結(jié)果:工具=選項=參數(shù)選擇=結(jié)果=創(chuàng)建HtmL(使用work文件夾)分組描述統(tǒng)計procproc meansmeans n n datadata=m12;=m12;varvar stock; stock;classclass year state; year state;runrun; ;/ /* *classclass可用可用byby替換,但要先按替換,但要先按byby變量排序變量排序* */ /procproc sortsort datadata=m12;=m12;byby state;state;runrun; ;
3、procproc meansmeans meanmean datadata=m12;=m12;varvar cspcsp tctc; ;byby state; state;runrun; ;3相關(guān)系數(shù) procproc corrcorr datadata=m12 =m12 pearsonpearson spearmanspearman; ; varvar tctc cspcsp size size levlev roaroa purchspurchs loan loan indpdtindpdt msharemshare state; state; runrun; ; procproc cor
4、rcorr datadata=m12 =m12 pearsonpearson; ; varvar tc csp size lev; tc csp size lev; wherewhere state= state=1 1; ; runrun; ; / /* *用用wherewhere子句選擇需要的樣本子句選擇需要的樣本* */ /4獨立樣本的均值檢驗又叫又叫T T檢驗檢驗procproc ttestttest datadata=m12;=m12; varvar tctc cspcsp; ; classclass state; state;runrun; ;獨立樣本的中位數(shù)檢驗又叫非參數(shù)檢驗又叫
5、非參數(shù)檢驗procproc npar1waynpar1way datadata=m12 =m12 wilcoxonwilcoxon; ; classclass state; state; varvar tctc cspcsp; ;runrun; ;OLS(最小二乘)回歸 因變量為因變量為連續(xù)變量連續(xù)變量 procproc regreg datadata=m12;=m12; modelmodel tctc= =cspcsp size size levlev roaroa purchspurchs loan loan indpdtindpdt msharemshare state year1-ye
6、ar3 ind1-ind11; state year1-year3 ind1-ind11; runrun; ; / /* *經(jīng)過行業(yè)、年度調(diào)整的回歸經(jīng)過行業(yè)、年度調(diào)整的回歸* */ /結(jié)果導(dǎo)出 /*在word中生成表格*/odsods rtfrtf filefile= =e:dataresult.rtfe:dataresult.rtf; ; proc proc regreg datadata=m12;=m12; model model tctc= =cspcsp size size levlev roaroa purchspurchs loan loan indpdtindpdt mshare
7、mshare state;state;runrun; ; odsods rtfrtf closeclose; ;ods rtf file=e:dataresult.rtf; proc corr data=m12 pearson spearman; var tc csp size lev; run; ods rtf close; /*保存為網(wǎng)頁格式保存為網(wǎng)頁格式*/ ods html file=“e:dataresult.htm; proc reg data=m12; model tc=csp size lev roa purchs loan indpdt mshare state;run; o
8、ds html close; /*保存為保存為PDF格式格式*/ ods printer file=d:dataresult.pdf pdf; proc reg data=m12; model tc=csp size lev roa purchs loan indpdt mshare state;run; ods printer close;報告模型估計結(jié)果(output)在數(shù)據(jù)集在數(shù)據(jù)集p中生成模型的各估計量:中生成模型的各估計量: proc reg data=test.m12; model tc=csp size lev roa purchs loan indpdt mshare stat
9、e; output out=p r=residual p=yhat stdi=stdi stdp=stdp stdr=stdr ; run;r: residualp: predicted y (yhat)stdi: 個體的預(yù)測標(biāo)準(zhǔn)誤stdp:平均的預(yù)測標(biāo)準(zhǔn)誤stdr: 殘差標(biāo)準(zhǔn)誤分組回歸 例:分年度回歸并報告每組的回歸系數(shù) proc sort data=test.m12; by year; run; /*先按by變量排序*/ proc reg data=test.m12 outest=est; model tc=csp size lev roa purchs loan indpdt mshar
10、e state; by year; run; outest選項表示在數(shù)據(jù)集中報告回歸系數(shù)。選項表示在數(shù)據(jù)集中報告回歸系數(shù)。logistic回歸邏輯回歸:邏輯回歸:是研究分類觀察結(jié)果(y)與一些影響因素(x)之間關(guān)系的一種多變量分析方法。即y 取某值(如y=1)的概率(p)與某影響因素(x)的關(guān)系,其中p(概率)的取值范圍介于01之間。因變量為分類變量,取值范圍在0,1.使用數(shù)據(jù)集使用數(shù)據(jù)集resdat.audit: data audit; set resdat.audit; run;logistic回歸 proc logistic data=audit descending; model bi
11、g4=sqrcratio cratio size lev roa growth rec int rf / rsquare; where state=1 and ind3=1; run;以上程序與下面這段程序等價以上程序與下面這段程序等價: (descending和和event的作用的作用) proc logistic data=audit; model big4(event=1)=sqrcratio cratio size lev roa growth rec int rf/rsquare; where state=1 and ind3=1; run;逐步回歸(stepwise) proc l
12、ogistic data=audit descending; model big4=sqrcratio cratio size lev roa growth rec int rf / selection=stepwise; where state=1 and ind3=1;run; selection=stepwise:逐步回歸,將Wald統(tǒng)計量的P值小于0.05的自變量自動剔除logit回歸 proc logistic data=audit descending; model big4=sqrcratio cratio size lev roa growth rec int rf / lin
13、k=logit; output out=out p=prob xbeta=yhat; where state=1 and ind3=1; run;logit (P) = ln (P / (1-P) = a + b*x =yhatP = exp (a + b*x) / (1 + exp (a + b*x) ) =prob非常重要:在非常重要:在logit和和probit回歸中,回歸中,p表示事件發(fā)生的概率值,表示事件發(fā)生的概率值,xbeta表示因變量表示因變量y的估計值。但在的估計值。但在OLS回歸中,回歸中,p表示表示y的估計的估計值,而值,而xbeta表達(dá)式不起作用。表達(dá)式不起作用。prob
14、it回歸 proc logistic data=audit descending; model big4=sqrcratio cratio size lev roa growth rec int rf / link=probit; output out=out p=prob xbeta=yhat; where state=1 and ind3=1; run;probit(P) = a + b*x = yhatP= prob =pnorm( yhat )(pnorm是標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù))probit模型服從正態(tài)分布。非常重要:在非常重要:在logit和和probit回歸中,回歸中,p表示事件
15、發(fā)生的概率值,表示事件發(fā)生的概率值,xbeta表表示因變量示因變量y的估計值。但在的估計值。但在OLS回歸中,回歸中,p表示表示y的估計值,而的估計值,而xbeta表表達(dá)式不起作用。達(dá)式不起作用。spline回歸 分段線性回歸:Knots(change points) :Spline回歸(樣條回歸): 在結(jié)點處(knots)光滑的分段回歸Spline回歸的模型:其中k kj j 表示結(jié)點,q為結(jié)點個數(shù)。spline回歸舉例現(xiàn)在,我們將cratio的下四分位數(shù)(q1)和上四分位數(shù)(q3)作為spline的兩個結(jié)點,則有:cratio1cratioq1q1cratio20cratio-q1q3-q
16、1cratio300cratio-q3cratio的值q1q3將cratio1-cratio3加入模型中回歸,代替原來模型中的sqrcratio和cratio。spline回歸舉例 首先,生成首先,生成cratio的結(jié)點:的結(jié)點:q1、q3: proc univariate data=audit; var cratio; output out=audit1 p ctlpts=25 75 pctlpre=a pctlname=q1 q3; quit; data audit1; set audit1; idd=1; run; data audit; set audit; idd=1; run; d
17、ata audit2; merge audit audit1; by idd; run;spline回歸舉例proc sql;create table audit3 as select *,case when cratioaq1 then cratio else aq1 end as cratio1,case when cratioaq1 then 0 when aq1=cratioaq3 then cratio-aq1 else aq3-aq1 end as cratio2,/*接左欄接左欄*/case when cratio=aq3 then 0 else cratio-aq3 end a
18、s cratio3from audit2;quit;其次,生成其次,生成cratio1-cratio3。spline回歸舉例最后,最后,spline回歸:用回歸:用cratio1-cratio3代替原來模型中的代替原來模型中的cratio 和和sqrcratio 。 proc logistic data=audit3 descending; model big4=cratio1 cratio2 cratio3 size lev roa growth rec int rf / rsquare; where state=1 and ind3=1; run;spline回歸結(jié)果與普通邏輯回歸結(jié)果的對
19、比回歸結(jié)果與普通邏輯回歸結(jié)果的對比GLS(廣義最小二乘)回歸OLS回歸必須在滿足高斯-馬爾可夫假定時才有效,當(dāng)MLR.5(同方差假定)不滿足時,就會產(chǎn)生異方差問題,此時使用GLS回歸比OLS更有效。例:假設(shè)如下回歸模型存在異方差問題,則使用GLS回歸程序:proc genmod data=audit descending;model big4=sqrcratio cratio size lev roa growth rec int rf /link=logit dist=binomial;run; link選項:選擇連接函數(shù)的類型選項:選擇連接函數(shù)的類型 dist選項:因變量的分布類型選項:因
20、變量的分布類型(該例中的該例中的binomial表示二項分布表示二項分布),如,如normal、tobit、poisson等。等。tobit回歸tobit模型適用于這樣一類受限因變量:在嚴(yán)格為正值時基本連續(xù),但總體中有一個不可忽略的部分取值為0。例:企業(yè)收到的政府補(bǔ)貼(受限因變量)受哪些因素的影響:data tobit; set resdat.tobit; run;proc qlim data=tobit;model subsidy=lnasset lev roa growth deficit;endogenous subsidy censored(lb=0 );run;endogenous:
21、 內(nèi)生變量,此處指受限因變量。censored(lb=0): 表示因變量的lower boundary是0。2SLS(兩階段工具變量法)回歸當(dāng)MLR.4(零條件均值假定)不滿足時,就會產(chǎn)生內(nèi)生性問題,使用兩階段工具變量法(2SLS)可以解決。例:假設(shè)在GDP的影響因素中,政府購買(gvmtpur)是內(nèi)生變量,用廣義貨幣供應(yīng)M2作為gvmtpur的工具。data gdp; set resdat.gdp; run;proc syslin data=gdp 2sls first; /*first: 報告第一階段回歸結(jié)果*/endogenous gvmtpur; /*指定內(nèi)生變量*/instrumen
22、ts consume invest m2 ; /*指定工具變量*/model gdp = gvmtpur consume invest ; /*第二階段模型*/run;Heckman 兩階段回歸Heckman模型用于解決自選擇問題。舉例舉例:假設(shè), 我們預(yù)計big4會顯著提高企業(yè)的Tobin-Q (二者正相關(guān)), 但是也有可能是由于big4主動選擇了Tobin-Q高的企業(yè)作為審計客戶。解決方法解決方法: stage1: 引入工具變量估計一個審計師選擇模型(因變量=big4), 根據(jù)估計值(big4=xbeta)的分布函數(shù)計算逆米爾斯比率invmr; stage2: 將invmr代入原模型回歸,
23、以控制自選擇偏差。 Heckman 兩階段回歸/*第一階段回歸第一階段回歸*/proc logistic data=audit; model big4(event=1)=size lev growth rf add fee/link=probit; output out=heck1 xbeta=xbeta; quit;data heck2; set heck1; invmr=pdf(NORMAL,xbeta)/cdf(NORMAL,xbeta); run; /*第二階段回歸第二階段回歸*/proc reg data=heck2; model tobinq=big4 size lev growt
24、h rf invmr; quit;新增加的工具變量add為企業(yè)所在省份, fee是審計費用。它們影響big4但不影響tobin Q。2SLS與Heckman的區(qū)別 二者都用來解決內(nèi)生性問題。 最主要的區(qū)別在于: 2SLS回歸用于內(nèi)生變量是連續(xù)型變量(如gvmtpur)的時候; Heckman 兩階段模型用于內(nèi)生變量是分類變量(如big4)的時候。panel data(面板)回歸面板數(shù)據(jù)是時間序列和截面數(shù)據(jù)的混合,指對一組個體連續(xù)追蹤觀察多期的資料。常用固定效應(yīng)(FE)和隨機(jī)效應(yīng)(RE)模型來回歸。例:datadata mvaluemvalue; ; setset resdat.mvaluere
25、sdat.mvalue; ; runrun; ;/*先計算每個公司有幾個觀測值no*/procproc sqlsql; ;create table mvalue1 asselect *,n(stock) as nofrom mvaluegroup by stock;quitquit; ;panel data(面板)回歸 /*刪除樣本期間內(nèi)只有一年觀測值的公司*/ datadata mvalue2; mvalue2;setset mvalue1; mvalue1; if no m21.220.5440panel data(面板)回歸 proc sort data=mvalue2; by stoc
26、k year; run; /*先排序先排序*/ proc tscsreg data=mvalue2; model mv=invest capital/ fixone ranone; id stock year; run;cluster(聚類)分析 proc surveyreg data=test.m12; cluster stock; /*按stock來聚類*/ model tc=csp size lev roa purchs loan indpdt mshare state; quit;因子分析:主成分分析將相關(guān)比較密切的幾個變量歸在同一類中,每一類就成為一個因子,以較少的幾個因子反映原資料的大部分信息。例:利用多個盈利指標(biāo)生成一個因子,衡量企業(yè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度山西省高校教師資格證之高等教育心理學(xué)自測模擬預(yù)測題庫
- 學(xué)校垃圾分類督導(dǎo)員工作總結(jié)
- 2024年智能設(shè)備硬件采購協(xié)議
- 2024室內(nèi)裝潢工程合作協(xié)議書
- 2024廣告服務(wù)公司與客戶協(xié)議
- 2024年供應(yīng)商協(xié)議格式
- 2024年專項事務(wù)跟蹤代理協(xié)議模板
- 2024城市地下停車場租賃協(xié)議
- 2024年商品交易協(xié)議模板
- 2024年稻草批發(fā)銷售協(xié)議范本
- 個體戶經(jīng)營章程
- 《西游記》完整版本
- 風(fēng)能發(fā)電的電網(wǎng)接入技術(shù)
- 年回收30萬噸廢塑料PET破碎清洗線建設(shè)項目可行性研究報告
- 初中語文大單元匯報課件1
- MOOC 科技英語寫作-西安電子科技大學(xué) 中國大學(xué)慕課答案
- 24春國家開放大學(xué)《離散數(shù)學(xué)》大作業(yè)參考答案
- 鯊魚知識課件
- 2023-2024年天原杯全國初中學(xué)生化學(xué)競賽復(fù)賽試題(含答案)
- (高清版)TDT 1047-2016 土地整治重大項目實施方案編制規(guī)程
- 自然教育行業(yè)的行業(yè)分析
評論
0/150
提交評論