SAS統(tǒng)計分析(第七講)_第1頁
SAS統(tǒng)計分析(第七講)_第2頁
SAS統(tǒng)計分析(第七講)_第3頁
SAS統(tǒng)計分析(第七講)_第4頁
SAS統(tǒng)計分析(第七講)_第5頁
已閱讀5頁,還剩44頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

SAS統(tǒng)計分析

第七講

景學安2023/2/31

多元線性回歸

一、基本概念

多元線性回歸簡稱多元回歸,是研究一個應變量與多個自變量間線性依存關系數(shù)量變化規(guī)律的一種方法。

二、多元線性回歸方程

式中:b0為回歸方程常數(shù)項,亦稱為截距;bj(j=1,2,┅,m)為偏回歸系數(shù),即在其他自變量固定的條件下,Xj改變一個單位時應變量的改變量。

2023/2/32

三、多元線性回歸方程的應用

預測應變量的估計值

探索影響應變量y的主要因素當X為某一定值時,估計應變量的容許區(qū)間當X為某一定值時,估計其應變量的總體均數(shù)的置信區(qū)間2023/2/33

四、分類變量的數(shù)量化

在實際研究中,自變量常常會是分類變量,主要包括三種類型的分類變量:①兩分類變量,如性別(男、女);②有序分類變量,如病情(輕度、中度、重度);③無序分類變量,如職業(yè)(干部、職員、工人、農(nóng)民)。進行多元回歸分析,必須將這樣的指標數(shù)量化,常用的數(shù)量化方法有:

1.兩分類變量

可用0和1表示。例如:

0為男,1為女;0為陰性,1為陽性。

2.有序分類變量

由于有序的分類變量的各類之間有一定的數(shù)量關系,可以用0,1,2,3,┄表示。如0為輕度,1為中度,2為重度。2023/2/34

3.無序分類變量

由于各類別之間無數(shù)量關系,常用多個0,1變量表示,即建立多個啞變量(dummyvariable)。如表無序四分類變量用三個啞變量表示職業(yè)分類變量賦值X1X2X3干部職員工人農(nóng)民100001000010一般來說,m個類別的分類變量需要(m-1)個啞變量表示。2023/2/35五、SAS語句格式

同單變量線性回歸基本相同。

procreg[選項];

model應變量=自變量名列/[選項];必選語句,定義回歸分析模型

[freq變量名];可選項,定義頻數(shù)變量。

[outputout=數(shù)據(jù)集名統(tǒng)計量=變量名…統(tǒng)計量=變量名];

可選項。Output語句創(chuàng)建一個包括對每個觀察值計算統(tǒng)計量的新輸出的數(shù)據(jù)集。2023/2/36

(一)procreg語句的[選項]1.data=數(shù)據(jù)集

指明回歸分析所用的數(shù)據(jù)集。

2.outest=數(shù)據(jù)集

指定一個輸出數(shù)據(jù)集,用以存儲回歸分析所得的參數(shù)估計。3.simple

輸出每個變量的簡單統(tǒng)計結(jié)果。(二)model語句的/[選項]

1.selection=method

規(guī)定變量篩選方法和建立最優(yōu)模型的準則。method的以下幾種主要選項:

⑴forward(或f)前進法,按照sle規(guī)定的α值從無到有依次選一個變量進入模型

⑵backward(或b)后退法,按照sls規(guī)定的α值從含有全部變量的模型開始,以次剔除一個變量。2023/2/37⑶stepwise

逐步法,按照sle的α值依次選入變量,同時對模型中現(xiàn)有的變量按sls的α值剔除不顯著的變量。⑷adjrsq

選擇最優(yōu)模型的決定系數(shù)準則(R2)。應選擇R2最大的模型。⑸cp

選擇最優(yōu)模型的Cp準則。應選擇Cp值與(p+1)最接近的模型。⑹aic

選擇最優(yōu)模型的aic準則。應選擇aic值最小的模型。

注:[選項]中selection語句沒有篩選變量的方法時,模型中含有全部自變量的回歸模型。

2.sle=概率值

入選標準,規(guī)定變量入選模型的顯著性水平,前進法默認為0.5,逐步法默認為0.15。

3.sls=概率值

剔除標準,指定變量保留在模型的顯著性水平,后退法默認為0.1,逐步法默認為0.15。

2023/2/38

4.P

輸出實際值Yi、預測值、殘差及其標準誤。

5.stb

輸出各自變量的標準偏回歸系數(shù)。

6.cli

輸出x對應值的95%容許區(qū)間上下限

7.clm

輸出預測值的均值的95%可信區(qū)間上下限。

8.tol

輸出各自變量的容許值。0≤tol值≤1,越接近于0,共線性越嚴重。

9.vif

輸出各自變量的方差膨脹因子。當vif≥10時,可認為多元共線性嚴重存在。2023/2/39

10.collin

要求詳細分析自變量之間的共線性,給出信息矩陣的特征根、條件指數(shù)和方差比,當條件指數(shù)≥10,方差比>0.5時,可認為存在多元共線性。

11.collinoint

與選擇項collin作用相同,但不包括回歸常數(shù)。

12.R

進行預測值的殘差分析(即異常值識別與強影響分析),輸出學生化殘差值和Cook’s距離D值。當學生化殘差值>2時,所對應的點可能是異常點,當D值>0.5時,可認為對應的變量值對回歸函數(shù)是強影響點。

2023/2/310

完全多元線性回歸

例11-527名糖尿病人的血清總膽固醇、甘油三酯、空腹胰島素、糖化血紅蛋白、空腹血糖的測定值列于表11-4中,試建立血糖與其他指標的多元線性回歸方程。dataex11_5;infile'e:\sasx\sas7\ex11_5.txt';inputx1-x4y@@;procreg;modely=x1-x4/stb;run;2023/2/311

TheREGProcedureModel:MODEL1DependentVariable:y

AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel4133.7106933.427678.280.0003Error2288.841174.03823CorrectedTotal26222.55185RootMSE2.00954R-Square0.6008DependentMean11.92593AdjR-Sq0.5282CoeffVar16.850152023/2/312

ParameterEstimatesParameterStandardStandardizedVariableDFEstimateErrortValuePr>|t|EstimateIntercept15.943272.828592.100.04730x110.142450.365650.390.70060.07758x210.351470.204201.720.09930.30931x31-0.270590.12139-2.230.0363-0.33948x410.638200.243262.620.01550.397742023/2/313

逐步回歸

簡介

逐步回歸是篩選自變量的常用的方法之一。篩選自變量的方法還有前進法,后退法和最優(yōu)回歸子集法。逐步回歸法是依據(jù)事先給定的兩個顯著性水平SLE和SLS,將自變量逐個引入方程,同時每引入一個新變量后,對已選入的變量要進行逐個檢驗,將不顯著的變量剔除,這樣保證最后所得的變量都有顯著性。自變量間的多重共線性(multicollinearity)

多重共線性是指在進行多元回歸時,自變量間存在線性相關關系。共線關系存在,可使估計系數(shù)方差加大,系數(shù)估計不穩(wěn)定,結(jié)果分析困難。出現(xiàn)以下現(xiàn)象提示可能存在自變量之間的共線關系。

2023/2/314整個回歸方程的統(tǒng)計檢驗P<α,而各偏回歸系數(shù)的檢驗均出現(xiàn)P>α的矛盾現(xiàn)象。偏回歸系數(shù)的估計值明顯與實際情況不符,或者是偏回歸系數(shù)的符號與專業(yè)知識的情況相反。據(jù)專業(yè)知識,該自變量與應變量間關系密切,而偏回歸系數(shù)檢驗結(jié)果P>α。

增加(或刪除)一個變量,或者改變(或去除)一個觀察值,引起回歸系數(shù)估計值發(fā)生大的變化。多重共線性是引起上述問題的重要原因。解決多重共線性的辦法找出存在共線性且不重要的那些自變量,剔除出方程,另行回歸分析。

用主成分回歸或嶺回歸等有偏估計替代最小二乘估計。用逐步回歸等方法篩選自變量。

2023/2/315

例11-6

dataex11_6;infile'e:\sasx\sas7\ex11_5.txt';inputx1-x4y@@;proc

reg;modely=x1-x4/stbselection=cpaicadjrsq;modely=x1-x4/tolvifcollincollinointR;modely=x1-x4/selection=stepwisesle=0.15sls=0.15stb;run;2023/2/3162023/2/3172023/2/3182023/2/3192023/2/3202023/2/3212023/2/3222023/2/3232023/2/3242023/2/3252023/2/3262023/2/3272023/2/328第八章協(xié)方差分析

概念

協(xié)方差分析(analysisofcovariance)是把線性回歸與方差分析結(jié)合起來,檢驗兩個或多個修正均數(shù)間有無差別的方法。如研究不同的飼料對動物體重的增長情況,但每只動物的進食量是不同的,對體重的增長是有影響的,進食量即為混雜因素,亦稱為協(xié)變量。協(xié)方差分析檢驗的意義是:用直線回歸的方法找出食量(協(xié)變量x)與所增體重(應變量y)的線性關系,求得當食量化為相等時(即扣除食量的影響),各飼料組動物所增體重的修正均數(shù),然后用方差分析檢驗各修正均數(shù)間的差別。2023/2/329

協(xié)方差分析的應用條件

1.各處理組資料(x,y)來自正態(tài)總體分布,且總體方差相等。

2.各處理組的總體直線回歸系數(shù)βi

相等(回歸線平行),且都不為0。

3.協(xié)變量是定量變量,且與處理因素不存在交互作用。

4.各處理組的協(xié)變量均數(shù)差別不能太大。2023/2/330

協(xié)方差分析常用公式

修正均數(shù)間比較的F值如修正均數(shù)間有差別,必要時再作兩兩比較。公共回歸系數(shù)bc各修正均數(shù)的計算2023/2/331

SAS常用語句格式

Procglm[data=<數(shù)據(jù)集名>];

Class

分組變量;/*指明分組變量,

必須放在model語句前*/

Model

應變量=分組變量協(xié)變量/[選項];

Lsmeans分組變量/[選項];

/*輸出各組變量的最小二乘均數(shù)(修正均數(shù))*/

run;

2023/2/332

model語句常用的[選項]

solution/*輸出回歸方程中各參數(shù)的估計值

*/lsmeans語句常用的[選項]

stderr

/*輸出修正均數(shù)的標準誤

*/

pdiff

/*輸出修正均數(shù)間兩兩比較的概率值

*/2023/2/333一、完全隨機設計資料的協(xié)方差分析

例8-1為研究A、B、C三種飼料喂養(yǎng)8頭豬一段時間,測得每頭豬的初始重量(X)和增重(Y),數(shù)據(jù)見表8-3。試分析三種飼料對豬的催肥效果是否不同?A飼料B飼料C飼料X1Y1X2Y2X3Y312┆781513┆14178583┆84901716┆19189790┆99942224┆30328991┆105110

表8-3三種飼料喂養(yǎng)豬的進食量與增重(kg)2023/2/334dataex8_1;dofood=1to3;doi=1to8;inputxy@@;output;end;end;cards;1585138311651276128016911484179017971690181001895211032210619991894228924912083239525100271023010532110;procglm;classfood;modely=foodx/solution;lsmeansfood/stderrpdiff;run;2023/2/335SAS計算結(jié)果

TheGLMProcedureDependentVariable:y

SumofSourceDFSquares

MeanSquare

FValue

Pr>FModel3

2328.343765

776.114588

68.20

<.0001Error20

227.614568

11.380728CorrectedTotal23

2555.958333R-SquareCoeffVarRootMSEyMean0.9109473.6585993.37353492.20833

(以上說明總體模型有統(tǒng)計學意義,P=<.0001)2023/2/336SourceDFTypeISSMeanSquareFValuePr>FFOOD21317.583333

658.79166757.89<.0001X11010.7604321010.76043288.81<.0001SourceDFTypeIIISSMeanSquareFValuePr>FFOOD2707.218765353.60938231.07<.0001

SS修正均數(shù)MS修正均數(shù)

F值P值X11010.7604321010.76043288.81<.0001(從TypeⅢSS結(jié)果看,三種飼料修正均數(shù)間的差異有統(tǒng)計學意義,P<0.0001,說明三種飼料對豬的體重影響是不同的。協(xié)變量P<0.0001,差異有統(tǒng)計學意義,即x和y之間有線性回歸關系。)

2023/2/337

StandardParameterEstimateErrortValuePr>|t|Intercept35.93518188B6.575471405.47<.0001food112.79324180B3.408989473.750.0013food217.33559201B2.409151137.20<.0001food30.00000000B...x2.401569190.254833219.42<.0001

公共回歸系數(shù)bc

=35.94+2.40X+12.79foodfood=A=35.94+2.40X+17.34foodfood=B=35.94+2.40Xfood=C2023/2/338

TheGLMProcedureLeastSquaresMeansStandardLSMEANfoodyLSMEANErrorPr>|t|Number

修正均數(shù)標準誤

194.95863051.8403872<.00011299.50098071.2033114<.00012382.16538871.9643967<.00013LeastSquaresMeansforeffectfoodPr>|t|forH0:LSMean(i)=LSMean(j)DependentVariable:y兩兩比較的概率值

i/j12310.04240.001320.0424<.000130.0013<.00012023/2/339二、隨機區(qū)組(配伍組)設計資料的協(xié)方差分析

例8-2表8-4三組大白鼠的進食量(x,g)與所增體重(y,g)區(qū)組

A組B組C組

x

y

x

y

x

y

12┆┆1112

256.9271.6┆┆

356.9198.2

27.041.7┆┆76.09.2

260.3271.1┆┆356.3199.2

32.047.7┆┆102.18.1

544.7481.2┆┆559.6371.9

160.396.1┆┆169.854.32023/2/340dataex8_2;doa=1to12;dob=1to3;inputxy@@;output;end;end;cards;256.927.0260.332.0544.7160.3271.641.7271.147.1481.296.1210.225.0214.736.7418.9114.6300.152.0300.165.0556.6134.8262.214.5269.739.0394.576.3304.448.8307.537.9426.672.8272.448.0278.951.5416.199.4248.29.5256.226.7549.9133.7242.837.0240.841.0580.5147.0342.956.5340.761.3608.3165.8356.976.0356.3102.1559.6169.8198.29.2199.28.1371.954.3;procglm;classab;modely=xab/solution;lsmeansb/stderrpdiff;run;程序2023/2/341TheGLMProcedureDependentVariable:YSourceDFSumofSquaresMeanSquareFValuePr>FModel1473529.470805252.1050649.39<.0001Error212233.13892106.33995CorrectedTotal3575762.60972

R-SquareC.V.RootMSEYMean0.97005215.3460610.3121369.19722SourceDFTypeIIISSMeanSquareFValuePr>FX16175.0305216175.03052158.07<.0001A113761.318706341.9380643.220.0103B2469.156885234.5784432.210.13502023/2/342

StandardLSMEANbyLSMEANErrorPr>|t|Number167.43015524.9702654<.00011275.10234934.8681166<.00012359.05916218.3787077<.00013

LeastSquaresMeansforeffectbPr>|t|forH0:LSMean(i)=LSMean(j)DependentVariable:yi/j12310.08280.511720.08280.210530.51170.21052023/2/343

兩條或多條回歸直線的比較對兩條或多條回歸直線進行比較,即檢驗其總體回歸直線的斜率是否相等(回歸直線是否平行),檢驗其總體截距是否相等。如兩者都相同即可合并為一條回歸直線。例11-4某地方病研究所調(diào)查了8名正常兒童和10名大骨節(jié)病兒童的年齡與其尿肌酐含量(mmol/24h),正常兒童數(shù)據(jù)見表11-1,大骨節(jié)病兒童數(shù)據(jù)見表11-3。是比較兩樣本尿肌酐含量(Y)對其年齡(X)的回歸直線是否平行。2023/2/344

表8名正常兒童和10名大骨節(jié)病患兒的年齡(歲)與尿肌酐含量(mmol/24h)正常兒童大骨節(jié)病患兒年齡,X尿肌酐含量,Y年齡,X尿肌酐含量,Y1311968101273.543.013.092.482.563.363.182.65109111215168710153.012.832.923.093.983.892.212.392.743.362023/2/345dataex11_4;doc=1to2;inputn;doi=1ton;inputxy@@;output;end;end;cards;8133.54113.0193.0962.4882.56103.36123.1872.6510103.0192.83112.92123.09153.98163.8982.2172.39102.74153.36;procglm;classc;modely=xcx*c/ss1;/*通過檢驗交互作用看其回歸線是否平行*/procglm;classc;modely=xc/ss3;/*通過檢驗兩組修正均數(shù)是否相同看其截距是否相同*/run;2023/2/346

TheGLMProcedureDependentVariable:ySumofSourceDFSquaresMeanSquareFValuePr>FModel33.442019961.1473399927.18

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論