版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、回歸分析-簡單線性回歸、多元線性回歸比較:方差分析是處理試驗數(shù)據(jù)的一類統(tǒng)計方法。這類統(tǒng)計方法的特點是所考察的指標(因變量)Y是測量得到的數(shù)值變量(連續(xù)變量),而影響指標的因子(自變量)水平是試驗者安排的幾個不同值(稱這種因子為分類變量或離散變量)。試驗的目的是找出影響指標的主要因子及水平。在實際問題中,還經(jīng)常遇到這樣一些數(shù)據(jù),它們不是有意安排的試驗得到的數(shù)據(jù),而是對生產(chǎn)過程測量記錄下來的數(shù)據(jù)。對它們進行分析,目的是想找出對我們所關心的指標(因變量)Y有影響為因素(也稱自變量或回歸變量),并建立用預報Y的經(jīng)驗公式。對于現(xiàn)實世界,不僅要知其然,而且要知其所以然。顧客對商品和服務的反映對于商家是至關
2、重要的,但是僅僅有滿意顧客的比例是不夠的,商家希望了解什么是影響顧客觀點的因素,以及這些因素是如何起作用的。類似地,醫(yī)療衛(wèi)生部門不能僅僅知道某流行病的發(fā)病率,而且想知道什么變量影響發(fā)病率,如何影響發(fā)病率的。發(fā)現(xiàn)變量之間的統(tǒng)計關系,并且用此規(guī)律來幫助我們進行決策才是統(tǒng)計實踐的最終目的。一般來說,統(tǒng)計可以根據(jù)目前所擁有的信息(數(shù)據(jù))來建立人們所關心的變量和其他有關變量的關系。這種關系一般稱為模型(model)。假如用Y表示感興趣的變量,用X表示其他可能與Y有關的變量(x也可能是若干變量組成的向量)。則所需要的是建立一個函數(shù)關系Y=f(X)。這里Y稱為因變量或響應變量(dependent varia
3、ble, response variable),而X稱為自變量,也稱為解釋變量或協(xié)變量(independent variable,explanatory variable, covariate)。建立這種關系的過程就叫做回歸(regression)。一旦建立了回歸模型,除了對各種變量的關系有了進一步的定量理解之外,還可以利用該模型(函數(shù)或關系式)通過自變量對因變量做預測(prediction)。這里所說的預測,是用已知的自變量的值通過模型對未知的因變量值進行估計,它并不一定涉及先后的概念,更不必要有因果關系?;貧w分析是統(tǒng)計分析的一項重要內(nèi)容,它可以幫助我們找出變量之間的數(shù)量關系。例如,影響企業(yè)
4、盈利情況的因素可能包括企業(yè)的資產(chǎn)負債率、銀行的利率水平、所在國的GDP增長率。對一些企業(yè)進行調(diào)查之后,我們可以獲得企業(yè)的盈利情況、資產(chǎn)負債率、利率水平、GDP增長率的數(shù)據(jù)。使用回歸分析就可以得出由資產(chǎn)負債率、銀行的利率水平、所在國的GDP增長率三個變量表示的企業(yè)盈利水平。作得到了回歸結(jié)果后,就可以對企業(yè)的經(jīng)營作出一些有用的決策。SAS/STAT中提供的關于回歸的過程很多,包括REG(回歸)過程、RSREG(二次響應面回歸)過程、ORTHOREG(病態(tài)數(shù)據(jù)回歸)過程、NLIN(非線性回歸)過程、TRAANSREG(變換同歸)過程、CALIS(線性結(jié)構(gòu)方程和路徑分析)過程、GLM(一般線性回歸)過
5、程、GENMOD(廣義線性回歸)過程等等。一、回歸分析知識點1. 一元線性回歸分析這里所指的單變量,是針對自變量個數(shù)而言的,在不特別說明的情況下,應變量均為單個變量。單變量線性回歸為回歸分析中最為簡單的情形,也是其它類型回歸分析的基礎?!纠}1】 某醫(yī)生為了探討缺碘地區(qū)母嬰TSH水平的關系,應用免疫放射分析測定了160名孕婦(15-17周)及分娩時臍帶血TSH水平(mU/L),現(xiàn)隨機抽取10對數(shù)據(jù),見下表,分娩時臍帶血TSH水平(mU/L)受母血TSH水平的影響,試進行回歸分析。(數(shù)據(jù)編號:data7_01)10名孕婦及其分娩時臍帶血TSH水平母血TSH1.211.301.391.421.47
6、1.561.681.721.982.10臍帶血TSH3.904.504.204.834.164.934.324.994.705.20此例資料中,臍帶血TSH水平隨母血TSH水平的變化而變化,前者應被看作為應變量,用y表示,后者為自變量,用x表示。編制如下程序?!維AS程序】data sasuser.data7_01; input x y; datalines; 1.21 3.90 1.30 4.50 1.39 4.20 1.42 4.83 1.47 4.16 1.56 4.93 1.68 4.32 1.72 4.99 1.98 4.70 2.10 5.20 ;proc reg; model y
7、=x;run;雖然reg過程選項、語句復雜,但我們經(jīng)常用到的一般比較簡單,此例即為最簡單的情形,達到了reg過程程序代碼的最低限度。提交上述程序,結(jié)果如下。 結(jié)果第一部分為模型的方差分析結(jié)果。第二部分給出模型的有關重要統(tǒng)計量,如R2(R-Square)、校正R2(Adj R-Sq)等指標。第三部分為模型的參數(shù)估計情況,分別給出截距項和自變量回歸系數(shù)等的估計值以及對應的假設檢驗結(jié)果。2. 多元線性回歸多元線性回歸(multiple linear regression)為線性回歸中自變量在兩個以上的情形,此時回歸模型的選擇具有很大的靈活性。對于全部自變量,可以將它們?nèi)糠旁谀?/p>
8、型中,也可以只選擇其中一部分進行回歸分析,而選擇變量的途徑也有多種,一般常用的有前進法(forward)、后退法(backward)以及逐步回歸法(stepwise)。我們先來看看全模型(將所有變量納入模型)的回歸分析方法。【例題2】某學校20名一年級女大學生體重(公斤)、胸圍(厘米)、肩寬(厘米)及肺活量(升)實測值如下表所示,試對影響女大學生肺活量的有關因素作多元回歸分析。(數(shù)據(jù)編號:data7_02)20名一年級女大學生肺活量及有關變量測量結(jié)果編號體重X1(公斤)胸圍X2(厘米)肩寬X3(厘米)肺活量Y(升)151.373.636.42.99248.983.934.03.11342.87
9、8.331.01.91455.077.131.02.63545.381.730.02.86645.374.832.01.91751.473.736.52.98853.879.437.03.28949.072.630.12.521053.979.537.13.271148.883.833.93.101252.688.438.03.281342.778.230.91.921452.588.338.13.271555.177.231.12.641645.281.630.22.851751.478.336.53.161848.772.530.02.511951.378.236.43.152045.27
10、4.732.11.92 【SAS程序】(先建立一個SAS數(shù)據(jù)集,存放上述數(shù)據(jù),然后程序可以直接調(diào)用。)proc reg data=sasuser.data7_02; model y=x1 x2 x3;run; 從此例的結(jié)果中,我們看到并不是所有自變量的回歸作用都具有統(tǒng)計學意義,這時我們需要建立一個最優(yōu)模型,這就要涉及到自變量的選擇問題。有關自變量的選擇方法有許多種,這些方法也都有各自所依據(jù)的評優(yōu)標準,我們所常用的就是前述的三種方法,其中逐步回歸法更是最為常用。逐步回歸法的SAS程序只需在上述程序的model語句后添加“selection=stepwise”選項以及“sle
11、ntry=”和“slstay=”選項即可。此處我們將進入模型和剔除出模型的門檻都定為=0.05,model語句如下。model y=x1 x2 x3 /selection=stepwise slentry=0.05 slstay=0.05;【SAS程序】proc reg data=sasuser.data7_02; model y=x1 x2 x3 /selection=stepwise slentry=0.05 slstay=0.05;run;【SAS程序運行結(jié)果】 逐步回歸的結(jié)果內(nèi)容較多,涉及到每一步回歸分析的詳細信息。每一步的信息都有相應的標志來標識,如“Stepwise Se
12、lection: Step 1”表示逐步回歸的第一步,每一步都對當前的模型進行方差分析和參數(shù)的估計并對參數(shù)進行檢驗,這樣整個模型選擇的過程我們就會一目了然。最后給出模型選擇的結(jié)果和選擇過程的概略信息,籍此可以確定最終的回歸方程?!纠}3】下表是對32個企業(yè)的年賠償費用y(單位:千元),年銷售額x1(單位:百萬元),年利潤x2(單位:百萬元)和雇傭人數(shù)x3的調(diào)查數(shù)據(jù)。 考慮建立如下模型:y=0+1 ln x1+2 ln x2+3 ln x3+i (數(shù)據(jù)編號:data7_03) No.yx1x2x3No.yx1x2x314504600.6128.1480017324724.790.33912387
13、9255.4733.9559018225578.963.341433681526.2136.0137819254966.842.862642771683.2179.0277720208591.048.5106156762752.8231.53400215184933.1310.6653964542205.8329.52650224067613.2491.6894075072334.6331.83030233323457.4228.0552084962746.0237.9410024340545.354.678094871434.0222.325902569822862.83011.333712
14、10383470.663.7860263062361.0203.05200113111508.0149.52108276132611.1201.0505012271464.430.0687283021013.2121.31863135249329.3577.33900205404560.3194.69794144982377.5250.7343030203855.763.41230153431174.382.61941315281211.6352.1718016354724.761.5359324565440.1655.28770【SAS程序】 二、回歸分析SAS編程reg過程reg
15、過程只是SAS中眾多關于回歸的過程之一,reg是用于一般目的回歸分析的過程,而其它過程則具有各自特殊的用途。reg過程涉及到較多的語句和選項,所以顯得稍微復雜一些。下面我們來看看reg過程的語句和基本格式。 PROC REG < 選項列表 > ; < 標簽: > MODEL 應變量列表=<自變量列表> < / 選項列表 > ; BY 變量名列表 ; FREQ 變量名 ; ID 變量名列表 ; VAR 變量名列表 ; WEIGHT 變量名 ; ADD 變量名列表 ; DELETE 變量名列表 ; < 標簽: > MTEST &
16、lt;方程式<, . , 方程式>> < / 選項列表 > ; OUTPUT < OUT=數(shù)據(jù)集名 > keyword=變量名列表 < . keyword=變量名列表> ;PAINT <條件表達式 | ALLOBS> < / 選項列表 > | < STATUS | UNDO> ; PLOT <y變量名*x變量名> <=符號>
17、 < .y變量名*x變量名> <=符號> < / 選項列表 > ; PRINT < 選項列表 > < ANOVA > < MODELDATA > ; REFIT; RESTRICT 條件表達式, . , 條件表達式; REWEIGHT <條件表達式 | ALLOBS> < / 選項列表 > | < STATUS | UNDO> ; < 標簽: > TEST 變量表達式,<, .,變量表
18、達式> < / 選項 > ;Proc reg語句標志reg過程的開始,其后的選項條目較多,功能復雜,這里的選項所具有的功能將會影響到此過程中的所有model語句。各選項及其功能詳見下表。Proc reg語句各選項及其功能選項(依字母順序)功能描述all執(zhí)行所有選項的功能(特定語句環(huán)境下合法的選項)alpha=數(shù)值以指定的數(shù)值為水準計算各種可信區(qū)間annotate=數(shù)據(jù)集名指定包含注釋信息的數(shù)據(jù)集用以向plot語句所繪圖形添加特定信息corr指定SAS對model語句和var語句中的所有變量輸出相關矩陣covout向outest選項指定的輸出數(shù)據(jù)集輸出協(xié)方差矩陣data=數(shù)據(jù)集
19、名指定用于進行回歸分析的數(shù)據(jù)集edf向outest選項指定的數(shù)據(jù)集輸出自變量個數(shù)、誤差自由度、R2等gout=圖形目錄指定輸出圖形元素保存的路徑,默認值為work.gseglineprinter | lp以點陣方式(行式打印機方式)輸出plot語句繪制的圖形noprint禁止分析結(jié)果的輸出outest=數(shù)據(jù)集名將參數(shù)估計值以及模型擬合過程統(tǒng)計量(可選)輸出到指定的數(shù)據(jù)集outseb輸出參數(shù)估計值的標準誤到outest選項所指定的數(shù)據(jù)集outsscp=數(shù)據(jù)集名將SSCP矩陣內(nèi)容輸出到指定的數(shù)據(jù)集中outstb將標準化的參數(shù)估計值輸出到outest選項指定的數(shù)據(jù)集中outvif將VIF(方差膨脹因
20、子)輸出到outest選項指定的數(shù)據(jù)集中pcomit=數(shù)值列表對列表中每一個數(shù)值進行非完全主成分分析,并輸出到outest數(shù)據(jù)集press計算并輸出Press統(tǒng)計量到outest數(shù)據(jù)集ridge=數(shù)值列表以列表中的每一個數(shù)值為ridge常數(shù)K進行ridge回歸分析,結(jié)果輸出到outest數(shù)據(jù)集rsquare向outest選項指定的數(shù)據(jù)集輸出自變量個數(shù)、誤差自由度、R2等simple將合計、均數(shù)、方差、標準差、離均差平方和等輸出到結(jié)果中singular=n控制用來檢驗變量奇異性的參數(shù)n,此選項較少用到tableout將參數(shù)估計值的標準誤、可信區(qū)間、t值、P值輸出到outest數(shù)據(jù)集usscp將r
21、eg過程中用到的所有變量的未校正的SSCP矩陣輸出到結(jié)果中model語句model語句用以指定所要擬合的回歸模型。其最前面的標簽為可選項,可以是不超過8個字符的字符串,用來對定義的模型進行標識,以便于在結(jié)果中分辨不同的模型,一般情況下系統(tǒng)會以默認的方式對模型進行標識,你可以省略此項。關鍵字model后所列的是模型表達式,和方差分析中anova過程的model語句相似。模型表達式中等號的左邊為反應變量,等號的右邊為自變量列表,自變量間以空格相分隔。這里所用到的所有變量必須存在于所分析的數(shù)據(jù)集中,而且是數(shù)值型的。如果要用到幾個變量產(chǎn)生的綜合變量,必須在數(shù)據(jù)步完成新變量的創(chuàng)建過程,model語句中的
22、組合型變量將被視為非法。Model語句后可設定眾多的選項,選項數(shù)目比proc reg語句的要多,這里不再一一列出。不過大家不用擔心,這里的選項相當一部分和proc reg語句的完全相同,功能也一樣,只是作用的范圍有所差別,這里的選項只作用于model語句所涉及的功能范圍。但有一些選項這里需要介紹一下,因為他們非常常用并且行使重要的功能,見下表。Model語句常用選項及其功能選項(依字母順序)功能描述adjrsq對每一個所選擇的模型計算其自由度校正的R2b對于以R2、校正R2、Cp值為參數(shù)的選擇模型,計算其回歸系數(shù)clb計算并輸出參數(shù)估計值的可信區(qū)間上、下限cli計算并輸出單個預測值的可信區(qū)間上
23、、下限clm計算并輸出每條觀測下應變量期望值(均數(shù))的可信區(qū)間上、下限collin對自變量之間的共線性進行分析collinoint對自變量之間的共線性進行分析,不包括截距項cp對每一個模型計算Mallows Cp統(tǒng)計量include=n指定每次模型擬合必須包含自變量中的前n個influence針對每一條觀測,分析其對參數(shù)估計和預測值的影響maxstep=n限定逐步回歸分析時最多進行的步數(shù)為nnoint要求模型擬合時不包含截距項p計算每一條觀測應變量的預測值并輸出到結(jié)果partial對每一個自變量(包括截距項)繪制對于應變量的偏回歸殘差圖r進行殘差分析并顯示在結(jié)果中sbc計算每個模型的SBC統(tǒng)計
24、量并顯示在結(jié)果中selection=指定模型選擇的方法,可以是前進法(forward)、后退法(backward)、逐步法(stepwise)等等slentry=指定前進法和逐步法時變量進入模型的顯著性水平,默認值前進法為0.5,逐步法為0.15slstay指定后退法和逐步法時變量留在模型內(nèi)的顯著性水平,默認值后退法為0.1,逐步法為0.15sp對每個模型計算Sp統(tǒng)計量ss1將I型平方和(SS1)與各參數(shù)估計值一并列出ss2將II型平方和(SS2)與各參數(shù)估計值一并列出sse計算并顯示每個模型的誤差平方和start=s在模型選擇模式下,指定開始時包含在模型中的自變量個數(shù)(s個)stop=s指定
25、包含在模型中的自變量個數(shù)為s個時停止模型選擇過程xpx計算并顯示自變量交叉積和矩陣(X'X) id語句指定用以標識觀測的變量。如果某一條model語句指定了cli, clm, p, r, 或者influence選項,結(jié)果中會有針對每一條觀測的輸出,此時用id語句指定每一條觀測的標識將會使結(jié)果更易于辨認或理解。如果沒有id語句,SAS則用觀測的編號來標識每一條觀測。var語句var語句用來將那些未包括在model語句中但需要將其包含在交叉積和矩陣中的數(shù)值型變量。在隨后的add語句中想交互地加入模型的變量以及要在plot語句中對其繪制散點圖的變量也需在var語句中列出。另外,如果
26、你只想利用proc reg語句后的選項執(zhí)行某些特定的功能,而并不會用到model語句的話,var語句則是必需的。add語句add語句用以將自變量交互地加入模型,以考察某個變量對模型擬合的影響。此處用到的變量必須為model語句或var語句中出現(xiàn)的變量,你可以交互地加入某個變量到模型中或?qū)⒃赿elete語句中剔除的變量重新包含到模型中。對add語句的每一次執(zhí)行都將改變模型的標簽。delete語句delete語句的作用與add語句相反,用以交互地將某個變量剔除出模型。同樣,對delete語句的每一次執(zhí)行都會改變模型的標簽。mtest語句mtest語句用以在有多個應變量時進行模型的多重檢驗。其最前面
27、的標簽項和model語句的完全相同。語句中的方程式用以指定多重檢驗的假設模型,是一組以系數(shù)和變量名組成的線性方程式。此語句用在多元回歸情況下,多個應變量對同一組自變量擬合線性模型時。此語句用以檢驗的檢驗假設與指定的方程式相對應,可理解為其中的自變量(未指定時則為所有自變量)對于其中的應變量(未指定時則為所有應變量)擬合線性模型時的參數(shù)估計值(即系數(shù))為零。此語句后可設定三個選項,分別為“canprint”、“detail”、“print”?!癱anprint”選項要求對應變量組合與自變量組合之間進行典型相關分析并顯示在結(jié)果中,“detail”選項要求顯示多種中間計算過程的細節(jié),“print”選
28、項要求顯示H(Hypothesis Effect,模型效應)和E(Error Effect,誤差效應)矩陣。reweight語句reweight語句用于重新指定各條用于擬合回歸方程的觀測的權重系數(shù),它可以改變觀測的權重系數(shù),也可將觀測的權重系數(shù)設置為0,等同于將相應的觀測排除出模型擬合過程,但它并不會將這些觀測刪除。Reweight語句可被多次使用,reweight語句對其后面的語句發(fā)生作用,它產(chǎn)生作用的同時會改變模型的標簽,以表示一個新的不同的模型。Reweight語句的內(nèi)容格式與paint語句的完全相同,大家可參考paint語句來運用reweight語句,需要注意的是,reweight語句
29、只改變符合條件的觀測。另外語句后的選項“weight=數(shù)值”用以對符合條件的觀測指定新的權重系數(shù),其中的“數(shù)值”須為非負實數(shù)。如果忽略此選項,新的權重系數(shù)將被默認地設置為零。Reweight語句不會對相應的統(tǒng)計量立即進行重新計算,所以其后的paint語句或其它reweight語句可能發(fā)揮不了原先設想的作用。比如以下語句:Reweight r.>0;Reweight r.>0;其設想的作用是用殘差大于零的觀測重新擬合模型,在此基礎上再選出殘差大于零的觀測再重新擬合模型,但由于reweight語句不會立即對相應統(tǒng)計量重新計算,第二條語句所用的條件與第一條語句完全相同,因此不能起到應有的
30、作用,即將新模型中殘差小于等于零的觀測剔除出去。解決的辦法就是在兩條語句之間加入其它可以對新模型立即進行重新計算的語句,最常用的是refit語句,簡單高效。output語句output語句用于將回歸分析中產(chǎn)生的結(jié)果輸出到指定的數(shù)據(jù)集中,它所對應的是最后一個model語句所定義的模型。新產(chǎn)生的數(shù)據(jù)集中,包括輸入數(shù)據(jù)集(用以進行回歸分析的數(shù)據(jù)集)的全部數(shù)據(jù)、回歸分析過程中產(chǎn)生的各種統(tǒng)計量以及針對每一觀測的回歸診斷指標數(shù)據(jù)等。但如果輸入數(shù)據(jù)類型為corr、cov或sscp等,output語句則會失效。Output語句需指定兩個選項,“out=數(shù)據(jù)集名”選項指定輸出數(shù)據(jù)集的名稱(臨時性或永久性均可),
31、如果不指定此選項,SAS將用系統(tǒng)默認的名稱(datan,n為按順序排列的正整數(shù))為數(shù)據(jù)集命名?!発eyword=變量名”選項用以指定要輸出的統(tǒng)計量并對相應統(tǒng)計量在輸出數(shù)據(jù)集中命名(即等號后的變量名),此選項可多次使用,每一次均指定一個需要輸出的統(tǒng)計量。在對此選項的每一次使用中,等號后的變量名可有多個(之間以空格分開),分別對各應變量(一個模型有多個應變量時)的相應統(tǒng)計量命名,其順序和各應變量在模型表達式中的順序相對應。選項中的keyword關鍵字及其表示的具體統(tǒng)計量見下表。keyword關鍵字及其表示的具體統(tǒng)計量關鍵字代表的統(tǒng)計量COOKDCooks D影響值統(tǒng)計量COVRATIO每一觀測對回
32、歸系數(shù)協(xié)方差的標準化影響值DFFITS每一觀測對應變量預測值的標準化影響值H檢驗假設條件下的模型效應,即xi(XX)xiLCL單個預測值可信區(qū)間的下限LCLM應變量期望值(均數(shù))可信區(qū)間的下限PREDICTED | P應變量預測值(即Y)PRESS第i個觀測對應的殘差被(1-h)所除的商,h為模型效應RESIDUAL | R殘差RSTUDENT不含該對應觀測的模型所計算的student殘差STDI單個預測值的標準誤STDP預測值期望(均數(shù))的標準誤STDR殘差的標準誤STUDENTstudent殘差,即殘差除以它的標準誤所得的商UCL單個預測值可信區(qū)間的
33、上限UCLM應變量期望值(均數(shù))可信區(qū)間的上限 paint語句paint語句用于在散點圖中突出顯示符合條件的點,它僅對行式打印機方式(即proc reg語句中指定了“l(fā)ineprint”選項時)輸出的圖形有效。此語句自己并不產(chǎn)生圖形,僅對隨后的plot語句所產(chǎn)生的圖形發(fā)揮作用,所以它必須和plot語句聯(lián)合使用。同一個reg過程內(nèi)可以使用多個paint語句,其作用將同時發(fā)揮到plot語句所產(chǎn)生的圖形中。如果一個點被多條paint語句所影響,它的最終顯示方式只由最后作用于它的paint語句所決定。所有符合paint語句中指定條件的觀測對應的點都將被突出顯示,也可以對所有觀測突出顯示,此時
34、用“allobs”替代條件表達式。此處的條件表達式為如下的格式。變量 比較運算符 數(shù)值 <邏輯算符 變量 比較運算符 數(shù)值>“變量”為數(shù)據(jù)集中的任何一個變量,“比較運算符”即為“<, <=, >, >=, =, =”中的一個,“數(shù)值”則為要和相應變量比較的具體值?!斑壿嬎惴睘椤癮nd”或“or”之一。Paint語句后可設定相應的控制選項,有如下三條。Nolist:禁止對所選定觀測的觀測號、所用的顯示標志等信息的輸出;Reset:將默認的圖形標志改變?yōu)槟闼付ǖ臉酥?;Symbol=符號:
35、指定作為突出顯示標志的符號,如#或。Paint語句的選項除上述三條外,還有以下和上述選項相斥(不同時在一條語句中使用)的選項。Status:將選定觀測的觀測號、所用的顯示標志等信息輸出到log窗口;Undo:恢復最后一條paint語句對相應散點圖的作用。plot語句用以對兩個變量繪制散點圖,表達式中位置在前(在乘號“*”之前)的變量作為散點圖的y軸,位置在后的變量作為散點圖的x軸。等號后的符號為散點圖中表示點的圖形符號,此項內(nèi)容可省略,SAS會用默認方式顯示圖形,但如需指定,符號要用單引號括起來。對于同一個模型可以指定多個plot語句,同一個plot語句中,也可以指定多個圖形表達式,同時繪制多
36、個散點圖。圖形表達式中的變量名必須成對地出現(xiàn),變量的選擇范圍為model語句或var語句中的變量。此外,output語句中可以輸出到數(shù)據(jù)集中的統(tǒng)計量、“outest=”選項指定的輸出數(shù)據(jù)集中的統(tǒng)計量、其它SAS中產(chǎn)生的變量如obs(觀測號)、npp(用以繪制PP圖)及nqq(用以繪制QQ圖)等,也可用于組成圖形表達式,進而繪制關于該統(tǒng)計量的散點圖。圖形表達式除可用y*x的形式外,還可用變量組合的表達形式,即用圓括號括起來的兩組變量組成的表達式,它等同于兩組變量之間所有可能的組合方式構(gòu)成的表達式。如:(y1 y2)*(x1 x2 x3)等同于y1*x1 y1*x2 y1*x3 y2*x1 y2*
37、x2 y2*x3。plot語句的選項,主要用于控制圖形的顯示,圖形繪制的方式(即行式打印機方式或高分辨率圖形方式)不同,可用的選項也不相同。但常用的基本選項兩者都具有,用好這些基本的選項足夠我們的需要,其它針對高分辨率圖形的各種高級控制選項這里不再介紹,將在后面的有關SAS繪圖功能的章節(jié)專門討論。各條基本選項及其功能見下表。plot語句的基本選項及其功能選項功能clear清除以前的所有圖形累積,即collect選項產(chǎn)生的重疊顯示效果collect將plot語句產(chǎn)生的散點圖重疊顯示在同一個坐標系中,以便于比較,此選項對于隨后的plot語句將一直有效,直到出現(xiàn)nocollect選項為止。hplot
38、s=數(shù)值指定輸出格式的每一頁在橫向上顯示散點圖的個數(shù)nocollect當前plot語句產(chǎn)生的散點圖疊加顯示后停止圖形的疊加overlay將同一條plot語句產(chǎn)生的散點圖疊加在同一坐標系中,效果和collect選項相同,不同的是overlay只針對相應plot語句,collect針對多個plot語句symbol=字符指定散點圖中表示點的圖形符號,圖形表達式中對符號的指定優(yōu)先于此選項vplots=數(shù)值指定輸出格式的每一頁在縱向上顯示散點圖的個數(shù) print語句用于交互地顯示model語句中的有關選項,一般在模型經(jīng)過修改后(add語句、delete語句以及reweight語句都會對模型進行
39、修改)print語句就會非常有用,它將重新擬合的新模型的有關統(tǒng)計量顯示在結(jié)果中。語句中的選項列表用于指定需在結(jié)果中顯示的新模型的有關項目,需為model語句中所能使用的選項。此處可指定的選項有:ACOV, ALL, CLI, CLM, COLLIN, COLLINOINT, CORRB, COVB, DW, I, INFLUENCE, P, PARTIAL, PCORR1, PCORR2, R, SCORR1, SCORR2, SEQB, SPEC, SS1, SS2, STB, TOL, VIF, or XPX等,這些選項的具體含義請參見model語句部分的內(nèi)容。除指定以上選項外,print
40、語句中還可指定anova和modeldata兩個選項。前者用于顯示關于當前模型(最后一個model語句指定的模型或經(jīng)最近一次修改后的模型)的方差分析表,后者用來顯示用于當前模型的數(shù)據(jù)。refit語句refit語句非常簡單,僅含refit關鍵字和必需的分號,此語句對修改后的模型立即進行重新計算,以便于后面的語句對新模型有關統(tǒng)計量的使用。比如在一個或多個reweight語句后使用refit語句,就可以試隨后的paint語句或reweight語句在重新計算的有關統(tǒng)計量的基礎上運行。restrict語句restrict語句用于對模型的參數(shù)估計設置限定條件,它對位于它之前最近的model語句發(fā)生作用,一
41、條model語句后可跟多個restrict語句,但這些restrict語句不會同時起作用,運行時位置靠后者將會依次替代位置靠前者。如果一條語句中要指定多個限制條件,用逗號將它們隔開即可。限制條件為關于模型中自變量以及截距項的線性方程式,可以為含有等號(可以同時用多個等號表示多個限定條件)的方程式,也可以為不含有等號的變量線性組合式,此時SAS將默認此式等于零。限定條件表達式中出現(xiàn)的變量必須是restrict語句所指向的model語句中出現(xiàn)過的,要用到截距項時,直接用關鍵字“intercept”即可。下式為一個正確的條件表達式的例子。有多個限制條件同時存在時,一定注意他們之間不能自相矛盾,否則語
42、句無效。在有限制條件的情況下,參數(shù)估計值將會是那些滿足限制條件的并能令殘差平方和達到最小的參數(shù)值。每增加一個限制條件,模型的自由度(degree of freedom)就會減少1,此時限制條件的自由度顯示為“-1”。如果限制條件無效,自由度會顯示為“0”,參數(shù)估計值也都顯示為“0”。注意:proc reg語句中如果設置了“pcomit=”或“ridge=”選項,restrict語句將被忽略。reweight語句reweight語句用于重新指定各條用于擬合回歸方程的觀測的權重系數(shù),它可以改變觀測的權重系數(shù),也可將觀測的權重系數(shù)設置為0,等同于將相應的觀測排除出模型擬合過程,但它并不會將這些觀測刪
43、除。Reweight語句可被多次使用,reweight語句對其后面的語句發(fā)生作用,它產(chǎn)生作用的同時會改變模型的標簽,以表示一個新的不同的模型。Reweight語句的內(nèi)容格式與paint語句的完全相同,大家可參考paint語句來運用reweight語句,需要注意的是,reweight語句只改變符合條件的觀測。另外語句后的選項“weight=數(shù)值”用以對符合條件的觀測指定新的權重系數(shù),其中的“數(shù)值”須為非負實數(shù)。如果忽略此選項,新的權重系數(shù)將被默認地設置為零。Reweight語句不會對相應的統(tǒng)計量立即進行重新計算,所以其后的paint語句或其它reweight語句可能發(fā)揮不了原先設想的作用。比如以
44、下語句:Reweight r.>0;Reweight r.>0;其設想的作用是用殘差大于零的觀測重新擬合模型,在此基礎上再選出殘差大于零的觀測再重新擬合模型,但由于reweight語句不會立即對相應統(tǒng)計量重新計算,第二條語句所用的條件與第一條語句完全相同,因此不能起到應有的作用,即將新模型中殘差小于等于零的觀測剔除出去。解決的辦法就是在兩條語句之間加入其它可以對新模型立即進行重新計算的語句,最常用的是refit語句,簡單高效。test語句test語句用于對指定的假設進行檢驗。語句前面的標簽為可選項,用以標識不同的假設檢驗。Test語句對指定的變量表達式(檢驗假設)進行檢驗,變量表達
45、式具有與restrict語句中條件表達式完全相同的格式,為model語句中自變量及截距項之間的任何線性組合式,具體格式請參見restrict語句的內(nèi)容。同一條test語句內(nèi)可指定多個變量表達式用于檢驗,各表達式之間用逗號隔開。與restrict語句所不同的是,test語句變量表達式中的變量名代表自身的回歸系數(shù),而非自變量本身,如以下語句:model y=x1 x2 x3;test x1=0, x2=x3;test語句所檢驗的假設為:變量x1的系數(shù)b1等于零,變量x2的系數(shù)等于變量x3的系數(shù),即b2=b3。Test語句可以設置一個選項,即“print”選項,其功能是將假設檢驗過程中所有的中間計算
46、過程輸出到結(jié)果中加以顯示。三、各種分析工具的回歸分析用Analyst 計算回歸方程Statistics Regression Simple以一元為例Statistics Regression Linear以多元為例Insight計算回歸方程:Analyze Fit (Y X) 【案例1】 數(shù)據(jù)庫中的數(shù)據(jù)是摘自世界衛(wèi)生組織的數(shù)據(jù),有192個國家的21個變量。其中包括區(qū)域(這里把世界各國分成6個區(qū)域)、(在城鎮(zhèn)和鄉(xiāng)村)使用清潔水的百分比、生活污水處理的百分比、飲酒量(每年每人消費的純酒精,單位升)、(每萬人中)內(nèi)科醫(yī)生數(shù)目、護士和助產(chǎn)士數(shù)、衛(wèi)生工作者數(shù)。病床數(shù)、護士助產(chǎn)士和內(nèi)科醫(yī)生之比、衛(wèi)生開支占
47、總開支的百分比、占政府開支的百分比、人均衛(wèi)生開支、成人識字率、人均收入、每千個出生中5歲前死亡人數(shù)、人口增長率、(男女的)預期壽命(年)、每10萬生育的母親死亡數(shù)等。這些變量之間的相關性很大。作為例子,我們關注每1000個5歲之前兒童的死亡人數(shù)。(數(shù)據(jù)編號:Riskfac)首先通過用描述性的點圖來看哪些變量和我們所關心的5歲前兒童的死亡率有關,有什么關系。我們發(fā)現(xiàn),最相關的為女性的預期壽命(男性的預期壽命和女性的預期壽命密切相關,我們就不考慮了),以及區(qū)域這個定性變量。下面兩個圖分別給出了兒童死亡率和女性預期壽命的散點圖和分區(qū)域的兒童死亡率的盒形圖。圖告訴我們:女性預期壽命以及所在區(qū)域與兒童死
48、亡率有密切關系之外,還可以看出各個區(qū)域的兒童死亡率的分布很不一樣。顯然這和各地區(qū)發(fā)展不平衡有關。我們將對這些關系做進一步的討論?!景咐?數(shù)據(jù)庫中的數(shù)據(jù)是美國60個著名商學院的數(shù)據(jù),包括的變量有GMAT分數(shù),學費,進入MBA前后的工資等等。下圖為進入MBA學習前后的工資的散點圖。可以看出,進入MBA前工資高的,畢業(yè)后也高。我們希望能夠建立一個模型描述這個關系。(數(shù)據(jù)編號:Bschool)【案例3】數(shù)據(jù)庫中的數(shù)據(jù)是120個不同年齡和收入(兩水平:中低收入、高收入)對是否需要加強社會保險的觀點的數(shù)據(jù)。這里年齡是連續(xù)變量,收入是中低和高(分別用1和2,或L和H表示)兩個水平的定性變量,而變量觀點則為
49、包含加強社會保險(用1表示)和不必加強(用0表示)兩個水平的定性變量。人們想要知道的是究竟年齡和收入對觀點有沒有影響,有什么樣的影響,以及是否可以用模型表示出這個關系。(數(shù)據(jù)編號:Mr)根據(jù)數(shù)據(jù),可以點出年齡和觀點的散點圖。這里僅有年齡是連續(xù)變量,而觀點是儀僅有兩個代碼0和1的定量變量。該圖看上去很怪異。當然,還是可以大致看出,大年齡的支持加強社會保險的多,小年齡的少。通過收入與觀點的條形圖可以看出,中低收入的比高收入的希望加強社會保險的多。這里因變量(觀點)是定性變量,而自變量既有定量變量(年齡),又有定性變量(收入),如何能夠找出一個數(shù)學模型來描述它們的關系呢?【案例4】數(shù)據(jù)庫中的數(shù)據(jù)是5
50、0個從初中升到高中的學生(數(shù)據(jù)編號:highschool)。為了比較初三的成績是否和高中的成績相關,收集了他們在初三(J3)和高一(S1)的各科平均成績。散點圖如下圖。對這兩個變量的數(shù)據(jù)進行線性回歸,就是要找到一條直線來適當?shù)卮砩蠄D中的那些點的趨勢。這樣做就要在所有可能的直線中進行挑選。首先需要確定選擇這條直線的標準。當然,有很多標準,結(jié)果也不盡相同。這里介紹的是最小二乘回歸(least squares regression)。古漢語“二乘”是平方的意思。最小二乘法就是尋找一條直線,使得所有點到該直線的豎直距離(即按因變量方向的距離)的平方和最小。這樣的直線很容易通過計算機得到。用數(shù)據(jù)尋找一
51、條直線的過程也叫做擬合(fit)一條直線。根據(jù)上面的數(shù)據(jù)計算初三成績和高一成績的回歸直線。SPSS輸出:截距(Constant)26. 444和斜率(變量j3的系數(shù)0.651)。根據(jù)這里得到的截距和斜率,可以把回歸直線加到初三和高一成績的散點圖上。由于這條回歸直線的截距為26.444,斜率為0.651,該直線的方程為:這個直線實際上是對所假設的下面線性回歸模型的估計:這里的是誤差項。該模型假定,變量x和y有上面的線性關系,而凡是不能被該線性關系描述的y的變化都由這個誤差項來承擔。由于誤差,觀測值不可能剛好在這條直線上,如果這個模型有道理的話,這些觀測值就不會離這條直線太遠。這里得到的截距和斜率
52、(26.444和0.651)是對和的估計。由于不同的樣本產(chǎn)生不同的估計,所以估計量是個隨機變量(通常用和表示),它們也有分布,也可以用由他們構(gòu)造檢驗統(tǒng)計量來檢驗和是不是顯著。拿回歸主要關心的來說,假設檢驗問題是如果顯著,則認為回歸有意義,也就是說,x的變化會引起y的變化。上面的SPSS輸出也給出了這個檢驗:檢驗統(tǒng)計量為9. 089,而p值號為0.000 ,所以該檢驗很顯著。當然,這些檢驗需要滿足一些條件?;貧w中假設檢驗所需要的條件:最小二乘回歸本身并不需要什么假定的條件,但是要對回歸系數(shù)進行t檢驗或后面要介紹的關于擬合好壞的F檢驗就采要對模型作出一些假定。這些假定是關于誤差項的:(1
53、) 為均值為零的隨機變量;(2)的方差(或標準差)對于所有x的值不變;(3)的值互相獨立;(4)為正態(tài)分布隨機變量。后面要引進的各種回歸中的t檢驗和F檢驗均需要這些條件。這些條件中的前3項是多數(shù)這一類回歸所假定的,而最后一個是為了檢驗所必須的。在前三個條件成立時,回歸模型的誤差項被認為是隨機誤差,也就是說,回歸模型是適當?shù)?。但是這些條件并不是自動成立的。在模型不適當時誤差項是不會滿足頭三個條件的。除了對的檢驗之外,還有一個說明自變量解釋因變量變化百分比的度量,叫做決定系數(shù)(coefficient of determination,也叫測定系數(shù)或可決系數(shù))用表示。如=0.632,這說明這里的自變
54、量可以大約解釋63%的因變量的變化。越接近1,回歸就越成功。由于有當變量數(shù)目增加而增大的缺點,人們對其進行修改,因此,計算機輸出還有一個修正的(adjusted R square)。對于上例,它等于0.625,當然,它和有類似的意義。此外,計算機還計算了一個在零假設下有下分布的檢驗統(tǒng)計量,它是用來檢驗回歸擬合好壞的(零假設是因變量和自變量沒有關系)。上例中F檢驗的p值也是0.000。這些結(jié)果在下面的兩個SPSS輸出表中:細心的讀者可能會問,這里的F檢驗和對檢驗都是關于模型擬合好壞的,它們究竟有什么不同。實際上,對于只有一個自變量的情況,不僅這兩個檢驗是等價的,而且也等于這兩個變量的Pearso
55、n相關系數(shù)r的平方。但是,當多于一個自變量時,代表所有變量整體擬合情況的F檢驗就和個別變量系數(shù)的檢驗不同,也和一個變量情況不同了。另外,這里的兩個檢驗都是前面所說的關于的假定下進行的。如果沒有這些假定,最小二乘法照樣可以用來估計回歸系數(shù)(斜率截距等),但這兩個檢驗就沒有什么意義了。和剛才簡單的回歸模型類似,一般的有k個(定量)自變量,的對因變量y的線性回歸模型為(稱為多元回歸)這里稱為回歸系數(shù)。對計算機來說,對多個自變量進行回歸和一個自變量的情況類似,只不過多選自變量就是了,計算機也會自動輸出相應的檢驗結(jié)果。而這些檢驗也只有在前面說的關于誤差項的各種假定成立時才有意義。當選定一個模型,并且用數(shù)
56、據(jù)來擬合時,并不一定所有的變量都顯著,或者說并不一定所有的系數(shù)都有意義。軟件中一般都有一種一邊回歸,一邊檢驗的所謂逐步回歸(stepwise regression)方法。該方法或者從只有常數(shù)項開始,逐個把顯著的變量加入,或者從包含所有變量的模型開始,逐步把不顯著的變量減去。注意不同方向逐步回歸的結(jié)果也不一定相同。比方說,如果一組變量和另一組變量都提供了類似的信息,這時選擇哪一組都有道理。用案例2的數(shù)據(jù)來說明逐步回歸的過程。我們關心的是Salary Post MBA(y)和什么有關。我們利用逐步回歸進行選擇。通過SPSS軟件得到三個自變量:Salary Pro MBA(xl),F(xiàn)ive Year Gain($ thousand) (x2)和Years To Payback(x3)。最后得到的模型為:而單獨和Salary Pro MBA(x1)回歸得到的模型為:自變量中有定性變量的回歸:案例4中的數(shù)據(jù),還有一個自變量是收入,但它是定性變量,以虛擬變量或啞元(dummy variable)的方式出現(xiàn)。啞元就是在計算機數(shù)據(jù)中定性變量的直用沒有實際意義的數(shù)字代表(這里收入的“低”,“中”,“高”,用1,2,3來代表)。所以,如果要用這種啞元進行回歸就
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 河南師范大學《素描人體》2022-2023學年第一學期期末試卷
- 河南師范大學《歷史地理學》2023-2024學年第一學期期末試卷
- 河南師范大學《古代文學(上)》2023-2024學年第一學期期末試卷
- 河南科技大學《油畫靜物》2021-2022學年第一學期期末試卷
- 《道德與法治》單元整體教學的思考
- 河南科技大學《流體力學與液壓傳動》2021-2022學年第一學期期末試卷
- 河南科技大學《振動力學》2021-2022學年第一學期期末試卷
- 河南科技大學《工程力學A》2021-2022學年第一學期期末試卷
- 廣東省汕頭市潮南區(qū)陳店鎮(zhèn)公校聯(lián)考2024-2025學年九年級上學期10月期中聯(lián)考語文試題
- 河北地質(zhì)大學《混凝土結(jié)構(gòu)設計原理實驗》2023-2024學年第一學期期末試卷
- 《喜迎建隊日 爭做好少年》主題班會教案3篇
- 北京市初一上學期期中道德與法治試卷與參考答案
- 2024版《兒童腦性癱瘓》課件
- 2024年大學生信息素養(yǎng)大賽(省賽)練習考試題庫(含答案)
- 秀場內(nèi)外-走進服裝表演藝術智慧樹知到答案2024年武漢紡織大學
- 2024年度安徽白帝集團限公司社會招聘高頻500題難、易錯點模擬試題附帶答案詳解
- 《珍愛生命遠離火災》消防安全教育課件
- 隴南西和縣招聘基層司法所司法協(xié)理員考試試卷及答案
- GB 20182-2024商用車駕駛室外部凸出物
- 第四單元測試卷(單元測試)-2024-2025學年六年級上冊統(tǒng)編版語文
- 工業(yè)互聯(lián)網(wǎng)應用專業(yè)行業(yè)調(diào)研與人才需求分析
評論
0/150
提交評論