方差、相關(guān)與回歸分析SAS3910_第1頁
方差、相關(guān)與回歸分析SAS3910_第2頁
方差、相關(guān)與回歸分析SAS3910_第3頁
方差、相關(guān)與回歸分析SAS3910_第4頁
方差、相關(guān)與回歸分析SAS3910_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、l方差分析方差分析 方差分析的過程方差分析的過程 單因素方差分析單因素方差分析 二因素方差分析二因素方差分析l相關(guān)分析相關(guān)分析 相關(guān)分析的過程相關(guān)分析的過程l回歸分析回歸分析 一元回歸一元回歸 多元回歸多元回歸l 方差分析是檢驗(yàn)兩個或兩個以上樣方差分析是檢驗(yàn)兩個或兩個以上樣本均數(shù)間差異是否顯著的方法。本均數(shù)間差異是否顯著的方法。 在在比較幾個組時,比較幾個組時,H H0 0假設(shè)通常是設(shè)各假設(shè)通常是設(shè)各組平均值相等組平均值相等。l檢驗(yàn)兩個均數(shù)間差別的顯著性可以用檢驗(yàn)兩個均數(shù)間差別的顯著性可以用t t檢檢驗(yàn)法,也可用方差分析法。驗(yàn)法,也可用方差分析法。l樣本均數(shù)間所以有差別,可能有兩樣本均數(shù)間所以

2、有差別,可能有兩 種原種原因造成:因造成: 首先它們必須有抽樣誤差(個體間變異的影首先它們必須有抽樣誤差(個體間變異的影響;響; 其次,如果各組所接受的不同處理方法是有其次,如果各組所接受的不同處理方法是有不同的作用的,那么,它也是由于處理不同不同的作用的,那么,它也是由于處理不同所造成的。所造成的。如果處理是沒有作用的,即各樣本均數(shù)來自同如果處理是沒有作用的,即各樣本均數(shù)來自同一總體,那么用方差分析的方法可以算出個體間變一總體,那么用方差分析的方法可以算出個體間變異異 2的估計(jì)值組內(nèi)均方(的估計(jì)值組內(nèi)均方(M.S組內(nèi)組內(nèi))。這時,由方)。這時,由方差分析法算出的組間均方(差分析法算出的組間均

3、方(M.S組間組間),也是個體),也是個體間變異間變異2的估計(jì)值。如以組內(nèi)均方除組間均方,的估計(jì)值。如以組內(nèi)均方除組間均方,稱之為稱之為F值,即值,即F=M.S組間組間/M.S組內(nèi)組內(nèi),則由于組間和,則由于組間和組內(nèi)均方都是個體間變異組內(nèi)均方都是個體間變異2的估計(jì)值,因之,如的估計(jì)值,因之,如無抽樣誤差則無抽樣誤差則F應(yīng)該等于應(yīng)該等于1。但由于組間和組內(nèi)均。但由于組間和組內(nèi)均方都只是方都只是2的估計(jì)值,由于抽樣誤差的關(guān)系,組的估計(jì)值,由于抽樣誤差的關(guān)系,組間均方和組內(nèi)均方都不正好等于間均方和組內(nèi)均方都不正好等于2,因之,因之F也不正也不正好等于好等于1,而可以大于或小于,而可以大于或小于1。但

4、由于樣本來自相同總體,但由于樣本來自相同總體,F(xiàn)值一般不會距值一般不會距1很遠(yuǎn),其分布情況(很遠(yuǎn),其分布情況(F分布)與組間和組內(nèi)自由分布)與組間和組內(nèi)自由度有關(guān)。度有關(guān)。與此相反,如果處理是確有作用的,即各樣與此相反,如果處理是確有作用的,即各樣本均數(shù)不是取自相同總體,這時用方差分析計(jì)算本均數(shù)不是取自相同總體,這時用方差分析計(jì)算出來的組內(nèi)均方仍是個體間變異出來的組內(nèi)均方仍是個體間變異2的估計(jì)值。但的估計(jì)值。但組間均方則不僅是個體變異所致,同時也由于處組間均方則不僅是個體變異所致,同時也由于處理的作用不同所致。理的作用不同所致。l方差分析的基本思想是把全部數(shù)據(jù)方差分析的基本思想是把全部數(shù)據(jù)關(guān)于

5、總均值的離均差平方和分解成關(guān)于總均值的離均差平方和分解成幾個部分,每一部分表示某因素或幾個部分,每一部分表示某因素或交互作用所產(chǎn)生的效應(yīng),將各部分交互作用所產(chǎn)生的效應(yīng),將各部分均方與誤差均方相比較,從而確認(rèn)均方與誤差均方相比較,從而確認(rèn)或否認(rèn)某些因素或交互作用的重要或否認(rèn)某些因素或交互作用的重要性。性。l 總變異組間變異組內(nèi)變異總變異組間變異組內(nèi)變異 其中:組間變異由各因素所引起;其中:組間變異由各因素所引起;組內(nèi)變異由個體差異或者說由誤差組內(nèi)變異由個體差異或者說由誤差引起的引起的。l完全隨機(jī)設(shè)計(jì)資料的方差分析(單因素完全隨機(jī)設(shè)計(jì)資料的方差分析(單因素方差分析)方差分析)l隨機(jī)區(qū)組設(shè)計(jì)資料的方

6、差分析(兩因素隨機(jī)區(qū)組設(shè)計(jì)資料的方差分析(兩因素方差分析)方差分析)l拉丁方設(shè)計(jì)資料的方差分析(三因素方拉丁方設(shè)計(jì)資料的方差分析(三因素方差分析)差分析)lR*C析因設(shè)計(jì)資料的方差分析(有交互析因設(shè)計(jì)資料的方差分析(有交互因素的方差分析)因素的方差分析) lSAS系統(tǒng)中,系統(tǒng)中,ANOVA過程可以過程可以處理以上情形的方差分析,但它處理以上情形的方差分析,但它要求每個分類因子的組合觀察數(shù)要求每個分類因子的組合觀察數(shù)相等,即數(shù)據(jù)是均衡的。若不均相等,即數(shù)據(jù)是均衡的。若不均衡,就要求用衡,就要求用GLM過程進(jìn)行處過程進(jìn)行處理。理。1. 過程格式:過程格式:PROC ANOVA DATA=數(shù)據(jù)集數(shù)據(jù)

7、集;CLASS 變量;變量;MODEL 因變量效應(yīng);因變量效應(yīng);MEANS 效應(yīng)效應(yīng)/選擇項(xiàng)選擇項(xiàng);2. 說明說明 (1) 程序中,程序中,CLASS語句和語句和MODEL語句是必需的,并且語句是必需的,并且CLASS語句必須出現(xiàn)語句必須出現(xiàn)在在MODEL語句之前。語句之前。 (2) CLASS語句中的變量是分類變量,語句中的變量是分類變量,可以是數(shù)值型,也可以是字符型。可以是數(shù)值型,也可以是字符型。 (3) MODEL語句指明因變量和自變語句指明因變量和自變量(因子變量)效應(yīng),其效應(yīng)可以是主效量(因子變量)效應(yīng),其效應(yīng)可以是主效應(yīng)、交互效應(yīng)、嵌套效應(yīng)和混合效應(yīng)。應(yīng)、交互效應(yīng)、嵌套效應(yīng)和混合效

8、應(yīng)。1)主效應(yīng)模型)主效應(yīng)模型 MODEL y=a ;(單因素方差分析模型)(單因素方差分析模型) MODEL y=a b;(二因素方差分析模型)(二因素方差分析模型) MODEL y=a b c;(三因素方差分析模型)(三因素方差分析模型) 模型中,模型中,a ,b ,c 是主效應(yīng),是主效應(yīng),y 是因變是因變量。量。 2)交互效應(yīng)模型)交互效應(yīng)模型 MDOEL y=a b a*b MDOEL y=a b c a*b a*c b*c a*b*c; 模型中,模型中, a ,b ,c 是主效應(yīng),是主效應(yīng), a*b,a*c,b*c,a*b*c 是交互效應(yīng),是交互效應(yīng),y 是因變量。是因變量。(4)

9、MEANS語句是選擇語句,計(jì)算語句是選擇語句,計(jì)算并輸出所列的效應(yīng)對應(yīng)的因變量均數(shù),若并輸出所列的效應(yīng)對應(yīng)的因變量均數(shù),若指明了選擇項(xiàng),則將進(jìn)行主效應(yīng)均數(shù)間的指明了選擇項(xiàng),則將進(jìn)行主效應(yīng)均數(shù)間的檢驗(yàn)。常用的選擇項(xiàng)如下:檢驗(yàn)。常用的選擇項(xiàng)如下:SNK(Q檢驗(yàn))均數(shù)間兩兩比較檢驗(yàn))均數(shù)間兩兩比較 DUNCAN 一組均數(shù)與其余各組比較一組均數(shù)與其余各組比較ALPHAp用以確定檢驗(yàn)的顯著性水平。用以確定檢驗(yàn)的顯著性水平。缺省值是缺省值是0.05。 例例1完全隨機(jī)設(shè)計(jì)資料的方差分析完全隨機(jī)設(shè)計(jì)資料的方差分析(單因素方差分析)(單因素方差分析) 某勞動衛(wèi)生教研組研究棉布、府綢、某勞動衛(wèi)生教研組研究棉布、府

10、綢、的確涼、尼龍四種衣料內(nèi)棉花吸附十硼氫的確涼、尼龍四種衣料內(nèi)棉花吸附十硼氫量。每種衣料各做五次測量,所得數(shù)據(jù)如量。每種衣料各做五次測量,所得數(shù)據(jù)如表表9-4。試檢驗(yàn)各種衣料間棉花吸附十硼氫。試檢驗(yàn)各種衣料間棉花吸附十硼氫量有沒有顯著差別量有沒有顯著差別?棉布棉布府綢府綢的確涼的確涼尼龍尼龍2.332.483.064.002.00 2.343.065.132.932.683.004.612.732.342.662.802.332.223.063.60程序如下:程序如下:DATA an; DROP i; DO i=1 TO 5; DO a=1 TO 4; INPUT x ; OUTPUT; EN

11、D; END; CARDS; 2.33 2.48 3.06 4.00 2.00 2.34 3.06 5.13 2.93 2.68 3.00 4.61 2.73 2.34 2.66 2.80 2.33 2.22 3.06 3.60PROC ANOVA; CLASS a; MODEL x=a;RUN; 用用4種不同方法治療種不同方法治療8名患者,其血漿凝名患者,其血漿凝固時間的資料如表固時間的資料如表9-5,試作方差分析。,試作方差分析。 數(shù)據(jù)步中,變量數(shù)據(jù)步中,變量a代表不同治療方法,代表不同治療方法,其水平數(shù)是其水平數(shù)是4,變量,變量b代表區(qū)組因素,其水代表區(qū)組因素,其水平數(shù)是平數(shù)是8。過程步

12、中,用。過程步中,用CLASS語句指明語句指明兩個因素兩個因素a和和b,用,用MODEL語句指明二因語句指明二因素的效果模型。素的效果模型。受試者編受試者編號號(區(qū)組)(區(qū)組) 處理組處理組 1 2 3 4 18.49.49.812.2212.815.212.914.439.69.111.29.849.88.89.912.058.48.28.58.568.69.99.810.978.99.09.210.488.49.49.810.0DATA an; DO b=1 TO 8; DO a=1 TO 4; INPUT x ; OUTPUT; END; END;CARDS; 8.4 9.4 9.8 1

13、2.2 12.8 15.2 12.9 14.4 9.6 9.1 11.2 9.8 9.8 8.8 9.9 12.0 8.4 8.2 8.5 8.5 8.6 9.9 9.8 10.9 8.9 9.0 9.2 10.4 7.9 8.1 8.2 10.0PROC ANOVA; CLASS a b; MODEL x=a b;RUN; 研究酵解作用對血糖濃度的影響,我研究酵解作用對血糖濃度的影響,我們從們從8名健康人中抽取了血液并制備成血濾名健康人中抽取了血液并制備成血濾液。每一個受試者的血濾液又分成液。每一個受試者的血濾液又分成4份,然份,然后隨機(jī)地把各份血濾液分別放置后隨機(jī)地把各份血濾液分別放置0、

14、45、90、135分鐘后測定其中血糖濃度(資料分鐘后測定其中血糖濃度(資料見表見表9-9)。試比較放置時間對血糖濃度有)。試比較放置時間對血糖濃度有無影響。無影響。受試者編號受試者編號(區(qū)組號)(區(qū)組號)放置時間(分)放置時間(分)045951351234567895951069810211210595 9594105979811210392 89889795971019790 8384909088948880 DATA an; DO a=1 TO 8; DO b=0 TO 135 BY 45; INPUT x ; OUTPUT; END; END; CARDS; 95 95 89 83 95

15、 94 88 84 106 105 97 90 98 97 95 90 102 98 97 88 112 112 101 94 105 103 97 88 95 92 90 80 PROC ANOVA; CLASS a b; MODEL x=a b; MEANS b/SNK; RUN; 在醫(yī)學(xué)上人的身高與體重、體溫與脈在醫(yī)學(xué)上人的身高與體重、體溫與脈搏次數(shù)、年齡與血壓、藥物劑量與療效等搏次數(shù)、年齡與血壓、藥物劑量與療效等均有一定的聯(lián)系。說明客觀事物或現(xiàn)象相均有一定的聯(lián)系。說明客觀事物或現(xiàn)象相互關(guān)系的密切程度并用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)表互關(guān)系的密切程度并用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)表示出來,這是相關(guān)分析的任務(wù)。把客

16、觀事示出來,這是相關(guān)分析的任務(wù)。把客觀事物或現(xiàn)象間的關(guān)系用函數(shù)形式表示出來,物或現(xiàn)象間的關(guān)系用函數(shù)形式表示出來,則是回歸分析所要解決的問題。則是回歸分析所要解決的問題。 CORR過程計(jì)算變量間的相關(guān)系數(shù),包括PEARSON積矩相關(guān)系數(shù)等,同時給出單變量描述統(tǒng)計(jì)。 REG過程是SAS中通用的基本的回歸分析過程,它是用最小二乘法原理求解線性回歸方程的有效過程。此外,因?yàn)橹鸩交貧w分析的方法在實(shí)際工作中應(yīng)用甚廣,故將其單獨(dú)提出來介紹如何使用REG過程進(jìn)行逐步回歸分析。 10.1.1 相關(guān)分析相關(guān)分析相關(guān)是研究隨機(jī)變量之間相互關(guān)系的統(tǒng)計(jì)分析方法,它研究隨機(jī)變量之間相互關(guān)系的密切程度。 線性相關(guān),又稱簡單

17、相關(guān)。其統(tǒng)計(jì)指標(biāo)是PEARSON 相關(guān)系數(shù) r 。 當(dāng)研究多個隨機(jī)變量之間的相互關(guān)系時,可對變量進(jìn)行多元線性相關(guān)分析。多元線性相關(guān)的統(tǒng)計(jì)量是全相關(guān)系數(shù)R和各偏相關(guān)系數(shù)。在多元線性相關(guān)分析中,變量之間的關(guān)系是錯綜復(fù)雜的,兩個變量間的簡單線性相關(guān)系數(shù)往往不能正確說明兩者的真實(shí)關(guān)系,只有在其它變量固定,即扣除了其它變量的影響后,計(jì)算兩變量間的偏相關(guān)系數(shù)才能反映此兩變量的真實(shí)情況。 當(dāng)變量不服從正態(tài)分布時,例如當(dāng)變量不服從正態(tài)分布時,例如按等級分類或相對數(shù)資料,這時需用按等級分類或相對數(shù)資料,這時需用非參數(shù)相關(guān)分析方法,如等級相關(guān)分非參數(shù)相關(guān)分析方法,如等級相關(guān)分析法等。析法等。1. 過程格式過程格式

18、 PROC CORR 選擇項(xiàng)選擇項(xiàng); VAR 變量表;變量表; WITH 變量表;變量表; PARTIAL 變量表;變量表; WEIGHT 變量;變量; FREQ 變量;變量; BY 變量表;變量表;2.說明說明 (1) PROC CORR 語句語句 PROC CORR 選擇項(xiàng)選擇項(xiàng); PROC CORR 語句的選擇項(xiàng)主要有:語句的選擇項(xiàng)主要有: PEARSON 計(jì)算通常的計(jì)算通常的PEARSON積矩積矩相關(guān),是缺省值。相關(guān),是缺省值。 KENDALL 計(jì)算肯德爾計(jì)算肯德爾-b系數(shù)。系數(shù)。 SPEARMAN 計(jì)算斯皮爾曼等級相計(jì)算斯皮爾曼等級相關(guān)系數(shù)。關(guān)系數(shù)。HOEFFDING 計(jì)算霍夫丁統(tǒng)計(jì)

19、計(jì)算霍夫丁統(tǒng)計(jì)量。量。OUTP=dataset 產(chǎn)生含有產(chǎn)生含有PEARSON 相關(guān)的一個新數(shù)據(jù)集。相關(guān)的一個新數(shù)據(jù)集。NOMISS 將帶有某一變量缺項(xiàng)將帶有某一變量缺項(xiàng)值的觀測值從所有計(jì)算中除去。值的觀測值從所有計(jì)算中除去。 NOSIMPLE 抑制簡單統(tǒng)計(jì)。抑制簡單統(tǒng)計(jì)。(2) VAR 語句語句 (3) WITH 語句語句 WITH 變量表;變量表; 指明特別配對的變量名,指明特別配對的變量名, 與與VAR語句語句配對使用,配對使用,VAR語句列出相關(guān)矩陣上部出語句列出相關(guān)矩陣上部出現(xiàn)的變量,現(xiàn)的變量,WITH語句列出左側(cè)出現(xiàn)的變量。語句列出左側(cè)出現(xiàn)的變量。 (4) PARTIAL 語句語句

20、 PARTIAL 變量表;變量表; 指明求偏相關(guān)系數(shù)時需要固定的偏變指明求偏相關(guān)系數(shù)時需要固定的偏變量名。量名。 DATA ABC; INFILE d:panyancorr.dat; INPUT NO HEIGHT WEIGHT VITAL; PROC CORR; VAR HEIGHT WEIGHT VITAL; PROC CORR NOSIMPLE; VAR HEIGHT WEIGHT; WITH VITAL; PROC CORR NOSIMPLE; VAR HEIGHT VITAL; PARTIAL WEIGHT; RUN;10.2.1 簡介簡介 回歸是研究隨機(jī)變量和非隨機(jī)變量之間的數(shù)量依

21、存關(guān)系的統(tǒng)計(jì)分析方法。當(dāng)自變量X與因變量Y之間呈直線關(guān)系時,稱為直線回歸。直線回歸要求因變量是服從正態(tài)分布的且方差相等。 當(dāng)自變量不只一個時,可進(jìn)行多元線當(dāng)自變量不只一個時,可進(jìn)行多元線性回歸分析。研究一個因變量與多個自變性回歸分析。研究一個因變量與多個自變量之間的線性依存關(guān)系,稱為多元線性回量之間的線性依存關(guān)系,稱為多元線性回歸。歸。 REG 過程是用最小二乘法原理求過程是用最小二乘法原理求解線性回歸方程的過程。解線性回歸方程的過程。1. 過程格式過程格式 PROC REG 選擇項(xiàng)選擇項(xiàng); MODEL 因變量因變量=自變量自變量 /選擇項(xiàng)選擇項(xiàng); VAR 變量;變量; FREQ 變量;變量;

22、 WEIGHT 變量;變量; BY 變量;變量; (1)PROC REG 語句語句 PROC REG 選擇項(xiàng)選擇項(xiàng);(略)(2)MODEL 語句語句 MODEL 因變量因變量=自變量表自變量表/選擇項(xiàng)選擇項(xiàng); 指明因變量和自變量,指明因變量和自變量, 選擇項(xiàng)是有關(guān)選擇項(xiàng)是有關(guān)回歸計(jì)算、估計(jì)、預(yù)測值和殘差,常用回歸計(jì)算、估計(jì)、預(yù)測值和殘差,常用的選擇項(xiàng)有:的選擇項(xiàng)有: STB 打印標(biāo)準(zhǔn)回歸系數(shù)打印標(biāo)準(zhǔn)回歸系數(shù) CORRB 打印估計(jì)的相關(guān)矩陣打印估計(jì)的相關(guān)矩陣 COLLINOINT請求進(jìn)行自變量的共線請求進(jìn)行自變量的共線 性分析性分析 P 計(jì)算預(yù)測值及殘差計(jì)算預(yù)測值及殘差 R 請求分析殘差請求分析

23、殘差 CLM 打印因變量均值打印因變量均值95%的的 置信界限的上下限置信界限的上下限 CLI 對各預(yù)測值打印對各預(yù)測值打印95%的的 置信界限的上下限置信界限的上下限(1) 簡單線性回歸分析簡單線性回歸分析 仍以上節(jié)相關(guān)分析資料為例,進(jìn)行以仍以上節(jié)相關(guān)分析資料為例,進(jìn)行以身高估計(jì)肺活量的線性回歸分析,同時要身高估計(jì)肺活量的線性回歸分析,同時要求打印出各觀測點(diǎn)上因變量均值的求打印出各觀測點(diǎn)上因變量均值的95%置置信區(qū)間。信區(qū)間。 DATA ABC; INFILE d:panyancorr.dat; INPUT NO HEIGHT WEIGHT VITAL ; PROC REG; MODEL VITAL=HEIGHT/C

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論