第十章 相關(guān)分析和回歸分析._第1頁(yè)
第十章 相關(guān)分析和回歸分析._第2頁(yè)
第十章 相關(guān)分析和回歸分析._第3頁(yè)
第十章 相關(guān)分析和回歸分析._第4頁(yè)
第十章 相關(guān)分析和回歸分析._第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第十章第十章 一元線性回歸分析與相關(guān)分析一元線性回歸分析與相關(guān)分析10.1 回歸與相關(guān)關(guān)系回歸與相關(guān)關(guān)系 回歸這個(gè)術(shù)語(yǔ)是由英國(guó)著名統(tǒng)計(jì)學(xué)家Francis Galton在19世紀(jì)末期研究孩子及他們的父母的身高時(shí)提出來(lái)的。Galton發(fā)現(xiàn)身材高的父母,他們的孩子也高。但這些孩子平均起來(lái)并不像他們的父母那樣高。對(duì)于比較矮的父母情形也類似:他們的孩子比較矮,但這些孩子的平均身高要比他們的父母的平均身高高。 Galton把這種孩子的身高向中間值靠近的趨勢(shì)稱之為一種回歸效應(yīng),而他發(fā)展的研究?jī)蓚€(gè)數(shù)值變量的方法稱為回歸分析。 在現(xiàn)實(shí)問(wèn)題中,處于同一個(gè)過(guò)程中的一些變量,在現(xiàn)實(shí)問(wèn)題中,處于同一個(gè)過(guò)程中的一些變量,

2、往往是相互依賴和相互制約的,它們之間的相互關(guān)系往往是相互依賴和相互制約的,它們之間的相互關(guān)系大致可分為兩種:大致可分為兩種: 相關(guān)關(guān)系問(wèn)題相關(guān)關(guān)系問(wèn)題 (1 1)確定性關(guān)系)確定性關(guān)系函數(shù)關(guān)系;函數(shù)關(guān)系; (2 2)非確定性關(guān)系)非確定性關(guān)系相關(guān)關(guān)系;相關(guān)關(guān)系; 相關(guān)關(guān)系表現(xiàn)為這些變量之間有一定的依賴關(guān),但這種關(guān)相關(guān)關(guān)系表現(xiàn)為這些變量之間有一定的依賴關(guān),但這種關(guān)系并不完全確定,它們之間的關(guān)系不能精確地用函數(shù)表示出來(lái),系并不完全確定,它們之間的關(guān)系不能精確地用函數(shù)表示出來(lái),這些變量其實(shí)是隨機(jī)變量,或至少有一個(gè)是隨機(jī)變量。這些變量其實(shí)是隨機(jī)變量,或至少有一個(gè)是隨機(jī)變量。相關(guān)和回歸分析是生物學(xué)研究中

3、最為常用的統(tǒng)計(jì)分析方法之一。相關(guān)和回歸分析是生物學(xué)研究中最為常用的統(tǒng)計(jì)分析方法之一。10.2 相關(guān)和回歸分析基本概念回歸分析(Regression Analysis)是研究一個(gè)依變數(shù)與一個(gè)或多個(gè)自變數(shù)之間數(shù)量關(guān)系的統(tǒng)計(jì)方法。在建立(線性)回歸模型的條件下,以離回歸平方和最小(最小二乘法)為目標(biāo)求解模型統(tǒng)計(jì)數(shù),獲得優(yōu)化回歸方程和離回歸標(biāo)準(zhǔn)誤。從而能依據(jù)自變數(shù)x的數(shù)據(jù)對(duì)目標(biāo)變數(shù)y進(jìn)行預(yù)測(cè)或插值。相關(guān)分析(Correlation Analysis)是用來(lái)考察兩個(gè)變量間(x與y)的相互變化的關(guān)聯(lián)關(guān)系,x與y的地位是平等的,兩變量間沒(méi)有因果關(guān)系?;貧w分析依自變數(shù)個(gè)數(shù)的多少分為一元回歸和多元回歸;依依變數(shù)

4、和自變數(shù)之間關(guān)系的性質(zhì)分為線性回歸和非線性回歸。相關(guān)分析計(jì)算反映各個(gè)變數(shù)之間相關(guān)密切程度和性質(zhì)的統(tǒng)計(jì)數(shù)。線性相關(guān)和回歸分析的SAS過(guò)程主要有相關(guān)分析(CORR)、回歸分析(REG)和廣義線性模型(GLM)。 相關(guān)關(guān)系舉例相關(guān)關(guān)系舉例 例如:在氣候、土壤、水利、種子和耕作技術(shù)等條件基本例如:在氣候、土壤、水利、種子和耕作技術(shù)等條件基本相同時(shí),某農(nóng)作物的畝產(chǎn)量相同時(shí),某農(nóng)作物的畝產(chǎn)量 Y Y 與施肥量與施肥量 X X 之間有一定的關(guān)系,之間有一定的關(guān)系,但施肥量相同,畝產(chǎn)量卻不一定相同。但施肥量相同,畝產(chǎn)量卻不一定相同。畝產(chǎn)量是一個(gè)隨機(jī)變量。畝產(chǎn)量是一個(gè)隨機(jī)變量。 又如:人的血壓又如:人的血壓 Y

5、 Y 與年齡與年齡 X X 之間有一定的依賴關(guān)系,一之間有一定的依賴關(guān)系,一般來(lái)說(shuō),年齡越大,血壓越高,但年齡相同的兩個(gè)人的血壓不般來(lái)說(shuō),年齡越大,血壓越高,但年齡相同的兩個(gè)人的血壓不一定相等。一定相等。血壓是一個(gè)隨機(jī)變量。血壓是一個(gè)隨機(jī)變量。 農(nóng)作物的畝產(chǎn)量與施肥量、血壓與年齡之間的這農(nóng)作物的畝產(chǎn)量與施肥量、血壓與年齡之間的這種關(guān)系稱為相關(guān)關(guān)系,在這些變量中,施肥量、年齡種關(guān)系稱為相關(guān)關(guān)系,在這些變量中,施肥量、年齡是可控變量,畝產(chǎn)量、血壓是不可控變量。一般在討是可控變量,畝產(chǎn)量、血壓是不可控變量。一般在討論相關(guān)關(guān)系問(wèn)題中,論相關(guān)關(guān)系問(wèn)題中,可控變量稱為自變量,不可控變可控變量稱為自變量,不

6、可控變量稱為因變量或響應(yīng)變量。量稱為因變量或響應(yīng)變量。函數(shù)關(guān)系與相關(guān)關(guān)系的區(qū)別函數(shù)關(guān)系與相關(guān)關(guān)系的區(qū)別 相關(guān)關(guān)系相關(guān)關(guān)系x影響影響Y的值,的值,xY函數(shù)關(guān)系函數(shù)關(guān)系唯一決定唯一決定的值,的值, 因此,統(tǒng)計(jì)學(xué)上討論兩變量的相關(guān)關(guān)系時(shí),是設(shè)法因此,統(tǒng)計(jì)學(xué)上討論兩變量的相關(guān)關(guān)系時(shí),是設(shè)法確定:在給定自變量確定:在給定自變量 的條件下,因變量的條件下,因變量 的的條件數(shù)學(xué)期望條件數(shù)學(xué)期望xX Y(| )E Y x不能唯一確定。不能唯一確定。10.3 一元線性相關(guān)1.回答兩個(gè)變量間的線性關(guān)系有多么密切?2.利用相關(guān)系數(shù) :總體相關(guān)系數(shù)總體相關(guān)系數(shù) 的值在的值在 1 1 與與 1 1 之間之間度量線性相關(guān)

7、的程度度量線性相關(guān)的程度)()(),(YVarXVarYXCOV3.樣本的相關(guān)系數(shù)用樣本的相關(guān)系數(shù)用r表示表示,r的值在的值在 1 與與 1 之間之間相關(guān)系數(shù)的值相關(guān)系數(shù)的值相關(guān)系數(shù)的值相關(guān)系數(shù)的值相關(guān)系數(shù)的值相關(guān)系數(shù)取值相關(guān)系數(shù)實(shí)例Y YX XY YX XY YX XY YX Xr = 1r = -1r = .89r = 0判定判定兩變量?jī)勺兞烤€性相關(guān)程度線性相關(guān)程度 簡(jiǎn)單相關(guān)系數(shù)簡(jiǎn)單相關(guān)系數(shù)一般地一般地,|r| 越接近越接近 1 ,X 與與Y 的關(guān)系越密切的關(guān)系越密切,但嚴(yán)格的意義上要作但嚴(yán)格的意義上要作相關(guān)系數(shù)的顯著性測(cè)驗(yàn)相關(guān)系數(shù)的顯著性測(cè)驗(yàn),設(shè)零假設(shè)為設(shè)零假設(shè)為X 與與Y沒(méi)有線性相關(guān)關(guān)

8、系,沒(méi)有線性相關(guān)關(guān)系,則對(duì)給定的檢驗(yàn)水平則對(duì)給定的檢驗(yàn)水平 ,查以,查以df=n2相關(guān)系數(shù)檢驗(yàn)表得拒絕域相關(guān)系數(shù)檢驗(yàn)表得拒絕域 ,則相關(guān)關(guān)系在給定的檢驗(yàn)水平,則相關(guān)關(guān)系在給定的檢驗(yàn)水平下下,有統(tǒng)計(jì)意義;否則沒(méi)有顯著性的相關(guān)關(guān)系有統(tǒng)計(jì)意義;否則沒(méi)有顯著性的相關(guān)關(guān)系. )2(nrr若若相關(guān)系數(shù)檢驗(yàn)1.檢驗(yàn)兩個(gè)變量之間是否存在線性關(guān)系2.跟檢驗(yàn)總體斜率1有同樣的結(jié)論3. 假設(shè)零假設(shè)零假設(shè)H0: = 0 (不相關(guān))(不相關(guān)) 備擇假設(shè)備擇假設(shè)Ha: 0 (相關(guān))(相關(guān))例例10-1:試求橡膠樹幼苗期刺檢干膠量與正式割試求橡膠樹幼苗期刺檢干膠量與正式割膠量之間的相關(guān)系數(shù)。膠量之間的相關(guān)系數(shù)。刺檢干膠量(

9、x毫克)與正式割膠量(y克)數(shù)據(jù)如下x 77 64 62 72 71 83 79 94 104 96 61y 8.8 7.9 8.9 7.7 8.6 8.1 9.1 5.6 8.5 7.6 4.9x 90 81 122 65 130 111 160 188 81 92y 8.1 12.0 15.7 11.9 11.1 6.5 15.3 17.7 5.9 10.6x 80 63 105 89 73y 8.3 6.0 8.5 10.1 3.5 樣本樣本n=26, , , , , 代入公式得代入公式得 查相關(guān)系數(shù)顯著性表,得在檢驗(yàn)水平為查相關(guān)系數(shù)顯著性表,得在檢驗(yàn)水平為0.01 臨界值為臨界值為0.

10、4959 ,因,因0.71020.4959 ,故推斷為相關(guān)關(guān)系極具顯著性。故推斷為相關(guān)關(guān)系極具顯著性。 由由 10.4 一元線性回歸的SAS實(shí)現(xiàn)一、REG過(guò)程u1. 語(yǔ)句格式uProc reg data= 數(shù)據(jù)集名 【選項(xiàng)】u選項(xiàng)u(1)data=指定分析的sas數(shù)據(jù)集u(2)outest=輸出數(shù)據(jù)集u(3)outsscp=輸出相關(guān)矩陣u(4)model 因變量=自變量、【選擇項(xiàng)】u例例10-1Data ex; input x y ;Cards;778.8908.1808.3647.98112636628.912215.71058.5727.76511.98910.1718.613011.17

11、33.5838.11116.5967.6799.116015.3614.9945.618817.79210.61048.5815.9;Proc reg; model y=x/xpx I; Run;F=24.42,P0.05,說(shuō)明回歸方程在0.05水平上有意義,R2=0.5044,表明回歸模型較好?;貧w方程:y=1.9683+0.0776x,回歸系數(shù)t檢驗(yàn),t=4.94,P |r| under H0: Rho=0 x y x 1.00000 0.71019 .0001 y 0.71019 1.00000 .0001因?yàn)镻=0.0010.01,故拒絕相關(guān)系數(shù)r=0的原假設(shè).例題例題10-210-2

12、 許多害蟲的發(fā)生都和氣象條件有一定的關(guān)系。許多害蟲的發(fā)生都和氣象條件有一定的關(guān)系。1964197319641973年年1010年間測(cè)定年間測(cè)定7 7月下旬的溫雨系數(shù)月下旬的溫雨系數(shù)( (雨量雨量mm/mm/平均平均溫度溫度) )和大豆第二代造橋蟲發(fā)生量和大豆第二代造橋蟲發(fā)生量( (每百株大豆上的蟲數(shù)每百株大豆上的蟲數(shù)) )的關(guān)系如下表,試求相關(guān)系數(shù)。的關(guān)系如下表,試求相關(guān)系數(shù)。溫雨系數(shù)溫雨系數(shù)蟲口密度蟲口密度溫雨系數(shù)溫雨系數(shù)蟲口密度蟲口密度1.581.581801802.412.411751759.989.98282811.0111.0140409.429.4225251.851.851601

13、601.251.251171176.046.041201200.30.31651655.925.928080data new2;input x y ;cards;1.58 180 2.41 175 9.98 28 11.01 40 9.42 25 1.85 160 1.25 117 6.04 120 0.3 165 5.92 80;proc corr;var x y;run;基本概念協(xié)方差分析解決的問(wèn)題為多組(多個(gè)處理)x, y雙變數(shù)資料,其自變數(shù)(協(xié)同變數(shù))x往往對(duì)目標(biāo)變數(shù)y有一定的線性回歸效應(yīng)。協(xié)方差分析是把線性回歸與方差分析結(jié)合起來(lái),檢驗(yàn)兩個(gè)或多個(gè)修正均數(shù)間有無(wú)差別的方法。如研究不同的飼

14、料對(duì)動(dòng)物體重的增長(zhǎng)情況,但每只動(dòng)物的進(jìn)食量是不同的,對(duì)體重的增長(zhǎng)是有影響的,進(jìn)食量即為混雜因素,亦稱為協(xié)變量。協(xié)方差分析檢驗(yàn)的意義是,用直線回歸的方法找出食量(協(xié)變量x)與所增體重(應(yīng)變量y)的線性關(guān)系,求得當(dāng)食量化為相等時(shí)(即扣除食量的影響),各飼料組動(dòng)物所增體重的修正均數(shù),然后用方差分析檢驗(yàn)各修正均數(shù)間的差別。要真正反映目標(biāo)變數(shù)y的處理效應(yīng),應(yīng)先將不易控制的自變數(shù)x對(duì)目標(biāo)變數(shù)y的影響剔除,再進(jìn)行方差分析,這種分析即是協(xié)方差分析。利用回歸分析的原理分析目標(biāo)變數(shù)y與自變數(shù)x之間的關(guān)系,從而將方差分析和相關(guān)、回歸分析結(jié)合起來(lái)。簡(jiǎn)單的說(shuō),協(xié)方差分析是扣除協(xié)變量影響,再對(duì)修正y的均值進(jìn)行方差分析。協(xié)

15、方差分析的SAS過(guò)程為廣義線性模型(GLM)。例例8:為研究:為研究A、B、C三種肥料對(duì)于蘋果樹三種肥料對(duì)于蘋果樹的增產(chǎn)效果,選了的增產(chǎn)效果,選了24株同齡的蘋果樹,記下各樹株同齡的蘋果樹,記下各樹基礎(chǔ)生產(chǎn)力基礎(chǔ)生產(chǎn)力(上年度的產(chǎn)量,上年度的產(chǎn)量,X),將每種肥料隨,將每種肥料隨機(jī)施于機(jī)施于8株蘋果樹上,記下當(dāng)年產(chǎn)量株蘋果樹上,記下當(dāng)年產(chǎn)量(Y,公斤,公斤)。得結(jié)果于下表。試作協(xié)方差分析。得結(jié)果于下表。試作協(xié)方差分析。 肥料肥料變數(shù)變數(shù)觀察值觀察值A(chǔ)X:4758534649565444Y:5466635156666150BX:5253645859616366Y:5453676262636469

16、CX:4448465059575853Y:5258546170646866分析方法先對(duì)x、y進(jìn)行方差分析,檢驗(yàn)其差異顯著性,然后對(duì)處理內(nèi)(誤差)項(xiàng)做回歸分析,測(cè)驗(yàn)去除處理影響的x與y是否存在顯著的線性回歸關(guān)系。若無(wú),表明x對(duì)y無(wú)影響,對(duì)y作方差分析即能說(shuō)明3種肥料對(duì)蘋果樹產(chǎn)量的效應(yīng)差異顯著性。若x和y之間存在線性回歸關(guān)系,說(shuō)明基礎(chǔ)生產(chǎn)力對(duì)來(lái)年產(chǎn)量有影響,不能用原有的y值進(jìn)行方差分析,必須消去x的不同對(duì)y帶來(lái)的影響,即通過(guò)求y依x的線性回歸方程,將各處理的yi都矯正到x在同一水平時(shí)的值。最后對(duì)矯正平均數(shù)作方差分析,比較3種肥料對(duì)蘋果樹產(chǎn)量的影響有無(wú)顯著差異。GLM過(guò)程過(guò)程格式PROC GLM 選

17、項(xiàng);CLASS 變量表;MODEL 依變量=效應(yīng)/選項(xiàng);MEANS 效應(yīng)/選項(xiàng);LSMEANS 效應(yīng)/選項(xiàng);RUN;語(yǔ)句說(shuō)明PROC GLM語(yǔ)句選項(xiàng)為可設(shè)定分析數(shù)據(jù)集等。CLASS 語(yǔ)句指明分類變量,協(xié)方差分析時(shí)必須設(shè)立,且必須出現(xiàn)在MODEL語(yǔ)句之前。MODEL 語(yǔ)句定義協(xié)方差分析的線性數(shù)學(xué)模型。例如:MODEL y=a t;選項(xiàng)SOLUTION給出參數(shù)的估計(jì)值。MEANS 語(yǔ)句用于計(jì)算依變量的平均數(shù)。選項(xiàng)用于多重比較。LSMEANS 語(yǔ)句計(jì)算效應(yīng)的最小二乘估計(jì)的平均數(shù)(LSM)。選項(xiàng)E=效應(yīng),設(shè)定測(cè)驗(yàn)誤差項(xiàng),缺省為試驗(yàn)分析誤差。STDERR給出LSM的標(biāo)準(zhǔn)誤。TDIFF,PDIFF要求顯示

18、測(cè)驗(yàn)H0:LSM(i)=LSM(j)的t值和概率值。結(jié)果輸出包括依變量的方差分析表、參數(shù)估計(jì)值和最小二乘估計(jì)的平均數(shù)等。例 程序1data xfc;do a=1 to 3; do i=1 to 8;input x y ;output ;end;end;cards;47 54 58 66 53 63 46 51 49 56 56 6654 61 44 50 52 54 53 53 64 67 58 6259 62 61 63 63 64 66 69 44 52 48 5846 54 50 61 59 70 57 64 58 69 53 66;proc print;proc glm;class a;model y=x a/solution;/*指定協(xié)方差分析模型,SOLUTION給出參數(shù)的估計(jì)值*/means a/t; /*計(jì)算a各個(gè)水平均值,用t檢驗(yàn)進(jìn)行多重比較*/lsmeans a/stderr pdiff tdi

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論