第9章 雙變量回歸與相關(改)_第1頁
第9章 雙變量回歸與相關(改)_第2頁
第9章 雙變量回歸與相關(改)_第3頁
第9章 雙變量回歸與相關(改)_第4頁
第9章 雙變量回歸與相關(改)_第5頁
已閱讀5頁,還剩90頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第九章 雙變量回歸與相關 函數關系與相關關系函數關系與相關關系1、函數關系(確定性關系):兩變量間呈一一對應的關系。2、相關關系(非確定性關系):兩變量間數量上存在聯(lián)系,但非一一對應關系。如年齡與血壓,兒童年齡與體重等。 1、 相關與回歸分析是描述兩個或多個呈相關關系(而非一一對應的函數關系)的變量數量上相互依存的統(tǒng)計學方法。 2、相關與回歸分析所用的樣本數據應是來自研究總體的一份隨機樣本。編號123456789邊長X42.53532.1 周長Y16101220128.41817.6 8.89個正方形其邊長個正方形其邊長X(cm)與周長與周長Y(cm)的關系的關系2.02.5

2、3.03.54.04.55.0 x8.010.012.014.016.018.020.0y正方形邊長X與周長Y的散點圖編號12345678910父高X150153155158161164165167168169子高Y159157163166169170169167169170編號11121314151617181920父高X170171172174175177178181183185子高Y173170170176178174173178176180為討論父子身高間的線性關系,南方某地在應屆畢業(yè)生花名冊中隨機抽取了20名男生,分別測量他們和他們父親的身高(cm),得如下資料:1501601701

3、80190father155160165170175180son父子身高散點圖雙變量的名稱種種雙變量的名稱種種n因變量(dependent variable)Yn自變量(independent variable)Xn反應變量(response variable)Yn解釋變量(explanatory variable)Xn結局變量(outcome)Yn研究因素(design factor)X 第一節(jié)第一節(jié) 直線回歸直線回歸 Linear Regression 簡單線性回歸分析是用線性回歸方程描述兩變量數量上相互依存的統(tǒng)計方法,簡稱直線回歸。 回歸分析解決的問題n確定變量(自變量與因變量)之間是否

4、存在某種線性的統(tǒng)計學關系,存在則應找出這種關系的表達式;n確定這種關系存在的概率的大小。線性回歸分析因變量:連續(xù)變量自變量:典型的是連續(xù)變量,但是在實際應用中,任何類型的變量目的:描述一些自變量與一個因變量之間關聯(lián)的程度、方向和范圍。因變量:準則變量、結果變量自變量:回歸變量、預測變量、獨立變量1、應變量、應變量(dependent variable)2、自變量自變量(independent variable)3、一元線性回歸一元線性回歸直線回歸方程的模型是:直線回歸方程的模型是:yi=a+bxi+ei其中其中()()a是截距是截距()()b是回歸系數是回歸系數(regression coef

5、ficient)(回歸直線的回歸直線的斜率)斜率) 回歸系數的統(tǒng)計學意義是:自變量每變化一個單位,應回歸系數的統(tǒng)計學意義是:自變量每變化一個單位,應變量變量平均平均變化的單位數變化的單位數()()ei是殘差是殘差因此直線回歸方程的一般形式是:因此直線回歸方程的一般形式是:n其中其中 是應變量是應變量y的預測值或稱估計值。的預測值或稱估計值。iyiiyabx 4、多元線性回歸、多元線性回歸 多元線性回歸方程模型為:多元線性回歸方程模型為: yi=b0+b1x1i+b2x2i+bnxni+ei其中其中 (1) b0是常數項,是各自變量都等于是常數項,是各自變量都等于0時,應變量的估計值。有時,人們

6、稱它時,應變量的估計值。有時,人們稱它為本底值。為本底值。(2) b1,b2,bn是偏回歸系數是偏回歸系數( partial regression coefficient ),其統(tǒng)計學其統(tǒng)計學意義是在其它所有自變量不變的情況下,某一自變量每變化一個單位,意義是在其它所有自變量不變的情況下,某一自變量每變化一個單位,應變量平均變化的單位數。應變量平均變化的單位數。 如果所有參加分析的變量都是標準化的變量,這時如果所有參加分析的變量都是標準化的變量,這時b就等于就等于0, b1,b2,bn 就變成了標準化偏回歸系數,用符號就變成了標準化偏回歸系數,用符號b1,b2,bn表示。表示。 bi= bi*

7、sxi/sy 由于由于bi沒有量綱,因此可以相互比較大小,反映自變量的相對作用大小。沒有量綱,因此可以相互比較大小,反映自變量的相對作用大小。 (3) ei是殘差是殘差多元線性回歸方程的一般形式是:多元線性回歸方程的一般形式是:其中的符號含義同前。其中的符號含義同前。01122nniiiiybb xb xb x直線回歸系數的最小二乘估計直線回歸系數的最小二乘估計n基本思想:使樣本點到回歸直線的縱向距離基本思想:使樣本點到回歸直線的縱向距離的平方和最小。的平方和最小。 定義定義e (residual)為殘差,為殘差,Q為殘差平方和為殘差平方和使關于殘差的一階偏導數為使關于殘差的一階偏導數為0yy

8、e22)() (bxayQyyQ直線回歸系數和截距計算公式直線回歸系數和截距計算公式xxxyllxxyyxxb2)()(xbya例 9-1 某地方病研究所調查了8名正常兒童的尿肌酐含量(mmol/24h)如表9-1,估計尿肌酐含量(Y)對其年齡(X)的回歸方程。 表9-18 名正常兒童的年齡X(歲)與尿肌酐含量(Y)編號12345678年齡X131196810127尿肌酐含量Y3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65由原始數據及散點圖的觀察,兩變量間呈直線趨勢,故作下列計算:1.計算X、Y的均數X、Y,離均差平方和XYYYXXlll與離均差積和、5.987

9、6nXX9838. 2887.23nYY428)76(764)(222nXXlXX0462. 18)87.23(2683.72)(222nYYlYY8450. 58)87.23)(76(61.232)(nYXXYlXYab和截距求回歸系數. 21392. 042/8450. 5b6617. 1) 5 . 9)(1392. 0(9838. 2a列出直線回歸方程. 3XY1392. 06617. 12()XYXXlblXX(X-X)Y-YaYbX假設檢驗假設檢驗1方差分析:就總體而言,回歸關系是否存方差分析:就總體而言,回歸關系是否存在,或回歸方程是否成立?在,或回歸方程是否成立?2,)(1,)(

10、1,)(222nyySSyySSnyySSeiieiTiT回回eeeMSMSSSSSF回回回/0)(2)()()()()(2222回SSSSyyyyyyyyyyyyyySSeiiiiiiiiiiiiiiiT0)()()()()()()(222222xxbxxbxxbyyxxbyxxbyxxbyyyyyyiiiiiiiiiii回歸分析中各離均差平方和的含義SS總:Y的總離均差平方和SS回: SS總中X變量可解釋的部分SS殘:SS總中X變量不能解釋的部分例 9-2 檢驗例9-1數據得到的直線回歸方程是否成立?(1)方差分析間無直線關系即尿肌酐含量與年齡之, 0:0H間有直線關系即尿肌酐含量與年齡之

11、, 0:1H05.08134. 042/845. 5/22XXXYllSS回2328. 08134. 00462. 1回總殘SSSSSS。列出方差分析表如表29變異來源自由度SSMSFP總變異71.0462回歸10.81340.813420.970.01殘差60.23280.0388SSSSSS總回殘22/XYXYXXXXSSblllb l回假設檢驗假設檢驗2t 檢驗:檢驗:H0 : = 0 , H1 : 02,0nsbtbb22)()2/()(xxnyylssiiixxyxb,05. 001. 0611021HHPF接受拒絕水準。按界值表,得,查、齡之間有直線關系??烧J為尿肌酐含量與年同上及

12、、10HH1392. 0,42,2328. 08blSSnXX殘,本例1970.0282328.0 XYS0304.0421970.0bS579.40304.01392.0t,05. 0005. 0002. 0, 60HPt拒絕水準。按得界值表查結論同上。接受,1H,2nbb-0t=SY XY XbXXSSSl2Y XSSSn殘n(2) t檢驗檢驗例 9-3 根據例9-1中所得b=0.1392,估計其總體回歸系數的雙側95%可信區(qū)間。, 6,0304. 029界值表查按自由度已算得由例tSb可信區(qū)間的計算按公式得到%95)139(,447. 26, 2/05. 0t)0304. 0447. 2

13、1392. 0 ,0304. 0447. 21392. 0()2136. 0 ,0648. 0(/2,:bbtS依有利用回歸方程進行估計和預測00000, 2/0/0220.YY0/00/Y1XX)()(1SSYYXXYXYXXYXYStXXXXn的可信區(qū)間為的時,當差。樣本而異,存在抽樣誤會因的一個點估計值。是相應總體均數只的,由樣本回歸方程得出的數值給定的可信區(qū)間:總體均數個體Y值的預測區(qū)間000, 2/00220.YY0Y1YXX)()(11SSYXXYXYStXXXXnS預測區(qū)間為值的時,個體當為:波動范圍。其標準差值也存在一個,對應的個體的數值給定例 9-4 用例9-1所得直線回歸方

14、程,計算當X0=12時, 的95%可信區(qū)間和相應個體Y值的95%預測區(qū)間。0XY;42, 5 . 9,1392. 06617. 119XXlXXY得到回歸方程為由例)169()149(和按公式1031. 042)5 . 912(811970. 020YS時。當得到回歸由例121970. 0290XSXY3321.3121392.06617.1Y2223. 042) 5 . 912(8111970. 020YS時故按公式前已查得12),159(,447. 206 , 2/05. 0Xt)584. 3 ,080. 3 ()1031. 0447. 23321. 3 ,1031. 0447. 2332

15、1. 3 (預測區(qū)間為時尿肌酐含量個體值的按公式%9512),179(0X)876. 3 ,788. 2()2223. 0447. 23321. 3 ,2223. 0447. 23321. 3(尿肌酐含量總體可信區(qū)間為均數的%95線性回歸的條件線性回歸的條件n線性(線性(linear)n獨立(獨立(independent)n正態(tài)(正態(tài)(normal)n等方差(等方差(equal variance)數量化回歸分析是尋找以數量表示的自變量與因變量之間統(tǒng)計規(guī)律,因此,進行分析的變量必須用數量表示。因此,用于進行線性回歸分析模型的變量必須是數量型變量。常用的指標數量化方法是0-1法。評價回歸模型的指標

16、n決定系數 R 01之間,越接近1,模型越好n復相關系數(R2) R的平方 01之間,越接近1,模型越好n殘差角度: 殘差標準誤 預測殘差平方和nR2最大 R2 SS回歸 SS總nadjR2最大: adjR21SS殘/ SS總回歸方程的評價指標殘差分析n分析線性回歸條件是否滿足?分析線性回歸條件是否滿足? 殘差頻數分布圖(檢驗正態(tài)性) 殘差對殘差對x或或y作散點圖(檢驗等方差性)作散點圖(檢驗等方差性) 殘差Durbin-Watson test(檢驗殘差自相關性)統(tǒng)計量取值在0-4之間,越接近0,則可能為正相關,越接近4,則可能為負相關。n觀察可疑值或異常值。 Residual 殘差 Std.

17、 Residual 標準化殘差 Stud. Residual 學生化殘差線性回歸的應用n定量描述兩變量的數量關系定量描述兩變量的數量關系 病因學研究,尋找危險因素 和相關分析的區(qū)別n統(tǒng)計預測統(tǒng)計預測 常用的預測手段/如身高預測 標準工作曲(直)線,化學分析 一些指標難以求得,測量易測得的指標,估計難測量的指標,n統(tǒng)計控制統(tǒng)計控制統(tǒng)計控制的思路n已經建立回歸方程,并知道相應的要素;已經建立回歸方程,并知道相應的要素;n確定控制目的,取確定控制目的,取y值的單側值的單側1-a置信區(qū)間的上置信區(qū)間的上限或下限限或下限y;n將將y代入回歸方程,求出代入回歸方程,求出x,得得x的控制值。的控制值。 求求

18、y需要知道需要知道x0,而而x0不能事先確定,不不能事先確定,不妨給妨給x0個初始值,比如個初始值,比如x0=均數,然后再用新均數,然后再用新算出的算出的x0代入,可以反復多次,直到滿意為止。代入,可以反復多次,直到滿意為止。 第二節(jié) 直線相關 Linear Correlation相關分析:描述兩個隨機變量X和Y之間數量上聯(lián)系密切程度與方向的統(tǒng)計學方法。常用的描述指標為相關系數 。 n 醫(yī)學上,許多現象之間也都有相互聯(lián)系,例如:身高與體重、體溫與脈搏、產前檢查與嬰兒體重、乙肝病毒與乙肝等。n 在這些有關系的現象中,它們之間聯(lián)系的程度和性質也各不相同。n關系:可以說乙肝病毒感染是前因,得了乙肝是

19、后果,乙肝病毒和乙肝之間是因果關系;但是,有的現象之間因果不清,只是伴隨關系,例如丈夫的身高和妻子的身高之間,就不能說有因果關系。n為了研究父親與成年兒子為了研究父親與成年兒子身高之間的關系,卡爾身高之間的關系,卡爾.皮皮爾遜測量了爾遜測量了1078對父子對父子的身高。把的身高。把1078對數字對數字表示在坐標上,如圖。表示在坐標上,如圖。n它的形狀象一塊橄欖狀的它的形狀象一塊橄欖狀的云,中間的點密集,邊沿云,中間的點密集,邊沿的點稀少,其主要部分是的點稀少,其主要部分是一個橢圓。一個橢圓。二、相關系數二、相關系數 樣本的相關系數用r (correlation coefficient) 相關系

20、數r的值在-1和1之間。正相關時,r值在0和1之間,這時一個變量增加,另一個變量也增加;負相關時,r值在-1和0之間,此時一個變量增加,另一個變量將減少。 r的絕對值越接近1,兩變量的關聯(lián)程度越強,r的絕對值越接近0,兩變量的關聯(lián)程度越弱。典型的散點圖0 xy0 xy0 xy0 xy0 xy0 xy(a) 0r1(c) r 1(b) -1r100),并對r進行假設檢驗,有統(tǒng)計學意義時,r的絕對值大于0.70.7,則表示兩個變量高度相關;r的絕對值大于0.40.4,小于等于0.7時,則表示兩個變量之間中度相關;r的絕對值大于0.20.2,小于等于0.4時,則兩個變量低度相關。 第三節(jié) 秩相關又稱

21、等級相關,屬于非參數統(tǒng)計方法。1、不服從雙變量正態(tài)分布而不宜作積差相關2、總體分布類型未知3、原始數據是等級資料Spearman秩相關用等級相關系數來表示兩變量間直線相關關系的密切程度和相關方向。分析過程分析過程:1、將n對觀察值Xi和Yi分別由小至大編秩2、對兩組秩作積差相關系分析,即得秩相關系數3、進行總體秩相關系數為零的假設檢驗秩相關nSpearman 等級相關) 1(6122nndris例 9-8 某省調查了19951999年當地居民18類死因的構成以及每種死因導致的潛在工作損失年數WYPLL的構成,結果見表9-3。以死因構成為X,WYPLL構成為Y,作等級相關分析。系構成之間無直線相

22、關關即死因構成和WYPLLHs, 0:0系構成之間有直線相關關,即死因構成和:WYPLLHs0105. 0iiXYPQ將兩變量 、 的實測值分別從小到大編秩,用 和9 3表示,見表第(3)、(5)欄。每個變量中若有2d2觀 測 值 相 同 則 取 平 均 秩 。 求 每 對 秩 的 差 值 d、 d 、。9 3見表第(6)、(7)欄,按公式(9-25)計算s統(tǒng)計量r。36 ( 9 2 )10 . 9 0 51 81 8sr 05. 0001. 014,18。按界值表,得的查附表本例Prns構成和各種可認為當地居民死因的接受拒絕水準,10HH死因。的構成存在正相關關系數導致的潛在工作損失年WYP

23、LL226:1:(1)sdrn n 依有死因類別 (1) 死因構成(%) X(2) P(3) WYPLL 構成(%) Y(4) Q(5) d (6)=(3)-(5) 2d (7)=(6)2 1 0.03 1 0.05 1 0 0 2 0.14 2 0.34 2 0 0 3 0.20 3 0.93 6 -3 9 4 0.43 4 0.69 4 0 0 5 0.44 5 0.38 3 2 4 6 0.45 6 0.79 5 1 1 7 0.47 7 1.19 8 -1 1 8 0.65 8 4.74 12 -4 16 9 0.95 9 2.31 9 0 0 10 0.96 10 5.95 14 -

24、4 16 11 2.44 11 1.11 7 4 16 12 2.69 12 3.53 11 1 1 13 3.07 13 3.48 10 3 9 14 7.78 14 5.65 13 1 1 15 9.82 15 33.95 18 -3 9 16 18.93 16 17.16 17 -1 1 17 18 22.59 17 8.42 15 2 4 27.96 18 9.33 16 2 4 合 計 171 171 92 應用相關注意事項應用相關注意事項 1.實際意義實際意義 進行相關回歸分析要有實際意義,不可把毫無關系的兩個事物或現象用來作相關回歸分析。 2.相關關系相關關系 相關關系不一定是因

25、果關系,也可能是伴隨關系,并不能證明事物間有內在聯(lián)系。 3.利用散點圖利用散點圖對于性質不明確的兩組數據,可先做散點圖,在圖上看它們有無關系、關系的密切程度、是正相關還是負相關,然后再進行相關分析。4.變量范圍變量范圍相關分析和回歸方程僅適用于樣本的原始數據范圍之內,出了這個范圍,我們不能得出兩變量的相關關系和原來的回歸關系。 第四節(jié) 加權直線回歸 一、加權最小二乘估計2)(殘iwwiiwXbaYWSSxxwxywwllbWWXbWYXbYawwwwwWWXWXlxxw22)(WWYWYlyyw22)(WWYWXWXYlxyw)(例 9-9 某兒科醫(yī)師測得10名嬰兒的年齡(歲)與其絲狀血紅細胞

26、凝集素的lgG水平見表9-4。估計抗體水平(Y)與年齡(X)的直線回歸方程。 表 9-4 10名嬰兒的年齡與其絲狀血紅細胞凝集素的lgG抗體水平序號 年齡XlgG抗體WY水平Y(1)(2)(3)(4)(5)(6)(7)(8)10.114.0082.649.09330.5836.361322.3120.125.1069.448.33354.1742.501806.2530.219.5022.684.76215.4245.242046.4940.309.0011.113.33100.0030.00900.0050.3417.208.652.94148.7950.592559.1760.4414.0

27、05.172.2772.3131.821012.4070.5618.903.191.7960.2733.751139.0680.6029.402.781.6781.6749.002401.0090.69546.4232.031025.86100.8041.501.561.2564.8451.872691.02合計4.17170.70209.3236.891474.46403.1616903.5521XW XYWXY 222XYWYXWX1首先根據Y與X的散點圖,采用最小二乘法得到直線回歸方程為繪制此回歸方程的殘差與自變量的散點圖(圖9-8),圖中顯示出殘差的方差 與X的

28、取值具有某種系統(tǒng)變化的趨勢,可以假定 ,即殘差方差與自變量的平方成正比,故而取 。由于在式(9-28)和(9-29)中常數k可以消去,所以實際計算時權重取為 ,將其代入公式(9-28) 和(9-29) 計算過程列在表9-4中,最后得:加權直線回歸方程為XY652.4455. 12i22iikX21kXW 21XW 95.404986.33051.14332.20989.361032.209)46.1474)(89.36(16.4032WbXY95.4017. 0XYWWXXWlbl,WWWWaYb X例 9-10 對例9-9求得的加權最小二乘估計回歸方程作假設檢驗。前面計算已知: 0:0WH0

29、:1WH05. 0中)由表根據公式(49329,3051.143,95.40XYWWlb38.651732.209/46.147455.169032YYWl計算得到:。列出方差分析表如表再根據公式59),319(變異來源自由度SSMSFP總變異96517.38回歸15868.345868.3472.330.05組內140.5910.0422列出方差分析表如下不拒絕水準。按得界值表查,05. 005. 0,14, 121PF歸直線不平行還不能認為兩條總體回,0H1616. 01 .8842174.15845. 5cb二、兩個截距的比較(一)F檢驗)()(tjcijcijijtjijYYYYYY2

30、21122112211)()()(tjinjcijinjcijijinjtjijYYYYYYiii截距間公共截距間誤差總回歸SSSSSSSSSS截距間公共截距間誤差總,總221nn,公共誤差321nn1截距間(一)F檢驗)(公共公共總回歸誤差截距間3/21nnSSSSSSMSMSF113,212nn(二)t檢驗,2121ccaaccSaat321nn(二)t檢驗)(212121XXbYYaaccc公共公共誤差SSMSSc22112122121)(11xxxxcaallXXnnSScc例 9-12 由于例9-11中兩條總體回歸直線平行,現檢驗兩條總體回歸直線的截距是否相等。距相等兩條總體回歸直線

31、的截:0H距不等兩條總體回歸直線的截:1H05. 0并計算其殘差平方和歸方程例數據求出一個總的回先用,18。求得總回歸總回歸8385. 0SSSS)429(,6221. 0119按公式中已求得例公共SS218.5)3810/(6221.06221.08385.0F/MSSSSSFMSSS截距間總回歸公共12誤差公共(n +n -3)列出方差分析表如下變異來源自由度SSMSFP總回歸160.8385截距間10.21640.21645.220.05誤差150.62210.0415,05. 005. 0,15, 121水準。按得界值表查按PF的截距不等??烧J為兩總體回歸直線接受拒絕,10HH 第六節(jié) 曲線擬合 一、曲線擬合的一般步驟n1.選擇合適曲線n2.求回歸方程n3.求決定系數n 22211)()(總殘YYYYSSSSR例 9-13 以不同劑量的標準促腎上腺皮質激素釋放因子CRF(nmol/L)刺激離體培養(yǎng)的大鼠垂體前葉細胞,監(jiān)測其垂體合成分泌腎上腺皮質激素ACTH的量(pmol/L)。根據表9-10中測得的5對數據建立ACTH-CRF工作曲線。 表9-10 標準CRF(X)刺激大鼠垂體前葉細胞分泌ACTH(Y)測定結果編號XX=lgXY10.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論