醫(yī)學統(tǒng)計學直線相關與回歸_第1頁
醫(yī)學統(tǒng)計學直線相關與回歸_第2頁
醫(yī)學統(tǒng)計學直線相關與回歸_第3頁
醫(yī)學統(tǒng)計學直線相關與回歸_第4頁
醫(yī)學統(tǒng)計學直線相關與回歸_第5頁
已閱讀5頁,還剩108頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 第九章第九章 雙變量回歸與相關雙變量回歸與相關圖圖 英國肺癌死亡率和煙草消耗量英國肺癌死亡率和煙草消耗量.(1950,DollHill) 圖圖 美國肺癌的監(jiān)測數(shù)據年及美國煙草消耗量的數(shù)據(美國肺癌的監(jiān)測數(shù)據年及美國煙草消耗量的數(shù)據(American Cancer Society 2005) 第九章第九章 直線相關與直線回歸直線相關與直線回歸112021-12-21117.3 119.6 121.9 125.1 117.0 115.4 124.7 120.1 123.0 122.8 120.6 121.5 125.0 125.9 123.2 126.6 122.0 127.6 125.1 12

2、0.1 119.5 126.1 126.4 125.6 118.9 130.4 124.9 125.8 126.1 120.9 116.1124.0 124.6 118.7 119.1 121.9118.0117.0114.6 123.9 116.0 125.3 123.6 123.6126.4115.5 119.2 114.0 123.4 126.6 117.3 113.6 127.6 120.5113.6130.2128.3118.2124.7122.4 118.8 123.1122.7126.6127.8125.9 110.5124.8 115.2119.4 128.0 116.7 13

3、2.4 129.3 121.7 115.0120.4122.1 127.0135.3125.7 111.2 124.3 124.2 124.7 121.7 121.3124.1 119.9121.7 113.8 116.7 129.9 128.5 126.5 122.8 120.1118.2 122.5 127.7124.9 123.3 120.3 125.7 某市某市19951995年年104104名男童名男童身高(身高(cmcm)資料如下資料如下單變量資料單變量資料變量變量122021-12-21大鼠對號大鼠對號 正常飼料組正常飼料組 維生素維生素 E E缺乏組缺乏組 (1 1) (2 2

4、) (3 3) 1 1 35503550 24502450 2 2 2000 2400 3 3 3000 1800 4 4 3950 3200 5 5 3800 3250 6 6 3750 2700 7 7 3450 2500 8 8 3050 1750 合計 26550 20050表表1 1 不同飼料組大鼠肝中不同飼料組大鼠肝中維生素維生素A A含量含量(IU/gIU/g) 變量變量單單變變量量資資料料患者號患者號血清血清IL-6腦脊液腦脊液IL-6122.4134.0251.6167.0358.1132.3425.180.2565.9100.0679.7139.1775.3187.2832

5、.497.2996.4192.31085.7199.4132021-12-21表表2 SAH2 SAH患者血清和腦脊液患者血清和腦脊液IL-6(pg/ml)IL-6(pg/ml)檢測結果檢測結果變量變量Y Y變量變量 x x雙變量資料雙變量資料142021-12-21SAHSAH患者血清和腦脊液患者血清和腦脊液IL-6IL-6散點圖散點圖v 醫(yī)學上,許多現(xiàn)象之間都有相互聯(lián)系,例如:身高與體重、體溫與脈搏、年齡與血壓、產前檢查與嬰兒體重、乙肝病毒與乙肝、胰島素與血糖水平、毒物劑量與動物的存活時間等。v 在這些有關系的現(xiàn)象中,它們之間聯(lián)系的程度和性質也各不相同。這里,體溫和脈搏的關系就比產前檢查與

6、嬰兒體重之間的關系密切得多,而體重和身高的關系則介與二者之間。另外,可以說乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之間是因果關系;但是,有的現(xiàn)象之間因果不清,只是伴隨關系,例如丈夫的身高和妻子的身高之間,就不能說有因果關系。152021-12-21回歸分析與相關分析回歸分析與相關分析162021-12-21 變量間關系問題:變量間關系問題:年齡年齡身高、肺活量身高、肺活量體重、體重、藥物劑量與動物死亡率等。藥物劑量與動物死亡率等。兩個關系:兩個關系: 依存關系:應變量依存關系:應變量Y Y 隨自變量隨自變量X X 變化而變化變化而變化 回歸分析回歸分析(1)(1)互依關系:應變量互依

7、關系:應變量Y Y 與自變量與自變量X X間間的彼此關系的彼此關系相關分析相關分析第九章第九章 直線相關與直線回歸直線相關與直線回歸第一節(jié) 直線回歸第二節(jié) 直線相關第三節(jié) 等級相關 第四節(jié) 加權直線回歸第五節(jié) 曲線擬合172021-12-21182021-12-21第一節(jié)第一節(jié) 直線回歸直線回歸一、直線回歸的概念一、直線回歸的概念二、直線回歸方程的求法二、直線回歸方程的求法三、直線回歸中的統(tǒng)計推斷三、直線回歸中的統(tǒng)計推斷四、直線回歸方程的圖示四、直線回歸方程的圖示五、直線回歸的區(qū)間估計五、直線回歸的區(qū)間估計六、直線回歸方程的應用六、直線回歸方程的應用192021-12-21編號(1)尿雌三醇m

8、g/24h(2)產兒體重kg(3)編號(1)尿雌三醇mg/24h(2)產兒體重kg(3)172.517173.2292.518253.2392.519273.44122.720153.45142.721153.46162.722153.57162.423163.58143.024193.49163.025183.510163.126173.611173.027183.712193.128203.813213.029224.014242.830253.915153.231244.316163.2表表2 2 孕婦尿中雌三醇含量與產兒的體重孕婦尿中雌三醇含量與產兒的體重202021-12-21兩變量

9、的散點圖兩變量的散點圖212021-12-21表表3 123 12名一年級女大學生體重與肺活量名一年級女大學生體重與肺活量 編號編號 體重體重 (kgkg) 肺活量肺活量 (L L) 1 1 42 2.55 2 2 42 2.2 3 3 46 2.75 4 4 46 2.4 5 5 46 2.8 6 6 50 2.81 7 7 50 3.41 8 8 50 3.1 9 52 3.46 1010 52 2.85 1111 58 3.5 1212 58 3 222021-12-21兩變量的散點圖兩變量的散點圖232021-12-21 英國統(tǒng)計學家英國統(tǒng)計學家Pearson KPearson K(1

10、85718571936)19031936)1903年搜集了年搜集了10781078個家庭人員的身高、前臂長等指標的記錄,發(fā)現(xiàn)兒子身高個家庭人員的身高、前臂長等指標的記錄,發(fā)現(xiàn)兒子身高(Y Y,英寸)與父親身高(,英寸)與父親身高(X X,英寸)存在線形關系:,英寸)存在線形關系: 回歸的由來回歸的由來Y= 33.73+0.516 X242021-12-21回歸的由來回歸的由來 即高個子父親兒子的平均身高雖然比矮個子父親兒即高個子父親兒子的平均身高雖然比矮個子父親兒子的平均身高要高一些,但稍矮于其父親的平均身高;子的平均身高要高一些,但稍矮于其父親的平均身高;而矮個子父親兒子的平均身高雖然比高個

11、子父親兒子的而矮個子父親兒子的平均身高雖然比高個子父親兒子的平均身高要矮一些,但稍高于其父親的平均身高。英國平均身高要矮一些,但稍高于其父親的平均身高。英國人類學家人類學家Galton FGalton F(1822182219111911)將這種趨向于種族穩(wěn))將這種趨向于種族穩(wěn)定的現(xiàn)象稱之為定的現(xiàn)象稱之為“回歸回歸”。 至此,至此,“回歸回歸”逐漸發(fā)展成為分析逐漸發(fā)展成為分析兩個變量兩個變量或或多個多個變量變量之間之間某種數(shù)量依存關系某種數(shù)量依存關系的一類統(tǒng)計方法。的一類統(tǒng)計方法。Galton數(shù)據散點圖(英寸)數(shù)據散點圖(英寸)7570656075706560height of fatherh

12、eight of son252021-12-21262021-12-21一、直線回歸的概念一、直線回歸的概念 在實際生活當中,由于其它因素的干擾,許在實際生活當中,由于其它因素的干擾,許多雙變量之間的關系呈直線趨勢,但并不是嚴格多雙變量之間的關系呈直線趨勢,但并不是嚴格的直線關系,為了區(qū)別于兩變量間的直線關系,的直線關系,為了區(qū)別于兩變量間的直線關系,我們稱這種關系為我們稱這種關系為直線回歸。直線回歸。 直線回歸仍用直線方程來描述兩變量間的回直線回歸仍用直線方程來描述兩變量間的回歸關系,但稱為直線回歸方程歸關系,但稱為直線回歸方程. .: 確定。例如 園周長與半徑:y=2r 272021-12

13、-21不確定。例如血壓和年齡的關系,稱為直線回歸不確定。例如血壓和年齡的關系,稱為直線回歸(linear regression)(linear regression)。 建立直線回歸方程建立直線回歸方程 ( linear regression equation)( linear regression equation)282021-12-21SAHSAH患者血清和腦脊液患者血清和腦脊液IL-6IL-6散點圖散點圖292021-12-21 醫(yī)學上,還有許多現(xiàn)象之間也都有類似的或強或醫(yī)學上,還有許多現(xiàn)象之間也都有類似的或強或弱的相互依存的關系,例如:身高與體重、體溫與弱的相互依存的關系,例如:身高

14、與體重、體溫與脈搏、年齡與血壓、胰島素與血糖水平、毒物劑量脈搏、年齡與血壓、胰島素與血糖水平、毒物劑量與動物的存活時間等等與動物的存活時間等等直線回歸方程:302021-12-21 a: a:截截 距距 b:b:回歸系數(shù)回歸系數(shù) Ya bXx x為自變量,一般為資料中能精確測定和控制的量為自變量,一般為資料中能精確測定和控制的量 為因變量為因變量Y Y的估計值的估計值YSimple Linear Regression Model|Y X|Y X|Y XX312021-12-21Y的總均數(shù)的總均數(shù)自變量自變量Slope總體斜率總體斜率Intercept總體截距總體截距根據散點圖可以假定,對于根據

15、散點圖可以假定,對于x x各個取值,相應的各個取值,相應的Y Y的總體均數(shù)的總體均數(shù) 在一條直線上,在一條直線上, 實際上是實際上是x x對應的對應的Y Y的總體均數(shù)的總體均數(shù) 的一個樣本估的一個樣本估計值。計值。Y322021-12-21Yx直線回歸模型的四個假定v線性LINEARITY 反應變量均數(shù)與X間呈直線關系|Y XX332021-12-21LINE 假定xyv標準差相等標準差相等EQUAL STANDARD DEVIATION 對于任何對于任何X X值,隨機變量值,隨機變量Y Y的標準差的標準差 Y|XY|X相等相等v獨立獨立INDEPENDENCE 每一觀察值之間彼此獨立每一觀察

16、值之間彼此獨立y|X = + xv正態(tài)正態(tài) NORMALITY 對于任何給定的對于任何給定的 X, Y X, Y 服從正態(tài)分布,服從正態(tài)分布,均數(shù)為均數(shù)為 Y|XY|X,標準差為,標準差為 Y|XY|X2021-12-2134直線回歸方程直線回歸方程:YabXa:常數(shù)項,回歸直線在常數(shù)項,回歸直線在Y軸上的截距軸上的截距(intercept) ,其統(tǒng)計,其統(tǒng)計意義是當意義是當X0時相應時相應Y的均數(shù)估計值的均數(shù)估計值)b:斜率:斜率(slope),回歸系數(shù),回歸系數(shù)(regression coefficient)。意義:當意義:當X變化一個單位時變化一個單位時Y的平均改變的估計值的平均改變的估

17、計值(b個單位)個單位) b0,Y隨隨X的的增大增大而而增大(減少增大(減少 而而減少)減少) 斜上;斜上; b0,Y隨隨X的的增大增大而而減?。p少減小(減少 而而增加)增加) 斜下;斜下; b=0,Y與與X無直線關系無直線關系 水平水平。b越大,表示越大,表示Y隨隨X變化越快,直線越陡峭。變化越快,直線越陡峭。352021-12-21xyYab X()YY22() ( - -) iiiiSSEYYY a bX2YY362021-12-21二、直線回歸方程的求法二、直線回歸方程的求法回歸系數(shù)與截距的計算回歸系數(shù)與截距的計算求解求解a,b實際就是如何合理找到一條最好代表數(shù)據點分布趨實際就是如何

18、合理找到一條最好代表數(shù)據點分布趨勢的直線。若將實測值勢的直線。若將實測值Y與假定回歸直線上的估計值與假定回歸直線上的估計值 稱為稱為殘差或剩余值殘差或剩余值 ,所求直線應為各點殘差縱向距離最短,所求直線應為各點殘差縱向距離最短,由于殘差有正有負,即取各點殘差平方和由于殘差有正有負,即取各點殘差平方和 最小為最小為所求,即最小二乘法原理所求,即最小二乘法原理此回歸直線必過此回歸直線必過 這一點這一點( , )X YY最小二乘最小二乘 (Least squares)法圖解法圖解372021-12-21Y Y(Y的估計值)= a + bX= a + bXi Yi尋找使尋找使S(S(殘差殘差i i)

19、)2 2 最小的直線最小的直線 估計值估計值i iiY殘差殘差i i= =Y Yi i估計值估計值i iiY382021-12-21222-XXlXXXXnXYXYXXYYXYnl=aYbX2XYXXXXY YllXXb392021-12-21例例1 1 在腦血管疾病的診斷治療中,腦脊液白細胞介素在腦血管疾病的診斷治療中,腦脊液白細胞介素-6-6(IL-6IL-6)水平是影響診斷與預后分析的一項重要指標,但腦)水平是影響診斷與預后分析的一項重要指標,但腦脊液在臨床上有時又不容易采集到。某醫(yī)生欲了解急性腦血脊液在臨床上有時又不容易采集到。某醫(yī)生欲了解急性腦血管病病人血清管病病人血清IL-6(pg

20、/ml)IL-6(pg/ml)與腦脊液與腦脊液IL-6 (pg/ml)IL-6 (pg/ml)水平,隨機水平,隨機抽取了某醫(yī)院確診的抽取了某醫(yī)院確診的1010例例蛛網膜下腔出血(蛛網膜下腔出血(SAHSAH)患者患者2424小時小時內血清內血清IL-6IL-6和腦脊液和腦脊液IL-6IL-6數(shù)據如表數(shù)據如表2 2,問,問SAHSAH患者血清患者血清IL-6IL-6和和腦脊液腦脊液IL-6IL-6間是否有直線相關關系存在?間是否有直線相關關系存在?402021-12-21例例1 1 進行回歸分析進行回歸分析 患者號患者號血清血清IL-6腦脊液腦脊液IL-6122.4134.0251.6167.0

21、358.1132.3425.180.2565.9100.0679.7139.1775.3187.2832.497.2996.4192.31085.7199.4表表2 SAH2 SAH患者血清和腦脊液患者血清和腦脊液IL-6(pg/ml)IL-6(pg/ml)檢測結果檢測結果412021-12-211 1、繪制散點圖:、繪制散點圖:2 2、計算:、計算:XXYYXYXYlll、 、 、患者號患者號血清血清IL-6腦脊液腦脊液IL-6122.4134.0251.6167.0358.1132.3425.180.2565.9100.0679.7139.1775.3187.2832.497.2996.4

22、192.31085.7199.4422021-12-21表表2 SAH2 SAH患者血清和腦脊液患者血清和腦脊液IL-6(pg/ml)IL-6(pg/ml)檢測結果檢測結果XY592.61428.702Y41222.422036.472XXY91866.4622.4134.0. X Y59.26142.876104.66416242.1017201.698XXYYXYXYlll432021-12-212 2、計算:、計算:XXYYXYXYlll、 、442021-12-21aYbX=72.9610XYXXbll=1.17973 3、求回歸系數(shù)、求回歸系數(shù)b b和截距和截距a a :452021

23、-12-214.4.列出回歸方程:列出回歸方程:Y = 72.96 + 1.18X462021-12-21v 1. 1. 斜率斜率 ( (b b) ) 當當X X每增加每增加1 1個單位時,個單位時, Y Y改變改變b b個單位個單位 本例本例b b=1.1797=1.1797,表明在所研究對象范圍內,血清,表明在所研究對象范圍內,血清IL-6IL-6每增加每增加1pg/ml1pg/ml,腦脊液,腦脊液IL-6IL-6增加增加1.1797pg/ml 1.1797pg/ml v 2. Y2. Y的截距的截距 (a)(a) x=0 x=0時時Y Y的平均值的平均值 本例本例a a72.9672.9

24、6,表示血清,表示血清IL-6IL-6為為0 0時,腦脊液時,腦脊液IL-6IL-6期望值為期望值為72.96pg/ml72.96pg/ml (注意有時這種解釋無實際意義)(注意有時這種解釋無實際意義)回歸方程中回歸方程中a a、b b的解釋的解釋472021-12-21 編號編號 體重體重(kgkg) 肺活量肺活量 (L L) 1 1 42 2.55 2 2 42 2.2 3 3 46 2.75 4 4 46 2.4 5 5 46 2.8 6 6 50 2.81 7 7 50 3.41 8 8 50 3.1 9 52 3.46 1010 52 2.85 1111 58 3.5 1212 58

25、 3 表表3 123 12名一年級女大學生體重與肺活量名一年級女大學生體重與肺活量例例2 2: 某地一年級某地一年級1212名女大學生的體重與肺活量數(shù)據如下,名女大學生的體重與肺活量數(shù)據如下,試分析肺活量與體重關系試分析肺活量與體重關系482021-12-211 1、繪制散點圖:、繪制散點圖:2.2.計算計算XXXYYXY、Y、l 、l 、l49.332.9025306.66671.889218.04xxyyxyXYlll492021-12-212.2.計算計算XXYYXYXYlll、 、502021-12-21 0.000419aYbX0.058826xyxxbll3 3、求回歸系數(shù)、求回歸

26、系數(shù)b b和截距和截距a a:512021-12-214.4.列出回歸方程:列出回歸方程:Y=0.000419+0.058826X三、三、直線回歸中的統(tǒng)計推斷直線回歸中的統(tǒng)計推斷(一)、回歸方程的假設檢驗 方差分析 t檢驗522021-12-21532021-12-21回歸系數(shù)的假設檢驗:方差分析法回歸系數(shù)的假設檢驗:方差分析法方差分析的基本思想:方差分析的基本思想: 把總的離均差平方和把總的離均差平方和( (即總變異即總變異) )分解為至少兩個部分分解為至少兩個部分,其中有一部分表示處理因素的效應,有一部分表示抽,其中有一部分表示處理因素的效應,有一部分表示抽樣誤差的影響,然后比較兩者的均方

27、,計算樣誤差的影響,然后比較兩者的均方,計算F F值,若值,若F F值值遠大于遠大于1 1,可認為處理有效應,否則認為處理無效應。,可認為處理有效應,否則認為處理無效應。542021-12-21應變量應變量Y Y的離均差平方和的分解的離均差平方和的分解Y YY YYY YY- -Y YY YX XY YQYabx(X,Y)()XY,(,)X Y552021-12-21應變量應變量Y Y的離均差平方和的分解的離均差平方和的分解SS總總 = SS回回 + SS殘殘)YYYYYY()(22()YYYYYY()(22()()( - )YYYYY Y2562021-12-21幾個平方和的意義幾個平方和的

28、意義1. SS總總 即即 ,為,為Y Y的總離均差平方和,表示未的總離均差平方和,表示未考慮考慮X X與與Y Y的回歸關系時,的回歸關系時,Y Y的總變異。的總變異。 2()YY2)(YY3. SS殘殘 即即 ,為殘差平方和,為殘差平方和(residual sum of squares)x對對Y的線性影響之外的一切因素對的線性影響之外的一切因素對Y的變異,即總變異中,的變異,即總變異中,無法用無法用x解釋的部分。解釋的部分。SS殘殘越小,回歸效果越好越小,回歸效果越好。2)(YY2. SS回回,即,即 ,為回歸平方和,為回歸平方和(regression sum of squares) 由于由于

29、x與與Y的直線關系而使的直線關系而使Y變異減小的部分變異減小的部分,即總變異中,即總變異中,可可 以用以用Y與與X直線關系解釋的部分直線關系解釋的部分。SS回回越大,回歸效果越好。越大,回歸效果越好。 572021-12-21回歸系數(shù)的方差分析回歸系數(shù)的方差分析582021-12-21例例3 3對例對例1 1建立的回歸方程的回歸系數(shù)進行假設檢驗建立的回歸方程的回歸系數(shù)進行假設檢驗 H H0 0:=0=0 H H1 1:00 =0.05 =0.05 計算統(tǒng)計量計算統(tǒng)計量F F,求得求得概率值概率值P P 做出推斷:做出推斷:592021-12-21回歸系數(shù)方差分析表回歸系數(shù)方差分析表變異來源變異

30、來源SSDFMSFP回回 歸歸8495.873718495.87378.77420.018剩剩 余余7746.22738968.2784總變異總變異16242.10109回歸系數(shù)的假設檢驗:回歸系數(shù)的假設檢驗: t檢驗法檢驗法0bbSbt.2()Y XY Xxxbxlxsss602021-12-21其中其中S SY.XY.X為回歸的剩余標準差,表示去除為回歸的剩余標準差,表示去除X X影響影響后后Y Y的變異大小的變異大小 = n-2= n-22.2()2()XYY XYYXXY YnlYYlls612021-12-21 剩余(殘差)標準差剩余(殘差)標準差 SY.X22.222Y Xy xY

31、YSSSMSnnn剩剩殘差=度量了實際散點遠離回歸直線的離散程度,反度量了實際散點遠離回歸直線的離散程度,反映了模型的可靠性映了模型的可靠性; ;越小模型越好。越小模型越好。 注意: 1.對回歸系數(shù)的假設檢驗可用方差分析和t檢驗,兩種檢驗是完全等價的,即 622021-12-21tF632021-12-21直線回歸方程的圖示直線回歸方程的圖示 在自變量在自變量X X的的實測范圍內實測范圍內任取相距較遠且易讀數(shù)的兩任取相距較遠且易讀數(shù)的兩X X值值代入回歸方程求得兩點坐標、連線即得其回歸直線。代入回歸方程求得兩點坐標、連線即得其回歸直線。注意:注意:1.1.回歸直線不應超出回歸直線不應超出x x

32、的實測值范圍的實測值范圍 2.2.所繪回歸直線必然通過所繪回歸直線必然通過 3.3.將直線的左端延長與縱軸交點縱坐標必等于截距將直線的左端延長與縱軸交點縱坐標必等于截距a,a,據此可判斷所繪圖形是否正確。據此可判斷所繪圖形是否正確。 (,)X Y(二) 總體回歸系數(shù) 的可信區(qū)間642021-12-21/2,.2.()2bY XbxxY XbtssslYYsn652021-12-21(二)總體回歸系數(shù)(二)總體回歸系數(shù) 的可信區(qū)間的可信區(qū)間樣本回歸系數(shù)的標準誤樣本回歸系數(shù)的標準誤殘差標準差殘差標準差 SY.X為為Y的殘差標準差的殘差標準差扣除扣除X的影響后的影響后Y的變異程度。的變異程度。662

33、021-12-21(三)(三) 利用回歸方程進行估計與預測利用回歸方程進行估計與預測000/2,20.2()11()YYY XYtSXXSSnXX672021-12-212 2、個體、個體Y Y值的預測區(qū)間值的預測區(qū)間總體中,總體中,X X為一定值為一定值X X0 0時,個體時,個體Y Y值的波動范圍值的波動范圍S SY Y是是x x取定值時,個體取定值時,個體Y Y值的標準差值的標準差(三)(三) 利用回歸方程進行估計與預測利用回歸方程進行估計與預測當X=X0時,相應Y的均數(shù)的可信區(qū)間表示在固定的X0處,反復抽樣100次,可算得100個相應Y的總體均數(shù)的可信區(qū)間,平均有95個可信區(qū)間包含總體

34、均數(shù)。當X=X0時,其個體Y值的預測區(qū)間是一個預測值的取值范圍,即平均有95%個體在此范圍內682021-12-21692021-12-21第二節(jié)第二節(jié) 直線相關直線相關一、直線相關的概念一、直線相關的概念二、相關系數(shù)的意義與計算二、相關系數(shù)的意義與計算三、相關系數(shù)的統(tǒng)計推斷三、相關系數(shù)的統(tǒng)計推斷(linear correlation)702021-12-21一、直線相關的概念一、直線相關的概念 直線相關分析直線相關分析: :描述兩變量間是否有直線關系以及直線描述兩變量間是否有直線關系以及直線關系的關系的方向方向和和密切程度密切程度的分析方法。的分析方法。 條件:兩變量(條件:兩變量(X,YX

35、,Y)都是來自正態(tài)分布的隨機變量。)都是來自正態(tài)分布的隨機變量。 在1926年美國經濟學家喬治泰勒(George Taylor)創(chuàng)造了裙擺指數(shù)理論v所謂裙擺理論,就是指在經濟的繁榮程度和女性的裙擺長度成正比例關系。簡單通俗的說就是:經濟繁榮時代,女性的裙擺會越來越短;經濟一旦進入衰退,短裙則隨之變成長裙。 http:/ v 年輕女性通過裙擺的高度來反映她們的生活態(tài)度。經濟繁榮,女性樂觀而自信,愿意展示自己美好的身體,而自家庭預算中劃分出添置一條迷你裙徹底的奢侈品的錢,不存在任何困難;經濟不景氣,女性失去了自由自在的心情,包裹式的長裙給她們以安全感,說到家庭預算,如果必須添置新衣,那只能是實用的

36、,可以在很多場合出現(xiàn)的長裙。 小腿一瞥會給人一種獨立感和信心;掃帚裙子則是謙小腿一瞥會給人一種獨立感和信心;掃帚裙子則是謙遜和樸素的跡象。遜和樸素的跡象。v 而現(xiàn)在,要在具有個性化特征的中國通過觀察女性裙擺長度來判斷股市更是難上加難,那些前衛(wèi)的女孩你根本不知道她們穿的是什么,進一步說,對于好多前衛(wèi)女生,你連她是男是女也分不清。 762021-12-21直線相關示意圖直線相關示意圖r =1完全正相關完全正相關r = -1完全負相關完全負相關-1 r 0負相關負相關0 r 1正相關正相關 散點在一條直線上,散點在一條直線上, x x、Y Y 變化趨勢相同變化趨勢相同-完全正相關完全正相關; ; 反

37、向變化反向變化-完全負相關。完全負相關。散點呈橢圓形分布,散點呈橢圓形分布,X X、Y Y 同時增減同時增減-正相關正相關(positive correlation)positive correlation) X X、Y Y 此增彼減此增彼減-負相關負相關(negative correlation)(negative correlation)772021-12-21零相關零相關r = 0 非線性相關非線性相關r = 0直線相關示意圖直線相關示意圖零相關零相關r = 0零相關零相關r = 0X X、Y Y變化互不影響或無直變化互不影響或無直線相關關系線相關關系-零相關零相關 (zero corr

38、elation)(zero correlation)782021-12-21二、相關系數(shù)的意義與計算二、相關系數(shù)的意義與計算 直線相關系數(shù)直線相關系數(shù):又稱:又稱pearsonpearson積差相關系數(shù),是說積差相關系數(shù),是說明具有直線關系的兩變量間相關的密切程度與相明具有直線關系的兩變量間相關的密切程度與相關方向的指標。關方向的指標。 r -r -樣本相關系數(shù)樣本相關系數(shù) -總體相關系數(shù)總體相關系數(shù) 22xyxx yyxylxxyyrl lxxyyxylxxyyxyn792021-12-21二、相關系數(shù)的意義與計算二、相關系數(shù)的意義與計算r無單位,無單位,-1 r 1。r 值為正值為正 正相

39、關,正相關, 為負為負 負相關;負相關;|r|=1 完全相關,完全相關,|r|=0 零相關。零相關?;颊咛柣颊咛栄逖錓L-6腦脊液腦脊液IL-6122.4134.0251.6167.0358.1132.3425.180.2565.9100.0679.7139.1775.3187.2832.497.2996.4192.31085.7199.4802021-12-21表表2 SAH2 SAH患者血清和腦脊液患者血清和腦脊液IL-6(pg/ml)IL-6(pg/ml)檢測結果檢測結果812021-12-21直線相關分析步驟直線相關分析步驟1 1、繪制散點圖:、繪制散點圖:患者號患者號血清血清IL

40、-6腦脊液腦脊液IL-6122.4134.0251.6167.0358.1132.3425.180.2565.9100.0679.7139.1775.3187.2832.497.2996.4192.31085.7199.4822021-12-21表表2 SAH2 SAH患者血清和腦脊液患者血清和腦脊液IL-6(pg/ml)IL-6(pg/ml)檢測結果檢測結果xy592.61428.702y41222.422036.472xxy91866.46x.y22.4134.0. 222()() /22036.47 1428.70 /1016242.101yylyyyyn()()()()/91866.4

41、6592.6 1428.77201.698xylyyxxxyxyn832021-12-212 2、計算:、計算:222()() /41222.14592.6 /106104.664xxlxxxxn7201.6980.72326104.664 16242.101xyxx yylrl l樣本相關系數(shù)與樣本量樣本相關系數(shù)與樣本量 樣本相關系數(shù)r的大小與樣本量有關。 特別n=2,當兩個點的連線不平行與橫軸和縱軸時,r1或r=1。 樣本相關系數(shù)大小不能直接評價兩個變量之間的相關性。 通常研究者首先關心的是0 ?842021-12-21三、相關系數(shù)的統(tǒng)計推斷三、相關系數(shù)的統(tǒng)計推斷852021-12-21(

42、一)相關系數(shù)的假設檢驗(一)相關系數(shù)的假設檢驗 1 1、t t 檢驗檢驗 2 2、查表法、查表法三、相關系數(shù)的統(tǒng)計推斷三、相關系數(shù)的統(tǒng)計推斷20212rrrrtnSrnSr,為相關系數(shù) 的標準誤862021-12-211 1、t t 檢驗檢驗檢驗統(tǒng)計量檢驗統(tǒng)計量對于同一資料,對于同一資料,tbtr,檢驗完全等價,檢驗完全等價r0原因: 由于抽樣誤差引起, =0 存在相關關系, 0872021-12-21例例1 1 SAH SAH患者血清患者血清IL-6IL-6和腦脊液和腦脊液IL-6IL-6間相關系間相關系數(shù)的假設檢驗步驟:數(shù)的假設檢驗步驟:H H0 0 : =0 =0 即即SAHSAH患者血

43、清患者血清IL-6IL-6和腦脊液和腦脊液IL-6IL-6間無直線相關關系間無直線相關關系H H1 1 : 0 0即即SAHSAH患者血清患者血清IL-6IL-6和腦脊液和腦脊液IL-6IL-6間有直線相關關系間有直線相關關系 =0.05=0.052200.72322.96211 0.72322102rrrtSrn882021-12-21 r=0.7232, n=10, r=0.7232, n=10, 代入公式代入公式 計算得計算得 根據根據 =10-2=8=10-2=8查查t t界值表得界值表得0.010.01 P 0.02 P 0.02,按,按 =0.05=0.05的檢驗水準,拒絕的檢驗水

44、準,拒絕H H0 0,接受,接受H H1 1 ,可認為,可認為SAHSAH患者血清患者血清IL-6IL-6和腦脊液和腦脊液IL-6IL-6間有直線相關關系間有直線相關關系三、相關系數(shù)的統(tǒng)計推斷三、相關系數(shù)的統(tǒng)計推斷892021-12-212 2、查表法、查表法 根據根據r r值及值及 =n-2=n-2查附表查附表13(P13(P828828) ) 相關系數(shù)相關系數(shù)r r界值表界值表 r=0.7232r=0.7232, =8=8查查r r界值表得界值表得 r r0.05/2,80.05/2,8= 0.632, r= 0.632, r0.02/2,80.02/2,8=0.715=0.715, r

45、r0.01/2,80.01/2,8=0.765=0.765, 所以所以 0.010.01 P P 0.020.02 ,按,按 =0.05=0.05的檢驗水準,拒絕的檢驗水準,拒絕H H0 0,接,接受受H H1 1 ,可認為體重指數(shù)和收縮壓之間存在正相關關系。,可認為體重指數(shù)和收縮壓之間存在正相關關系。r:呈非正態(tài)分布,必須作正態(tài)變換:902021-12-21111tanhln21rZrZr或(二)總體相關系數(shù)的可信區(qū)間(二)總體相關系數(shù)的可信區(qū)間221tanh1zzerZre或912021-12-21Z的總體均數(shù)的100(1-)%可信區(qū)間:/2/3Z un922021-12-21-10.91

46、tanh0.911.5334rZr例、例、 根據體重指數(shù)和收縮壓間樣本相關系數(shù)根據體重指數(shù)和收縮壓間樣本相關系數(shù)r=0.91,求總體,求總體相關系數(shù)相關系數(shù) 的的95%可信區(qū)間可信區(qū)間932021-12-21/2/31.5334 1.96/ 16 30.98982.0770ZuntanhrZtanh0.9898 tanh2.0770=0.760.97總體相關系數(shù)總體相關系數(shù) 的的95%CI: (0.76, 0.97 )四四 決定系數(shù)決定系數(shù)v*決定系數(shù)(coefficient of determination):回歸平方和與總的離均差平方和平方和之比v 相關系數(shù)的平方r2,數(shù)值大小反映了回歸貢

47、獻的相對程度,即應變量Y的總變異中可用回歸關系解釋的百分比。v SS總不變,SS回大小決定了相關系數(shù)r絕對值大小, SS回越接近SS總,r絕對值越接近1,說明相關的實際效果越好。22XYXX YYsslRssll回總942021-12-21四四 決定系數(shù)決定系數(shù)v*決定系數(shù)(coefficient of determination):v對直線回歸的擬合優(yōu)度檢驗等價于對總體回歸系數(shù)的假設檢驗,其952021-12-21212212(1)/(2rSSMSRFnRSSMSnFt回回殘殘殘,)962021-12-21五五 直線回歸與相關應用的注意事項直線回歸與相關應用的注意事項(1 1)根據分析目的選

48、擇變量及統(tǒng)計方法)根據分析目的選擇變量及統(tǒng)計方法(2 2)進行相關、回歸分析前應繪制散點圖;)進行相關、回歸分析前應繪制散點圖;(3 3)用)用殘差圖殘差圖考察數(shù)據是否符合模型的假設條件(考察數(shù)據是否符合模型的假設條件(P P196196)(4 4)結果的解釋及正確應用)結果的解釋及正確應用972021-12-21直線相關與回歸的區(qū)別與聯(lián)系直線相關與回歸的區(qū)別與聯(lián)系區(qū)別:區(qū)別: 1. 1. 資料要求不同。資料要求不同。 直線回歸要求應變量直線回歸要求應變量Y Y服從正態(tài)分布,服從正態(tài)分布,X X可以是精確測量和嚴格控制的可以是精確測量和嚴格控制的變量,一般稱為變量,一般稱為型回歸;直線相關要求

49、兩個變量型回歸;直線相關要求兩個變量X X、Y Y服從雙變量正態(tài)分服從雙變量正態(tài)分布,這種資料若要進行回歸分析稱為布,這種資料若要進行回歸分析稱為型回歸。型回歸。 2.2.應用情況不同:應用情況不同:直線回歸說明兩變量間依存變化的數(shù)量關系,直線相關則是說明兩變量的相直線回歸說明兩變量間依存變化的數(shù)量關系,直線相關則是說明兩變量的相關關系關關系 3. r3. r與與b b有區(qū)別;有區(qū)別; 1 1). . 取值范圍不同:取值范圍不同: -1-1r r 1, +b-1, +b- 2 2). . 意義不同意義不同:r:r說明具有直線關系的兩個變量間關系的密切程度與說明具有直線關系的兩個變量間關系的密切程度與相關方向相關方向; b; b表示表示X X每改變一個單位,每改變一個單位,Y Y平均改變平均改變b b個單位。個單位。 3 3)回歸系數(shù)與原度量單位有關,而相關系數(shù)無單位)回歸系數(shù)與原度量單位有關,而相關系數(shù)無單位 22xyxx yylssrssl l回總982021-12-211. 1. r r與與b b正負號一致:正負號一致: r r為正時,為正時,b b也為正,表示兩變量是正相關,是同向變化。也為正,表示兩變量是正相關,是同向變化。r r為負時,為負時,b b也為負,表示兩變量是負相關,是反向變化。也為負,表

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論