第十三、十四章 直線相關(guān)與回歸分析(11講).ppt_第1頁
第十三、十四章 直線相關(guān)與回歸分析(11講).ppt_第2頁
第十三、十四章 直線相關(guān)與回歸分析(11講).ppt_第3頁
第十三、十四章 直線相關(guān)與回歸分析(11講).ppt_第4頁
第十三、十四章 直線相關(guān)與回歸分析(11講).ppt_第5頁
已閱讀5頁,還剩50頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、2020/10/10,1,第十三、十四章 直線相關(guān)與回歸,景學安,2020/10/10,2,學習要點 1.掌握相關(guān)系數(shù)的意義、計算和假設檢驗 2.掌握回歸系數(shù)的意義、計算和假設檢驗 3.直線相關(guān)與回歸分析時應注意的問題,2020/10/10,3,學習要求 了解:散點圖的相關(guān)性意義;直線回歸分析的應用。 熟悉:秩相關(guān)的意義和Spearman秩相關(guān)系數(shù)的計算方法。 掌握:直線相關(guān)和回歸的意義和資料使用條件;相關(guān)系數(shù)和回歸系數(shù)計算方法和假設檢驗的方法;相關(guān)與回歸分析的聯(lián)系與區(qū)別。,2020/10/10,4,在醫(yī)學研究中,常會有兩個變量之間相互聯(lián)系、相互影響,在數(shù)量上存在互相協(xié)同變化的關(guān)系,如年齡與血

2、壓、身高與體重、藥物劑量與動物死亡率、血鉛值與尿鉛值等。統(tǒng)計學常用相關(guān)與回歸來分析此類關(guān)系。 第一節(jié) 直線相關(guān)分析 當兩個變量(x,y)在數(shù)量上的協(xié)同變化呈直線趨勢時則稱為直線相關(guān)(linear correlation),又稱簡單相關(guān)(simple correlation),用于分析雙變量正態(tài)分布資料。表示兩變量相關(guān)關(guān)系的重要指標就是相關(guān)系數(shù)。,2020/10/10,5,一、相關(guān)系數(shù)的意義 直線相關(guān)系數(shù)(linear correlation coefficient)又稱為Pearson積距相關(guān)系數(shù),用符號r表示。它描述兩變量間直線相關(guān)關(guān)系的密切程度和相關(guān)方向。r值的范圍為:1r1,當r0時,為

3、正相關(guān),r=1為完全正相關(guān);當r0時,為負相關(guān),r=-1為完全負相關(guān)。當r愈接近1,表示兩變量的相關(guān)愈密切;當r愈接近0時,表示兩變量相關(guān)程度愈低;當r0時,稱為零相關(guān),表示兩變量無直線相關(guān)關(guān)系,見示意圖13.2。,2020/10/10,6,圖13.2 相關(guān)系數(shù)示意,2020/10/10,7,一般認為,當樣本含量較大的情況下(n100),大致可按下列標準估計兩變量相關(guān)的程度:當r0.7時為高度相關(guān);當0.7r0.4時為中度相關(guān);當0.4r0.2時為低度相關(guān)。 二、相關(guān)系數(shù)的計算 相關(guān)系數(shù)r的計算公式:,2020/10/10,8,. .,. .,.,. .,. .,.,.,. .,. .,. .

4、,.,. .,.,. .,.,2020/10/10,9,例13.1 某醫(yī)師測量了15名正常成年男子的體重(kg)與CT雙腎體積(mL)大小,數(shù)據(jù)見表13.1所示。問體重與雙腎體積之間有無直線相關(guān)關(guān)系?,2020/10/10,10,表13.1 15名正常成年人體重和雙腎體積的測量值,計算步驟: 1.由原始數(shù)據(jù)繪制散點圖13.1,本資料呈直線相關(guān)趨勢。,2020/10/10,11,圖13.1 15名正常成年人體重和雙腎體積的散點圖,2020/10/10,12,2.根據(jù)表13.1原始數(shù)據(jù)計算出x,y,x2,y2,xy。 本例x893,y3991.56,x255719,y21082440.577,xy

5、243931.91。 3.計算X、Y的離均差平方和與離均差積和,2020/10/10,13,4.求相關(guān)系數(shù)r,三、相關(guān)系數(shù)的檢驗假設 上面所求相關(guān)系數(shù)r為樣本相關(guān)系數(shù),是總體相關(guān)系數(shù)的估計值,要判斷 x與y間是否有相關(guān)關(guān)系就要檢驗r是否來自總體相關(guān)系數(shù)為零的總體。因為有抽樣誤差,即使在0的總體中隨機抽樣,r值也不一定等于零。因此計算出r值,要進行統(tǒng)計學檢驗。常用的方法為t檢驗。另外也可以直接查r界值表,確定P值。,2020/10/10,14,1. t檢驗法 t檢驗的計算公式,自由度n2,式中:Sr為相關(guān)系數(shù)的標準誤,n為樣本含量。,2020/10/10,15,例13.2 對例13.1資料所得r

6、=0.875,檢驗體重與雙腎重量之間是否有直線相關(guān)關(guān)系。 (1)建立檢驗假設,確定檢驗水準 H0:0 ,兩變量間無直線相關(guān)關(guān)系。 H1:0 ,兩變量間有直線相關(guān)關(guān)系。 0.05。 (2)計算t值 本例n=15 , r=0.875,2020/10/10,16,(3)確定P值,作出推斷結(jié)論 按n-2=13查t界值表,得 P0.001,按0.05水準,拒絕Ho,接受H1,相關(guān)系數(shù)有統(tǒng)計學意義,可認為體重和雙腎體積之間有直線相關(guān)關(guān)系。 2.查表法 查附表14, 相關(guān)系數(shù)界值表。按自由度n-2查r界值表,當r 時,則P;反之,r 時,則P。本例r0.875,r0.001(13)0.760 ,rr0.00

7、1(13), 則P0.001。檢驗結(jié)果與t檢驗相同。,2020/10/10,17,第二節(jié) 秩相關(guān) 前面所述直線相關(guān)分析適用于雙變量為正態(tài)分布的資料,在實際工作中,常遇到有些資料并不呈正態(tài)分布,對于此類資料就不宜用上述所講的直線相關(guān)分析,而常用秩相關(guān)處理資料。秩相關(guān)(rank correlation)亦稱為等級相關(guān),適用于分布類型不明的資料、偏態(tài)分布資料和等級資料的相關(guān)分析。本節(jié)主要介紹Spearman秩相關(guān)法,其分析步驟如下:,2020/10/10,18,1. 先將x,y 分別由小到大編秩次,數(shù)字相同時需要求平均秩次; 2.以pi表示xi的秩次,qi表示 yi的秩次,用pi、qi直接代替 x

8、和 y,直接計算Pearson積矩相關(guān)系數(shù)。,2020/10/10,19,3. 根據(jù)n查附表15,rs界值表,確定P值。如rsra,n ,則 P,說明x,y兩變量直線相關(guān)有統(tǒng)計學意義;如rs ra,n ,則 P,說明x,y兩變量直線相關(guān)無統(tǒng)計學意義。 例13.4 某研究者對15例3050歲成年男性的舒張壓(mmHg)與夜間最低血氧含量分級進行研究,結(jié)果見表13.2,試分析兩者的關(guān)聯(lián)性。,2020/10/10,20,表13.2 15例成年男子的舒張壓與夜間最低血氧含量分級測量值,2020/10/10,21,(1)建立檢驗假設,確定檢驗水準 H0:s=0,即舒張壓與夜間最低血氧含量分級無相關(guān)關(guān)系。

9、 H1:s0,即舒張壓與夜間最低血氧含量分級有相關(guān)關(guān)系。 =0.05。 (2)計算秩相關(guān)系數(shù)rs,2020/10/10,22,(3)確定P值,作出推斷結(jié)論 查附表15,rs界值表,n=15,r0.001,15=0.779,現(xiàn)rs r0.001,15,故P0.001。在=0.05水準上,拒絕Ho,接受H1,可以認為舒張壓與夜間最低血氧含量分級之間有正相關(guān)關(guān)系。,2020/10/10,23,第三節(jié) 直線回歸分析 一、直線回歸的概念 在描述兩變量間的關(guān)系時,若散點圖呈直線趨勢或有直線相關(guān)關(guān)系,可進行直線回歸(linear regression)分析。直線回歸分析就是找出一條最能代表這些數(shù)據(jù)關(guān)系的直線

10、方程,以說明兩變量間的依存關(guān)系。習慣上用x作為自變量,y作為因變量,則直線回歸方程為,2020/10/10,24,式中: 為因變量y的估計值,a為回歸直線y軸上的截距,為常數(shù)項;b為回歸系數(shù)即回歸方程的斜率,表示x改變一個單位時y的平均變動量。這與兩變量間嚴格對應的函數(shù)關(guān)系不同。直線回歸是回歸分析中最基本最簡單的一種,故又稱簡單回歸(simple regression)。,x,y,a,0,. . . . . .,. . . .,. .,. . .,. .,2020/10/10,25,二、直線回歸方程的求法 求直線回歸方程 ,關(guān)鍵在于計算a,b兩個系數(shù),根據(jù)數(shù)學上的最小二乘法原理,即保證各實測點

11、至回歸直線的縱向距離的平方和最小。可得出a,b的計算公式為,2020/10/10,26,例14.1 例13.1 資料,問體重與雙腎體積之間有無直線回歸關(guān)系? 建立回歸方程的具體步驟: 1.繪制兩變量之間的散點圖。見圖13.1,觀察到兩變量呈直線趨勢。 2.求,本例x893,y3991.56,x255719,y21082440.577,xy243931.91。,2020/10/10,27,3. 計算回歸系數(shù)b及截距a。,4.列出回歸方程,5. 繪制回歸直線 在自變量X的實測值范圍,任意指定相距較遠且易讀的兩個數(shù)值,代入直線回歸方程,求出相應的y的估計值,確定兩點,用直線連接即得回歸直線。,202

12、0/10/10,28,本例:x1取40, =219.96,x2取80, =316.56。連接點 (40,219.56)和 (80,316.56)即得回歸直線。,圖13.1 15名正常成年人體重和雙腎體積的散點圖,2020/10/10,29,三、回歸系數(shù)的假設檢驗 前面所述直線回歸方程中,回歸系數(shù)b為樣本回歸系數(shù),假設在總體回歸系數(shù)=0的總體中抽樣,得出樣本的b不一定為0,因此需作總體回歸系數(shù)是否為0的假設檢驗,常用方差分析或t檢驗。 (一)方差分析 其基本原理可以用圖14.1直觀表達,任意點p(x,y)離開過 的水平線的距離 可分成兩段,即,2020/10/10,30,P .,y,x,0,圖1

13、4.1 因變量的離均差平方和分解示意圖,2020/10/10,31,是P點與回歸直線的縱向距離,稱為殘差(residual),反映了x對y的線性影響之外的因素對y的變異作用。 是估計值 與均數(shù) 之差。它的大小與回歸系數(shù)b有關(guān),|b|越大, 也越大;反之亦然。 經(jīng)數(shù)學推導可得下式:,用符號表示為: SS總=SS回+SS殘,2020/10/10,32,SS總為y的總離均差平方和,即不考慮y與x的回歸關(guān)系時y的總變異。 SS回稱為回歸平方和,反映了y的總變異中由于x與y的直線關(guān)系而使y的總變異減少的部分,即在y的總變異中可以用x解釋的部分, SS回越大,說明回歸效果越好。 SS殘稱為殘差平方和,反映

14、了x對y的線性影響之外的因素對y的變異作用。 SS殘= SS總- SS回。 上述三項自由度為:總=n-1, 回=1, 殘=n-2, 總= 回+ 殘,2020/10/10,33,利用方差分析的原理,計算檢驗統(tǒng)計量F值:,MS回越大,MS殘越小,F(xiàn)值越大,即越有理由拒絕=0的無效假設,反之亦然。 實際計算時:,2020/10/10,34,例14.2 試用方差分析對例13.1資料的樣本回歸方程作假設檢驗。 (1)建立檢驗假設,確定檢驗水準 H0:0 ,體重和雙腎體積之間無直線回歸關(guān)系。 H1:0 ,體重和雙腎體積之間有直線回歸關(guān)系。 =0.05。 (2)計算檢驗統(tǒng)計量,2020/10/10,35,(

15、3)確定P值,作出推斷結(jié)論 1=回=1,2=殘=n-2=13,查附表4,F(xiàn)界值表, F0.01(1,13)=9.07,現(xiàn)F F0.01(1,13),即P0.01。在=0.05水準上,拒絕H0,接受H1,回歸方程有統(tǒng)計學意義,可以認為正常成年人體重和雙腎體積之間有直線回歸關(guān)系。,2020/10/10,36,表14.2 直線回歸的方差分析表,(二)t檢驗,,=n-2,式中,Sb為b的標準誤;Sy.x為剩余標準差,是指扣除x對y的影響后,y對于回歸直線的離散程度。,2020/10/10,37,例14.3 試用t檢驗對例13.1資料的樣本回歸方程作假設檢驗。 (1)建立檢驗假設,確定檢驗水準 H0:0

16、 ,體重和雙腎體積之間無直線回歸關(guān)系。 H1:0 ,體重和雙腎體積之間有直線回歸關(guān)系。 =0.05。 (2)計算tb值,2020/10/10,38,(3)確定P值,作出推斷結(jié)論 =n-2=15-2=13,查附表3,t界值表,得P0.001。在=0.05水準上,拒絕H0,接受H1,回歸方程有統(tǒng)計學意義,可以認為正常成年人體重和雙腎體積之間有直線回歸關(guān)系。 方差分析和t檢驗的關(guān)系為: ,如本例6.530= 。所以對同一資料,方差分析和t檢驗假設檢驗的結(jié)論是一致的。,2020/10/10,39,四、總體回歸系數(shù)的置信區(qū)間 樣本回歸系數(shù)b是總體回歸系數(shù)點估計值, 雙側(cè)(1-)的置信區(qū)間可由下式計算,例

17、14.4 計算例13.1資料的總體回歸系數(shù)的95%置信區(qū)間。 b=2.465,Sb=0.3775,t0.05/2,13=2.160, (2.465-2.1600.3775 , 2.465+2.1600.3775)=(1.650,3.280) 該區(qū)間不包括0,說明和回歸系數(shù)假設檢驗的結(jié)論是一致的。,2020/10/10,40,五、決定系數(shù),R2取值在0到1之間,且無單位。它反映了回歸貢獻的相對程度,即在因變量y的總變異中回歸關(guān)系所能解釋的比例。 例如在例13.1資料,SS回= 15534.927,SS總=20270.495,,說明成年男性體重信息可以解釋雙腎體積變異的76.64%,還有剩余的23

18、.36%的信息則通過體重以外的因素來解釋。,2020/10/10,41,六、直線回歸分析的應用 (一) 總體均數(shù)的置信區(qū)間 在直線回歸方程的計算中,給定的xi算出的 只是總體均數(shù) 點估計值。由于抽樣誤差的存在, 是有波動的。其抽樣誤差的標準誤計算公式為:,的雙側(cè)(1-)置信區(qū)間為:,2020/10/10,42,本書例14.1成年男性腰圍與腹腔內(nèi)脂肪面積的研究中,回歸方程為,已算出Sy.x=13.03535,lxx=950.778, =90.990,x1=81.3,代入上式計算,2020/10/10,43,當=0.05時,t0.05/2,18=2.101, 則 的95%置信區(qū)間為 75.1939

19、72.1015.0276=(64.63,85.76) 用同樣的方式計算出每個xi對應的 置信區(qū)間,以x為橫坐標,y為縱坐標,將置信區(qū)間的上下限分別連接起來形成兩條弧形線間的區(qū)域稱為回歸直線的置信帶(confidence band)。 由上述因變量總體均數(shù)標準誤計算公式看出,當xi= 時,標準誤達到最小值 ,其對應的置信帶最窄,越遠離該均數(shù)點,置信帶寬度越大。,2020/10/10,44,圖14.3 總體均數(shù) 置信區(qū)間和個體y值的預測區(qū)間,2020/10/10,45,(二) 因變量個體y值的預測區(qū)間 利用回歸方程進行預測是回歸方程的重要應用。也就是將已知自變量x代入直線回歸方程,可得到應變量y的

20、估計值 。 對于給定的xi,計算得 只是y的均值,y的預測值也存在波動范圍,其標準差為Sy|xi,按下式計算:,x=xi時個體y值的雙側(cè)(1-)預測區(qū)間為,2020/10/10,46,仍以例14.1資料x1=81.3 為例,其預測值y的標準差為,y1 值的95%預測區(qū)間為,用同樣的方式計算出每個xi對應的yi值 95%預測區(qū)間,以x為橫坐標,y為縱坐標,將預測區(qū)間的上下限分別連接起來形成兩條弧形線間的區(qū)域稱為y值的預測帶(prediction interval)。,2020/10/10,47,(三)利用回歸方程進行統(tǒng)計控制 統(tǒng)計控制(statistical control)是利用回歸方程進行逆

21、估計,即要求應變量y值在一定范圍內(nèi)波動,進一步來得到自變量x的取值,然后通過x取值來控制y的變化。 例 在硝酸鈉的溶解實驗中,測得在不同溫度()x下,溶解于100份水中的硝酸鈉份數(shù)y的數(shù)據(jù)見下表。若要求溶解于100份水中的硝酸鈉份數(shù)在80份以上,溫度如何控制?(設=0.05),2020/10/10,48,表 不同溫度下溶解于100份水中的硝酸鈉份數(shù),由原始數(shù)據(jù)計算可知:,=0.05,=9-2=7,單側(cè)t0.05,7=1.895。本例要求溶解于100份水中的硝酸鈉份數(shù)y在80份以上,對應于個體y值的95%預測區(qū)間單側(cè)下限值為:,2020/10/10,49,當 =80時,通過上式解得xi=16.56(),即把溫度控制在16.56以上,就有95%的可能是溶解于100份水中的硝酸鈉分數(shù)控制在80份以上。 第四節(jié) 進行直線相關(guān)與回歸分析時應注意的問題 (一)作相關(guān)回歸分析要有實際意義。不要把毫無聯(lián)系的兩種現(xiàn)象作相關(guān)回歸分析。,2020/10/10,50,(二)相關(guān)關(guān)系不一定是因果關(guān)系,也可能是伴隨關(guān)系。當事物間的內(nèi)在聯(lián)系尚未被認識時,相關(guān)分析可為理論研究提供依據(jù)。 (三)在進行直線相關(guān)與回歸分析之前,應先繪制散點圖。當

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論