第9章 回歸與相關(guān)_第1頁
第9章 回歸與相關(guān)_第2頁
第9章 回歸與相關(guān)_第3頁
第9章 回歸與相關(guān)_第4頁
第9章 回歸與相關(guān)_第5頁
已閱讀5頁,還剩48頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第九章第九章 回歸與相關(guān)回歸與相關(guān)n變量間關(guān)系問題:年齡變量間關(guān)系問題:年齡身高、肺活量身高、肺活量體重、藥物劑體重、藥物劑量與動物死亡率等。量與動物死亡率等。n關(guān)系的表現(xiàn)形式關(guān)系的表現(xiàn)形式n確定性形式確定性形式又稱為函數(shù)關(guān)系、因果關(guān)系。又稱為函數(shù)關(guān)系、因果關(guān)系。 如如S=r2n不確定性形式不確定性形式又稱為隨機形式、伴隨關(guān)系。如年齡與血又稱為隨機形式、伴隨關(guān)系。如年齡與血壓,相同年齡血壓不一定相同。壓,相同年齡血壓不一定相同。 在醫(yī)學研究中常需分析變量間的關(guān)系,如血壓與年齡,胰島素與在醫(yī)學研究中常需分析變量間的關(guān)系,如血壓與年齡,胰島素與血糖水平,肺活量與體重?;貧w(血糖水平,肺活量與體重。

2、回歸(regression)與相關(guān)()與相關(guān)(correlation)是研究兩個或多個隨機變量之間相互關(guān)系的一種重要的統(tǒng)計分析方法,是研究兩個或多個隨機變量之間相互關(guān)系的一種重要的統(tǒng)計分析方法,應(yīng)用較廣。應(yīng)用較廣。 回歸是研究隨機變量之間的數(shù)量依存關(guān)系,相關(guān)是研究隨機變量回歸是研究隨機變量之間的數(shù)量依存關(guān)系,相關(guān)是研究隨機變量間相互聯(lián)系的密切程度和方向。間相互聯(lián)系的密切程度和方向。 本章介紹一種最簡單的情形,即只涉及兩個變量,記為本章介紹一種最簡單的情形,即只涉及兩個變量,記為X和和Y,而,而且它們之間呈直線關(guān)系。首先討論直線回歸分析方法,然后討論直線且它們之間呈直線關(guān)系。首先討論直線回歸分析

3、方法,然后討論直線相關(guān)分析方法。相關(guān)分析方法。 第一節(jié)第一節(jié) 直線回歸直線回歸 一、直線回歸方程一、直線回歸方程 例例14-l 為了解年齡與總膽固醇之間的數(shù)量關(guān)系,隨機抽查了為了解年齡與總膽固醇之間的數(shù)量關(guān)系,隨機抽查了20名高血脂病人治療前的總膽固醇水平(名高血脂病人治療前的總膽固醇水平(mmol/L)與年齡,測定值)與年齡,測定值見表見表14-1。試以膽固醇為應(yīng)變量。試以膽固醇為應(yīng)變量Y,年齡為自變量,年齡為自變量X建立直線回歸建立直線回歸方程。方程。 X:自變量(:自變量( independent variable),又稱解釋變量),又稱解釋變量 只有只有1個自變量個自變量簡單回歸簡單回

4、歸 多個自變量多個自變量多元回歸多元回歸 Y:應(yīng)變量(:應(yīng)變量(dependent variable ),又稱反應(yīng)變量),又稱反應(yīng)變量 以以20名高血脂病人治療前的膽固醇與年齡作散點圖名高血脂病人治療前的膽固醇與年齡作散點圖14-1,在描,在描述膽固醇與年齡的數(shù)量關(guān)系時,專業(yè)上將年齡作為自變量,用述膽固醇與年齡的數(shù)量關(guān)系時,專業(yè)上將年齡作為自變量,用X表表示,膽固醇為應(yīng)變量,用示,膽固醇為應(yīng)變量,用Y表示。表示。 由圖由圖14-1可見,膽固醇可見,膽固醇Y有隨年齡有隨年齡X增加而增加的趨勢,且散點增加而增加的趨勢,且散點呈直線趨勢,但并非所有點子都在一條直線上,這與兩變量間嚴呈直線趨勢,但并非

5、所有點子都在一條直線上,這與兩變量間嚴格對應(yīng)的函數(shù)關(guān)系不同,稱為直線回歸。直線回歸分析仍是用直格對應(yīng)的函數(shù)關(guān)系不同,稱為直線回歸。直線回歸分析仍是用直線方程來描述兩變量間的直線關(guān)系。由自變量線方程來描述兩變量間的直線關(guān)系。由自變量X推算應(yīng)變量推算應(yīng)變量Y的直的直線回歸方程為線回歸方程為(14 1)YabX直線回歸方程一般表達式: a:截距:截距(intercept),直線與,直線與Y軸交點的縱坐標。軸交點的縱坐標。b:斜率:斜率(slope),回歸系數(shù),回歸系數(shù)(regression coefficient)。 意義:意義:X每改變一個單位,每改變一個單位,Y平均改變平均改變b個單位。個單位。

6、 b0,Y隨隨X的的增大增大而而增大(減少而減少)增大(減少而減少) 斜上斜上; b t0.05/2(18),故有,故有P0.05。按。按0.05水準拒絕水準拒絕無效假設(shè),故可以認為回歸系數(shù)具有統(tǒng)計學意義,即總體無效假設(shè),故可以認為回歸系數(shù)具有統(tǒng)計學意義,即總體回歸系數(shù)回歸系數(shù)0。以上兩種檢驗結(jié)果一致,均表明血中膽固醇水平與年齡之以上兩種檢驗結(jié)果一致,均表明血中膽固醇水平與年齡之間具有直線關(guān)系。間具有直線關(guān)系。 1.37950.02073216.950bS 四、直線回歸方程的應(yīng)用四、直線回歸方程的應(yīng)用1.統(tǒng)計預測統(tǒng)計預測是指當自變量是指當自變量X為某一定值時,應(yīng)變量為某一定值時,應(yīng)變量Y的取的

7、取值。值。2.統(tǒng)計控制統(tǒng)計控制 是指當要求應(yīng)變量是指當要求應(yīng)變量Y在一定范圍內(nèi)波動時,在一定范圍內(nèi)波動時,如何控制自變量如何控制自變量X的取值。的取值。 例如,為使一名糖尿病人的血糖維持在正常范圍例如,為使一名糖尿病人的血糖維持在正常范圍(4.446.66mmol/L),如何控制血中胰島素水平?這),如何控制血中胰島素水平?這可以通過對回歸方程的逆運算來實現(xiàn)。例如資料已建立了可以通過對回歸方程的逆運算來實現(xiàn)。例如資料已建立了由胰島素估計血糖平均水平的直線回歸方程,問:欲將血由胰島素估計血糖平均水平的直線回歸方程,問:欲將血糖水平控制在正常范圍的上界即糖水平控制在正常范圍的上界即6.66mmol

8、/L以內(nèi)時,血以內(nèi)時,血中胰島素應(yīng)維持在什么水平上?中胰島素應(yīng)維持在什么水平上?已知回歸方程為:已知回歸方程為:,取,取0.05,本例是求當個體本例是求當個體Y值取值取6.66mmol/L時的時的X值,故取值,故取t界界值表的單側(cè)值表的單側(cè)t 0.05(18)1.734,所得方程為,所得方程為 解得解得X32.64(mU/L),即如欲將一名病人的血糖),即如欲將一名病人的血糖控制在控制在6.66mmol/L以內(nèi),胰島素可維持在以內(nèi),胰島素可維持在32.64(mU/L)以上。)以上。18.79570.4585,20,1.6324YYX nS0.05(18)6.66(18.7957 0.4585

9、) 1.734 1.6324 21.6262 0.4585YY tSXX 直線回歸的注意事項n回歸分析要有實際意義回歸分析要有實際意義 只有將兩個具有內(nèi)在只有將兩個具有內(nèi)在聯(lián)系的變量放在一起進行回歸分析才是有意義聯(lián)系的變量放在一起進行回歸分析才是有意義的。的。n因變量是隨機變量,自變量可以是隨機變量因變量是隨機變量,自變量可以是隨機變量(型回歸),也可以是給定的變量(型回歸),也可以是給定的變量(型回型回歸)。歸)。n回歸方程建立后要進行假設(shè)檢驗?;貧w方程建立后要進行假設(shè)檢驗。nX的取值以自變量的取值范圍為限。的取值以自變量的取值范圍為限。 第二節(jié)第二節(jié) 直線相關(guān)直線相關(guān) 欲了解兩個隨機變量欲

10、了解兩個隨機變量X與與Y之間相關(guān)關(guān)系及其之間相關(guān)關(guān)系及其密切程度,可用直線相關(guān)分析方法。直線相關(guān)密切程度,可用直線相關(guān)分析方法。直線相關(guān)(linear regression)又稱簡單相關(guān),此方法適)又稱簡單相關(guān),此方法適用于用于X和和Y都服從正態(tài)分布的資料。都服從正態(tài)分布的資料。 一、相關(guān)系數(shù)一、相關(guān)系數(shù)兩變量之間的相互關(guān)聯(lián)情況用相關(guān)系數(shù)兩變量之間的相互關(guān)聯(lián)情況用相關(guān)系數(shù)r(correlation coefficient)表示。)表示。r的計算公式為:的計算公式為:按式(按式(14-15)計算的相關(guān)系數(shù))計算的相關(guān)系數(shù)r又稱又稱Pearson相關(guān)系數(shù)相關(guān)系數(shù)(Pearson correlati

11、on coefficient)或積差相關(guān)系數(shù))或積差相關(guān)系數(shù)(product moment correlation coefficient)。)。 22()()(14 15)()()iiXYXX YYiiXX YYlrllXXYY r的取值范圍為的取值范圍為r1。當。當r為負值時,表示當一個為負值時,表示當一個變量的取值增大時,另一個變量的取值減小,即呈相變量的取值增大時,另一個變量的取值減小,即呈相反的變化方向,稱為負相關(guān);當反的變化方向,稱為負相關(guān);當r為正值時,表示兩為正值時,表示兩個變量的變化方向一致,稱為正相關(guān)。個變量的變化方向一致,稱為正相關(guān)。 |r|=1 完全相關(guān)完全相關(guān) |r|

12、=0 零相關(guān)零相關(guān) r的絕對值大小表示兩變量之間直線聯(lián)系的密切程度。的絕對值大小表示兩變量之間直線聯(lián)系的密切程度。所以相關(guān)系數(shù)所以相關(guān)系數(shù)r是表示兩個隨機變量之間呈直線相關(guān)是表示兩個隨機變量之間呈直線相關(guān)的強度和方向的統(tǒng)計量。的強度和方向的統(tǒng)計量。圖144 相關(guān)系數(shù)示意圖 散點呈橢圓形分布,稱為散點呈橢圓形分布,稱為部分相關(guān)部分相關(guān)X X、Y Y 同時增減同時增減-正相關(guān)正相關(guān)(positive correlation)positive correlation); X X、Y Y 此增彼減此增彼減-負相關(guān)負相關(guān)(negative correlation) (negative correlati

13、on) 。 散點在一條直線上,散點在一條直線上, X X、Y Y 變化趨勢相同變化趨勢相同-完全正相關(guān)完全正相關(guān); ;反向變化反向變化-完全負相關(guān)完全負相關(guān)。圖145 相關(guān)系數(shù)示意圖 X X、Y Y 變化互不影響變化互不影響-零相關(guān)零相關(guān)(zero correlation)(zero correlation) 當當r r0 0時,觀察點的分布時,觀察點的分布或為水平,或為垂直,或為或為水平,或為垂直,或為正圓形,為完全無關(guān)或無線正圓形,為完全無關(guān)或無線性相關(guān)。性相關(guān)。 當當X X與與Y Y之間呈曲線關(guān)系時,之間呈曲線關(guān)系時,直線相關(guān)系數(shù)直線相關(guān)系數(shù)r r仍接近于仍接近于0 0,所以不宜用直線相

14、關(guān)系數(shù)來所以不宜用直線相關(guān)系數(shù)來描述曲線關(guān)系。描述曲線關(guān)系。二、相關(guān)系數(shù)的計算二、相關(guān)系數(shù)的計算 現(xiàn)仍用例現(xiàn)仍用例14-1膽固醇與年齡的資料說明直線相關(guān)分膽固醇與年齡的資料說明直線相關(guān)分析的步驟。析的步驟。 1.繪制散點圖觀察兩變量間是否呈直線趨勢繪制散點圖觀察兩變量間是否呈直線趨勢 從圖從圖14-1中可見,膽固醇與年齡之間有直線趨勢,且這種中可見,膽固醇與年齡之間有直線趨勢,且這種趨勢的方向相同。趨勢的方向相同。 2計算相關(guān)系數(shù)計算相關(guān)系數(shù) 當初步判定兩變量之間存在直線趨勢當初步判定兩變量之間存在直線趨勢之后,用式(之后,用式(14-15)計算相關(guān)系數(shù))計算相關(guān)系數(shù)r。對例。對例14-1,已

15、經(jīng)在,已經(jīng)在回歸分析中得到了所需數(shù)據(jù):回歸分析中得到了所需數(shù)據(jù):lXX3216.950,lXY453.7385,lYY88.8081,代入式(,代入式(14-15)中得相關(guān)系)中得相關(guān)系數(shù)數(shù)r為:為: 從這一個樣本計算出的從這一個樣本計算出的r0.849來看,顯示膽固醇與來看,顯示膽固醇與年齡之間呈較強的正相關(guān)。但還需進行假設(shè)檢驗以確定其年齡之間呈較強的正相關(guān)。但還需進行假設(shè)檢驗以確定其是否具有統(tǒng)計學意義。是否具有統(tǒng)計學意義。453.73850.8493216.950 88.8081r 三、相關(guān)系數(shù)的假設(shè)檢驗三、相關(guān)系數(shù)的假設(shè)檢驗根據(jù)樣本資料計算出的相關(guān)系數(shù)是一個樣本統(tǒng)計量,存根據(jù)樣本資料計算

16、出的相關(guān)系數(shù)是一個樣本統(tǒng)計量,存在抽樣誤差。因此必須對在抽樣誤差。因此必須對r進行檢驗,以判斷其是否來自進行檢驗,以判斷其是否來自總體相關(guān)系數(shù)總體相關(guān)系數(shù)0的一個樣本。檢驗統(tǒng)計量的一個樣本。檢驗統(tǒng)計量 t的計算公式的計算公式如下:如下: 求得求得t值后查值后查t界值表,按所取的檢驗水準作出推斷結(jié)論。界值表,按所取的檢驗水準作出推斷結(jié)論。亦可按亦可按vn-2查查r界值表,得界值表,得P值,以節(jié)省時間。值,以節(jié)省時間。 20,2(14 16)(1)/(2)rtvnrn例例14-6 就上述所求得的相關(guān)系數(shù),檢驗?zāi)懝檀寂c年齡之間是否就上述所求得的相關(guān)系數(shù),檢驗?zāi)懝檀寂c年齡之間是否有直線關(guān)系。有直線關(guān)系

17、。 檢驗步驟為檢驗步驟為 (1)建立檢驗假設(shè)并確定檢驗水準)建立檢驗假設(shè)并確定檢驗水準 H0:0,即膽固醇與年齡間無直線關(guān)系,即膽固醇與年齡間無直線關(guān)系 H1:0,即膽固醇與年齡間有直線關(guān)系,即膽固醇與年齡間有直線關(guān)系0.05 (2)計算檢驗統(tǒng)計量)計算檢驗統(tǒng)計量用式(用式(14-16)對膽固醇和年齡之間的直線相關(guān)系數(shù))對膽固醇和年齡之間的直線相關(guān)系數(shù)r0.849進行進行假設(shè)檢驗的結(jié)果如下:假設(shè)檢驗的結(jié)果如下: 20.84906.817(1 0.849 )/(202)t(3)確定)確定P值下結(jié)論值下結(jié)論 查附表(查附表(t界值表),得界值表),得t0.05/2(18)2.101,故,故 P0.

18、05。按按0.05水準,拒絕水準,拒絕H0,接受,接受H1故可以認為膽固醇與年故可以認為膽固醇與年齡之間呈正的直線相關(guān)關(guān)系。齡之間呈正的直線相關(guān)關(guān)系。 對回歸系數(shù)對回歸系數(shù)b的假設(shè)檢驗等價于對相關(guān)系數(shù)的假設(shè)檢驗等價于對相關(guān)系數(shù)r的假設(shè)檢的假設(shè)檢驗,讀者可以核對兩種檢驗方法所得到的驗,讀者可以核對兩種檢驗方法所得到的t值均為值均為6.817。所以當對所以當對b作了假設(shè)檢驗之后就不必再對作了假設(shè)檢驗之后就不必再對r作假設(shè)檢驗。作假設(shè)檢驗。 相關(guān)分析的任務(wù)就是對相關(guān)程度給以定量的描述。存在相關(guān)分析的任務(wù)就是對相關(guān)程度給以定量的描述。存在相關(guān)關(guān)系并不一定表示一個變量的改變是另一個變量變化相關(guān)關(guān)系并不一

19、定表示一個變量的改變是另一個變量變化的原因,有可能同受另一個因素的影響。的原因,有可能同受另一個因素的影響。 四、應(yīng)用相關(guān)系數(shù)時應(yīng)注意的問題四、應(yīng)用相關(guān)系數(shù)時應(yīng)注意的問題 1相關(guān)關(guān)系不等于因果關(guān)系。兩變量之間相關(guān)系數(shù)有統(tǒng)計相關(guān)關(guān)系不等于因果關(guān)系。兩變量之間相關(guān)系數(shù)有統(tǒng)計學意義,只是從統(tǒng)計學上反映出它們之間的變化存在某種學意義,只是從統(tǒng)計學上反映出它們之間的變化存在某種規(guī)律性,不能直接把這種相關(guān)性解釋為因果關(guān)系。有無因規(guī)律性,不能直接把這種相關(guān)性解釋為因果關(guān)系。有無因果關(guān)系的結(jié)論還須從專業(yè)角度作進一步的研究。果關(guān)系的結(jié)論還須從專業(yè)角度作進一步的研究。 2當觀察例數(shù)較少,例如當觀察例數(shù)較少,例如n

20、15時,相關(guān)系數(shù)容易受個別時,相關(guān)系數(shù)容易受個別觀察對象的特殊值所影響,故不夠穩(wěn)定。觀察對象的特殊值所影響,故不夠穩(wěn)定。 3在實際工作中,應(yīng)區(qū)別相關(guān)有統(tǒng)計學意義與相關(guān)強度。在實際工作中,應(yīng)區(qū)別相關(guān)有統(tǒng)計學意義與相關(guān)強度。相關(guān)具有統(tǒng)計學意義指該樣本相關(guān)系數(shù)相關(guān)具有統(tǒng)計學意義指該樣本相關(guān)系數(shù)r來自相關(guān)系數(shù)來自相關(guān)系數(shù)=0的總體的概率很小。而相關(guān)強度表示兩變量間相互聯(lián)系的的總體的概率很小。而相關(guān)強度表示兩變量間相互聯(lián)系的密切程度,其大小是用密切程度,其大小是用r的絕對值來反映的。的絕對值來反映的。 4.分析兩個變量間有無相關(guān)關(guān)系,要先繪制散點分析兩個變量間有無相關(guān)關(guān)系,要先繪制散點圖。當散點圖呈直線

21、趨勢,再做分析。圖。當散點圖呈直線趨勢,再做分析。5.資料要求服從雙變量正態(tài)分布。資料要求服從雙變量正態(tài)分布。6.要判斷兩個事物間是否存在相關(guān)關(guān)系,需要做要判斷兩個事物間是否存在相關(guān)關(guān)系,需要做假設(shè)檢驗。假設(shè)檢驗。 五、直線相關(guān)與回歸的區(qū)別與聯(lián)系五、直線相關(guān)與回歸的區(qū)別與聯(lián)系 相關(guān)與回歸都是用來研究變量之間的相互關(guān)系的,兩者相關(guān)與回歸都是用來研究變量之間的相互關(guān)系的,兩者既有聯(lián)系又有區(qū)別。既有聯(lián)系又有區(qū)別。 1區(qū)別區(qū)別 (1)資料要求不同,回歸要求應(yīng)變量)資料要求不同,回歸要求應(yīng)變量Y是隨機變量,服從是隨機變量,服從正態(tài)分布,自變量可以是非隨機變量(正態(tài)分布,自變量可以是非隨機變量(型回歸模型

22、)型回歸模型)也可以是隨機變量(也可以是隨機變量( 型回歸模型)。相關(guān)要求型回歸模型)。相關(guān)要求X與與Y都是隨機變量,服從雙變量正態(tài)分布。都是隨機變量,服從雙變量正態(tài)分布。 對于對于型回歸模型,可計算兩個回歸方程:型回歸模型,可計算兩個回歸方程: 由由 X推推 Y的回歸方程的回歸方程 由由 Y推推 X的回歸方程的回歸方程 (2)在意義和應(yīng)用不同,回歸反映兩變量間的依)在意義和應(yīng)用不同,回歸反映兩變量間的依存關(guān)系,是單向的;相關(guān)則反映兩變量間關(guān)系存關(guān)系,是單向的;相關(guān)則反映兩變量間關(guān)系的大小和方向,是雙向的。的大小和方向,是雙向的。 (3) r無單位,無單位,b一般有單位一般有單位(4)r的取值

23、范圍為的取值范圍為-1,1,b的取值范圍無限制的取值范圍無限制.Y XY XYabX.X YX YXabY2聯(lián)系聯(lián)系(1)同一資料的)同一資料的r、b為符號相同,如為符號相同,如r為正,說明為正,說明X增大(或減?。龃螅ɑ驕p?。?,Y也增大(或減少);也增大(或減少);b為正,說為正,說明明X增加一個單位,增加一個單位,Y平均增加平均增加b個單位。個單位。(2)r和和b的假設(shè)檢驗等價:即對同一樣本,兩者的的假設(shè)檢驗等價:即對同一樣本,兩者的t值等價。由于值等價。由于r的假設(shè)檢驗可直接查表,較為簡單,的假設(shè)檢驗可直接查表,較為簡單,而而b的假設(shè)檢驗較復雜,故可用的假設(shè)檢驗較復雜,故可用r的假設(shè)

24、檢驗代替的假設(shè)檢驗代替b的的假設(shè)檢驗,假設(shè)檢驗, (3)r與與b可以相互換算:可以相互換算: (4)回歸與相關(guān)可以相互解釋,)回歸與相關(guān)可以相互解釋, r2SS回回SS總總(1417) 即相關(guān)系數(shù)的平方即相關(guān)系數(shù)的平方r2是應(yīng)變量是應(yīng)變量Y的總變異中歸因于的總變異中歸因于X的部分。的部分。 r2又稱確定系數(shù)(又稱確定系數(shù)(determinant coefficient)。當遇到兩)。當遇到兩變量之間的相關(guān)系數(shù)具有統(tǒng)計學意義,如變量之間的相關(guān)系數(shù)具有統(tǒng)計學意義,如r0.6,P0.01,則,則r2 0.36,即指應(yīng)變量的變異僅有,即指應(yīng)變量的變異僅有36可由可由X的的變異解釋,另外還有變異解釋,另

25、外還有64的變異是由其它因素的變異所解的變異是由其它因素的變異所解釋。釋。YYXXllbr 第三節(jié)第三節(jié)Spearman秩相秩相 關(guān)關(guān) 上一節(jié)中介紹的積差相關(guān)系數(shù)適用于兩個變量(上一節(jié)中介紹的積差相關(guān)系數(shù)適用于兩個變量(X,Y)都服從正態(tài)分布的資料。但有時其中一個甚至兩)都服從正態(tài)分布的資料。但有時其中一個甚至兩個變量都不服從正態(tài)分布,例如按等級分類或二項分個變量都不服從正態(tài)分布,例如按等級分類或二項分類資料,這時需用非參數(shù)相關(guān)分析方法。這里介紹常類資料,這時需用非參數(shù)相關(guān)分析方法。這里介紹常用的秩相關(guān)分析方法用的秩相關(guān)分析方法Spearman秩相關(guān),這一方法是秩相關(guān),這一方法是Spearma

26、n提出的。提出的。 一、秩相關(guān)系數(shù)一、秩相關(guān)系數(shù) 秩相關(guān)系數(shù)(秩相關(guān)系數(shù)(rank correlation coefficient)又稱)又稱等級相關(guān)系數(shù)。其基本思想是,對于不符合正態(tài)分布等級相關(guān)系數(shù)。其基本思想是,對于不符合正態(tài)分布的資料,不用原始數(shù)據(jù)計算相關(guān)系數(shù),而是將原始觀的資料,不用原始數(shù)據(jù)計算相關(guān)系數(shù),而是將原始觀察值由小到大編秩,然后根據(jù)秩次來計算秩相關(guān)系數(shù)。察值由小到大編秩,然后根據(jù)秩次來計算秩相關(guān)系數(shù)。 設(shè)有設(shè)有n例觀察對象,對每一例觀察對象同時取得兩個測例觀察對象,對每一例觀察對象同時取得兩個測定值(定值(Xi,Yi),分別按),分別按Xi、Yi(il,2,3,n)的值)的值

27、由小到大編秩為由小到大編秩為 1,2,3,n。用。用 RXi表示表示Xi的秩次,的秩次,RYi表示表示Yi的秩次。因為的秩次。因為 n是固定的,所以總秩相等即是固定的,所以總秩相等即 以及平均秩。但以及平均秩。但Xi的秩順序不一的秩順序不一定與定與Yi的秩順序相同,故所對應(yīng)的的秩順序相同,故所對應(yīng)的RXi與與RYi不一定相等。不一定相等。只要求出只要求出后就可按式(后就可按式(14-18)計算秩相關(guān)系數(shù)計算秩相關(guān)系數(shù)rs。 223(1)/2,()()()/12iiiiRXRYn nRXRXRYRYnn(1)/2RXRYn()()iiRXRXRYRY它與式(它與式(14-15)具有相同的形式,只

28、是用秩次代替了原始觀察值。)具有相同的形式,只是用秩次代替了原始觀察值。令同一觀察對象的兩個秩次差為:令同一觀察對象的兩個秩次差為: di=RXi-RYi(i=1,2,3,n)()(14-19)由式(由式(14-18)及式()及式(14-19)得到計算秩相關(guān)系數(shù)的簡化公式為:)得到計算秩相關(guān)系數(shù)的簡化公式為: 式(式(14-20)中的)中的 n為觀察例數(shù)。為觀察例數(shù)。rs的取值為的取值為rs1。它的解釋與。它的解釋與簡單相關(guān)系數(shù)簡單相關(guān)系數(shù) r一致。一致。22()()(14 18)()()iisiiRXRXRYRYrRXRXRYRY2361(1420)isdrnn 二、秩相關(guān)系數(shù)的計算二、秩相

29、關(guān)系數(shù)的計算 下面舉例說明計算下面舉例說明計算rs的具體步驟。的具體步驟。 例例14-3 某地方病防治所隨機抽樣調(diào)查了某縣某地方病防治所隨機抽樣調(diào)查了某縣10個村飲個村飲水中氟含量與氟骨癥中毒患病率,資料列于表水中氟含量與氟骨癥中毒患病率,資料列于表14-4中的第中的第(2)及第()及第(4)欄。試分析該縣飲水中氟含量與氟骨癥患)欄。試分析該縣飲水中氟含量與氟骨癥患病率間的關(guān)系。病率間的關(guān)系。表表14-4飲水中氟含量(飲水中氟含量(X)與氟骨癥患病率()與氟骨癥患病率(Y)村編號村編號飲水氟含量(飲水氟含量(mg/L)患病率()患病率()秩次秩次秩次差值秩次差值測定值測定值秩次秩次測定值測定值

30、秩次秩次差值差值的平方的平方IXiRXiYiRYidi=RXi-RYidi2(1)(2)(3)(4)(5)(6)(7)10.50120.132-1121.20322.643.5-0.50.2535.751039.1891141.62522.643.51.52.2550.65218.9711162.61724.8661171.53423.015-1182.39626.717-1193.72938.90811103.22846.7510-24合計合計013.5 從表從表14-4的第(的第(2)列氟含量)列氟含量Xi的測定值可見,第的測定值可見,第3號號的測定值遠高于其它各值,有可能的測定值遠高于其

31、它各值,有可能X不符合正態(tài)分布,故不符合正態(tài)分布,故宜用式(宜用式(14-20)計算秩相關(guān)系數(shù)來描述氟含量與氟骨癥)計算秩相關(guān)系數(shù)來描述氟含量與氟骨癥患病率之間的相關(guān)關(guān)系?;疾÷手g的相關(guān)關(guān)系。 按簡化式(按簡化式(14-19)計算秩相關(guān)系數(shù)的步驟為;)計算秩相關(guān)系數(shù)的步驟為; l編秩編秩 將各將各Xi由小到大編秩得由小到大編秩得RXi,列于表,列于表14-4中第中第(3)列。采用相同的排秩規(guī)則將)列。采用相同的排秩規(guī)則將Yi的記分列于表中第(的記分列于表中第(5)列列 RYi。當遇到相等的測定值時則用平均秩。如。當遇到相等的測定值時則用平均秩。如 Y2Y422.64,按編秩為,按編秩為3與與

32、4,這兩個測定值的平均秩為(,這兩個測定值的平均秩為(3+4)/23.5,故有,故有RY2=RY4=3.5。 2秩次差秩次差 求每例觀察對象的秩次差求每例觀察對象的秩次差diRXiRYi,列于表中第,列于表中第(6)列。應(yīng)有)列。應(yīng)有 。本例的合計。本例的合計 ,表示排秩無誤,表示排秩無誤,可作核對之用??勺骱藢χ?。 3并求和并求和 計算出的計算出的 列于表中第(列于表中第(7)列。本例有)列。本例有 4計算秩相關(guān)系數(shù)計算秩相關(guān)系數(shù)rs 本例本例n10,代入式(,代入式(14-20)中得到:)中得到: 式(式(14-20)適用于資料中取相同秩次的例數(shù)不多的情況,但如果?。┻m用于資料中取相同秩次的例數(shù)不多的情況,但如果取和同秩次的例數(shù)較多時,就使得計算的結(jié)果偏差較大,這時應(yīng)直接用和同秩次的例數(shù)較多時,就使得計算的結(jié)果偏差較大,這時應(yīng)直接用式(式(14-18)來計算秩相關(guān)系數(shù)。)來計算秩相關(guān)系數(shù)。 0id 0id 2id2id213.5id 213.5id 36 13.510.9181010sr 三、秩相關(guān)系數(shù)的假設(shè)檢驗三、秩相關(guān)系數(shù)的假設(shè)檢驗rs是樣本秩相關(guān)系數(shù),由于存在抽樣誤差,需要檢驗是樣本秩相關(guān)系數(shù),由于存在抽樣誤差,需要檢驗 rs是否來自秩相是否來自秩相關(guān)系數(shù)關(guān)系數(shù)s 0的總體。根據(jù)樣本含量的總體。根據(jù)樣

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論