統(tǒng)計(jì)關(guān)聯(lián)性分析_第1頁
統(tǒng)計(jì)關(guān)聯(lián)性分析_第2頁
統(tǒng)計(jì)關(guān)聯(lián)性分析_第3頁
統(tǒng)計(jì)關(guān)聯(lián)性分析_第4頁
統(tǒng)計(jì)關(guān)聯(lián)性分析_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

9關(guān)聯(lián)性分析公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)教研室沈曉麗

1授課內(nèi)容9.1兩個(gè)連續(xù)型隨機(jī)變量之間的相關(guān)分析9.2兩個(gè)分類變量之間的關(guān)聯(lián)分析2前面章節(jié)中講述了單一數(shù)值變量的統(tǒng)計(jì)分析方法,但在醫(yī)學(xué)科學(xué)研究中,常要分析變量間的關(guān)系,如年齡與血壓、身高與體重,回歸與相關(guān)就是研究這種關(guān)系的統(tǒng)計(jì)方法,屬于雙變量分析范疇。3兩個(gè)變量之間的線性關(guān)系基本上可以分為兩種:變量間的關(guān)聯(lián)性如何,有無線性聯(lián)系,若有,聯(lián)系程度如何——相關(guān)兩變量之間有無依存性,即一個(gè)變量的變化將引起另一個(gè)變量多大的變化——回歸49.1.2概述兩個(gè)連續(xù)隨機(jī)變量間的線性聯(lián)系稱為相關(guān)(linearcorrelation);兩個(gè)分類變量間的聯(lián)系稱為關(guān)聯(lián)(association)。59.1.2.1散點(diǎn)圖判斷兩個(gè)變量間是否具有相關(guān)關(guān)系最直接的辦法是繪制散點(diǎn)圖;拿到相關(guān)資料的第一步就是繪制散點(diǎn)圖。6例9-1隨機(jī)抽取15名健康成人,測定血液的凝血酶濃度(單位/毫升)及凝固時(shí)間(秒),數(shù)據(jù)如表11-1所示。據(jù)此資料如何判斷這兩項(xiàng)指標(biāo)間有否相關(guān)?171514161516141716141315151314凝血時(shí)間0.71.01.10.91.10.91.00.60.91.11.20.91.01.21.1凝血酶濃度151413121110987654321受試者號表9-1

15名健康成人凝血時(shí)間與凝血酶濃度測量值記錄散點(diǎn)圖9.1.2.2相關(guān)的種類(1)正相關(guān)散點(diǎn)呈橢圓形分布,Y隨X的增加而增加,X隨Y的增加而增加,即兩變量X、Y同時(shí)增大或減小,變化趨勢是同向,稱為正相關(guān);各點(diǎn)的排列越接近橢圓的長軸,相關(guān)也就越密切。當(dāng)各點(diǎn)的分布在一條直線上時(shí),則X與Y就是完全正相關(guān)了。9(2)負(fù)相關(guān)

散點(diǎn)呈橢圓形分布,Y隨X的增加而減少,X隨Y的增加而減少,變化趨勢是反向的,稱為負(fù)相關(guān);各點(diǎn)的排列越接近橢圓的長軸,相關(guān)也就越密切。當(dāng)各點(diǎn)的分布在一條直線上時(shí),則X與Y就是完全負(fù)相關(guān)了。10(3)零相關(guān)無論X增加還是減少,Y不受其影響,反之,X也不受Y的影響。(4)非線性相關(guān)若散點(diǎn)圖呈曲線形狀,則變量間可能呈曲線關(guān)系。12139.1.2.2關(guān)聯(lián)強(qiáng)度兩個(gè)連續(xù)型隨機(jī)變量間聯(lián)系的強(qiáng)度用相關(guān)系數(shù)來描述??傮w相關(guān)系數(shù)為ρ,樣本相關(guān)系數(shù)為r。直線相關(guān)系數(shù)的意義直線相關(guān)系數(shù)r的值,在任何情況下總在﹣1與﹢1之間,而在醫(yī)學(xué)研究中由于影響因素眾多,很少有完全相關(guān)的情況;相關(guān)系數(shù)r的正負(fù)號表示相關(guān)的性質(zhì),即正相關(guān)、負(fù)相關(guān)以及零相關(guān);相關(guān)系數(shù)r的絕對值大小表示相關(guān)程度的大小(強(qiáng)弱),愈接近于1,相關(guān)程度愈高;愈接近于0,相關(guān)程度愈低。9.2兩個(gè)連續(xù)型隨機(jī)變量間的相關(guān)分析15Pearson相關(guān):X,Y均是隨機(jī)變量,呈雙變量正態(tài)分布,各觀察值間相互獨(dú)立。Spearman秩相關(guān)(rankcorrelation):X,Y不服從雙變量正態(tài)分布,總體分布類型未知,數(shù)據(jù)本身有不確定值或?yàn)榈燃壻Y料。9.2.3Pearson相關(guān)16兩個(gè)變量的測量值應(yīng)來自于同一總體或同一樣本中n個(gè)個(gè)體的測量,或者是來自于對兩個(gè)有意義配對的總體或樣本的測量;兩個(gè)變量的分布應(yīng)近似于正態(tài)分布;樣本量不能太小,樣本量太小時(shí)所計(jì)算出的相關(guān)系數(shù)不夠穩(wěn)定。179.2.2.1Pearson積秩相關(guān)系數(shù)的計(jì)算171514161516141716141315151314凝血時(shí)間0.71.01.10.91.10.91.00.60.91.11.20.91.01.21.1凝血酶濃度151413121110987654321受試者號0.9814.93計(jì)算例9-1中凝血酶濃度與凝血時(shí)間之間的樣本相關(guān)系數(shù)

18相關(guān)系數(shù)的特點(diǎn)有:19(1)相關(guān)系數(shù)ρ是一個(gè)無量綱的數(shù)值,且-1≤ρ≤1(2)ρ>0為正相關(guān),ρ<0為負(fù)相關(guān)(3)︱ρ︳越接近1,說明相關(guān)性越好;︱ρ︳

越接近0,說明相關(guān)性越差。9.2.2.2Pearson積矩相關(guān)系數(shù)的假設(shè)檢驗(yàn)20r是樣本相關(guān)系數(shù),它是總體相關(guān)系數(shù)ρ的估計(jì)值。要判斷X、Y間是否有相關(guān)關(guān)系,就要檢驗(yàn)r是否來自總體相關(guān)系數(shù)ρ為零的總體。ρ=0r?例9-1前面所得r值,檢驗(yàn)健康成人凝血濃度與凝血時(shí)間是否有直線相關(guān)。

9.2兩個(gè)連續(xù)型隨機(jī)變量間的相關(guān)分析23Pearson相關(guān):X,Y均是隨機(jī)變量,呈雙變量正態(tài)分布,各觀察值間相互獨(dú)立。Spearman秩相關(guān)(rankcorrelation):X,Y不服從雙變量正態(tài)分布,總體分布類型未知,數(shù)據(jù)本身有不確定值或?yàn)榈燃壻Y料。9.2.3Spearman秩相關(guān)24秩相關(guān),又稱為等級相關(guān),適用于下列資料:(1)不服從雙變量正態(tài)分布(2)總體分布型未知(3)等級資料秩相關(guān)中最常用的是Spearman等級相關(guān)9.2.3.1Spearman秩相關(guān)系數(shù)的計(jì)算25秩相關(guān)的基本思想是將原始數(shù)據(jù)轉(zhuǎn)化為秩次。將兩變量X,Y成對的觀察值分別從小到大排序編秩,以P表示X的秩次,以q表示Y的秩次,觀察值相同的取平均秩。計(jì)算公式仍采用Pearson相關(guān)系數(shù)的公式,X,Y以p,q代替。表9-2急性白血病患兒的血小板和出血癥狀例11-4某地研究2~7歲急性白血病患兒的血小板數(shù)與出血癥狀程度之間的相關(guān)性,試用秩相關(guān)分析。45163078_65078_合計(jì)4212.253.5-14412200412126.5132.2511.5++++121111438113512.253.5-1001012901031.512.253.5-819126092812.253.5-6481060824.512.253.5-497740754819.0++366540645819.0++25542651412.253.5-164310421497.0+93165318819.0++42138211.5132.511.5+++111211pqq2秩次出血癥狀p2秩次血小板病人編號Spearman等級相關(guān):

它是用秩相關(guān)系數(shù)rs說明兩變量間相關(guān)關(guān)系的密切程度和方向。本例計(jì)算:299.2.3.1Spearman秩相關(guān)系數(shù)的假設(shè)檢驗(yàn)rs也應(yīng)進(jìn)行假設(shè)檢驗(yàn)1.查表法n小于等于50時(shí)2.t檢驗(yàn)n大于50時(shí)計(jì)算統(tǒng)計(jì)量t值查rs臨界值表,

9.2.4相關(guān)的解釋中應(yīng)注意的問題311、兩變量相關(guān)不能因此推斷兩變量在生物學(xué)上有任何聯(lián)系,甚至認(rèn)為有因果聯(lián)系。2、樣本的相關(guān)系數(shù)接近零時(shí)并不意味著兩變量間一定無相關(guān)性。(樣本量?。壳€相關(guān)?分層分析?)3、出現(xiàn)異常點(diǎn)時(shí),首先對原始數(shù)據(jù)進(jìn)行核對,分析時(shí)可分別對保留該點(diǎn)和刪除該點(diǎn)進(jìn)行分析,慎作結(jié)論。9.3兩個(gè)分類變量間的關(guān)聯(lián)分析329.3.1交叉分類2*2表的關(guān)聯(lián)性分析9.3.22×2配對資料的關(guān)聯(lián)性分析9.3.3R×C分類資料的關(guān)聯(lián)性例9-3為觀察嬰兒腹瀉是否與喂養(yǎng)方式有關(guān),某醫(yī)院兒科隨機(jī)收集了消化不良的嬰兒82例,把該院兒科所有消化不良的患兒視為一個(gè)總體的話,則該院82例患兒可看成是一份隨機(jī)樣本。對每個(gè)個(gè)體分別觀察腹瀉與否和喂養(yǎng)方式兩種屬性,2*2種結(jié)果分類記數(shù)如表11-3所示。試分析兩種屬性的關(guān)聯(lián)性。

表9-3嬰兒腹瀉與喂養(yǎng)方式的關(guān)系無有823547合計(jì)422517母乳401030人工合計(jì)腹瀉喂養(yǎng)方式2*2交叉分類頻數(shù)表的一般形式如下表

表9-4

2*2交叉分類頻數(shù)表的一般形式Y(jié)2Y1nm2(

c2)m1(

c1)合計(jì)n2(

r2)A22(

22)A21(

21)X2n1(

r1)A12(

12)A11(

11)X1合計(jì)屬性Y屬性X聯(lián)合概率

邊際概率

邊際概率

所謂兩屬性X和Y互相獨(dú)立(independence),是指屬性X的分布的概率與屬性Y的概率分布無關(guān),否則稱這兩種屬性之間存在關(guān)聯(lián)性。從概率的角度考慮,獨(dú)立是指在交叉分類表每一格子中同時(shí)具有兩種屬性的聯(lián)合概率等于相應(yīng)屬性的邊際概率的乘積。

ij=(

ri)(

cj)i,j=1,2

欲檢驗(yàn)的假設(shè)為:

H0:兩屬性之間相互獨(dú)立。H1:兩屬性之間相互關(guān)聯(lián)。檢驗(yàn)統(tǒng)計(jì)量仍采用擬合優(yōu)度卡方檢驗(yàn):

在H0成立的條件下必有:

ij=(ri)(cj)。由于(ri)和(cj)未知,只能用樣本中的頻數(shù)近似地代替H0:喂養(yǎng)方式與腹瀉之間互相獨(dú)立。

H1:喂養(yǎng)方式與腹瀉之間有關(guān)聯(lián)。

=0.05

則拒絕原假設(shè),說明嬰兒腹瀉與喂養(yǎng)方式之間存在著關(guān)聯(lián)性。關(guān)于兩個(gè)分類變量關(guān)聯(lián)程度,我們可用Pearson列聯(lián)系數(shù)(contingencycoefficient)來描述:列聯(lián)系數(shù)介于0與1之間,表示兩種屬性相關(guān)的密切程度。本例列聯(lián)系數(shù)為:理論上也應(yīng)就總體列聯(lián)系數(shù)是否為0作假設(shè)檢驗(yàn),但這個(gè)假設(shè)檢驗(yàn)等價(jià)于上述兩變量關(guān)聯(lián)性分析的卡方檢驗(yàn)。兩變量獨(dú)立存在關(guān)聯(lián)性ρ=0ρ≠09.3兩個(gè)分類變量間的關(guān)聯(lián)分析409.3.1交叉分類2*2表的關(guān)聯(lián)性分析9.3.22*2配對資料的關(guān)聯(lián)性分析9.3.3R*C分類資料的關(guān)聯(lián)性例9-4有56份咽喉涂抹標(biāo)本,把每份標(biāo)本一分為二,依同樣的條件分別接種于甲、乙兩種白喉?xiàng)U菌培養(yǎng)基上,觀察白喉?xiàng)U菌生長情況,結(jié)果見表11-5,問兩種培養(yǎng)基的結(jié)果有無關(guān)聯(lián)?

表9-4兩種白喉?xiàng)U菌培養(yǎng)結(jié)果

563224合計(jì)16142_401822+_+合計(jì)乙培養(yǎng)基甲培養(yǎng)基H0:兩種培養(yǎng)基之間互相獨(dú)立。

H1:兩種培養(yǎng)基之間有關(guān)聯(lián)。

=0.05

則拒絕原假設(shè),兩種培養(yǎng)基之間存在著關(guān)聯(lián)性。進(jìn)一步計(jì)算列聯(lián)系數(shù)。

9.3兩個(gè)分類變量間的關(guān)聯(lián)分析439.3.1交叉分類2*2表的關(guān)聯(lián)性分析9.3.22*2配對資料的關(guān)聯(lián)性分析9.3.3R*C分類資料的關(guān)聯(lián)性例9-5某地居民主要有三種祖籍,均流行甲狀腺腫。為探討較甲狀腺腫與祖籍是否有關(guān)聯(lián),現(xiàn)根據(jù)居民甲狀腺腫復(fù)查結(jié)果,按甲狀腺腫類型與祖籍兩種屬性交叉分類,得表9-5的資料。問甲狀腺腫與祖籍有無關(guān)系?

表9-5某地居民按甲狀腺腫類型與祖籍兩屬性的交叉分類表合計(jì)7195771401436甲4862

4

492乙丙10031585500祖籍甲狀腺腫類型合計(jì)彌漫型結(jié)節(jié)型混合型

:甲狀腺腫類型與祖籍無關(guān)聯(lián)

:甲狀腺腫類型與祖籍有關(guān)聯(lián)若須進(jìn)一步分析關(guān)系的密切程度時(shí),可計(jì)算Pearson列聯(lián)系數(shù)r。例9-6測得某地1043人的ABO血型和MN血型結(jié)果如下表,問兩種血型系統(tǒng)之間是否有關(guān)聯(lián)?

表9-6某地1043人的血型合計(jì)2623354461043

O85100150335A5678120254B98132170400AB2325654ABO血型MN血型合計(jì)

MNMNR*C表的分類及其檢驗(yàn)方法的選擇

R*C表可以分為雙向無序、單向有序、雙向有序?qū)傩韵嗤c雙向有序?qū)傩圆煌?類。

①雙向無序R*C表R*C表中兩分類變量皆為無序分類變量對于該類資料:A若研究目的為多個(gè)樣本率(或構(gòu)成比)比較,可用行*列表資料的卡方檢驗(yàn);B若研究目的為分析兩個(gè)分類變量間有無關(guān)聯(lián)性及關(guān)系的密切程度時(shí),可用行*列表資料的卡方檢驗(yàn)及Pearson列聯(lián)系數(shù)進(jìn)行分析。②關(guān)于單向有序列表的統(tǒng)計(jì)處理。有兩種形式:

一種是R*C表中的分組變量(如年齡)是有序的,而指標(biāo)變量(如傳染病的類型)是無序,其研究的目的是分析不同年齡組的構(gòu)成情況,此資料可用卡方檢驗(yàn)。另一種是R*C表中的分組變量(如不同療法)是無序的,而指標(biāo)變量(如療效按等級分)是有序。在比較各效應(yīng)有無差別時(shí)宜采用秩和檢驗(yàn)法,如作卡方檢驗(yàn)只能說明各處理組的效應(yīng)在構(gòu)成比有無差別。③雙向有序?qū)傩韵嗤腞*C表R*C表中兩分類變量皆為有序且為屬性相同。實(shí)際是2*2配對設(shè)計(jì)的擴(kuò)展,即水平數(shù)大于等于2的診斷配伍設(shè)計(jì),如兩種方法同時(shí)對同一批樣品的測定結(jié)果。其目的是分析兩種檢測方法的一致性,此時(shí)宜用一致性檢驗(yàn)(也稱Kappa檢驗(yàn))。如想分析兩法測定結(jié)果的概率分布有無差別,宜采用χ2檢驗(yàn)

52④雙向有序?qū)傩圆煌腞*C表R*C表中兩分類變量皆為有序,但屬性不同。A若目的為分析分組變量取不同水平時(shí),有序結(jié)果變量間有無差別,可把它視為單向有序R*C表資料,選用秩和檢驗(yàn);B若研究目的為分析有序分類變量間是否存在相關(guān)關(guān)系,用等級相關(guān)、線性趨勢χ2分析。合計(jì)2623354461043

O85100150335A5678120254B98132170400AB2325654ABO血型MN血型合計(jì)

MN

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論