統(tǒng)計關聯(lián)性分析_第1頁
統(tǒng)計關聯(lián)性分析_第2頁
統(tǒng)計關聯(lián)性分析_第3頁
統(tǒng)計關聯(lián)性分析_第4頁
統(tǒng)計關聯(lián)性分析_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

9關聯(lián)性分析公共衛(wèi)生學院流行病與衛(wèi)生統(tǒng)計教研室沈曉麗

1授課內(nèi)容9.1兩個連續(xù)型隨機變量之間的相關分析9.2兩個分類變量之間的關聯(lián)分析2前面章節(jié)中講述了單一數(shù)值變量的統(tǒng)計分析方法,但在醫(yī)學科學研究中,常要分析變量間的關系,如年齡與血壓、身高與體重,回歸與相關就是研究這種關系的統(tǒng)計方法,屬于雙變量分析范疇。3兩個變量之間的線性關系基本上可以分為兩種:變量間的關聯(lián)性如何,有無線性聯(lián)系,若有,聯(lián)系程度如何——相關兩變量之間有無依存性,即一個變量的變化將引起另一個變量多大的變化——回歸49.1.2概述兩個連續(xù)隨機變量間的線性聯(lián)系稱為相關(linearcorrelation);兩個分類變量間的聯(lián)系稱為關聯(lián)(association)。59.1.2.1散點圖判斷兩個變量間是否具有相關關系最直接的辦法是繪制散點圖;拿到相關資料的第一步就是繪制散點圖。6例9-1隨機抽取15名健康成人,測定血液的凝血酶濃度(單位/毫升)及凝固時間(秒),數(shù)據(jù)如表11-1所示。據(jù)此資料如何判斷這兩項指標間有否相關?171514161516141716141315151314凝血時間0.71.01.10.91.10.91.00.60.91.11.20.91.01.21.1凝血酶濃度151413121110987654321受試者號表9-1

15名健康成人凝血時間與凝血酶濃度測量值記錄散點圖9.1.2.2相關的種類(1)正相關散點呈橢圓形分布,Y隨X的增加而增加,X隨Y的增加而增加,即兩變量X、Y同時增大或減小,變化趨勢是同向,稱為正相關;各點的排列越接近橢圓的長軸,相關也就越密切。當各點的分布在一條直線上時,則X與Y就是完全正相關了。9(2)負相關

散點呈橢圓形分布,Y隨X的增加而減少,X隨Y的增加而減少,變化趨勢是反向的,稱為負相關;各點的排列越接近橢圓的長軸,相關也就越密切。當各點的分布在一條直線上時,則X與Y就是完全負相關了。10(3)零相關無論X增加還是減少,Y不受其影響,反之,X也不受Y的影響。(4)非線性相關若散點圖呈曲線形狀,則變量間可能呈曲線關系。12139.1.2.2關聯(lián)強度兩個連續(xù)型隨機變量間聯(lián)系的強度用相關系數(shù)來描述。總體相關系數(shù)為ρ,樣本相關系數(shù)為r。直線相關系數(shù)的意義直線相關系數(shù)r的值,在任何情況下總在﹣1與﹢1之間,而在醫(yī)學研究中由于影響因素眾多,很少有完全相關的情況;相關系數(shù)r的正負號表示相關的性質,即正相關、負相關以及零相關;相關系數(shù)r的絕對值大小表示相關程度的大小(強弱),愈接近于1,相關程度愈高;愈接近于0,相關程度愈低。9.2兩個連續(xù)型隨機變量間的相關分析15Pearson相關:X,Y均是隨機變量,呈雙變量正態(tài)分布,各觀察值間相互獨立。Spearman秩相關(rankcorrelation):X,Y不服從雙變量正態(tài)分布,總體分布類型未知,數(shù)據(jù)本身有不確定值或為等級資料。9.2.3Pearson相關16兩個變量的測量值應來自于同一總體或同一樣本中n個個體的測量,或者是來自于對兩個有意義配對的總體或樣本的測量;兩個變量的分布應近似于正態(tài)分布;樣本量不能太小,樣本量太小時所計算出的相關系數(shù)不夠穩(wěn)定。179.2.2.1Pearson積秩相關系數(shù)的計算171514161516141716141315151314凝血時間0.71.01.10.91.10.91.00.60.91.11.20.91.01.21.1凝血酶濃度151413121110987654321受試者號0.9814.93計算例9-1中凝血酶濃度與凝血時間之間的樣本相關系數(shù)

18相關系數(shù)的特點有:19(1)相關系數(shù)ρ是一個無量綱的數(shù)值,且-1≤ρ≤1(2)ρ>0為正相關,ρ<0為負相關(3)︱ρ︳越接近1,說明相關性越好;︱ρ︳

越接近0,說明相關性越差。9.2.2.2Pearson積矩相關系數(shù)的假設檢驗20r是樣本相關系數(shù),它是總體相關系數(shù)ρ的估計值。要判斷X、Y間是否有相關關系,就要檢驗r是否來自總體相關系數(shù)ρ為零的總體。ρ=0r?例9-1前面所得r值,檢驗健康成人凝血濃度與凝血時間是否有直線相關。

9.2兩個連續(xù)型隨機變量間的相關分析23Pearson相關:X,Y均是隨機變量,呈雙變量正態(tài)分布,各觀察值間相互獨立。Spearman秩相關(rankcorrelation):X,Y不服從雙變量正態(tài)分布,總體分布類型未知,數(shù)據(jù)本身有不確定值或為等級資料。9.2.3Spearman秩相關24秩相關,又稱為等級相關,適用于下列資料:(1)不服從雙變量正態(tài)分布(2)總體分布型未知(3)等級資料秩相關中最常用的是Spearman等級相關9.2.3.1Spearman秩相關系數(shù)的計算25秩相關的基本思想是將原始數(shù)據(jù)轉化為秩次。將兩變量X,Y成對的觀察值分別從小到大排序編秩,以P表示X的秩次,以q表示Y的秩次,觀察值相同的取平均秩。計算公式仍采用Pearson相關系數(shù)的公式,X,Y以p,q代替。表9-2急性白血病患兒的血小板和出血癥狀例11-4某地研究2~7歲急性白血病患兒的血小板數(shù)與出血癥狀程度之間的相關性,試用秩相關分析。45163078_65078_合計4212.253.5-14412200412126.5132.2511.5++++121111438113512.253.5-1001012901031.512.253.5-819126092812.253.5-6481060824.512.253.5-497740754819.0++366540645819.0++25542651412.253.5-164310421497.0+93165318819.0++42138211.5132.511.5+++111211pqq2秩次出血癥狀p2秩次血小板病人編號Spearman等級相關:

它是用秩相關系數(shù)rs說明兩變量間相關關系的密切程度和方向。本例計算:299.2.3.1Spearman秩相關系數(shù)的假設檢驗rs也應進行假設檢驗1.查表法n小于等于50時2.t檢驗n大于50時計算統(tǒng)計量t值查rs臨界值表,

9.2.4相關的解釋中應注意的問題311、兩變量相關不能因此推斷兩變量在生物學上有任何聯(lián)系,甚至認為有因果聯(lián)系。2、樣本的相關系數(shù)接近零時并不意味著兩變量間一定無相關性。(樣本量?。壳€相關?分層分析?)3、出現(xiàn)異常點時,首先對原始數(shù)據(jù)進行核對,分析時可分別對保留該點和刪除該點進行分析,慎作結論。9.3兩個分類變量間的關聯(lián)分析329.3.1交叉分類2*2表的關聯(lián)性分析9.3.22×2配對資料的關聯(lián)性分析9.3.3R×C分類資料的關聯(lián)性例9-3為觀察嬰兒腹瀉是否與喂養(yǎng)方式有關,某醫(yī)院兒科隨機收集了消化不良的嬰兒82例,把該院兒科所有消化不良的患兒視為一個總體的話,則該院82例患兒可看成是一份隨機樣本。對每個個體分別觀察腹瀉與否和喂養(yǎng)方式兩種屬性,2*2種結果分類記數(shù)如表11-3所示。試分析兩種屬性的關聯(lián)性。

表9-3嬰兒腹瀉與喂養(yǎng)方式的關系無有823547合計422517母乳401030人工合計腹瀉喂養(yǎng)方式2*2交叉分類頻數(shù)表的一般形式如下表

表9-4

2*2交叉分類頻數(shù)表的一般形式Y2Y1nm2(

c2)m1(

c1)合計n2(

r2)A22(

22)A21(

21)X2n1(

r1)A12(

12)A11(

11)X1合計屬性Y屬性X聯(lián)合概率

邊際概率

邊際概率

所謂兩屬性X和Y互相獨立(independence),是指屬性X的分布的概率與屬性Y的概率分布無關,否則稱這兩種屬性之間存在關聯(lián)性。從概率的角度考慮,獨立是指在交叉分類表每一格子中同時具有兩種屬性的聯(lián)合概率等于相應屬性的邊際概率的乘積。

ij=(

ri)(

cj)i,j=1,2

欲檢驗的假設為:

H0:兩屬性之間相互獨立。H1:兩屬性之間相互關聯(lián)。檢驗統(tǒng)計量仍采用擬合優(yōu)度卡方檢驗:

在H0成立的條件下必有:

ij=(ri)(cj)。由于(ri)和(cj)未知,只能用樣本中的頻數(shù)近似地代替H0:喂養(yǎng)方式與腹瀉之間互相獨立。

H1:喂養(yǎng)方式與腹瀉之間有關聯(lián)。

=0.05

則拒絕原假設,說明嬰兒腹瀉與喂養(yǎng)方式之間存在著關聯(lián)性。關于兩個分類變量關聯(lián)程度,我們可用Pearson列聯(lián)系數(shù)(contingencycoefficient)來描述:列聯(lián)系數(shù)介于0與1之間,表示兩種屬性相關的密切程度。本例列聯(lián)系數(shù)為:理論上也應就總體列聯(lián)系數(shù)是否為0作假設檢驗,但這個假設檢驗等價于上述兩變量關聯(lián)性分析的卡方檢驗。兩變量獨立存在關聯(lián)性ρ=0ρ≠09.3兩個分類變量間的關聯(lián)分析409.3.1交叉分類2*2表的關聯(lián)性分析9.3.22*2配對資料的關聯(lián)性分析9.3.3R*C分類資料的關聯(lián)性例9-4有56份咽喉涂抹標本,把每份標本一分為二,依同樣的條件分別接種于甲、乙兩種白喉桿菌培養(yǎng)基上,觀察白喉桿菌生長情況,結果見表11-5,問兩種培養(yǎng)基的結果有無關聯(lián)?

表9-4兩種白喉桿菌培養(yǎng)結果

563224合計16142_401822+_+合計乙培養(yǎng)基甲培養(yǎng)基H0:兩種培養(yǎng)基之間互相獨立。

H1:兩種培養(yǎng)基之間有關聯(lián)。

=0.05

則拒絕原假設,兩種培養(yǎng)基之間存在著關聯(lián)性。進一步計算列聯(lián)系數(shù)。

9.3兩個分類變量間的關聯(lián)分析439.3.1交叉分類2*2表的關聯(lián)性分析9.3.22*2配對資料的關聯(lián)性分析9.3.3R*C分類資料的關聯(lián)性例9-5某地居民主要有三種祖籍,均流行甲狀腺腫。為探討較甲狀腺腫與祖籍是否有關聯(lián),現(xiàn)根據(jù)居民甲狀腺腫復查結果,按甲狀腺腫類型與祖籍兩種屬性交叉分類,得表9-5的資料。問甲狀腺腫與祖籍有無關系?

表9-5某地居民按甲狀腺腫類型與祖籍兩屬性的交叉分類表合計7195771401436甲4862

4

492乙丙10031585500祖籍甲狀腺腫類型合計彌漫型結節(jié)型混合型

:甲狀腺腫類型與祖籍無關聯(lián)

:甲狀腺腫類型與祖籍有關聯(lián)若須進一步分析關系的密切程度時,可計算Pearson列聯(lián)系數(shù)r。例9-6測得某地1043人的ABO血型和MN血型結果如下表,問兩種血型系統(tǒng)之間是否有關聯(lián)?

表9-6某地1043人的血型合計2623354461043

O85100150335A5678120254B98132170400AB2325654ABO血型MN血型合計

MNMNR*C表的分類及其檢驗方法的選擇

R*C表可以分為雙向無序、單向有序、雙向有序屬性相同與雙向有序屬性不同4類。

①雙向無序R*C表R*C表中兩分類變量皆為無序分類變量對于該類資料:A若研究目的為多個樣本率(或構成比)比較,可用行*列表資料的卡方檢驗;B若研究目的為分析兩個分類變量間有無關聯(lián)性及關系的密切程度時,可用行*列表資料的卡方檢驗及Pearson列聯(lián)系數(shù)進行分析。②關于單向有序列表的統(tǒng)計處理。有兩種形式:

一種是R*C表中的分組變量(如年齡)是有序的,而指標變量(如傳染病的類型)是無序,其研究的目的是分析不同年齡組的構成情況,此資料可用卡方檢驗。另一種是R*C表中的分組變量(如不同療法)是無序的,而指標變量(如療效按等級分)是有序。在比較各效應有無差別時宜采用秩和檢驗法,如作卡方檢驗只能說明各處理組的效應在構成比有無差別。③雙向有序屬性相同的R*C表R*C表中兩分類變量皆為有序且為屬性相同。實際是2*2配對設計的擴展,即水平數(shù)大于等于2的診斷配伍設計,如兩種方法同時對同一批樣品的測定結果。其目的是分析兩種檢測方法的一致性,此時宜用一致性檢驗(也稱Kappa檢驗)。如想分析兩法測定結果的概率分布有無差別,宜采用χ2檢驗

52④雙向有序屬性不同的R*C表R*C表中兩分類變量皆為有序,但屬性不同。A若目的為分析分組變量取不同水平時,有序結果變量間有無差別,可把它視為單向有序R*C表資料,選用秩和檢驗;B若研究目的為分析有序分類變量間是否存在相關關系,用等級相關、線性趨勢χ2分析。合計2623354461043

O85100150335A5678120254B98132170400AB2325654ABO血型MN血型合計

MN

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論