統(tǒng)計學教學課件:關聯(lián)性分析_第1頁
統(tǒng)計學教學課件:關聯(lián)性分析_第2頁
統(tǒng)計學教學課件:關聯(lián)性分析_第3頁
統(tǒng)計學教學課件:關聯(lián)性分析_第4頁
統(tǒng)計學教學課件:關聯(lián)性分析_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

9

關聯(lián)性分析有兩個獨立的隨機變量:例如:父子的身高(X)、兒子的身高(Y)特點:1.它們在客觀上是有一定聯(lián)系的;2.在觀察時是獨立地去測量的;X1

Y1

、X2

Y2

、X3

Y3

、

、Xn

Yn

3.這兩個隨機變量都服從正態(tài)分布;相關分析和回歸分析是否有聯(lián)系,聯(lián)系的方向、程度如何?定量指示相關或關聯(lián)的指標:如相關系數(shù)定量描述其依存關系回歸分析相關或關聯(lián)依存性(relationship)數(shù)學模型:如Y=f(x)回歸分析抽樣研究保證樣本的合格性隨機抽樣保證樣本間相互獨立如何保證一份作關聯(lián)性研究的樣本合格?關聯(lián)性分析9.1概述9.2兩個連續(xù)型隨機變量的相關分析9.3

兩個分類變量間的關聯(lián)分析9.1概述例9-1:下表為一項關于兒童健康和發(fā)展的研究中10名學齡兒童的身高和體重資料,試對學齡兒童的身高(cm)和體重(kg)進行相關分析。12345678910身高X149.4167.6146.3170.7161.5164.6155.5158.5149.4152.4體重

Y30.842.633.144.036.340.832.735.433.131.8表9-110名學齡兒童的身高和體重圖9-110名學齡兒童的身高和體重的散點圖1.散點圖Scatterplot(158.5,35.4)(h)(f)(d)(b)(a)(c)(e)(g)ZeroCorrelationPositiveCorrelationNegativeCorrelationPositiveLinearNegativeLinearZeroCorrelationZeroCorrelationCurvilinearrelationship散點圖能直觀地看出兩變量是否存在相關關系,故研究兩變量關系應先繪散點圖,再量化兩者的關系。(h)(f)(d)(b)(a)(c)(e)(g)ZeroCorrelationPositiveCorrelationNegativeCorrelationPositiveLinearNegativeLinearZeroCorrelationZeroCorrelationCurvilinearrelationship散點圖能直觀地看出兩變量是否存在相關關系。故研究兩變量關系應先繪散點圖,再量化兩者的關系。LinearRelationship

關聯(lián)(association):兩個分類變量間的聯(lián)系,則稱為~。

線性相關(linearcorrelation):若兩個連續(xù)的隨機變量間存在線性聯(lián)系,則稱為~,也稱為簡單相關(simplecorrelation)。兩個基本概念:相關的種類⑴正相關(positivecorrelation):在圖中若Y有隨X增大而線性上升的趨勢,則稱為正相關。⑵負相關(negativecorrelation):在圖中若Y有隨X增大而線性下降的趨勢,則稱為負相關。⑶零相關(zerocorrelation):在圖中若Y或X不隨另一變量的改變而改變,則稱為零相關。⑷非線性相關(nonlinearcorrelation

):散點圖呈曲線形狀,表明變量間呈曲線相關,不是呈線性相關關系,也不宜作線性相關分析。線性相關系數(shù)

(linear

correlationcoefficient):是定量描述兩個變量間線性聯(lián)系的強度和相關方向的統(tǒng)計學指標;又稱Pearson積矩相關系數(shù)(

Pearson

productmomentcoefficient

),總體相關系數(shù)用ρ表示樣本相關系數(shù)用r表示表示方法2.關聯(lián)強度的指標⑴Pearson積矩相關系數(shù)的計算

即:離均差的乘積假定系獨立隨機的雙正態(tài)樣本:Pearson積矩相關系數(shù)指示相關的方向:

r=0:X和Y無線性相關或零相關(nullcorrelation)

r≠0:則X和Y線性相關

r=1或

r=-1:完全相關(罕見)r>0:正相關r<0:負相關(a)(b)(c)Pearson積矩相關系數(shù)(Pearson

productmomentcoefficient)總體相關系數(shù)用ρ表示;樣本相關系數(shù)用r表示;取值-1<ρ<1;ρ>0為正相關,ρ<0為負相關;ρ

越接近于1,相關性越強;

越接近于0,相關性越差相關系數(shù)反應線性相關性:正相關負相關非線性相關例9-1:計算學齡兒童的身高和體重的樣本相關系數(shù)。答:12345678910身高X149.4167.6146.3170.7161.5164.6155.5158.5149.4152.4體重

Y30.842.633.144.036.340.832.735.433.131.8表9-110名學齡兒童的身高和體重3.

Pearson積矩相關系數(shù)的假設檢驗—t

檢驗法步驟:Pearson積矩相關系數(shù)的假設檢驗—查表法(假定系獨立、隨機的雙正態(tài)樣本)直接查

r臨界值表(P581)以自由度v=n-2查出r臨界值,比較檢驗統(tǒng)計量值與r臨界值,后確定P值,作統(tǒng)計推斷。統(tǒng)計量

越大,概率P越小;統(tǒng)計量

越小,概率P越大。4.Pearson積矩相關系數(shù)的區(qū)間估計即:以樣本相關系數(shù)r以一定的概率估計總體相關系數(shù)ρ

的置信區(qū)間。步驟:線性相關分析的步驟:繪制散點圖:1.相關趨勢?2.線性的還是曲線的?3.異常值或強影響點?估計Pearson樣本相關系數(shù)r對相關系數(shù)的假設檢驗,即回答在總體中該相關關系是否存在的問題參數(shù)估計:以一定的概率估計總體相關系數(shù)所在的置信區(qū)間t

檢驗法9.2兩個連續(xù)隨機變量的相關分析一、Pearson積矩僅適用于兩個變量都是隨機變量,并呈現(xiàn)線性趨勢的情形。要求x、y服從聯(lián)合的雙變量正態(tài)分布。注意樣本中的極端值,必要時可剔除或進行變量變換。適用條件簡單線性相關(simplelinarcorrelation)例9-1:下表為一項關于兒童健康和發(fā)展的研究中10名學齡兒童的身高和體重資料,試對學齡兒童的身高(cm)和體重(kg)進行相關分析。解:(1)繪制散點圖(2)計算相關系數(shù)r從整體趨勢而言,隨著身高的增加,體重呈增加的趨勢,二者之間可能存在線性相關關系。圖9-110名學齡兒童的身高和體重的散點圖(3)假設檢驗:作總體相關系數(shù)ρ=0的檢驗

查t分布表,t(0.05/2,8)=2.306,故P<0.05,拒絕H0,接受H1,可認為學齡兒童的身高與體重之間存在線性相關。法一:t

檢驗法法二:查表法

由v

=10-2=8,查r界值表得r(0.05/2,8)=0.632;因統(tǒng)計量r=0.93,故P<0.05,接受H1,相關有統(tǒng)計學意義,可認為學齡兒童身高與體重之間存在線性相關。(3)區(qū)間估計:計算95%置信區(qū)間①

經(jīng)反雙曲正切變換,得z的95%置信區(qū)間為:(0.91,2.39)。②反變換得相關系數(shù)ρ的95%置信區(qū)間為:(0.72,0.98)【電腦實現(xiàn)】—SPSS線性相關分析:1.數(shù)據(jù)錄入:2.作散點圖:3.讀散點圖,作線性趨勢判斷:4.作線性相關分析:5.結果及結果輸出:

相關系數(shù)及假設檢驗

【結果報告】

為探討學齡兒童身高與體重的關系,搜集了10名學齡兒童的相關數(shù)據(jù),經(jīng)分析得以下結論:1.10名兒童身高的均值為157.6cm,標準差為8.4cm;體重的均值為36.1kg,標準差為4.8kg;2.從散點圖可見,其身高與體重有線性趨勢,Pearson相關系數(shù)r=0.93(t=7.10,P<0.001),總體相關系數(shù)的可信區(qū)間為(0.72,0.98),結果表明:學齡兒童的身高和體重之間呈線性正相關。小結:線性相關分析的通常有下面三個方面:X和Y間是否有聯(lián)系,是線性還是非線性聯(lián)系?正向的還是負向的?

聯(lián)系的程度?⑴統(tǒng)計描述X和Y間的線性聯(lián)系是否有統(tǒng)計學意義?就總體而言,聯(lián)系的程度如何?⑵統(tǒng)計推斷結合專業(yè)知識,如何對X和Y間的聯(lián)系進行解釋?⑶統(tǒng)計應用二、Spearman秩相關適用條件不服從雙變量正態(tài)分布的資料總體分布類型未知,數(shù)據(jù)本身有不確定值或等級資料

秩相關(rankcorrelation)例9-2:10名患者參加家庭計劃的長度(天)和每名患者每天的費用(元)見下表示,問參加的時間長度和費用是否相關。編號12345678910時間1015014325132651181297092費用5161228226213530086268203134表9-210名患者參加家庭計劃的時間/d和每名患者每天的費用/元獨立隨機的雙變量資料;目的:討論兩變量時間X和費用Y的相關性;但該資料的兩變量均不服從正態(tài)分布?!景咐馕觥恐认嚓P獨立隨機的雙變量資料;目的:討論兩變量時間X和費用Y的相關性;但該資料的兩變量均不服從正態(tài)分布?!景咐馕觥縎pearman等級秩相關⑵計算秩相關系數(shù):將兩變量X和Y分別從小到大進行編秩:Spearman等級相關系數(shù)的計算公式:類似與pearson相關系數(shù),不過在此應用的是數(shù)據(jù)的秩次,而不是原始數(shù)據(jù)本身。即:上例題解:(3)Spearman秩相關系數(shù)的假設檢驗:

t(0.05/2,8)=2.306,故P<0.05,拒絕H0,接受H1。法一:t

檢驗法法二:查表法

由v

=10-2=8,查r界值表得r(0.05/2,8)=0.632;因統(tǒng)計量r=-0.707,故P<0.05,接受H1,相關有統(tǒng)計學意義,可認為參加家庭計劃的時間長度和每天的費用之間有負相關關系。【電腦實現(xiàn)】—SPSS線性相關分析:1.數(shù)據(jù)錄入:2.秩轉(zhuǎn)換:3.作散點圖:4.讀散點圖,作線性趨勢判斷:5.作線性相關分析:3.結果及結果輸出:

NonparametricCorrelations四、線性相關分析應用中應注意的問題只有當兩變量有線性趨勢時,才能進行線性相關分析。即:根據(jù)變量間可能的關系,選擇不同的相關分析方法。發(fā)現(xiàn)和處理異常點1.首先繪制散點圖,觀察判斷兩變量間的關系。2.線性相關分析要求的兩個重要條件線性相關分析僅適用于二元正態(tài)分布資料,否則需進行變量變換或采用其它計算方法,如秩相關。兩個變量都是隨機變量,當一個變量的數(shù)值人為選定時不能做相關分析。例:為研究不同溫度下兔肺動脈張力,人為選定四個溫度,作相關分析。3.出現(xiàn)離群值(異常值)時,慎用相關。圖剔除異常值前后的散點圖舉例:兒子身高與樹身高的故事。4.相關關系不一定是因果關系。

兒子身高樹身高時間間接聯(lián)系2)簡單相關=直接聯(lián)系-間接聯(lián)系。注意:1)不要抽任意兩個變量放在一起算相關系數(shù)——在專業(yè)上,只有兩者存在直接聯(lián)系的變量可能存在聯(lián)系。對相關的解釋一定要結合專業(yè)知識,切不可把任意兩個變量拉在一起,盲目下結論!!!(a)(b)5.分層資料盲目合并容易引起假象。6.“相關分析”的結果解釋:統(tǒng)計結論:可推斷兩變量呈“線性相關”的。專業(yè)結論:不能因此推斷兩變量在生物學上有任何聯(lián)系,更不能因為呈因果關系。(1)如果散點圖可見兩隨機變量有線性相關趨勢,且得到的相關系數(shù)r經(jīng)假設檢驗后也得出拒絕H0,即否定總體相關系數(shù)ρ=0的假設,則:(2)如果兩變量經(jīng)線性相關分析,及假設檢驗得到“不能拒絕總體相關系數(shù)ρ

=0”

的結論時,不要輕易下“兩變量無關”的結論。

2)還要觀察散點圖,看兩變量1)應首先看樣本含量是否足夠。即:檢驗功效是否足夠大。

如果不能進行深入分析,則應下結論:“根據(jù)目前數(shù)據(jù)尚不能認為兩變量呈線性相關”曲線相關?是否應進行分層分析?9.2兩個分類變量間的關聯(lián)分析

對兩個反應屬性的分類變量,若有一份隨機樣本,可作交叉分類的頻數(shù)表,利用關于獨立性的檢驗和列聯(lián)系數(shù)表示這兩個變量之間的關聯(lián)性(association)。一、交叉分類2×2列聯(lián)表的關聯(lián)分析例9-3為觀察行為類型與冠心病的關系,某研究組在當?shù)仉S機調(diào)查了3154名居民,對象按行為類型分為A型和B型。對每個個體分別觀察是否為冠心病患者和行為類型兩種屬性,試分析兩種屬性的關聯(lián)性?!举Y料特點】是關于兩個變量的一份隨機樣本。或說:一份隨機樣本,同時按兩種屬性分類,形成一個2×2交叉分類表,也稱的2×2列聯(lián)表。目的:冠心病的有無和行為方式兩個變量之間的相關性,即討論兩個屬性概率分布的關系。如果一種屬性的概率分布與另一種屬性的概率分布無關,則稱這兩種屬性相互獨立(independence),否則稱這兩種屬性之間存在關聯(lián)性(association)。關于隨機變量獨立性的定理:

設X、Y為二維離散型隨機變量,則X、Y相互獨立的充要條件是:對于任何i、j=1,2,…,有即:2×2交叉分類資料關聯(lián)分析的基本思想:統(tǒng)計思想:從概率角度出發(fā),獨立是指交叉分類表的每一個格子中同時具有兩種屬性的聯(lián)合概率等于相應屬性的邊計概率的乘積。即:故,獨立性檢驗實際上就是考察是否成立。1.假設檢驗證實兩變量是否存在關聯(lián):2.計算關聯(lián)系數(shù)(associationcoefficient,r)

以表示關聯(lián)的程度:對2×2交叉列聯(lián)表而言,r介于0和之間,其數(shù)值越大,說明兩變量的關聯(lián)程度越高。關于交叉分類資料的獨立性檢驗比較兩獨立樣本率的假設檢驗試區(qū)別:必須注意的是:這兩類問題的研究目的、設計方案、數(shù)據(jù)結構以及最終對結果的解釋都是不同的。答:檢驗過程:【電腦實現(xiàn)】

—SPSS關聯(lián)性分析:1.數(shù)據(jù)錄入:2.加權:3.關聯(lián)性分析的步驟:4.結果及結果輸出:

【結果報告】為探討冠心病患病與行為類型之間的關聯(lián),對3154例居民進行了分析,結果如下表示:以Pearson獨立性檢驗,=39.900,P<0.001,r=0.112。結果表明,冠心病患病與行為類型間存在著一定的聯(lián)系。二、2×2配對資料的關聯(lián)分析例9-4

研究者對103例患者進行了影像學檢驗(A)和生化檢驗(B),數(shù)據(jù)如下,試分析兩種檢驗結果的關聯(lián)性。【資料特點】是關于一份隨機樣本,同時按兩種屬性分類是2×2配對資料。目的:了解兩種方法的結果之間是否有關聯(lián)。方法:兩種屬性的關聯(lián)性分析。檢驗統(tǒng)計量:答:檢驗過程:三、多分類資料的關聯(lián)分析例9-5

有人在某地隨機抽取2500名居民,記錄其民族與血型,資料見下表,試問民族和血型是否有關?【資料特點】多組資料的關聯(lián)設計:一份樣本,按兩種屬性交叉分類,統(tǒng)計頻數(shù)。目的:了解兩種屬性間是否有關聯(lián)。方法:多組資料—兩種屬性的關聯(lián)性分析。檢驗統(tǒng)計量:多分類資料的關聯(lián)系數(shù):對多分類資料列聯(lián)表而言,r介于0和之間,其數(shù)值越大,說明兩變量的關聯(lián)程度越高。答:檢驗過程:【電腦實現(xiàn)】

—SPSS關聯(lián)性分析:1.數(shù)據(jù)錄入:2.加權:3.關聯(lián)性分析:4.結果及結果輸出:

四、

偏相關在研究兩個事物或現(xiàn)象之間的關系時,要充分考慮其它事物和現(xiàn)象對兩者之間的影響;偏相關的優(yōu)勢就是在排除混雜因素的作用后,再評價兩個事物或現(xiàn)象之間的聯(lián)系。例:考察消費者信心指數(shù)值和年齡的相關性,但考慮家庭月收入對其有一定的影響。結果輸出:在控制家庭收入的作用后,消費者總信息指數(shù)和年齡之間Pearson相關系數(shù)r=-0.216,經(jīng)檢驗有統(tǒng)計學意義(P=0.009),可以認為二者之間存在負相關關系。小結相關是測量變量間的相互聯(lián)系或關聯(lián)的指標,要求變量資料滿足獨立隨機性。在線性相關分析時必須先作散點圖,發(fā)現(xiàn)有線性趨勢后,再作進一步的分析。依據(jù)不同資料的特點分別采用Pearson相關分析,Spearman秩相關分析,以及分類資料的檢驗的關聯(lián)分析方法。相關和關聯(lián)是兩變量之間在數(shù)量上的關聯(lián),不能據(jù)此推論兩變量有生物學的聯(lián)系,或有因果關系。相關有可能只是伴隨關系。兩樣本資料的關聯(lián)性分析數(shù)據(jù)類型定量資料定性資料雙變量正態(tài)分布非雙變量正態(tài)分布雙變量一定量一有序分類變量資料交叉分類2×22×2配對R×C表兩有序分類一致性檢驗Pearson積矩相關Pearson積矩相關系數(shù)rSpearman秩相關Spearman秩相關系數(shù)rs

ф系數(shù)

CramerV系數(shù)

Pearson列聯(lián)系數(shù)列聯(lián)相關Gamma系數(shù)Gamma法Kappa一致性檢驗Kappa系數(shù)12SPSS軟件中“相關”功能:1.Pearson積矩相關分析適用條件:兩變量呈獨立、隨機及正態(tài)分布的資料。表示方法:相關系數(shù)r注意事項:一定要先繪制散點圖,看出兩變量間有線性趨勢時,再計算積差相關系數(shù)。不可用相關系數(shù)檢驗所得P值的大小來判斷有否線性關系。2.Spearman秩相關分析適用條件:

—兩獨立、隨機變量不滿足正態(tài)分布的

—等級資料表示方法:相關系數(shù)3.分類資料的關聯(lián)分析—檢驗適用條件:定性資料(一份隨機樣本,同時按兩種屬性分類),當兩變量都是無序分類變量或一個是無序分類變量、另一個是有序分類變量時。表示方法:列聯(lián)系數(shù)案例分析一案例9-2

有研究者欲評價兩種量表對某疾病的嚴重程度得分的一致性,評分者A用量表1,評分者B用量表2,對同一批患者(5人)進行了評分,結果見教材表9-8,研究者在Excel中采用Pearson函數(shù)計算了兩次評分的相關系數(shù),結果兩者相關系數(shù)非常之高(r=0.8663),因此認為,兩種量表得分是一致的。.請問:該研究的目的與設計方法吻合嗎?就本例的設計而言,存在任何不妥嗎?本例可否采用Pearson相關系數(shù)進行計算?計算的結果正確嗎?推論正確嗎?“相關”:1.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論