三種簡(jiǎn)單相關(guān)分析與SAS實(shí)現(xiàn).ppt_第1頁(yè)
三種簡(jiǎn)單相關(guān)分析與SAS實(shí)現(xiàn).ppt_第2頁(yè)
三種簡(jiǎn)單相關(guān)分析與SAS實(shí)現(xiàn).ppt_第3頁(yè)
三種簡(jiǎn)單相關(guān)分析與SAS實(shí)現(xiàn).ppt_第4頁(yè)
三種簡(jiǎn)單相關(guān)分析與SAS實(shí)現(xiàn).ppt_第5頁(yè)
已閱讀5頁(yè),還剩53頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、三種簡(jiǎn)單相關(guān)分析與SAS實(shí)現(xiàn),醫(yī)學(xué)統(tǒng)計(jì)學(xué)教研室 柳偉偉,相關(guān),在生物醫(yī)學(xué)科研與實(shí)踐中,經(jīng)常涉及兩個(gè)變量之間的關(guān)系研究,以說(shuō)明事物發(fā)生、發(fā)展及變化的原因或變量間依存變化的數(shù)量關(guān)系。 例如: 醫(yī)學(xué)上人的身高與體重的關(guān)系、年齡與血壓的關(guān)系等; 藥物劑量與反應(yīng)的關(guān)系等; 病程與療效的關(guān)系。 相關(guān)與回歸分析是研究這種關(guān)系的統(tǒng)計(jì)方法,屬雙變量分析(bivariate analysis)范疇。,相關(guān)分析的任務(wù) 說(shuō)明客觀事物或現(xiàn)象相互間數(shù)量關(guān)系的密切程度和方向,并用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)表示出來(lái)。 而把客觀事物或現(xiàn)象間的數(shù)量依存關(guān)系表示出來(lái),則是回歸分析所要解決的問(wèn)題。,三種簡(jiǎn)單相關(guān),1. Pearson直線相關(guān),2

2、. Spearman秩相關(guān),3. Kendall等級(jí)相關(guān),Pearson直線相關(guān),了解兩個(gè)隨機(jī)變量X與Y之間相關(guān)關(guān)系及其密切程度,可用直線相關(guān)分析方法。 直線相關(guān)(linear regression)又稱簡(jiǎn)單相關(guān),此方法適用于X和Y都服從正態(tài)分布的資料。,Pearson直線相關(guān),直線相關(guān)的概念 直線相關(guān)的定量描述 相關(guān)系數(shù)的假設(shè)檢驗(yàn) 相關(guān)系數(shù)的區(qū)間估計(jì) 直線相關(guān)分析的一般步驟 直線相關(guān)分析的注意事項(xiàng),Pearson直線相關(guān),1. 定義 如果兩個(gè)隨機(jī)變量中,當(dāng)其中一個(gè)變量由小到大變化時(shí),另一個(gè)變量也相應(yīng)地由小到大(或由大到小)變化,并且其相應(yīng)變化的散點(diǎn)圖在直角坐標(biāo)系中呈現(xiàn)直線趨勢(shì),則稱這兩個(gè)隨機(jī)

3、變量存在直線相關(guān)。 推斷兩個(gè)隨機(jī)變量是否存在直線相關(guān)關(guān)系以及描述這種相關(guān)關(guān)系大小的分析方法就是直線相關(guān)分析(linear correlation analysis),也稱簡(jiǎn)單相關(guān)分析(simple correlation analysis)。,Pearson直線相關(guān),直線相關(guān)圖示,Pearson直線相關(guān),直線相關(guān)分析的適用條件 (1) 兩個(gè)變量均為服從正態(tài)分布的隨機(jī)變量,即要求他們服從雙變量正態(tài)分布; (2) 每對(duì)數(shù)據(jù)對(duì)應(yīng)的點(diǎn)在直角坐標(biāo)系中呈現(xiàn)直線趨勢(shì)。,Pearson直線相關(guān),2.直線相關(guān)的定量描述 相關(guān)系數(shù)的意義 在分析兩個(gè)事物間的關(guān)系時(shí),常常要了解兩者間的數(shù)量關(guān)系是否密切。說(shuō)明兩個(gè)變量

4、間關(guān)系密切程度和方向的統(tǒng)計(jì)指標(biāo)稱相關(guān)系數(shù),又稱pearson相關(guān)系數(shù),或積差相關(guān)系數(shù)。 樣本相關(guān)系數(shù)用r表示,總體相關(guān)系數(shù)用表示。,Pearson直線相關(guān),計(jì)算相關(guān)系數(shù)的基本公式是: 式中,lXX 、 lYY 分別表示X、Y 的離均差平方和, lXY 表示X與Y的離均差乘積和。,Pearson直線相關(guān),相關(guān)系數(shù)的意義 相關(guān)系數(shù)的符號(hào)反映兩變量間的相關(guān)方向: r0為正相關(guān),r0為負(fù)相關(guān) 相關(guān)系數(shù)的絕對(duì)值反映兩變量相關(guān)的密切程度: |r|越大,相關(guān)越密切。 r = 1 完全正相關(guān) r = -1 完全負(fù)相關(guān) r = 0 零相關(guān),應(yīng)該注意的是,r所表示的只是X與Y間的直線關(guān)系,若兩變量間為曲線關(guān)系時(shí),

5、即使所有的點(diǎn)都在曲線上,其r值也并不等于1。例如下圖所示Y=x2的曲線,將各X值代入,得: X 0 1 2 3 4 Y 1 2 4 5 16,兩變量的相關(guān)系數(shù)為0.933,Pearson直線相關(guān),例 隨機(jī)測(cè)量了13名8歲健康男童的體重與心臟橫徑,結(jié)果見(jiàn)下表。試進(jìn)行直線相關(guān)分析。,Pearson直線相關(guān),相關(guān)系數(shù)的計(jì)算 X=301.5 X 2 =7072.75 Y=116.3 Y 2 =1044.63 XY = 2713.65 lXX = X 2 (X)2/n =7.72.75-301.52/13 = 80.2692 lYY = Y 2 (Y)2/n =1044.63-116.32/13 = 4

6、.1923 lXY = XY (X)(Y)/n =2713.65-301.5116.3/13=16.3846,Pearson直線相關(guān),相關(guān)系數(shù)的統(tǒng)計(jì)學(xué)意義檢驗(yàn) 檢驗(yàn)假設(shè)如下:,1. 直接查表法:求得 r 后,按 = n-2查r界值表。 本例,r=0.8932, P0.01,說(shuō)明總體相關(guān)系數(shù)與0之間的差別有統(tǒng)計(jì)學(xué)意義,Pearson直線相關(guān),2. t 檢驗(yàn) 若H0成立,從 =0的總體中抽樣,所得到的樣本相關(guān)系數(shù) r 呈對(duì)稱分布(近似正態(tài)分布),此時(shí)可用 t 檢驗(yàn)。,本例, = n-2 =11 按 = 11查t界值表,得P0.01 ,說(shuō)明總體相關(guān)系數(shù)與0之間的差別有統(tǒng)計(jì)學(xué)意義,1,Pearson直

7、線相關(guān),Pearson直線相關(guān),相關(guān)系數(shù)的區(qū)間估計(jì) 從相關(guān)系數(shù) 不等于0的總體中抽樣,樣本相關(guān)系數(shù)的分布是偏態(tài)的。,Pearson直線相關(guān),z 近似服從均數(shù)為 , 標(biāo)準(zhǔn)誤為 的正態(tài)分布。,Z 變換,Pearson直線相關(guān),將 r 變換為 z ; 根據(jù) z 服從正態(tài)分布,估計(jì) z 的可信區(qū)間; 再將 z 變換回 r 。,Pearson直線相關(guān),直線相關(guān)分析的一般步驟 1. 繪制散點(diǎn)圖,觀察兩變量的變化趨勢(shì); 2. 若散點(diǎn)圖呈直線趨勢(shì),計(jì)算相關(guān)系數(shù); 3. 對(duì)相關(guān)系數(shù)進(jìn)行假設(shè)檢驗(yàn); 4. 必要時(shí)對(duì)總體相關(guān)系數(shù)進(jìn)行區(qū)間估計(jì)。,Pearson直線相關(guān),直線相關(guān)分析的注意事項(xiàng) 1. 直線相關(guān)分析要求兩個(gè)

8、變量均為服從正態(tài)分布的隨機(jī)變量,實(shí)際數(shù)據(jù)要滿足這一前提。 2. 分析前必須先作散點(diǎn)圖,變化不呈直線趨勢(shì)時(shí)不宜作直線相關(guān)。 3. 要注意相關(guān)的有效范圍。相關(guān)系數(shù)的意義僅限于原資料中兩個(gè)變量值的實(shí)測(cè)范圍,超出這一范圍就不一定保持現(xiàn)有的直線關(guān)系了。,Pearson直線相關(guān),4. 作相關(guān)分析時(shí),必須考慮異常點(diǎn)的影響。 5. 相關(guān)分析要有實(shí)際意義,兩變量相關(guān)并不代表兩變量間一定存在內(nèi)在聯(lián)系,相關(guān)關(guān)系不一定是因果關(guān)系。有時(shí)兩個(gè)變量雖然存在直線關(guān)系,但可能是同時(shí)受另外一個(gè)因素的影響,二者均隨另一個(gè)因素的變化而變化,它們本身卻不一定存在因果關(guān)系。 年齡 工齡越長(zhǎng) 血壓越高,Pearson直線相關(guān),6. 分層資

9、料不宜盲目合并進(jìn)行相關(guān)分析。只有確定各層研究對(duì)象具有同質(zhì)基礎(chǔ)才能合并。 7. 不要把假設(shè)檢驗(yàn)中相關(guān)顯著性大小理解為相關(guān)程度的大小。若經(jīng)假設(shè)檢驗(yàn)推斷 0,說(shuō)明兩變量間存在一定的直線關(guān)系。相關(guān)的密切程度可參照下面標(biāo)準(zhǔn)判斷:|r|0.7為高度相關(guān)。,等級(jí)相關(guān),1. 定義: 用雙變量等級(jí)數(shù)據(jù)作直線相關(guān)分析 2. 適用范圍: (1)不服從雙變量正態(tài)分布 (2)總體分布類型未知 (3)原始數(shù)據(jù)用等級(jí)表示,等級(jí)相關(guān),Spearman秩相關(guān) Kendall等級(jí)相關(guān),Spearman秩相關(guān),Spearman秩相關(guān) 對(duì)于不符合正態(tài)分布的資料,不用原始數(shù)據(jù)計(jì)算相關(guān)系數(shù),而是將原始觀察值由小到大編秩,然后根據(jù)秩次來(lái)計(jì)

10、算秩相關(guān)系數(shù)。 通過(guò)秩相關(guān)系數(shù)rs來(lái)說(shuō)明兩個(gè)變量間相關(guān)關(guān)系的密切程度,Spearman秩相關(guān),設(shè)有n例觀察對(duì)象同時(shí)取得兩個(gè)測(cè)定值(Xi,Yi),分別按Xi、 Yi(i=1,2,3,n)的值由小到大編秩為1,2,3 ,n。用RXi表示Xi的秩次, RYi表示Yi的秩次。因?yàn)閚是固定的,所以總秩相等即,平均秩,但Xi的秩順序不一定與Yi的秩順序相同,故所對(duì)應(yīng)的RXi與RYi不一定相等。,Spearman秩相關(guān),只要求出 就可按以下公式計(jì)算秩相關(guān)系數(shù)rs,令同一觀察對(duì)象的兩個(gè)秩次差為:,得到秩相關(guān)系數(shù)的簡(jiǎn)化公式為:,式中n為 觀察例數(shù)。rs的取值為| rs |1。,Spearman秩相關(guān),相同秩次較

11、多時(shí),TX(或TY)(t3t)/12,t為X(或Y)中相同秩次的個(gè)數(shù)。,例 某地方病防治所隨機(jī)抽樣調(diào)查了某縣10個(gè)村飲水中氟含量與氟骨癥患病率間的關(guān)系,飲用水中氟含量(X )與氟骨癥患病率(Y ),Spearman秩相關(guān),Spearman秩相關(guān)分析步驟: 1.編秩 將各Xi由小到大編秩得RXi,列于表中第(3)列。采用相同的排秩規(guī)則將Yi的記分列于表中第(5)列RYi。當(dāng)遇到相等的測(cè)定值時(shí)則用平均秩。如Y2=Y4=22.64,按編秩為3和4,這兩個(gè)測(cè)定值的平均秩為(3+4)/2=3.5,故有RY2= RY4=3.5。 2.秩次差 求每例觀察對(duì)象的秩次差 列于表中第(6)列,應(yīng)有 。本例的合計(jì)為

12、 表示排秩無(wú)誤,可作核對(duì)之用。,Spearman秩相關(guān),3.計(jì)算秩次之差的平方并求和 計(jì)算出的 列于表中第(7)列。本例有,4.計(jì)算秩相關(guān)系數(shù)rs 本例 代入簡(jiǎn)化公式中得到:,簡(jiǎn)化公式適用于資料中取相同秩次的例數(shù)不多的情況,但如果取相同秩次的例數(shù)較多時(shí),就使得計(jì)算的結(jié)果偏差較大,這時(shí)應(yīng)用原始公式計(jì)算秩相關(guān)系數(shù)。,Spearman秩相關(guān),Spearman秩相關(guān)系數(shù)的假設(shè)檢驗(yàn) 對(duì)總體相關(guān)系數(shù)的假設(shè)檢驗(yàn)的方法有兩種: 1.查表法 當(dāng)n50時(shí),查“rs界值表”進(jìn)行假設(shè)檢驗(yàn)。 2.計(jì)算法 當(dāng)n50時(shí),按下式計(jì)算檢驗(yàn)統(tǒng)計(jì)量u:,查標(biāo)準(zhǔn)正態(tài)分布表,確定P 值。,Spearman秩相關(guān),對(duì)前面例子得到的秩相關(guān)

13、系數(shù)進(jìn)行假設(shè)檢驗(yàn) 檢驗(yàn)步驟: 1.建立無(wú)效假設(shè)和確定檢驗(yàn)水準(zhǔn) H0:s=0,即飲用水中氟含量與氟骨癥患病率間無(wú)相關(guān)關(guān)系 H1:s0,即飲用水中氟含量與氟骨癥患病率間有相關(guān)關(guān)系=0.05 2.計(jì)算秩相關(guān)系數(shù)rs=0.918,Spearman秩相關(guān),3.確定P 值并下結(jié)論: 查表得到rs,0.05/2(10)=0.648,小于樣本統(tǒng)計(jì)量rs=0.918,故按=0.05水準(zhǔn)拒絕H0,判斷rs系來(lái)自s0的總體,從專業(yè)上分析,可以認(rèn)為飲水中氟含量與氟骨癥患病率之間存在著正相關(guān)關(guān)系。,Kendall等級(jí)相關(guān),Kendall等級(jí)相關(guān) 當(dāng)兩個(gè)變量都用等級(jí)來(lái)表示時(shí),用一個(gè)統(tǒng)計(jì)量來(lái)衡量它們的等級(jí)不一致的情況。 K

14、endall等級(jí)相關(guān)系數(shù)也在1之間變動(dòng)。完全不相關(guān)時(shí),=0。它不僅可對(duì)兩個(gè)變量作等級(jí)相關(guān)分析,而且可對(duì)多個(gè)變量作等級(jí)相關(guān)分析,Kendall等級(jí)相關(guān),Kendall等級(jí)相關(guān)的分析步驟: 1.先將第一個(gè)變量(x)和第二個(gè)變量(y)由小到大列出等級(jí),數(shù)值相同時(shí)取平均等級(jí)。 2.把兩變量的等級(jí)列出,以x的等級(jí)為順序排列。 3.計(jì)算Kendall等級(jí)相關(guān)系數(shù),例 下表是一些環(huán)狀化合物的相對(duì)分子質(zhì)量與用藥后大鼠24h膽汁排泄量資料,要研究相對(duì)分子質(zhì)量與膽汁排泄量有無(wú)關(guān)系。,環(huán)狀化合物的相對(duì)分子質(zhì)量與大鼠24h膽汁排泄量關(guān)系,Kendall等級(jí)相關(guān),1.將第一個(gè)變量即相對(duì)分子質(zhì)量(x)和第二個(gè)變量即膽汁排

15、泄量(y)由大到小列出等級(jí),數(shù)值相同時(shí)取平均等級(jí)見(jiàn)上表等級(jí)列。 2.把兩變量的等級(jí)列成下表形式,即以x的等級(jí)為順序排列。,Kendall等級(jí)相關(guān)計(jì)算表,Kendall等級(jí)相關(guān),表中第1,2行是從第一張表中轉(zhuǎn)抄過(guò)來(lái)的,但順序是按x的等級(jí)從小到大排列的。第3行是對(duì)應(yīng)于每一個(gè)排泄量(y)等級(jí)的右邊的更?。òㄏ嗟龋┑牡燃?jí)個(gè)數(shù)。 例如,對(duì)于y的等級(jí)2,在它右邊只有一個(gè)等級(jí)(即1)比它小,所以在等級(jí)2的下面寫1,也就是第3行第一個(gè)數(shù)字是1.而對(duì)應(yīng)于第2行的等級(jí)1,在它右邊沒(méi)有更小的等級(jí),所以在它下面即第3行第2個(gè)數(shù)字為0,其余以此類推。,Kendall等級(jí)相關(guān),第4行則是應(yīng)對(duì)于該列的y的等級(jí)Ry右邊更大

16、的等級(jí)個(gè)數(shù)。第3行的合計(jì)為11,記為負(fù)的;第4行的合計(jì)為34,記為正的。兩者的代數(shù)和稱為S,即S=34-11=23.,Kendall等級(jí)相關(guān),3.計(jì)算Kendall等級(jí)相關(guān)系數(shù),實(shí)際上分母就是等級(jí)對(duì)子數(shù),例中共有10個(gè)數(shù),則對(duì)子數(shù)為:,Kendall等級(jí)相關(guān),從S的計(jì)算過(guò)程可知,S值最小是 ,最大是 ,因此值一定在-1和+1之間。 完全負(fù)相關(guān)是-1, 完全正相關(guān)是+1, 不相關(guān)則為0。,Kendall等級(jí)相關(guān),當(dāng)兩變量等級(jí)呈完全正相關(guān)時(shí),計(jì)算S值過(guò)程如下表所示,假設(shè)的完全正相關(guān)資料計(jì)算S值,從表中可以看出S=450=45,Kendall等級(jí)相關(guān),當(dāng)兩變量等級(jí)呈完全負(fù)相關(guān)時(shí),計(jì)算S值過(guò)程如下表所

17、示,假設(shè)的完全正相關(guān)資料計(jì)算S值,從表中可以得出S=045=-45,Kendall等級(jí)相關(guān),4. 的假設(shè)檢驗(yàn)。 Kendall等級(jí)相關(guān)的無(wú)效假設(shè)是兩變量的等級(jí)不相關(guān),即在無(wú)效假設(shè)成立時(shí)S期望值為0或者說(shuō)的期望值為0,如果沒(méi)有相同等級(jí),S的方差為:,Kendall等級(jí)相關(guān),如果有相同等級(jí),那么S的方差為:,式中:t為x的相同等級(jí)個(gè)體數(shù);u為y的相同等級(jí)個(gè)體數(shù)。,Kendall等級(jí)相關(guān),假設(shè)檢驗(yàn)可用含有連續(xù)性校正的正態(tài)近似檢驗(yàn):,例中含有相同等級(jí),故其方差為:,Kendall等級(jí)相關(guān),故,得,因u 1.96,P 0.05,結(jié)論:分子量等級(jí)和排泄量等級(jí)是相關(guān)的。,Kendall等級(jí)相關(guān),若把此例當(dāng)作無(wú)重復(fù)等級(jí),用公式 計(jì)算方差,則為,則得,u 1.96,P 0.05,結(jié)論相同。,例 題,例1 隨機(jī)測(cè)量了13名8歲健康男童的體重與心臟橫徑,結(jié)果見(jiàn)下表。試進(jìn)行直線相關(guān)分析。,例 題,data a1; inp

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論