版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、線性相關(guān)與回歸 授課教師:吳立娟授課教師:吳立娟 流行病與衛(wèi)生統(tǒng)計學(xué)系流行病與衛(wèi)生統(tǒng)計學(xué)系第一節(jié) 直線相關(guān) 直線相關(guān)的意義 直線相關(guān)系數(shù)的計算 直線相關(guān)系數(shù)的假設(shè)檢驗 身高與體重是否有關(guān)? 體溫與脈搏是否有關(guān)? 產(chǎn)前檢查與嬰兒體重?背景背景乙肝病毒感染與乙肝?小孩的身高與小樹的樹高?背景 相關(guān)就是用于研究和解釋兩個變量之間相相關(guān)就是用于研究和解釋兩個變量之間相互關(guān)系的互關(guān)系的, ,給兩個變量定性。給兩個變量定性。 例例1 1 某地某地1212名一年級女大學(xué)生的體重(名一年級女大學(xué)生的體重(kgkg)與肺活量)與肺活量(L)(L)數(shù)據(jù)見下表數(shù)據(jù)見下表1 1。 表1 某地12名一年級女大學(xué)生的體重
2、與肺活量數(shù)據(jù)編號編號體重體重(kg)(kg)肺活量肺活量(L)(L)1 142422.552.552 242422.22.23 346462.752.754 446462.42.45 546462.82.86 650502.812.817 750503.413.418 850503.13.19 952523.463.46101052522.852.85111158583.53.5121258583.313.31 問題問題: :怎么判斷這兩個變量是否相關(guān)、如何相關(guān)及如怎么判斷這兩個變量是否相關(guān)、如何相關(guān)及如何度量相關(guān)?何度量相關(guān)?散點圖的特點:1.呈現(xiàn)某種趨勢2.變化方向一致圖1 12名女大學(xué)生
3、體重和肺活量的散點圖 直線相關(guān)的意義直線相關(guān)的意義 直線相關(guān)概念直線相關(guān)概念用于描述兩個變量之間的線性相關(guān)程度,又稱簡單相關(guān)。用于描述兩個變量之間的線性相關(guān)程度,又稱簡單相關(guān)。 相關(guān)種類相關(guān)種類根據(jù)散點圖中點的分布即線性相關(guān)的性質(zhì)和相關(guān)之間的密根據(jù)散點圖中點的分布即線性相關(guān)的性質(zhì)和相關(guān)之間的密切程度,分為:切程度,分為: 正相關(guān)正相關(guān) 負(fù)相關(guān)負(fù)相關(guān) 不相關(guān)不相關(guān) 散點圖可幫助了解線性相關(guān)的方向和相關(guān)的密切程度散點圖可幫助了解線性相關(guān)的方向和相關(guān)的密切程度 正相關(guān):兩個變量之間伴隨同時增大或同時減小的直線趨勢稱為線性正相關(guān)(linear positive correlation)。 負(fù)相關(guān):如果
4、研究指標(biāo)之間的變化關(guān)系是相反的,這種直線變化趨勢稱為線性負(fù)相關(guān)(linear negative correlation)。 零相關(guān):如果兩變量之間無任何直線伴隨變化趨勢。直線相關(guān)系數(shù)的計算l 又稱又稱PearsonPearson積矩相關(guān)系數(shù),是定量描述兩個積矩相關(guān)系數(shù),是定量描述兩個變量間線性關(guān)系的密切程度與相關(guān)方向的統(tǒng)計變量間線性關(guān)系的密切程度與相關(guān)方向的統(tǒng)計指標(biāo),沒有單位,其值介于指標(biāo),沒有單位,其值介于-1-1和和1 1之間之間 。l符號符號r r表示樣本相關(guān)系數(shù);表示樣本相關(guān)系數(shù);l符號符號表示其總體相關(guān)系數(shù)。表示其總體相關(guān)系數(shù)。相關(guān)系數(shù)的計算相關(guān)系數(shù)的計算11122nYYnXXnYY
5、XXlllrYYXXXYnYXXYYYXXnYYYYnXXXX222222計算 r 時,分別可用上述公式代替。算得:X, Y, XY, X2, Y2,將這些數(shù)值入公式即可的方差)的方差(的協(xié)方差和)(YYXXr 用標(biāo)準(zhǔn)差標(biāo)化了量綱的協(xié)方差 r 沒有單位,其數(shù)值介于 -1與 +1之間。 相關(guān)系數(shù)為正,表示Y 隨由X 的增加而增加,稱為正相關(guān);當(dāng)r = 1時,稱為完全正相關(guān); 相關(guān)系數(shù)為負(fù),表示Y 隨著X 的增加反而減少,稱為負(fù)相關(guān)。當(dāng)r = -1時,稱為完全負(fù)相關(guān)。注:而當(dāng)注:而當(dāng)r r 接近接近0 0或等于或等于0 0時,只說明兩個變量間的線性時,只說明兩個變量間的線性相關(guān)性很差,但并不是說兩
6、變量間不可能存在其他的相相關(guān)性很差,但并不是說兩變量間不可能存在其他的相關(guān)性關(guān)性( (比如曲線相關(guān)等比如曲線相關(guān)等) )例2 某校測得15名女中學(xué)生的胸圍(cm)和肺活量(ml),數(shù)據(jù)見如下表2所示,試做相關(guān)分析.編號胸圍X肺活量YX2Y2XY1722400518457600001728002682200462448400001496003782750608475625002145004661800435632400001188005702700490072900001890006652500422562500001625007742650547670225001961008642100409
7、64410000134400969200047614000000138000107126005041676000018460011652300422552900001495001260190036003610000114000137024004900576000016800014752500562562500001875001569235047615522500162150合計10363515071858835675002441450 計算例子中的相關(guān)系數(shù) r222()/7 1 8 5 81 0 3 6/ 1 53 0 4 .9 3 3 3xxlXXn222()/8356750035150/1
8、51199333.33yylYYn()()1 0 3 63 5 1 5 02 4 4 1 4 5 01 3 7 5 6 .6 6 71 5xyXYlX Yn13756.6670.7194304.93331199333.33xyxxyylrll 三、相關(guān)系數(shù)的三、相關(guān)系數(shù)的假假設(shè)檢驗設(shè)檢驗 例子中所求得的 r = 0.7194是一個由樣本數(shù)據(jù)計算出的統(tǒng)計指標(biāo), 必然有抽樣誤差。在=0的總體里是否有可能遇到 r = 0.7194 的樣本呢?即能否用抽樣誤差來解釋 r = 0.7194呢?統(tǒng)計推斷-假設(shè)檢驗!相關(guān)系數(shù)的假設(shè)檢驗 基本思想假設(shè)在一個X與Y無關(guān)總體中做隨機抽樣,由于抽樣誤差影響,所得的樣
9、本相關(guān)系數(shù)也常常不等于0。因此要判斷兩個變量X與Y是否真的存在相關(guān)關(guān)系,仍需根據(jù)r做總體相關(guān)系數(shù)=0的假設(shè)檢驗。 前提:在假設(shè)X和Y服從二元二元正態(tài)分布正態(tài)分布的前提下進(jìn)行。三、相關(guān)系數(shù)的假設(shè)檢驗三、相關(guān)系數(shù)的假設(shè)檢驗假設(shè)檢驗: H0 : = 0, H1: 0n決策:若P=0.05,拒絕零假設(shè),認(rèn)為兩個變量間的相關(guān)性具有統(tǒng)計學(xué)意義;反之,不能決絕零假設(shè)。n方法一:直接查r臨界值表(pearson 相關(guān)系數(shù)),自由度是n-2n方法二:采用自由度是n-2 的t檢驗前提:在假設(shè)X和Y服從二元二元正態(tài)分布正態(tài)分布的前提下進(jìn)行。三、相關(guān)系數(shù)的假設(shè)檢驗三、相關(guān)系數(shù)的假設(shè)檢驗假設(shè)檢驗: H0 : = 0,
10、H1: 0n決策:若P r0.05(13), 故 0.05,拒絕H0 結(jié)論:可認(rèn)為在結(jié)論:可認(rèn)為在 0 0的總體中抽取的樣本,的總體中抽取的樣本,r r = 0.7194 = 0.7194的可能性小于的可能性小于5%5%。因此,拒絕。因此,拒絕H H0 0 。即可認(rèn)為胸圍與肺活即可認(rèn)為胸圍與肺活量間存在線性相關(guān)關(guān)系。量間存在線性相關(guān)關(guān)系。0.05215213n方法一方法一: : 查查“相關(guān)系數(shù)界值表相關(guān)系數(shù)界值表”方法二方法二: t: t檢驗(實際應(yīng)用更普遍)檢驗(實際應(yīng)用更普遍)Sr為樣本相關(guān)系數(shù)r的標(biāo)準(zhǔn)誤當(dāng)H0成立時,統(tǒng)計量 服從于自由度為自由度為n n-2-2的的t t分布分布rrSrt
11、0并比較|tr|與臨界值的大小相關(guān)系數(shù)的可信區(qū)間相關(guān)系數(shù)的可信區(qū)間rrZ11ln21 統(tǒng)計推斷包括假設(shè)檢驗和區(qū)間估計,前面已學(xué)過相關(guān)系統(tǒng)計推斷包括假設(shè)檢驗和區(qū)間估計,前面已學(xué)過相關(guān)系數(shù)的假設(shè)檢驗,假設(shè)檢驗只是回答了總體相關(guān)系數(shù)數(shù)的假設(shè)檢驗,假設(shè)檢驗只是回答了總體相關(guān)系數(shù) 是否是否存在的問題,如果想知道的存在的問題,如果想知道的 大致范圍,就需要計算的大致范圍,就需要計算的 可信區(qū)間可信區(qū)間。 由于由于r r呈非正態(tài)分布,故不能直接用呈非正態(tài)分布,故不能直接用r r求可信區(qū)間,而求可信區(qū)間,而是首先對是首先對r r作作Z Z轉(zhuǎn)換,以消除這種偏態(tài)轉(zhuǎn)換,以消除這種偏態(tài) 轉(zhuǎn)換后的轉(zhuǎn)換后的Z Z統(tǒng)計量服
12、從方差為統(tǒng)計量服從方差為 的正態(tài)分的正態(tài)分布,用下式計算布,用下式計算Z Z統(tǒng)計量總體均數(shù)的統(tǒng)計量總體均數(shù)的100100(1- 1- )% %可可信區(qū)間。當(dāng)信區(qū)間。當(dāng) 時,即為時,即為95%95%可信區(qū)間??尚艆^(qū)間。1 / (3 )n 0 . 0 53/3/2/2/nzzZnzzZUL最后,對此區(qū)間的上下限作反變換,最后,對此區(qū)間的上下限作反變換,11112222UULLzzUzzLeeee 例1 測得某地15名正常成年人血鉛X(mmol/L)和24小時尿鉛Y(mmol/L)如表1,試分析血鉛與24小時尿鉛之間是否直線相關(guān)?編號編號X XY YXYXYX X2 2Y Y2 21 10.110.
13、110.140.140.01540.01540.01210.01210.01960.01962 20.250.250.250.250.06250.06250.06250.06250.06250.06253 30.230.230.280.280.06440.06440.05290.05290.07840.07844 40.240.240.250.250.06000.06000.05760.05760.06250.06255 50.260.260.280.280.07280.07280.06760.06760.07840.07846 60.090.090.100.100.00900.00900.0
14、0810.00810.01000.01007 70.250.250.270.270.06750.06750.06250.06250.07290.07298 80.060.060.090.090.00540.00540.00360.00360.00810.00819 90.230.230.240.240.05520.05520.05290.05290.05760.057610100.330.330.300.300.09900.09900.10890.10890.09000.090011110.150.150.160.160.02400.02400.02250.02250.02560.025612
15、120.040.040.050.050.00200.00200.00160.00160.00250.002513130.200.200.200.200.04000.04000.04000.04000.04000.040014140.340.340.320.320.10880.10880.11560.11560.10240.102415150.220.220.240.240.05280.05280.04840.04840.05760.0576合計合計3.003.003.173.170.73880.73880.71680.71680.76810.7681表1 15例志愿者的血鉛和24小時尿鉛測量值
16、9787. 0)1517. 37681. 0)(1537168. 0(1517. 337388. 022r 例1 算得r=0.9787,試估計總體相關(guān)系數(shù)95%的可信區(qū)間。),的可信區(qū)間為(數(shù)故血鉛與尿鉛總相關(guān)系的上限:的下限:),(),(的可信區(qū)間為的0.9930.93595%993.01e1-e1e1-e935.01e1-e1e1-e832.2700.13-151.96266.23-151.96-266.2%95266.2)9787.019787.01ln(21)11ln(212.832*22.832*22z2z1.700*21.700*22z2zUULLzrrz線性相關(guān)分析注意事項線性相
17、關(guān)分析注意事項 1、散點圖輔助我們直觀的審視數(shù)據(jù)有無線性趨勢 2、兩變量皆隨機變量,服從二元正態(tài)分布 3、其它種類的相關(guān)不能由線性相關(guān)系數(shù)準(zhǔn)確的測量出來,一個接近于0的線性相關(guān)系數(shù)并不意味著這兩個變量間無相關(guān),只能說明無線性相關(guān) 下面圖中顯示的是兩個變量細(xì)菌生長率和溫度的關(guān)系。計算可得這兩個變量間的相關(guān)系數(shù)是 0.21, p = 0.521,但是從圖中我們可以看出無線性關(guān)系,呈現(xiàn)的是二次關(guān)系Bacterial growth rate vs. temperaturetemp. C.605040302010% of max. growth rate1201008060402004. 相關(guān)關(guān)系與因果
18、關(guān)系不等同 僅憑2個變量間存在具有統(tǒng)計意義的正相關(guān)或負(fù)相關(guān)不能得出這兩個變量間存在因果關(guān)系,即,X的增長導(dǎo)致了y上的增長或減小 故事故事 1 兒子與樹兒子與樹 12年后年后, 相關(guān)系數(shù)相關(guān)系數(shù)結(jié)論結(jié)論: 樹使兒子快速生長樹使兒子快速生長, 或兒子使樹快速生長或兒子使樹快速生長?!05.0,97.0Pr故事故事 2 2 游泳與冰淇淋游泳與冰淇淋相關(guān)系數(shù)相關(guān)系數(shù)05.0,92.0Pr結(jié)論結(jié)論: : 游泳者喜歡冰淇淋游泳者喜歡冰淇淋, , 或或 買冰淇淋者喜歡游泳買冰淇淋者喜歡游泳?!?!1) 不要把任意兩個變量放在一起算相關(guān)系數(shù)不要把任意兩個變量放在一起算相關(guān)系數(shù) - 在專業(yè)上在專業(yè)上, 兩者必須
19、可能存在聯(lián)系兩者必須可能存在聯(lián)系2) 簡單相關(guān)簡單相關(guān) = 直接聯(lián)系直接聯(lián)系 + 間接聯(lián)系間接聯(lián)系 簡單相關(guān)不一定意味著簡單相關(guān)不一定意味著直接聯(lián)系直接聯(lián)系 兒子兒子樹樹?時間時間游泳人數(shù)游泳人數(shù)買冰淇淋買冰淇淋 人數(shù)人數(shù)? 氣溫氣溫5. 分層資料盲目合并易出現(xiàn)假象,異常值存在時慎用相關(guān) 見圖P200 115有異常值存在的情況不相關(guān)的兩個樣本合并為正相關(guān)正相關(guān)的兩個樣本合并為不相關(guān)正相關(guān)的兩個樣本合并為負(fù)相關(guān)第二節(jié) Spearman相關(guān)適用資料:適用資料: 不服從雙變量正態(tài)分布不服從雙變量正態(tài)分布 總體分布類型未知總體分布類型未知 原始數(shù)據(jù)用等級表示原始數(shù)據(jù)用等級表示等級相關(guān)系數(shù)等級相關(guān)系數(shù)
20、r rs s(即(即Spearman Correlation Spearman Correlation CoefficientCoefficient)反映兩變量間相關(guān)的密切反映兩變量間相關(guān)的密切程度與方向程度與方向 。 將各變量X,Y分別編秩p,q ; 計算 p與 q的Pearson相關(guān); 所得結(jié)果即為Spearman秩相關(guān)rs 。rs的統(tǒng)計學(xué)意義同的統(tǒng)計學(xué)意義同r r。 當(dāng)n50時,查“rs界值表” 當(dāng)n50時,用 t 檢驗。 例3 某研究者對15例30-50歲成年男子的舒張壓與夜間最低血氧含量分級進(jìn)行研究,結(jié)果見表3,試分析兩者的關(guān)聯(lián)性編號編號(1)舒張壓舒張壓X(2)秩次秩次pi(3)夜
21、間最低血氧含量夜間最低血氧含量分級分級Y(4)秩次秩次qi (5)1751122802.5123802.525.54905.5125905.525.56905.525.57905.539.58958.525.59958.539.51010010.539.51110010.539.51211012413.51311513413.51412014413.51512515413.5合計-120-120897.05.2400.263/)(5.273/)(2222qqpppqsiiiipqiiqqiipplllrqpqplnqqlnppl秩相關(guān)的假設(shè)檢驗 當(dāng)n50時,查“rs界值表”。 當(dāng)n50時,用
22、t 檢驗。 對例3 的秩相關(guān)系數(shù)作假設(shè)檢驗 (1)建立檢驗假設(shè),確定檢驗水準(zhǔn)H0:s=0,即舒張壓與夜間最低血氧含量的分級無相關(guān)關(guān)系H1:s 0,即舒張壓與夜間最低血氧含量的分級有相關(guān)關(guān)系= 0.05 (2)計算檢驗統(tǒng)計量 rs=0.897 (3)確定P值,做出統(tǒng)計推斷本例n=1550,查等級相關(guān)系數(shù)界值表,得rsr15,0.001=0.779,Pr0.05( n-2)時,可認(rèn)為兩變量X與Y間( ) A有一定關(guān)系 B. 有正相關(guān)關(guān)系 C一定有直線關(guān)系 D. 有直線關(guān)系 答案: 練習(xí)題: 相關(guān)系數(shù)檢驗的無效假設(shè)H0是( ) A=0 B. 0 C0 D. 0: 回歸線與縱軸交點在原點上方。a 0:
23、 回歸線與縱軸交點在原點下方。a =0: 回歸線通過原點。 統(tǒng)計學(xué)意義a 表示自變量X取值為0時相應(yīng)Y總體均數(shù)的估計值。 a的單位與Y值相同 當(dāng)X可能取0時,a才有實際意義。xY0Ya bX b 回歸系數(shù)回歸系數(shù)b b的統(tǒng)計學(xué)意義的統(tǒng)計學(xué)意義 b表示自變量X變化一個單位時應(yīng)變量Y的平均改變量。 1-7歲兒童以年齡(歲)估計體重(kg)的回歸方程: 糖尿病患者以胰島素水平(mU/L)估計血糖水平(mmol/L)的回歸方程:XY27XY68.084.22直線回歸方程的求解:最小二乘原理YabXYX iiYY最小二乘原則:觀測點與所配直線縱向距離的平方和最小最小二乘原則:觀測點與所配直線縱向距離的平
24、方和最小 最小二乘估計殘差(residual)或剩余值,即實測值Y與假定回歸線上的估計值 的縱向距離 。 求解a、b實際上就是“合理地”找到一條能最好地代表數(shù)據(jù)點分布趨勢的直線。原則:最小二乘法(least sum of squares),即可保證各實測點至直線的縱向距離的平方和最小YYY 回歸系數(shù)及其計算回歸系數(shù)及其計算找一條直線使殘差平方和最小找一條直線使殘差平方和最小 利用微積分知識利用微積分知識,容易得到容易得到 這條線一定過兩個點這條線一定過兩個點 和和最小 )(2 yy),0(abXaY 例1 根據(jù)表1數(shù)據(jù),對大白鼠的體重增加量進(jìn)行回歸分析。 表表1 121 12只大白鼠的進(jìn)食量(
25、只大白鼠的進(jìn)食量(g g)與體重增加量)與體重增加量(g)(g)測量結(jié)果測量結(jié)果 散點圖解題步驟b2.000.0648YXa 此直線必然通過點此直線必然通過點( , )( , )且且與縱坐標(biāo)軸相交于截距與縱坐標(biāo)軸相交于截距 。如果散點圖沒。如果散點圖沒有從坐標(biāo)系原點開始,可在自變量實測范有從坐標(biāo)系原點開始,可在自變量實測范圍內(nèi)遠(yuǎn)端取易于讀數(shù)的圍內(nèi)遠(yuǎn)端取易于讀數(shù)的 值值 代入回歸代入回歸方程得到一個點的坐標(biāo),連接此點與點方程得到一個點的坐標(biāo),連接此點與點( ( , ), )也可繪出回歸直線。也可繪出回歸直線。 XYaXXY線性回歸分析的前提條件 線性(linear)反應(yīng)變量Y與自變量X呈線性變化趨勢 獨立(independent)任意兩個觀察值相互獨立,一個個體的取值不受其他個體的影響 給定X時,Y正態(tài)分布(normal)給定X取值時,Y的取值服從正態(tài)分布 等方差(equal variance)指對應(yīng)于不同的X值,Y值的總體變異相同直線回歸應(yīng)用條件LINE示意圖給定X時,Y是正態(tài)分布、不等方差示意圖回歸方程有統(tǒng)計學(xué)意義嗎 建立樣本直線回歸方程,只是完成了統(tǒng)計分析中兩變量關(guān)系的統(tǒng)計描述,這種關(guān)系是否有統(tǒng)計學(xué)意義,還需要進(jìn)一步進(jìn)行假設(shè)檢驗。檢驗回歸模
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版新員工試崗期職業(yè)發(fā)展規(guī)劃與實施合同3篇
- 應(yīng)急預(yù)案與突發(fā)事件類型
- 電子行業(yè)產(chǎn)品維修培訓(xùn)總結(jié)
- 建筑與市政工程質(zhì)量安全巡查的背景
- 托育防恐防暴安全教育
- 交通運輸行業(yè)促銷策略評估
- 二零二五版外貿(mào)實習(xí)實訓(xùn)基地建設(shè)合同3篇
- 二零二五年度環(huán)保設(shè)備委托托管合作協(xié)議3篇
- 《學(xué)校心理輔導(dǎo)》課件
- 二零二五年度居間服務(wù)合同范本6篇
- 選擇性必修一 期末綜合測試(二)(解析版)2021-2022學(xué)年人教版(2019)高二數(shù)學(xué)選修一
- 《論語》學(xué)而篇-第一課件
- 《寫美食有方法》課件
- 學(xué)校制度改進(jìn)
- 各行業(yè)智能客服占比分析報告
- 年產(chǎn)30萬噸高鈦渣生產(chǎn)線技改擴建項目環(huán)評報告公示
- 心電監(jiān)護(hù)考核標(biāo)準(zhǔn)
- (完整word版)申論寫作格子紙模板
- 滾筒焊縫超聲波探傷檢測報告
- 古典芭蕾:基本技巧和術(shù)語
- DB43-T 2612-2023林下竹蓀栽培技術(shù)規(guī)程
評論
0/150
提交評論