版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、直線相關(guān)和回歸分析Medical statistics醫(yī)學(xué)統(tǒng)計(jì)學(xué)直線相關(guān)分析Linear Correlation AnalysisPage 3相關(guān)分析:主要內(nèi)容問題的提出相關(guān)關(guān)系與確定性關(guān)系相關(guān)和直線相關(guān)的概念直線相關(guān)的圖示直線相關(guān)系數(shù)的計(jì)算直線相關(guān)系數(shù)的假設(shè)檢驗(yàn)和區(qū)間估計(jì)Page 4問題的提出以往方法的局限僅限于考察一個(gè)觀察指標(biāo)Page 5問題的提出人的體重往往隨著身高的增加而增加。二者之間是否存在某種關(guān)聯(lián)?如果存在,可否用身高來推測體重的多少?兒童所能發(fā)出的最長音調(diào)往往和年齡有關(guān)。同樣,是否可以建立年齡和音調(diào)長度的數(shù)量關(guān)系?人的肺活量往往隨著胸圍的增加而增加。舉重運(yùn)動(dòng)員所能舉起的最大重量是
2、否與他的體重有關(guān)?Page 6相關(guān)關(guān)系與確定性關(guān)系所謂確定性關(guān)系是指兩變量間的關(guān)系是函數(shù)關(guān)系。已知一個(gè)變量的值,另一個(gè)變量的值可以通過這種函數(shù)關(guān)系精確計(jì)算出來。C =2RS=vt非確定性關(guān)系是指兩變量在宏觀上存在關(guān)系,但并未精確到可以用函數(shù)關(guān)系來表達(dá)。青少年身高隨年齡增長而增高;體表面積與體重有關(guān)Page 72.相關(guān)的概念當(dāng)兩個(gè)數(shù)值變量之間出現(xiàn)如下情況:當(dāng)一個(gè)變量增大,另一個(gè)也隨之增大(或減少),我們稱這種現(xiàn)象為共變,也就是有相關(guān)關(guān)系。若兩個(gè)變量同時(shí)增加或減少,變化趨勢是同向的,則兩變量之間的關(guān)系為正相關(guān)(positive correlation);若一個(gè)變量增加時(shí),另一個(gè)變量減少,變化趨勢是
3、反向的,則稱為負(fù)相關(guān)(negative correlation)。 Page 8直線相關(guān)的概念直線相關(guān)(linear correlation),又稱簡單相關(guān),用以描述兩個(gè)呈正態(tài)分布的變量之間的線性共變關(guān)系,常簡稱為相關(guān)。Page 9用以說明具有直線關(guān)系的兩個(gè)變量間相關(guān)關(guān)系的密切程度和相關(guān)方向的指標(biāo),稱為相關(guān)系數(shù)(correlation coefficient),又稱為積差相關(guān)系數(shù)(coefficient of product-moment correlation),Pearson相關(guān)系數(shù) 。總體相關(guān)系數(shù)用希臘字母r表示,而樣本相關(guān)系數(shù)用r表示,取值范圍均為-1,1。Page 10r=0r=0r
4、-1r1完全正相關(guān)完全負(fù)相關(guān)零相關(guān)零相關(guān)0r1-1r0r=0 r=0零相關(guān)正相關(guān)負(fù)相關(guān)零相關(guān)直線相關(guān)的圖示Page 11r =-1-1r 0r =0直線相關(guān)的圖示與相關(guān)系數(shù)的關(guān)系0r 1r =1Page 12直線相關(guān)系數(shù)的計(jì)算Page 13以下資料選自Galton的一項(xiàng)研究,目的是探討成年時(shí)身高是否與兩歲時(shí)的身高(單位:英寸)有關(guān)。兩歲時(shí)的身高(英寸)3930323435363630成年身高(英寸)7163636768687064Page 14繪制散點(diǎn)圖Y 成年后身高(單位:英寸)X 2歲時(shí)的身高(單位:英寸)3032343638406365676971Page 15Page 16Page 1
5、7相關(guān)系數(shù)的假設(shè)檢驗(yàn)H0:r0,兩變量間無直線相關(guān)的關(guān)系;H1:r0。Page 18H0:0,兩變量間無直線相關(guān)的關(guān)系;H1:0,兩變量間有直線相關(guān)的關(guān)系;a =0.05=8-2=6以自由度為6查附表2的t界值表,得P0.01,按=0.05的水準(zhǔn)拒絕H0,接受H1,認(rèn)為2歲時(shí)的身高和成年身高之間存在正相關(guān)。Page 19總體相關(guān)系數(shù)的區(qū)間估計(jì)從相關(guān)系數(shù)不等于0的總體中抽樣,樣本相關(guān)系數(shù)的分布是偏態(tài)的。 Page 20相關(guān)系數(shù)的抽樣分布( = - 0.8)-0.8-0.6-0.4-0.20.00100200300-1.0Page 21相關(guān)系數(shù)的抽樣分布( = 0)-1.0-0.8-0.6-0.4
6、-0.20.00.20.40.60.81.00100200300Page 22相關(guān)系數(shù)的抽樣分布( =0.8) 00.20.40.60.81.00100200300Page 23R.A. Fisher(1921) 的 z 變換 z近似服從均數(shù)為 ,標(biāo)準(zhǔn)差為 的正態(tài)分布。 Page 24相關(guān)系數(shù)的z 值的抽樣分布( = - 0.8)00.51.01.52.0050100150200Page 25相關(guān)系數(shù)的z 值的抽樣分布( = 0)-2-1012050100150200Page 26相關(guān)系數(shù)的z 值的抽樣分布( = 0.8) 01234050100150200Page 27相關(guān)系數(shù)的可信區(qū)間估計(jì)
7、將 r 變換為 z ;根據(jù) z 服從正態(tài)分布,估計(jì) Z 的可信區(qū)間;再將 z變換回 r 。Page 28相關(guān)系數(shù)的可信區(qū)間估計(jì) Fishers 變換 r z 正態(tài)近似 Fishers 反變換 的95%CI Z的95%CI Page 29該可信區(qū)間有什么含義?直線回歸分析Linear Regression AnalysisPage 31直線回歸分析:主要內(nèi)容引言直線回歸的定義直線回歸方程的求解回歸系數(shù)的t檢驗(yàn)回歸問題的方差分析直線回歸系數(shù)和回歸方程的解釋與直線回歸有關(guān)的區(qū)間估計(jì)相關(guān)與回歸的區(qū)別和聯(lián)系正確應(yīng)用Page 32引言對于2歲時(shí)的身高和成年后身高間的關(guān)系即便具有相同的2歲身高,成年后的身高
8、也不一定相同; 2歲身高X與成年后身高Y的散點(diǎn)圖Y 成年后的身高(英寸)X 兩歲時(shí)的身高(英寸)3032343638406365676971Page 33引言對于女大學(xué)生的體重和肺活量間的關(guān)系即便具有相同的體重,肺活量也不一定相同;Y 肺活量(L)X 體重(kg)40602.04.03.02.53.5504555女大學(xué)生體重(X)與肺活量(Y)的散點(diǎn)圖Page 34折衷的解釋2歲身高影響成年的身高,但并非確定地決定它(determine it exactly) ;女學(xué)生的體重雖然影響了肺活量;但并非確定地決定它;因此,雖然它們之間有數(shù)量關(guān)系,但并非確定性的數(shù)量關(guān)系。是一種非確定性關(guān)系;一種宏觀
9、的關(guān)系!Page 35所謂確定性關(guān)系是指兩變量間的關(guān)系是函數(shù)關(guān)系。已知一個(gè)變量的值,另一個(gè)變量的值可以通過這種函數(shù)關(guān)系精確計(jì)算出來。非確定性關(guān)系是指兩變量在宏觀上存在關(guān)系,但并未精確到可以用函數(shù)關(guān)系來表達(dá)。Page 36直線回歸的定義宏觀上來講,他們呈直線關(guān)系,但并不能用來描述。所以我們用“hat”表示估計(jì)值,給定X時(shí)Y的條件均數(shù)(Y均數(shù)的估計(jì)值)Page 37 Y 因變量,響應(yīng)變量 (dependent variable, response variable) X 自變量,解釋變量 (independent variable, explanatory variable) b 回歸系數(shù) (re
10、gression coefficient, slope) a 截距 (intercept)Page 38不同斜率時(shí)回歸直線的表現(xiàn)XYPage 39直線回歸方程的求解兩歲時(shí)的身高(英寸)3930323435363630成年身高(英寸)7163636768687064Page 40直線回歸方程的求解:最小二乘原理Y 成年后身高(單位:英寸)X 2歲時(shí)的身高(單位:英寸)3032343638406365676971Page 41直線回歸方程的求解最小二乘法(Least Square Method)Page 42最小二乘法求解(了解) 根據(jù)微積分學(xué)中的求極值的方法,令 Q對a、b的一階偏導(dǎo)數(shù)等于0,即
11、:Page 43最小二乘法求解(了解)Page 44直線回歸方程的求解2歲身高和成年身高之間關(guān)系Page 45直線回歸方程Page 46直線回歸系數(shù)的t檢驗(yàn)回歸系數(shù)也有抽樣誤差!檢驗(yàn)方法針對回歸系數(shù)b的檢驗(yàn):t檢驗(yàn)針對回歸方程的檢驗(yàn):F檢驗(yàn)Page 47直線回歸系數(shù)的t檢驗(yàn)總體回歸系數(shù) =0,則回歸關(guān)系不存在。H0:總體回歸系數(shù)為0, =0;H1:總體回歸系數(shù)不為0,0;=0.05。Page 48直線回歸系數(shù)的t檢驗(yàn)Y的剩余標(biāo)準(zhǔn)差扣除X的影響(即回歸所能解釋的部分)后Y本身的變異程度Page 49直線回歸系數(shù)的t檢驗(yàn)名詞辨析: Y的變異 Y本身的變異 Y 體重增加量(g)X 進(jìn)食量(g)600
12、650700750800850900950120140160180200154.42gSY22.630SY.X12.39Page 50直線回歸系數(shù)的t檢驗(yàn)H0:總體回歸系數(shù)0;H1:總體回歸系數(shù)0; =0.05。 =8-2=6按=6查t界值表,得P0.01。按 =0.05水準(zhǔn)拒絕H0,接受H1。認(rèn)為成年身高和2歲時(shí)的身高間存在直線回歸關(guān)系。 Page 51回歸系數(shù)與相關(guān)系數(shù)的假設(shè)檢驗(yàn)結(jié)果等價(jià)Page 52回歸方程的方差分析:因變量總變異的分解X P (X,Y)YQLSPage 53Page 54上式兩端平方,然后對所有的n點(diǎn)求和,則有Page 55 Page 56Y的總變異分解未引進(jìn)回歸時(shí)的總
13、變異: (sum of squares about the mean of Y)引進(jìn)回歸以后的變異(剩余): (sum of squares about regression)回歸的貢獻(xiàn),回歸平方和: (sum of squares due to regression)Page 57Y的總變異分解 總n1 回1 剩余n2 總回SSSSr=2Page 58Y的總變異可以用回歸來解釋的部分即與X有關(guān)的部分不能用X來解釋的部分即與X無關(guān)的部分(隨機(jī)誤差)份額的大小可以用相關(guān)系數(shù)的平方來衡量(決定系數(shù))Page 59回歸方程的方差分析Page 60H0:2歲身高和成年身高無直線回歸關(guān)系;H1: 2歲身
14、高和成年身高有直線回歸關(guān)系;=0.05。 SS總 =67.5000SS剩 =60.3571SS回 = SS總-SS剩 =67.50-60.36=7.14列方差分析表Page 61方差分析表 F=50.70,今1=1,2=6,查 F界值表,得P0.0001,按 =0.05水準(zhǔn)拒絕H0,接受H1,故可認(rèn)為2歲和成年身高之間有線性回歸關(guān)系。變異來源SSvMSFP總變異67.50007回 歸60.3571160.357150.700.0001剩 余7.142961.1905Page 62直線回歸中三種假設(shè)檢驗(yàn)間的關(guān)系在直線回歸中,相關(guān)系數(shù)的假設(shè)檢驗(yàn),回歸系數(shù)的假設(shè)檢驗(yàn),以及回歸方程的方差分析結(jié)果等價(jià)。
15、tr=tb=7.12=F1/2=50.701/2Page 63回歸系數(shù)和回歸方程的意義及性質(zhì)b 的意義a 的意義 和 的意義 的意義Page 64b的含義 b的涵義:兩歲身高每高1英寸,成年后的身高平均高0.9286英寸。Page 65a 的意義a 截距(intercept, constant)X=0 時(shí),Y的估計(jì)值a的單位與Y值相同當(dāng)X可能取0時(shí),a才有實(shí)際意義。Page 66估計(jì)值 的意義X=39, = 71.3929 即兩歲身高為39英寸時(shí),其成年后身高均數(shù)的估計(jì)值為71.3929英寸X=35, = 67.6786 即兩歲身高為35英寸時(shí),其成年后身高均數(shù)的估計(jì)值為67.6786英寸給定
16、X時(shí),Y的均數(shù)的估計(jì)值。當(dāng) 時(shí),Page 67編號(hào)2歲(英寸)X成年(英寸)Y估計(jì)值殘差1397171.3929-0.39292306363.0357-0.03573326364.8929-1.89294346766.75000.25005356867.67860.32146366868.6071-0.60717367068.60711.39298306463.03570.9643合計(jì)272534534.00000.0000估計(jì)值與殘差Page 68圖7.2 2歲身高X與成年后身高Y的散點(diǎn)圖X 2歲時(shí)身高3032343638406365676971XY 成年后身高(單位:英寸)Page 69殘
17、差平方和 (residual sum of squares).綜合表示點(diǎn)距直線的距離。在所有的直線中,回歸直線的殘差平方和是最小的。(最小二乘) 的意義Page 70與直線回歸有關(guān)的區(qū)間估計(jì)回歸系數(shù)的可信區(qū)間估計(jì)估計(jì)值 的可信區(qū)間估計(jì)個(gè)體Y值的容許區(qū)間估計(jì)Page 71復(fù)習(xí) 可信區(qū)間 容許區(qū)間均數(shù)的可信區(qū)間: 均數(shù)界值標(biāo)準(zhǔn)誤 個(gè)體的容許區(qū)間(參考值范圍): 均數(shù)界值標(biāo)準(zhǔn)差 Page 72總體回歸系數(shù) 的可信區(qū)間估計(jì)根據(jù) t 分布原理估計(jì):Page 73本例中已計(jì)算得sb=0.1304(0.9286-2.4470.1304, 0.9286-2.4470.1304)=( 0.6095,1.2477
18、)含義用(0.6095, 1.2477)來估計(jì)兩歲身高與成年身高間的直線回歸系數(shù),可信度為95%。Page 74 的可信區(qū)間估計(jì) 樣本 總體Y的總平均給定X時(shí)Y的平均 (Y的條件均數(shù)) 根據(jù) t 分布原理:Page 75X=38時(shí),求 的95%可信區(qū)間 =34,lXX=77159.67, =12.3921當(dāng)X=34 時(shí), =70.464470.46442.4470.4688=(68.88,70.05) 即身高為34英寸的兩歲兒童,估計(jì)其成年后平均身高為70.4644英寸,95可信區(qū)間為(68.88,70.05) (g)。Page 76Y的容許區(qū)間估計(jì) 給定 X 時(shí) Y 的估計(jì)值是 Y 的均數(shù)的
19、一個(gè)估計(jì)。給定X 時(shí) Y 值的容許區(qū)間是 Y 值的可能范圍。 Y的100(1- )%容許限:Page 7770.46442.4471.2694=(67.3583,73.5705)即所有身高為34英寸的兩歲兒童,估計(jì)其成年后有95的個(gè)體身高在(67.36,73.57) 之間。Page 78剩余標(biāo)準(zhǔn)差、條件標(biāo)準(zhǔn)誤、條件標(biāo)準(zhǔn)差抽樣誤差抽樣誤差個(gè)體變異Page 792歲身高(英寸)成年身高(英寸)(英寸)的95%可信區(qū)間Y的95%容許區(qū)間下限上限下限上限306463.035761.448264.623259.929666.1419306363.035761.448264.623259.929666.1
20、419326364.892963.753466.032361.990167.7957346766.750065.806167.693963.918269.5818356867.678666.682268.675064.828970.5283366868.607167.467769.746665.704471.5099367068.607167.467769.746665.704471.5099397171.392969.539073.246768.142574.6432Page 80估計(jì)值、95%可信區(qū)間和95%容許區(qū)間成年后身高英寸X 2歲時(shí)的身高(單位:英寸)30 32 34 36 38 58 60 62 64 66 68 70 72 74 76 31 33 35 37 39 Page 81直線回歸與直線相關(guān)的區(qū)別與聯(lián)系聯(lián)系均表示線性關(guān)系;符號(hào)相同:共變方向一致;假設(shè)檢驗(yàn)結(jié)果相同:是否存在共變關(guān)系;二者間可以相互換算用回歸解釋相關(guān)Page 82直線回歸與直線相關(guān)的區(qū)別與聯(lián)系區(qū)別r 沒有單位,b有單位;所以,相關(guān)系數(shù)與單位無關(guān),回歸系數(shù)與單位有關(guān);相關(guān)表示相互關(guān)系;回歸表示依存關(guān)系;對資料的要求不同:當(dāng)X和Y都是隨機(jī)的,可以進(jìn)行相關(guān)和回歸分析;當(dāng)Y是隨機(jī)的(X是控制的),理論上只能作回歸而不能作相關(guān)分析; I型回歸:X是精確控制的;II型回歸:X是隨機(jī)的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 財(cái)務(wù)管理標(biāo)準(zhǔn)推行計(jì)劃
- 娛樂休閑行業(yè)前臺(tái)服務(wù)心得
- 互聯(lián)服務(wù)銷售工作總結(jié)
- 電商倉庫管理員服務(wù)職責(zé)
- 紡織原料采購工作總結(jié)
- 語言學(xué)校前臺(tái)工作總結(jié)
- 水產(chǎn)加工廠保安工作總結(jié)
- 第二單元 一年級下教案
- 2023年四川省德陽市公開招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 2022年江蘇省宿遷市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2025年1月廣西2025屆高三調(diào)研考試語文試卷(含答案詳解)
- 勞動(dòng)合同范本(2025年)
- 2024年時(shí)事新聞及點(diǎn)評【六篇】
- 衛(wèi)生院工程施工組織設(shè)計(jì)方案
- CDR-臨床癡呆評定量表
- 《八年級下學(xué)期語文教學(xué)個(gè)人工作總結(jié)》
- 鋁合金門窗制作工藝卡片 - 修改
- 恒亞水泥廠電工基礎(chǔ)試題
- 配網(wǎng)帶電作業(yè)管理辦法
- 給水管網(wǎng)設(shè)計(jì)計(jì)算說明書
- 四川地質(zhì)勘查單位大全
評論
0/150
提交評論