版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
直線相關(guān)與回歸LinearCorrelationandregressionAnalysis人的體重往往隨著身高的增加而增加。二者之間是否存在某種關(guān)聯(lián)?如果存在,可否用身高來推測體重的多少?人的肺活量往往隨著胸圍的增加而增加。是否可以建立胸圍和肺活量的數(shù)量關(guān)系?還有:年齡與血壓、藥物劑量與動(dòng)物死亡率、胰島素與血糖水平的關(guān)系等在醫(yī)學(xué)研究中常需要探討兩個(gè)變量之間有無關(guān)系,直線相關(guān)與回歸分析就是研究上述現(xiàn)象之間關(guān)系的統(tǒng)計(jì)方法。若兩個(gè)變量分不清主與從,相互間的關(guān)系是平行的并呈直線關(guān)系,稱直線相關(guān)兩個(gè)變量之間若是一個(gè)變量依賴另一個(gè)變量的變化而變化,變量間是主從關(guān)系,并且呈直線關(guān)系,稱直線回歸直線相關(guān)分析案例
現(xiàn)有15例糖尿病患者,測得每位患者的胰島素(mU/L)和血糖(mmol/L)水平,如下序號1234567胰島素16131910111825血糖8.411.27.512.813.78.27.889101112131415716102417817915.79.610.68.49.413.610.414.1試問糖尿病患者胰島素水平與其血糖水平之間有無關(guān)系?如何進(jìn)行統(tǒng)計(jì)分析?糖尿病患者胰島素水平與其血糖水平之間是否存在數(shù)量依存關(guān)系,能否建立直線回歸方程?問題當(dāng)兩個(gè)數(shù)值變量之間出現(xiàn)如下情況:當(dāng)一個(gè)變量改變,另一個(gè)也隨之發(fā)生改變,我們稱這種現(xiàn)象為共變,也就是有相關(guān)關(guān)系。若兩個(gè)變量同時(shí)增加或減少,變化趨勢是同向的,則兩變量之間的關(guān)系為正相關(guān)(positivecorrelation);若一個(gè)變量增加時(shí),另一個(gè)變量減少,變化趨勢是反向的,則稱為負(fù)相關(guān)(negativecorrelation)。ρ=0ρ=0ρ=-1ρ=1完全正相關(guān)完全負(fù)相關(guān)零相關(guān)零相關(guān)0<ρ<1-1<ρ<0ρ=0ρ=0零相關(guān)正相關(guān)負(fù)相關(guān)零相關(guān)直線相關(guān)的圖示直線相關(guān)的概念直線相關(guān)(linearcorrelation),又稱簡單相關(guān),用以描述兩個(gè)呈正態(tài)分布的變量之間的線性共變關(guān)系,常簡稱為相關(guān)。直線相關(guān)系數(shù)的概念用以說明具有直線關(guān)系的兩個(gè)變量間相關(guān)關(guān)系的密切程度和相關(guān)方向的指標(biāo),稱為相關(guān)系數(shù)(correlationcoefficient),又稱為積差相關(guān)系數(shù)(coefficientofproduct-momentcorrelation),Pearson相關(guān)系數(shù)??傮w相關(guān)系數(shù)用希臘字母ρ表示,而樣本相關(guān)系數(shù)用r表示,取值范圍均為[-1,1]。r=-1-1<r<0r=0直線相關(guān)的圖示與相關(guān)系數(shù)的關(guān)系0<r<1
r=1數(shù)值大小表示密切程度ρ1或-1,表示兩變量關(guān)系越密切
ρ=1或-1,表示完全相關(guān)ρ0,表示兩變量關(guān)系越不密切
ρ=0,表示無相關(guān)正負(fù)表示方向+,表示正相關(guān),即y隨x的增加而增加或y隨x的減少而減少-,表示負(fù)相關(guān),即y隨x的增加而減少或y隨x的減少而增加直線相關(guān)系數(shù)的計(jì)算相關(guān)系數(shù)沒有單位,其值介于【-1,1】之間r=1或-1(X,y)c-1<r<1其中y-y>0x-x<0(x,y)(x,y)x-x>0y-y<0y-y>0x-x<0(x,y)(x,y)x-x>0y-y<0假定從總體相關(guān)系數(shù)ρ=0的總體中隨機(jī)抽樣,由于存在抽樣誤差,所得樣本相關(guān)系數(shù)不一定全為零。故此,求得一個(gè)樣本相關(guān)系數(shù)值后,仍需進(jìn)行總體相關(guān)系數(shù)是否為零的假設(shè)檢驗(yàn)。相關(guān)系數(shù)的假設(shè)檢驗(yàn)H0:ρ=0,兩變量間無直線相關(guān)的關(guān)系;H1:ρ≠0。t檢驗(yàn)法H0:ρ=0,兩變量間無直線相關(guān)的關(guān)系;H1:ρ≠0,兩變量間有直線相關(guān)的關(guān)系;α=0.05ν=15-2=13以自由度為13查t界值表,t0.001/2,13=4.221,t>t0.001/2,13,得P<0.001,按α=0.05的水準(zhǔn)拒絕H0,接受H1,認(rèn)為患者胰島素與血糖水平之間存在相關(guān)關(guān)系。查表法求得后r,按γ=n-2,查相關(guān)系數(shù)r界值表,做出統(tǒng)計(jì)推斷結(jié)論。H0、H1、α同上,以r=-0.8777,γ=13,直接查相關(guān)系數(shù)界值表,得r0.01/2,13=0.641,r>r0.01/2,13
,p<0.01,結(jié)論同前。例在腦血管疾病的診斷治療中,腦脊液白細(xì)胞介素-6(IL-6)水平是影響診斷與預(yù)后分析的一項(xiàng)重要指標(biāo),但腦脊液臨床上有時(shí)又不容易采集到。某醫(yī)生欲了解急性腦血管病病人血清與腦脊液IL-6水平,隨機(jī)抽取了某醫(yī)院確診的10例蛛網(wǎng)膜下腔出血(SAH)患者24小時(shí)內(nèi)血清IL-6(pg/ml)和腦脊液IL-6(pg/ml)數(shù)據(jù)如下,問SAH患者血清IL-6和腦脊液IL-6間是否有直線相關(guān)關(guān)系存在?直線相關(guān)分析步驟:1.繪制散點(diǎn)圖,觀察散點(diǎn)有無橢圓形趨勢存在。直線回歸血糖隨胰島素水平的增加而呈下降趨勢。即便具有相同的胰島素水平,其血糖值也不一定相同。因此,雖然它們之間有數(shù)量關(guān)系,但并非確定性的數(shù)量關(guān)系。所謂確定性關(guān)系是指兩變量間的關(guān)系是函數(shù)關(guān)系。已知一個(gè)變量的值,另一個(gè)變量的值可以通過這種函數(shù)關(guān)系精確計(jì)算出來。非確定性關(guān)系是指兩變量在宏觀上存在關(guān)系,但并未精確到可以用函數(shù)關(guān)系來表達(dá)。直線回歸的定義宏觀上來講,他們呈直線關(guān)系,但并不能用來描述。所以我們用“hat”表示估計(jì)值,給定x時(shí)y的條件均數(shù)
Y因變量,響應(yīng)變量
(dependentvariable,responsevariable)
X自變量,解釋變量
(independentvariable,explanatoryvariable)
b回歸系數(shù)
(regressioncoefficient,slope)a截距
(intercept)不同斜率時(shí)回歸直線的表現(xiàn)XY直線回歸方程的求解:最小二乘原理63直線回歸方程的求解最小二乘法
(LeastSquareMethod)直線回歸方程的求解b的含義
b的含義:胰島素每增加1mU/L,血糖平均下降0.4154mmol/L。631個(gè)單位B個(gè)單位殘差a的意義a截距(intercept,constant)X=0時(shí),Y的估計(jì)值16.8525a的單位與Y值相同當(dāng)X可能取0時(shí),a才有實(shí)際意義。直線回歸方程和回歸系數(shù)的檢驗(yàn)針對回歸方程的檢驗(yàn):F檢驗(yàn)針對回歸系數(shù)b的檢驗(yàn):t檢驗(yàn)回歸系數(shù)也有抽樣誤差!雖然b≠0,但由于抽樣誤差引起,總體回歸系數(shù)β=0估計(jì)總體回歸系數(shù)的95%的可信區(qū)間。決定系數(shù)X因變量總變異的分解Y的總變異分解Y的總變異分解
直線回歸方程的F檢驗(yàn)變異來源SSνMSF回歸74.808174.80843.645剩余22.284131.714總變異97.05614直線回歸系數(shù)的t檢驗(yàn)總體回歸系數(shù)
=0,則回歸關(guān)系不存在。H0:總體回歸系數(shù)為0,
=0;H1:總體回歸系數(shù)不為0,
0;
=0.05。公式
,υ=n-2t檢驗(yàn)回歸系數(shù)的標(biāo)準(zhǔn)誤差SbSb為回歸系數(shù)的標(biāo)準(zhǔn)誤差編號胰島素X血糖Y估計(jì)值殘差1168.410.211-1.81121311.211.456-0.2563197.58.966-1.46641012.812.7020.09951113.712.2861.4146188.29.381-1.1817257.86.4751.3258715.713.9471.753估計(jì)值與殘差編號胰島素X血糖Y估計(jì)值殘差9169.610.211-0.611101010.612.702-2.10211248.46.8901.51012179.49.796-0.39613813.613.5320.068141710.49.7960.60415914.113.1170.983合計(jì)220161.4161.466-0.000估計(jì)值與殘差編號胰島素X血糖Y估計(jì)值殘差平方和1168.410.2113.279721311.211.4560.06553197.58.9662.149241012.812.7020.009851113.712.2861.99946188.29.3811.39487257.86.4751.75568715.713.9473.0730估計(jì)值與殘差估計(jì)值與殘差編號胰島素X血糖Y估計(jì)值
殘差平方和9169.610.2110.3733101010.612.7024.418411248.46.8902.280112179.49.7960.156813813.613.5320.0046141710.49.7960.364815914.113.1170.9663合計(jì)220161.4161.46622.2914殘差平方和(residualsumofsquares).綜合表示點(diǎn)距直線的距離。在所有的直線中,回歸直線的殘差平方和是最小的。(最小二乘)
的意義剩余(殘差)標(biāo)準(zhǔn)差SY|X
SY|X
度量了實(shí)際散點(diǎn)遠(yuǎn)離回歸直線的離散程度,反映了模型的可靠性。越小模型越好。
SY|X為Y的剩余標(biāo)準(zhǔn)差——扣除X的影響后Y的變異程度。
Y的剩余標(biāo)準(zhǔn)差——扣除X的影響后Y(即回歸所能解釋的部分)本身的變異程度直線回歸系數(shù)的t檢驗(yàn)H0:總體回歸系數(shù)
=0;H1:總體回歸系數(shù)
≠0;
=0.05
按
=13查t界值表,t0.05/2,13=2.160,t0.01/2,13=3.012,t>t0.01/2,13,得P<0.01。按
=0.05水準(zhǔn)拒絕H0,接受H1。認(rèn)為胰島素和血糖存在直線回歸關(guān)系。
=15-2=13直線回歸中三種假設(shè)檢驗(yàn)間的關(guān)系在直線回歸中,相關(guān)系數(shù)的假設(shè)檢驗(yàn),等價(jià)于回歸系數(shù)的假設(shè)檢驗(yàn),等價(jià)于方差分析中F值的平方根。tr=tb=6.60總體回歸系數(shù)95%的可信區(qū)間當(dāng)b=-0.2795時(shí)當(dāng)b=-0.5513時(shí)確定系數(shù)或決定系數(shù)Page72Y的總變異可以用回歸來解釋的部分即與X有關(guān)的部分不能用X來解釋的部分即與X無關(guān)的部分(隨機(jī)誤差)份額的大小可以用相關(guān)系數(shù)的平方來衡量(決定系數(shù))總回SSSSr=2估計(jì)值的意義給定X時(shí),Y的均數(shù)的估計(jì)值。X=10,=12.7015
即胰島素為10mU/L,平均血糖值為
12.7015mmol/LX=15,=10.626
即胰島素為15mU/L,平均血糖值為
10.626mmol/L當(dāng)時(shí),Page74與直線回歸有關(guān)的區(qū)間估計(jì)估計(jì)值的可信區(qū)間估計(jì)個(gè)體值Y的容許區(qū)間估計(jì)Page75復(fù)習(xí)可信區(qū)間容許區(qū)間均數(shù)的可信區(qū)間:均數(shù)
界值×標(biāo)準(zhǔn)誤個(gè)體的容許區(qū)間(參考值范圍):
均數(shù)
界值×標(biāo)準(zhǔn)差Page76
的可信區(qū)間估計(jì)
樣本總體Y的總平均給定X時(shí)Y的平均
(Y的條件均數(shù))
根據(jù)
t分布原理:Page77Page78標(biāo)準(zhǔn)誤不僅與誤差有關(guān),而且與回歸系數(shù)b的誤差有關(guān)Page79X=10時(shí),求的95%可信區(qū)間=14.667,lXX=433.333,=1.3092當(dāng)X=10時(shí),=12.702,t0.005/2,13=2.16012.702
2.160
0.440=(11.75,13.65)
即胰島素為10mU/L的糖尿病患者,估計(jì)血糖為12.702mmol/L,95%可信區(qū)間為(11.75,13.65)mmol/L。Page80Y的個(gè)體容許區(qū)間估計(jì)給定X時(shí)Y的估計(jì)值是Y的均數(shù)的一個(gè)估計(jì)。給定X時(shí)Y值的個(gè)體變異區(qū)間是Y值的可能范圍。
Y的100(1-
)%容許限:Page81單個(gè)個(gè)體值的誤差觀察值y的散布的標(biāo)準(zhǔn)差為,又是總體回歸線中yi的估計(jì)值,它的誤差以來估計(jì)。因此,單個(gè)個(gè)體的方差由兩部分組成,即Page82當(dāng)X=10時(shí)
12.702
2.160
1.381=(9.72,15.68)即所有胰島素為10mU/L的糖尿病患者,估計(jì)有95%的個(gè)體血糖值在(9.72,15.68)之間。Page83剩余標(biāo)準(zhǔn)差、條件標(biāo)準(zhǔn)誤、條件標(biāo)準(zhǔn)差抽樣誤差抽樣誤差+個(gè)體變異Page84估計(jì)值、95%可信區(qū)間和95%個(gè)體區(qū)間7111519236789101112131415
913172125直線相關(guān)和回歸分析的應(yīng)用描述兩個(gè)變量的數(shù)量依存關(guān)系;如果兩變量之間存在直線關(guān)系,可用直線回歸方程來描述兩變量之間的數(shù)量依存關(guān)系。利用直線回歸方程進(jìn)行預(yù)測:將精確測量的自變量x代入回歸方程式,則可算得應(yīng)變量y的估計(jì)值,即預(yù)測值。利用回歸方程進(jìn)行統(tǒng)計(jì)控制:利用回歸方程進(jìn)行逆估計(jì),如要求應(yīng)變量y在一定范圍內(nèi)波動(dòng),可以通過控制自變量x的取值來實(shí)現(xiàn)。血糖與胰島素之間存在依存關(guān)系預(yù)測:當(dāng)測得胰島素x=10mU/L時(shí),則其血糖的估計(jì)值為Page96預(yù)測例:回歸方程為歸,計(jì)算當(dāng)x=12時(shí),預(yù)測值95%的可信區(qū)間和相應(yīng)個(gè)體值95%的區(qū)間Page97控制控制血糖值(y)在10mmol/L以下,則胰島
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鄉(xiāng)村振興可行性研究報(bào)告(5篇)
- 結(jié)算協(xié)議書范本(10篇)
- 關(guān)于禮儀廣播稿(18篇)
- 體育營銷與社會責(zé)任-洞察分析
- 《客服新人培訓(xùn)》課件
- 網(wǎng)絡(luò)擁塞緩解策略-洞察分析
- 水泥生產(chǎn)線能耗監(jiān)測-洞察分析
- 微生物酶催化合成研究-洞察分析
- 同學(xué)聚會策劃方案范文
- 無人駕駛汽車在物流配送中的應(yīng)用-洞察分析
- GB/T 45076-2024再生資源交易平臺建設(shè)規(guī)范
- 10.2《師說》課件 2024-2025學(xué)年統(tǒng)編版高中語文必修上冊
- 2024年度企業(yè)重組與債務(wù)重組協(xié)議3篇
- 2024年01月11032成本管理期末試題答案
- 年高考新課標(biāo)I卷語文試題講評課件
- 2024年高中班主任德育工作計(jì)劃(5篇)
- 《三 采用合理的論證方法》教學(xué)設(shè)計(jì)統(tǒng)編版高中語文選擇性必修上冊
- 2024-2025學(xué)年語文二年級上冊 部編版期末測試卷 (含答案)
- cecs31-2017鋼制電纜橋架工程設(shè)計(jì)規(guī)范
- 采礦學(xué)課程設(shè)計(jì)陳四樓煤礦1.8mta新井設(shè)計(jì)(全套圖紙)
- 普通發(fā)票銷售清單
評論
0/150
提交評論