直線回歸與直線相關(guān)_第1頁
直線回歸與直線相關(guān)_第2頁
直線回歸與直線相關(guān)_第3頁
直線回歸與直線相關(guān)_第4頁
直線回歸與直線相關(guān)_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第十四章直線回歸與直線相關(guān)單變量的統(tǒng)計分析方法------統(tǒng)計描述與同一變量的不同處理組間的比較。多變量的統(tǒng)計分析方法----多個變量之間的數(shù)量依存關(guān)系及關(guān)聯(lián)度的研究線性相關(guān)線性相關(guān)的概念及統(tǒng)計描述例隨機(jī)抽取15名健康成人,測定血液的凝血酶濃度及凝固時間,數(shù)據(jù)見表11-1。試判斷此數(shù)據(jù)是否相關(guān)?表11-115例健康成人凝血時間與凝血酶濃度測量值記錄受試者號123456789101112131415濃度1.11.21.00.91.21.10.90.61.00.91.10.91.110.7時間141315151314161714161516141517

圖1

數(shù)據(jù)散點(diǎn)圖從散點(diǎn)圖中可以看出:圖中散點(diǎn)雖不都在一條直線上,但它們有一種線性趨勢存在,即凝血酶濃度高的,凝血時間短;凝血酶濃度低的,凝血時間長,說明凝血酶濃度與凝血時間之間確實(shí)存在聯(lián)系且方向相反。兩變量的關(guān)系不象函數(shù)關(guān)系那樣能以一個變量的數(shù)值精確地確定出另一個變量的數(shù)值,即為非確定性關(guān)系若圖中各散點(diǎn)趨勢接近一直線,且變化方向相同,稱為正相關(guān);若圖中各散點(diǎn)趨勢接近一直線,且變化方向相反,稱為負(fù)相關(guān);若圖中散點(diǎn)的趨勢不呈直線,但有規(guī)律地呈一條曲線,稱為非線性相關(guān);若圖中散點(diǎn)雜亂無序,稱為零相關(guān)。

直線相關(guān)的概念研究兩個連續(xù)型隨機(jī)變量之間是否存在線性關(guān)系,關(guān)系是否密切以及是正相關(guān)還是負(fù)相關(guān).

直線相關(guān)系數(shù)又稱pearson積差相關(guān)系數(shù),以r表示樣本相關(guān)系數(shù),以ρ表示總體相關(guān)系數(shù).它反映兩個變量線性關(guān)系的方向和密切程度的指標(biāo),沒有單位,其值為-1≤r≤1.

計算公式上式中,若為總體協(xié)方差或總體方差時,相關(guān)系數(shù)為總體相關(guān)系數(shù),記為ρρ≠0,X和Y線性相關(guān)ρ=0,X和Y線性不相關(guān)上式中,若為樣本協(xié)方差或樣本方差時,相關(guān)系數(shù)為樣本相關(guān)系數(shù),記為r相關(guān)系數(shù)的特點(diǎn)1)是無量綱的數(shù)值,且-1<r<12)r>0為正相關(guān),r<0為負(fù)相關(guān)3)|r|越接近于1,說明相關(guān)性越強(qiáng),|r|越接近于0,說明相關(guān)性越弱相關(guān)系數(shù)的方向r>0,說明兩變量之間為正相關(guān)關(guān)系,r=1,完全正相關(guān)r<0,說明兩變量之間為負(fù)相關(guān)關(guān)系,r=-1,完全負(fù)相關(guān)r=0,說明兩變量之間無線性關(guān)系(零相關(guān))應(yīng)用條件

Pearson積矩相關(guān)系數(shù)要求兩變量均服從正態(tài)分布,若不服從,則求相關(guān)系數(shù)為spearman相關(guān)系數(shù)

相關(guān)系數(shù)的計算作散點(diǎn)圖計算相關(guān)系數(shù)相關(guān)系數(shù)的統(tǒng)計推斷----相關(guān)系數(shù)的假設(shè)檢驗

(1)T檢驗例就上述r值,檢驗?zāi)獣r間與凝血酶濃度是否有直線相關(guān)關(guān)系.(2)查表法求出r后,根據(jù)ν=n-2查相關(guān)系數(shù)界值表相關(guān)分析應(yīng)用中的注意事項相關(guān)分析要有實(shí)際意義;相關(guān)關(guān)系不一定都是“因果”關(guān)系;相關(guān)系數(shù)r假設(shè)檢驗中p的大小不能說明相關(guān)的密切程度;出現(xiàn)異常值時慎用相關(guān)分層資料盲目合并易出現(xiàn)假象直線相關(guān)和等級相關(guān)有各自不同的適用條件。秩相關(guān)秩相關(guān)的概念及統(tǒng)計描述研究兩個不滿足正態(tài)分布條件的連續(xù)型隨機(jī)變量之間是否存在相關(guān)關(guān)系,關(guān)系是否密切以及是正相關(guān)還是負(fù)相關(guān).秩相關(guān)系數(shù)又稱spearman相關(guān)系數(shù),以

表示樣本相關(guān)系數(shù),以

表示總體相關(guān)系數(shù).它反映兩個變量相關(guān)關(guān)系的方向和密切程度的指標(biāo),沒有單位,其值為-1≤r≤1.分別為x和y的秩次例某地研究2-7歲急性白血病患兒的血小板數(shù)與出血癥狀程度之間的相關(guān)性,結(jié)果見表.試用秩相關(guān)進(jìn)行分析。病人編號血小板數(shù)秩次p秩次平方出血癥狀秩次q秩次平方pq12345678910111212113816531042654074010601260129014382004123456789101112149162536496481100121144++++++-++++----+++-1159.07.03.59.09.03.53.53.53.511..53.5132.25814912.25818112.2512.2512.2512.25132.2512.2511.5182114455424.52831.535126.542合計7865078630451表1急性白血病患兒的血小板和出血癥狀步驟:1)將變量X,Y成對的觀察值分別從小到大排序編秩,以pi表示Xi的秩次,以qi表示Yi的秩次,觀察值相同時取平均秩次,見表12)用pi,qi的值分別作為Xi,Yi的值代入pearson相關(guān)系數(shù)的計算公式中秩相關(guān)系數(shù)的統(tǒng)計推斷----秩相關(guān)系數(shù)的假設(shè)檢驗

(1)T檢驗(2)查表法直線回歸

直線回歸的概念很早以前,英國遺傳學(xué)家FrancisGalton與其弟子K.pearson和A.Lee注意到一個有趣現(xiàn)象,即父親高,兒子也高,父親矮,兒子也矮,但兒子離平均水平更近些,即子代身高向均數(shù)回歸.回歸分析的類型因變量為非時間的連續(xù)型變量(一元線性回歸分析,多項式回歸分析,非線性回歸分析,可直線化的曲線回歸分析)因變量為時間的連續(xù)型變量(COX回歸分析)因變量為隨時間變化的連續(xù)型變量(時間序列分析)因變量為二值離散型變量(logistic回歸分析或?qū)?shù)線性模型分析)因變量為多值有序離散型變量(logistic回歸分析)因變量為多值名義離散型變量(logistic回歸分析或logit模型回歸分析,對數(shù)線性模型分析)例1在腦血管疾病的診斷治療中,腦脊液白細(xì)胞介素-6水平是影響診斷與預(yù)后分析的一項重要指標(biāo),但腦脊液在臨床上又不容易采集到。某醫(yī)生欲了解急性腦血管疾病人血清與腦脊液IL-6水平,隨機(jī)抽取了某醫(yī)院確診的10例蛛網(wǎng)膜下腔出血(SAH)患者24小時內(nèi)血清IL-6和腦脊液IL-6數(shù)據(jù)如下。假說SAH血清IL-6和腦脊液IL-6間有直線相關(guān)關(guān)系,試如何用血清IL-6來估計和預(yù)測腦脊液IL-6?表12-1SAH患者第一天血清和腦脊液IL-6檢測結(jié)果患者號12345678910血清(x)腦脊液(y)22.4134.051.6167.058.1132.325.180.265.9100.079.7139.175.3187.232.497.296.4192.385.7199.4圖1SAH患者血清和腦脊液IL-6散點(diǎn)圖圖2函數(shù)關(guān)系圖例2隨機(jī)抽取15名健康成人,測定血液的凝血酶濃度及凝固時間,數(shù)據(jù)見表11-1。試判斷此數(shù)據(jù)是否呈直線相關(guān)關(guān)系?表12-215例健康成人凝血時間與凝血酶濃度測量值記錄受試者號123456789101112131415濃度1.11.21.00.91.21.10.90.61.00.91.10.91.110.7時間141315151314161714161516141517圖3凝血酶濃度與凝血時間的散點(diǎn)分布從散點(diǎn)圖中可以看出:圖中散點(diǎn)雖不都在一條直線上,但它們有一種線性趨勢存在,即隨著血清IL-6的增加,腦脊液IL-6也在增加;隨著凝血濃度的增加,凝血時間在減少。它與數(shù)學(xué)中兩變量間嚴(yán)格對應(yīng)的函數(shù)關(guān)系不同,但它同樣可以描述兩變量之間數(shù)量依存關(guān)系,該直線稱為回歸直線。用回歸直線來描述兩變量之間的直線關(guān)系的方法稱為直線回歸。直線回歸方程的表達(dá)式X為自變量的取值,為X取某一值時應(yīng)變量Y的平均估計值,稱為Y的預(yù)測值a-------截距。a>0說明直線與Y軸的交點(diǎn)在原點(diǎn)的上方,a<0說明直線與Y軸的交點(diǎn)在原點(diǎn)的下方,a=0,則直線過原點(diǎn)。b的統(tǒng)計學(xué)意義:X每增加(或減少)一個單位,應(yīng)變量Y平均改變b個單位。

b-----回歸系數(shù)(即直線的斜率)。b>0表示Y隨X的增大而增大,b<0表示Y隨X的增大而減小,b=0表示直線與X軸平行,即X與Y沒有直線關(guān)系。直線回歸方程的求法最小二乘法則保證各實(shí)測點(diǎn)至回歸直線的縱向距離平方和為最小.例3對例1中的數(shù)據(jù)求出其直線回歸方程(1)繪制數(shù)據(jù)的散點(diǎn)圖。見圖1。從圖中可以看出數(shù)據(jù)之間存在著直線變化的趨勢。(2)計算回歸系數(shù)與截距(3)寫出回歸直線方程b=1.18>0,表明SAH患者腦脊液IL-6隨血清IL-6增加而增加,且血清IL-6每增加1pg/ml時,腦脊液平均增加1.181pg/ml。總體回歸系數(shù)的統(tǒng)計推斷總體回歸系數(shù)的區(qū)間估計總體回歸系數(shù)β的1-α的置信區(qū)間為例求上例中回歸系數(shù)β的95%置信區(qū)間回歸系數(shù)β的95%置信區(qū)間為(1.180-2.306×0.398,1.180+2.306×0.398)=(0.262,2.098總體回歸系數(shù)的假設(shè)檢驗?zāi)康呐袛郻是否從回歸系數(shù)為零(β=0)的總體中隨機(jī)抽樣得來的.方法(1)t檢驗

例對上例中的回歸系數(shù)進(jìn)行假設(shè)檢驗(2)方差分析應(yīng)變量y的離均差平方和回歸平方和,即在y的總變異中可用x與y的線性關(guān)系解釋的那部分變異殘差平方和,即扣除了x對y的線性影響后,其它所有因素對y變異的影響P(x,y)應(yīng)變量平方和分解圖例用方差分析對上述回歸方程進(jìn)行假設(shè)檢驗回歸模型的假設(shè)條件1)反應(yīng)變量Y與自變量X之間呈直線變化的趨勢,作散點(diǎn)圖觀察2)因變量Y服從正態(tài)分布或殘差服從正態(tài)分布的隨機(jī)變量,X可為隨機(jī)或非隨機(jī)的變量3)任意兩個觀察值之間是相互獨(dú)立的4)在自變量X的取值范圍內(nèi),不論X取何值,Y均有相同的方差直線回歸方程的圖示

在自變量X的實(shí)測范圍內(nèi)任取兩個值,代入回歸方程算出對應(yīng)的,根據(jù)兩點(diǎn)成一直線就可以畫出該直線的圖形。說明:所繪直線經(jīng)過點(diǎn);該直線與縱軸交點(diǎn)的坐標(biāo)必等于截距a.此兩點(diǎn)可以檢驗圖形的繪制是否正確。直線回歸方程的應(yīng)用描述兩變量的數(shù)量依存關(guān)系利用回歸方程進(jìn)行預(yù)測

所謂預(yù)測就是把預(yù)報因子(自變量X)代入回歸方程對預(yù)報量進(jìn)行估計,其波動范圍按求個體Y值的容許區(qū)間方法來計算。利用回歸方程進(jìn)行統(tǒng)計控制

統(tǒng)計控制時利用回歸方程進(jìn)行逆估計,如要求應(yīng)變量Y在一定范圍內(nèi)波動,可以通過自變量X的取值來實(shí)現(xiàn)。個體y值的容許區(qū)間當(dāng)X取某一定值時,個體Y有一波動范圍,其標(biāo)準(zhǔn)差為個體y值的100(1-α)容許區(qū)間為殘差的標(biāo)準(zhǔn)誤,剩余標(biāo)準(zhǔn)誤如:為使一名糖尿病人的血糖維持在正常范圍(4.44,6.66),如何控制血中胰島素水平?已知有胰島素估計血糖平均水平的直線回歸方程為欲將血糖水平控制在正常范圍的上界即6.66以內(nèi)時,血中胰島素應(yīng)維持在什么水平?即將一名血糖病人的血糖水平控制在6.66以內(nèi),胰島素可維持在32.64U/L上殘差分析殘差(residual)是指觀察值Yi與回歸模型擬合值之差,即為它反映模型與數(shù)據(jù)擬合優(yōu)劣的信息。非線性回歸通過自變量的變換化為線性回歸通過因變量的變換化為線性回歸例9.14以不同劑量的標(biāo)準(zhǔn)促進(jìn)腎上腺皮質(zhì)激素釋放因子CRF刺激離體培養(yǎng)的大鼠垂體前葉細(xì)胞,監(jiān)測其垂體合成分泌腎上腺皮質(zhì)激素ACTH的量。根據(jù)表中數(shù)據(jù)的量建立CRF-ACTH工作曲線。例一位醫(yī)院管理人員想建立一個回歸模型,對重傷病人出院后的長期恢復(fù)情況進(jìn)行預(yù)測。自變量為病人住院天數(shù)X,因變量為病人出院后長期恢復(fù)后的預(yù)后指數(shù)Y,指數(shù)取值愈大表示預(yù)后結(jié)果越好。數(shù)據(jù)見下表。編號123456789101112131415住院天數(shù)X預(yù)后指數(shù)Y2545507451037143519252620311634183813458521153860465615名重傷病人的住院天數(shù)與預(yù)后指數(shù)直線相關(guān)與直線回歸的聯(lián)系和區(qū)別

區(qū)別資料的要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論