統(tǒng)計-27簡單回歸分析_第1頁
統(tǒng)計-27簡單回歸分析_第2頁
統(tǒng)計-27簡單回歸分析_第3頁
統(tǒng)計-27簡單回歸分析_第4頁
統(tǒng)計-27簡單回歸分析_第5頁
已閱讀5頁,還剩66頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

KarlPearson對上千個家庭的身高、兒子身高(Y,英寸)與父親身高 系

也即高個子父代的子代在成年之后的身高平均來代的平均身高不是更矮,而是稍高于其父代水平。存關(guān)系的統(tǒng)計學(xué)術(shù)語,相關(guān)并且衍生出“回歸方程”“回歸系數(shù)”等統(tǒng)計學(xué)概念。如研究人血糖與其胰島素水平的關(guān)系,研究兒童與體重的關(guān)系等。簡單回歸分Simplelinear 參考 主編.醫(yī)學(xué)統(tǒng)計學(xué)(第二版).北 2.楊樹勤主編.衛(wèi)生統(tǒng)計學(xué)(第二版).北 3.方積乾主編.醫(yī)學(xué)統(tǒng)計學(xué)與電腦實驗(第 主編.醫(yī)學(xué)統(tǒng)計學(xué)( 用 本章內(nèi)第一節(jié)簡單線性回第二節(jié)線性回歸的應(yīng)用第三節(jié)殘差分析教學(xué)目了解回歸的思想了解回歸方程的第一節(jié)簡單線性回 樣本:從總體隨機(jī)抽取的n對變量(X1,Y1),(X2,Y2),…,(Xn,Yn)方法:回歸與簡單、基本——直線回歸、直線相線性回歸的概念及其統(tǒng)計描直線回歸的概特點:統(tǒng)計關(guān)系。X值和Y的均數(shù)不同于一般數(shù)學(xué)上的X和Y示散點圖(scatterplot)123456789XY在定量描述健康人凝血酶濃度(X)與血時間(Y)數(shù)據(jù)的數(shù)量上的依存關(guān)系時,將凝血酶濃度(independentvariable),用X表示;凝血時間稱為應(yīng)變量(dependentvariable),用Y表示為簡單回歸(simpleregression);若有(multipleregression)。regression/nonlinearregression)。 Xii樣本線回歸方 ?a?為各X處Ya為回歸直線在Y軸上的截a>0,表示直線與縱軸的交點在a0,則交點在原點的下a0,則回歸直線通過原b為回歸系數(shù),即直線的斜右上方,隨X增大右上方,隨X增大隨X增大 b=0,表示直線與X軸平行,X與Y無直線關(guān)b的統(tǒng)計學(xué)意義是:X每增加(減)一個單位,Y平均改變b個單位線性回歸模型的假設(shè)條1.線性(line)自變量和因變量之間的關(guān)系 2.獨立(independence)n個 3.正態(tài)(normal)各x所對應(yīng)的y服從正(誤差項服從正態(tài)分布?xì)埐畹闹狈綀D,正態(tài)概率4.等方差(equalvariance)各x值變動散點圖,殘差據(jù)散點圖我們可以X各個取值,相應(yīng)Y的總體

Y|

在一條(,表示

Y|

回歸參數(shù)的估——最小二乘原殘差(residual)或剩余值,即實測值Y與假

?的縱向

Y 求解a、b實際上就是“合理地”找到一條能原則原則:最小二乘法(leastsumofsquares),即可保證各實測點至直線的縱向距離的平方最小二乘法(leastsquareY(X2,

(Xn,

?

a eY

,

(Xi,X回歸參數(shù)的估計b

(XX

Y

(X

X)2aY式中l(wèi)XYXY的離均差乘積和 (X

)

XY(

X)(Y ΣY=224ΣXY=216.7ΣY2=3368

b

a

(6.98020)

?解題步驟5由原始數(shù)據(jù)及散點圖觀察兩變X、Y的均X、Y,離差平方和l

與離均差積和lXY繪制回歸直此直線必然通過點(XY截距a。如果散點圖沒有從坐標(biāo)系原點開數(shù)的值代入回歸方程得到一個點的坐標(biāo),連接此點與點(,XY總體回歸系數(shù)β的的統(tǒng)計推樣本回歸系數(shù)b的標(biāo)準(zhǔn)sb

sy.x

n(Xn(XX2in(YY?2iinsy.x n(n(XX 2i

sy.x

有 (一)、方差分析●●●Y●Y●●●?●●●●●●因變量Y的變異分解圖 YYYY Y YYY2Y?Y2Y

SS回總=回+(總=n-1,回=1,剩=n-SS總是Y的離均差平方和,表示YSS回表示在Y的總變異中可用X來解釋的部分,少即使得總變異(Y-)2Y的少SS回SS回SS剩表示在YlXX異中無法用X解釋的部分,即除了X對Y的線性影響外,其它一切因素將SS總分解為SS回與SS剩兩部分,SS回越大表明回歸效果越好,即XY的影響越大;SS剩越小,說明各實測點到回歸直線越近,回歸的估計誤差越小。F值回=1,剩=n-(二、)t檢ttb0bSY.XSYSY?2Y.X n2剩n2Sb為樣本回歸系數(shù)b的標(biāo)準(zhǔn)誤,SY.X為剩余H0、H1及同方差分析,代入公式求得t=4.579,自由度=8-2=6,查t界值表得0.002<P<0.005,結(jié)論同上。對同一份資料,F(xiàn)=t2,F檢驗與t檢驗所(1)H0H1

0,即凝方差分析變異來 自由 總變異 11、

6,查F界值表,得P0.010.05水H0,接受H1為凝血酶濃度與凝血時間數(shù)據(jù)之間有直線(2)t bSbSbtb

6.980208.8713,查t界值表,得P

。按

水準(zhǔn)

H0,接受H1注意Ft,即直線回歸中對回歸系數(shù)的t檢驗F檢驗等價,類似于兩樣本均數(shù)比較可以作t檢驗亦可作方總體回歸系數(shù)

利用上述對回歸系數(shù)的t檢驗,可以bt,n2Sb本例b=- 自由度=13t0.05,13=2.16Sb=0.78655,代入公

=(-8.6791~-即用區(qū)間估計回答相同時的假設(shè)檢驗第二 線性回歸的應(yīng)用(估計和預(yù)測總體均

Y|

的可信區(qū)間(總95%置信帶XX

0方程算出的0

只是相應(yīng)總體均數(shù)0Y|0

的一個點估計。

會因樣本而0 0X1n(pX1n(pX)2(XX2ip給定

X0時,總體均

Y|

(1

0? 0 / S

X

4X

代1(12.8)式獲得第一觀測點X1對應(yīng)的?1S

1(1.11Y的總體1(1.11XY均值的Y值的95%預(yù)測區(qū)1-2-34-5-6-78-9--間。當(dāng)同時考慮X的所有可能取值時,總體均數(shù)的?

a均數(shù) )點處置信X,點,置信帶寬度越大

度最小,越遠(yuǎn)離該在兩條弧形曲線所形成的區(qū)帶內(nèi),置信度為 (區(qū)間估計所謂預(yù)測就是把預(yù)報因子(自變量X)代入回歸方程對總體中預(yù)報量(應(yīng)變量Y)的X0應(yīng)0意勿與樣本觀察值Y的標(biāo)準(zhǔn)差相混)按公式(12-18)計

11

(X

X ?p

(/

XSY|SY| 11(1.12 更寬。圖12-3同時顯示 y?

ax 決定系數(shù)(coefficientofR2定義為回歸平方和與總平方和之比,計算

l

lR2

lXX公式說明當(dāng)SS總固定不變時回歸平方和的大小決定了相關(guān)系數(shù)r絕對值的大小?;貧w平方和越接近總平方和r絕對值越接近說明相關(guān)的實際例如相關(guān)系數(shù)r=0.8818,得R2=0.7775,XY77.75%,另外約22X來解釋。第三節(jié)殘差分i殘差(residual)是指觀測值Yi與回歸模型擬合i之

析(rsidal ysis)旨在通過殘差深入了解數(shù)據(jù)與模型之間的關(guān)系,評價實際資料是否1=14140957=-0.0957,如此類推,計算出各數(shù)據(jù)點的殘差值示21010除以其標(biāo)準(zhǔn)差,便得標(biāo)準(zhǔn)化殘差。若以反應(yīng)變量取值Yi為橫坐標(biāo),以標(biāo)準(zhǔn)化殘差為縱坐標(biāo),構(gòu)成的散點圖圖12-5所示。類似地,也可以自變量取值Xi為橫坐標(biāo),以標(biāo)準(zhǔn)化殘差為坐標(biāo),構(gòu)成的散點圖。這類散點圖統(tǒng)稱為標(biāo)準(zhǔn)化殘差圖圖(e)顯示殘差呈隨機(jī)分布;圖(a)、(b)和(f)表示殘差不滿足方差齊性條件;圖(c)顯 系,其中應(yīng)變量的定奪主要依專業(yè)要求而定,可以考慮把易于精確測量的變量作為X,另一個隨量作Y,例如用身高估計兩個變量的選擇一定要結(jié)合專業(yè)背景,不能把毫無關(guān)聯(lián)的散點圖 兩變量是否有直線趨勢可發(fā)現(xiàn)異常點(outlier)式,也可能是抽樣誤差造成的一次偶然結(jié)果甚至過差。需要認(rèn)真核對原始數(shù)據(jù)并檢查其產(chǎn)生過程認(rèn)定是過差,或者通過直線回歸要求至少對于每個X相應(yīng)的Y要服從正態(tài)分布,X可以是服從正態(tài)分布的隨量也可以是能精確測量和嚴(yán)格控制的非隨量;*對于雙變量正態(tài)分布資料,根據(jù)研究目的可選XY或者YX,一般情況下兩個 反應(yīng)兩變量關(guān)系密切程度或數(shù)量上影響大小的統(tǒng)計量應(yīng)該是回歸系數(shù)的絕對值,而不是假設(shè)檢驗的P值。 P值越小只能說越有理由認(rèn)為變量間的直線關(guān)系存

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論