統(tǒng)計2回歸與相關藍_第1頁
統(tǒng)計2回歸與相關藍_第2頁
統(tǒng)計2回歸與相關藍_第3頁
統(tǒng)計2回歸與相關藍_第4頁
統(tǒng)計2回歸與相關藍_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

4回4英國人類學家F.Galton首次在《自然遺傳》 計學家KarlPearson對上千個家庭的兒子身高(Y,英寸)與父親身高(X,英寸)性關系:?33.730.516X也即高個子父代的子代在成年之后的身高平于其父代水平。Galton將這種趨向于種族穩(wěn)定“回歸”已成為表示變量之間某種數(shù)量依存關系的統(tǒng)計學術語,相關并且衍生出“回歸方程”“回歸系數(shù)”等統(tǒng)計學概念。如研究 人血糖與其胰島素水平的關系,研究兒童與體重的關系等。即便具有相同的體重,肺活量也不一定相同YY

X女大學生體重(X)與肺活量(Y)的散點圖 即便具有相同的2歲身高,成年后的身高也不一定相同 X2歲身高X與成年后身高Y的散點2歲身高影響成年的身高,但并非確定地決定它(determineitexactly);宏觀上來講,他們呈直線關系,但并不能YabX函數(shù)式(例如圓周長與半徑:y=2πr)來描述。?abX“hat”表示估計值,給定x時y的條件均數(shù)函數(shù)關系:確定。例如圓周長與半徑:y=2πr回歸關系:不確定。例如血壓和 的關系,稱為直線回歸(linearregression)。依存關系:應變量(dependentvariable)Y化 ——回歸分互依關系:應變量Y與自變量X ?a Y(dependentvariable,response (independentvariable,explanatory條件:Y是服從正態(tài)分布的 ?aa:截距(intercept),直線與Y軸交點的縱坐標。:斜率(slope),回歸系數(shù)(regressioncoefficient)。b>0,Y隨X的增大而增大(減少而減少)——斜上;b<0,Y隨X的增大而減?。p少而增加)——斜下; ——水平條件:Y隨量,總體為正態(tài)分布

?aYX

例7-1某地方病 12345678X7:只有一個自變量,稱簡單回歸(simpleregression); :

3.6尿肌酐含量尿肌酐含量3.23.02.82.62.44.0 6.0 8.0 10.0()

12.0 14.0圖9-18名兒童 與其尿肌酐含量的散點X squaremethod):使各散點到直線的 Y?2最小。 Q(Y?)

(Y?)2YabX b(XX)(YY)XYXY/n(XXaYb

1 123946586787

232.617623.87/764762/5.8450回歸方程:?

XX/n76/8YY/n23.87/8aY①由于抽樣誤差引起,總體回歸系數(shù)②存在回歸關系,總體回歸系數(shù)β②tY總情況(YY

? ?Y)回歸部Y (YY)(Y?)?Y?)(?所以有(YY)2(Y?)2(Y?Y即SSSSSS=剩+2SS總=(YY),Y的離均差平方和(totalsumof2未考慮X與Y的回歸關系時的總變異。υ=n-SS=(Y? )為剩余平方和(residualsumof對Y法用解釋的部分。SS剩越小,回歸效果越好。υ=n- 為回歸平方和(regressionsumof,由于X與的直線關系而使變異減小的部分,即總變異中,F(xiàn)SS回/回MS回SS殘/ MS1殘nY?2YYSSSSSS回SS

2?Y

b2l

?

X

Y

Y(5)=(3)-(4)

(Y?)2 - - - - ?

計算

12123946586787 /842

Y2(Y)2/相關系 公1,nH0:1,nH1:β≠0,即尿肌酐含量 之間有直線關

FSS/回MS

0.8134

SS回

SS殘/ MS SS殘=SS總-SS回

回 殘nFP7 1 6v1=1;ν2=6,查F界值表,得P<0.01.按 H0接受H1可以認為兩者有直線關公 t

bbSbb

SY. SY.XXXXn n

過H0:β=0 前面已計算過n=8,SS殘 SS

0.23280.1970,Y.

n 8 SY.

0.19700.0304, 42tb00.13924.579,Sb 0.0304 H0…注意 F SpssSpss.139t檢Spss結0.1392?0.1392?TheinterceptisaTheinterceptisa=No直線回歸方程的區(qū)間估(一)總體回歸系數(shù)的區(qū)間估(b-t/2(n-2)Sb,b+t/2(n-2)Sb)簡記為bt/2(n-(0.1392-2.447×0.0304,=(0.0648,(二)總體均數(shù)μ的區(qū)間估(三 Y值的容許區(qū) Y|X的區(qū)間估

本例: 時??1.66170.13921.66170.1392(3.3321-2.447×0.1031, Y縮寫本例: =12時值的95%容許區(qū)間,9595%uX|Y的可信區(qū)間 容許區(qū)尿肌尿肌酐含量(

可信區(qū)

()

圖9-3總體均數(shù)的可信區(qū)間和 ? 控 回 變量間的依存關相 變量間的互依關直線相關(linearcorrelation)簡單相關(simplecorrelation),用于雙變量正態(tài)分布資料。圖

、Y同時增減---正相關(positivecorrelation);、Y此增彼減---負相關(negativecorrelation) 、Y變化趨勢相同----相關系數(shù)示意 反向變化 、Y變化互不影 相關(zerocorrelation)圖 相關系數(shù)示意相關系數(shù)(correlationcoefficient),又稱積差相關系數(shù)(coefficientofproduct–momentcorrelation),或Pearson相關系數(shù)(軟件中常說明相關的密切程度和方向的指標r——相關系數(shù)的意XXYY XYY

lXXlXXlYYr無單位,-1r≤1。r——為負——(與回歸系數(shù)的符號相同|r|=1---完全相關,|r|=0---零相關。x,y相關系數(shù)的計對例 的相關關由例9-1算得,r lXY lXX

5.845

0.8818r≠0rr1rr1rnSr

n=8,t

0.8818

4.579,n21r 10.88182n 8P<0.05,按0.05水 H0,接受可以認為兩者成直線關必須將r轉為或 公式tanh為雙曲線正切函數(shù)tanh-1為雙曲線反正切函數(shù),r的取值范圍為-1<r<1,Z取值范圍-∞<Z<+∞。按正態(tài)) (1z=tanh-1

2ln(1z的95%可信區(qū)間為1.3838±1.96/8 =(0.5073,3.2749)e2z

上限tanhz=tanh0.5073=e2

tanh

e2z1

1下 e2z

總體相關系數(shù)95%可信區(qū)間為公式l /

l R

lXX SS取值0到1之 MS回F 回

,1,

n

SS/殘MS

②X、Y服從雙變量正態(tài)分 回歸— 由一個變量值推算另一個變量相關——假設檢驗等

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論