預(yù)防醫(yī)學(xué)-線性相關(guān)與回歸_第1頁
預(yù)防醫(yī)學(xué)-線性相關(guān)與回歸_第2頁
預(yù)防醫(yī)學(xué)-線性相關(guān)與回歸_第3頁
預(yù)防醫(yī)學(xué)-線性相關(guān)與回歸_第4頁
預(yù)防醫(yī)學(xué)-線性相關(guān)與回歸_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第十章

線性相關(guān)與回歸(Linear

Correlation

& Regression

)線性相關(guān)與回歸第一節(jié)

線性相關(guān)第二節(jié)

線性回歸第三節(jié)

線性相關(guān)與回歸的區(qū)別和聯(lián)系第三節(jié)

等級(jí)相關(guān)一、線性相關(guān)的基本概念二、線性相關(guān)系數(shù)三、相關(guān)系數(shù)的顯著性檢驗(yàn)四、進(jìn)行線性相關(guān)分析的注意事項(xiàng)線性相關(guān)(linear

correlation)一、線性相關(guān)的基本概念為直觀地判斷兩個(gè)變量之間的關(guān)系,可在直角坐標(biāo)系中把每對(duì)(Xi,Yi)值所代表的點(diǎn)繪出來,形成散點(diǎn)圖。例如12名男青年身高與前臂長資料繪制的散點(diǎn)圖

:4240150若一個(gè)變量X由小到大(或由大到?。硪蛔兞縔亦相應(yīng)地由小到大或由大到小,則兩個(gè)變量的散點(diǎn)圖呈直線趨勢(shì),我們稱這種現(xiàn)象為

共變,也就是這兩個(gè)變量之間有“相關(guān)關(guān)系”。男青年身高與前臂長散點(diǎn)呈直線趨勢(shì),即男青年身材高,前臂亦長,說明身高與前臂長之間存

性相關(guān)關(guān)系我們把這種關(guān)系稱為直線相關(guān)。線性相關(guān)用于雙變量正態(tài)資料。它的性質(zhì)可由散點(diǎn)圖直觀地說明。散點(diǎn)圖中點(diǎn)的分布即線性相關(guān)的性質(zhì)和相關(guān)之間的密切程度,可分為以下幾種情況:1.正相關(guān) 2.負(fù)相關(guān) 3.無相關(guān)二、線性相關(guān)系數(shù)在分析兩個(gè)變量X與Y之間關(guān)系時(shí),常常要了解X與Y之間有無相關(guān)關(guān)系,相關(guān)是否密切,是呈正相關(guān)還是負(fù)相關(guān)。相關(guān)系數(shù)就是說明具有直線關(guān)系的兩個(gè)變量間相關(guān)密切程度和相關(guān)方向的統(tǒng)計(jì)量。(Pearson)相關(guān)系數(shù)的計(jì)算公式為:ii.LYLYXLXYXYYY)r

r

XY(2(X)Y)2

(

X

X

)(相關(guān)系數(shù)r沒有測(cè)量單位,其數(shù)值為-1≤≤+1r相關(guān)系數(shù)的計(jì)算方法計(jì)算時(shí)分別可用下面公式帶入相關(guān)系數(shù)r的計(jì)算公式中X

X

2

X

2

NXY

Y

Y

X

X

Y

Y

Y2NX

Y

NY

2

X

22例10.1

從男青年總體中隨機(jī)抽取11名男青年組成樣本,分別測(cè)量每個(gè)男青年的身高和前臂長,身高和前臂長均以cm為單位,測(cè)量結(jié)果如下表所示,試計(jì)算身高與前臂長之間的相關(guān)系數(shù)。身高(cm)

前臂長(cm)

XY

X2Y2(X)(Y)11704779902890022092173427266299291764316044704025600193641554163552402516815173478131299292209618850940035344250071784783663168422098183468418334892116918049882032400240110165437095272253174285612116合計(jì)18915008618532608122810解:n

11,

X

=1891,

X

2

=89599,Y

=500,

Y

2

=22810,

XY

=86185。代入公式(10-2),得:

1000.9091118912

326081

(

X

)2L

X

2

nXX

82.7275002

22810

n 11(Y

)2L

Y

2

YYn

11L

XY

(

X

)(Y

)

86185

1891

500

230.455XY按公式(10-1)計(jì)算相關(guān)系數(shù)r

0.80121000.909

82.727230.455r三、相關(guān)系數(shù)的顯著性檢驗(yàn)rr與前面講的其它統(tǒng)計(jì)量一樣,根據(jù)樣本資料計(jì)算出來的相關(guān)系數(shù)同樣存在抽樣誤差。即假設(shè)在一個(gè)X與Y無關(guān)總體中作隨機(jī)抽樣,由于抽樣誤差的影響,所得的樣本相關(guān)系數(shù)也常常不等于零。因此要判斷兩個(gè)變量X與Y是否真的存在相關(guān)關(guān)系,仍需根據(jù)作總體相關(guān)系數(shù)ρ是否為零的假設(shè)檢驗(yàn)。常用的檢驗(yàn)方法有兩種:1.按度直接查附表11的界值表,得到P

值。n

21

r

2r

0tr

n

22.用假設(shè)檢驗(yàn)法,計(jì)算統(tǒng)計(jì)量,其公式為:例10.1所得的

r

值檢驗(yàn)?zāi)星嗄晟砀吲c前臂長之間是否存在相關(guān)關(guān)系?第

法1.建立檢驗(yàn)假設(shè)H

0

0

,即身高與前臂長之間不存在相關(guān)關(guān)系H1

0

;即身高與前臂長之間存在相關(guān)關(guān)系

0.052.計(jì)算統(tǒng)計(jì)量n

=11,

r

=0.8012,度

=11-2=9,3.查

r

界值表,得統(tǒng)計(jì)結(jié)論查r

界值表(附表

11),得

r0.005(9)

0.776

,因?yàn)?/p>

r

>r0.005(9),故P<0.005,按

0.05

水準(zhǔn)H

0

接受H1

,可以認(rèn)為男青年身高與前臂長之間存在正相關(guān)關(guān)系。第二種方法建立同樣的檢驗(yàn)假設(shè)計(jì)算統(tǒng)計(jì)量

4.0171

0.8012211

20.8012

0tr

ν=11-2=93.查界值表,得統(tǒng)計(jì)結(jié)論t0.005(9)t0.005(9),P

<0.005,結(jié)果與查

t

界值表,得

3.690

,tr查r

界值表一致。四、進(jìn)行線性相關(guān)分析的注意事項(xiàng)⒈線性相關(guān)表示兩個(gè)變量之間的相互關(guān)系是雙向的,分析兩個(gè)變量之間到底有無相關(guān)關(guān)系可首先繪制散點(diǎn)圖,散點(diǎn)圖呈現(xiàn)出直線趨勢(shì)時(shí),再作分析。⒉相關(guān)系數(shù)的計(jì)算只適用于兩個(gè)變量都服從正態(tài)分布的情形,如果資料

從正態(tài)分布,應(yīng)先通過變量變換,使之正態(tài)化,再根據(jù)變換值計(jì)算相關(guān)系數(shù)。四、進(jìn)行線性相關(guān)分析的注意事項(xiàng)⒊依據(jù)公式計(jì)算出的相關(guān)系數(shù)僅是樣本相關(guān)系數(shù),它是總體相關(guān)系數(shù)的一個(gè)估計(jì)值,與總體相關(guān)系數(shù)之間存在著抽樣誤差,要判斷兩個(gè)事物之間有無相關(guān)及相關(guān)的密切程度,必須設(shè)檢驗(yàn)。四、進(jìn)行線性相關(guān)分析的注意事項(xiàng)⒋相關(guān)分析是用相關(guān)系數(shù)來描述兩個(gè)變量間相互關(guān)系的密切程度和方向,而兩個(gè)事物之間的關(guān)系既可能是依存因果關(guān)系,也可能僅是相互伴隨的數(shù)量關(guān)系。決不可因?yàn)閮墒挛镩g的相關(guān)系數(shù)有統(tǒng)計(jì)學(xué)意義,就認(rèn)為兩者之間存在著因果關(guān)系,要證明兩事物間確實(shí)存在因果關(guān)系,必須憑借專業(yè)知識(shí)加以闡明。一、線性回歸的基本概念二、線性回歸方程的計(jì)算三、線性回歸方程的顯著性檢驗(yàn)四、進(jìn)行線性回歸分析的注意事項(xiàng)第二節(jié)線性回歸(linear

regression)一、線性回歸的基本概念相關(guān)是分析兩個(gè)正態(tài)變量X與Y之間的互相關(guān)系。在相關(guān)分析中,分不清X與Y何者為自變量,何者為因變量?,F(xiàn)在假設(shè)兩個(gè)變量X

、Y

中,當(dāng)一個(gè)變量X

改變時(shí),另一個(gè)變量

Y

也相應(yīng)地改變,當(dāng)這樣的兩個(gè)變量之間存在著直線關(guān)系時(shí),不僅可以用相關(guān)系數(shù)r

表示變量Y與X線性關(guān)系的密切程度,也可以用一個(gè)直線方程來表示Y

與X的線性關(guān)系。根據(jù)大量實(shí)測(cè)數(shù)據(jù),尋找出其規(guī)律性,尋求一個(gè)直線方程來描述兩個(gè)變量間依存變化的近似的線性數(shù)量關(guān)系,即線性回歸關(guān)系,這樣得出的直線方程叫做線性回歸方程。線性回歸方程的形式為:Y

a

bX其中b

(

X

X

)(Y

Y

)

LXYLXX(

X

X

)2a

Y

b

XY

是給定

X

時(shí)Y

的估計(jì)值b

稱為回歸系數(shù)(regression

coefficient)。二、線性回歸方程的計(jì)算例10.3有人研究了溫度對(duì)蛙的心率的影響,得到了表10-2中所示的資料,試進(jìn)行回歸分析。12510425241144361214810222201004846122327644819610248162946425684191832576324102410203468040011561122337264841089合計(jì)132246362220246610對(duì)象溫度(X)

心率(Y)

XYX2

Y21.根據(jù)表10-2數(shù)據(jù)繪制散點(diǎn)圖,如下圖所示:溫度3020100蛙心律4030201002.計(jì)算回歸系數(shù)與常數(shù)項(xiàng)在本例中:

X

2

X

132Y

246

XY

3622

2024Y

2

6610X

12Y

22.3631322

440

XY

(

X

)(Y

)3622

(132)(246)

n

11

670

1.5232024

(

X

)2

X

211XXlb

lXYna

Y

bX

22.363

1.52312

4.087則,回歸方程為Y?

4.087

1.523X3.作回歸直線按求得的回歸方程,在

X

實(shí)測(cè)值的范圍內(nèi)(本例為

2~22)任取兩個(gè)相距較遠(yuǎn)的點(diǎn)A(X

,Y

)?

?1

1

2

2B(X

,Y

)、

,連接

A、B

兩點(diǎn)即得到回歸直線。本例可取X1

3

,計(jì)算出Y?

8.65;

X

21,計(jì)算出Y?

36.06

,過(3,1

2

28.65)和(21,36.06)兩點(diǎn)的連線即為所求的回歸直線(regressionline)三、線性回歸方程的顯著性檢驗(yàn)對(duì)線性回歸方程要進(jìn)行假設(shè)檢驗(yàn),就是要檢驗(yàn)

b是否為β=0的總體中的一個(gè)隨機(jī)樣本。該假設(shè)檢驗(yàn)通常用方差分析或者t檢驗(yàn),兩者的檢驗(yàn)效果等價(jià)。線性回歸方程的顯著性檢驗(yàn)-方差分析檢驗(yàn)的基本思想:如果X

與Y

之間無線性回歸關(guān)系,則SS回歸與SS剩余都是其它隨機(jī)因素對(duì)Y的影響,由此描寫變異的

MS回歸與MS剩余應(yīng)近似相等,總體回歸系數(shù)β=0,反之,β≠0。于是,可用F

檢驗(yàn)對(duì)X

與Y

之間有無回歸關(guān)系進(jìn)行檢驗(yàn)。Y

值的變異可用式(Y

Y)2

來反映,而每個(gè)Y

Y

都可以分解成下式:Y

Y

(Y

Y?)(Y?

Y

)將此式兩邊平方然后展開,得:其中則:(Y

Y

)2

[

(Y

Y?

)

(Y?

Y

)

]

2

(Y

Y?

)2

(Y?

Y

)2

2(Y

Y?

)(Y?

Y

)(Y

Y?

)(Y?

Y

)

[

Y

Y

b(

X

X

)

]

[Y

b(

X

X

)

Y

)

]

b(

X

X

)(Y

Y

)

b2

(

X

X

)2

b2

(

X

X

)2

b2

(

X

X

)2

0(Y

Y

)2

(Y?

Y

)2

(YY?

)2回歸系數(shù)的假設(shè)檢驗(yàn)可用下面簡(jiǎn)化公式計(jì)算(Y

)2SS

(Y

Y

)2

Y

2

n總Y

)

2

b2

(

X

X

)2SS

(Y?

Y

)2

(Y

b(

X

X

)回歸LXXL2

XY

bLXY

LXXL

b

XYLXXSS

剩余=SS

總-SS

回歸這三個(gè)平方和的

度依次為:

回歸=1,

總=n-1,

剩余=n-2回歸

SS回歸回歸MS剩余

SS剩余剩余MSF

M

S回歸M

S剩余對(duì)例10.3的回歸方程用方差分析進(jìn)行假設(shè)檢驗(yàn)建立假設(shè)檢驗(yàn)β=0β≠0α=0.05計(jì)算統(tǒng)計(jì)量SS總SS回歸SS剩余=SS總-SS回歸=88.31(Y

)22462

6610

1108.5411n

1020.234406702

Y

2

XY

l

XXl

2F

MS回歸

SS回歸

/回歸

1020.23

/1

103.97SS剩余

/剩余88.31/

9MS剩余(3)確定P值得出統(tǒng)計(jì)結(jié)論查F界值表,V回歸

=

1,V剩余

=

9,可以認(rèn)為溫度與蛙的心率之間存性回歸關(guān)系。F0.01(1,

9)

10.56F

F0.01(1,

9)P

0.01H

0H

0方差分析表變異來源SSMSFP總變異1108.5410回

歸1020.2311020.23103.97<0.01剩

余88.3199.81對(duì)例10.3的回歸方程用t

檢驗(yàn)進(jìn)行假設(shè)檢驗(yàn)建立假設(shè)檢驗(yàn)β=0β≠0α=0.05計(jì)算統(tǒng)計(jì)量988.31

3.13sY

X

440bs

3.13

0.149t

1.523

0

10.220.149(3)確定P值作結(jié)論V

=11-2=9根據(jù)

V

=9,

t

0.01/

2(9)

3.250,

P

<0.01,

H0,結(jié)論與F

檢驗(yàn)相同。F

t細(xì)心的讀者可以發(fā)現(xiàn)統(tǒng)計(jì)量F與t

之間存在著關(guān)系本例F

t

。103.97

10.22

。四、進(jìn)行線性回歸分析的注意事項(xiàng)⒈

只有將兩個(gè)內(nèi)在有聯(lián)系的變量放在一起進(jìn)行回歸分析才是有意義的。⒉作回歸分析時(shí),如果兩個(gè)有內(nèi)在聯(lián)系的變量之間存在的是一種依存因果的關(guān)系,那么應(yīng)該以“因”的變量為X

,以

“果”的變量為Y

。如果變量之間并無因果關(guān)系,則應(yīng)以易于測(cè)定、較為穩(wěn)定或變異較小者為X

。⒊

在回歸分析中,因變量是隨

量,自變量既可以是隨機(jī)變量(II型回歸模型,兩個(gè)變量應(yīng)該都服從正態(tài)分布),也可以是給定的量(I型回歸模型,這時(shí),與每個(gè)X

取值相對(duì)應(yīng)的變量Y必須服從正態(tài)分布),如果數(shù)據(jù)不符合要求,在進(jìn)行回歸分析前,必須先進(jìn)行變量的變換。四、進(jìn)行線性回歸分析的注意事項(xiàng)⒋回歸方程建立后必須

設(shè)檢驗(yàn),只有經(jīng)假設(shè)檢驗(yàn)

了無效假設(shè),回歸方程才有意義。⒌使用回歸方程計(jì)算估計(jì)值時(shí),不可把估計(jì)的范圍擴(kuò)大到建立方程時(shí)的自變量的取值范圍之外。第三節(jié)線性相關(guān)和回歸的區(qū)別與聯(lián)系一、線性相關(guān)與回歸的區(qū)別⒈相關(guān)系數(shù)的計(jì)算只適用于兩個(gè)變量都服從正態(tài)分布的情形,而在回歸分析中,因變量是隨量,自變量既可以是隨量(II型回歸模型,兩個(gè)變量都應(yīng)該服從正態(tài)分布),也可以是給定的量(I型回歸模型,這時(shí),與每個(gè)X取值相對(duì)應(yīng)的變量Y必須服從正態(tài)分布)。⒉線性相關(guān)表示兩個(gè)變量之間的相互關(guān)系是雙向的,回歸則反映兩個(gè)變量之間的依存關(guān)系,是單向的。二、線性相關(guān)與回歸的聯(lián)系⒊如果對(duì)同一資料進(jìn)行相關(guān)與回歸分析,則得到的相關(guān)系數(shù)r與回歸方程中的b正負(fù)號(hào)是相同的。⒋在相關(guān)分析中,求出r后要進(jìn)行假設(shè)檢驗(yàn),同樣,在回歸分析中,對(duì)b也要進(jìn)行假設(shè)檢驗(yàn)。實(shí)際上,通過數(shù)學(xué)推導(dǎo),對(duì)同一樣本可以得出r與b互化的公式,同一樣本的這兩種假設(shè)檢驗(yàn)也是等價(jià)的。因此,由于r的假設(shè)檢驗(yàn)可以直接查表,較為簡(jiǎn)單,所以可以用其代替對(duì)b的假設(shè)檢驗(yàn)。⒌相關(guān)回歸可以互相解釋。R

的平方稱為確定系數(shù)(coefficient

of

determination)SS總回歸SSlXX

lYY

lYY/

ll

2

l

2

XY

XY XX22R

r應(yīng)用確定系數(shù),也可以從回歸的角度對(duì)相關(guān)程度做進(jìn)一步的了解。二、線性相關(guān)與回歸的聯(lián)系第四節(jié)

等級(jí)相關(guān)如果觀測(cè)值是等級(jí)資料,則可以用等級(jí)相關(guān)來表達(dá)兩事物之間的關(guān)系。等級(jí)相關(guān)是分析X、Y

兩變量等級(jí)間是否相關(guān)的一種非參數(shù)方法。常用的等級(jí)相關(guān)方法是Spearman等級(jí)相關(guān)。與線性相關(guān)系數(shù)r

一樣,等級(jí)相關(guān)系數(shù)rs的數(shù)值亦在-1與+1之間,數(shù)值為正表示正相關(guān),數(shù)值為負(fù)表示負(fù)相關(guān)。一、等級(jí)相關(guān)系數(shù)的計(jì)算

1)Spearman等級(jí)相關(guān)系數(shù)rs

可由公式計(jì)算6

d

2rs

1

n(n

2式中,n

表示樣本含量;d

表示X、Y

的秩次之差。例10.4某醫(yī)生做一種研究,欲了解人群中氟骨癥患病率(%)與飲用水中氟含量(mg/l)之間的關(guān)系。隨機(jī)觀察8個(gè)地區(qū)氟骨癥患病率與飲用水中氟含量,數(shù)據(jù)如表10-4(2)、(4)兩欄。試計(jì)算等級(jí)相關(guān)系數(shù)rs。表10-4不同地區(qū)飲水中氟含量(mg/l)與氟骨癥患病率(%)地區(qū)

飲水中氟含量

氟骨癥患病率dd2X秩次Y秩次(1)(2)(3)(4)(5)(6)=(3)-(5)(7)=(6)210.48122.372-1120.64223.313-1131.00325.324-1141.47422.2913951.60535.005.5-0.50.2562.86635.005.50.50.2573.21746.0770084.71848.318001.將X、Y

分別從小到大編秩,見表

10-4(3)、(5)兩欄,若遇到相同觀察值時(shí),則取平均秩次。如

Y5=Y6=35.00,則

Y5,Y6

分別標(biāo)平均秩次

(5+6)/2=5.52.差數(shù)d,見(6)欄,注意

d

03.算d2見(7)欄,本例

d

2

12.54.代入公式(10-18)計(jì)算rs(8

82

1)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論