




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第一節(jié) 回歸和相關(guān)的概念 前幾章的方法都只涉及一種變量,主要是比較它的各組值之間的差異。但生物學(xué)所涉及的問題是多種多樣的,對許多問題的研究需要考慮不只一個(gè)變量,例如生物的生長發(fā)育速度就與溫度,營養(yǎng),濕度 等許多因素有關(guān),我們常常需要研究類似的多個(gè)變量之間的關(guān)系。這種關(guān)系可分為兩大類,即相關(guān)關(guān)系與回歸關(guān)系。 相關(guān)關(guān)系 :兩變量 X , Y 均為隨機(jī)變量,任一變量的每一可能值都有另一變量的一個(gè)確定分布與之對應(yīng)。 回歸關(guān)系 : X 是非隨機(jī)變量或隨機(jī)變量, Y 是隨機(jī)變量,對 X 的每一確定值 x i 都有 Y 的一個(gè)確定分布與之對應(yīng)。 從上述定義可看出相關(guān)關(guān)系中的兩個(gè)變量地
2、位是對稱的,可以認(rèn)為它們互為因果;而回歸關(guān)系中則不是這樣,我們常稱回歸關(guān)系中的 X 是自變量,而 Y 是因變量。即把 X 視為原因,而把 Y 視為結(jié)果。 這兩種關(guān)系盡管有意義上的不同,分析所用的數(shù)學(xué)概念與推導(dǎo)過程也有所不同,但如果我們使用共同的標(biāo)準(zhǔn)即使 y 的殘差平方和最小(最小二乘法,詳見下述),則不管是回歸關(guān)系還是相關(guān)關(guān)系都可以得到相同的參數(shù)估計(jì)式。因此本章將集中討論數(shù)學(xué)處理較簡單的回歸關(guān)系,且 X 限定為非隨機(jī)變量。從這些討論中所得到的參數(shù)估計(jì)式也可用于 X 為隨機(jī)變量的情況,但我們不再討論 X 為隨機(jī)變量時(shí)的證明與推導(dǎo)。 另外,回歸分析和相關(guān)分析的目的也有所不同?;貧w分析研究的重點(diǎn)是建
3、立 X 與 Y 之間的數(shù)學(xué)關(guān)系式,這種關(guān)系式常常用于預(yù)測,即知道一個(gè)新的 X 取值,然后預(yù)測在此情況下的 Y 的取值;而相關(guān)分析的重點(diǎn)則放在研究 X 與 Y 兩個(gè)隨機(jī)變量之間的共同變化規(guī)律,例如當(dāng) X 增大時(shí) Y 如何變化,以及這種共變關(guān)系的強(qiáng)弱。由于這種研究目的的不同,有時(shí)也會(huì)引起標(biāo)準(zhǔn)和方法上的不同,我們將在相關(guān)分析一節(jié)中作進(jìn)一步介紹。 從兩個(gè)變量間相關(guān)(或回歸)的程度來看,可分為以下三種情況: ( 1 ) 完全相關(guān) 。此時(shí)一個(gè)變量的值確定后,另一個(gè)變量的值就可通過某種公式求出來;即一個(gè)變量的值可由另一個(gè)變量所完全決定。這種情況在生物學(xué)研究中是不太多見的。 ( 2 ) 不相關(guān) 。變量之間完全
4、沒有任何關(guān)系。此時(shí)知道一個(gè)變量的值不能提供有關(guān)另一個(gè)變量的任何信息。 ( 3 ) 統(tǒng)計(jì)相關(guān) (不完全相關(guān))。介于上述兩種情況之間。也就是說,知道一個(gè)變量的值通過某種公式就可以提供關(guān)于另一個(gè)變量一些信息,通常情況下是提供有關(guān)另一個(gè)變量的均值的信息。此時(shí)知道一個(gè)變量的取值并不能完全決定另一個(gè)變量的取值,但可或多或少地決定它的分布。這是科研中最常遇到的情況。本章討論主要針對這種情況進(jìn)行。為簡化數(shù)學(xué)推導(dǎo),本章中如無特別說明,一律假設(shè) X 為非隨機(jī)變量,即 X 只是一般數(shù)字,并不包含有隨機(jī)誤差。但所得結(jié)果可以推廣到 X 為隨機(jī)變量的情況。 兩個(gè)變數(shù)資料的散點(diǎn)圖 將兩個(gè)變數(shù)的 n 對觀察值 ( x 1 ,
5、 y 1 ) 、 ( x 2 , y 2 ) 、 、 ( x n , y n ) 分別以坐標(biāo)點(diǎn) 的形式標(biāo)記于同一直角坐標(biāo)平面上得到的圖,稱為散點(diǎn)圖 (scatter diagram) 。 第二節(jié) 直線回歸 前邊已經(jīng)說過,回歸關(guān)系就是對每一個(gè) X的取值x i ,都有Y的一個(gè)分布與之對應(yīng)。在這種情況下,怎么建立X與Y的關(guān)系呢?一個(gè)比較直觀的想法就是建立X與Y的分布的參數(shù)間的關(guān)系,首先是與Y的均值的關(guān)系。這就是條件均值的概念,記為: 。它的意思是在X=x 1 的條件下,求Y的均值。更一般地,我們用 代表X取一切值時(shí),Y的均值所構(gòu)成的集合。所謂一元線性回歸,就是假定X與 之間的
6、關(guān)系是線性關(guān)系,而且滿足: ( 9.1 ) 此時(shí)進(jìn)行回歸分析的目標(biāo)就是給出參數(shù) 和的估計(jì)值。 例 9.1 對大白鼠從出生第6天起,每三天稱一次體重,直到第18天。數(shù)據(jù)見表5.1。試計(jì)算日齡X與體重Y之間的回歸方程。 表 9.1 大白鼠6-18日齡的體重 序號(hào) 1 2 3 4 5 日齡 x i 6 9 12 15 18 體重 y i 11 16.5 22 26 29 首先,我們可以把數(shù)對( x i , y i )標(biāo)在 X-Y 坐標(biāo)系中,這種圖稱為散點(diǎn)圖。它的優(yōu)點(diǎn)是可以使我們對 X 、 Y 之間的關(guān)系有一個(gè)直觀的、整體上的印象,如它們是否有某種規(guī)律性,是接近一條直線還是一條曲線,等等。我們還可以畫
7、很多條接近這些點(diǎn)的直線或曲線,但這些線中的哪一條可以最好地代表 X, Y 之間的關(guān)系,就不是憑直觀印象可以做出判斷的了。例如對例 9.1 ,我們可畫出如下的散點(diǎn)圖: 圖 9.1 大白鼠日齡 體重關(guān)系圖 圖中的點(diǎn)看來是呈直線關(guān)系,但那條直線是否最好地反映了這種關(guān)系呢?或者換一種說法:該如何找到最好地反映這種關(guān)系的直線呢?這就是我們以下要討論的問題。 一元正態(tài)線性回歸統(tǒng)計(jì)模型 線性回歸意味著條件平均數(shù)與 X 之間的關(guān)系是線性函數(shù): ( 9.1 ) 對于每個(gè) Y 的觀察值 y i 來說,由于條件均值由 (9.1) 式?jīng)Q定,觀察值就應(yīng)該是在條件均值的基礎(chǔ)上再加上一個(gè)隨機(jī)誤差,即: ( 9.2 ) 其中
8、 。正態(tài)線性回歸中 “ 正態(tài) ” 的意思是隨機(jī)誤差服從正態(tài)分布。 (9.2) 式就是一元正態(tài)線性回歸的統(tǒng)計(jì)模型。 9.2.2 參數(shù) 和的估計(jì) 統(tǒng)計(jì)模型中的和是總體參數(shù),一般是不知道的。由于只能得到有限的觀察數(shù)據(jù),我們無法算出準(zhǔn)確的與的值,只能求出它們的估計(jì)值 a和b,并得到y(tǒng) i 的估計(jì)值為: (9.3) 那么,什么樣的 a和b是和最好的估計(jì)呢?換句話說,選取什么樣的a和b可以最好地反映X和Y之間的關(guān)系呢?一個(gè)合理的想法是使殘差 最小。為了避免使正負(fù)e i 互相抵消,同時(shí)又便于數(shù)學(xué)處理,我們定義使殘差平方和 達(dá)到最小的直線為回歸線,即令: ,且 得: 整理后,得 (9.4) 上式稱為正規(guī)方程。
9、解此方程,得: 這種方法稱為最小二乘法,它也適用于曲線回歸,只要將線性模型( 9.3)式換為非線性模型即可。但要注意非線性模型的正規(guī)方程一般比較復(fù)雜,有些情況下甚至沒有解析解。另一方面,不管X與Y間的真實(shí)關(guān)系是什么樣的,使用線性模型的最小二乘法的解總是存在的。因此正確選擇模型很重要,而且用最小二乘法得出的結(jié)果一般應(yīng)經(jīng)過檢驗(yàn)。 記 ,稱為X的校正平方和; ,稱為Y的總校正平方和; ,稱為校正交叉乘積和, 則: (9.5) 在實(shí)際計(jì)算時(shí),可采用以下公式: 現(xiàn)在回到例 9.1 。 例 9.1 對大白鼠從出生第6天起,每三天稱一次體重,直到第18天。數(shù)據(jù)見表9.1。試計(jì)算日齡X與體重Y之間的回歸方程。
10、 表 9.1 大白鼠6-18日齡的體重 序號(hào) 1 2 3 4 5 日齡 x i 6 9 12 15 18 體重 y i 11 16.5 22 26 29 解:把數(shù)據(jù)代入上述公式 , 得: 即:所求的回歸方程為: y = 2.6996 + 1.5167 x 帶有統(tǒng)計(jì)功能的計(jì)算器常常也可以做一元線性回歸,對于這樣的計(jì)算器,只需把數(shù)據(jù)依次輸入,然后按一下鍵就可得到上述結(jié)果。 9.2.3 直線回歸的假設(shè)測驗(yàn) 在介紹最小二乘法時(shí)我們曾提到,不管實(shí)際上 X 與 Y 之間有沒有線性關(guān)系,用這種方法總是可以得到解的。因此我們必須有一種方法可以檢驗(yàn)得到的結(jié)果是不是反映了 X 和 Y 之間的真實(shí)關(guān)系。為此,我們需
11、要研究 b 與 a 的期望與方差。注意 原式 = 各 y i 互相獨(dú)立,且D(y i )= 2 ;各x i 為常數(shù); 為估計(jì) 2 ,令: ,稱為殘差或剩余。則殘差平方和為: 由于 ( 交叉項(xiàng)期望為 0 ) 且 D(S xy ) = S xx s 2 , E(S xy ) = b S xx , (已證) 用 MS e (剩余均方)代替 s 2 ,可得 b 與 a 的樣本方差: 由于 MS e 的自由度為 n-2 ,因此上述兩方差的自由度也均為 n-2 。有了 a 和 b 的方差與均值,我們就可構(gòu)造統(tǒng)計(jì)量對它們進(jìn)行檢驗(yàn): H 0 : b = 0 H A : b 0 (雙側(cè)檢驗(yàn)) 或: H A :
12、b > 0 (或 b < 0 ) (單側(cè)檢驗(yàn)) 統(tǒng)計(jì)量: ( 9.6 ) 當(dāng) H 0 成立時(shí), t b t(n-2) ,可查相應(yīng)分位數(shù)表進(jìn)行檢驗(yàn)。 H 0 : a = 0 H A : a 0 (雙側(cè)檢驗(yàn)) 或: H A : a > 0 (或 a < 0 ) (單側(cè)檢驗(yàn)) 統(tǒng)計(jì)量: ( 9.7 ) 當(dāng) H 0 成立時(shí), t a t(n-2) ,可查相應(yīng)分位數(shù)表進(jìn)行檢驗(yàn)。 在對一個(gè)回歸方程的統(tǒng)計(jì)檢驗(yàn)中,我們更關(guān)心的是 b 是否為 0 ,而不是 a 是否為 0 。這是因?yàn)槿?b = 0 ,則線性模型變?yōu)?Y = a + e ,與 X 無關(guān);這意味著 X 與 Y 間根本沒有線性
13、關(guān)系。反之, a 是否為 0 并不影響 X 與 Y 的線性關(guān)系。因此我們常常只對 b 作統(tǒng)計(jì)檢驗(yàn)。 例 9.2 對例 9.1 中的 b 作檢驗(yàn): H 0 : b =0 解: 查表, t 0.995 (3) = 5.841 < t , 差異極顯著,應(yīng)拒絕 H 0 ,即 b 1 0 ,或 X 與 Y 有著極顯著的線性關(guān)系。 9.2.4直線回歸的方差分析對回歸方程的統(tǒng)計(jì)檢驗(yàn)除可用上述 t 檢驗(yàn)外,還有一些其他方法。這里我們再介紹一種方差分析的方法,它的基本思想仍是對平方和的分解。 1 無重復(fù)的情況。 y 的總校正平方和可進(jìn)行如下的分解: 即: Syy = SSe + SSR y 的
14、總校正平方和殘差平方和回歸平方和 自由度: n-1n-21 這樣就把 y 的總校正平方和分解成了殘差平方和與回歸平方和。前已證明, MS e 可作為總體方差 s 2 的估計(jì)量,而 MS R 可作為回歸效果好壞的評(píng)價(jià)。如果 MS R 僅由隨機(jī)誤差造成的話,說明回歸失敗, X 和 Y 沒有線性關(guān)系;否則它應(yīng)顯著偏大。因此可用統(tǒng)計(jì)量 ( 9.8 ) 對 H 0 : b = 0 進(jìn)行檢驗(yàn)。若 F < F a (1, n-2) ,則接受 H 0 ,否則拒絕。 現(xiàn)在我們來證明這里的 F 檢驗(yàn)與前述的 t 檢驗(yàn)是一致的: 前已證明: SS e = S yy ? b × S xy , SS R
15、 = S yy ? SS e = b × S xy , 例 9.4 對例 9.1 作方差分析 解:由以前計(jì)算結(jié)果: S yy = 210.2 , df = 4; SS e = 3.1704, df = 3, SS R = 210.2 ?3.1704 = 207.03, df = 1 查表得 F 0.95 (1, 3) = 10.13, F 0.99 (1, 3) = 34.12 F > F 0.99 (1, 3) ,拒絕 H 0 ,差異極顯著。即應(yīng)認(rèn)為回歸方程有效。 2.有重復(fù)的情況: 設(shè)在每一個(gè) x i 取值上對 Y 作了 m 次觀察,結(jié)果記為 y i1 , y i2 , y
16、 im , 則線性統(tǒng)計(jì)模型變?yōu)椋?, i = 1, 2, n, j = 1, 2, m 估計(jì)值仍為: 現(xiàn)在 y的總校正平方和可分解為: S yy = SS R + SS LOF + SS pe 其中 SS LOF 稱為失擬平方和, SS pe 為純誤差平方和,它們的表達(dá)式和自由度分別為: 同學(xué)們可試證明上述分解中的三個(gè)交叉項(xiàng)均為 0 。 統(tǒng)計(jì)檢驗(yàn)步驟為: I. 令 ,它服從 F(n-2, mn-n) ( 9.9 ) 若 F 檢驗(yàn)差異顯著,則可能的原因有: ( 1 )除 X 以外還有其他變量影響 Y 的取值,而統(tǒng)計(jì)時(shí)沒有加以考慮; ( 2 )模型不當(dāng),即 X 與 Y 之間不是線性關(guān)系; 此時(shí)無必
17、要再進(jìn)一步對 MS R 作檢驗(yàn),而應(yīng)想辦法找出原因,并把它消除后重作回歸。 若差異不顯著,則把 MS LOF 和 MS pe 合并,再對 MS R 作檢驗(yàn): II. ,它服從 F(1, mn-2) ( 9.10 ) 若差異顯著,說明回歸是成功的, X, Y 間確有線性關(guān)系;若差異仍不顯著,則回歸失敗,其可能的原因?yàn)椋?( 1 ) X , Y 無線性關(guān)系; ( 2 )誤差過大,掩蓋了 X, Y 間的線性關(guān)系。 如有必要,可設(shè)法減小實(shí)驗(yàn)誤差,或增加重復(fù)數(shù)重做實(shí)驗(yàn)后再重新回歸。 9.2.5直線回歸的區(qū)間估計(jì) 1 和的區(qū)間估計(jì) 我們已經(jīng)證明 a 和 b 是 和 的點(diǎn)估計(jì),并求出了它們的方差。因此給出置
18、信區(qū)間就很容易了: 的 95%置信區(qū)間為: (9.11) 同理 a 的 95% 置信區(qū)間為: (9.12) 這與以前假設(shè)檢驗(yàn)中的置信區(qū)間求法完全一樣。若置信水平為 99% ,把分位數(shù)相應(yīng)換為 t 0.995 (n-2) 即可。 例 9.5 對例 9.1 中的 a 和 b 給出 95% 置信區(qū)間。 解:從前邊的計(jì)算可知: a = 2.6996, b = 1.5167, S xx = 90, MS e = 1.0568, n = 5, 查表,得 t 0.975 (3) = 3.182 a 的 95% 置信區(qū)間為: 2.6996 ± 4.3887, 即( -1.6891, 7.0883 )
19、 b 的 95% 置信區(qū)間為: 1.5167 ± 0.3448, 即( 1.1719, 1.8615 ) 2. 對條件均值 m Y? X 的估計(jì)。 的點(diǎn)估計(jì): 證明: 區(qū)間估計(jì):首先需求出 的方差。 用 MS e 代替 s 2 ,可得 的 1 ? a 置信區(qū)間為: ( 9.13 ) 注意上述置信區(qū)間的寬度與 有關(guān),當(dāng) 時(shí),其寬度最小,偏離 后,逐漸加大。 3. 對一次觀察值 y 0 的估計(jì) y 0 的點(diǎn)估計(jì): 證明: 區(qū)間估計(jì): 一般情況下置信區(qū)間是以隨機(jī)變量的期望為中點(diǎn),此時(shí)只要求方差就可以了,因?yàn)榉讲罹褪呛饬侩S機(jī)變量以數(shù)學(xué)期望為中心的離散程度的統(tǒng)計(jì)量。而現(xiàn)在是以條件均值 的估計(jì)值
20、,即另一個(gè)隨機(jī)變量 為中點(diǎn),因此應(yīng)求這兩個(gè)隨機(jī)變量差值的方差。由于下一次觀察值 y 0 和以前所有的觀察值 y i 都是互相獨(dú)立的,而估計(jì)值 是從以前的觀察值 y i 計(jì)算出來的,因此 與 y 0 獨(dú)立,從而有: 由于 y 0 和 均為正態(tài)分布,它們的差也為正態(tài)分布。用 代替 后,為 t 分布,即: 在 x = x 0 處 y 0 的 1- a 置信區(qū)間為: (9.14) 顯然 y 0 的置信區(qū)間寬度也與 x 0 有關(guān), 時(shí)最小,偏離 時(shí)增大。 y 0 的置信區(qū)間比 的大一點(diǎn),這是因?yàn)?y 0 自己也有一個(gè)隨機(jī)誤差 e 。 例 9.6 江蘇武進(jìn)縣測定 1959-1964 年間 3 月下旬至 4
21、 月中旬平均溫度累積值 x 和一代三化螟蛾盛發(fā)期 y 的關(guān)系如下表 ( 盛發(fā)期以 5 月 10 日為起算日 ) :試作回歸分析。 表 9.2 平均溫度累積值與一代三化螟盛發(fā)期 年代 1956 1957 1958 1959 1960 1961 1962 1963 1964 累積溫 x 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2 盛發(fā)期 y 12 16 9 2 7 3 13 9 1 解:由原始數(shù)據(jù)算得: S xx = 144.6356, S yy = 249.5556, S xy = 159.0444, b 1.0996, SS R = bS xy =
22、 174.8886 查表,得: F 0.95 (1, 7) = 5.591, F 0.99 (1, 7) = 12.25, F > F 0.99 (1, 7), 拒絕 H 0 ,差異極顯著。即 X , Y 有極顯著線性關(guān)系。 為把上述回歸結(jié)果用于預(yù)報(bào),可給出觀察值 y 0 的 95% 置信區(qū)間: 查表,得 t 0.975 (7) = 2.365, 把數(shù)據(jù)代入上式,得: 條件均值 的 95% 置信區(qū)間公式為: 代入數(shù)據(jù),得: 把不同的 x 0 取值代入上述公式,可得置信區(qū)間的數(shù)據(jù)及圖形如下: 表 9.3 一代三化螟盛發(fā)期置信區(qū)間 x 0 y 0 的 95% 置信區(qū)間 y 0 的 95% 置
23、信區(qū)間 下限 上限 下限 上限 30 15.6 10.3 20.8 6.2 24.9 32 13.4 9.2 17.5 4.6 22.1 34 11.2 7.9 14.4 2.8 19.5 36 9.0 6.3 11.6 0.8 17.1 38 6.8 4.1 9.4 -1.4 14.9 40 4.6 1.4 7.8 -3.8 12.9 42 2.4 -1.7 6.4 -6.4 11.1 44 0.2 -5.0 5.3 -9.1 9.4 46 -2.0 -8.3 4.2 -12.0 7.9 圖 9.2 一代三化螟盛發(fā)期置信區(qū)間 回歸分析的目的常常是為了預(yù)報(bào),也就是說下一次我們知道了 x 0 的
24、取值后,在觀察前就對 y 0 的取值作出估計(jì)。例如表 9.3 中的數(shù)據(jù)就是為了預(yù)報(bào)用的,下一年度如果我們知道了 3 月下旬至 4 月中旬的平均溫度累積值,就可以估計(jì)出一代三化螟蛾盛發(fā)期是 5 月的什么時(shí)候。要特別注意的一點(diǎn)是預(yù)報(bào)范圍只能是我們研究過的自變量變化范圍,例如在上例中,當(dāng)積溫值是在 32 到 44 的范圍內(nèi)時(shí),使用這一預(yù)報(bào)公式比較有把握, 30 和 46 使用已有點(diǎn)勉強(qiáng),再大或小就不能用了。這是因?yàn)橐话銇碚f直線關(guān)系只是局部的近似,在更大的范圍內(nèi),變量間常常呈現(xiàn)一種非線性的關(guān)系。因此若貿(mào)然把局部研究中發(fā)現(xiàn)的線性關(guān)系推廣到更大的范圍,常常是要犯嚴(yán)重錯(cuò)誤的。同時(shí)從置信區(qū)間的寬度也可看出,即
25、使是在研究的范圍內(nèi),也是越接近所研究區(qū)間的中點(diǎn)( )預(yù)報(bào)越準(zhǔn)確。 第三節(jié) 直線相關(guān) 相關(guān)系數(shù) 設(shè)有一 X 、 Y 均為隨機(jī)變量的雙變數(shù)總體,具有 N 對 ( X , Y ) 。若在標(biāo)有這 N 個(gè) ( X , Y ) 坐標(biāo)點(diǎn)的直角坐標(biāo)上移動(dòng)坐標(biāo)軸,將 X 軸和 Y 軸分別平移 到 X 和 Y 上,則各點(diǎn)位置不變,而所取坐標(biāo)變?yōu)?( X - X , Y- Y ) 。 上述三圖充分說明的值可用來度量兩個(gè)變數(shù)直線相關(guān)程度和性質(zhì)。但是, X 和 Y 的變異程度、所取單位及 N 的大小都會(huì)影響為了具有可比性,需要將離均差轉(zhuǎn)化為標(biāo)準(zhǔn)化離均差,再以 N 除之,從而得到雙變數(shù)總體的相關(guān)系
26、數(shù)為: 從樣本的角度分析, y 的平方和 SS y 是由離回歸平方和及回歸平方和構(gòu)成的,后者是由 X 的不同而引起。顯然,若坐標(biāo)點(diǎn)愈靠近回歸線, 則U 對SS y 的比率愈大,直線相關(guān)就愈密切,故樣本的相關(guān)系數(shù) r 為: 嚴(yán)格地說,只有當(dāng) X , Y 均為隨機(jī)變量時(shí)才能定義相關(guān)系數(shù)。這樣一來,在本章的大多數(shù)情況下,由于我們假設(shè) X 為非隨機(jī)變量,相關(guān)系數(shù)根本就無法定義。但一方面不管 X 是不是隨機(jī)變量,根據(jù)式樣本相關(guān)系數(shù)總是可以計(jì)算的;另一方面后邊關(guān)于對樣本相關(guān)系數(shù)進(jìn)行統(tǒng)計(jì)檢驗(yàn)的推導(dǎo)中,也并沒有受到 X 必須為隨機(jī)變量的限制,因此在回歸分析中我們就借用了相關(guān)系數(shù)的名稱和公式,而不再去區(qū)分 X
27、是否為隨機(jī)變量。這一點(diǎn)在使用中是很方便的。 根據(jù)以前的推導(dǎo)結(jié)果,有: 因此 , 。 當(dāng) 時(shí),從上式可看出 SS e = 0 ,即用 可以準(zhǔn)確預(yù)測 y 值。此時(shí)若 X 不是隨機(jī)變量,則 Y 也不是隨機(jī)變量了。這種情況在生物學(xué)研究中是不多見的。 當(dāng) r = 0 時(shí), SS e = S yy ,回歸一點(diǎn)作用也沒有,即用 X 的線性函數(shù)完全不能預(yù)測 Y 的變化。但這時(shí) X 與 Y 間還可能存在著非線性的關(guān)系。 當(dāng) 時(shí),情況介于上述二者之間隔。 X 的線性函數(shù)對預(yù)測 Y 的變化有一定作用,但不能準(zhǔn)確預(yù)測,這說明 Y 還受其他一些因素,包括隨機(jī)誤差的影響。 綜上所述, r 可以作為 X , Y 間線性關(guān)系
28、強(qiáng)弱的一種指標(biāo)。它的優(yōu)點(diǎn)是非常直觀,接近于 1 就是線性關(guān)系強(qiáng),接近于 0 就是線性關(guān)系弱;而其他統(tǒng)計(jì)量都需要查表后才知檢驗(yàn)結(jié)果。 由于 r 是線性關(guān)系強(qiáng)弱的指標(biāo),我們當(dāng)然希望能用它來進(jìn)行統(tǒng)計(jì)檢驗(yàn)。在一般情況下 r 不是正態(tài)分布,直接檢驗(yàn)有困難。但當(dāng)總體相關(guān)系數(shù) = 0 時(shí), r 的分布近似于正態(tài)分布,此時(shí)用 MSe 代替 ,就可以對 作 t 檢驗(yàn)。這種檢驗(yàn)與對回歸系數(shù) b 的檢驗(yàn): 是等價(jià)的??勺C明如下: b 的 t 檢驗(yàn)統(tǒng)計(jì)量為: t = b/S b 。 b=S xy /S xx , 代入 t 的表達(dá)式,得: 。 因此我們可用上述統(tǒng)計(jì)量對 作統(tǒng)計(jì)檢驗(yàn)。 為使用方便,已根據(jù)上述公式編制專門的
29、相關(guān)系數(shù)檢驗(yàn)表,可根據(jù)剩余自由度及自變量個(gè)數(shù)直接查出 r 的臨界值。 若必須對 0 的情況作統(tǒng)計(jì)檢驗(yàn),可采用反雙曲正切變換: 當(dāng) n 充分大時(shí),可證明 Z 漸近正態(tài)分布 N , 其中 。利用統(tǒng)計(jì)量 Z 可對 等進(jìn)行檢驗(yàn)。但這一檢驗(yàn)方法用得很少。 例 9.7 求出例 9.1 回歸系數(shù) r ,并作統(tǒng)計(jì)檢驗(yàn)。 解:利用以前的計(jì)算結(jié)果,可得: 這里求得的 Z 值與例 9.2 中求得的 t 值是相同的,它們本來就是同一個(gè)統(tǒng)計(jì)量。 查表, t 0.995 (3) = 5.841 < t, 差異極顯著,即 X 與 Y 有極顯著的線性關(guān)系。 若直接查相關(guān)系數(shù)檢驗(yàn)表,可得:剩余自由度為 3 ,獨(dú)立自變量為
30、 1 , =0.05 的 r 臨界值為 0.878, =0.01 的臨界值為 0.959, 差異仍為極顯著。 相關(guān)系數(shù)與回歸系數(shù)間的關(guān)系 在 X 和 Y 均為隨機(jī)變量的情況下,我們通??梢?X 為自變量, Y 為因變量建立方程,也可反過來,以 Y 為自變量, X 為因變量建立方程。此時(shí)它們的地位是對稱的。 取 X 為自變量, Y 為因變量,回歸系 b 為: 取 Y 為自變量, X 為因變量,回歸系數(shù) b' 為: 即:相關(guān)系數(shù)實(shí)際是兩個(gè)回歸系數(shù)的幾何平均值。這正反映了相關(guān)與回歸的不同:相關(guān)是雙向的關(guān)系,而回歸是單向的。 現(xiàn)在我們已介紹了三種對回歸方程作統(tǒng)計(jì)檢驗(yàn)的方法:對回歸系數(shù) b 作 t 檢驗(yàn),方差方析,對相關(guān)系數(shù) r 作檢驗(yàn)。對一元線性回歸來說,它們的基本公式其實(shí)是等價(jià)的,因此結(jié)果也是一致的。但它們也各有自己的優(yōu)缺點(diǎn):對 b 的 t 檢驗(yàn)可給出置信區(qū)間;方差分析在有重復(fù)的情況下可分解出純誤差平方和,從而可得到進(jìn)一步的信息;相關(guān)系數(shù)則既直觀,又方便(有專門表格可查),因此使用廣泛。 最后要提請注意的一點(diǎn)是,不論采用什么檢驗(yàn)方
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 護(hù)理病房管理
- 盜血綜合征的護(hù)理措施
- 珠寶店管理層培訓(xùn)心得
- 巧設(shè)問題情境 點(diǎn)燃思維火花
- 人員培訓(xùn)定人定崗分層管理
- 員工基礎(chǔ)技能培訓(xùn)
- 呼吸內(nèi)科體格檢查
- 水利設(shè)施測繪成果保密與工程管理合同
- 創(chuàng)新型餐飲企業(yè)勞動(dòng)合同規(guī)范模板
- 非洲勞務(wù)派遣與醫(yī)療援助合同
- 加油站有限空間安全警示牌
- 安全員的任職條件及職責(zé)
- 資產(chǎn)評(píng)估收費(fèi)管理辦法(2023)2914
- 出師表標(biāo)準(zhǔn)注音版修正版
- 孤獨(dú)癥康復(fù)教育人員上崗培訓(xùn)練習(xí)題庫及答案
- 籃球比賽記錄表A4版
- 機(jī)械設(shè)備投入計(jì)劃及保證措施
- 小兒清熱止咳口服液產(chǎn)品知識(shí)-課件
- 鋼 筋 檢 查 記 錄 表(鋼筋加工及安裝)
- 附件9:未取得國外國籍的聲明
- 一般自我效能感量表(GSES)
評(píng)論
0/150
提交評(píng)論