第08章 線性相關(guān)與回歸_第1頁
第08章 線性相關(guān)與回歸_第2頁
第08章 線性相關(guān)與回歸_第3頁
第08章 線性相關(guān)與回歸_第4頁
第08章 線性相關(guān)與回歸_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、生物統(tǒng)計學(xué)線性相關(guān)與回歸線性相關(guān)與回歸計量資料單變量的統(tǒng)計描述與統(tǒng)計推斷。試問:為何說是單變量?因?yàn)槊糠N類型只牽涉一個變量。許多現(xiàn)象之間(即變量之間)都有相互聯(lián)系在這些有關(guān)系的現(xiàn)象中,它們之間聯(lián)系的程度和性質(zhì)也各不相同。有的現(xiàn)象之間因果不清,只是伴隨關(guān)系。相關(guān)與回歸就是用于研究和解釋兩個變量之間相互關(guān)系的。 十九世紀(jì)英國人類學(xué)家 F.Galton首次在自然遺傳一書中,提出并闡明了“相關(guān)”和“相關(guān)系數(shù)”兩個概念,為相關(guān)論奠定了基礎(chǔ)。其后,他和英國統(tǒng)計學(xué)家 Karl Pearson對上千個家庭的身高、臂長、拃長(伸開大拇指與中指兩端的最大長度)做了測量,并做成散點(diǎn)圖。 歷史背景: 兒子身高(Y,英

2、寸)與父親身高(X,英寸)存在線性關(guān)系: 即高個子父代的子代在成年之后的身高平均來說不是更高,而是稍矮于其父代水平,而矮個子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton將這種趨向于種族穩(wěn)定的現(xiàn)象稱之“回歸”。33.73 0.516YXRegression 釋義小插曲F.Galton Galton(1822-1911)是一位人類學(xué)家,著名生物學(xué)家達(dá)爾文的表兄弟,早年學(xué)醫(yī),曾在劍橋大學(xué)念書。盡管他的數(shù)學(xué)不是很好,但在人類學(xué)和優(yōu)生學(xué)研究中萌發(fā)的統(tǒng)計學(xué)思想,對生物統(tǒng)計的發(fā)展產(chǎn)生了深遠(yuǎn)影響,如“回歸”、 “雙變量正態(tài)分布”的概念等。他沒有子女,但一生寫了9部書,發(fā)表了近200篇論文。

3、1860年當(dāng)選英國皇家學(xué)會會員,1909年被封為爵士,1910年獲得英國皇家學(xué)會Copley獎。Karl Pearson Karl Pearson (英,18571936)是Francis Galton 的得意門生,他開創(chuàng)了統(tǒng)計方法學(xué)。他對統(tǒng)計學(xué)的主要貢獻(xiàn):變異數(shù)據(jù)的處理、分布曲線的選配、卡方檢驗(yàn)的提出、回歸與相關(guān)的發(fā)展。本章內(nèi)容n 第一節(jié) 線性相關(guān)n 第二節(jié) 線性回歸n 第三節(jié) 相關(guān)與回歸的關(guān)系n 第四節(jié) 等級相關(guān) (自學(xué))第一節(jié) 線性相關(guān)n 線性相關(guān)描述了什么問題?n 線性相關(guān)分析的具體步驟是什么?n 線性相關(guān)分析對資料有什么要求?n 如何對這些要求進(jìn)行檢查或檢驗(yàn)?n 僅用樣本線性相關(guān)系數(shù)

4、能否說明相關(guān)程度?n 總體相關(guān)系數(shù)非常接近1,能否說明Y=X?例:考察身高與體重的伴隨關(guān)系 體重體重身高散點(diǎn)圖散點(diǎn)圖問題:通過散點(diǎn)圖可以得出什么結(jié)論? 線性相關(guān)的概念l 圖中不是每個身材較高的對象必有較重的體重,但大多數(shù)對象的體重Y與其身高X的變化呈一種伴隨增大或減小的直線變化趨勢,這種現(xiàn)象稱為直線相關(guān) 。l刻畫兩個隨機(jī)變量之間線性相關(guān)程度稱為線性相關(guān)(linear correlation)線性相關(guān)的類型 X和Y伴隨同時上升或伴隨下降稱為線性正相關(guān)(Linear Positive Correlation) X和Y無任何直線伴隨變化趨勢,則稱為零相關(guān) (零線性相關(guān)) 。 X與Y的反方向伴隨直線變

5、化趨勢稱為線性負(fù)相關(guān)(linear negative correlation) 正相關(guān) 負(fù)相關(guān) 稱零相關(guān) 完全正相關(guān) 完全負(fù)相關(guān)線性相關(guān)系數(shù)n 線性相關(guān)系數(shù) (linear correlation coeffiecient) ,簡稱相關(guān)系數(shù)?;?Pearson相關(guān)系數(shù) n 相關(guān)系數(shù)是描述兩個變量之間線性相關(guān)的程度和相關(guān)方向的統(tǒng)計指標(biāo)。樣本相關(guān)系數(shù)用 r 表示,總體相關(guān)系數(shù)用表示。 相關(guān)系數(shù)的特點(diǎn):1 r 1r0為正相關(guān)r0為負(fù)相關(guān)r0為零相關(guān)或無相關(guān)|r| 0.4 為低度線性相關(guān);0.4 |r| 0.7為中度線性相關(guān);0.7|r| 1.0為高度線性相關(guān)。相關(guān)系數(shù)的計算公式lxx(x 的離均差平

6、方和 )lyy (y 的離均差平方和 )lxy (x和y的離均差乘積和,簡稱乘積和)22()()()()XYXX YYlXXYYrllXXYYnXXlXX22)(nYYlYY22)(nYXXYlXY)(實(shí)例分析 健康調(diào)查發(fā)現(xiàn)男青年身高與他的前臂長有關(guān); 于是設(shè)想,通過測量男青年的身高,可以預(yù)測其前臂長,以便更好對男青年的發(fā)育情況進(jìn)行評價。因此隨機(jī)抽取了11名男青年組成樣本,分別測量每個人的身高和前臂長。 問男青年的身高與前臂長之間的相關(guān)系數(shù)是多少?是正相關(guān)還是負(fù)相關(guān)? 分析問題:總體-樣本、 目的、變量、關(guān)系 11名男青年身高與前臂長的測量結(jié)果(cm)分析步驟一、繪制散點(diǎn)圖二、計算xyyyxx

7、lllyx, N=11 X=1891 Y=500 X2=89599 Y2=22810 XY=85185rXXYYXXYYX YXYnXXnYYn()()()2().22222身高(身高(cm) 前臂長前臂長(cm)男青年身高與前臂長的測量結(jié)果(cm)的散點(diǎn)圖計算結(jié)果r 的值說明了兩個變量X與Y之間關(guān)聯(lián)的密切程度(絕對值大?。┡c關(guān)聯(lián)的性質(zhì)(正負(fù)號)。2286185 1891 500/11(895991891 /11)(22810500 /11)0.8009rn上例中的相關(guān)系數(shù) r 等于0.8009,說明了11例樣本中男青年的身高與前臂長之間存在相關(guān)關(guān)系。但是,這11例只是總體中的一個樣本,由此得

8、到的相關(guān)系數(shù)會存在抽樣誤差。n 因?yàn)?,總體相關(guān)系數(shù)()為零時,由于抽樣誤差,從總體抽出的11例,其 r 可能不等于零。n 這就要對 r 進(jìn)行假設(shè)檢驗(yàn),判斷r不等于零是由于抽樣誤差所致,還是兩個變量之間確實(shí)存在相關(guān)關(guān)系。 目的:是判斷兩變量的總體是否有相關(guān)關(guān)系t檢驗(yàn):樣本相關(guān)系數(shù)r與總體相關(guān)系數(shù)的比較 2102 nrrSrtr2 n 查表法:直接查相關(guān)系數(shù)界值表得到相應(yīng)的概率P。 相關(guān)系數(shù)的假設(shè)檢驗(yàn) 資料相關(guān)系數(shù)的假設(shè)檢驗(yàn)步驟一、建立假設(shè),確立檢驗(yàn)水準(zhǔn)二、選擇并計算檢驗(yàn)統(tǒng)計量三、計算P值,做出統(tǒng)計推斷相關(guān)系數(shù)的假設(shè)檢驗(yàn)也可以采用查表法,以相關(guān)系數(shù)r和自由度 v=n-2查r界值表11,做出統(tǒng)計推斷

9、結(jié)論。本例查表法P0.002,結(jié)論為拒絕H0,接受H1,與t檢驗(yàn)結(jié)論一致。 1. 作散點(diǎn)圖: 分析要兩變量之間有無相關(guān)關(guān)系可先作散點(diǎn)圖,在圖上看它們有無關(guān)系、關(guān)系的密切程度、是正相關(guān)還是負(fù)相關(guān),然后再計算相關(guān)系數(shù)和作假設(shè)檢驗(yàn); 2. 正態(tài)性:相關(guān)系數(shù)的計算要求兩個變量必須服從正態(tài)分布,如果資料不服從正態(tài)分布,應(yīng)先通過變量變換,使得兩個變量正態(tài)化,再根據(jù)變換值計算相關(guān)系數(shù); 相關(guān)分析應(yīng)注意的問題 3. 作假設(shè)檢驗(yàn): 依據(jù)公式計算出的相關(guān)系數(shù)僅是樣本相關(guān)系,它是總體相關(guān)系數(shù)的一個估計值,與總體相關(guān)系數(shù)之間存在著抽樣誤差,要判斷兩個事物之間有無相關(guān)關(guān)系及相關(guān)的密切程度,必須作假設(shè)檢驗(yàn)。 當(dāng)檢驗(yàn)拒絕了

10、無效假設(shè)時,才可以認(rèn)為兩個事物之間存在著相關(guān)關(guān)系,然后再根據(jù)計算出的相關(guān)系數(shù)大小來判斷根相關(guān)關(guān)系的密切程度;4. 相關(guān)關(guān)系:相關(guān)關(guān)系不一定是因果關(guān)系,也可能是伴隨關(guān)系,并不能證明事物間有內(nèi)在聯(lián)系,例如,有人發(fā)現(xiàn),對于在校兒童,鞋的大小與閱讀技能有很強(qiáng)的相關(guān)關(guān)系。然而,學(xué)會新詞并不能使腳變大,而是涉及到第三個因素 年齡。當(dāng)兒童長大一些,他們的閱讀能力會提高而且由于長大也穿不下原來的鞋。 5. 在確實(shí)存在相關(guān)關(guān)系的前提下(?),如果 r 的絕對值越大,說明兩個變量之間的關(guān)聯(lián)程度越強(qiáng),那么,已知一個變量對預(yù)測另一個變量越有幫助;如果r 絕對值越小,則說明兩個變量之間的關(guān)系越弱,一個變量的信息對猜測另

11、一個變量的值無多大幫助。 6. 一般說來,當(dāng)樣本量較大,并對 r 進(jìn)行假設(shè)檢驗(yàn),有統(tǒng)計學(xué)意義時,r 的絕對值大于0.7,則表示兩個變量高度相關(guān);r的絕對值大于0.4,小于等于0.7時,則表示兩個變量之間中度相關(guān);r 的絕對值大于0.2,小于等于0.4時,則兩個變量低度相關(guān)。 從上面的分析可以看出男青年身高與前臂長有相關(guān)關(guān)系n 如果知道了一位男青年的身高n 能推斷出其前臂長嗎?n 能預(yù)測男青年的前臂長可能在什么范圍內(nèi)?n 這要用直線回歸的方法來解決。 n直線回歸方程(總體)是描述什么?n 直線回歸分析對資料有什么要求?n 直線回歸分析的具體基本步驟是什么?n 在直線回歸中,Y 是否一定為隨機(jī)變量

12、?n 在直線回歸中,X 是否一定為隨機(jī)變量?n 在直線回歸中,預(yù)測值 的意義是什么?n 在直線回歸中,回歸系數(shù)b的意義是什么?第二節(jié) 線性回歸分析 n 知道了兩個變量之間有線性相關(guān)關(guān)系,并且一個變量的變化會引起另一個變量的變化,這時,如果它們之間存在準(zhǔn)確、嚴(yán)格的關(guān)系,它們的變化可用函數(shù)方程來表示,叫它們是函數(shù)關(guān)系,它們之間的關(guān)系式叫函數(shù)方程。n 實(shí)際上,由于其它因素的干擾,許多雙變量之間的關(guān)系并不是嚴(yán)格的函數(shù)關(guān)系,不能用函數(shù)方程反映,為了區(qū)別于兩變量間的函數(shù)方程,我們稱這種關(guān)系式為線性回歸方程,這種關(guān)系為線性回歸。n直線回歸就是用來描述一個變量如何依賴于另一個變量。n其任務(wù)就是要找出一個變量隨

13、另一個變量變化的直線方程,我們把這個直線方程叫做直線回歸方程。 直線回歸是分析直線回歸是分析成對觀測數(shù)據(jù)成對觀測數(shù)據(jù)中兩變量間中兩變量間線性線性 依存關(guān)系依存關(guān)系的方法。的方法。n其任務(wù)就是要找出一個變量隨另一個變量變化其任務(wù)就是要找出一個變量隨另一個變量變化的直線方程,我們把這個直線方程叫做的直線方程,我們把這個直線方程叫做線性回線性回歸方程歸方程。u “回歸回歸”是一個借用已久因而相沿成習(xí)的統(tǒng)計是一個借用已久因而相沿成習(xí)的統(tǒng)計學(xué)學(xué) 術(shù)語。術(shù)語。 直線回歸的概念直線回歸的概念直線回歸的概念n 直線回歸是分析成對觀測數(shù)據(jù)中兩變量間線性依存關(guān)系的方法。n 其任務(wù)就是要找出一個變量隨另一個變量變化

14、的直線方程,我們把這個直線方程叫做線性回歸方程。n “回歸”是一個借用已久因而相沿成習(xí)的統(tǒng)計學(xué)術(shù)語。直線回歸模型1、 資料數(shù)據(jù)格式 2、變 量Y (應(yīng)變量,結(jié)果變量):一般是難測(或不可測)的變量,(要求呈正態(tài)分布的隨機(jī)變量) X (自變量,原因變量):一般是可測(或易測)的變量(可是隨機(jī)變量或人為給定的量)33.730.516YX 兒子身高(Y,英寸)與父親身高(X,英寸)存在 線性關(guān)系:3、直線回歸方程的一般形式為:a 為常數(shù)項,又稱截距;b 為斜率,又稱回歸系數(shù),表示自變量X增 加(或減少)一個單位,應(yīng)變量Y平均改變的單位數(shù)。bXaY 回歸分析按回歸變量個數(shù)分按回歸形式分一元回歸多元回歸

15、線形回歸非線性回歸回歸的類型線性回歸方程建立的思路Xxy|bXaY樣本總體最小二乘法 Y與X之間為線性關(guān)系 選出一條最能反映Y與X之間關(guān)系規(guī)律的直線 y 回歸方程原理圖最小二乘法最小二乘法一般而言,所求的a和b應(yīng)能使每個樣本觀測點(diǎn)(X i,Y i)與回歸直線之間的偏差盡可能小,即使觀察值與擬合值的誤差平方和Q達(dá)到最小。回歸直線的有關(guān)性質(zhì)直線通過均點(diǎn) 各點(diǎn)到該回歸線縱向距離平方和較到其它任何直線者為小。 2)YY( )Y,X( X XY bXaY 為來自為來自的一個樣本的一個樣本對于X 各個取值,相應(yīng)Y的總體均數(shù)直線回歸分析的步驟 n 將原始數(shù)據(jù)在坐標(biāo)圖上繪散點(diǎn)圖n 根據(jù)樣本數(shù)據(jù)求得估計值 a、

16、bn 即得樣本回歸方程,并作回歸線n對回歸方程作假設(shè)檢驗(yàn),并對方程的擬合效果作出評價 bXaY 例 有人研究了溫度對蛙的心率的影響,得到了表中 所示的資料,試進(jìn)行回歸分析。圖 回歸直線、回歸系數(shù)、殘差示意圖05101520253035400510152025溫 度()蛙心率(分/次)例3的解題步驟1. 作散點(diǎn)圖:2. 計算回歸系數(shù)與常數(shù)項 132X 20242X12X 246Y26610Y 22.363Y 3622XY/6 7 0 / 4 4 01 .5 2 3x yx xbll22.3631.523124.087aYbX222/2024132 /11440 xxlXXn222/6610246

17、 /111180.54yylYYn/3622132246 /11670 xylXYXYna) 直線回歸方程的建立4.087 1.523yx本例是以最小二乘法原理得出以下的回歸方程: b) 回歸直線的描繪 根據(jù)求得的回歸方程,可以在自變量 X 的實(shí)測范圍內(nèi)任取兩個值,代入方程中,求得相應(yīng)的兩個Y值,以這兩對數(shù)據(jù)找出對應(yīng)的兩個坐標(biāo)點(diǎn),將兩點(diǎn)連接為一條直線,就是該方程的回歸直線?;貧w直線一定經(jīng)過(0,a ),( )。這兩點(diǎn)可以用來核對圖線繪制是否正確。 ,XY圖回歸直線、回歸系數(shù)、殘差示意圖05101520253035400510152025=4.087+1.523X殘差殘差1個單位個單位b個單位個

18、單位ieyy溫 度 ()蛙心率(分/次)Y= 4.087+1.523X 是否一定能說明溫度與蛙的心率之間存在回歸關(guān)系? 與直線相關(guān)一樣,直線回歸方程也是從樣本資料計算而得的,同樣也存在著抽樣誤差問題。所以,需要對樣本的回歸系數(shù)b進(jìn)行假設(shè)檢驗(yàn),以判斷b是否從回歸系數(shù)為零的總體中抽得。為了判斷抽樣誤差的影響,需對回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn)??傮w的回歸系數(shù)一般用表示。 回歸方程的假設(shè)檢驗(yàn)方差分析 ( 自學(xué) )t 檢驗(yàn) (常用)方 法:t 檢驗(yàn)常采用基本思想:是利用樣本回歸系數(shù) b與總體回歸系數(shù)進(jìn)行比較來判斷回歸方程是否成立。bsbt0 XXXYblSS. 22)(2.nSSnyySXY?;貧w方程的假設(shè)檢驗(yàn)

19、剩余標(biāo)準(zhǔn)差:表示固定了X(即扣除了溫度的影響)后,Y(蛙的心率)方面仍有變異,是由X 以外的其它因素(如生長環(huán)境、個體差異等)引起的。XYS.回歸系數(shù)假設(shè)檢驗(yàn)- t 檢驗(yàn)一、建立假設(shè),確立檢驗(yàn)水準(zhǔn)是否試問所建直線回歸方程試問所建直線回歸方程 成立?成立?二、選擇并計算檢驗(yàn)統(tǒng)計量三、計算P值,做出統(tǒng)計推斷查t值表,得P0.01,按a=0.05水準(zhǔn), 拒絕H0, 接受H1。可認(rèn)為溫度與蛙的心率之間總體直線關(guān)系存在,并且可用樣本直線回歸方程估計。線性回歸的應(yīng)用和注意事項 n 描述兩變量之間的依存關(guān)系:通過回歸系數(shù)的假設(shè)檢驗(yàn),若認(rèn)為兩變量之間存在直線回歸關(guān)系,則可用直線回歸來描述。n 利用回歸方程進(jìn)行

20、預(yù)測 :把自變量代入回歸方程,對應(yīng)變量進(jìn)行估計,可求出應(yīng)變量的波動范圍。例如,已知某男青年的身高,代入回歸方程,再用區(qū)間估計的方法,即可知道男青年的前臂長的范圍。 n 利用回歸方程進(jìn)行統(tǒng)計控制 :空氣質(zhì)量與汽車數(shù)量1. 應(yīng)用: 1) 實(shí)際意義 進(jìn)行相關(guān)回歸分析要有實(shí)際意義,不可把毫無關(guān)系的兩個事物或現(xiàn)象用來作相關(guān)回歸分析。例如,有人說,孩子長,公園里的小樹也在長。求孩子和小樹之間的相關(guān)關(guān)系就毫無意義,用孩子的身高推測小樹的高度則更加荒謬。2) LINE 性 變量是否符合建立線性模型的假定條件(線性、獨(dú)立性、正態(tài)率、方差齊性,簡寫為LINE),可考察殘差圖來分析變量是否滿足LINE假定.2. 應(yīng)注意的問題3) 利用散點(diǎn)圖 對于性質(zhì)不明確的兩組數(shù)據(jù),可先做散點(diǎn)圖,在圖上看它們有無關(guān)系然后再進(jìn)行回歸分析。4) 變量范圍 回歸分析和回歸方程僅適用于樣本的原始數(shù)據(jù)范圍之內(nèi),出了這個范圍,我們不能得出兩變量原來的回歸關(guān)系。即回歸直線方程一般不能外延。X的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論