生物統(tǒng)計學與試驗設計:第七章 簡單相關與回歸_第1頁
生物統(tǒng)計學與試驗設計:第七章 簡單相關與回歸_第2頁
生物統(tǒng)計學與試驗設計:第七章 簡單相關與回歸_第3頁
生物統(tǒng)計學與試驗設計:第七章 簡單相關與回歸_第4頁
生物統(tǒng)計學與試驗設計:第七章 簡單相關與回歸_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第七章簡單相關與回歸

直線回歸

直線相關

基本概念

注意事項變量間的關系一般可以分為兩類:第一節(jié)基本概念

變量間存在完全確定性的關系可以用精確的數(shù)學表達式(即函數(shù))來表示這種變量之間的關系是確定性的,只要知道了其中1個或2個變量的值就可以精確地計算出另一個變量的值,這類變量間的關系稱為函數(shù)關系

變量間存在非確定性的關系不能用精確的數(shù)學表達式來表示人的身高與體重的關系

仔豬初生重與斷奶重的關系

豬瘦肉率與背膘厚、眼肌面積、胴體長等的關系

這些變量間都存在著十分密切的關系,但不能由一個或幾個變量的值精確地求出另一個變量的值變量間的這種不確定的關系稱為相關關系

存在相關關系的變量稱為相關變量

相關關系一般又可以分為兩種:平行關系

兩個或兩個以上變量之間共同受到另外因素的影響因果關系

一個變量的變化受另一個或幾個變量的影響人的身高和體重之間的關系兄弟身高之間的關系營養(yǎng)因素遺傳因素

仔豬的生長速度遺傳、營養(yǎng)、飼養(yǎng)管理等因素子女的身高父親身高、母親身高等因素采用相關分析(correlationanalysis)研究呈平行關系的相關變量之間的關系對兩個變量間的直線關系進行相關分析稱為簡單相關分析(直線相關分析)

研究一個變量與多個變量間的線性相關稱為復相關分析、多元相關分析

研究在其余變量保持不變的情況下兩個變量間的線性相關稱為偏相關分析

相關分析只能研究兩個變量之間相關的程度和性質或一個變量與多個變量之間相關的程度和性質

采用回歸分析(regressionanalysis)研究呈因果關系的相關變量間的關系研究“一因一果”,即一個自變量與一個依變量的回歸分析稱為一元回歸分析

研究“多因一果”,即多個自變量與一個依變量的回歸分析稱為多元回歸分析

回歸分析的任務是揭示出呈因果關系的相關變量間的聯(lián)系形式,建立它們之間的回歸方程利用所建立的回歸方程,由自變量(原因)來預測、控制依變量(結果)第二節(jié)直線相關1.相關系數(shù)的確定對于某一個體來說,如果我們同時觀測兩個性狀,那么就可以得到兩個變量,其中一個變量記作x,另一個變量記作y觀測n個個體,就得到n對(x,y)在一個平面直角坐標系中,將每對(x,y)描點,作出散點圖,觀察這些點的位置、排列和趨向如果這些點排列越有規(guī)律

則說明這兩個變量的關系越緊密,即兩個性狀的關系越密切

這種關系的密切程度和性質可以用一個數(shù)值來表示,這個數(shù)值就是統(tǒng)計學上的“相關系數(shù)”如果這些點排列越散亂

則說明這兩個變量的關系越不緊密,即兩個性狀的關系越不密切

在平面直角坐標系中,描上n個(x,y)點,并找出這些點的中心位置(,),將坐標系平移到以(,)為新原點的位置上

分布在1、3象限內的點的坐標乘積分布在2、4象限內的點的坐標乘積有3種情況:表示1、3象限內的點多,2、4象限內的點少

表示2、4象限內的點多,1、3象限內的點少

表示這些點均勻地分布在四個象限內

稱為離均差乘積和,簡稱乘積和,用SPxy表示乘積和的絕對值越大,說明兩個變量間的關系越密切,因此我們可以用乘積和的大小來表示兩變量關系的密切程度

可以用乘積和的正負來表示兩變量關系的性質:乘積和為正說明兩變量呈正相關,乘積和為負說明兩變量間呈負相關

用乘積和來衡量兩個變量之間的關系不是很理想對于總體來說:對于個體來說:如果我們先將每個變量進行標準化,轉化成沒有單位的相對數(shù),同時進行相乘求和再平均就比較合理了2.相關系數(shù)的性質(1)當r>0時表示兩個變量呈正相關,r=1時表示兩個變量呈完全正相關

當r<0時表示兩個變量呈負相關,r=-1時表示兩個變量呈完全負相關當r=0或趨近于0時,表示兩變量不相關,又稱為零相關

(2)r的取值范圍在[-1,1]r的絕對值越大,表示x、y兩變量的相關性越強r的絕對值越小,表示x、y兩變量的相關性越弱

3.相關系數(shù)的計算相關系數(shù)的公式:但在具體計算時,一般將其轉化為:例1:試計算豬宰活重與屠宰率的相關系數(shù)宰前活重x(kg)808582909510087屠宰率y(%)697068727378704.相關系數(shù)的顯著性檢驗(1)提出假設(2)計算t值H0:ρ=0(兩變量不相關)HA:ρ≠0(兩變量相關)相關系數(shù)標準誤(3)查表,推斷r2為決定系數(shù)例2:對例1中的相關系數(shù)進行顯著性檢驗(1)提出假設(2)計算t值(3)查表,推斷根據(jù)df=n-2=5,查表:

豬宰前活重與屠宰率存在極顯著的正相關關系相關系數(shù)的顯著性檢驗還有一種更簡單的方法,即查表法

例1中,我們根據(jù)df=n-2=5查r的臨界值表:

r0.05=0.754,r0.01=0.874r=0.9502>r0.01

r達極顯著水平

與t-檢驗法結果相同

一般可將r值分為以下幾個等級

完全負相關負強相關負中等相關負弱相關零相關完全正相關正強相關正中等相關正弱相關5.相關系數(shù)的置信區(qū)間求總體相關系數(shù)ρ的置信區(qū)間,必須了解r的分布

當ρ=0時,r近似地服從正態(tài)分布在ρ≠0的總體中,r的抽樣分布并不一定服從t分布或正態(tài)分布因此在估計ρ的置信區(qū)間時,應對r進行z轉換,則z服從正態(tài)分布

根據(jù)計算μZ的置信區(qū)間:[LZ1,LZ2]然后將這一置信區(qū)間反轉換成ρ的置信區(qū)間[L1,L2]具體步驟如下:(1)將r轉換成z(2)計算z的標準誤(3)計算z的置信區(qū)間

(4)將z的置信區(qū)間轉換成ρ的置信區(qū)間

例3:求例1中相關系數(shù)的置信區(qū)間(1)將r轉換成z(2)計算z的標準誤(3)計算z的置信區(qū)間

95%:[0.854,2.814]0.9599%:[0.544,3.214]0.99(4)將z的置信區(qū)間轉換成ρ的置信區(qū)間

95%:99%:相關系數(shù)的置信區(qū)間是偏態(tài)的6.等級相關在實踐中,有時我們會遇到等級或名次的資料,這類資料就只能用等級相關法來求相關系數(shù)(1)將x和y排成相應的名次或等級,當兩個x或兩個y的名次相同時,求平均名次或平均等級(2)求x與y差(d)(3)求x與y的等級相關系數(shù),查r臨界值表檢驗其是否顯著等級相關系數(shù)計算步驟:例3:經(jīng)調查,獲得一個村的養(yǎng)殖戶所生產(chǎn)的雞蛋量與所獲純利的名次資料如下,試計算相關系數(shù)。戶號123456789101112蛋產(chǎn)量12.52.54567.57.5910.510.512純利1.51.5435.575.5108.512118.5差-0.51-1.51-0.5-12-2.50.5-1.5-0.53.5解:(1)計算相關系數(shù):(2)相關系數(shù)的顯著性檢驗:根據(jù)df

=n-2=10查得:

雞蛋產(chǎn)量與利潤之間存在極顯著的相關關系第三節(jié)直線回歸一個變量(或性狀)是因,用x表示,另一變量是果,用y表示,可以采用回歸分析來研究2個變量間的關系兩變量間雖然沒有因果關系,但一個性狀容易測定,用x表示,另一性狀難以測定或測定具有破壞性,用y表示,且兩變量有較好的相關性

我們希望通過易測性狀(x)來間接測定難測性狀(y),此時也可以采用回歸分析來進行研究研究x、y變量間因果依存關系的統(tǒng)計分析方法就稱為回歸分析

回歸分析表現(xiàn)的是兩變量間比較嚴格的從屬關系,是把非確定性的關系用嚴格的函數(shù)關系來進行研究1.直線回歸方程的配合x與y的直線回歸方程一般表示為:y的估計值

直線在y軸上的截距

回歸系數(shù)把(x,y)在平面直角坐標系內作散點圖,如果這些散點越趨向一條直線,就說明直線回歸方程越理想選取什么樣的a和b才能最好地反映x和y之間的關系呢?根據(jù)最小二乘法,選取的a、b值應使觀測值y與回歸估計值的偏差平方和最小,即:最小根據(jù)微積分學中的極值原理,令Q對a、b的一階偏導數(shù)等于0,即:整理可得關于a、b的正規(guī)方程組:解方程,得:將所求得的a,b直接代入,就可得到回歸方程將a式代入,得:說明回歸直線必經(jīng)過其中心點2.直線回歸方程的計算和作圖2.1回歸方程的計算例1現(xiàn)有7頭長白豬宰前活重與屠宰率的數(shù)據(jù),試建立屠宰率對宰前活重的回歸方程宰前體重x(kg)808582909510087屠宰率y(%)69706872737870計算一級數(shù)據(jù)將一級數(shù)據(jù)代入計算公式,得:屠宰率對宰前活重的回歸方程為:回歸直線必定經(jīng)過中心點,即(88.4,71.4)回歸方程表示每增加1㎏宰前活重,屠宰率平均可增加0.4472%2.2直線的作圖兩點決定一條直線,因此我們只要知道回歸方程的任意2個點值,就可以在平面直角坐標系中畫出相應的回歸直線將最小的x=80和最大的x=100代入回歸方程,得到兩個點:(80,67.66),(100,76.60)回歸直線僅僅是有兩個端點的實線段,而不是可以無限延長的直線

對直線適度作一些外延是可以的,但不能外延得太長3.直線回歸方程的估計標準誤3.1總平方和的剖分變量y的變異程度的大小可用y的離均差平方和來表示:又稱為總平方和,即:總平方和剖分為2個部分:其中:離回歸平方和用Q表示,是建立直線回歸方程的依據(jù)反映了總變異中由x與y線性關系以外的一切因素所引起的y的變異部分

回歸平方和用U表示,是由x所引起的y的變化反映了總變異中由x與y線性關系(直線相關)所引起y的變異部分可以根據(jù)回歸平方和U與離回歸平方和Q兩者的大小來檢驗回歸方程配合效果的好壞

回歸平方和U在總平方和SSy中的比例(稱為決定系數(shù))越大,說明由自變量x

估計、預測依變量y的準確性越高3.2估計標準誤離回歸平方和的大小反映了實際觀測值y與估計值之間的偏離程度

在直線回歸分析中離回歸平方和的自由度df

=n-2離回歸平方和除以離回歸自由度就可以得到離回歸均方,即:離回歸均方的平方根叫離回歸標準誤,即:在統(tǒng)計學中采用離回歸標準誤用來表示回歸方程的偏離程度,估計直線回歸的標準誤例2計算例1中的直線回歸的標準誤?;貧w直線的估計標準誤即離回歸標準誤為:4.回歸系數(shù)的顯著性檢驗(1)提出假設(2)計算t值H0:β=0(總體回歸不存在)HA:ρ≠0(總體回歸存在)回歸系數(shù)標準誤(3)查表,推斷例3對例1中的回歸系數(shù)進行顯著性檢驗。t0.05,5=2.571,t0.01,5=4.032b值極顯著說明我們有99%的把握認為總體回歸是存在的,表示宰前活重與屠宰率之間存在極顯著的直線關系5.回歸系數(shù)的置信區(qū)間回歸系數(shù)b的抽樣分布服從的t分布,因此在估計總體回歸系數(shù)β的置信區(qū)間時可直接用臨界t值進行計算:95%置信區(qū)間為:99%置信區(qū)間為:例4計算例1中回歸系數(shù)的置信區(qū)間。95%置信區(qū)間為:99%置信區(qū)間為:6.回歸系數(shù)與相關系數(shù)的關系(1)回歸系數(shù)b和相關系數(shù)r的符號相一致當b>0時,y隨x增大而增大,表示x,y兩變量呈正相關(r>0)當b<0時,y隨x增大而減小,表示x,y兩變量呈負相關(r<0)(2)相關系數(shù)是標準化了的回歸系數(shù)(3)相關系數(shù)是兩個方向相反的回歸系數(shù)的幾何均數(shù)兩者相乘,可得:6.回歸關系的F檢驗總平方和可剖分成2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論