第六章 相關(guān)與回歸_第1頁(yè)
第六章 相關(guān)與回歸_第2頁(yè)
第六章 相關(guān)與回歸_第3頁(yè)
第六章 相關(guān)與回歸_第4頁(yè)
第六章 相關(guān)與回歸_第5頁(yè)
已閱讀5頁(yè),還剩52頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第六章簡(jiǎn)單相關(guān)與回歸前面各章我們討論的問(wèn)題,都只涉及到一個(gè)變量,如體重、日增重、產(chǎn)仔數(shù)、體溫、血糖濃度、產(chǎn)奶量、產(chǎn)毛量或孵化率、發(fā)病率等。但是,由于客觀事物在發(fā)展過(guò)程中相互聯(lián)系、相互影響,因而在畜牧、水產(chǎn)等試驗(yàn)研究中常常要研究?jī)蓚€(gè)或兩個(gè)以上變量間的關(guān)系。變量間的關(guān)系有兩類:

一類是變量間存在著完全確定性的關(guān)系,可以用精確的數(shù)學(xué)表達(dá)式來(lái)表示。如長(zhǎng)方形的面積(S)與長(zhǎng)(a)和寬(b)的關(guān)系可以表達(dá)為:S=ab。它們之間的關(guān)系是確定性的,只要知道了其中兩個(gè)變量的值就可以精確地計(jì)算出另一個(gè)變量的值,這類變量間的關(guān)系稱為函數(shù)關(guān)系。另一類是變量間不存在完全的確定性關(guān)系,不能用精確的數(shù)學(xué)公式來(lái)表示。如黃牛的體長(zhǎng)與體重的關(guān)系;仔豬初生重與斷奶重的關(guān)系;豬瘦肉率與背膘厚度、眼肌面積、胴體長(zhǎng)等的關(guān)系等等,這些變量間都存在著十分密切的關(guān)系,但不能由一個(gè)或幾個(gè)變量的值精確地求出另一個(gè)變量的值。像這樣一類關(guān)系在生物界中是大量存在的,統(tǒng)計(jì)學(xué)中把這些變量間的關(guān)系稱為相關(guān)關(guān)系,把存在相關(guān)關(guān)系的變量稱為相關(guān)變量。相關(guān)變量間的關(guān)系一般分為兩種:一種是平行關(guān)系,是研究變量間關(guān)系的強(qiáng)弱程度,此時(shí)我們不關(guān)心在它們之間是誰(shuí)影響了誰(shuí),誰(shuí)是因,誰(shuí)是果,變量間的地位是平等的。如黃牛的體長(zhǎng)和胸圍之間的關(guān)系,豬的背膘厚度和眼肌面積之間的關(guān)系等都屬于平行關(guān)系。另一種是因果關(guān)系,即一個(gè)變量的變化受另一個(gè)或幾個(gè)變量的影響。如仔豬的生長(zhǎng)速度受遺傳特性、營(yíng)養(yǎng)水平、飼養(yǎng)管理?xiàng)l件等因素的影響,子代的體高受親本體高的影響。

統(tǒng)計(jì)學(xué)上采用相關(guān)分析研究呈平行關(guān)系的相關(guān)變量之間的關(guān)系。對(duì)兩個(gè)變量間的直線關(guān)系進(jìn)行相關(guān)分析稱為簡(jiǎn)單相關(guān)分析(也叫直線相關(guān)分析)。對(duì)多個(gè)變量進(jìn)行相關(guān)分析時(shí),研究一個(gè)變量與多個(gè)變量間的線性相關(guān)稱為復(fù)相關(guān)分析;研究其余變量保持不變的情況下兩個(gè)變量間的線性相關(guān)稱為偏相關(guān)分析。統(tǒng)計(jì)學(xué)上采用回歸分析研究呈因果關(guān)系的相關(guān)變量間的關(guān)系。表示原因的變量稱為自變量,表示結(jié)果的變量稱為依變量。研究“一因一果”,即一個(gè)自變量與一個(gè)依變量的回歸分析稱為一元回歸分析;研究“多因一果”,即多個(gè)自變量與一個(gè)依變量的回歸分析稱為多元回歸分析。一元回歸分析又分為直線回歸分析與曲線回歸分析兩種;多元回歸分析又分為多元線性回歸分析與多元非線性回歸分析兩種。第一節(jié)簡(jiǎn)單相關(guān)

一、樣本相關(guān)系數(shù)的定義

假設(shè)兩個(gè)隨機(jī)變量(X,Y)有若干個(gè)體(n個(gè))在這兩個(gè)變量上的觀測(cè)值(xi,yi)那么在直角坐標(biāo)中則可作出n對(duì)觀測(cè)值的散點(diǎn)圖(見圖6-1(A)表示x與y無(wú)相關(guān);(B)表示y隨x增加而增加;(C)表示y隨x增加而減少;(D)表示x與y呈曲線關(guān)系。)。如果把零點(diǎn)為原點(diǎn)的坐標(biāo)移到以(,)為原點(diǎn)的坐標(biāo)中,其各相關(guān)點(diǎn)的位置不變,而各對(duì)x,y值化為,則在以平均數(shù)為原點(diǎn)的坐標(biāo)中,x軸與y軸就將整個(gè)坐標(biāo)平面劃分為4個(gè)象限。這時(shí)我們就可以用描述各散點(diǎn)在象限中的變異情況。Ⅰ:++;Ⅱ:-+;Ⅲ:--;Ⅳ:+-。圖6-1各類相關(guān)散點(diǎn)示意圖

那么,x與y的關(guān)系如何描述,辦法是用+,-,×,÷中的一個(gè)作變異的合并。若用“+,-”合并,則無(wú)意義。若用“÷”法合并,誰(shuí)為分子,誰(shuí)為分母無(wú)依據(jù),且隨意決定,會(huì)出現(xiàn)計(jì)算結(jié)果各不相同,而惟有用“×”合并,能克服以上弊端。相乘時(shí):Ⅰ、Ⅲ為正,反映正相關(guān);Ⅱ、Ⅳ為負(fù),反映負(fù)相關(guān)。將散點(diǎn)變異相加,即得:,此即離均差乘積和,間稱乘積和。以SPxy表示,以此可作為兩變量間相關(guān)性質(zhì)(方向)和相關(guān)程度的度量。為了消除兩變量各自變異度及單位不同的影響,須將各以其標(biāo)準(zhǔn)差除之,另外為了消除自由度不等的影響,便于比較,再除以自由度,于是得到相關(guān)系數(shù)r(表示簡(jiǎn)單相關(guān)程度和性質(zhì)的統(tǒng)計(jì)量稱作相關(guān)系數(shù)).樣本相關(guān)系數(shù)用r表示,總體相關(guān)系數(shù)用ρ表示。

其中:SPxy—變量x和變量y的離均差乘積和簡(jiǎn)稱乘積和SSx—變量x的離均差平方和

SSy—變量y的離均差平方和相關(guān)系數(shù)r的特點(diǎn):(1)r為無(wú)單位的相對(duì)數(shù)值,可直接用于不同資料間相關(guān)程度的比較。(2)≤r≤1,0≤|r|≤1。|r|越接近于1,說(shuō)明兩變量的相關(guān)程度越強(qiáng);|r|越接近于0,兩變量的相關(guān)程度越差。(3)r=0表示x與y無(wú)相關(guān),r<0表示負(fù)相關(guān),r>0表示正相關(guān),|r|=1為完全相關(guān)。二、樣本相關(guān)系數(shù)的計(jì)算【例6-1】表6-1為用氦氖激光照射母黃牛后血紅蛋白含量(y,g%)和照射天數(shù)(x,d)的資料,試求兩變量的相關(guān)系數(shù)。一級(jí)數(shù)據(jù)計(jì)算如下:三、相關(guān)系數(shù)的顯著性檢驗(yàn)

由樣本資料求出的相關(guān)系數(shù)r與其他統(tǒng)計(jì)量一樣,也存在著抽樣誤差,假若求得的r值不等于零,它是否是一個(gè)有意義的數(shù)值,還需要進(jìn)行顯著性檢驗(yàn)之后才能作出判斷。檢驗(yàn)的目的就是要判明r所在的總體是否確有線性關(guān)系。檢驗(yàn)時(shí)首先提出假設(shè):H0:ρ=0;

HA:ρ≠0;然后測(cè)定r與ρ之間的差異是由于抽樣誤差引起的,還是本質(zhì)的差異,根據(jù)構(gòu)造統(tǒng)計(jì)量的不同分為F檢驗(yàn)和t檢驗(yàn),下面以t檢驗(yàn)步驟為例說(shuō)明。1、H0:ρ=0;

HA:ρ≠02、t檢驗(yàn)公式為其中:—相關(guān)系數(shù)的標(biāo)準(zhǔn)誤—誤差自由度對(duì)于例6-1,由公式可得:故p<0.01,否定H0:ρ=0,接受HA:ρ≠0。說(shuō)明母黃牛血紅蛋白含量和照射天數(shù)間負(fù)相關(guān)關(guān)系極顯著,表示為r=**。統(tǒng)計(jì)學(xué)家已根據(jù)相關(guān)系數(shù)r的t檢驗(yàn)法,計(jì)算出r的顯著臨界值并列出了表(見附表9)。

實(shí)際分析資料時(shí)可以直接查附表對(duì)r進(jìn)行顯著性檢驗(yàn)。本例由dfe=9-2=7,M=2(變量個(gè)數(shù)),查r臨界值表得:r0.05(7)=0.666,r0.01(7)=0.798,而>r0.01(7)=0.798,p<0.01,表明母黃牛血紅蛋白含量和照射天數(shù)的負(fù)相關(guān)關(guān)系極顯著。第二節(jié)

直線回歸

前面所述的相關(guān)只是說(shuō)明兩個(gè)變量有無(wú)關(guān)系,相關(guān)關(guān)系也只是表示兩變量間相關(guān)的性質(zhì)極其相關(guān)的密切程度,不能反映出二者之間數(shù)量上的變化關(guān)系,而在實(shí)踐中,往往需要從一個(gè)變量來(lái)估測(cè)另一個(gè)變量的變化,并確定當(dāng)給自變量x為某一值時(shí),依變量y將要在什么范圍內(nèi)變化。這就需要進(jìn)行回歸分析,對(duì)兩變量x和y的回歸分析就是要導(dǎo)出自變量x來(lái)控制依變量y的回歸方程(或配制出一條回歸曲線)來(lái)代表它們的線性關(guān)系,進(jìn)而從一個(gè)變量的變化來(lái)估測(cè)另一個(gè)變量的具體變化?!盎貧w”名稱的由來(lái)英國(guó)統(tǒng)計(jì)學(xué)家F·Galton(1822——1911年)和他的學(xué)生、現(xiàn)代統(tǒng)計(jì)學(xué)的奠基者之一K·Pearson(1856——1936年)在研究父母身高與其子女身高的遺傳問(wèn)題時(shí),觀察了1078對(duì)夫婦,以每對(duì)夫婦中父親的身高作為解釋變量X,而取他們的一個(gè)成年兒子的身高作為被解釋變量Y(應(yīng)變量),將結(jié)果在平面直角坐標(biāo)系上繪成散點(diǎn)圖,發(fā)現(xiàn)趨勢(shì)近乎一條直線。計(jì)算出的回歸直線方程為:

Galton數(shù)據(jù)散點(diǎn)圖(英寸)一、一元線性回歸的數(shù)學(xué)模型及方程的建立

1:表示原因的變量X稱為自變量,是一個(gè)普通數(shù)學(xué)變量(常變量)。2:表示結(jié)果的變量Y稱為依變量或應(yīng)變量,是一個(gè)隨機(jī)變量。LINE假定xy

y|X=α+x例如,進(jìn)行藥物療效試驗(yàn)時(shí),應(yīng)用不同的劑量(x),分析療效(y)如何受到藥物劑量的影響及其變化規(guī)律。這里規(guī)定的幾種劑量(x)可以事先給定,而療效(y)在同一種劑量條件下結(jié)果不會(huì)完全相同,只能在某一數(shù)值附近有所變化。

假設(shè)Y與X之間存在著相關(guān)關(guān)系,即由X可以在一定程度上決定Y,但由X值不能準(zhǔn)確地確定Y的值。為了研究它們的這種關(guān)系,我們對(duì)(X,Y)進(jìn)行了一系列觀測(cè),得到:(x1,y1),(x2,y2),…,(xn,yn)。前面已經(jīng)指出,要研究?jī)煞N變量間的關(guān)系,最簡(jiǎn)單的方法是把一系列觀測(cè)數(shù)據(jù)在坐標(biāo)中用散點(diǎn)圖表示,如果散點(diǎn)大致分布在一條直線附件,就可以判斷兩者為直線回歸關(guān)系。這種關(guān)系可用直線回歸方程表示。則總體直線回歸方程為:(i=1,2,…,n)

也就是,yi~N(α+βxi,σ2)LINE假定xy

y|X=α+x或者Y的總體均數(shù)自變量Intercept總體截距Slope總體斜率模型中α,β是待估計(jì)參數(shù)。對(duì)參數(shù)的估計(jì)是通過(guò)樣本數(shù)據(jù)進(jìn)行的,設(shè)a、b分別是α和β的估計(jì)值,將a、b代入模型,得樣本回歸方程為:這個(gè)直線回歸方程的讀法是y對(duì)x的直線回歸方程。讀作y-hat

在數(shù)學(xué)上常用最小二乘法估計(jì)a、b值,使估計(jì)y時(shí)的誤差最小,即我們所要求的直線是在一切直線中最接近所有散點(diǎn)的直線,以這條直線來(lái)代表該雙變量間的關(guān)系應(yīng)與實(shí)測(cè)數(shù)據(jù)的誤差比其他任何直線都要小。從而使樣本回歸方程能最好地反應(yīng)y和x兩變量間的數(shù)量關(guān)系。=最小

最小二乘(Leastsquares)法圖解Yi(Y的估計(jì)值)=a+bXi

Yi估計(jì)值i殘差i=Yi–估計(jì)值i尋找使(殘差i)2最小的直線

33LeastSquaresMethodThe“best”lineistheonethatminimizesthesumofsquaredverticaldifferencesbetweenthepointsandtheline.wwww4114(1,2)22(2,4)(3,1.5)Sumofsquareddifferences=(2-1)2+(4-2)2+(1.5-3)2+(4,3.2)(3.2-4)2=6.89Sumofsquareddifferences=(2-2.5)2+(4-2.5)2+(1.5-2.5)2+(3.2-2.5)2=3.992.5LetuscomparetwolinesThesecondlineishorizontalThesmallerthesumofsquareddifferencesthebetterthefitofthelinetothedata.要使為最小,必須使Q對(duì)a、b的一階偏導(dǎo)數(shù)等于0,即:整理得關(guān)于a、b的正規(guī)方程組:

解正規(guī)方程組,得:建立直線回歸方程:a:截距,直線與Y軸交點(diǎn)的縱坐標(biāo)(X=0)。b:斜率,回歸系數(shù)。意義:X每改變一個(gè)單位,Y平均改變b個(gè)單位。

b>0,Y隨X的增大而增大(減少而減少)——斜上;

b<0,Y隨X的增大而減?。p少而增加)——斜下;

b=0,Y與X無(wú)直線關(guān)系——

水平。|b|越大,表示Y隨X變化越快,直線越陡峭。由此可見,回歸系數(shù)b不僅反映了變量間數(shù)量上的變化關(guān)系,同時(shí)也反映了

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論