第10章-直線回歸與相關(guān)分析課件_第1頁
第10章-直線回歸與相關(guān)分析課件_第2頁
第10章-直線回歸與相關(guān)分析課件_第3頁
第10章-直線回歸與相關(guān)分析課件_第4頁
第10章-直線回歸與相關(guān)分析課件_第5頁
已閱讀5頁,還剩137頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第十章直線回歸與相關(guān)分析&10.1回歸和相關(guān)分析概述&10.2直線回歸分析&10.3直線相關(guān)分析第十章直線回歸與相關(guān)分析&10.1回歸和相關(guān)分析概述1&10.1回歸和相關(guān)分析概述一、變量間的關(guān)系分為兩類:函數(shù)關(guān)系:完全確定性的關(guān)系——可用精確的數(shù)學(xué)式來表示;統(tǒng)計關(guān)系:不存在完全確定性的關(guān)系——不能用精確的數(shù)學(xué)式來表示。統(tǒng)計關(guān)系這一類變量間的關(guān)系就是統(tǒng)計學(xué)中回歸分析與相關(guān)分析所要討論的問題。&10.1回歸和相關(guān)分析概述一、變量間的關(guān)系分為兩類:2常用x、y來表示兩個變量,(x,y)的各對觀察值用(x1,y1),(x2,y2),…,(xn,yn)表示。在統(tǒng)計上,x和y變量的關(guān)系有兩種理論模型:回歸模型和相關(guān)模型?;貧w模型(因果關(guān)系)中:x表示原因的變量;y是表示結(jié)果的變量。回歸分析目的:導(dǎo)出由x來預(yù)測或控制y的回歸方程,即確定當(dāng)自變量x為某一值時依變量y將會在什么范圍內(nèi)變化。二、回歸、相關(guān)分析的任務(wù)與類型常用x、y來表示兩個變量,(x,y)的各對觀察值用(x1,y3在相關(guān)模型中,其x和y變量是平行變化關(guān)系,不能區(qū)別哪一個是自變量,哪一個是依變量。相關(guān)分析目的:確定兩個變量在數(shù)量關(guān)系上的密切程度和性質(zhì)。不能用一個或多個變量去預(yù)測、控制另一個變量的變化。在相關(guān)模型中,其x和y變量是平行變化關(guān)系,不能區(qū)別哪一個是自4回歸分析的類型:一元回歸分析(直線和曲線回歸分析);多元回歸分析(多元線性回歸分析和曲面回歸分析)。相關(guān)分析的類型:直線相關(guān)分析;復(fù)相關(guān)分析。偏相關(guān)分析?;貧w分析的類型:相關(guān)分析的類型:直線相關(guān)分析;5三、兩個變數(shù)資料的散點圖對具有統(tǒng)計關(guān)系的兩個變數(shù)的資料進行初步考察的簡便而有效的方法,是將這兩個變數(shù)的n對觀察值(x1,y1)、(x2,y2)、…、(xn,yn)分別以坐標(biāo)點的形式標(biāo)記于同一直角坐標(biāo)平面上,獲得散點圖(scatterdiagram)。例如:三、兩個變數(shù)資料的散點圖對具有統(tǒng)計關(guān)系的兩個變數(shù)的資料進行初6根據(jù)散點圖可初步判定雙變數(shù)X和Y間的關(guān)系:①X和Y相關(guān)的性質(zhì)(正或負(fù))和密切程度②X和Y的關(guān)系是直線型的還是非直線型的③是否有一些特殊的點表示著其他因素的干擾根據(jù)散點圖可初步判定雙變數(shù)X和Y間的關(guān)系:①X和Y相關(guān)的性7&10.2直線回歸分析一、直線回歸方程的建立二、直線回歸的顯著性檢驗三、直線回歸的區(qū)間估計&10.2直線回歸分析一、直線回歸方程的建立8一、直線回歸方程的建立設(shè)變量x與y間存在直線關(guān)系,根據(jù)n對觀察值所描出的散點圖如下。圖9—2直線回歸散點圖一、直線回歸方程的建立設(shè)變量x與y間存在直線關(guān)系,根據(jù)n對觀9總體直線回歸方程:y=α+βx實際觀察值可表示為:

yi=α+βxi+i(i=1,2,…,n)

i為隨機誤差,與α、β相互獨立,且服從N(0,2)。這就是直線回歸的數(shù)學(xué)模型根據(jù)樣本實際觀察值對α、β以及誤差方差2作出估計,即建立樣本回歸方程并估計出誤差的大小??傮w直線回歸方程:y=α+βx實際觀察值可表示為:10設(shè)樣本直線回歸方程為:總體直線回歸方程:y=α+βx其中a是的估計值,稱為回歸截距;b是β的估計值,稱為回歸系數(shù),表示自變量每改變一個單位數(shù)時,依變量y平均改變的單位數(shù)(b>0時,增加;b<0時,減少)是+βxi的估計值設(shè)樣本直線回歸方程為:總體直線回歸方程:y=α+βx其中a是11回歸方程的基本條件(性質(zhì)):

性質(zhì)1最??;性質(zhì)2;性質(zhì)3回歸直線通過點。利用最小二乘法,即Q最小的方法求a與b的值。根據(jù)微積分學(xué)中求極值的原理,將Q對a與b求偏導(dǎo)數(shù)并令其等于0:回歸方程的基本條件(性質(zhì)):性質(zhì)1最??;性質(zhì)2;12整理后可得:上式叫做a與b的正規(guī)方程組。整理后可得:上式叫做a與b的正規(guī)方程組。13簡記為:解之可得:簡記為:解之可得:14x與y的離均差乘積和,簡稱為乘積和,記為SPxy。記ssx=∑x2-(∑x)2/n,則a、b是α、β的最小二乘估計也是無偏估計。x與y的離均差乘積和,簡稱為乘積和,記為SPxy。記s15例[9.1]一些夏季害蟲盛發(fā)期的早遲和春季溫度高低有關(guān)。江蘇武進連續(xù)9年測定3月下旬至4月中旬旬平均溫度累積值(x,旬.度)和水稻一代三化螟盛發(fā)期(y,以5月10日為0)的關(guān)系,得結(jié)果于表9.1。試計算其直線回歸方程。表9.1累積溫和一代三化螟盛發(fā)期的關(guān)系SAS分析例[9.1]一些夏季害蟲盛發(fā)期的早遲和春季溫度高低有關(guān)。江蘇16解:解:17第10章-直線回歸與相關(guān)分析課件18上述方程中回歸系數(shù)b和回歸截距a的意義為:b=-1.1當(dāng)3月下旬至4月中旬的積溫(x)每提高1旬·度時,一代三化螟的盛發(fā)期平均將提早1.1天;a=48.5若積溫為0,則一代三化螟的盛發(fā)期將在6月27—28日(x=0時,=48.5;因y是以5月10日為0,故48.5為6月27—28日)。上述方程中回歸系數(shù)b和回歸截距a的意義為:b=-1.119由于x變數(shù)的實測區(qū)間為[31.7,44.2],在應(yīng)用=48.5-1.1x于預(yù)測時,需限定x的區(qū)間為[31.7,44.2];如要在x<31.7或>44.2的區(qū)間外延,則必須有新的依據(jù)。由于x變數(shù)的實測區(qū)間為[31.7,44.2],在應(yīng)用20二、直線回歸的顯著性檢驗回歸關(guān)系的假設(shè)測驗:對于樣本的回歸方程,必須測定其來自無直線回歸關(guān)系總體的概率大小。只有當(dāng)這種概率小于0.05或0.01時,我們才能冒較小的危險確認(rèn)其所代表的總體存在著直線回歸關(guān)系。這就是回歸關(guān)系的假設(shè)測驗?;貧w關(guān)系的假設(shè)測驗有兩種方法:t測驗或F測驗二、直線回歸的顯著性檢驗回歸關(guān)系的假設(shè)測驗:回歸關(guān)系的假設(shè)測211、回歸系數(shù)顯著性檢驗──t檢驗對直線回歸系數(shù)b的假設(shè)檢驗為:HO:β=0;HAβ≠0。在HO成立的條件下,回歸系數(shù)b服從t分布。其中,為回歸系數(shù)標(biāo)準(zhǔn)誤。1、回歸系數(shù)顯著性檢驗──t檢驗其中22[例9.3]試測驗例9.1資料回歸關(guān)系的顯著性。已算得b=-1.0996,SSx=144.6356,sy/x=3.266,故有:

[例9.3]試測驗例9.1資料回歸關(guān)系的顯著性。已算得b23查附表4,t0.05,7=2.36,t0.01,7=3.50。|t|=4.05>t0.01,7=3.50,接受HA:≠0結(jié)論:認(rèn)為積溫和一代三化螟盛發(fā)期是有真實直線回歸關(guān)系的?;蛘哒f此b=-1.0996是極顯著的。查附表4,t0.05,7=2.36,t0.01,7=3.50242.回歸關(guān)系顯著性檢驗──F檢驗圖9-4的分解圖直線回歸的變異來源2.回歸關(guān)系顯著性檢驗──F檢驗圖9-425第10章-直線回歸與相關(guān)分析課件26上式中:回歸平方和,它是由x的不同而引起的.df回歸=1

df離回歸=n-2離回歸平方和:Df總=n-1

總平方和:上式中:回歸平方和,它是由x的不同而引起的.df回歸=1d27已算得SSX=144.6356SSy=249.5556SP=-159.044解:回歸平方和離回歸平方和:[例9.4]試用F測驗法檢測例9.1資料回歸關(guān)系的顯著性。已算得SSX=144.6356SSy=249.5528表9.3例9.1資料回歸關(guān)系的方差分析結(jié)論:表明積溫和一代三化螟盛發(fā)期是有真實直線回歸關(guān)系的,即β≠0(準(zhǔn)確地說,在β=0的總體中獲得現(xiàn)有回歸樣本的概率小于0.01)。表9.3例9.1資料回歸關(guān)系的方差分析結(jié)論:表明積溫和29統(tǒng)計學(xué)已證明,在直線回歸分析中F檢驗與t檢驗法是等價的,可任選一種進行檢驗。特別要指出的是:利用直線回歸方程進行預(yù)測或控制,一般只能內(nèi)插,不要輕易外延。離回歸標(biāo)準(zhǔn)差:統(tǒng)計意義:p162統(tǒng)計學(xué)已證明,在直線回歸分析中F檢驗與t檢驗法是等價的,可任30三、直線回歸的區(qū)間估計1.直線回歸的抽樣誤差在直線回歸總體中抽取若干個樣本時,由于,各樣本的a、b值都有誤差。因此,由=a+bx給出的點估計的精確性,決定于SY/X和a、b的誤差大小。比較科學(xué)的方法:給出對其總體的等的置信區(qū)間。、三、直線回歸的區(qū)間估計1.直線回歸的抽樣誤差在直線回歸312.回歸截距的置信區(qū)間a的標(biāo)準(zhǔn)誤為:總體回歸截距α有95%可靠度的置信區(qū)間為:

3.回歸系數(shù)的置信區(qū)間b的標(biāo)準(zhǔn)誤為:總體回歸系數(shù)β有95%可靠度的置信區(qū)間為:

2.回歸截距的置信區(qū)間a的標(biāo)準(zhǔn)誤為:總體回歸截距α有95324.條件總體平均數(shù)的置信區(qū)間:樣本估計值的標(biāo)準(zhǔn)誤為:的置信區(qū)間:5.條件總體預(yù)測值的置信區(qū)間:單個預(yù)測值的估計標(biāo)準(zhǔn)誤為:Y(P)的置信區(qū)間:4.條件總體平均數(shù)的置信區(qū)間:樣本估計值33[例9.6]測定遲熟早秈廣陸矮4號在5月5日至8月5日播種時(每隔10天播一期),播種至齊穗的天數(shù)(x)和播種至齊穗的總積溫(y,日·度)的關(guān)系列于表9.5,試計算:(1)回歸方程及其顯著性測驗;(2)其回歸截距和回歸系數(shù)95%可靠度的置信區(qū)間。[例9.6]測定遲熟早秈廣陸矮4號在5月5日至8月5日播34

表9.5廣陸4號播種至齊穗天數(shù)(x)和總積溫(y)的關(guān)系表9.5廣陸4號播種至齊穗天數(shù)(x)和總積溫(y)的關(guān)35(1)(1)36第10章-直線回歸與相關(guān)分析課件37(2)其回歸截距和回歸系數(shù)95%可靠度的置信區(qū)間。(2)其回歸截距和回歸系數(shù)95%可靠度的置信區(qū)間。38第10章-直線回歸與相關(guān)分析課件39第10章-直線回歸與相關(guān)分析課件40第10章-直線回歸與相關(guān)分析課件41例[9.1]一些夏季害蟲盛發(fā)期的早遲和春季溫度高低有關(guān)。江蘇武進連續(xù)9年測定3月下旬至4月中旬旬平均溫度累積值(x,旬.度)和水稻一代三化螟盛發(fā)期(y,以5月10日為0)的關(guān)系,得結(jié)果于表9.1。表9.1累積溫和一代三化螟盛發(fā)期的關(guān)系(1)計算其直線回歸方程,并進行回歸顯著性測驗。例[9.1]一些夏季害蟲盛發(fā)期的早遲和春季溫度高低有關(guān)。江蘇42(2)當(dāng)3月下旬至4月中旬的積溫為40旬·度時,歷年的一代三化螟平均盛發(fā)期在何時(取95%可靠度)?(3)某年3月下旬至4月中旬的積溫為40旬·度,試估計該年的一代三化螟盛發(fā)期在何時(取95%可靠度)?(2)當(dāng)3月下旬至4月中旬的積溫為40旬·度時,歷年的一代三43(2)當(dāng)3月下旬至4月中旬的積溫為40旬·度時,歷年的一代三化螟平均盛發(fā)期在何時(取95%可靠度)?(2)當(dāng)3月下旬至4月中旬的積溫為40旬·度時,歷年的一代三44第10章-直線回歸與相關(guān)分析課件45(3)某年3月下旬至4月中旬的積溫為40旬·度,試估計該年的一代三化螟盛發(fā)期在何時(取95%可靠度)?(3)某年3月下旬至4月中旬的積溫為40旬·度,試估計該年的46第10章-直線回歸與相關(guān)分析課件47進行直線相關(guān)分析的基本任務(wù)在于根據(jù)x、y的實際觀測值,計算表示兩個相關(guān)變量x、y間線性相關(guān)程度和性質(zhì)的統(tǒng)計量——相關(guān)系數(shù)r并進行顯著性檢驗。&10.3直線相關(guān)分析進行直線相關(guān)分析的基本任務(wù)在于根據(jù)x、y的48第10章-直線回歸與相關(guān)分析課件49y與x直線回歸效果的好壞取決于SS回歸與SS離回歸的大小,或者說取決于SS回歸在y的SS總中所占比例的大小。這個比例越大,y與x的直線回歸效果就越好,反之則差。在上一節(jié)中已經(jīng)證明了等式:一、決定系數(shù)和相關(guān)系數(shù)回歸平方和離回歸平方和y與x直線回歸效果的好壞取決于SS回歸與SS離回歸50決定系數(shù)r2的大小表示了回歸方程的可靠程度,顯然有0≤r2≤1。因為我們把比值叫x對y的決定系數(shù),記為r2即決定系數(shù)r2的大小表示了回歸方程的可靠程度,顯然有0≤r2≤51

byx=SPxy/SSx是x為自變量、y為依變量時的回歸系數(shù)。決定系數(shù)r2等于y對x的回歸系數(shù)byx與x對y的回歸系數(shù)bxy的乘積

bxy=SPxy/SSy是y為自變量、x為依變量時的回歸系數(shù)。byx=SPxy/SSx是x為自變量、y為依變量時的回52決定系數(shù)r2表示了互為因果關(guān)系的相關(guān)變量x與y間直線關(guān)系的程度。決定系數(shù)介于0與1之間,不能反映x與y直線關(guān)系的性質(zhì)──是同向增減或異向增減。決定系數(shù)r2表示了互為因果關(guān)系的相關(guān)變量x與y間53若求r2的平方根,且取平方根的符號與乘積和SPxy的符號一致,即與bxy、byx的符號一致,這樣求出的平方根既可表示y與x的直線相關(guān)的程度,也可表示直線相關(guān)的性質(zhì)。統(tǒng)計學(xué)上把這樣計算所得的統(tǒng)計量稱為x與y的相關(guān)系數(shù)(coefficientofcorrelation),記為r,即若求r2的平方根,且取平方根的符號與乘積和SPx54顯然相關(guān)系數(shù)介于-1與+1之間,即-1≤r≤1。若r=-1,為完全負(fù)相關(guān);r=+1,為完全正相關(guān)。在農(nóng)業(yè)研究中,完全相關(guān)的情況很罕見,多數(shù)相關(guān)系數(shù)是大于-1,小于+1的。顯然相關(guān)系數(shù)介于-1與+1之間,在農(nóng)業(yè)研究中,完全相55無效假設(shè)HO:ρ=0;備擇假設(shè)為:HA:ρ≠0。三、相關(guān)系數(shù)的顯著性檢驗相關(guān)系數(shù)r是樣本相關(guān)系數(shù),它是雙變量正態(tài)總體中的總體相關(guān)系數(shù)ρ的估計值。樣本相關(guān)系數(shù)r是否來自ρ≠0的總體,還須對樣本相關(guān)系數(shù)r進行顯著性檢驗??刹捎胻檢驗法、F檢驗法及查表法對相關(guān)系數(shù)r的顯著性進行檢驗。無效假設(shè)HO:ρ=0;三、相關(guān)系數(shù)的顯著性檢驗相56查表法先根據(jù)自由度n-2查臨界r值(附表10),得

若|r|<,P>0.05,則相關(guān)系數(shù)r不顯著;若≤|r|<,0.01<P<0.05,則相關(guān)系數(shù)r顯著,標(biāo)記“*”;若|r|≥,P≤0.01,則相關(guān)系數(shù)r極顯著,標(biāo)記“**”。查表法57[例9.11]試計算例9.1資料3月下旬至4月中旬積溫和一代三化螟盛發(fā)期的相關(guān)系數(shù)和決定系數(shù)。已算得該資料的SSx=144.6356,SSy=249.5556,SP=-159.0444,故r=-0.8371表明:一代三化螟盛發(fā)期與3月下旬至4月中旬的積溫成負(fù)相關(guān),即積溫愈高,一代三化螟盛發(fā)期愈早。[例9.11]試計算例9.1資料3月下旬至4月中旬積溫和58r2=0.7008表明:在一代三化螟盛發(fā)期的變異中有70.08%是由3月下旬至4月中旬的積溫不同造成的。r2=0.7008表明:在一代三化螟盛發(fā)期的變異中有70.59四、直線回歸與直線相關(guān)的聯(lián)系研究對象都是呈直線關(guān)系的相關(guān)變量。直線回歸分析將二個相關(guān)變量區(qū)分為自變量與依變量,側(cè)重于尋求它們之間的聯(lián)系形式──建立直線回歸方程;直線相關(guān)分析不區(qū)分自變量于依變量,側(cè)重于揭示它們之間聯(lián)系程度與性質(zhì)──計算出相關(guān)系數(shù)。四、直線回歸與直線相關(guān)的聯(lián)系60兩種分析的顯著性檢驗都是解決y與x是否存在直線關(guān)系,因而二者的檢驗是等價的??捎孟嚓P(guān)系數(shù)顯著性檢驗代替直線回歸關(guān)系顯著性檢驗,即可先計算相關(guān)系數(shù)r并對其進行檢驗,顯著后再建立直線回歸方程。兩種分析的顯著性檢驗都是解決y與x是否存在直線關(guān)61五、應(yīng)用直線回歸與相關(guān)的注意事項直線回歸分析與相關(guān)分析在生物科學(xué)研究領(lǐng)域中已得到了廣泛的應(yīng)用,但在實際工作中卻很容易被誤用或作出錯誤的解釋。為了正確地應(yīng)用直線回歸分析和相關(guān)分析這一工具,必須注意以下幾點:五、應(yīng)用直線回歸與相關(guān)的注意事項621、變量間是否存在相關(guān)

直線回歸分析和相關(guān)分析畢竟是處理變量間關(guān)系的數(shù)學(xué)方法,在將這些方法應(yīng)用于生物科學(xué)研究時要考慮到生物本身的客觀實際情況,譬如變量間是否存在直線相關(guān)以及在什么條件下會發(fā)生直線相關(guān),求出的直線回歸方程是否有意義,某性狀作為自變量或依變量的確定等等,都必須由生物科學(xué)相應(yīng)的專業(yè)知識來決定,并且還要用到生物科學(xué)實踐中去檢驗。如果不以一定的生物科學(xué)依據(jù)為前提,把風(fēng)馬牛不相及的資料隨意湊到一塊作直線回歸分析或相關(guān)分析,那將是根本性的錯誤。1、變量間是否存在相關(guān)632、其余變量盡量保持一致

由于自然界各種事物間的相互聯(lián)系和相互制約,一個變量的變化通常會受到許多其它變量的影響,因此,在研究兩個變量間關(guān)系時,要求其余變量應(yīng)盡量保持在同一水平,否則,回歸分析和相關(guān)分析可能會導(dǎo)致完全虛假的結(jié)果。例如研究人的身高和胸圍之間的關(guān)系,如果體重固定,身高越高的人,胸圍越小,但當(dāng)體重在變化時,其結(jié)果也就會變化。

2、其余變量盡量保持一致643、觀測值要盡可能的多

在進行直線回歸與相關(guān)分析時,兩個變量成對觀測值應(yīng)盡可能多一些,這樣可提高分析的精確性,一般至少有5對以上的觀測值。同時變量x的取值范圍要盡可能大一些,這樣才容易發(fā)現(xiàn)兩個變量間的變化關(guān)系。4、外推要謹(jǐn)慎

直線回歸與相關(guān)分析一般是在一定取值區(qū)間內(nèi)對兩個變量間的關(guān)系進行描述,超出這個區(qū)間,變量間關(guān)系類型可能會發(fā)生改變,所以回歸預(yù)測必須限制在自變量x的取值區(qū)間以內(nèi),外推要謹(jǐn)慎,否則會得出錯誤的結(jié)果。

3、觀測值要盡可能的多65

5、正確理解回歸或相關(guān)顯著與否的含義

一個不顯著的相關(guān)系數(shù)并不意味著變量x和y之間沒有關(guān)系,而只有能說明兩變量間沒有顯著的直線關(guān)系;一個顯著的相關(guān)系數(shù)或回歸系數(shù)亦并不意味著x和y的關(guān)系必定為直線,因為并不排除有能夠更好地描述它們關(guān)系的非線性方程的存在。5、正確理解回歸或相關(guān)顯著與否的含義666、一個顯著的回歸方程并不一定具有實踐上的預(yù)測意義如一個資料x、y兩個變量間的相關(guān)系數(shù)r=0.5,在df=24時,r0.01(24)=0.496,r>r0.01(24),表明相關(guān)系數(shù)極顯著。而r2=0.25,即x變量或y變量的總變異能夠通過y變量或x變量以直線回歸的關(guān)系來估計的比重只占25%,其余的75%的變異無法借助直線回歸來估計。

6、一個顯著的回歸方程并不一定具有實踐上的預(yù)測意義67小結(jié):應(yīng)用直線回歸與相關(guān)的注意事項1、要考慮到客觀實際情況。2、要考慮到回歸系數(shù)、相關(guān)系數(shù)的適用范圍。3、必須嚴(yán)格控制被研究的兩個變量以外的各個變量的變動范圍。4、正確理解“相關(guān)不顯著”和“回歸不顯著”。小結(jié):應(yīng)用直線回歸與相關(guān)的注意事項1、要考慮到客觀實際情況68圖9.1A水稻單株生物產(chǎn)量與稻谷產(chǎn)量的散點圖圖9.1A水稻單株生物產(chǎn)量69圖9.1B水稻每m2穎花數(shù)和結(jié)實率的散點圖圖9.1B水稻每m2穎花數(shù)和結(jié)實率的散點圖70x,最高葉面積指數(shù)圖9.1C水稻最高葉面積指數(shù)和畝產(chǎn)量的散點圖x,最高葉面積指數(shù)圖9.1C水稻最高葉面積指數(shù)和畝產(chǎn)量的71第十章直線回歸與相關(guān)分析&10.1回歸和相關(guān)分析概述&10.2直線回歸分析&10.3直線相關(guān)分析第十章直線回歸與相關(guān)分析&10.1回歸和相關(guān)分析概述72&10.1回歸和相關(guān)分析概述一、變量間的關(guān)系分為兩類:函數(shù)關(guān)系:完全確定性的關(guān)系——可用精確的數(shù)學(xué)式來表示;統(tǒng)計關(guān)系:不存在完全確定性的關(guān)系——不能用精確的數(shù)學(xué)式來表示。統(tǒng)計關(guān)系這一類變量間的關(guān)系就是統(tǒng)計學(xué)中回歸分析與相關(guān)分析所要討論的問題。&10.1回歸和相關(guān)分析概述一、變量間的關(guān)系分為兩類:73常用x、y來表示兩個變量,(x,y)的各對觀察值用(x1,y1),(x2,y2),…,(xn,yn)表示。在統(tǒng)計上,x和y變量的關(guān)系有兩種理論模型:回歸模型和相關(guān)模型?;貧w模型(因果關(guān)系)中:x表示原因的變量;y是表示結(jié)果的變量?;貧w分析目的:導(dǎo)出由x來預(yù)測或控制y的回歸方程,即確定當(dāng)自變量x為某一值時依變量y將會在什么范圍內(nèi)變化。二、回歸、相關(guān)分析的任務(wù)與類型常用x、y來表示兩個變量,(x,y)的各對觀察值用(x1,y74在相關(guān)模型中,其x和y變量是平行變化關(guān)系,不能區(qū)別哪一個是自變量,哪一個是依變量。相關(guān)分析目的:確定兩個變量在數(shù)量關(guān)系上的密切程度和性質(zhì)。不能用一個或多個變量去預(yù)測、控制另一個變量的變化。在相關(guān)模型中,其x和y變量是平行變化關(guān)系,不能區(qū)別哪一個是自75回歸分析的類型:一元回歸分析(直線和曲線回歸分析);多元回歸分析(多元線性回歸分析和曲面回歸分析)。相關(guān)分析的類型:直線相關(guān)分析;復(fù)相關(guān)分析。偏相關(guān)分析?;貧w分析的類型:相關(guān)分析的類型:直線相關(guān)分析;76三、兩個變數(shù)資料的散點圖對具有統(tǒng)計關(guān)系的兩個變數(shù)的資料進行初步考察的簡便而有效的方法,是將這兩個變數(shù)的n對觀察值(x1,y1)、(x2,y2)、…、(xn,yn)分別以坐標(biāo)點的形式標(biāo)記于同一直角坐標(biāo)平面上,獲得散點圖(scatterdiagram)。例如:三、兩個變數(shù)資料的散點圖對具有統(tǒng)計關(guān)系的兩個變數(shù)的資料進行初77根據(jù)散點圖可初步判定雙變數(shù)X和Y間的關(guān)系:①X和Y相關(guān)的性質(zhì)(正或負(fù))和密切程度②X和Y的關(guān)系是直線型的還是非直線型的③是否有一些特殊的點表示著其他因素的干擾根據(jù)散點圖可初步判定雙變數(shù)X和Y間的關(guān)系:①X和Y相關(guān)的性78&10.2直線回歸分析一、直線回歸方程的建立二、直線回歸的顯著性檢驗三、直線回歸的區(qū)間估計&10.2直線回歸分析一、直線回歸方程的建立79一、直線回歸方程的建立設(shè)變量x與y間存在直線關(guān)系,根據(jù)n對觀察值所描出的散點圖如下。圖9—2直線回歸散點圖一、直線回歸方程的建立設(shè)變量x與y間存在直線關(guān)系,根據(jù)n對觀80總體直線回歸方程:y=α+βx實際觀察值可表示為:

yi=α+βxi+i(i=1,2,…,n)

i為隨機誤差,與α、β相互獨立,且服從N(0,2)。這就是直線回歸的數(shù)學(xué)模型根據(jù)樣本實際觀察值對α、β以及誤差方差2作出估計,即建立樣本回歸方程并估計出誤差的大小。總體直線回歸方程:y=α+βx實際觀察值可表示為:81設(shè)樣本直線回歸方程為:總體直線回歸方程:y=α+βx其中a是的估計值,稱為回歸截距;b是β的估計值,稱為回歸系數(shù),表示自變量每改變一個單位數(shù)時,依變量y平均改變的單位數(shù)(b>0時,增加;b<0時,減少)是+βxi的估計值設(shè)樣本直線回歸方程為:總體直線回歸方程:y=α+βx其中a是82回歸方程的基本條件(性質(zhì)):

性質(zhì)1最小;性質(zhì)2;性質(zhì)3回歸直線通過點。利用最小二乘法,即Q最小的方法求a與b的值。根據(jù)微積分學(xué)中求極值的原理,將Q對a與b求偏導(dǎo)數(shù)并令其等于0:回歸方程的基本條件(性質(zhì)):性質(zhì)1最小;性質(zhì)2;83整理后可得:上式叫做a與b的正規(guī)方程組。整理后可得:上式叫做a與b的正規(guī)方程組。84簡記為:解之可得:簡記為:解之可得:85x與y的離均差乘積和,簡稱為乘積和,記為SPxy。記ssx=∑x2-(∑x)2/n,則a、b是α、β的最小二乘估計也是無偏估計。x與y的離均差乘積和,簡稱為乘積和,記為SPxy。記s86例[9.1]一些夏季害蟲盛發(fā)期的早遲和春季溫度高低有關(guān)。江蘇武進連續(xù)9年測定3月下旬至4月中旬旬平均溫度累積值(x,旬.度)和水稻一代三化螟盛發(fā)期(y,以5月10日為0)的關(guān)系,得結(jié)果于表9.1。試計算其直線回歸方程。表9.1累積溫和一代三化螟盛發(fā)期的關(guān)系SAS分析例[9.1]一些夏季害蟲盛發(fā)期的早遲和春季溫度高低有關(guān)。江蘇87解:解:88第10章-直線回歸與相關(guān)分析課件89上述方程中回歸系數(shù)b和回歸截距a的意義為:b=-1.1當(dāng)3月下旬至4月中旬的積溫(x)每提高1旬·度時,一代三化螟的盛發(fā)期平均將提早1.1天;a=48.5若積溫為0,則一代三化螟的盛發(fā)期將在6月27—28日(x=0時,=48.5;因y是以5月10日為0,故48.5為6月27—28日)。上述方程中回歸系數(shù)b和回歸截距a的意義為:b=-1.190由于x變數(shù)的實測區(qū)間為[31.7,44.2],在應(yīng)用=48.5-1.1x于預(yù)測時,需限定x的區(qū)間為[31.7,44.2];如要在x<31.7或>44.2的區(qū)間外延,則必須有新的依據(jù)。由于x變數(shù)的實測區(qū)間為[31.7,44.2],在應(yīng)用91二、直線回歸的顯著性檢驗回歸關(guān)系的假設(shè)測驗:對于樣本的回歸方程,必須測定其來自無直線回歸關(guān)系總體的概率大小。只有當(dāng)這種概率小于0.05或0.01時,我們才能冒較小的危險確認(rèn)其所代表的總體存在著直線回歸關(guān)系。這就是回歸關(guān)系的假設(shè)測驗?;貧w關(guān)系的假設(shè)測驗有兩種方法:t測驗或F測驗二、直線回歸的顯著性檢驗回歸關(guān)系的假設(shè)測驗:回歸關(guān)系的假設(shè)測921、回歸系數(shù)顯著性檢驗──t檢驗對直線回歸系數(shù)b的假設(shè)檢驗為:HO:β=0;HAβ≠0。在HO成立的條件下,回歸系數(shù)b服從t分布。其中,為回歸系數(shù)標(biāo)準(zhǔn)誤。1、回歸系數(shù)顯著性檢驗──t檢驗其中93[例9.3]試測驗例9.1資料回歸關(guān)系的顯著性。已算得b=-1.0996,SSx=144.6356,sy/x=3.266,故有:

[例9.3]試測驗例9.1資料回歸關(guān)系的顯著性。已算得b94查附表4,t0.05,7=2.36,t0.01,7=3.50。|t|=4.05>t0.01,7=3.50,接受HA:≠0結(jié)論:認(rèn)為積溫和一代三化螟盛發(fā)期是有真實直線回歸關(guān)系的?;蛘哒f此b=-1.0996是極顯著的。查附表4,t0.05,7=2.36,t0.01,7=3.50952.回歸關(guān)系顯著性檢驗──F檢驗圖9-4的分解圖直線回歸的變異來源2.回歸關(guān)系顯著性檢驗──F檢驗圖9-496第10章-直線回歸與相關(guān)分析課件97上式中:回歸平方和,它是由x的不同而引起的.df回歸=1

df離回歸=n-2離回歸平方和:Df總=n-1

總平方和:上式中:回歸平方和,它是由x的不同而引起的.df回歸=1d98已算得SSX=144.6356SSy=249.5556SP=-159.044解:回歸平方和離回歸平方和:[例9.4]試用F測驗法檢測例9.1資料回歸關(guān)系的顯著性。已算得SSX=144.6356SSy=249.5599表9.3例9.1資料回歸關(guān)系的方差分析結(jié)論:表明積溫和一代三化螟盛發(fā)期是有真實直線回歸關(guān)系的,即β≠0(準(zhǔn)確地說,在β=0的總體中獲得現(xiàn)有回歸樣本的概率小于0.01)。表9.3例9.1資料回歸關(guān)系的方差分析結(jié)論:表明積溫和100統(tǒng)計學(xué)已證明,在直線回歸分析中F檢驗與t檢驗法是等價的,可任選一種進行檢驗。特別要指出的是:利用直線回歸方程進行預(yù)測或控制,一般只能內(nèi)插,不要輕易外延。離回歸標(biāo)準(zhǔn)差:統(tǒng)計意義:p162統(tǒng)計學(xué)已證明,在直線回歸分析中F檢驗與t檢驗法是等價的,可任101三、直線回歸的區(qū)間估計1.直線回歸的抽樣誤差在直線回歸總體中抽取若干個樣本時,由于,各樣本的a、b值都有誤差。因此,由=a+bx給出的點估計的精確性,決定于SY/X和a、b的誤差大小。比較科學(xué)的方法:給出對其總體的等的置信區(qū)間。、三、直線回歸的區(qū)間估計1.直線回歸的抽樣誤差在直線回歸1022.回歸截距的置信區(qū)間a的標(biāo)準(zhǔn)誤為:總體回歸截距α有95%可靠度的置信區(qū)間為:

3.回歸系數(shù)的置信區(qū)間b的標(biāo)準(zhǔn)誤為:總體回歸系數(shù)β有95%可靠度的置信區(qū)間為:

2.回歸截距的置信區(qū)間a的標(biāo)準(zhǔn)誤為:總體回歸截距α有951034.條件總體平均數(shù)的置信區(qū)間:樣本估計值的標(biāo)準(zhǔn)誤為:的置信區(qū)間:5.條件總體預(yù)測值的置信區(qū)間:單個預(yù)測值的估計標(biāo)準(zhǔn)誤為:Y(P)的置信區(qū)間:4.條件總體平均數(shù)的置信區(qū)間:樣本估計值104[例9.6]測定遲熟早秈廣陸矮4號在5月5日至8月5日播種時(每隔10天播一期),播種至齊穗的天數(shù)(x)和播種至齊穗的總積溫(y,日·度)的關(guān)系列于表9.5,試計算:(1)回歸方程及其顯著性測驗;(2)其回歸截距和回歸系數(shù)95%可靠度的置信區(qū)間。[例9.6]測定遲熟早秈廣陸矮4號在5月5日至8月5日播105

表9.5廣陸4號播種至齊穗天數(shù)(x)和總積溫(y)的關(guān)系表9.5廣陸4號播種至齊穗天數(shù)(x)和總積溫(y)的關(guān)106(1)(1)107第10章-直線回歸與相關(guān)分析課件108(2)其回歸截距和回歸系數(shù)95%可靠度的置信區(qū)間。(2)其回歸截距和回歸系數(shù)95%可靠度的置信區(qū)間。109第10章-直線回歸與相關(guān)分析課件110第10章-直線回歸與相關(guān)分析課件111第10章-直線回歸與相關(guān)分析課件112例[9.1]一些夏季害蟲盛發(fā)期的早遲和春季溫度高低有關(guān)。江蘇武進連續(xù)9年測定3月下旬至4月中旬旬平均溫度累積值(x,旬.度)和水稻一代三化螟盛發(fā)期(y,以5月10日為0)的關(guān)系,得結(jié)果于表9.1。表9.1累積溫和一代三化螟盛發(fā)期的關(guān)系(1)計算其直線回歸方程,并進行回歸顯著性測驗。例[9.1]一些夏季害蟲盛發(fā)期的早遲和春季溫度高低有關(guān)。江蘇113(2)當(dāng)3月下旬至4月中旬的積溫為40旬·度時,歷年的一代三化螟平均盛發(fā)期在何時(取95%可靠度)?(3)某年3月下旬至4月中旬的積溫為40旬·度,試估計該年的一代三化螟盛發(fā)期在何時(取95%可靠度)?(2)當(dāng)3月下旬至4月中旬的積溫為40旬·度時,歷年的一代三114(2)當(dāng)3月下旬至4月中旬的積溫為40旬·度時,歷年的一代三化螟平均盛發(fā)期在何時(取95%可靠度)?(2)當(dāng)3月下旬至4月中旬的積溫為40旬·度時,歷年的一代三115第10章-直線回歸與相關(guān)分析課件116(3)某年3月下旬至4月中旬的積溫為40旬·度,試估計該年的一代三化螟盛發(fā)期在何時(取95%可靠度)?(3)某年3月下旬至4月中旬的積溫為40旬·度,試估計該年的117第10章-直線回歸與相關(guān)分析課件118進行直線相關(guān)分析的基本任務(wù)在于根據(jù)x、y的實際觀測值,計算表示兩個相關(guān)變量x、y間線性相關(guān)程度和性質(zhì)的統(tǒng)計量——相關(guān)系數(shù)r并進行顯著性檢驗。&10.3直線相關(guān)分析進行直線相關(guān)分析的基本任務(wù)在于根據(jù)x、y的119第10章-直線回歸與相關(guān)分析課件120y與x直線回歸效果的好壞取決于SS回歸與SS離回歸的大小,或者說取決于SS回歸在y的SS總中所占比例的大小。這個比例越大,y與x的直線回歸效果就越好,反之則差。在上一節(jié)中已經(jīng)證明了等式:一、決定系數(shù)和相關(guān)系數(shù)回歸平方和離回歸平方和y與x直線回歸效果的好壞取決于SS回歸與SS離回歸121決定系數(shù)r2的大小表示了回歸方程的可靠程度,顯然有0≤r2≤1。因為我們把比值叫x對y的決定系數(shù),記為r2即決定系數(shù)r2的大小表示了回歸方程的可靠程度,顯然有0≤r2≤122

byx=SPxy/SSx是x為自變量、y為依變量時的回歸系數(shù)。決定系數(shù)r2等于y對x的回歸系數(shù)byx與x對y的回歸系數(shù)bxy的乘積

bxy=SPxy/SSy是y為自變量、x為依變量時的回歸系數(shù)。byx=SPxy/SSx是x為自變量、y為依變量時的回123決定系數(shù)r2表示了互為因果關(guān)系的相關(guān)變量x與y間直線關(guān)系的程度。決定系數(shù)介于0與1之間,不能反映x與y直線關(guān)系的性質(zhì)──是同向增減或異向增減。決定系數(shù)r2表示了互為因果關(guān)系的相關(guān)變量x與y間124若求r2的平方根,且取平方根的符號與乘積和SPxy的符號一致,即與bxy、byx的符號一致,這樣求出的平方根既可表示y與x的直線相關(guān)的程度,也可表示直線相關(guān)的性質(zhì)。統(tǒng)計學(xué)上把這樣計算所得的統(tǒng)計量稱為x與y的相關(guān)系數(shù)(coefficientofcorrelation),記為r,即若求r2的平方根,且取平方根的符號與乘積和SPx125顯然相關(guān)系數(shù)介于-1與+1之間,即-1≤r≤1。若r=-1,為完全負(fù)相關(guān);r=+1,為完全正相關(guān)。在農(nóng)業(yè)研究中,完全相關(guān)的情況很罕見,多數(shù)相關(guān)系數(shù)是大于-1,小于+1的。顯然相關(guān)系數(shù)介于-1與+1之間,在農(nóng)業(yè)研究中,完全相126無效假設(shè)HO:ρ=0;備擇假設(shè)為:HA:ρ≠0。三、相關(guān)系數(shù)的顯著性檢驗相關(guān)系數(shù)r是樣本相關(guān)系數(shù),它是雙變量正態(tài)總體中的總體相關(guān)系數(shù)ρ的估計值。樣本相關(guān)系數(shù)r是否來自ρ≠0的總體,還須對樣本相關(guān)系數(shù)r進行顯著性檢驗??刹捎胻檢驗法、F檢驗法及查表法對相關(guān)系數(shù)r的顯著性進行檢驗。無效假設(shè)HO:ρ=0;三、相關(guān)系數(shù)的顯著性檢驗相127查表法先根據(jù)自由度n-2查臨界r值(附表10),得

若|r|<,P>0.05,則相關(guān)系數(shù)r不顯著;若≤|r|<,0.01<P<0.05,則相關(guān)系數(shù)r顯著,標(biāo)記“*”;若|r|≥,P≤0.01,則相關(guān)系數(shù)r極顯著,標(biāo)記“**”。查表法128[例9.11]試計算例9.1資料3月下旬至4月中旬積溫和一代三化螟盛發(fā)期的相關(guān)系數(shù)和決定系數(shù)。已算得該資料的SSx=144.6356,SSy=249.5556,SP=-159.0444,故r=-0.8371表明:一代三化螟盛發(fā)期與3月下旬至4月中旬的積溫成負(fù)相關(guān),即積溫愈高,一代三化螟盛發(fā)期愈早。[例9.11]試計算例9.1資料3月下旬至4月中旬積溫和129r2=0.7008表明:在一代三化螟盛發(fā)期的變異中有70.08%是由3月下旬至4月中旬的積溫不同造成的。r2=0.7008表明:在一代三化螟盛發(fā)期的變異中有70.130四、直線回歸與直線相關(guān)的聯(lián)系研究對象都是呈直線關(guān)系的相關(guān)變量。直線回歸分析將二個相關(guān)變量區(qū)分為自變量與依變量,側(cè)重于尋求它們之間的聯(lián)系形式──建立直線回歸方程;直線相關(guān)分析不區(qū)分自變量于依變量,側(cè)重于揭示它們之間聯(lián)系程度與性質(zhì)──計算出相關(guān)系數(shù)。四、直線回歸與直線相關(guān)的聯(lián)系131兩種分析的顯著性檢驗都是解決y與x是否存在直線關(guān)系,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論