第一章 一元回歸與相關(guān)分析_第1頁(yè)
第一章 一元回歸與相關(guān)分析_第2頁(yè)
第一章 一元回歸與相關(guān)分析_第3頁(yè)
第一章 一元回歸與相關(guān)分析_第4頁(yè)
第一章 一元回歸與相關(guān)分析_第5頁(yè)
已閱讀5頁(yè),還剩56頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

高級(jí)生物統(tǒng)計(jì)

AdvancedBiometrics陳茂學(xué)辦公地點(diǎn):文理大樓0710辦公電話:8242504

E-mail:mxchen@山東農(nóng)業(yè)大學(xué)信息科學(xué)與工程學(xué)院數(shù)學(xué)系1主要內(nèi)容:1.回歸分析

包括:線性、逐步、非線性回歸,相關(guān)、通徑分析。2.判別分析

包括:距離判別、Bayes判別、Fisher判別等。3.聚類分析

包括:系統(tǒng)聚類、動(dòng)態(tài)聚類等。4.主成分分析與典型相關(guān)分析5.近代回歸分析

包括:嶺回歸、主成分回歸等。6.回歸設(shè)計(jì)

包括:回歸正交設(shè)計(jì)、旋轉(zhuǎn)設(shè)計(jì)、最優(yōu)設(shè)計(jì)等。2第一章一元回歸與相關(guān)分析

一、變量間的關(guān)系

1.確定性關(guān)系已知一個(gè)或幾個(gè)變量的值,能嚴(yán)格計(jì)算出另一個(gè)變量的值。如S=πR2,S=vt等。

2.相關(guān)關(guān)系變量間雖有一定的依賴關(guān)系,但由一個(gè)或幾個(gè)變量的值,不能準(zhǔn)確求出另一變量的值。例如,作物產(chǎn)量與施肥量之間的關(guān)系;體重與身高之間的關(guān)系;孩子的身高與其父母的平均身高等。§1.1概述細(xì)分;單向依存關(guān)系和相互依存關(guān)系,分析方法分別為回歸(regression)分析和相關(guān)(correlation)分析。3二、相關(guān)與回歸分類

1.基于變量的多少簡(jiǎn)單相關(guān)與回歸;多元相關(guān)與回歸;偏相關(guān)與偏回歸。2.基于變量間關(guān)系形式線性相關(guān)與回歸;非線性相關(guān)與回歸。三、相關(guān)與回歸分析的作用1.尋求描述變量間數(shù)量關(guān)系的數(shù)學(xué)模型—回歸方程;2.利用數(shù)學(xué)模型(回歸方程)對(duì)變量進(jìn)行預(yù)報(bào)或控制;3.在影響某一變量的諸多變量中,分析其主次順序。4四、認(rèn)識(shí)相關(guān)關(guān)系的方法(相關(guān)關(guān)系的表現(xiàn)形式)1.列表法如某作物的株高y(cm)與苗齡x(d)之間的關(guān)系。苗齡x(d)5101520253035株高y(cm)259141925332.圖象法如散點(diǎn)圖、折線圖、曲線圖等。3.解析法如數(shù)學(xué)方程(數(shù)學(xué)模型)。5§1.2一元線性回歸一、一元線性回歸方程的建立設(shè)對(duì)兩變量x,y進(jìn)行n次試驗(yàn)后得n對(duì)觀測(cè)值(xi,yi),i=1,2,…,n。其散點(diǎn)圖呈線性,用近似線性方程表示,稱為y依x的直線回歸方程。???????(xi,yi)xixyyib0為截距,b為回歸系數(shù)(斜率)。它們應(yīng)使達(dá)到最小。6達(dá)到最小,由多元要使函數(shù)的極值定理,將Q分別對(duì)b0,b求一階偏導(dǎo)數(shù)并令其等于零得方程組整理得由(1)式得并代入(2)式得7整理得由(1)式得并代入(2)式得這種求b0、b的方法稱為最小二乘法,b0、b稱為最小二乘估計(jì)(LSE——leastsquareestimate)。8例1.1某作物的株高y(cm)與苗齡x(d)的試驗(yàn)結(jié)果如下表:苗齡x(d)5101520253035株高y(cm)25914192533解

xi=5+10+15+20+25+30+35=140試求株高y依苗齡x的回歸方程。

yi=2+5+9+14+19+25+33=107

xi2=52+…+352=3500

yi2=22+…+332=2381

xiyi=52+…+3533=2855

lxy=

xiyi–(xi)(yi)/n=2855-140107/7=715

lxx=

xi2–(xi)2/n=3500-1402/7=700

lyy=

yi2–(yi)2/n=2381-1072/7=745.439從而得回歸系數(shù)b=lxy/lxx=715/700=1.02因此得苗齡與株高的回歸方程為解

xi=5+10+15+20+25+30+35=140

yi=2+5+9+14+19+25+33=107

lxy=

xiyi–(xi)(yi)/n=2855-140107/7=715

lxx=

xi2–(xi)2/n=3500-1402/7=700

lyy=

yi2–(yi)2/n=2381-1072/7=745.4310二、一元線性回歸的數(shù)學(xué)模型設(shè)因變量y與自變量x的內(nèi)在聯(lián)系是線性的,當(dāng)做了n次試驗(yàn)后,得n組數(shù)據(jù)(xi,yi),i=1,2,…,n.滿足

yi=

0+xi+ei,i=1,2,…,n其中

0、

是未知參數(shù),稱為回歸系數(shù),x是一般變量,e1,…,en是相互獨(dú)立的隨機(jī)誤差,方差均為

2,數(shù)學(xué)期望為0的正態(tài)分布,即ei~N(0,

2)。這就是一元線性回歸的數(shù)學(xué)模型。簡(jiǎn)記為11簡(jiǎn)記為顯然yi~N(

0+xi,

2)可以證明:E(b0)=

0,E(b)=

,E(Q/(n-2))=

2,b0,b為

0,

的最小二乘估計(jì)。12檢驗(yàn)x與y之間是否存在顯著的線性關(guān)系,即檢驗(yàn)假設(shè)

H0:

=0,Ha:

0三、回歸關(guān)系的顯著性檢驗(yàn)1.回歸方程的檢驗(yàn)(方差分析)總平方和???????(xi,yi)xixyyi(交叉項(xiàng)的和等于0)=Q+u13其中=Q+u分別稱為剩余平方和與回歸平方和。Q=lyy-u=lyy-blxy.自由度f(wàn)T=n-1,fu=1,fQ=n-2.它們的計(jì)算公式為14Q=lyy-u=lyy-blxy.自由度f(wàn)T=n-1,fu=1,fQ=n-2.均方:在H0成立的條件下當(dāng)F≥F

(1,n-2)時(shí),否定H0,即x與y存在顯著的線性關(guān)系;否則線性關(guān)系不顯著。15在上例中因?yàn)閘xy=715,lyy=745.43,b

=1.02自由度f(wàn)T=n-1=7-1=6,fu=1,fQ=n-2=7-2=5.均方:所以回歸方程極顯著,即苗齡與株高有極顯著的線性關(guān)系??闪蟹讲罘治霰恚裕?。所以u(píng)=blxy=1.02715=729.3,

Q=lyy-u=745.43-729.3=16.1316對(duì)上例2.回歸系數(shù)的t檢驗(yàn)H0:

=0,Ha:

0在H0成立的條件下

當(dāng)|t|≥t/2(n-2)時(shí),否定H0,即x與y存在顯著的線性關(guān)系;否則線性關(guān)系不顯著。故回歸系數(shù)極顯著,即苗齡與株高線性關(guān)系極顯著。173.一元線性回歸的SAS程序?qū)?.1的SAS程序如下:DATAex1_1;INPUTxy@@;CARDS;521051592014251930253533;PROCREG;MODELy=x;RUN;苗齡x(d)5101520253035株高y(cm)2591419253318方差分析與參數(shù)估計(jì)輸出結(jié)果:19PROCGPLOT;PLOTy*x;SYMBOLV=starI=RLCV=orangeCI=blue;RUN;其中:CV、CL—分別表示點(diǎn)的符號(hào)和回歸線的顏色上例作y關(guān)于x的回歸和散點(diǎn)圖。增加如下程序:2021當(dāng)所求回歸方程此值即為點(diǎn)預(yù)測(cè)(估計(jì))。另外還有區(qū)間預(yù)測(cè)(估計(jì)),其1-的置信區(qū)間為

四、預(yù)測(cè)問(wèn)題

x=x0的值預(yù)測(cè)y的值,其預(yù)測(cè)值為顯著時(shí),可對(duì)給定的其中(1)單個(gè)y(2)y的平均值22顯然,l越大,預(yù)測(cè)精度越低。預(yù)測(cè)區(qū)間長(zhǎng)度為2l。當(dāng)x0

越遠(yuǎn)離,預(yù)測(cè)精度越低。原則上x(chóng)0的取值要在試驗(yàn)范圍之內(nèi),即:x0[min{x1,…,xn},max{x1,…,xn}]如上例中,當(dāng)x=28時(shí),y的1-0.05=95%的預(yù)測(cè)區(qū)間23如上例中,當(dāng)x=28時(shí),y的1-0.05=95%的預(yù)測(cè)區(qū)間即當(dāng)苗齡為28天時(shí),株高的95%預(yù)測(cè)區(qū)間為[18.56,28.28]厘米。SAS程序如下:24DATAex1_1;INPUTxy@@;CARDS;52105…353328.;PROCREG;MODELy=x/CLM;RUN;25§1.3相關(guān)分析(correlationanalysis)

一、相關(guān)系數(shù)兩個(gè)隨機(jī)變量X、Y之間的總體相關(guān)系數(shù)樣本相關(guān)系數(shù)26二、相關(guān)系數(shù)的性質(zhì)-1r1因?yàn)閞2稱為確定系數(shù)或決定系數(shù)。且u

lyy,所以當(dāng)|r|=1時(shí),稱x與y完全相關(guān);當(dāng)r=0時(shí),稱x與y不相關(guān);當(dāng)r>0時(shí),稱x與y正相關(guān);當(dāng)r<0時(shí),稱x與y負(fù)相關(guān)。注:r的符號(hào)與b的符號(hào)一致。上例27三、相關(guān)系數(shù)的檢驗(yàn)H0:

=0,Ha:

01.查表法由附表10,查相關(guān)系數(shù)臨界值表r

(fQ)。當(dāng)|r|≥r

(fQ)

時(shí),拒絕H0,即x與y相關(guān)系數(shù)顯著。上例中,|r|=0.9898>r0.01(5)=0.874,所以x與y相關(guān)關(guān)系極顯著。2.t檢驗(yàn)法在H0

成立的條件下當(dāng)|t|≥t

/2(n-2)

時(shí),拒絕H0,即x與y相關(guān)系數(shù)顯著。28注:1.對(duì)一元線性回歸與相關(guān)而言,F(xiàn)檢驗(yàn)、t檢驗(yàn)、相關(guān)系數(shù)r的檢驗(yàn),其檢驗(yàn)結(jié)果一致。2.

當(dāng)檢驗(yàn)結(jié)果為不顯著時(shí),可能存在的原因:(1)x與y之間根本沒(méi)有關(guān)系,此時(shí)需要尋找影響y的其它變量;(2)x與y之間有關(guān)系,但不是線性關(guān)系,這時(shí)需要非線性回歸。29相關(guān)分析的SAS程序DATAex1_1;INPUTxy@@;CARDS;521051592014251930253533;PROCCORR;VARxy;RUN;30§1.4曲線回歸一、求曲線回歸方程的步驟1.

確定變量之間的函數(shù)類型(1)根據(jù)專業(yè)知識(shí)或理論推導(dǎo)或?qū)嵺`經(jīng)驗(yàn)確定;(2)根據(jù)散點(diǎn)圖的分布趨勢(shì)確定函數(shù)類型;(3)用多項(xiàng)式逼近。2.

確定方程(函數(shù))中的未知參數(shù)一般采用最小二乘法。若非線性函數(shù)能轉(zhuǎn)換成線性函數(shù),則可以用線性回歸求解;若不能化成線性函數(shù),則采用最優(yōu)化方法求解。31二、可化為線性模型的情況1.

指數(shù)函數(shù)例1.2棲霞果樹(shù)站測(cè)定了覆膜條件下,國(guó)光蘋(píng)果長(zhǎng)枝的葉面積生長(zhǎng)量,其前期數(shù)據(jù)如下表。試進(jìn)行回歸分析。解:由散點(diǎn)圖其函數(shù)類型為

y=kebx=ea+bx兩邊取自然對(duì)數(shù)lny=a+bx令y’=lny,則

y’=a+bx天數(shù)x(d)051015202530葉面積y(cm2)5.743.776.7102.3183.4225.1344.2x102030401002003004000???????y32x051015202530y’=lny1.7403.7774.3404.6285.2125.4175.841將原始數(shù)據(jù)(xi,yi)轉(zhuǎn)換為(xi,lnyi)=(xi,yi’),由(xi,yi’)求參數(shù)a、b,本例建立x與y’的線性回歸方程。

lxx=

xi2–(xi)2/n=2275-1052/7=700

lxy’=

xiyi’

–(xi)(yi’

)/n=546.5845-10531.0088/7=81.4525

ly’y’=

yi’2–(yi’)2/n=148.1672-31.00882/7=10.8035解:由散點(diǎn)圖其函數(shù)類型為y=kebx=ea+bx兩邊取自然對(duì)數(shù)lny=a+bx令y’=lny,則

y’=a+bx33

lxx=

xi2–(xi)2/n=2275-1052/7=700

lxy’=

xiyi’

–(xi)(yi’

)/n=546.5845-10531.0088/7=81.4525

ly’y’=

yi’2–(yi’)2/n=148.1672-31.00882/7=10.8035從而得回歸系數(shù)b=lxy’/lxx=81.4525/700=0.1163因此得回歸方程對(duì)此回歸方程檢驗(yàn)(F檢驗(yàn)、t檢驗(yàn)、r檢驗(yàn)任選其一即可)用相關(guān)系數(shù)r檢驗(yàn):34因此得回歸方程對(duì)此回歸方程檢驗(yàn)(F檢驗(yàn)、t檢驗(yàn)、r檢驗(yàn)任選其一即可)用相關(guān)系數(shù)r檢驗(yàn):查相關(guān)系數(shù)臨界值表r0.01(5)=0.8745|r|=0.9366>r0.01(5)=0.8745,所以x與y’相關(guān)關(guān)系極顯著。故x與y的回歸方程為35其SAS程序如下:dataex1_2;inputxy@@;yp=log(y);cards;05.7543.71076.715102.320183.425225.130344.2;procreg;modelyp=x;run;3637本例如果用二次多項(xiàng)式模型,則程序如下:datafive;inputxy@@;x2=x*x;cards;05.7543.710

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論