




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
高級生物統(tǒng)計(jì)
AdvancedBiometrics陳茂學(xué)辦公地點(diǎn):文理大樓0710辦公電話:8242504
E-mail:mxchen@山東農(nóng)業(yè)大學(xué)信息科學(xué)與工程學(xué)院數(shù)學(xué)系1主要內(nèi)容:1.回歸分析
包括:線性、逐步、非線性回歸,相關(guān)、通徑分析。2.判別分析
包括:距離判別、Bayes判別、Fisher判別等。3.聚類分析
包括:系統(tǒng)聚類、動態(tài)聚類等。4.主成分分析與典型相關(guān)分析5.近代回歸分析
包括:嶺回歸、主成分回歸等。6.回歸設(shè)計(jì)
包括:回歸正交設(shè)計(jì)、旋轉(zhuǎn)設(shè)計(jì)、最優(yōu)設(shè)計(jì)等。2第一章一元回歸與相關(guān)分析
一、變量間的關(guān)系
1.確定性關(guān)系已知一個或幾個變量的值,能嚴(yán)格計(jì)算出另一個變量的值。如S=πR2,S=vt等。
2.相關(guān)關(guān)系變量間雖有一定的依賴關(guān)系,但由一個或幾個變量的值,不能準(zhǔn)確求出另一變量的值。例如,作物產(chǎn)量與施肥量之間的關(guān)系;體重與身高之間的關(guān)系;孩子的身高與其父母的平均身高等?!?.1概述細(xì)分;單向依存關(guān)系和相互依存關(guān)系,分析方法分別為回歸(regression)分析和相關(guān)(correlation)分析。3二、相關(guān)與回歸分類
1.基于變量的多少簡單相關(guān)與回歸;多元相關(guān)與回歸;偏相關(guān)與偏回歸。2.基于變量間關(guān)系形式線性相關(guān)與回歸;非線性相關(guān)與回歸。三、相關(guān)與回歸分析的作用1.尋求描述變量間數(shù)量關(guān)系的數(shù)學(xué)模型—回歸方程;2.利用數(shù)學(xué)模型(回歸方程)對變量進(jìn)行預(yù)報(bào)或控制;3.在影響某一變量的諸多變量中,分析其主次順序。4四、認(rèn)識相關(guān)關(guān)系的方法(相關(guān)關(guān)系的表現(xiàn)形式)1.列表法如某作物的株高y(cm)與苗齡x(d)之間的關(guān)系。苗齡x(d)5101520253035株高y(cm)259141925332.圖象法如散點(diǎn)圖、折線圖、曲線圖等。3.解析法如數(shù)學(xué)方程(數(shù)學(xué)模型)。5§1.2一元線性回歸一、一元線性回歸方程的建立設(shè)對兩變量x,y進(jìn)行n次試驗(yàn)后得n對觀測值(xi,yi),i=1,2,…,n。其散點(diǎn)圖呈線性,用近似線性方程表示,稱為y依x的直線回歸方程。???????(xi,yi)xixyyib0為截距,b為回歸系數(shù)(斜率)。它們應(yīng)使達(dá)到最小。6達(dá)到最小,由多元要使函數(shù)的極值定理,將Q分別對b0,b求一階偏導(dǎo)數(shù)并令其等于零得方程組整理得由(1)式得并代入(2)式得7整理得由(1)式得并代入(2)式得這種求b0、b的方法稱為最小二乘法,b0、b稱為最小二乘估計(jì)(LSE——leastsquareestimate)。8例1.1某作物的株高y(cm)與苗齡x(d)的試驗(yàn)結(jié)果如下表:苗齡x(d)5101520253035株高y(cm)25914192533解
xi=5+10+15+20+25+30+35=140試求株高y依苗齡x的回歸方程。
yi=2+5+9+14+19+25+33=107
xi2=52+…+352=3500
yi2=22+…+332=2381
xiyi=52+…+3533=2855
lxy=
xiyi–(xi)(yi)/n=2855-140107/7=715
lxx=
xi2–(xi)2/n=3500-1402/7=700
lyy=
yi2–(yi)2/n=2381-1072/7=745.439從而得回歸系數(shù)b=lxy/lxx=715/700=1.02因此得苗齡與株高的回歸方程為解
xi=5+10+15+20+25+30+35=140
yi=2+5+9+14+19+25+33=107
lxy=
xiyi–(xi)(yi)/n=2855-140107/7=715
lxx=
xi2–(xi)2/n=3500-1402/7=700
lyy=
yi2–(yi)2/n=2381-1072/7=745.4310二、一元線性回歸的數(shù)學(xué)模型設(shè)因變量y與自變量x的內(nèi)在聯(lián)系是線性的,當(dāng)做了n次試驗(yàn)后,得n組數(shù)據(jù)(xi,yi),i=1,2,…,n.滿足
yi=
0+xi+ei,i=1,2,…,n其中
0、
是未知參數(shù),稱為回歸系數(shù),x是一般變量,e1,…,en是相互獨(dú)立的隨機(jī)誤差,方差均為
2,數(shù)學(xué)期望為0的正態(tài)分布,即ei~N(0,
2)。這就是一元線性回歸的數(shù)學(xué)模型。簡記為11簡記為顯然yi~N(
0+xi,
2)可以證明:E(b0)=
0,E(b)=
,E(Q/(n-2))=
2,b0,b為
0,
的最小二乘估計(jì)。12檢驗(yàn)x與y之間是否存在顯著的線性關(guān)系,即檢驗(yàn)假設(shè)
H0:
=0,Ha:
0三、回歸關(guān)系的顯著性檢驗(yàn)1.回歸方程的檢驗(yàn)(方差分析)總平方和???????(xi,yi)xixyyi(交叉項(xiàng)的和等于0)=Q+u13其中=Q+u分別稱為剩余平方和與回歸平方和。Q=lyy-u=lyy-blxy.自由度fT=n-1,fu=1,fQ=n-2.它們的計(jì)算公式為14Q=lyy-u=lyy-blxy.自由度fT=n-1,fu=1,fQ=n-2.均方:在H0成立的條件下當(dāng)F≥F
(1,n-2)時,否定H0,即x與y存在顯著的線性關(guān)系;否則線性關(guān)系不顯著。15在上例中因?yàn)閘xy=715,lyy=745.43,b
=1.02自由度fT=n-1=7-1=6,fu=1,fQ=n-2=7-2=5.均方:所以回歸方程極顯著,即苗齡與株高有極顯著的線性關(guān)系??闪蟹讲罘治霰恚裕?。所以u=blxy=1.02715=729.3,
Q=lyy-u=745.43-729.3=16.1316對上例2.回歸系數(shù)的t檢驗(yàn)H0:
=0,Ha:
0在H0成立的條件下
當(dāng)|t|≥t/2(n-2)時,否定H0,即x與y存在顯著的線性關(guān)系;否則線性關(guān)系不顯著。故回歸系數(shù)極顯著,即苗齡與株高線性關(guān)系極顯著。173.一元線性回歸的SAS程序?qū)?.1的SAS程序如下:DATAex1_1;INPUTxy@@;CARDS;521051592014251930253533;PROCREG;MODELy=x;RUN;苗齡x(d)5101520253035株高y(cm)2591419253318方差分析與參數(shù)估計(jì)輸出結(jié)果:19PROCGPLOT;PLOTy*x;SYMBOLV=starI=RLCV=orangeCI=blue;RUN;其中:CV、CL—分別表示點(diǎn)的符號和回歸線的顏色上例作y關(guān)于x的回歸和散點(diǎn)圖。增加如下程序:2021當(dāng)所求回歸方程此值即為點(diǎn)預(yù)測(估計(jì))。另外還有區(qū)間預(yù)測(估計(jì)),其1-的置信區(qū)間為
四、預(yù)測問題
x=x0的值預(yù)測y的值,其預(yù)測值為顯著時,可對給定的其中(1)單個y(2)y的平均值22顯然,l越大,預(yù)測精度越低。預(yù)測區(qū)間長度為2l。當(dāng)x0
越遠(yuǎn)離,預(yù)測精度越低。原則上x0的取值要在試驗(yàn)范圍之內(nèi),即:x0[min{x1,…,xn},max{x1,…,xn}]如上例中,當(dāng)x=28時,y的1-0.05=95%的預(yù)測區(qū)間23如上例中,當(dāng)x=28時,y的1-0.05=95%的預(yù)測區(qū)間即當(dāng)苗齡為28天時,株高的95%預(yù)測區(qū)間為[18.56,28.28]厘米。SAS程序如下:24DATAex1_1;INPUTxy@@;CARDS;52105…353328.;PROCREG;MODELy=x/CLM;RUN;25§1.3相關(guān)分析(correlationanalysis)
一、相關(guān)系數(shù)兩個隨機(jī)變量X、Y之間的總體相關(guān)系數(shù)樣本相關(guān)系數(shù)26二、相關(guān)系數(shù)的性質(zhì)-1r1因?yàn)閞2稱為確定系數(shù)或決定系數(shù)。且u
lyy,所以當(dāng)|r|=1時,稱x與y完全相關(guān);當(dāng)r=0時,稱x與y不相關(guān);當(dāng)r>0時,稱x與y正相關(guān);當(dāng)r<0時,稱x與y負(fù)相關(guān)。注:r的符號與b的符號一致。上例27三、相關(guān)系數(shù)的檢驗(yàn)H0:
=0,Ha:
01.查表法由附表10,查相關(guān)系數(shù)臨界值表r
(fQ)。當(dāng)|r|≥r
(fQ)
時,拒絕H0,即x與y相關(guān)系數(shù)顯著。上例中,|r|=0.9898>r0.01(5)=0.874,所以x與y相關(guān)關(guān)系極顯著。2.t檢驗(yàn)法在H0
成立的條件下當(dāng)|t|≥t
/2(n-2)
時,拒絕H0,即x與y相關(guān)系數(shù)顯著。28注:1.對一元線性回歸與相關(guān)而言,F(xiàn)檢驗(yàn)、t檢驗(yàn)、相關(guān)系數(shù)r的檢驗(yàn),其檢驗(yàn)結(jié)果一致。2.
當(dāng)檢驗(yàn)結(jié)果為不顯著時,可能存在的原因:(1)x與y之間根本沒有關(guān)系,此時需要尋找影響y的其它變量;(2)x與y之間有關(guān)系,但不是線性關(guān)系,這時需要非線性回歸。29相關(guān)分析的SAS程序DATAex1_1;INPUTxy@@;CARDS;521051592014251930253533;PROCCORR;VARxy;RUN;30§1.4曲線回歸一、求曲線回歸方程的步驟1.
確定變量之間的函數(shù)類型(1)根據(jù)專業(yè)知識或理論推導(dǎo)或?qū)嵺`經(jīng)驗(yàn)確定;(2)根據(jù)散點(diǎn)圖的分布趨勢確定函數(shù)類型;(3)用多項(xiàng)式逼近。2.
確定方程(函數(shù))中的未知參數(shù)一般采用最小二乘法。若非線性函數(shù)能轉(zhuǎn)換成線性函數(shù),則可以用線性回歸求解;若不能化成線性函數(shù),則采用最優(yōu)化方法求解。31二、可化為線性模型的情況1.
指數(shù)函數(shù)例1.2棲霞果樹站測定了覆膜條件下,國光蘋果長枝的葉面積生長量,其前期數(shù)據(jù)如下表。試進(jìn)行回歸分析。解:由散點(diǎn)圖其函數(shù)類型為
y=kebx=ea+bx兩邊取自然對數(shù)lny=a+bx令y’=lny,則
y’=a+bx天數(shù)x(d)051015202530葉面積y(cm2)5.743.776.7102.3183.4225.1344.2x102030401002003004000???????y32x051015202530y’=lny1.7403.7774.3404.6285.2125.4175.841將原始數(shù)據(jù)(xi,yi)轉(zhuǎn)換為(xi,lnyi)=(xi,yi’),由(xi,yi’)求參數(shù)a、b,本例建立x與y’的線性回歸方程。
lxx=
xi2–(xi)2/n=2275-1052/7=700
lxy’=
xiyi’
–(xi)(yi’
)/n=546.5845-10531.0088/7=81.4525
ly’y’=
yi’2–(yi’)2/n=148.1672-31.00882/7=10.8035解:由散點(diǎn)圖其函數(shù)類型為y=kebx=ea+bx兩邊取自然對數(shù)lny=a+bx令y’=lny,則
y’=a+bx33
lxx=
xi2–(xi)2/n=2275-1052/7=700
lxy’=
xiyi’
–(xi)(yi’
)/n=546.5845-10531.0088/7=81.4525
ly’y’=
yi’2–(yi’)2/n=148.1672-31.00882/7=10.8035從而得回歸系數(shù)b=lxy’/lxx=81.4525/700=0.1163因此得回歸方程對此回歸方程檢驗(yàn)(F檢驗(yàn)、t檢驗(yàn)、r檢驗(yàn)任選其一即可)用相關(guān)系數(shù)r檢驗(yàn):34因此得回歸方程對此回歸方程檢驗(yàn)(F檢驗(yàn)、t檢驗(yàn)、r檢驗(yàn)任選其一即可)用相關(guān)系數(shù)r檢驗(yàn):查相關(guān)系數(shù)臨界值表r0.01(5)=0.8745|r|=0.9366>r0.01(5)=0.8745,所以x與y’相關(guān)關(guān)系極顯著。故x與y的回歸方程為35其SAS程序如下:dataex1_2;inputxy@@;yp=log(y);cards;05.7543.71076.715102.320183.425225.130344.2;procreg;modelyp=x;run;3637本例如果用二次多項(xiàng)式模型,則程序如下:datafive;inputxy@@;x2=x*x;cards;05.7543.710
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國小泥磚數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025至2030年中國吸聲墻面市場調(diào)查研究報(bào)告
- 2025年中國高堿值烷酸鈣清凈劑市場調(diào)查研究報(bào)告
- 2025━2030年新鮮方竹筍行業(yè)深度研究報(bào)告
- 2025━2030年中國鴨混合料項(xiàng)目投資可行性研究報(bào)告
- 2025-2035年全球及中國汽車噪聲振動和粗糙度材料行業(yè)市場發(fā)展現(xiàn)狀及發(fā)展前景研究報(bào)告
- 2024年中國室內(nèi)專用防水膠市場調(diào)查研究報(bào)告
- 2025年頭孢類抗菌藥物合作協(xié)議書
- 藥店實(shí)習(xí)工作總結(jié)
- 血友病性骨關(guān)節(jié)炎護(hù)理個案
- 《喜劇天賦提升》課件
- 第16課《青春之光》教學(xué)設(shè)計(jì) 2024-2025學(xué)年統(tǒng)編版語文七年級下冊
- 2025年哈爾濱幼兒師范高等??茖W(xué)校單招職業(yè)技能測試題庫1套
- 2025年湖南城建職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性測試題庫及答案一套
- 2025廣東省安全員A證考試題庫
- 2025年廣東深圳高三一模高考英語試卷試題(含答案詳解)
- 《酒店服務(wù)禮儀細(xì)節(jié)》課件
- 《建筑工程混凝土施工質(zhì)量控制課件》
- 2025-2030年中國煤炭行業(yè)發(fā)展動態(tài)及前景趨勢分析報(bào)告
- 工程機(jī)械租賃服務(wù)方案及保障措施投標(biāo)方案文件
- 2025年人工智能(AI)訓(xùn)練師職業(yè)技能鑒定考試題(附答案)
評論
0/150
提交評論