




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第十章 一元回歸及簡(jiǎn)單相關(guān)分析10.1 回歸與相關(guān)的基本概念10.2 一元線性回歸方程10.3 一元線性回歸的檢驗(yàn)10.4 一元非線性回歸10.5 相關(guān)一元線性回歸一元線性回歸多元線性回歸多元線性回歸回歸分析回歸分析數(shù)學(xué)模型及定義數(shù)學(xué)模型及定義*模型參數(shù)估計(jì)模型參數(shù)估計(jì)* *檢驗(yàn)、預(yù)測(cè)與控制檢驗(yàn)、預(yù)測(cè)與控制可線性化的一元非線可線性化的一元非線性回歸(曲線回歸性回歸(曲線回歸)數(shù)學(xué)模型及定義數(shù)學(xué)模型及定義*模型參數(shù)估計(jì)模型參數(shù)估計(jì)*多元線性回歸中的多元線性回歸中的檢驗(yàn)與預(yù)測(cè)檢驗(yàn)與預(yù)測(cè)逐步回歸分析逐步回歸分析10.1 回歸與相關(guān)的基本概念 生物界中,大量存在的情況是,一種變量受另一種變量的影響,兩
2、者之間既有關(guān)系,但又不存在完全確定的函數(shù)關(guān)系。知道其中一種關(guān)系,并不能精確求出另一變量。 如果對(duì)于變量X的每一個(gè)可能的值xi,都有隨機(jī)變量Y的一個(gè)分布相對(duì)應(yīng),則稱隨機(jī)變量Y對(duì)變量X存在回歸關(guān)系。X稱為自變量自變量,Y稱為因因變量變量。Y的條件平均數(shù)的條件平均數(shù): 當(dāng)X=xi時(shí)Y的平均數(shù)回歸問題:估計(jì)條件平均數(shù)相關(guān)關(guān)系相關(guān)關(guān)系: X和Y都是隨機(jī)變量,對(duì)于任一隨機(jī)變量的每一個(gè)可能的值,另一個(gè)變量都有一個(gè)確定的分布與之對(duì)應(yīng)xiXY.XY.10.2 一元線性回歸方程2.1 散點(diǎn)圖 散點(diǎn)圖散點(diǎn)圖: 用自變量X為橫軸,因變量Y為縱軸,在XY平面內(nèi)標(biāo)出這些點(diǎn)。 例:土壤內(nèi)NaCl含量對(duì)植物的生長(zhǎng)有很大的影響
3、,NaCl含量過高,將增加組織內(nèi)無機(jī)鹽的累積,抑制植物的生長(zhǎng)。表10-1中的數(shù)據(jù),是每1000g土壤中所含NaCl的不同克數(shù)(X),對(duì)植物單位葉面積干物重的影響(Y)。下頁(yè)圖10-1是用表中的7對(duì)數(shù)據(jù)所作出的散點(diǎn)圖。 干物重與NaCl含量間呈直線關(guān)系,但這些點(diǎn)并不在一條直線上。 若增加在每一NaCl含量下的觀測(cè)次數(shù),這種直線關(guān)系可以更明朗些。表10-2是每一NaCl含量下的10次重復(fù)值。 圖10-2是用以上數(shù)據(jù)繪成的散點(diǎn)圖??梢钥闯?,增加觀察次數(shù),求出每一處Y的平均數(shù),用這些平均數(shù)作出來的點(diǎn)比圖10-1中的7個(gè)散點(diǎn)更接近于直線。在散點(diǎn)圖上,只能作出少數(shù)有限個(gè)點(diǎn)。在點(diǎn)少的情況下,表示兩變量間關(guān)系
4、的直線可以畫出多條,哪一條最好呢?2.2一元正態(tài)線性回歸模型 若X是可控制的變量,在實(shí)驗(yàn)無限重復(fù)之后,則可以得到在各 上的Y的條件平均數(shù) ,這些平均數(shù)構(gòu)成一條直線: 10.1 其中為直線的截距,為斜率。10.1式的含義是,對(duì)于變量X的每一個(gè)值,都有一個(gè)Y的分布,這個(gè)分布的平均數(shù)是10.1式所給出的線性函數(shù)。Y的每一個(gè)分布的方差都必須是2,它完全獨(dú)立于X。對(duì)于每一個(gè)給定的X, Y始終服從正態(tài)分布。另外記為對(duì)于給定的X, Y的觀測(cè)值與直線 的離差。歸納為:ixYXXY.XY. 10.2 由10.2式所得出的回歸模型回歸模型,只包含一個(gè)自變量X且具有正態(tài)性,所以稱為一元正態(tài)一元正態(tài)線性回歸模型線性回
5、歸模型2.3參數(shù)和的估計(jì) 一般情況下,只能通過實(shí)驗(yàn)或調(diào)查獲得有限對(duì)數(shù)據(jù)。因些得不到真正的和 。只能求出它們的估計(jì)值a和b,從而得到一條估計(jì)的直線: (10.3) 用 ,即對(duì)每一個(gè)固定的X的值x0,用 做Y的總體平均數(shù) 的估計(jì)值。(10.3)式稱為Y對(duì)X的回歸方程回歸方程,根據(jù)回歸方程所畫出的直線稱為回歸線回歸線,b是直線的斜率,稱為回歸系數(shù)回歸系數(shù)。Y XY估計(jì)YabXY0Y Xx最小二乘法 平均數(shù)有一個(gè)特性,即在各種離差平方和中,以距離平均數(shù)的離差平方和最小。把觀測(cè)值與回歸估計(jì)值之間的離差平方和 達(dá)到最小時(shí)的回歸線作為最好的回歸線。即,求出使L達(dá)到最小時(shí)的a和b,這種方法稱為最小二乘法最小二
6、乘法。 21niiiLyy 為使 達(dá)到最小,令 整理得到: 整理后的式子稱為正規(guī)方程正規(guī)方程。 解正規(guī)方程,得到的最小二乘估計(jì):niiiniiniiniiniiyxxbxayxban112111niiiniiibxayyyL1212a的最小二乘估計(jì):其中 。 稱為校正交叉乘積和校正交叉乘積和,記為SXY 稱為校正平方和校正平方和,記為SXX。這樣,回歸系數(shù)b可以寫成還有,SYY稱為總校正平方和總校正平方和:為 niiniiiniiniininiiniiiixxyyxxnxxnyxyxb12121121112.4回歸方程的計(jì)算 例10.1:根據(jù)10-1的數(shù)據(jù),計(jì)算干物重在NaCl含量上的回歸方程
7、。將表10-1中的數(shù)據(jù)編碼后,整理成下表。 分別求出SXY,SXX,SYY 從而得到回歸方程為 回歸系數(shù)是b=11.16的含義是:當(dāng)自變量X每變動(dòng)一個(gè)單位,因變量Y平均變動(dòng)11.16個(gè)單位。下圖為該例的散點(diǎn)圖及回歸線。 10.3一元線性回歸的檢驗(yàn) 3.1 b和a的數(shù)學(xué)期望與方差 一元線性回歸實(shí)測(cè)值可以表示為: 因無得到真正的和,故每一實(shí)測(cè)值,只能由下式描述: 用a估計(jì),b估計(jì),iiiyxiiiyabxeiie估計(jì) 由于 ,故得到以上結(jié)果。由此可見,b是的無偏估計(jì)量。下面計(jì)算b的方差:XXXXniniiiiiniiXXniiiiXXniiiXXniiiiXXXXXYSSxxxxxxxESxxxE
8、SxxyESxxxESSSEbE11111)(111111 a的數(shù)學(xué)期望 a的方差 誤差平方和或剩余平方和222112)(2)2()(eeeXYYYniiiniieMSEnSSEnSSEbSSyyeSS從而有XXeaXXebSxnMSsaSMSsb2221)var()var(3.2 b和a的顯著性檢驗(yàn)1. b的顯著性檢驗(yàn) 兩變量間線性回歸的顯著程度,是由決定的。當(dāng)=0時(shí),兩變量不存在線性關(guān)系。由于b有自己的分布 ,在得到樣本回歸系數(shù)b之后,還必須對(duì)H0: =0的假設(shè)做檢驗(yàn)。如果不能拒絕H0: =0,就沒有足夠的理由認(rèn)為Y和X之間存在線性關(guān)系。這時(shí)的線性模型簡(jiǎn)化為 。因?yàn)闊o法得到 ,只能用 估計(jì)
9、,所以回歸系數(shù)的顯著性需用t檢驗(yàn)。零假設(shè)為H0: =0,備擇假設(shè)為0,使用的統(tǒng)計(jì)量為: 服從n-2自由度的t分布。因HA: 0,故為雙側(cè)檢驗(yàn),當(dāng) 時(shí),拒絕H0Y2b2bsbbts2,ntt雙側(cè)),(2XXSN例10.2:以例10.1的數(shù)據(jù)為例,檢驗(yàn) H0: =0 , HA: 0解:在 =0的假設(shè)下,檢驗(yàn)統(tǒng)計(jì)量計(jì)算MSe :t5,0.01(雙側(cè)) =4.032,tt0.01(雙側(cè)),即P0.01,拒絕H0: =0。結(jié)論是干物重在NaCl含量上的回歸極顯著。bbts對(duì)的檢驗(yàn),可使用統(tǒng)計(jì)量000:AHH自由度具有2,0ntbSb 2. a的顯著性檢驗(yàn)a的處理類似于b??梢詫?duì)的假設(shè)做檢驗(yàn),也可對(duì)的假設(shè)
10、做檢驗(yàn)。當(dāng)?shù)募僭O(shè)真實(shí)時(shí),模型將變?yōu)?。在的假設(shè)下,檢驗(yàn)統(tǒng)計(jì)量為:,具n-2自由度,在的假設(shè)下,檢驗(yàn)統(tǒng)計(jì)量為:,具n-2自由度0:0H00:HYXaats0aaats0:0H00:H3.3兩個(gè)回歸方程的比較使用t檢驗(yàn),還可以檢驗(yàn)假設(shè)H0:1-2=0和H0: 1-2=0。在對(duì)兩個(gè)回歸方程的b和a的差異顯著性檢驗(yàn)之后,就能判斷它們是否來自同一總體。若抽自同一總體,則可將它們合并為一個(gè)回歸方程。這一檢驗(yàn)過程稱為兩個(gè)回歸方程兩個(gè)回歸方程或兩條回歸線的比兩條回歸線的比較。較。 例10.6:在優(yōu)質(zhì)育種工作中,為了快速篩選優(yōu)良原始材料,采用染料結(jié)合(DBC)法測(cè)定種子中的堿性氨基酸含量。它的原理是:一種染料or
11、ange G與堿性氨基酸結(jié)合,使原來染料濃度降低。測(cè)定染料減少的量,來估計(jì)堿性氨基酸的含量。已經(jīng)計(jì)算出堿性氨基酸含量與DBC法測(cè)得結(jié)果之間有顯著回歸。實(shí)驗(yàn)測(cè)定了大麥和黑麥每千克試樣的染料結(jié)合力(DBC)與堿性氨基酸含量,結(jié)果見下頁(yè)表將以上數(shù)據(jù)計(jì)算的結(jié)果列成下表檢驗(yàn)兩回歸線有無顯著差異:(1)檢驗(yàn)MSe1和MSe2有無顯著差異 F5,6,0.025=5.99,F(xiàn)F0.025,結(jié)論是兩者有一共同的總體方差,它的估計(jì)值為:(2)檢驗(yàn)回歸系數(shù)b1和 b2有無顯著差異 檢驗(yàn)統(tǒng)計(jì)量 具(n1-2)+(n2-2)自由度。統(tǒng)計(jì)量的值t11,0.05(雙側(cè))=2.201,t0.05,結(jié)論是兩者有一共同的總體回歸
12、系數(shù),它的估計(jì)值b等于:(3)檢驗(yàn)a1,a2有無顯著差異: 檢驗(yàn)統(tǒng)計(jì)量 統(tǒng)計(jì)量t的值經(jīng)計(jì)算,為-2.52 t11,0.05(雙側(cè))=2.201,|t|t0.05(雙側(cè)),即 PF0.01,失擬是極顯著的。即采用雙曲線變換不能變?yōu)榫€性關(guān)系。第二種變換的失擬是很小的,基本上還是實(shí)驗(yàn)誤差。因此,對(duì)例10.13采用雙對(duì)數(shù)變換是適宜的。10.5 相關(guān) 5.1相關(guān)系數(shù) 概念:相關(guān)系數(shù)是指由于回歸因素所引起的變差與總變差之比的平方根。它用來衡量線性回歸的好壞。YX2Y)cov(X,總體相關(guān)系數(shù)樣本相關(guān)系數(shù)YYXXXYYYXXXYYYXYYYRSSSSSSSbSSSSr5.2 相關(guān)系數(shù)的性質(zhì)性質(zhì):r:取值在-
13、1和1之間YYeeYYXXXYXXXYYYXYYYeYYXXXYSSSrSSSSSSSSbSSSSSSSr1,22222所以因?yàn)?.當(dāng)r=0,點(diǎn)無規(guī)則分布,此時(shí)X與Y不相關(guān)2.當(dāng)|r|=1時(shí),點(diǎn)完全處于一條直線,X與Y線性相關(guān)3.當(dāng)|r|從0逐漸變到1時(shí),點(diǎn)的分布從無規(guī)則地分散逐漸聚攏到一條直線上。4.如果r為正數(shù),則X與Y有正比趨向,這時(shí)稱兩者為正相關(guān)。如果r為負(fù)數(shù),X與Y有反比趨向,稱兩者為負(fù)相關(guān)。5.3相關(guān)系數(shù)的計(jì)算 例10.14:研究水稻籽粒蛋白質(zhì)含量,用KP和DBC這兩種方法測(cè)得的結(jié)果如左下表,試計(jì)算兩者的相關(guān)系數(shù)從而相關(guān)系數(shù):兩種方法所測(cè)得的水稻籽粒蛋白質(zhì)含量之間存在正相關(guān),r=0
14、.9535.4相關(guān)系數(shù)的檢驗(yàn)1.相關(guān)系數(shù)顯著性的t檢驗(yàn)方法:當(dāng)總體相關(guān)系數(shù)=0時(shí),r的分布近似于正態(tài)分布,此時(shí)對(duì)于H0: =0可以采用類似于回歸系數(shù)的t檢驗(yàn)方法回歸系數(shù)顯著性檢驗(yàn)H0: =0 用的統(tǒng)計(jì)量為:其中:bbts這樣,用上式作為檢驗(yàn)相關(guān)系數(shù)顯著性的統(tǒng)計(jì)量,自由度為n-2,相應(yīng)于H0: =0 ,這里H0: =0 。例10.15:例10.14的相關(guān)系數(shù)r=0.953,n=10?,F(xiàn)要檢驗(yàn)用KP法和用DBC法所測(cè)定的蛋白質(zhì)含量間的相關(guān)是否顯著。 解: 檢驗(yàn)統(tǒng)計(jì)量 代入數(shù)值 結(jié)論:兩者相關(guān)極顯著。2.相關(guān)系數(shù)檢驗(yàn)表3. Z變換當(dāng)0時(shí),r的分布不是正態(tài)分布,不能用t檢驗(yàn),可用Fisher的z變換:rznnNzrrz1tanh(10.56).11ln21,31,12,)56.10(11ln21正切變換式所做的變換是反雙曲其中漸進(jìn)正態(tài)分布當(dāng)樣本容量充分大時(shí)變換后的z值可以直接從表中查出.因?yàn)閦漸進(jìn)正態(tài)分布, 已知,所以可以用u檢驗(yàn).1)z)57.10(3120:0:0nznzuHHzA檢驗(yàn)統(tǒng)計(jì)量為2)58.10(31212:0nnznzuHHmmzmmmAm檢驗(yàn)統(tǒng)計(jì)量為3)59.10(31311212:21212
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 氣管切開吸痰試題及答案
- 休克醫(yī)學(xué)考試題及答案
- 國(guó)際商業(yè)美術(shù)設(shè)計(jì)師學(xué)術(shù)成果試題及答案
- 哈爾濱??荚囶}及答案
- 環(huán)境可靠性試題及答案
- 教師心理健康試題及答案
- 如何通過實(shí)戰(zhàn)提升國(guó)際商業(yè)美術(shù)設(shè)計(jì)師考試成績(jī)與試題及答案
- 掌握助理廣告師考試核心內(nèi)容試題及答案
- 審計(jì)知識(shí)測(cè)試題及答案
- 監(jiān)委面試題目及答案
- 熱射病的防治與急救課件
- CATIAV5應(yīng)用教程-從機(jī)械設(shè)計(jì)到產(chǎn)品設(shè)計(jì)
- 小升初語(yǔ)文真題專項(xiàng)訓(xùn)練專題6+文學(xué)常識(shí)與名著閱讀(有解析)
- 新GCP醫(yī)療器械臨床試驗(yàn)知識(shí)試題(附含答案)
- 《支持向量機(jī)SVM》課件
- 生態(tài)環(huán)境分區(qū)管控總結(jié)與展望報(bào)告
- 雙人心肺復(fù)蘇術(shù)考核評(píng)分標(biāo)準(zhǔn)
- 樁基超聲波檢測(cè)服務(wù)投標(biāo)方案(技術(shù)方案)
- 傷口造口進(jìn)修匯報(bào)護(hù)理課件
- 《公路軟土地基路堤設(shè)計(jì)與施工技術(shù)細(xì)則》(D31-02-2013)【可編輯】
- 雷達(dá)原理(第6版) 課件全套 第1-9章 緒論、雷達(dá)發(fā)射機(jī)-高分辨力雷達(dá)
評(píng)論
0/150
提交評(píng)論