線性回歸推導(dǎo)及實(shí)例_第1頁
線性回歸推導(dǎo)及實(shí)例_第2頁
線性回歸推導(dǎo)及實(shí)例_第3頁
線性回歸推導(dǎo)及實(shí)例_第4頁
線性回歸推導(dǎo)及實(shí)例_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余5頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、X與Y的關(guān)系數(shù)據(jù)點(diǎn)基本落在一條直線附近。這告訴我們,變量X與Y的關(guān)系大致可看作是線性關(guān)系,即它們之間的相互關(guān)系可以用線性關(guān)系來描述。但是由于并非所有的數(shù)據(jù)點(diǎn)完全落在一條直線上,因此并沒有確切到可以唯一地由一個(gè)X值確定一個(gè)Y值的程度。其它因素,諸如其它微量元素的含量以及測(cè)試誤差等都會(huì)影響Y的測(cè)試結(jié)果。如果我們要研究X與Y的關(guān)系,可以作線性擬合我們稱(2-1-1)式為回歸方程,a與b是待定常數(shù),稱為回歸系數(shù)。從理論上講,(2-1-1)式有無窮多組解,回歸分析的任務(wù)是求出其最佳的線性擬合。二、最小二乘法原理如果把用回歸方程'=十雙計(jì)算得到的川i值(i=1,2,n)稱為回歸值,那么實(shí)際測(cè)量值y

2、i與回歸值i之間存在著偏差,我們把這種偏差稱為殘差,記為ei(i=1,2,3,n)。這樣,我們就可以用殘差平方和來度量測(cè)量值與回歸直線的接近或偏差程度。殘差平方和定義為:Q三0(祖=J卜當(dāng)月一跖喧京必厘方西)口(2-1-2)所謂最小二乘法,就是選擇a和b使Q(a,b)最小,即用最小二乘法得到的回歸直線?津,8工是在所有直線中與測(cè)量值殘差平方和值總是存在的。下面討論的三、正規(guī)方程組根據(jù)微分中求極值的方法可知,Q最小的一條。由(2-1-2)式可知Q是關(guān)于a,b的二次函數(shù),所以它的最小a和b的求法。Q(a,b)取得最小值應(yīng)滿足逗=oda3Q門-U(2-1-3)由(2-1-2)式,并考慮上述條件,則d

3、a=-2工仇-0占3匹=Q(2-1-4)(2-1-4)式稱為正規(guī)方程組。解這一方程組可得(2-1-5)其中(2-1-6)MH1HM£也-初%-刃=£%乂一2-1典i-12£七聞一的=春-(2-1-7)(2-1-8)(2-1-9)1-114儲(chǔ)1式中,Lxy稱為xy的協(xié)方差之和,Lxx稱為x的平方差之和。如果改寫(2-1-1)式,可得1P切一人k+&芯或y-y-x-x由此可見,回歸直線是通過點(diǎn)(亂了)的,即通過由所有實(shí)驗(yàn)測(cè)量值的平均值組成的點(diǎn)。從力學(xué)觀點(diǎn)看,(冗用即是n個(gè)散點(diǎn)(玉,辦)的重心位置?,F(xiàn)在我們來建立關(guān)于例1的回歸關(guān)系式。將表2-1-1的結(jié)果代入(2

4、-1-5)式至(2-1-7)式,得出a=1231.65b=-2236.63因此,在例1中灰鑄鐵初生奧氏體析出溫度(y)與氮含量(x)的回歸關(guān)系式為y=1231.65-2236.63x四、一元線性回歸的統(tǒng)計(jì)學(xué)原理如果X和Y都是相關(guān)的隨機(jī)變量,在確定x的條件下,對(duì)應(yīng)的y值并不確定,而是形成一個(gè)分布。當(dāng)取確定的值時(shí),Y的數(shù)學(xué)期望值也就確定了,因此Y的數(shù)學(xué)期望是x的函數(shù),即E(Y|x=x)=f(x)(2-1-10)這里方程f(x)稱為Y對(duì)X的回歸方程。如果回歸方程是線性的,則E(Y|X=x)=a+3x(2-1-11)或Y=a+3x+e(2-1-12)其中£一隨機(jī)誤差從樣本中我們只能得到關(guān)于特

5、征數(shù)的估計(jì),并不能精確地求出特征數(shù)。因此只能用f(x)的估計(jì)式y(tǒng)a門工來取代(2-1-11)式,用參數(shù)a和b分別作為“和3的估計(jì)量。那么,這兩個(gè)估計(jì)量是否能夠滿足要求呢?1 .無偏性把(x,y)的n組觀測(cè)值作為一個(gè)樣本,由樣本只能得到總體參數(shù)“和3的估計(jì)值。可以證明,當(dāng)滿足下列條件:(1)(xi,yi)是n個(gè)相互獨(dú)立的觀測(cè)值(2)是服從"也”)分布的隨機(jī)變量則由最小二乘法得到的a與b分別是總體參數(shù)“和3的無偏估計(jì),即E(a)=aE(b)=3由此可推知AE()=E(y)即y是回歸值在某點(diǎn)的數(shù)學(xué)期望值。2 .a和b的方差可以證明,當(dāng)n組觀測(cè)值(xi,yi)相互獨(dú)立,并且D(yi尸(y2,

6、時(shí),a和b的方差為。電二哈(2-113)口-Lpf同方"%n(2-1-14)以上兩式表明,a和b的方差均與Xi的變動(dòng)有關(guān),Xi分布越寬,則a和b的方差越小。另外a的方差還與觀測(cè)點(diǎn)的數(shù)量有關(guān),數(shù)據(jù)越多,a的方差越小。因此,為提高估計(jì)量的準(zhǔn)確性,Xi的分布應(yīng)盡量寬,觀測(cè)點(diǎn)數(shù)量應(yīng)盡量多。建立多元線性回歸方程,實(shí)際上是對(duì)多元線性模型(2-2-4)進(jìn)行估計(jì),尋求估計(jì)式(2-2-3)的過程。與一元線性回歸分析相同,其基本思想是根據(jù)最小二乘原理,求解力產(chǎn)使全部觀測(cè)值用與回歸值H的殘差平方和達(dá)到最小值。由于殘差平方和Q力-珀3,力北一(44瓦西1+如豆+40)廣1-1J(2-2-5)是包劣凡的非負(fù)二

7、次式,所以它的最小值一定存在。根據(jù)極值原理,當(dāng)Q取得極值時(shí),稀/卜上,應(yīng)滿足由(2-2-5)式,即滿足,乂+%由+3%)卜口i-1見習(xí)力一小十包。十%十%。)*=0U1+/%+%和)%=0一ZfM一色十仇。十%玉十%)5=。(2-2-6)U-i(2-2-6)式稱為正規(guī)方程組。它可以化為以下形式HX*叫十(20也十(2?揖尹川十(工當(dāng)bHri-lUL睥.JBRRDm十(工再;曲十£天-十01,電=工碣乂i-li-Ji-li-i:肅X-M(£%泡十(£%鼻溝十(Z%玉,泡十十但片)=受與凹(2-2-7)i-li-li>li-li-l如果用A表示上述方程組的系數(shù)矩

8、陣可以看出A是對(duì)稱矩陣。則有(2-2-8)式中X是多元線性回歸模型中數(shù)據(jù)的結(jié)構(gòu)矩陣,比'是結(jié)構(gòu)矩陣X的轉(zhuǎn)置矩陣。(2-2-7)式右端常數(shù)項(xiàng)也可用矩陣D來表示因此(2-2-7)式可寫成(2-2-9)(2-2-10)(2-2-11)Ab=D或(xxyb-XY如果A滿秩(即A的行列式*)那么A的逆矩陣A1存在,則由(2-10)式和(2-11)式得/的最小二乘估計(jì)為(2-2-12)b=/”£>=五幻7里¥也就是多元線性回歸方程的回歸系數(shù)。為了計(jì)算方便往往并不先求(無幻“,再求b,而是通過解線性方程組(2-2-7)來求bo(2-2-7)是一個(gè)有p+1個(gè)未知量的線性方程組

9、,它的第一個(gè)方程可化為(2-2-13)瓦一了一瓦司一與片&網(wǎng)式中1x=-X'八12邛盟2-1(2-2-14)將(2-2-13)式代入(2-2-7)式中的其余各方程,得上他十工1也十十上1/7=%2A+4向+4%=474al十/與十十上浮%=上期(2-2-15)其中上聲=工%-弓)(弧-冗)=-(工叼)(£%)2-11-1#i-1國(guó)龍程超J=工函-用)3-于)=工再涓-(工際立卬、用】?jī)?nèi)儲(chǔ)15(2-2-16)將方程組(2-2-15)式用矩陣表示,則有Lb=F(2-2-17)其中于是b=L-1F(2-2-18)因此求解多元線性回歸方程的系數(shù)可由(2-2-16)式先求出L,

10、然后將其代回(2-2-17)式中求解。求b時(shí),可用克萊姆法則求解,也可通過高斯變換求解。如果把b直接代入(2-2-18)式,由于要先求出L的逆矩陣,因而相對(duì)復(fù)雜一些。例2-2-1表2-2-1為某地區(qū)土壤內(nèi)含植物可給態(tài)磷(y)與土壤內(nèi)所含無機(jī)磷濃度(X1)、土壤內(nèi)溶于K2CO溶液并受澳化物水解的有機(jī)磷濃度(x2)以及土壤內(nèi)溶于&CQ溶液但不溶于澳化物的有機(jī)磷(x3)的觀察數(shù)據(jù)。求y對(duì)X1,X2,X3的線性回歸方程。表2-2-1土壤含磷情況觀察數(shù)據(jù)樣本序號(hào)土堞中含碟星ppm土漂中植梭可給態(tài)-y白卬Y03q,邦Eri心10.4JZ153£420.42/163603工.1S377J4

11、061刀61547.4五耳461.7心J2j77191H6£1R101幻1P消911C然173931Q125%1125111io.y3711:7b1223.14C11406n制1snP4?71421(5gY汨1523.1561639516q3614<415八產(chǎn)o4U.O5E20215S1£29.95199計(jì)算如下:1X行=-=11,944盟1X禹二=42.11川M1片自三一=123.。wM*y=-yyj=81.278由(2-2-16)式X&L工(仙-見)(4-網(wǎng))=H52.96S-1工(福一第1)(。一五)=10X561-L212-1%三-凡)(%=1200=

12、4i-)小£(孫-石)5力-方)-1752963-11-2(。-石乂迎-心卜3364-&U143=26一-居)三35572U1£心25廿一五)5,一記3231一48i-LH-W(yi-y)-2216.44i-1%三£(七和色一四三8931-1代入(2-2-15)式得75Z966&十10£5一6仍3十120。%=32314S1085.61+315578%+3364-2216.44(2-2-19)其中若用克萊姆法則解上述方程組,則其解為233Q-23zzZ1111i3TLLITL1-A-3IT(2-2-20)J2O0It!+3364d2+35

13、572d=733計(jì)算得bi=1.7848,b2=-0.0834,b3=0.1611回歸方程為A三y_-%弓-冬片三J3.67y=43.67+1.784甌-0.0834%+0.1611/應(yīng)用克萊姆法則求解線性方程組計(jì)算量偏大,下面介紹更實(shí)用的方法一一高斯消去法和消去變換。在上一節(jié)所介紹的非線性回歸分析,首先要求我們對(duì)回歸方程的函數(shù)模型做出判斷。雖然在一些特定的情況下我們可以比較容易地做到這一點(diǎn),但是在許多實(shí)際問題上常常會(huì)令我們不知所措。根據(jù)高等數(shù)學(xué)知識(shí)我們知道,任何曲線可以近似地用多項(xiàng)式表示,所以在這種情況下我們可以用多項(xiàng)式進(jìn)行逼近,即多項(xiàng)式回歸分析。一、多項(xiàng)式回歸方法假設(shè)變量y與x的關(guān)系為p次

14、多項(xiàng)式,且在Xi處對(duì)y的隨機(jī)誤差邑(i=1,2,n)服從正態(tài)分布N(0,次),則y產(chǎn)尻+回%+昆短+%蟆+號(hào)Q3切令2PXil=Xi,Xi2=Xi,,Xip=Xi則上述非線性的多項(xiàng)式模型就轉(zhuǎn)化為多元線性模型,即距回+01殉+昆蟲外%十務(wù)(24電(i=12城這樣我們就可以用前面介紹的多元線性回歸分析的方法來解決上述問題了。其系數(shù)矩陣、結(jié)構(gòu)矩陣、常數(shù)項(xiàng)矩陣分別為A=XfX-工看工工:3(2-4-11)(2-4-13)(2-4-14)X的j次項(xiàng)x對(duì)y是否有顯著(2-4-15)回歸方程系數(shù)的最小二乘估計(jì)為需要說明的是,在多項(xiàng)式回歸分析中,檢驗(yàn)bj是否顯著,實(shí)質(zhì)上就是判斷影響。對(duì)于多元多項(xiàng)式回歸問題,也

15、可以化為多元線性回歸問題來解決。例如,對(duì)于乂二回中小陽1+四2儲(chǔ)十區(qū)2彳+乩2,i工迫十+令Xi1=Zi1,Xi2=Zi2,Xi3=Zi12,Xi4=ZlZ2,Xi5=Z22則(2-4-15)式轉(zhuǎn)化為Xi=A+色七十£平日十十號(hào)轉(zhuǎn)化后就可以按照多元線性回歸分析的方法解決了。下面我們通過一個(gè)實(shí)例來進(jìn)一步說明多項(xiàng)式回歸分析方法。一、應(yīng)用舉例例2-4-2某種合金中的主要成分為元素A和B,試驗(yàn)發(fā)現(xiàn)這兩種元素之和與合金膨脹系數(shù)之間有一定的數(shù)量關(guān)系,試根據(jù)表2-4-3給出的試驗(yàn)數(shù)據(jù)找出y與X之間的回歸關(guān)系。y137.03.40237.5E00313S.03.0043區(qū)52.27539.02.10

16、639,51.83740.01.5384。.51.70941.01.8Q1041.51.901142.02.351242.52.541343.02.90表2-4-3例2-4-2試驗(yàn)數(shù)據(jù)首先畫出散點(diǎn)圖(圖2-4-3)。從散點(diǎn)圖可以看出,y與x的關(guān)系可以用一個(gè)二次多項(xiàng)式來描述:乂二鳳十戶內(nèi)十瓦工;十片i=1,2,3,13圖2-4-3例2-4-2的散點(diǎn)圖令Xil=Xi,Xi2=Xi;M三A十£1/1+/與公?十J2-4-3給現(xiàn)在我們就可以用本篇第二章介紹的方法求出慶慶慶的最小二乘估計(jì)。由表出的數(shù)據(jù),求出笈=40房=16035=23323由(2-2-16)式1占口=£(網(wǎng)再/=消1

17、32513U1X%-W時(shí)-用)5匕-%)-3640i-1iji-in-3640%=2-刃"-4時(shí)UL%二工6一弓)3-歹)=-3的530=2-XIs=42212i-i由此可列出二元線性方程組產(chǎn)5次+364%-4.871364+291525.13=-3斃期將這個(gè)方程組寫成矩陣形式,并通過初等變換求bi,b2和系數(shù)矩陣L的逆矩陣L-1:f、(455364。-487101i364029132513-3688301H0-13J85451.125-0639328101016598-0.639337991db/于是bi=-13.3854b2=0.16598b0=2.3323+13.3854:40-0.1659811603.5=271.599因此fi=271.599-13.3854x+0.16598a下面對(duì)回歸方程作顯著性檢驗(yàn):由(2-2-43)式£斗4=3,網(wǎng)。S回=1由(2-2-42)式42212S殘=Lyy-S回=0.2572將上述結(jié)果代入表2-2-2中制成方差分析表如下:表2-4-4方差分析表沖方和自由度均方F

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論