




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、-. z第九章回歸分析教學(xué)要求1一元線性回歸及線性相關(guān)顯著性的檢驗(yàn)法,利用線性回歸方程進(jìn)展預(yù)測。2可線性化的非線性回歸問題及簡單的多元線性回歸。本章重點(diǎn):理解線性模型,回歸模型的概念,掌握線性模型中參數(shù)估計(jì)的最小二乘法估計(jì)法。教學(xué)手段:講練結(jié)合課時(shí)分配:6課時(shí)9.1 一元線性回歸回歸分析是研究變量之間相關(guān)關(guān)系的一種統(tǒng)計(jì)推斷法。例如,人的血壓y與年齡*有關(guān),這里*是一個普通變量,y是隨機(jī)變量。Y與* 之間的相依關(guān)系f(*)受隨機(jī)誤差的干擾使之不能完全確定,故可設(shè)有:9.1式中f(*)稱作回歸函數(shù),為隨機(jī)誤差或隨機(jī)干擾,它是一個分布與*無關(guān)的隨機(jī)變量,我們常假定它是均值為0的正態(tài)變量。為估計(jì)未知的
2、回歸函數(shù)f(*),我們通過n次獨(dú)立觀測,得*與y的n對實(shí)測數(shù)據(jù)(*i,yi)i=1,n,對f(*)作估計(jì)。實(shí)際中常遇到的是多個自變量的情形。例如在考察*化學(xué)反響時(shí),發(fā)現(xiàn)反響速度y與催化劑用量*1,反響溫度*2,所加壓力*3等等多種因素有關(guān)。這里*1,*2,都是可控制的普通變量,y是隨機(jī)變量,y與諸*i間的依存關(guān)系受隨機(jī)干擾和隨機(jī)誤差的影響,使之不能完全確定,故可假設(shè)有:(9.2)這里是不可觀察的隨機(jī)誤差,它是分布與*1,*k無關(guān)的隨機(jī)變量,一般設(shè)其均值為0,這里的多元函數(shù)f(*1,*k)稱為回歸函數(shù),為了估計(jì)未知的回歸函數(shù),同樣可作n次獨(dú)立觀察,基于觀測值去估計(jì)f(*1,*k)。以下的討論中我
3、們總稱自變量*1,*2,*k為控制變量,y為響應(yīng)變量,不難想象,如對回歸函數(shù)f(*1,*k)的形式不作任何假設(shè),問題過于一般,將難以處理,所以本章將主要討論y和控制變量*1,*2,*k呈現(xiàn)線性相關(guān)關(guān)系的情形,即假定f(*1,*k)=b0+b1*1+bk*k。并稱由它確定的模型(9.1)(k=1)及(9.2)為線性回歸模型,對于線性回歸模型,估計(jì)回歸函數(shù)f(*1,*k)就轉(zhuǎn)化為估計(jì)系數(shù)b0、bi(i=1,k)。當(dāng)線性回歸模型只有一個控制變量時(shí),稱為一元線性回歸模型,有多個控制變量時(shí)稱為多元線性回歸模型,本著由淺入深的原則,我們重點(diǎn)討論一元的,在此根底上簡單介紹多元的。 一元線性回歸一、一元線性回
4、歸的數(shù)學(xué)模型前面我們曾提到,在一元線性回歸中,有兩個變量,其中*是可觀測、可控制的普通變量,常稱它為自變量或控制變量,y為隨機(jī)變量,常稱其為因變量或響應(yīng)變量。通過散點(diǎn)圖或計(jì)算相關(guān)系數(shù)判定y與*之間存在著顯著的線性相關(guān)關(guān)系,即y與*之間存在如下關(guān)系:y=a+b*+(9.3)通常認(rèn)為N(0,2)且假設(shè)2與*無關(guān)。將觀測數(shù)據(jù)(*i,yi)(i=1,n)代入(9.3)再注意樣本為簡單隨機(jī)樣本得: (9.4)稱(9.3)或(9.4)(又稱為數(shù)據(jù)構(gòu)造式)所確定的模型為一元(正態(tài))線性回歸模型。對其進(jìn)展統(tǒng)計(jì)分析稱為一元線性回歸分析。不難理解模型(9.4)中EY=a+b*,假設(shè)記y=E(Y),則y=a+b*,
5、就是所謂的一元線性回歸方程,其圖象就是回歸直線,b為回歸系數(shù),a稱為回歸常數(shù),有時(shí)也通稱a、b為回歸系數(shù)。我們對一元線性回歸模型主要討論如下的三項(xiàng)問題:(1) 對參數(shù)a,b和2進(jìn)展點(diǎn)估計(jì),估計(jì)量稱為樣本回歸系數(shù)或經(jīng)歷回歸系數(shù),而稱為經(jīng)歷回歸直線方程,其圖形相應(yīng)地稱為經(jīng)歷回歸直線。(2) 在模型(9.3)下檢驗(yàn)y與*之間是否線性相關(guān)。(3) 利用求得的經(jīng)歷回歸直線,通過*對y進(jìn)展預(yù)測或控制。二、a、b的最小二乘估計(jì)、經(jīng)歷公式現(xiàn)討論如何根據(jù)觀測值(*i,yi),i=1,2,n估計(jì)模型9.2中回歸函數(shù)f(*)=a+b*中的回歸系數(shù)。采用最小二乘法,記平方和(9.5)找使Q(a.b)到達(dá)最小的a、b作
6、為其估計(jì),即a.b為此,令化簡得如教材所示的方程組(稱為模型的正規(guī)方程)解得(9.6)(9.6)所示的分別稱為a、b的最小二乘估計(jì),式中稱為經(jīng)歷回歸(直線方程),或經(jīng)歷公式。例1 *種合成纖維的強(qiáng)度與其拉伸倍數(shù)有關(guān)。下表是24個纖維樣品的強(qiáng)度與相應(yīng)的拉伸倍數(shù)的實(shí)測記錄。試求這兩個變量間的經(jīng)歷公式。編號123456789101112拉伸倍數(shù)*1.92.02.12.52.72.73.53.54.04.04.54.6強(qiáng)度y (Mpa)1.41.31.82.52.82.53.02.74.03.54.23.5編號131415161718192021222324拉伸倍數(shù)*5.05.26.06.36.57.
7、18.08.08.99.09.510.0強(qiáng)度y (Mpa)5.55.05.56.46.05.36.57.08.58.08.18.1將觀察值(*i,yi),i=1,24在平面直角坐標(biāo)系下用點(diǎn)標(biāo)出,所得的圖稱為散點(diǎn)圖。從本例的散點(diǎn)圖看出,強(qiáng)度y與拉伸倍數(shù)*之間大致呈現(xiàn)線性相關(guān)關(guān)系,一元線性回歸模型是適用y與*的?,F(xiàn)用公式9.6求,這里n=24由此得強(qiáng)度y與拉伸倍數(shù)*之間的經(jīng)歷公式為三、最小二乘估計(jì)的根本性質(zhì)定理9.1一元線性回歸模型(9.4)中,a、b的最小二乘估計(jì)滿足:(1) (2) (3) 證:(1) 注意到對任意i=1,2,n有(2)利用,將表示為:(9.7)(9.8)由于y1,y2,yn相
8、互獨(dú)立,有定理9.1說明,a、b的最小二乘估計(jì)是無偏的,從(9.7),(9.8)還知道它們又是線性的,因此(9.5)所示的最小二乘估計(jì)分別是a、b的線性無偏估計(jì)。 建立回歸方程后進(jìn)一步的統(tǒng)計(jì)分析一、2的無偏估計(jì)由于2是誤差i(i=1,n)的方差,如果i能觀測,自然想到用來估計(jì),然而i是觀測不到的,能觀測的是yi.。由 (即Eyi的估計(jì)),就應(yīng)用殘差來估計(jì),因此,想到用 來估計(jì)2,我們希望得到無偏估計(jì),為此需求殘差平方和的數(shù)學(xué)期望,由定理9.2可推出(學(xué)員自驗(yàn))于是得為2的無偏估計(jì),例如9.1例1中即有定理9.2令,則。我們稱為標(biāo)準(zhǔn)誤差,它反映回歸直線擬合的程度。具體計(jì)算時(shí)可用。二、預(yù)測與控制1
9、、預(yù)測問題對于一元線性回歸模型9.9我們根據(jù)觀測數(shù)據(jù)(*i,yi),i=1,n,得到經(jīng)歷回歸方程,當(dāng)控制變量*取值*0*0*i,i=1,n,如何估計(jì)或預(yù)測相應(yīng)的y0呢?這就是所謂的預(yù)測問題,自然我們想到用經(jīng)歷公式,取來估計(jì)實(shí)際的,并稱為點(diǎn)估計(jì)或點(diǎn)預(yù)測。在實(shí)際應(yīng)用中,假設(shè)響應(yīng)變量y比擬難觀測,而控制變量*卻比擬容易觀察或測量,則根據(jù)觀測資料得到經(jīng)歷公式后,只要觀測*就能求得y的估計(jì)和預(yù)測值,這是回歸分析最重要的應(yīng)用之一,例如在9.1例1中,拉伸倍數(shù)*0=7.5,則可預(yù)測強(qiáng)度但是,上面這樣的估計(jì)用來預(yù)測y終究好不好呢?它的精度如何?我們希望知道誤差,于是就有考慮給出一個類似于置信區(qū)間的預(yù)測區(qū)間的想
10、法。定理9.3 對于一元(正態(tài))線性模型9.10有1 服從二元正態(tài)分布。(2) (3) 是相互獨(dú)立的隨機(jī)變量。證明:略又,我們知道y0是r.v,且與y1,y2,yn相互獨(dú)立,由定理9.3及定理9.2知,且由于y0與相互獨(dú)立(只與y1,yn有關(guān)),且y0N(a+b*0,2)由定理9.3知,與獨(dú)立,故T=9.11對于給定的置信水平1-,查自由度為n-2的T分布表可得滿足的臨界值ta根據(jù)不等式的恒等變形可得的置信度為1-的置信區(qū)間為:這就是的置信度為1-的預(yù)測區(qū)間,它是以為中心,長度為的區(qū)間,(記),區(qū)間的中點(diǎn)隨*0而線性變化,它的長度在處最短,*0越遠(yuǎn)離,預(yù)測區(qū)間的長度就越長。預(yù)則區(qū)間的上限與下限
11、落在關(guān)于經(jīng)歷回歸直線對稱的兩條曲線上,并是喇叭形。當(dāng)n較大,L*充分大時(shí), 可得y0的近似預(yù)測區(qū)間:9.12上式說明預(yù)測區(qū)間的長度,即預(yù)測的精度主要由確定,因此在預(yù)測中,是一個根本而重要的量。2、控制問題在實(shí)際應(yīng)用中往往還需要考慮預(yù)測的反問題,即要以不小于1-的概率將y0控制在(y1,y2),也就是使 相應(yīng)的*0應(yīng)控制在什么圍。這類問題稱為控制問題。根據(jù)前一段的討論,假設(shè)*0滿足9.13則可有因此控制問題一般是找滿足(9.13)的*0的圍。但求解很麻煩。一種近似的處理法是:由將a,b,2分別用其無偏估計(jì)代,有從而根據(jù)查N(0.1)分布表確定,于是y0的置信度1-的預(yù)測區(qū)間可近似認(rèn)為是要解決前述
12、問題可以從滿足:的*0去尋找*0的控制圍。顯然,當(dāng)時(shí),問題無解,否則方程組有解由此得*0的控制圍是(min(),ma*()三、線性相關(guān)的檢驗(yàn)前面的討論都是在假定y與*呈現(xiàn)線性相關(guān)關(guān)系的前提下進(jìn)展的,假設(shè)這個假定不成立,則我們建立的經(jīng)歷回歸直線方程也失去意義,為此必須對y與*之間的線性相關(guān)關(guān)系作檢驗(yàn),為解決這個問題,先作手:1、偏差平方和分解記,稱它為總偏差平方和,它反映數(shù)據(jù)yi的總波動,易得L有如下分解式:其中就是前面提到的殘差平方和,稱為回歸平方和,上式右邊的穿插項(xiàng):由上可知,U越大,Qe就越小,*與y間線性關(guān)系就越顯著;反之,*與y之間的線性關(guān)系越不顯著。于是,自然地考慮到檢驗(yàn)回歸方程是否
13、有顯著意義是考察U/Q的大小,其比值大,則L中U占的比重大,回歸方程有顯著意義,反之,無顯著意義。2、線性相關(guān)的F檢驗(yàn)根據(jù)上段的思想來構(gòu)造檢驗(yàn)統(tǒng)計(jì)量,先看下面的定理。定理9.4當(dāng)H0:b=0 成立時(shí) U/2(1),且Q與U相互獨(dú)立。證:當(dāng)H0成立時(shí),由Th2.1-1及Th2.2-2知, 于是由定理9.4,我們還知,且Q與相互獨(dú)立,從而Q與U=獨(dú)立,由上面的定理及F分布的構(gòu)造性定理知: 9.14因此可選它作檢驗(yàn)H0:b=0 的檢驗(yàn)統(tǒng)計(jì)量,當(dāng)H0為真時(shí)F的值不應(yīng)太大,故對選定的水平0,由P()=查F(1,n-2)分布表確定臨界值F1-分位數(shù),當(dāng)觀測數(shù)據(jù)代入(9.14)式算出的F值合FF1-時(shí),不能
14、承受H0,認(rèn)為建立的回歸方程有顯著意義。 檢驗(yàn)H0:經(jīng)歷公式無顯著意義(=0.05)選用由查表得F=4.30現(xiàn)計(jì)算F值由L=Lyy=117.95Q=L-U=5.6得因FF,所以拒絕H0,認(rèn)為所得的經(jīng)歷回歸方程有顯著意義。四、相關(guān)與回歸的區(qū)別與聯(lián)系1、聯(lián)系由前面的討論,有:得回歸平方和U=r2L殘差平方和 可見r2反映了回歸平方和在總偏差平方和中占的比重,該比重越大,誤差平方和在總偏差平方和中占的份量就越小。通常稱r2為擬合優(yōu)度系數(shù)。r就是變量*與y的積差相關(guān)系數(shù),另方面由 看出,在檢驗(yàn)y與*是否顯著線性相關(guān)時(shí),F(xiàn)檢驗(yàn)法與相關(guān)系數(shù)T檢驗(yàn)法等效。2、區(qū)別相關(guān)關(guān)系不說明因果關(guān)系,是雙向?qū)ΨQ的,在相關(guān)
15、分析中,對所討論的兩個變量或多個變量是平等對待的,相關(guān)系數(shù)r反映數(shù)據(jù)(*i,yi)所描述的散點(diǎn)對直線的靠攏程度。回歸分析中,變量在研究中地位不同,要求因變量(響應(yīng)變量)y是隨機(jī)變量,自變量一般是可控制的普通變量(當(dāng)然也可以是隨機(jī)的)。在回歸方程中,回歸系數(shù)只反映回歸直線的陡度,且它不是雙向?qū)ΨQ的。 一元非線性回歸前面討論的線性回歸問題,是在回歸模型為線性這一根本假定下給出的,然而在實(shí)用中還經(jīng)常碰到非線性回歸的情形,這里我們只討論可以化為線性回歸的非線性回歸問題,僅通過對*些常見的可化為線性回歸問題的討論來說明解決這類問題的根本思想和方法。一、曲線改直例1 煉綱過程中用來盛鋼水的鋼包,由于受鋼水
16、的浸蝕作用,容積會不斷擴(kuò)大。下表給出了使用次數(shù)和容積增大量的15對試驗(yàn)數(shù)據(jù):使用次數(shù)(*i)增大容積(yi)使用次數(shù)(*i)增大容積(yi)23456786.428.209.589.509.7010.009.939101112131415169.9910.4910.5910.6010.8010.6010.9010.76試求Y關(guān)于*的經(jīng)歷公式。解:首先要知道Y關(guān)于*的回歸函數(shù)是什么類型,我們先作散點(diǎn)圖。(見教材)從圖上看,開場浸蝕速度較快,然后逐漸減緩,變化趨勢呈雙曲線狀。因此可選取雙曲線:(設(shè)y與*之間具有如下雙曲線關(guān)系)(9.15)作為回歸函數(shù)的類型,即假設(shè)y與*滿足:(9.16)令,則(9
17、.15)變成.這是一種非線性回歸,先由*、y的數(shù)據(jù)取倒數(shù),可得,的數(shù)據(jù)(0.5000,0.1558),(0.0625,0.0929),對得到的15對新數(shù)據(jù),用最小二乘法可得:線性回歸方程 后,代回原變量得為y關(guān)于*的經(jīng)歷公式(回歸方程)在例1中,假設(shè)了y與*之間滿足雙曲線回歸模型,顯然這是一種主觀判斷,因此所求得的回歸曲線不一定是最正確的擬合曲線。在實(shí)用中,往往是選用不同的幾種曲線進(jìn)展擬合,然后分別計(jì)算相應(yīng)的殘差平方和(標(biāo)準(zhǔn)誤差)進(jìn)展比擬Qe(或)最小者為最優(yōu)擬合。二、常見可改直的曲線下面簡介一些可通過變量替換化為線性回歸的曲線回歸模型。1、雙曲線 作變換則回歸函數(shù)化為:y=a+b*2、冪函數(shù)
18、y=a*b(或y=a*-b) (b0) 對冪函數(shù)兩邊取對數(shù),作變換則有 3、指數(shù)函數(shù)y=aeb*或y=ae-b* (b0)兩邊取對數(shù)令 4、倒指數(shù)函數(shù)或 (b0,a0)兩邊取對數(shù)后作變換y,則有 5、對數(shù)函數(shù),y=a+b*作變換*,則有y=a+b.另外還有一些可化為線性回歸的曲線回歸,將在用spss作實(shí)習(xí)操作時(shí)一并介紹。例1(續(xù))由例1的散點(diǎn)圖看出,除雙曲線擬合外,本例還可選擇倒指數(shù)擬合:y=aeb/*兩邊取對數(shù)得:令,變?yōu)槿缦碌幕貧w問題:利用最小二乘法求得:=-1.1107,=2.4578因此回歸直線為:代回原變量得:經(jīng)計(jì)算雙曲線擬合時(shí) Q=1.4396 =0.3328,倒指數(shù)擬合時(shí)=0.2
19、168,故倒指數(shù)擬合效果更好些。9.2 多元線性回歸實(shí)際應(yīng)用中,很多情況要用到多元回歸的方法才能更好地描述變量間的關(guān)系,因此有必要在本節(jié)對多元線性回歸做一簡單介紹,就方法的實(shí)質(zhì)來說,處理多元的方法與處理一元的方法根本一樣,只是多元線性回歸的方法復(fù)雜些,計(jì)算量也大得多,一般都用計(jì)算機(jī)進(jìn)展處理。一、數(shù)學(xué)模型和回歸方程的求法。1、多元線性回歸的模型。設(shè)因變量y與自變量*1,*2,*k之間有關(guān)系式:(9.17)抽樣得n組觀測數(shù)據(jù):(y1;*11,*21,*k1)(y2;*12,*22,*k2)(yn;*1n,*2n,*kn)其中*ij是自變量*i的第j個觀測值,yj是因變量y的第j個值,代入9.17得
20、模型的數(shù)據(jù)構(gòu)造式:(9.18)我們稱(9.17)或(9.18)為k元正態(tài)線性回歸模型,其中b0,b1,bk及2都是未知待估的參數(shù),對k元線性模型,需討論的問題與一元時(shí)一樣。需要說明的幾點(diǎn)見教材2、未知參數(shù)的估計(jì)與一元時(shí)一樣,采用最小二乘法估計(jì)回歸系數(shù) b0,b1,bk. 稱使到達(dá)最小的為參數(shù)b0,b1,bk的最小二乘估計(jì),利用微積分知識,最小二乘估計(jì)就是如下方程組的解:(9.19)其中 通常稱方程組(9.19)為正規(guī)方程組,其中前k個方程的系數(shù)矩陣記為當(dāng)L*可逆時(shí),正規(guī)方程組(9.19)有解,便可得b0,b1,bk的最小二乘估計(jì) 即代入模型(9.18),略去隨機(jī)項(xiàng)得經(jīng)歷回歸方程為: (9.20
21、)類似一元可以證明 都是相應(yīng)的bi(i=0,1,k)的無偏估計(jì),且2的無偏估計(jì)為:二、回歸方程的顯著性檢驗(yàn)與一元的情形一樣,上面的討論是在y與*1,*k之間呈現(xiàn)線性相關(guān)的前提下進(jìn)展的,所求的經(jīng)歷方程是否有顯著意義,還需對y與諸*i間是否存在線性相關(guān)關(guān)系作顯著性假設(shè)檢驗(yàn),與一元類似,對是否有顯著意義,可通過檢驗(yàn)H0:b1=b2=bk=0為了找檢驗(yàn)H0的檢驗(yàn)統(tǒng)計(jì)量,也需將總偏差平方和Lyy作分解:(9.21)即L=U+Qe 其中L=Lyy,這里. 分別稱Qe,U為殘差平方和、回歸平方和,可以證明:利用柯赫倫定理可以證明:在H0成立下,且U與Qe相互獨(dú)立,所以有(9.22)(這里記Qe為Q,下同)取F作H0的檢驗(yàn)計(jì)量,對給定的水平,查F(k, n-k-1)分布表可得滿足的臨介值,由樣本觀測值代入(9.22)算出統(tǒng)計(jì)量F的觀測值,假設(shè)F,則不能承受H0,認(rèn)為所建的回歸方程有顯著意義。通過F檢驗(yàn)得到回歸方程有顯著意義,只能說明y與*1,*2,*k之間存在顯著的線性相關(guān)關(guān)系,衡量經(jīng)歷
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人工建筑勞務(wù)合同范本
- 入園合同范例
- 個人陶瓷采購合同范本
- 勞務(wù)派遣補(bǔ)充合同范本
- 切磚清工合同范本
- 光明果蔬配送合同范本
- 借款合同范本網(wǎng)上查詢
- 轉(zhuǎn)租飯店合同范本
- 凈化車間改造工程合同范本
- 會所會籍合同范本
- 潔凈室管理培訓(xùn)
- 城鎮(zhèn)詳細(xì)設(shè)計(jì)控制性詳細(xì)規(guī)劃
- 晶體學(xué)之晶體的宏觀對稱PPT課件
- 質(zhì)量管理體系過程識別矩陣圖及與條款對照表
- 加班調(diào)休單(最新版)
- 智慧金字塔立體篇第四冊、第五冊答案全解
- 導(dǎo)論公共財(cái)政學(xué)概論.ppt
- 2022年人力資源管理師課程表
- 夢中的婚禮鋼琴簡譜(共6頁)
- 新生兒心理的發(fā)生
- 2013八年級上英語培優(yōu)參考word
評論
0/150
提交評論