方差分析與回歸分析課件_第1頁
方差分析與回歸分析課件_第2頁
方差分析與回歸分析課件_第3頁
方差分析與回歸分析課件_第4頁
方差分析與回歸分析課件_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、8.4 一元線性回歸 8.4.1 變量間的兩類關(guān)系 十九世紀(jì),英國生物學(xué)家兼統(tǒng)計(jì)學(xué)家高爾頓研究發(fā)現(xiàn): 其中x表示父親身高, y 表示成年兒子的身高(單位:英寸,1英寸=2.54厘米)。這表明子代的平均高度有向中心回歸的意思,使得一段時間內(nèi)人的身高相對穩(wěn)定。之后回歸分析的思想滲透到了數(shù)理統(tǒng)計(jì)的其它分支中。 第1頁,共35頁。 回歸分析便是研究變量間相關(guān)關(guān)系的一門學(xué)科。它通過對客觀事物中變量的大量觀察或試驗(yàn)獲得的數(shù)據(jù),去尋找隱藏在數(shù)據(jù)背后的相關(guān)關(guān)系,給出它們的表達(dá)形式回歸函數(shù)的估計(jì)。 變量間的相關(guān)關(guān)系不能用完全確切的函數(shù)形式表示,但在平均意義下有一定的定量關(guān)系表達(dá)式,尋找這種定量關(guān)系表達(dá)式就是回歸

2、分析的主要任務(wù)。 回歸分析處理的是變量與變量間的關(guān)系。變量間常見的關(guān)系有兩類:確定性關(guān)系與相關(guān)關(guān)系。第2頁,共35頁。 8.4.2 一元線性回歸模型 設(shè)y與x間有相關(guān)關(guān)系,稱x為自變量(預(yù)報變量),y為因變量(響應(yīng)變量),在知道x取值后,y有一個分布p(yx),我們關(guān)心的是y的均值E(Yx): (8.4.1) 這便是y關(guān)于x的理論回歸函數(shù)條件期望,也就是我們要尋找的相關(guān)關(guān)系的表達(dá)式。 通常,相關(guān)關(guān)系可用下式表示 y =f (x)+ 其中是隨機(jī)誤差,一般假設(shè) N(0, 2)。 第3頁,共35頁。 例8.4.1 合金的強(qiáng)度y (107Pa) 與合金中碳的含量x (%) 有關(guān)。為研究兩個變量間的關(guān)系

3、。首先是收集數(shù)據(jù),我們把收集到的數(shù)據(jù)記為(xi,yi),i=1,2,n。本例中,我們收集到12組數(shù)據(jù),列于表8.4.1中 進(jìn)行回歸分析首先是回歸函數(shù)形式的選擇。當(dāng)只有一個自變量時,通??刹捎卯嬌Ⅻc(diǎn)圖 的方法進(jìn)行選擇。第4頁,共35頁。表8.4.1 合金鋼強(qiáng)度y與碳含量x的數(shù)據(jù) 序號x(%)y (107Pa)序號x(%)y (107Pa)10.1042.070.1649.020.1143.080.1753.030.1245.090.1850.040.1345.0100.2055.050.1445.0110.2155.060.1547.5120.2360.0第5頁,共35頁。 為找出兩個量間存在的

4、回歸函數(shù)的形式,可以畫一張圖:把每一對數(shù)(xi,yi)看成直角坐標(biāo)系中的一個點(diǎn),在圖上畫出n個點(diǎn),稱這張圖為散點(diǎn)圖,見圖8.4.1 第6頁,共35頁。 從散點(diǎn)圖我們發(fā)現(xiàn)12個點(diǎn)基本在一條直線附近,這說明兩個變量之間有一個線性相關(guān)關(guān)系,這個相關(guān)關(guān)系可以表示為 y =0+ 1x+ (8.4.2) 這便是y關(guān)于x的一元線性回歸的數(shù)據(jù)結(jié)構(gòu)式。通常假定 E() =0, Var() = 2 (8.4.3) 在對未知參數(shù)作區(qū)間估計(jì)或假設(shè)檢驗(yàn)時,還需要假定誤差服從正態(tài)分布,即 y N(0+ 1x, 2 ) (8.4.4) 顯然,假定(8.4.4) 比 (8.4.3) 要強(qiáng)。 第7頁,共35頁。 由于 0, 1

5、均未知,需要我們從收集到的數(shù)據(jù)(xi,yi),i=1,2,n,出發(fā)進(jìn)行估計(jì)。在收集數(shù)據(jù)時,我們一般要求觀察獨(dú)立地進(jìn)行, 即假定y1, y2, yn,相互獨(dú)立。綜合上述諸項(xiàng)假定,我們可以給出最簡單、常用的一元線性回歸的數(shù)學(xué)模型: (8.4.5) 第8頁,共35頁。 由數(shù)據(jù)(xi,yi),i=1,2,n,可以獲得0, 1的估計(jì) ,稱 (8.4.6) 為y關(guān)于x的經(jīng)驗(yàn)回歸函數(shù),簡稱為回歸方程,其圖形稱為回歸直線。給定x=x0后, 稱 為回歸值(在不同場合也稱其為擬合值、預(yù)測值)。 第9頁,共35頁。8.4.3 回歸系數(shù)的最小二乘估計(jì) 一般采用最小二乘方法估計(jì)模型(8.4.5)中的0, 1 :令: 應(yīng)

6、該滿足 稱這樣得到的 稱為0, 1的最小二乘估計(jì),記為LSE。 第10頁,共35頁。 最小二乘估計(jì)可以通過求偏導(dǎo)數(shù)并命其為0而得到: (8.4.7) 這組方程稱為正規(guī)方程組,經(jīng)過整理,可得 (8.4.8) 第11頁,共35頁。解(8.4.8)可得 (8.4.9)這就是參數(shù)的最小二乘估計(jì),其中 第12頁,共35頁。表8.4.2 例8.4.2的計(jì)算表 xi=1.90n=12yi=590.5xi2=0.3194xi yi =95.9250yi2=29392.75lxx=0.0186lxy=2.4292lyy=335.2292由此給出回歸方程為: 例8.4.2 使用例8.4.1種合金鋼強(qiáng)度和碳含量 數(shù)

7、據(jù),我們可求得回歸方程,見下表. 第13頁,共35頁。 定理8.4.1 在模型(8.4.5)下,有 (1) (2) (3)對給定的x0,關(guān)于最小二乘估計(jì)的一些性質(zhì)羅列在如下定理之中 第14頁,共35頁。定理8.4.1 說明 分別是0, 1的無偏估計(jì); 是E(y0)=0+ 1 x0的無偏估計(jì); 除 外, 與 是相關(guān)的; 要提高 的估計(jì)精度(即降低它們的方 差)就要求n大,lxx大(即要求x1, x2, xn較 分散)。 第15頁,共35頁。8.4.4 回歸方程的顯著性檢驗(yàn) 在使用回歸方程作進(jìn)一步的分析以前,首先應(yīng)對回歸方程是否有意義進(jìn)行判斷。 如果1=0,那么不管x如何變化,E(y)不隨x的變化

8、作線性變化,那么這時求得的一元線性回歸方程就沒有意義,稱回歸方程不顯著。如果10,E(y)隨x的變化作線性變化,稱回歸方程是顯著的。 綜上,對回歸方程是否有意義作判斷就是要作如下的顯著性檢驗(yàn):H0:1=0 vs H1: 10 拒絕H0表示回歸方程是顯著的。第16頁,共35頁。一、F 檢驗(yàn) 采用方差分析的思想,我們從數(shù)據(jù)出發(fā)研究各yi不同的原因。 數(shù)據(jù)總的波動用總偏差平方和 表示。引起各yi不同的原因主要有兩個因素:其一是H0可能不真,E(y)隨x的變化而變化,從而在每一個x的觀測值處的回歸值不同,其波動用回歸平方和 表示;其二是其它一切因素,包括隨機(jī)誤差、x對E(y)的非線性影響等,這可用殘差

9、平方和 表示。 且有如下平方和分解式: ST= SR + Se (8.4.13) 在一元線性回歸中有三種等價的檢驗(yàn)方法,下面分別加以介紹。第17頁,共35頁。定理8.4.2 設(shè)yi=i+ 1 xi + i,其中i n相互獨(dú)立, 且Ei=0,Var(yi)= 2,i=1,n,沿用上面的記號,有 (8.4.14) (8.4.15) 這說明 是 2的無偏估計(jì)。 關(guān)于SR 和 Se所含有的成分可由如下定理說明。 第18頁,共35頁。進(jìn)一步,有關(guān)SR 和 Se的分布,有如下定理。 定理8.4.3 設(shè) y1, y2, yn 相互獨(dú)立,且 yiN(i + 1 xi , 2), i=1, , n, 則在上述記

10、號下,有 (1)Se / 2 2(n2), (2)若H0成立,則有SR / 2 2(1) (3) SR與Se , 獨(dú)立(或 與Se , 獨(dú)立)。 第19頁,共35頁。 如同方差分析那樣,我們可以考慮采用F比作為檢驗(yàn)統(tǒng)計(jì)量: 在1 =0時,F(xiàn)F(1, n2),其中fR =1, fe =n2. 對于給定的顯著性水平,拒絕域?yàn)?F F1-(1, n2) 整個檢驗(yàn)也可列成一張方差分析表。 第20頁,共35頁。來源平方和自由度均方和F比回歸SR =317.2589fA=1MSA=317.2589176.55殘差Se =17.9703fe=10MSe= 1.79703總和ST =335.2292fT=11

11、例8.4.3 在合金鋼強(qiáng)度的例8.4.2中,我們已求出了回歸方程,這里我們考慮關(guān)于回歸方程的顯著性檢驗(yàn)。經(jīng)計(jì)算有 若取=0.01,則F0.99(1,10) =103.1698,因此,在顯著性水平0.01下回歸方程是顯著的。 第23頁,共35頁。 三、相關(guān)系數(shù)檢驗(yàn) 一元線性回歸方程是反映兩個隨機(jī)變量x與y間的線性相關(guān)關(guān)系,它的顯著性檢驗(yàn)還可通過對二維總體相關(guān)系數(shù)的檢驗(yàn)進(jìn)行。它的一對假設(shè)是 H0:=0 vs H1: 0 (8.4.18) 所用的檢驗(yàn)統(tǒng)計(jì)量為樣本相關(guān)系數(shù) (8.4.19) 拒絕域?yàn)閃=rc,其中臨界值c應(yīng)是H0: =0成立下r的分布的1 分位數(shù),故記為c=r1- (n2). 第24頁

12、,共35頁。 由樣本相關(guān)系數(shù)的定義可以得到 r與F統(tǒng)計(jì)量之間的關(guān)系 這表明, r是F的嚴(yán)格單調(diào)增函數(shù),故可以從F分布的1 分位數(shù) F1-(1, n2) 得到 r 的1 分位數(shù)為第25頁,共35頁。 譬如,對 =0.01,n=12, F0.99(1,10)=10.04 ,于是 。 為實(shí)際使用方便,人們已對r1- (n-2)編制了專門的表,見附表9。 以例8.4.2中數(shù)據(jù)為例,可以計(jì)算得到 若取 =0.01,查附表9知 r0.99(10)=0.708, 由于0.97280.708,因此,在顯著性水平0.01下回歸方程是顯著的。 第26頁,共35頁。 在一元線性回歸場合,三種檢驗(yàn)方法是等價的:在相同

13、的顯著性水平下,要么都拒絕原假設(shè),要么都接受原假設(shè),不會產(chǎn)生矛盾。 F 檢驗(yàn)可以很容易推廣到多元回歸分析場合,而其他二個則否,所以,F(xiàn)檢驗(yàn)是最常用的關(guān)于回歸方程顯著性檢驗(yàn)的檢驗(yàn)方法。第27頁,共35頁。 8.4.5 估計(jì)與預(yù)測 當(dāng)回歸方程經(jīng)過檢驗(yàn)是顯著的后,可用來做估計(jì)和預(yù)測。這是二個不同的問題: (1)當(dāng)x=x0時,尋求均值E(y0)=0+ 1 x0的點(diǎn)估計(jì)與區(qū)間 估計(jì)(注意這里E(y0)是常量)是估計(jì)問題; (2)當(dāng)x=x0時,y0的觀察值在什么范圍內(nèi)?由于y0是隨機(jī) 變量,為此只能求一個區(qū)間,使y0落在這一區(qū)間的概 率為1- ,即要求,使 稱區(qū)間 為y0的概率為1- 的預(yù)測區(qū)間, 這是預(yù)

14、測問題。 第28頁,共35頁。一、 E(y0)的估計(jì) 在x=x0時,其對應(yīng)的因變量y0是一個隨機(jī)變量,有一個分布,我們經(jīng)常需要對該分布的均值給出估計(jì)。由于E(y0)=0+ 1 x0,一個直觀的估計(jì)應(yīng)為 我們習(xí)慣上將上述估計(jì)記為 (注意這里 表示的是E(y0)的估計(jì),而不表示y0的估計(jì),因?yàn)閥0是隨機(jī)變量,它是沒有估計(jì)的)。由于 分別是0, 1的無偏估計(jì),因此, 也是E(y0)的無偏估計(jì)。 第29頁,共35頁。 為得到E(y0)的區(qū)間估計(jì),我們需要知道 的分布。由定理8.4.1, 又由定理8.4.3知, Se / 2 2(n-2),且與 相互獨(dú)立,故第30頁,共35頁。于是E(y0)的1 的置信

15、區(qū)間(CI)是 (8.4.20)其中 (8.4.21)第31頁,共35頁。 二、 y0的預(yù)測區(qū)間 實(shí)用中往往更關(guān)心x=x0時對應(yīng)的因變量y0的取值范圍。 y0的最可能取值為 ,于是,我們可以使用以 為中心的一個區(qū)間 作為y0的取值范圍。經(jīng)推導(dǎo), 的表達(dá)式為 (8.4.23) 上述預(yù)測區(qū)間(PI)與E(y0)的置信區(qū)間的差別就在于根號里多個1。 第32頁,共35頁。 預(yù)測區(qū)間的長度2與樣本量n、x的偏差平方和lxx、 x0 到 的距離 有關(guān)。 當(dāng) 時,預(yù)測精度可能變得很差,在這種情況下的預(yù)測稱作外推,需要特別小心。另外,若x1, x2, xn較為集中時,那么lxx就較小,也會導(dǎo)致預(yù)測精度的降低。因此,在收集數(shù)據(jù)時要使x1, x2, xn盡量分散,這對提高精度有利。 當(dāng)n較大時(如n 30), t分布可以用正態(tài)分布近似,進(jìn)一步,若x0與 相差不大時, 可以近似取為 。 第33頁,共35頁。 例8.4.4 在例8.4.2中,如果x0=0.16,則得預(yù)測值為 若取 =

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論