概率論與數(shù)理統(tǒng)計(jì)的練習(xí)和(歷史上最好的,最全面的)學(xué)習(xí)的最好資料8.4-8.5課件_第1頁
概率論與數(shù)理統(tǒng)計(jì)的練習(xí)和(歷史上最好的,最全面的)學(xué)習(xí)的最好資料8.4-8.5課件_第2頁
概率論與數(shù)理統(tǒng)計(jì)的練習(xí)和(歷史上最好的,最全面的)學(xué)習(xí)的最好資料8.4-8.5課件_第3頁
概率論與數(shù)理統(tǒng)計(jì)的練習(xí)和(歷史上最好的,最全面的)學(xué)習(xí)的最好資料8.4-8.5課件_第4頁
概率論與數(shù)理統(tǒng)計(jì)的練習(xí)和(歷史上最好的,最全面的)學(xué)習(xí)的最好資料8.4-8.5課件_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、8.4 一元線性回歸 8.4.1 變量間的兩類關(guān)系 十九世紀(jì),英國生物學(xué)家兼統(tǒng)計(jì)學(xué)家高爾頓研究發(fā)現(xiàn): 其中x表示父親身高, y 表示成年兒子的身高(單位:英寸,1英寸=2.54厘米)。這表明子代的平均高度有向中心回歸的意思,使得一段時(shí)間內(nèi)人的身高相對穩(wěn)定。之后回歸分析的思想滲透到了數(shù)理統(tǒng)計(jì)的其它分支中。 回歸分析便是研究變量間相關(guān)關(guān)系的一門學(xué)科。它通過對客觀事物中變量的大量觀察或試驗(yàn)獲得的數(shù)據(jù),去尋找隱藏在數(shù)據(jù)背后的相關(guān)關(guān)系,給出它們的表達(dá)形式回歸函數(shù)的估計(jì)。 變量間的相關(guān)關(guān)系不能用完全確切的函數(shù)形式表示,但在平均意義下有一定的定量關(guān)系表達(dá)式,尋找這種定量關(guān)系表達(dá)式就是回歸分析的主要任務(wù)。 回

2、歸分析處理的是變量與變量間的關(guān)系。變量間常見的關(guān)系有兩類:確定性關(guān)系與相關(guān)關(guān)系。(x,Y)采集樣本信息(xi,yi)回歸分析散點(diǎn)圖回歸方程線性關(guān)系的顯著性檢驗(yàn)對現(xiàn)實(shí)進(jìn)行預(yù)測與控制基本思想 8.4.2 一元線性回歸模型 設(shè)y與x間有相關(guān)關(guān)系,稱x為自變量(預(yù)報(bào)變量),y為因變量(響應(yīng)變量),在知道x取值后,y有一個(gè)分布p(yx),我們關(guān)心的是y的均值E(Yx): (8.4.1) 這便是y關(guān)于x的理論回歸函數(shù)條件期望,也就是我們要尋找的相關(guān)關(guān)系的表達(dá)式。 通常,相關(guān)關(guān)系可用下式表示 y =f (x)+ 其中是隨機(jī)誤差,一般假設(shè) N(0, 2)。 例8.4.1 合金的強(qiáng)度y (107Pa) 與合金中

3、碳的含量x (%) 有關(guān)。為研究兩個(gè)變量間的關(guān)系。首先是收集數(shù)據(jù),我們把收集到的數(shù)據(jù)記為(xi,yi),i=1,2,n。本例中,我們收集到12組數(shù)據(jù),列于表8.4.1中 進(jìn)行回歸分析首先是回歸函數(shù)形式的選擇。當(dāng)只有一個(gè)自變量時(shí),通??刹捎卯嬌Ⅻc(diǎn)圖 的方法進(jìn)行選擇。 為找出兩個(gè)量間存在的回歸函數(shù)的形式,可以畫一張圖:把每一對數(shù)(xi,yi)看成直角坐標(biāo)系中的一個(gè)點(diǎn),在圖上畫出n個(gè)點(diǎn),稱這張圖為散點(diǎn)圖,見圖8.4.1 從散點(diǎn)圖我們發(fā)現(xiàn)12個(gè)點(diǎn)基本在一條直線附近,這說明兩個(gè)變量之間有一個(gè)線性相關(guān)關(guān)系,這個(gè)相關(guān)關(guān)系可以表示為 y =0+ 1x+ (8.4.2) 這便是y關(guān)于x的一元線性回歸的數(shù)據(jù)結(jié)構(gòu)式

4、。通常假定 E() =0, Var() = 2 (8.4.3) 在對未知參數(shù)作區(qū)間估計(jì)或假設(shè)檢驗(yàn)時(shí),還需要假定誤差服從正態(tài)分布,即 y N(0+ 1x, 2 ) (8.4.4) 顯然,假定(8.4.4) 比 (8.4.3) 要強(qiáng)。 由數(shù)據(jù)(xi,yi),i=1,2,n,可以獲得0, 1的估計(jì) ,稱 (8.4.6) 為y關(guān)于x的經(jīng)驗(yàn)回歸函數(shù),簡稱為回歸方程,其圖形稱為回歸直線。給定x=x0后, 稱 為回歸值(在不同場合也稱其為擬合值、預(yù)測值)。 8.4.3 回歸系數(shù)的最小二乘估計(jì) 一般采用最小二乘方法估計(jì)模型(8.4.5)中的0, 1 :令: 應(yīng)該滿足 稱這樣得到的 稱為0, 1的最小二乘估計(jì),

5、記為LSE。 最小二乘估計(jì)可以通過求偏導(dǎo)數(shù)并命其為0而得到: (8.4.7) 這組方程稱為正規(guī)方程組,經(jīng)過整理,可得 (8.4.8) 表8.4.2 例8.4.2的計(jì)算表 xi=1.90n=12yi=590.5xi2=0.3194xi yi =95.9250yi2=29392.75lxx=0.0186lxy=2.4292lyy=335.2292由此給出回歸方程為: 例8.4.2 使用例8.4.1種合金鋼強(qiáng)度和碳含量 數(shù)據(jù),我們可求得回歸方程,見下表. 定理8.4.1 在模型(8.4.5)下,有 (1) (2) (3)對給定的x0,關(guān)于最小二乘估計(jì)的一些性質(zhì)羅列在如下定理之中 同理可得方差:又利用

6、期望和方差的性質(zhì)可得定理8.4.1 說明 分別是0, 1的無偏估計(jì); 是E(y0)=0+ 1 x0的無偏估計(jì); 除 外, 與 是相關(guān)的; 要提高 的估計(jì)精度(即降低它們的方 差)就要求n大,lxx大(即要求x1, x2, xn較 分散)。 8.4.4 回歸方程的顯著性檢驗(yàn) 在使用回歸方程作進(jìn)一步的分析以前,首先應(yīng)對回歸方程是否有意義進(jìn)行判斷。 如果1=0,那么不管x如何變化,E(y)不隨x的變化作線性變化,那么這時(shí)求得的一元線性回歸方程就沒有意義,稱回歸方程不顯著。如果10,E(y)隨x的變化作線性變化,稱回歸方程是顯著的。 綜上,對回歸方程是否有意義作判斷就是要作如下的顯著性檢驗(yàn):H0:1=

7、0 vs H1: 10 拒絕H0表示回歸方程是顯著的。一、F 檢驗(yàn) 采用方差分析的思想,我們從數(shù)據(jù)出發(fā)研究各yi不同的原因。 數(shù)據(jù)總的波動用總偏差平方和 表示。引起各yi不同的原因主要有兩個(gè)因素:其一是H0可能不真,E(y)隨x的變化而變化,從而在每一個(gè)x的觀測值處的回歸值不同,其波動用回歸平方和 表示;其二是其它一切因素,包括隨機(jī)誤差、x對E(y)的非線性影響等,這可用殘差平方和 表示。 且有如下平方和分解式: ST= SR + Se (8.4.13) 在一元線性回歸中有三種等價(jià)的檢驗(yàn)方法,下面分別加以介紹。定理8.4.2 設(shè)yi=0+ 1 xi + i,其中i n相互獨(dú)立, 且Ei=0,V

8、ar(yi)= 2,i=1,n,沿用上面的記號,有 (8.4.14) (8.4.15) 這說明 是 2的無偏估計(jì)。 關(guān)于SR 和 Se所含有的成分可由如下定理說明。 進(jìn)一步,有關(guān)SR 和 Se的分布,有如下定理。 定理8.4.3 設(shè) y1, y2, yn 相互獨(dú)立,且 yiN(i + 1 xi , 2), i=1, , n, 則在上述記號下,有 (1)Se / 2 2(n2), (2)若H0成立,則有SR / 2 2(1) (3) SR與Se , 獨(dú)立(或 與Se , 獨(dú)立)。 來源平方和自由度均方和F比回歸SR =317.2589fR=1MSR=317.2589176.55殘差Se =17.

9、9703fe=10MSe= 1.79703總和ST =335.2292fT=11例8.4.3 在合金鋼強(qiáng)度的例8.4.2中,我們已求出了回歸方程,這里我們考慮關(guān)于回歸方程的顯著性檢驗(yàn)。經(jīng)計(jì)算有 若取=0.01,則F0.99(1,10) =100.708,因此,在顯著性水平0.01下回歸方程是顯著的。 在一元線性回歸場合,三種檢驗(yàn)方法是等價(jià)的:在相同的顯著性水平下,要么都拒絕原假設(shè),要么都接受原假設(shè),不會產(chǎn)生矛盾。 F 檢驗(yàn)可以很容易推廣到多元回歸分析場合,而其他二個(gè)則否,所以,F(xiàn)檢驗(yàn)是最常用的關(guān)于回歸方程顯著性檢驗(yàn)的檢驗(yàn)方法。 8.4.5 估計(jì)與預(yù)測 當(dāng)回歸方程經(jīng)過檢驗(yàn)是顯著的后,可用來做估計(jì)

10、和預(yù)測。這是二個(gè)不同的問題: (1)當(dāng)x=x0時(shí),尋求均值E(y0)=0+ 1 x0的點(diǎn)估計(jì)與區(qū)間 估計(jì)(注意這里E(y0)是常量)是估計(jì)問題; (2)當(dāng)x=x0時(shí),y0的觀察值在什么范圍內(nèi)?由于y0是隨機(jī) 變量,為此只能求一個(gè)區(qū)間,使y0落在這一區(qū)間的概 率為1- ,即要求,使 稱區(qū)間 為y0的概率為1- 的預(yù)測區(qū)間, 這是預(yù)測問題。 一、 E(y0)的估計(jì) 在x=x0時(shí),其對應(yīng)的因變量y0是一個(gè)隨機(jī)變量,有一個(gè)分布,我們經(jīng)常需要對該分布的均值給出估計(jì)。由于E(y0)=0+ 1 x0,一個(gè)直觀的估計(jì)應(yīng)為 我們習(xí)慣上將上述估計(jì)記為 (注意這里 表示的是E(y0)的估計(jì),而不表示y0的估計(jì),因?yàn)?/p>

11、y0是隨機(jī)變量,它是沒有估計(jì)的)。由于 分別是0, 1的無偏估計(jì),因此, 也是E(y0)的無偏估計(jì)。 為得到E(y0)的區(qū)間估計(jì),我們需要知道 的分布。由定理8.4.1, 又由定理8.4.3知, Se / 2 2(n-2),且與 相互獨(dú)立,故于是E(y0)的1 的置信區(qū)間(CI)是 (8.4.20)其中 (8.4.21) 二、 y0的預(yù)測區(qū)間 實(shí)用中往往更關(guān)心x=x0時(shí)對應(yīng)的因變量y0的取值范圍。 y0的最可能取值為 ,于是,我們可以使用以 為中心的一個(gè)區(qū)間 作為y0的取值范圍。經(jīng)推導(dǎo), 的表達(dá)式為 (8.4.23) 上述預(yù)測區(qū)間(PI)與E(y0)的置信區(qū)間的差別就在于根號里多個(gè)1。 預(yù)測區(qū)

12、間的長度2與樣本量n、x的偏差平方和lxx、 x0 到 的距離 有關(guān)。 當(dāng) 時(shí),預(yù)測精度可能變得很差,在這種情況下的預(yù)測稱作外推,需要特別小心。另外,若x1, x2, xn較為集中時(shí),那么lxx就較小,也會導(dǎo)致預(yù)測精度的降低。因此,在收集數(shù)據(jù)時(shí)要使x1, x2, xn盡量分散,這對提高精度有利。 當(dāng)n較大時(shí)(如n 30), t分布可以用正態(tài)分布近似,進(jìn)一步,若x0與 相差不大時(shí), 可以近似取為 。 例8.4.4 在例8.4.2中,如果x0=0.16,則得預(yù)測值為 若取 =0.05,則t0.975(10)=2.2281, 又 ,應(yīng)用(8.4.21), 故x0=0.16對應(yīng)因變量y0的均值E(y0

13、)的0.95置信區(qū)間為(49.4328-1.0480, 49.4328+1.0480) =(48.3488, 50.5168) 應(yīng)用(8.4.23), 從而y0的概率為0.95的預(yù)測區(qū)間為 E(y0)的0.95置信區(qū)間比y0的概率為0.95的預(yù)測區(qū)間窄很多,這是因?yàn)殡S機(jī)變量的均值相對于隨機(jī)變量本身而言要更容易估計(jì)出來。 8.5 一元非線性回歸 例 8.5.1 煉鋼廠出鋼水時(shí)用的鋼包,在使用過程中由于鋼水及爐渣對耐火材料的浸蝕,其容積不斷增大?,F(xiàn)在鋼包的容積用盛滿鋼水時(shí)的重量y (kg)表示,相應(yīng)的試驗(yàn)次數(shù)用x表示。數(shù)據(jù)見表8.5.1,要找出y 與x的定量關(guān)系表達(dá)式。 表8.5.1 鋼包的重量y

14、與試驗(yàn)次數(shù)x數(shù)據(jù) 序號xy序號xy12106.42811110.5923108.20914110.6034109.581015110.9045109.501116110.7657110.001218111.0068109.931319111.20710110.49下面我們分三步進(jìn)行。 8.5.1 確定可能的函數(shù)形式 為對數(shù)據(jù)進(jìn)行分析,首先描出數(shù)據(jù)的散點(diǎn)圖,判斷兩個(gè)變量之間可能的函數(shù)關(guān)系,圖8.5.1是本例的散點(diǎn)圖。 觀測這13個(gè)點(diǎn)構(gòu)成的散點(diǎn)圖,我們可以看到它們并不接近一條直線,用曲線擬合這些點(diǎn)應(yīng)該是更恰當(dāng)?shù)?,這里就涉及如何選擇曲線函數(shù)形式的問題。 首先,如果可由專業(yè)知識確定回歸函數(shù)形式,則應(yīng)盡

15、可能利用專業(yè)知識。當(dāng)若不能有專業(yè)知識加以確定函數(shù)形式,則可將散點(diǎn)圖與一些常見的函數(shù)關(guān)系的圖形進(jìn)行比較,選擇幾個(gè)可能的函數(shù)形式,然后使用統(tǒng)計(jì)方法在這些函數(shù)形式之間進(jìn)行比較,最后確定合適的曲線回歸方程。為此,必須了解常見的曲線函數(shù)的圖形,見圖8.5.2 。 本例中,散點(diǎn)圖呈現(xiàn)呈現(xiàn)一個(gè)明顯的向上且上凸的趨勢,可能選擇的函數(shù)關(guān)系有很多,比如,參照圖8.5.2,我們可以給出如下四個(gè)曲線函數(shù): 1) 1/y=a+b/x 2) y=a+blnx 3) 4) 在初步選出可能的函數(shù)關(guān)系(即方程)后,我們必須解決兩個(gè)問題:如何估計(jì)所選方程中的參數(shù)?如何評價(jià)所選不同方程的優(yōu)劣? 8.5.2 參數(shù)估計(jì) 對上述非線性函

16、數(shù),參數(shù)估計(jì)最常用的方法是“線性化”方法。 以1/y=a+b/x為例,為了能采用一元線性回歸分析方法,我們作如下變換u=1/x,v=1/y 則曲線函數(shù)就化為如下的直線v=bu 這是理論回歸函數(shù)。對數(shù)據(jù)而言,回歸方程為 vi=a+ bui + i 于是可用一元線性回歸的方法估計(jì)出a,b。 表8.5.3 參數(shù)估計(jì)計(jì)算表 用類似的方法可以得出其它三個(gè)曲線回歸方程,它們分別是: 8.5.3 曲線回歸方程的比較 我們上面得到了四個(gè)曲線回歸方程,通??刹捎萌缦露€(gè)指標(biāo)進(jìn)行選擇。 (1)決定系數(shù)R2:類似于一元線性回歸方程中相關(guān)系數(shù),決定系數(shù)定義為: (8.5.5) R2越大,說明殘差越小,回歸曲線擬合越好, R2從總體上給出一個(gè)擬合好壞程度的度量。 (2)剩余標(biāo)準(zhǔn)差s:類似于一元線性回歸中標(biāo)準(zhǔn)差的估計(jì)公式,此剩余標(biāo)準(zhǔn)差可用殘差平方和來獲得,即 (8.5.6) s為諸觀測點(diǎn)yi與由曲線給出的擬合值 間的平均偏離程度的度量,s越小,方程越好。 在觀測數(shù)據(jù)給定后,不同的曲線選擇不會影響 的取值,但會影響到殘差平方和 的取值。因此,對選擇的曲線而言,決定系數(shù)和剩余標(biāo)準(zhǔn)差都取決于殘差平方和 ,從而,兩種選擇準(zhǔn)則是一致的,只是從兩個(gè)不同側(cè)面作出評價(jià)。表8.5.4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論