




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、8.4 一元線性回歸 8.4.1 變量間的兩類關系 十九世紀,英國生物學家兼統(tǒng)計學家高爾頓研究發(fā)現: 其中x表示父親身高, y 表示成年兒子的身高(單位:英寸,1英寸=2.54厘米)。這表明子代的平均高度有向中心回歸的意思,使得一段時間內人的身高相對穩(wěn)定。之后回歸分析的思想滲透到了數理統(tǒng)計的其它分支中。 回歸分析便是研究變量間相關關系的一門學科。它通過對客觀事物中變量的大量觀察或試驗獲得的數據,去尋找隱藏在數據背后的相關關系,給出它們的表達形式回歸函數的估計。 變量間的相關關系不能用完全確切的函數形式表示,但在平均意義下有一定的定量關系表達式,尋找這種定量關系表達式就是回歸分析的主要任務。 回
2、歸分析處理的是變量與變量間的關系。變量間常見的關系有兩類:確定性關系與相關關系。(x,Y)采集樣本信息(xi,yi)回歸分析散點圖回歸方程線性關系的顯著性檢驗對現實進行預測與控制基本思想 8.4.2 一元線性回歸模型 設y與x間有相關關系,稱x為自變量(預報變量),y為因變量(響應變量),在知道x取值后,y有一個分布p(yx),我們關心的是y的均值E(Yx): (8.4.1) 這便是y關于x的理論回歸函數條件期望,也就是我們要尋找的相關關系的表達式。 通常,相關關系可用下式表示 y =f (x)+ 其中是隨機誤差,一般假設 N(0, 2)。 例8.4.1 合金的強度y (107Pa) 與合金中
3、碳的含量x (%) 有關。為研究兩個變量間的關系。首先是收集數據,我們把收集到的數據記為(xi,yi),i=1,2,n。本例中,我們收集到12組數據,列于表8.4.1中 進行回歸分析首先是回歸函數形式的選擇。當只有一個自變量時,通??刹捎卯嬌Ⅻc圖 的方法進行選擇。 為找出兩個量間存在的回歸函數的形式,可以畫一張圖:把每一對數(xi,yi)看成直角坐標系中的一個點,在圖上畫出n個點,稱這張圖為散點圖,見圖8.4.1 從散點圖我們發(fā)現12個點基本在一條直線附近,這說明兩個變量之間有一個線性相關關系,這個相關關系可以表示為 y =0+ 1x+ (8.4.2) 這便是y關于x的一元線性回歸的數據結構式
4、。通常假定 E() =0, Var() = 2 (8.4.3) 在對未知參數作區(qū)間估計或假設檢驗時,還需要假定誤差服從正態(tài)分布,即 y N(0+ 1x, 2 ) (8.4.4) 顯然,假定(8.4.4) 比 (8.4.3) 要強。 由數據(xi,yi),i=1,2,n,可以獲得0, 1的估計 ,稱 (8.4.6) 為y關于x的經驗回歸函數,簡稱為回歸方程,其圖形稱為回歸直線。給定x=x0后, 稱 為回歸值(在不同場合也稱其為擬合值、預測值)。 8.4.3 回歸系數的最小二乘估計 一般采用最小二乘方法估計模型(8.4.5)中的0, 1 :令: 應該滿足 稱這樣得到的 稱為0, 1的最小二乘估計,
5、記為LSE。 最小二乘估計可以通過求偏導數并命其為0而得到: (8.4.7) 這組方程稱為正規(guī)方程組,經過整理,可得 (8.4.8) 表8.4.2 例8.4.2的計算表 xi=1.90n=12yi=590.5xi2=0.3194xi yi =95.9250yi2=29392.75lxx=0.0186lxy=2.4292lyy=335.2292由此給出回歸方程為: 例8.4.2 使用例8.4.1種合金鋼強度和碳含量 數據,我們可求得回歸方程,見下表. 定理8.4.1 在模型(8.4.5)下,有 (1) (2) (3)對給定的x0,關于最小二乘估計的一些性質羅列在如下定理之中 同理可得方差:又利用
6、期望和方差的性質可得定理8.4.1 說明 分別是0, 1的無偏估計; 是E(y0)=0+ 1 x0的無偏估計; 除 外, 與 是相關的; 要提高 的估計精度(即降低它們的方 差)就要求n大,lxx大(即要求x1, x2, xn較 分散)。 8.4.4 回歸方程的顯著性檢驗 在使用回歸方程作進一步的分析以前,首先應對回歸方程是否有意義進行判斷。 如果1=0,那么不管x如何變化,E(y)不隨x的變化作線性變化,那么這時求得的一元線性回歸方程就沒有意義,稱回歸方程不顯著。如果10,E(y)隨x的變化作線性變化,稱回歸方程是顯著的。 綜上,對回歸方程是否有意義作判斷就是要作如下的顯著性檢驗:H0:1=
7、0 vs H1: 10 拒絕H0表示回歸方程是顯著的。一、F 檢驗 采用方差分析的思想,我們從數據出發(fā)研究各yi不同的原因。 數據總的波動用總偏差平方和 表示。引起各yi不同的原因主要有兩個因素:其一是H0可能不真,E(y)隨x的變化而變化,從而在每一個x的觀測值處的回歸值不同,其波動用回歸平方和 表示;其二是其它一切因素,包括隨機誤差、x對E(y)的非線性影響等,這可用殘差平方和 表示。 且有如下平方和分解式: ST= SR + Se (8.4.13) 在一元線性回歸中有三種等價的檢驗方法,下面分別加以介紹。定理8.4.2 設yi=0+ 1 xi + i,其中i n相互獨立, 且Ei=0,V
8、ar(yi)= 2,i=1,n,沿用上面的記號,有 (8.4.14) (8.4.15) 這說明 是 2的無偏估計。 關于SR 和 Se所含有的成分可由如下定理說明。 進一步,有關SR 和 Se的分布,有如下定理。 定理8.4.3 設 y1, y2, yn 相互獨立,且 yiN(i + 1 xi , 2), i=1, , n, 則在上述記號下,有 (1)Se / 2 2(n2), (2)若H0成立,則有SR / 2 2(1) (3) SR與Se , 獨立(或 與Se , 獨立)。 來源平方和自由度均方和F比回歸SR =317.2589fR=1MSR=317.2589176.55殘差Se =17.
9、9703fe=10MSe= 1.79703總和ST =335.2292fT=11例8.4.3 在合金鋼強度的例8.4.2中,我們已求出了回歸方程,這里我們考慮關于回歸方程的顯著性檢驗。經計算有 若取=0.01,則F0.99(1,10) =100.708,因此,在顯著性水平0.01下回歸方程是顯著的。 在一元線性回歸場合,三種檢驗方法是等價的:在相同的顯著性水平下,要么都拒絕原假設,要么都接受原假設,不會產生矛盾。 F 檢驗可以很容易推廣到多元回歸分析場合,而其他二個則否,所以,F檢驗是最常用的關于回歸方程顯著性檢驗的檢驗方法。 8.4.5 估計與預測 當回歸方程經過檢驗是顯著的后,可用來做估計
10、和預測。這是二個不同的問題: (1)當x=x0時,尋求均值E(y0)=0+ 1 x0的點估計與區(qū)間 估計(注意這里E(y0)是常量)是估計問題; (2)當x=x0時,y0的觀察值在什么范圍內?由于y0是隨機 變量,為此只能求一個區(qū)間,使y0落在這一區(qū)間的概 率為1- ,即要求,使 稱區(qū)間 為y0的概率為1- 的預測區(qū)間, 這是預測問題。 一、 E(y0)的估計 在x=x0時,其對應的因變量y0是一個隨機變量,有一個分布,我們經常需要對該分布的均值給出估計。由于E(y0)=0+ 1 x0,一個直觀的估計應為 我們習慣上將上述估計記為 (注意這里 表示的是E(y0)的估計,而不表示y0的估計,因為
11、y0是隨機變量,它是沒有估計的)。由于 分別是0, 1的無偏估計,因此, 也是E(y0)的無偏估計。 為得到E(y0)的區(qū)間估計,我們需要知道 的分布。由定理8.4.1, 又由定理8.4.3知, Se / 2 2(n-2),且與 相互獨立,故于是E(y0)的1 的置信區(qū)間(CI)是 (8.4.20)其中 (8.4.21) 二、 y0的預測區(qū)間 實用中往往更關心x=x0時對應的因變量y0的取值范圍。 y0的最可能取值為 ,于是,我們可以使用以 為中心的一個區(qū)間 作為y0的取值范圍。經推導, 的表達式為 (8.4.23) 上述預測區(qū)間(PI)與E(y0)的置信區(qū)間的差別就在于根號里多個1。 預測區(qū)
12、間的長度2與樣本量n、x的偏差平方和lxx、 x0 到 的距離 有關。 當 時,預測精度可能變得很差,在這種情況下的預測稱作外推,需要特別小心。另外,若x1, x2, xn較為集中時,那么lxx就較小,也會導致預測精度的降低。因此,在收集數據時要使x1, x2, xn盡量分散,這對提高精度有利。 當n較大時(如n 30), t分布可以用正態(tài)分布近似,進一步,若x0與 相差不大時, 可以近似取為 。 例8.4.4 在例8.4.2中,如果x0=0.16,則得預測值為 若取 =0.05,則t0.975(10)=2.2281, 又 ,應用(8.4.21), 故x0=0.16對應因變量y0的均值E(y0
13、)的0.95置信區(qū)間為(49.4328-1.0480, 49.4328+1.0480) =(48.3488, 50.5168) 應用(8.4.23), 從而y0的概率為0.95的預測區(qū)間為 E(y0)的0.95置信區(qū)間比y0的概率為0.95的預測區(qū)間窄很多,這是因為隨機變量的均值相對于隨機變量本身而言要更容易估計出來。 8.5 一元非線性回歸 例 8.5.1 煉鋼廠出鋼水時用的鋼包,在使用過程中由于鋼水及爐渣對耐火材料的浸蝕,其容積不斷增大?,F在鋼包的容積用盛滿鋼水時的重量y (kg)表示,相應的試驗次數用x表示。數據見表8.5.1,要找出y 與x的定量關系表達式。 表8.5.1 鋼包的重量y
14、與試驗次數x數據 序號xy序號xy12106.42811110.5923108.20914110.6034109.581015110.9045109.501116110.7657110.001218111.0068109.931319111.20710110.49下面我們分三步進行。 8.5.1 確定可能的函數形式 為對數據進行分析,首先描出數據的散點圖,判斷兩個變量之間可能的函數關系,圖8.5.1是本例的散點圖。 觀測這13個點構成的散點圖,我們可以看到它們并不接近一條直線,用曲線擬合這些點應該是更恰當的,這里就涉及如何選擇曲線函數形式的問題。 首先,如果可由專業(yè)知識確定回歸函數形式,則應盡
15、可能利用專業(yè)知識。當若不能有專業(yè)知識加以確定函數形式,則可將散點圖與一些常見的函數關系的圖形進行比較,選擇幾個可能的函數形式,然后使用統(tǒng)計方法在這些函數形式之間進行比較,最后確定合適的曲線回歸方程。為此,必須了解常見的曲線函數的圖形,見圖8.5.2 。 本例中,散點圖呈現呈現一個明顯的向上且上凸的趨勢,可能選擇的函數關系有很多,比如,參照圖8.5.2,我們可以給出如下四個曲線函數: 1) 1/y=a+b/x 2) y=a+blnx 3) 4) 在初步選出可能的函數關系(即方程)后,我們必須解決兩個問題:如何估計所選方程中的參數?如何評價所選不同方程的優(yōu)劣? 8.5.2 參數估計 對上述非線性函
16、數,參數估計最常用的方法是“線性化”方法。 以1/y=a+b/x為例,為了能采用一元線性回歸分析方法,我們作如下變換u=1/x,v=1/y 則曲線函數就化為如下的直線v=bu 這是理論回歸函數。對數據而言,回歸方程為 vi=a+ bui + i 于是可用一元線性回歸的方法估計出a,b。 表8.5.3 參數估計計算表 用類似的方法可以得出其它三個曲線回歸方程,它們分別是: 8.5.3 曲線回歸方程的比較 我們上面得到了四個曲線回歸方程,通??刹捎萌缦露€指標進行選擇。 (1)決定系數R2:類似于一元線性回歸方程中相關系數,決定系數定義為: (8.5.5) R2越大,說明殘差越小,回歸曲線擬合越好, R2從總體上給出一個擬合好壞程度的度量。 (2)剩余標準差s:類似于一元線性回歸中標準差的估計公式,此剩余標準差可用殘差平方和來獲得,即 (8.5.6) s為諸觀測點yi與由曲線給出的擬合值 間的平均偏離程度的度量,s越小,方程越好。 在觀測數據給定后,不同的曲線選擇不會影響 的取值,但會影響到殘差平方和 的取值。因此,對選擇的曲線而言,決定系數和剩余標準差都取決于殘差平方和 ,從而,兩種選擇準則是一致的,只是從兩個不同側面作出評價。表8.5.4
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 蔗渣板企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 機器人手臂柔性電機行業(yè)跨境出海戰(zhàn)略研究報告
- 電動汽車充電樁企業(yè)縣域市場拓展與下沉戰(zhàn)略研究報告
- 火鍋粉絲企業(yè)縣域市場拓展與下沉戰(zhàn)略研究報告
- 潤滑油批發(fā)企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 硫化二烴氨基硫羰企業(yè)縣域市場拓展與下沉戰(zhàn)略研究報告
- 二零二五年度信息安全風險評估與培訓協(xié)議
- 二零二五年度企業(yè)裁員解除勞動合同保密協(xié)議及后續(xù)服務協(xié)議
- 二零二五年度辦公樓翻新與功能優(yōu)化合同
- 建材發(fā)貨與收貨協(xié)議
- 組合型浮式防波堤水動力響應與消浪性能研究
- 商業(yè)綜合體應急預案編制與演練效果評估考核試卷
- GB/T 44679-2024叉車禁用與報廢技術規(guī)范
- 智鼎在線測評的題
- 2-3《書的歷史》(教學設計)二年級科學上冊 教科版
- 廣告學概論課件
- 可上傳班級管理(一到三章)李學農主編
- 醫(yī)院環(huán)境衛(wèi)生學監(jiān)測和院感控制課件
- 春天古詩模板
- 【小學數學教育中創(chuàng)新思維的培養(yǎng)探究7900字(論文)】
- JT-T-1199.1-2018綠色交通設施評估技術要求第1部分:綠色公路
評論
0/150
提交評論