一元線性回歸分析與預測_第1頁
一元線性回歸分析與預測_第2頁
一元線性回歸分析與預測_第3頁
一元線性回歸分析與預測_第4頁
一元線性回歸分析與預測_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

一元線性回歸分析與預測世界上的變量之間大致有如下三種關系:y=f(x),變量之間存在著嚴格的依存關系,對于A變量的每一個數(shù)值,B變量總有一個確定的值與之對應。例如商品銷售額與銷售量的依存關系。y=f(x),變量之間存在著嚴格的依存關系,對于A變量的每一個數(shù)值,B變量總有一個確定的值與之對應。例如商品銷售額與銷售量的依存關系。變量之間存在著非嚴格的依存關系,A變量在數(shù)量上的變化會影響B(tài)變量在數(shù)量上的變化,但B變量在數(shù)量上的變化具有一定的隨機性。變量間關系函數(shù)關系相關關系無關系具有相關關系的變量之間雖然具有某種不確定性,但是,通過對現(xiàn)象的不斷觀察可以探索出它們之間的統(tǒng)計規(guī)律(本質上就是探索相關變量之間在總體上的規(guī)律),這類統(tǒng)計規(guī)律稱為回歸關系。我們只通過有限次地觀察樣本,相關關系的變量之間呈現(xiàn)不確定性,也即A變量增大或者減小,B變量未必相應地增大或者減小,B變量具有隨機性,但是如果我們觀察的樣本數(shù)量足夠多,A變量與B變量又會呈現(xiàn)出某種確定的關系,比如隨著A變量的增大,B變量的均值可能隨之增大,這種在大樣本容量下變量之間呈現(xiàn)出的確定關系(可視為總體下的變量之間呈現(xiàn)出的確定關系,只有樣本容量足夠大,才可以呈現(xiàn)出總體的規(guī)律,正如只有大量投擲硬幣,才可以呈現(xiàn)出落地后“正面朝上”的概率為0.5這一總體的特征,或者規(guī)律),稱之為回歸關系。有關回歸關系的理論、計算和分析稱為回歸分析。研究回歸關系時,變量又分為自變量和因變量,自變量是因變量的影響因素,因變量的變化受到自變量變化的影響,自變量實際上可視為我們常說的“因“,因變量可視為我們常說的”果“,雖然二者并不是嚴格意義上的因果關系。至于兩個變量,哪個是自變量,哪個是因變量,大家根據(jù)實際情況來判斷。本文將從一組樣本數(shù)據(jù)出發(fā),確定這些變量之間的回歸關系,也即將這些變量擬合為確定的回歸方程的數(shù)據(jù)模型(也就是確定的函數(shù)關系),并用統(tǒng)計指標來說明回歸方程對樣本數(shù)據(jù)的擬合程度,也就是判斷自變量影響因變量的顯著性,另外,還可以運用回歸方程進行預測。大家看,這實際上仍是通過樣本來推斷總體的應用場景,所以在回歸分析中也少不了要做假設檢驗。綜上所述,回歸分析是研究總體下的變量之間(自變量與因變量)的定量關系(使用回歸方程來描述,即函數(shù)表達式)的一種統(tǒng)計分析方法,其目的在于根據(jù)已知自變量來估計和預測因變量,是一種預測性的建模技術。本文介紹最簡單的回歸分析,只有一個自變量,且自變量與因變量呈線性關系,因此稱之為一元線性回歸分析。下面我們先對本文所介紹的一元線性回歸分析的應用場景做幾個假設,也就是給出已知條件:1、線性Linear:因變量Y的總體均數(shù)μ與X呈線性關系,即μ=β0+β1X-------①2、獨立Independent:每一個自變量值x對應一個Y隨機變量,所有這些Y隨機變量彼此獨立;3、正態(tài)Normaldistribution:對任何給定的自變量值x,它所對應的因變量Y服從正態(tài)分布。4、方差相等Equalvariance:對于自變量X的任何值,其所對應的因變量Y的標準差σε2相等。對以上的已知條件做如下說明:自變量X不是隨機變量,我們可以在一個范圍內人為選取若干個X值,每一個具體的X值,它所對應的Y變量的取值卻都是隨機的,也就是說Y變量都是一個隨機變量,而且都服從正態(tài)分布,所有這些Y變量的標準差相等,而且相互獨立。對于每一個具體的X值,它與對應的Y隨機變量的總體均值uy|x(表示在X=x的條件下Y隨機變量的總體均值)具有線性關系,其回歸方程見公式①,β0為回歸方程的截距,β1為回歸方程的斜率,也稱為回歸系數(shù),在回歸分析中,回歸系數(shù)直接反映了自變量X對因變量Y的影響程度。在本文中,總體的一些特征或者規(guī)律是已知的,比如因變量呈正態(tài)分布;所有因變量的方差相等,且彼此獨立;自變量與因變量的均值具有線性關系,但是總體也有未知的信息需要進一步推斷,比如回歸方程中的β0和β1,只有β0和β1是明確的,我們才可以利用回歸方程做進一步的預測,比如給定一個具體的X值,通過回歸方程,便可以預測出對應的Y值。在本文中所采用的假設檢驗,應該屬于參數(shù)檢驗,因為上述的總體的某些特征是已知的。為了便于更直觀和更形象地理解上述的總體的已知特征,可參考下圖。下圖即為在自變量X取值為x0,x1,…xn的條件下,所對應的每個因變量Y的總體。下面我們介紹如何通過樣本數(shù)據(jù),來推斷總體的回歸方程,也即①式。如上圖所示,現(xiàn)在有容量為n的樣本(x0,y0),(x1,y1),…,(xn,yn),從各點在坐標系中的分布來看,各點散落在一條直線周圍,因此可以擬合為一條直線,假設該直線的線性方程為:為了使得線性方程擬合這n個樣本的效果達到最佳,那就需要各實測點至回歸直線的縱向距離的平方和最小,也即使得達到最小。根據(jù)最小二乘法原理(大家可參考相關資料),通過這n個樣本,可以計算出和的值,分別如下:而且還可以進一步推導出:由此可知,對樣本擬合出的回歸方程,其中的截距和回歸系數(shù),,也皆服從正態(tài)分布,而且均值分別為總體回歸方程中的的,,而且將一指定的X值xi代入擬合回歸方程中,求出的也呈正態(tài)分布,而且均值為。所以,,分別可以作為,,的估計值,因此擬合回歸方程可以看作是總體回歸方程的近似。關于自變量X和因變量Y,我們主要關心的是自變量X與總體Y是否存在線性回歸關系,也就是在總體的回歸方程中β1是否為0。原假設:β1=0,也即x與y沒有線性回歸關系,μy|x=β0+0x=β0,下面利用樣本數(shù)據(jù)來構造檢驗統(tǒng)計量,檢驗x與y是否有線性回歸關系,可以采用兩種檢驗方法。第一種是方差分析,也就是對樣本中的y值的變異進行拆解分析,如下圖所示。應變量y離均差平方和分解示意圖實際上可以拆分為兩部分變異,分別為SS回,SS殘,拆解過程如下:SS回:為回歸平方和,即總平方和中可以用x解釋的部分,或者說x與y的線性回歸關系可解釋的變異,越大越好。SS殘:為殘差平方和,反映除了x對y的線性影響之外的一切因素對y的變異作用,也就是在總平方和中無法用x解釋的部分,表示考慮回歸之后y的真正的隨機誤差,其越小越好,也即回歸的效果越明顯。SS總:為y的離均差平方和,表示未考慮x與y的回歸關系時y的總變異。檢驗x與y是否有線性回歸關系,實際上可以轉換為檢驗SS回是否比SS殘足夠大,如果是,說明變異主要是由x引起的,由此可以推斷x與y具有線性回歸關系。既然是兩個方差之間的比較,我們自然想到F檢驗。利用樣本數(shù)據(jù)構造F檢驗統(tǒng)計量:F=SS回/v回SS殘/v殘=MS回是回歸均方,MS殘是殘差均方,v回如果檢驗統(tǒng)計量F>F0.05(1,n-2),則說明x解釋的部分遠大于隨機誤差,所以可拒絕原假設,接受備選假設。備選假設:β1≠0,也即x與y有線性回歸關系,也即μy|x=β0+下面介紹第二種檢驗方式---t檢驗:我們已經(jīng)知道,服從正態(tài)分布,其中,MS殘為σ所以的標準方差的無偏估計為:原假設:β1=0,基于原假設,可構造以下t檢驗統(tǒng)計量如果t>t0.05/2,n-2,則說明回歸系數(shù)不為0,也即x解釋的部分遠大于隨機誤差,所以可拒絕原假設,接受備選假設。對于檢驗x與y是否有線性回歸關系,方差分析與t檢驗的結論是一致的,即兩者是完全等價的。同時,也可以求出β1的區(qū)間估計使用同樣的方法,也可以求出β0的區(qū)間估計,因為也服從以下的正態(tài)分布。我們利用方差分析或者t檢驗的方式推斷出回歸方程是否成立,也即在總體中x與y的線性回歸關系是否存在。但是我們該如何評估回歸方程的優(yōu)劣呢?也就是說它的預測效果如何,因為通過樣本數(shù)據(jù)求出回歸方程,其目的也在于給出一個x,來預測y可能的取值。下面我們給出決定系數(shù)的概念,它是評估回歸方程優(yōu)劣的一個重要指標。R2=SS回SSR2為回歸平方和與總平方和的比值,即y的總變異中因x與y的線性回歸關系所能解釋的比例,反映了回歸貢獻的相對程度,無量綱。R綜上所述,一個擬合良好的回歸方程應該具有較小的p值(≤0.05,假設檢驗中統(tǒng)計量對應的累積概率值)和較大的決定系數(shù)R2(≧0.7)一旦根據(jù)樣本數(shù)據(jù)擬合出回歸方程,并且通過假設檢驗推斷出x與y具有線性回歸關系,也即β1≠0,而且決定系數(shù)R2≧0.7,那么下面便可以利用擬合的回歸方程進行預測了,也即將一個指定的X值代入方程中,計算出。一元線性回歸有兩種預測:一是均值的預測,也就是每一個x值對應的因變量y的均值(上面提到,因變量y是一個隨機變量,這里的均值的預測,就是y的總體的均值);另一個是個值的預測,也就是預測y變量在一定的概率下會落入的我們首先介紹第一種預測:均值預測。不妨指定一個X值為x0,則由擬合回歸方程計算出的,其均值與方差如下:上面我們提到:MS殘為σ可以作為的標準差的估計值。由此有:即為在x=x0的條件下,對應因變量y的總體的均值,也就是。由此我們得到,在給定的1-α(α一般為0.05,也即置信度為95%)的置信度下,的置信區(qū)間為:95%置信區(qū)間的含義:如果作100次抽樣(每次抽取n個樣本),獲得100個容量為n的樣本,可算得100個置信區(qū)間,其中平均有95個置信區(qū)間包含該總體均值。下面我們再介紹第二種預測:個值的預測。通過樣本數(shù)據(jù)我們計算出了,它可以作為的一個估計值。另外也可以預測一下y變量如果以作為均值,由于隨機因素的影響在上下波動的范圍,可以稱之為容許區(qū)間,比如95%容許區(qū)間,指有95%的y變量取值在該區(qū)間內。首先計算一下與之差的均值和方差,因為與都是服從正態(tài)分布的隨機變量,所以二者之差也是服從正態(tài)分布的隨機變量。差的均值與方差如下所示:從而有:上面我們提到:MS殘為σ那么的1-α的容許區(qū)間為:

由于<,所以容許區(qū)間的范圍要大于置信區(qū)間的范圍,如下圖所示。下面我們通過一個實際的案例,來演示一下一元線性回歸分析與預測的過程。以下表格收集了30名成年男子的體重與肺活量,試對體重與肺活量進行線性回歸分析。編號體重(kg)肺活量(L)160.14.51260.384.47359.744.4455.044.07559.674.34659.444.397574.29859.754.31960.54.41058.724.361156.954.181257.224.11355.964.061457.874.231556.874.31655.974.141756.074.211855.284.141955.794.22054.564.042155.114.22253.244.022360.14.522460.54.482559.044.32659.014.322759.74.222859.064.282959.124.293054.214.2在本例中,主要研究體重對肺活量的影響,所以體重為自變量,而肺活量為因變量。首先制作二者的散點圖,觀察各點是否散落在一條直線周邊,如果是,則可以進一步進行線性回歸的分析;如果不是,則就沒有必要做進一步的線性回歸分析了。大家看上圖,各個點基本散落在直線的周邊,所以我們可以進一步做線性回歸分析。首先求出擬合線性回歸方程。=lxylxx=7.54137.94=- = 4.27-0.055*57.73=1.10所以擬合線性回歸方程為:=1.10+0.055下面使用F檢驗推斷體重與肺活量是否有線性回歸關系。原假設:體重與肺活量無線性回歸關系,也即=0;備選假設;體重與肺活量有線性回歸關系,也即≠0;方差分析dfSSMSFSignificanceF回歸分析10.411734(SS回)0.411734(MS回)75.546431.93217E-09殘差280.152602(SS殘)0.00545(MS殘)總計290.564337(SS總)很明顯F=75.55>F0.05,(1,28),則拒絕原假設,接受備選假設,也即成年男子的體重與肺活量有線性回歸關系。前面我們已經(jīng)提到,β1在該例中,=0.00545137.94=0.0063,t0.05/2,28=2.048(可查表,或者使用excel函數(shù)求出該值)。所以β1的95%置信區(qū)間為(0.055-2.048*0.0063,0.055+2.048*0.0063)=(0.042,0.068)下面我們再通過計算決定系數(shù)R2來判斷一下該回歸方程擬合是否良好。R2=SS回SS總由此可知,成年男子的體重能解釋其肺活量73%的變異,僅有27%的變異是由其他因素來解釋,也就是說用體重來預測肺活量,效果比較好。最后基于擬合的回歸方程,進行預測。首先預測一下肺活量總體的均值的置信區(qū)間。根據(jù)前面給出的求置信區(qū)間的公式,可計算出:當男子體重為58kg時,肺活量這個總體的均值在95%置信度下的區(qū)間。其中=0.016,=1.10+0.055*58=4.29,t0.05/2,28=2.048所以肺活量這個總體的均值在95%置信度下的區(qū)間為:(4.29–2.048*0.016,4.29+2.048*0.016)=(4.26,4.32)下面我們再做個值的預測。根據(jù)前面給出的求容許區(qū)間的公式,可計算出:當男子體重為58kg時,肺活量95%的數(shù)據(jù)所在的容許區(qū)間。其中=0.076,=1.10+0.055*58=4.2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論