第9章一元線性回歸_第1頁
第9章一元線性回歸_第2頁
第9章一元線性回歸_第3頁
第9章一元線性回歸_第4頁
第9章一元線性回歸_第5頁
已閱讀5頁,還剩66頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第9章一元線性回歸9.1

變量間關(guān)系的度量9.2一元線性回歸的估計和檢驗9.3利用回歸方程進行預(yù)測9.4用殘差檢驗?zāi)P偷募俣?/p>

回歸分析研究什么?假定因變量與自變量之間有某種關(guān)系,并把這種關(guān)系用適當(dāng)?shù)臄?shù)學(xué)模型表達出來,那么,就可以利用這一模型根據(jù)給定的自變量來預(yù)測因變量,這就是回歸要解決的問題在回歸分析中,只涉及一個自變量時稱為一元回歸,涉及多個自變量時則稱為多元回歸。如果因變量與自變量之間是線性關(guān)系,則稱為線性回歸(linearregression);如果因變量與自變量之間是非線性關(guān)系則稱為非線性回歸(nonlinearregression)2013-12-12

9.1變量間的關(guān)系

9.1.1變量間是什么樣的關(guān)系?

9.1.2用散點圖描述相關(guān)關(guān)系

9.1.3用相關(guān)系數(shù)度量關(guān)系強度第9章一元線性回歸怎樣分析變量間的關(guān)系?建立回歸模型時,首先需要弄清楚變量之間的關(guān)系。分析變量之間的關(guān)系需要解決下面的問題變量之間是否存在關(guān)系?如果存在,它們之間是什么樣的關(guān)系?變量之間的關(guān)系強度如何?樣本所反映的變量之間的關(guān)系能否代表總體變量之間的關(guān)系?2013-12-129.1.1變量間是什么樣的關(guān)系?9.1變量間的關(guān)系函數(shù)關(guān)系是一一對應(yīng)的確定關(guān)系設(shè)有兩個變量x和y,變量y隨變量x一起變化,并完全依賴于x

,當(dāng)變量x取某個數(shù)值時,

y依確定的關(guān)系取相應(yīng)的值,則稱y是x的函數(shù),記為y=f(x),其中x稱為自變量,y稱為因變量各觀測點落在一條線上

2013-12-12xy相關(guān)關(guān)系

(幾個例子)子女的身高與其父母身高的關(guān)系從遺傳學(xué)角度看,父母身高較高時,其子女的身高一般也比較高。但實際情況并不完全是這樣,因為子女的身高并不完全是由父母身高一個因素所決定的,還有其他許多因素的影響一個人的收入水平同他受教育程度的關(guān)系收入水平相同的人,他們受教育的程度也不可能不同,而受教育程度相同的人,他們的收入水平也往往不同。因為收入水平雖然與受教育程度有關(guān)系,但它并不是決定收入的惟一因素,還有職業(yè)、工作年限等諸多因素的影響農(nóng)作物的單位面積產(chǎn)量與降雨量之間的關(guān)系在一定條件下,降雨量越多,單位面積產(chǎn)量就越高。但產(chǎn)量并不是由降雨量一個因素決定的,還有施肥量、溫度、管理水平等其他許多因素的影響2013-12-12相關(guān)關(guān)系

(correlation)一個變量的取值不能由另一個變量唯一確定當(dāng)變量

x取某個值時,變量y的取值對應(yīng)著一個分布各觀測點分布在直線周圍

2013-12-12yx9.1.2用散點圖描述相關(guān)關(guān)系9.1變量間的關(guān)系散點圖

(scatterdiagram)2013-12-12完全負線性相關(guān)完全正線性相關(guān)不相關(guān)負線性相關(guān)正線性相關(guān)非線性相關(guān)用散點圖描述變量間的關(guān)系

(例題分析)【例9-1】為研究銷售收入與廣告費用支出之間的關(guān)系,某醫(yī)藥管理部門隨機抽取20家藥品生產(chǎn)企業(yè),得到它們的年銷售收入和廣告費用支出(萬元)的數(shù)據(jù)如下。繪制散點圖描述銷售收入與廣告費用之間的關(guān)系2013-12-12散點圖

(銷售收入和廣告費用的散點圖)2013-12-129.1.3用相關(guān)系數(shù)度量關(guān)系強度9.1變量間的關(guān)系相關(guān)系數(shù)

(correlationcoefficient)度量變量之間線性關(guān)系強度的一個統(tǒng)計量若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計算的,稱為總體相關(guān)系數(shù),記為若是根據(jù)樣本數(shù)據(jù)計算的,則稱為樣本相關(guān)系數(shù),簡稱為相關(guān)系數(shù),記為r也稱為Pearson相關(guān)系數(shù)

(Pearson’scorrelationcoefficient)樣本相關(guān)系數(shù)的計算公式

相關(guān)系數(shù)的性質(zhì)性質(zhì)1:r

的取值范圍是[-1,1]|r|=1,為完全相關(guān)r=1,為完全正相關(guān)r=-1,為完全負正相關(guān)r=0,不存在線性相關(guān)關(guān)系-1r<0,為負相關(guān)0<r1,為正相關(guān)|r|越趨于1表示關(guān)系越強;|r|越趨于0表示關(guān)系越弱2013-12-12相關(guān)系數(shù)的性質(zhì)性質(zhì)2:r具有對稱性。即x與y之間的相關(guān)系數(shù)和y與x之間的相關(guān)系數(shù)相等,即rxy=ryx性質(zhì)3:r數(shù)值大小與x和y原點及尺度無關(guān),即改變x和y的數(shù)據(jù)原點及計量尺度,并不改變r數(shù)值大小性質(zhì)4:僅僅是x與y之間線性關(guān)系的一個度量,它不能用于描述非線性關(guān)系。這意為著,r=0只表示兩個變量之間不存在線性相關(guān)關(guān)系,并不說明變量之間沒有任何關(guān)系性質(zhì)5:r雖然是兩個變量之間線性關(guān)系的一個度量,卻不一定意味著x與y一定有因果關(guān)系2013-12-12相關(guān)系數(shù)的經(jīng)驗解釋|r|0.8時,可視為兩個變量之間高度相關(guān)0.5|r|<0.8時,可視為中度相關(guān)0.3|r|<0.5時,視為低度相關(guān)|r|<0.3時,說明兩個變量之間的相關(guān)程度極弱,可視為不相關(guān)上述解釋必須建立在對相關(guān)系數(shù)的顯著性進行檢驗的基礎(chǔ)之上2013-12-12相關(guān)系數(shù)的顯著性檢驗

(檢驗的步驟)1.檢驗兩個變量之間是否存在線性相關(guān)關(guān)系采用R.A.Fisher提出的t檢驗檢驗的步驟為提出假設(shè):H0:;H1:0計算檢驗的統(tǒng)計量用Excel中的【TDIST】函數(shù)得雙尾計算P值,并于顯著性水平比較,并作出決策若P<,拒絕H02013-12-12相關(guān)系數(shù)的顯著性檢驗

(例題分析)【例9-3】檢驗銷售收入與廣告費用之間的相關(guān)系數(shù)是否顯著(0.05)提出假設(shè):H0:;H1:0計算檢驗的統(tǒng)計量3.用Excel中的【TDIST】函數(shù)得雙尾P=2.743E-09<0.05,拒絕H0,銷售收入與廣告費用之間的相關(guān)系數(shù)顯著2013-12-12相關(guān)系數(shù)的顯著性檢驗

(SPSS輸出結(jié)果)2013-12-12第1步:選擇【分析】【相關(guān)】【雙變量】第2步:將兩個變量(本例為銷售收入和廣告費用)分別選入【變量】。點擊【確定】

9.2一元線性回歸的估計和檢驗

9.2.1一元線性回歸模型

9.2.2參數(shù)的最小二乘估計

9.2.3回歸直線的擬合優(yōu)度

9.2.4顯著性檢驗第9章一元線性回歸9.2.1一元線性回歸模型9.2一元線性回歸的估計和檢驗什么是回歸分析?

(regressionanalysis)重點考察考察一個特定的變量(因變量),而把其他變量(自變量)看作是影響這一變量的因素,并通過適當(dāng)?shù)臄?shù)學(xué)模型將變量間的關(guān)系表達出來利用樣本數(shù)據(jù)建立模型的估計方程對模型進行顯著性檢驗進而通過一個或幾個自變量的取值來估計或預(yù)測因變量的取值2013-12-12一元線性回歸涉及一個自變量的回歸因變量y與自變量x之間為線性關(guān)系被預(yù)測或被解釋的變量稱為因變量(dependentvariable),用y表示用來預(yù)測或用來解釋因變量的一個或多個變量稱為自變量(independentvariable),用x表示因變量與自變量之間的關(guān)系用一個線性方程來表示2013-12-12一元線性回歸模型

(linearregressionmodel)描述因變量y如何依賴于自變量x和誤差項

的方程稱為回歸模型一元線性回歸模型可表示為

y=b0+b1x+ey是x的線性函數(shù)(部分)加上誤差項線性部分反映了由于x的變化而引起的y的變化誤差項

是隨機變量反映了除x和y之間的線性關(guān)系之外的隨機因素對y的影響是不能由x和y之間的線性關(guān)系所解釋的變異性0和1稱為模型的參數(shù)2013-12-12一元線性回歸模型

(基本假定)

因變量x與自變量y之間具有線性關(guān)系在重復(fù)抽樣中,自變量x的取值是固定的,即假定x是非隨機的誤差項滿足正態(tài)性。是一個服從正態(tài)分布的隨機變量,且期望值為0,即

~N(0,2)。對于一個給定的x值,y的期望值為E(y)=0+1x方差齊性。對于所有的x值,的方差一個特定的值,的方差也都等于2都相同。同樣,一個特定的x值,y的方差也都等于2獨立性。獨立性意味著對于一個特定的x值,它所對應(yīng)的ε與其他x值所對應(yīng)的ε不相關(guān);對于一個特定的x值,它所對應(yīng)的y值與其他x所對應(yīng)的y值也不相關(guān)2013-12-12估計的回歸方程

(estimatedregressionequation)2013-12-12總體回歸參數(shù)和

是未知的,必須利用樣本數(shù)據(jù)去估計用樣本統(tǒng)計量和代替回歸方程中的未知參數(shù)和,就得到了估計的回歸方程一元線性回歸中估計的回歸方程為其中:是估計的回歸直線在y

軸上的截距,是直線的斜率,它表示對于一個給定的x

的值,是y

的估計值,也表示x

每變動一個單位時,y的平均變動值

9.2.2參數(shù)的最小二乘估計9.2一元線性回歸的估計和檢驗參數(shù)的最小二乘估計

(methodofleastsquares)2013-12-12德國科學(xué)家KarlGauss(1777—1855)提出用最小化圖中垂直方向的誤差平方和來估計參數(shù)

使因變量的觀察值與估計值之間的誤差平方和達到最小來求得和的方法。即用最小二乘法擬合的直線來代表x與y之間的關(guān)系與實際數(shù)據(jù)的誤差比其他任何直線都小KarlGauss的最小化圖2013-12-12xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)ei=yi-yi^參數(shù)的最小二乘估計

(

和的計算公式)2013-12-12

根據(jù)最小二乘法,可得求解和的公式如下參數(shù)的最小二乘估計

(例題分析)【例9-4】根據(jù)例9-1的數(shù)據(jù),求銷售收入與廣告費用的估計的回歸方程2013-12-12第1步:選擇【工具】下拉菜單,并選擇【數(shù)據(jù)分析】選項第2步:在分析工具中選擇【回歸】,選擇【確定】第2步:當(dāng)對話框出現(xiàn)時

在【Y值輸入?yún)^(qū)域】設(shè)置框內(nèi)鍵入Y的數(shù)據(jù)區(qū)域在【X值輸入?yún)^(qū)域】設(shè)置框內(nèi)鍵入X的數(shù)據(jù)區(qū)域在【置信度】選項中給出所需的數(shù)值在【輸出選項】中選擇輸出區(qū)域在【殘差】分析選項中選擇所需的選項參數(shù)的最小二乘估計

(Excel輸出結(jié)果)【例】求銷售收入與廣告費用的估計回歸方程,并解釋回歸系數(shù)的含義2013-12-12用SPSS進行回歸第1步:選擇【分析】下拉菜單,并選擇【回歸】【線性】選項,進入主對話框第2步:在主對話框中將因變量(本例為銷售收入)選入【因變量】,將自變量(本例為廣告費用)選入【自變量】第3步:點擊【保存】

在【預(yù)測值】下選中【未標(biāo)準(zhǔn)化】(輸出點預(yù)測值)

在【預(yù)測區(qū)間】下選中【均值】和【單值】(輸出置信區(qū)間和預(yù)測區(qū)間)

在【置信區(qū)間】中選擇所要求的置信水平(隱含值95%,一般不用改變)

在【殘差】下選中【未標(biāo)準(zhǔn)化】和【標(biāo)準(zhǔn)化】(輸出殘差和標(biāo)準(zhǔn)化殘差)

點擊【繼續(xù)】回到主對話框。點擊【確定】2013-12-12參數(shù)的最小二乘估計

(SPSS輸出結(jié)果)2013-12-12參數(shù)的最小二乘估計

(例題分析)2013-12-129.2.3回歸直線的擬合優(yōu)度9.2一元線性回歸的估計和檢驗變差因變量

y的取值是不同的,y取值的這種波動稱為變差。變差來源于兩個方面由于自變量x的取值不同造成的除x以外的其他因素(如x對y的非線性影響、測量誤差等)的影響對一個具體的觀測值來說,變差的大小可以通過該實際觀測值與其均值之差來表示2013-12-12誤差分解圖2013-12-12xyy誤差平方和的分解

(誤差平方和的關(guān)系)

2013-12-12SST=SSR+SSE總平方和(SST){回歸平方和(SSR)殘差平方和(SSE){{誤差平方和的分解

(三個平方和的意義)總平方和(SST—totalsumofsquares)反映因變量的n個觀察值與其均值的總誤差回歸平方和(SSR—sumofsquaresofregression)反映自變量x

的變化對因變量y

取值變化的影響,或者說,是由于x

與y

之間的線性關(guān)系引起的y

的取值變化,也稱為可解釋的平方和殘差平方和(SSE—sumofsquaresoferror)反映除x

以外的其他因素對y

取值的影響,也稱為不可解釋的平方和或剩余平方和2013-12-12判定系數(shù)R2

(coefficientofdetermination)回歸平方和占總誤差平方和的比例2013-12-12反映回歸直線的擬合程度取值范圍在[0,1]之間R21,說明回歸方程擬合的越好;R20,說明回歸方程擬合的越差決定系數(shù)平方根等于相關(guān)系數(shù)估計標(biāo)準(zhǔn)誤差

(standarderrorofestimate)實際觀察值與回歸估計值誤差平方和的均方根反映實際觀察值在回歸直線周圍的分散狀況對誤差項的標(biāo)準(zhǔn)差的估計,是在排除了x對y的線性影響后,y隨機波動大小的一個估計量反映用估計的回歸方程預(yù)測y時預(yù)測誤差的大小

計算公式為2013-12-129.2.4顯著性檢驗9.2一元線性回歸的估計和檢驗線性關(guān)系的檢驗檢驗自變量與因變量之間的線性關(guān)系是否顯著將回歸均方(MSR)同殘差均方(MSE)加以比較,應(yīng)用F檢驗來分析二者之間的差別是否顯著回歸均方:回歸平方和SSR除以相應(yīng)的自由度(自變量的個數(shù)k)殘差均方:殘差平方和SSE除以相應(yīng)的自由度(n-k-1)2013-12-12線性關(guān)系的檢驗

(檢驗的步驟)

提出假設(shè)H0:1=0線性關(guān)系不顯著2013-12-122.計算檢驗統(tǒng)計量F確定顯著性水平,并根據(jù)分子自由度1和分母自由度n-2求統(tǒng)計量的P值作出決策:若P<,拒絕H0。表明兩個變量之間的線性關(guān)系顯著回歸系數(shù)的檢驗和推斷2013-12-12在一元線性回歸中,等價于線性關(guān)系的顯著性檢驗采用t檢驗檢驗x與y之間是否具有線性關(guān)系,或者說,檢驗自變量x對因變量y的影響是否顯著理論基礎(chǔ)是回歸系數(shù)

的抽樣分布回歸系數(shù)的檢驗和推斷

(檢驗步驟)

提出假設(shè)H0:b1=0(沒有線性關(guān)系)H1:b1

0(有線性關(guān)系)計算檢驗的統(tǒng)計量2013-12-12

確定顯著性水平,計算出統(tǒng)計量的P值,并做出決策P<,拒絕H0,表明自變量是影響因變量的一個顯著因素回歸系數(shù)的檢驗和推斷

(b1和b0的置信區(qū)間)

b1在1-置信水平下的置信區(qū)間為

b0在1-置信水平下的置信區(qū)間為2013-12-12

9.3利用回歸方程進行預(yù)測

9.3.1平均值的置信區(qū)間

9.3.2個別值的預(yù)測區(qū)間第9章一元線性回歸區(qū)間估計對于自變量

x的一個給定值x0,根據(jù)回歸方程得到因變量y的一個估計區(qū)間區(qū)間估計有兩種類型置信區(qū)間估計(confidenceintervalestimate)預(yù)測區(qū)間估計(predictionintervalestimate)2013-12-129.3.1平均值的置信區(qū)間9.3利用回歸方程進行預(yù)測平均值的置信區(qū)間利用估計的回歸方程,對于自變量x的一個給定值x0

,求出因變量y

的平均值的估計區(qū)間,這一估計區(qū)間稱為置信區(qū)間(confidenceinterval)

E(y0)

在1-置信水平下的置信區(qū)間為2013-12-12式中:se為估計標(biāo)準(zhǔn)誤差個別值的預(yù)測區(qū)間利用估計的回歸方程,對于自變量x的一個給定值x0

,求出因變量y

的一個個別值的估計區(qū)間,這一區(qū)間稱為預(yù)測區(qū)間(predictioninterval)

y0在1-置信水平下的預(yù)測區(qū)間為2013-12-12注意!置信區(qū)間和預(yù)測區(qū)間2013-12-12xpyxx預(yù)測上限置信上限預(yù)測下限置信下限用SPSS進行回歸2013-12-12第1步:選擇【分析】下拉菜單,并選擇【回歸】【線性】選項,進入主對話框第2步:在主對話框中將因變量(本例為銷售收入)選入【因變量】,將自變量(本例為廣告費用)選入【自變量】第3步:點擊【保存】

在【預(yù)測值】下選中【未標(biāo)準(zhǔn)化】(輸出點預(yù)測值)

在【預(yù)測區(qū)間】下選中【均值】和【單值】(輸出置信區(qū)間和預(yù)測區(qū)間)

在【置信區(qū)間】中選擇所要求的置信水平(隱含值95%,一般不用改變)

在【殘差】下選中【未標(biāo)準(zhǔn)化】和【標(biāo)準(zhǔn)化】(輸出殘差和標(biāo)準(zhǔn)化殘差)

點擊【繼續(xù)】回到主對話框。點擊【確定】置信區(qū)間和預(yù)測區(qū)間

(例題分析)2013-12-12點預(yù)測值置信線預(yù)測線用SPSS做區(qū)間圖

第1步:點擊【Graphs】【Interactive-Scatterplot】第2步:點擊【2DCoordine】,將各坐標(biāo)軸變量拖入相應(yīng)坐標(biāo)軸第3步:點擊【Fit】,在【method】下選擇【Regression】,在【PredictionLines】下選擇【Mean】和【Individual】。點擊【確定】2013-12-12置信區(qū)間和預(yù)測區(qū)間

(例題分析)2013-12-12

9.4用殘差檢驗?zāi)P偷募俣?/p>

9.4.1檢驗方差齊性

9.4.2檢驗正態(tài)性第

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論