spss第五講回歸分析課件_第1頁(yè)
spss第五講回歸分析課件_第2頁(yè)
spss第五講回歸分析課件_第3頁(yè)
spss第五講回歸分析課件_第4頁(yè)
spss第五講回歸分析課件_第5頁(yè)
已閱讀5頁(yè),還剩199頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第五講回歸分析、線性回歸和曲線估計(jì)第一部分回歸分析第二部分線性回歸第三部分曲線估計(jì)第五講回歸分析、線性回歸和曲線估計(jì)第一部分第十講回顧

在對(duì)其他變量的影響進(jìn)行控制的條件下,衡量多個(gè)變量中某兩個(gè)變量之間的線性相關(guān)程度的指標(biāo)稱為偏相關(guān)系數(shù)。第一部分第十講回顧在對(duì)其他變量的影響進(jìn)行偏相關(guān)分析的公式表達(dá)偏相關(guān)分析的公式表達(dá)什么是回歸分析?1、重點(diǎn)考察一個(gè)特定的變量(因變量),而把其他變量(自變量)看作是影響這一變量的因素,并通過適當(dāng)?shù)臄?shù)學(xué)模型將變量間的關(guān)系表達(dá)出來(lái)2、利用樣本數(shù)據(jù)建立模型的估計(jì)方程3、對(duì)模型進(jìn)行顯著性檢驗(yàn)4、進(jìn)而通過一個(gè)或幾個(gè)自變量的取值來(lái)估計(jì)或預(yù)測(cè)因變量的取值第一部分回歸分析

什么是回歸分析?1、重點(diǎn)考察一個(gè)特定的變量(因變量),而把其回歸分析的模型

一、分類按是否線性分:線性回歸模型和非線性回歸模型按自變量個(gè)數(shù)分:簡(jiǎn)單的一元回歸和多元回歸二、基本的步驟利用SPSS得到模型關(guān)系式,是否是我們所要的?要看回歸方程的顯著性檢驗(yàn)(F檢驗(yàn))

回歸系數(shù)b的顯著性檢驗(yàn)(T檢驗(yàn))

擬合程度R2

(注:相關(guān)系數(shù)的平方,一元回歸用RSquare,多元回歸用AdjustedRSquare)回歸分析的模型一、分類回歸分析的過程

在回歸過程中包括:Liner:線性回歸CurveEstimation:曲線估計(jì)

BinaryLogistic:二分變量邏輯回歸

MultinomialLogistic:多分變量邏輯回歸;

Ordinal序回歸;Probit:概率單位回歸;

Nonlinear:非線性回歸;

WeightEstimation:加權(quán)估計(jì);

2-StageLeastsquares:二段最小平方法;

OptimalScaling最優(yōu)編碼回歸我們只講前面2個(gè)簡(jiǎn)單的(一般教科書的講法)回歸分析的過程在回歸過程中包括:第二部分線性回歸

線性回歸分為一元線性回歸和多元線性回歸。一、一元線性回歸:1、涉及一個(gè)自變量的回歸2、因變量y與自變量x之間為線性關(guān)系被預(yù)測(cè)或被解釋的變量稱為因變量(dependentvariable),用y表示用來(lái)預(yù)測(cè)或用來(lái)解釋因變量的一個(gè)或多個(gè)變量稱為自變量(independentvariable),用x表示3、因變量與自變量之間的關(guān)系用一個(gè)線性方程來(lái)表示第二部分線性回歸線性回歸分為一元線性回歸和多元線性回歸的過程

一元線性回歸模型確定過程一、做散點(diǎn)圖(Graphs->Scatter->Simple)

目的是為了以便進(jìn)行簡(jiǎn)單地觀測(cè)(如:

Salary與Salbegin的關(guān)系)。二、建立方程若散點(diǎn)圖的趨勢(shì)大概呈線性關(guān)系,可以建立線性方程,若不呈線性分布,可建立其它方程模型,并比較R2(-->1)來(lái)確定一種最佳方程式(曲線估計(jì))。多元線性回歸一般采用逐步回歸方法-Stepwise。線性回歸的過程一元線性回歸模型確定過(一)一元線性回歸模型

(linearregressionmodel)1、描述因變量y如何依賴于自變量x和誤差項(xiàng)

的方程稱為回歸模型2、一元線性回歸模型可表示為

y=b0+b1x+e注:線性部分反映了由于x的變化而引起的y的變化;誤差項(xiàng)反映了除x和y之間的線性關(guān)系之外的隨機(jī)因素對(duì)y的影響,它是不能由x和y之間的線性關(guān)系所解釋的變異性。Y是x的線性函數(shù)(部分)加上誤差項(xiàng)0和1稱為模型的參數(shù)誤差項(xiàng)

是隨機(jī)變量(一)一元線性回歸模型

(linearregressio一元線性回歸模型(基本假定)1、因變量x與自變量y之間具有線性關(guān)系2、在重復(fù)抽樣中,自變量x的取值是固定的,即假定x是非隨機(jī)的3、誤差項(xiàng)滿足條件一元線性回歸模型(基本假定)1、因變量x與自變量y之間具有線誤差項(xiàng)滿足條件正態(tài)性。是一個(gè)服從正態(tài)分布的隨機(jī)變量,且期望值為0,即

~N(0,2)。對(duì)于一個(gè)給定的x值,y的期望值為E(y)=0+1x方差齊性。對(duì)于所有的x值,的方差一個(gè)特定的值,的方差也都等于2都相同。同樣,一個(gè)特定的x值,y的方差也都等于2獨(dú)立性。獨(dú)立性意味著對(duì)于一個(gè)特定的x值,它所對(duì)應(yīng)的ε與其他x值所對(duì)應(yīng)的ε不相關(guān);對(duì)于一個(gè)特定的x值,它所對(duì)應(yīng)的y值與其他x所對(duì)應(yīng)的y值也不相關(guān)誤差項(xiàng)滿足條件正態(tài)性。是一個(gè)服從正態(tài)分布的隨機(jī)變量估計(jì)的回歸方程

(estimatedregressionequation)總體回歸參數(shù)β0和β1是未知的,必須利用樣本數(shù)據(jù)去估計(jì)用樣本統(tǒng)計(jì)量和代替回歸方程中的未知參數(shù)β0和β1

,就得到了估計(jì)的回歸方程一元線性回歸中估計(jì)的回歸方程為其中:是估計(jì)的回歸直線在y軸上的截距,是直線的斜率,它表示對(duì)于一個(gè)給定的x的值,是y的估計(jì)值,也表示x每變動(dòng)一個(gè)單位時(shí),y的平均變動(dòng)值xy??1b0?b+=0?by??1b?1b0?b估計(jì)的回歸方程

(estimatedregression(二)參數(shù)的最小二乘估計(jì)德國(guó)科學(xué)家KarlGauss(1777—1855)提出用最小化圖中垂直方向的誤差平方和來(lái)估計(jì)參數(shù)使因變量的觀察值與估計(jì)值之間的誤差平方和達(dá)到最小來(lái)求得和的方法。即0?b?1b最小=--=-??==niiiniixyyy121012)??()?(bb注:用最小二乘法擬合的直線來(lái)代表x與y之間的關(guān)系與實(shí)際數(shù)據(jù)的誤差比其他任何直線都小。(二)參數(shù)的最小二乘估計(jì)德國(guó)科學(xué)家KarlGauss(1KarlGauss的最小化圖

(x2,y2)

(x1,y1)

(xi,yi)^ei=yi-yi

(xn,yn)yxKarlGauss的最小化圖(x2,y2)(x1參數(shù)的最小二乘估計(jì)

(

和的計(jì)算公式)根據(jù)最小二乘法,可得求解和的公式如下:0?b1?b0?b1?b參數(shù)的最小二乘估計(jì)

(和的計(jì)算公式)根據(jù)最(三)回歸直線的擬合優(yōu)度一、變差1、因變量y的取值是不同的,y取值的這種波動(dòng)稱為變差。變差來(lái)源于兩個(gè)方面由于自變量x的取值不同造成的除x以外的其他因素(如x對(duì)y的非線性影響、測(cè)量誤差等)的影響2、對(duì)一個(gè)具體的觀測(cè)值來(lái)說,變差的大小可以通過該實(shí)際觀測(cè)值與其均值之差來(lái)表示yy-(三)回歸直線的擬合優(yōu)度一、變差yy-誤差分解圖xyy誤差分解圖xyy誤差平方和的分解

(誤差平方和的關(guān)系)

SST=SSR+SSE總平方和(SST){回歸平方和(SSR)殘差平方和(SSE){{誤差平方和的分解

(誤差平方和的關(guān)系)SST=SSR誤差平方和的分解

(三個(gè)平方和的意義)1、總平方和(SST—totalsumofsquares)反映因變量的n個(gè)觀察值與其均值的總誤差2、回歸平方和(SSR—sumofsquaresofregression)反映自變量x的變化對(duì)因變量y取值變化的影響,或者說,是由于x與y之間的線性關(guān)系引起的y的取值變化,也稱為可解釋的平方和3、殘差平方和(SSE—sumofsquaresoferror)反映除x以外的其他因素對(duì)y取值的影響,也稱為不可解釋的平方和或剩余平方和誤差平方和的分解

(三個(gè)平方和的意義)1、總平方和(SST判定系數(shù)R2

(coefficientofdetermination)

回歸平方和占總誤差平方和的比例()()??==--==niiniiyyyySSTSSRR12122?1、反映回歸直線的擬合程度2、取值范圍在[0,1]之間3、R2

1,說明回歸方程擬合的越好;

R20,說明回歸方程擬合的越差4、決定系數(shù)平方根等于相關(guān)系數(shù)判定系數(shù)R2

(coefficientofdeter估計(jì)標(biāo)準(zhǔn)誤差

(standarderrorofestimate)1、實(shí)際觀察值與回歸估計(jì)值誤差平方和的均方根2、反映實(shí)際觀察值在回歸直線周圍的分散狀況3、對(duì)誤差項(xiàng)的標(biāo)準(zhǔn)差的估計(jì),是在排除了x對(duì)y的線性影響后,y隨機(jī)波動(dòng)大小的一個(gè)估計(jì)量4、反映用估計(jì)的回歸方程預(yù)測(cè)y時(shí)預(yù)測(cè)誤差的大小5、計(jì)算公式為(k為自變量個(gè)數(shù))()MSEknSSEknyysniiie=--=---=?=11?12估計(jì)標(biāo)準(zhǔn)誤差

(standarderrorofesti(四)顯著性檢驗(yàn)線性關(guān)系的檢驗(yàn)1、檢驗(yàn)自變量與因變量之間的線性關(guān)系是否顯著;2、將回歸均方(MSR)同殘差均方(MSE)加以比較,應(yīng)用F檢驗(yàn)來(lái)分析二者之間的差別是否顯著回歸均方(MSR):回歸平方和SSR除以相應(yīng)的自由度(自變量的個(gè)數(shù)k)殘差均方(MSE):殘差平方和SSE除以相應(yīng)的自由度(n-k-1)(四)顯著性檢驗(yàn)線性關(guān)系的檢驗(yàn)線性關(guān)系的檢驗(yàn)

(檢驗(yàn)的步驟)

1.提出假設(shè)H0:1=0線性關(guān)系不顯著2.計(jì)算檢驗(yàn)統(tǒng)計(jì)量F)1,1(~)1(1--=--=knFMSEMSRknSSESSRF確定顯著性水平,并根據(jù)分子自由度1和分母自由度n-2求統(tǒng)計(jì)量的P值(一元)作出決策:若P<,拒絕H0。表明兩個(gè)變量之間的線性關(guān)系顯著線性關(guān)系的檢驗(yàn)

(檢驗(yàn)的步驟)1.提出假設(shè)2.回歸系數(shù)的檢驗(yàn)和推斷檢驗(yàn)x與y之間是否具有線性關(guān)系,或者說,檢驗(yàn)自變量x對(duì)因變量y的影響是否顯著理論基礎(chǔ)是回歸系數(shù)

的抽樣分布1?b在一元線性回歸中,等價(jià)于線性關(guān)系的顯著性檢驗(yàn)采用t檢驗(yàn)回歸系數(shù)的檢驗(yàn)和推斷檢驗(yàn)x與y之間是否具有線性關(guān)系,回歸系數(shù)的檢驗(yàn)和推斷

(樣本統(tǒng)計(jì)量的分布)

是根據(jù)最小二乘法求出的樣本統(tǒng)計(jì)量,它有自己的分布的分布具有如下性質(zhì)分布形式:正態(tài)分布數(shù)學(xué)期望:標(biāo)準(zhǔn)差:由于未知,需用其估計(jì)量se來(lái)代替得到的估計(jì)的標(biāo)準(zhǔn)差1?b1?b11)?(bb=E()?-=2?1xxissb()?-=2?1xxssieb1?b回歸系數(shù)的檢驗(yàn)和推斷

(樣本統(tǒng)計(jì)量的分布)是根回歸系數(shù)的檢驗(yàn)和推斷

(檢驗(yàn)步驟)

1.提出假設(shè)H0:b1

=0(沒有線性關(guān)系)H1:b1

0(有線性關(guān)系)2.計(jì)算檢驗(yàn)的統(tǒng)計(jì)量確定顯著性水平,計(jì)算出統(tǒng)計(jì)量的P值,并做出決策P<,拒絕H0,表明自變量是影響因變量的一個(gè)顯著因素)2(~?1?1-=ntstbb回歸系數(shù)的檢驗(yàn)和推斷

(檢驗(yàn)步驟)1.回歸系數(shù)的檢驗(yàn)和推斷

(b1和b0的置信區(qū)間)

1.b1在1-置信水平下的置信區(qū)間為2.b0在1-置信水平下的置信區(qū)間為?=-+-±niiexxxnsnt1220)()(1)2(?ab?=--±niiexxsnt1221)()2(?ab回歸系數(shù)的檢驗(yàn)和推斷

(b1和b0的置信區(qū)間)1.b(五)利用回歸方程進(jìn)行預(yù)測(cè)1.平均值的置信區(qū)間2.個(gè)別值的預(yù)測(cè)區(qū)間(五)利用回歸方程進(jìn)行預(yù)測(cè)區(qū)間估計(jì)

平均值的置信區(qū)間利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0

,求出因變量y

的平均值的估計(jì)區(qū)間,這一估計(jì)區(qū)間稱為置信區(qū)間(confidenceinterval)

E(y0)

在1-置信水平下的置信區(qū)間為式中:se為估計(jì)標(biāo)準(zhǔn)誤差區(qū)間估計(jì)

平均值的置信區(qū)間利用估計(jì)的回歸方程,對(duì)于自變量x個(gè)別值的預(yù)測(cè)區(qū)間利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0

,求出因變量y

的一個(gè)個(gè)別值的估計(jì)區(qū)間,這一區(qū)間稱為預(yù)測(cè)區(qū)間(predictioninterval)

y0在1-置信水平下的預(yù)測(cè)區(qū)間為注意!個(gè)別值的預(yù)測(cè)區(qū)間利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給置信區(qū)間和預(yù)測(cè)區(qū)間xpyxx預(yù)測(cè)上限置信上限預(yù)測(cè)下限置信下限置信區(qū)間和預(yù)測(cè)區(qū)間xpyxx預(yù)測(cè)上限置信上限預(yù)測(cè)下限置信下用殘差證實(shí)模型的假定

回歸模型中假定ε期望值為0,方差相等且服從正態(tài)分布的一個(gè)隨機(jī)統(tǒng)計(jì)量。但是如果關(guān)于ε的假定不成立的話,那么隨后所做的檢驗(yàn)、估計(jì)、預(yù)測(cè)也許不成立。所有需要進(jìn)行殘差分析確定ε的假定是否成立。用殘差證實(shí)模型的假定主要包括:檢驗(yàn)方差齊性檢驗(yàn)正態(tài)性用殘差證實(shí)模型的假定

回歸模型中假定ε期

一、檢驗(yàn)方差齊性

殘差(residual)1、因變量的觀測(cè)值與根據(jù)估計(jì)的回歸方程求出的預(yù)測(cè)值之差,用e表示2、反映了用估計(jì)的回歸方程去預(yù)測(cè)而引起的誤差3、可用于確定有關(guān)誤差項(xiàng)的假定是否成立4、用于檢測(cè)有影響的觀測(cè)值iiiyye?-=

一、檢驗(yàn)方差齊性

殘差(residual)1、因變量的觀測(cè)殘差圖

(residualplot)1、表示殘差的圖形關(guān)于x的殘差圖關(guān)于y的殘差圖標(biāo)準(zhǔn)化殘差圖2、用于判斷誤差的假定是否成立3、檢測(cè)有影響的觀測(cè)值殘差圖

(residualplot)1、表示殘差的圖形殘差圖

(形態(tài)及判別)(a)滿意模式殘差x0(b)非常數(shù)方差殘差x0(c)模型不合適殘差x0殘差圖

(形態(tài)及判別)(a)滿意模式二、檢驗(yàn)正態(tài)性

標(biāo)準(zhǔn)化殘差(standardizedresidual)1、殘差除以它的標(biāo)準(zhǔn)差2、也稱為Pearson殘差或半學(xué)生化殘差(semi-studentizedresiduals)3、計(jì)算公式為eiieiesyysezi?-==二、檢驗(yàn)正態(tài)性

標(biāo)準(zhǔn)化殘差(standardizedres標(biāo)準(zhǔn)化殘差圖用以直觀地判斷誤差項(xiàng)服從正態(tài)分布這一假定是否成立若假定成立,標(biāo)準(zhǔn)化殘差的分布也應(yīng)服從正態(tài)分布在標(biāo)準(zhǔn)化殘差圖中,大約有95%的標(biāo)準(zhǔn)化殘差在-2到+2之間標(biāo)準(zhǔn)化殘差圖用以直觀地判斷誤差項(xiàng)服從正態(tài)分布這一假定是否SPSS線性回歸分析多元線性回歸分析基本結(jié)構(gòu)與一元線性回歸相同。而他們?cè)赟PSS下的功能菜單是集成在一起的。下面通過SPSS操作步驟解釋線性回歸分析問題。SPSS線性回歸分析多元線性回歸分析基本結(jié)構(gòu)與一元線性回歸SPSS過程步驟一:錄入數(shù)據(jù),選擇分析菜單中的Regression==>liner

打開線性回歸分析對(duì)話框;步驟二:選擇被解釋變量和解釋變量。其中因變量列表框中為被解釋變量,自變量為回歸分析解釋變量。注:要對(duì)不同的自變量采用不同引入方法時(shí),選NEXT按鈕把自變量歸入不同自變量塊中。SPSS過程步驟一:錄入數(shù)據(jù),選擇分析菜單中的Regress第三步:選擇個(gè)案標(biāo)簽。在變量列表中選擇變量至個(gè)案標(biāo)簽中,而被選擇的變量的標(biāo)簽用于在圖形中標(biāo)注點(diǎn)的值。第四步:選擇加權(quán)二乘法(WLS)。在變量列表框中選擇變量至WLS中。但是該選項(xiàng)僅在被選變量為權(quán)變量時(shí)選擇。第五步:如果點(diǎn)擊OK,可以執(zhí)行線性回歸分析操作。第三步:選擇個(gè)案標(biāo)簽。在變量列表中選擇變量至個(gè)案標(biāo)簽中,而被Method選項(xiàng)Enter:強(qiáng)迫引入法,默認(rèn)選項(xiàng)。全部被選變量一次性進(jìn)入回歸模型。Stepwise:強(qiáng)迫剔除法。每一次引入變量時(shí),概率F最小值的變量將引入回歸方程,如果已引入回歸方程的變量的F大于設(shè)定值,將被剔除回歸方程。當(dāng)無(wú)變量被引入或剔除,時(shí)終止回歸方程Remove:剔除變量。不進(jìn)入方程模型的被選變量剔除。Backward:向后消去Forward:向前引入Method選項(xiàng)Enter:強(qiáng)迫引入法,默認(rèn)選項(xiàng)。全部被選變Rule選項(xiàng)選擇一個(gè)用于指定分析個(gè)案的選擇規(guī)則的變量。選擇規(guī)則包括:等于、不等于、大于、小于、大于或等于、小于或等于。Value中輸入相應(yīng)變量的設(shè)定規(guī)則的臨界值。Rule選項(xiàng)選擇一個(gè)用于指定分析個(gè)案的選擇規(guī)則的變量。Statistics

選項(xiàng)回歸系數(shù)框估計(jì)值:顯示回歸系數(shù)的估計(jì)值β、回歸系數(shù)的標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)化回歸系數(shù)、回歸系數(shù)的β的t估計(jì)值和雙尾顯著性水平。置信區(qū)間協(xié)方差矩陣模型擬合:復(fù)相關(guān)系數(shù)、判定系數(shù)、調(diào)整R2、估計(jì)值的標(biāo)準(zhǔn)誤及方差分析R2改變量:增加或刪除一個(gè)自變量產(chǎn)生的改變量描述性統(tǒng)計(jì)量:變量的均數(shù)、標(biāo)準(zhǔn)差、相關(guān)系數(shù)矩陣、單尾檢驗(yàn)部分及偏相關(guān)系數(shù):顯示零階相關(guān)、偏相關(guān)、部分相關(guān)系數(shù)共線性診斷:顯示變量容差、方差膨脹因子和共線性的診斷表殘差統(tǒng)計(jì)量D-W檢驗(yàn)統(tǒng)計(jì)量:顯示殘差相關(guān)的D-W檢驗(yàn)和殘差與預(yù)測(cè)值的綜述統(tǒng)計(jì)。個(gè)案診斷:1、超過n倍標(biāo)準(zhǔn)差以上的個(gè)案為奇異值;2、顯示所有變量的標(biāo)準(zhǔn)化殘差、觀測(cè)值和預(yù)測(cè)值、殘差Statistics

選項(xiàng)回歸系數(shù)框模型擬合:復(fù)相關(guān)系數(shù)、Plots選項(xiàng)

該對(duì)話框可以分析資料的正態(tài)性、線性和方差齊性,還可以檢測(cè)奇異值或異常值等。1、因變量2、標(biāo)準(zhǔn)化預(yù)測(cè)值3、標(biāo)準(zhǔn)化殘差4、刪除殘差5、調(diào)整預(yù)測(cè)值6、Student殘差7、Student刪除殘差Histogram:標(biāo)準(zhǔn)化殘差的直方圖,并給出正態(tài)曲線。Normalprobalityplot:標(biāo)準(zhǔn)化殘差的正態(tài)概率圖Produceallpartialplots:產(chǎn)生所有偏殘差圖,生成每個(gè)自變量殘差與因變量殘差的散點(diǎn)圖。Plots選項(xiàng)

該對(duì)話框可以分析資料的正態(tài)性、線性和方差齊性Save對(duì)話框預(yù)測(cè)值包括非標(biāo)準(zhǔn)化的預(yù)測(cè)值、標(biāo)準(zhǔn)化的預(yù)測(cè)值、調(diào)整預(yù)測(cè)值、預(yù)測(cè)值均數(shù)標(biāo)準(zhǔn)誤距離包括自變量個(gè)案值與所有個(gè)案平均值距離、一個(gè)個(gè)案參與計(jì)算回歸線系數(shù)時(shí),所有個(gè)案殘差變化的大小。杠桿值殘差非標(biāo)準(zhǔn)化殘差標(biāo)準(zhǔn)化殘差Student殘差刪除殘差Student刪除殘差影響統(tǒng)計(jì)量DFBeta值,刪除一個(gè)個(gè)案后回歸系數(shù)改變的大小。標(biāo)準(zhǔn)化DfBetaDfFit值,擬合值之差標(biāo)準(zhǔn)化DfFit協(xié)方差矩陣的比率預(yù)測(cè)區(qū)間平均預(yù)測(cè)區(qū)間個(gè)體預(yù)測(cè)區(qū)間Save對(duì)話框預(yù)測(cè)值距離殘差影響統(tǒng)計(jì)量預(yù)測(cè)區(qū)間Options選項(xiàng)逐步回歸方法準(zhǔn)則使用F顯著水平值Entry:當(dāng)候選變量中最大F值概率小于等于引入值時(shí),引入相應(yīng)變量。Removal:剔除相應(yīng)變量Options選項(xiàng)逐步回歸方法準(zhǔn)則實(shí)例分析例:某單位對(duì)8名女工進(jìn)行體檢,體檢項(xiàng)目包括體重和肺活量,數(shù)據(jù)如下:利用回歸分析描述其關(guān)系。體重4242464646505050肺活量2.552.22.752.42.82.813.413.1實(shí)例分析例:某單位對(duì)8名女工進(jìn)行體檢,體檢項(xiàng)目包括體重和肺活spss第五講回歸分析課件結(jié)果分析描述性統(tǒng)計(jì)量結(jié)果分析描述性統(tǒng)計(jì)量相關(guān)系數(shù)表中Pearson相關(guān)系數(shù)為0.613,單尾顯著性檢驗(yàn)的概率p值為0.000,小于0.05.所以體重和肺活量之間具有較強(qiáng)的相關(guān)性相關(guān)系數(shù)表中Pearson相關(guān)系數(shù)為0.613,單尾顯著性檢引入或剔除變量表表中顯示回歸分析的方法以及變量被剔除或引入的信息。Method項(xiàng)為Enter,表明顯示回歸方法用得是強(qiáng)迫引入法引入變量。這里自變量只有一個(gè),所以此表意義不大。引入或剔除變量表表中顯示回歸分析的方法以及變量被剔除或引入的模型摘要兩變量相關(guān)系數(shù)為0.613,判定系數(shù)為0.375,調(diào)整判定系數(shù)為0.352,估計(jì)值的標(biāo)準(zhǔn)誤差為360.997模型摘要兩變量相關(guān)系數(shù)為0.613,判定系數(shù)為0.375,調(diào)方差分析表該表為回歸分析的方差分析表??梢钥闯龌貧w的均方為2115016.203,剩余的均方為130318.685,F(xiàn)檢驗(yàn)統(tǒng)計(jì)量的觀察值為16.230,p值為0.000小于0.05,可以認(rèn)為體重和肺活量之間存在線性關(guān)系。方差分析表該表為回歸分析的方差分析表??梢钥闯龌貧w的均方為2回歸系數(shù)下表給出了回歸方程中的參數(shù)和常數(shù)項(xiàng)的估計(jì)值。其中常數(shù)項(xiàng)系數(shù)為405.819,回歸系數(shù)為47.835,,線性回歸參數(shù)的標(biāo)準(zhǔn)誤差為11.874,標(biāo)準(zhǔn)化回歸系數(shù)為0.613,回歸系數(shù)t檢驗(yàn)的t統(tǒng)計(jì)量觀察值為4.029,t檢驗(yàn)的p值為0.00,小于0.05可以認(rèn)為回歸系數(shù)有顯著意義回歸系數(shù)下表給出了回歸方程中的參數(shù)和常數(shù)項(xiàng)的估計(jì)值。其中常數(shù)回歸診斷下表對(duì)全部的觀察單位進(jìn)行回歸診斷,結(jié)果表明,每一例的標(biāo)準(zhǔn)化殘差、因變量觀測(cè)值和預(yù)測(cè)值以及殘差回歸診斷下表對(duì)全部的觀察單位進(jìn)行回歸診斷,結(jié)果表明,每一例的殘差統(tǒng)計(jì)量表中顯示了預(yù)測(cè)值、標(biāo)準(zhǔn)化預(yù)測(cè)值、殘差、標(biāo)準(zhǔn)化殘差等統(tǒng)計(jì)量的最小值、最大值、均數(shù)、標(biāo)準(zhǔn)差殘差統(tǒng)計(jì)量表中顯示了預(yù)測(cè)值、標(biāo)準(zhǔn)化預(yù)測(cè)值、殘差、標(biāo)準(zhǔn)化殘差等回歸標(biāo)準(zhǔn)化殘差的直方圖在回歸標(biāo)準(zhǔn)化殘差的直方圖中,正態(tài)曲線也被顯示,用來(lái)判斷標(biāo)準(zhǔn)化殘差是否呈正態(tài)分布回歸標(biāo)準(zhǔn)化殘差的直方圖在回歸標(biāo)準(zhǔn)化殘差的直方圖中,正態(tài)曲線也回歸標(biāo)準(zhǔn)化的正態(tài)P-P圖圖中給出了觀察值的殘差分布與假設(shè)的正態(tài)分布比較,如果標(biāo)準(zhǔn)化殘差呈正態(tài)分布,則標(biāo)準(zhǔn)化殘差點(diǎn)應(yīng)該分布在直線上或靠近直線回歸標(biāo)準(zhǔn)化的正態(tài)P-P圖圖中給出了觀察值的殘差分布與假設(shè)的正因變量與回歸標(biāo)準(zhǔn)化預(yù)測(cè)值的散點(diǎn)圖其中橫坐標(biāo)變量為標(biāo)準(zhǔn)化預(yù)測(cè)值因變量與回歸標(biāo)準(zhǔn)化預(yù)測(cè)值的散點(diǎn)圖其中橫坐標(biāo)變量為標(biāo)準(zhǔn)化預(yù)測(cè)值數(shù)據(jù)編輯窗口新增變量從表中可以看到非標(biāo)準(zhǔn)化預(yù)測(cè)值,非標(biāo)準(zhǔn)化殘差,預(yù)測(cè)值均數(shù)的標(biāo)準(zhǔn)誤差,均值的預(yù)測(cè)區(qū)間、個(gè)體預(yù)測(cè)區(qū)間。數(shù)據(jù)編輯窗口新增變量從表中可以看到非標(biāo)準(zhǔn)化預(yù)測(cè)值,非標(biāo)準(zhǔn)化殘?jiān)谑攀兰o(jì)四、五十年代,蘇格蘭物理學(xué)家JamesD.Forbes,試圖通過水的沸點(diǎn)來(lái)估計(jì)海拔高度。由于可以通過氣壓來(lái)估計(jì)海拔,他在阿爾卑斯山以及蘇格蘭收集了沸點(diǎn)及海拔的數(shù)據(jù)如表所示?,F(xiàn)在通過線形回歸擬合氣壓與沸點(diǎn)的關(guān)系。

在十九世紀(jì)四、五十年代,蘇格蘭物理學(xué)家JamesD.For散點(diǎn)圖散點(diǎn)圖執(zhí)行【Analyze】/【Regression】/【Linear】命令,彈出【Linear】對(duì)話框

執(zhí)行【Analyze】/【Regression】/【Line程序程序結(jié)果解讀模型擬合度檢驗(yàn)結(jié)果解讀方差分析表方差分析表回歸分析結(jié)果回歸分析結(jié)果對(duì)殘差統(tǒng)計(jì)量的分析數(shù)據(jù)中無(wú)離群值,且數(shù)據(jù)的標(biāo)準(zhǔn)差比較小,可以認(rèn)為模型是健康的。對(duì)殘差統(tǒng)計(jì)量的分析數(shù)據(jù)中無(wú)離群值,且數(shù)據(jù)的標(biāo)準(zhǔn)差比較小,可以殘差統(tǒng)計(jì)量檢驗(yàn)殘差統(tǒng)計(jì)量檢驗(yàn)多元線性回歸的例子某大型金融機(jī)構(gòu)中做了一項(xiàng)關(guān)于雇員對(duì)其主管滿意度的調(diào)查,其中一個(gè)問題設(shè)計(jì)為對(duì)主管的工作業(yè)績(jī)的綜合評(píng)價(jià),另外若干個(gè)問題涉及主管與其雇員間相互關(guān)系的具體方面。該研究試圖解釋主管性格與雇員對(duì)其整體滿意度之間的關(guān)系。多元線性回歸的例子某大型金融機(jī)構(gòu)中做了一項(xiàng)關(guān)于雇員對(duì)其主管滿雇員對(duì)其主管滿意度的調(diào)查雇員對(duì)其主管滿意度的調(diào)查spss第五講回歸分析課件模型擬合度檢驗(yàn)?zāi)P蛿M合度檢驗(yàn)方差分析方差分析回歸分析結(jié)果擬合結(jié)果為:Y=A*X1+B*X2+C**X3+D?回歸分析結(jié)果擬合結(jié)果為:Y=A*X1+B*X2+C**X3+結(jié)果解讀剔除變量列表結(jié)果解讀共線性檢驗(yàn)指標(biāo)共線性檢驗(yàn)指標(biāo)共線性檢驗(yàn)結(jié)果共線性檢驗(yàn)結(jié)果第四部分曲線估計(jì)基本原理兩變量之間的關(guān)系并不總是以線性形式表現(xiàn)出來(lái)的,更多的時(shí)候呈現(xiàn)出非線性關(guān)系,利用圖形可表示為曲線。對(duì)非線性關(guān)系無(wú)法直接通過建立線性回歸模型解決。雖然如此。但仍然存在一些非線性關(guān)系可以通過變量變換化成線性關(guān)系,并最終形成變換后的線性模型。第四部分曲線估計(jì)基本原理SPSS過程第一步:錄入數(shù)據(jù),選擇分析菜單中的Regression==>liner

打開線性曲線估計(jì)對(duì)話框。第二步:選擇被解釋變量和解釋變量SPSS過程第一步:錄入數(shù)據(jù),選擇分析菜單中的Regress第三步:選擇曲線估計(jì)模型Linear:擬合直線方程,實(shí)際上與Linear過程的二元直線回歸相同;Quadratic:擬合二次方程Y=b0+b1t+b2t2;Compound:擬合復(fù)合曲線模型Y=b0X(

b1)t

;Growth:擬合等比級(jí)數(shù)曲線模型Y=exp(b0+b1t);Logarithmic:擬合對(duì)數(shù)方程Y=b0+b1lnt;第三步:選擇曲線估計(jì)模型Cubic:擬合三次方程Y=b0+b1t+b2t2+b3t3;S:擬合S形曲線Y=exp(b0+b1/t);Exponential:擬合指數(shù)方程Y=b0exp(b1t);Inverse:數(shù)據(jù)按Y=b0+b1/t進(jìn)行變換;Power:擬合乘冪曲線模型Y=b0Xb1;Logistic:擬合Logistic曲線模型Y=1/(

1/u+b0(b1)t),如選擇該線型則要求輸入上界。Cubic:擬合三次方程Y=b0+b1t+b2t2+b3Save選項(xiàng)預(yù)測(cè)個(gè)案,用于設(shè)定值變量為時(shí)間序列時(shí)的預(yù)測(cè)值保存變量Save選項(xiàng)預(yù)測(cè)個(gè)案,用于設(shè)定值變量為時(shí)間序列時(shí)的預(yù)測(cè)值保存實(shí)例在不同溫度下,對(duì)金屬?gòu)?qiáng)度進(jìn)行了8次測(cè)試,數(shù)據(jù)如下利用曲線參數(shù)估計(jì)方法分析溫度和強(qiáng)度的關(guān)系溫度50100150200250300400500強(qiáng)度0.9770.5660.2840.1720.1280.0720.0290.014實(shí)例在不同溫度下,對(duì)金屬?gòu)?qiáng)度進(jìn)行了8次測(cè)試,數(shù)據(jù)如下溫度50spss第五講回歸分析課件結(jié)果分析線性模型的主要結(jié)果模型摘要該表顯示模型的擬合情況。其中判定系數(shù)為0.67375,調(diào)整系數(shù)為0.61938,估計(jì)值的標(biāo)準(zhǔn)誤差為93.909結(jié)果分析線性模型的主要結(jié)果方差分析表從表中可以看出,回歸的均方為109273.91,剩余的均方為8818.93,F(xiàn)檢驗(yàn)統(tǒng)計(jì)量的觀察值為12.391,p值為0.125方差分析表從表中可以看出,回歸的均方為109273.91,?;貧w系數(shù)常數(shù)項(xiàng)系數(shù)為348.69,回歸系數(shù)為-374.43,線性回歸參數(shù)的標(biāo)準(zhǔn)誤差為106.37,標(biāo)準(zhǔn)化回歸系數(shù)為-0.821回歸系數(shù)常數(shù)項(xiàng)系數(shù)為348.69,回歸系數(shù)為-374.43,三次函數(shù)模型的主要結(jié)果模型摘要判定系數(shù)是多少?校正系數(shù)是多少?標(biāo)準(zhǔn)誤差?三次函數(shù)模型的主要結(jié)果模型摘要方差分析表回歸均方?剩余均方?F統(tǒng)計(jì)量的觀察值?方差分析表回歸均方?剩余均方?F統(tǒng)計(jì)量的觀察值?回歸系數(shù)Cubic:擬合三次方程Y=b0+b1t+b2t2+b3t3常數(shù)項(xiàng)回歸系數(shù)?標(biāo)準(zhǔn)化回歸系數(shù)?參數(shù)的標(biāo)準(zhǔn)誤差?回歸系數(shù)Cubic:擬合三次方程Y=b0+b1t+b2t指數(shù)模型的主要結(jié)果模型摘要判定系數(shù)是多少?校正系數(shù)是多少?標(biāo)準(zhǔn)誤差?指數(shù)模型的主要結(jié)果模型摘要方差分析表回歸均方?剩余均方?F統(tǒng)計(jì)量的觀察值?方差分析表回歸均方?剩余均方?F統(tǒng)計(jì)量的觀察值?回歸系數(shù)Exponential:擬合指數(shù)方程Y=b0exp(b1t)常數(shù)項(xiàng)回歸系數(shù)?標(biāo)準(zhǔn)化回歸系數(shù)?參數(shù)的標(biāo)準(zhǔn)誤差?回歸系數(shù)Exponential:擬合指數(shù)方程Y=b0e3類模型對(duì)比綜上述3類表格,得到解釋量最高的是三次曲線模型,為0.967;最低的為線性模型,為0.674.但是三次曲線的F統(tǒng)計(jì)量概率p確大于指數(shù)模型p值。3類模型對(duì)比綜上述3類表格,得到解釋量最高的是三次曲線模型,擬合曲線擬合曲線已知有某次泥石流的各陣觀測(cè)數(shù)據(jù)保存在如圖所示的數(shù)據(jù)文件“nishiliu.sav”中,試擬合各陣泥石流泥面寬與泥深之間的關(guān)系。

已知有某次泥石流的各陣觀測(cè)數(shù)據(jù)保存在如圖所示的數(shù)據(jù)文件“ni

執(zhí)行【Analyze】/【Regression】/【CurveEstimation】命令,彈出【CurveEstimation】對(duì)話框

執(zhí)行【Analyze】/【Regression】/【Cu結(jié)果解讀模型擬合度以及方差分析表同線性回歸類似二次模型擬合系數(shù)如下結(jié)果解讀三類模型的擬合曲線三類模型的擬合曲線

每個(gè)人都有一定的理想,這種理想決定著他的努力和判斷的方向。在這個(gè)意義上,我從來(lái)不把安逸和快樂看作是生活目的本身——這種倫理基礎(chǔ),我叫它豬欄式的理想。照亮我的道路,并且不斷地給我新的勇氣去愉快地正視生活的理想,是善、美和真。

—愛因斯坦每個(gè)人都有一定的理想,這種理想決定著他的努力知識(shí)回顧KnowledgeReview祝您成功!知識(shí)回顧KnowledgeReview祝您成功!第五講回歸分析、線性回歸和曲線估計(jì)第一部分回歸分析第二部分線性回歸第三部分曲線估計(jì)第五講回歸分析、線性回歸和曲線估計(jì)第一部分第十講回顧

在對(duì)其他變量的影響進(jìn)行控制的條件下,衡量多個(gè)變量中某兩個(gè)變量之間的線性相關(guān)程度的指標(biāo)稱為偏相關(guān)系數(shù)。第一部分第十講回顧在對(duì)其他變量的影響進(jìn)行偏相關(guān)分析的公式表達(dá)偏相關(guān)分析的公式表達(dá)什么是回歸分析?1、重點(diǎn)考察一個(gè)特定的變量(因變量),而把其他變量(自變量)看作是影響這一變量的因素,并通過適當(dāng)?shù)臄?shù)學(xué)模型將變量間的關(guān)系表達(dá)出來(lái)2、利用樣本數(shù)據(jù)建立模型的估計(jì)方程3、對(duì)模型進(jìn)行顯著性檢驗(yàn)4、進(jìn)而通過一個(gè)或幾個(gè)自變量的取值來(lái)估計(jì)或預(yù)測(cè)因變量的取值第一部分回歸分析

什么是回歸分析?1、重點(diǎn)考察一個(gè)特定的變量(因變量),而把其回歸分析的模型

一、分類按是否線性分:線性回歸模型和非線性回歸模型按自變量個(gè)數(shù)分:簡(jiǎn)單的一元回歸和多元回歸二、基本的步驟利用SPSS得到模型關(guān)系式,是否是我們所要的?要看回歸方程的顯著性檢驗(yàn)(F檢驗(yàn))

回歸系數(shù)b的顯著性檢驗(yàn)(T檢驗(yàn))

擬合程度R2

(注:相關(guān)系數(shù)的平方,一元回歸用RSquare,多元回歸用AdjustedRSquare)回歸分析的模型一、分類回歸分析的過程

在回歸過程中包括:Liner:線性回歸CurveEstimation:曲線估計(jì)

BinaryLogistic:二分變量邏輯回歸

MultinomialLogistic:多分變量邏輯回歸;

Ordinal序回歸;Probit:概率單位回歸;

Nonlinear:非線性回歸;

WeightEstimation:加權(quán)估計(jì);

2-StageLeastsquares:二段最小平方法;

OptimalScaling最優(yōu)編碼回歸我們只講前面2個(gè)簡(jiǎn)單的(一般教科書的講法)回歸分析的過程在回歸過程中包括:第二部分線性回歸

線性回歸分為一元線性回歸和多元線性回歸。一、一元線性回歸:1、涉及一個(gè)自變量的回歸2、因變量y與自變量x之間為線性關(guān)系被預(yù)測(cè)或被解釋的變量稱為因變量(dependentvariable),用y表示用來(lái)預(yù)測(cè)或用來(lái)解釋因變量的一個(gè)或多個(gè)變量稱為自變量(independentvariable),用x表示3、因變量與自變量之間的關(guān)系用一個(gè)線性方程來(lái)表示第二部分線性回歸線性回歸分為一元線性回歸和多元線性回歸的過程

一元線性回歸模型確定過程一、做散點(diǎn)圖(Graphs->Scatter->Simple)

目的是為了以便進(jìn)行簡(jiǎn)單地觀測(cè)(如:

Salary與Salbegin的關(guān)系)。二、建立方程若散點(diǎn)圖的趨勢(shì)大概呈線性關(guān)系,可以建立線性方程,若不呈線性分布,可建立其它方程模型,并比較R2(-->1)來(lái)確定一種最佳方程式(曲線估計(jì))。多元線性回歸一般采用逐步回歸方法-Stepwise。線性回歸的過程一元線性回歸模型確定過(一)一元線性回歸模型

(linearregressionmodel)1、描述因變量y如何依賴于自變量x和誤差項(xiàng)

的方程稱為回歸模型2、一元線性回歸模型可表示為

y=b0+b1x+e注:線性部分反映了由于x的變化而引起的y的變化;誤差項(xiàng)反映了除x和y之間的線性關(guān)系之外的隨機(jī)因素對(duì)y的影響,它是不能由x和y之間的線性關(guān)系所解釋的變異性。Y是x的線性函數(shù)(部分)加上誤差項(xiàng)0和1稱為模型的參數(shù)誤差項(xiàng)

是隨機(jī)變量(一)一元線性回歸模型

(linearregressio一元線性回歸模型(基本假定)1、因變量x與自變量y之間具有線性關(guān)系2、在重復(fù)抽樣中,自變量x的取值是固定的,即假定x是非隨機(jī)的3、誤差項(xiàng)滿足條件一元線性回歸模型(基本假定)1、因變量x與自變量y之間具有線誤差項(xiàng)滿足條件正態(tài)性。是一個(gè)服從正態(tài)分布的隨機(jī)變量,且期望值為0,即

~N(0,2)。對(duì)于一個(gè)給定的x值,y的期望值為E(y)=0+1x方差齊性。對(duì)于所有的x值,的方差一個(gè)特定的值,的方差也都等于2都相同。同樣,一個(gè)特定的x值,y的方差也都等于2獨(dú)立性。獨(dú)立性意味著對(duì)于一個(gè)特定的x值,它所對(duì)應(yīng)的ε與其他x值所對(duì)應(yīng)的ε不相關(guān);對(duì)于一個(gè)特定的x值,它所對(duì)應(yīng)的y值與其他x所對(duì)應(yīng)的y值也不相關(guān)誤差項(xiàng)滿足條件正態(tài)性。是一個(gè)服從正態(tài)分布的隨機(jī)變量估計(jì)的回歸方程

(estimatedregressionequation)總體回歸參數(shù)β0和β1是未知的,必須利用樣本數(shù)據(jù)去估計(jì)用樣本統(tǒng)計(jì)量和代替回歸方程中的未知參數(shù)β0和β1

,就得到了估計(jì)的回歸方程一元線性回歸中估計(jì)的回歸方程為其中:是估計(jì)的回歸直線在y軸上的截距,是直線的斜率,它表示對(duì)于一個(gè)給定的x的值,是y的估計(jì)值,也表示x每變動(dòng)一個(gè)單位時(shí),y的平均變動(dòng)值xy??1b0?b+=0?by??1b?1b0?b估計(jì)的回歸方程

(estimatedregression(二)參數(shù)的最小二乘估計(jì)德國(guó)科學(xué)家KarlGauss(1777—1855)提出用最小化圖中垂直方向的誤差平方和來(lái)估計(jì)參數(shù)使因變量的觀察值與估計(jì)值之間的誤差平方和達(dá)到最小來(lái)求得和的方法。即0?b?1b最小=--=-??==niiiniixyyy121012)??()?(bb注:用最小二乘法擬合的直線來(lái)代表x與y之間的關(guān)系與實(shí)際數(shù)據(jù)的誤差比其他任何直線都小。(二)參數(shù)的最小二乘估計(jì)德國(guó)科學(xué)家KarlGauss(1KarlGauss的最小化圖

(x2,y2)

(x1,y1)

(xi,yi)^ei=yi-yi

(xn,yn)yxKarlGauss的最小化圖(x2,y2)(x1參數(shù)的最小二乘估計(jì)

(

和的計(jì)算公式)根據(jù)最小二乘法,可得求解和的公式如下:0?b1?b0?b1?b參數(shù)的最小二乘估計(jì)

(和的計(jì)算公式)根據(jù)最(三)回歸直線的擬合優(yōu)度一、變差1、因變量y的取值是不同的,y取值的這種波動(dòng)稱為變差。變差來(lái)源于兩個(gè)方面由于自變量x的取值不同造成的除x以外的其他因素(如x對(duì)y的非線性影響、測(cè)量誤差等)的影響2、對(duì)一個(gè)具體的觀測(cè)值來(lái)說,變差的大小可以通過該實(shí)際觀測(cè)值與其均值之差來(lái)表示yy-(三)回歸直線的擬合優(yōu)度一、變差yy-誤差分解圖xyy誤差分解圖xyy誤差平方和的分解

(誤差平方和的關(guān)系)

SST=SSR+SSE總平方和(SST){回歸平方和(SSR)殘差平方和(SSE){{誤差平方和的分解

(誤差平方和的關(guān)系)SST=SSR誤差平方和的分解

(三個(gè)平方和的意義)1、總平方和(SST—totalsumofsquares)反映因變量的n個(gè)觀察值與其均值的總誤差2、回歸平方和(SSR—sumofsquaresofregression)反映自變量x的變化對(duì)因變量y取值變化的影響,或者說,是由于x與y之間的線性關(guān)系引起的y的取值變化,也稱為可解釋的平方和3、殘差平方和(SSE—sumofsquaresoferror)反映除x以外的其他因素對(duì)y取值的影響,也稱為不可解釋的平方和或剩余平方和誤差平方和的分解

(三個(gè)平方和的意義)1、總平方和(SST判定系數(shù)R2

(coefficientofdetermination)

回歸平方和占總誤差平方和的比例()()??==--==niiniiyyyySSTSSRR12122?1、反映回歸直線的擬合程度2、取值范圍在[0,1]之間3、R2

1,說明回歸方程擬合的越好;

R20,說明回歸方程擬合的越差4、決定系數(shù)平方根等于相關(guān)系數(shù)判定系數(shù)R2

(coefficientofdeter估計(jì)標(biāo)準(zhǔn)誤差

(standarderrorofestimate)1、實(shí)際觀察值與回歸估計(jì)值誤差平方和的均方根2、反映實(shí)際觀察值在回歸直線周圍的分散狀況3、對(duì)誤差項(xiàng)的標(biāo)準(zhǔn)差的估計(jì),是在排除了x對(duì)y的線性影響后,y隨機(jī)波動(dòng)大小的一個(gè)估計(jì)量4、反映用估計(jì)的回歸方程預(yù)測(cè)y時(shí)預(yù)測(cè)誤差的大小5、計(jì)算公式為(k為自變量個(gè)數(shù))()MSEknSSEknyysniiie=--=---=?=11?12估計(jì)標(biāo)準(zhǔn)誤差

(standarderrorofesti(四)顯著性檢驗(yàn)線性關(guān)系的檢驗(yàn)1、檢驗(yàn)自變量與因變量之間的線性關(guān)系是否顯著;2、將回歸均方(MSR)同殘差均方(MSE)加以比較,應(yīng)用F檢驗(yàn)來(lái)分析二者之間的差別是否顯著回歸均方(MSR):回歸平方和SSR除以相應(yīng)的自由度(自變量的個(gè)數(shù)k)殘差均方(MSE):殘差平方和SSE除以相應(yīng)的自由度(n-k-1)(四)顯著性檢驗(yàn)線性關(guān)系的檢驗(yàn)線性關(guān)系的檢驗(yàn)

(檢驗(yàn)的步驟)

1.提出假設(shè)H0:1=0線性關(guān)系不顯著2.計(jì)算檢驗(yàn)統(tǒng)計(jì)量F)1,1(~)1(1--=--=knFMSEMSRknSSESSRF確定顯著性水平,并根據(jù)分子自由度1和分母自由度n-2求統(tǒng)計(jì)量的P值(一元)作出決策:若P<,拒絕H0。表明兩個(gè)變量之間的線性關(guān)系顯著線性關(guān)系的檢驗(yàn)

(檢驗(yàn)的步驟)1.提出假設(shè)2.回歸系數(shù)的檢驗(yàn)和推斷檢驗(yàn)x與y之間是否具有線性關(guān)系,或者說,檢驗(yàn)自變量x對(duì)因變量y的影響是否顯著理論基礎(chǔ)是回歸系數(shù)

的抽樣分布1?b在一元線性回歸中,等價(jià)于線性關(guān)系的顯著性檢驗(yàn)采用t檢驗(yàn)回歸系數(shù)的檢驗(yàn)和推斷檢驗(yàn)x與y之間是否具有線性關(guān)系,回歸系數(shù)的檢驗(yàn)和推斷

(樣本統(tǒng)計(jì)量的分布)

是根據(jù)最小二乘法求出的樣本統(tǒng)計(jì)量,它有自己的分布的分布具有如下性質(zhì)分布形式:正態(tài)分布數(shù)學(xué)期望:標(biāo)準(zhǔn)差:由于未知,需用其估計(jì)量se來(lái)代替得到的估計(jì)的標(biāo)準(zhǔn)差1?b1?b11)?(bb=E()?-=2?1xxissb()?-=2?1xxssieb1?b回歸系數(shù)的檢驗(yàn)和推斷

(樣本統(tǒng)計(jì)量的分布)是根回歸系數(shù)的檢驗(yàn)和推斷

(檢驗(yàn)步驟)

1.提出假設(shè)H0:b1

=0(沒有線性關(guān)系)H1:b1

0(有線性關(guān)系)2.計(jì)算檢驗(yàn)的統(tǒng)計(jì)量確定顯著性水平,計(jì)算出統(tǒng)計(jì)量的P值,并做出決策P<,拒絕H0,表明自變量是影響因變量的一個(gè)顯著因素)2(~?1?1-=ntstbb回歸系數(shù)的檢驗(yàn)和推斷

(檢驗(yàn)步驟)1.回歸系數(shù)的檢驗(yàn)和推斷

(b1和b0的置信區(qū)間)

1.b1在1-置信水平下的置信區(qū)間為2.b0在1-置信水平下的置信區(qū)間為?=-+-±niiexxxnsnt1220)()(1)2(?ab?=--±niiexxsnt1221)()2(?ab回歸系數(shù)的檢驗(yàn)和推斷

(b1和b0的置信區(qū)間)1.b(五)利用回歸方程進(jìn)行預(yù)測(cè)1.平均值的置信區(qū)間2.個(gè)別值的預(yù)測(cè)區(qū)間(五)利用回歸方程進(jìn)行預(yù)測(cè)區(qū)間估計(jì)

平均值的置信區(qū)間利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0

,求出因變量y

的平均值的估計(jì)區(qū)間,這一估計(jì)區(qū)間稱為置信區(qū)間(confidenceinterval)

E(y0)

在1-置信水平下的置信區(qū)間為式中:se為估計(jì)標(biāo)準(zhǔn)誤差區(qū)間估計(jì)

平均值的置信區(qū)間利用估計(jì)的回歸方程,對(duì)于自變量x個(gè)別值的預(yù)測(cè)區(qū)間利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0

,求出因變量y

的一個(gè)個(gè)別值的估計(jì)區(qū)間,這一區(qū)間稱為預(yù)測(cè)區(qū)間(predictioninterval)

y0在1-置信水平下的預(yù)測(cè)區(qū)間為注意!個(gè)別值的預(yù)測(cè)區(qū)間利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給置信區(qū)間和預(yù)測(cè)區(qū)間xpyxx預(yù)測(cè)上限置信上限預(yù)測(cè)下限置信下限置信區(qū)間和預(yù)測(cè)區(qū)間xpyxx預(yù)測(cè)上限置信上限預(yù)測(cè)下限置信下用殘差證實(shí)模型的假定

回歸模型中假定ε期望值為0,方差相等且服從正態(tài)分布的一個(gè)隨機(jī)統(tǒng)計(jì)量。但是如果關(guān)于ε的假定不成立的話,那么隨后所做的檢驗(yàn)、估計(jì)、預(yù)測(cè)也許不成立。所有需要進(jìn)行殘差分析確定ε的假定是否成立。用殘差證實(shí)模型的假定主要包括:檢驗(yàn)方差齊性檢驗(yàn)正態(tài)性用殘差證實(shí)模型的假定

回歸模型中假定ε期

一、檢驗(yàn)方差齊性

殘差(residual)1、因變量的觀測(cè)值與根據(jù)估計(jì)的回歸方程求出的預(yù)測(cè)值之差,用e表示2、反映了用估計(jì)的回歸方程去預(yù)測(cè)而引起的誤差3、可用于確定有關(guān)誤差項(xiàng)的假定是否成立4、用于檢測(cè)有影響的觀測(cè)值iiiyye?-=

一、檢驗(yàn)方差齊性

殘差(residual)1、因變量的觀測(cè)殘差圖

(residualplot)1、表示殘差的圖形關(guān)于x的殘差圖關(guān)于y的殘差圖標(biāo)準(zhǔn)化殘差圖2、用于判斷誤差的假定是否成立3、檢測(cè)有影響的觀測(cè)值殘差圖

(residualplot)1、表示殘差的圖形殘差圖

(形態(tài)及判別)(a)滿意模式殘差x0(b)非常數(shù)方差殘差x0(c)模型不合適殘差x0殘差圖

(形態(tài)及判別)(a)滿意模式二、檢驗(yàn)正態(tài)性

標(biāo)準(zhǔn)化殘差(standardizedresidual)1、殘差除以它的標(biāo)準(zhǔn)差2、也稱為Pearson殘差或半學(xué)生化殘差(semi-studentizedresiduals)3、計(jì)算公式為eiieiesyysezi?-==二、檢驗(yàn)正態(tài)性

標(biāo)準(zhǔn)化殘差(standardizedres標(biāo)準(zhǔn)化殘差圖用以直觀地判斷誤差項(xiàng)服從正態(tài)分布這一假定是否成立若假定成立,標(biāo)準(zhǔn)化殘差的分布也應(yīng)服從正態(tài)分布在標(biāo)準(zhǔn)化殘差圖中,大約有95%的標(biāo)準(zhǔn)化殘差在-2到+2之間標(biāo)準(zhǔn)化殘差圖用以直觀地判斷誤差項(xiàng)服從正態(tài)分布這一假定是否SPSS線性回歸分析多元線性回歸分析基本結(jié)構(gòu)與一元線性回歸相同。而他們?cè)赟PSS下的功能菜單是集成在一起的。下面通過SPSS操作步驟解釋線性回歸分析問題。SPSS線性回歸分析多元線性回歸分析基本結(jié)構(gòu)與一元線性回歸SPSS過程步驟一:錄入數(shù)據(jù),選擇分析菜單中的Regression==>liner

打開線性回歸分析對(duì)話框;步驟二:選擇被解釋變量和解釋變量。其中因變量列表框中為被解釋變量,自變量為回歸分析解釋變量。注:要對(duì)不同的自變量采用不同引入方法時(shí),選NEXT按鈕把自變量歸入不同自變量塊中。SPSS過程步驟一:錄入數(shù)據(jù),選擇分析菜單中的Regress第三步:選擇個(gè)案標(biāo)簽。在變量列表中選擇變量至個(gè)案標(biāo)簽中,而被選擇的變量的標(biāo)簽用于在圖形中標(biāo)注點(diǎn)的值。第四步:選擇加權(quán)二乘法(WLS)。在變量列表框中選擇變量至WLS中。但是該選項(xiàng)僅在被選變量為權(quán)變量時(shí)選擇。第五步:如果點(diǎn)擊OK,可以執(zhí)行線性回歸分析操作。第三步:選擇個(gè)案標(biāo)簽。在變量列表中選擇變量至個(gè)案標(biāo)簽中,而被Method選項(xiàng)Enter:強(qiáng)迫引入法,默認(rèn)選項(xiàng)。全部被選變量一次性進(jìn)入回歸模型。Stepwise:強(qiáng)迫剔除法。每一次引入變量時(shí),概率F最小值的變量將引入回歸方程,如果已引入回歸方程的變量的F大于設(shè)定值,將被剔除回歸方程。當(dāng)無(wú)變量被引入或剔除,時(shí)終止回歸方程Remove:剔除變量。不進(jìn)入方程模型的被選變量剔除。Backward:向后消去Forward:向前引入Method選項(xiàng)Enter:強(qiáng)迫引入法,默認(rèn)選項(xiàng)。全部被選變Rule選項(xiàng)選擇一個(gè)用于指定分析個(gè)案的選擇規(guī)則的變量。選擇規(guī)則包括:等于、不等于、大于、小于、大于或等于、小于或等于。Value中輸入相應(yīng)變量的設(shè)定規(guī)則的臨界值。Rule選項(xiàng)選擇一個(gè)用于指定分析個(gè)案的選擇規(guī)則的變量。Statistics

選項(xiàng)回歸系數(shù)框估計(jì)值:顯示回歸系數(shù)的估計(jì)值β、回歸系數(shù)的標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)化回歸系數(shù)、回歸系數(shù)的β的t估計(jì)值和雙尾顯著性水平。置信區(qū)間協(xié)方差矩陣模型擬合:復(fù)相關(guān)系數(shù)、判定系數(shù)、調(diào)整R2、估計(jì)值的標(biāo)準(zhǔn)誤及方差分析R2改變量:增加或刪除一個(gè)自變量產(chǎn)生的改變量描述性統(tǒng)計(jì)量:變量的均數(shù)、標(biāo)準(zhǔn)差、相關(guān)系數(shù)矩陣、單尾檢驗(yàn)部分及偏相關(guān)系數(shù):顯示零階相關(guān)、偏相關(guān)、部分相關(guān)系數(shù)共線性診斷:顯示變量容差、方差膨脹因子和共線性的診斷表殘差統(tǒng)計(jì)量D-W檢驗(yàn)統(tǒng)計(jì)量:顯示殘差相關(guān)的D-W檢驗(yàn)和殘差與預(yù)測(cè)值的綜述統(tǒng)計(jì)。個(gè)案診斷:1、超過n倍標(biāo)準(zhǔn)差以上的個(gè)案為奇異值;2、顯示所有變量的標(biāo)準(zhǔn)化殘差、觀測(cè)值和預(yù)測(cè)值、殘差Statistics

選項(xiàng)回歸系數(shù)框模型擬合:復(fù)相關(guān)系數(shù)、Plots選項(xiàng)

該對(duì)話框可以分析資料的正態(tài)性、線性和方差齊性,還可以檢測(cè)奇異值或異常值等。1、因變量2、標(biāo)準(zhǔn)化預(yù)測(cè)值3、標(biāo)準(zhǔn)化殘差4、刪除殘差5、調(diào)整預(yù)測(cè)值6、Student殘差7、Student刪除殘差Histogram:標(biāo)準(zhǔn)化殘差的直方圖,并給出正態(tài)曲線。Normalprobalityplot:標(biāo)準(zhǔn)化殘差的正態(tài)概率圖Produceallpartialplots:產(chǎn)生所有偏殘差圖,生成每個(gè)自變量殘差與因變量殘差的散點(diǎn)圖。Plots選項(xiàng)

該對(duì)話框可以分析資料的正態(tài)性、線性和方差齊性Save對(duì)話框預(yù)測(cè)值包括非標(biāo)準(zhǔn)化的預(yù)測(cè)值、標(biāo)準(zhǔn)化的預(yù)測(cè)值、調(diào)整預(yù)測(cè)值、預(yù)測(cè)值均數(shù)標(biāo)準(zhǔn)誤距離包括自變量個(gè)案值與所有個(gè)案平均值距離、一個(gè)個(gè)案參與計(jì)算回歸線系數(shù)時(shí),所有個(gè)案殘差變化的大小。杠桿值殘差非標(biāo)準(zhǔn)化殘差標(biāo)準(zhǔn)化殘差Student殘差刪除殘差Student刪除殘差影響統(tǒng)計(jì)量DFBeta值,刪除一個(gè)個(gè)案后回歸系數(shù)改變的大小。標(biāo)準(zhǔn)化DfBetaDfFit值,擬合值之差標(biāo)準(zhǔn)化DfFit協(xié)方差矩陣的比率預(yù)測(cè)區(qū)間平均預(yù)測(cè)區(qū)間個(gè)體預(yù)測(cè)區(qū)間Save對(duì)話框預(yù)測(cè)值距離殘差影響統(tǒng)計(jì)量預(yù)測(cè)區(qū)間Options選項(xiàng)逐步回歸方法準(zhǔn)則使用F顯著水平值Entry:當(dāng)候選變量中最大F值概率小于等于引入值時(shí),引入相應(yīng)變量。Removal:剔除相應(yīng)變量Options選項(xiàng)逐步回歸方法準(zhǔn)則實(shí)例分析例:某單位對(duì)8名女工進(jìn)行體檢,體檢項(xiàng)目包括體重和肺活量,數(shù)據(jù)如下:利用回歸分析描述其關(guān)系。體重4242464646505050肺活量2.552.22.752.42.82.813.413.1實(shí)例分析例:某單位對(duì)8名女工進(jìn)行體檢,體檢項(xiàng)目包括體重和肺活spss第五講回歸分析課件結(jié)果分析描述性統(tǒng)計(jì)量結(jié)果分析描述性統(tǒng)計(jì)量相關(guān)系數(shù)表中Pearson相關(guān)系數(shù)為0.613,單尾顯著性檢驗(yàn)的概率p值為0.000,小于0.05.所以體重和肺活量之間具有較強(qiáng)的相關(guān)性相關(guān)系數(shù)表中Pearson相關(guān)系數(shù)為0.613,單尾顯著性檢引入或剔除變量表表中顯示回歸分析的方法以及變量被剔除或引入的信息。Method項(xiàng)為Enter,表明顯示回歸方法用得是強(qiáng)迫引入法引入變量。這里自變量只有一個(gè),所以此表意義不大。引入或剔除變量表表中顯示回歸分析的方法以及變量被剔除或引入的模型摘要兩變量相關(guān)系數(shù)為0.613,判定系數(shù)為0.375,調(diào)整判定系數(shù)為0.352,估計(jì)值的標(biāo)準(zhǔn)誤差為360.997模型摘要兩變量相關(guān)系數(shù)為0.613,判定系數(shù)為0.375,調(diào)方差分析表該表為回歸分析的方差分析表??梢钥闯龌貧w的均方為2115016.203,剩余的均方為130318.685,F(xiàn)檢驗(yàn)統(tǒng)計(jì)量的觀察值為16.230,p值為0.000小于0.05,可以認(rèn)為體重和肺活量之間存在線性關(guān)系。方差分析表該表為回歸分析的方差分析表??梢钥闯龌貧w的均方為2回歸系數(shù)下表給出了回歸方程中的參數(shù)和常數(shù)項(xiàng)的估計(jì)值。其中常數(shù)項(xiàng)系數(shù)為405.819,回歸系數(shù)為47.835,,線性回歸參數(shù)的標(biāo)準(zhǔn)誤差為11.874,標(biāo)準(zhǔn)化回歸系數(shù)為0.613,回歸系數(shù)t檢驗(yàn)的t統(tǒng)計(jì)量觀察值為4.029,t檢驗(yàn)的p值為0.00,小于0.05可以認(rèn)為回歸系數(shù)有顯著意義回歸系數(shù)下表給出了回歸方程中的參數(shù)和常數(shù)項(xiàng)的估計(jì)值。其中常數(shù)回歸診斷下表對(duì)全部的觀察單位進(jìn)行回歸診斷,結(jié)果表明,每一例的標(biāo)準(zhǔn)化殘差、因變量觀測(cè)值和預(yù)測(cè)值以及殘差回歸診斷下表對(duì)全部的觀察單位進(jìn)行回歸診斷,結(jié)果表明,每一例的殘差統(tǒng)計(jì)量表中顯示了預(yù)測(cè)值、標(biāo)準(zhǔn)化預(yù)測(cè)值、殘差、標(biāo)準(zhǔn)化殘差等統(tǒng)計(jì)量的最小值、最大值、均數(shù)、標(biāo)準(zhǔn)差殘差統(tǒng)計(jì)量表中顯示了預(yù)測(cè)值、標(biāo)準(zhǔn)化預(yù)測(cè)值、殘差、標(biāo)準(zhǔn)化殘差等回歸標(biāo)準(zhǔn)化殘差的直方圖在回歸標(biāo)準(zhǔn)化殘差的直方圖中,正態(tài)曲線也被顯示,用來(lái)判斷標(biāo)準(zhǔn)化殘差是否呈正態(tài)分布回歸標(biāo)準(zhǔn)化殘差的直方圖在回歸標(biāo)準(zhǔn)化殘差的直方圖中,正態(tài)曲線也回歸標(biāo)準(zhǔn)化的正態(tài)P-P圖圖中給出了觀察值的殘差分布與假設(shè)的正態(tài)分布比較,如果標(biāo)準(zhǔn)化殘差呈正態(tài)分布,則標(biāo)準(zhǔn)化殘差點(diǎn)應(yīng)該分布在直線上或靠近直線回歸標(biāo)準(zhǔn)化的正態(tài)P-P圖圖中給出了觀察值的殘差分布與假設(shè)的正因變量與回歸標(biāo)準(zhǔn)化預(yù)測(cè)值的散點(diǎn)圖其中橫坐標(biāo)變量為標(biāo)準(zhǔn)化預(yù)測(cè)值因變量與回歸標(biāo)準(zhǔn)化預(yù)測(cè)值的散點(diǎn)圖其中橫坐標(biāo)變量為標(biāo)準(zhǔn)化預(yù)測(cè)值數(shù)據(jù)編輯窗口新增變量從表中可以看到非標(biāo)準(zhǔn)化預(yù)測(cè)值,非標(biāo)準(zhǔn)化殘差,預(yù)測(cè)值均數(shù)的標(biāo)準(zhǔn)誤差,均值的預(yù)測(cè)區(qū)間、個(gè)體預(yù)測(cè)區(qū)間。數(shù)據(jù)編輯窗口新增變量從表中可以看到非標(biāo)準(zhǔn)化預(yù)測(cè)值,非標(biāo)準(zhǔn)化殘?jiān)谑攀兰o(jì)四、五十年代,蘇格蘭物理學(xué)家JamesD.Forbes,試圖通過水的沸點(diǎn)來(lái)估計(jì)海拔高度。由于可以通過氣壓來(lái)估計(jì)海拔,他在阿爾卑斯山以及蘇格蘭收集了沸點(diǎn)及海拔的數(shù)據(jù)如表所示?,F(xiàn)在通過線形回歸擬合氣壓與沸點(diǎn)的關(guān)系。

在十九世紀(jì)四、五十年代,蘇格蘭物理學(xué)家JamesD.For散點(diǎn)圖散點(diǎn)圖執(zhí)行【Analyze】/【Regression】/【Linear】命令,彈出【Linear】對(duì)話框

執(zhí)行【Analyze】/【Regression】/【Line程序程序結(jié)果解讀模型擬合度檢驗(yàn)結(jié)果解讀方差分析表方差分析表回歸分析結(jié)果回歸分析結(jié)果對(duì)殘差統(tǒng)計(jì)量的分析數(shù)據(jù)中無(wú)離群值,且數(shù)據(jù)的標(biāo)準(zhǔn)差比較小,可以認(rèn)為模型是健康的。對(duì)殘差統(tǒng)計(jì)量的分析數(shù)據(jù)中無(wú)離群值,且數(shù)據(jù)的標(biāo)準(zhǔn)差比較小,可以殘差統(tǒng)計(jì)量檢驗(yàn)殘差統(tǒng)計(jì)量檢驗(yàn)多元線性回歸的例子某大型金融機(jī)構(gòu)中做了一項(xiàng)關(guān)于雇員對(duì)其主管滿意度的調(diào)查,其中一個(gè)問題設(shè)計(jì)為對(duì)主管的工作業(yè)績(jī)的綜合評(píng)價(jià),另外若干個(gè)問題涉及主管與其雇員間相互關(guān)系的具體方面。該研究試圖解釋主管性格與雇員對(duì)其

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論