線性回歸分析_第1頁
線性回歸分析_第2頁
線性回歸分析_第3頁
線性回歸分析_第4頁
線性回歸分析_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

關于線性回歸分析第1頁,課件共57頁,創(chuàng)作于2023年2月學習的內容與目標

掌握線性回歸分析的主要指標,了解最小二乘法的基本思想熟練掌握線性回歸分析的具體操作,讀懂分析結果;掌握計算結果之間的數(shù)量關系,寫出回歸方程,對回歸方程進行各種統(tǒng)計檢驗了解多元回歸分析中自變量篩選的策略,以及對應結果的分析了解SPSS殘差分析和多重共線檢測的基本操作,并能分析結果第2頁,課件共57頁,創(chuàng)作于2023年2月9.1回歸分析概述9.1.1什么是回歸分析“回歸”一詞最初源于英國統(tǒng)計學家F.Galton(高爾頓)描述父親的身高和其成年兒子身高之間的關系,發(fā)現(xiàn)成年兒子的身高會趨向于子輩身高的平均值,F(xiàn).Galton稱這種現(xiàn)象為“回歸”。用于分析事物之間的統(tǒng)計關系,并通過回歸方程的形式描述變量間的數(shù)量變化規(guī)律,幫助人們準確把握變量受一個或多個變量的影響程度,進而為預測提供依據(jù)。第3頁,課件共57頁,創(chuàng)作于2023年2月回歸分析和相關分析1.相關分析變量性質:都是隨機變量且關系對等分析方法:圖表法(散點圖)和相關系數(shù)分析目的:判定變量之間相關方向和關系的密切程度2.回歸分析變量性質:自變量(確定型變量)和因變量(隨機變量)的關系且不對等分析方法:建立回歸模型分析目的:研究變量間數(shù)量依存關系第4頁,課件共57頁,創(chuàng)作于2023年2月9.1.2如何得到回歸線函數(shù)擬合首先,通過散點圖觀察變量之間的統(tǒng)計關系,得到對回歸線的感性認知,并據(jù)之確定最簡潔的數(shù)學函數(shù)(回歸模型);其次,利用樣本數(shù)據(jù)在一定的擬合準則下,估計回歸模型中各個參數(shù),得到確定的回歸方程;最后,由于回歸參數(shù)是在樣本數(shù)據(jù)的基礎上得到的,存在隨機性。因此需要進行各種檢驗。第5頁,課件共57頁,創(chuàng)作于2023年2月9.1.3回歸分析的一般步驟確定回歸方程中的解釋變量(父親身高x)和被解釋變量(兒子身高y)確定回歸模型(線性與非線性)建立回歸方程,并估計出模型中的參數(shù)對回歸方程進行各種檢驗利用方程進行預測第6頁,課件共57頁,創(chuàng)作于2023年2月9.2線性回歸分析和線性回歸模型觀察被解釋變量y和一個或多個解釋變量xi的散點圖,當發(fā)現(xiàn)y與xi之間呈現(xiàn)出顯著的線性關系時,應采用線性回歸分析的方法,建立y關于xi的線性回歸模型。線性回歸模型可分為:

一元線性回歸模型多元線性回歸模型第7頁,課件共57頁,創(chuàng)作于2023年2月9.2.1一元線性回歸模型(只有1個解釋變量)

數(shù)學模型為:

y=β0+β1x+ε上式表明:y的變化可由兩部分解釋:第一,由解釋變量x的變化引起的y的線性變化部分,即y=β0+β1x;第二,由其他隨機因素引起的y的變化部分,即ε。β0、β1

都是模型中的未知參數(shù),β0為回歸常數(shù),β1為y對x回歸系數(shù)(即x每變動一個單位所引起的y的平均變動)。

ε稱為隨機誤差。且滿足:E(ε)=0,Var(ε)=σ2

。第8頁,課件共57頁,創(chuàng)作于2023年2月一元線性回歸方程:E(y)=β0+β1x

表明x和y之間的統(tǒng)計關系是在平均意義下表述的。估計的一元線性回歸方程:估計方程是平面上的一條直線,即回歸直線。參數(shù)分別代表回歸直線的截距和斜率。cbb??10?+=y第9頁,課件共57頁,創(chuàng)作于2023年2月9.2.2多元線性回歸模型多元數(shù)學模型:

y=β0+β1x1+β2x2….+βpxp+ε多元線性回歸方程:

E(y)=β0+β1x1+β2x2….+βpxp估計多元線性回歸方程:

^^^^^y=β0+β1x1+β2x2….+βpxp第10頁,課件共57頁,創(chuàng)作于2023年2月9.2.3回歸參數(shù)的最小二乘估計

(ordinaryleastsquareestimation,OLSE)估計思想:使每個樣本點(xi,yi)與回歸線上的對應點(xi,E(yi))在垂直方向上偏差距離的二次方總和達到最小的原則來估計參數(shù)即,∑(

yi-E(yi))2=最小一元二乘估計:多元二乘估計(略)第11頁,課件共57頁,創(chuàng)作于2023年2月9.3回歸方程的統(tǒng)計檢驗擬合優(yōu)度檢驗回歸方程的顯著性檢驗回歸系數(shù)的顯著性檢驗殘差分析第12頁,課件共57頁,創(chuàng)作于2023年2月9.3.1回歸方程的擬合優(yōu)度檢驗用于檢驗樣本數(shù)據(jù)點聚集在回歸線周圍的密集程度,從而評價回歸線對樣本數(shù)據(jù)的代表程度。思想:因變量y(兒子身高)取值的變化受兩個因素的影響:自變量x(父親身高)不同取值的影響,其他因素(環(huán)境、飲食等)的影響??杀硎救缦?因變量總變差=

自變量引起的+其他因素引起的即因變量總變差=

回歸方程可解釋的+不可解釋的即,因變量總離差平方和SST=回歸平方和

SSA

+剩余平方和SSE第13頁,課件共57頁,創(chuàng)作于2023年2月Yi圖示:第14頁,課件共57頁,創(chuàng)作于2023年2月第15頁,課件共57頁,創(chuàng)作于2023年2月一、一元線性回歸方程擬合優(yōu)度的檢驗采用R2統(tǒng)計量,稱為判定系數(shù)R2=SSA/SST=1-SSE/SST.R2體現(xiàn)了回歸方程所能解釋的因變量變差的比例;1-R2體現(xiàn)了回歸方程所無法解釋的變差比例。第16頁,課件共57頁,創(chuàng)作于2023年2月R2越接近于1,則說明回歸平方和占了絕大部分比例,因變量y的變差主要由自變量x的取值造成,回歸方程對樣本數(shù)據(jù)點擬合得好在一元線性回歸中,判定系數(shù)R2=相關系數(shù)r2;因此,從這個意義上講,判定系數(shù)能夠比較好地反映回歸直線對樣本數(shù)據(jù)的代表程度和線性相關性。說明第17頁,課件共57頁,創(chuàng)作于2023年2月二、多元線性回歸方程多元線性回歸方程的擬合優(yōu)度檢驗采用統(tǒng)計量,稱為調整的判定系數(shù)調整的判定系數(shù):判定系數(shù)受解釋變量X的個數(shù)p的影響,在p的個數(shù)不同的模型之間進行比較時,判定系數(shù)必須進行調整。第18頁,課件共57頁,創(chuàng)作于2023年2月9.3.2回歸方程的顯著性檢驗用于檢驗被解釋變量與所有解釋變量之間的線性關系是否顯著,用線性模型來描述它們之間的關系是否恰當,即檢驗模型對總體的近似程度。SST=回歸平方和

SSA

+剩余平方和SSE回歸方程的顯著性檢驗中采用方差分析的方法,研究在SST中SSA相對于SSE來說是否占有較大比例。如果比例較大,表明y與x全體的線性關系明顯,則利用線性模型反映y與x的關系是恰當?shù)模环粗?,不恰當。?9頁,課件共57頁,創(chuàng)作于2023年2月原假設H0:β1=0.即:回歸系數(shù)與0無顯著差異利用F檢驗,構造F統(tǒng)計量:F~F(1,n-2)判斷:若p<a,則拒絕H0,模型的線性關系是顯著的;反之,模型的線性關系不顯著.一、一元線性回歸方程顯著性檢驗第20頁,課件共57頁,創(chuàng)作于2023年2月原假設H0:β1=β2=….=βp=

0.即:各個回歸系數(shù)同時與0無顯著差異利用F檢驗,構造F統(tǒng)計量:F~F(p,n-p-1)判斷:若p<a,則拒絕H0,模型的線性關系是顯著的;反之,模型的線性關系不顯著.二、多元線性回歸方程的顯著性檢驗第21頁,課件共57頁,創(chuàng)作于2023年2月R2檢驗與F檢驗的關系

F是R2的單調增函數(shù),F(xiàn)α與一一對應。R2FFα圖1F統(tǒng)計量與R2的關系第22頁,課件共57頁,創(chuàng)作于2023年2月9.3.3回歸系數(shù)的顯著性檢驗

主要目的是研究回歸方程中每個解釋變量與被解釋變量之間是否存在顯著的線性關系。即研究每個解釋變量能否有效的反映被解釋變量的線性變化,它們能否保留在線性回歸方程中?;貧w系數(shù)的顯著性檢驗是圍繞回歸系數(shù)估計值的抽樣分布展開的,構造統(tǒng)計量,并進行檢驗。第23頁,課件共57頁,創(chuàng)作于2023年2月

一、一元線性回歸方程顯著性檢驗回歸系數(shù)的顯著性檢驗:t檢驗H0:β1=0,即:回歸系數(shù)與0無顯著差異,利用t檢驗:第24頁,課件共57頁,創(chuàng)作于2023年2月若p<a,拒絕H0,y和x線性關系顯著,應保留在方程中;若p>a,不能拒絕H0,y和x線性關系不顯著。一元線性回歸方程的檢驗和回歸系數(shù)的檢驗是等效的。第25頁,課件共57頁,創(chuàng)作于2023年2月需要對回歸系數(shù)是否為零逐一進行檢驗。原假設H0:βi=0,即:第i個偏回歸系數(shù)與0無顯著差異利用t檢驗統(tǒng)計量(略)若與t統(tǒng)計量的概率伴隨p

<a,則拒絕H0多元線性回歸中回歸系數(shù)的檢驗與整體回歸方程的檢驗不能相互替代。二、多元線性方程回歸系數(shù)的檢驗第26頁,課件共57頁,創(chuàng)作于2023年2月9.3.4殘差分析殘差指由回歸方程計算所得的預測值與實際樣本值之間的差距,即模型中εi

的估計值:回歸模型要求:殘差序列中不含明顯的規(guī)律性和趨勢性,均值為零、正態(tài)分布、等方差,且序列是獨立的。第27頁,課件共57頁,創(chuàng)作于2023年2月一、殘差均值為零的正態(tài)分析可以通過繪制殘差散點圖來觀察:如果殘差的均值為零,殘差圖中的點應在縱坐標為零的橫線上下隨機散落,如下圖。第28頁,課件共57頁,創(chuàng)作于2023年2月二、殘差的獨立性分析(非自相關)殘差是獨立的,則殘差序列應滿足cov(εi,εj)=0(i≠j),表示殘差序列前期和后期之間不存在相關關系,即不存在自相關。獨立性檢驗方式:第一、繪制殘差序列圖(下圖殘差隨時間的推移,呈有規(guī)律變化,表明殘差序列存在一定的正或負自相關)第29頁,課件共57頁,創(chuàng)作于2023年2月自相關系數(shù)用于測定序列自相關強弱,其取值范圍-1~+1,接近1表明序列存在正自相關第二、計算殘差的自相關系數(shù)第30頁,課件共57頁,創(chuàng)作于2023年2月

DW檢驗用于推斷小樣本序列是否存在自相關的方法。其原假設為:總體自相關系數(shù)ρ與零無顯著差異。采用統(tǒng)計量為:DW取值在0~4之間:

=(-1,0)時,DW=(2,4)殘差序列負自相關

=0時,DW=2,殘差序列無自相關

=(0,1)時,DW=(0,2)殘差序列正自相關殘差存在自相關表明遺漏了解釋變量,或變量取值存在滯后性,或線性模型不適合第三、DW(durbin-watson)檢驗第31頁,課件共57頁,創(chuàng)作于2023年2月三、殘差異方差分析回歸分析要求殘差的方差相等,如果存在異方差,則參數(shù)的最小二乘估計不再是最小方差的無偏估計。因此需要檢驗殘差是否存在異方差。其方法:第一,繪制殘差圖(下圖殘差的方差隨解釋變量值的增加呈現(xiàn)增加趨勢,表明存在異方差)第32頁,課件共57頁,創(chuàng)作于2023年2月第二,計算等級相關系數(shù)得到殘差序列后首先取其絕對值,然后分別計算出殘差和解釋變量的秩,最后計算spearman等級相關系數(shù),進行等級相關分析。若p值小于給定顯著性水平α,則拒絕原假設,認為解釋變量與殘差間存在顯著相關,出現(xiàn)了異方差現(xiàn)象。第33頁,課件共57頁,創(chuàng)作于2023年2月9.4多元回歸分析中的其它問題9.4.1解釋變量的篩選問題

多元回歸分析中,模型選中應引入多少解釋變量呢?少了難以解釋對解釋變量的變化,多了會引起多重共線。一、向前篩選策略

指解釋變量不斷進入回歸方程的策略。首先引入與被解釋變量線性相關系數(shù)最高的解釋變量進入方程,并進行回歸方程的各種檢驗;然后,引入與被解釋變量偏相關系數(shù)最高并通過檢驗的解釋變量,并對新方程進行各項檢驗;直到?jīng)]有可引入的變量為止。第34頁,課件共57頁,創(chuàng)作于2023年2月二、向后篩選策略

指解釋變量不斷剔除出回歸方程的過程。首先,將所有解釋變量引入方程,并檢驗;然后剔除t檢驗值不顯著(最小)的一個或多個變量,重新建立回歸方程并進行各種檢驗。如果回歸系數(shù)都顯著,則方程建立結束。否則,接著依次刪除最不顯著的解釋變量。三、逐步篩選策略

指向前向后篩選的綜合策略。在向前篩選過程中,隨著變量不斷引入方程,需要再次判斷是否存在可剔除的解釋變量,如有,則剔除。第35頁,課件共57頁,創(chuàng)作于2023年2月9.4.2變量的多重共線性問題變量的多重共線:指解釋變量之間存在線性相關關系的現(xiàn)象。若存在多重共線,則會造成偏回歸系數(shù)估計困難、估計的方差增大、估計值的不穩(wěn)定性增強、偏回歸系數(shù)假設檢驗的結果不顯著等問題。測度多重共線的方法如下:第36頁,課件共57頁,創(chuàng)作于2023年2月一、容忍度解釋變量xi

的容忍度:Toli=1-Ri2,其中:Ri2是解釋變量xi與方程中其他解釋變量間復相關系數(shù)的平方,表明了解釋變量之間的線性相關程度。容忍度大表示與其他自變量的共線性低,應進入方程。容忍度很小的變量,spss才會給出警告,不應進入方程(T<0.1一般認為具有多重共線性)第37頁,課件共57頁,創(chuàng)作于2023年2月二、方差膨脹因子方差膨脹因子(VIF):容忍度的倒數(shù)方差膨脹因子取值大于等于1。Ri2接近0,解釋變量間多重共線性越弱,VIFi

越接近于1。如果VIFi

大于等于10,說明解釋變量xi

與方程中其余解釋變量之間有嚴重的多重共線性。另外,也可以采用方差膨脹因子的均值來測度多重共線性。第38頁,課件共57頁,創(chuàng)作于2023年2月三、特征值與方差比如果最大特征值遠大于其它特征值,表明該解釋變量能刻畫所有解釋變量絕大部分信息(方差),意味著解釋變量間存在較強的線性相關關系。常以某特征值占70%左右。第39頁,課件共57頁,創(chuàng)作于2023年2月四、條件指數(shù)

條件指數(shù)是在特征值的基礎上定義的,它能反映解釋變量間多重共線性指標。定義如下:Ki

為第i個解釋變量的條件指標,它是最大特征值λm

與第i個特征值比的平方根。

第i個條件指數(shù)Ki

越大,表明解釋變量間信息重疊的越多,多重共線越嚴重。Ki

小表明共線不明顯。0≤Ki<10,認為多重共線弱;10≤Ki<100,認為多重共線較強,100≤Ki

時,認為共線很嚴重。第40頁,課件共57頁,創(chuàng)作于2023年2月9.5線性回歸分析的基本操作9.5.1線性回歸分析的基本操作SPSS將一元與多元集成在一起(一個菜單工具)【analyze】->【regression】->【linear】選擇被解釋變量進入【dependent】框中選擇一個或多個解釋變量進入【independent】框在【method】中選擇解釋變量的篩選策略enter:所選解釋變量強行進入回歸方程(默認方法,常用于一元回歸)remove:從回歸方程中剔除所選變量stepwise:逐步篩選策略;backward:向后篩選;forward:向前篩選第41頁,課件共57頁,創(chuàng)作于2023年2月【block】表示設置解釋變量不同的篩選策略塊。可以按next和previous按鈕設置多組解釋變量和變量的篩選策略,并放在不同的塊中。SPSS將按每一指定策略逐一進行回歸。其中【remove】方法只能放在第二個以后塊中。塊設置便于作各種探索性分析。【selectionvariable】為設置的條件變量框。Rule表示給定的判定條件。只有滿足條件的樣本數(shù)據(jù)才參與回歸分析?!綾aselabels】是指定某變量為樣本數(shù)據(jù)點的標記變量,將再圖形中標出。第42頁,課件共57頁,創(chuàng)作于2023年2月9.5.2線性回歸的其它操作一、statistics選項該窗口提供用戶可選擇的統(tǒng)計量【estimates】是SPSS默認輸出項,輸出與回歸系數(shù)相關的統(tǒng)計量。包括回歸系數(shù)(偏回歸系數(shù))、回歸系數(shù)標準誤差、標準化回歸系數(shù)(如果各解釋變量單位不一致,如希望比較對被解釋變量的影響時,可采用)、回歸系數(shù)顯著性檢驗t統(tǒng)計量和P值、各解釋變量的容忍度?!綾onfidenceintervals】輸出每個非標準化回歸系數(shù)的95%置信區(qū)間第43頁,課件共57頁,創(chuàng)作于2023年2月【descriptives】:輸出各解釋變量和被解釋變量的均值、標準差、相關系數(shù)矩陣及單側檢驗概率值。【modelfit】為SPSS默認輸出項,輸出判定系數(shù)、調整的判定系數(shù),回歸方程的標準誤差、回歸方程顯著性檢驗的方差分析表。【Rsquaredchange】表示每個解釋變量進入方程后引起判定系數(shù)的變化量(Rch2

)和F值的變化量第44頁,課件共57頁,創(chuàng)作于2023年2月【Partandpartialcorrelation】輸出方程中各解釋變量與被解釋變量間的簡單相關系數(shù)、偏相關系數(shù)和部分相關系數(shù)?!綾ovariancematrix】輸出各解釋變量間的相關系數(shù)、協(xié)方差和回歸系數(shù)的方差?!綜ollinearitydignostics】多重共線性診斷。輸出各解釋變量的容忍度、方差膨脹因子、特征值、條件指標、方差比率等。在【residuals】框中:【durbin-watson】表示輸出DW檢驗值(異方差檢驗);【casewisediagnostics】表示輸出標準化殘差絕對值大于等于3的樣本數(shù)據(jù)相關信息。第45頁,課件共57頁,創(chuàng)作于2023年2月二、option選項該窗口提供解釋變量篩選的標準以及缺失值處理方式?!緐seprobabilityofF】SPSS默認項,表示以偏F統(tǒng)計量的概率值為標準判斷解釋變量能否進入或剔除出回歸方程。一個解釋變量的F值顯著性水平小于entry(0.05)則該解釋變量可以進入方程;大于removal(0.1)則剔除出方程。【useFvalue】:以偏F統(tǒng)計量的臨界值來判斷解釋變量能否進入(默認大于3.84,線性影響顯著)方程;還是剔除出(默認小于2.71,不能拒絕原假設,線性影響不顯著)方程。第46頁,課件共57頁,創(chuàng)作于2023年2月三、plot選項該窗口用于對殘差的序列分析,包括分析殘差散點圖、正態(tài)分布累計概率圖等。窗口左邊dependent表示被解釋變量、zpred表示標準化預測值、dresid表示標準化殘差、adjpred表示剔除異常點后調整的新預測值、sresid表示學生化殘差。繪制多對變量散點圖需要在【scatter1of1】框中定義散點圖的縱坐標和橫坐標變量。在【standardizedresidualplots】中選【histogram】表示繪制標準化殘差序列直方圖;選【normalprobabilityplot】表示繪制標準化殘差序列正態(tài)分布累計概率圖;選【produceallpartialplots】項,表示一次繪制被解釋變量與各個解釋變量的散點圖。第47頁,課件共57頁,創(chuàng)作于2023年2月四、save選項表示將回歸分析結果保存到數(shù)據(jù)編輯窗口中(略講)【predictedvalue】:保存非標準化預測值unstandardized、標準化預測值standardized、調整的預測值adjusted,解釋變量x=x0

下預測值的均值標準差。【predictionintervals】:保存均值mean、保存?zhèn)€體值的預測值individual及其95%的上下限。【residuals】:保存非標準化殘差un

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論