SPSS數(shù)據(jù)分析教程線性回歸分析_第1頁
SPSS數(shù)據(jù)分析教程線性回歸分析_第2頁
SPSS數(shù)據(jù)分析教程線性回歸分析_第3頁
SPSS數(shù)據(jù)分析教程線性回歸分析_第4頁
SPSS數(shù)據(jù)分析教程線性回歸分析_第5頁
已閱讀5頁,還剩184頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

SPSS數(shù)據(jù)分析教程線性回歸分析第1頁/共189頁回歸分析基本概念7.1一元線性回歸分析7.2多元線性回歸分析7.3非線性回歸分析7.4曲線估計7.5時間序列的曲線估計7.6含虛擬自變量的回歸分析7.7含虛擬自變量的回歸分析7.8第2頁/共189頁

在數(shù)量分析中,經(jīng)常會看到變量與變量之間存在著一定的聯(lián)系。要了解變量之間如何發(fā)生相互影響的,就需要利用相關(guān)分析和回歸分析。在上一章講述了相關(guān)分析有關(guān)內(nèi)容。本章介紹回歸分析基本概念,回歸分析的主要類型:一元線性回歸分析、多元線性回歸分析、非線性回歸分析、曲線估計、時間序列的曲線估計、含虛擬自變量的回歸分析以及邏輯回歸分析等。第3頁/共189頁7.1

回歸分析基本概念

相關(guān)分析和回歸分析都是研究變量間關(guān)系的統(tǒng)計學(xué)課題。在應(yīng)用中,兩種分析方法經(jīng)常相互結(jié)合和滲透,但它們研究的側(cè)重點和應(yīng)用面不同。在回歸分析中,變量y稱為因變量,處于被解釋的特殊地位;而在相關(guān)分析中,變量y與變量x處于平等的地位,研究變量y與變量x的密切程度和研究變量x與變量y的密切程度是一樣的。第4頁/共189頁

在回歸分析中,因變量y是隨機變量,自變量x可以是隨機變量,也可以是非隨機的確定變量;而在相關(guān)分析中,變量x和變量y都是隨機變量。相關(guān)分析是測定變量之間的關(guān)系密切程度,所使用的工具是相關(guān)系數(shù);而回歸分析則是側(cè)重于考察變量之間的數(shù)量變化規(guī)律,并通過一定的數(shù)學(xué)表達式來描述變量之間的關(guān)系,進而確定一個或者幾個變量的變化對另一個特定變量的影響程度。第5頁/共189頁

具體地說,回歸分析主要解決以下幾方面的問題。通過分析大量的樣本數(shù)據(jù),確定變量之間的數(shù)學(xué)關(guān)系式。對所確定的數(shù)學(xué)關(guān)系式的可信程度進行各種統(tǒng)計檢驗,并區(qū)分出對某一特定變量影響較為顯著的變量和影響不顯著的變量。利用所確定的數(shù)學(xué)關(guān)系式,根據(jù)一個或幾個變量的值來預(yù)測或控制另一個特定變量的取值,并給出這種預(yù)測或控制的精確度。第6頁/共189頁

作為處理變量之間關(guān)系的一種統(tǒng)計方法和技術(shù),回歸分析的基本思想和方法以及“回歸(Regression)”名稱的由來都要歸功于英國統(tǒng)計學(xué)家F·Galton(1822~1911)。第7頁/共189頁

在實際中,根據(jù)變量的個數(shù)、變量的類型以及變量之間的相關(guān)關(guān)系,回歸分析通常分為一元線性回歸分析、多元線性回歸分析、非線性回歸分析、曲線估計、時間序列的曲線估計、含虛擬自變量的回歸分析和邏輯回歸分析等類型。第8頁/共189頁7.2一元線性回歸分析7.2.1統(tǒng)計學(xué)上的定義和計算公式

定義:一元線性回歸分析是在排除其他影響因素或假定其他影響因素確定的條件下,分析某一個因素(自變量)是如何影響另一事物(因變量)的過程,所進行的分析是比較理想化的。其實,在現(xiàn)實社會生活中,任何一個事物(因變量)總是受到其他多種事物(多個自變量)的影響。第9頁/共189頁第10頁/共189頁第11頁/共189頁第12頁/共189頁第13頁/共189頁第14頁/共189頁第15頁/共189頁

在實際問題中,由于所要研究的現(xiàn)象的總體單位數(shù)一般是很多的,在許多場合甚至是無限的,因此無法掌握因變量y總體的全部取值。也就是說,總體回歸方程事實上是未知的,需要利用樣本的信息對其進行估計。顯然,樣本回歸方程的函數(shù)形式應(yīng)與總體回歸方程的函數(shù)形式一致。第16頁/共189頁第17頁/共189頁第18頁/共189頁第19頁/共189頁第20頁/共189頁第21頁/共189頁第22頁/共189頁第23頁/共189頁第24頁/共189頁第25頁/共189頁第26頁/共189頁第27頁/共189頁第28頁/共189頁第29頁/共189頁第30頁/共189頁

通過樣本數(shù)據(jù)建立一個回歸方程后,不能立即就用于對某個實際問題的預(yù)測。因為,應(yīng)用最小二乘法求得的樣本回歸直線作為對總體回歸直線的近似,這種近似是否合理,必須對其作各種統(tǒng)計檢驗。一般經(jīng)常作以下的統(tǒng)計檢驗。第31頁/共189頁

(1)擬合優(yōu)度檢驗回歸方程的擬合優(yōu)度檢驗就是要檢驗樣本數(shù)據(jù)聚集在樣本回歸直線周圍的密集程度,從而判斷回歸方程對樣本數(shù)據(jù)的代表程度。第32頁/共189頁

回歸方程的擬合優(yōu)度檢驗一般用判定系數(shù)R2實現(xiàn)。該指標(biāo)是建立在對總離差平方和進行分解的基礎(chǔ)之上。第33頁/共189頁

(2)回歸方程的顯著性檢驗(F檢驗)回歸方程的顯著性檢驗是對因變量與所有自變量之間的線性關(guān)系是否顯著的一種假設(shè)檢驗?;貧w方程的顯著性檢驗一般采用F檢驗,利用方差分析的方法進行。第34頁/共189頁第35頁/共189頁

(3)回歸系數(shù)的顯著性檢驗(t檢驗)所謂回歸系數(shù)的顯著性檢驗,就是根據(jù)樣本估計的結(jié)果對總體回歸系數(shù)的有關(guān)假設(shè)進行檢驗。之所以對回歸系數(shù)進行顯著性檢驗,是因為回歸方程的顯著性檢驗只能檢驗所有回歸系數(shù)是否同時與零有顯著性差異,它不能保證回歸方程中不包含不能較好解釋說明因變量變化的自變量。因此,可以通過回歸系數(shù)顯著性檢驗對每個回歸系數(shù)進行考察。第36頁/共189頁

回歸參數(shù)顯著性檢驗的基本步驟。①提出假設(shè)②計算回歸系數(shù)的t統(tǒng)計量值③根據(jù)給定的顯著水平α確定臨界值,或者計算t值所對應(yīng)的p值④作出判斷第37頁/共189頁

研究問題合成纖維的強度與其拉伸倍數(shù)有關(guān),測得試驗數(shù)據(jù)如表7-1所示。求合成纖維的強度與拉伸倍數(shù)之間是否存在顯著的線性相關(guān)關(guān)系。7.2.2SPSS中實現(xiàn)過程第38頁/共189頁表7-1 強度與拉伸倍數(shù)的試驗數(shù)據(jù)序號拉伸倍數(shù)強度(kg/mm2)12.01.622.52.432.72.543.52.754.03.564.54.275.25.086.36.497.16.5108.07.3119.08.01210.08.1第39頁/共189頁

實現(xiàn)步驟圖7-1在菜單中選擇“Linear”命令第40頁/共189頁圖7-2“LinearRegression”對話框(一)第41頁/共189頁圖7-3“LinearRegression:Statistics”對話框第42頁/共189頁

圖7-4“LinearRegression:Plots”對話框第43頁/共189頁圖7-5“LinearRegression:Save”對話框第44頁/共189頁圖7-6“LinearRegression:Options”對話框第45頁/共189頁

(1)輸出結(jié)果文件中的第一個表格如下表所示。7.2.3結(jié)果和討論第46頁/共189頁

(2)輸出的結(jié)果文件中第二個表格如下表所示。第47頁/共189頁

(3)輸出的結(jié)果文件中第三個表格如下表所示。第48頁/共189頁

(4)輸出的結(jié)果文件中第四個表格如下表所示。第49頁/共189頁7.3

多元線性回歸分析7.3.1統(tǒng)計學(xué)上的定義和計算公式

定義:在上一節(jié)中討論的回歸問題只涉及了一個自變量,但在實際問題中,影響因變量的因素往往有多個。例如,商品的需求除了受自身價格的影響外,還要受到消費者收入、其他商品的價格、消費者偏好等因素的影響;影響水果產(chǎn)量的外界因素有平均氣溫、平均日照時數(shù)、平均濕度等。第50頁/共189頁

因此,在許多場合,僅僅考慮單個變量是不夠的,還需要就一個因變量與多個自變量的聯(lián)系來進行考察,才能獲得比較滿意的結(jié)果。這就產(chǎn)生了測定多因素之間相關(guān)關(guān)系的問題。第51頁/共189頁

研究在線性相關(guān)條件下,兩個或兩個以上自變量對一個因變量的數(shù)量變化關(guān)系,稱為多元線性回歸分析,表現(xiàn)這一數(shù)量關(guān)系的數(shù)學(xué)公式,稱為多元線性回歸模型。多元線性回歸模型是一元線性回歸模型的擴展,其基本原理與一元線性回歸模型類似,只是在計算上更為復(fù)雜,一般需借助計算機來完成。第52頁/共189頁第53頁/共189頁第54頁/共189頁第55頁/共189頁第56頁/共189頁第57頁/共189頁第58頁/共189頁第59頁/共189頁

對多元線性回歸,也需要測定方程的擬合程度、檢驗回歸方程和回歸系數(shù)的顯著性。(1)擬合優(yōu)度檢驗測定多元線性回歸的擬合程度,與一元線性回歸中的判定系數(shù)類似,使用多重判定系數(shù),其定義為第60頁/共189頁

(2)回歸方程的顯著性檢驗(F檢驗)多元線性回歸方程的顯著性檢驗一般采用F檢驗,利用方差分析的方法進行。第61頁/共189頁

(3)回歸系數(shù)的顯著性檢驗(t檢驗)回歸系數(shù)的顯著性檢驗是檢驗各自變量x1,x2,…,對因變量y的影響是否顯著,從而找出哪些自變量對y的影響是重要的,哪些是不重要的。與一元線性回歸一樣,要檢驗解釋變量對因變量y的線性作用是否顯著,要使用t檢驗。第62頁/共189頁

研究問題用多元回歸分析來分析36個員工多個心理變量值(z1~z8)對員工滿意度my的預(yù)測效果,測得試驗數(shù)據(jù)如表7-2所示。7.3.2SPSS中實現(xiàn)過程第63頁/共189頁表7-2 員工多個心理變量值和員工滿意度數(shù)據(jù)z1z2z3z4z5z6z7Z8滿意度66.0064.0062.0050.0058.0056.001.081.0025.0055.0050.0059.0059.0053.0051.001.001.1122.0050.0047.0049.0045.0046.0046.001.311.2020.0055.0059.0050.0054.0052.0069.001.001.0020.0055.0059.0048.0056.0047.0050.001.001.0024.0062.0054.0068.0046.0046.0051.001.081.0023.0060.0060.0056.0053.0052.0051.001.081.0021.0052.0052.0069.0058.0057.0062.001.001.0023.0056.0055.0057.0039.0044.0046.001.691.0015.0050.0050.0068.0046.0045.0056.001.081.1425.0058.0054.0060.0059.0052.0051.001.001.0025.0053.0052.0055.0057.0065.0064.001.081.0022.0052.0056.0053.0057.0063.0051.001.461.4320.0056.0065.0052.0051.0062.0047.001.001.0022.0050.0063.0059.0053.0055.0048.001.001.0020.0063.0057.0060.0066.0051.0056.001.001.0026.0056.0046.0058.0050.0045.0052.002.231.2921.0047.0050.0057.0049.0050.0048.002.081.1420.0053.0066.0053.0059.0055.0045.001.001.0025.00第64頁/共189頁z1z2z3z4z5z6z7z8滿意度61.0055.0058.0061.0058.0061.001.151.1423.0059.0064.0060.0052.0054.0056.001.081.0026.0055.0060.0072.0060.0055.0067.001.081.0026.0056.0052.0068.0040.0051.0055.001.851.7130.0059.0051.0061.0056.0052.0056.001.001.0025.0060.0053.0062.0055.0047.0063.001.311.1427.0052.0051.0057.0045.0055.0059.001.231.1420.0056.0057.0057.0052.0059.0055.001.001.1426.0068.0058.0071.0068.0053.0061.001.001.0030.0060.0053.0061.0060.0056.0051.001.001.0027.0064.0056.0074.0050.0059.0057.001.851.1418.0067.0053.0060.0053.0053.0051.001.001.0024.0056.0056.0067.0067.0056.0052.001.001.0024.0053.0046.0049.0043.0050.0048.001.311.1419.0053.0057.0065.0052.0067.0059.001.771.4317.0060.0040.0071.0057.0056.0058.001.081.0024.0054.0045.0044.0049.0042.0046.001.001.0023.00第65頁/共189頁

實現(xiàn)步驟圖7-7“LinearRegression”對話框(二)第66頁/共189頁

(1)輸出結(jié)果文件中的第一個表格如下表所示。7.3.3結(jié)果和討論第67頁/共189頁2)輸出的結(jié)果文件中第二個表格如下表所示。第68頁/共189頁

(3)輸出的結(jié)果文件中第三個表格如下表所示。第69頁/共189頁

(4)輸出的結(jié)果文件中第四個表格如下表所示。第70頁/共189頁

(5)輸出的結(jié)果文件中第五個表格如下表所示。第71頁/共189頁

(6)輸出的結(jié)果文件中第六個表格為回歸系數(shù)分析,如下表所示第72頁/共189頁

(7)輸出的結(jié)果文件中第七個表格如下表所示。第73頁/共189頁

(8)輸出的結(jié)果文件中第八部分為圖形,為回歸因變量和每個自變量之間的關(guān)系點圖。圖7-8為自變量z1和my之間的關(guān)系點圖。第74頁/共189頁7.4.1統(tǒng)計學(xué)上的定義和計算公式7.4非線性回歸分析

定義:研究在非線性相關(guān)條件下,自變量對因變量的數(shù)量變化關(guān)系,稱為非線性回歸分析。在實際問題中,變量之間的相關(guān)關(guān)系往往不是線性的,而是非線性的,因而不能用線性回歸方程來描述它們之間的相關(guān)關(guān)系,而要采用適當(dāng)?shù)姆蔷€性回歸分析。第75頁/共189頁

非線性回歸問題大多數(shù)可以化為線性回歸問題來求解,也就是通過對非線性回歸模型進行適當(dāng)?shù)淖兞孔儞Q,使其化為線性模型來求解。一般步驟為:第76頁/共189頁

根據(jù)經(jīng)驗或者繪制散點圖,選擇適當(dāng)?shù)姆蔷€性回歸方程;通過變量置換,把非線性回歸方程化為線性回歸;用線性回歸分析中采用的方法來確定各回歸系數(shù)的值;對各系數(shù)進行顯著性檢驗。第77頁/共189頁

計算公式如下。在本節(jié)中介紹幾種常見的非線性回歸模型,并分別給出其線性化方法及圖形。第78頁/共189頁第79頁/共189頁第80頁/共189頁第81頁/共189頁第82頁/共189頁第83頁/共189頁第84頁/共189頁第85頁/共189頁第86頁/共189頁

研究問題研究民用汽車總量與國內(nèi)生產(chǎn)總值的關(guān)系。數(shù)據(jù)如表7-3所示。(資料來源:《中國統(tǒng)計年鑒2007》,中國統(tǒng)計出版社,2007年)7.4.2SPSS中實現(xiàn)過程第87頁/共189頁

實現(xiàn)步驟圖7-9“SimpleScatterplot”對話框第88頁/共189頁圖7-10散點圖第89頁/共189頁圖7-11“CurveEstimation”對話框(一)第90頁/共189頁7.4.3結(jié)果和討論

(1)第一部分輸出相關(guān)統(tǒng)計量和參數(shù)的值,如下表所示。第91頁/共189頁

(2)第二部分輸出的是觀察值和Cubic,Power兩種曲線預(yù)測值的對比圖,如圖7-12所示。第92頁/共189頁7.5.1統(tǒng)計學(xué)上的定義和計算公式7.5曲線估計

定義:在一元回歸分析中,一般首先繪制自變量和因變量間的散點圖,然后通過數(shù)據(jù)在散點圖中的分布特點選擇所要進行回歸分析的類型,是使用線性回歸分析還是某種非線性的回歸分析。第93頁/共189頁

然而,在實際問題中,用戶往往不能確定究竟該選擇何種函數(shù)模型更接近樣本數(shù)據(jù),這時可以采用曲線估計的方法,其步驟如下:第94頁/共189頁

首先根據(jù)實際問題本身特點,同時選擇幾種模型;然后SPSS自動完成模型的參數(shù)估計,并顯示R2、F檢驗值、相伴概率值等統(tǒng)計量;最后,選擇具有R2統(tǒng)計量值最大的模型作為此問題的回歸模型,并作一些預(yù)測。第95頁/共189頁第96頁/共189頁第97頁/共189頁

研究問題試用SPSS對國內(nèi)生產(chǎn)總值和社會消費品零售總額之間的關(guān)系進行曲線回歸分析。數(shù)據(jù)如表7-4所示。(資料來源:《中國統(tǒng)計年鑒2007》,中國統(tǒng)計出版社,2007年)7.5.2SPSS中實現(xiàn)過程第98頁/共189頁表7-4 1978~2006年社會消費品零售總額年份國內(nèi)生產(chǎn)總值(億元)社會消費品零售總額(億元)19783645.21558.619794062.61800.019804545.62140.019814891.62350.019825323.42570.019835962.72849.419847208.13376.419859016.04305.0198610275.24950.0198712058.65820.0198815042.87440.0198916992.38101.4199018667.88300.1199121781.59415.6199226923.510993.7199335333.912462.1199448197.916264.7199560793.720620.0199671176.624774.1199778973.027298.9199884402.329152.5199989677.131134.7200099214.634152.62001109655.237595.22002120332.748135.92003135822.852516.32004159878.359501.02005183867.967176.62006210871.076410.0第99頁/共189頁

實現(xiàn)步驟圖7-13“CurveEstimation”對話框(二)第100頁/共189頁圖7-14“CurveEstimation:Save”對話框(一)第101頁/共189頁

(1)SPSS輸出結(jié)果文件中的第一部分如下表所示。7.5.3結(jié)果和討論第102頁/共189頁

(2)輸出的結(jié)果文件中第二部分如圖7-15所示。第103頁/共189頁

(3)由于進行曲線估計時所選的曲線模型種類較多,所以使得輸出的觀察值與在各種函數(shù)模型條件下預(yù)測值的對比圖比較復(fù)雜,不易分辨出究竟Linear,Quadratic,Cubic及Power這4種曲線究竟哪種的對樣本觀察值的擬合優(yōu)度更符合實際。第104頁/共189頁圖7-16對比圖2第105頁/共189頁

(4)重新回到圖7-13所示對話框,在“Model”框內(nèi)只選中“Quadratic”和“Cubic”這兩種擬合優(yōu)度更高的曲線模型進行估計。得出它們與觀察值的對比圖,如圖7-17所示。第106頁/共189頁圖7-17對比圖3第107頁/共189頁

(5)如果在圖7-13所示對話框中選中了“DisplayANOVAtable”項,作回歸方程顯著性檢驗,將輸出相應(yīng)的方差分析表,以Cubic模型為例(如下表所示),其結(jié)果是:回歸方程顯著有意義,并且x,x2,x3三個自變量的系數(shù)顯著不為零。第108頁/共189頁第109頁/共189頁第110頁/共189頁第111頁/共189頁

(6)由于在圖7-13所示對話框中選了“Save”項,且在圖7-14所示的“SaveVariables”框中選擇了“Predictedvalues”,“Residuals”和“Predictionintervals”3個選項,因此在SPSS數(shù)據(jù)編輯窗口中就增了fit_1,err_1,lcl_1,ucl_1等44個變量的值,如圖7-18所示。第112頁/共189頁圖7-18曲線估計分析結(jié)果保存第113頁/共189頁7.6.1統(tǒng)計學(xué)上的定義和計算公式7.6時間序列的曲線估計

定義:時間序列的曲線估計是分析社會和經(jīng)濟現(xiàn)象中經(jīng)常用到的一種曲線估計。通常把時間設(shè)為自變量x,代表具體的經(jīng)濟或社會現(xiàn)象的變量設(shè)為因變量y,研究變量x與y之間關(guān)系的方法就是時間序列曲線估計。其具體步驟與一般的曲線估計基本類似。計算公式:SPSS中時間序列的曲線估計模型與上一節(jié)所介紹相同。第114頁/共189頁

研究問題試用SPSS對1978~2006年間社會消費品零售總額之間的關(guān)系進行曲線回歸分析。數(shù)據(jù)如表7-5所示。(資料來源:《中國統(tǒng)計年鑒2007》,中國統(tǒng)計出版社,2007年)7.6.2SPSS中實現(xiàn)過程第115頁/共189頁表7-5 1978~2006年社會消費品零售總額

序號年份社會消費品零售總額(億元)119781558.6219791800.0319802140.0419812350.0519822570.0619832849.4719843376.4819854305.0919864950.01019875820.01119887440.01219898101.41319908300.11419919415.615199210993.716199314270.417199418622.918199523613.819199628360.220199731252.921199833378.122199935647.923200039105.724200143055.425200248135.926200352516.327200459501.028200567176.629200676410.0第116頁/共189頁

實現(xiàn)步驟圖7-19“CurveEstimation”對話框(三)第117頁/共189頁圖7-20“CurveEstimation:Save”對話框(二)第118頁/共189頁

(1)第一部分輸出相關(guān)統(tǒng)計量和參數(shù)的值如下表所示。7.6.3結(jié)果和討論第119頁/共189頁

(2)第二部分輸出的是觀察值Linear,Cubic,Power和Exponential4種曲線預(yù)測值的對比圖,如圖7-21所示。第120頁/共189頁

(3)由于在圖7-19所示“CurveEstimation”對話框(三)中選了“Save”項,且在圖7-20的“SaveVariables”框中選擇了“Predictedvalues”選項和“PredictCases”框中選擇了“Predictthrough”項,并且在“Observation”框中鍵入了“31”,因此在SPSS數(shù)據(jù)編輯窗口中就新增了fit_1,fit_2,fit_3和fit_4等4個變量的預(yù)測值,同時在窗口下方還新增了兩個個案,它們分別代表對2007年和2008年的預(yù)測值。如圖7-22所示。第121頁/共189頁第122頁/共189頁7.7.1統(tǒng)計學(xué)上的定義和計算公式7.7含虛擬自變量的回歸分析

定義:前面幾節(jié)所討論的回歸模型中,因變量和自變量都是可以直接用數(shù)字計量的,即可以獲得其實際觀測值(如收入、支出、產(chǎn)量、國內(nèi)生產(chǎn)總值等),這類變量稱作數(shù)量變量、定量變量或數(shù)量因素。然而,在實際問題的研究中,經(jīng)常會碰到一些非數(shù)量型的變量,如性別、民族、職業(yè)、文化程度、地區(qū)、正常年份與干旱年份、改革前與改革后等定性變量。第123頁/共189頁

在建立一個實際問題的回歸方程時,經(jīng)常需要考慮這些定性變量。例如,建立糧食產(chǎn)量預(yù)測方程就應(yīng)考慮到正常年份與受災(zāi)年份的不同影響;建立空調(diào)的銷售模型時,除了要考慮居民收入和商品價格這兩個量的因素之外,還必須將“季節(jié)”這個質(zhì)的因素,作為一個重要解釋變量。第124頁/共189頁

由于受到質(zhì)的因素影響,回歸模型的參數(shù)不再是固定不變的。例如,在空調(diào)銷售模型中,收入、價格與空調(diào)銷售額的關(guān)系是隨著季節(jié)變化而改變的,也就是說,在不同的季節(jié)回歸模型的參數(shù)也會有所不同。再如,我國居民的消費行為在改革開放前后大不相同,因此消費函數(shù)的參數(shù)也會發(fā)生變化。顯然,如果忽略質(zhì)的因素,仍把模型中的參數(shù)看作是固定不變的,得到的參數(shù)估計量就不能正確描述經(jīng)濟變量之間的關(guān)系。第125頁/共189頁

在回歸分析中,對一些自變量是定性變量的先作數(shù)量化處理,處理的方法是引進只取“0”和“1”兩個值的0?1型虛擬自變量。當(dāng)某一屬性出現(xiàn)時,虛擬變量取值為“1”,否則取值為“0”。例如,令“1”表示改革開放以后的時期,“0”則表示改革開放以前的時期。再如,用“l(fā)”表示某人是男性,“0”則表示某人是女性。虛擬變量也稱為啞變量。需要指出的是,雖然虛擬變量取某一數(shù)值,但這一數(shù)值沒有任何數(shù)量大小的意義,它僅僅用來說明觀察單位的性質(zhì)和屬性。第126頁/共189頁

如果在回歸模型中需要引入多個0?1型虛擬變量D時,虛擬變量的個數(shù)應(yīng)按下列原則來確定:對于包含一個具有k種特征或狀態(tài)的質(zhì)因素的回歸模型,如果回歸模型不帶常數(shù)項,則中需引入k個0?1型虛擬變量D;如果有常數(shù)項,則只需引入k?1個0?1型虛擬變量D。當(dāng)k=2時,只需要引入一個0?1型虛擬變量D。第127頁/共189頁

計算公式如下。下面以自變量所含定性變量是一個還是多個來分別說明如何構(gòu)造含虛擬自變量的回歸模型。(1)自變量中只含一個定性變量,且這個定性變量只有兩種特征的簡單情況時。(2)自變量中含多個定性變量時。第128頁/共189頁

研究問題研究采取某項保險革新措施的速度y與保險公司的規(guī)模x1及其類型d之間的關(guān)系,數(shù)據(jù)如表7-6所示。7.7.2SPSS中實現(xiàn)過程第129頁/共189頁表7-6保險公司革新情況iyx1d1171510226920321175043031052210406027707122100819120094290010162380112816411215272113112951143868115318511621224117201661181330511930124120142461第130頁/共189頁

實現(xiàn)步驟圖7-23“LinearRegression”對話框(三)第131頁/共189頁

(1)第一部分輸出結(jié)果文件中的第一個表格如下表所示。7.7.3結(jié)果和討論第132頁/共189頁

(2)輸出的結(jié)果文件中第二個表格如下表所示。第133頁/共189頁

(3)輸出的結(jié)果文件中第三個表格如下表所示。第134頁/共189頁

(4)輸出的結(jié)果文件中第四個表格如下表所示。第135頁/共189頁7.8.1統(tǒng)計學(xué)上的定義和計算公式7.8邏輯回歸分析

定義:邏輯回歸分析是對定性變量的回歸分析。第136頁/共189頁

可用于處理定性因變量的統(tǒng)計分析方法有:判別分析(Discriminantanalysis)、Probit分析、Logistic回歸分析和對數(shù)線性模型等。在社會科學(xué)中,應(yīng)用最多的是Logistic回歸分析。Logistic回歸分析根據(jù)因變量取值類別不同,又可以分為BinaryLogistic回歸分析和Multinomi-nalLogistic回歸分析。第137頁/共189頁BinaryLogistic回歸模型中因變量只能取兩個值1和0(虛擬因變量),而MultinomialLogistic回歸模型中因變量可以取多個值。本節(jié)將只討論BinaryLogistic回歸,并簡稱Logistic回歸(與7.5節(jié)曲線估計中介紹的Logistic曲線模型相區(qū)別)。Logistic函數(shù)的形式為第138頁/共189頁第139頁/共189頁第140頁/共189頁第141頁/共189頁第142頁/共189頁第143頁/共189頁第144頁/共189頁第145頁/共189頁第146頁/共189頁第147頁/共189頁第148頁/共189頁第149頁/共189頁第150頁/共189頁第151頁/共189頁第152頁/共189頁第153頁/共189頁第154頁/共189頁

與任何概率一樣,似然的取值范圍在[0,1]之間。?2LL的計算公式為1.-2對數(shù)似然值(-2loglikelihood,-2LL)第155頁/共189頁Logistic回歸的擬合優(yōu)度統(tǒng)計量計算公式為在實際問題中,通常采用如下分類表(ClassificationTable)反映擬合效果。2.?dāng)M合優(yōu)度(GoodnessofFit)統(tǒng)計量第156頁/共189頁Predicted(預(yù)測值)01PercentCorrect

(正確分類比例)Observed(觀測值)0n00n01f01n10n11f1Overall(總計)ffClassificationTableforY第157頁/共189頁3.Cox和Snell的R2(Cox&Snell’sR-Square)第158頁/共189頁4.Nagelkerke的R2(Nagelkerke’sR-Square)第159頁/共189頁5.偽R2(Psedo-R-square)

偽R2與線性回歸模型的R2相對應(yīng),其意義相似,但它小于1。第160頁/共189頁6.Hosmer和Lemeshow的擬合優(yōu)度檢驗統(tǒng)計量(HosmerandLemeshow’sGoodnessofFitTestStatistic)

與一般擬合優(yōu)度檢驗不同,Hosmer和Lemeshow的擬合優(yōu)度檢驗通常把樣本數(shù)據(jù)根據(jù)預(yù)測概率分為10組,然后根據(jù)觀測頻數(shù)和期望頻數(shù)構(gòu)造卡方統(tǒng)計量(即Hosmer和Lemeshow的擬合優(yōu)度檢驗統(tǒng)計量,簡稱H-L擬合優(yōu)度檢驗統(tǒng)計量),最后根據(jù)自由度為8的卡方分布計算其值并對Logistic模型進行檢驗。第161頁/共189頁

如果該p值小于給定的顯著性水平(如=0.05),則拒絕因變量的觀測值與模型預(yù)測值不存在差異的零假設(shè),表明模型的預(yù)測值與觀測值存在顯著差異。如果值大于,我們沒有充分的理由拒絕零假設(shè),表明在可接受的水平上模型的估計擬合了數(shù)據(jù)。第162頁/共189頁7.Wald統(tǒng)計量Wald統(tǒng)計量用于判斷一個變量是否應(yīng)該包含在模型中,其檢驗步驟如下。(1)提出假設(shè)。(2)構(gòu)造Wald統(tǒng)計量。(3)作出統(tǒng)計判斷。第163頁/共189頁

研究問題在一次關(guān)于某城鎮(zhèn)居民上下班使用交通工具的社會調(diào)查中,因變量y=1表示居民主要乘坐公共汽車上下班;y

=0表示主要騎自行車上下班;自變量x1表示被調(diào)查者的年齡;x2表示被調(diào)查者的月收入;x3表示被調(diào)查者的性別(x3=1為男性,x3=0為女性)。試建立y與自變量間的Logistic回歸,數(shù)據(jù)如表7-7所示。7.8.2SPSS中實現(xiàn)過程第164頁/共189頁表7-7 使用交通工具上下班情況序號x1(年齡)x2(月收入:元)x3(性別)y118850002211200003238500142395001528120001631850007361500018421000019469500110481200001155180001125621000113581800011418850101520100010162512001017271300101828150010193095011203210001021331800102233100010233812001024411500102545180011264810001027521500112856180011第165頁/共189頁

實現(xiàn)步驟圖7-24“LogisticRegression”對話框第166頁/共189頁圖7-25“LogisticRegression:Options”對話框第167頁/共189頁

(1)第一部分輸出結(jié)果有兩個表格,第一個表格說明所有個案(28個)都被選入作為回歸分析的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論