SPSS實(shí)驗(yàn)8-二項(xiàng)Logistic回歸分析_第1頁
SPSS實(shí)驗(yàn)8-二項(xiàng)Logistic回歸分析_第2頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、SPSSSPSS作業(yè)作業(yè)8 8:二項(xiàng)二項(xiàng)LogisticLogistic回歸分析回歸分析 為研究和預(yù)測某商品消費(fèi)特點(diǎn)和趨勢,收集到以往胡消費(fèi)數(shù)據(jù)。數(shù)據(jù)項(xiàng)包括是否購買,性別,年齡和收入水平。這里采用 Logistic 回歸的方法,是否購買作為被解釋變量(0/1 二值變量),其余各變量為解釋變量,且其中性別和收入水平為品質(zhì)變量,年齡為定距變量。變量選擇采用 Enter 方法,性別以男為參照類,收入以低收入為參照類。 一)基本操作:一)基本操作: (1)選擇菜單 AnalyzeRegressionBinaryLogistic; (2)選擇是否購買作為被解釋變量到 Dependent 框中,選其余各變

2、量為解釋變量到 Covariates 框中,采用 Enter 方法,結(jié)果如下: 消費(fèi)的二項(xiàng)消費(fèi)的二項(xiàng) LogisticLogistic 分析結(jié)果(一)(強(qiáng)制進(jìn)入策略)分析結(jié)果(一)(強(qiáng)制進(jìn)入策略) CategoricalVariabCategoricalVariab .esCodings.esCodings A Parameter coding Frequency (1) (2) 收入 低收入 132 .000 .000 中收入 144 .000 高收入 155 .000 性別 男 191 .000 ObservedPredicted CategoricalVariabCategoricalV

3、ariab:.esCodings.esCodings A Parameter coding Frequency (1) (2) 收入 低收入 132 .000 .000 中收入 144 .000 高收入 155 .000 性別 男 191 .000 女 240 分析:分析:上表顯示了對品質(zhì)變量產(chǎn)生虛擬變量的情況, 產(chǎn)生的虛擬變量命名為原變量名(編碼)。 可以看到, 對收入生成了兩個虛擬變量名為 Income(l)和 Income(2),分別表示是否中收入和是否髙收入,兩變量均為 0 時表示低收入;對性別生成了一個虛擬變量名為 Gedder(l),表示是否女,取值為 0 時表示為男。 消費(fèi)的二項(xiàng)

4、消費(fèi)的二項(xiàng) LogisticLogistic 分析結(jié)果分析結(jié)果( (二二)()(強(qiáng)制進(jìn)入策略強(qiáng)制進(jìn)入策略) ) BlockBlock0 0:BeginningBlockBeginningBlock ClassificationTableClassificationTablea,b ( 是否購買 Percentage Correct 不購買 購買 Step0 是否購買】 不購買 269 0 購買 162 0 .0 ) OverallPercentage a. Constantisincludedinthemodel. b. Thecutvalueis.500 分析:分析:上表顯示了 Logist

5、ic 分析初始階段(第零步)方程中只有常數(shù)項(xiàng)時的錯判矩陣??梢钥吹剑?69 人中實(shí)際沒購買且模型預(yù)測正確,正確率為 100%;162 人中實(shí)際購買了但模型均預(yù)測錯誤,正確率為 0%。模型總的預(yù)測正確率為。 消費(fèi)的二項(xiàng)消費(fèi)的二項(xiàng) LogisticLogistic 分析結(jié)果(三)(強(qiáng)制進(jìn)入策略)分析結(jié)果(三)(強(qiáng)制進(jìn)入策略) VariablesintheEquationVariablesintheEquation B Wald df Sig. Exp(B) Step0Constant .099 1 .000 .602 分析:分析:上表顯示了方程中只有常數(shù)項(xiàng)時的回歸系數(shù)方面的指標(biāo),各數(shù)據(jù)項(xiàng)的含義依次

6、為回歸系數(shù),回歸系數(shù)標(biāo)準(zhǔn)誤差,Wald 檢驗(yàn)統(tǒng)計(jì)量的觀測值,自由度,Wald檢驗(yàn)統(tǒng)計(jì)量的概率 p 值,發(fā)生比。由于此時模型中未包含任何解釋變量,因此該表沒有實(shí)際意義。 消費(fèi)的二項(xiàng)消費(fèi)的二項(xiàng) LogisticLogistic 分析結(jié)果(四)(強(qiáng)制進(jìn)入策略)分析結(jié)果(四)(強(qiáng)制進(jìn)入策略) VariablesnotintheEquationVariablesnotintheEquation Score df Sig. Step0Variablesage 1 .260 gender(l) 1 .031 income 2 .005 income(l) A 1 .087 income 1 .001 Ove

7、rallStatistics 、 4 .001 分析:分析:上表顯示了待進(jìn)入方程的各個變量的情況,各數(shù)據(jù)項(xiàng)的含義依次為 Score 檢驗(yàn)統(tǒng)計(jì)量的觀測值,自由度和概率 p 值??梢钥吹剑绻乱徊?Age 進(jìn)入方程,則 Score 檢驗(yàn)統(tǒng)計(jì)量的觀測值為,概率 p 值為。如果顯著性水平 a 為,由于 Age 的概率 p 值大于顯著性水平 a,所以是不能進(jìn)入方程的。但在這里,由于解釋變量的篩選策略為 Enter,所以這些變量也被強(qiáng)行進(jìn)入方程。 消費(fèi)的二項(xiàng)消費(fèi)的二項(xiàng) LogisticLogistic 分析結(jié)果(五)(強(qiáng)制進(jìn)入策略)分析結(jié)果(五)(強(qiáng)制進(jìn)入策略) BlockBlock1:1:Method

8、Method= =EnterEnter OmnibusOmnibus 、estsofModelCoefficientsestsofModelCoefficients Chi-square df Sig. Step1Step 4 .001 Block 4 .001 Model 4 .001 分析:分析:上表顯示了 Logistic 分析第一步時回歸方程顯著性檢驗(yàn)的總體情況,各數(shù)據(jù)項(xiàng)的含義依次為似然比卡方的觀測值,自由度和概率 p 值??梢钥吹?在本步所選變量均進(jìn)入方程(Method 二 Enter)。與前一步相比,似然比卡方檢驗(yàn)的觀測值,概率 p 值為。如果顯著性水平 a 為,由于概率 p 值小

9、于顯著性水平 a,應(yīng)拒絕零假設(shè),認(rèn)為所有回歸系數(shù)不同時為 0,解釋變量的全體與 LogitP 之間的線性關(guān)系顯著,采用該模型是合理的。 在這里分別輸出了三行似然比卡方值。其中,Step 行是本步與前一步相比的似然卡方比;Block 行是本塊(Block)與前一塊相比的似然卡方比;Model 行是本模型與前一模型相比的似然卡方比。在本例中,由于沒有設(shè)置解釋變量塊,且解釋變量是一次性強(qiáng)制進(jìn)入模型,所以三行結(jié)果都相同。 | 消費(fèi)的二項(xiàng)消費(fèi)的二項(xiàng) LogisticLogistic 分析結(jié)果(六)(強(qiáng)制進(jìn)入策略)分析結(jié)果(六)(強(qiáng)制進(jìn)入策略) ModelSummaryModelSummary -2Log

10、 Cox&SnellR NagelkerkeR Step likelihood Square Square parameterestimateschangedbylessthan.001. 分析:分析:上表顯示了當(dāng)前模型擬合優(yōu)度方面的指標(biāo),各數(shù)據(jù)項(xiàng)的含義依次為-2 倍的對數(shù)似然函數(shù)值,Cox&SnellR2。-2 倍的對數(shù)似然函數(shù)值越小則模型的擬合優(yōu)度越髙。這里該值較大,所以模型的擬合優(yōu)度并不理想。從 NagelkerkeR2 也可以看到其值接近零,因此擬合優(yōu)度比較低。 消費(fèi)的二項(xiàng)消費(fèi)的二項(xiàng) LogisticLogistic 分析結(jié)果(七)(強(qiáng)制進(jìn)入策略)分析結(jié)果(七)(強(qiáng)制進(jìn)

11、入策略) ClassificationTableClassificationTablea / Observed Predicted 是否購買 Percentage Correct 不購買 購買 Step1 是否購買 不購買 購買 OverallPercentage 236 131 33 31 a.Thecutvalueis.500 分析:分析:上表顯示了當(dāng)前所得模型的錯判矩陣??梢钥吹?,腳注中的 TheCutvalueis.500 意味著:如果預(yù)測概率值大于,則認(rèn)為被解釋變量的分類預(yù)測值為 1,如果小于,則認(rèn)為被解釋變量的分類預(yù)測值為 0.;在實(shí)際沒購買的 269 人中,模型正確識別了 236

12、 人,識別錯誤了 131 人,正確率為%。模型總的預(yù)測正確率為%。與前一步相比,對未購買的預(yù)測準(zhǔn)確度下降了,對購買的預(yù)測準(zhǔn)確度上升了,但總體預(yù)測精度仍下降了。因此模型預(yù)測效果并不十分理想。 # 消費(fèi)的二項(xiàng)消費(fèi)的二項(xiàng) LogisticLogistic 分析結(jié)果(八)(強(qiáng)制進(jìn)入策略)分析結(jié)果(八)(強(qiáng)制進(jìn)入策略) VariablesintheEquationVariablesintheEquation B Wald df Sig. Exp(B) !age .025 .018 1 .160 Step1a/、 gender(1) .511 .209 1 .015 income 2 .002 incom

13、e(1) .101 .263 .146 1 .703 % income .787 .253 1 .002 Constant .754 1 .005 .121 a.Variable(s)enteredonstep1:age,gender,income. 分析:分析:上表顯示了當(dāng)前所得模型中各個回歸系數(shù)方面的指標(biāo)??梢钥闯?,如果顯著性水平 a 為,由于 Age 的 Wald 檢驗(yàn)概率 p 值大于顯著性水平 a,不應(yīng)拒絕零假設(shè),認(rèn)為該回歸系數(shù)與 0 無顯著差異,它與 LogitP 的線性關(guān)系是不顯著的,不應(yīng)保留在方程中。由于方程中包含了不顯著的解釋變量,因此該模型是不可用的,應(yīng)重新建模。 下面是對模

14、型做進(jìn)一步分析,解釋變量的篩選采用基于極大似然估計(jì)的逐步篩選策略(Forward:LR),分析的具體操作以及結(jié)果如下:( (二二) )基本操作:基本操作: (1) 選擇菜單 AnalyzeRegressionBinaryLogistic; (2) 選擇是否購買作為被解釋變量到 Dependent 框中,選其余各變量為解釋變量到 Covariates 框中,采用 Forward:LR 方法,在 Option 框中對模型做近一步分析,結(jié)果如下: 消費(fèi)的二項(xiàng)消費(fèi)的二項(xiàng) LogisticLogistic 分析結(jié)果分析結(jié)果( (一一)()(逐步篩選策略逐步篩選策略) ) BlockBlock1 1:Me

15、thodMethod= =ForwardStepwise(LikelihoodRatio)ForwardStepwise(LikelihoodRatio) OmnibusOmnibus 、estsofModelCoefficientsestsofModelCoefficients Chi-square ! df Sig. Step1 Step 2 .005 Block 2 .005 Model 2 .005 Step2 Step 1 .015 Block 3 .001 Model 3 .001 消費(fèi)的二項(xiàng)消費(fèi)的二項(xiàng) LogisticLogistic 分析結(jié)果(二)(逐步篩選策略)分析結(jié)果(二)

16、(逐步篩選策略) ModelifTermRemovedModelifTermRemoved Variable ModelLog Likelihood Changein-2Log Likelihood df Sig.ofthe Change Step1 income 】 2 .005 Step2 gender 1 .015 income 2 .003 分析:分析:上面第一個表顯示了變量逐步篩選過程中對數(shù)似然比卡方檢驗(yàn)的結(jié)果,用于回歸方程的顯著性檢驗(yàn)。這里略去了第零步分析的結(jié)果。結(jié)果上面的兩個表共同分析。在 Step1 中,模型中包含常數(shù)項(xiàng)和 INC0ME。如果此時剔除 INC0ME 將使-2LL

17、 減少,即是 INC0ME 進(jìn)入模型引起的,即為零模型的對數(shù)似然比;在 Step2 中,模型中包含常數(shù)項(xiàng),INCOME,GENDER。此時剔除 GENDER,即-2LL 將減少,即是在 Step1 基礎(chǔ)上 GENDER 所引起的,即為 Step1 模型的對數(shù)似然比,此時-2*+2*=,即INCOME 引起的。其他同理??梢钥吹剑绻@著性水平 a 為,由于各步的概率 p 值均小于顯著性水平 a,因此此時模型中的解釋變量全體與 LogitP 的線性關(guān)系是顯著,模型合理。 消費(fèi)的二項(xiàng)消費(fèi)的二項(xiàng) LogisticLogistic 分析結(jié)果(三)(逐步篩選策略)分析結(jié)果(三)(逐步篩選策略) Vari

18、ablesintheEquationVariablesintheEquation B Wald df Sig. Exp(B) %EXP(B) Lower Upper Step1a income .005 income(l) .006 .259 .001 1 .982 .606 income .672 .247 1 .006 Constant .187 1 .000 .467 ) Step2b gender(l) .504 .209 1 .016 income 2 .003 income(1) .096 .263 .134 1 .714 .658 income(2) .761 .251 1 .0

19、02 Constant .240 1 .000 .329 a.Variable(s)enteredonstep1:income. b.Variable(s)enteredonstep2:gender. 分析:上表顯示了解釋變量篩選的過程和各解釋變量的回歸系數(shù)檢驗(yàn)結(jié)果??梢钥吹?,最終的模型(第二步)中包含了性別和收入變量,各自回歸系數(shù)顯著性檢驗(yàn)的 Wald 觀測值對應(yīng)的概率 p 值都小于顯著性水平 a,因此均拒絕零假設(shè),意味它們與 LogitP 的線性關(guān)系是顯著,應(yīng)保留在方程中。表中的第七,第八列分別是發(fā)生比的 95%的置信區(qū)間。 最終年齡變量沒有引入方程,因?yàn)槿绻雱t相應(yīng)的 Score 檢驗(yàn)

20、的概率 p 值大于顯著性水平 a,不應(yīng)拒絕零假設(shè),它與 LogitP 的線性關(guān)系不顯著,不應(yīng)進(jìn)入方程。具體結(jié)果如下:消費(fèi)的二項(xiàng)消費(fèi)的二項(xiàng) LogisticLogistic 分析結(jié)果(四)(逐步篩選策略)分析結(jié)果(四)(逐步篩選策略) VariablesnotintheEquationVariablesnotintheEquation Score df Sig. Step1age 1 .174 Variables/八 gender(1) 1 .015 OverallStatistics 2 .020 Step2Variablesage 1 .159 OverallStatistics 1 .15

21、9 消費(fèi)的二項(xiàng)消費(fèi)的二項(xiàng) LogisticLogistic 分析結(jié)果(五分析結(jié)果(五)()(逐步篩選策略)逐步篩選策略) ModelSummaryModelSummary Step -2Log likelihood Cox&SnellR Square ! NagelkerkeR Square 1 560.107a .024 .033 2 .037 .051 a.Estimationterminatedatiterationnumber3becauseparameterestimateschangedbylessthan.001. ModelSummaryModelSummary Ste

22、p -2Log likelihood Cox&SnellR Square ! NagelkerkeR Square 1 560.107a .024 .033 2 .037 .051 a.Estimationterminatedatiterationnumber3because parameterestimateschangedbylessthan.001. b.Estimationterminatedatiterationnumber4becauseparameterestimateschangedbylessthan.001. 分析:分析:上表顯示了模型擬合優(yōu)度方面的測度指標(biāo)。最終模

23、型的-2 倍的對數(shù)似然函數(shù)值為,仍然較髙,說明模型的擬合優(yōu)度不甚理想。同時,NagelkerkeR2 距 1較遠(yuǎn),也說明了模型的擬合優(yōu)度不高。 消費(fèi)的二項(xiàng)消費(fèi)的二項(xiàng) LogisticLogistic 分析結(jié)果(六)(逐步篩選策略)分析結(jié)果(六)(逐步篩選策略) HosmerandLemeshowTestHosmerandLemeshowTest Step Chi-square df Sig. 1 .000 1 2 4 .063 消費(fèi)的二項(xiàng)消費(fèi)的二項(xiàng) LogisticLogistic 分析結(jié)果(七)(逐步篩選策略)分析結(jié)果(七)(逐步篩選策略) ContingencyTableforHosmer

24、andLemeshowTestContingencyTableforHosmerandLemeshowTest , 是否購買=不購買 是否購買=購買 Total Observed Expected Observed Expected 1 90 42 132 Step1 2 98 46 144 3 81 74 155 Step2 1 35 8 43 2 58 15 73 3 55 34 89 4 40 31 71 5 37 38 75 6 44 36 80 分析:分析:上面是 Hosmer-Lemeshow 檢驗(yàn)的結(jié)果。最終模型中,Hosmer-Lemeshow 統(tǒng)計(jì)量的觀測值為,概率 p 值為

25、,大于顯著性水平 a,因此不應(yīng)拒絕零假設(shè),認(rèn)為該組的劃分與被解釋變量的取值不相關(guān),說明模型的擬合優(yōu)度較低。它與 NagelkerkeR2 分析的結(jié)果是一致的。160+ 消費(fèi)的二項(xiàng)消費(fèi)的二項(xiàng) LogisticLogistic 分析結(jié)果(八)(逐步篩選策略)分析結(jié)果(八)(逐步篩選策略) ClassificationTableaClassificationTablea Observed Predicted 是否購買 Percentage Correct 不購買 購買 Step1 是否購買不購買 269 0 購買 162 0 .0 OverallPercentage Step2 不購買 225 44

26、 是否購買購買 126 36 OverallPercentage a.Thecutvalueis.500 Stepnumber:2 ObservedGroupsandPredictedProbabilities00 R 120+ + E 1 1 Q 1 1 1 U 1 1 1 E 80+ 1 + N 1 11 C 1 1 01 Y 1 1 01 40+ 1 00 1 111 1111 0111 0111 0000 0000 .9 00000000000000000000000000000000000000000000000000 PredictedProbabilityisofMembersh

27、ipfor 購買 TheCutValueis.50 Symbols:0-不購買 1-購買 EachSymbolRepresents10Cases. 圖:消費(fèi)的二項(xiàng)圖:消費(fèi)的二項(xiàng) LogisticLogistic 分析預(yù)測分類圖分析預(yù)測分類圖 分析:分析:上表顯示了各模型的錯判矩陣。第一個模型的總體正確率為%,對不購買人群預(yù)測的準(zhǔn)確率極高,但對購買人群預(yù)測的準(zhǔn)確率極低;第二個模型的總體正確率為%,對不購買人群預(yù)測的準(zhǔn)確率下降了,但對購買人群預(yù)測的準(zhǔn)確率提高了。從應(yīng)用角度看第二個模型較第一個模型的應(yīng)用性略強(qiáng)一些。 在上圖中,符號 0 表示實(shí)際未購買,1 表示實(shí)際購買,一個符號代表 10 個樣本。預(yù)

28、測概率值大于的樣本屬于購買類,小于的屬于未購買類??梢钥闯觯涸谀P皖A(yù)測出的購買類中,仍有 40 個左右(4 個 0,精確值為 44)實(shí)際未購買;同樣,在模型預(yù)測出的未購買類中,仍有 110 個左右(11 個 1,精確值為 126)實(shí)際購買了。模型的預(yù)測效果并不很理想。 通過以上的分析知道,該模型的預(yù)測效果不很理想。也就是說,僅通過性別和收入來預(yù)測是否購買商品是不全面的,還應(yīng)考慮其他因素。但是該模型仍可以用于分析是否購買和收入之間的關(guān)系。由上面的分析結(jié)果,可以寫出 Logistic 回歸方程: LogitP=+gender(1) Predicted Prob: .1 .2 00 00 00 00

29、 .3 .4 .5 .6 .7 .8 Group: LogitP=+gender(1)+income(1) LogitP=+gender(1)+income(2) 上面的第一個式子反映了女性與男性在購買上的差異。女性較男性使 LogitP 平均增長個單位。結(jié)合發(fā)生比可知,女性的購買發(fā)生比是男性的倍,因此女性更傾向購買該商品。進(jìn)一步分析,上面的第二個式子反映了女性顧客群中中等收入較低等收入在購買上的差異。對于女性顧客群,中等收入較低等收入使 LogitP 平均增長個單位。結(jié)合發(fā)生比可知,女性顧客群中,中等收入的購買發(fā)生比是低等收入的倍(有 95%的把握在至之間),略髙一些,但差異并不十分明顯。而

30、通過上面的第三個式子可知,對于女性顧客群,髙等收入較低等收入使 LogitP 平均增長個單位。結(jié)合發(fā)生比可知,女性顧客群中,髙等收入的購買發(fā)生比是低等收入的倍(有 95%的把握在至之間),顯然髙出較多。因此分析的結(jié)論是:年齡對是否購買該商品并無顯著影響,較男性來說,女性成為現(xiàn)實(shí)客戶的可能性大,且髙收入階層較其他收入階層有較髙的購買可能。 原始數(shù)據(jù): 是否購買 年齡 性別 收入 1 ) 49 2 3 0 41 2 1 0 46 2 3 / 0 47 2 1 0 41 2 3 1 41 2 1 0 40 2 3 1 39 2 1 1 44 3 0 32 2 1 0 35 2 3 0 32 2 1 0 40 2 3 0 33 2 1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論