定性數(shù)據(jù)的建模分析含詳解演示文稿_第1頁
定性數(shù)據(jù)的建模分析含詳解演示文稿_第2頁
定性數(shù)據(jù)的建模分析含詳解演示文稿_第3頁
定性數(shù)據(jù)的建模分析含詳解演示文稿_第4頁
定性數(shù)據(jù)的建模分析含詳解演示文稿_第5頁
已閱讀5頁,還剩35頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

定性數(shù)據(jù)的建模分析含詳解演示文稿目前一頁\總數(shù)四十頁\編于十三點(diǎn)優(yōu)選定性數(shù)據(jù)的建模分析含目前二頁\總數(shù)四十頁\編于十三點(diǎn)第一節(jié)解釋變量中含有定性變量的回歸模型

在回歸分析中,我們對(duì)一些解釋變量是定性變量的情形先給予數(shù)理化,處理方法是引進(jìn)只取0和1兩個(gè)值的虛擬變量。當(dāng)某一屬性出現(xiàn)時(shí),虛擬變量取值為1,否則為0。目前三頁\總數(shù)四十頁\編于十三點(diǎn)(一)簡(jiǎn)單情況簡(jiǎn)單情況是指定性變量只取兩類可能性的情況。例如研究企業(yè)資本結(jié)構(gòu)問題,為企業(yè)資本結(jié)構(gòu),為企業(yè)規(guī)模。另外再考慮審計(jì)意見兩種情況:

企業(yè)資本結(jié)構(gòu)的回歸模型為:

(9.1)目前四頁\總數(shù)四十頁\編于十三點(diǎn)(二)復(fù)雜情況復(fù)雜情況是指定定性變量可能取多類值的情況。假設(shè)以采掘業(yè)、建筑業(yè)、房地產(chǎn)業(yè)和社會(huì)服務(wù)業(yè)4個(gè)行業(yè)的上市公司為例,研究企業(yè)資本結(jié)構(gòu)問題,其中為企業(yè)資本結(jié)構(gòu),為企業(yè)規(guī)模,為審計(jì)意見,另外再考慮行業(yè)差異。為了用虛擬變量反映這4個(gè)行業(yè),我們初步設(shè)想引入如下4個(gè)0-1型解釋變量:

目前五頁\總數(shù)四十頁\編于十三點(diǎn)

可是這樣作卻產(chǎn)生了一個(gè)新的問題,即4個(gè)自變量之和恒等于1,構(gòu)成完全多重共線性。解決這個(gè)問題的方法很簡(jiǎn)單,我們只需去掉一個(gè)0-1型變量,只保留3個(gè)0-1型解釋變量即可。所以,對(duì)于具有個(gè)分類的變量,當(dāng)確定了參照系后,只需設(shè)置個(gè)0-1型解釋變量。企業(yè)資本結(jié)構(gòu)的回歸模型為:

(9.2)目前六頁\總數(shù)四十頁\編于十三點(diǎn)第二節(jié)二項(xiàng)Logistic回歸模型

一、二項(xiàng)Logistic回歸模型概述(一)二項(xiàng)Logistic回歸模型的應(yīng)用背景在許多會(huì)計(jì)研究問題中,所研究的被解釋變量往往只有“是”或“否”兩個(gè)可能結(jié)果,就需要設(shè)置虛擬變量。當(dāng)被解釋變量為虛擬變量時(shí),建立一般的多元線性回歸模型就會(huì)出現(xiàn)以下問題:(1)殘差不再滿足且的假設(shè)條件。(2)殘差不再服從正態(tài)分布。(3)被解釋變量的取值區(qū)間受限制。由此可見,當(dāng)被解釋變量是0-1型變量時(shí),無法直接采用一般的多元線性回歸模型建模,通常應(yīng)采用Logistic回歸模型。本章只介紹二項(xiàng)Logistic回歸模型。目前七頁\總數(shù)四十頁\編于十三點(diǎn)

利用Logistic回歸可以直接預(yù)測(cè)觀測(cè)量相對(duì)于某一事件的發(fā)生概率在一般的多元回歸中,若以概率為被解釋變量,則方程為:(9.3)

但用該方程計(jì)算時(shí),常會(huì)出現(xiàn)或的不合理情形。為此需要對(duì)作對(duì)數(shù)單位轉(zhuǎn)換,即,于是可得到Logistic回歸方程為:

(9.4)

其中、為常數(shù)和解釋變量的系數(shù),為自然數(shù),其曲線為型。目前八頁\總數(shù)四十頁\編于十三點(diǎn)某一事件不發(fā)生地概率為:Prob(noevent)=1-Prob(event)(9.5)二元Logistic模型對(duì)數(shù)據(jù)要求為:(1)被解釋變量應(yīng)具二分特點(diǎn)。(2)解釋變量數(shù)據(jù)最好為多元正態(tài)分布。

目前九頁\總數(shù)四十頁\編于十三點(diǎn)(三)二項(xiàng)Logistic回歸模型中回歸系數(shù)的含義在應(yīng)用中人們通常更關(guān)心的是解釋變量給發(fā)生比帶來的變化。當(dāng)Logistic回歸模型的回歸系數(shù)確定后,將其代入的函數(shù),即

(9.6)

當(dāng)其他解釋變量保持不變而研究變化一個(gè)單位對(duì)的影響時(shí),可將新的發(fā)生比設(shè)為,則有:

(9.7)目前十頁\總數(shù)四十頁\編于十三點(diǎn)于是有

(9.8)

由此可知,當(dāng)增加一個(gè)單位時(shí),將引起發(fā)生比擴(kuò)大倍。一般化則為

(9.9)

式(9.9)表明,當(dāng)?shù)趥€(gè)解釋變量發(fā)生一個(gè)單元的變化時(shí),幾率的變化值為。解釋變量的系數(shù)為正值,意味著事件發(fā)生的幾率會(huì)增加,的值大于1;解釋變量的系數(shù)為負(fù)值,意味著事件發(fā)生的幾率會(huì)減少,的值小于1;當(dāng)為0時(shí),此值等于1。目前十一頁\總數(shù)四十頁\編于十三點(diǎn)(四)二項(xiàng)Logistic回歸模型的檢驗(yàn)

1、回歸模型的顯著性檢驗(yàn)

Logistic回歸模型顯著性檢驗(yàn)的目的是檢驗(yàn)解釋變量全體與Logit的線性關(guān)系是否顯著,是否可以用線性模型擬合。其原假設(shè)是:各回歸系數(shù)同時(shí)為0,解釋變量全體與Logit的線性關(guān)系不顯著。

(9.10)

好的模型的似然比值較高,其值相對(duì)較小。似然比值的變化說明當(dāng)變量進(jìn)入與被剔除出模型對(duì)數(shù)據(jù)擬合度方面的變化。目前十二頁\總數(shù)四十頁\編于十三點(diǎn)

常用的3種卡方統(tǒng)計(jì)量分別為Model、Block、Step。(1)Model統(tǒng)計(jì)量檢驗(yàn)除常數(shù)項(xiàng)以外,模型中所有變量系數(shù)為零的假設(shè)。(2)Block卡方值為當(dāng)前值與后一組變量進(jìn)入模型后的值之差。(3)Step卡方值是在建立模型的過程中,當(dāng)前與下一步之間的差值。

SPSS將自動(dòng)計(jì)算似然比卡方的觀測(cè)值和相伴概率值。如果相伴概率值小于給定的顯著水平,則應(yīng)拒絕零假設(shè);反之,如果相伴概率值大于給定的顯著水平,則不應(yīng)拒絕零假設(shè)。目前十三頁\總數(shù)四十頁\編于十三點(diǎn)2、回歸系數(shù)的顯著性檢驗(yàn)

Logit回歸系數(shù)顯著性檢驗(yàn)的目的是逐個(gè)檢驗(yàn)?zāi)P椭懈鹘忉屪兞渴欠衽cLogit有顯著的線性關(guān)系,對(duì)解釋Logit是否有重要貢獻(xiàn)。其原假設(shè)是,即某回歸系數(shù)與零無顯著差異,相應(yīng)的解釋變量與Logit之間的線性關(guān)系不顯著。回歸系數(shù)顯著性檢驗(yàn)采用的檢驗(yàn)統(tǒng)計(jì)量是統(tǒng)計(jì)量,數(shù)學(xué)定義為

(9.11)

式(9.11)中,是回歸系數(shù),是回歸系數(shù)的標(biāo)準(zhǔn)誤差。檢驗(yàn)統(tǒng)計(jì)量服從自由度為1的卡方分布。目前十四頁\總數(shù)四十頁\編于十三點(diǎn)

SPSS將自動(dòng)計(jì)算各解釋變量的的觀測(cè)值和相伴概率值。如果概率值小于給定的顯著性水平,則應(yīng)拒絕零假設(shè),認(rèn)為某解釋變量的回歸系數(shù)與零有顯著差異,該解釋變量與Logit之間的線性關(guān)系顯著,應(yīng)保留在模型中;反之,如果概率值大于給定的顯著性水平,則不應(yīng)拒絕零假設(shè),可以認(rèn)為某解釋變量的回歸系數(shù)與零無顯著差異,該解釋變量與Logit之間的線性關(guān)系不顯著,不應(yīng)保留在模型中。目前十五頁\總數(shù)四十頁\編于十三點(diǎn)3、回歸模型的擬合優(yōu)度檢驗(yàn)在Logistic回歸分析中,擬合優(yōu)度可以從兩大方面考察。第一,回歸模型能夠解釋被解釋變量變差的程度。第二,回歸模型計(jì)算出的預(yù)測(cè)值與實(shí)際值之間吻合的程度,即模型的總體錯(cuò)判率是低還是高。常用的指標(biāo)有Cox&Snell統(tǒng)計(jì)量、Nagelkerke統(tǒng)計(jì)量、錯(cuò)判矩陣、Hosmer-Lemeshow統(tǒng)計(jì)量。

4、殘差分析

Logistic回歸中可以利用一下殘差指標(biāo)進(jìn)行殘差分析,主要包括:非標(biāo)準(zhǔn)化殘差、標(biāo)準(zhǔn)化殘差、Logit殘差等。目前十六頁\總數(shù)四十頁\編于十三點(diǎn)二、二項(xiàng)Logistic回歸分析在SPSS中的實(shí)現(xiàn)

1.建立或打開數(shù)據(jù)文件后,進(jìn)入Analyze→Regression→BinaryLogistic對(duì)話框,如圖9-1所示。圖9-1Logistic邏輯回歸分析主對(duì)話框目前十七頁\總數(shù)四十頁\編于十三點(diǎn)

2、選擇被解釋變量放入Dependent框,選擇一個(gè)或多個(gè)解釋變量放入Covariates框。也可以將不同解釋變量組放在不同的塊(Block)中,進(jìn)而分析不同解釋變量組對(duì)解釋變量的貢獻(xiàn)。

3、在Method框后選擇解釋變量的篩選策略,包括Enter選項(xiàng)、Forward:Conditional選項(xiàng)、Forward:LR選項(xiàng)、Forward:Wald選項(xiàng)、Backward:Conditional選項(xiàng)、Backward:LR選項(xiàng)、Backward:Wald選項(xiàng)。

4、SelectionVariable框,根據(jù)指定變量的取值范圍,選擇參與分析的觀察量。目前十八頁\總數(shù)四十頁\編于十三點(diǎn)

5、單擊Categorical按鈕,展開如圖9-2對(duì)話框,設(shè)置處理分類變量的方式。適用于解釋變量(協(xié)變量)為非定距的品質(zhì)變量。圖9-2定義分類協(xié)變量對(duì)話框目前十九頁\總數(shù)四十頁\編于十三點(diǎn)

(1)在Covariates框中包含了在主對(duì)話框中已經(jīng)選擇好的全部協(xié)變量及交互項(xiàng)。(2)CategoricalCovariates框中列出了所選擇的分類變量。(3)ChangeContrast欄,設(shè)置分類協(xié)變量中各類水平的對(duì)比方式。有Indicator選項(xiàng)、Simple選項(xiàng)、Difference選項(xiàng)、Helmert選項(xiàng)、Repeated選項(xiàng)、Polynomial選項(xiàng)、Deviation選項(xiàng)。(4)ReferenceCategory選項(xiàng),如果選擇了Deviation、Simple、Indicator對(duì)比方式,可選擇First或Last,指定分類變量的第一類或最后一類作為參考類。(5)如果改變了ChangeCovariates的設(shè)置,單擊Change按鈕以示對(duì)選項(xiàng)的確定。目前二十頁\總數(shù)四十頁\編于十三點(diǎn)

6、單擊Save按鈕,激活儲(chǔ)存新變量對(duì)話框,如圖9-3所示。選擇在數(shù)據(jù)文件中保存的新變量。圖9-3保存新變量對(duì)話框目前二十一頁\總數(shù)四十頁\編于十三點(diǎn)

(1)PredictedValue欄,預(yù)測(cè)值選項(xiàng)。其中,Probability復(fù)選項(xiàng),表示每個(gè)觀測(cè)量發(fā)生特定事件的預(yù)測(cè)概率;Groupmembership復(fù)選項(xiàng),表示依據(jù)預(yù)測(cè)概率得到的每個(gè)觀測(cè)量的預(yù)測(cè)分組。

(2)Residual欄,保存殘差,包括Unstandardized非標(biāo)準(zhǔn)化殘差、Logit殘差、Studentized學(xué)生化殘差、Standardized標(biāo)準(zhǔn)化殘差和Deviance偏差。

(3)Influence欄,保存每一個(gè)觀測(cè)量的影響力指標(biāo),包括Cook距離、Leveragevalues杠桿值和Dfbeta(s)統(tǒng)計(jì)量。目前二十二頁\總數(shù)四十頁\編于十三點(diǎn)7.單擊Options按鈕,展開如圖9-4所示對(duì)話框。圖9-4Options選擇項(xiàng)對(duì)話框目前二十三頁\總數(shù)四十頁\編于十三點(diǎn)

(1)StatisticsandPlot欄,輸出統(tǒng)計(jì)量和圖形。包括Classificationplots復(fù)選項(xiàng)、Correlationsofesti復(fù)選項(xiàng)、Hosmer-Lemeshowgoodness-of-f復(fù)選項(xiàng)、Iterationhistory復(fù)選項(xiàng)、Casewiselistingofresiduals復(fù)選項(xiàng)、CIforexp(B)復(fù)選項(xiàng)。(2)Display欄中,Ateachstep選項(xiàng),表示對(duì)每一步計(jì)算過程輸出表、統(tǒng)計(jì)量和圖形。Atlaststep選項(xiàng),表示只輸出最終方程的表、統(tǒng)計(jì)量和圖形。(3)ProbabilityforStepwise欄,設(shè)置變量進(jìn)入模型及從模型中刪除的判據(jù)。(4)Classification欄,被解釋變量分類界限。(5)Maximum欄,設(shè)定最大迭代次數(shù)。(6)Includeconstantinm:模型包含常數(shù)項(xiàng)。目前二十四頁\總數(shù)四十頁\編于十三點(diǎn)8、圖形診斷模型,包括:(1)使用Graphs圖形功能,對(duì)保存在數(shù)據(jù)文件中的Deviance統(tǒng)計(jì)量做P-P圖。(2)將保存的StandardizedResiduals,DfBeta(s)和Leverage統(tǒng)計(jì)量,用SPSS圖形功能做散點(diǎn)圖(橫坐標(biāo)為變量ID,縱坐標(biāo)為各種保存的新變量)。目前二十五頁\總數(shù)四十頁\編于十三點(diǎn)第三節(jié)判別分析

一、判別分析的概念和基本步驟(一)判別分析的概念判別分析是根據(jù)觀察到的若干變量值,判斷研究對(duì)象如何分類的方法。判別分析能夠解決兩組或者更多組的情況,當(dāng)包含兩組時(shí),稱做兩組判別分析;當(dāng)包含三組或者三組以上時(shí),稱做多組判別分析聚類分析和判別分析都是分類學(xué)的基本方法,但它們也有很大的不同。目前二十六頁\總數(shù)四十頁\編于十三點(diǎn)(二)判別分析的基本步驟

1、判別分析的研究設(shè)計(jì)(1)解釋變量和被解釋變量的選擇。判別分析中,被解釋變量為定性變量。解釋變量可以為定量變量,也可以為定性變量。(2)樣本容量。在判別分析中,最小的組的大小必須超過解釋變量的個(gè)數(shù)。(3)樣本的分割。在實(shí)際研究中,很多時(shí)候樣本需要分割為兩個(gè)子樣本,一個(gè)子樣本用于估計(jì)判別函數(shù),另一個(gè)子樣本用于驗(yàn)證判別函數(shù),每個(gè)子樣本都要有適當(dāng)?shù)臉颖救萘縼碇С纸Y(jié)論。分割樣本有很多種方法,最常用的是將整個(gè)樣本隨機(jī)的分為兩組,這種驗(yàn)證方法稱為分割樣本法或者交叉驗(yàn)證法。目前二十七頁\總數(shù)四十頁\編于十三點(diǎn)2、判別分析的假定(1)每一個(gè)判別變量(解釋變量)不能是其他判別變量的線性組合,即不能出現(xiàn)多重共線性問題。(2)各組變量的協(xié)方差矩陣相等。判別分析最簡(jiǎn)單和最常用的形式是采用線性判別函數(shù),它們是判別變量的簡(jiǎn)單線性組合。在各組協(xié)方差矩陣相等的假設(shè)條件下,可以使用很簡(jiǎn)單的公式來計(jì)算判別函數(shù)和進(jìn)行顯著性檢驗(yàn)。(3)各判別變量之間具有多元正態(tài)分布,即每個(gè)變量對(duì)于所有其他變量的固定值有正態(tài)分布。在這種條件下可以精確計(jì)算顯著性檢驗(yàn)值和分組歸屬的概率。當(dāng)違背該假設(shè)時(shí),計(jì)算的概念將非常不準(zhǔn)確。目前二十八頁\總數(shù)四十頁\編于十三點(diǎn)3、估計(jì)判別模型和評(píng)估整體擬合(1)計(jì)算方法。推導(dǎo)判別函數(shù)時(shí)可以使用兩種計(jì)算方法:聯(lián)立(直線)法和逐步法。聯(lián)立估計(jì)在計(jì)算時(shí)同時(shí)考慮所有的解釋變量。而當(dāng)研究者考慮了相對(duì)較多的解釋變量時(shí),逐步法是適用的。(2)統(tǒng)計(jì)顯著性。在計(jì)算了判別函數(shù)以后,必須評(píng)估它的顯著性。有一系列不同的統(tǒng)計(jì)準(zhǔn)則可用。Wilk’slambda,Mahalanobisdistance和Rao’sV等都可以用來評(píng)估判別函數(shù)。目前二十九頁\總數(shù)四十頁\編于十三點(diǎn)(3)評(píng)估整體擬合。這個(gè)評(píng)估包括三個(gè)任務(wù):計(jì)算每個(gè)觀測(cè)的判別得分、檢驗(yàn)各組在判別得分上的差異、評(píng)估組關(guān)系預(yù)測(cè)的精度。

4、結(jié)果的解釋這個(gè)過程主要是解釋在判別分析中每個(gè)解釋變量的相對(duì)重要性,主要有三種方法:標(biāo)準(zhǔn)化判別權(quán)重、判別載荷、偏值。

5、結(jié)果的驗(yàn)證判別分析的最后一個(gè)階段就是驗(yàn)證判別分析的結(jié)果,通常采用分割樣本和交叉驗(yàn)證法。目前三十頁\總數(shù)四十頁\編于十三點(diǎn)1、建立或打開數(shù)據(jù)文件后,按Analyze→Classify→Discriminant的順序打開DiscriminantAnalysis對(duì)話框。見圖9-7所示。圖9-7判別分析主對(duì)話框目前三十一頁\總數(shù)四十頁\編于十三點(diǎn)

2、選擇分類變量及其范圍在主對(duì)話框中左面的矩形框中選擇表明已知的觀測(cè)量所屬類別的變量,按向右按鈕,使該變量名移到右面的GroupingVariable框中。此時(shí)矩形框下面的“DefineRange”按鈕加亮,按該按鈕,顯示如圖9-8所示的對(duì)話框,在該框中分類變量的最小值和最大值。圖9-8DefineRange對(duì)話框目前三十二頁\總數(shù)四十頁\編于十三點(diǎn)

3、指定判別分析的解釋變量在主對(duì)話框左面的變量表中選擇表明觀測(cè)量特征的變量,按下面一個(gè)箭頭按鈕把選中的變量移到Independents矩形框中,作為參與判別分析的變量。完成前面3步驟的操作即可使用各種系統(tǒng)默認(rèn)值對(duì)數(shù)據(jù)集的數(shù)據(jù)進(jìn)行判別分析了,但結(jié)果有時(shí)不能令人滿意,因此有必要根據(jù)以下步驟做進(jìn)一步的分析。目前三十三頁\總數(shù)四十頁\編于十三點(diǎn)

4、選擇觀測(cè)量如果希望使用一部分觀測(cè)量進(jìn)行判別函數(shù)的推導(dǎo),而且有一個(gè)變量的某個(gè)值可以作為這些觀測(cè)量的標(biāo)識(shí),則用Select功能進(jìn)行選擇。展開SetValue子對(duì)話框,如圖9-9所示,鍵入標(biāo)識(shí)參與分析的觀測(cè)量所具有的該變量值。圖9-9SetValue子對(duì)話框在分析中一般均使用數(shù)據(jù)文件中的所有合法觀測(cè)量,因此此步驟也可以省略。目前三十四頁\總數(shù)四十頁\編于十三點(diǎn)5、選擇分析方法在主對(duì)話框中解釋變量矩形框下面有兩個(gè)選擇項(xiàng),用于選擇判別分析方法。(1)Enterindependenttogether選項(xiàng)。當(dāng)認(rèn)為所有解釋變量都能對(duì)觀測(cè)量的特性提供豐富的信息且彼此獨(dú)立時(shí),使用該選擇項(xiàng)。建立全模型,不需要進(jìn)一步進(jìn)行選擇。(2)Usestepwisemethod選項(xiàng)。當(dāng)不認(rèn)為所有解釋變量都能對(duì)觀測(cè)量的特性提供豐富的信息時(shí),因此需要使用該選擇項(xiàng),根據(jù)判別貢獻(xiàn)的大小再進(jìn)行選擇。單擊該項(xiàng),“Method”按鈕加亮,可以進(jìn)一步選擇判別分析方法。目前三十五頁\總數(shù)四十頁\編于十三點(diǎn)

6、單擊“Method”按鈕,展開StepwiseMethod對(duì)話框,如圖9-10所示。其中:圖9-10StepwiseMethod對(duì)話框目前三十六頁\總數(shù)四十頁\編于十三點(diǎn)

(1)Method欄選擇

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論