第十二章 Logistic回歸分析_第1頁
第十二章 Logistic回歸分析_第2頁
第十二章 Logistic回歸分析_第3頁
第十二章 Logistic回歸分析_第4頁
第十二章 Logistic回歸分析_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

本文格式為Word版,下載可任意編輯——第十二章Logistic回歸分析第十二章Logistic回歸分析

一、Logistic回歸概述:

Logistic回歸主要用于篩選疾病的危險因素、預后因素或評價治療措施;尋常以疾病的死亡、痊愈等結(jié)果發(fā)生的概率為因變量,以影響疾病發(fā)生和預后的因素為自變量建立模型。

二、Logistic回歸的分類及資料類型:

第一節(jié)非條件Logistic回歸分析

一、Logistic回歸模型:

Logistic回歸模型:exp(?0??1X1????pXp)p?1?exp(?0??1X1????pXp)

1?

1?exp[?(?0??1X1????pXp)]

1??(???X????X)1?e

011pplogit(P)=ln(

p1?p)=β0+β1χ1+?+βnχn

二、回歸系數(shù)的估計(參數(shù)估計):

回歸模型的參數(shù)估計:Logistic回歸模型的參數(shù)估計尋常利用最大似然估計法。

三、假設檢驗:

1.Logistic回歸方程的檢驗:

·檢驗模型中所有自變量整體來看是否與所研究事件的對數(shù)優(yōu)勢比存在線性關(guān)系,也即方程是否成立。

·檢驗的方法有似然比檢驗、比分檢驗(scoretest)和Wald檢驗(waldtest)。上述三種方法中,似然比檢驗最可靠。

·似然比檢驗(likehoodratiotest):通過比較包含與不包含某一個或幾個待檢驗觀測因素的兩個模型的對數(shù)似然函數(shù)變化來進行,其統(tǒng)計量為G=-2ln(L)(又稱Deviance)。無效假設H0:β=0。當H0成立時,檢驗統(tǒng)計量G

2

近似聽從自由度為N-P-1的X分布。當G大于臨界值時,接受H1,拒絕無效假設,認為從整體上看適合作Logistic回歸分析,回歸方程成立。

2.Logistic回歸系數(shù)的檢驗:

·為了確定哪些自變量能進入方程,還需要對每個自變量的回歸系數(shù)進行假設檢驗,判斷其對模型是否有貢獻。

·檢驗方法常用WaldX2檢驗,無效假設H0:β=0。當X2大于臨界值時,拒絕無效假設,自變量能進入方程。

3.Logistic回歸模型的擬合優(yōu)度檢驗:·Logistic回歸模型的擬合優(yōu)度檢驗是通過比較模型預計的與實際觀測的事件發(fā)生與不發(fā)生的頻數(shù)有無區(qū)別來進行檢驗。假使預計的值與實際觀測的值越接近,說明模型的擬合效果越好。

·模型的擬合優(yōu)度檢驗方法有偏差檢驗(Deviance)、皮爾遜(pearson)檢驗、統(tǒng)計量(Homser-Lemeshow),分別計算統(tǒng)計量X2D、X2P、X2HL值。統(tǒng)計量值越小,對應的概率越大。無效假設H0:模型的擬合效果好。

·模型擬合優(yōu)度信息指標有:-2lnL、AIC、SC。這3個指標越小表示模型擬合的越好。

四、Logistic回歸模型的預計確鑿度:

常用的有以下2種:

1.廣義決定系數(shù)R2:2.預計確鑿率:

五、回歸系數(shù)的意義:

·利用參數(shù)和優(yōu)勢比探討影響因素。當βi=0,優(yōu)勢比OR=1時,表示自變量X對是否出現(xiàn)陽性結(jié)果不存在影響;當βi≠0,優(yōu)勢比OR≠1時,表示自變量X對是否出現(xiàn)陽性結(jié)果有影響。βi>0,OR增加是危險因素,βi<0,OR減小是保護因素。

六、Logistic回歸分析方法:

從所用的方法看,有強迫法、前進法、后退法和逐步法。在這些方法中,篩選變量的過程與線性回歸過程的完全一樣。

七、Logistic回歸的應用:

1.醫(yī)學中Logistic回歸主要用于篩選疾病的危險因素或預后因素,進行病因?qū)W分析

2.控制和校正混雜因素。

其次節(jié)條件Logistic回歸分析(略)

第十三章主成分分析與因子分析

第一節(jié)主成分分析

1.概念:主成分分析是從多個數(shù)值變量(指標)之間的相互關(guān)系入手,利用降維的思想,將多個變量(指標)化為少數(shù)幾個互不相關(guān)的綜合變量(指標)的統(tǒng)計方法。

2.主成分線性模型:

Z1=a11X1+a12X2+?+a1mXmZ2=a21X1+a22X2+?+a2mXm???Zm=am1X1+am2X2+?+ammXm

主成分分析的基本思想:主成分分析就是設法將原來眾多具有一定相關(guān)性的指標,重新組合成一組新的相互無關(guān)的綜合指標,來代替原來指標。尋常數(shù)學上的處理就是將原來k個指標做線性組合,作為新的綜合指標,(即幾個Z1、Z2?Zm)。假使將第一個線性組合即第一個綜合指標記為Z1,則希望Z1盡可能多地反映原來指標的信息,這里的方法就是用方差來表達,即(Z1)S2Z1方差越大,表示Z1包含的信息越多。因此,在所有的線性組合中所選取的Z1應當是方差最大的,故稱Z1為第一主成分。

第一主成分不足以代表原來K個指標的信息時,再考慮選取Z2,Z1已有的信息不需要再出現(xiàn)在Z2中。

以此類推可以構(gòu)造出第三,四個主成分,??。這些主成分不僅不相關(guān),而且他們的方差依次遞減。因此在實際工作中,就挑揀前幾個最大主成分。

3.主成分分析步驟:

(1)對原始指標進行標準化;(2)求協(xié)方差或相關(guān)矩陣;

(3)求出協(xié)方差矩陣的特征根和特征向量;

(4)確定主成分,并結(jié)合專業(yè)知識給各個主成分的信息給予解釋。

4.主成分的性質(zhì):

(1)各主成分互不相關(guān),兩個主成分間相關(guān)系數(shù)等于零;(2)各主成分的方差依次遞減;S2Z1≥S2Z2≥S2Z3?≥S2Zn≥0

(3)總方差保持不變。即各個原指標的方差之和與各主成分的方差之和相等。

(4)ai12+ai22+?+aim2=1

5.主成分模型中的統(tǒng)計量:

(1)特征根(值)λ:表示主成分Z的方差。它是主成分影響力度的指標,代表某主成分可以解釋平均多少原始變量信息。

(2)貢獻率:表示某主成分的方差在全部方差中的比重。貢獻率越大,表示該主成分綜合原變量的能力越強。

貢獻率=λ/Σλ

(3)累計貢獻率:表示前幾個主成分累計提取原變量多少信息。前幾個主成分累計貢獻率越大,表示包含原變量的信息越多。

累計貢獻率=Σ(λ/Σλ)

(4)特征向量(因子載荷、因子負載)a:實質(zhì)是公因子F與變量X的相關(guān)系數(shù),表示變量X依靠因子F的程度,反映變量X對公因子F的重要性。在主成分分析中,可理解為反映主成分Z與變量X之間的相關(guān)系數(shù),反映兩者間相關(guān)密切程度。

a=r

5.主成分個數(shù):

(1)以累計貢獻率確定:大于70~80%;(2)以特征值確定:大于1則保存。

其次節(jié)因子分析

1.概念:因子分析是從分析多個原始指標的相關(guān)關(guān)系入手,找出支配這種相關(guān)關(guān)系的有限個不可觀測的潛在變量,并用這些潛在變量來解釋原始指標之間相關(guān)性或協(xié)方差關(guān)系。

(1)因子線性模型:

X1=a11F1+a12F2+?+a1mFm+ε1X2=a21F1+a22F2+?+a2mFm+ε2

???

Xm=am1F1+am2F2+?+ammFm+εm

其中:X—為變量指標。

a—為因子載荷。F—為公因子。

ε—為特別因子,代表公因子以外的影響因素。

(2)因子線性模型特點:

·因子線性模型不受量綱的影響;

·因子載荷不是唯一的,通過因子軸旋轉(zhuǎn),可得到新的因子載荷陣。

(3)模型要求:

·各X、各公因子F的均數(shù)均為0,方差均為1;·各特別因子ε的均數(shù)為0;

·各公因子之間的相關(guān)系數(shù)、各特別因子之間的相關(guān)系數(shù)、各公因子與各特別因子之間的相關(guān)系數(shù)均為0。

2.因子模型中的統(tǒng)計量:

22

(1)公共度(公因子方差):h=Σa,反映全體公因子對原始指標X的影響,或反映原始指標X對全體公因子的依靠程度,表示各變量中原始信息被公因子表示的程度。公共度取值范圍在0和1之間,當公共度接近0時,表示原始指標X受公因子的影響不大。

(2)KMO檢驗:用于檢驗變量間的偏相關(guān)性,取值范圍在0和1之間,當統(tǒng)計量越接近1時,變量的間偏相關(guān)性越強,因子分析效果越好。

(3)因子旋轉(zhuǎn):因子旋轉(zhuǎn)的目的是使某些變量在某個因子上的負載較高,而在其它因子上的負載則顯著的低,這事實上是依據(jù)因子對變量進行更好的“聚類〞。為使因子載荷矩陣中系數(shù)更加明顯,對初始因子載荷矩陣進行旋轉(zhuǎn),使得因子和原始變量間的關(guān)系重新分派,相關(guān)系數(shù)向0-1分化,使得各因子的意義更加明顯。

正交旋轉(zhuǎn)(orthogonalrotation)和斜交旋轉(zhuǎn)(obliquerotation)是因子旋轉(zhuǎn)的兩類方法。

3.計算并檢驗協(xié)方差(相關(guān))矩陣

·因子分析基于變量間的協(xié)方差矩陣。換言之,包含在因子分析中的變量必需具有一定的相關(guān)性,假使變量間不存在相關(guān),或者相關(guān)性很小,那么因子分析將不是一種適合的分析方法。

·檢驗方法:巴特利特球體檢驗和KMO測度。

巴特利特球體檢驗(Bartlett’stestofsphericity)可以用來檢驗變量間是否存在相關(guān)。它是一種建立在協(xié)方差陣是單位陣(即變量間不相關(guān))的假設基礎之上的檢驗。一個大的檢驗值尋常意味著檢驗結(jié)果的顯著性,因此可以拒絕原假設,可以進行因子分析,否則應當慎重考慮。

KMO測度(Kaiser-Meyer-Olkinmeasureofsamplingadequacy),它比較了觀測到的變量間的相關(guān)系數(shù)和偏相關(guān)系數(shù)的大小。一個大的KMO測度值同樣支持我們進行因子分析。一般而言,KMO測度〉0.5意味著因子分析可以進行,而在0.7以上則是令人滿意的值。

4.選擇因子分析的方法(methodoffactoranalysis)

主成分分析法(principalcomponentanalysis)和公因子分析法(commonfactoranalysis)是兩種主要的尋覓公因子的方法。

5.各公因子的表達式:

F1=a11X1+a12X2+?+a1mXmF2=a21X1+a22X2+?+a2mXm???Fm=am1X1+am2X2+?+ammXm

因子得分:假使后續(xù)分析需要,如進行回歸分析等等,尋常需要進一步計算各公因子的因子得分。即給出各因子在每一個案例(case)上的值。

6.模型的適合度:

因子分析的最終,應當對構(gòu)建的模型是否適合問題本身有一個認識,這就涉及到模型的適合度的判斷。這種判斷往往基于殘差矩陣而進行。

因子模型建立,有了因子負載后,我們就可以計算的觀測變量的方差-協(xié)方差陣,這種由公因子再生的方差-協(xié)方差陣(reproducecorrelationmatrix)與實際觀測到的方差-協(xié)方差陣(observedcorrelationmatrix)之間的偏差,即殘差矩陣(residualsmatrix)是我們判斷模型適合度的重要依據(jù)。假使殘差矩陣中的值都比較大,那么我們有理由認為模型并不是很適合;反之假使殘差矩陣接近于零矩陣,那么顯然公因子可以很好的解釋變量的方差-協(xié)方差關(guān)系,模型是適合的。

5.各公因子的表達式:

F1=a11X1+a12X2+?+a1mXmF2=a21X1+a22X2+?+a2mXm???Fm=am1X1+am2X2+?+ammXm

因子得分:假使后續(xù)分析需要,如進行回歸分析等等,尋常需要進一步計算各公因子的因子得分。即給出各因子在每一個案例(case)上的值。

6.模型的適合度:

因子分析的最終,應當對構(gòu)建的模型是否適合問題本身有一個認識,這就涉及到模型的適合度的判斷。這種判斷往往基于殘差

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論