logistic回歸多重共線性診斷方法的研究論文.pdf_第1頁
logistic回歸多重共線性診斷方法的研究論文.pdf_第2頁
logistic回歸多重共線性診斷方法的研究論文.pdf_第3頁
logistic回歸多重共線性診斷方法的研究論文.pdf_第4頁
logistic回歸多重共線性診斷方法的研究論文.pdf_第5頁
已閱讀5頁,還剩36頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

大連醫(yī)科大學(xué) 碩士學(xué)位論文 logistic回歸多重共線性診斷方法的研究 姓名:于曉牧 申請學(xué)位級別:碩士 專業(yè):流行病與衛(wèi)生統(tǒng)計學(xué) 指導(dǎo)教師:劉啟貴 201006 l o g i s t i c 回! J j 多重共線性診斷方法的研究 碩士生姓名:于曉牧 指導(dǎo)教師:劉啟貴教授 專業(yè)名稱:流行病與衛(wèi)生統(tǒng)計學(xué) 摘要 目的:研究l o g i s t i c 回歸多重共線性的診斷方法,為模型的正確建立 奠定基礎(chǔ)。并且通過各種方法的比較,找尋適合于醫(yī)學(xué)研究者使用的多 重共線性診斷方法,便于醫(yī)學(xué)研究者正確合理的建立l o g i s t i c 回歸模型。 方法:將多重線性回歸的多重共線性診斷方法推廣到l o g i s t i c 回歸 中。使用實例數(shù)據(jù):某研究者進行的產(chǎn)后抑郁影響因素的研究,其中自 變量包括與父母關(guān)系,人格量表E P Q 的四個維度:E P Q L 、E P Q E 、E P Q P 、 E P Q N ,既往抑郁史,產(chǎn)婦睡眠等。計算此實例數(shù)據(jù)自變量間的二元相關(guān) 系數(shù)、方差膨脹因子、容許值、特征根系統(tǒng)、多重確定系數(shù)和行列式判 別值。通過所得的計算結(jié)果,結(jié)合方法的易理解程度、操作的繁瑣程度 等綜合判別幾種方法的有效性和優(yōu)缺點。 結(jié)果:1 變量間二元相關(guān)系數(shù):E P Q E 與E P Q N ,E P Q L 與E P Q E , E P Q L 與E P Q N ,E P Q P 與E P Q N 的相關(guān)系數(shù)較大,存在共線性。2 方差 膨脹因子與容許值:E P Q E 、E P Q N 的方差膨脹因子較大,容許值較小, 此兩個變量與其他變量之間存在多重共線性。3 特征根系統(tǒng):四個特征 根小于0 0 5 ,兩個特征根小于0 0 1 ,模型中存在2 4 個共線性關(guān)系。兩 個條件指數(shù)大于3 0 。其中,條件指數(shù)為4 3 5 5 0 對應(yīng)的E P Q L 、E P Q E 的 方差分解比例分別為8 8 和4 9 ;條件指數(shù)為6 0 0 2 6 對應(yīng)的E P Q E 、E P Q N 的方差分解比例分別為4 8 和5 2 。E P Q L 與E P Q E ,E P Q E 與E P Q N 兩 對變量之間存在共線性。4 多重確定系數(shù):除E P Q N 其他變量都可能引 起多重共線性。5 行列式判別值:D = 6 9 2 9 6 x 10 - t 0 l , 說明X i 是個危險因子;當(dāng)屈 3 0 ,則認(rèn)為存在較強的共線關(guān)系【2 ”。 回歸系數(shù)方差分解法( R e g r e s s i o n C o e f f i c i e n tV a r i a n c e D e c o m p o s i t i o n ,R C V D ) 的基本原理就是對單位化以后的設(shè)計矩陣X 進行 奇異值分解。 以。朋= 甌。腳p k 肘匕。胛 其中甌。肼是對角陣,其對角線上的元素為X X 的特征根;圪。朋為X X 特征向量組成的一正交陣;m 為由X 、D 、V 確定的另一正交陣。回 歸系數(shù)的方差為 V a r ( b k ) = a 2 2 ,“2 “ 一uJ ,2 ,叫 j t | 其中是圪。朋中第( k ,j ) 個元素,“是D m 。肘中對角線上第j 個元素,盯2 為隨機誤差項的方差。 設(shè)吼= 嵋“; J L 哦= 佛_ 2J ,2 ,叫 j - I 則第( j ,k ) 個方差分解比定義為 H 淝= 吼q ) k o k = l 。2 。嘲 根據(jù)條件指數(shù)仇和兀庸構(gòu)成下列表格,可由此進行診斷。 R C V D 法的診斷準(zhǔn)則為:對應(yīng)一個較大的條件指數(shù),如果存在2 個 或2 個以上的回歸系數(shù)的方差分解比在O 5 以上,則認(rèn)為自變量間有可 能存在多重共線性 2 4 1 。這里所指的較高的條件指數(shù)一般認(rèn)為大于3 0 。并 且還可以通過較高條件指數(shù)的個數(shù)來確定多重共線性關(guān)系的數(shù)目。同時 根據(jù)上面表格確定輔助回歸,即對應(yīng)同一較高的條件指數(shù),以方差分解 值最大的自變量為“應(yīng)變量”,對其余非“應(yīng)變量”的自變量作回歸,如果 回歸方程顯著,那么該“應(yīng)變量”與其中t 檢驗顯著的自變量構(gòu)成多重共 線性關(guān)系。由此可以進一步確定引入多重共線性關(guān)系的變量。 回歸系數(shù)方差分解法是至今比較完善的一種方法,它將條件指數(shù)和 方差分解比結(jié)合起來綜合度量共線性,不但解決了諸多自變量中是否存 在多重共線性同題,而且解決了其它診斷方法較難解決的另外兩個重要 問題即其中存在多少個多重共線性關(guān)系及各個多重共線性關(guān)系對每個 回歸系數(shù)方差比的貢獻,即每個多重共線性關(guān)系由哪些自變量構(gòu)成【1 5 】。 6 ) 行列式判別法診斷 令H = X X ,五為H 的特征根,i = l ,2 ,m 于是令 D = d e t ( H ) 為H 的行列式 因為D = d e t ( H ) = n 乃,當(dāng)X 病態(tài)時X X 的最小特征根很小,接近于0 , 這樣D 就接近于0 ,于是; 若0 o ) ,I 為單位陣,構(gòu)造( X X + k I ) 。1 使得I X X + k I l = 0 的 可能性比1 例o 的, - - I 能性大,從而避免了因l x 矧o 造成的夕的方差變 大,故嶺回歸的估計量為夕( k ) = ( XT + 七,) 1z7 ,其中k 為嶺回歸參 數(shù),k O 且為常數(shù)。 嶺回歸參數(shù)的選取原則和方法存在主觀性,沒有明確的含義:它的 參數(shù)估計量始終是有偏估計;由于嶺回歸要保留所有變量,因此對變量 的選擇要特別謹(jǐn)慎13 1 。 2 ) 主成分回歸 W i l l i a m F M a s s v l9 6 5 年提出的主成分回歸是根據(jù)多元統(tǒng)計分析中 的主成分分析原理,來處理多重共線性模型的一種參數(shù)估計方法【2 6 1 。它 在信息損失較少的前提下,由原變量綜合成彼此獨立數(shù)目較少的主成分, 以主成分代替原變量進行模型擬合。它使彼此相關(guān)的變量彼此獨立。但 是,主成分方法無法確定原變量作用是否顯著f 2 7 1 。王惠文對主成分回歸 消除共線性的能力并不樂觀【28 1 ,舒曉惠等指出完全共線性的情形不適用 主成分回歸【29 1 ,而且它比嶺回歸的值選擇隨意性更大,在S P S S 中無法 用菜單直接實現(xiàn)。 3 ) 逐步回歸分析 逐步回歸分析方法視自變量對因變量的影響顯著性大小,從大到小 逐個引入回歸方程,同時,如果發(fā)現(xiàn)先前被引入的自變量在其后由于某 些自變量的引入而失去其重要性,則從方程中隨時予以剔除。直到既無 不顯著變量從方程中剔除,又無顯著變量需要引入回歸方程為止。從處 理有害共線性的角度看,逐步回歸優(yōu)于嶺回歸和主成分回歸。逐步回歸 面臨著F 檢驗的顯著性水平a 的選擇困難,它通常得不到最優(yōu)變量子集【B 】。 4 ) 一些其他的方法 蔣平等提出了聚類回歸分析的方法,通過聚類分析將變量分成若干 類,從每一類中找出一個變量作為該類的代表變量組成自變量集,則最 后所選出的自變量其相似程度低,從而在一定程度上消除共線性。但是 該方法首先要在動態(tài)聚類中給定一個參數(shù)k ,因而也就主觀的確定了模 1 6 型中的解釋變量的個數(shù)【30 1 。 王玉梅提出了不相關(guān)法,其基本思想:當(dāng)各個解釋變量,如誓與屯 之間存在著多重共線性時,則薯的變化能夠說明x j 的變化。不相關(guān)法在 保留薯全部信息的同時,以薯為基礎(chǔ),對其他的解釋變量進行一定的線 形變換,使之轉(zhuǎn)換為一個新變量,消除多重共線性【3 1 1 。 但對于用聚類回歸分析和不相關(guān)法來解決多重共線性問題,這方面 的文獻不多,并沒有在實際問題中的應(yīng)用。 2 4 2 小結(jié) 1 嶺回歸與主成分回歸在解決多重共線性問題上,是以是嚴(yán)重共線性為 出發(fā)點,而逐步回歸則偏重于解決有害共線性,但由于篩選界值的選擇 問題,所以得到的不一定是最優(yōu)變量子集【1 3 】。 2 多重共線性問題的解決一直是一個比較棘手的問題,特別是對于醫(yī)學(xué) 數(shù)據(jù),由于醫(yī)學(xué)數(shù)據(jù)的多樣性和龐雜性,多重共線性的解決就顯得更為 困難。需要根據(jù)具體的數(shù)據(jù)類型,模型中變量的特征,選擇適合的解決 方法。 參考文獻 1 F i s h e rRA T h eL o g i co fI n d u c t i v eI n f e r e n c e J J o u r n a lo ft h eR o y a lS t a t i s t i c a l S o c i e t y ,1 9 3 5 ,9 8 ( 1 ) :3 9 8 2 2 A n d e r s o nJA S e p e r a t es a m p l el o g i s t i cd i s c r i m i n a t i o n J B i o m e t r i k a ,19 7 2 ,5 9 ( 1 ) : 1 9 3 5 3 孫尚拱L o g i s t i c l 亙l 歸的近況與評述【J 】中國衛(wèi)生統(tǒng)計,19 8 6 ,3 ( 3 ) :6 2 6 5 4 顏虹醫(yī)學(xué)統(tǒng)計學(xué)【M 】人民衛(wèi)生出版社,2 0 0 5 3 3 9 - 3 5 0 5 楊曉妍L o g i s t i c l 回歸和稀有事件l o g i s t i c l 回歸模型的模擬研究【D 】四川大學(xué), 2 0 0 5 6 金丕煥醫(yī)用統(tǒng)計方法【M 】復(fù)旦大學(xué)出版社,2 0 0 3 3 3 2 - 3 4 3 7 孫振球,徐勇勇醫(yī)學(xué)統(tǒng)計學(xué)【M 】人民衛(wèi)生出版社,2 0 0 5 3 3 3 - 3 5 0 8 方積乾醫(yī)學(xué)統(tǒng)計學(xué)與電腦實驗【M 】上海科學(xué)技術(shù)出版社,2 0 0 6 2 5 0 2 6 8 9 G a r yK ,L a n g c h eZ L o g i s t i cR e g r e s s i o ni nR a r eE v e n t sD a t a J P o l i t i c a lA n a l y s i s , 2 0 0 l ,9 ( 2 ) :1 3 7 一1 6 3 1 0 G a r yK ,L a n g c h eZ E x p l a i n i n g R a r eE v e n t si nI n t e r n a t i o n a l R e l a t i o n s J I n t e r n a t i o n a lO r g a n i z a t i o n ,2 0 0 1 ,5 5 ( 3 ) :6 9 3 - 7 1 5 1 1 韓宏確切L o g i s t i c 回歸方法及其在醫(yī)學(xué)遺傳學(xué)領(lǐng)域的應(yīng)用【D 】山西醫(yī)科大學(xué), 2 0 0 2 1 2 M e h t aCR ,P a t e lNR e x a c tl o g i s t i cr e g r e s s i o n :t h e o r ya n de x a m p l e s J s t a t i s t i c s i nm e d i c i n e ,1 9 9 5 ,1 4 ( 1 9 ) :2 1 4 3 2 1 6 0 1 3 陳玲燕多重共線性下的線性回歸方法綜述 J 】市場研究,2 0 0 8 ,( 4 ) :3 9 4 1 1 4 魯茂幾種處理多重共線性方法的比較研究 J 】統(tǒng)計與決策,2 0 0 7 ,( 7 ) :8 一1 0 1 5 范立新回歸分析中多重共線性診斷方法【J 】國外醫(yī)學(xué)衛(wèi)生學(xué)分冊,19 9 4 ,( 1 ) : 3 4 - 3 7 1 6 童身以,戴勝利多元共線性數(shù)據(jù)的處理【J 】中國衛(wèi)生統(tǒng)計,l9 9 5 ,1 2 ( 1 ) : 4 0 4 1 1 7 李嚴(yán)潔多元回歸中的多重共線性及其存在的后果【J 】中國衛(wèi)生統(tǒng)計,1 9 9 2 , 9 ( 1 ) :2 4 - 2 7 1 8 王濟川,郭志剛1 0 9 i s t i c l 亙l 歸模型方法與應(yīng)用【M 】高等教育出版社,2 0 0 1 1 9 0 19 4 1 9 L a r d a r oL A p p l i e dE c o n o m e t r i c s M N e wY o r k :H a r p e r c o l I i n s ,1 9 9 2 4 4 1 4 6 4 2 0 丁元林,孔丹莉,毛宗福多重線性回歸分析中的常用共線性診斷方法【J 】數(shù) 理醫(yī)藥學(xué)雜志,2 0 0 4 ,1 7 ( 4 ) :2 9 9 3 0 0 f 1 3 2 1 陳希孺,王松桂近代回歸分析【M 】安徽教育出版社,l9 8 7 2 2 B e r kKN T o l e r a n c ea n dC o n d i t i o ni nR e g r e s s i o nC o m p u t a t i o n s 【J 】J o u r n a lo f A m e r i c a nS t a t i s t i c a lA s s o c i a t i o n ,1 9 7 7 ,7 2 :8 6 3 - 8 6 6 2 3 柳麗,魏慶諍回歸分析中多重共線性的診斷與處理 J 】中國衛(wèi)生統(tǒng)計,1 9 9 4 , 1 l ( 1 ) :5 - 7 2 4 范立新,金水高多重共線性的變量分解處理法初探 J 】中國衛(wèi)生統(tǒng)計,l9 9 7 , 1 4 ( 4 ) :4 - 7 2 5 王斌會,陳平雁一種新的共線性診斷方法及其在嶺參數(shù)選擇中應(yīng)用 J 】中國 衛(wèi)生統(tǒng)計,1 9 9 6 ,l3 ( 5 ) :l 一3 2 6 H o e r lA E ,K e n n a r dRW R i d g eR e g r e s s i o n :B i a s e dE s t i m a t i o nf o rN o n o r t h o g o n a l P r o b l e m s J T e c h n o m e t r i c s ,2 0 0 0 ,4 2 ( 1 ) :8 0 - 8 6 2 7 林華珍,倪宗瓚多重共線性變量的回歸系數(shù)估計和檢驗【J 】中國公共衛(wèi)生, 1 9 9 9 ,15 ( 2 ) :1 3 1 - 1 3 2 2 8 王惠文,朱韻華P L S 回歸在消除多重共線性中的作用 J 】數(shù)理統(tǒng)計與管理, 1 9 9 6 ,1 5 ( 6 ) :4 8 - 5 2 2 9 舒曉惠,劉建平利用主成分回歸法處理多重共線性的若干問題【J 】統(tǒng)計與決 策,2 0 0 4 ,( 1 0 ) :2 5 2 6 3 0 蔣平,邢云燕聚類回歸分析在F M S 加工質(zhì)量分析中的應(yīng)用【J 】自動化技術(shù)與 應(yīng)用,2 0 0 5 ,2 4 ( 8 ) :1 5 - 1 6 3 1 王玉梅多重共線性的消除:不相關(guān)法【J 】統(tǒng)計教育,2 0 0 6 ,( 7 ) :1 8 1 9 1 9 l o g i s t i c 回歸多重共線性診斷方法的研究 碩士生姓名:于曉牧 指導(dǎo)教師:劉啟貴教授 專業(yè)名稱:流行病與衛(wèi)生統(tǒng)計學(xué) J 一 月I J吾 l o g i s t i c 回歸模型主要用于研究因變量各種狀態(tài)發(fā)生的概率與自變 量取值之間的關(guān)系,它不要求自變量服從協(xié)方差矩陣相等,也不要求殘 差項服從正態(tài)分布,因而在醫(yī)學(xué)科研與實踐領(lǐng)域中的應(yīng)用已經(jīng)非常廣泛, 是進行病因分析、生存分析的常用多元分析方法。但是人們在長期的應(yīng) 用中發(fā)現(xiàn)很多情況下求出的模型系數(shù)不穩(wěn)定,解釋問題時會得出荒謬的 結(jié)論。種種跡象表明l o g i s t i c 回歸模型同線性回歸模型一樣,需要考慮回 歸診斷的問題。P r e g i b o n 、B e d r i c k 等學(xué)者就提出了一系列關(guān)于l o g i s t i c 回歸模型的殘差分析、影響診斷的方法。但是,對于共線性的問題,卻 很少有人論及。是l o g i s t i c 回歸擬合效果不受共線性關(guān)系的影響嗎? 事實 并非如此。統(tǒng)計學(xué)者B e l s l e y 和Y o h a n a nW a X 等指出,在信息矩陣基礎(chǔ)上 發(fā)現(xiàn)的強共線性關(guān)系小則可能會增大回歸系數(shù)的方差,大則可能影響估 計系數(shù)的符號、變量的選取及方程的確立f 1 1 。所以說,在l o g i s t i c 回歸分 析中,進行變量篩選與參數(shù)估計的過程中,是要求各自變量之間相互獨 立的。然而事實上,在很多研究中,特別是在醫(yī)學(xué)領(lǐng)域,各個自變量之 間并不獨立,而是相互之間存在一定的線性相關(guān)關(guān)系,即多重共線性。 這種多重共線性常會增大估計的方差和標(biāo)準(zhǔn)誤,從而降低模型的穩(wěn)定性, 甚至導(dǎo)致出現(xiàn)與實際情況相反,難于解釋的結(jié)果。這就要求我們在建立 回歸模型的過程中充分考慮到多重共線性的問題,以便求得能夠真正反 映事物發(fā)展變化規(guī)律的回歸模型。 目前對于回歸模型多重共線性的診斷問題的研究,主要集中在多重 線性回歸模型上,而對l o g i s t i c 回歸模型的研究則較少,沒有對l o g i s t i c 回歸模型的共線性診斷方法的系統(tǒng)研究,知識體系比較零散,如何在這 方面進行深一步的研究與評價,是一個需要重視且具有一定實用價值的 問題。本文從多重共線性的定義,產(chǎn)生原因等方面入手,在此基礎(chǔ)上, 對目前一些已有的多重線性回歸模型的共線性診斷方法進行推廣,將其 應(yīng)用到l o g i s t i c 回歸模型中去。通過具體的醫(yī)學(xué)實例,比較各種方法的優(yōu) 缺點,得到較適用于醫(yī)學(xué)研究的方法,便于醫(yī)學(xué)研究者正確合理的建立 l o g i s t i c 回歸模型。使回歸得到的結(jié)果更真實客觀,對醫(yī)學(xué)結(jié)論的正確得 出發(fā)揮作用。 原理與方法 一、i o g i s i t e 回歸模型 l o g i s t i c 回歸模型是一概率模型,最簡單的l o g i s t i c 回歸模型是二分 類非條件l o g i s t i c 回歸模型; 尸2機礦,戶而exp麗(flo+麗fljx,再+f12再x,+麗+fln,x,) 其中而,x 2 ,為代表各影響因素的解釋變量,在醫(yī)學(xué)研究中常為與 某種疾病有關(guān)的生理、心理、遺傳、社會和環(huán)境因素等。只,尾,成為待 估參數(shù)。Y 是表示結(jié)果發(fā)生與否的二值變量,服從二項分布。 l o g i s t i c 回歸模型參數(shù)估計的方法與多重線性回歸模型的參數(shù)估計 方法不同,多重線性回歸模型的參數(shù)估計方法采用的是最小二乘法,而 l o g i s t i c 回歸模型采用的是最大似然估計( m a x i m u ml i k e l i h o o d e s t i m a t i o n ,M E L ) ,對n 例觀察樣本建立似然函數(shù)L 上= n 只x ( 1 一只) 卜K i = l ,2 ,n 其中只表示第i 例觀察對象在自變量的作用下陽性結(jié)果發(fā)生的概率, 如果實際出現(xiàn)的是陽性結(jié)果,取= l ,否則取Z = O ;根據(jù)最大似然原理: 在一次抽樣中獲得現(xiàn)有樣本的概率應(yīng)該最大,即似然函數(shù)L 應(yīng)該達到最 大值。此時,求似然函數(shù)達到極大時的參數(shù)取值。為簡化計算,通常取 似然函數(shù)的對數(shù)形式: l l l = 馳只+ O - Y , ) :n O - P , ) 形成要計算的目標(biāo)函數(shù)l n L ,然后采用N e w t o n m R a p h s o n 迭代法計算 參數(shù)D 的估計值,該過程依靠統(tǒng)計軟件完成1 2 1 。 通過擬合模型可以得到事件發(fā)生概率的大小與各影響因素之間的關(guān) 系( 3 1 。 二、多重共線性的產(chǎn)生與影響 1 多重共線性的定義與產(chǎn)生 在m 個自變量中,如果有k 個自變量滿足 九l x l + k x 2 七七A k x t + 20 則它們存在多重共線性。其中2 k S m ;A ,A :,以為常數(shù)且不同時為 零;占為噪聲且H f o ,) 。當(dāng)s = o 時為完全多重共線性;s 專0 時多重共 線性越嚴(yán)重;s - - 4 , o o 時不存在多重共線性。s 專0 和占專o o 是兩種極端 情況,實際數(shù)據(jù)很難遇到。但由占的取值范圍可知多重共線性是普遍存 在的 4 1 。 多重共線性的來源大致可以歸納為以下幾類【5 l :第一類共線性產(chǎn)生 于建模者對模型的變量選用不當(dāng)。如果自變量之間存在著高度的相關(guān)關(guān) 系,而研究者又沒有進行相應(yīng)的處理,建立的模型就可能存在多重共線 性。例如在某病影響因素的研究中,自變量經(jīng)濟收入和衛(wèi)生狀況之間就 存在著高度的相關(guān)關(guān)系,如果事先不進行處理,所得的模型就有可能存 在多重共線性 6 1 ;第二類是由于異常變量值的原因。研究得到的自變量 數(shù)據(jù)中存在某些異常點,這些點可能造成自變量間的多重共線性【7 】:第 三類共線性來源于有缺陷的樣本,如抽樣過程中的不規(guī)范操作等原因?qū)?致的樣本數(shù)據(jù)變量之間的多重共線性。 2 多重共線性對l o g i s t i c 回歸模型擬合的影響 當(dāng)多重共線性不太嚴(yán)重時,無論是線性回歸還是l o g i s t i c 回歸,其系 數(shù)估計基本還是無偏有效的,所以幾乎可以忽略其影響【8 】。當(dāng)多重共線 性程度增加時,其后果也變得越來越嚴(yán)重。它會造成兩個問題: 1 ) 對變量篩選的影響 在病因?qū)W分析中,l o g i s t i c 回歸的建模過程中一般采用逐個篩選解釋 變量的方法。這種方法得出的回歸子集,一般認(rèn)為是所有觀察的可能的 影響因素中對某病有影響的因素構(gòu)成的子集。這樣的結(jié)論只有在解釋變 量之間不存在多重共線性的情況下才有意義,否則將有可能導(dǎo)致錯誤的 分析結(jié)果。當(dāng)解釋變量之間存在多重共線性時,包含在回歸子集內(nèi)的解 釋變量可以看成影響因素,但未包含在回歸子集內(nèi)的解釋變量卻不能說 是非影響因素。如果兩個變量間存在線性關(guān)系,經(jīng)過變量篩選后,一般 只會有一個因素被選取,但我們并不能說明另外一個因素是非致病因素。 2 ) 對參數(shù)估計的影響 同多重線性回歸模型類似,如果自變量之間存在多重共線性的程度 較高,系數(shù)標(biāo)準(zhǔn)誤的估計將產(chǎn)生偏差,根據(jù)H a n u s h e k 和J a c k s o n 所進行 的蒙特卡洛模擬試驗,當(dāng)變量之間的相關(guān)程度提高時,系數(shù)估計的標(biāo)準(zhǔn) 誤將會急劇增加。最后,在多重共線性的條件下,系數(shù)估計對樣本和模 型設(shè)置都非常敏感,模型設(shè)置的微小變化、在樣本中刪除或增加一個案 例,都會導(dǎo)致系數(shù)估計的較大變化,甚至符號的改變,從而導(dǎo)致l o g i s t i c 回歸模型結(jié)果與實際矛盾,無法從醫(yī)學(xué)方面給予合理的解釋。比如,多 因素分析與單因素分析結(jié)果相互矛盾,在單因素分析中某因素為危險因 素,而在多因素分析中則變?yōu)楸Wo因素等【9 1 。 3 1 0 9 i s t i c 回歸多重共線性診斷的方法 p b 南) 2 a 邯l x I + - - 七8 m x m 將左側(cè)總體看成結(jié)果變量,l o g i s t i c 回歸就與多重線性回歸模型的形 式是一致的,有很多共性,彼此可借鑒。所以可以嘗試將診斷多重線性 回歸多重共線性的方法應(yīng)用到l o g i s t i c 回歸中去。 3 1 計算變量間的二元相關(guān)系數(shù)r 如果自變量間的二元相關(guān)系數(shù)r 很大,則可直觀的認(rèn)為存在多重共 線性【10 1 。 3 2 計算方差膨脹因子V I F ( t h ev a r i a n c ei n f l a t i o nf a c t o r ) 其表達式如下: V I F = I ( 1 - 砰) 一= J ,“,叫 其中R 為以變量薯為因變量,其余x ,仃= J ,2 ,f ,i + J ,叫為自變量 作回歸分析的復(fù)相關(guān)系數(shù)。V I F 表明估計系數(shù)的方差與理想狀態(tài)的方差 相比的增加量。若葺與其他m 1 個自變量間無線性相關(guān),即R i = 0 ,則 V I F = I ;反之V I F 大于l 。V I F 的值越大,說明變量間的多重共線性程度越 強。有學(xué)者建議當(dāng)V I F _ 5 或V I F _ 10 時,可認(rèn)為自變量間存在嚴(yán)重共線 性【lI 1 2 1 。 3 3 計算容許值T O L ( T o l c r a n c c ) T O L 的定義為 T O L = l R I O = 1 2 。m ) 其中R 為以變量薯為因變量,其余= ,Z ,i 一,f + ,圳為自變量 作回歸分析的復(fù)相關(guān)系數(shù)。實際上容許值就是方差膨脹因子的倒數(shù),即 T O L = I V I F ,當(dāng)群很高時,容許值便很低,表明相應(yīng)自變量與其他自變 量之間存在高度相關(guān),即存在多重共線性。當(dāng)群= 1 時,容許值便等于o , 說明相應(yīng)自變量已經(jīng)與其他自變量完全相關(guān),于是模型便不能產(chǎn)生估計。 容許值小于0 2 可以認(rèn)為是多重共線性存在的標(biāo)志,容許值小于0 1 說明 多重共線性很嚴(yán)重【l 引。 3 4 使用特征根分析系統(tǒng) 1 ) 計算特征根 計算由自變量觀測值構(gòu)成的矩陣X X 的特征根,若某個特征根很小, 甚至接近于0 ,稱X 陣病態(tài),就意味著由自變量的觀測值構(gòu)成的矩陣X 中的列向量間存在共線關(guān)系。有多少個特征根接近于零,矩陣X 就有多 少個共線關(guān)系存在。通常認(rèn)為X X 的最小特征根小于O 0 5 或O 0 1 即認(rèn)為 有多重共線性1 1 4 】。 2 ) 計算條件指數(shù) 條件指數(shù)定義為 仇2 k 仇 即X X 最大特征根與其他各特征根之比的算術(shù)平方根。如果五接近 于0 ,則條件指數(shù)仇將很大。條件指數(shù)越大,共線性越強。在應(yīng)用中, 如果r h 3 0 ,則認(rèn)為存在較強的共線關(guān)系 1 5 1 。 3 ) 計算方差分解比 對單位化以后的矩陣X 進行奇異值分解。 以。冊= 鞏。研D k ,圪。一 其中。是對角陣,其對角線上的元素為X X 的特征根;啊為X X 特征向量組成的一正交陣;q 。為由X 、D 、V 確定的另一正交陣?;?歸系數(shù)的方差為 V a r ( b k ) = a 2 2 甜J 2 七= J ,“,叫 ,2 I 其中是中第( k j ) 個元素,材,是中對角線上第j 個元素,仃2 為隨機誤差項的方差。 設(shè)= 咭磚 肘 。= 僅= _ f ,扣,圳 - l 則第( j ,k ) 個方差分解比定義為 n | k = 吼舊k 0 , k = 1 2 m ) 4 ) 根據(jù)r k 和F I 業(yè)構(gòu)成診斷表格 一般認(rèn)為,在理論上滿足以下條件來診斷共線性:相關(guān)的條件指 數(shù)較高,一般指大于3 0 :兩個或多個的估計回歸系數(shù)有較大的方差分 解比,一般大于O 5 【16 1 。 3 5 計算多重確定系數(shù) 計算模型中有m 個自變量時的多重確定系數(shù)為R ;( x ,X 2 ,x 。,) 和模型 中不含其中某個自變量薯= J ,2 ,叫的多重確定系數(shù)尺? ,如果霹和其中 最大的一個群很接近,則表明該自變量在模型中對多重確定系數(shù)的影響 不大,它很有可能是其它自變量的線性組合,該自變量進入模型后就有 可能引起多重共線性問題。 3 6 使用行列式判別法【1 7 】 令H = X X ,元為H 的特征根,i = l ,2 ,m 于是令 D = d e t ( L 9 為H 的行列式 因為D = d e t ( 功= 刀孔。當(dāng)X 病態(tài)時,X X 的最小特征根很小,接近于 0 ,這樣D 就接近于0 ,于是: 若0 10 時,可 認(rèn)為自變量間存在嚴(yán)重共線性;對于T O L ,小于0 2 可以認(rèn)為是多重共 線性存在的標(biāo)志,小于0 1 說明多重共線性很嚴(yán)重。 但不同的具體情況,V I F 和T O L 的臨界值將有所不同。比如本文的 實例分析中,雖然E P Q E ,E P Q N 兩個變量的V I F 值小于5 ,T O L 值大于 O 2 ,即都沒有達到目前使用較多的V I F 和T O L 臨界診斷標(biāo)準(zhǔn),但由于 其V I F 值明顯大于其他各變量的V I F 值,T O L 值明顯小于其他各變量的 T O L 值,結(jié)合這兩個變量與其他變量之間的二元相關(guān)系數(shù)的結(jié)果及特征 根分析系統(tǒng)的結(jié)果,提示這兩個變量與其他變量之間也極有可能存在多 重共線性關(guān)系。另一方面,這個結(jié)果也提示我們,V I F 和T O L 這兩個 多重共線性診斷指標(biāo)對于l o g i s t i c 回歸模型可能更加敏感,變量間V I F 或T O L 的較小的差別就能夠反映出多重共線性的存在,即V I F 的臨界 診斷標(biāo)準(zhǔn)在l o g i s t i c 回歸模型中不一定要達到5 ;T O L 的臨界診斷標(biāo)準(zhǔn) 也不一定要達到0 2 。但是對于這兩個指標(biāo)在l o g i s t i c 回歸模型中具體的 臨界診斷標(biāo)準(zhǔn)是多少,還有待于進一步的研究。 而在某些時候,即使V I F 值較低或T O L 值較高,自變量間也有可能 存在多重共線性問題,1 引,所以這兩個指標(biāo)一般用來作為共線性診斷的 參考指標(biāo),還是要結(jié)合其他診斷方法來綜合進行判定。 3 3 特征根分析系統(tǒng) 此分析系統(tǒng)雖然包含特征根,條件指數(shù),方差分解比例較多部分, 但是操作可以通過S P S S 軟件的e o l l i n e a r i t yd i a g n o s t i c s 過程一步全部實 現(xiàn),使用起來也比較簡單。S P S S 沒有提供l o g i s t i c 回歸的共線性診斷程 序,但因為我們現(xiàn)在只是關(guān)心自變量之間的關(guān)系,所以運用相同的因變 量與自變量,擬合線性方程,進行相應(yīng)的共線性診斷即可。 使用特征根進行多重共線性診斷,可以得到模型存在的共線性關(guān)系 的個數(shù),有學(xué)者認(rèn)為,在做一些涉及較多自變量的、自變量間的關(guān)系比較 復(fù)雜的大型回歸分析時,為了排除多重共線性對回歸結(jié)果的影響,可以 先通過特征根做初步的共線性診斷【l5 1 。但是,它不能度量多重共線性的 嚴(yán)重程度,而且X Z 的特征根近似等于零的概念比較模糊,也存在臨界 值不好判斷的問題。通常認(rèn)為X X 的最小特征根小于0 0 5 或O O l 即認(rèn)為 有多重共線性。本文的實例分析結(jié)果中,X X 的特征根小于0 0 5 的有4 個,小于0 0 1 的有2 個,所以認(rèn)為模型中存在的共線性關(guān)系有2 4 個。 條件指數(shù)在實際應(yīng)用中,一般都與方差分解比結(jié)合起來診斷多重共 線性。它也同樣存在臨界值不好判斷的問題,一般認(rèn)為如果條件指數(shù) 3 0 , 則認(rèn)為模型的某些變量間存在較強的共線關(guān)系【1 5 】。 而將條件指數(shù)和方差分解比結(jié)合起來綜合度量多重共線性的方法叫 回歸系數(shù)方差分解法( R e g r e s s i o nC o e f f i c i e n tV a r i a n c eD e c o m p o s i t i o n , R C V D ) ,它是至今比較完善的一種方法,不但解決了自變量中是否存在 多重共線性的問題,而且解決了其它診斷方法較難解決的重要問題,就 是各個多重共線性關(guān)系對每個回歸系數(shù)方差比的貢獻,即每個多重共線 性關(guān)系由哪些自變量構(gòu)成I l IJ 。 R C V D 法的診斷準(zhǔn)則為:對應(yīng)一個較大的條件指數(shù),一般認(rèn)為大于 3 0 ,如果存在2 個或2 個以上的回歸系數(shù)的方差分解比在0 5 以上,則 認(rèn)為自變量間有可能存在多重共線性。本文的實例分析中,條件指數(shù)大 于3 0 的有兩個。其中,條件指數(shù)為4 3 5 5 0 對應(yīng)的E P Q L ,E P Q E 的方差 分解比例分別為8 8 和4 9 ;而對于條件指數(shù)為6 0 0 2 6 對應(yīng)的E P Q E , E P Q N 的方差分解比例分別為4 8 和5 2 ,雖然部分方差分解比例未達 到5 0 ,但也很接近5 0 ,而且由于所對應(yīng)的條件指數(shù)很大,再結(jié)合之 前的相關(guān)系數(shù)、V I F 及T O L 值的診斷結(jié)果綜合分析,認(rèn)為E P Q L 與E P Q E , E P Q E 與E P Q N 兩對變量之間存在共線性關(guān)系。由此也說明,雖然R C V D 法已經(jīng)比較完善,但最好與其他診斷方法的結(jié)果結(jié)合起來綜合分析,才 能得出比較全面客觀的結(jié)論。 3 4 多重確定系數(shù) l o g i s t i c 回歸模型中確定系數(shù)的含義作用與線性回歸中的確定系數(shù) 類似,但構(gòu)造方法卻完全不一樣,因此,為了區(qū)別于線性回歸的確定系 數(shù)R 2 ,將l o g i s t i c 回歸中的確定系數(shù)叫偽確定系數(shù)。S P S S 軟件提供了兩 個偽確定系數(shù)C o x & S n e l lR 2 和N e g e l k e r k eR 2 ,在進行l(wèi) o g i s t i c 回歸的操 作過程后,這兩個指標(biāo)在結(jié)果當(dāng)中列出。此方法也很易于理解,如果哪 個變量不在方程中時的R 2 與在方程中時相差不大,就說明該變量對因變 量的影響作用不大,它的作用極有可能被其他變量線性表示,從而說明 了共線性的存在。 在本文的實例分析中,除了E P Q N 不在模型中時的C o x & S n e l lJ 1 2 2 和 N e g e l k e r k eR 2 與在模型中時的結(jié)果有差別之外,其余變量在不在模型中 對C o x & S n e l lR 2 和N e g e l k e r k eR 2 均沒有影響。這表明模型中除了E P Q N 其他所有的變量對多元確定系數(shù)的影響都不大,都很有可能是其它變量 的線性組合,引起多重共線性問題。從這個結(jié)果我們可以看出,對于此 實例數(shù)據(jù),該方法的結(jié)論與其他方法的結(jié)論不一致,其他方法得到的結(jié) 論認(rèn)為E P Q N 與其他變量存在多重共線性關(guān)系。根據(jù)其他方法的結(jié)果, 對實例分析的數(shù)據(jù)進行調(diào)整,得到合理的l o g i s t i c 回歸結(jié)果??梢姡摲?法的結(jié)論是不恰當(dāng)?shù)?,說明或許該方法不適用于l o g i s t i c 回歸模型。 3 5 行列式判別法 該方法簡單方便,本文的實例數(shù)據(jù)中D = d e t ( H ) = 6 9 2 9 6 x1 0 1 0 口0 0 1 就認(rèn)為模型的某些變量間存在嚴(yán)重的共線性問題。若是后續(xù)使用嶺回歸 解決共線性問題,該方法還可以應(yīng)用于嶺參數(shù)的選擇。但是該法只能判 斷模型變量間的共線性嚴(yán)重程度,無法提供更多的信息,所以也是多重 共線性診斷的一個輔助方法。 4 1 0 9 i s t i c 回歸的多重共線性診斷方法在醫(yī)學(xué)中的應(yīng)用 l o g i s t i c 回歸在醫(yī)學(xué)研究中的應(yīng)用非常廣泛,而醫(yī)學(xué)數(shù)據(jù)的類型都比 較復(fù)雜,自變量的個數(shù)一般較多,很多自變量的效應(yīng)都是未知的,因此 自變量間存在多重共線性的可能性很大。另一方面,很多醫(yī)學(xué)研究者的 統(tǒng)計學(xué)知識非常有限,對于回歸方程存在的共線性問題認(rèn)識不足,對于 統(tǒng)計軟件的操作能力也較弱。針對這些情況,在本文討論的幾種多重共 線性診斷方法中,筆者認(rèn)為,V I F 、T O L 、特征根分析系統(tǒng)比較適合醫(yī)學(xué) 工作者在研究中使用,因為以上的指標(biāo)可以通過S P SS 的c o l l i n e a r i t y d i a g n o s t i c s 過程一步完成,操作過程比較簡單。V I F 和T O L 可以診斷出 某變量和其他變量間存在共線性關(guān)系,而且相對于線性回歸模型而言, V I F 和T O L 對l o g i s t i c 回歸模型可能更加敏感,當(dāng)然這還需要進一步的 研究驗證。而對于V I F 和T O L 不能得到的信息,即某變量是和具體的哪 些變量間存在多重共線性關(guān)系,特征根分析系統(tǒng)恰好可以彌補這方面的 缺憾,它可以診斷出是和具體的哪些變量之間存在共線性關(guān)系。通過以 上指標(biāo)的綜合分析,我們已經(jīng)可以得到進行共線性診斷想要得到的絕大 部分信息。 結(jié)論 1 1 0 9 i s t i c 回歸模型也對多重共線性敏感,在多重共線性存在時,會增加 系數(shù)估計的標(biāo)準(zhǔn)誤,影響偏回歸系數(shù)的符號、變量的選取及方程的確立, 因此需要對l o g i s t i c 回歸模型的多重共線性問題給予重視。 2 部分線性回歸的多重共線性診斷方法在l o g i s t i c 回歸中也同樣適用,能 夠達到共線性診斷的效果,探測出主要影響方程擬合的共線性因素,為 改進方程的擬合提供依據(jù)。 3 通過比較各種診斷方法的優(yōu)缺點,認(rèn)為V I F 、T O L 、特征根分析系統(tǒng)比 較適合在醫(yī)學(xué)研究中使用,既操作方便,又能夠得到比較全面的結(jié)果。 3 7 參考文獻 1 趙宇東,劉嶸,劉延齡,e ta 1 多元l o g i s t i c 回歸的共線性分析【J 】中國衛(wèi)生統(tǒng)計, 2 0 0 0 ,( 0 5 ) :3 5 2 顏虹醫(yī)學(xué)統(tǒng)計學(xué)【M 】人民衛(wèi)生出版社,2 0 0 5 3 3 9 - 3 5 0 3 魯茂幾種處理多重共線性方法的比較研究【J 】統(tǒng)計與決策,2 0 0 7 ,( 7 ) :8 - 1 0 4 王彤,何大衛(wèi)線性回歸中的影響點與多元共線性關(guān)系初探【J 】現(xiàn)代預(yù)防醫(yī)學(xué), l9 9 9 ,2 6 ( 4 ) :4 2 9 4 31 5 孟慶和多元回歸分析中多重共線性的處理【J 】中國衛(wèi)生統(tǒng)計,1 9 9 7 ,1 4 ( I ) : 4 9 5 0 6 趙良淵醫(yī)用多元線性回歸方程中共線影響點的診斷【D 】太原:山西醫(yī)科大 學(xué),2 0 0 2 1 1 7 王濟川I ,郭志剛1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論