多重回歸中的注意事項_第1頁
多重回歸中的注意事項_第2頁
多重回歸中的注意事項_第3頁
多重回歸中的注意事項_第4頁
多重回歸中的注意事項_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

多重回歸分析中的注意事項醫(yī)學(xué)統(tǒng)計學(xué)教研室柳偉偉多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第1頁!2內(nèi)容共線性診斷與異常點診斷

自變量的數(shù)量化

主成分回歸分析

最優(yōu)回歸子集法多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第2頁!3一、自變量的數(shù)量化1.定量變量:通常將定量變量的原始觀察值代入方程進行計算。當(dāng)某個自變量X與因變量Y之間不呈線性關(guān)系時,可以考慮對X作某種變換,以改善回歸方程的擬合優(yōu)度。如果數(shù)據(jù)變換恰當(dāng),應(yīng)使決定系數(shù)R2有明顯的增大多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第3頁!4一、自變量的數(shù)量化3.多值名義變量:需要產(chǎn)生啞變量,每個啞變量都是一個指示變量,所需啞變量的數(shù)目為多值名義變量的類別數(shù)減1。如“血型”是一個多值名義變量,有A、B、AB、O四種,若以O(shè)型血為基準,需引入3個(4-1=3)啞變量來描述。

多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第4頁!5一、自變量的數(shù)量化療法啞變量D1D2中醫(yī)10西醫(yī)01中西醫(yī)結(jié)合-1-1多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第5頁!6一、自變量的數(shù)量化4.多值有序變量:有兩種處理方式,方法一是將有序變量各等級分別賦值1、2、3、…后,直接代入方程計算,這種方式適合于自變量較多、樣本含量又不夠大的場合;方法二是賦啞變量,這種方式適合于自變量不是很多、樣本含量又比較大的場合多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第6頁!7二、共線性診斷與異常點診斷1.條件數(shù)最大特征根與其余每個特征根比值的平方根,稱為條件指數(shù)(conditionalnumber),公式為:

多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第7頁!8二、共線性診斷與異常點診斷1.條件數(shù)

直觀上,條件數(shù)度量了信息矩陣X′X的特征根散布程度,可用來判斷多重共線性是否存在及其嚴重程度。

條件數(shù)越大,說明設(shè)計矩陣X具有越強的共線性。多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第8頁!9二、共線性診斷與異常點診斷2.方差分量

SAS軟件在進行回歸診斷時,自動對模型中的全部自變量進行主成分分析,使每個標準化后的自變量相應(yīng)的方差(值為1)被分解到同等數(shù)目的主成分變量上。每個主成分變量分得的方差稱為方差分量。

多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第9頁!10二、共線性診斷與異常點診斷3.容許度(tolerance,TOL)對自變量Xi而言,其容許度的計算公式為:多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第10頁!11二、共線性診斷與異常點診斷4.方差膨脹因子(varianceinflationfactor,VIF)

Xi的方差膨脹因子計算公式為:根據(jù)經(jīng)驗,VIF>5或10時,一般存在嚴重的多重共線性。多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第11頁!12二、共線性診斷與異常點診斷5.共線性的解決方法(2)有偏估計自變量間存在多重共線性且專業(yè)上認為需要保留在模型中時,不宜使用最小二乘法估計模型。此時,可采用有偏估計。所得回歸系數(shù)的估計值與參數(shù)的偏離不大,且較為穩(wěn)定,另回歸系數(shù)的標準誤比最小二乘法小。此類方法包括嶺回歸分析、主成分回歸分析等。多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第12頁!13二、共線性診斷與異常點診斷5.共線性的解決方法(4)增大樣本含量通過增加樣本含量,減少估計量的方差,提高估計精度,可在一定程度上克服多重共線性。多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第13頁!14二、共線性診斷與異常點診斷2.Cook’sD統(tǒng)計量庫克距離統(tǒng)計量。一般認為,

Cook’sD>0.5時,可認為此觀測點對回歸模型的擬合有強影響,即可認為是異常點。

多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第14頁!三、主成分回歸分析1.基本概念主成分回歸分析是將多個彼此相關(guān)、信息重疊的自變量通過適當(dāng)?shù)木€性組合,使之成為彼此獨立而又提取了原指標變異信息并帶有特定專業(yè)含義的綜合潛變量,即主成分,建立潛變量和因變量的線性回歸方程,再將回歸方程中的潛變量轉(zhuǎn)換為原自變量的一種多元統(tǒng)計方法。多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第15頁!三、主成分回歸分析2.實現(xiàn)步驟(3)用主成分分析求自變量的主成分和主成分得分;(4)使用因變量與主成分進行回歸分析;(5)將主成分的表達式回代,最后得到因變量與原始自變量的回歸模型,并給予專業(yè)解釋。多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第16頁!17四、最優(yōu)回歸子集法1.R2選擇法(RSQUARE)

注意:當(dāng)觀測點少、且模型語句中變量數(shù)目過多時,程序不能運行,因為過多自變量使誤差項無自由度,設(shè)計矩陣不滿秩,所以最多只能從所有可能的變量中選擇觀測點數(shù)減1個變量放入回歸方程。

多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第17頁!18四、最優(yōu)回歸子集法2.修正R2選擇法(ADJRSQ)

根據(jù)修正的決定系數(shù)R2取最大的原則,從回歸方程的所有自變量中選出規(guī)定數(shù)目的子集。程序能運行的條件是設(shè)計矩陣X滿秩。

本法的局限性與R2選擇法相似:其一,與R2選擇法中“其一”相同;其二,選最優(yōu)子集的標準只是用修正的R2取代未修正的R2而已,完全沒有考慮其他標準。

多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第18頁!19四、最優(yōu)回歸子集法3.MallowsCp選擇法

理想的回歸方程應(yīng)當(dāng)使Cp=p,在p取不同值時,可能有多個回歸方程的Cp接近于p,這時可取p較小的回歸方程。

根據(jù)MallowsCp統(tǒng)計量,從模型變量子集中選出最優(yōu)子集。

多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第19頁!20一、自變量的數(shù)量化2.二值變量:賦值后代入方程進行計算,賦值的方式可以有多種,如對性別的賦值方法可為或多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第20頁!21一、自變量的數(shù)量化治療高血壓的療法分為中醫(yī)、西醫(yī)及中西醫(yī)結(jié)合,可用兩個啞變量D1、D2表示,賦值方式為療法啞變量D1D2中醫(yī)00西醫(yī)10中西醫(yī)結(jié)合01多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第21頁!22一、自變量的數(shù)量化兩種賦值方法在使用上的側(cè)重點不同,方法一強調(diào)參數(shù)解釋;方法二采用的是方差分析編碼的方法,更注重的是假設(shè)檢驗采用不同的回歸方法,得到的回歸方程不同,但回歸分析的總體效果不改變多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第22頁!23二、共線性診斷與異常點診斷1.條件數(shù)設(shè)X為n個研究對象在k個自變量上的取值數(shù)據(jù)矩陣,則可求出其交叉乘積矩陣X′X的k個特征根,記為li(i=1、2、…、k),且有l(wèi)1>l2>…>lk。

多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第23頁!24二、共線性診斷與異常點診斷1.條件數(shù)

而最大條件指數(shù),簡稱為條件數(shù),其值為最大特征根與最小特征根之比值的平方根。即:

多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第24頁!25二、共線性診斷與異常點診斷1.條件數(shù)經(jīng)驗上,若0<CNk<10,可認為自變量間不存在多重共線性;若10≤CNk≤30,可認為自變量間存在中等程度的多重共線性;若CNk>30,則認為自變量間存在嚴重的多重共線性。

多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第25頁!26二、共線性診斷與異常點診斷2.方差分量強的多重共線性可以表現(xiàn)在變量的方差分量上。若條件數(shù)(即最大條件指數(shù))所在行同時有兩個以上的變量方差分量超過0.5,就意味著這些變量間存在一定程度的相關(guān)。

多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第26頁!27二、共線性診斷與異常點診斷3.容許度(tolerance,TOL)其中,Ri2指模型中其余自變量對自變量Xi的決定系數(shù)。

Ri2越大,則1-Ri2值越小,容許度越差。說明該自變量不由其他自變量說明的部分相對較小,即該自變量與其他某些自變量關(guān)系較為密切。多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第27頁!28二、共線性診斷與異常點診斷5.共線性的解決方法(1)變量篩選自變量存在多重共線性時,說明部分自變量間有較高的相關(guān)性??烧J為這些自變量對因變量的作用部分重疊或存在包含作用。故可采用自變量篩選的方法選出對因變量有統(tǒng)計學(xué)影響且相互之間獨立或相關(guān)性較低的一組自變量。多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第28頁!29二、共線性診斷與異常點診斷5.共線性的解決方法(3)偏最小二乘回歸分析此法是最小二乘法的一種拓展,最早產(chǎn)生于化學(xué)界。建模過程中,集成了主成分分析、典型相關(guān)分析和線性回歸分析的特點,具有傳統(tǒng)經(jīng)典回歸分析所沒有的優(yōu)點。多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第29頁!30二、共線性診斷與異常點診斷1.學(xué)生化殘差統(tǒng)計量Studentizedresidual,計算公式為:

該統(tǒng)計量的絕對值大于2時,所對應(yīng)的觀測點可能是異常點。

多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第30頁!31二、共線性診斷與異常點診斷3.異常點的處置

認真核對原始數(shù)據(jù)。若屬抄寫或輸入等人為錯誤,應(yīng)予以糾正;若非人為錯誤,可刪除異常點,重新擬合回歸模型。

如有可能,最好在此實驗點上補做實驗,進一步確定此可疑異常點是否屬實。

多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第31頁!三、主成分回歸分析2.實現(xiàn)步驟(1)進行多重回歸分析,并進行共線性診斷;(2)如果自變量之間存在共線性,則可選擇進行主成分回歸分析,以解決由于共線性的影響,造成回歸結(jié)果不合理或無法解釋;多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第32頁!33四、最優(yōu)回歸子集法1.R2選擇法(RSQUARE)

從模型語句中的各自變量所有可能子集中選出規(guī)定數(shù)目的子集,使該子集所構(gòu)成的模型的決定系數(shù)R2最大。多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第33頁!34四、最優(yōu)回歸子集法1.R2選擇法

局限性∶

其一,當(dāng)樣本含量小于等于自變量(含交互作用項)個數(shù)時,只能在一定數(shù)目的變量中窮舉,為找到含各種變量數(shù)目的最優(yōu)子集,要么增加觀測,要么反復(fù)給出不同回歸方程;

其二,選最優(yōu)子集的標準是R2,完全沒有考慮其他標準。

多重回歸中的注意事項共36頁,您現(xiàn)在瀏覽的是第34頁!35四、最優(yōu)回歸子集法3.MallowsCp選擇法(Cp)

從k個自變量中選出p個時,可使用Cp統(tǒng)計量鑒別模型的好壞,其定義為:

其中SSE是選用p個自變量時的殘差平方和,

是選用k個自變量(即全回歸模型)時的殘差方差σ2的估計值。當(dāng)回歸方程中包含截距項時,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論