應(yīng)用統(tǒng)計學(xué)多重線性回歸模型_第1頁
應(yīng)用統(tǒng)計學(xué)多重線性回歸模型_第2頁
應(yīng)用統(tǒng)計學(xué)多重線性回歸模型_第3頁
應(yīng)用統(tǒng)計學(xué)多重線性回歸模型_第4頁
應(yīng)用統(tǒng)計學(xué)多重線性回歸模型_第5頁
已閱讀5頁,還剩76頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、多重線性回歸模型 內(nèi)容提要 模型簡介 簡單實例分析 逐步回歸 殘差分析 模型進一步診斷與修正 小結(jié)模型簡介 生活中發(fā)生的許多現(xiàn)象都不是獨立的,而是相互作用、相互影響的。一種結(jié)果的出現(xiàn)往往是多個因素、多個環(huán)節(jié)共同作用的結(jié)果。拋開其他因素,僅考察其中一個影響因素對結(jié)果的影響,所得出的結(jié)論是片面的,甚至可能是錯誤的。 本章所要討論的問題是如何同時考慮多個因素對同一結(jié)果的影響。此時,因變量只有一個,也稱反應(yīng)變量,常用y表示。自變量也稱解釋變量,有多個。模型簡介 多重線性回歸模型其中,j是偏回歸系數(shù)(Partial regression coefficient),它表示在其它自變量固定不變的情況下,Xj

2、每改變一個測量單位時所引起的應(yīng)變量Y的平均改變量,p為自變量的個數(shù),為殘差,獨立服從 N(0,2)分布。 自變量與因變量之間存在線性關(guān)系,可以通過繪制“散點圖矩陣”予以考察; 各觀測間相互獨立; 殘差服從正態(tài)分布; 方差齊性。模型簡介應(yīng)用條件 多重線性回歸模型使用最小二乘法來解決方程的估計和檢驗問題。簡單分析實例例1 為研究男性高血壓患者血壓與年齡、身高、體重等變量的關(guān)系,隨機測量了32名40歲以上男性的血壓y、年齡x1、體重指數(shù)x2, 試建立多重線性回歸方程。數(shù)據(jù)文件見mreg2.sav。簡單分析實例初步分析初步分析:與簡單線性回歸相類似,先繪制散點圖,以便在進行回歸分析之前了解各變量之間是

3、否存在線性關(guān)系。本例有兩個自變量與一個反應(yīng)變量,繪制散點圖矩陣,如下。 繪制散點圖矩陣簡單分析實例初步分析簡單分析實例簡單分析實例簡單分析實例結(jié)果分析 給出了自變量進入模型的方式,此處尚未涉及變量篩選問題,因為兩個變量是被強行納入模型的(Method為Enter),當(dāng)然就不存在剔除變量的事情了。簡單分析實例結(jié)果分析 模型擬合優(yōu)度情況的檢驗,結(jié)果顯示,復(fù)相關(guān)系數(shù)為0.840,決定系數(shù)為0.706,調(diào)整的決定系數(shù)為0.686,還輸出了剩余標(biāo)準(zhǔn)差。簡單分析實例結(jié)果分析 回歸模型的假設(shè)檢驗結(jié)果,顯示F34.808,P3的觀測為異常值。探測自變量中強影響點:杠桿值,hij大于2或3倍的平均值即為異常;庫

4、克距離1為異常;標(biāo)準(zhǔn)化回歸系數(shù)和標(biāo)準(zhǔn)化預(yù)測值的變化;模型的進一步診斷與修正 強影響點的處理模型的進一步診斷與修正 考慮是否錄入錯誤,如果是,予以改正;否則予以刪除強影響點記錄; 進行穩(wěn)健回歸,如最小一乘法和加權(quán)最小二乘法; 進行非參數(shù)回歸及變量變換等。 多重共線性的識別模型的進一步診斷與修正多重共線性:是指自變量間存在相關(guān)關(guān)系,即一個自變量可以用其他一個或幾個自變量的線性表達式進行表示。有以下表現(xiàn)形式: 整個模型的方差分析結(jié)果為P ; 專業(yè)上認(rèn)為應(yīng)該有統(tǒng)計學(xué)意義的自變量檢驗結(jié)果卻無統(tǒng)計學(xué)意義; 自變量的偏回歸系數(shù)取值大小甚至符號明顯與實際情況違背,難以解釋; 增加或刪除一條記錄或一個自變量,偏

5、回歸系數(shù)發(fā)生很大變化。 多重共線性的識別模型的進一步診斷與修正可以通過statistics 子對話框中的Collinearity Diagnostics 復(fù)選框予以實現(xiàn)。其中提供了以下統(tǒng)計量: 容忍度 方差膨脹因子 條件指數(shù) 變異構(gòu)成容忍度(Toli=1-Ri2):Ri2是自變量xi與其他自變量間的決定系數(shù)。方差膨脹因子(VIF=1/Toli)10,表明共線性嚴(yán)重特征根:最大特征根遠(yuǎn)遠(yuǎn)大于其他特征根,說明自變量間有大量的信息重疊。條件指數(shù)ki=SQRT( m / i ):10,表明存在共線性。模型的進一步診斷與修正 多重共線性的識別(例2分析結(jié)果)模型的進一步診斷與修正 多重共線性的處理模型的

6、進一步診斷與修正 增加樣本量逐步回歸(當(dāng)共線性很嚴(yán)重時,仍然不行) ; 嶺回歸( Ridge Regression,為有偏估計) ; 主成分回歸; 路徑分析。小 結(jié) 回歸模型的建立步驟回歸分析已經(jīng)被應(yīng)用的非常廣泛,作為一個嚴(yán)肅的統(tǒng)計學(xué)模型,它有著自己嚴(yán)格的適用條件,在擬合時需要不斷進行這些適用條件的判斷。但是,許多使用者往往忽視了這一點,只是把模型做完就好了。這不僅浪費信息,更有可能得出錯誤的結(jié)論。這里給出一個比較合適的回歸分析操作步驟,供大家參考。小 結(jié) 回歸模型的建立步驟 繪制散點圖,觀察變量間的趨勢。(不能隨意省略) 考察數(shù)據(jù)分布,進行必要的預(yù)處理。 進行直線回歸分析。 殘差分析。(最重

7、要和直觀的方法是圖示法) 強影響點的診斷和多重共線性的判斷。小 結(jié)建立一個“完美”的多重線性回歸模型是一個需要反復(fù)進行的過程,不能指望一蹴而就?;静僮?Analyze-Regression-LinearDependent:因變量Independent:自變量Method:自變量篩選方法,默認(rèn)為EnterBlock:不同變量有不同篩選方法時可定義BlockSelection Variable:變量值滿足條件的樣本才參與分析Case Labels:指定圖示中數(shù)據(jù)點的標(biāo)志變量對于呈非線性關(guān)系的變量之間的統(tǒng)計關(guān)系進行大體估計(但經(jīng)變量變換可轉(zhuǎn)化為線性關(guān)系本質(zhì)線性關(guān)系)。繪制擬合曲線并進行預(yù)測。做為線

8、性回歸分析的預(yù)分析步驟:選擇變量變換的方法。曲線估計常用的幾種非線性模型(一)拋物線模型(二次曲線模型)具體形式為:式中0、1 和2 為待估計參數(shù)。判斷某種現(xiàn)象是否適合應(yīng)用拋物線,可以利用“差分法”。其步驟如下:首先將樣本觀察值按X 的大小順序排列,然后按以下兩式計算X 和Y 的一階差分Xt、Yt 以及Y 的二階差分Y2t。 Xt=Xt-Xt-1; Yt=Yt-Yt-1 Y2t=Yt-Yt-1當(dāng)Xt 接近于一常數(shù),而Y2t 的絕對值接近于常數(shù)時,Y 與X 之間的關(guān)系可以用拋物線模型近似加以反映。50(二)雙曲線模型假如Y 隨著X 的增加而增加(或減少),最初增加(或減少)很快,以后逐漸放慢并趨

9、于穩(wěn)定,則可以選用雙曲線來擬合。雙曲線模型形式是:Y=0+1 (1/X) +(三)冪函數(shù)模型冪函數(shù)模型的一般形式是:這類函數(shù)的優(yōu)點在于:方程中的參數(shù)可以直接反映因變量Y 對于某一個自變量的彈性。所謂Y 對于Xj 的彈性,是指在其他情況不變的條件下,Xj 變動時所引起Y 變動的百分比。 彈性是一個無量綱的數(shù)值,它是經(jīng)濟定量分析中常用的一個尺度。它在生產(chǎn)函數(shù)分析和需求函數(shù)分析中,得到了廣泛的應(yīng)用。52(四)指數(shù)函數(shù)模型指數(shù)函數(shù)模型為:這種曲線被廣泛應(yīng)用于描述社會經(jīng)濟現(xiàn)象的變動趨勢。例如產(chǎn)值、產(chǎn)量按一定比率增長,成本、原材料消耗按一定比例降低。53(五)邏輯曲線模型邏輯曲線的方程式如下:邏輯曲線具有

10、以下性質(zhì)。Y 是X 的非減函數(shù),開始時隨著X 的增加,Y 的增長速度也逐漸加快,但是Y 達到一定水平之后, 其增長速度又逐漸放慢。最后無論X 如何增加,Y 只會趨近于L,而永遠(yuǎn)不會超過L。54可擬合的曲線本質(zhì)線性關(guān)系:形式上呈非線性關(guān)系,但可通過變量變換化為線性關(guān)系。擬合原則:一般來說,涉及的變量越多,變量的冪次越高,計算量就越大,誤差也將越大。一般盡量避免采用多元高次多項式。能擬合的曲線見下頁基本操作:AnalyzeRegressionCurve EstimationIndependent: X2Dependent Mth Rsq d.f. F Sigf b0 b1 b2 b3 X5 QUA

11、 .987 10 382.64 .000 252.698 -.1475 2.5E-05 X5 CUB .994 9 516.46 .000 -41.314 .0754 -2.E-05 2.6E-09 X5 COM .995 11 2086.35 .000 20.9550 1.0004 X5 POW .954 11 229.58 .000 3.6E-05 1.8460例:打開年人均消費支出和教育數(shù)據(jù),對居民在外就餐的趨勢進行分析,預(yù)測2003年和2004年度的居民在外就餐的費用。操作:GraphsSequenceDependent variable. X4 Method. EXPONENTLis

12、twise Deletion of Missing DataMultiple R .96856R Square .93810Adjusted R Square .93501Standard Error .26294 Analysis of Variance: DF Sum of Squares Mean SquareRegression 1 20.956004 20.956004Residuals 20 1.382742 .069137F = 303.10787 Signif F = .0000- Variables in the Equation -Variable B SE B Beta

13、T Sig TTime .153837 .008836 .968556 17.410 .0000(Constant) 12.521790 1.751183 7.150 .0000The following new variables are being created: Name Label FIT_6 Fit for X4 from CURVEFIT, MOD_6 EXPONENTIAL1 new cases have been added.63二項Logistic 回歸適用于進行二分類因變量的影響因素分析用于控制混雜因素,描述自變量對因變量的獨立作用下的影響程度用于預(yù)測或判別分析與線性回歸

14、的不同之處被解釋變量為0/1二分類定性變量時,不適合線性回歸模型分析:被解釋變量取值范圍不一致殘差為二值離散型分布而非正態(tài)分布等方差性不再滿足二項Logistic回歸將yi=1的概率值直接擬合線性回歸模型:Py=1=0+ixi可對概率P值做變量變換,使之取值范圍為- +解釋變量與被解釋變量概率值的實際關(guān)系一般呈增長曲線發(fā)生比(Odds)=p/(1-p)Logit P轉(zhuǎn)換:ln() = ln(p/(1-p) = 0+ixii為解釋變量增加一個單位時, ln()的變化量經(jīng)變換,= exp(0+ixi)固定其他變量,研究變量x1的作用exp(i)稱為固定其他變量的作用時,變量xi增加一個單位引起的發(fā)

15、生比之比(Odds Ratio,OR).二項Logistic回歸-參數(shù)意義67最大似然估計法,通過最大化對數(shù)似然值(log likelihood)估計參數(shù)。最大似然估計法是一種迭代算法,它以一個預(yù)測估計值作為參數(shù)的初始值,根據(jù)算法確定能增大對數(shù)似然值的參數(shù)的方向和變動。估計了該初始函數(shù)后,對殘差進行檢驗并用改進的函數(shù)進行重新估計,直到收斂為止(即對數(shù)似然不再顯著變化)。二項Logistic回歸-參數(shù)估計-2 對數(shù)似然值(-2Log Likelihood,-2LL)似然(likelihood)即概率,反映該模型能較好地擬合樣本數(shù)據(jù)的可能性。對數(shù)似然值(log likelihood,LL)是它的自

16、然對數(shù)形式,取值在0 至-之間。對數(shù)似然值通過最大似然估計的迭代算法計算而得。LL最大為0,越大意味著回歸方程的擬合程度越好。因為數(shù)學(xué)上較方便,常計算-2LL。二項Logistic回歸-檢驗統(tǒng)計量比分檢驗(Score Test)以未包含某個(或幾個)參數(shù)的模型為基礎(chǔ),保留模型中參數(shù)的估計值,并假設(shè)新增加的參數(shù)為0,計算似然函數(shù)的一階偏導(dǎo)數(shù)及信息矩陣,二者乘積即為比分檢驗統(tǒng)計量S,樣本量大時,S服從卡方分布,比分檢驗結(jié)果一般與似然比檢驗一致。二項Logistic回歸-檢驗統(tǒng)計量回歸方程的顯著性檢驗 似然比卡方檢驗H0:各回歸系數(shù)同時為0檢驗統(tǒng)計量:似然比卡方服從近似卡方分布L0為解釋變量未引入方

17、程時的對數(shù)似然函數(shù)值, L為解釋變量引入方程后的對數(shù)似然函數(shù)值.71回歸方程的擬合優(yōu)度檢驗回歸方程能夠解釋的被解釋變量變異程度越高,擬合優(yōu)度越高.Cox & Snell R2統(tǒng)計量= 1-(L0/L)2/nNaglkerke R2= Cox & Snell R2/(1-(L0)2/n),取值01回歸方程預(yù)測值與實際值之間的吻合程度,總體預(yù)測準(zhǔn)確率越高,擬合優(yōu)度越高.錯判矩陣Hosmer-Lemeshow統(tǒng)計量服從n-2個自由度的卡方分布:當(dāng)自變量較多且多為連續(xù)性變量時殘差分析回歸系數(shù)的顯著性檢驗H0:i=0檢驗統(tǒng)計量:Wald統(tǒng)計量服從近似卡方分布Waldi=(i/Si)2Wald檢驗統(tǒng)計量的

18、缺點:它考慮因素的綜合作用,當(dāng)因素間存在多重共線性的時候,結(jié)果不可靠,較不宜于拒絕零假設(shè),使得本應(yīng)保留在方程中的變量未能保留。當(dāng)回歸系數(shù)很大時,Wald統(tǒng)計量存在一定偏差。73虛擬變量回歸虛擬變量(啞變量,dummy variable):對于模型中的分類自變量,如有序或無序多分類變量,其值間距離并不相等,因此不能用一個回歸系數(shù)表示其影響.必須轉(zhuǎn)化為虛擬變量參與分析如變量X分為K類,則生成K-1個虛擬變量原變量X新的啞變量VxaVxbA10B01C0074操作: AnalyzeRegression Binary LogisticDependent :二分類被解釋變量 Covariates :解釋變量Method :七種解釋變量篩選方法Enter 所有變量強制進入回歸方程Forward:向前逐步篩選法,變量進入方程依據(jù)Score比分檢驗統(tǒng)計量,變量剔除出方程依據(jù)有三: Backward:向后篩選法,變量剔除出方程依據(jù)有三: Conditional :條件參數(shù)估計原則下的似然比卡方LR :極大似然估計原則下的似然比卡方Wald: Wald 統(tǒng)計量Select按鈕

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論