浙大統(tǒng)計學(xué)專業(yè)回歸分析課件3_第1頁
浙大統(tǒng)計學(xué)專業(yè)回歸分析課件3_第2頁
浙大統(tǒng)計學(xué)專業(yè)回歸分析課件3_第3頁
浙大統(tǒng)計學(xué)專業(yè)回歸分析課件3_第4頁
浙大統(tǒng)計學(xué)專業(yè)回歸分析課件3_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第三章 回歸診斷 在實際中這些假定是否合理?如果實際數(shù)據(jù)與這些假設(shè)偏離比較大,那么前面討論的有關(guān)參數(shù)的區(qū)間估計,假設(shè)檢驗就不再成立。如果經(jīng)過分析,已經(jīng)確認(rèn)對所研究的具體數(shù)據(jù),上面的假設(shè)不成立,那么我們又希望探討對數(shù)據(jù)作怎樣的修正后,能使它們滿足或近似滿足這些假設(shè)。這些就是回歸診斷中所要解決的第一個問題。回歸診斷的另一個研究的問題是對數(shù)據(jù)的診斷,探查對統(tǒng)計推斷有較大影響的試驗點,這樣的點稱為強影響點。 3.1 殘差及殘差圖統(tǒng)計診斷的內(nèi)容和意義 我們所選擇的模型能不能大體上反映所要研究的實際問題?我們收集的數(shù)據(jù)會不會由于收集過程中的疏忽或其它種種原因而出現(xiàn)較大的誤差?這些錯誤數(shù)據(jù)會不會嚴(yán)重干擾我們

2、對實際問題所作的結(jié)論? 統(tǒng)計診斷是針對上述問題發(fā)展起來的一種分析方法。尋找一種診斷方法,判斷實際數(shù)據(jù)與既定模型是否有較大偏離,并采取相應(yīng)的對策是統(tǒng)計診斷的主要內(nèi)容。識別、判定和檢驗異常點。區(qū)分出對統(tǒng)計推斷影響特別大的點(影響分析)。殘差分析和殘差圖能用于研究既定模型與實際數(shù)據(jù)是否能很好擬合。其中包括:模型線性診斷、模型誤差方差齊性診斷、模型誤差獨立性診斷、模型誤差正態(tài)性診斷等。綜合以上所述回歸診斷有如下主要內(nèi)容:3.2 回歸診斷一(數(shù)據(jù)的診斷) (一)、統(tǒng)計診斷的兩個基本概念(1)異常點 在回歸模型中,異常點是指對既定模型偏離很大的數(shù)據(jù)點。但究竟偏離達(dá)到何種程度才算是異常,這就必須對模型誤差項

3、的分布有一定的假設(shè)(通常假定為正態(tài)分布)。 目前對異常點有以下兩種較為流行的看法:把異常點看成是那些與數(shù)據(jù)集的主體明顯不協(xié)調(diào),使得研究者大感驚訝的數(shù)據(jù)點。這時,異常點可解釋為所假定的分布中的極端點,即落在分布的單側(cè)或雙側(cè)分位點以外的點,而通常取很小的值(如:0.005 ),致使觀察者對數(shù)據(jù)中出現(xiàn)如此極端的點感到意外。(2)強影響點 數(shù)據(jù)集中的強影響點是指那些對統(tǒng)計量的取值有非常大的影響力的點。在考慮強影響點時,有幾個基本問題需要考慮:首先必須明確“是對哪個統(tǒng)計量的影響?”例如,線性回歸模型所考慮的是對回歸系數(shù)的估計量的影響;不是對誤差方差的估計影響;或是對擬合優(yōu)度統(tǒng)計量的影響等等。分析目標(biāo)不同

4、,所考慮的影響亦有所不同。其次,必須確定“度量影響的尺度是什么?”為了定量地刻劃影響的大小,迄今為止已提出多種尺度,基于置信域的尺度,基于似然函數(shù)的尺度等等。在每一種類型中又可能有不同的統(tǒng)計量,例如基于影響函數(shù)就已提出多種“距離”來度量影響,有Cook距離、Welsch - Kuh距離、Welsch距離等等。每一種度量都是著眼于某一方面的影響,并在某種具體場合下較為有效。這一方面反映了度量影響問題的復(fù)雜性,另一方面也說明了影響分析的研究在統(tǒng)計診斷中是一個甚為活躍的方向,還有大量有待解決的問題。強影響點通常是數(shù)據(jù)集中更為重要的數(shù)據(jù)點,它往往能提供比一般數(shù)據(jù)點更多的信息,因此需引起特別注意。強影響

5、點和異常點是兩個不同的概念,它們之間既有聯(lián)系也有區(qū)別。強影響點可能同時又是異常點也可能不是;反之,異常點可能同時又是強影響點也可能不是。(二)、影響分析3.3 回歸診斷二(模型的診斷)(2)模型修正 為了修改模型,我們再作以 為橫坐標(biāo)的殘差圖模型修改后的預(yù)測值及殘差模型修改后的殘差圖誤差方差齊性診斷三、誤差的獨立性診斷在不少有關(guān)時間問題中,觀測值往往呈相關(guān)的趨勢。如河流的水位總有一個變化過程,當(dāng)一場暴雨使河流水位上漲后往往需要幾天才能使水位降低,因而當(dāng)我們逐日測定河流最高水位時,相鄰兩天的觀測間就不一定獨立。四、誤差的正態(tài)性診斷回歸診斷在SAS上的實現(xiàn)用語句plot r.*p. (r是resi

6、dual的縮寫,p是predicted的縮寫)可以作殘差r相對于擬合值p之間的散點圖。如果此散點圖在0水平線上下均勻散布,且對p沒有趨向性,則可認(rèn)為 滿足方差齊性假設(shè)、且認(rèn)為回歸函數(shù)線性假設(shè)合理。model y=x/dw r; 選項里加上dw表示計算DW檢驗的值。 r表示計算學(xué)生化殘差,并計算Cook距離,若Cook距離相對較大,則課認(rèn)為是強影響點。若學(xué)生化殘差的絕對值大于2,則可認(rèn)為是異常點。從學(xué)生化殘差也可判斷誤差的正態(tài)性假設(shè)是否滿足。例子. 給10只大白鼠注射內(nèi)霉素(30mg/kg)后,測得每只大鼠紅細(xì)胞x與血紅蛋白含量Y數(shù)據(jù)(見下頁SAS文件),試對X和Y進(jìn)行回歸分析。data mou

7、se;input x y;cards;654 130786 168667 143605 130 761 158642 129 652 151706 153602 151539 109;proc reg;model y=x;run;proc reg;model y=x/noint dw r cli clm;plot r.*p.;run;殘差圖誤差的獨立性診斷第九個為異常點、強影響點 Output Statistics Std Error Student Cooks Obs Residual Residual -2-1 0 1 2 D 1 9.279 -1.129 | *| | 0.136 2 9.056 -0.0913 | | | 0.001 3 9.259 -0.0288 | | | 0.000 4 9.350 0.00543 | | | 0.000 5 9.101 -0.600 | *| | 0.054 6 9.297 -0.957 | *| | 0.094 7 9.282 1.180 | |* | 0.148 8 9.196 0.148 | | | 0.003 9 9.354 2.319 | |* | 0.480 10 9.43

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論