地理加權回歸(GWR)ppt課件_第1頁
地理加權回歸(GWR)ppt課件_第2頁
地理加權回歸(GWR)ppt課件_第3頁
地理加權回歸(GWR)ppt課件_第4頁
地理加權回歸(GWR)ppt課件_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、12基本框架普通線性回歸模型及估計普通線性回歸模型及估計OLS工作的基本原理解釋OLS結果GWRGWR提出的背景及意義提出的背景及意義地理加權回歸模型及估計地理加權回歸模型及估計權函數選擇權函數寬帶優(yōu)化診斷工具膀胱癌死亡率實例膀胱癌死亡率實例3OLS工作的基本原理在我們國家是否有持續(xù)發(fā)生年輕人早逝的地方?哪里為犯罪或火災的高發(fā)地點?城市中哪里的交通事故發(fā)生率比預期的要高?在實際工作中,我們可能會遇到以下類似的問題4911緊急呼叫數據的分析結果,顯示了呼叫熱點(紅色)、呼叫冷點(藍色)以及負責事故處理的消防和警察分隊的位置(綠色十字)可以通過熱點分析的方法弄清以上問題5對于上面的每一個問題都詢問

2、了“where”,但是我們自然會想到“why”為什么國家會存在持續(xù)發(fā)生年輕人早逝的地方?是什么導致了這種情況?我們能否對犯罪、911呼叫或火災頻發(fā)地區(qū)的特征進行建模,以幫助減少這些事件的發(fā)生?導致交通事故發(fā)生率比預期要高的因素有哪些,有沒有相關政策或者措施來減少整個城市或特定事故高發(fā)區(qū)的交通事故?6通過回歸分析,我們可以對空間關系進行建模、檢查和探究,通過回歸分析,我們可以對空間關系進行建模、檢查和探究,還可以解釋所觀測到的空間模式背后的諸多因素。還可以解釋所觀測到的空間模式背后的諸多因素。例如分析有些地區(qū)為什么會持續(xù)發(fā)生年輕人早逝或者糖尿病的發(fā)病率比預期的要高。通過空間關系建模,對這些現象進

3、行預測。通過空間關系建模,對這些現象進行預測。例如,對影響大學生畢業(yè)率的因素進行建模,可以對近期的勞動力技能和資源進行預測;因為監(jiān)測站數量不足而無法進行充分插值的情況下(沿山脊地區(qū)和山谷內,雨量計通常會短缺),可以用回歸法來預測這些地區(qū)的降雨量或者是空氣質量。7使用回歸分析的主要原因1.1.對某一現象建模,測量一個或多個變量的變化對另一變量變對某一現象建模,測量一個或多個變量的變化對另一變量變化的影響程度?;挠绊懗潭取@?,了解某些特定瀕危鳥類的主要棲息地特征(降水,食物源、植被、天敵),以協(xié)助通過立法來保護該物種。2.2.對某種現象建模以預測其他地點或其他時間的數值,構建一對某種現象建模以

4、預測其他地點或其他時間的數值,構建一個持續(xù)準確的預測模型。個持續(xù)準確的預測模型。例如,如果已知人口增長情況和典型的天氣狀況,那么明年的用電量將會是多少?3.3.深入探索某些假設情況。深入探索某些假設情況。假設您正在對住宅區(qū)的犯罪活動進行建模,以更好的了解犯罪活動并希望實施可能阻止犯罪活動的策略,開始分析時,就會有很多問題或想要檢驗的假設情況:1).“破窗理論”表明公共財產的破壞(涂鴉、被毀壞的建筑物等)可招致其他犯罪行為,破壞財產行為與入世盜竊之間是否存在正關系?2).非法使用毒品與盜竊行為之間存在某種關系嗎(吸毒成癮的人又可能通過偷取財物來維持他們吸毒的習慣嗎)?8OLS回歸方程91.遺漏自

5、變量遺漏自變量:如果模型中丟失了關鍵的自變量,其系數和相應的關聯P值將不可信。通過映射并檢查OLS殘差和GWR系數或對回歸殘差進行熱點分析,找出可能缺失的變量。2.非線性關系非線性關系:OLS和GWR都是線性方法,如果任一自變量與因變量之間的關系存在非線性關系,則獲得的模型質量不佳。通過創(chuàng)建散點圖矩陣來了解模型中所有自變量之間的關系。3.數據異常值數據異常值:影響大的異常值可以使模型化的回歸關系背離最佳擬合,從而使回歸系數發(fā)生偏差。通過創(chuàng)建散點圖來檢驗數據的極值,如果異常值存在,則進行修正或者移除。如果異常值正確或者有效則不能將其移除,需要對有異常值和沒有異常值的情況下分別進行回歸,查看這兩種

6、情況對結果的影響程度?;貧w模型中常見的問題104.不穩(wěn)定性不穩(wěn)定性:一個輸入變量在區(qū)域A中具有很強的解釋能力,但是在區(qū)域B中卻不顯著。如果因變量與自變量之間的關系在研究區(qū)域內不一致,將人為地擴大計算出的標準誤差。用Koenker測試關聯的概率很小時,區(qū)域變化具有統(tǒng)計顯著性。(地理加權回歸改進)115.多重共線性:多重共線性:一個自變量或多個自變量的組合冗余。多重共線性可導致模型不穩(wěn)定,不可靠??梢酝ㄟ^OLS工具自動檢測冗余,每個自變量都被給定一個計算出的VIF值,當這個值很大時,冗余便成了問題,通過創(chuàng)建交互變量或增大采樣間隔從模型中移除沖突變量或對其進行修改。126.殘差的方差不一致殘差的方差

7、不一致:對于較小的因變量值,模型的預測效果較好,但對于較大的因變量值,模型的預測值變得不可靠。7.空間自相關殘差空間自相關殘差:注意模型偏低預計值(紅色)出現空間聚類的方式。殘差(模型的偏低預計值和偏高預計值)在統(tǒng)計學上的顯著空間聚類表明模型缺失關鍵的因變量,可以使用空間自相關工具來確定模型殘差的空間聚類是否有統(tǒng)計學上的顯著性。138.正態(tài)分布偏差:正態(tài)分布偏差:當回歸模型殘差不服從均值為0的正態(tài)分布時,與系數關聯的P值將變得不可靠。可以用OLS工具自動檢查殘差是否服從正態(tài)分布。當Jarque-Bera統(tǒng)計量顯著(0.05)時,很可能錯誤選定了模型或對其建模的關系為非線性。通過殘差圖和GWR系

8、數圖來檢查是否缺少關鍵變量,查看散點矩陣圖尋找非線性關系。14解釋OLS結果15(1)評估模型性能。)評估模型性能。R 平方的倍數和校正 R 平方值都可以用來測量模型性能。取值范圍從 0.0 - 1.0。由于“校正 R 平方”值與數據相關,更能準確地測量出模型性能,能夠反映模型的復雜性,因此“校正 R 平方”值始終要比“R 平方的倍數”值略小。為模型額外添加一個解釋變量可能會增大“R 平方的倍數”值,但可能會減小“校正的 R 平方”值。假設正在創(chuàng)建一個入室盜竊(與每個人口普查區(qū)塊相關的入室盜竊數量為因變量,y)的回歸模型。如果“校正 R 平方”值為 0.84,則表示該模型(使用線性回歸建模的解

9、釋變量)可解釋因變量中大約 84% 的變化。使用 R 平方值量化模型性能16(2)評估模型中的每一個解釋變量:系數、概率、穩(wěn)健概評估模型中的每一個解釋變量:系數、概率、穩(wěn)健概率和方差膨脹因子率和方差膨脹因子 (VIF)。系數系數反映它與因變量之間關系的強度,以及它們之間的關系類型。當系數為負時,表明自變量與因變量負相關。當系數為正號時,自變量與因變量為正相關。概率或穩(wěn)健概率(概率或穩(wěn)健概率(p 值)值)P值很小時,系數實際為零的幾率也會很小。如果 Koenker 測試(見下圖)具有統(tǒng)計學上的顯著性,應使用穩(wěn)健概率來評估自變量的統(tǒng)計學顯著性。對于具有統(tǒng)計學上顯著性的概率,其旁邊帶有一個星號 (*

10、)。VIF 測量自變量中的冗余。一般來說,與大于 7.5 的 VIF 值關聯的自變量應逐一從回歸模型中移除。17(3)評估模型是否具有顯著性。評估模型是否具有顯著性。聯合聯合 F F 統(tǒng)計量統(tǒng)計量(聯合卡方統(tǒng)計量聯合卡方統(tǒng)計量)用于測量整個模型的統(tǒng)計學顯著性。只有在 Koenker (BP) 統(tǒng)計量(見下圖)不具有統(tǒng)計學上的顯著性時,“聯合 F 統(tǒng)計量”才可信。如果 Koenker (BP) 統(tǒng)計量具有顯著性,應參考“聯合卡方統(tǒng)計量”來確定整個模型的顯著性。對于大小為 95% 的置信度,p 值(概率)小于 0.05 表示模型具有統(tǒng)計學上的顯著性。18(4)評估穩(wěn)定性。評估穩(wěn)定性。Koenker

11、 (BP) 統(tǒng)計量統(tǒng)計量(Koenker 的標準化 Breusch-Pagan 統(tǒng)計量)是一種測試,用于確定模型的自變量是否在地理空間和數據空間中都與因變量具有一致的關系。如果模型在地理空間中一致,由自變量表示的空間進程在研究區(qū)域各位置處的行為也將一致。如果模型在數據空間中一致,則預測值與每個自變量之間關系的變化不會隨自變量值(模型沒有異方差性)的變化而變化。該測試的零假設測試模型穩(wěn)定性。對于大小為 95% 的置信度,p 值(概率)小于 0.05 表示模型具有統(tǒng)計學上的顯著異方差性和/或不穩(wěn)定性。如果該測試的結果具有統(tǒng)計學上的顯著性,需參考穩(wěn)健系數標準差和概率來評估每個解釋變量的效果。具有統(tǒng)計

12、學上顯著不穩(wěn)定性的回歸模型通常很適合進行地理加權回歸 分析。19(5)評估模型偏差。評估模型偏差。Jarque-Bera統(tǒng)計量用于指示統(tǒng)計量用于指示殘差殘差是否呈正態(tài)分布是否呈正態(tài)分布。該測試的零假設為殘差呈正態(tài)分布。因此,如果為這些殘差建立直方圖,這些殘差的分布將高斯分布相似。當該測試的 p 值(概率)較?。ɡ?,對于大小為 95% 的置信度,其值小于 0.05)時,回歸不會呈正態(tài)分布,并指示您的模型有偏差。20(6)評估殘差空間自相關。評估殘差空間自相關。對回歸殘差運行對回歸殘差運行空間自相關空間自相關(Morans I) 可確?;貧w殘差在空間上隨機分布。高殘差和/或低殘差(模型偏高預計值

13、和偏低預計值)在統(tǒng)計學上的顯著聚類表明模型中的某個關鍵變量缺失了。當錯誤指定了模型時,OLS 結果不可信。21GWR提出的背景和意義在空間分析(Spatial analysis)中,變量的觀測值(數據)一般都是按照某給定的地理單位為抽樣單位得到的,隨著地理位置的變化,變量間的關系或者結構會發(fā)生變化,這種因地理位置的變化而引起的變量間關系或結構的變化稱之為空間非平穩(wěn)性(spatial nonstationarity)。這種空間非平穩(wěn)性普遍存在在空間數據中,如果采用通常的線性回歸模型或莫伊特定形式的非線性回歸函數來分析空間數據,一般很難得到滿意的結果,因為全局模型(global model)在分析

14、之前就假定了變量間的關系具有同質性(homogeneity),從而掩蓋了變量間關系的局部特性,所得結果也只有研究區(qū)域內的某種“平均”,因此需要對傳統(tǒng)的分析方法進行改進。22改進方法改進方法采用局部回歸分析,根據回歸區(qū)域的不同可以分為分區(qū)回歸和移動窗口回歸。變參數回歸模型。全局模型中的參數是地理位置的某種函數,從而參數在空間中的變化趨勢就可以被度量出來。但是這兩種模型都沒有充分考慮數據的空間結構,就有了GWR的提出。在總結前人局部回歸分析和變參數研究的基礎上,Fortheringham等人(1996)基于局部光滑的思想,提出了地理加權回歸(Geographically Weighted Regr

15、ession )模型,將數據的空間位置嵌入到回歸參數中,利用局部加權最小二乘方法進行逐點參數估計,其中權是回歸點所在的地理空間位置到其他各觀測點的地理空間位置之間的距離函數。23地理加權回歸模型地理加權回歸模型是對普通線性回歸模型的擴展,將數據的地理位置嵌入到回歸參數中,即:這里的 為第i個采樣點的坐標(如經緯度), 是第i個采樣點上的第k個回歸參數,是地理位置的函數。簡便記為:24空間權函數的選擇地理加權回歸模型的核心是空間權重矩陣,它是通過選取不同的空間權函數來表達對數據久安空間關系的不同認識。空間權函數的正確選取對地理加權回歸模型參數的正確估計非常重要,介紹常用的幾種空間全函數。1.距離

16、閾值法252.距離反比法3.Gauss函數法264.截尾型函數法27權函數寬帶優(yōu)化在實際應用中我們發(fā)現,地理加權回歸分析對Gauss函數和bi-square函數的選擇并不是很敏感,但是對特定權函數的寬帶卻很敏感,寬帶過大回歸參數估計的偏差過大,寬帶過小又會導致回歸參數估計的方差過大,那么如何選擇一個合適的寬帶呢?1.交叉驗證法(CV)282.AIC準則29診斷工具(Diagnostic Tools)1.1.空間自相關性(空間自相關性(AutocorrelationAutocorrelation)Morans I和Gearys c2.2.共線性共線性容許度(Tolerance):越接近1,共線性

17、越小。方差膨脹因子(VIF):容許度的倒數,越接近1,共線性越小。條件指標(Condition Index):10以下多重共線性較弱,100以上存在嚴重的共線性。方差比例(Variance Proportion):同一特征值序號上的兩個或者多個系數的方差比例較大,共線性越強。30膀胱癌死亡率實例膀胱癌死亡率實例實驗數據實驗數據研究區(qū)域研究區(qū)域:美國本土的506個經濟發(fā)展區(qū)膀胱癌死亡率數據膀胱癌死亡率數據:國際癌癥研究所Atlas癌癥死亡率,1970-1994年,年齡標準化死亡率(每年每10萬人)肺癌死亡率肺癌死亡率:1954-1969年,年齡標準化死亡率數局人口密度人口密度:取每年人口密度的自

18、然對數31普通線性回歸模型分析 32GWR模型分析現在回歸系數根據經濟發(fā)展區(qū)變化而變化,通過交叉驗證(VC),GWR核函數的波段寬度的估計為1.27。擬合系數變?yōu)?.52,提高了擬合精度。估計的系數展現出一種明顯的變化,在一些地區(qū)出現了違反直覺的負相關關系,肺癌和人口密度都是,而且人口密度的負相關更加明顯。33Wheeler等人用散點圖估計系數之間的相關性。 34對回歸系數進一步探索他們之間的獨立性,方差比例和條件指數作為診斷工具。在506個SEA中,13個SEA的狀態(tài)指數大于30,85個的條件指數要大于20,500個的條件指數大于10。436個方差比例大于0.5,在這些最大方差比例中,又有431個的條件指數大于10??傮w來說,方差變異分解和條件指數在一定程度上說明了局部共線性的存在。35另外通過總結,可以分析相關性具體位于哪個位置上。一個條件指數和方差比例的平行坐標圖,一個條件指數的直方圖。在最大條件指數下的30個SEAs的選擇集被高亮顯示。在相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論