地理加權(quán)回歸(GWR)_第1頁(yè)
地理加權(quán)回歸(GWR)_第2頁(yè)
地理加權(quán)回歸(GWR)_第3頁(yè)
地理加權(quán)回歸(GWR)_第4頁(yè)
地理加權(quán)回歸(GWR)_第5頁(yè)
已閱讀5頁(yè),還剩34頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

地理加權(quán)回歸(GWR)2012年12月24日1精選可編輯ppt基本框架普通線性回歸模型及估計(jì)OLS工作的基本原理解釋OLS結(jié)果GWR提出的背景及意義地理加權(quán)回歸模型及估計(jì)權(quán)函數(shù)選擇權(quán)函數(shù)寬帶優(yōu)化診斷工具膀胱癌死亡率實(shí)例2精選可編輯pptOLS工作的基本原理在我們國(guó)家是否有持續(xù)發(fā)生年輕人早逝的地方?哪里為犯罪或火災(zāi)的高發(fā)地點(diǎn)?城市中哪里的交通事故發(fā)生率比預(yù)期的要高?……在實(shí)際工作中,我們可能會(huì)遇到以下類似的問(wèn)題3精選可編輯ppt911緊急呼叫數(shù)據(jù)的分析結(jié)果,顯示了呼叫熱點(diǎn)(紅色)、呼叫冷點(diǎn)(藍(lán)色)以及負(fù)責(zé)事故處理的消防和警察分隊(duì)的位置(綠色十字)可以通過(guò)熱點(diǎn)分析的方法弄清以上問(wèn)題4精選可編輯ppt對(duì)于上面的每一個(gè)問(wèn)題都詢問(wèn)了“where”,但是我們自然會(huì)想到“why”為什么國(guó)家會(huì)存在持續(xù)發(fā)生年輕人早逝的地方?是什么導(dǎo)致了這種情況?我們能否對(duì)犯罪、911呼叫或火災(zāi)頻發(fā)地區(qū)的特征進(jìn)行建模,以幫助減少這些事件的發(fā)生?導(dǎo)致交通事故發(fā)生率比預(yù)期要高的因素有哪些,有沒(méi)有相關(guān)政策或者措施來(lái)減少整個(gè)城市或特定事故高發(fā)區(qū)的交通事故?5精選可編輯ppt通過(guò)回歸分析,我們可以對(duì)空間關(guān)系進(jìn)行建模、檢查和探究,還可以解釋所觀測(cè)到的空間模式背后的諸多因素。例如分析有些地區(qū)為什么會(huì)持續(xù)發(fā)生年輕人早逝或者糖尿病的發(fā)病率比預(yù)期的要高。通過(guò)空間關(guān)系建模,對(duì)這些現(xiàn)象進(jìn)行預(yù)測(cè)。例如,對(duì)影響大學(xué)生畢業(yè)率的因素進(jìn)行建模,可以對(duì)近期的勞動(dòng)力技能和資源進(jìn)行預(yù)測(cè);因?yàn)楸O(jiān)測(cè)站數(shù)量不足而無(wú)法進(jìn)行充分插值的情況下(沿山脊地區(qū)和山谷內(nèi),雨量計(jì)通常會(huì)短缺),可以用回歸法來(lái)預(yù)測(cè)這些地區(qū)的降雨量或者是空氣質(zhì)量。6精選可編輯ppt使用回歸分析的主要原因1.對(duì)某一現(xiàn)象建模,測(cè)量一個(gè)或多個(gè)變量的變化對(duì)另一變量變化的影響程度。例如,了解某些特定瀕危鳥(niǎo)類的主要棲息地特征(降水,食物源、植被、天敵),以協(xié)助通過(guò)立法來(lái)保護(hù)該物種。2.對(duì)某種現(xiàn)象建模以預(yù)測(cè)其他地點(diǎn)或其他時(shí)間的數(shù)值,構(gòu)建一個(gè)持續(xù)準(zhǔn)確的預(yù)測(cè)模型。例如,如果已知人口增長(zhǎng)情況和典型的天氣狀況,那么明年的用電量將會(huì)是多少?3.深入探索某些假設(shè)情況。假設(shè)您正在對(duì)住宅區(qū)的犯罪活動(dòng)進(jìn)行建模,以更好的了解犯罪活動(dòng)并希望實(shí)施可能阻止犯罪活動(dòng)的策略,開(kāi)始分析時(shí),就會(huì)有很多問(wèn)題或想要檢驗(yàn)的假設(shè)情況:1).“破窗理論”表明公共財(cái)產(chǎn)的破壞(涂鴉、被毀壞的建筑物等)可招致其他犯罪行為,破壞財(cái)產(chǎn)行為與入世盜竊之間是否存在正關(guān)系?2).非法使用毒品與盜竊行為之間存在某種關(guān)系嗎(吸毒成癮的人又可能通過(guò)偷取財(cái)物來(lái)維持他們吸毒的習(xí)慣嗎)?7精選可編輯pptOLS回歸方程8精選可編輯ppt1.遺漏自變量:如果模型中丟失了關(guān)鍵的自變量,其系數(shù)和相應(yīng)的關(guān)聯(lián)P值將不可信。通過(guò)映射并檢查OLS殘差和GWR系數(shù)或?qū)貧w殘差進(jìn)行熱點(diǎn)分析,找出可能缺失的變量。2.非線性關(guān)系:OLS和GWR都是線性方法,如果任一自變量與因變量之間的關(guān)系存在非線性關(guān)系,則獲得的模型質(zhì)量不佳。通過(guò)創(chuàng)建散點(diǎn)圖矩陣來(lái)了解模型中所有自變量之間的關(guān)系。3.數(shù)據(jù)異常值:影響大的異常值可以使模型化的回歸關(guān)系背離最佳擬合,從而使回歸系數(shù)發(fā)生偏差。通過(guò)創(chuàng)建散點(diǎn)圖來(lái)檢驗(yàn)數(shù)據(jù)的極值,如果異常值存在,則進(jìn)行修正或者移除。如果異常值正確或者有效則不能將其移除,需要對(duì)有異常值和沒(méi)有異常值的情況下分別進(jìn)行回歸,查看這兩種情況對(duì)結(jié)果的影響程度?;貧w模型中常見(jiàn)的問(wèn)題9精選可編輯ppt4.不穩(wěn)定性:一個(gè)輸入變量在區(qū)域A中具有很強(qiáng)的解釋能力,但是在區(qū)域B中卻不顯著。如果因變量與自變量之間的關(guān)系在研究區(qū)域內(nèi)不一致,將人為地?cái)U(kuò)大計(jì)算出的標(biāo)準(zhǔn)誤差。用Koenker測(cè)試關(guān)聯(lián)的概率很小時(shí),區(qū)域變化具有統(tǒng)計(jì)顯著性。(地理加權(quán)回歸改進(jìn))10精選可編輯ppt5.多重共線性:一個(gè)自變量或多個(gè)自變量的組合冗余。多重共線性可導(dǎo)致模型不穩(wěn)定,不可靠??梢酝ㄟ^(guò)OLS工具自動(dòng)檢測(cè)冗余,每個(gè)自變量都被給定一個(gè)計(jì)算出的VIF值,當(dāng)這個(gè)值很大時(shí),冗余便成了問(wèn)題,通過(guò)創(chuàng)建交互變量或增大采樣間隔從模型中移除沖突變量或?qū)ζ溥M(jìn)行修改。11精選可編輯ppt6.殘差的方差不一致:對(duì)于較小的因變量值,模型的預(yù)測(cè)效果較好,但對(duì)于較大的因變量值,模型的預(yù)測(cè)值變得不可靠。7.空間自相關(guān)殘差:注意模型偏低預(yù)計(jì)值(紅色)出現(xiàn)空間聚類的方式。殘差(模型的偏低預(yù)計(jì)值和偏高預(yù)計(jì)值)在統(tǒng)計(jì)學(xué)上的顯著空間聚類表明模型缺失關(guān)鍵的因變量,可以使用空間自相關(guān)工具來(lái)確定模型殘差的空間聚類是否有統(tǒng)計(jì)學(xué)上的顯著性。12精選可編輯ppt8.正態(tài)分布偏差:當(dāng)回歸模型殘差不服從均值為0的正態(tài)分布時(shí),與系數(shù)關(guān)聯(lián)的P值將變得不可靠??梢杂肙LS工具自動(dòng)檢查殘差是否服從正態(tài)分布。當(dāng)Jarque-Bera統(tǒng)計(jì)量顯著(<0.05)時(shí),很可能錯(cuò)誤選定了模型或?qū)ζ浣5年P(guān)系為非線性。通過(guò)殘差圖和GWR系數(shù)圖來(lái)檢查是否缺少關(guān)鍵變量,查看散點(diǎn)矩陣圖尋找非線性關(guān)系。13精選可編輯ppt解釋OLS結(jié)果14精選可編輯ppt(1)評(píng)估模型性能。R平方的倍數(shù)和校正R平方值都可以用來(lái)測(cè)量模型性能。取值范圍從0.0-

1.0。由于“校正R平方”值與數(shù)據(jù)相關(guān),更能準(zhǔn)確地測(cè)量出模型性能,能夠反映模型的復(fù)雜性,因此“校正R平方”值始終要比“R平方的倍數(shù)”值略小。為模型額外添加一個(gè)解釋變量可能會(huì)增大“R平方的倍數(shù)”值,但可能會(huì)減小“校正的R平方”值。假設(shè)正在創(chuàng)建一個(gè)入室盜竊(與每個(gè)人口普查區(qū)塊相關(guān)的入室盜竊數(shù)量為因變量,y)的回歸模型。如果“校正R平方”值為0.84,則表示該模型(使用線性回歸建模的解釋變量)可解釋因變量中大約84%的變化。使用R平方值量化模型性能15精選可編輯ppt(2)評(píng)估模型中的每一個(gè)解釋變量:系數(shù)、概率、穩(wěn)健概率和方差膨脹因子(VIF)。系數(shù)——反映它與因變量之間關(guān)系的強(qiáng)度,以及它們之間的關(guān)系類型。當(dāng)系數(shù)為負(fù)時(shí),表明自變量與因變量負(fù)相關(guān)。當(dāng)系數(shù)為正號(hào)時(shí),自變量與因變量為正相關(guān)。概率或穩(wěn)健概率(p值)——P值很小時(shí),系數(shù)實(shí)際為零的幾率也會(huì)很小。如果Koenker測(cè)試(見(jiàn)下圖)具有統(tǒng)計(jì)學(xué)上的顯著性,應(yīng)使用穩(wěn)健概率來(lái)評(píng)估自變量的統(tǒng)計(jì)學(xué)顯著性。對(duì)于具有統(tǒng)計(jì)學(xué)上顯著性的概率,其旁邊帶有一個(gè)星號(hào)(*)。VIF——測(cè)量自變量中的冗余。一般來(lái)說(shuō),與大于7.5的VIF值關(guān)聯(lián)的自變量應(yīng)逐一從回歸模型中移除。16精選可編輯ppt(3)評(píng)估模型是否具有顯著性。聯(lián)合F統(tǒng)計(jì)量(聯(lián)合卡方統(tǒng)計(jì)量)用于測(cè)量整個(gè)模型的統(tǒng)計(jì)學(xué)顯著性。只有在Koenker(BP)統(tǒng)計(jì)量(見(jiàn)下圖)不具有統(tǒng)計(jì)學(xué)上的顯著性時(shí),“聯(lián)合F統(tǒng)計(jì)量”才可信。如果Koenker(BP)統(tǒng)計(jì)量具有顯著性,應(yīng)參考“聯(lián)合卡方統(tǒng)計(jì)量”來(lái)確定整個(gè)模型的顯著性。對(duì)于大小為95%的置信度,p值(概率)小于0.05表示模型具有統(tǒng)計(jì)學(xué)上的顯著性。17精選可編輯ppt(4)評(píng)估穩(wěn)定性。Koenker(BP)統(tǒng)計(jì)量(Koenker的標(biāo)準(zhǔn)化Breusch-Pagan統(tǒng)計(jì)量)是一種測(cè)試,用于確定模型的自變量是否在地理空間和數(shù)據(jù)空間中都與因變量具有一致的關(guān)系。如果模型在地理空間中一致,由自變量表示的空間進(jìn)程在研究區(qū)域各位置處的行為也將一致。如果模型在數(shù)據(jù)空間中一致,則預(yù)測(cè)值與每個(gè)自變量之間關(guān)系的變化不會(huì)隨自變量值(模型沒(méi)有異方差性)的變化而變化。該測(cè)試的零假設(shè)測(cè)試模型穩(wěn)定性。對(duì)于大小為95%的置信度,p值(概率)小于0.05表示模型具有統(tǒng)計(jì)學(xué)上的顯著異方差性和/或不穩(wěn)定性。如果該測(cè)試的結(jié)果具有統(tǒng)計(jì)學(xué)上的顯著性,需參考穩(wěn)健系數(shù)標(biāo)準(zhǔn)差和概率來(lái)評(píng)估每個(gè)解釋變量的效果。具有統(tǒng)計(jì)學(xué)上顯著不穩(wěn)定性的回歸模型通常很適合進(jìn)行地理加權(quán)回歸

分析。18精選可編輯ppt(5)評(píng)估模型偏差。Jarque-Bera統(tǒng)計(jì)量用于指示殘差是否呈正態(tài)分布。該測(cè)試的零假設(shè)為殘差呈正態(tài)分布。因此,如果為這些殘差建立直方圖,這些殘差的分布將高斯分布相似。當(dāng)該測(cè)試的p值(概率)較小(例如,對(duì)于大小為95%的置信度,其值小于0.05)時(shí),回歸不會(huì)呈正態(tài)分布,并指示您的模型有偏差。19精選可編輯ppt(6)評(píng)估殘差空間自相關(guān)。對(duì)回歸殘差運(yùn)行空間自相關(guān)(Moran‘sI)

可確?;貧w殘差在空間上隨機(jī)分布。高殘差和/或低殘差(模型偏高預(yù)計(jì)值和偏低預(yù)計(jì)值)在統(tǒng)計(jì)學(xué)上的顯著聚類表明模型中的某個(gè)關(guān)鍵變量缺失了。當(dāng)錯(cuò)誤指定了模型時(shí),OLS結(jié)果不可信。20精選可編輯pptGWR提出的背景和意義在空間分析(Spatialanalysis)中,變量的觀測(cè)值(數(shù)據(jù))一般都是按照某給定的地理單位為抽樣單位得到的,隨著地理位置的變化,變量間的關(guān)系或者結(jié)構(gòu)會(huì)發(fā)生變化,這種因地理位置的變化而引起的變量間關(guān)系或結(jié)構(gòu)的變化稱之為空間非平穩(wěn)性(spatialnonstationarity)。這種空間非平穩(wěn)性普遍存在在空間數(shù)據(jù)中,如果采用通常的線性回歸模型或莫伊特定形式的非線性回歸函數(shù)來(lái)分析空間數(shù)據(jù),一般很難得到滿意的結(jié)果,因?yàn)槿帜P停╣lobalmodel)在分析之前就假定了變量間的關(guān)系具有同質(zhì)性(homogeneity),從而掩蓋了變量間關(guān)系的局部特性,所得結(jié)果也只有研究區(qū)域內(nèi)的某種“平均”,因此需要對(duì)傳統(tǒng)的分析方法進(jìn)行改進(jìn)。21精選可編輯ppt改進(jìn)方法①采用局部回歸分析,根據(jù)回歸區(qū)域的不同可以分為分區(qū)回歸和移動(dòng)窗口回歸。②變參數(shù)回歸模型。全局模型中的參數(shù)是地理位置的某種函數(shù),從而參數(shù)在空間中的變化趨勢(shì)就可以被度量出來(lái)。但是這兩種模型都沒(méi)有充分考慮數(shù)據(jù)的空間結(jié)構(gòu),就有了GWR的提出。在總結(jié)前人局部回歸分析和變參數(shù)研究的基礎(chǔ)上,F(xiàn)ortheringham等人(1996)基于局部光滑的思想,提出了地理加權(quán)回歸(GeographicallyWeightedRegression)模型,將數(shù)據(jù)的空間位置嵌入到回歸參數(shù)中,利用局部加權(quán)最小二乘方法進(jìn)行逐點(diǎn)參數(shù)估計(jì),其中權(quán)是回歸點(diǎn)所在的地理空間位置到其他各觀測(cè)點(diǎn)的地理空間位置之間的距離函數(shù)。22精選可編輯ppt地理加權(quán)回歸模型地理加權(quán)回歸模型是對(duì)普通線性回歸模型的擴(kuò)展,將數(shù)據(jù)的地理位置嵌入到回歸參數(shù)中,即:這里的為第i個(gè)采樣點(diǎn)的坐標(biāo)(如經(jīng)緯度),是第i個(gè)采樣點(diǎn)上的第k個(gè)回歸參數(shù),是地理位置的函數(shù)。簡(jiǎn)便記為:23精選可編輯ppt空間權(quán)函數(shù)的選擇地理加權(quán)回歸模型的核心是空間權(quán)重矩陣,它是通過(guò)選取不同的空間權(quán)函數(shù)來(lái)表達(dá)對(duì)數(shù)據(jù)久安空間關(guān)系的不同認(rèn)識(shí)??臻g權(quán)函數(shù)的正確選取對(duì)地理加權(quán)回歸模型參數(shù)的正確估計(jì)非常重要,介紹常用的幾種空間全函數(shù)。1.距離閾值法24精選可編輯ppt2.距離反比法3.Gauss函數(shù)法25精選可編輯ppt4.截尾型函數(shù)法26精選可編輯ppt權(quán)函數(shù)寬帶優(yōu)化在實(shí)際應(yīng)用中我們發(fā)現(xiàn),地理加權(quán)回歸分析對(duì)Gauss函數(shù)和bi-square函數(shù)的選擇并不是很敏感,但是對(duì)特定權(quán)函數(shù)的寬帶卻很敏感,寬帶過(guò)大回歸參數(shù)估計(jì)的偏差過(guò)大,寬帶過(guò)小又會(huì)導(dǎo)致回歸參數(shù)估計(jì)的方差過(guò)大,那么如何選擇一個(gè)合適的寬帶呢?1.交叉驗(yàn)證法(CV)27精選可編輯ppt2.AIC準(zhǔn)則28精選可編輯ppt診斷工具(DiagnosticTools)1.空間自相關(guān)性(Autocorrelation)Moran’sI和Geary’sc2.共線性容許度(Tolerance):越接近1,共線性越小。方差膨脹因子(VIF):容許度的倒數(shù),越接近1,共線性越小。條件指標(biāo)(ConditionIndex):10以下多重共線性較弱,100以上存在嚴(yán)重的共線性。方差比例(VarianceProportion):同一特征值序號(hào)上的兩個(gè)或者多個(gè)系數(shù)的方差比例較大,共線性越強(qiáng)。29精選可編輯ppt膀胱癌死亡率實(shí)例實(shí)驗(yàn)數(shù)據(jù)研究區(qū)域:美國(guó)本土的506個(gè)經(jīng)濟(jì)發(fā)展區(qū)膀胱癌死亡率數(shù)據(jù):國(guó)際癌癥研究所Atlas癌癥死亡率,1970-1994年,年齡標(biāo)準(zhǔn)化死亡率(每年每10萬(wàn)人)肺癌死亡率:1954-1969年,年齡標(biāo)準(zhǔn)化死亡率數(shù)局人口密度:取每年人口密度的自然對(duì)數(shù)30精選可編輯ppt普通線性回歸模型分析

31精選可編輯pptGWR模型分析現(xiàn)在回歸系數(shù)根據(jù)經(jīng)濟(jì)發(fā)展區(qū)變化而變化,通過(guò)交叉驗(yàn)證(VC),GWR核函數(shù)的波段寬度的估計(jì)為1.27。擬合系數(shù)變?yōu)?.52,提高了擬合精度。估計(jì)的系數(shù)展現(xiàn)出一種明顯的變化,在一些地區(qū)出現(xiàn)了違反直覺(jué)的負(fù)相關(guān)關(guān)系,肺癌和人口密度都是,而且人口密度的負(fù)相關(guān)更加明顯。32精選可編輯pptWheeler等人用散點(diǎn)圖估計(jì)系數(shù)之間的相關(guān)性。

33精選可編輯ppt對(duì)回歸系數(shù)進(jìn)一步探索他們之間的獨(dú)立性,方差比例和條件指數(shù)作為診斷工具。在506個(gè)SEA中,13

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論