基于R語言的地理國情監(jiān)測空間點模式軟件的實現(xiàn)_第1頁
基于R語言的地理國情監(jiān)測空間點模式軟件的實現(xiàn)_第2頁
基于R語言的地理國情監(jiān)測空間點模式軟件的實現(xiàn)_第3頁
基于R語言的地理國情監(jiān)測空間點模式軟件的實現(xiàn)_第4頁
基于R語言的地理國情監(jiān)測空間點模式軟件的實現(xiàn)_第5頁
已閱讀5頁,還剩46頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

摘要在地理國情監(jiān)測工作中,其任務可以概括為三個主要方面:自然與人文地理要素信息的動態(tài)獲取、綜合分析與評估、產(chǎn)品生產(chǎn)與發(fā)布。其中綜合分析與評估是在地理要素監(jiān)測時空數(shù)據(jù)庫的基礎上,綜合運用空間統(tǒng)計分析、探測性空間分析、時空數(shù)據(jù)挖掘與知識發(fā)現(xiàn)技術,對地理要素的數(shù)據(jù)與質(zhì)量統(tǒng)計特征、時空分布模式、發(fā)扎趨勢與演變規(guī)律等進行的地理國情時空特征的綜合分析、時空變化的評估與趨勢預測。目前,地理國情監(jiān)測正處于普查階段,除了做好基本的普查工作之外,還要在如黑龍江、浙江、海南等地開展試點研究,完成地理國情監(jiān)測的主要任務,而依據(jù)空間統(tǒng)計學理論,構建相應的技術平臺對試驗區(qū)的地理要素信息進行綜合分析與評估則是工作的重點內(nèi)容之一。本文介紹了空間統(tǒng)計學的理論與方法,其中重點介紹了空間點模式的基礎理論。然后基于R語言編寫了空間點模式式軟件,最后以浙江省德清縣的居民點數(shù)據(jù)為例,使用空間點模式軟件的各功能模塊來進行具體分析,得到相應的結論。具體的研究內(nèi)容如下:.緒論。闡述了論文的研究意義,空間統(tǒng)計學的歷史與現(xiàn)狀。本文的意義在于將空間統(tǒng)計學尤其是空間點模式理論引入地理國情監(jiān)測的綜合分析與評估中,基于R語言編寫空間點模式軟件,然后對具體符合點模式內(nèi)在假設的地理數(shù)據(jù)進行分析。.空間點模式理論。介紹了產(chǎn)生空間點模式的各種應用背景,以及圍繞點模式的分析目標,如密度、相互作用、協(xié)變量效應等,發(fā)展相應的建模及推斷方法。.空間點模式軟件的實現(xiàn)。介紹R語言的應用現(xiàn)狀及其空間統(tǒng)計學相關的貢獻包。然后基于空間點模式的理論,使用tcltk包與上述與空間統(tǒng)計學相關的貢獻包,編寫空間統(tǒng)計平臺的圖形化用戶界面,即建立空間點模式軟件。.在地理國情監(jiān)測中的應用。以地理國情普查采集到的浙江省德清縣居民點數(shù)據(jù)為例,提出了問題的分析目標,利用已編寫的空間點模式軟件進行了具體的分析,最后得出相應的結論。關鍵詞:空間統(tǒng)計學;空間點模式;地統(tǒng)計學;面狀數(shù)據(jù);R語言AbstractIngeographicalconditionsmonitoringwork,thetaskcanbesummarizedasthreemainaspects:thenatureandhumangeographyelementdynamicacquisition,comprehensiveanalysisandevaluationofinformation,products,productionandrelease.Comprehensiveanalysisandevaluationofthemonthebasisofgeographicfactormonitoringspatio-temporaldatabase,integrateduseofspatialstatisticalanalysis,exploratoryspatialanalysis,spatio-temporaldataminingandknowledgediscoverytechnology,thegeographicelementsofthequalityofdataandstatisticalcharacteristic,space-timedistributionpatternandhairtrendsandevolutionlawofgeographicalconditionsofthespace-timecharacteristicsofspatialandtemporalvariationofcomprehensiveanalysis,evaluationandtrendprediction.Atpresent,thegeographicconditionsmonitoringisatthecensusstage,besidescompletesthebasiccensuswork,butalsoinsuchasHeilongjiang,Zhejiang,Hainanandotherplacestocarryoutthepilotstudy,completegeographicalconditionsofmonitoring,themaintaskoftheandonthebasisofspatialstatisticaltheory,thecorrespondingtechnologyplatformwasconstructedtotestthegeographicelementsofinformationcomprehensiveanalysisandevaluationisoneoftheimportantcontentofwork.Spatialstatisticaltheoriesandmethodshasbeenintroducedinthispaper,whichmainlyintroducesthebasictheoryofspatialpointpattern.ThenbasedonthespatialpointpatternRlanguagetowritethesoftware,finalsettlementdataofdeqingcountyinzhejiangprovinceasanexample,usingspatialpointpatterneachfunctionmoduleofsoftwaretomakeaconcreteanalysis,getthecorrespondingconclusions.Specificresearchcontentsareasfollows:Introduction.Elaboratedthepaperresearchsignificance,thehistoryandpresentsituationofspatialstatistics.Thesignificanceofthispaperistostatisticsespeciallyspatialpointpatterntheoryisintroducedintothespacegeographicalconditionsmonitoringandcomprehensiveanalysisandassessment,basedonthespatialpointpatternRlanguagesoftware,thentheconcreteconformstotheintrinsicpointmodelassumesgeographicdataforanalysis.Thetheoryofspatialpointpattern.Introducedtheapplicationofspatialpointpatternbackground,targetsinandaroundthepointpatternanalysis,suchasdensity,interactionandcovariateeffect,thedevelopmentofthecorrespondingmodelingandinferencemethod.Thespatialpointpatternsoftwareimplementation.IntroducesthestatusoftheRlanguageandspatialstatisticsrelatedtothecontribution.Basedonspatialpointpatterntheory,thenuseTCLTKpackagewiththeabovecontributionsassociatedwithspatialstatistics,writingspacestatisticsplatformgraphicaluserinterface,namely,toestablishspatialpointpatternsoftware.Intheapplicationofgeographicconditionsmonitoring.Deqingcountyofzhejiangprovincewerecollectedtogeographicalstateofthecensusdataofresidentialareaasanexample,putsforwardtheproblemsofanalysis,usingthespatialpointpatternsoftwarehasbeenwrittenontheconcreteanalysis,thecorrespondingconclusions.Keywords:SpatialStatisticas;SpatialPointPattern;Geostatistics;AreaData;RLanguage目錄TOC\o"1-5"\h\z摘要IAbstractI1緒論6研究背景與意義6空間統(tǒng)計學的歷史與現(xiàn)狀7本文的研究內(nèi)容與章節(jié)安排15研究內(nèi)容15技術路線152空間點模式理論17探索密度18密度18密度對某個協(xié)變量的依賴20泊松模型20完全隨機過程檢驗20密度對協(xié)變量依賴的檢驗21泊松過程的極大似然估計21擬合泊松過程22驗證擬合的泊松模型22點之間的相互作用23距離方法23非泊松過程的簡單模型25使用概括統(tǒng)計量擬合聚類模型26異質(zhì)性引入27局部特征探索28吉布斯模型28吉布斯模型28擬合吉布斯模型33驗證擬合的吉布斯模型33連續(xù)變化現(xiàn)象34離散變化現(xiàn)象錯誤!未定義書簽。3空間點模式軟件的實現(xiàn)37R語言及與空間統(tǒng)計相關的貢獻包37R語言37與空間統(tǒng)計相關的貢獻包38空間統(tǒng)計試驗平臺的實現(xiàn)40Tcl/tk40平臺功能模塊實現(xiàn)404在地理國情監(jiān)測中的應用43數(shù)據(jù)來源43問題44探索性數(shù)據(jù)分析45密度45密度對協(xié)變量的依賴46點之間的相互作用48模型擬合48擬合泊松模型48診斷泊松模型51擬合吉布斯模型52模型診斷53結論545總結與展望55總結55展望55參考文獻58致謝錯誤!未定義書簽。附錄A附錄內(nèi)容名稱錯誤!未定義書簽。

作者簡歷學位論文原創(chuàng)性聲明錯誤!未定義書簽錯誤!未定義書簽錯誤!未定義書簽錯誤!未定義書簽錯誤!未定義書簽1緒論研究背景與意義國情是指一個國家的社會經(jīng)濟發(fā)展狀況、自然地理環(huán)境、文化歷史傳統(tǒng)以及國際關系等各個方面情況的總和,也是指某一個國家某個時期的基本情況,是國家制定發(fā)展戰(zhàn)略和發(fā)展政策的依據(jù),也是國家執(zhí)行發(fā)展戰(zhàn)略和發(fā)展政策的客觀基礎。地理國情是以地表自然和人文地理要素的空間分布、特征及其相互關系為主要內(nèi)容、與國家經(jīng)濟社會發(fā)展密切相關的基本情況,是基本國情的重要組成部分。地理國情監(jiān)測,就是綜合利用全球?qū)Ш叫l(wèi)星系統(tǒng)(GNSS)、航空航天遙感技術(RS)、地理信息系統(tǒng)技術(GIS)等現(xiàn)代測繪地理信息技術,利用各時期測繪成果檔案,對自然、人文等地理要素進行動態(tài)和定量化、空間化的監(jiān)測,并統(tǒng)計分析其變化量、變化頻率、分布特征、地域差異、變化趨勢等,形成反映各類資源、環(huán)境、生態(tài)、經(jīng)濟要素的空間分布及其發(fā)展變化規(guī)律的監(jiān)測數(shù)據(jù)、圖件和研究報告等,從地理空間的角度客觀、綜合展示國情國力。當今,經(jīng)濟全球化、貿(mào)易自由化不斷發(fā)展,氣候變化以及能源資源安全、糧食安全、公共安全等全球性問題更加突出,地理國情監(jiān)測已成為動態(tài)掌握自然資源分布和生態(tài)環(huán)境變化、促進社會可持續(xù)發(fā)展以及科學決策的重要手段。世界主要發(fā)達國家紛紛將地理國情監(jiān)測工作列為推進國家可持續(xù)發(fā)展的戰(zhàn)略舉措。美國測繪部門從2002年開始實施地理信息動態(tài)監(jiān)測和分析規(guī)劃(GAM)等項目,利用數(shù)字地形圖、衛(wèi)星影像及其他遙感數(shù)據(jù),結合計算機建模和野外調(diào)查等技術手段,開展全美和全球重點地區(qū)的以地表覆蓋、地表變化過程的分析與模擬為主要內(nèi)容的地理國情監(jiān)測,并積極籌備構建全球高分辨率和世界主要城市更高分辨率的地表覆蓋數(shù)據(jù)庫,為生態(tài)環(huán)境保護、災害預防、氣候變化研究、經(jīng)濟可持續(xù)發(fā)展等提供基礎數(shù)據(jù)和決策支持。GAM已成為美國最為重要的戰(zhàn)略性規(guī)劃之一。同時,歐盟、加拿大、日本等國家和地區(qū)也開展了類似的地理國情監(jiān)測工作。我國人多地少、資源短缺等問題異常突出。目前,我國正處在工業(yè)化、城鎮(zhèn)化快速發(fā)展時期,地表自然和人文地理信息變化快速。多年來,受技術水平及認識局限性的制約,我國一直沒有開展全國性、綜合性、系統(tǒng)性的地理國情監(jiān)測工作,造成對地理國情的掌握不全面、不及時、不協(xié)調(diào)、不一致。因此,在新時期盡快開展地理國情監(jiān)測工作具有深遠意義。在地理國情監(jiān)測工作中,其任務可以概括為三個主要方面:自然與人文地理要素信息的動態(tài)獲取、綜合分析與評估、產(chǎn)品生產(chǎn)與發(fā)布。其中,自然與人文地理要素信息的動態(tài)獲取主要是利用測繪技術手段對地理要素量測及其動態(tài)變化的發(fā)現(xiàn)、識別、提取與數(shù)據(jù)更新,形成地理要素監(jiān)測時空數(shù)據(jù)庫。綜合分析與評估是在地理要素監(jiān)測時空數(shù)據(jù)庫的基礎上,綜合運用空間統(tǒng)計分析、探測性空間分析、時空數(shù)據(jù)挖掘與知識發(fā)現(xiàn)技術,對地理要素的數(shù)據(jù)與質(zhì)量統(tǒng)計特征、時空分布模式、發(fā)扎趨勢與演變規(guī)律等進行的地理國情時空特征的綜合分析、時空變化的評估與趨勢預測。產(chǎn)品生產(chǎn)與發(fā)布時面向國民經(jīng)濟與社會發(fā)展、重大工程與突發(fā)事件應急決策和國民地理國情教育等不同服務對象,設計的不同類型的權威、標準的地理國情信息產(chǎn)品,并通過新聞媒體、互聯(lián)網(wǎng)等媒介進行產(chǎn)品發(fā)布,包括統(tǒng)計數(shù)據(jù)、圖表、地圖、影像、視屏動畫、語音、文字報告等基本形式。從過程上來看,這三方面的任務不是按照順序依次推進的,而在反復迭代中完成的,這種迭代可以在任意兩個任務之間進行。例如,在獲取局部區(qū)域的自然或人文地理要素信息之后,即可建立區(qū)域性地理要素監(jiān)測時空數(shù)據(jù)庫,然后進行利用空間統(tǒng)計分析等技術對其進行研究,在研究的過程中,可以根據(jù)實時的分析要求來繼續(xù)獲取地理要素信息。國務院于3月5日下發(fā)文件,決定與2013年至2015年開展第一次全國地理國情普查工作。地理國情普查是一項重大的國情國力調(diào)查,是全面獲取地理國情信息的重要手段,是掌握地表自然、生態(tài)以及人類活動基本情況的基礎性工作。普查的目的是查清我國自然和人文地理要素的現(xiàn)狀和空間分布情況,為開展常態(tài)化地理國情監(jiān)測奠定基礎,滿足經(jīng)濟社會發(fā)展和生態(tài)文明建設的需要,提高地理國情信息對政府、企業(yè)和公眾的服務能力。在地理國情普查工作中,除了做好基本的普查工作之外,還要在如黑龍江、浙江、海南等地開展試點研究,完成地理國情監(jiān)測的主要任務,而依據(jù)空間統(tǒng)計學理論,構建相應的技術平臺對試驗區(qū)的地理要素信息進行綜合分析與評估則是工作的重點內(nèi)容之一??臻g統(tǒng)計學的歷史與現(xiàn)狀統(tǒng)計模型試圖賦予數(shù)據(jù)更多的涵義,即使這樣做有些不完美。設計、推斷和診斷是與數(shù)據(jù)模型共生的自然結果,并且在統(tǒng)計學中起到重要作用??臻g統(tǒng)計學,顧名思義,就是采用統(tǒng)計的方法描述和解釋空間數(shù)據(jù)的性質(zhì)以及數(shù)據(jù)對于統(tǒng)計模型是否典型或所期望。它的最基本特征就是:其所關注的或是現(xiàn)象的空間位置本身或是包含現(xiàn)象空間位置的隨機模型。作為統(tǒng)計學的分支之一,空間統(tǒng)計學有著一段不尋常的歷史。在數(shù)學領域中,概率學家推動著隨機過程理論的發(fā)展,而隨機過程是構成空間統(tǒng)計學許多內(nèi)容的主要基礎。反之,在早期其中許多統(tǒng)計方法都各自獨立地發(fā)展著。事實上,這些統(tǒng)計方法的出現(xiàn)主要還是源于不同的應用領域,例如在采礦工程中,Matheron和他的同事們發(fā)展了地統(tǒng)計學;Fisher在農(nóng)田試驗中,采用隨機化和斑塊化的方法處理了空間相關性;在林業(yè)中,Matern在他的博士論文中詳細研究了該領域的統(tǒng)計方法。因此,許多年后空間統(tǒng)計學仍然處于主流統(tǒng)計學的邊緣。然而,過去的20年見證了對空問和時空問題的爆炸式的關注,這是由廉價的、高速度的計算得以不斷地投入使用所推動的,而這種投入使用使得收集大的空間和時空數(shù)據(jù)集成為可能,也促進了能夠生動顯示數(shù)據(jù)的GIS軟件的廣泛傳播,并增強了研究極具挑戰(zhàn)的、更加實用的模型的能力。在這個過程中,與正規(guī)課程一樣,書刊、會議和研討會也不斷開展,空間統(tǒng)計學已被引入主流的統(tǒng)計學研究之中。此外,自20世紀50年代以來,雖然對其系統(tǒng)的理論研究一直在進行,但可以很肯定地說,空間統(tǒng)計學已從一個有些專業(yè)的領域發(fā)展成一個更受模型驅(qū)動的領域。雖然整個鄰域仍然在發(fā)展變化,但已經(jīng)走向了成熟[13]0一般來說,空間統(tǒng)計學包含三個部分的內(nèi)容:(1)空間點模式;(2)連續(xù)空間變化,即點參考數(shù)據(jù);(3)離散空間變化,包括格單元數(shù)據(jù)和面單元數(shù)據(jù)。這遵循了NoelCressie's(1993)劃分[14]。由于空間統(tǒng)計學的發(fā)展不是源于對數(shù)學研究的驅(qū)動,而是來自大量應用領域的需求,包括天文、農(nóng)業(yè)、生態(tài)和采礦等。下面分別從這四個領域介紹空間統(tǒng)計學的起源。在空間統(tǒng)計學中,可能最早的例子是幾何概率問題。布馮投針是這類問題中最有名的。假設一個長度為x的針被隨機地投擲到標記有兩條平行線的桌上,這兩條平行線的間距為d,并且d>x。那么針與任意一條平行線相交的概率是多少呢?為了解決這個問題,首先要明確“隨機”的含義。在該問題中,隨機包含兩個含義:一是針的中心點到其最近平行線的距離服從(0,d/2)的均勻分布;二是針與平行線所成的銳角服從(0,兀/2)的均勻分布。然而,這個定義的第一部分沒有回答一個稍微敏感的問題:如果針被投擲到桌子邊緣附近會發(fā)生什么樣的情況呢?而什么才是我們隨機地投擲針到桌上的物理意義呢?這個問題的數(shù)學解決方法就在點過程理論中。空問點過程首次出現(xiàn)是在物理學和天文學中,在1858年泊松過程被引入,那時RudolfClausius為了證明熱力學的新分子理論,計算了大量氣體中一個分子的平均自由移動路徑,從中導出了泊松過程的性質(zhì)。隨后在天文中泊松過程被當作標準隨機過程模型,與之相比較,運用顯著性檢驗,將泊松過程看作原假設,可以得到許多天文數(shù)據(jù)的經(jīng)驗性質(zhì)?,F(xiàn)在,泊松過程仍然是判斷空間點過程呈現(xiàn)規(guī)則或是不規(guī)則的標準界限。Hertz得出了在三維泊松過程的任意一點到其最鄰近的其它點之間距離的概率分布,比較最鄰近距離的理論分布與觀測值分布可以檢驗觀測模式是否與泊松過程模型相一致[16]0而這一方法直到許多年之后才被應用到生態(tài)學中[17][18]0其它早期工作考慮了由特定數(shù)量點構成的幾何圖像,在1859年到1960年之間,SimonNewcomb在剛剛創(chuàng)立的《MathematicalMonthly?期刊中撰寫了一系列關于這方面的文章。例如,假設星星在天空中是隨機分布的,即服從泊松過程,那么計算六顆星位于一個已知的正方形的概率[19]。對于這類幾何概率問題的研究最終發(fā)展成為隨機幾何理論[20][21]。毫無疑問,齊次泊松過程不久就被應用到空間點模式中。然而還有兩種最為廣泛的泊松過程沒能捕捉到的現(xiàn)象,一種是空間點呈現(xiàn)局部聚集的現(xiàn)象,另一種是空間規(guī)則的現(xiàn)象,在這種現(xiàn)象中,“點”通常是有限大小的非重疊實體的抽象,例如是生態(tài)組織中的單元或林業(yè)中的樹木。最早嘗試對空間聚類現(xiàn)象建立模型的是Neyman,他想用這個模型描述由泊松過程產(chǎn)生的昆蟲卵子孵出昆蟲幼體的分布模式[22]。再一次受到天文學的驅(qū)動,Neyman和Scott重新在三維空間中修改了這個模型,給出了能夠描述以隨機分布點作為母體所產(chǎn)生的空間聚類子體模式的真實模型[23]oRipleyandKelly在他們對馬爾可夫過程的定義中加入了這種模型構造,由此產(chǎn)生最為廣泛應用的模型可以用來描述空間規(guī)則的點模式[24]0在農(nóng)業(yè)方面,空間依賴性問題在R.A.Fisher'研究關于農(nóng)田試驗數(shù)據(jù)的基于設計推斷方法的開創(chuàng)性工作中已初見端倪[25],當時他在英格蘭赫特福德的洛桑試驗站工作。從1919年到1933年,他受聘于赫特福德大學,花費了畢生的精力致力于研究關于農(nóng)田數(shù)據(jù)的一整套方法論。在農(nóng)田試驗中,首先將矩形試驗區(qū)域劃分成20行25列共500個小矩形單元。每個單元僅播種一粒種子,單元的產(chǎn)量用一個顏色值表示,這樣該區(qū)域就形成了一幅柵格圖像。500個單元中存在的變異性是由微觀環(huán)境(如土壤肥力、坡度、坡向等)的空間變化所引起。為了處理這種變異性,首先假設它是隨機的,即產(chǎn)生如下模型:丫口+Z?i=1,…,20;j=1,…,25(1Z這里亞是整體區(qū)域的平均產(chǎn)量,i和j分別代表行列號,Zij是相互獨立的、均值Z一,八,為0的擾動項。用現(xiàn)在的方法對公式(1.1)進行推斷,需要假設Zij是正態(tài)分布,然后運用極大似然估計作為基本推斷方法。然而通過觀察,F(xiàn)isher意識到相鄰近單Z元有著相似的產(chǎn)量,這樣就違背了Zij是相互獨立的假設。因此,他放棄基于模型的解決方法,提出采用斑塊化作為基本設計原則來處理這種空間變化。將該區(qū)域從水平方向上劃分成25個斑塊,與公式(1.1)相比,更進一步的模型如下:Yj=卜十%十Zij,i=1,...,20;j=1,...,25(12)這里把明的總和限制為0,代表每個斑塊的期望產(chǎn)量與整體區(qū)域的平均產(chǎn)量之差。公式(1.2)是最原始的空間模型,它假定系統(tǒng)的空間變化僅發(fā)生在水平方向上。事實上,在存在空間變化的情況下,斑塊化可以看做一種協(xié)方差調(diào)整的方法,并且在斑塊之間是分段連續(xù)的。另一種方法是以考慮鄰居單元的平均產(chǎn)量為條件的,這種協(xié)方差調(diào)整的方法由Papadakis提出,結果證明與用于建模離散空間變化的馬Y爾可夫隨機場模型有著密切的聯(lián)系[26]。對這種調(diào)整的現(xiàn)代解釋是:在給定丫j的鄰居單元的平均產(chǎn)量Yij的情況下,每個單元的產(chǎn)量丫j的條件分布模型如下:Yj|{Yki:(k,l)-(i,j))-N(1(Yij-l),2)(l.3)公式(1.3)就是馬爾可夫隨機場的一個特例[27]。當°=0時,公式(1.3)將退化成公式(1.1)。在Besag中SirDavidCox指出了Papadakis調(diào)整和馬爾可夫隨機場之間的聯(lián)系[28]。后來Barllet詳細說明了這種關系[29]。W.F.Gosset(Student)也仔細研究了這個問題中的空間相關性,但他想采用基于模型的解決方法。在1910年10月,給KarlPearson的信中,他寫到:“一般地,相關性會隨著時間單元或空間單元的增大而減弱,所以我認為如果能解決這個定律TOC\o"1-5"\h\z將會是一件很偉大的事情”[30]。Gosset應用了隨機場理論使這種空間相關性“定律”規(guī)范化,假定一個平穩(wěn)的空2\22問連續(xù)隨機過程S(x),其協(xié)方差函數(shù)為CoWS(x),S(y)}=仃p(n),這里仙是位置x和y之間的距離。區(qū)域A和區(qū)域B的隨機過程S(?)的空間均值之間的協(xié)方差是:[AB)=(A1B)」o2nP(|x-y|)dxdyAB(1.4)這里|?|表示面積,||?||表示距離。Gosset的這種方法表面確實存在一種與物理定律一樣的關于空間變化的自然定律。基于同樣的觀點,F(xiàn)airfieldSmith提出相關性應該根據(jù)指數(shù)定律減弱[31],Whittle進一步研究了他的方法[32]oMcCullagh和Clifford回顧了近年來關于農(nóng)田試驗的隨機建模方面的文獻[33],其中重要的貢獻包括:Wilkinson等[34],Besag和Kempton[35],Besag和Higdon[36]。與尋找一個普遍的定律,如公式(1.4)相比,一種更加現(xiàn)實的做法是發(fā)展一類能在諸多科學背景下捕捉空間變化的經(jīng)驗行為的理論模型?;谶@樣一個觀點,假設空問現(xiàn)象可以被建模成空間高斯過程,即S(x),它的均值可以是一個合適的線性模型。然后需要指定任意兩個位置x與x'上的S(x)與S(x)之間的協(xié)方差。為了簡化問題,2假設該過程空間平穩(wěn),則協(xié)方差由一個標量參數(shù)。=Var{S(x)}和一個相關函數(shù)吁)=Corr(S(x),S(x'))組成,后者的以是x與x'之間的距離。上述思想在至少兩個領域得以獨立發(fā)展,即林業(yè)[37]和采礦工程[38]。在林業(yè)方面,BertilMatdn作出了突出的貢獻,他的職業(yè)生涯的大部分時間是在瑞典皇家學校林業(yè)學院(現(xiàn)在是瑞典農(nóng)業(yè)科學大學的一部分)度過的,1960年,他在斯德哥爾摩大學發(fā)表的博士論文中,對實值空間連續(xù)過程的相關結構,提出了以他的名字命名的一類模型。他的博士論文是一部出色的著作,在50多年后的今天仍然具有重大影響,被廣泛引用。在六十年代后期,Matdn去倫敦做了一系列演講,隨后他的博士論文開始在英國新興的空間統(tǒng)計學術團體中廣泛傳播。Matdn相關函數(shù)具有如下形式:(1.5):(」)={2a()}T(」/).(」/)(1.5)這里的.是尺度參數(shù),時式)是父階改進的貝塞爾函數(shù)。這類模型最具吸引力之一就是K的整數(shù)部分確定了隨機過程的均平方可微性,但在小數(shù)據(jù)集中K很難被確定。另一方面,由于K在確定空間隨機過程的平滑性有具體的解釋,這將有助于確定它的選擇或者在貝葉斯中選擇有益的先驗分布。Guttorp和Gneiting從學術角度解釋了參數(shù)族(1.5)的多種起源和諸多應用領域[40]。Stein在《空間數(shù)據(jù)插值》一書的實用建議里,直截了當?shù)卣f“請用Matdn模型”[41]。雖然有人覺得這種選擇有些模糊,但Matern相關函數(shù)參數(shù)族在許多地統(tǒng)計應用中已成為首先。Matdn的博士論文也對空間點過程、隨機集理論和空間采樣理論作出了重要貢獻。在空間點過程中,他仔細研究了能包含點過程中任意兩點之間最短距離的模型,在這方面,他提出了現(xiàn)在被稱為馬爾可夫點過程的理論。在隨機集理論方面,Matern也給出了許多模型實例。最后,論文也對空間采樣方案的有效性進行了廣泛的討論,研究表明:在估計空間均值過程中,系統(tǒng)采樣要優(yōu)于隨機采樣。在采礦工程方面,D.G.Krige是一位非常具有影響力的人物,他在南非的金山大學擔任教授,在他的文章中,提出在礦產(chǎn)勘探中使用統(tǒng)計方法。在Krige的研究工作基礎之上,法國楓丹白露高等礦業(yè)學院的GeorgesMath<!ron和他的同事們將其發(fā)展成為空間統(tǒng)計學的分支之一一地統(tǒng)計學[42][43][44]。為了紀念Krige的杰出貢獻,以他的名字命名該領域的空間預測方法。可以說,地統(tǒng)計學雖然起源于南非的采礦工業(yè),但在法國楓丹白露高等礦業(yè)學院才發(fā)展成為一門獨立的用于空間預測的方法論。有一段時期,楓丹白露大學的研究工作與主流的空間統(tǒng)計學沒有任何關系。Watson指出了楓丹白露大學研究的地統(tǒng)計方法與更加理論化的隨機過程預測之間的密切聯(lián)系[45]。Ripley采用隨機過程預測的理論,簡潔但完整地導出了Kringing方法,從而進一步地證明了這種關聯(lián)[46]。從上述內(nèi)容可以看出,對連續(xù)空間變化現(xiàn)象的研究是怎樣從最初一些毫無聯(lián)系的工作中逐步走向成熟的。而在空間統(tǒng)計學的發(fā)展過程中,后兩個分支的系統(tǒng)發(fā)展主要歸功于上世紀70年代英國皇家統(tǒng)計學會會議上的兩篇文章。Besag[46]對分析空間離散或“格”數(shù)據(jù)提出了許多模型和相關的推斷方法[28]0同時,Ripley[47]也提出了針對空間點過程數(shù)據(jù)的系統(tǒng)的方法。在寫本文之際,從谷歌學術上可以看到對兩篇文章的引用次數(shù)分別為4575次和1527次。非常巧合的是,兩篇文章都舉例說明了對空間數(shù)據(jù)的統(tǒng)計建模和統(tǒng)計物理思想之間的聯(lián)系。在評論Besag的文章時,M.S.Bartlett指出二進制格數(shù)據(jù)的自回歸模型與鐵磁體的伊辛模型之間的關系,而在Ripley的文章里,成對相互作用的點過程模型與流體的理想化模型相關[48]。從主流的統(tǒng)計學發(fā)展過程來看,首先是獨立同分布模型,它假設對于同一現(xiàn)象的觀測發(fā)生在相同的條件下,并且每次觀測與其它觀測互不影響。采集到的數(shù)據(jù)形成了一個隨機樣本,標準的統(tǒng)計技術可以用來建立統(tǒng)計模型并估計模型的參數(shù)。在上個世紀60年代后期,Nelder和Wedderburn[49]把之前分散的相似的回歸方法都合并到廣義線性回歸模型的理論框架中。放寬同分布假設,如果數(shù)據(jù)存在異質(zhì)性,要建立異質(zhì)性數(shù)據(jù)模型,通常假設統(tǒng)計模型的均值為非常量,可以假設均值是一些解釋變量的線性組合。然而即使大尺度變化得到了很好的解釋,但還可能存在一些小尺度變化。Cressie在確定重力加速度的實驗中,假定實驗數(shù)據(jù)是來自均值為常量,但方差顯著不同的統(tǒng)計分布,其中方差依賴于鐘擺線的直徑和刀刃類型之間的結構。標準的單樣本理論不能得以應用,但仍可以基于一個加權的類似t的統(tǒng)計量對常量均值構造置信區(qū)問。獨立性使很多數(shù)理統(tǒng)計理論得以應用,的確是一個非常方便的假設。然而,現(xiàn)實世界中依賴性普遍存在,因此,引入依賴性的統(tǒng)計模型更加符合現(xiàn)實;兩類模型包含組內(nèi)相關結構和序列相關結構。但這還不適用與空間數(shù)據(jù),因為在空間數(shù)據(jù)中依賴性存在于各個方向,并且隨著數(shù)據(jù)點之間距離的增大而減弱,但是這是很自然的經(jīng)驗定律,并且已經(jīng)被統(tǒng)計學家成功地應用于解釋自然和社會現(xiàn)象。在時間序列模型中,觀測值通常是等時間間隔采樣、相互依賴并且同分布的,而在空間數(shù)據(jù)中,任意兩點的觀測值之間都存在依賴性,并且簡單地假設產(chǎn)生數(shù)據(jù)的空間位置是規(guī)則的也不合理。因此,空間模型需要比時序模型更加靈活。在處理空間數(shù)據(jù)中依賴性時,可以比較兩種策略?;蚴菍εc獨立性的偏離進行建模,或是編寫統(tǒng)計程序能對這種偏離產(chǎn)生良好的魯棒性。與Nelder和Wedderburn引入廣義線性模型整合獨立同分布回歸模型相同,在現(xiàn)代統(tǒng)計方法中,分層指定隨機效應模型(有時稱為隱圖形模型)和使用蒙特卡羅方法對這類模型推斷能力的發(fā)展增強了處理依賴性數(shù)據(jù)的統(tǒng)計方法。圖形模型的核心思想是:通過組合相對簡單的局部依賴性,在高維的隨機向量中建立復雜的內(nèi)部相互依賴模式。在分層或隱圖形建模中,所關注的隨機過程并不能直接觀察得到,只能間接地通過現(xiàn)有的隨機變量得到,而這些隨機變量的分布是在一個基礎的、潛在的隨機過程上條件指定的。關于這方面,Kalman濾波就是一個早期的非空間的實例[50]?,F(xiàn)代空間統(tǒng)計學在疾病繪圖[51]和圖像重建等許多領域應用這類模型[52]。止匕外,由不同的應用領域需求的推動,現(xiàn)代空間統(tǒng)計學的內(nèi)容除了包含上述三個部分之外,還發(fā)展了很多主題。近年來,在空間數(shù)據(jù)中,對分析多元觀測值的需求不斷增長。這類數(shù)據(jù)的依賴性不僅包括傳統(tǒng)的位置之間空間依賴性,而且也有同一位置上的觀測值之間的依賴性。例如在環(huán)境監(jiān)測站中,需要觀測不同的污染物(如,臭氧、PM2.5、含氮氧化物、一氧化氮等)。大氣模型中,在給定地點,可以觀測到溫度、降雨量和風速等。在調(diào)查房地產(chǎn)市場時,對于給定地點的一個個體,可以收集到銷售價格和全部租金收入。在多元空間過程建模的方法中,可以對傳統(tǒng)的克里格方法進行擴展得到協(xié)同克里格,然后采用交叉方差圖或交叉協(xié)方差函數(shù)進行推斷。也可以采用移動平均法(也稱為核卷積法),這種方法能夠?qū)⑵椒€(wěn)和非平穩(wěn)空間過程細化很多的類型[53]0空間不一致和多尺度下的統(tǒng)計推斷是空間統(tǒng)計,甚至空間分析長期關注的問題之一。通過處理空間不一致,可以在一個與最初采集數(shù)據(jù)時的尺度不同的尺度下分析空間數(shù)據(jù)。更加一般的問題是,隨著空間數(shù)據(jù)圖層的不斷增加,這些圖層的綜合已經(jīng)是空間數(shù)據(jù)分析的前沿問題。例如某個變量最初是在人口普查區(qū)上的尺度上獲得的,現(xiàn)在想要分析得到它在縣級尺度上的空間分布。對于面狀數(shù)據(jù),我們的目標是分析變量在一個新的空間聚集(可變面元問題,即MAUP)尺度上的分布情況,或者我們要將該變量與另一個在特定尺度下存在的變量(如在人口普查區(qū)采集的人口數(shù)據(jù))關聯(lián)起來。對于某個空間過程下產(chǎn)生的數(shù)據(jù),可以在不同尺度下構建一個平均化的空間過程來建模該數(shù)據(jù)(變換支撐問題,即COSP)。GotwayandYoung采用傳統(tǒng)的方法和貝葉斯方法對MAUP和COSP進行了詳細的分析[54]。止匕外,在空間過程所形成的空間表面上,研究空間梯度[55][56][57]和Wombling(以Womble命名)[58]等也是近年來空間統(tǒng)計學中的熱點問題。1.3本文的研究內(nèi)容與章節(jié)安排研究內(nèi)容與空間統(tǒng)計分析相似的概念有出現(xiàn)在不同領域文獻中的空間數(shù)據(jù)操作、空間數(shù)據(jù)分析、空間分析等。空間數(shù)據(jù)操作主要出現(xiàn)在GIS中,一般包括緩沖區(qū)分析,包含分析,相交分析,疊加分析,距離、面積、路徑計算,以及基于空間關系的空間查詢等簡單的數(shù)據(jù)分析功能;空間數(shù)據(jù)分析一般指對空間數(shù)據(jù)的描述性和探索性分析技術和方法[12];在幾個概念中,空間分析的涵義最廣,可以作為其它概念的同義詞,然而嚴格地說,從空間分析所使用的技術和方法來看,除包含前兩個概念以及空間統(tǒng)計分析之外,最重要的還包括計算方法。本文盡量避免討論上述概念的內(nèi)容,而是主要采用統(tǒng)計方法來研究空間問題,因此,研究的主要內(nèi)容有:.介紹空間統(tǒng)計學的歷史與發(fā)展現(xiàn)狀,主要從不同的應用領域闡述空間統(tǒng)計學各個分支的起源,然后從主流統(tǒng)計學的角度介紹了現(xiàn)代統(tǒng)計學處理依賴性數(shù)據(jù)的主要方法,最后介紹了近來一些領域新的空間問題需求,以及相應的現(xiàn)代空間統(tǒng)計學處理方法。.闡述空間點模式的基礎理論。在點模式分析中,常見的問題有密度、相互作用、協(xié)變量效應、不同標記點之間的分離和不同類型點之間的依賴性。重點介紹分析無標記點的基本方法,包括探索密度、泊松模型、點之間的相互作用和吉布斯模型四個重點問題。最后簡要介紹了空間連續(xù)變化現(xiàn)象和離散變化現(xiàn)象的基本問題和基本分析方法。.介紹R語言的應用現(xiàn)狀及其空間統(tǒng)計學相關的貢獻包。然后基于空間點模式理論,使用tcltk包與上述與空間統(tǒng)計學相關的貢獻包,編寫空間點模式的圖形化用戶界面,即空間點模式軟件。.以地理國情普查采集到的浙江省德清縣居民點數(shù)據(jù)為例,通過演示空間點模式軟件的各功能模塊,從實踐角度,進一步闡述這空間點模式的內(nèi)容,提出問題的分析目標,最后得出相應的結論。技術路線本文的技術路線流程圖如下所示

圖1.1本文的技術路線流程圖2空間點模式理論對空間點模式的研究出現(xiàn)在很多領域,如在生態(tài)學中,會關注所研究區(qū)域中某個樹種的空間分布以及形成這種空間分布的原因。更進一步說,如果兩個或更多的樹種被記錄,會關注這些樹種是會均勻分布還是在它們之間會存在競爭關系,還會研究導致每個樹種分布在特定區(qū)域的因素。在空間流行病學中,最常見的問題就是要確定某種疾病的案例是否呈現(xiàn)聚類模式,這可以通過比較疾病案例的空間分布與隨機地從總體中獲取的一套疾病控制的空間位置來評估。在地理學中,居民地、交通設施、商業(yè)零售點、旅游景點等也呈現(xiàn)點的分布特征,研究這些地理對象的空間分布模式對于城市規(guī)劃、服務設施布局、商業(yè)選址等具有重要意義。一般來說,點過程就是隨機過程,在這個隨機過程中,我們能觀測到給定區(qū)域A中一些感興趣的事件的位置。Diggle將點過程定義為“產(chǎn)生一個可數(shù)事件集的隨機機制”[59]。之后,Diggle、Moller和Waagepetersen又給出了不同類型點過程和它們性質(zhì)的合適定義[60]。在給定區(qū)域A中,由點過程產(chǎn)生事件的空間位置稱為空間點模式。有時,一些協(xié)變量會被記錄,并且被添加到觀測事件的空間位置上。在點模式分析中,最典型的科學問題如下[64]:(1)密度。即單位面積內(nèi)期望的點的數(shù)量。它測度了按點記錄事件的“豐富程度”或“頻繁程度”。密度可以是常量(“同質(zhì)”或“齊次”)的,也可以是隨位置變化的(“異質(zhì)”或“非齊次”)。(2)相互作用。內(nèi)部點的相互作用是指點之間的隨機依賴性。通常我們期望點之間的距離越近,這種依賴性越強。按照這種依賴性的大小,可以將點模式分為隨機、均勻和聚類三種類型。(3)協(xié)變量效應。對于有協(xié)變量的點模式數(shù)據(jù)集,可以研究兩類問題:一是探索密度對協(xié)變量的依賴性;二是在研究點之間相互作用之前,要對協(xié)變量對密度的影響作出解釋。(4)不同標記點的分離。在標記點模式中,需要研究不同標記點之間是否是分離的。(5)不同類型點之間的依賴性。在有分類標記的點模式數(shù)據(jù)集中,不同類型點之間的依賴性的產(chǎn)生可能有兩方面的來源:一是類型i點和類型j點的子模式之間的相互作用;二是在兩個特定位置上不同標記點的之間的依賴性。對于點過程來說,雖然存在一個高度發(fā)展的概率論分支,但相應的統(tǒng)計方法卻相對發(fā)展緩慢。直到最近,分析點模式的實用技術才在各個應用領域(森林,生態(tài),地質(zhì),地理和天文)中起來。主要技術包括[64]:(1)概括統(tǒng)計量:在許多文獻中,有專門的方法來估計某個統(tǒng)計量,如從一個點到其最鄰近點的平均距離,但幾乎沒有很強的統(tǒng)計理論來支撐這些方法。(2)對比泊松過程:一般而言,隨機空間過程產(chǎn)生的點模式遵循同質(zhì)泊松過程。在分析中通過和這一基本的空間過程相比較就能評價點過程是均勻的、聚集的或隨機的。用來檢驗過程是否是完全隨機過程的方法有很多,包括%2檢驗、K-S檢驗、以及蒙特卡羅檢驗等。當然可用的標準隨機過程模型不止泊松過程,還包括非齊次泊松過程、Cox過程、聚類泊松過程,和馬爾可夫點過程等。(3)建模:僅僅在最近十年內(nèi)對點模式建模才成為可能,但在如算法、模型選擇和優(yōu)度擬合等方面還有很多工作要做。本章圍繞分析點模式的目標,重點介紹點模式的基礎理論,為了保證空間統(tǒng)計理論的完整性,在第2.6和2.7節(jié)中簡要介紹分析連續(xù)變化現(xiàn)象和離散變化現(xiàn)象的基本目標和基本方法。探索密度密度密度是單位面積內(nèi)期望的點的數(shù)量。它測度了按點記錄事件的“豐富程度”或“頻繁程度”。密度可以是常量(“同質(zhì)”或“齊次”)的,也可以是隨位置變化的(“異質(zhì)”或“非齊次”)。如果點過程X的密度是齊次的,則在任意二維空間的子區(qū)域B中,點的期望數(shù)量與區(qū)域B的面積成正比,即:E[N(X-B)]:area(B)(2.1)這里,比例常量入就是密度。如果已知點過程是齊次的,則點密度的經(jīng)驗估計是:7_n(x)(2.2)area(W)(2.2)公式(2.2)是真實密度大的無偏估計量

實際上,點過程的密度一般都隨著位置變化而變化。假設點u處的面積為du的小區(qū)域內(nèi)點的期望數(shù)量為Mu)du,則這里的人(u)是點過程的“密度函數(shù)”,對于所有的子區(qū)域B滿足:E[N(X一B)]=B'(u)du(2.3)更常見的是密度可能會呈現(xiàn)單一集中的情況(如許多地震中心可能集中在一條斷層線上),所以將不會存在密度函數(shù)。這里可以稱為“密度測度”,用人表示。假設點的期望數(shù)量是有限的,則對每個子區(qū)域BuR2都有:上(B)=E[N(X-B)](2.4)為了檢驗點過程的密度是否均勻,可以采用如樣方計數(shù)法和核函數(shù)平滑等非參方法估計密度函數(shù)或密度測度。在樣方計數(shù)法中,區(qū)域W被劃分成若干個相等的子區(qū)域(樣方)Bl)...,Bmo然后計算落入每個樣方的點的數(shù)量n=E[n(xcB)](廣1,...m),這就是相應密度測度A(Bj)的無偏估計量[65]。密度函數(shù)的常用核估計是n?一一一(2.5)1(u)=e(u)(u-X1)i1(2.5)(2.6)這里的VW就是核(任意的概率密度),而邊緣效應的有偏校正是,i」e(u)=.1(u-v)dvW*(2.6)如果九(u)是真實密度函數(shù)Mu)的平滑版本,即*.(2.7),(u)=e(u),(u)(u-v),(v)dv(2.7)W顯而易見,入(u顯而易見,入(u)是的九(u)無偏估計量。選擇平滑核父需要平衡偏差和方差[66]2.1.2密度對某個協(xié)變量的依賴如果點模式的數(shù)據(jù)集中含有協(xié)變量,則需要探索協(xié)變量是否對密度的變化產(chǎn)生影響。樣方法和相對密度估計可以用來檢查這種關系。在樣方計數(shù)法中,理論上,樣方不必是等面積的矩形,可以是任意形狀。如果從實際問題出發(fā)選擇樣方,將更具有意義??梢圆捎脜f(xié)變量來確定樣方,具體可以參見6.1.1小節(jié)示例的做法,通過高程和坡度的分級來確定樣方。在相對密度估計中,假設點過程的密度是協(xié)變量Z的函數(shù),在任意位置u上,用Mu)表示點過程的密度,Z(u)表示協(xié)變量。假設如下關系:(u)=:(Z(u))(2.8)這里的P就是待確定的依賴關系。核密度平滑方法可以用來估計函數(shù)P,因此這里采用相對分布或相對風險的方法[60][61]。2.2泊松模型2.2.1完全隨機過程檢驗隨機點模式的基本標準模型是齊次泊松過程,也稱為完全隨機過程(CSR)。它的基本性質(zhì)如下:(1)落在任意子區(qū)域B的點的數(shù)量N(XcB)都是泊松隨機變量;(2)落在任意子區(qū)域B的點的期望數(shù)量E[N(XcB)]=%area(B);(3)如果Bi和B2是兩個不相交的子區(qū)域,那么N(XcBJ和N(XcB2)是兩個相互獨立的隨機變量。(4)給定N(XcB)=n,則這n個點是獨立的,并且在B中均勻分布。實際上,我們關注的是與CSR偏離的非完全隨機過程。有兩種方法可檢驗點過程是否是CSR。首先,對CSR這一空假設的一個經(jīng)典檢驗是基于樣方計數(shù)的i2檢驗。與第2.1.1小節(jié)中的樣方計數(shù)法一樣。設n=n(XcBj)是落入每個樣方內(nèi)點的數(shù)量,則72檢驗統(tǒng)計量為:

2%(nj-n/m)(2.9)X2=-(2.9)n/m這里,m是樣方數(shù),n是總點數(shù)。公式(2.9)可以解釋為樣本口的方差和均值之比。樣方計數(shù)法檢驗也存在明顯的缺陷。它是一個擬合優(yōu)度檢驗,其中備擇假設Hi僅僅簡單地視為對H0的否定,即Hi的含義是“這個過程不是齊次泊松過程”。一個點過程不滿足CSR上述性質(zhì)(1)~(4),可能是因為它存在非均勻密度而不滿足(2),或是因為它存在點之間的相互依賴性而不滿足(3)和(4),也就是說違背原假設Ho會存在很多種情況。另外,樣方計數(shù)法檢驗的結果會受到樣方尺寸的影響,當樣方尺寸過大或過小時,檢驗將會失效。Kolmogorov-Smirnov(K-S)檢驗是一個更加有效的CSR檢驗[67]。假設在特定窗口內(nèi),T(x,y)是定義在所有位置(x,y)的實值函數(shù)。然后采用K-S檢驗來比較T值得經(jīng)驗分布與CSR下T值的預測分布。密度對協(xié)變量依賴的檢驗在第2.1.2小節(jié)已經(jīng)介紹,在樣方計數(shù)法中,樣方可以是任意形狀。因此可以根據(jù)協(xié)變量信息來劃分樣方,再進行?2檢驗。K-S檢驗也可以檢驗密度對協(xié)變量的依賴性,但當協(xié)變量是離散變量時,該方法將會無效,只能采用基于樣方計數(shù)的22檢驗。泊松過程的極大似然估計假設點模式中的數(shù)據(jù)點是相互獨立的,則可以應用適當?shù)慕y(tǒng)計方法研究密度。對于密度為人的齊次泊松過程,其對數(shù)似然函數(shù)是:logL「;x)=n(x)log,area(W)(2.10)這里的n(x)是點模式中數(shù)據(jù)點的總數(shù)。則九的極大似然估計量是:(2.11)n(x)

area(W)(2.11)這個估計量是無偏的,并且var{3=area(W)非齊次泊松過程是對齊次泊松過程的改進時,第2.2.1小節(jié)的性質(zhì)(2)被修改為:E[N(X-B)]=舊(u)du(2.12)性質(zhì)⑷被修改為:給定N(XcB)=n,則這n個點是獨立的同分布的,密度函數(shù)是f(u)=Mu)/I,其中I=J(u)du。當齊次過程是非齊次泊松過程時,由于其密度兒虱u)依賴于參數(shù)e,則8的對數(shù)似然函數(shù)為:nlogL(u;x)=>,10g-式為)-W=(u)du(2.13)i1泊松過程對于齊次泊松過程,密度是一個常量;對于非齊次泊松過程,密度函數(shù)可以是對數(shù)線性,鼎((x,y))=e@也用y,也可以是對數(shù)平方,%((x,y))=e&坪母y弋3x2弋四增y2,也可以是依賴于協(xié)變量的函數(shù)。驗證擬合的泊松模型檢查擬合模型的方法可以是“正規(guī)”的,也可以是“非正規(guī)”的。正規(guī)的技術是在關于數(shù)據(jù)詳細的統(tǒng)計假設的基礎上,然后對結果做出統(tǒng)計說明??捎玫募夹g包括假設檢驗(72檢驗,擬合優(yōu)度檢驗,蒙特卡羅檢驗)和貝葉斯模型選擇。相比之下,“非正規(guī)”技術不強加數(shù)據(jù)任何假設,并且用人的主觀判斷來解釋產(chǎn)生的結果。例如殘差二觀測值一擬合值,如果模型被很好擬合,則殘差應該是以0為中心的噪聲。(1)擬合優(yōu)度檢驗:?2擬合優(yōu)度檢驗是基于樣方計數(shù)法的,它可以應用于齊次的或非齊次的泊松模型。在空假設的情況下,樣方計數(shù)是有著不同均值的獨立的泊松變量,并且通過擬合好的模型來估計這些均值。除此之外,上面介紹的Kolmogorov-Smirnov檢驗也可以檢核齊次的或非齊次的泊松模型。(2)使用殘差驗證:擬合后模型的殘差是統(tǒng)計學中一種重要的診斷工具但在空間統(tǒng)計中直到最近才得到廣泛應用[62][63[64],[58,pp.49-50],[12])0對于一個密度為比U)的擬合后的泊松模型,落在任意區(qū)域B的預測的點數(shù)是1p4u)du。因此在B區(qū)域B中的殘差定義如下:R(B)=n(X-B)-?(u)du(2.14)B這里X是點模式,n(XcB)是落入?yún)^(qū)域B中的點數(shù)??梢岳L制殘差圖和平滑殘差圖來可視化殘差。2.3點之間的相互作用研究點之間相互作用的主要傳統(tǒng)技術是距離方法。點模式中兩點之間的距離有如下幾類:點對距離:點模式中所有不同點對xi和xj之間的距離Sj=||x-Xj||。最近鄰距離:每個點xi到其最鄰近點之間的距離,即ti=mi、/Sj。真空距離:從一個固定的參考點u到它最近點的距離,即d(u)=mini||u-xi||距離方法(1)真空距離:F:假設點過程是平穩(wěn)的,則真空距離的累積分布是:F(r)=P{d(u,X)Mr}(2.15)這里的u是任意參考點位置。由于過程是平穩(wěn)的,那么公式(2.15)不依賴于u。在由位置uj(j=1,…,m)組成的格網(wǎng)上,真空距離的累積分布是:F(r)-e(uj,r){d(uj,x)三r}(2.16)其中e(u,r)是邊緣糾正的一種形式。因此F(r)豌無偏的。為了解釋估計量f?(r)?勺含義,需要建立泊松過程為標準參考模型。對密度為九?勺齊次泊松過程,設定以一個u為中心r為半徑的圓b(u,r),則落入圓b(u,r)的個數(shù)滿足均值是u?area(b(u,r))=■二r2?勺泊松分布,因此泊松過程如下:Fpois(r)?1-eY2(2.17)過程的密度采用估計量然n(x)/area(W),當f?(r)>Fpois(r)?寸,說明點模式中的真空距離小于相應的泊松過程,表面該模式是規(guī)則的;反之,則表面該模式是聚類的[69]0(2)最鄰近距離:G:假設點過程是平穩(wěn)的,則最鄰近距離的累積分布是:G(r)=P{d(u,X{u})<r|uX}(2.18)這里的u是一個任意的點,并且d(u,X{u})是從u到點模式中除u之外點的最短距離。由于過程是平穩(wěn)的,則()不依賴于u。最近鄰距離的經(jīng)驗分布函數(shù)是:(?(「)-e(Xj,r)1(ti三r}(2.19)其中e(u,r)是邊緣糾正的一種形式。因此F?(r)?!無偏的。對密度為■?勺齊次泊松過程,最鄰近距離的分布函數(shù)是:r2Gpois(r)?1-e-,(2.20)這與真空距離是相同的,這是因為泊松過程產(chǎn)生的點是相互獨立的,因此G等價于F。對于G(r)的解釋恰好與f?(r)相反。當(?(r)>Gpois(r)?寸,說明點模式中最近鄰點的距離小于相應的泊松過程,表面該模式是聚類的;反之,則表面該模式是規(guī)則的[69]0(3)點對距離:K:假設點過程是平1I的,定義'K(「)加到一點u的距離小于r的期望的點數(shù)。則K函數(shù)有如下形式:

1…(2.21)K(r)=—E[n(X一b(u,r){u})|uX](2.21)對密度為人?勺齊次泊松過程,設定以一個u為中心r為半徑的圓b(u,r),則落入圓b(u,r)的點的期望個數(shù)是九nr2,因此,有如下形式:(2.22)Kpois(r)?二r2(2.22)K函數(shù)有很多形式的估計量K函數(shù)有很多形式的估計量其中大多數(shù)是點對距離的加權并重新標準化的經(jīng)驗分布函數(shù)。一般的形式如下:area(W)iy一Xj"r}e(Xi;Xj;r)(2.23)這里的e(x;Xj;r)是邊緣糾正的一種形式。當K?(r)area(W)iy一Xj"r}e(Xi;Xj;r)(2.23)這里的e(x;Xj;r)是邊緣糾正的一種形式。當K?(r)?叮2時,表面點模式是聚類的;反之,則點模式是規(guī)則的[47](4)J函數(shù):J函數(shù)是F和G的組合形式,即:(2.24)對于齊次泊松過程Fpois2Gpois,所以:Jpois(r)?1(2.25)當J(r)多1時,點模式是規(guī)則的;當J(r)21時,點模式是聚類的。在使用距離方法時,需要注意的是以齊次泊松過程為前提條件下定義并估計F、G、K和J函數(shù)的,并且這些方法不能概括過程的全部特征。如果過程是非平穩(wěn)的,則不能夠根據(jù)經(jīng)驗和理論函數(shù)(例如應和Kpois)之間的偏離來判斷點之間相互作用的類型,因為這種相互作用可能是由變化的密度產(chǎn)生的。2.3.2非泊松過程的簡單模型非泊松過程會在點之間表現(xiàn)出“相互作用”或依賴性。(1)泊松聚類過程:泊松聚類過程是這樣形成的,首先用泊松過程Y產(chǎn)生“父”點,然后根據(jù)某種隨機機制,每個“父”點ywY產(chǎn)生一個“子”點集合。這個包含所有“子”點的泊松聚類過程的具體實例有Matern聚類過程、Thomas過程、高斯-泊松過程和Neyman-Scott聚類過程等。(2)Cox過程:當泊松過程的密度函數(shù)是隨機函數(shù)時,則這個相應的過程就是Cox過程。對于2所有位置uuR,令A(u)是一個非負的隨機函數(shù),X是以A為為密度函數(shù)的泊松過程。則X是Cox過程。Cox模型與隨機效應模型類似。與泊松過程相比,Cox過程總是過度散布,即落在某區(qū)域點個數(shù)的方差大于相應的期望。在聚類點模式中,Cox過程是最方便的模型。其中最實用的模型就是對數(shù)-高斯Cox過程(LGCP),其中l(wèi)ogA(u)是高斯隨機函數(shù)。Matern聚類過程和Thomas過程都是Cox過程。(3)稀釋過程:“稀釋”就是在點模式中刪除一些點。當采用“獨立稀釋”時,每個點的刪除獨立于其它的點。對一個泊松過程應用“獨立稀釋”后,得到的過程仍然是泊松過程。如果要得到非泊松過程,則需要使用某種“依賴稀釋”的方法。2.3.3使用概括統(tǒng)計量擬合聚類模型概括統(tǒng)計量可以用來擬合點過程模型。通過求解公式(2.26)來估計參數(shù)日。(2.26)E「[S(X)]二S(x)

(2.26)這里的s(x)是點模式X的統(tǒng)計量S的觀測值,并且公式左邊是由參數(shù)日確定的模型的統(tǒng)計量s的理論平均值。例如可以通過對比k函數(shù)和它的理論值來求出參數(shù)e,進而確定點過程的模型。在第2.3.1節(jié)中,可以知道能從數(shù)據(jù)集中精確地求得點過程的K函數(shù)。以Thomas過程為例,它的K函數(shù)是:22142K_(r)=r-(1-e-)(2.27)這里的參數(shù)日=(k*,。)。通過確定參數(shù)日=(4匕。)來達到K£r)和待估計K函數(shù)的最佳匹配。這種最佳匹配是按照下式(2.28),即在區(qū)間[a,b]上,兩個函數(shù)的最小化離差。bpD(「)=H^P-K式r)q|dr(2.28)a其中,0wa<b,p,q>0是指數(shù)。除K函數(shù)之外,還可以使用其他如F、G和J等函數(shù)確定模型的參數(shù)9,進而求出點過程的模型。異質(zhì)性引入現(xiàn)實中,很多點模式的密度都是非齊次或異質(zhì)的,因此在分析點模式中要考慮這種異質(zhì)性。對于非齊次過程,K函數(shù)的一種改進版本是非齊次K函數(shù)。如果九(U)是點過程X的真實密度函數(shù),則非齊次K函數(shù)會每個點Xi添加權重Wi=1/兒(%)。非齊次K函數(shù)定義如下:1,、Kinhom(r)=Er--1{0||u-Xj||^r}|uX](2.29)XjX(Xj)如果過程是齊次的,則K(u)是常量并且Kinhom(r)退化為公式()的K函數(shù)密度函數(shù)為Mu)的非齊次泊松過程,相應的非齊次K函數(shù)的理論值是:(2.30)2(2.30)Kinhom,pois(r)一一r這與齊次過程相同

非齊次K函數(shù)的估計量是:11{||x-%||三r}(2.31)一一1D2=工?、,i,(x)Kinhom(r)A(2.31)一一1D2=工?、,i,(x)這里的e(u,v,r)是邊緣糾正,^u)是密度函數(shù)Mu)的估計量。公式(2.30)分母的D可以是研究區(qū)的面積D1=area(W),也可以是如果密度被正確估計,則D2是研究區(qū)面積的無偏估計。在具體操作中,為了避免過擬合現(xiàn)象發(fā)生,通常先用參數(shù)模型來獲得密度估計量Mu),然后再估計非齊次K函數(shù)。局部特征探索探索點模式局部特征的技術包括LISA、最近鄰整理法和數(shù)據(jù)銳化[70]。在LISA方法中,一個概括統(tǒng)計量被分配給每個數(shù)據(jù)點,例如K函數(shù)是每個數(shù)據(jù)點的局部K函數(shù)的總和。通過比較這些局部函數(shù),然后用主成分分析等方法將這些函數(shù)分組。最近鄰整理法是基于點模式中所有點的最近鄰距離,將點分成兩類:特征和噪聲。這種方法非常快速并且實用。在數(shù)據(jù)銳化中,所有點之間相互施加吸引力,然后向著合力的方向移動。這種方法得到的每個分類呈現(xiàn)線性形態(tài)。2.4吉布斯模型吉布斯模型構建統(tǒng)計模型的一種方法就是寫出它的概率密度函數(shù)。這樣做的好處在于:概率密度函數(shù)反映了概率的性質(zhì);概率密度函數(shù)其中的項或因子可以解釋為模型的“元素”;很容易引入能夠反映模型對協(xié)變量依賴性的項。只要概率密度函數(shù)在實際中容易計算得出,那么這種方法非常實用。

通過寫出概率密度函數(shù)而建立的空間點過程模型稱為“吉布斯過程”在點過程中,概率密度函數(shù)是一個定義在一系列位置X={xi,,xn}(XiwW,n之0)的函數(shù)f(x)。其中點的數(shù)量n是不固定的,也可能是0,除了這個性質(zhì),點過程的概率密度函數(shù)與一般的概率密度函數(shù)極為相似。對于任意非負的積分函數(shù)h,點過程的概率密度如下:E[h(X)]=3.1()f()一W”1...h({為,..Xn})f({Xi,...Xn})d%..dXn(2.32)n=1n!WW|W|是研究區(qū)W的面積。特別地,包含n個點的點模式的概率是e"Pn=P{n(X)=n}...f({x1,...xn})dx1...dxn(2.33)n!WW對于n至1,則p0=P{n(X)=0}=e^f仲)。給定n個點,則位置x1「?xn的條件聯(lián)合密度函數(shù)是f({x1,…xn})/pn。下面首先介紹泊松過程的概率密度函數(shù),然后引入隨機依賴性建立點對相互作用模型,最后根據(jù)條件密度而不是概率密度來確定吉布斯過程。.泊松過程的概率密度密度為1的齊次泊松過程的概率密度函數(shù)f(X)三1其中n(X)是點模式X的點的數(shù)量,并且常量”是(2.34)(2.35)(2.36)=e(1-')|W|(2.34)(2.35)(2.36)密度函數(shù)為Mu)的非齊次泊松過程的概率密度函數(shù)是nf(X)=:<7(x)其中常量是一_'w(1—'(u))du]一e概率密度函數(shù)(2.35)和(2.36)是每個點xi的結果。這反映了泊松過程的條件獨立性。.點對相互作用模型:

為了建立能夠表現(xiàn)點之間相互作用(點之間的隨機依賴性)的空間過程,需要在概率密度函數(shù)中引入依賴于更多點的項。最簡單的模型就是點對相互作用模型,它的概率密度函數(shù)如下:n(X)f(X)「二b(j)子(Xi,Xj)(2.37)這里的“是一個標準化常數(shù),b(u)(uwW)是“一階”項,并且c(u,v)(u,vwW)是“二階”項或“點對相互作用”項。點對相互作用項引入了點c(u,v)=c(u,v)=c(v,u)。只要概率密度的結b和Co在實踐中,可以選擇如下相hardcore過程如果b(u)三P,則「1c(u,v)「1c(u,v)=<°||u-v11r||u-v||<r(2.38)其中||u-v||〉r是u和v之間的距離,并且r>0是一個固定的距離,則密度函數(shù)是faPn(X)f(X)faPn(X)f(X)=10反之||x^-Xj||,Si^jBt(2.39)(2.40)(2.41)(2.40)(2.41)這就是密度為P的泊松過程的概率密度函數(shù)。將這個過程稱為hardcore過程[73]Strauss過程它是hardcore過程的廣義形式,假定b(u)三P,則;1||u-v||>rc(u,v)='/||u-v|pr這里是一個參數(shù)。相應的概率密度函數(shù)變?yōu)閒(X)_-n(X)s(X)其中s(X)是X中點對距離小于r的個數(shù)

參數(shù)不控制著點之間相互作用的“強度”。如果¥=1,則模型退化為密度為P的泊松模型。如果==0,則模型時hardcore過程。當0<?<1時,過程在點之間表現(xiàn)為抑制性(負相關性)。當¥>1時,公式(2.41)是不可積的。因此Strauss過程僅定義在0<?<1,并且它是一個抑制性模型,是典型的吉布斯模型[73]并且它是一個抑制性模型,是典型的吉布斯模型[73]o其它點對相互作用模型c(u,v)’0二,c(u,v)’0二,1||u-v||^hh=:||u-v卜r||u-v||r(2.42)Soft-core相互作用,當尺度>>0并且索引0<氐<1時c(u,v)=(||u-v||)2c(u,v)=(||u-v||)2八.(2.43)Diggle-Gates-Stibbard相互作用,相互作用值域是Psin(口u-U)2||u-v|ppc(u,v)=2:11"(2.44)1||u-v||:Diggle-Gratton相互作用,hardcore距離是6,相互作用距離是P,索引是0||u-v||£、<||u-v『:(2.45)i||u-v||-6)c(u,v)=《<||u-v『:(2.45)P-6)1||u-v||>P逐點連續(xù)相互作用c(||u-v||)是||u-v||的分段函數(shù)。3.條件密度分析吉布斯點過程的主要工具是條件密度K(u,X)。一般來說,在給定除位置u外其余點過程信息的條件下,才能確定位置u上點過程的條件概率密度。關于條件密度的正式定義參考[74]0非正式地,在位置u的無限維鄰居中,如下圖所示,位置u上點過程的條件概率密度是九(u,X)。圖2.2條件概率定義的示意圖位置u上的條件概率密度通過下式(2.46)能與概率密度函數(shù)f建立關系:這里uX■(u,X)=f(X一{u})

f(X)(2.46)密度九為齊次泊松過程的條件密度是■(u,X)=這里uX■(u,X)=f(X一{u})

f(X)(2.46)密度九為齊次泊松過程的條件密度是■(u,X)=■(2.47)而密度函數(shù)為Mu)的非齊次泊松過程的條件密度是■(u,X)='Nu)(2.48)因此對于一個泊松過程來說,其條件密度不依賴于X,因為泊松過程的點是相互獨立的。對于一般的點對相互作用過程來說,條件密度如下n(X)■(u,X)=b(u)二c(u,xi)

i1(2.49)對于hardcore過程,條件密度是c(u,v)l|u-Vi||r反之(2.50)對于Strauss過程,條件密度是(2.51)(u,X)「:t(u,X)(2.51)這里t(u,X)=s(Xu{u})-s(X)是位于以位置u為中心半徑為r的圓中點的數(shù)量,如下圖。圖2.3Strauss過程示意圖通過公式(2.46),點過程的條件密度決定了其概率密度。因此,可以用條件密度來定義點過程。條件密度是吉布斯過程最主要的建模工具:它有直觀的解釋,并且比概率密度更易計算得到。擬合吉布斯模型對于大多數(shù)點過程模型來說,極大似然估計是很難處理的。至少要用蒙特卡羅模擬來估計似然函數(shù)。另一種解決方法是求對數(shù)偽似然函數(shù)的最大值,即logPLQX)八log(xi;X)-W(u,X)du(2.52)這與泊松過程的似然函數(shù)非常相似。一般地,它不是一個真正的似然函數(shù),但是二10gPL(9)=0是一個無偏估計等式。因此極大偽似然函數(shù)的估計量是漸進無偏的、一致的并且在一定條件下漸進正態(tài)的。極大偽似然估計的最大優(yōu)勢在于條件密度Mu,x)是很容易計算的,這樣偽似然函數(shù)就容易計算并能夠最大化。最大的缺點是在小樣本中極大偽似然估計的有偏性和無效性。驗證擬合的吉布斯模型(1)擬合優(yōu)度檢驗采用擬合優(yōu)度檢驗吉布斯模型要比檢驗泊松模型困難很多。對于一個擬合好的吉布斯過程,沒有理論可以支持72擬合優(yōu)度檢驗或Kolmogorov-Smirnov檢驗。對于一個吉布斯過程而言,在一個給定區(qū)域所有點的預測平均數(shù)量在閉合表達式中是位置的。因此,在一個閉合表達式中,72檢驗的合適的檢驗統(tǒng)計量是不能夠獲得的,只能得到這個理論統(tǒng)計量的空分布。對于擬合好的吉布斯模型來說,可能的一種檢驗方法是使用依賴于概括統(tǒng)計量K和G的擬合優(yōu)度方法。(2)殘差驗證吉布斯模型的殘差直到最近才給出定義[76][77]0在區(qū)域BUR2中全部殘差定義如下:R(B)=n(X-B)-舊4u,X)du(2.53)這里n(Xc8)池區(qū)域B中觀測到的點的數(shù)量,并且,?(u,X)是擬合好的模型的條件密度,可以從點模式X中估計得到。如果擬合好的模型是正確的,殘差的均值將是0.除了泊松過程的密度雙u)被替換成與吉布斯過程的條件密度,?(u,X)之外,這個定義基本上與泊松過程的殘差定義相似。具體的殘差檢驗技術有繪制殘差圖、Q-Q圖等。2.5連續(xù)變化現(xiàn)象與離散變化現(xiàn)象.連續(xù)變化現(xiàn)象許多空間現(xiàn)象都是連續(xù)變化的,例如地形測量中的高程、空氣污染濃度、土壤有機質(zhì)含量、降水量等。地統(tǒng)計是以這類空間問題為研究對象的理論。空間點模式主要關注事件空間位置的點分布模式,即主要研究空間隨機場的屬性。與之相比,雖然地統(tǒng)計中的空間連續(xù)數(shù)據(jù)是以樣本點為基礎,但其主要關注的是要素屬性值的空間模式。在地統(tǒng)計分析中,有兩個主要目標:估計與預測[77]0估計是指推斷隨機模型的參數(shù)。包括直接關注的參數(shù),如定義一個響應變量和一個解釋變量的回歸關系的參數(shù),還有間接關注的參數(shù),如定義隨機過程S(x)協(xié)方差結構的參數(shù)。預測是指推斷隨機過程S(x)的實現(xiàn)。在具體應用中,特定的預測目的包括預測任意位置的S(x)的真實值,還包括預測滿足某種條件的完整的隨機過程S(x),如預測S(x)的平均值,還可以在某個閾值以上或以下的S(x)0另外還可能有第三種推斷問題,即假設檢驗。例如在回歸建模時,是否采用某個解釋變量。Diggle,Tawn和Moyeed在已假設的隨機模型下基于正規(guī)的統(tǒng)計方法提出的一種處理地統(tǒng)計問題方法[78]0在地統(tǒng)計中,假設這個隨機模型是廣義線性高斯模型,它能夠捕捉到大量的空間連續(xù)變化現(xiàn)象,并且可以采用Box-Cox、對數(shù)等轉換對其進行擴展。在廣義線性高斯模型下,相應的參數(shù)估計包括趨勢估計、半方差圖估計等??臻g預測方法有簡單克里格、普通克里格等,對于多變量模型還有協(xié)同克里格方法。上述是從經(jīng)典的或非貝葉斯角度來討論統(tǒng)計推斷問題的,這種觀點把參數(shù)估計與預測看做兩個分開的問題。這樣做有兩個原因,第一,在非貝葉斯下,參數(shù)值與預測值有著根本的區(qū)別,一個參數(shù)有一個固定但未知的值,它反映了產(chǎn)生觀測值的隨機過程的某方面性質(zhì),而一個預測值是一個與相同隨機過程相關的隨機變量的真實值。第二,在具體的地統(tǒng)計操作中,估計與預測是分開進行的,首先要建立模型并估計參數(shù),然后把已估計好的參數(shù)當作真實值代入預測公式中進行預測。因此,這樣忽略參數(shù)的不確定性會對預測的精度產(chǎn)生影響。貝葉斯方法會很好的解決這個問題。一般來說,在實踐中,貝葉斯方法應用更為廣泛。.離散變化現(xiàn)象很多空間現(xiàn)象都發(fā)生在離散的單元上。這種單元可以是規(guī)則的格子或柵格,也可以是不規(guī)則的多邊形。相應地就有格數(shù)據(jù)、像素數(shù)據(jù)和面積單元數(shù)據(jù)(指在尺寸和形狀上不規(guī)則的面積單元)三種類型。對離散空間變化現(xiàn)象的分析在很多領域都有應用,例如影像分析、農(nóng)田試驗、疾病制圖、環(huán)境過程、空間經(jīng)濟和對由空間隨機過程產(chǎn)生的大數(shù)據(jù)集有關的有限維分布的近似。在地理方面,土壤類型區(qū)、土地利用類型區(qū)、行政區(qū)、人口普查區(qū)等是離散變化的,也可以歸為此類研究問題。對于離散變化的分析與連續(xù)變化有顯著的不同,其目標是解釋與平滑而不是插值與預測[79]

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論