空間聚類分析_第1頁
空間聚類分析_第2頁
空間聚類分析_第3頁
空間聚類分析_第4頁
空間聚類分析_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、v1.0可編輯可修改1空間聚類的內(nèi)涵理解定義空間聚類作為聚類分析的一個研究方向,是指將空間數(shù)據(jù)集中的對象分成由 相似對象組成的類。同類中的對象間具有較高的相似度, 而不同類中的對象間差 異較大。作為一種無監(jiān)督的學習方法,空間聚類不需要任何先驗知識。這是聚 類的基本思想,因此空間聚類也是要滿足這個基本思想。對空間數(shù)據(jù)聚類的要求25 可伸縮性;許多聚類算法在小于200個數(shù)據(jù)對象的小數(shù)據(jù)集合上工作得很好;但是, 一個大規(guī)模數(shù)據(jù)庫可能包含幾百萬個對象,在這樣的大數(shù)據(jù)集合樣本上進行聚類 可能會導致有偏的結(jié)果。我們需要具有高度可伸縮性的聚類算法。 發(fā)現(xiàn)任意形狀的聚類;許多聚類算法基于歐幾里得或者曼哈頓距離

2、度量來決定聚類?;谶@樣的距離度量的算法趨向于發(fā)現(xiàn)具有相近尺度和密度的球狀簇。但是,一個簇可能是任意形狀的。提出能發(fā)現(xiàn)任意形狀簇的算法是很重要的。(雖然聚類分析屬于非監(jiān)督學習方法,但在某些情況下一些基本的客觀規(guī)律也會或多或少指示聚類分析的 結(jié)果) 用于決定輸入?yún)?shù)的領域知識最小化;許多聚類算法在聚類分析中要求用戶輸入一定的參數(shù),例如希望產(chǎn)生的簇的 數(shù)目。聚類結(jié)果對于輸入?yún)?shù)十分敏感。 參數(shù)通常很難確定,特別是對于包含高 維對象的數(shù)據(jù)集來說。這樣不僅加重了用戶的負擔,也使得聚類的質(zhì)量難以控制。 對噪聲數(shù)據(jù)不敏感;絕大多數(shù)現(xiàn)實中的數(shù)據(jù)庫都包含了孤立點, 缺失,或者錯誤的數(shù)據(jù)。一些聚 11v1.0可

3、編輯可修改類算法對于這樣的數(shù)據(jù)敏感,可能導致低質(zhì)量的聚類結(jié)果。 對于輸入記錄的順序不敏感;一些聚類算法對于輸入數(shù)據(jù)的順序是敏感的。 例如,同一個數(shù)據(jù)集合,當以 不同的順序交給同一個算法時,可能生成差別很大的聚類結(jié)果。開發(fā)對數(shù)據(jù)輸入 順序不敏感的算法具有重要的意義。 處理高維數(shù)據(jù);一個數(shù)據(jù)庫或者數(shù)據(jù)倉庫可能包含若干維或者屬性。許多聚類算法擅長處理 低維的數(shù)據(jù),可能只涉及兩到三維。人類的眼睛在最多三維的情況下能夠很好地 判斷聚類的質(zhì)量。在高維空間中聚類數(shù)據(jù)對象是非常有挑戰(zhàn)性的,特別是考慮到這樣的數(shù)據(jù)可能分布非常稀疏,而且高度偏斜。2空間聚類的主要算法空間聚類的主要方法有五大類:劃分聚類算法、層次聚

4、類算法、基于密度的23方法、基于網(wǎng)格的方法和基于模型的聚類方法。圖2-1空間聚類算法分類劃分聚類算法主要包括:K-means K-medoids、PAM CLARA K-模、K-原型、EM和CLARANS 22v1.0可編輯可修改等。基本思想:給定一個包含n個對象或數(shù)據(jù)的集合,將數(shù)據(jù)集劃分為k個子集, 其中每個子集均代表一個聚類(k Spatial StatisticsToolsAnalyzing Patterns 選Spatial Autocorrelation(MoransI)計算 Morans I ,選 High-LowClusteri ng(Getis-Ord Ge neral G)

5、計算吉瑞 C?;诿娴木植烤垲悪z驗Anselin提出了一個局部莫蘭指數(shù)(Local Moran Index )用來檢驗局部地 區(qū)是否存在相似或者相異的觀察值聚集在一起。區(qū)域i的局部莫蘭指數(shù)用來度量 區(qū)域i和它領域之間的關聯(lián)程度,定義為:正的Ii表示一個高值被高值所包圍(高-高)或者是一個低值被低值所包圍(低-低);負的Ii表示一個低值被高值所包圍或與之相反的情況。類似地,G指數(shù)(Getis and Ord,1992)用來檢驗局部地區(qū)是否存在顯著地高值或低值。G定義如下:1010公式中的符號與Morans I指數(shù)相同,式中對j的累加不包括區(qū)域i本身, 即j不等于i ;高的G代表高值的樣本集中在一

6、起,而低的G值表示低值的樣本 集中在一起。在ArcGIS的空間統(tǒng)計工具包中,計算局部莫蘭指數(shù)和G指數(shù):ArcToolbox選 Cluster and Outlier AnalSpatial Statistics ToolsMapp ing Clustersv1.0可編輯可修改ysis(A nsel in Local Mora n In dex)計算局部莫蘭指數(shù),選 Hot Spot An alysis(Getis-Ord G i*)計算 G 指數(shù)。計算結(jié)果分別用“ Cluster and Outlier Analysi s with Rendering”和“ Hot Spot Analysis

7、 with Rendering” 的工具來繪圖顯示。4應用實例本案例是對于中國南部地區(qū)臺語地名的空間分布進行區(qū)別是隨機分布還是存在集聚性,實現(xiàn)過程是利用 SaTScan軟件(版本)來完成。1、用ArcGIS準備SaTScan軟件的數(shù)據(jù)在SaTScan軟件平臺下,用伯努利模型執(zhí)行基于點的空間聚類分析需要定義 三個數(shù)據(jù)文件,即事件文件(包含區(qū)位ID和每個區(qū)位的事件數(shù)),非事件文件(包 含區(qū)位ID和每個區(qū)位的非事件數(shù))以及坐標文件(包含區(qū)位ID和對應的笛卡爾 坐標或經(jīng)緯度坐標)。這一步就是在ArcGIS中定義好相關屬性,如必須給圖層文 件加入變量的坐標(Add XYCoordinates),并將屬性

8、表輸出為 dBase文件格式。 如下圖。1111v1.0可編輯可修改圖4-1圖層文件屬性表圖中的TAI是事件屬性,POINT_X POINT_Y是加入的坐標屬性,NONTAI是根據(jù)TAI計算出的非事件屬性,這些屬性是不可缺少的。2、用SaTScan軟件執(zhí)行空間聚類分析運行SaTScan軟件,選擇Creat New Session,系統(tǒng)彈出一個新的對話框,如圖。 LaTkiH hr Ik jrd uci 7” 右# i-UKls d jnFiiiQ 01212v1.0可編輯可修改? Lnpwl Anal御i s ZmtTut圖4-2 SaTScan軟件創(chuàng)建新任務=r MohHiWar勺 Pte

9、3000Ywr Moth2COOBe- File:re PredionITczw * lerHe ntt JJ*y13132ZD ZZl出的dBase文件作為輸入文件,彈出對話框,如圖所示。圖 4-4 Import Wiard對話框設置 Case FileC pqi diiuLi.iiCgidir歸C Im*Gf i J P 工 l. :15E -.Papidl.q.I.Hgn(f Aivivn Nal)iKancc:J a圖4-3空間聚類分析文件設置對話框在第一個標簽In put下使用Import Wiard 來定義事件文件(Case File ):選擇上面輸按照上述的步驟定義好 Case

10、File、Control File 以及Coordinates File 。在第二個標簽Analysis下進行選擇操作,按照下圖所示設置。v1.0可編輯可修改Liqpul 上曲1尹讓 utpiLLq- ArnslfpsRUrEp4tiv4 Piht*1y1Purely Teftparal.,j 業(yè):心 2 in -a5j a I: al Vari ati wn in T?npor si *rcd.rFr3 v JkfaJ.y-11 a,HitWIF TcrpotsISjWi-Tifi*PMkIsI0 iScu 5ta-i d iti d . Fl!3Qibn9 rruiil) a;T triY

11、ut t ml HvlI k. n.m*.ii bJ.呼*厲衛(wèi)蠹遼F-rOCiif-Jiit 9 H.1心13昭nQ-Qt i na a1* 呂曠理Fa.Kn lr or Arc#?歎醒肚“旨1 障 RhI AKJhgl w L&* ItMtie此:c空衍r=o“Util *. 5 jiy? T e BLT皿th,Ll9.yLwcfh 1 AcKanc ed 圖 4-5 Analysis 設置在第三個標簽Output下,輸入cluster作為結(jié)果輸出文件,在 dBase下點擊所有的選項按鈕。最后運行3、分析結(jié)果的制圖在ArcGIS下,基于關聯(lián)碼Location ID和中的LOCD# dBase文件連到圖層文件上。結(jié)果如下圖。1414v1.0可編輯可修改*蒔聚圖4-6分析結(jié)果5參考文獻1 王法輝著.基于GIS的數(shù)量方法與應用M.姜世國,滕駿華譯.北京:商 務印書館,2009.2 馬程.空間聚類研究J

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論