基于空間統(tǒng)計(jì)學(xué)的空間關(guān)聯(lián)規(guī)則挖掘方法與應(yīng)用_第1頁
基于空間統(tǒng)計(jì)學(xué)的空間關(guān)聯(lián)規(guī)則挖掘方法與應(yīng)用_第2頁
基于空間統(tǒng)計(jì)學(xué)的空間關(guān)聯(lián)規(guī)則挖掘方法與應(yīng)用_第3頁
基于空間統(tǒng)計(jì)學(xué)的空間關(guān)聯(lián)規(guī)則挖掘方法與應(yīng)用_第4頁
基于空間統(tǒng)計(jì)學(xué)的空間關(guān)聯(lián)規(guī)則挖掘方法與應(yīng)用_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、基于空間統(tǒng)計(jì)學(xué)的空間關(guān)聯(lián)規(guī)則挖掘方法與應(yīng)用    基于空間統(tǒng)計(jì)學(xué)的空間關(guān)聯(lián)規(guī)則挖掘方法與應(yīng)用2011-03-14 09:36 來源: 瀏覽次數(shù): 關(guān)鍵字: 統(tǒng)計(jì)論文摘要:空間關(guān)聯(lián)規(guī)則知識(shí)的發(fā)現(xiàn)是空間數(shù)據(jù)挖掘一個(gè)重要的方面,而把空間統(tǒng)計(jì)分析技術(shù)應(yīng)用于空間數(shù)據(jù)庫中的空間關(guān)聯(lián)規(guī)則挖掘,是一種不同于傳統(tǒng)方法的可用技術(shù)。該方法首先建立空間對(duì)象之間的空間權(quán)重矩陣,然后采用MoransI統(tǒng)計(jì)量等來發(fā)現(xiàn)全局空間相關(guān)關(guān)系,利用G統(tǒng)計(jì)量等來發(fā)現(xiàn)局部空間相關(guān)關(guān)系,并通過實(shí)例分析證明了該方法的有效性。關(guān)鍵字:空間統(tǒng)計(jì)學(xué);空間數(shù)據(jù)挖掘;空間關(guān)聯(lián)規(guī)則挖掘0引言空間關(guān)聯(lián)規(guī)則知識(shí)的發(fā)現(xiàn)

2、是空間數(shù)據(jù)挖掘一個(gè)重要的方面,它主要是要找出空間數(shù)據(jù)庫中空間對(duì)象間潛在有用的空間相關(guān)關(guān)系。有關(guān)空間關(guān)聯(lián)規(guī)則挖掘的算法有許多,比如由R.Agrawal等1994年提出的Apriori算法1,2,J.S.Park等提出的基于Hash表的挖掘方法3,D.Malerba等提出的ILP(InductiveLogicProgramming)方法4,J.W.Han等1995年提出的多層次關(guān)聯(lián)規(guī)則挖掘方法8,這些方法和技術(shù)都是從數(shù)據(jù)庫的事務(wù)集中找出頻繁項(xiàng)集而挖掘關(guān)聯(lián)規(guī)則,具有規(guī)范的規(guī)則形式。利用空間統(tǒng)計(jì)學(xué)挖掘空間關(guān)聯(lián)規(guī)則,是一種廣義上的空間關(guān)聯(lián)規(guī)則,它沒有固定的規(guī)則形式或格式,一般用自然語言描述。這類空間關(guān)聯(lián)

3、規(guī)則在空間決策支持中具有十分重要的意義。目前,空間統(tǒng)計(jì)學(xué)已廣泛應(yīng)用于農(nóng)業(yè)、地質(zhì)、土壤、水文、環(huán)境、經(jīng)濟(jì)、人口統(tǒng)計(jì)等領(lǐng)域10。不少學(xué)者先后對(duì)空間統(tǒng)計(jì)的一些基本理論和方法進(jìn)行了廣泛研究,形成了一些新的統(tǒng)計(jì)理論和應(yīng)用方法。基于空間統(tǒng)計(jì)學(xué)的空間關(guān)聯(lián)規(guī)則挖掘包括空間權(quán)重矩陣的構(gòu)建、全局與局部空間自相關(guān)、空間關(guān)聯(lián)的度量與檢驗(yàn)、空間關(guān)聯(lián)知識(shí)的識(shí)別與描述等。本文將詳細(xì)介紹相關(guān)的理論和計(jì)算方法,并以湖南省14個(gè)市州2004-2006年連續(xù)三年的GDP增長率數(shù)據(jù)為研究對(duì)象,說1空間統(tǒng)計(jì)學(xué)基本理論和相關(guān)性質(zhì)1.1空間權(quán)重矩陣空間數(shù)據(jù)庫中空間對(duì)象間的拓?fù)潢P(guān)系提供了空間對(duì)象彼此間的空間連接或空間鄰近的基本度量關(guān)系,空間

4、連接或空間鄰近關(guān)系廣泛應(yīng)用于空間數(shù)據(jù)分析中。通常我們采用一個(gè)二維對(duì)稱空間權(quán)重矩陣W來表達(dá)n個(gè)空間對(duì)象(位置)間的空間鄰近關(guān)系,一般采用鄰接標(biāo)準(zhǔn)或距離標(biāo)準(zhǔn)來度量??臻g權(quán)重矩陣W的形式如(1-1)所示,空間權(quán)重矩陣的定義是空間統(tǒng)計(jì)學(xué)與傳統(tǒng)統(tǒng)計(jì)學(xué)的重要區(qū)別之一。利用空間數(shù)據(jù)的拓?fù)潢P(guān)系,可以比較容易地構(gòu)建空間權(quán)重矩陣。              (1-1)根據(jù)鄰接標(biāo)準(zhǔn),當(dāng)空間對(duì)象j和對(duì)象i相鄰時(shí),空間權(quán)重矩陣元素wij為1,其它情況均為0。矩陣元素值的表達(dá)式形式如(1-2)

5、所示。                                           (1-2)根據(jù)距離標(biāo)準(zhǔn),當(dāng)空間對(duì)象j和對(duì)象i的距離在給定距離閥值d之內(nèi)時(shí),空間權(quán)重矩陣元

6、素wij為1,否則為0。矩陣元素的取值表達(dá)式如(1-3)所示。                  (1-3)上述兩種鄰近關(guān)系規(guī)則可以分別使用,也可以同時(shí)使用。如果兩個(gè)對(duì)象客觀上空間不相鄰,但它們之間在研究的某一方面存在緊密聯(lián)系時(shí),可以將它們視為一種相鄰關(guān)系,此時(shí)即用到距離規(guī)則。所以,基于距離規(guī)則建立空間權(quán)重矩陣的目的是為了調(diào)整合理距離范圍內(nèi)對(duì)象間的空間鄰接關(guān)系。為了便于解釋,通常將空間權(quán)重矩陣進(jìn)行標(biāo)準(zhǔn)化處理(Anselin,1

7、988),以使得每個(gè)元素值的范圍界于01之間,標(biāo)準(zhǔn)化的形式如(1-4)所示。                              (1-4)1.2全局空間自相關(guān)的測度指標(biāo)一MoransIMoran,sI統(tǒng)計(jì)量是一個(gè)應(yīng)用非常廣泛的全局空間自相關(guān)統(tǒng)計(jì)量,其定義形式如(1-5)所示。  &

8、#160;                             (1-5)其中,xi表示在位置i處空間對(duì)象的觀測值,wij是空間權(quán)重矩陣的元素。根據(jù)空間數(shù)據(jù)分布狀態(tài)可以計(jì)算MoransI的期望值和方差10。對(duì)于正態(tài)分布:        

9、                             (1-6)                     

10、         (1-7)對(duì)于隨機(jī)分布:                         (1-8)               

11、;                       (1-9)其中,wi*和w*i分別表示權(quán)重矩陣中第i行和第i列之和。利用式(1-10)可以檢驗(yàn)n個(gè)空間對(duì)象間是否存在空間自相關(guān)關(guān)系。                

12、0;             (1-10)利用MoransI統(tǒng)計(jì)量可以測度空間對(duì)象間的自相關(guān)性,發(fā)現(xiàn)對(duì)象觀測值的空間分布差異性和相關(guān)性。當(dāng)MoransI為正時(shí),在距離d范圍內(nèi)的觀測值之間存在顯著的正相關(guān),即大的觀測值和大的觀測值集聚在一起,小的觀測值和小的觀測值集聚在一起,呈現(xiàn)“物以類集”的分布特征;當(dāng)MoransI為負(fù)時(shí),在距離d范圍內(nèi)的觀測值之間存在顯著負(fù)相關(guān),即大的觀測值傾向于和小的觀測值集聚在一起,呈現(xiàn)空間分散格局;當(dāng)MoransI趨近于零時(shí),觀測值之間不存在空間自相

13、關(guān)性,屬于獨(dú)立隨機(jī)分布。1.3局部空間自相關(guān)的測度指標(biāo)G統(tǒng)計(jì)量Getis和Ord(1992)研究了用來衡量空間對(duì)象間的局部空間關(guān)聯(lián)性的G統(tǒng)計(jì)量,在空間位置i的G統(tǒng)計(jì)量的表達(dá)式定義如下:                       (1-11)其期望值和方差分別為:         

14、0;                                (1-12)                 

15、60;      (1-13)其中,xi是對(duì)象在位置i的觀測值,wij是空間權(quán)重矩陣的元素,n是觀測值的個(gè)數(shù)。Getis和Ord在1994年定義了Gi的標(biāo)準(zhǔn)化形式:                  (1-14)其中,當(dāng)Z(Gi)為正值時(shí),說明位置i被數(shù)值大的屬性值所包圍;當(dāng)Z(Gi)為負(fù)值時(shí),說明位置i被數(shù)值小的屬性值所包圍。Z(Gi)統(tǒng)計(jì)可用來判斷空間聚類是為大數(shù)值型或小數(shù)

16、值型。但是,Z(Gi)不能根據(jù)其正負(fù)號(hào)判斷空間類型的相似性12。2實(shí)例分析下面以湖南省各市州2004-2006年的GDP增長率分析為例,利用空間統(tǒng)計(jì)學(xué)分析方法挖掘各市州GDP增長率之間存在的空間關(guān)聯(lián)知識(shí)的有效性。湖南省各市州2004年、2005年和2006年的GDP增長率見表2-1。                           &

17、#160;           表2-1湖南省各市州2004年一2006年GDP增長率一覽表                        說明:數(shù)據(jù)來自湖南統(tǒng)計(jì)信息網(wǎng)13。根據(jù)湖南省各市州的拓?fù)淇臻g相鄰關(guān)系建立各市州邊界多邊形的拓?fù)潢P(guān)系,我們利用相鄰關(guān)系圖來直觀的表達(dá)

18、(如圖2-1),圖上各節(jié)點(diǎn)中的數(shù)字代表各市州相應(yīng)的編號(hào),節(jié)點(diǎn)間有邊相連,說明兩市州在空間上具有相鄰關(guān)系。根據(jù)此相鄰關(guān)系圖,建立各市州的空間權(quán)重矩陣如表2-2所示。圖2-1湖南省各市州空間拓?fù)潢P(guān)系的相鄰關(guān)系圖(節(jié)點(diǎn)上的數(shù)字代表各市州編號(hào))                                

19、                  表2-2各市州基于鄰接標(biāo)準(zhǔn)的空間權(quán)重矩陣                      利用湖南省各市州2004年到2006年連續(xù)3年的平均GDP增長率(見表2-1)這個(gè)指標(biāo)來進(jìn)行分析。根

20、據(jù)空間權(quán)重矩陣,計(jì)算所得的各市州全局MoransI和局部G統(tǒng)計(jì)值分別見表2-3和表2-4。                                    表2-3全局空間自相關(guān)MoransI及其Z(I)值   &

21、#160;                由表2-4可以得到,由于MoransI為正值,說明各市州的GDP增長率在空間上存在明顯的相關(guān)性,不是隨機(jī)分布的,而是存在必然的內(nèi)在聯(lián)系,GDP增長率高的區(qū)域和GDP增長率高的區(qū)域有相互鄰接的趨勢,低增長率區(qū)域與低增長率區(qū)域有相互鄰接的趨勢。              

22、                  表2-4局部G統(tǒng)計(jì)量及其Z(Gi)值                    根據(jù)表2-5中的G統(tǒng)計(jì)量及其Z值,我們可以發(fā)現(xiàn)湖南省各市州局部區(qū)域之間既存在顯著的正的空間關(guān)聯(lián),又存在顯著的負(fù)的空間關(guān)聯(lián)。懷化、

23、湘西、常德、郴州、邵陽、張家界和永州市的Z值為負(fù),說明這些市被平均GDP增長率低的市所包圍;岳陽、婁底、衡陽、湘潭、株洲、長沙和益陽的Z值為正,說明這些市被平均GDP增長率高的市所包圍。通過分析可以發(fā)現(xiàn),長沙、湘潭、婁底、株洲、岳陽五市州平均GDP增長率較高的地區(qū)連成一片,形成湖南省東部地區(qū)的經(jīng)濟(jì)高速發(fā)展區(qū)域;常德和張家界連成一片,形成湖南省北部地區(qū)的經(jīng)濟(jì)高速發(fā)展區(qū)域;從而可以看出,增長率較高的地區(qū)有相互鄰接的趨勢;增長率較低的地區(qū)有懷化、湘西、衡陽、郴州、邵陽、永州和益陽,即GDP增長率較低的地區(qū)有相互鄰接的趨勢,它們形成湖南省西南部的經(jīng)濟(jì)低速發(fā)展區(qū)域。作為省會(huì)城市的長沙,同時(shí)也是湖南省經(jīng)濟(jì)

24、發(fā)展的中心,其GDP增長率明顯高于省內(nèi)其它城市,而其它增長率較高的城市大部分都與長沙為鄰,說明長沙的經(jīng)濟(jì)發(fā)展對(duì)相鄰地市的經(jīng)濟(jì)發(fā)展存在一定的帶動(dòng)作用。我們可以對(duì)上述發(fā)現(xiàn)的知識(shí)進(jìn)行整理、加工,為進(jìn)一步分析奠定基礎(chǔ),同時(shí)為經(jīng)濟(jì)政策決策的制定提供一定的參考和支持。通過上述的例子,說明了空間統(tǒng)計(jì)分析方法在確定、量化區(qū)域內(nèi)存在的空間關(guān)聯(lián)關(guān)系的正確性和有效性。3結(jié)論基于空間統(tǒng)計(jì)分析技術(shù)進(jìn)行空間關(guān)聯(lián)規(guī)則挖掘的方法,既考慮了空間對(duì)象的空間分布特征,又利用了空間對(duì)象的屬性數(shù)據(jù),因此是一種結(jié)合空間、屬性特征的空間數(shù)據(jù)挖掘方法。本文的實(shí)例證明了該方法所發(fā)現(xiàn)的空間關(guān)聯(lián)知識(shí)與實(shí)際相吻合,說明空間統(tǒng)計(jì)學(xué)方法的有效性和實(shí)用性

25、。但是,對(duì)于非數(shù)值型數(shù)據(jù)而言,空間統(tǒng)計(jì)學(xué)方法還存在一定的局限性。參考文獻(xiàn)1AgrawalR,ImielinskiT,SwamiA.Miningassociationrulesbetweensetsofitemsinlargedatabases.InProceedingsofthe1993InternationalConferenceonManagementofData(SIGMOD93),1993:207-216.2AgrawalR,SrikantR.Fastalgorithmforminingassociationrulesinlargedatabases.InVLDB94,1994:487-499.3JongSooPark,Ming-SyanChen,PhilipS.Yu.AneffectiveHash-BasedAlgorithmforMiningAssociationRules.SIGMOD95,1995:175-18

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論