![GML時(shí)空聚類及時(shí)空序列相似性查詢關(guān)鍵問題研究_第1頁](http://file4.renrendoc.com/view/d0528ac585a64b0c75875f71478ebadb/d0528ac585a64b0c75875f71478ebadb1.gif)
![GML時(shí)空聚類及時(shí)空序列相似性查詢關(guān)鍵問題研究_第2頁](http://file4.renrendoc.com/view/d0528ac585a64b0c75875f71478ebadb/d0528ac585a64b0c75875f71478ebadb2.gif)
![GML時(shí)空聚類及時(shí)空序列相似性查詢關(guān)鍵問題研究_第3頁](http://file4.renrendoc.com/view/d0528ac585a64b0c75875f71478ebadb/d0528ac585a64b0c75875f71478ebadb3.gif)
![GML時(shí)空聚類及時(shí)空序列相似性查詢關(guān)鍵問題研究_第4頁](http://file4.renrendoc.com/view/d0528ac585a64b0c75875f71478ebadb/d0528ac585a64b0c75875f71478ebadb4.gif)
![GML時(shí)空聚類及時(shí)空序列相似性查詢關(guān)鍵問題研究_第5頁](http://file4.renrendoc.com/view/d0528ac585a64b0c75875f71478ebadb/d0528ac585a64b0c75875f71478ebadb5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 隨著現(xiàn)代信息技術(shù)的飛速發(fā)展,GIS作為現(xiàn)代信息技術(shù)的重要組成部分,仍然存在著信息數(shù)據(jù)共亨和互操作的問題。這樣,使得GIS工作缺乏較好的溝通和交流,為此,OGC推出了GML規(guī)范,使得可以在各種GIS數(shù)據(jù)間架起一座橋梁,實(shí)現(xiàn)GIS界的四通八達(dá)。GML(GeogiaphyMarkupLanguage,地理標(biāo)記語言)作為網(wǎng)絡(luò)環(huán)境下的一種地理信息編碼規(guī)范,隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫技術(shù)的不斷發(fā)展,己廣泛應(yīng)用于各個(gè)領(lǐng)域;隨著LES(LocationBasedSendee,基于位置的服務(wù))市場的擴(kuò)大,大量的GML時(shí)空數(shù)據(jù)不斷涌現(xiàn),GML在給人們帶來便利的同時(shí)也產(chǎn)生了一系列的問題,其中最突出的問題是信
2、息過量,信息的利用率不高,對于信息的處理超出了人們的能力。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)面向結(jié)構(gòu)化數(shù)據(jù),無法解決變化的、具有層次結(jié)構(gòu)的GML數(shù)據(jù),為此,本文著力于研究GML時(shí)空聚類的問題。時(shí)間和空間關(guān)系作為世間萬物的基本參照系,使得時(shí)空序列數(shù)據(jù)在現(xiàn)實(shí)生活中廣泛存在,而且數(shù)據(jù)呈現(xiàn)“兒何式”的增長。這些大量的數(shù)據(jù)背后蘊(yùn)藏著眾多具有參考價(jià)值的信息。如何從海量的時(shí)空數(shù)據(jù)中提取知識,分析其結(jié)果,給決策者提供有用建議,己經(jīng)成為目前空間數(shù)據(jù)挖掘亟待解決的問題。目前GML時(shí)空序列相似性查詢的研究還很有價(jià)值空間,特別是針對海量的GML數(shù)據(jù)。針對GML時(shí)空聚類和時(shí)空序列相似性查詢的當(dāng)前研究狀況,本文做了主要以下兒個(gè)方面的研究
3、工作:(1)、詳細(xì)的闡述介紹了GML時(shí)空數(shù)據(jù)的模型。對時(shí)空數(shù)據(jù)的多種模型分析方式做了描述,并針對海量數(shù)據(jù)的存儲闡述了基于HBase的GML時(shí)空數(shù)據(jù)模型。(2)、對GML時(shí)空聚類的算法進(jìn)行了研究,闡述了經(jīng)典的聚類算法(劃分方法、層次方法、基于密度的算法、基于網(wǎng)格的算法、基于模型的算法),并在經(jīng)典算法的基礎(chǔ)之上提出了基于空間鄰近關(guān)系的K均值聚類算法和基于空間鄰域的GML時(shí)空聚類算法,分別的對相應(yīng)算法進(jìn)行的實(shí)驗(yàn)的驗(yàn)證,對空間鄰近關(guān)系的K均值聚類算法進(jìn)行了區(qū)域經(jīng)濟(jì)發(fā)展空間相關(guān)性驗(yàn)證、區(qū)域經(jīng)濟(jì)發(fā)展空間聚類分析和區(qū)域經(jīng)濟(jì)發(fā)展時(shí)空聚類分析等。(3)、對GML時(shí)空序列相似性查詢的研究做了深入的研究,特別是基于
4、空間鄰近關(guān)系的GML時(shí)間序列相似性查詢的研究,采用了我國大陸31個(gè)省直轄市1997年2012年共16年的國民經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù),分別對GDPlper、GDP2per和GDP3per在相似性度量計(jì)算之前要進(jìn)行標(biāo)準(zhǔn)化處理,分析反映區(qū)域經(jīng)濟(jì)發(fā)展水平,反映區(qū)域三大產(chǎn)業(yè)的結(jié)構(gòu)。關(guān)鍵詞:GML,時(shí)空聚類,時(shí)空序列,相似性查詢 iiAbstractWiththerapiddevelopmentofmoderniiifonnationteclmology,GISisanimportantcomponentofmodemiiifonnationteclmology.Tlieproblemofdatasharingan
5、dinteroperabilitystillexist.UlismakesthelackofgoodconununicationbetweenGISandexchanges,forwliich,OGCintroducedtheGMLspecification,makesitpossibleinavarietyofGISasabridgebetweenthedataandrealizeGIScommunityinalldirections.GML(GeographyMarkupLanguage)isanencodingstandardsofgeographyinformationundernet
6、workenvironmentwliichiswidelyusedinvariousareaswiththedevelopmentofcomputertecliiiiqiie,networkteclmiqiieanddatabaseteclmology.Also,alargenumberoftemporaldatainGMLfonnatemergedwiththeexpansionofthemarketoflocationbasedsendeesAseriesofproblemsareproducedtliiougliconveniencearebrouglit.Themostprominen
7、tproblemisinformationoverload,thelowuseratioandtheprocessbeyondthepeoplescapacity.Traditionaldatamillingtecliiiiqiiesforstnictureddata,cantsolvethechange,withGMLdata,liierarchicalstructureforthis,thispaperfocusesontheresearchofGMLproblemspaceclustering.Temporalandspatialrelationsliipasthebasicfiameo
8、freferenceofalltilings,thetimeseriesdataexistwidelyinreallife,andthedatashowageometricgrowthBeliindthesemassivedatacontainsmanyvaluableinformation.Howtoextiactknowledgefromspatialdata,theanalysisoftheresults,providesusefillsuggestionsforthedecisionmakers,hasbecometheurgentproblemofspatialdatamilling
9、.TlieGMLtimeseriessimilarityofqueriesisvaluablespace,especiallyforGMLdata.hiviewoftheGMLspatio-temporalclusteringandtemporalsequencesimilartocunentresearchstatusofinquiiy,thisarticlehasdonetheresearchworkmainlyinthefollowingaspectsFirstly,IlldetailintroducedtheGMLspatiotemporaldatamodel.Avarietyofmo
10、delsforspatio-temporaldataanalysisisdescribed,andaccordingtothemassivedatastorageonGMLspatio-temporaldatamodelbasedonHBase.Secondly,TheGMLspatialclusteringalgoritlunarestudied,theclassicalclusteringalgoritlmi(partitioningmethods,liierarcliicalmethods,densitybasedalgoritlunbasedonthemodel,thealgorith
11、mbasedongridalgorithm,),andonthebasisoftheclassicalalgoritlmiisproposedbasedontheKclusteringalgoritlmiofspatialneigliborhoodrelationandspatialclusteringalgoritlmibasedonGMLspacetheneigliborhood,theconespondingalgoritlmiverificationrespectivelyontheexperiments,theKmeansclusteringalgorithmofspatialnei
12、gliborhoodrelationofregionaleconomicdevelopment,spatialcorrelationverificationofillspatialclusteringofregionaleconomicdevelopmentandregionaleconomicdevelopmentanalysisofspatialclusteringanalysis.Thirdly,ResearchonsimilarqueriesonGMLtimeseriesisdonein-depthstudy,especiallythestudyofqiieiysimilarityGM
13、Ltimesequencespacebasedonacjacentrelation,themainlandofChina,31provincesandmunicipalitiesfrom1997to2012atotalof16yearsofnationaleconomicstatistics,respectivelyforGDPlper,GDP2perandGDP3perbeforesimilaritythemeasuretostandardization,analysistoreflectthelevelofregionaleconomicdevelopment,reflecttheregi
14、onalindustrialstnichirethree.Keywords:GML,Temporalandspatialclustering,TemporalandspatialsequenceSimilarityqueryIV目錄TOC o 1-5 h z摘要I HYPERLINK l bookmark0 o Current Document AbstractII HYPERLINK l bookmark6 o Current Document 第一章緒論1 HYPERLINK l bookmark8 o Current Document 1.1研究背景及意義11.2國內(nèi)外研究現(xiàn)狀1 HYP
15、ERLINK l bookmark10 o Current Document 1.3論文組織結(jié)構(gòu)3 HYPERLINK l bookmark12 o Current Document 第二章GML時(shí)空數(shù)據(jù)模型研究4 HYPERLINK l bookmark14 o Current Document 2.1時(shí)空數(shù)據(jù)模型分析4 HYPERLINK l bookmark16 o Current Document 2.2基于列存儲的GML時(shí)空數(shù)據(jù)模型92.2.1海量空間數(shù)據(jù)存儲面臨的新機(jī)遇92.2.2基于HBase的GML時(shí)空數(shù)據(jù)模型11 HYPERLINK l bookmark18 o Curren
16、t Document 第三章GML時(shí)空聚類的研究及算法15 HYPERLINK l bookmark20 o Current Document 3.1GML時(shí)空聚類相似性度量153.1.1距離相似性度量153.1.2相似系數(shù)的度量173.1.3類間距離度量183.1.4GML相似性度量18 HYPERLINK l bookmark28 o Current Document 3.2經(jīng)典聚類算法19 HYPERLINK l bookmark30 o Current Document 3.3基于空間鄰近關(guān)系的K均值聚類算法20 HYPERLINK l bookmark32 o Current Doc
17、ument 3.4GML時(shí)空聚類并行算法233.4.1K均值聚類并行算法233.4.2基于空間鄰域的GML時(shí)空聚類算法26 HYPERLINK l bookmark34 o Current Document 第四章GML時(shí)空序列相似性查詢的研究28 HYPERLINK l bookmark36 o Current Document 4.1時(shí)間序列的表達(dá)284.1.1頻域表示法294.1.2分段線性表示法294.1.3奇異值分析法304.1.4符號化表示法30 HYPERLINK l bookmark38 o Current Document 4.2空間鄰近關(guān)系的GML時(shí)序相似性度量相關(guān)定義31
18、 HYPERLINK l bookmark40 o Current Document 4.3GML時(shí)空序列相似性度量324.3.1基于形狀的相似度324.3.2基于特征的相似度334.3.3基于模型的相似度33 #4.3.4基于壓縮的相似度33 HYPERLINK l bookmark42 o Current Document 4.4基于空間鄰近關(guān)系的GML時(shí)間序列相似性查詢34 HYPERLINK l bookmark44 o Current Document 第五章GML時(shí)空聚類及時(shí)空序列相似性查詢的實(shí)現(xiàn)及分析35 HYPERLINK l bookmark46 o Current Docu
19、ment 5.1基于空間鄰近關(guān)系的K均值聚類算法結(jié)果分析355.1.1實(shí)驗(yàn)數(shù)據(jù)355.1.2區(qū)域經(jīng)濟(jì)發(fā)展空間相關(guān)性驗(yàn)證355.1.3區(qū)域經(jīng)濟(jì)發(fā)展空間聚類分析385.1.4區(qū)域經(jīng)濟(jì)發(fā)展時(shí)空聚類分析39 HYPERLINK l bookmark48 o Current Document 5.2GML時(shí)空聚類并行算法結(jié)果分析405.2.1實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備405.2.2并行算法的性能度量425.2.3結(jié)果分析44 HYPERLINK l bookmark50 o Current Document 5.3基于空間鄰近關(guān)系的GML時(shí)間序列相似性查詢結(jié)果分析485.3.1基于多屬性相似性的歷史記錄查詢485.3
20、.2時(shí)空序列相似性查詢50 HYPERLINK l bookmark52 o Current Document 第六章總結(jié)與展望536.1總結(jié)536.2展望53 HYPERLINK l bookmark54 o Current Document 參考文獻(xiàn)54 HYPERLINK l bookmark56 o Current Document 致謝57第一章緒論1.1研究背景及意義地理信息系統(tǒng)(GeographicInfomiatioilSystem,簡稱GIS)是以釆集、存儲、管理、顯示、運(yùn)算、分析和描述整個(gè)或部分地球表面(包括大氣層和較淺的地表下空間在內(nèi))與空間和地理分布有關(guān)的數(shù)據(jù)的空間信息
21、系統(tǒng)。在基于XML的標(biāo)準(zhǔn)上面,OGC(OpenGeospatialConsortium,開放地理信息系統(tǒng)聯(lián)盟)提出建立的W3C(WorldWideWebConsortium,萬維網(wǎng))GML(GeogiaphMarkupLanguage,地理標(biāo)記語言)是在網(wǎng)絡(luò)環(huán)境下的一種地理信息編碼規(guī)范。在計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)計(jì)算和數(shù)據(jù)技術(shù)的發(fā)展過程中,GML得到了非常廣泛的應(yīng)用,人們面臨一種“被數(shù)據(jù)淹沒,饑渴于知識“的挑戰(zhàn)。當(dāng)前,在各個(gè)方面的各個(gè)領(lǐng)域都己經(jīng)有空間數(shù)據(jù)的應(yīng)用,比如GIS與公共衛(wèi)生、天然氣管理、電力網(wǎng)絡(luò)管理、光纖資源網(wǎng)絡(luò)管理、無線通信網(wǎng)絡(luò)管理、交通管理、氣象、農(nóng)業(yè)等方面的管理,只要和地理空間數(shù)據(jù)有關(guān)的
22、信息都可以與GIS想結(jié)合。在中國以農(nóng)業(yè)發(fā)展為主的環(huán)境下,農(nóng)業(yè)是中國的命脈和基礎(chǔ),保證了農(nóng)業(yè)的良好發(fā)展就保障了全國的經(jīng)濟(jì)穩(wěn)定,所有在解決農(nóng)業(yè)問題的時(shí)候同樣可以和GIS空間信息結(jié)合走科技的農(nóng)業(yè)之路。目前交通環(huán)境越來越復(fù)雜,每個(gè)城市的交通不斷的在加劇,GIS與交通的結(jié)合,智能保證道路暢通,是整個(gè)城市和國家的重大道路建設(shè)目標(biāo),也是一個(gè)重要的標(biāo)志??臻g聚類是指把具有相同屬性或者成分相似的空間數(shù)據(jù)對象集中稱為一個(gè)類,它是聚類分析的一個(gè)研究方面。在同一個(gè)類中,不同對象的相似度比較高,不同的類中,不同對象具有較大的差異性。這是聚類分析的一個(gè)基本體會。在空間數(shù)據(jù)的基礎(chǔ)之上,把時(shí)間的概念加入進(jìn)去就形成了時(shí)空序列數(shù)
23、據(jù)。在不同的各個(gè)行業(yè)領(lǐng)域當(dāng)中,對采用GIS解決問題的需求有很大的不同,將導(dǎo)致有不同的軟硬件平臺,并且初始所能夠提供的數(shù)據(jù)格式也將各種多樣。不同廠商的軟硬件很難兼容其他類型的數(shù)據(jù),一般情況很難尋找到滿足自己需求的數(shù)據(jù),因此,建立一種通用的數(shù)據(jù)建模標(biāo)準(zhǔn),是數(shù)據(jù)互通共享的解決辦法,可以讓數(shù)據(jù)誰產(chǎn)生誰維護(hù)、誰負(fù)責(zé)的理念運(yùn)用起來。內(nèi)外研究現(xiàn)狀空間聚類的應(yīng)用領(lǐng)域非常廣泛、如在軍事、礦山環(huán)境、市場分析、GIS、網(wǎng)絡(luò)分析、智能交通等發(fā)揮著重要作用??臻g聚類在空間數(shù)據(jù)挖掘的過程中,起到了不可或缺的作用,是聚類研究的一種應(yīng)用。運(yùn)用空間聚類可以發(fā)現(xiàn)許多各個(gè)行業(yè)的隱藏信息,這些信息通過空間聚類分析才能夠得意體現(xiàn)。時(shí)空
24、序列相似性查詢是通過相似性度量的一個(gè)標(biāo)準(zhǔn),在一定的時(shí)間范圍之內(nèi),在給出的數(shù)據(jù)中查找與相應(yīng)時(shí)間匹配的時(shí)間序列集合。通常時(shí)間序列相似性查詢的方法有余弦相似度、歐氏距離、曼哈頓距離(Manhattan)、皮爾森相關(guān)性的度量等。國內(nèi)外空間聚類數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的興起引起了國內(nèi)對數(shù)據(jù)挖掘的高度重視,國內(nèi)許多科研單位和高等院校競相開展空間數(shù)據(jù)挖掘的理論研究及應(yīng)用研究,北京大學(xué)、廈門大學(xué)、中國科大、中科院地理所、中科遙感所、中科院軟件所、復(fù)旦大學(xué)、中國測繪科學(xué)研究院、南京大學(xué)、西南財(cái)經(jīng)大學(xué)等。樊明輝在其傅士論文中以數(shù)據(jù)倉庫和空間數(shù)據(jù)集成技術(shù)為基礎(chǔ),探討了空間聚類算法及改進(jìn)的算法,提出了一種開放式的數(shù)據(jù)挖掘系
25、統(tǒng)框架;孫志偉在其t専士論文中針對密度算法具有對提出了一種基于網(wǎng)格和密度綜合的算法CluGD(CLUsteringwithGiidandDensity),算法不僅能夠提高聚類效率,而且可以發(fā)現(xiàn)任意形狀的簇;胡彩平在其博士論文中通過改進(jìn)DBSCAN算法,提出了聚類算法LDBSCAS(改進(jìn)的基于密度的抽樣聚類算法),陳桂芬在博士論文中提出了基于加權(quán)的空間模糊動(dòng)態(tài)聚類算法;牛繼強(qiáng)在對空間數(shù)據(jù)挖掘理論與技術(shù)研究基礎(chǔ),開發(fā)了土地用途分區(qū)聚類挖掘系統(tǒng),成功將聚類挖掘理論應(yīng)用到實(shí)踐中。在1990年以來,在時(shí)間序列上的數(shù)據(jù)挖掘有了突飛猛進(jìn)的發(fā)展。在我們生產(chǎn)和生活的各個(gè)角落都有時(shí)間序列數(shù)的產(chǎn)生,可以通過多樣的方
26、式釆集數(shù)據(jù),測量的工具和標(biāo)準(zhǔn)也是各有不同,因此采集上來的數(shù)據(jù)有特別嚴(yán)重的干擾,很難對數(shù)據(jù)進(jìn)行挖掘。聚類的方法是在數(shù)據(jù)挖掘中很普遍常見的方法,因?yàn)槠湓趯?shí)際挖掘過程中效率高、手段簡單、挖掘數(shù)據(jù)量大、挖掘價(jià)值高,可以很方便的滿足需求。對時(shí)間序列的數(shù)據(jù)聚類,因?yàn)槠鋽?shù)據(jù)量非常大,在之間聚類的過程中很容易出現(xiàn)信息干擾,需要對數(shù)據(jù)壓縮避免數(shù)據(jù)序列數(shù)據(jù)高維性帶來的過濾干擾。一種很好的時(shí)間序列壓縮技術(shù)是時(shí)間序列聚類的必要條件,可以提高聚類的效率節(jié)省資源;相似性的度量標(biāo)準(zhǔn)乂是可以決定聚類的結(jié)果質(zhì)量高低;在關(guān)鍵到時(shí)間序列聚類的重要技術(shù)里面,一個(gè)好的算法才是重中之重。在目前大家研究的聚類算法中,己經(jīng)有很多算法己經(jīng)非常
27、成熟,也普遍的被大家接受,但在時(shí)間序列數(shù)據(jù)的不斷研究和探索中,仍然存在著重大的發(fā)展空間,這也是目前研究十分火爆的原因之一。近年來,時(shí)間序列模式挖掘己經(jīng)成為數(shù)據(jù)挖掘研究領(lǐng)域的熱點(diǎn)之一。時(shí)間序列模式挖掘中的關(guān)聯(lián)規(guī)則,頻繁項(xiàng)集挖掘和發(fā)展,以增加相關(guān)的數(shù)據(jù)模型中的時(shí)間維度之間的相關(guān)性,所以把數(shù)據(jù)和時(shí)間掛鉤的優(yōu)先次序交易之間的時(shí)間。在這種方式中,根據(jù)時(shí)間的變化,它被發(fā)現(xiàn),在一定的時(shí)間內(nèi),數(shù)據(jù)處理模型,以便預(yù)測可能的值。目前,有不少學(xué)者的時(shí)間序列模式挖掘的深入研究。最早的序列模式挖掘問題的研究是IBMAlmaden研究中心的Srikant和Agiawal兩人提出的。他們對序列模式挖掘的定義是:給出一個(gè)按時(shí)
28、間順序排列的事務(wù)(TYaiisaction)的列表的集合,每一個(gè)事務(wù)乂是項(xiàng)目(item)的集合,然后挖掘出滿足用戶指定的最小支持度閾值的所有序列模式,包含這個(gè)序列模式的序列數(shù)在列表集合中的總數(shù)比例就是支持度。他們同時(shí)還提出了兩種類Apriori算法的變種:AprioriSome和AprioriALLo隨后,在1996 年,他們乂提出了泛化序列模式挖掘算法(GSP),它對序列模式挖掘問題進(jìn)行了泛化處理,增加了滑動(dòng)時(shí)間窗口、相鄰事物的時(shí)間約束以及用戶自定義的類層次。Zaki乂提出了SPADE方法。這些算法都是基于Apriori算法而來的,因此他們的共同缺點(diǎn)就是需要多次掃描數(shù)據(jù),算法的時(shí)間復(fù)雜度較高
29、,而且生成的候選數(shù)據(jù)集非常大。時(shí)間序列相似性查詢是時(shí)間序列數(shù)據(jù)挖掘的一個(gè)重要問題,一直沒有得到很好的解決。每個(gè)應(yīng)用到現(xiàn)實(shí)生活中的時(shí)間序列的源,采樣方法和測量標(biāo)準(zhǔn)不統(tǒng)一,在頻繁的短期波動(dòng),噪聲和非平穩(wěn)性,相似性查詢變得非常困難。相似性度量是時(shí)間序列相似性查詢的基礎(chǔ),所以技術(shù)是時(shí)間序列的相似性提高查詢效率的方法。由于龐大的數(shù)據(jù)特點(diǎn)和復(fù)雜的時(shí)間序列數(shù)據(jù)挖掘,不僅效率低,直接在原來的時(shí)間序列,它是難以得到滿意的結(jié)果。時(shí)間序列的模式表示的提煉和總結(jié)了時(shí)間序列的特征表示,在一個(gè)更高層次的時(shí)間序列的描述。時(shí)間序列的模式表示不僅可以對時(shí)間序列數(shù)據(jù)的壓縮,也集錦時(shí)間序列的模式特征。1-3論文組織結(jié)構(gòu)論文全部由六
30、章內(nèi)容組成,具體的安排如下:第一章緒論主要介紹了本文研究的背景和研究意義,當(dāng)前國內(nèi)外的研究現(xiàn)狀,最后介紹了本文的主要結(jié)構(gòu)安排。第二章GML時(shí)空數(shù)據(jù)模型研究包含了常用的數(shù)據(jù)模型的分析(序列快照模型、基態(tài)修正模型、時(shí)空立方體模型、時(shí)空復(fù)合模型等等),介紹了基于列存儲的GML時(shí)空數(shù)據(jù)模型,主要是海量空間數(shù)據(jù)存儲面臨的新機(jī)遇和基于HBase的GML時(shí)空數(shù)據(jù)模型的介紹。第三章GML時(shí)空聚類的研究及算法在GML時(shí)空聚類相似性度量,從不同方式度量相似性;經(jīng)典的聚類算法;基于空間鄰近關(guān)系的K均值聚類算法;GML時(shí)空聚類并行算法等方面做了介紹。第四章GML時(shí)空序列相似性查詢的研究研究了時(shí)間序列的表達(dá);空間鄰近關(guān)
31、系的GML時(shí)序相似性度量相關(guān)定義;GML時(shí)空序列相似性度量;基于空間鄰近關(guān)系的GML時(shí)間序列相似性查詢等方面的知識。第五章GML時(shí)空聚類及時(shí)空序列相似性查詢的實(shí)現(xiàn)及分析本章主要對基于空間鄰近關(guān)系的K均值聚類算法結(jié)果分析、GML時(shí)空聚類并行算法結(jié)果分析和基于空間鄰近關(guān)系的GML時(shí)間序列相似性查詢結(jié)果分析三塊的內(nèi)容做了研究分析。第六章總結(jié)與展望對本文所做的研究工作做了闡述,最后對GML時(shí)空聚類及時(shí)空序列相似性查詢等技術(shù)做了展望。第二章GML時(shí)空數(shù)據(jù)模型研究2.1時(shí)空數(shù)據(jù)模型分析當(dāng)前空間信息數(shù)據(jù)的釆集方式多種多樣,在這些數(shù)據(jù)中,與時(shí)間相關(guān)聯(lián)的信息不斷收到人們的青睞,傳統(tǒng)的方式只能對靜態(tài)的GIS信息進(jìn)
32、行分析,與實(shí)際的需要和要求會有很大的落差,在這樣的情況之下,人們提出了時(shí)態(tài)GIS,它能夠提供時(shí)序分析功能、變化過程和未來的預(yù)測和歷史狀態(tài)分析等功能,是在原來傳統(tǒng)的模式下增加了時(shí)間處理的功能。在時(shí)態(tài)GIS中尋找一種合適的數(shù)據(jù)模型是非常關(guān)鍵的技術(shù),決定了時(shí)間和空間的關(guān)聯(lián)性。這樣的模型規(guī)定了對象數(shù)據(jù)類型、不同類型的關(guān)系、對數(shù)據(jù)的操作和維護(hù)的完整功能。隨著1992年GailLangran的博士論文“地理信息系統(tǒng)中的時(shí)間”的問世,標(biāo)志著時(shí)空數(shù)據(jù)模型建模的正式開始。一、序列快照模型序列快照模型具有多方面的屬性,包含線性的、離散的和絕對的多方面特性,主要是結(jié)合時(shí)間戳的圖形和時(shí)間的數(shù)據(jù),與空間信息的融入,把時(shí)
33、間當(dāng)作一個(gè)管理場景的性質(zhì)。簡要的技術(shù)原理是:把時(shí)間的長軸進(jìn)行點(diǎn)的離散化,形成一個(gè)個(gè)點(diǎn)對時(shí)間段的空間數(shù)據(jù)和其他方面屬性的快照,并按照用戶的需求生成相應(yīng)的快照數(shù)據(jù)輸出結(jié)果(如圖21所示)。這個(gè)方式非常的容易理解,并且很容易實(shí)現(xiàn)囚。該模型存在如下缺點(diǎn):在序列快照的模式下面由于不同時(shí)間戳圖層的空間數(shù)據(jù)會有很大的變化,不同的離散時(shí)間點(diǎn)上會有多種內(nèi)容重復(fù)的出現(xiàn)保存,產(chǎn)生許多冗余的數(shù)據(jù)。圖24序列快照模型示意圖序列快照模型對系統(tǒng)的效率使用方面有所下降,因?yàn)樗拇罅咳哂鄶?shù)據(jù)和模型的不斷變化過程,必然要求系統(tǒng)性能特別高。這也是由其原理決定的,因?yàn)橄噜彽目煺罩g的數(shù)據(jù)基本上是一致的,數(shù)據(jù)出現(xiàn)重復(fù)的比較多。該模型只
34、能夠表現(xiàn)地理現(xiàn)象的狀態(tài),對時(shí)空對象的單一表達(dá)很困難,無法對該現(xiàn)象的變化過程有詳細(xì)的表示,對時(shí)空對象間的關(guān)系不好處理。根據(jù)上面多方面的情況可以得知,序列快照模型沒有很大的實(shí)用性,只有在特定場合,比如在柵格數(shù)據(jù)的類型下,能夠發(fā)揮出其較強(qiáng)的優(yōu)勢。二、基態(tài)修正模型在序列快照模型的基礎(chǔ)上,我們對其進(jìn)行的改進(jìn),主要是把某個(gè)時(shí)刻的地理現(xiàn)象當(dāng)前的快照狀態(tài)作為一個(gè)基態(tài),在時(shí)間發(fā)送變化的過程中,只對與基態(tài)對比放生變化的量。這樣可以避免將沒有變化的數(shù)據(jù)重復(fù)的記錄和存儲。隨著快照模型的序列相比,修正模型不僅可以減少數(shù)據(jù)存儲容量的基本狀態(tài),減少了數(shù)據(jù)冗余,也可以直接改變不同的時(shí)間信息。在修正模型,時(shí)間分辨率和事件完全對
35、應(yīng)的歷史數(shù)據(jù),當(dāng)檢索條件,需要反向疊加修正變更內(nèi)容相關(guān),因此模型檢索效率會隨著時(shí)間軸擴(kuò)展增加而變得很低。許多學(xué)者對更新模型的改進(jìn)和應(yīng)用做了大量的研究圖2-2給出了目前基態(tài)修正時(shí)空數(shù)據(jù)模型及其擴(kuò)展模型的原理示意圖。T.nT.)基態(tài)ToT.3T.2T.1匸3匚2JToT.nT/TvT,基態(tài)呈態(tài)(1)基態(tài)-T.!To星態(tài)圖2-2基態(tài)修正模型示意圖基態(tài)修正模型雖然在降低數(shù)據(jù)冗余方面有了較大的提高,但是其差量修正綜上所述,原理存在如下缺點(diǎn):模型的效率取決于基態(tài)的設(shè)置,釆集的大量查詢非基態(tài)的疊加操作的需要,因此不適用于信息狀態(tài)變化的動(dòng)態(tài)的時(shí)空數(shù)據(jù)的頻率更大。該模型重點(diǎn)記錄了單個(gè)對象及其拓?fù)湫畔⒌淖兓?,無
36、法表征對象每個(gè)狀態(tài)下的全部信息,對區(qū)域性管理和操作存在較大的困難。對象在模型空間維和時(shí)間維上的內(nèi)在關(guān)系不直接,時(shí)空特性分析較為困難。三、時(shí)空立方體模型時(shí)空立體模型在最早的時(shí)候是由Hagerstnmd提出的,它是通過立體的三維模型來表達(dá),把二維的坐標(biāo)系和一個(gè)時(shí)間軸共同的組成三維立體,在XY軸的二維基礎(chǔ)上,增加了Z軸的時(shí)間表達(dá)(如圖所示)。這樣的模型可以讓我們看到一個(gè)很直觀明了的空間數(shù)據(jù)表達(dá)隨著時(shí)間的變化的變化過程。Space-Timc-PathPathsfootpath在時(shí)間的推移過程中,空間狀態(tài)的變化會形成一條稱之為時(shí)空路徑(Space-Tlme-Path)。該路徑是通過線段的方式表示事務(wù)的足
37、跡,在傾斜的線段中表示該段時(shí)間狀態(tài)發(fā)生了變化,如果為垂直的線段則事務(wù)沒有發(fā)生變化,還保持著原有的現(xiàn)象習(xí)。時(shí)空立體的模型是把二維的坐標(biāo)向三維的一個(gè)發(fā)展,主要結(jié)合時(shí)間軸形成三維坐標(biāo)用來表達(dá)隨時(shí)間的變化過程。在該模型中對空間尸體的屬性描述和變化的描述是非常的形象、簡單、直觀明了的,還是比較適用于我們對對象的信息統(tǒng)計(jì)管理,但是該模型也仍然存在一些缺點(diǎn):隨著時(shí)間維的變化,數(shù)據(jù)會迅速增長,從而產(chǎn)生較大的數(shù)據(jù)冗余量。模型中的空間維和時(shí)間維粒度的選擇較為關(guān)鍵,在實(shí)際應(yīng)用設(shè)計(jì)中表達(dá)較為困難。隨著數(shù)據(jù)量的增加,對立方體的操作也更趨于復(fù)雜化,從而降低查詢狀態(tài)信息的效率,其至?xí)?dǎo)致模型的不可用。四、時(shí)空復(fù)合模型時(shí)空復(fù)
38、合模型最早是由Chrisman在1983年針對矢量數(shù)據(jù)提出的,隨后Langian在此基礎(chǔ)上進(jìn)行改進(jìn)和擴(kuò)展。該模型的主要思想是:把某一個(gè)時(shí)刻作為基態(tài),把不是基態(tài)的時(shí)刻以時(shí)間軸維的標(biāo)準(zhǔn),其所對應(yīng)的空間數(shù)據(jù)映射到基態(tài)時(shí)刻的平臺中去,在狀態(tài)的信息中,把每一塊發(fā)生變化的實(shí)體稱為最小變化模塊,而每一個(gè)模塊都具有各自的特殊屬性。時(shí)空的特性就可以由這些最小變化模塊組成的圖形數(shù)據(jù)和歷史變化的信息來表示回。4I-DP3.TiT2t3APlPlPlRP1B1房屋PVB1殛P(guān)QZ房屋CPlPlP3DP2P21*2EIMP4P4FP4P4P3GP3伽房屋消失不存在HP3P3F3I不存在不存在片釘湖泊JP3X流消失K不存
39、在不存在LP4P3PJ圖2-4時(shí)空復(fù)合模型示意圖時(shí)空復(fù)合模型中的時(shí)間維釆取的是線性的、離散的以及相對時(shí)間模型??臻g維則是經(jīng)過一次性疊加或者多次疊加,將空間平面分割成最小變化時(shí)空單元,這些時(shí)空單元具有相同的時(shí)空過程,每次空間實(shí)體發(fā)生狀態(tài)變化都會在空間內(nèi)產(chǎn)生一個(gè)新的對象。五、基于事件時(shí)空數(shù)據(jù)模型事件的概念最早是由Peuquet和Wentz在1994年引入時(shí)空數(shù)據(jù)模型的,認(rèn)為各時(shí)刻狀態(tài)信息一旦發(fā)生變化則定義事件的產(chǎn)生,通過引入事件概念輔助于基于位置和面向?qū)ο蟮姆治龇椒ㄟM(jìn)行時(shí)空數(shù)據(jù)的時(shí)態(tài)分析oPeuquet和Dium在1995年設(shè)計(jì)了一種應(yīng)用于地學(xué)對象時(shí)態(tài)關(guān)系及變化描述的時(shí)空模型基于事件的時(shí)空數(shù)據(jù)模型
40、(ESTDM:Event-basedspatio-temporaldatamodel)其設(shè)計(jì)思想:將時(shí)間戳作為存儲管理狀態(tài)信息變化的依據(jù),通過記錄在時(shí)間維上的事件序列進(jìn)行表達(dá)地理實(shí)體現(xiàn)象的時(shí)空過程卩】。S爭件庁列圖2-5基于事件的時(shí)空數(shù)據(jù)模型示意圖基圖Mo頭文件To爭件”組件2組件A組件紐件2時(shí)空數(shù)據(jù)的事件模型的頭文件存儲在該領(lǐng)域的信息,一個(gè)指針的信息狀態(tài)圖和點(diǎn)的所有事件表的指針信息的基礎(chǔ)上。基態(tài)圖中包含的初始快照信息反映了感興趣區(qū)域。每個(gè)事件都有一個(gè)時(shí)間戳和一組相關(guān)的識別區(qū)域狀態(tài)變化的部件(Component),每個(gè)事件的組件表示在某個(gè)時(shí)間點(diǎn)的一個(gè)特定的位置(柵格單元)的變化發(fā)生,這些事件構(gòu)
41、成的時(shí)空動(dòng)態(tài)變化的事件序列(EventSeries)o因此,基于事件的時(shí)空數(shù)據(jù)的存儲模型相比,而不是一個(gè)完整的快照到以前的狀態(tài),對于同一事件不變狀態(tài)信息記錄只有一次,從而減少了數(shù)據(jù)的冗余,時(shí)間和空間查詢效率更高罔?;谑录臅r(shí)空數(shù)據(jù)模型會改變地理實(shí)體的信息分解為多個(gè)事件組成,在恢復(fù)或查詢信息時(shí)需要這些事件模塊組合時(shí)的狀態(tài),需要使管理更加高效的索引機(jī)制,這些事件模塊。六、面向?qū)ο髸r(shí)空數(shù)據(jù)模型面向?qū)ο蟮臅r(shí)空數(shù)據(jù)模型的概念是面向?qū)ο蟮慕<夹g(shù)的應(yīng)用,將需要處理不同對象的地理目標(biāo),各種對象關(guān)系圖的建立,它的性能和操作,使其特性和機(jī)制具有類,封裝,繼承和多態(tài)性面向?qū)ο?,通信,通過消息機(jī)制,因此對象之間的
42、關(guān)系,面向?qū)ο蠓椒ǖ淖畲髢?yōu)勢的關(guān)系是用來處理與地理實(shí)體更加自然,不僅支持復(fù)雜的對象,但也可以打破傳統(tǒng)的關(guān)系數(shù)據(jù)庫約束第一范式,在時(shí)空數(shù)據(jù)模型也顯示出強(qiáng)大的優(yōu)勢。七、基于ArcSDE版本的時(shí)空數(shù)據(jù)模型為了實(shí)現(xiàn)對數(shù)據(jù)庫的使用“鎖定修改釋放”的策略,在傳統(tǒng)數(shù)據(jù)庫的多用戶并發(fā)操作控制。但是,這種策略是不適合的地理數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng)。對地理數(shù)據(jù)的編輯工作,以及一些可以在兒分鐘內(nèi)完成,但其他人可能需要幾周共至兒個(gè)月的時(shí)間,這是長事務(wù)處理。對長事務(wù)處理ArcSDE提供了底層支持。通過ArcSDE版本可以多用戶并發(fā)操作,長事務(wù)處理,時(shí)空數(shù)據(jù)管理和歷史回顧等。當(dāng)注冊一數(shù)據(jù)集為版本化時(shí),將產(chǎn)生2個(gè)增量表:用于記
43、錄插入和更新的A(Adds:avregistTatioii_id)表,及用于記錄刪除的D(Deletes:cKregistration_id)表。每次更新或刪除數(shù)據(jù)集中的一條記錄,都將會在一個(gè)或2個(gè)增量表中加入新記錄。所以,版本化的數(shù)據(jù)集由原始表(或稱基表-BaseTable)和存儲于增量表中的變化組成。當(dāng)用戶進(jìn)行編輯并填充增量表時(shí),ArcSDE跟蹤用戶連接的是哪一個(gè)版本;當(dāng)查詢或者顯示版本中的一個(gè)數(shù)據(jù)集,ArcGIS從基表和增量表中組裝相關(guān)的行記錄呈現(xiàn)數(shù)據(jù)的一個(gè)無縫視圖。(registrationid 是對應(yīng)于版本化表在TABLE_REGISTRY表中REGISTRAnON_LD字段的值。)
44、ArcSDE維護(hù)著數(shù)據(jù)庫更改的單元和數(shù)據(jù)的當(dāng)前狀態(tài),用來對編輯了的數(shù)據(jù)做相應(yīng)管理。狀態(tài)表里面的數(shù)據(jù)表示著變化時(shí)候的離散快照,對數(shù)據(jù)的每一次編輯都會有一個(gè)新的狀態(tài)產(chǎn)生,(這些編輯操作是對任何因素進(jìn)行改變的一個(gè)總稱,包括增加、去除和修改)。隨著時(shí)間的推進(jìn),每個(gè)狀態(tài)點(diǎn)都有一個(gè)數(shù)據(jù)庫的狀態(tài)對應(yīng)叨。所有的地理數(shù)據(jù)庫的狀態(tài)也有同樣的計(jì)劃,不過是每個(gè)修改表或行數(shù)有不同的功能類。確定的沖突(在編輯同一元素在相同或不同的版本時(shí)可能發(fā)生的),沖突的狀態(tài)在不同版本的版本協(xié)調(diào)比較。與狀態(tài)相關(guān)的所有信息均在STATES表中進(jìn)行管理。通過查詢VERSIONS和STATE_LINEAGES可識別每個(gè)版本引用的數(shù)據(jù)庫狀態(tài)。狀
45、態(tài)包含在可從狀態(tài)譜系中獲得父子關(guān)系的樹結(jié)構(gòu)中。關(guān)于每個(gè)版本的狀態(tài)譜系的信息則包含在單獨(dú)的表STATE_LINEAGES中。此表存儲一個(gè)用于遍歷狀態(tài)父子關(guān)系的多條目索引,并且用于所有版本查詢。正確的視圖來返回一個(gè)版本,所有通過查詢其狀態(tài)譜系可以記錄識別每個(gè)變化的版本狀態(tài)。通過這個(gè)清單,可以確定正確的表行版本。由于地理數(shù)據(jù)庫有被編輯和隨時(shí)間變化的版本,狀態(tài)樹變得更復(fù)雜。每次在某個(gè)狀態(tài)下修改要素類或表時(shí),都會在MVIABLESMODIFIED表中創(chuàng)建一個(gè)新條目。對兩個(gè)版本進(jìn)行協(xié)調(diào)時(shí),此過程的第一個(gè)步驟是識別這兩個(gè)版本引用的狀態(tài):當(dāng)前編輯版本的狀態(tài)和目標(biāo)版本的狀態(tài)。根據(jù)這些狀態(tài),通過追蹤這兩個(gè)版本的狀
46、態(tài)譜系可識別公共祖先狀態(tài)。隨后通過查詢MVTABLES_MODIFIED表可識別在公共父狀態(tài)與目標(biāo)版本狀態(tài)之間所修改的所有表。通過此修改表的列表,會生成這兩個(gè)狀態(tài)譜系通用的表的另一個(gè)列表。對于第二個(gè)列表中的所有公共表,會執(zhí)行多個(gè)版本差異查詢:INSERT、UPDATE、DELETE、UPDATE_UPDATE和UPDATE_DELETEo2.2基于列存儲的GML時(shí)空數(shù)據(jù)模型每一種數(shù)據(jù)的模型都應(yīng)該有一個(gè)與之相對應(yīng)的應(yīng)用。在上面的內(nèi)容中分析的時(shí)空數(shù)據(jù)模型中,主要是考慮了數(shù)據(jù)庫事務(wù)處理的角度,這樣的方式無法適用于海量數(shù)據(jù)的GML挖掘。2.2.1海量空間數(shù)據(jù)存儲面臨的新機(jī)遇隨著目前網(wǎng)絡(luò)的發(fā)展和應(yīng)用的擴(kuò)
47、大,以微傅、瞎客、社交網(wǎng)絡(luò)、LBS等比較有代表行的信息公開方式越來越多,再云計(jì)算和物聯(lián)網(wǎng)的推動(dòng)下,各領(lǐng)域的數(shù)據(jù)已經(jīng)到了前所未有的規(guī)模,目前存儲能力的提升,使得大數(shù)據(jù)的時(shí)代己經(jīng)到來,Nature在2008年9月推出BigData??岢鋈祟惣航?jīng)進(jìn)入拍字節(jié)時(shí)代(PetabyteEra),大數(shù)據(jù)在各領(lǐng)域廣泛出現(xiàn);該雜志還預(yù)測下一個(gè)IT巨頭的主營業(yè)務(wù)將會是大數(shù)據(jù)管理。計(jì)算社區(qū)聯(lián)盟(ComputingCommunityConsortium)在2008年發(fā)表了扌艮告44Bigdatacomputing:Creatingrevolutionaiybreaktlirouglisincommerce,scie
48、nce,andsociety闡述了在數(shù)據(jù)驅(qū)動(dòng)研究背景下,解決大數(shù)據(jù)問題所需的技術(shù)以及面臨的一些挑戰(zhàn)。Science在2011年2月推出專刊“Dealingwithdata”,主要圍繞著科學(xué)研究中大數(shù)據(jù)的問題展開討論,說明大數(shù)據(jù)對科學(xué)研究的重要性。美國一些知名的數(shù)據(jù)管理領(lǐng)域的專家學(xué)者則從專業(yè)研究的角度出發(fā),聯(lián)合發(fā)布了一份白皮書ChallengesandOpportunitieswithBigdata,該白皮書從學(xué)術(shù)的角度介紹了大數(shù)據(jù)的產(chǎn)生,分析了大數(shù)據(jù)的處理流程,并提出了大數(shù)據(jù)所面臨的若干挑戰(zhàn)。全球知名的咨詢公司麥卡錫(McKinsey)2011年6月發(fā)布了一份關(guān)于大數(shù)據(jù)的詳盡報(bào)告Eigdata
49、:Hienextfiontierforimiovation,completion,andproductivity,對大數(shù)據(jù)的影響、關(guān)鍵技術(shù)和應(yīng)用領(lǐng)域等進(jìn)行了詳盡的分析0。2012年1月達(dá)沃斯世界經(jīng)濟(jì)論壇上,大數(shù)據(jù)是主題之一,這次會議還特別針對大數(shù)據(jù)發(fā)表了報(bào)告Bigdata,bigimpact:Newpossibilitiesforintemationaldevelopment,探討了新的數(shù)據(jù)產(chǎn)生方式下,如何更好地利用數(shù)據(jù)來產(chǎn)生良好的社會效益;該報(bào)告重點(diǎn)關(guān)注了個(gè)人產(chǎn)生的移動(dòng)數(shù)據(jù)與其它數(shù)據(jù)的融合與利用。2012年3月美國奧巴馬政府發(fā)布了“Bigdataresearchanddevelopmenti
50、nitiative投資2億多美元,正式啟動(dòng)“大數(shù)據(jù)發(fā)展計(jì)劃”,計(jì)劃在科學(xué)研究、環(huán)境、生物醫(yī)學(xué)等領(lǐng)域利用大數(shù)據(jù)技術(shù)進(jìn)行突破,奧巴馬政府的這一計(jì)劃被視為美國政府繼信息高速公路、數(shù)字地球計(jì)劃之后在信息科學(xué)領(lǐng)域的乂一重大舉措。2012年5月聯(lián)合國發(fā)布報(bào)告Bigdatafordevelopment:Cliallenges&opportunities,該報(bào)告主要闡述大數(shù)據(jù)時(shí)代各國特別是發(fā)展中國家在面臨數(shù)據(jù)洪流的情況下的機(jī)遇與挑戰(zhàn),同時(shí)還對大數(shù)據(jù)的應(yīng)用進(jìn)行了初步的解讀。隨著對地觀測技術(shù)、通信技術(shù)、移動(dòng)定位技術(shù)等的發(fā)展及廣泛應(yīng)用,空間數(shù)據(jù)逐步呈現(xiàn)多源、多尺度、多時(shí)相、全球覆蓋和高分辨率特征,數(shù)據(jù)量爆炸性增長,
51、形成GB級、TB級、PB級、EB級的發(fā)展趨勢,大空間數(shù)據(jù)時(shí)代已經(jīng)來臨。當(dāng)數(shù)據(jù)量達(dá)到PE級時(shí),即便是非常簡單的查詢操作,其執(zhí)行也會變得異常復(fù)雜;例如,以80MB/S的速度,順序掃描1GB的數(shù)據(jù),只需要12.5秒;而順序掃描1PE的數(shù)據(jù),則需要約145天;復(fù)雜的空間分析運(yùn)算就更可想而知了。所以,面對海量和復(fù)雜的空間數(shù)據(jù),如何更有序、更高效地對其進(jìn)行存儲、管理和分析應(yīng)用,已成為一個(gè)迫切需要解決的問題。隨著云計(jì)算的快速發(fā)展,NoSQL分布式數(shù)據(jù)庫管理技術(shù)、MapReduce并行處理技術(shù)的優(yōu)勢正變得越來越受歡迎。在云計(jì)算時(shí)代數(shù)據(jù)庫管理系統(tǒng)最重要的一個(gè)優(yōu)勢便是NoSQL分布式數(shù)據(jù)庫的高度可伸縮性,這也是當(dāng)
52、今云計(jì)算的領(lǐng)域要處理海量數(shù)據(jù)的關(guān)鍵。Bigtable,HBase,Dynamo,Cassandia和Hypertable都是這種類型的NoSQL分布式數(shù)據(jù)庫管理系統(tǒng)。NoSQL分布式數(shù)據(jù)庫技術(shù)是解決海量空間數(shù)據(jù)管理問題的有效手段。行存儲和列存儲是兩種典型的數(shù)據(jù)庫物理存儲策略。行存儲方式較為傳統(tǒng),它在磁盤中依次保存每條記錄,比較適合事務(wù)操作;列存儲方式垂直劃分關(guān)系表,以列為單位存儲數(shù)據(jù),列存儲還具有數(shù)據(jù)壓縮、延期物化、塊循環(huán)等特性。由于數(shù)據(jù)分析任務(wù)往往僅使用較少字段,因此列存儲方式的效率更高。數(shù)據(jù)分析任務(wù)在大數(shù)據(jù)應(yīng)用中更為常見,因此許多系統(tǒng)盡管無法完全實(shí)現(xiàn)列存儲的所有特性,但也或多或少地借鑒了相
53、關(guān)概念,包括BigTableHBase等。2.2.2基于HBase的GML時(shí)空數(shù)據(jù)模型Hadoop是Apache軟件基金會旗下的一個(gè)開源分布式計(jì)算平臺,其核心是分布式文件系統(tǒng)HDFS、并行計(jì)算模型MapReduce和分布式數(shù)據(jù)庫HBase,它們分別是Google云計(jì)算最核心技術(shù)GFS、MapReduce和Bigtable的開源實(shí)現(xiàn)。用戶可以利用Hadoop輕松地組織計(jì)算機(jī)資源,從而搭建分布式計(jì)算平臺,并且可以充分利用集群的計(jì)算和存儲能力,完成海量數(shù)據(jù)的處理。目前使用Hadoop技術(shù)實(shí)現(xiàn)云計(jì)算平臺的有IBM的藍(lán)云、Yahoo!.微軟的云計(jì)劃、eBay、Facebook,還有中國移動(dòng)的BigClo
54、ud百度云計(jì)算以及阿里巴巴云計(jì)算平臺等。HBase是一個(gè)支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)存儲的分布式數(shù)據(jù)庫,它不是一個(gè)關(guān)系型數(shù)據(jù)庫,其設(shè)計(jì)目標(biāo)是用來解決關(guān)系型數(shù)據(jù)庫在處理海量數(shù)據(jù)時(shí)的理論和實(shí)現(xiàn)上的局限性HEase從一開始就是為TerabytePetabyte級別的海量數(shù)據(jù)存儲和高速讀寫而設(shè)計(jì),這些數(shù)據(jù)要求能夠被分布在數(shù)千臺普通服務(wù)器上,并且能夠被大量并發(fā)用戶高速訪問何。HBase具有以下3方面的優(yōu)勢:高可擴(kuò)展性HBase是真正意義上的線性水平擴(kuò)展。數(shù)據(jù)量累計(jì)到一定程度(可配置),HBase系統(tǒng)會自動(dòng)對數(shù)據(jù)進(jìn)行水平切分,并分配不同的服務(wù)器來管理這些數(shù)據(jù)。這些數(shù)據(jù)可以被分布到上千臺普通服務(wù)器上。
55、一方面可以由大量普通服務(wù)器組成大規(guī)模集群,來存放海量數(shù)據(jù)(從兒個(gè)TB到兒十PB的數(shù)據(jù));另一方面,當(dāng)數(shù)據(jù)峰值接近系統(tǒng)設(shè)計(jì)容量時(shí),可以簡單通過增加服務(wù)器的方式來擴(kuò)大容量。這個(gè)動(dòng)態(tài)擴(kuò)容過程無需停機(jī),HBase系統(tǒng)可以照常運(yùn)行并提供讀寫服務(wù),完全實(shí)現(xiàn)動(dòng)態(tài)無縫無宕機(jī)擴(kuò)容。高性能HBase的設(shè)計(jì)目的之一是支持高并發(fā)用戶數(shù)的高速讀寫訪問。這是通過兩方面來實(shí)現(xiàn)的,首先數(shù)據(jù)行被水平切分并分布到多臺服務(wù)器上,在大量用戶訪問時(shí),訪問請求也被分散到了不同的服務(wù)器上,雖然每個(gè)服務(wù)器的服務(wù)能力有限,但是數(shù)T臺服務(wù)器匯總后可以提供極高性能的訪問能力。其次,HBase設(shè)計(jì)了高效的緩存機(jī)制,有效提高了訪問的命中率,提高了訪問
56、性能。高可用性HBase建立在HDFS之上,HDFS提供了數(shù)據(jù)自動(dòng)復(fù)制和容錯(cuò)的功能。HBase的日志和數(shù)據(jù)都存放在HDFS上,即使在讀寫過程中當(dāng)前服務(wù)器出現(xiàn)故障(硬盤、內(nèi)存、網(wǎng)絡(luò)等故障),日志也不會丟失,數(shù)據(jù)都可以從日志中自動(dòng)恢復(fù)。HBase系統(tǒng)會自動(dòng)分配其他服務(wù)器接管并恢復(fù)這些數(shù)據(jù)。因此一旦成功寫入數(shù)據(jù),這些數(shù)據(jù)就保證被持久化并被冗余復(fù)制,整個(gè)系統(tǒng)的高可用性得到保證。HBase是一個(gè)高可靠性、高性能、面向列存儲、可伸縮的分布式數(shù)據(jù)管理系統(tǒng),HBase利用HadoopHDFS作為其文件存儲系統(tǒng);HBase同樣利用HadoopMapReduce來處理HBase中的海量數(shù)據(jù);HBase利用Zook
57、eeper作為協(xié)同服務(wù)。利用HBase技術(shù)可在廉價(jià)PC機(jī)上搭建起大規(guī)模計(jì)算機(jī)集群。HBase是一個(gè)稀疏的、長期存儲的、多維度的、排序的映射表,其表索引由行關(guān)鍵字、列關(guān)鍵字和時(shí)間戳組成,其值都是字符類型咧。HBase數(shù)據(jù)模型具有如下特點(diǎn):面向列:指的是同一個(gè)列簇里所有數(shù)據(jù)都存放在一個(gè)文件中,從而在讀寫時(shí)有效降低磁盤I/O的開銷,并且由于類似數(shù)據(jù)存放在一起,提高了壓縮比。經(jīng)過壓縮后的數(shù)據(jù)容量通常達(dá)到原來的1/3到1/5,極大節(jié)省了存儲空間。多維表:這是對傳統(tǒng)二維關(guān)系表的極大擴(kuò)充。傳統(tǒng)二維表有兩維:行和列。列在設(shè)計(jì)表結(jié)構(gòu)時(shí)必須預(yù)先固定,而行可以動(dòng)態(tài)增加,也就是說有一個(gè)維度可動(dòng)態(tài)改變。HEase的多維
58、表有四維,列簇需要在設(shè)計(jì)表結(jié)構(gòu)時(shí)事先確定,而行、列、時(shí)間維都可以動(dòng)態(tài)增加。也就是說有三個(gè)維度可動(dòng)態(tài)改變。這種結(jié)構(gòu)非常適合用來表述有嵌套關(guān)系的數(shù)據(jù)。另外,動(dòng)態(tài)增刪列的能力也給很多業(yè)務(wù)帶來便利,特別是這些業(yè)務(wù)在不停的演化,需要的列字段也在不停的增加,多維表結(jié)構(gòu)可以隨時(shí)進(jìn)行改變以適應(yīng)業(yè)務(wù)發(fā)展需求。稀疏表:由于多維表的列可以動(dòng)態(tài)增加,必然導(dǎo)致不同行相同列的數(shù)據(jù)大部分為空,也就是說這個(gè)表是稀疏的。不像傳統(tǒng)關(guān)系型數(shù)據(jù)庫,HBase不存放空值,只存放有內(nèi)容的表格單元(cell),因此可以支持超大稀疏表,而不會帶來任何開銷。這對傳統(tǒng)的表結(jié)構(gòu)設(shè)計(jì)也帶來了觀念上的大改變。Hbase所具有的優(yōu)勢和特點(diǎn),非常適合海量
59、半結(jié)構(gòu)化GML時(shí)空數(shù)據(jù)的存儲管理0Hbase表中的時(shí)間戳記錄了數(shù)據(jù)庫的事務(wù)時(shí)間,為了表達(dá)地理現(xiàn)象的時(shí)空演變過程,Hbase表設(shè)計(jì)時(shí)還需要增加有效時(shí)間(Wlidllme)列。要表達(dá)地理要素的兒何形狀,在Hbase表中設(shè).個(gè)名為Geometiy的列簇,該列簇包含Numpts、Points和ElemliifoAnay三列,Numpts存儲表達(dá)要素兒何形狀的特征點(diǎn)的數(shù)目,Points存儲表達(dá)要素兒何形狀的特征點(diǎn)的坐標(biāo)數(shù)組(坐標(biāo)序列),ElemhifoAiTay存儲要素兒何形狀組成部分的相關(guān)信息,如特征點(diǎn)之間的連接方式(直線、圓弧、橢圓弧或貝塞爾曲線連接)、多邊形由哪些環(huán)組成以及哪個(gè)是外環(huán)、哪些是內(nèi)環(huán)等
60、信息。對于地理要素的普通屬性,可以定義為一個(gè)Attributes列簇,包含地理要素的所有普通屬性列(A】、A2Am)oGML時(shí)空數(shù)據(jù)的邏輯模型如表31所示。 上述中的ElemliifoAiTay用于存儲要素兒何形狀組成部分(元素:Element)的相關(guān)信息,它是一個(gè)可變長度的數(shù)組,該數(shù)組由1到多個(gè)三元組構(gòu)成,即用三元組V起始位置(STARTING_OFFSET),元素類型(Elpe),特征點(diǎn)之間的連接方式(INTERPRETATION)來表達(dá)要素兒何形狀(兒何對象)的每個(gè)兒何元素。Eiype、INTERPRETATION的具體含義如表31所示。表3JHbase存儲GML時(shí)空數(shù)據(jù)的邏輯模型Row
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度環(huán)保設(shè)備購銷合同樣本及格式說明
- 2025年度進(jìn)出口貿(mào)易電子商務(wù)平臺運(yùn)營服務(wù)合同
- 發(fā)熱管項(xiàng)目融資計(jì)劃書
- 邢臺2024年河北邢臺廣宗縣招聘事業(yè)單位工作人員38人筆試歷年參考題庫附帶答案詳解
- 鹽城2025年江蘇省鹽城市教育局直屬學(xué)校招聘教師14人筆試歷年參考題庫附帶答案詳解
- 濰坊2025年山東濰坊市產(chǎn)業(yè)技術(shù)研究院招聘7人筆試歷年參考題庫附帶答案詳解
- 楚雄云南楚雄州消防救援局招聘6人筆試歷年參考題庫附帶答案詳解
- 株洲2025年湖南株洲市蘆淞區(qū)面向應(yīng)屆生招聘教師30人筆試歷年參考題庫附帶答案詳解
- 杭州2025年浙江杭州市臨安區(qū)高虹鎮(zhèn)人民政府招聘編外聘用人員筆試歷年參考題庫附帶答案詳解
- 普洱云南普洱市消防救援支隊(duì)專職消防員消防文員招錄筆試歷年參考題庫附帶答案詳解
- 2023六年級數(shù)學(xué)下冊 第2單元 百分?jǐn)?shù)(二)綜合與實(shí)踐 生活與百分?jǐn)?shù)說課稿 新人教版
- 教體局校車安全管理培訓(xùn)
- 湖北省十堰市城區(qū)2024-2025學(xué)年九年級上學(xué)期期末質(zhì)量檢測綜合物理試題(含答案)
- 行車起重作業(yè)風(fēng)險(xiǎn)分析及管控措施
- 健康體檢中心患者身份登記制度
- 《災(zāi)害的概述》課件
- 國產(chǎn)氟塑料流體控制件生產(chǎn)企業(yè)
- 空氣能安裝合同
- 初二上冊的數(shù)學(xué)試卷
- 四大名繡課件-高一上學(xué)期中華傳統(tǒng)文化主題班會
- 2025年奇瑞汽車招聘筆試參考題庫含答案解析
評論
0/150
提交評論