空間數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘_第1頁(yè)
空間數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘_第2頁(yè)
空間數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘_第3頁(yè)
空間數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘_第4頁(yè)
空間數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘_第5頁(yè)
已閱讀5頁(yè),還剩78頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、空間數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘第1頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五第十章空間數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘第2頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五 數(shù)據(jù)倉(cāng)庫(kù)和空間數(shù)據(jù)倉(cāng)庫(kù) 空間信息基礎(chǔ)設(shè)施 數(shù)據(jù)挖掘和空間數(shù)據(jù)挖掘 主要內(nèi)容:第3頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù) 空間數(shù)據(jù)倉(cāng)庫(kù)第4頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù) 隨著市場(chǎng)競(jìng)爭(zhēng)的加劇和信息社會(huì)需求的發(fā)展,出現(xiàn)了數(shù)據(jù)集中化、業(yè)務(wù)綜合化、決策科學(xué)化的趨勢(shì)。伴隨這種數(shù)據(jù)信息化的趨勢(shì),從大量數(shù)據(jù)中提取(檢

2、索、查詢等) 制定市場(chǎng)策略的信息就顯得越來越重要了。這種需求既要求聯(lián)機(jī)服務(wù),又涉及大量用于決策的數(shù)據(jù),而傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)已無法滿足這種需求。一、數(shù)據(jù)倉(cāng)庫(kù)第5頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五歷史數(shù)據(jù)量很大; 輔助決策信息涉及許多部門的數(shù)據(jù),而不同系統(tǒng)的數(shù)據(jù)難以集成; 由于訪問數(shù)據(jù)的能力不足,它對(duì)大量數(shù)據(jù)的訪問性能明顯下降。10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)一、數(shù)據(jù)倉(cāng)庫(kù)無法滿足的需求具體體現(xiàn)在三個(gè)方面:第6頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五 隨著C/S技術(shù)的成熟和并行數(shù)據(jù)庫(kù)的發(fā)展,信息處理技術(shù)的發(fā)展趨勢(shì)是從大量的事務(wù)數(shù)據(jù)庫(kù)中抽取數(shù)據(jù),并將其清理、轉(zhuǎn)換

3、為新的存儲(chǔ)格式,即為決策目標(biāo)把數(shù)據(jù)聚合在一種特殊的格式中。隨著此過程的發(fā)展和完善,這種支持決策的、特殊的數(shù)據(jù)存儲(chǔ)即被稱為數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse,DW)。 數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)生趨勢(shì)10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第7頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse, 簡(jiǎn)稱DW)是支持管理決策過程的、面向主題的、集成的、穩(wěn)定的、不同時(shí)間的數(shù)據(jù)集合。主題是數(shù)據(jù)歸類的標(biāo)準(zhǔn),每個(gè)主題對(duì)應(yīng)一個(gè)客觀分析領(lǐng)域,如客戶、商店等,它可為輔助決策集成多個(gè)部門不同系統(tǒng)的大量數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)包含了大量歷史數(shù)據(jù),經(jīng)集成后進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是極少更新的。數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的數(shù)據(jù)

4、時(shí)限為5至10年,主要用于進(jìn)行時(shí)間趨勢(shì)分析。 數(shù)據(jù)倉(cāng)庫(kù)定義10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第8頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量很大,一般為10GB左右。它是一般數(shù)據(jù)庫(kù) (100MB)數(shù)據(jù)量的100倍,大型數(shù)據(jù)倉(cāng)庫(kù)達(dá)到TB級(jí)。 數(shù)據(jù)倉(cāng)庫(kù)定義10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù)是一種分析型環(huán)境,它與一般的DBMS的操作型環(huán)境是不同的,兩者的比較有利于對(duì)數(shù)據(jù)倉(cāng)庫(kù)的理解。第9頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)(DW)數(shù)據(jù)庫(kù)(DB)分析型數(shù)據(jù)環(huán)境操作型數(shù)據(jù)環(huán)境面向分析(主題),支持DSS面向業(yè)

5、務(wù),日常事務(wù)處理集成的綜合數(shù)據(jù)非集成或者集成程度很低,主要是明細(xì)數(shù)據(jù)歷史數(shù)據(jù)(5-10年)主要關(guān)心當(dāng)前數(shù)據(jù)(60-90天)定期加載,加載后極少更新實(shí)時(shí)更新數(shù)據(jù)驅(qū)動(dòng)的開發(fā)周期(CLDS)需求驅(qū)動(dòng)的開發(fā)周期(SDLC)第10頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五數(shù)據(jù)倉(cāng)庫(kù)主要應(yīng)用在兩個(gè)方面: 使用瀏覽分析工具在DW中尋找有用的信息。 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)支持在DW上的應(yīng)用,形成決策支持系統(tǒng) (DSS)。 數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第11頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五地球是一個(gè)復(fù)雜多變的系統(tǒng),傳統(tǒng)地學(xué)的各個(gè)學(xué)科由于自身的局限,其研究范圍已無法適

6、應(yīng)全球變化和區(qū)域可持續(xù)發(fā)展的要求。如在交通規(guī)劃中,往往需要使用大量歷史的、現(xiàn)實(shí)的空間數(shù)據(jù)以及各應(yīng)用領(lǐng)域的復(fù)雜數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,涉及多維數(shù)據(jù)視圖的概念,僅靠關(guān)系數(shù)據(jù)庫(kù)就將難以解決。 同時(shí),傳統(tǒng)的GIS應(yīng)用系統(tǒng)是面向應(yīng)用、事務(wù)驅(qū)動(dòng)的,其中分析所需要的主題相當(dāng)分散,不同的操作平臺(tái)和數(shù)據(jù)標(biāo)準(zhǔn)使得決策支持系統(tǒng)幾乎無法實(shí)現(xiàn)數(shù)據(jù)共享。為此,必須通過大型的、多維化的數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行統(tǒng)一的組織、管理 。二、空間數(shù)據(jù)倉(cāng)庫(kù)10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù) 空間數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生趨勢(shì)第12頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五 數(shù)據(jù)倉(cāng)庫(kù)正是這樣一種數(shù)據(jù)的存儲(chǔ)系統(tǒng),它提供了來自異地、異構(gòu)、種類不同的應(yīng)用系

7、統(tǒng)的集成化和歷史化的數(shù)據(jù)。對(duì)其加工后,在數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)、提取和維護(hù),靈活地重組數(shù)據(jù),呈現(xiàn)出多維數(shù)據(jù)視圖,并且面向復(fù)雜的數(shù)據(jù)分析及高層的決策支持,從而為有關(guān)部門或企業(yè)進(jìn)行全局范圍的多維分析、戰(zhàn)略決策和長(zhǎng)期趨勢(shì)分析提供了有效的支持。 由于空間數(shù)據(jù)的特殊性,空間數(shù)據(jù)倉(cāng)庫(kù)在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上需引入空間維數(shù)據(jù),根據(jù)主題從不同的GIS應(yīng)用系統(tǒng)中截取從瞬態(tài)到區(qū)段直至全球系統(tǒng)上的信息,從而提供最好的信息服務(wù)。 空間數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生趨勢(shì)10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第13頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五 空間數(shù)據(jù)倉(cāng)庫(kù)(Spatial Data Warehouse,簡(jiǎn)稱SDW)是集成的、面

8、向主題的、相對(duì)穩(wěn)定的、反映時(shí)間變化和地理空間變化的空間數(shù)據(jù)存儲(chǔ),以支持各級(jí)管理人員基于空間數(shù)據(jù)的分析和決策。 空間數(shù)據(jù)倉(cāng)庫(kù)的概念和內(nèi)涵10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第14頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五 空間數(shù)據(jù)倉(cāng)庫(kù)是GIS、空間數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)相結(jié)合的產(chǎn)物,它在普通數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上,引入空間數(shù)據(jù),增加對(duì)空間數(shù)據(jù)的存貯、管理和分析能力,根據(jù)主題從不同的空間數(shù)據(jù)源中截取不同規(guī)模的時(shí)空尺度上的信息,從而為地學(xué)研究以及有關(guān)資源環(huán)境政策的制定等空間決策支持過程提供最好的信息服務(wù)??臻g數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)倉(cāng)庫(kù)與空間處理分析的綜合,具有空間,時(shí)間和主題的高度集成。從信息科學(xué)的角度來

9、說,它是對(duì)數(shù)據(jù)倉(cāng)庫(kù)加進(jìn)了非結(jié)構(gòu)化信息處理。 空間數(shù)據(jù)倉(cāng)庫(kù)的概念和內(nèi)涵10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第15頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五SDW支持多種數(shù)據(jù)源:數(shù)據(jù)庫(kù)、數(shù)據(jù)文件、應(yīng)用程序等;SDW中存放的不僅是供使用的數(shù)據(jù),還有在一定激發(fā)條件下能主動(dòng)其作用的處理規(guī)則、算法,甚至是過程等;SDW中數(shù)據(jù)并不完全是原始數(shù)據(jù)的簡(jiǎn)單歸并和搬家,而是增值和統(tǒng)一,因此,“匯總并統(tǒng)一” 是一種可取的描述; 空間數(shù)據(jù)倉(cāng)庫(kù)的概念和內(nèi)涵10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第16頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五數(shù)據(jù)的集成化表明數(shù)據(jù)在結(jié)構(gòu)上具有綜合性,并且在語言上是異構(gòu)的

10、,在進(jìn)入SDW之前,必須經(jīng)過加工和集成,這是SDW建設(shè)中最關(guān)鍵,最復(fù)雜的一步;歷史化表明它可以截取不同時(shí)間尺度上的信息,從瞬態(tài)到區(qū)段直到全體。SDW以時(shí)間為基準(zhǔn)管理(積累,使用并處理)數(shù)據(jù),即使依賴與時(shí)間維的數(shù)據(jù)結(jié)構(gòu);SDW保存和管理的是“對(duì)象”數(shù)據(jù)以及與之相關(guān)的處理規(guī)則,算法和過程等的統(tǒng)一體,它們?cè)赟DW中以打包及有序存放的形式被保存和維護(hù),且需要即可使用。 空間數(shù)據(jù)倉(cāng)庫(kù)的概念和內(nèi)涵10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第17頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五 空間數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)空間數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用(空間決策支持系統(tǒng)等)分析結(jié)果聯(lián)機(jī)分析處理數(shù)

11、據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)中信息多級(jí)存儲(chǔ)策略數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)系統(tǒng)(數(shù)據(jù)管理部分)SDBSDBSDB數(shù)據(jù)采集與輸入系統(tǒng)(數(shù)據(jù)源部分)核心GIS數(shù)據(jù)政府統(tǒng)計(jì)數(shù)據(jù)市場(chǎng)經(jīng)濟(jì)數(shù)據(jù)土地利用數(shù)據(jù)分析工具數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)輸入決策運(yùn)算MBKB空間數(shù)據(jù)倉(cāng)庫(kù)第18頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五 空間數(shù)據(jù)倉(cāng)庫(kù)機(jī)制的研究圍繞空間數(shù)據(jù)倉(cāng)庫(kù)的實(shí)際應(yīng)用需求,探索空間數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵技術(shù)。(1)支持空間信息的空間數(shù)據(jù)倉(cāng)庫(kù)模型:空間數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型是普通數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型的有效擴(kuò)充,必須針對(duì)空間信息的特點(diǎn),對(duì)星型模型和雪花模型進(jìn)行擴(kuò)展。(2)支持空間數(shù)據(jù)導(dǎo)航的元數(shù)據(jù)機(jī)制:空間數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)是人們定義空間數(shù)據(jù)倉(cāng)庫(kù)模型

12、、理解空間數(shù)據(jù)意義的重要窗口,空間數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)必須支持對(duì)空間數(shù)據(jù)分析的導(dǎo)航。 空間數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵技術(shù)10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第19頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五(3)面向海量空間信息的數(shù)據(jù)存儲(chǔ)策略:空間數(shù)據(jù)倉(cāng)庫(kù)包含海量的空間信息。支持對(duì)海量空間信息的高效的存儲(chǔ)和檢索是空間數(shù)據(jù)倉(cāng)庫(kù)的重要需求,也是空間數(shù)據(jù)倉(cāng)庫(kù)的重要特征。因此需要研究面向海量空間信息的數(shù)據(jù)存儲(chǔ)策略。(4)面向海量空間信息高效檢索的空間索引機(jī)制:數(shù)據(jù)索引是提高數(shù)據(jù)檢索效率的有效途徑。由于空間數(shù)據(jù)倉(cāng)庫(kù)中涉及海量的空間信息,因此需要研究面向空間數(shù)據(jù)倉(cāng)庫(kù)的索引機(jī)制。 空間數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵技術(shù)10.1

13、數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第20頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五(5)大規(guī)??臻g數(shù)據(jù)處理:由于空間數(shù)據(jù)所包含的數(shù)據(jù)量比較大,當(dāng)空間數(shù)據(jù)倉(cāng)庫(kù)中地理數(shù)據(jù)、元數(shù)據(jù)以及歷史數(shù)據(jù)的數(shù)據(jù)量急速增長(zhǎng)時(shí)數(shù)據(jù)的存儲(chǔ)和管理機(jī)制的調(diào)整策略等問題需要更加深入的研究。(6)查詢的建立和數(shù)據(jù)導(dǎo)航技術(shù):空間數(shù)據(jù)的查詢通常比較復(fù)雜,而目前的用戶界面形式很難滿足。必須為空間數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)查詢的輸入以及數(shù)據(jù)查詢的建立提供一套合適的機(jī)制。(7)快速計(jì)算、高速網(wǎng)絡(luò)、空間數(shù)據(jù)庫(kù)的無縫連接、數(shù)據(jù)挖掘、空間數(shù)據(jù)聯(lián)機(jī)分析和處理及服務(wù)的互操作等關(guān)鍵技術(shù)。 空間數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵技術(shù)10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第21頁(yè),共8

14、3頁(yè),2022年,5月20日,12點(diǎn)29分,星期五 目前國(guó)外數(shù)據(jù)倉(cāng)庫(kù)以及空間數(shù)據(jù)倉(cāng)庫(kù)方面的主要工作基礎(chǔ)有很多。Stanford大學(xué)的數(shù)據(jù)倉(cāng)庫(kù)WHIPS(WareHouse Information Project at Stanford);美國(guó)正在啟動(dòng)一個(gè)空間信息處理項(xiàng)目EOS(Earth Overview System),到2003年,對(duì)全球地面監(jiān)測(cè)的精度將達(dá)到1米的分辨率,該項(xiàng)目對(duì)鞏固美國(guó)在全球的競(jìng)爭(zhēng)優(yōu)勢(shì)具有重要的作用。該項(xiàng)目的主要組成部分之一就是空間數(shù)據(jù)的聯(lián)機(jī)分析與挖掘技術(shù)的研究;IBM的Almenden實(shí)驗(yàn)室、北美和德國(guó)的一些公司、和科研機(jī)構(gòu)的實(shí)驗(yàn)室在這個(gè)領(lǐng)域的研究中處于領(lǐng)先位置。 國(guó)內(nèi)

15、外研究現(xiàn)狀10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第22頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五 目前的空間數(shù)據(jù)倉(cāng)庫(kù)原型系統(tǒng)主要有 :AMicrosoft TerraServer (由Jim Gray主持 ),GeoMiner(由加拿大Simon Fraser大學(xué)開發(fā))等。 在國(guó)內(nèi),國(guó)家“九五”科技重點(diǎn)攻關(guān)項(xiàng)目 “空間信息共享和處理技術(shù)研究”專題項(xiàng)目已取得階段成果,提出了空間信息共享系統(tǒng)設(shè)計(jì)方案。視覺與聽覺信息處理國(guó)家重點(diǎn)實(shí)驗(yàn)室開放課題基金項(xiàng)目“空間數(shù)據(jù)聯(lián)機(jī)分析與空間數(shù)據(jù)挖掘研究”,該項(xiàng)目重點(diǎn)對(duì)空間數(shù)據(jù)聯(lián)機(jī)分析與空間數(shù)據(jù)挖掘及底層的空間數(shù)據(jù)倉(cāng)庫(kù)技術(shù)作基礎(chǔ)理論研究。 國(guó)內(nèi)外研究現(xiàn)狀10

16、.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第23頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五(1)空間數(shù)據(jù)倉(cāng)庫(kù)模型的研究:空間數(shù)據(jù)面向主題的集成的一個(gè)關(guān)鍵步驟是空間數(shù)據(jù)倉(cāng)庫(kù)的建模??臻g數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型與普通數(shù)據(jù)倉(cāng)庫(kù)模型一樣,通常采用類似的多維模型。普通數(shù)據(jù)倉(cāng)庫(kù)模型通常采用星型模型或雪花模型。與普通數(shù)據(jù)倉(cāng)庫(kù)模型相比,空間數(shù)據(jù)倉(cāng)庫(kù)要管理復(fù)雜的空間數(shù)據(jù)類型,其維和度量中不僅可以包含簡(jiǎn)單數(shù)據(jù)類型的數(shù)據(jù),同時(shí)也可以包含空間對(duì)象。由于空間對(duì)象占用的存儲(chǔ)空間較大,其操作也比較復(fù)雜,這就需要擴(kuò)充維和度量的定義,以便更有效地處理這樣的維和度量。 目前空間數(shù)據(jù)倉(cāng)庫(kù)主要研究?jī)?nèi)容10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第2

17、4頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五(2)海量空間數(shù)據(jù)的存儲(chǔ):空間數(shù)據(jù)倉(cāng)庫(kù)通常以空間數(shù)據(jù)庫(kù)為基礎(chǔ),由于空間數(shù)據(jù)倉(cāng)庫(kù)涉及海量的空間信息,同時(shí)空間信息計(jì)算耗費(fèi)的資源較多,確定空間信息的合理存儲(chǔ)策略(如數(shù)據(jù)分片等),以便計(jì)算和顯示,也是當(dāng)前許多專家關(guān)注的焦點(diǎn)。 目前空間數(shù)據(jù)倉(cāng)庫(kù)主要研究?jī)?nèi)容10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第25頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五(3)異構(gòu)空間數(shù)據(jù)源的有效集成:空間數(shù)據(jù)倉(cāng)庫(kù)所要集成的數(shù)據(jù)分布于各個(gè)企業(yè)或各個(gè)政府部門,這些數(shù)據(jù)源通常具有不同的數(shù)據(jù)格式;此外,空間數(shù)據(jù)的表示、存儲(chǔ)和訪問方式目前還沒有統(tǒng)一的標(biāo)準(zhǔn),空間數(shù)據(jù)的語義也

18、往往比較復(fù)雜。這就給空間數(shù)據(jù)的集成和共享帶來了極大的困難,如何實(shí)現(xiàn)空間數(shù)據(jù)的有效集成是國(guó)內(nèi)外空間數(shù)據(jù)倉(cāng)庫(kù)工程的一個(gè)重點(diǎn)和難點(diǎn)。 目前空間數(shù)據(jù)倉(cāng)庫(kù)主要研究?jī)?nèi)容10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第26頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五(4)空間數(shù)據(jù)倉(cāng)庫(kù)的索引機(jī)制:空間數(shù)據(jù)庫(kù)的索引方法主要包括:z-序索引、四叉樹索引、kd-樹索引、R樹索引、R+樹索引等。由于空間數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)具有海量的、極少更新的、隨時(shí)間變化的特點(diǎn),其主要的操作是數(shù)據(jù)的追加和查詢,因此要求針對(duì)空間數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)設(shè)計(jì)更加合適的空間數(shù)據(jù)倉(cāng)庫(kù)索引機(jī)制是空間數(shù)據(jù)倉(cāng)庫(kù)機(jī)制的重要組成部分,也是目前許多專家關(guān)注的焦點(diǎn)。

19、目前空間數(shù)據(jù)倉(cāng)庫(kù)主要研究?jī)?nèi)容10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第27頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五(5)空間數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)機(jī)制:空間數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)是確定空間數(shù)據(jù)倉(cāng)庫(kù)的邏輯結(jié)構(gòu)、存儲(chǔ)策略的重要組成部分。從數(shù)據(jù)倉(cāng)庫(kù)建設(shè)者的角度來看,空間數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)的描述,是關(guān)于數(shù)據(jù)加載方法和數(shù)據(jù)加載頻率、數(shù)據(jù)存儲(chǔ)和應(yīng)用的描述信息。從用戶的角度來看,它是用戶理解和使用數(shù)據(jù)倉(cāng)庫(kù)的向?qū)А?空間數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)的主要內(nèi)容包括:數(shù)據(jù)倉(cāng)庫(kù)的描述信息、數(shù)據(jù)倉(cāng)庫(kù)的信息源描述、數(shù)據(jù)轉(zhuǎn)換方法描述信息、數(shù)據(jù)加載方法的描述信息、業(yè)務(wù)術(shù)語的定義、業(yè)務(wù)處理的規(guī)則的描述信息。因此要求建立合理的空間數(shù)據(jù)倉(cāng)庫(kù)

20、元數(shù)據(jù)的機(jī)制,確??臻g數(shù)據(jù)倉(cāng)庫(kù)的合理性和高可用性。 目前空間數(shù)據(jù)倉(cāng)庫(kù)主要研究?jī)?nèi)容10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第28頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五 按照關(guān)系數(shù)據(jù)庫(kù)之父. Codd的定義,OLAP是大量多維數(shù)據(jù)的動(dòng)態(tài)綜合(synthesis)、分析(analysis)與合并(consolidation),它是能夠快速交互地,方便地獲取它們所需信息的一些技術(shù)(多維數(shù)據(jù)分析,神經(jīng)網(wǎng)絡(luò)等)的綜合,它通過快速、一致、交互地訪問各種可能的信息,試圖幫助數(shù)據(jù)分析人員、管理人員、決策者洞察數(shù)據(jù)顯示,掌握隱藏其中地規(guī)律。 OLAP(聯(lián)機(jī)處理分析) OLAP (Online Anal

21、ysis Processing)的概念10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第29頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五 關(guān)于OLAP地詳細(xì)定義,Codd曾給出了十二條準(zhǔn)則,其后,還對(duì)其進(jìn)行了擴(kuò)充。根據(jù)產(chǎn)品的實(shí)際應(yīng)用情況和用戶對(duì)產(chǎn)品的需求,人們提出了一種對(duì)更簡(jiǎn)單明確的定義,即共享多維信息的快速分析(Fast Analysis of Shared Multidimensional Information,簡(jiǎn)稱FASMI )。 目前,常見的OLAP有基于多維數(shù)據(jù)庫(kù)的MOLAP(Multidemention OLAP)、基于關(guān)系數(shù)據(jù)庫(kù)ROLAP(Relation OLAP) 以及混合的

22、HOLAP(Hybrid OLAP)。 OLAP(聯(lián)機(jī)處理分析) OLAP的概念10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第30頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五 OLTP和OLAP有很大的差別, 在傳統(tǒng)的OLTP技術(shù)中,所依賴的是實(shí)體、聯(lián)系、功能分解、狀態(tài)轉(zhuǎn)換分析和事務(wù)處理等概念和方法;而在OLAP技術(shù)中,主要使用的是事實(shí)表、維表、層次(hierarchies)、稀疏性(sparsity)、指標(biāo)聚集等概念和方法。 OLAP與OLTP的區(qū)別 OLAP(聯(lián)機(jī)處理分析)10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第31頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五 OLAP與OLTP

23、的區(qū)別 OLAP(聯(lián)機(jī)處理分析)10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)OLTPOLAP時(shí)間短時(shí)間框架長(zhǎng)時(shí)間框架狀態(tài)迅速變化的靜態(tài)的數(shù)據(jù)類型細(xì)節(jié)的、操作性數(shù)據(jù)綜合的、提煉的分析性數(shù)據(jù)查詢標(biāo)準(zhǔn)的事務(wù)隨機(jī)的、動(dòng)態(tài)的查詢穩(wěn)定性實(shí)時(shí)更新周期性刷新功能支持日常操作支持管理要求設(shè)計(jì)事件驅(qū)動(dòng)面向應(yīng)用數(shù)據(jù)驅(qū)動(dòng)面向分析第32頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五多維空間數(shù)據(jù)模型空間數(shù)據(jù)Cube的構(gòu)造和維護(hù) 空間Cube數(shù)據(jù)的多維顯示 OLAP目前主要研究?jī)?nèi)容 OLAP(聯(lián)機(jī)處理分析)10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第33頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五支持cube構(gòu)造的多維

24、數(shù)據(jù)存儲(chǔ)模型; 空間數(shù)據(jù)cube實(shí)例化視圖選擇方法研究; 空間數(shù)據(jù)cube的構(gòu)造算法; 在二級(jí)存儲(chǔ)中高效構(gòu)造高維的cube和空間數(shù)據(jù)cube; OLAP關(guān)鍵技術(shù) OLAP(聯(lián)機(jī)處理分析)10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第34頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五 空間數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是引入數(shù)據(jù)倉(cāng)庫(kù)后的計(jì)算機(jī)系統(tǒng)。其目標(biāo)是支持用戶利用存儲(chǔ)地信息進(jìn)行分析、處理和決策。 空間數(shù)據(jù)倉(cāng)庫(kù)由四部分組成:數(shù)據(jù)、計(jì)算機(jī)硬件、軟件、用戶 。 空間數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第35頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五在操作上,GIS源數(shù)據(jù)由異構(gòu)變?yōu)橥瑯?gòu),消除了

25、數(shù)據(jù)模型及語法、語義的差異,數(shù)據(jù)庫(kù)可直接被DBMS訪問,加快了查詢和分析處理的速度。訪問倉(cāng)庫(kù)的數(shù)據(jù)不需要占用信息源的系統(tǒng)資源,不會(huì)像直接訪問信息源那樣增加開銷。在功能上,除了便于管理、維護(hù)外,GIS空間數(shù)據(jù)倉(cāng)庫(kù)為其數(shù)據(jù)挖掘準(zhǔn)備了條件。如果數(shù)據(jù)挖掘技術(shù)利用得當(dāng),還可擴(kuò)充GIS的功能,當(dāng)然,數(shù)據(jù)倉(cāng)庫(kù)及其技術(shù)并未拋棄關(guān)系型數(shù)據(jù)庫(kù)和DBMS的一系列功能。 使用空間數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)勢(shì)10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第36頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五有望解決OPENGIS在數(shù)據(jù)上不一致的問題。具有明顯的社會(huì)意義,有利于加強(qiáng)商業(yè)、資源、環(huán)境等的宏觀決策??梢哉f,數(shù)據(jù)倉(cāng)庫(kù)是伴隨著C/

26、S技術(shù)和并行數(shù)據(jù)庫(kù)的發(fā)展孕育而生的,大型GIS要處理多源的、多變量的、異構(gòu)的、海量的地理數(shù)據(jù),就要采用能解決這些問題的技術(shù)。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)可以解決其中的一些問題。 GIS中使用空間數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)勢(shì)10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第37頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五空間數(shù)據(jù)粒度的劃分; 空間數(shù)據(jù)的分割(面向圖幅、面向圖層、 面向?qū)n}要素 );空間元數(shù)據(jù)的設(shè)計(jì)、管理及其標(biāo)準(zhǔn)化。 開發(fā)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)注意的問題10.1 數(shù)據(jù)倉(cāng)庫(kù)與空間數(shù)據(jù)倉(cāng)庫(kù)第38頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五10.2 空間數(shù)據(jù)基礎(chǔ)設(shè)施空間信息基礎(chǔ)設(shè)施的定義 空間信息基礎(chǔ)設(shè)施的目標(biāo) 空間

27、信息基礎(chǔ)設(shè)施組成 空間信息基礎(chǔ)設(shè)施體系結(jié)構(gòu) NII & NSIISDW & NSII 第39頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五 美國(guó)于年頒布了總統(tǒng)行政令,實(shí)施國(guó)家空間數(shù)據(jù)基礎(chǔ)設(shè)施計(jì)劃。 國(guó)家空間信息基礎(chǔ)設(shè)施(National Spatial Information Infrastructure,簡(jiǎn)稱)的定義為:“一個(gè)國(guó)家內(nèi)描述地球上地理要素和現(xiàn)象的分布及其屬性的所有地理信息的組合,以及對(duì)這些信息的獲取、處理、存儲(chǔ)、分發(fā)和提高使用所需的技術(shù)、政策、標(biāo)準(zhǔn)和人力資源”。是為使用、生產(chǎn)和管理與地理空間信息有關(guān)的社會(huì)各部門以及個(gè)人提供基礎(chǔ)信息環(huán)境和支持,是國(guó)家信息基礎(chǔ)設(shè)施的子集。

28、一、國(guó)家空間信息基礎(chǔ)設(shè)施定義10.2 空間數(shù)據(jù)基礎(chǔ)設(shè)施第40頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五 在今天的信息社會(huì)和網(wǎng)絡(luò)環(huán)境下,它是一個(gè)分布式異構(gòu)的地理空間信息資源網(wǎng)絡(luò)??臻g信息基礎(chǔ)設(shè)施的體系結(jié)構(gòu)是實(shí)施地理空間信息基礎(chǔ)設(shè)施概念的邏輯模型。 空間信息基礎(chǔ)設(shè)施在區(qū)域?qū)哟紊戏譃槿蚩臻g信息基礎(chǔ)設(shè)施()、區(qū)域空間信息基礎(chǔ)設(shè)施()和國(guó)家空間信息基礎(chǔ)設(shè)施(NSII)。一、國(guó)家空間信息基礎(chǔ)設(shè)施定義10.2 空間數(shù)據(jù)基礎(chǔ)設(shè)施第41頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五空間信息具有區(qū)域性、綜合性和共享性,NSII旨在建立作為各部門共同使用的基礎(chǔ)信息,避免部門重復(fù)建設(shè)問題

29、,提高信息標(biāo)準(zhǔn)化程度,為信息共享和網(wǎng)絡(luò)上的協(xié)作掃除障礙。 空間信息基礎(chǔ)設(shè)施的目標(biāo)是建立、維護(hù)和使用一個(gè)空間信息框架??臻g信息框架包括兩方面的內(nèi)容:一是空間信息內(nèi)容,即框架的基礎(chǔ)空間數(shù)據(jù)和專題數(shù)據(jù);二是空間信息服務(wù),即提供對(duì)空間信息的共享、集成和互操作的功能和接口。二、NSII的目標(biāo)10.2 空間數(shù)據(jù)基礎(chǔ)設(shè)施第42頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五空間信息基礎(chǔ)設(shè)施提供兩種服務(wù):一是為廣大社會(huì)群眾提供普通服務(wù),回答普通群眾關(guān)心的環(huán)境、交通、旅游、新聞、房地產(chǎn)、商業(yè)、公共設(shè)施建設(shè)以及其它社會(huì)問題,用戶通過簡(jiǎn)單的個(gè)人計(jì)算機(jī)瀏覽界面,查詢空間信息;二是為各個(gè)專用部門的特殊應(yīng)用服務(wù)

30、,包括資源開發(fā)、環(huán)境管理、生態(tài)監(jiān)測(cè)、區(qū)域規(guī)劃等制圖和空間分析,并為可持續(xù)發(fā)展提供信息和決策支持。 二、NSII的目標(biāo)10.2 空間數(shù)據(jù)基礎(chǔ)設(shè)施第43頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五信息網(wǎng)絡(luò):主要包括由國(guó)內(nèi)外各種空間數(shù)據(jù)與信息的生產(chǎn)者、經(jīng)營(yíng)者和用戶所構(gòu)成的網(wǎng)絡(luò)及其相應(yīng)的管理系統(tǒng)、軟硬件設(shè)備等內(nèi)容。數(shù)據(jù)獲?。褐饕ǜ鲗I(yè)部門和地方的第一手?jǐn)?shù)據(jù)的獲取系統(tǒng)及其產(chǎn)品 (包括各種類型的數(shù)字空間信息和有空間參考的信息)信息服務(wù):主要包括持續(xù)地對(duì)地理空間數(shù)據(jù)產(chǎn)品進(jìn)行各種增值加工處理,即信息提??;完成客戶提出的各種信息分析應(yīng)用任務(wù);為各級(jí)政府提供規(guī)劃、管理和決策支持方面的服務(wù)內(nèi)容。三

31、、NSII的組成10.2 空間數(shù)據(jù)基礎(chǔ)設(shè)施第44頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五技術(shù)工具:主要包括能夠高效、持續(xù)地對(duì)來自數(shù)據(jù)獲取部分的地理空間數(shù)據(jù)產(chǎn)品(也包括遙感數(shù)據(jù)產(chǎn)品)進(jìn)行信息提取、分析應(yīng)用與咨詢服務(wù)的各種軟、硬件技術(shù)、方法與工具。 政策、規(guī)劃、標(biāo)準(zhǔn) 伙伴關(guān)系:包括從事空間數(shù)據(jù)、信息及其服務(wù)的各種機(jī)構(gòu)、人員及其之間的關(guān)系。三、NSII的組成10.2 空間數(shù)據(jù)基礎(chǔ)設(shè)施第45頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五四、NSII體系結(jié)構(gòu) 政策、規(guī) 劃、標(biāo)準(zhǔn)數(shù) 據(jù) 獲 取信息網(wǎng)絡(luò)信息服務(wù)技術(shù)工具伙伴關(guān)系地理空間數(shù)據(jù)獲取系統(tǒng)地理空間信息共享應(yīng)用網(wǎng)絡(luò)10.2

32、 空間數(shù)據(jù)基礎(chǔ)設(shè)施第46頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五五、NII和NSII10.2 空間數(shù)據(jù)基礎(chǔ)設(shè)施國(guó)家發(fā)展、社會(huì)進(jìn)步、生活改善地理空間信息服務(wù)(資源調(diào)查、生態(tài)檢測(cè)、環(huán)境保護(hù)、防災(zāi)減災(zāi)、衛(wèi)生健康以及城市/區(qū)域規(guī)劃、管理和決策等)國(guó)家空間基礎(chǔ)設(shè)施(NSII)國(guó)家信息基礎(chǔ)設(shè)施(NII,數(shù)字通訊網(wǎng)絡(luò))電子商務(wù)數(shù)字圖書館數(shù)字通訊第47頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五一方面,SDW是NSII中的重要組成部分,它負(fù)責(zé)NSII能夠提供的空間信息的存儲(chǔ)和管理。另一方面,SDW的作用的最大發(fā)揮,離不開NSII的其他部分,例如通訊網(wǎng)絡(luò)為SDW提供了基本的通訊條

33、件。 六、SDW和NSII10.2 空間數(shù)據(jù)基礎(chǔ)設(shè)施第48頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘(空間)數(shù)據(jù)挖掘的出現(xiàn)趨勢(shì)(空間)數(shù)據(jù)挖掘的概念(空間)數(shù)據(jù)挖掘的分類(空間)數(shù)掘挖掘的體系結(jié)構(gòu)空間數(shù)據(jù)挖掘的可挖掘的知識(shí)類型空間數(shù)據(jù)挖掘的功能空間數(shù)據(jù)挖掘的方法空間數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)空間數(shù)據(jù)挖掘近年主要研究進(jìn)展空間數(shù)據(jù)挖掘的發(fā)展方向第49頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五 因?yàn)樾枰?、(空間)數(shù)據(jù)挖掘的出現(xiàn)趨勢(shì)10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘第50頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五由于近年來空間信息

34、技術(shù)領(lǐng)域內(nèi)觀測(cè)技術(shù)、網(wǎng)絡(luò)技術(shù)的飛速發(fā)展以及臺(tái)站建設(shè)的普及和不斷完善,包括資源、環(huán)境、災(zāi)害的各種空間數(shù)據(jù)呈指數(shù)級(jí)數(shù)增長(zhǎng); 一、(空間)數(shù)據(jù)挖掘的出現(xiàn)趨勢(shì)10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘第51頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五專職處理空間數(shù)據(jù)的GIS在近十幾年來雖得到了廣泛的應(yīng)用,并在空間數(shù)據(jù)的存儲(chǔ)、查詢以及顯示等方面有了較快的發(fā)展,但面對(duì)數(shù)據(jù)量日益增長(zhǎng)和種類繁多的空間數(shù)據(jù),因其空間分析多以圖形操作為主(如緩沖區(qū)操作,空間疊加,鄰近分析以及空間連接等等),故而在空間信息的深入提取和知識(shí)發(fā)現(xiàn)等方面的功能仍相對(duì)薄弱。一、(空間)數(shù)據(jù)挖掘的出現(xiàn)趨勢(shì)10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘

35、第52頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五二、(空間)數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘:在你的數(shù)據(jù)中搜索知識(shí)10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘第53頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五 數(shù)據(jù)挖掘(Data Mining,簡(jiǎn)稱DM)是從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的、并最終可理解的模式非平凡過程。 在上述的定義中,過程通常指多階段的一個(gè)過程,涉及數(shù)據(jù)準(zhǔn)備、模式搜索、知識(shí)評(píng)價(jià),以及反復(fù)的修改求精;該過程要求是非平凡的,即要有一定程度的智能性、自動(dòng)性(例如:僅僅給出所有數(shù)據(jù)的總和就不能算作是一個(gè)發(fā)現(xiàn)過程); 數(shù)據(jù)挖掘的定義10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘第5

36、4頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五有效性是指發(fā)現(xiàn)的模式對(duì)于新的數(shù)據(jù)仍保持有一定的可信度;新穎性要求發(fā)現(xiàn)的模式應(yīng)該是從前未知的;潛在有用性是指發(fā)現(xiàn)的知識(shí)將來有實(shí)際效用,如用于決策支持系統(tǒng)里可提高經(jīng)濟(jì)效益;最終可理解性要求發(fā)現(xiàn)的模式能被用戶理解,目前它主要是體現(xiàn)在簡(jiǎn)潔性上。上述的有效性、新穎性、潛在有用性和最終可理解性綜合在一起可稱之為興趣性(Interestingness)。 數(shù)據(jù)挖掘的定義10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘第55頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五 有時(shí),人們常常把DM和KDD(Knowledge Discovery in Data

37、bases)等同起來。一般說來,KDD側(cè)重于目的和結(jié)果,多用于人工智能領(lǐng)域;而DM側(cè)重于處理過程和方法,多用于數(shù)據(jù)庫(kù)領(lǐng)域。也有人將兩者結(jié)合起來使用,稱為數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn) (Data Mining and Knowledge Discovery, 簡(jiǎn)稱)技術(shù)。1995年在加拿大召開的第一屆知識(shí)發(fā)現(xiàn)和數(shù)據(jù)開采(也稱數(shù)據(jù)挖掘)國(guó)際學(xué)術(shù)會(huì)議上,KDD被認(rèn)為從數(shù)據(jù)中發(fā)現(xiàn)有用知識(shí)的整個(gè)過程,知識(shí)即意味著數(shù)據(jù)元素之間的關(guān)系和模式。數(shù)據(jù)開采被認(rèn)為是KDD過程中的一個(gè)特定步驟,它是應(yīng)用具體算法從數(shù)據(jù)中提取模式和知識(shí)。 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)的關(guān)系10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘第56頁(yè),共83頁(yè),2022年,5月

38、20日,12點(diǎn)29分,星期五Data CleaningData IntegrationDatabasesData WarehouseKnowledgeTask-relevant DataSelectionData MiningPattern Evaluation數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)的關(guān)系10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘第57頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五一種觀點(diǎn),認(rèn)為OLAP和數(shù)據(jù)挖掘是不交的。OLAP是數(shù)據(jù)匯總/聚集工具,它幫助簡(jiǎn)化數(shù)據(jù)分析;而數(shù)據(jù)挖掘自動(dòng)發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的隱含模式和有趣知識(shí)。OLAP工具的目標(biāo)是簡(jiǎn)化和支持交互數(shù)據(jù)分析,而數(shù)據(jù)挖掘的目標(biāo)是盡可能自

39、動(dòng)處理,盡管允許用戶指導(dǎo)這一過程。 數(shù)據(jù)挖掘與OLAP的關(guān)系10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘第58頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五另一種更廣泛的觀點(diǎn)可能被接受:數(shù)據(jù)挖掘包含數(shù)據(jù)描述和數(shù)據(jù)建模。由于OLAP系統(tǒng)可以提供數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的一般描述,OLAP的功能基本上是用戶指揮的匯總和比較。這些盡管有限,但都是數(shù)據(jù)挖掘功能。同樣根據(jù)這種觀點(diǎn),數(shù)據(jù)挖掘要比簡(jiǎn)單的OLAP操作寬得多,因?yàn)樗粌H執(zhí)行數(shù)據(jù)匯總和比較,而且執(zhí)行關(guān)聯(lián),分類,預(yù)測(cè),聚類,時(shí)間序列分析和其他數(shù)據(jù)分析任務(wù)。而且,數(shù)據(jù)挖掘不限于分析數(shù)據(jù)倉(cāng)庫(kù)中得數(shù)據(jù)。它可以分析現(xiàn)存得,比數(shù)據(jù)倉(cāng)庫(kù)提供得匯總數(shù)據(jù)粒度更細(xì)得數(shù)據(jù)。它也

40、可以分析事務(wù)、文本的、空間的和多媒體數(shù)據(jù),這些數(shù)據(jù)很難用現(xiàn)有的多維數(shù)據(jù)庫(kù)技術(shù)建模。在這種意義下,數(shù)據(jù)挖掘涵蓋的數(shù)據(jù)挖掘功能和處理的數(shù)據(jù)復(fù)雜性要比OLAP大得多。 數(shù)據(jù)挖掘與OLAP的關(guān)系10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘第59頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五根據(jù)挖掘的數(shù)據(jù)庫(kù)類型分類:由于數(shù)據(jù)庫(kù)本身可以根據(jù)不同的標(biāo)準(zhǔn)(如數(shù)據(jù)模型,或數(shù)據(jù),或所涉及的應(yīng)用類型)分類,每一類可能需要自己的數(shù)據(jù)挖掘技術(shù)。這樣,數(shù)據(jù)挖掘系統(tǒng)可以有相應(yīng)分類。如根據(jù)數(shù)據(jù)模型,有關(guān)系,事務(wù),面向?qū)ο蟮?,?duì)象關(guān)系的或者數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘系統(tǒng)。如果根據(jù)所處理的數(shù)據(jù)的特定的類型分類,有空間的,時(shí)間序列的,文本

41、的或多媒體的挖掘系統(tǒng),或WWW數(shù)據(jù)挖掘系統(tǒng)。三、(空間)數(shù)據(jù)挖掘的分類10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘第60頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五根據(jù)數(shù)據(jù)挖掘系統(tǒng)可以根據(jù)所挖掘的知識(shí)類型分類:即根據(jù)數(shù)據(jù)挖掘的功能,如特征化,區(qū)分,關(guān)聯(lián),分類聚類,孤立點(diǎn)分析和演變分析,偏差分析,類似性分析等分類。一個(gè)全面的數(shù)據(jù)挖掘系統(tǒng)當(dāng)提供多種和/或集成的數(shù)據(jù)挖掘功能。按照所挖掘的知識(shí)的粒度或抽象層分類:包括概化知識(shí)(在高抽象層),原始層知識(shí)(在原始數(shù)據(jù)層),或多層知識(shí)(考慮若干抽象層)。一個(gè)高級(jí)數(shù)據(jù)挖掘應(yīng)當(dāng)支持度抽象層的知識(shí)發(fā)現(xiàn)。 三、(空間)數(shù)據(jù)挖掘的分類10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘

42、第61頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五根據(jù)數(shù)據(jù)是否規(guī)則:還可以分類為挖掘數(shù)據(jù)規(guī)則性(通常出現(xiàn)的模式)和數(shù)據(jù)不規(guī)則性(如異?;蚬铝Ⅻc(diǎn))。一般,概念描述,關(guān)聯(lián)分析,分類,預(yù)測(cè)和聚類挖掘數(shù)據(jù)規(guī)律,將孤立點(diǎn)作為噪音排除。這些方法也能幫助檢測(cè)孤立點(diǎn)。根據(jù)應(yīng)用分類:數(shù)據(jù)挖掘系統(tǒng)可以根據(jù)應(yīng)用分類。例如,金融,電信,DNA,股票市場(chǎng),E-MAIL等等。 三、(空間)數(shù)據(jù)挖掘的分類10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘第62頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五根據(jù)所用的技術(shù)分類:可以根據(jù)用戶交互程度(例如自動(dòng)系統(tǒng),交互探查系統(tǒng),查詢驅(qū)動(dòng)系統(tǒng)),或所用的數(shù)據(jù)分析方法(例如

43、面向數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)的技術(shù),機(jī)器學(xué)習(xí),統(tǒng)計(jì)學(xué),可視化,模式識(shí)別,神經(jīng)網(wǎng)絡(luò)等)描述。復(fù)雜的數(shù)據(jù)挖掘系統(tǒng)通常采用多種數(shù)據(jù)挖掘技術(shù),或采用有效的,集成的技術(shù),結(jié)合一些方法的優(yōu)點(diǎn)。三、(空間)數(shù)據(jù)挖掘的分類10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘第63頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五四、(空間)數(shù)據(jù)挖掘的體系結(jié)構(gòu)10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘控制器DB接口空間數(shù)據(jù)結(jié)構(gòu)查詢優(yōu)化聚焦對(duì)象和屬性抽取模式抽取統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘方法計(jì)算幾何學(xué)評(píng)估有趣程度統(tǒng)計(jì)重要性知識(shí)庫(kù) 概念層 元數(shù)據(jù) 數(shù)據(jù)庫(kù)統(tǒng)計(jì)數(shù)據(jù)發(fā)現(xiàn)領(lǐng)域知識(shí)DBMS用戶查詢第64頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分

44、,星期五普遍的幾何知識(shí):指某類目標(biāo)的數(shù)量、大小、形態(tài)特征等的普遍的幾何特征 ??臻g分布規(guī)律:指目標(biāo)在地理空間的分布規(guī)律,分成在垂直向、水平向以及垂直向和水平向的聯(lián)合分布規(guī)律。 空間關(guān)聯(lián)規(guī)則:指空間目標(biāo)間相鄰、相連、共生、包含等空間關(guān)聯(lián)規(guī)則。 五、(空間)數(shù)據(jù)挖掘的可挖掘的知識(shí)類型10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘第65頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五空間聚類規(guī)則:空間聚類規(guī)則,或空間分類規(guī)則,是指特征相近的空間目標(biāo)聚類成上一級(jí)類的規(guī)則,可用于GIS的空間概括和綜合。 空間特征規(guī)則:指某類或幾類空間目標(biāo)的幾何的和屬性的普遍特征,即對(duì)共性的描述。 空間區(qū)分規(guī)則:指區(qū)分不同類

45、目標(biāo)的特征。空間演變規(guī)則:指空間目標(biāo)依時(shí)間的變化規(guī)則。10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘五、(空間)數(shù)據(jù)挖掘的可挖掘的知識(shí)類型第66頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五分類模式它是一分類函數(shù),能夠把數(shù)據(jù)集中的數(shù)據(jù)相項(xiàng)影射到某個(gè)給定的類上。分類模式往往表現(xiàn)為一棵分類樹,根據(jù)數(shù)據(jù)的值從樹根開始搜索,沿?cái)?shù)據(jù)滿足的分支往上走。走到樹葉就能確定類別。 回歸模式回歸模式與分類模式相似,它們的差別在于分類模式的預(yù)測(cè)值是離散的,回歸模式的預(yù)測(cè)值是連續(xù)的。時(shí)間序列模式根據(jù)數(shù)據(jù)隨時(shí)間變化的趨勢(shì)預(yù)測(cè)將來的值。六、空間數(shù)據(jù)挖掘的功能10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘第67頁(yè),共83頁(yè),2022年,5

46、月20日,12點(diǎn)29分,星期五聚類模式把數(shù)據(jù)分到不同的組中,組間差別盡可能大,組內(nèi)差別盡可能小。關(guān)聯(lián)模式關(guān)聯(lián)模式是數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則。序列模式序列模式和回歸模式相仿,而把數(shù)據(jù)之間的關(guān)系與時(shí)間聯(lián)系起來。在解決實(shí)際問題時(shí),經(jīng)常要使用各種模式。分類模式與回歸模式是最普遍的模式。六、空間數(shù)據(jù)挖掘的功能10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘第68頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五1. 空間分析方法 2. 統(tǒng)計(jì)分析方法 3. 歸納學(xué)習(xí)方法 4. 聚類與分類方法 5. 可視化方法 6. 粗集方法 7. 云理論 8. 空間特征和趨勢(shì)探測(cè)方法 9. 數(shù)字地圖圖像分析和模式識(shí)別方法 10. 探測(cè)

47、性的數(shù)據(jù)分析方法 11. 遺傳算法12. 模糊邏輯13. 最近鄰技術(shù) 七、空間數(shù)據(jù)挖掘的方法10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘第69頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五八、空間數(shù)據(jù)挖掘的系統(tǒng)結(jié)構(gòu)10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘知識(shí)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器數(shù)據(jù)挖掘引擎模式評(píng)估圖形用戶界面數(shù)據(jù)清理數(shù)據(jù)集成過濾第70頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五空間知識(shí)發(fā)現(xiàn)的系統(tǒng)結(jié)構(gòu)10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘用戶界面感興趣的數(shù)據(jù)發(fā)現(xiàn)的知識(shí)空間數(shù)據(jù)庫(kù)領(lǐng)域知識(shí)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)模塊空間數(shù)據(jù)管理模塊第71頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分

48、,星期五1. 針對(duì)海量數(shù)據(jù)的算法研究改變算法運(yùn)行的策略:采用并行運(yùn)算環(huán)境; 提高數(shù)據(jù)庫(kù)查詢語言的效率 ;對(duì)原有算法的結(jié)構(gòu)進(jìn)行改進(jìn),從而減小運(yùn)算的復(fù)雜度 。九、空間數(shù)據(jù)挖掘近年主要研究進(jìn)展10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘第72頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五2. 以神經(jīng)網(wǎng)絡(luò)為代表的智能方法成為解決空間非線性關(guān)系的主要工具 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的發(fā)展 統(tǒng)計(jì)學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)支撐向量機(jī) 機(jī)器學(xué)習(xí)中熵標(biāo)準(zhǔn)的應(yīng)用 九、空間數(shù)據(jù)挖掘近年主要研究進(jìn)展10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘第73頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五3. 尺度空間概念的應(yīng)用 4. 模糊集和粗集理論的應(yīng)用5. 高維數(shù)據(jù)的挖掘算法 6. 空間數(shù)據(jù)的缺值研究 九、空間數(shù)據(jù)挖掘近年主要研究進(jìn)展10.3 數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘第74頁(yè),共83頁(yè),2022年,5月20日,12點(diǎn)29分,星期五 在空間數(shù)據(jù)發(fā)掘SDM的理論和方法方面,重要的研究方向有:背景知識(shí)概念樹的自動(dòng)生成、不確定性情況下的數(shù)據(jù)發(fā)掘、遞增式數(shù)據(jù)發(fā)掘、柵格矢量一體化數(shù)據(jù)發(fā)掘、多分辨率及多層次數(shù)據(jù)發(fā)掘、并行數(shù)據(jù)發(fā)掘、新算法和高效率算法的研究、空間數(shù)據(jù)發(fā)掘查詢語言SDMQL、規(guī)則的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論