數(shù)據(jù)挖掘研究在信息化中的應用研究_第1頁
數(shù)據(jù)挖掘研究在信息化中的應用研究_第2頁
數(shù)據(jù)挖掘研究在信息化中的應用研究_第3頁
數(shù)據(jù)挖掘研究在信息化中的應用研究_第4頁
數(shù)據(jù)挖掘研究在信息化中的應用研究_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)挖掘研究在信息化中的應用研究摘要:本文系統(tǒng)論述和總結了數(shù)據(jù)挖掘和空間數(shù)據(jù)挖掘的概念、技術方法和研究現(xiàn)狀。詳細介紹了目前主流的數(shù)據(jù)挖掘廠商及解決方案文章最后簡要分析了數(shù)據(jù)挖掘技術在國土資源行業(yè)中的研究現(xiàn)狀,并對如何利用這些新技術為國土資源業(yè)務管理與決策支持提供幫助進行了初步探討。 關鍵詞:數(shù)據(jù)挖掘 空間數(shù)據(jù)挖掘 國土資源1 數(shù)據(jù)挖掘的概念、技術方法和研究現(xiàn)狀1.1數(shù)據(jù)挖掘的概念 隨著數(shù)據(jù)倉庫技術的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應用,人們積累的數(shù)據(jù)越來越多。人們迫切地感到需要新的技術和工具以便從大量數(shù)據(jù)中智能地、自動地抽取出有價值的知識或信息。數(shù)據(jù)庫知識發(fā)現(xiàn)(knowledg。discove

2、ry in databases,kdd,或者稱數(shù)據(jù)挖掘,data mining,dm)于是應運而生。 1989年8月在美國底特律召開的第11屆國際人工智能聯(lián)合會議的專題討論會上首次出現(xiàn)kdd這個術語。數(shù)據(jù)挖掘使數(shù)據(jù)庫技術進入了一個更高級的階段,它不僅能對過去的數(shù)據(jù)進行查詢和遍歷,并且能夠找出過去數(shù)據(jù)之間的潛在聯(lián)系,從而促進信息的傳遞。數(shù)據(jù)挖掘是數(shù)據(jù)倉庫系統(tǒng)中最重要的部分。數(shù)據(jù)挖掘,就是從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識。這些知識是隱含的,事先未知的有用信息,提取的知識可表示為概念(concepts),規(guī)律(regulations),模式(patterns)等形式。事實上,更廣泛一點說,數(shù)

3、據(jù)挖掘就是在一些事實或觀察數(shù)據(jù)的集合中尋找模式的決策支持過程。數(shù)據(jù)挖掘是一個多學科的交叉領域,它涉及到數(shù)據(jù)庫技術、人工智能、機器學習、神經(jīng)網(wǎng)絡、統(tǒng)計學、模式識別、知識庫系統(tǒng)、信息檢索、高性能計算和數(shù)據(jù)可視化等學科。1.2數(shù)據(jù)挖掘的技術和分析方法 數(shù)據(jù)挖掘的核心模塊技術歷經(jīng)了數(shù)十年的發(fā)展,主要涉及到數(shù)據(jù)庫、人工智能、決策樹、統(tǒng)計分析等多種技術,這些技術多數(shù)已被集成到大型數(shù)據(jù)倉庫和olap系統(tǒng)中。常用數(shù)據(jù)挖掘技術,見表1。 數(shù)據(jù)挖掘利用的技術越多,得出的結果精確性就越高。數(shù)據(jù)挖掘方法有多種,其中比較典型的有關聯(lián)分析、序列模式分析、分類分析、聚類分析等,具體如表2所示。1.3數(shù)據(jù)挖掘研究現(xiàn)狀 目前,

4、數(shù)據(jù)挖掘己從高速運行的初級階段進人了方興未艾的中級階段。初級階段已完成了理論草創(chuàng)、模型框架、學術領域的組織落實等工作;中級階段,在理論上完成模型補遺、算法優(yōu)化,理論完善,撰寫著作、教科書。 近年來,對關系數(shù)據(jù)庫中的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)研究己經(jīng)取得了不少進展,其中代表性的工作有:用面向屬性的歸納方法在關系數(shù)據(jù)庫中發(fā)現(xiàn)特征規(guī)則和區(qū)分規(guī)則。在事務數(shù)據(jù)庫中發(fā)現(xiàn)關聯(lián)規(guī)則。基于距離的和基于密度的聚類分析的優(yōu)化等。為了處理數(shù)據(jù)庫中的不確定性問題,rouhg集和模糊集理論得到了廣泛的研究與應用。另外,決策樹、神經(jīng)網(wǎng)絡、遺傳算法、可視化等方法也在機器學習與知識發(fā)現(xiàn)中得到了研究與應用。在數(shù)據(jù)挖掘與知識發(fā)現(xiàn)領域,最有

5、影響的發(fā)現(xiàn)算法有imb的agrwaal的關聯(lián)算法apriori、加拿大j.han教授的概念樹提升算法、澳大利亞的教授的分類算法以4.5/c5.0、zhang等的birch聚類算法、密西根州立大學erick goomdan的遺傳算法等。在挖掘工具方面的產(chǎn)品也比較成熟。如基于規(guī)則和決策樹的工具典型產(chǎn)品有angoss software開發(fā)的knowledgeseeker。聚類,規(guī)則歸納,發(fā)現(xiàn)多種因果關系,圖形方式顯示決策樹,支持多種數(shù)據(jù)庫。在基于人工神經(jīng)網(wǎng)絡的工具典型產(chǎn)品為advaneed software application的dbprofile。windows環(huán)境,適于市場分析,自然聚類、分段

6、、統(tǒng)計模型和可視化技術。 在國內(nèi),對數(shù)據(jù)挖掘的研究稍晚,還沒有形成整體力量,大多數(shù)相關成果停留在實驗階段,目前尚未見商品化軟件。李德仁院士領導的課題組對發(fā)現(xiàn)狀態(tài)空間理論和云模型在mdkd中的應用進行了系統(tǒng)的研究;北京系統(tǒng)工程研究所對模糊方法在知識發(fā)現(xiàn)中的應用進行了較深人的研究;華中科技大學、復旦大學、浙江大學、中國科技大學、中科院數(shù)學研究所、吉林大學等單位開展了對關聯(lián)規(guī)則發(fā)掘算法的優(yōu)化和改造。2 空間數(shù)據(jù)挖掘的概念和研究現(xiàn)狀2.1空間數(shù)據(jù)挖掘的概念 空間數(shù)據(jù)庫(數(shù)據(jù)倉庫)中的空間數(shù)據(jù)除了其顯式信息外,還具有豐富的隱含信息,如數(shù)字高程模型(d em或tin)除了載荷高程信息外,還隱含了地質巖性與

7、構造方面的信息。這些隱含的信息只有通過數(shù)據(jù)挖掘才能顯示出來。空間數(shù)據(jù)挖掘(spatial data min-ing,sdm),或稱從空間數(shù)據(jù)庫中發(fā)現(xiàn)知識(knowledge discovery from spatial databases,kdsd),是指從空間數(shù)據(jù)庫中提取用戶感興趣的空間模式與特征、空間與非空間數(shù)據(jù)的普遍關系及其他一些隱含在數(shù)據(jù)庫中的普遍的數(shù)據(jù)特征。它可以用來理解或重組空間數(shù)據(jù)、發(fā)現(xiàn)空間和非空間數(shù)據(jù)間的關系、構建空間知識庫、優(yōu)化查詢等。2.2空間數(shù)據(jù)挖掘的研究現(xiàn)狀 空間數(shù)據(jù)挖掘是數(shù)據(jù)挖掘領域的一個研究熱點。早期sdm工作方式一般是靜態(tài)地對單機上一些空間數(shù)據(jù)進行知識挖掘,花費大

8、量的時間精力收集原始信息,挖掘速度慢,挖掘結果難于理解,知識不易更新等缺點。德國慕尼黑大學、加拿大simon fraser大學、芬蘭赫爾辛基大學等空間數(shù)據(jù)挖掘取得了進展。例如,matheus(1993)提出了集數(shù)據(jù)、數(shù)據(jù)表達、數(shù)據(jù)處理三位一體的方式的空間數(shù)據(jù)挖掘的體系結構。在這種結構中,用戶可以控制挖掘過程的每一步。挖掘所需的空間及屬性信息存儲在一個知識庫中,通過數(shù)據(jù)庫接口進行訪問。加拿大simon fraser大學開發(fā)了空間數(shù)據(jù)挖掘系統(tǒng)原形goeminer已邁出的軟件開發(fā)的第一步。goeminer系統(tǒng)功能模塊包括空間數(shù)據(jù)立方體構件模塊、空間聯(lián)機分析處理(olap)模塊和空間數(shù)據(jù)挖掘模塊;挖掘

9、語言為gmql;挖掘規(guī)則有特征規(guī)則、判別規(guī)則和關聯(lián)規(guī)則。這些研究大多具有計算機科學背景,只是把空間數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘的一個應用領域,研究的重點是提高原先數(shù)據(jù)挖掘算法在空間數(shù)據(jù)庫的執(zhí)行效率。在遙感的影像識別方面,許多學者實際已經(jīng)做了大量的空間數(shù)據(jù)挖掘工作。 在國內(nèi),李德仁院士最早開始關注空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn),提出了空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的概念,率先研究了從gis數(shù)據(jù)庫中發(fā)現(xiàn)知識,構筑了空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的理論框架,系統(tǒng)地研究了粗糙集和云理論在空間數(shù)據(jù)挖掘中的理論和技術,提出了用于空間數(shù)據(jù)挖掘的地學粗空間理論。目前武漢大學、中國科學院與環(huán)境信息系統(tǒng)國家重點實驗室、中國科學院軟件研究所等高校

10、和科研院所開展了空間數(shù)據(jù)挖掘的理論研究和應用研究。 數(shù)據(jù)挖掘從提出到現(xiàn)在只短短20年時間,而空間數(shù)據(jù)挖掘則更年輕,但其發(fā)展十分迅速,已經(jīng)取得了十分豐富的成果??臻g數(shù)據(jù)挖掘將具有廣闊的發(fā)展前景。目前,空間數(shù)據(jù)挖掘理論和技術研究方面有待于進一步研究和探索,如多分辨率的數(shù)據(jù)挖掘、并行數(shù)據(jù)挖掘、多媒體空間數(shù)據(jù)庫的數(shù)據(jù)挖掘、知識的可視化表達、分布式空間數(shù)據(jù)的知識發(fā)現(xiàn)、空間數(shù)據(jù)挖掘語言、新算法和高效率的空間挖掘算法、sdm與空間數(shù)據(jù)倉庫、sdm與gis、sdm與空間決策知識系統(tǒng)、sdm與專家系統(tǒng)的集成等方面。3 主流數(shù)據(jù)挖掘廠商及其解決方案 目前,主流的數(shù)據(jù)挖掘廠家有ibm、sas、spss等,他們的產(chǎn)品

11、歷史長、應用而廣,有較大的用戶群。3.1 intelligent miner 由美國ibm公司開發(fā)的數(shù)據(jù)挖掘軟件intelligent mine:是一種分別面向數(shù)據(jù)庫和文本信息進行數(shù)據(jù)挖掘的軟件系列,它包括intelligent miner for data和intelligent miner for text。intelligent miner for data可以挖掘包含在數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)中心中的隱含信息,幫助用戶利用傳統(tǒng)數(shù)據(jù)庫或普通文件中的結構化數(shù)據(jù)進行數(shù)據(jù)挖掘。它已經(jīng)成功應用于市場分析、詐騙行為監(jiān)測及客戶聯(lián)系管理等;intelligent miner for text允許企業(yè)從文

12、本信息進行數(shù)據(jù)挖掘,文本數(shù)據(jù)源可以是文本文件、web頁面、電子郵件、lotus notes數(shù)據(jù)庫等等。3.2 sas enterprise miner 這是一種在我國的企業(yè)中得到較多應用的數(shù)據(jù)挖掘工具,比較典型的包括上海寶鋼配礦系統(tǒng)應用和鐵路部門在春運客運研究中的應用。sas enterprise miner是一種通用的數(shù)據(jù)挖掘工具,按照“抽樣探索轉換建模評估”的方法進行數(shù)據(jù)挖掘可以與sas數(shù)據(jù)倉庫和olap集成,實現(xiàn)從提出數(shù)據(jù)、抓住數(shù)據(jù)到得到解答的“端到端”知識發(fā)現(xiàn)。3.3 spss clementine spss clementine是一個開放式數(shù)據(jù)挖掘工具,曾兩次獲得英國政府smart創(chuàng)

13、新獎,它不但支持整個數(shù)據(jù)挖掘流程,從數(shù)據(jù)獲取、轉化、建模、評估到最終部署的全部過程,還支持數(shù)據(jù)挖掘的行業(yè)標準cristdm。clementine的可視化數(shù)據(jù)挖掘使得“思路”分析成為可能,即將集中精力在要解決的問題本身,它還提供了多種圖形化技術,有助理解數(shù)據(jù)間的關鍵性聯(lián)系,指導用戶以最便捷的途徑找到問題的最終解決辦法。 其它常用的數(shù)據(jù)挖掘工具還有l(wèi)evels5 quest、mineset(sgi)、partek、selearn、spss的數(shù)據(jù)挖掘軟件snob、ashraf azmy的superquery、winrosa、xmdv-tool等。4數(shù)據(jù)挖掘在國土資源信息化中的應用初探 如何把數(shù)據(jù)倉庫

14、和數(shù)據(jù)挖掘技術應用到北京市國土資源信息化中來,是一個很重要的研究課題。我局數(shù)據(jù)倉庫和數(shù)據(jù)挖掘課題組經(jīng)過調(diào)研分析,認為這二種技術應用主要有以下形式:報表(含文字報告、圖表)、地圖、olap分析和數(shù)據(jù)挖掘與預測分析。而要把這些形式應用到電子政務中來,許多信息化單位都提出了不同的方法,其中建立數(shù)據(jù)綜合分析與決策支持系統(tǒng)是一個常用的方法。4.1應用形式 (1)報表 由于數(shù)據(jù)倉庫的數(shù)據(jù)來自國上資源系統(tǒng)各個已有系統(tǒng),提供非常完整而集成的全局數(shù)據(jù)。因而數(shù)據(jù)倉庫的一大應用可以是替代或增強現(xiàn)有業(yè)務報表系統(tǒng),為國土資源系統(tǒng)不同層次和不同部門提供服務。 國土資源數(shù)據(jù)倉庫的應用涉及多個部門和應用,不同部門對報表的需求

15、是多樣化的。用戶以數(shù)據(jù)倉庫作為基準平臺可以采取兩種方式產(chǎn)生報表:一是由數(shù)據(jù)倉庫平臺只為各部門提供基礎數(shù)據(jù),由各個部門自己開發(fā)實現(xiàn)報表系統(tǒng);其二是提供一個報表自動創(chuàng)建工具,用戶利用該工具創(chuàng)建報表。也可以結合企業(yè)oa系統(tǒng)來實現(xiàn)數(shù)據(jù)倉庫的報表實現(xiàn)。 (2)地圖 地圖是國土資源業(yè)務管理和決策分析的最重要工具之一。利用地圖可以實現(xiàn)傳統(tǒng)報表無法實現(xiàn)的功能,展示空間數(shù)據(jù),實現(xiàn)可視化效果。事實上,國土資源業(yè)務審批已經(jīng)和地圖緊密地聯(lián)系在一起,核心業(yè)務審批和宏觀決策都離不開地圖技術的支持,利用地圖和報表可以更好地為宏觀決策提供可視化支持。因此,根據(jù)業(yè)務需要,開發(fā)出靈活、直觀的專題地圖,為業(yè)務管理和決策支持提供可視

16、化技術支持,是一項必要的需求。 (3)olap分析的應用 數(shù)據(jù)倉庫的特點應用是提供olap分析。國土資源數(shù)據(jù)倉庫中數(shù)據(jù)己經(jīng)被組織成各個主題,可以針對主題以及需要決策的層面構建數(shù)據(jù)立方體。它包括土地利用現(xiàn)狀olap、基本農(nóng)田olap、土地規(guī)劃olap、土地整理和儲備olap等多種分析。對于高級用戶來言,olap可以理解為多維、復雜報表,決策者可以通過olap隨時查找他感興趣的主題數(shù)據(jù),得到實用的報表,而不需要每一次工作都由技術人員來完成。 (4)數(shù)據(jù)挖掘和預測 數(shù)據(jù)挖掘能夠幫助實現(xiàn)國土資源數(shù)據(jù)向國土知識轉換,同時發(fā)現(xiàn)隱含的信息。預測是在充分考慮一些重要的國土資源數(shù)據(jù)、社會經(jīng)濟與其他因素的條件下,

17、研究或利用一套系統(tǒng)的數(shù)學方法(模型)對未來國土資源的要素發(fā)展進行預計和推測,例如農(nóng)用地(耕地)變化的預測。數(shù)據(jù)挖掘和預測都是決策支持的重要方向。4.2 國土資源綜合分析與決策支持系統(tǒng)設計 國土資源綜合分析與決策支持系統(tǒng)(以下簡稱決策系統(tǒng))設計主要由需求分析、系統(tǒng)設計、系統(tǒng)開發(fā)實現(xiàn)、系統(tǒng)集成與測試、系統(tǒng)運行等階段組成。每一階段均有其相應的具體工作內(nèi)容。系統(tǒng)建設的詳細流程如圖1所示。 (1)系統(tǒng)分析 系統(tǒng)的需求分析必須要考慮到管理相關部門現(xiàn)有的資源及其在本系統(tǒng)的充分應用。在對系統(tǒng)用戶需求充分調(diào)研基礎上,進行系統(tǒng)需求分析。系統(tǒng)分析包括以下幾個方面:l)用戶業(yè)務管理分析;2)用戶的功能需求;3)數(shù)據(jù)源

18、調(diào)查與分析;4)業(yè)務流程分析與建模;5)系統(tǒng)界面分析。 (2)系統(tǒng)架構設計和網(wǎng)絡結構設計 系統(tǒng)架構是整個信息系統(tǒng)的骨架,決定了系統(tǒng)各個邏輯組織部分,而網(wǎng)絡結構是其中的重要部分。系統(tǒng)架構設計要從系統(tǒng)組織的層次、多組成部分的關系出發(fā),設計出實用、結構靈活、可擴展性的系統(tǒng)架構。 (3)功能子系統(tǒng)設計 系統(tǒng)具有功能繁多的特點,必須對各個具體功能進行分析、規(guī)范、分類,建立功能子系統(tǒng),把具體功能點歸人各功能子系統(tǒng),才能方便用戶使用。 (4)數(shù)據(jù)整合與集成設計 由于國土資源數(shù)據(jù)多源性、多格式的特點,如何整合和集成這些數(shù)量大、形式多樣、量綱不一、兼具定量和定性特點的數(shù)據(jù),是系統(tǒng)建設中的重要內(nèi)容。在確定了數(shù)據(jù)庫

19、的概念體系結構之后,數(shù)據(jù)的整合和集成設計過程是構建大型數(shù)據(jù)庫最困難的部分。在具體設計過程中,有較多的技術難點,需要解決好整合、集成的方法和技術路線問題。 (5)數(shù)據(jù)組織與管理設計 國土資源數(shù)據(jù)是內(nèi)容復雜的海量數(shù)據(jù),建設國土資源數(shù)據(jù)倉庫是十分必要。通過本文前面所提到的建設流程、方法,利用概念設計、邏輯設計和物理設計共同完成對北京市國土資源數(shù)據(jù)倉庫的數(shù)據(jù)倉庫設計。 (6)可視化分析和表達方式設計 可視化分析和表達方式是利用最新的可視化表達技術,針對七個主題中的數(shù)據(jù)特點,設計可視化分析和表達方式,最終以文字、圖表、專題地圖、olap報表等多種方式展現(xiàn)給用戶,為管理決策部門提供決策輔助功能。參考文獻:1邸凱昌空間數(shù)據(jù)發(fā)掘與知識發(fā)現(xiàn)m武漢大學出版社,2002.12.2范明,孟小峰等譯數(shù)據(jù)挖掘m機械工業(yè)出版社,2001.3李德仁,王樹良,李德毅等論空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的理論與方法j武漢大報信息科學版vo(l.7)2003年221一233.4李德仁,王樹良,史文中等論空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)m科學出版社,2000.5黃添強關于空間數(shù)據(jù)挖掘環(huán)境調(diào)控空間決策支持系統(tǒng)研究d福州大學碩士學位文,2003.6han j,kamber m.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論