數(shù)據(jù)挖掘研究生課件--知識發(fā)現(xiàn)過程與應用結構_第1頁
數(shù)據(jù)挖掘研究生課件--知識發(fā)現(xiàn)過程與應用結構_第2頁
數(shù)據(jù)挖掘研究生課件--知識發(fā)現(xiàn)過程與應用結構_第3頁
數(shù)據(jù)挖掘研究生課件--知識發(fā)現(xiàn)過程與應用結構_第4頁
數(shù)據(jù)挖掘研究生課件--知識發(fā)現(xiàn)過程與應用結構_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第二章第二章 知識發(fā)現(xiàn)過程與應用結構知識發(fā)現(xiàn)過程與應用結構 內(nèi)容提要內(nèi)容提要n知識發(fā)現(xiàn)的基本過程 n數(shù)據(jù)庫中的知識發(fā)現(xiàn)處理過程模型n知識發(fā)現(xiàn)軟件或工具的發(fā)展n知識發(fā)現(xiàn)項目的過程化管理 n數(shù)據(jù)挖掘語言介紹 如何學習本章內(nèi)容n在上一章我們指出,數(shù)據(jù)挖掘有廣義和狹義兩種理解。為了避免混淆,本章寧愿使用知識發(fā)現(xiàn)而把數(shù)據(jù)挖掘限制在上面所描述的狹義概念上。n雖然不同企業(yè)會有不同的業(yè)務邏輯,解決問題的具體方法有所差異,但是它們進行知識發(fā)現(xiàn)的目的和基本思路是一致的。因此,本章首先對知識發(fā)現(xiàn)的基本過程進行分析,旨在使讀者從總體上掌握知識發(fā)現(xiàn)的基本步驟和技術。然后對目前比較流行的KDD過程處理模型進行剖析,使讀者

2、了解KDD系統(tǒng)的應用體系結構。通過對KDD系統(tǒng)的基本技術環(huán)境和主要部件功能分析,使讀者對KDD系統(tǒng)的體系結構有一個更深入的了解。在此基礎上對KDD軟件和工具進行歸納、舉例和分析,幫助讀者在實際應用中學會選擇和使用相應的軟件和工具。n本章也對KDD系統(tǒng)項目的過程化管理、交互式數(shù)據(jù)挖掘過程以及通用的KDD原型系統(tǒng)進行討論,使讀者從軟件項目管理角度來更好地理解KDD過程。最后對數(shù)據(jù)挖掘語言的類型和特點進行介紹。知識發(fā)現(xiàn)是一個系統(tǒng)化的工作n從源數(shù)據(jù)中發(fā)現(xiàn)有用知識是一個系統(tǒng)化的工作。首先必須對可以利用的源數(shù)據(jù)進行分析,確定合適的挖掘目標。然后才能著手系統(tǒng)的設計和開發(fā)。n完成從大型源數(shù)據(jù)中發(fā)現(xiàn)有價值知識的

3、過程可以簡單地概括為:首先從數(shù)據(jù)源中抽取感興趣的數(shù)據(jù),并把它組織成適合挖掘的數(shù)據(jù)組織形式;然后,調(diào)用相應的算法生成所需的知識;最后對生成的知識模式進行評估,并把有價值的知識集成到企業(yè)的智能系統(tǒng)中。n一般地說,KDD是一個多步驟的處理過程,一般分為問題定義、數(shù)據(jù)抽取、數(shù)據(jù)預處理、數(shù)據(jù)挖掘以及模式評估等基本階段。 問題定義階段的功能問題定義階段的功能n KDD是為了在大量數(shù)據(jù)中發(fā)現(xiàn)有用的令人感興趣的信息,因此發(fā)現(xiàn)何種知識就成為整個過程中第一個也是最重要的一個階段。n在問題定義過程中,數(shù)據(jù)挖掘人員必須和領域專家以及最終用戶緊密協(xié)作n一方面了解相關領域的有關情況,熟悉背景知識,弄清用戶要求,確定挖掘的

4、目標等要求;n另一方面通過對各種學習算法的對比進而確定可用的學習算法。后續(xù)的學習算法選擇和數(shù)據(jù)集準備都是在此基礎上進行的。數(shù)據(jù)抽取與集成數(shù)據(jù)抽取與集成n數(shù)據(jù)抽取與集成是知識發(fā)現(xiàn)的關鍵性工作。早期的數(shù)據(jù)抽取是依靠手工編程來實現(xiàn)的,現(xiàn)在可以通過高效的抽取工具來實現(xiàn)。即使是使用抽取工具,數(shù)據(jù)抽取和和裝載仍然是一件很艱苦的工作。n源數(shù)據(jù)庫的選取以及從中抽取數(shù)據(jù)的原則和具體規(guī)則必須依據(jù)系統(tǒng)的任務來界定。主要任務是設計存儲新數(shù)據(jù)的結構和準確定義它與源數(shù)據(jù)的轉換和裝載機制,以便正確地從每個數(shù)據(jù)源中抽取所需的數(shù)據(jù)。這些結構和轉換信息應該作為元數(shù)據(jù)(Metadata)被存儲起來。n來自不同源的數(shù)據(jù)可能有模式定義

5、上的差異,也可能存在因數(shù)據(jù)冗余而無法確定有效數(shù)據(jù)的情形。此外,還要考慮數(shù)據(jù)庫系統(tǒng)本身可能存在不兼容的情況 數(shù)據(jù)清洗與預處理數(shù)據(jù)清洗與預處理 n在開始一個知識發(fā)現(xiàn)項目之前必須清晰地定義挖掘目標。雖然挖掘的最后結果是不可預測的,但是要解決或探索的問題應該是可預見的。盲目性地挖掘是沒有任何意義的。如果所集成的數(shù)據(jù)不正確,數(shù)據(jù)挖掘算法輸出的結果也必然不正確,這樣形成的決策支持是不可靠的。因此,要提高挖掘結果的準確率,數(shù)據(jù)預處理是不可忽視的一步。n對數(shù)據(jù)進行預處理,一般需要對源數(shù)據(jù)進行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對其中的噪音數(shù)據(jù)進行平滑,對丟失的數(shù)據(jù)進行填補,消除“臟”數(shù)據(jù),消除重復記錄等。

6、n數(shù)據(jù)清洗是指去除或修補源數(shù)據(jù)中的不完整、不一致、含噪音的數(shù)據(jù)。在源數(shù)據(jù)中,可能由于疏忽、懶惰、甚至為了保密使系統(tǒng)設計人員無法得到某些數(shù)據(jù)項的數(shù)據(jù)。假如這個數(shù)據(jù)項正是知識發(fā)現(xiàn)系統(tǒng)所關心的,那么這類不完整的數(shù)據(jù)就需要修補。n常見的不完整數(shù)據(jù)的修補辦法有:n使用一個全局值來填充(如“unknown”、估計的最大數(shù)或最小數(shù))。n統(tǒng)計該屬性的所有非空值,并用平均值來填充空缺項。n只使用同類對象的屬性平均值填充。n利用回歸或工具預測最可能的值,并用它來填充。n數(shù)據(jù)不一致可能是由于源數(shù)據(jù)庫中對同樣屬性所使用的數(shù)據(jù)類型、度量單位等不同而導致的。因此需要定義它們的轉換規(guī)則,并在挖掘前統(tǒng)一成一個形式。噪音數(shù)據(jù)是

7、指那些明顯不符合邏輯的偏差數(shù)據(jù)(如某雇員200歲),這樣的數(shù)據(jù)往往影響挖掘結果的正確性。數(shù)據(jù)的選擇與整理n沒有高質(zhì)量的數(shù)據(jù)就不可能有高質(zhì)量的挖掘結果。為了得到一個高質(zhì)量的適合挖掘的數(shù)據(jù)子集,一方面需要通過數(shù)據(jù)清洗來消除干擾性數(shù)據(jù),另一方面也需要針對挖掘目標進行數(shù)據(jù)選擇。數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高數(shù)據(jù)采掘的質(zhì)量。數(shù)據(jù)選擇可以使后面的數(shù)據(jù)挖掘工作聚焦到和挖掘任務相關的數(shù)據(jù)子集中。不僅提高了挖掘效率,而且也保證了挖掘的準確性。n利用數(shù)據(jù)變換或規(guī)約等技術可以將數(shù)據(jù)整理成適合進一步挖掘的數(shù)據(jù)格式。數(shù)據(jù)變換可以根據(jù)需要構造出新的屬性以幫助理解分析數(shù)據(jù)的特點,或者將數(shù)據(jù)規(guī)范

8、化,使之落在一個特定的數(shù)據(jù)區(qū)間中。數(shù)據(jù)歸約則是在盡可能保證數(shù)據(jù)完整性的基礎上,將數(shù)據(jù)以其他方式進行表示,以減少數(shù)據(jù)存儲空間,使挖掘過程更有效。常用的歸約策略有:數(shù)據(jù)立方體聚集、維歸約、數(shù)據(jù)壓縮、數(shù)值壓縮和離散化等。數(shù)據(jù)挖掘階段的功能數(shù)據(jù)挖掘階段的功能n運用選定的數(shù)據(jù)挖掘算法,從數(shù)據(jù)中提取出用戶所需要的知識,這些知識可以用一種特定的方式表示。n選擇數(shù)據(jù)挖掘算法有兩個考慮因素:n一是不同的數(shù)據(jù)有不同的特點,因此需要用與之相關的算法來挖掘;n二是用戶或實際運行系統(tǒng)的要求,有的用戶可能希望獲取描述型的(Descriptive)、容易理解的知識(采用規(guī)則表示的挖掘方法顯然要好于神經(jīng)網(wǎng)絡之類的方法),而有

9、的用戶只是希望獲取預測準確度盡可能高的預測型(Predictive)知識,并不在意獲取的知識是否易于理解。知識評估階段的功能知識評估階段的功能n數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來的模式,經(jīng)過評估,可能存在冗余或無關的模式,這時需要將其剔除;也有可能模式不滿足用戶要求,這時則需要整個發(fā)現(xiàn)過程回退到前續(xù)階段,如重新選取數(shù)據(jù)、采用新的數(shù)據(jù)變換方法、設定新的參數(shù)值,甚至換一種算法等等。nKDD由于最終是面向人類用戶的,因此可能要對發(fā)現(xiàn)的模式進行可視化,或者把結果轉換為用戶易懂的另一種表示。所以知識評估階段是KDD一個重要的必不可少的階段,它不僅擔負著將KDD系統(tǒng)發(fā)現(xiàn)的知識以用戶能了解的方式呈現(xiàn),而且根據(jù)需要進行知識

10、評價,如果和用戶的挖掘目標不一致就需要返回前面相應的步驟進行螺旋式處理以最終獲得可用的知識。知識發(fā)現(xiàn)需要多方合作n實施這樣的項目不僅需要充足的資金,而且需要有良好的技術和人員儲備。在整個的知識發(fā)現(xiàn)過程中,需要有不同專長的技術人員支持。n業(yè)務分析人員:要求精通業(yè)務,能夠解釋業(yè)務對象,并根據(jù)各業(yè)務對象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務需求。n數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術,并對統(tǒng)計學有較熟練的掌握,有能力把業(yè)務需求轉化為知識發(fā)現(xiàn)的各步操作,并為每步操作選擇合適的模型或工具。n數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術,并負責從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù)。第二章第二章 知識發(fā)現(xiàn)過程與應用結構知識發(fā)現(xiàn)過程與應用結

11、構 內(nèi)容提要內(nèi)容提要n知識發(fā)現(xiàn)的基本過程 n數(shù)據(jù)庫中的知識發(fā)現(xiàn)處理過程模型n知識發(fā)現(xiàn)軟件或工具的發(fā)展n知識發(fā)現(xiàn)項目的過程化管理 n數(shù)據(jù)挖掘語言介紹 階梯處理過程模型n多階段流水處理模型: 螺旋處理過程模型n它強調(diào)領域專家參與的重要性,并以問題的定義為中心循環(huán)評測挖掘的結果。當結果不令人滿意時,就需要重新定義問題,開始新的處理循環(huán)。每次循環(huán)都使問題更清晰,結果更準確,因此是一個螺旋式上升過程。 以用戶為中心的處理模型nBrachman和Anand從用戶的角度對KDD處理過程進行了分析。他們認為數(shù)據(jù)庫中的知識發(fā)現(xiàn)應該更著重于對用戶進行知識發(fā)現(xiàn)的整個過程的支持,而不是僅僅限于在數(shù)據(jù)挖掘的一個階段上。

12、該模型強調(diào)對用戶與數(shù)據(jù)庫的交互的支持。聯(lián)機KDD模型n實現(xiàn)聯(lián)機交互式KDD需要可視化技術支撐。這種可視化需要從數(shù)據(jù)挖掘過程可視化、數(shù)據(jù)可視化、模型可視化和算法可視覺化等方面來理解。nOLAM(On Line Analytical Mining:聯(lián)機分析挖掘)的概念是OLAP的發(fā)展。An OLAM ArchitectureData WarehouseMeta DataMDDBOLAMEngineOLAPEngineUser GUIAPIData Cube APIDatabase APIData cleaningData integrationL2OLAP/OLAML1MDDBL0Data Rep

13、ositoryL3User InterfaceFiltering&IntegrationFilteringDatabasesMining queryMining result支持多數(shù)據(jù)源多知識模式的支持多數(shù)據(jù)源多知識模式的KDDKDD處理模型處理模型n數(shù)據(jù)與方法相對獨立。數(shù)據(jù)不是針對某一特定知識模式,而是針對某一類問題來抽取。經(jīng)過預處理后,這些數(shù)據(jù)對于某些挖掘算法來說可能存在屬性冗余、與目標無關等問題,因此在后面的階段再進行相關的數(shù)據(jù)清洗和選擇工作,這樣使得解決同一類問題的不同算法可以在統(tǒng)一的KDD平臺上完成。 模式評估模式評估數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)選擇數(shù)據(jù)預處理數(shù)據(jù)清洗模式選擇數(shù)據(jù)集成

14、數(shù)據(jù)抽取數(shù)據(jù)抽取問題定義Web/TEXTDBDWDB/DW源數(shù)據(jù)備選數(shù)據(jù)Cube目標數(shù)據(jù)DB知識庫用戶知識模式庫第二章第二章 知識發(fā)現(xiàn)過程與應用結構知識發(fā)現(xiàn)過程與應用結構 內(nèi)容提要內(nèi)容提要n知識發(fā)現(xiàn)的基本過程 n數(shù)據(jù)庫中的知識發(fā)現(xiàn)處理過程模型n知識發(fā)現(xiàn)軟件或工具的發(fā)展n知識發(fā)現(xiàn)項目的過程化管理 n數(shù)據(jù)挖掘語言介紹 知識發(fā)現(xiàn)軟件的發(fā)展n雖然市場上已經(jīng)有許多所謂的知識發(fā)現(xiàn)系統(tǒng)或工具,但是,這些工具只能用來輔助技術人員進行設計和開發(fā),而且知識發(fā)現(xiàn)軟件本身也正處于發(fā)展階段,仍然存在各種各樣需要解決的問題。n粗略地說,知識發(fā)現(xiàn)軟件或工具的發(fā)展經(jīng)歷了獨立的知識發(fā)現(xiàn)軟件、橫向的知識發(fā)現(xiàn)工具集和縱向的知識發(fā)現(xiàn)

15、解決方案三個主要階段,其中后面兩種反映了目前知識發(fā)現(xiàn)軟件的兩個主要發(fā)展方向。獨立的知識發(fā)現(xiàn)軟件獨立的知識發(fā)現(xiàn)軟件n獨立的知識發(fā)現(xiàn)軟件出現(xiàn)在數(shù)據(jù)挖掘和知識發(fā)現(xiàn)技術研究的早期。當研究人員開發(fā)出一種新型的數(shù)據(jù)挖掘算法后,就在此基礎上形成軟件原型。這些原型系統(tǒng)經(jīng)過完善被嘗試使用。n這類軟件要求用戶必須對具體的數(shù)據(jù)挖掘技術和算法有相當?shù)牧私?,還要手工負責大量的數(shù)據(jù)預處理工作。橫向的知識發(fā)現(xiàn)工具橫向的知識發(fā)現(xiàn)工具n集成化的知識發(fā)現(xiàn)輔助工具集,屬于通用輔助工具范疇,可以幫助用戶快速完成知識發(fā)現(xiàn)的不同階段處理工作。n一些有代表性的原型系統(tǒng)或工具介紹。名稱研究機構或公司主要特點DBMiner1Simon Fra

16、ser以OLAM引擎為核心的聯(lián)機挖掘原型系統(tǒng);包含多特征/序列/關聯(lián)等多模式。Quest75IBM Almaden面向大數(shù)據(jù)集的多模式(關聯(lián)規(guī)則/分類等)挖掘工具。IBM Intelligent Miner76IBM包含多種技術(神經(jīng)網(wǎng)絡/統(tǒng)計分析/聚類等)的輔助挖掘工具集。Darwin76Thinking Machines基于神經(jīng)網(wǎng)絡的輔助挖掘工具。ReMindCognitive System基于實例推理和歸納邏輯的輔助挖掘工具。縱向的知識發(fā)現(xiàn)解決方案n隨著橫向的數(shù)據(jù)挖掘工具集的使用日漸廣泛,人們也發(fā)現(xiàn)這類工具只有精通數(shù)據(jù)挖掘算法的專家才能熟練使用。如果對數(shù)據(jù)挖掘和知識發(fā)現(xiàn)技術及其算法不了解

17、,就難以開發(fā)出好的應用 。n縱向的數(shù)據(jù)挖掘解決方案的核心是針對特定的應用提供完整的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)解決方案。由于和具體的商業(yè)邏輯相結合,因此,數(shù)據(jù)挖掘技術專門為了解決某些特定的問題被使用,成為企業(yè)應用系統(tǒng)中一部分。n許多廠商或研究機構可以提供縱向數(shù)據(jù)挖掘的解決方案。因此,數(shù)據(jù)挖掘技術在最近幾年開始在一些領域得到應用。例如,證券系統(tǒng)的趨勢預測、銀行和電信行業(yè)的欺詐行為檢測、在CRM中的應用、在基因分析系統(tǒng)中用于DNA識別等。n特定領域的數(shù)據(jù)挖掘工具針對性比較強,只能用于一種應用;也正因為針對性強,往往采用特殊的算法,可以處理特殊的數(shù)據(jù),實現(xiàn)特殊的目的,發(fā)現(xiàn)的知識可靠度也比較高。 第二章第二章

18、知識發(fā)現(xiàn)過程與應用結構知識發(fā)現(xiàn)過程與應用結構 內(nèi)容提要內(nèi)容提要n知識發(fā)現(xiàn)的基本過程 n數(shù)據(jù)庫中的知識發(fā)現(xiàn)處理過程模型n知識發(fā)現(xiàn)軟件或工具的發(fā)展n知識發(fā)現(xiàn)項目的過程化管理 n數(shù)據(jù)挖掘語言介紹 知識發(fā)現(xiàn)項目的過程化管理問題n開發(fā)一個數(shù)據(jù)挖掘和知識發(fā)現(xiàn)項目需要各方面協(xié)同合作而且極易出現(xiàn)問題,因此它的質(zhì)量管理問題的討論是重要而困難的。n近幾年,有一些針對數(shù)據(jù)挖掘和知識發(fā)現(xiàn)項目的過程化管理所開展的工作,其中一個典型的模型三被稱作強度挖掘(Intension Mining)的I-MIN過程模型。nI-MIN過程模型把KDD過程分成IM1、IM2、IM6等步驟處理,在每個步驟里,集中討論幾個問題,并按一定的

19、質(zhì)量標準來控制項目的實施。IM1IM1的任務與目的的任務與目的n它是KDD項目的計劃階段,需要確定企業(yè)的挖掘目標,選擇知識發(fā)現(xiàn)模式,編譯知識發(fā)現(xiàn)模式得到的元數(shù)據(jù)。其目的是將企業(yè)的挖掘目標嵌入到對應的知識模式中。n對數(shù)據(jù)挖掘研究人員來說,往往把主要精力用在改進現(xiàn)有算法和探索新算法上。但是在真正調(diào)用挖掘算法之前,必須對企業(yè)的決策機制和流程進行充分調(diào)研,理解企業(yè)急需解決的問題。需要準確地確定挖掘目標和可交付系統(tǒng)的指標等。IM2IM2的任務與目標的任務與目標n它是KDD的預處理階段,可以用IM2a、IM2b、IM2c等分別對應于數(shù)據(jù)清洗、數(shù)據(jù)選擇和數(shù)據(jù)轉換等階段。其目的是生成高質(zhì)量的目標數(shù)據(jù)。n知識發(fā)

20、現(xiàn)項目的數(shù)據(jù)預處理是一個費時費力的工作。事實上,數(shù)據(jù)挖掘的成功與否,數(shù)據(jù)預處理起到了至關重要的作用。只有好的預處理,才能避免GIGO(垃圾進垃圾出)的現(xiàn)象發(fā)生。IM3IM3的任務與目標的任務與目標n它是KDD的挖掘準備階段,數(shù)據(jù)挖掘工程師進行挖掘實驗,反復測試和驗證模型的有效性。其目的是通過實驗和訓練得到濃縮知識(Knowledge Concentrate),為最終用戶提供可使用的模型。IM4IM4的任務與目標的任務與目標n它是KDD的數(shù)據(jù)挖掘階段,用戶通過指定數(shù)據(jù)挖掘算法得到對應的知識。 IM5IM5的任務與目標的任務與目標n它是KDD的知識表示階段,按指定要求形成規(guī)格化的知識。IM6IM6

21、的任務與目標的任務與目標n它是KDD的知識解釋與使用階段,其目的是根據(jù)用戶要求直觀地輸出知識或集成到企業(yè)的知識庫中。第二章第二章 知識發(fā)現(xiàn)過程與應用結構知識發(fā)現(xiàn)過程與應用結構 內(nèi)容提要內(nèi)容提要n知識發(fā)現(xiàn)的基本過程 n數(shù)據(jù)庫中的知識發(fā)現(xiàn)處理過程模型n知識發(fā)現(xiàn)軟件或工具的發(fā)展n知識發(fā)現(xiàn)項目的過程化管理 n數(shù)據(jù)挖掘語言介紹 數(shù)據(jù)挖掘語言概述n設計理想的數(shù)據(jù)挖掘語言是一個巨大的挑戰(zhàn)。這是因為數(shù)據(jù)挖掘覆蓋的任務寬、包含知識形式廣(如數(shù)據(jù)特征化、關聯(lián)規(guī)則、數(shù)據(jù)分類、聚集等等)。每個任務都有不同的需求,每種知識表示形式都有不同內(nèi)涵。一個有效的數(shù)據(jù)挖掘語言設計需要對各種不同的數(shù)據(jù)挖掘任務的能力、約束以及運行機

22、制有深入地理解。n眾所周知,關系查詢語言的標準化,發(fā)生在關系型數(shù)據(jù)庫開發(fā)的早期階段。經(jīng)過不懈的努力,以SQL為代表的關系型數(shù)據(jù)庫查詢語言的標準化被成功解決。同樣,一個好的數(shù)據(jù)挖掘語言可以有助于數(shù)據(jù)挖掘系統(tǒng)平臺的標準化進程,甚至可以象HTML推動Internet的發(fā)展一樣,推動數(shù)據(jù)挖掘行業(yè)的開發(fā)和發(fā)展。n數(shù)據(jù)挖掘語言的發(fā)展大致經(jīng)歷了兩個階段:第一個階段是研究單位和公司自行研究和開發(fā)階段;第二階段是研究單位和公司組成聯(lián)盟,研制和開發(fā)數(shù)據(jù)挖掘語言標準化的階段。 數(shù)據(jù)挖掘語言概述n根據(jù)功能和側重點不同,數(shù)據(jù)挖掘語言可以分為三種類型:n數(shù)據(jù)挖掘查詢語言:希望以一種像SQL這樣的數(shù)據(jù)庫查詢語言完成數(shù)據(jù)挖掘

23、的任務。 n數(shù)據(jù)挖掘建模語言:對數(shù)據(jù)挖掘模型進行描述和定義的語言,設計一種標準的數(shù)據(jù)挖掘建模語言,使得數(shù)據(jù)挖掘系統(tǒng)在模型定義和描述方面有標準可以遵循。n通用數(shù)據(jù)挖掘語言:通用數(shù)據(jù)挖掘語言合并了上述兩種語言的特點,既具有定義模型的功能,又能作為查詢語言與數(shù)據(jù)挖掘系統(tǒng)通信,進行交互式挖掘。通用數(shù)據(jù)挖掘語言的標準化是目前解決數(shù)據(jù)挖掘行業(yè)出現(xiàn)問題的頗具吸引力的研究方向。數(shù)據(jù)挖掘查詢語言nJ. W. Han等開發(fā)的數(shù)據(jù)挖掘系統(tǒng)DBMiner中數(shù)據(jù)挖掘查詢語言DMQL(Data Mining Query Language)是這類挖掘語言的典型代表。數(shù)據(jù)挖掘查詢語言DMQL由數(shù)據(jù)挖掘原語組成,數(shù)據(jù)挖掘原語用

24、來定義一個數(shù)據(jù)挖掘任務。用戶使用數(shù)據(jù)挖掘原語與數(shù)據(jù)挖掘系統(tǒng)通信,使得知識發(fā)現(xiàn)更有效。n這些原語有以下幾個種類:n數(shù)據(jù)庫部分以及用戶感興趣的數(shù)據(jù)集(包括感興趣的數(shù)據(jù)庫屬性或數(shù)據(jù)倉庫的維度);n挖掘知識的種類;在指導挖掘過程中有用的背景知識;n模式估值的興趣度測量;挖掘出的知識如何可視化表示。n數(shù)據(jù)挖掘查詢的基本單位是數(shù)據(jù)挖掘任務,通過數(shù)據(jù)挖掘查詢語言,數(shù)據(jù)挖掘任務可以通過查詢的形式輸入到數(shù)據(jù)挖掘系統(tǒng)中。一個數(shù)據(jù)挖掘查詢由五種基本的數(shù)據(jù)挖掘原語定義。 數(shù)據(jù)挖掘建模語言n數(shù)據(jù)挖掘建模語言是對數(shù)據(jù)挖掘模型進行描述和定義的語言。n預言模型標記語言”(Predictive Model Markup Lan

25、guage,PMML)被一個稱作數(shù)據(jù)挖掘協(xié)會(The Data Mining Group,DMG)的組織開發(fā)。PMML是一種基于XML的語言,用來定義預言模型。PMML允許應用程序和聯(lián)機分析處理(OLAP)工具能從數(shù)據(jù)挖掘系統(tǒng)獲得模型,而不用獨自開發(fā)數(shù)據(jù)挖掘模塊。nPMML的模型定義由以下幾部分組成:n頭文件(Header);n數(shù)據(jù)模式(Data Schema);n數(shù)據(jù)挖掘模式(Data Mining Schema);n預言模型模式(Predictive Model Schema);n預言模型定義(Definitions for Predictive Models);n全體模型定義(Defin

26、itions for Ensembles of Models);n選擇和聯(lián)合模型和全體模型的規(guī)則(Rules for Selecting and Combining Models and Ensembles of Models);n異常處理的規(guī)則(Rules for Exception Handling)通用數(shù)據(jù)挖掘語言n通用數(shù)據(jù)挖掘語言合并了上述兩種語言的特點,既具有定義模型的功能,又能作為查詢語言與數(shù)據(jù)挖掘系統(tǒng)通信,進行交互式挖掘。通用數(shù)據(jù)挖掘語言的標準化是目前解決數(shù)據(jù)挖掘行業(yè)出現(xiàn)問題的頗具吸引力的研究方向。n2000年3月,微軟公司推出了一個數(shù)據(jù)挖掘語言,稱作OLE DB for Dat

27、a Mining(DM),是通用數(shù)據(jù)挖掘語言中最具代表性的嘗試。微軟此舉的目的是為數(shù)據(jù)挖掘提供行業(yè)標準。只要符合這個標準,都能容易地嵌入應用程序中。nOLE DB for DM支持多種流行的數(shù)據(jù)挖掘算法。使用OLE DB for DM,數(shù)據(jù)挖掘應用能夠通過OLE DB生產(chǎn)者接進任何表格式的數(shù)據(jù)源。DMQL挖掘查詢語言介紹nDMQLDMQL語言的頂層語法語言的頂層語法DMQL:=;:=|n數(shù)據(jù)挖掘聲明(數(shù)據(jù)挖掘聲明(Data_Mining_StatementData_Mining_Statement)語句相關項說明)語句相關項說明:=use database | use data warehou

28、se use hierarchy for from where in relevance to order by group by having n例子:use databaseuse database AllElecronics_dbin relevance toin relevance to I.name,I.price,C.income,C.agefrom from customer C, item I, purchases P, items_sold Swherewhere I.item_ID=S.item_ID and S.trans_ID=P.trans_ID and P.cust_ID=C.cust_ID and C.country=“Canada”group bygroup by P.date;DMQL挖掘查詢語言介紹(續(xù))n挖掘知識指定(挖掘知識指定(Mine_Knowledge_SpecificationMine_K

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論