數(shù)據(jù)挖掘技術(shù)2015B_第1頁
數(shù)據(jù)挖掘技術(shù)2015B_第2頁
數(shù)據(jù)挖掘技術(shù)2015B_第3頁
數(shù)據(jù)挖掘技術(shù)2015B_第4頁
數(shù)據(jù)挖掘技術(shù)2015B_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖掘技術(shù)

王志海zhhwang@辦公室:北502電話:51683859計算機與信息技術(shù)學(xué)院DataMiningTechniquesDr.ZhihaiWang(Prof.)BeijingJiaotongUniversityOffice:North502Tel.:51683859zhhwang@DataMiningTechniques研究背景基本定義

DM過程

DM任務(wù)與方法與DM相關(guān)的理論重要的學(xué)術(shù)會議與期刊澳大利亞大學(xué)簡介?ZhihaiWANG,20153DataMining的研究背景數(shù)據(jù)庫的規(guī)模(大數(shù)據(jù))

摩爾定律(Moore’sLaw)可知,計算機的性能每18個月就會提高1倍。而且,在數(shù)據(jù)存儲領(lǐng)域中,在價格固定的前提下,數(shù)據(jù)存儲能力每9個月就會提高1倍分析能力潛在價值

?ZhihaiWANG,20154DataMining的研究背景分析能力潛在價值

驅(qū)動數(shù)據(jù)庫發(fā)現(xiàn)知識研究的基本動機主要是在許多機構(gòu)中數(shù)據(jù)庫是非常龐大的信息寶庫,可從中發(fā)現(xiàn)具有潛在價值的概念、模式和聯(lián)系。這些知識可以有效地應(yīng)用在許多方面,如商業(yè)決策、數(shù)據(jù)庫模式精化、完整性實施、語義查詢優(yōu)化以及智能查詢處理等。?ZhihaiWANG,20155大數(shù)據(jù)的潛在價值潛在價值超市的商品擺放智能搜索引擎網(wǎng)上購物向?qū)сy行用戶信用等級評估數(shù)據(jù)庫逆向工程………?ZhihaiWANG,20156DataMiningTechniques

研究背景

數(shù)據(jù)挖掘的基本定義

DM過程

DM任務(wù)與方法與DM相關(guān)的理論重要的學(xué)術(shù)會議與期刊澳大利亞大學(xué)簡介?ZhihaiWANG,20157DataMining(KDD)的基本定義

W.J.Frawley,GPiatetsky-Shapiro,C.J.Matheus(1991)

KDDisthenontrivialprocessofidentifyingvalid,novel,potentiallyuseful,andultimatelyunderstand-ablepatternsindata.

KDD是從大量數(shù)據(jù)中提取出1)有效的、2)新穎的、3)有潛在作用的、并4)能最終理解的模式的非平凡的處理過程。?ZhihaiWANG,20158DataMiningTechniques

研究背景

數(shù)據(jù)挖掘的基本定義

數(shù)據(jù)挖掘的基本過程

DM任務(wù)與方法與DM相關(guān)的理論重要的學(xué)術(shù)會議與期刊澳大利亞大學(xué)簡介?ZhihaiWANG,20159DataMining過程概述UsamaM.Fayyadet.al.(1996)1)數(shù)據(jù)準備6)挖掘算法確定2)數(shù)據(jù)選擇7)數(shù)據(jù)挖掘3)數(shù)據(jù)預(yù)處理8)模式解釋4)數(shù)據(jù)縮減9)知識評價5)DM目標確定?ZhihaiWANG,201510數(shù)據(jù)挖掘的基本過程(1)數(shù)據(jù)準備了解DM相關(guān)領(lǐng)域的有關(guān)情況,包括應(yīng)用中的預(yù)先知識和目標,熟悉有關(guān)的背景知識,并弄清楚用戶的要求。?ZhihaiWANG,201511DataMining過程(2)數(shù)據(jù)選擇

根據(jù)用戶要求從數(shù)據(jù)庫中提取與DM相關(guān)的數(shù)據(jù),在此過程中,會利用一些數(shù)據(jù)庫操作對數(shù)據(jù)進行處理,建立一個目標數(shù)據(jù)集,選擇一個數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦。?ZhihaiWANG,201512DataMining過程(3)數(shù)據(jù)預(yù)處理

對所選擇的數(shù)據(jù)進行再加工,主要檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對其中的噪音數(shù)據(jù)進行處理,對缺損的數(shù)據(jù)(Missing,丟失的?不合理的?不知道的?)可以利用統(tǒng)計方法進行填補,去除噪聲或無關(guān)數(shù)據(jù),去除空白數(shù)據(jù)域,考慮時間順序和數(shù)據(jù)變化等。?ZhihaiWANG,201513DataMining過程(4)數(shù)據(jù)轉(zhuǎn)換

對經(jīng)過預(yù)處理的數(shù)據(jù),根據(jù)知識發(fā)現(xiàn)的任務(wù)對數(shù)據(jù)進行再處理,主要通過投影或數(shù)據(jù)庫中的其他操作減少數(shù)據(jù)量或找到數(shù)據(jù)的不變式。?ZhihaiWANG,201514DataMining過程(5)確定DM的目標

根據(jù)用戶的要求,確定DM是發(fā)現(xiàn)何種類型的知識,因為對DM的不同要求會在具體的知識發(fā)現(xiàn)過程中采用不同的知識發(fā)現(xiàn)算法。?ZhihaiWANG,201515DataMining過程(6)確定知識發(fā)現(xiàn)算法

根據(jù)所確定的任務(wù),選擇合適的知識發(fā)現(xiàn)算法(如匯總、分類、聚類等),這包括選取合適的模型和參數(shù),并使得知識發(fā)現(xiàn)算法與整個DM&KD的評判標準相一致。?ZhihaiWANG,201516DataMining過程(7)實施數(shù)據(jù)挖掘(DataMining)

運用選定的知識發(fā)現(xiàn)算法,搜索或產(chǎn)生一個特定的感興趣的模式或數(shù)據(jù)集,從數(shù)據(jù)中提取出用戶所需要的知識,這些知識可以用一種特定的方式表示,如產(chǎn)生式規(guī)則等。?ZhihaiWANG,201517DataMining過程(8)模式解釋

對發(fā)現(xiàn)的模式進行解釋,去掉多余的不切題意的模式,轉(zhuǎn)換成某個有用的模式,以使用戶明白。在此過程中,為了取得更為有效的知識,可能會返回前面處理步驟中的某些步以反復(fù)提取,從而提取出更有效的知識。?ZhihaiWANG,201518DataMining過程(9)知識評價

將發(fā)現(xiàn)的知識以用戶能了解的方式呈現(xiàn)給用戶。這期間也包含對知識的一致性的檢查,以確信本次發(fā)現(xiàn)的知識與以前發(fā)現(xiàn)的知識不相抵觸。?ZhihaiWANG,201519DataMining過程圖示?ZhihaiWANG,201520DataMiningTechniques

研究背景

數(shù)據(jù)挖掘的基本定義

數(shù)據(jù)挖掘的基本過程

數(shù)據(jù)挖掘的任務(wù)與方法與DM相關(guān)的理論重要的學(xué)術(shù)會議與期刊澳大利亞大學(xué)簡介?ZhihaiWANG,201521兩種主要的數(shù)據(jù)庫處理技術(shù)數(shù)據(jù)庫技術(shù)關(guān)系型數(shù)據(jù)庫DatabasesDataBaseManagementSystem(商品?)數(shù)據(jù)庫應(yīng)用系統(tǒng)在線事務(wù)處理(OLTP)SQL選擇、聯(lián)接、投影數(shù)據(jù)倉庫技術(shù)在線分析處理(

OLAP)商業(yè)化:SAS、SPSS?ZhihaiWANG,201522數(shù)據(jù)挖掘的基本任務(wù)兩種基本任務(wù):預(yù)測(未來):運用數(shù)據(jù)描述(數(shù)據(jù)庫的關(guān)系模式)的一些變量和字段去預(yù)測未知的感興趣的變量的值。描述(過去):尋找可以理解的描述數(shù)據(jù)的適當(dāng)模式。?ZhihaiWANG,201523DataMining的任務(wù)與方法(1)分類(Classification):

將數(shù)據(jù)歸于一系列已知類中的某一分類的過程。分類的目的是學(xué)會一個分類函數(shù)(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。

分類模型?ZhihaiWANG,201524ClassificationinDataMiningMethodandTheory

lDatabaseTheorylStatisticslMachineLearninglComputationalIntelligence?ZhihaiWANG,201525ClassificationinDataMiningDatabase/DataWarehouse

lRelationalDatabaselTextlWeb-BasedDatalMulti-Media?ZhihaiWANG,201526ClassificationinDataMiningInstances:X={x1,x2,…,xm}Attributes:A={A1,A2,…,An}ClassLabel:CC=ci,W=(a1,a2,…,an)ClassificationAlgorithmClusteringAlgorithm?ZhihaiWANG,201527ClassificationinDataMiningClassificationAlgorithmlDecisionTreelNeuralNetworklGeneticAlgorithmlBayesianLearninglSupportedVectorMachine?ZhihaiWANG,201528DataMining的任務(wù)與方法(2)

聚類(Clustering):

根據(jù)客體屬性對一系列未分類客體進行類別的識別,把一組個體按照相似性歸成若干類別,即“物以類聚”。有監(jiān)督的學(xué)習(xí)無監(jiān)督的學(xué)習(xí)?ZhihaiWANG,201529TwoLearningStrategiesEagerLearningLazyLearningTrainingTimeClassificationTime?ZhihaiWANG,201530DataMining的任務(wù)與方法(3)特征提取(Characterization):

將與任務(wù)相關(guān)的數(shù)據(jù)集概括或抽象為某種泛化關(guān)系(generalized

relation)或特征規(guī)則(characterization

rule)。

概念層次結(jié)構(gòu)(概念格ConceptLattice)區(qū)分提取(Discrimination):

發(fā)現(xiàn)分辨目標類(targetclass)與對照類(contrastingclasses)的特征與性質(zhì)。區(qū)分規(guī)則(discriminationrule)?ZhihaiWANG,201531DataMining的任務(wù)與方法(4)

關(guān)聯(lián)規(guī)則發(fā)現(xiàn)(AssociationRulesMining):

發(fā)現(xiàn)客體的任意屬性子集合之間的相互關(guān)系。關(guān)聯(lián)規(guī)則的形式:

A1A2...Ai

B1B2...Bj注意:關(guān)聯(lián)規(guī)則和分類規(guī)則的區(qū)別?ZhihaiWANG,201532DataMining的任務(wù)與方法(5)

序貫?zāi)J桨l(fā)現(xiàn)(SequentialPatternsMining):

在多個數(shù)據(jù)序列中發(fā)現(xiàn)尋找所有的頻繁序列或所有的最長頻繁序列。情節(jié)發(fā)現(xiàn)(Episodesmining):

在事件序列中發(fā)現(xiàn)頻繁情節(jié)(frequentepisodes)。情節(jié)是指在給定長度的時間區(qū)間內(nèi)出現(xiàn)的事件的有序集合。偏離發(fā)現(xiàn)(Deviationmining):

在與時間相關(guān)數(shù)據(jù)庫中某客體的偏離模式的發(fā)現(xiàn)與評估。?ZhihaiWANG,201533DataMiningTechniques

研究背景

數(shù)據(jù)挖掘的基本定義

數(shù)據(jù)挖掘的基本過程數(shù)據(jù)挖掘的任務(wù)與方法

數(shù)據(jù)挖掘的相關(guān)理論重要的學(xué)術(shù)會議與期刊澳大利亞大學(xué)簡介?ZhihaiWANG,201534與DataMining的相關(guān)的理論

統(tǒng)計學(xué)數(shù)據(jù)庫理論機器學(xué)習(xí)理論

神經(jīng)網(wǎng)絡(luò)計算智能FuzzySetandRoughSetTheory支持向量機理論(SVM)?ZhihaiWANG,201535DataMiningTechniques

研究背景

數(shù)據(jù)挖掘的基本定義

數(shù)據(jù)挖掘的基本過程數(shù)據(jù)挖掘的任務(wù)與方法數(shù)據(jù)挖掘的相關(guān)理論

重要的學(xué)術(shù)會議與期刊澳大利亞大學(xué)簡介?ZhihaiWANG,201536

DataMining&KnowledgeDiscovery

研究背景基本定義DM過程DM任務(wù)與方法與DM相關(guān)的理論

重要的學(xué)術(shù)會議與期刊?ZhihaiWANG,201537重要的學(xué)術(shù)會議與期刊(1)1989年8月在美國底特律召開的第11屆國際人工智能聯(lián)合學(xué)術(shù)會議(IJCAI)上首次舉辦了以KDD為主題的研討會(WorkshoponKnowledgeDiscoveryinDatabases)AAAI-91(WorkshoponKnowledgeDiscoveryinDatabases)Piatetsky-ShapiroG,FrawleyWJeds.

KnowledgeDiscoveryinDatabasesMenloPark,California:AAAIPress/TheMITPress,1991?ZhihaiWANG,201538重要的學(xué)術(shù)會議與期刊(2)WorkshoponKnowledgeDiscoveryinDatabases1993Piatetsky-ShapiroG(Ed.).

ProceedingsofAAAI-93WorkshoponKnowledgeDiscoveryinDatabases.Washington:AAAIPress,1993?ZhihaiWANG,201539重要的學(xué)術(shù)會議與期刊(3)FirstInternationalConferenceonKnowledgeDiscoveryandDataMining,Montreal,Canada,1995FayyadUM,Piatetsky-ShapiroG,SmythP,UthurusamyR.

AdvancesinKnowledgeDiscoveryandDataMiningMenloPark,California:AAAIPress/TheMITPress,1996?ZhihaiWANG,201540重要的學(xué)術(shù)會議與期刊(4)亞太地區(qū)(PAKDD):1997Singapore首屆研討會1998Melbourne,Australia

第2屆1999Beijing 2000Kuwait2001Japan 2002Taiwan2003Korea 2004Sydney,Australia2005Vietnam第9屆?ZhihaiWANG,201541重要的學(xué)術(shù)會議與期刊(5)RoughSetTheoryZiarkoWPed.

RoughSets,andFuzzySetsandKnowledgeDiscovery(RSKD’93)London:Springer-Verlag,1994第2屆?ZhihaiWANG,201542重要的學(xué)術(shù)會議與期刊(6)IJCAIACM&AAAI-KDDIEEEICDM(2000)IEEEICDEPAKDD&EKDDICML&ECMLVLDBACM-SIGMOD?ZhihaiWANG,201543重要的學(xué)術(shù)會議與期刊(7)JournalIEEETransactionsonKnowledgeandDataEngineeringMachineLearningArtificialIntelligenceData&KnowledgeEngineeringDM&KD第一本專門的國際學(xué)術(shù)雜志《DataMiningandKnowledgeDiscovery》于1997年創(chuàng)刊。?ZhihaiWANG,201544DataMiningTechniques

研究背景

數(shù)據(jù)挖掘的基本定義

數(shù)據(jù)挖掘的基本過程數(shù)據(jù)挖掘的任務(wù)與方法數(shù)據(jù)挖掘的相關(guān)理論重要的學(xué)術(shù)會議與期刊

澳大利亞大學(xué)簡介?ZhihaiWANG,201545AustralianUniversities40UniversitiesSydney:UniversityofNewSouthWalesSydneyUniversityCanberra:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論