《數(shù)據(jù)挖掘綜述》ppt課件_第1頁
《數(shù)據(jù)挖掘綜述》ppt課件_第2頁
《數(shù)據(jù)挖掘綜述》ppt課件_第3頁
《數(shù)據(jù)挖掘綜述》ppt課件_第4頁
《數(shù)據(jù)挖掘綜述》ppt課件_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)發(fā)掘綜述 北京師范大學數(shù)學學院 1 數(shù)據(jù)發(fā)掘技術(shù)的由來n1.1 網(wǎng)絡技術(shù)的高度開展n1.2 數(shù)據(jù)爆炸但知識貧乏n1.3 支持數(shù)據(jù)發(fā)掘技術(shù)的根底n1.4 從商業(yè)數(shù)據(jù)到商業(yè)信息的進化1.2 數(shù)據(jù)爆炸但知識貧乏 激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望可以對其進展更高層次的分析,以便更好地利用這些數(shù)據(jù)。 目前的數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)那么,無法根據(jù)現(xiàn)有的數(shù)據(jù)預測未來的開展趨勢。1.3 支持數(shù)據(jù)發(fā)掘技術(shù)的技術(shù)根底n海量數(shù)據(jù)搜集 n強大的多處置器計算機 n數(shù)據(jù)發(fā)掘算法1.4 從商業(yè)數(shù)據(jù)到商業(yè)信息的進化進化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品

2、特點數(shù)據(jù)搜集(60年代)“過去五年中我的總收入是多少?計算機、磁帶和磁盤IBM,CDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(80年代)“在新英格蘭的分部去年三月的銷售額是多少?關(guān)系數(shù)據(jù)庫RDBMS,構(gòu)造化查詢言語SQL,ODBC Oracle、Sybase、Informix、IBM、MicrosoftOracle、Sybase、Informix、IBM、Microsoft在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫;決策支持(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?聯(lián)機分析處置OLAP、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫Pilot、Comshare、Arbor、Cogno

3、s、Microstrategy在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息數(shù)據(jù)發(fā)掘正在流行“下個月波士頓的銷售會怎樣樣?為什么?高級算法、多處置器計算機、海量數(shù)據(jù)庫Pilot、Lockheed、IBM、SGI、其他初創(chuàng)公司提供預測性的信息2 數(shù)據(jù)發(fā)掘的定義 n2.1 技術(shù)上的定義n2.2 商業(yè)角度的定義n2.3 數(shù)據(jù)發(fā)掘與傳統(tǒng)分析方法的區(qū)別2.1數(shù)據(jù)發(fā)掘在技術(shù)上的定義n數(shù)據(jù)發(fā)掘Data Mining就是從大量的、不完全的、有噪聲的、模糊的、隨機的實踐運用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。n數(shù)據(jù)源必需是真實的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)

4、的知識要可接受、可了解、可運用;n原始數(shù)據(jù)可以是構(gòu)造化,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù);也可以是半構(gòu)造化的,如文本、圖形和圖像數(shù)據(jù);甚至是分布在網(wǎng)絡上的異構(gòu)型數(shù)據(jù)。n發(fā)現(xiàn)知識的方法可以是數(shù)學的,也可以是非數(shù)學的;可以是演繹的,也可以是歸納的。n發(fā)現(xiàn)的知識可以被用于信息管理,查詢優(yōu)化,決策支持和過程控制等,還可以用于數(shù)據(jù)本身的維護。2.2 商業(yè)角度定義n數(shù)據(jù)發(fā)掘是一種新的商業(yè)信息處置技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進展抽取、轉(zhuǎn)換、分析和其他模型化處置,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。n按企業(yè)既定業(yè)務目的,對大量的企業(yè)數(shù)據(jù)進展探求和分析,提示隱藏的、未知的或驗證知的規(guī)律性,并進一步將其模型化

5、的先進有效的方法。2.3 數(shù)據(jù)發(fā)掘與傳統(tǒng)分析方法的區(qū)別n數(shù)據(jù)發(fā)掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報表、聯(lián)機運用分析)的本質(zhì)區(qū)別是數(shù)據(jù)發(fā)掘是在沒有明確假設(shè)的前提下去發(fā)掘信息、發(fā)現(xiàn)知識.n數(shù)據(jù)發(fā)掘所得到的信息應具有先未知,有效和可適用三個特征.3 數(shù)據(jù)發(fā)掘的研討歷史和現(xiàn)狀n3.1 研討歷史n3.2 國內(nèi)現(xiàn)狀n3.3 業(yè)界現(xiàn)狀n3.4 出版物及工具3.1 研討歷史3.2 國內(nèi)現(xiàn)狀n1993年國家自然科學基金初次支持我們對該領(lǐng)域的研討工程。目前,國內(nèi)的許多科研單位和高等院校競相開展知識發(fā)現(xiàn)的根底實際及其運用研討,這些單位包括清華大學、中科院計算技術(shù)研討所、空軍第三研討所、海軍配備論證中心等。其中,北京系統(tǒng)工

6、程研討所對模糊方法在知識發(fā)現(xiàn)中的運用進展了較深化的研討,北京大學也在開展對數(shù)據(jù)立方體代數(shù)的研討,華中理工大學、復旦大學、浙江大學、中國科技大學、中科院數(shù)學研討所、吉林大學等單位開展了對關(guān)聯(lián)規(guī)那么開采算法的優(yōu)化和改造;南京大學、四川結(jié)合大學和上海交通大學等單位討論、研討了非構(gòu)造化數(shù)據(jù)的知識發(fā)現(xiàn)以及Web數(shù)據(jù)發(fā)掘。3.3 業(yè)內(nèi)現(xiàn)狀n最近,業(yè)內(nèi)的一次高級技術(shù)調(diào)查將數(shù)據(jù)發(fā)掘和人工智能列為“未來三到五年內(nèi)將對工業(yè)產(chǎn)生深遠影響的五大關(guān)鍵技術(shù)之首,并且還將并行處置體系和數(shù)據(jù)發(fā)掘列為未來五年內(nèi)投資焦點的十大新興技術(shù)前兩位。3.4 出版物及工具n有不少KDD電子出版物,其中以半月刊Knowledge Disco

7、very Nuggets最為權(quán)威。在網(wǎng)上還有許多自在論壇,如DM Club等。至于DMKD書籍,可以在恣意一家計算機書店找到十多本。n目前,世界上比較有影響的典型數(shù)據(jù)發(fā)掘系統(tǒng)有:SAS公司的Enterprise Miner、IBM公司的Intelligent Miner、SGI公司的SetMiner、SPSS公司的Clementine、Sybase公司的Warehouse Studio、RuleQuest Research公司的See5、還有CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。還可以訪問httpdata

8、mininglab.網(wǎng)站,該網(wǎng)站提供了許多數(shù)據(jù)發(fā)掘系統(tǒng)和工具的性能測試報告。4. 數(shù)據(jù)發(fā)掘研討的內(nèi)容n目前DMKD的主要研討內(nèi)容包括:n 根底實際、發(fā)現(xiàn)算法、數(shù)據(jù)倉庫、可視化技術(shù)、定性定量互換模型、知識表示方法、發(fā)現(xiàn)知識的維護和再利用、半構(gòu)造化和非構(gòu)造化數(shù)據(jù)中的知識發(fā)現(xiàn)以及網(wǎng)上數(shù)據(jù)發(fā)掘等。數(shù)據(jù)發(fā)掘所發(fā)現(xiàn)的知識最常見的有以下幾類:n4.1 廣義知識 (Generalization)n4.2 關(guān)聯(lián)知識 (Association)n4.3 分類知識(Classification & Clustering)n4.4 預測型知識(Prediction)n4.5 偏向型知識(Deviation)4

9、.1 廣義知識Generalizationn廣義知識指類別特征的概括性描畫知識。根據(jù)數(shù)據(jù)的微觀特性發(fā)現(xiàn)其表征的、帶有普遍性的、較高層次概念的知識,反映同類事物共同性質(zhì),是對數(shù)據(jù)的概括、精煉和籠統(tǒng)。 廣義知識的發(fā)現(xiàn)方法和實現(xiàn)技術(shù)有很多,如數(shù)據(jù)立方體、面向?qū)傩缘臍w約等。 數(shù)據(jù)立方體 : 根本思想是實現(xiàn)某些常用的代價較高的聚集函數(shù)的計算,諸如計數(shù)、求和、平均、最大值等,并將這些實現(xiàn)視圖儲存在多維數(shù)據(jù)庫中。 面向?qū)傩缘臍w約方法: 根本思想是搜集數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)集,然后在相關(guān)數(shù)據(jù)集上運用一系列數(shù)據(jù)推行技術(shù)進展數(shù)據(jù)推行,包括屬性刪除、概念樹提升、屬性閾值控制、計數(shù)及其他聚集函數(shù)傳播等。4.2 關(guān)聯(lián)知識(

10、Association)n它反映一個事件和其他事件之間依賴或關(guān)聯(lián)的知識。n 假設(shè)兩項或多項屬性之間存在關(guān)聯(lián),那么其中一項的屬性值就可以根據(jù)其他屬性值進展預測。n最為著名的關(guān)聯(lián)規(guī)那么發(fā)現(xiàn)方法是R.Agrawal提出的Apriori算法。n關(guān)聯(lián)規(guī)那么的發(fā)現(xiàn)可分為兩步:n 第一步是迭代識別一切的頻繁工程集,要求頻繁工程集的支持率不低于用戶設(shè)定的最低值;n 第二步是從頻繁工程集中構(gòu)造可信度不低于用戶設(shè)定的最低值的規(guī)那么。分類知識(ClassificationClustering)n分類知識反映同類事物共同性質(zhì)的特征型知識和不同事物之間的差別型特征知識。n最為典型的分類方法是基于決策樹的分類方法。它是從

11、實例集中構(gòu)造決策樹,是一種有指點的學習方法。n數(shù)據(jù)分類還有統(tǒng)計、粗糙集Rough Set等方法。線性回歸和線性區(qū)分分析是典型的統(tǒng)計模型。n 為降低決策樹生成代價,人們還提出了一種區(qū)間分類器。最近也有人研討運用神經(jīng)網(wǎng)絡方法在數(shù)據(jù)庫中進展分類和規(guī)那么提取。4.4 預測型知識Predictionn預測知識根據(jù)時間序列型數(shù)據(jù),由歷史的和當前的數(shù)據(jù)去推測未來的數(shù)據(jù),也可以以為是以時間為關(guān)鍵屬性的關(guān)聯(lián)知識。n時間序列預測方法有經(jīng)典的統(tǒng)計方法、神經(jīng)網(wǎng)絡和機器學習等。4.5偏向型知識(Deviation)n偏向型知識是對差別和極端特例的描畫,提示事物偏離常規(guī)的異常景象,如規(guī)范類外的特例,數(shù)據(jù)聚類外的離群值等。

12、5 數(shù)據(jù)發(fā)掘的功能n 5.1 自動預測趨勢和行為n 5.2 關(guān)聯(lián)分析n 5.3 聚類n 5.4 概念描畫 n 5.5 偏向檢測 5.1 自動預測趨勢和行為 n數(shù)據(jù)發(fā)掘自動在大型數(shù)據(jù)庫中尋覓預測性信息,以往需求進展大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。n一個典型的例子是市場預測問題,數(shù)據(jù)發(fā)掘運用過去有關(guān)促銷A的數(shù)據(jù)來尋覓未來投資中報答最大的用戶,其它可預測的問題包括預告破產(chǎn)以及認定對指定事件最能夠作出反響的群體。5.2 關(guān)聯(lián)分析n關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。 假設(shè)兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。n關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。n有時并不

13、知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)那么帶有可信度。5.3 聚類n數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類加強了人們對客觀現(xiàn)實的認識,是概念描畫和偏向分析的先決條件。n聚類技術(shù)主要包括傳統(tǒng)的方式識別方法和數(shù)學分類學。5.4概念描畫n概念描畫就是對某類對象的內(nèi)涵進展描畫,并概括這類對象的有關(guān)特征。n概念描畫分為特征性描畫和區(qū)別性描畫,前者描畫某類對象的共同特征,后者描畫不同類對象之間的區(qū)別。生成一個類的特征性描畫只涉及該類對象中一切對象的共性。生成區(qū)別性描畫的方法很多,如決策樹方法、遺傳算法等。5.5偏向檢測n數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)

14、據(jù)庫中檢測這些偏向很有意義。n偏向包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)那么的特例、觀測結(jié)果與模型預測值的偏向、量值隨時間的變化等。偏向檢測的根本方法是,尋覓觀測結(jié)果與參照值之間有意義的差別。6 數(shù)據(jù)發(fā)掘常用技術(shù) n6.1 人工神經(jīng)網(wǎng)絡n6.2 決策樹n6.3 遺傳算法n6.4 近鄰算法n6.5 規(guī)那么推導6.1 人工神經(jīng)網(wǎng)絡n優(yōu)點1: 為處理大復雜度問題提供了一種相對來說比較有效的簡一方法。神經(jīng)網(wǎng)絡可以很容易的處理具有上百個參數(shù)的問題。n優(yōu)點 2:很容易在并行計算機上實現(xiàn),可以把他的節(jié)點分配到不同的CPU上并行計算。在運用神經(jīng)網(wǎng)絡時的幾點留意n神經(jīng)網(wǎng)絡很難解釋,目前還沒有能對神經(jīng)網(wǎng)

15、絡做出顯而易見解釋的方法學。n神經(jīng)網(wǎng)絡會過度學習,在訓練神經(jīng)網(wǎng)絡時一定要恰當?shù)倪\用一些能嚴厲衡量神經(jīng)網(wǎng)絡的方法,如測試集方法和交叉驗證法等。這主要是由于神經(jīng)網(wǎng)絡太靈敏、可變參數(shù)太多,假設(shè)給足夠的時間,他幾乎可以“記住任何事情。在運用神經(jīng)網(wǎng)絡時的幾點留意n除非問題非常簡單,訓練一個神經(jīng)網(wǎng)絡能夠需求相當可觀的時間才干完成。當然,一旦神經(jīng)網(wǎng)絡建立好了,在用它做預測時運轉(zhuǎn)時還是很快得。n建立神經(jīng)網(wǎng)絡需求做的數(shù)據(jù)預備任務量很大。6.2 決策樹n決策樹是運用最廣的歸納推理算法之一。它提供了一種獲取分類規(guī)那么的方法。n決策樹的根本組成部分:根節(jié)點、分支和葉節(jié)點。n決策樹很擅優(yōu)點理非數(shù)值型數(shù)據(jù),這與神經(jīng)網(wǎng)絡只

16、能處置數(shù)值型數(shù)據(jù)比起來,就免去了很多數(shù)據(jù)預處置任務。n 甚至有些決策樹算法專為處置非數(shù)值型數(shù)據(jù)而設(shè)計。6.3遺傳算法n基于進化實際,并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設(shè)計方法的優(yōu)化技術(shù)。7 數(shù)據(jù)發(fā)掘的主要流程四個階段 系統(tǒng)的數(shù)據(jù)發(fā)掘過程是一個不斷循環(huán)、優(yōu)化的過程。系統(tǒng)的數(shù)據(jù)發(fā)掘過程是一個不斷循環(huán)、優(yōu)化的過程。 數(shù)據(jù)發(fā)掘各階段的任務量數(shù)據(jù)發(fā)掘各階段的任務量 Data Mining牽涉大量的規(guī)劃與預備,專家聲稱高達80%的過程花在預備數(shù)據(jù)階段。確定業(yè)務對象 數(shù)據(jù)預備 方式發(fā)現(xiàn) 方式評價與解釋 8 數(shù)據(jù)發(fā)掘未來研討方向及熱點n8.1 數(shù)據(jù)發(fā)掘未來研討方向n8.2 數(shù)據(jù)發(fā)掘熱點8.2.1 網(wǎng)站的

17、數(shù)據(jù)發(fā)掘n 8.2.2 生物信息或基因的數(shù)據(jù)發(fā)掘8.2.3 文本的數(shù)據(jù)發(fā)掘8.1 數(shù)據(jù)發(fā)掘未來研討方向n發(fā)現(xiàn)言語的方式化描畫,即研討專門用于知識發(fā)現(xiàn)的數(shù)據(jù)發(fā)掘言語。n尋求數(shù)據(jù)發(fā)掘過程中的可視化方法,使知識發(fā)現(xiàn)的過程可以被用戶了解,也便于在知識發(fā)現(xiàn)的過程中進展人機交互。 n研討在網(wǎng)絡環(huán)境下的數(shù)據(jù)發(fā)掘技術(shù)特別是在因特網(wǎng)上建立DMKD效力器,并且與數(shù)據(jù)庫效力器配合,實現(xiàn)Web Mining。n加強對各種非構(gòu)造化數(shù)據(jù)的開采 ,如對文本數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開采。n知識的維護更新。9 數(shù)據(jù)發(fā)掘的運用n數(shù)據(jù)發(fā)掘處理的典型商業(yè)問題需求強調(diào)的是,數(shù)據(jù)發(fā)掘技術(shù)從一開場就是面向

18、運用的。目前,在很多領(lǐng)域,數(shù)據(jù)發(fā)掘(data mining)都是一個很時髦的詞,尤其是在如銀行、電信、保險、交通、零售如超級市場等商業(yè)領(lǐng)域。數(shù)據(jù)發(fā)掘所能處理的典型商業(yè)問題包括:數(shù)據(jù)庫營銷Database Marketing、客戶群體劃分Customer Segmentation & Classification、背景分析Profile Analysis、交叉銷售Cross-selling等市場分析行為,以及客戶流失性分析(Churn Analysis)、客戶信譽記分(Credit Scoring)、欺詐發(fā)現(xiàn)(Fraud Detection)等等。 n 數(shù)據(jù)發(fā)掘在市場營銷的運用n數(shù)據(jù)發(fā)掘技術(shù)在企業(yè)市場營銷中得到了比較普遍的運用,它是以市場營銷學的市場細分原理為根底,其根本假定是“消費者過去的行為是其今后消費傾向的最好闡明。經(jīng)過搜集、加工和處置涉及消費者消費行為的大量信息,確定特定消費群體或個體的興趣、消費習慣、消費傾向和消費需求,進而推斷出相應消費群體或個體下一步的消費行為,然后以此為根底,對所識別出來的消費群體進展特定內(nèi)容

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論