數(shù)據(jù)挖掘軟件發(fā)展分析幻燈片_第1頁(yè)
數(shù)據(jù)挖掘軟件發(fā)展分析幻燈片_第2頁(yè)
數(shù)據(jù)挖掘軟件發(fā)展分析幻燈片_第3頁(yè)
數(shù)據(jù)挖掘軟件發(fā)展分析幻燈片_第4頁(yè)
數(shù)據(jù)挖掘軟件發(fā)展分析幻燈片_第5頁(yè)
已閱讀5頁(yè),還剩39頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、主講人 朱揚(yáng)勇,數(shù)據(jù)挖掘軟件發(fā)展分析,1,2,一、數(shù)據(jù)挖掘概念-定義,數(shù)據(jù)挖掘-從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù), 是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的綜合。,數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué) 數(shù)據(jù)挖掘與人工智能 數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)技術(shù) 數(shù)據(jù)挖掘與KDD,2,一、數(shù)據(jù)挖掘概念-原由,國(guó)民經(jīng)濟(jì)和社會(huì)的信息化,社會(huì)信息化后,社會(huì)的運(yùn)轉(zhuǎn)是軟件的運(yùn)轉(zhuǎn) 社會(huì)信息化后,社會(huì)的歷史是數(shù)據(jù)的歷史,因此政府提出 “信息化”和“發(fā)展軟件產(chǎn)業(yè)”,3,一、數(shù)據(jù)挖掘概念-原由,有價(jià)值的知識(shí),可怕的數(shù)據(jù),4,一、數(shù)據(jù)挖掘概念-原由,數(shù)據(jù)爆炸,知識(shí)貧乏,苦惱: 淹沒在數(shù)據(jù)中 ; 不能制定合適的決策!,數(shù)據(jù),知識(shí),決策,5,一、數(shù)據(jù)挖掘概念-發(fā)展

2、,1989 IJCAI會(huì)議: 數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)討論專題 Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) 1991-1994 KDD討論專題 Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) 1995-1998 KDD國(guó)際會(huì)議 (KDD95-98) Journal of Data Mining and Kno

3、wledge Discovery (1997) 1998 ACM SIGKDD, SIGKDD1999-2002 會(huì)議,以及SIGKDD Explorations 數(shù)據(jù)挖掘方面更多的國(guó)際會(huì)議 PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc.,6,一、數(shù)據(jù)挖掘概念-技術(shù),技術(shù)分類 預(yù)言(Predication):用歷史預(yù)測(cè)未來 描述(Description):了解數(shù)據(jù)中潛在的規(guī)律 數(shù)據(jù)挖掘技術(shù) 關(guān)聯(lián)分析 序列模式 分類(預(yù)言) 聚集 異常檢測(cè),7,二、數(shù)據(jù)挖掘軟件的發(fā)展,Robert Grossman, Nation

4、al Center for Data Mining University of Illinois at Chicago 的觀點(diǎn),8,二、數(shù)據(jù)挖掘軟件的發(fā)展,第一代數(shù)據(jù)挖掘軟件,特點(diǎn) 支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法 挖掘向量數(shù)據(jù)(vector-valued data) 數(shù)據(jù)一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理 典型的系統(tǒng)如Salford Systems公司早期的CART系統(tǒng)(www.salford-) 缺陷 如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)技術(shù)進(jìn)行管理,第一代系統(tǒng)顯然不能滿足需求。,9,二、數(shù)據(jù)挖掘軟件的發(fā)展,第一代數(shù)據(jù)挖掘軟件 CBA 新加坡國(guó)立大學(xué)?;陉P(guān)聯(lián)規(guī)則的分類算法

5、,能從關(guān)系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則,使用關(guān)聯(lián)規(guī)則進(jìn)行分類和預(yù)測(cè),10,二、數(shù)據(jù)挖掘軟件的發(fā)展,第二代數(shù)據(jù)挖掘軟件,特點(diǎn) 與數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)集成 支持?jǐn)?shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù),和它們具有高性能的接口,具有高的可擴(kuò)展性 能夠挖掘大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集 通過支持?jǐn)?shù)據(jù)挖掘模式(data mining schema)和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性 典型的系統(tǒng)如DBMiner,能通過DMQL挖掘語言進(jìn)行挖掘操作 缺陷 只注重模型的生成,如何和預(yù)言模型系統(tǒng)集成導(dǎo)致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā),11,二、數(shù)據(jù)挖掘軟件的發(fā)展,第二代數(shù)據(jù)挖掘軟件 DBMiner,12,二、數(shù)據(jù)挖掘軟件的發(fā)展,第二

6、代軟件 SAS Enterprise Miner,13,二、數(shù)據(jù)挖掘軟件的發(fā)展,第三代數(shù)據(jù)挖掘軟件,特點(diǎn) 和預(yù)言模型系統(tǒng)之間能夠無縫的集成,使得由數(shù)據(jù)挖掘軟件產(chǎn)生的模型的變化能夠及時(shí)反映到預(yù)言模型系統(tǒng)中 由數(shù)據(jù)挖掘軟件產(chǎn)生的預(yù)言模型能夠自動(dòng)地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預(yù)言模型相聯(lián)合提供決策支持的功能 能夠挖掘網(wǎng)絡(luò)環(huán)境下(Internet/Extranet)的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成 缺陷 不能支持移動(dòng)環(huán)境,14,二、數(shù)據(jù)挖掘軟件的發(fā)展,第三代軟件 SPSS Clementine,以PMML的格式提供與預(yù)言模型系統(tǒng)的接口,15,二、數(shù)據(jù)挖掘軟件的發(fā)展,第

7、四代數(shù)據(jù)挖掘軟件,特點(diǎn) 目前移動(dòng)計(jì)算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動(dòng)計(jì)算相結(jié)合是當(dāng)前的一個(gè)研究領(lǐng)域。 第四代軟件能夠挖掘嵌入式系統(tǒng)、移動(dòng)系統(tǒng)、和普遍存在(ubiquitous)計(jì)算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù) 第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報(bào)導(dǎo),PKDD2001上Kargupta發(fā)表了一篇在移動(dòng)環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(xué)(University of Maryland Baltimore County)正在研制的CAREER數(shù)據(jù)挖掘項(xiàng)目的負(fù)責(zé)人,該項(xiàng)目研究期限是2001年4月到2006年4月,目的是開發(fā)挖掘分布式和異質(zhì)數(shù)據(jù)(Ubiquitous設(shè)備)的第四代數(shù)

8、據(jù)挖掘系統(tǒng)。,16,二、數(shù)據(jù)挖掘軟件的發(fā)展,第一代系統(tǒng)與第二代相比因?yàn)椴痪哂泻蛿?shù)據(jù)管理系統(tǒng)之間有效的接口,所以在數(shù)據(jù)預(yù)處理方面有一定缺陷 第三、四代系統(tǒng)強(qiáng)調(diào)預(yù)言模型的使用和在操作型環(huán)境的部署 第二代系統(tǒng)提供數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口 第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預(yù)言模型系統(tǒng)之間的有效的接口 目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然會(huì)出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,部分第二代系統(tǒng)開發(fā)商開始研制相應(yīng)的第三代數(shù)據(jù)挖掘系統(tǒng),比如 IBM Intelligent Score Service。第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報(bào)導(dǎo),17,二、數(shù)據(jù)挖掘軟件的發(fā)展,數(shù)據(jù)

9、挖掘軟件發(fā)展的三個(gè)階段 獨(dú)立的數(shù)據(jù)挖掘軟件 橫向的數(shù)據(jù)挖掘工具集 縱向的數(shù)據(jù)挖掘解決方案,Gregory Piatetsky-Shapiro的觀點(diǎn),18,二、數(shù)據(jù)挖掘軟件的發(fā)展,獨(dú)立的數(shù)據(jù)挖掘軟件(95年以前),特點(diǎn) 獨(dú)立的數(shù)據(jù)挖掘軟件對(duì)應(yīng)第一代系統(tǒng),出現(xiàn)在數(shù)據(jù)挖掘技術(shù)發(fā)展早期,研究人員開發(fā)出一種新型的數(shù)據(jù)挖掘算法,就形成一個(gè)軟件。 這類軟件要求用戶對(duì)具體的算法和數(shù)據(jù)挖掘技術(shù)有相當(dāng)?shù)牧私?,還要負(fù)責(zé)大量的數(shù)據(jù)預(yù)處理工作。比如C4.5決策樹,平行坐標(biāo)可視化(parallel-coordinate visualization)。,19,二、數(shù)據(jù)挖掘軟件的發(fā)展,橫向的數(shù)據(jù)挖掘工具集(95年開始),發(fā)展

10、原因 隨著數(shù)據(jù)挖掘應(yīng)用的發(fā)展,人們逐漸認(rèn)識(shí)到數(shù)據(jù)挖掘軟件需要和以下三個(gè)方面緊密結(jié)合:1)數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù);2)多種類型的數(shù)據(jù)挖掘算法;3)數(shù)據(jù)清洗、轉(zhuǎn)換等預(yù)處理工作。 隨著數(shù)據(jù)量的增加,需要利用數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)技術(shù)進(jìn)行管理,所以數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)結(jié)合是自然的發(fā)展。 現(xiàn)實(shí)領(lǐng)域的問題是多種多樣的,一種或少數(shù)數(shù)據(jù)挖掘算法難以解決 挖掘的數(shù)據(jù)通常不符合算法的要求,需要有數(shù)據(jù)清洗、轉(zhuǎn)換等數(shù)據(jù)預(yù)處理的配合,才能得出有價(jià)值的模型,20,二、數(shù)據(jù)挖掘軟件的發(fā)展,橫向的數(shù)據(jù)挖掘工具集(95年開始),發(fā)展過程 隨著這些需求的出現(xiàn),1995年左右軟件開發(fā)商開始提供稱之為“工具集”的數(shù)據(jù)挖掘軟件 特點(diǎn)

11、此類工具集的特點(diǎn)是提供多種數(shù)據(jù)挖掘算法 包括數(shù)據(jù)的轉(zhuǎn)換和可視化 由于此類工具并非面向特定的應(yīng)用,是通用的算法集合,可以稱之為橫向的數(shù)據(jù)挖掘工具(Horizontal Data Mining Tools) 由于此類工具并非面向特定的應(yīng)用,是通用的算法集合,所以稱之為橫向的數(shù)據(jù)挖掘工具 典型的橫向工具有IBM Intelligent Miner、SPSS的Clementine、SAS的Enterprise Miner、SGI的MineSet、Oracle Darwin等,21,二、數(shù)據(jù)挖掘軟件的發(fā)展,橫向的數(shù)據(jù)挖掘工具集(95年開始),IBM Intelligent Miner SPSS的Clem

12、entine SAS的Enterprise Miner SGI的MineSet Oracle Darwin,22,二、數(shù)據(jù)挖掘軟件的發(fā)展,縱向的數(shù)據(jù)挖掘解決方案(99年開始),發(fā)展原因 隨著橫向的數(shù)據(jù)挖掘工具的使用日漸廣泛,人們也發(fā)現(xiàn)這類工具只有精通數(shù)數(shù)據(jù)挖掘算法的專家才能熟練使用,如果對(duì)算法不了解,難以得出好的模型 從1999年開始,大量的數(shù)據(jù)挖掘工具研制者開始提供縱向的數(shù)據(jù)挖掘解決方案(Vertical Solution),即針對(duì)特定的應(yīng)用提供完整的數(shù)據(jù)挖掘方案 對(duì)于縱向的解決方案,數(shù)據(jù)挖掘技術(shù)的應(yīng)用多數(shù)還是為了解決某些特定的難題,而嵌入在應(yīng)用系統(tǒng)中,23,二、數(shù)據(jù)挖掘軟件的發(fā)展,縱向的數(shù)

13、據(jù)挖掘解決方案(99年開始),在證券系統(tǒng)中嵌入神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)功能 在欺詐檢測(cè)系統(tǒng)中嵌入欺詐行為的分類/識(shí)別模型 在客戶關(guān)系管理系統(tǒng)中嵌入客戶成簇/分類功能或客戶行為分析功能 在機(jī)器維護(hù)系統(tǒng)中嵌入監(jiān)/檢測(cè)或識(shí)別難以定性的設(shè)備故障功能 在數(shù)據(jù)庫(kù)營(yíng)銷中嵌入選擇最可能購(gòu)買產(chǎn)品的客戶功能 在機(jī)場(chǎng)管理系統(tǒng)中嵌入旅客人數(shù)預(yù)測(cè)、貨運(yùn)優(yōu)化功能 在基因分析系統(tǒng)中嵌入DNA識(shí)別功能 在制造/生產(chǎn)系統(tǒng)中嵌入質(zhì)量控制功能等,24,二、數(shù)據(jù)挖掘軟件的發(fā)展,縱向的數(shù)據(jù)挖掘解決方案(99年開始),KD1(主要用于零售業(yè)) Options&Choice(主要用于保險(xiǎn)業(yè)) HNC(欺詐行為偵測(cè)) Unica Model 1(主要用

14、于市場(chǎng)營(yíng)銷),25,二、數(shù)據(jù)挖掘軟件的發(fā)展,綜合的數(shù)據(jù)挖掘解決方案(復(fù)旦的工作),26,三、數(shù)據(jù)挖掘軟件的現(xiàn)狀,情況概覽 2002年9月,Amazon上關(guān)于數(shù)據(jù)挖掘的書有251本() 目前有數(shù)百個(gè)數(shù)據(jù)挖掘軟件產(chǎn)品() 數(shù)據(jù)挖掘應(yīng)用相對(duì)廣泛,27,三、數(shù)據(jù)挖掘軟件的現(xiàn)狀,2001/5/142001/5/24(實(shí)際),2001/11/262001/12/9(預(yù)測(cè)),28,三、數(shù)據(jù)挖掘軟件的現(xiàn)狀,調(diào)查報(bào)告(2002.6.3-6.16),29,三、數(shù)據(jù)挖掘軟件的現(xiàn)狀(國(guó)內(nèi)情況),大部分處于科研階段 各大學(xué)和科研機(jī)構(gòu)從事數(shù)據(jù)挖掘算法的研究 國(guó)內(nèi)著作的數(shù)據(jù)挖掘方面的書較少(翻譯的有) 數(shù)據(jù)挖掘討論組()

15、有一些公司在國(guó)外產(chǎn)品基礎(chǔ)上開發(fā)的特定的應(yīng)用 IBM Intelligent Miner SAS Enterprise Miner 自主知識(shí)產(chǎn)權(quán)的數(shù)據(jù)挖掘軟件 復(fù)旦德門()等,30,四、數(shù)據(jù)挖掘應(yīng)用,調(diào)查報(bào)告(2002.6.3-6.16),31,四、數(shù)據(jù)挖掘應(yīng)用,銀行 美國(guó)銀行家協(xié)會(huì)(ABA)預(yù)測(cè)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)在美國(guó)商業(yè)銀行的應(yīng)用增長(zhǎng)率是14.9。 分析客戶使用分銷渠道的情況和分銷渠道的容量 ;建立利潤(rùn)評(píng)測(cè)模型;客戶關(guān)系優(yōu)化;風(fēng)險(xiǎn)控制等 電子商務(wù) 網(wǎng)上商品推薦;個(gè)性化網(wǎng)頁(yè);自適應(yīng)網(wǎng)站 生物制藥、基因研究 DNA序列查詢和匹配;識(shí)別基因序列的共發(fā)生性 電信 欺詐甄別;客戶流失 保險(xiǎn)、零售。

16、,32,四、數(shù)據(jù)挖掘應(yīng)用,數(shù)據(jù)挖掘,保險(xiǎn)客戶,證券客戶,銀行客戶,電信客戶,零售客戶,人類基因,植物基因,動(dòng)物基因,特殊群體基因,基因序列 基因表達(dá)譜 基因功能 基因制藥 .,數(shù)據(jù)挖掘中國(guó)內(nèi)地市場(chǎng)規(guī)模未來五年內(nèi)將達(dá)百億,33,四、數(shù)據(jù)挖掘應(yīng)用,為什么沒有廣泛使用?,數(shù)據(jù)挖掘正在快速的發(fā)展 技術(shù)的研究和開發(fā)已經(jīng)走在很前沿的地方 數(shù)據(jù)挖掘應(yīng)用面已經(jīng)擴(kuò)充了很多 但是仍然沒有希望的高,為什么? 希望在多少年內(nèi)達(dá)到數(shù)十億元的盈利? 是一種增值服務(wù)(Not bread-and-butter) 不能認(rèn)為高不可攀,所以不去過問 是一門年輕的技術(shù),需要和實(shí)際結(jié)合,解決現(xiàn)實(shí)問題,34,四、數(shù)據(jù)挖掘應(yīng)用,國(guó)內(nèi)應(yīng)用存

17、在的問題,數(shù)據(jù)積累不充分、不全面 業(yè)務(wù)模型構(gòu)建困難 缺少有經(jīng)驗(yàn)的實(shí)施者,35,四、數(shù)據(jù)挖掘應(yīng)用-業(yè)務(wù)建摸,神經(jīng)網(wǎng)絡(luò) Neural Networks,聚類分析 Clustering,Open Accnt,Add New Product,Decrease Usage,?,Time,序列分析 Sequence Analysis,決策樹 Decision Trees,傾向性分析,客戶保留 客戶生命周期管理 目標(biāo)市場(chǎng) 價(jià)格彈性分析,客戶細(xì)分 市場(chǎng)細(xì)分,傾向性分析 客戶保留 目標(biāo)市場(chǎng) 欺詐檢測(cè),關(guān)聯(lián)分析 Association,市場(chǎng)組合分析 套裝產(chǎn)品分析 目錄設(shè)計(jì) 交叉銷售,36,四、數(shù)據(jù)挖掘應(yīng)用-業(yè)務(wù)建

18、摸,聚集(Cluster) 聚集是把整個(gè)數(shù)據(jù)庫(kù)分成不同的群組。它的目的是要群與群之間差別很明顯,而同一個(gè)群之間的數(shù)據(jù)盡量相似。 常用技術(shù):神經(jīng)元網(wǎng)絡(luò)、K均值、最近鄰,37,四、數(shù)據(jù)挖掘應(yīng)用-業(yè)務(wù)建摸,異常檢測(cè) 及時(shí)發(fā)現(xiàn)有欺詐嫌疑的異常行為,正確進(jìn)行欺詐問題的評(píng)估,對(duì)欺詐者實(shí)施控制和強(qiáng)制措施。 技術(shù):決策樹,神經(jīng)元網(wǎng)絡(luò),異常因子LOF檢測(cè),客戶消費(fèi)異常行為分析模型,38,四、數(shù)據(jù)挖掘應(yīng)用-業(yè)務(wù)建摸,客戶分析業(yè)務(wù)模型 交叉銷售 客戶響應(yīng) 客戶流失 客戶利潤(rùn) 信用卡分析業(yè)務(wù)模型 客戶信用等級(jí)評(píng)估 客戶透支分析 客戶利潤(rùn)分析 客戶消費(fèi)行為分析 客戶消費(fèi)異常行為分析,39,四、數(shù)據(jù)挖掘應(yīng)用-業(yè)務(wù)建摸,40,四、數(shù)據(jù)挖掘應(yīng)用-業(yè)務(wù)建摸,客戶響應(yīng)模型基本概念,響應(yīng)率分析: 分析客戶對(duì)某種新服務(wù)或者新產(chǎn)品的感興趣情況. 為什么要進(jìn)行響應(yīng)率分析: 通過響應(yīng)率分析能夠有效的降低市場(chǎng)推廣的費(fèi)用,同時(shí)能夠更加有針對(duì)性的面對(duì)目標(biāo)市場(chǎng).達(dá)到以最小的投入獲得最佳效果的目的,41,四、數(shù)據(jù)挖掘應(yīng)用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論