數(shù)據(jù)挖掘軟件發(fā)展分析_第1頁
數(shù)據(jù)挖掘軟件發(fā)展分析_第2頁
數(shù)據(jù)挖掘軟件發(fā)展分析_第3頁
數(shù)據(jù)挖掘軟件發(fā)展分析_第4頁
數(shù)據(jù)挖掘軟件發(fā)展分析_第5頁
已閱讀5頁,還剩31頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘軟件發(fā)展分析第1頁,課件共36頁,創(chuàng)作于2023年2月一、數(shù)據(jù)挖掘概念----定義數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的綜合。數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)數(shù)據(jù)挖掘與人工智能數(shù)據(jù)挖掘與數(shù)據(jù)庫技術(shù)數(shù)據(jù)挖掘與KDD第2頁,課件共36頁,創(chuàng)作于2023年2月一、數(shù)據(jù)挖掘概念----原由國民經(jīng)濟(jì)和社會(huì)的信息化社會(huì)信息化后,社會(huì)的運(yùn)轉(zhuǎn)是軟件的運(yùn)轉(zhuǎn)社會(huì)信息化后,社會(huì)的歷史是數(shù)據(jù)的歷史因此政府提出“信息化”和“發(fā)展軟件產(chǎn)業(yè)”第3頁,課件共36頁,創(chuàng)作于2023年2月一、數(shù)據(jù)挖掘概念----原由數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大有價(jià)值的知識(shí)可怕的數(shù)據(jù)第4頁,課件共36頁,創(chuàng)作于2023年2月一、數(shù)據(jù)挖掘概念----原由數(shù)據(jù)爆炸,知識(shí)貧乏苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!數(shù)據(jù)知識(shí)決策模式趨勢事實(shí)關(guān)系模型關(guān)聯(lián)規(guī)則序列目標(biāo)市場資金分配貿(mào)易選擇在哪兒做廣告銷售的地理位置金融經(jīng)濟(jì)政府POS.人口統(tǒng)計(jì)生命周期第5頁,課件共36頁,創(chuàng)作于2023年2月一、數(shù)據(jù)挖掘概念----發(fā)展1989IJCAI會(huì)議:數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)討論專題KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994KDD討論專題AdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998KDD國際會(huì)議(KDD’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2002會(huì)議,以及SIGKDDExplorations數(shù)據(jù)挖掘方面更多的國際會(huì)議PAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.第6頁,課件共36頁,創(chuàng)作于2023年2月一、數(shù)據(jù)挖掘概念----技術(shù)技術(shù)分類預(yù)言(Predication):用歷史預(yù)測未來描述(Description):了解數(shù)據(jù)中潛在的規(guī)律數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)分析序列模式分類(預(yù)言)聚集異常檢測第7頁,課件共36頁,創(chuàng)作于2023年2月二、數(shù)據(jù)挖掘軟件的發(fā)展代特征數(shù)據(jù)挖掘算法集成分布計(jì)算模型數(shù)據(jù)模型第一代作為一個(gè)獨(dú)立的應(yīng)用支持一個(gè)或者多個(gè)算法獨(dú)立的系統(tǒng)單個(gè)機(jī)器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個(gè)算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質(zhì)、局部區(qū)域的計(jì)算機(jī)群集有些系統(tǒng)支持對象,文本和連續(xù)的媒體數(shù)據(jù)第三代和預(yù)言模型系統(tǒng)集成

多個(gè)算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計(jì)算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動(dòng)數(shù)據(jù)/各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)合

多個(gè)算法數(shù)據(jù)管理、預(yù)言模型、移動(dòng)系統(tǒng)移動(dòng)和各種計(jì)算設(shè)備普遍存在的計(jì)算模型RobertGrossman,NationalCenterforDataMiningUniversityofIllinoisatChicago的觀點(diǎn)第8頁,課件共36頁,創(chuàng)作于2023年2月二、數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件特點(diǎn)支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法

挖掘向量數(shù)據(jù)(vector-valueddata)

數(shù)據(jù)一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理

典型的系統(tǒng)如SalfordSystems公司早期的CART系統(tǒng)()

缺陷如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術(shù)進(jìn)行管理,第一代系統(tǒng)顯然不能滿足需求。第9頁,課件共36頁,創(chuàng)作于2023年2月二、數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件CBA新加坡國立大學(xué)?;陉P(guān)聯(lián)規(guī)則的分類算法,能從關(guān)系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則,使用關(guān)聯(lián)規(guī)則進(jìn)行分類和預(yù)測第10頁,課件共36頁,創(chuàng)作于2023年2月二、數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件特點(diǎn)與數(shù)據(jù)庫管理系統(tǒng)(DBMS)集成

支持?jǐn)?shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴(kuò)展性

能夠挖掘大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集

通過支持?jǐn)?shù)據(jù)挖掘模式(dataminingschema)和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性

典型的系統(tǒng)如DBMiner,能通過DMQL挖掘語言進(jìn)行挖掘操作缺陷只注重模型的生成,如何和預(yù)言模型系統(tǒng)集成導(dǎo)致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)第11頁,課件共36頁,創(chuàng)作于2023年2月二、數(shù)據(jù)挖掘軟件的發(fā)展第三代數(shù)據(jù)挖掘軟件特點(diǎn)和預(yù)言模型系統(tǒng)之間能夠無縫的集成,使得由數(shù)據(jù)挖掘軟件產(chǎn)生的模型的變化能夠及時(shí)反映到預(yù)言模型系統(tǒng)中

由數(shù)據(jù)挖掘軟件產(chǎn)生的預(yù)言模型能夠自動(dòng)地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預(yù)言模型相聯(lián)合提供決策支持的功能

能夠挖掘網(wǎng)絡(luò)環(huán)境下(Internet/Extranet)的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成

缺陷不能支持移動(dòng)環(huán)境第12頁,課件共36頁,創(chuàng)作于2023年2月二、數(shù)據(jù)挖掘軟件的發(fā)展第四代數(shù)據(jù)挖掘軟件特點(diǎn)目前移動(dòng)計(jì)算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動(dòng)計(jì)算相結(jié)合是當(dāng)前的一個(gè)研究領(lǐng)域。

第四代軟件能夠挖掘嵌入式系統(tǒng)、移動(dòng)系統(tǒng)、和普遍存在(ubiquitous)計(jì)算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù)第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報(bào)導(dǎo),PKDD2001上Kargupta發(fā)表了一篇在移動(dòng)環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(xué)(UniversityofMarylandBaltimoreCounty)正在研制的CAREER數(shù)據(jù)挖掘項(xiàng)目的負(fù)責(zé)人,該項(xiàng)目研究期限是2001年4月到2006年4月,目的是開發(fā)挖掘分布式和異質(zhì)數(shù)據(jù)(Ubiquitous設(shè)備)的第四代數(shù)據(jù)挖掘系統(tǒng)。

第13頁,課件共36頁,創(chuàng)作于2023年2月二、數(shù)據(jù)挖掘軟件的發(fā)展第一代系統(tǒng)與第二代相比因?yàn)椴痪哂泻蛿?shù)據(jù)管理系統(tǒng)之間有效的接口,所以在數(shù)據(jù)預(yù)處理方面有一定缺陷

第三、四代系統(tǒng)強(qiáng)調(diào)預(yù)言模型的使用和在操作型環(huán)境的部署

第二代系統(tǒng)提供數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口

第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預(yù)言模型系統(tǒng)之間的有效的接口

目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然會(huì)出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,部分第二代系統(tǒng)開發(fā)商開始研制相應(yīng)的第三代數(shù)據(jù)挖掘系統(tǒng),比如IBMIntelligentScoreService。第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報(bào)導(dǎo)

第14頁,課件共36頁,創(chuàng)作于2023年2月二、數(shù)據(jù)挖掘軟件的發(fā)展數(shù)據(jù)挖掘軟件發(fā)展的三個(gè)階段獨(dú)立的數(shù)據(jù)挖掘軟件橫向的數(shù)據(jù)挖掘工具集縱向的數(shù)據(jù)挖掘解決方案GregoryPiatetsky-Shapiro的觀點(diǎn)第15頁,課件共36頁,創(chuàng)作于2023年2月二、數(shù)據(jù)挖掘軟件的發(fā)展獨(dú)立的數(shù)據(jù)挖掘軟件(95年以前)特點(diǎn)獨(dú)立的數(shù)據(jù)挖掘軟件對應(yīng)第一代系統(tǒng),出現(xiàn)在數(shù)據(jù)挖掘技術(shù)發(fā)展早期,研究人員開發(fā)出一種新型的數(shù)據(jù)挖掘算法,就形成一個(gè)軟件。這類軟件要求用戶對具體的算法和數(shù)據(jù)挖掘技術(shù)有相當(dāng)?shù)牧私?,還要負(fù)責(zé)大量的數(shù)據(jù)預(yù)處理工作。比如C4.5決策樹,平行坐標(biāo)可視化(parallel-coordinatevisualization)。

第16頁,課件共36頁,創(chuàng)作于2023年2月二、數(shù)據(jù)挖掘軟件的發(fā)展橫向的數(shù)據(jù)挖掘工具集(95年開始)發(fā)展原因隨著數(shù)據(jù)挖掘應(yīng)用的發(fā)展,人們逐漸認(rèn)識(shí)到數(shù)據(jù)挖掘軟件需要和以下三個(gè)方面緊密結(jié)合:1)數(shù)據(jù)庫和數(shù)據(jù)倉庫;2)多種類型的數(shù)據(jù)挖掘算法;3)數(shù)據(jù)清洗、轉(zhuǎn)換等預(yù)處理工作。隨著數(shù)據(jù)量的增加,需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術(shù)進(jìn)行管理,所以數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫和數(shù)據(jù)倉庫結(jié)合是自然的發(fā)展?,F(xiàn)實(shí)領(lǐng)域的問題是多種多樣的,一種或少數(shù)數(shù)據(jù)挖掘算法難以解決挖掘的數(shù)據(jù)通常不符合算法的要求,需要有數(shù)據(jù)清洗、轉(zhuǎn)換等數(shù)據(jù)預(yù)處理的配合,才能得出有價(jià)值的模型

第17頁,課件共36頁,創(chuàng)作于2023年2月二、數(shù)據(jù)挖掘軟件的發(fā)展橫向的數(shù)據(jù)挖掘工具集(95年開始)發(fā)展過程隨著這些需求的出現(xiàn),1995年左右軟件開發(fā)商開始提供稱之為“工具集”的數(shù)據(jù)挖掘軟件特點(diǎn)此類工具集的特點(diǎn)是提供多種數(shù)據(jù)挖掘算法

包括數(shù)據(jù)的轉(zhuǎn)換和可視化

由于此類工具并非面向特定的應(yīng)用,是通用的算法集合,可以稱之為橫向的數(shù)據(jù)挖掘工具(HorizontalDataMiningTools)

由于此類工具并非面向特定的應(yīng)用,是通用的算法集合,所以稱之為橫向的數(shù)據(jù)挖掘工具典型的橫向工具有IBMIntelligentMiner、SPSS的Clementine、SAS的EnterpriseMiner、SGI的MineSet、OracleDarwin等

第18頁,課件共36頁,創(chuàng)作于2023年2月二、數(shù)據(jù)挖掘軟件的發(fā)展橫向的數(shù)據(jù)挖掘工具集(95年開始)IBMIntelligentMinerSPSS的ClementineSAS的EnterpriseMinerSGI的MineSetOracleDarwin第19頁,課件共36頁,創(chuàng)作于2023年2月二、數(shù)據(jù)挖掘軟件的發(fā)展縱向的數(shù)據(jù)挖掘解決方案(99年開始)發(fā)展原因隨著橫向的數(shù)據(jù)挖掘工具的使用日漸廣泛,人們也發(fā)現(xiàn)這類工具只有精通數(shù)數(shù)據(jù)挖掘算法的專家才能熟練使用,如果對算法不了解,難以得出好的模型

從1999年開始,大量的數(shù)據(jù)挖掘工具研制者開始提供縱向的數(shù)據(jù)挖掘解決方案(VerticalSolution),即針對特定的應(yīng)用提供完整的數(shù)據(jù)挖掘方案

對于縱向的解決方案,數(shù)據(jù)挖掘技術(shù)的應(yīng)用多數(shù)還是為了解決某些特定的難題,而嵌入在應(yīng)用系統(tǒng)中第20頁,課件共36頁,創(chuàng)作于2023年2月二、數(shù)據(jù)挖掘軟件的發(fā)展縱向的數(shù)據(jù)挖掘解決方案(99年開始)在證券系統(tǒng)中嵌入神經(jīng)網(wǎng)絡(luò)預(yù)測功能在欺詐檢測系統(tǒng)中嵌入欺詐行為的分類/識(shí)別模型在客戶關(guān)系管理系統(tǒng)中嵌入客戶成簇/分類功能或客戶行為分析功能在機(jī)器維護(hù)系統(tǒng)中嵌入監(jiān)/檢測或識(shí)別難以定性的設(shè)備故障功能在數(shù)據(jù)庫營銷中嵌入選擇最可能購買產(chǎn)品的客戶功能在機(jī)場管理系統(tǒng)中嵌入旅客人數(shù)預(yù)測、貨運(yùn)優(yōu)化功能在基因分析系統(tǒng)中嵌入DNA識(shí)別功能在制造/生產(chǎn)系統(tǒng)中嵌入質(zhì)量控制功能等第21頁,課件共36頁,創(chuàng)作于2023年2月二、數(shù)據(jù)挖掘軟件的發(fā)展縱向的數(shù)據(jù)挖掘解決方案(99年開始)KD1(主要用于零售業(yè))Options&Choice(主要用于保險(xiǎn)業(yè))HNC(欺詐行為偵測)UnicaModel1(主要用于市場營銷)第22頁,課件共36頁,創(chuàng)作于2023年2月三、數(shù)據(jù)挖掘軟件的現(xiàn)狀情況概覽2002年9月,Amazon上關(guān)于數(shù)據(jù)挖掘的書有251本()目前有數(shù)百個(gè)數(shù)據(jù)挖掘軟件產(chǎn)品()數(shù)據(jù)挖掘應(yīng)用相對廣泛第23頁,課件共36頁,創(chuàng)作于2023年2月三、數(shù)據(jù)挖掘軟件的現(xiàn)狀(國內(nèi)情況)大部分處于科研階段各大學(xué)和科研機(jī)構(gòu)從事數(shù)據(jù)挖掘算法的研究國內(nèi)著作的數(shù)據(jù)挖掘方面的書較少(翻譯的有)數(shù)據(jù)挖掘討論組()有一些公司在國外產(chǎn)品基礎(chǔ)上開發(fā)的特定的應(yīng)用IBMIntelligentMinerSASEnterpriseMiner自主知識(shí)產(chǎn)權(quán)的數(shù)據(jù)挖掘軟件復(fù)旦德門()等第24頁,課件共36頁,創(chuàng)作于2023年2月四、數(shù)據(jù)挖掘應(yīng)用銀行美國銀行家協(xié)會(huì)(ABA)預(yù)測數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在美國商業(yè)銀行的應(yīng)用增長率是14.9%。

分析客戶使用分銷渠道的情況和分銷渠道的容量;建立利潤評測模型;客戶關(guān)系優(yōu)化;風(fēng)險(xiǎn)控制等電子商務(wù)網(wǎng)上商品推薦;個(gè)性化網(wǎng)頁;自適應(yīng)網(wǎng)站…生物制藥、基因研究DNA序列查詢和匹配;識(shí)別基因序列的共發(fā)生性…電信欺詐甄別;客戶流失…保險(xiǎn)、零售。。。。。。第25頁,課件共36頁,創(chuàng)作于2023年2月四、數(shù)據(jù)挖掘應(yīng)用數(shù)據(jù)挖掘客戶分析析基分因其他保險(xiǎn)客戶證券客戶銀行客戶電信客戶零售客戶信用卡儲(chǔ)蓄卡存折按揭借貸人類基因植物基因動(dòng)物基因特殊群體基因基因序列基因表達(dá)譜基因功能基因制藥………...數(shù)據(jù)挖掘中國內(nèi)地市場規(guī)模未來五年內(nèi)將達(dá)百億第26頁,課件共36頁,創(chuàng)作于2023年2月四、數(shù)據(jù)挖掘應(yīng)用為什么沒有廣泛使用?數(shù)據(jù)挖掘正在快速的發(fā)展技術(shù)的研究和開發(fā)已經(jīng)走在很前沿的地方數(shù)據(jù)挖掘應(yīng)用面已經(jīng)擴(kuò)充了很多但是仍然沒有希望的高,為什么?希望在多少年內(nèi)達(dá)到數(shù)十億元的盈利?是一種增值服務(wù)(Notbread-and-butter)不能認(rèn)為高不可攀,所以不去過問是一門年輕的技術(shù),需要和實(shí)際結(jié)合,解決現(xiàn)實(shí)問題第27頁,課件共36頁,創(chuàng)作于2023年2月四、數(shù)據(jù)挖掘應(yīng)用國內(nèi)應(yīng)用存在的問題數(shù)據(jù)積累不充分、不全面業(yè)務(wù)模型構(gòu)建困難缺少有經(jīng)驗(yàn)的實(shí)施者第28頁,課件共36頁,創(chuàng)作于2023年2月四、數(shù)據(jù)挖掘應(yīng)用----業(yè)務(wù)建摸Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神經(jīng)網(wǎng)絡(luò)NeuralNetworks聚類分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis決策樹DecisionTrees傾向性分析客戶保留客戶生命周期管理目標(biāo)市場價(jià)格彈性分析客戶細(xì)分市場細(xì)分傾向性分析客戶保留目標(biāo)市場欺詐檢測關(guān)聯(lián)分析Association市場組合分析套裝產(chǎn)品分析目錄設(shè)計(jì)交叉銷售第29頁,課件共36頁,創(chuàng)作于2023年2月四、數(shù)據(jù)挖掘應(yīng)用----業(yè)務(wù)建摸聚集(Cluster)聚集是把整個(gè)數(shù)據(jù)庫分成不同的群組。它的目的是要群與群之間差別很明顯,而同一個(gè)群之間的數(shù)據(jù)盡量相似。

常用技術(shù):神經(jīng)元網(wǎng)絡(luò)、K均值、最近鄰…第30頁,課件共36頁,創(chuàng)作于2023年2月四、數(shù)據(jù)挖掘應(yīng)用----業(yè)務(wù)建摸異常檢測及時(shí)發(fā)現(xiàn)有欺詐嫌疑的異常行為,正確進(jìn)行欺詐問題的評估,對欺詐者實(shí)施控制和強(qiáng)制措施。技術(shù):決策樹,神經(jīng)元網(wǎng)絡(luò),異常因子LOF檢測客戶消費(fèi)異常行為分析模型第31頁,課件共36頁,創(chuàng)作于2023年2月四、數(shù)據(jù)挖掘

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論