版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)挖掘技術(shù)概述及前景展望DataMiningandProspect商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘技術(shù)概述及前景展望DataMiningandP數(shù)據(jù)挖掘由來產(chǎn)生背景隨著數(shù)據(jù)庫技術(shù)的飛速發(fā)展,快速增長的海量數(shù)據(jù)收集、存放在大量數(shù)據(jù)儲存庫中理解他們已經(jīng)遠遠超出人的能力數(shù)據(jù)墳墓——難得再訪問的數(shù)據(jù)檔案數(shù)據(jù)爆炸,但知識缺乏人們被數(shù)據(jù)淹沒,卻饑餓于知識商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘由來產(chǎn)生背景商業(yè)智能研討沙龍-上海站數(shù)據(jù)挖掘的原由可怕的數(shù)據(jù)數(shù)據(jù)存儲成本越來越低,數(shù)據(jù)庫越來越大……
數(shù)據(jù)挖掘有價值的知識商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘的原由可怕的數(shù)據(jù)數(shù)據(jù)存儲成本越來越低,數(shù)據(jù)庫越來越大數(shù)據(jù)挖掘技術(shù)的由來“要學會拋棄信息”
“如何才能不被信息淹沒,而是從中及時發(fā)現(xiàn)有用的知識、提高信息利用率?”“需要是發(fā)明之母”-數(shù)據(jù)挖掘:海量數(shù)據(jù)的自動分析技術(shù)數(shù)據(jù)開采和知識發(fā)現(xiàn)(DMKD)技術(shù)應運而生
GartnerGroup的一次高級技術(shù)調(diào)查將數(shù)據(jù)挖掘和人工智能列為“未來三到五年內(nèi)將對工業(yè)產(chǎn)生深遠影響的五大關(guān)鍵技術(shù)”之首
網(wǎng)絡之后的下一個技術(shù)熱點
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘技術(shù)的由來“要學會拋棄信息”網(wǎng)絡之后的下一個技術(shù)熱數(shù)據(jù)挖掘技術(shù)的由來從商業(yè)數(shù)據(jù)到商業(yè)信息的進化
進化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點數(shù)據(jù)搜集(60年代)“過去五年中我的總收入是多少?”計算機,磁帶和磁盤IBM,CDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(RDBMS),結(jié)構(gòu)化查詢語言SQL),ODBC,Oracle,Sybase,Informix,IBM,MicrosoftOracle,Sybase,Informix,IBM,Microsoft在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫;決策支持(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機分析處理(OLAP),多維數(shù)據(jù)庫,數(shù)據(jù)倉庫Pilot,Comshare,Arbor,Cognos,Microstrategy在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘(正在流行)“下個月波士頓的銷售會怎么樣?為什么?”高級算法,多處理器計算機,海量數(shù)據(jù)庫Pilot,Lockheed,IBM,SGI,其他初創(chuàng)公司提供預測性的信息
商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘技術(shù)的由來從商業(yè)數(shù)據(jù)到商業(yè)信息的進化進化階段商業(yè)數(shù)據(jù)挖掘概念的提出現(xiàn)在數(shù)據(jù)挖掘概念的首次國際學術(shù)會議
1989年8月在美國底特律召開的第11屆國際聯(lián)合人工智能學術(shù)會議(IJCAI-89)上,GregoryPiatetsky-Shapiro組織了“數(shù)據(jù)庫中的知識發(fā)現(xiàn)”(KDD:KnowledgeDiscoveryinDatabase)專題討論會,該討論會的重點是強調(diào)發(fā)現(xiàn)(Discovery)的方法以及發(fā)現(xiàn)的是知識(Knowledge)兩個方面。相繼開展的專題討論會
隨后在1991、1993和1994年都舉行了KDD專題討論會,來自各個領(lǐng)域的研究人員和應用開發(fā)者集中討論了數(shù)據(jù)統(tǒng)計、海量數(shù)據(jù)分析算法、知識表示和知識運用等問題。商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘概念的提出現(xiàn)在數(shù)據(jù)挖掘概念的首次國際學術(shù)會議數(shù)據(jù)挖掘概念的提出第一屆KDD國際學術(shù)會議隨著參與科研和開發(fā)人員的不斷增加,國際KDD組委會于1995年把專題討論會發(fā)展成為國際年會。在加拿大的蒙特利爾市召開了第一屆KDD國際學術(shù)會。其會議名稱全稱為“ACMSIGKDD(SpecialInterestedGrouponKnowledgeDiscoveryinDatabases)InternationalConferenceonKnowledgeDiscoveryandDataMining”在這次會議上“數(shù)據(jù)挖掘”(DataMining)概念第一次由UsamaFayyad提出。UsamaFayyad對數(shù)據(jù)挖掘概念的界定數(shù)據(jù)挖掘指的是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、有效的、新穎的、潛在有用的、并且最終可理解的模式的非平凡過程。SAS軟件研究所對數(shù)據(jù)挖掘所下的定義是:數(shù)據(jù)挖掘是按照既定的業(yè)務目標,對大量的企業(yè)數(shù)據(jù)進行探索、揭示隱藏其中的規(guī)律性并進一步將之模型化的先進、有效的方法。商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘概念的提出第一屆KDD國際學術(shù)會議商業(yè)智能數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
技術(shù)上的定義及含義
商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘(DataMining)就是從大量數(shù)據(jù)挖掘的定義數(shù)據(jù)源必須是真實的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運用;并不要求發(fā)現(xiàn)放之四海皆準的知識,僅支持特定的發(fā)現(xiàn)問題技術(shù)上的定義及含義
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘的定義數(shù)據(jù)源必須是真實的、大量的、含噪聲的;技術(shù)上的數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。 按企業(yè)既定業(yè)務目標,對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化的先進有效的方法。
商業(yè)角度的定義
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特知識是什么……DataInformationKnowledgeWisdom知識是對信息進行智能性加工所形成的對客觀世界規(guī)律性的認識
Data+contextInformation+rulesKnowledge+experience商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦知識是什么……DataInformationKnowledg知識發(fā)現(xiàn)(KDD)的過程數(shù)據(jù)清理篩選數(shù)據(jù)目標數(shù)據(jù)Knowledge預處理及變換變換后的數(shù)據(jù)數(shù)據(jù)挖掘解釋/評估商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦知識發(fā)現(xiàn)(KDD)的過程數(shù)據(jù)清理篩選數(shù)據(jù)目標數(shù)據(jù)Knowle數(shù)據(jù)挖掘數(shù)據(jù)庫技術(shù)統(tǒng)計學其他學科信息科學機器學習可視化數(shù)據(jù)挖掘是一個交叉學科領(lǐng)域商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘數(shù)據(jù)庫技術(shù)統(tǒng)計學其他學科信息科學機器學習可視化數(shù)據(jù)挖計費系統(tǒng)客服系統(tǒng)源數(shù)據(jù)其他業(yè)務系統(tǒng)外部數(shù)據(jù)數(shù)據(jù)挖掘信用評分離網(wǎng)預警客戶細分交叉銷售OLAP多維分析數(shù)據(jù)訪問數(shù)據(jù)分析報表查詢中間層中間層中間件中間件多維數(shù)據(jù)庫數(shù)據(jù)抽取、轉(zhuǎn)換、裝載數(shù)據(jù)倉庫管理工具抽取轉(zhuǎn)換裝載數(shù)據(jù)清洗工具數(shù)據(jù)建模工具中心元數(shù)據(jù)數(shù)據(jù)集市中心數(shù)據(jù)倉庫數(shù)據(jù)集市數(shù)據(jù)集市中心數(shù)據(jù)倉庫局部元數(shù)據(jù)局部元數(shù)據(jù)局部元數(shù)據(jù)元數(shù)據(jù)交換關(guān)系數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫數(shù)據(jù)挖掘與數(shù)據(jù)倉庫通用數(shù)據(jù)倉庫技術(shù)架構(gòu)商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦計費系統(tǒng)客服系統(tǒng)源數(shù)據(jù)其他業(yè)務系統(tǒng)外部數(shù)據(jù)數(shù)據(jù)挖掘OLAP數(shù)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系數(shù)據(jù)倉庫并不是數(shù)據(jù)挖掘必需的數(shù)據(jù)倉庫匯總并清理數(shù)據(jù),可以作為數(shù)據(jù)挖掘的基礎數(shù)據(jù)倉庫與數(shù)據(jù)挖掘都是決策支持新技術(shù)。但它們有著完全不同的輔助決策方式。數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的結(jié)合對支持決策會起更大的作用。數(shù)據(jù)存儲、組織、管理分析、探索模型DataWarehouseDataMining$0.5-5M$30-200K商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系數(shù)據(jù)倉庫并不是數(shù)據(jù)挖掘必需的數(shù)據(jù)存儲數(shù)據(jù)挖掘與OLAP數(shù)據(jù)挖掘與OLAP的區(qū)別與聯(lián)系
OLAP是先建立一系列的假設,然后通過分析來證實或推理這些假設來最終得到自己的結(jié)論,本質(zhì)上是一個演繹推理過程。數(shù)據(jù)挖掘是在數(shù)據(jù)庫中自己尋找模型,本質(zhì)上是一個歸納過程。
兩個相輔相成,可以利用OLAP驗證DM的結(jié)果。例:用數(shù)據(jù)挖掘工具的分析員想找到引起貸款拖欠的風險因素。然后利用OLAP加以驗證結(jié)論的可靠性。
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘與OLAP數(shù)據(jù)挖掘與OLAP的區(qū)別與聯(lián)系數(shù)據(jù)挖掘系統(tǒng)的組成數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫:是一個或一組數(shù)據(jù)庫、數(shù)據(jù)倉庫、電子表格或其他類型的信息庫??梢栽跀?shù)據(jù)上進行數(shù)據(jù)清理和集成。數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器:根據(jù)用戶的挖掘請求,數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器負責提取相關(guān)數(shù)據(jù)。知識庫:是領(lǐng)域知識,用于指導搜索,或評估結(jié)果模式的興趣度。商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘系統(tǒng)的組成商業(yè)智能研討沙龍-上海站數(shù)據(jù)挖掘引擎:數(shù)據(jù)挖掘系統(tǒng)的基本部分,由一組功能模塊組成,用于特征化、關(guān)聯(lián)、分類、聚類分析以及演變和偏差分析。模式評估模塊:使用興趣度量,并與數(shù)據(jù)挖掘模塊交互,以便將搜索聚焦在有趣的模式上,可能使用興趣度閾值過濾發(fā)現(xiàn)的模式。圖形用戶界面:該模塊在用戶和數(shù)據(jù)挖掘系統(tǒng)之間通信,允許用戶與系統(tǒng)交互,指定數(shù)據(jù)挖掘查詢或任務,提供信息,幫助搜索聚焦,根據(jù)數(shù)據(jù)挖掘的中間結(jié)果進行探索式數(shù)據(jù)挖掘。商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦商業(yè)智能研討沙龍-上海站典型結(jié)構(gòu)數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)清理數(shù)據(jù)集成過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器數(shù)據(jù)挖掘引擎模式評估圖形用戶界面知識庫商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦典型結(jié)構(gòu)數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)清理分析問題數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)倉庫多維數(shù)據(jù)集創(chuàng)建和訓練模型校驗數(shù)據(jù)數(shù)據(jù)挖掘模型維護數(shù)據(jù)挖掘數(shù)據(jù)清洗和轉(zhuǎn)換查詢數(shù)據(jù)客戶端數(shù)據(jù)查詢OLAP數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘結(jié)果解釋查詢數(shù)據(jù)商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦分析問題數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)倉庫多維數(shù)據(jù)集創(chuàng)建和訓練模型校驗數(shù)據(jù)挖掘項目工作流程商業(yè)目標確定確認數(shù)據(jù)源識別數(shù)據(jù)篩選數(shù)據(jù)收集數(shù)據(jù)質(zhì)量檢測結(jié)果應用結(jié)果解釋應用建議模型構(gòu)建數(shù)據(jù)轉(zhuǎn)換商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦挖掘項目工作流程商業(yè)目標確定確認數(shù)據(jù)源識別數(shù)據(jù)篩選數(shù)據(jù)收集數(shù)數(shù)據(jù)挖掘過程數(shù)據(jù)清理(消除噪聲或不一致數(shù)據(jù))數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起)數(shù)據(jù)選擇(從數(shù)據(jù)庫中檢索與分析任務相關(guān)的數(shù)據(jù))數(shù)據(jù)變換(數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式)數(shù)據(jù)挖掘(使用各種方法提取數(shù)據(jù)模式)模式評估(使用某種度量,識別真正有趣的模式)知識表示(使用可視化和知識表示技術(shù),向用戶提供挖掘的知識《dataminingconceptsandtechniques》商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘過程數(shù)據(jù)清理(消除噪聲或不一致數(shù)據(jù))商業(yè)智能研討沙龍從系統(tǒng)設計看數(shù)據(jù)挖掘過程模型一種是Fayyad等人總結(jié)的過程模型另一種是遵循CRISP-DM標準的過程模型
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦從系統(tǒng)設計看數(shù)據(jù)挖掘過程模型一種是Fayyad等人總結(jié)的Fayyad過程模型
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦Fayyad過程模型商業(yè)智能研討沙龍-上海站CRISP-DM(Cross-IndustryStandardProcessforDataMining)過程模型
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦CRISP-DM(Cross-IndustryStan數(shù)據(jù)挖掘方法論CRISP_DM(CrossIndustryStandardProcessforDM)1998年,由NCR、Clementine、OHRA和Daimler-Benz的聯(lián)合項目組提出SEMMASAS公司提出的方法Sample,Explore,Modify,Model,Assess在戰(zhàn)略上使用Crisp_DM方法論,在戰(zhàn)術(shù)上應用SEMMA方法論商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘方法論CRISP_DM(CrossIndustr數(shù)據(jù)挖掘技術(shù)分類數(shù)據(jù)挖掘驗證驅(qū)動挖掘發(fā)現(xiàn)驅(qū)動挖掘SQLSQL生成器查詢工具OLAP描述預測可視化聚類關(guān)聯(lián)規(guī)則順序關(guān)聯(lián)匯總描述分類統(tǒng)計回歸時間序列決策樹神經(jīng)網(wǎng)路商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘技術(shù)分類數(shù)據(jù)挖掘驗證驅(qū)動挖掘發(fā)現(xiàn)驅(qū)動挖掘SQLSQL數(shù)據(jù)挖掘的任務和方法數(shù)據(jù)挖掘的任務是從大量的數(shù)據(jù)中發(fā)現(xiàn)模式。根據(jù)數(shù)據(jù)挖掘的任務可分為多種類型,其中比較典型的有:預測模型關(guān)聯(lián)分析分類分析聚類分析序列分析偏差檢測模式相似性挖掘Web數(shù)據(jù)挖掘商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘的任務和方法數(shù)據(jù)挖掘的任務是從大量的數(shù)據(jù)中發(fā)現(xiàn)模式。預測模型預測模型(PredictiveModeling):所謂預測即從數(shù)據(jù)庫或數(shù)據(jù)倉庫中已知的數(shù)據(jù)推測未知的數(shù)據(jù)或?qū)ο蠹心承傩缘闹捣植?。建立預測模型的常用方法:回歸分析線性模型關(guān)聯(lián)規(guī)則決策樹預測遺傳算法神經(jīng)網(wǎng)絡商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦預測模型預測模型(PredictiveModeling):關(guān)聯(lián)分析關(guān)聯(lián)(Association)分析:關(guān)聯(lián)規(guī)則描述了一組數(shù)據(jù)項之間的密切度或關(guān)系。關(guān)聯(lián)分析用于發(fā)現(xiàn)項目集之間的關(guān)聯(lián)。在關(guān)聯(lián)規(guī)則挖掘算法中,通常給出了置信度和支持度兩個概念,對于置信度和支持度均大于給定閾值的規(guī)則稱為強規(guī)則,而關(guān)聯(lián)分析主要就是對強規(guī)則的挖掘。關(guān)聯(lián)分析算法:
APRIORI算法、DHP算法、DIC算法、PARTITION算法及它們的各種改進算法等。
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦關(guān)聯(lián)分析關(guān)聯(lián)(Association)分析:關(guān)聯(lián)規(guī)則描述了一分類分析分類(Classification)分析:所謂分類是根據(jù)數(shù)據(jù)的特征為每個類別建立一個模型,根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分配到不同的組中。分類分析的常用方法:粗糙(Rough)集決策樹神經(jīng)網(wǎng)絡統(tǒng)計分析法商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦分類分析分類(Classification)分析:所謂分類是聚類分析聚類(Clustering)分析:所謂聚類是指一組彼此間非?!跋嗨啤钡臄?shù)據(jù)對象的集合。相似的程度可以通過距離函數(shù)來表示,由用戶或?qū)<抑付ā?/p>
聚類分析的常用方法:隨機搜索聚類法特征聚類CF樹(聚類特征數(shù))商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦聚類分析聚類(Clustering)分析:所謂聚類是指一組彼序列分析序列(Sequence)分析:序列分析主要用于分析數(shù)據(jù)倉庫中的某類與時間相關(guān)的數(shù)據(jù),搜索類似的序列或子序列,并挖掘時序模式、周期性、趨勢和偏離等。序列模式可以看成是一種特定的關(guān)聯(lián)模型,它在關(guān)聯(lián)模型中增加了時間屬性。例如:在所有購買了彩色電視機的人中,有60%的人再購買VCD產(chǎn)品
商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦序列分析序列(Sequence)分析:序列分析主要用于分析數(shù)偏差檢測偏差檢測(DeviationDetection):用于檢測并解釋數(shù)據(jù)分類的偏差,它有助于濾掉知識發(fā)現(xiàn)引擎所抽取的無關(guān)信息,也可濾掉那些不合適的數(shù)據(jù),同時可產(chǎn)生新的關(guān)注性事實。偏差包括很多有用的知識,如以下4類:分類中的反常實例;模式的例外;觀察結(jié)果對模型預測的偏差;量值隨時間的變化。
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦偏差檢測偏差檢測(DeviationDetection):模式相似性挖掘模式相似性挖掘:用于在時間數(shù)據(jù)庫或空間數(shù)據(jù)庫中搜索相似模式時,從所有對象中找出用戶定義范圍內(nèi)的對象;或找出所有元素對,元素對中兩者的距離小于用戶定義的距離范圍。模式相似性挖掘的方法有相似度測量法、遺傳算法等。
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦模式相似性挖掘模式相似性挖掘:用于在時間數(shù)據(jù)庫或空間數(shù)據(jù)庫中Web數(shù)據(jù)挖掘Web數(shù)據(jù)挖掘:萬維網(wǎng)是一個巨大的、分布廣泛的和全球性的信息服務中心,其中包含了豐富的超鏈接信息,為數(shù)據(jù)挖掘提供了豐富的資源。Web數(shù)據(jù)挖掘包括Web使用模式挖掘、Web結(jié)構(gòu)挖掘和Web內(nèi)容挖掘等。
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦Web數(shù)據(jù)挖掘Web數(shù)據(jù)挖掘:萬維網(wǎng)是一個巨大的、分布廣泛的分類與預測分類和預測是兩種重要的數(shù)據(jù)分析方法,在商業(yè)上的應用很多。分類和預測可以用于提取描述重要數(shù)據(jù)類型或預測未來的數(shù)據(jù)趨勢。
分類是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,既該類的內(nèi)涵描述。一般用規(guī)則或決策樹模式表示。該模式能把數(shù)據(jù)庫中的元組影射到給定類別中的某一個。
預測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并用此模型來預測未來數(shù)據(jù)的種類,特征不等。典型的方法是回歸分析,即利用大量的歷史數(shù)據(jù),以時間為變量建立線性或非線性回歸方程。分類的方法主要有:決策樹(C5或CART)、貝葉斯分類、基于遺傳算法分類預測的方法主要是回歸統(tǒng)計,包括:線性回歸、非線性回歸、多元回歸、泊松回歸、對數(shù)回歸等。分類也可以用來預測。神經(jīng)網(wǎng)絡方法預測既可用于連續(xù)數(shù)值,也可以用于離散數(shù)值。
常用的數(shù)據(jù)挖掘方法商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦分類與預測常用的數(shù)據(jù)挖掘方法商業(yè)智能研討沙龍-上2.關(guān)聯(lián)分析
關(guān)聯(lián)分析--就是挖掘數(shù)據(jù)對象之間的相互依賴關(guān)系。
關(guān)聯(lián)—若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。一個關(guān)聯(lián)規(guī)則的形式為:
A1∧A2∧…∧Ai→B1∧B2∧…∧Bj
其含義為:如果A1∧A2∧…∧Ai,則一定出現(xiàn)B1∧B2∧…∧Bj數(shù)據(jù)中的關(guān)聯(lián)可分為:簡單關(guān)聯(lián)如:買面包的顧客中有90%的人購買了牛奶。面包→牛奶時序關(guān)聯(lián)如:糧食漲價,不久副食品漲價。因果關(guān)聯(lián)屬條件與結(jié)論的依賴關(guān)系。商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦2.關(guān)聯(lián)分析商業(yè)智能研討沙龍-上海站聚類分析
將數(shù)據(jù)點分組的過程,從而使得同一組內(nèi)的數(shù)據(jù)點類似。檢查一大群最初沒有差異的顧客,看看能否把它們分在自然形成的組內(nèi)。聚類不同于分類的區(qū)別在于結(jié)果是分析出來的而不是事先預定的。沒有預先制定的設想,希望數(shù)據(jù)挖掘工具能夠揭示某些有意義的結(jié)構(gòu)。聚類技術(shù)主要包括:模式識別方法、數(shù)學分類法、概念聚類、神經(jīng)網(wǎng)絡的自組織模型等。商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦聚類分析商業(yè)智能研討沙龍-4.人工神經(jīng)網(wǎng)絡人工神經(jīng)網(wǎng)絡,是對人類大腦系統(tǒng)機能的簡單抽象和模擬;神經(jīng)網(wǎng)絡是一組連接的輸入/輸出單元,其中每個連接都與一個權(quán)相關(guān)聯(lián),在學習階段,通過調(diào)整神經(jīng)網(wǎng)絡的權(quán),使得能夠預測輸入樣本的正確類標號來學習。具有高度抗干擾能力和可以對未訓練的數(shù)據(jù)分類的特點激勵函數(shù)的選擇和權(quán)值的調(diào)整
將人工神經(jīng)網(wǎng)絡應用于數(shù)據(jù)挖掘的主要缺點是,通過人工神經(jīng)網(wǎng)絡學習到的知識難于理解;學習時間太長,不適于大型數(shù)據(jù)集。商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦4.人工神經(jīng)網(wǎng)絡商業(yè)智能研討沙龍-上海站神經(jīng)網(wǎng)絡商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦神經(jīng)網(wǎng)絡商業(yè)智能研討沙龍-上海站5.偏差檢測
對數(shù)據(jù)庫中的異常數(shù)據(jù)進行檢測,稱為偏差檢測。偏差檢測的基本方法:尋找觀察結(jié)果與參照之間的差別。觀察:通常是某一個域的值或多個域值的匯總。參照:是給定模型的預測、外界提供的標準量或另一個觀察。偏差檢測的數(shù)據(jù)模式有:極值點、斷點、拐點、零點和邊界等不同的偏差對象。偏差包括的規(guī)則知識有:分類中的反常實例;模式的例外;觀察結(jié)果對模型預測的偏差;量值隨時間的變化等。商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦5.偏差檢測商業(yè)智能研討沙龍-上海站數(shù)據(jù)挖掘常用的10大算法1.C4.5、C5.0算法:C4.5算法是機器學習算法中的一種分類決策樹算法,其核心算法是ID3算法.C4.5算法繼承了ID3算法的優(yōu)點,并在以下幾方面對ID3算法進行了改進:1)用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;2)在樹構(gòu)造過程中進行剪枝;3)能夠完成對連續(xù)屬性的離散化處理;4)能夠?qū)Σ煌暾麛?shù)據(jù)進行處理。優(yōu)點:產(chǎn)生的分類規(guī)則易于理解,準確率較高。缺點:在構(gòu)造樹的過程中,需要對數(shù)據(jù)集進行多次的順序掃描和排序,因而導致算法的低效。商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘常用的10大算法1.C4.5、C5.0算法:2.K-Means算法k-meansalgorithm算法是一個聚類算法,把n的對象根據(jù)他們的屬性分為k個分割,k<n。它與處理混合正態(tài)分布的最大期望算法很相似,因為他們都試圖找到數(shù)據(jù)中自然聚類的中心。它假設對象屬性來自于空間向量,并且目標是使各個群組內(nèi)部的均方誤差總和最小。即每個簇用該簇中對象的平均值來表示.3.Supportvectormachines支持向量機,英文為SupportVectorMachine,簡稱SV機(論文中一般簡稱SVM)。它是一種監(jiān)督式學習的方法,它廣泛的應用于統(tǒng)計分類以及回歸分析中。支持向量機將向量映射到一個更高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差距越大,分類器的總誤差越小。商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦2.K-Means算法商業(yè)智能研討沙龍-上海站4.經(jīng)典的Apriori算法算法思想:Aprior算法思想基于如下定理:若c[k]∈頻繁集,m<k,
則頻繁集故可以用短的頻繁集中元素構(gòu)造長的頻繁集元素算法目的:提高頻繁集發(fā)現(xiàn)效率商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦4.經(jīng)典的Apriori算法算法思想:Aprior算法思想基5.最大期望(EM)算法在統(tǒng)計計算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中尋找參數(shù)最大似然估計的算法,其中概率模型依賴于無法觀測的隱藏變量(LatentVariabl)。最大期望經(jīng)常用在機器學習和計算機視覺的數(shù)據(jù)集聚(DataClustering)領(lǐng)域。6.PageRankPageRank是Google算法的重要內(nèi)容。2001年9月被授予美國專利,專利人是Google創(chuàng)始人之一拉里·佩奇(LarryPage)。因此,PageRank里的page不是指網(wǎng)頁,而是指佩奇,即這個等級方法是以佩奇來命名的。商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦5.最大期望(EM)算法商業(yè)智能研討沙龍-上海站7.NaiveBayes假定一個屬性值對給定類的影響獨立于其他屬性的值在眾多的分類模型中,應用最為廣泛的兩種分類模型是決策樹模型(DecisionTreeModel)和樸素貝葉斯模型(NaiveBayesianModel,NBC)。樸素貝葉斯模型發(fā)源于古典數(shù)學理論,有著堅實的數(shù)學基礎,以及穩(wěn)定的分類效率。8.CART:分類與回歸樹CART,ClassificationandRegressionTrees。算法采用一種二分遞歸分割的技術(shù),將當前的樣本集分為兩個子樣本集,使得生成的決策樹的每個非葉子節(jié)點都有兩個分支。因此,CART算法生成的決策樹是結(jié)構(gòu)簡潔的二叉樹。在分類樹下面有兩個關(guān)鍵的思想。第一個是關(guān)于遞歸地劃分自變量空間的想法;第二個想法是用驗證數(shù)據(jù)進行剪枝。商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦7.NaiveBayes商業(yè)智能研討沙龍-上9.kNN:k-nearestneighborclassificationK最近鄰(k-NearestNeighbor,KNN)分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學習算法之一。該方法的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。10.AdaBoostAdaboost是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個更強的最終分類器(強分類器)。其算法本身是通過改變數(shù)據(jù)分布來實現(xiàn)的,它根據(jù)每次訓練集之中每個樣本的分類是否正確,以及上次的總體分類的準確率,來確定每個樣本的權(quán)值。將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進行訓練,最后將每次訓練得到的分類器最后融合起來,作為最后的決策分類器。商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦9.kNN:k-nearestneighborclas數(shù)據(jù)挖掘工具簡介目前,世界上比較有影響的典型數(shù)據(jù)挖掘系統(tǒng)包括:EnterpriseMiner(SAS公司)IntelligentMiner(IBM公司)SetMiner(SGI公司)Clementine(SPSS公司)WarehouseStudio(Sybase公司)See5(RuleQuestResearch公司)CoverStoryEXPLORAKnowledgeDiscoveryWorkbenchDBMinerQuest等商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘工具簡介目前,世界上比較有影響的典型數(shù)據(jù)挖掘系統(tǒng)包括功能總分
軟件
IBMSAS
IntelligentEnterpriseSPSS權(quán)值MinerMinerClementine數(shù)據(jù)存取10%759080數(shù)據(jù)處理20%9310098模型算法30%919691自動建模10%9210086可視化15%889591其它15%789256總分100%889686三大工具總體評分商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦功能總分
軟件
IBMSAS
Intelligent數(shù)據(jù)挖掘工具介紹—IntelligentMiner
美國IBM公司開發(fā)的數(shù)據(jù)挖掘軟件,分別面向數(shù)據(jù)庫和文本信息進行數(shù)據(jù)挖掘的,包括IntelligentMinerforData和IntelligentMinerforText。IntelligentMinerforData可以挖掘包含在數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)中心中的隱含信息,幫助用戶利用傳統(tǒng)數(shù)據(jù)庫或普通文件中的結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)挖掘。已經(jīng)成功應用于市場分析、詐騙行為監(jiān)測及客戶聯(lián)系管理等;IntelligentMinerforText允許企業(yè)從文本信息進行數(shù)據(jù)挖掘,文本數(shù)據(jù)源可以是文本文件、Web頁面、電子郵件、LotusNotes數(shù)據(jù)庫等等。商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘工具介紹—IntelligentMiner
美國I數(shù)據(jù)挖掘工具介紹—SASEnterpriseMiner
SAS是一個龐大的系統(tǒng),它多個功能模塊組成,每個模塊分別完成不同的功能。由于SAS最初是為專業(yè)統(tǒng)計人員設計的(這一點和SPSS已恰恰相反),因此使用上以編程為主。SEMMA方法
Sample──數(shù)據(jù)取樣(質(zhì)量、目標)Explore──數(shù)據(jù)特征探索、分析和預處理
Modify──問題明確化、數(shù)據(jù)調(diào)整和技術(shù)選擇
Model──模型的研發(fā)、知識的發(fā)現(xiàn)
Assess──模型和知識的綜合解釋和評價商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘工具介紹—SASEnterpriseMinerSASEnterpriseMiner:
scatterplots
商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦SASEnterpriseMiner:scatter數(shù)據(jù)挖掘工具介紹—IBM
IntelligentMiner
美國IBM公司開發(fā)的數(shù)據(jù)挖掘軟件,分別面向數(shù)據(jù)庫和文本信息進行數(shù)據(jù)挖掘的,包括IntelligentMinerforData和IntelligentMinerforText。IntelligentMinerforData可以挖掘包含在數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)中心中的隱含信息,幫助用戶利用傳統(tǒng)數(shù)據(jù)庫或普通文件中的結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)挖掘。已經(jīng)成功應用于市場分析、詐騙行為監(jiān)測及客戶聯(lián)系管理等;IntelligentMinerforText允許企業(yè)從文本信息進行數(shù)據(jù)挖掘,文本數(shù)據(jù)源可以是文本文件、Web頁面、電子郵件、LotusNotes數(shù)據(jù)庫等等。
商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘工具介紹—IBM
IntelligentMine數(shù)據(jù)挖掘工具介紹—
Spss的ClementineClementine是ISL(IntegralSolutionsLimited)公司開發(fā)的數(shù)據(jù)挖掘工具平臺。1999年SPSS公司收購了ISL公司,對Clementine產(chǎn)品進行重新整合和開發(fā)。是一個開放式數(shù)據(jù)挖掘工具,曾兩次獲得英國政府SMART創(chuàng)新獎。不但支持整個數(shù)據(jù)挖掘流程,從數(shù)據(jù)獲取、轉(zhuǎn)化、建模、評估到最終部署的全部過程,還支持數(shù)據(jù)挖掘的行業(yè)標準--CRISP-DM。
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘工具介紹—Spss的ClementineClem數(shù)據(jù)挖掘工具介紹—Spss的Clementine主要功能分類:類神經(jīng)網(wǎng)絡、決策樹(C5或CART)、Logistic回歸;聚類:K-Means算法(一維聚類)、Kohonen算法(利用類神經(jīng)網(wǎng)絡自我組織的演算法進行二維聚類)、2-Step算法(可自動找出最適合的聚類數(shù));關(guān)聯(lián):Apriori算法(連續(xù)、類別變量都可用)、GRI算法(只能處理類別變量)、序列算法(只能處理類別變量,且考慮時間先后)。商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘工具介紹—Spss的Clementine主要功能數(shù)據(jù)挖掘工具介紹—Spss的ClementineClementine數(shù)據(jù)源
ODBC(包括Excel)
各種文本文件
Spss數(shù)據(jù)源
SAS數(shù)據(jù)源使用者輸入Clementine可同時存取多種數(shù)據(jù)來源商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘工具介紹—Spss的ClementineClem
Clementine操作界面商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦Clementine操作界面商業(yè)智能研討沙龍-上篩選潛在詐欺案例的兩種方法
-“異常檢測”和基于“神經(jīng)網(wǎng)絡”的建模方法。
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦篩選潛在詐欺案例的兩種方法
-“異常檢測”和基于“神經(jīng)網(wǎng)數(shù)據(jù)挖掘技術(shù)應用廣泛數(shù)據(jù)挖掘技術(shù)從一開始就是面向應用的。由于現(xiàn)在各行業(yè)的業(yè)務操作都向著流程自動化的方向發(fā)展,企業(yè)內(nèi)產(chǎn)生了大量的業(yè)務數(shù)據(jù)。數(shù)據(jù)挖掘技術(shù)應用很廣,應用較好的領(lǐng)域有:金融保險業(yè):CreditScoring;InsuranceEvaluation電信:Detectingtelephonefraud零售(如超級市場)等商業(yè)領(lǐng)域:MarketingAnalysis醫(yī)學:Detectinginappropriatemedicaltreatment體育:IBMAdvancedScoutanalyzedNBAgamestatistics在天文學、分子生物學等科學研究方面軍事方面:使用DM進行軍事信息系統(tǒng)中的目標特征提取、態(tài)勢關(guān)聯(lián)規(guī)則挖掘等。商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘技術(shù)應用廣泛數(shù)據(jù)挖掘技術(shù)從一開始就是面向應用的。由于市場營銷的應用基于購買模型分析顧客行為;識別顧客流失模型以及通過預防行為使顧客未流失的情況;廣告、倉庫位置等營銷戰(zhàn)略的確定;顧客、產(chǎn)品、倉庫的劃分;目錄設計、倉庫布局、廣告活動;通過適當聚集和為前端銷售、服務人員發(fā)送信息,提供優(yōu)先銷售和顧客服務;鑒定市場高于或低于平均增長;識別同時被購買的產(chǎn)品,或購買某種產(chǎn)品類別的顧客特征;市場容量分析。商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦市場營銷的應用基于購買模型分析顧客行為;商業(yè)智能財務的應用客戶信譽價值分析;帳戶應收款項劃分;金融投資,如股票、共有基金、債券等的業(yè)績分析;風險評估和欺詐檢測商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦財務的應用客戶信譽價值分析;商業(yè)智能研討沙龍-上制造業(yè)的應用優(yōu)化資源,例如人力、機器、材料、能量等等;優(yōu)化制造過程設計;產(chǎn)品設計;發(fā)現(xiàn)生產(chǎn)問題的起因;識別產(chǎn)品和服務的使用模型。商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦制造業(yè)的應用優(yōu)化資源,例如人力、機器、材料、能量等等;銀行業(yè)務的應用檢測欺詐性信用卡使用的模型;識別忠實顧客;預測可能改變他們的信用卡從屬關(guān)系的客戶;確定客戶群體的信用卡消費。商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦銀行業(yè)務的應用檢測欺詐性信用卡使用的模型;商業(yè)智醫(yī)療保健的應用發(fā)現(xiàn)放射線圖象的模型;分析藥物的副作用;描述患者行為特征,預測外科手術(shù)觀察;標識對不同疾病的成功藥物療法。商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦醫(yī)療保健的應用發(fā)現(xiàn)放射線圖象的模型;商業(yè)智能研競技運動中的數(shù)據(jù)挖掘
大約20個NBA球隊使用了IBM公司開發(fā)的數(shù)據(jù)挖掘應用軟件AdvancedScout系統(tǒng)來優(yōu)化他們的戰(zhàn)術(shù)組合。例如Scout就因為研究了魔術(shù)隊隊員不同的布陣安排,在與邁阿密熱隊的比賽中找到了獲勝的機會。
系統(tǒng)分析顯示魔術(shù)隊先發(fā)陣容中的兩個后衛(wèi)安佛尼.哈德衛(wèi)(AnferneeHardaway)和伯蘭.紹(BrianShaw)在前兩場中被評為-17分,這意味著他倆在場上,本隊輸?shù)舻姆謹?shù)比得到的分數(shù)多17分。然而,當哈德衛(wèi)與替補后衛(wèi)達利爾.阿姆斯創(chuàng)(DarrellArmstrong)組合時,魔術(shù)隊得分為正14分。
商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦競技運動中的數(shù)據(jù)挖掘商業(yè)智能研討沙龍-上海站刑事案件中的應用三聯(lián)生活周刊的報道圖森的一起謀殺案:一個男人被人切斷了喉管,并被汽車碾過身體。當被發(fā)現(xiàn)時,他依然活著,并在被送往醫(yī)院前告訴現(xiàn)場圍觀者――“這是‘矮子’干的”。警方將“矮子”這個名字輸入到Coplink數(shù)據(jù)庫中,搜索它與被害人的聯(lián)系。幾分鐘之內(nèi),Coplink就給出了結(jié)果:被害人曾經(jīng)與這個“矮子”共同在監(jiān)獄中服刑。商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦刑事案件中的應用三聯(lián)生活周刊的報道商業(yè)智能研討沙龍數(shù)據(jù)挖掘的前景就目前來看,將來研究的幾個焦點包括:研究在網(wǎng)絡環(huán)境下的數(shù)據(jù)挖掘技術(shù)(WebMining),特別是在因特網(wǎng)上建立DMKD服務器,并且與數(shù)據(jù)庫服務器配合,實現(xiàn)分布式數(shù)據(jù)采掘;
生物信息或基因(Bioinformatics/genomics)的數(shù)據(jù)挖掘加強對各種非結(jié)構(gòu)化數(shù)據(jù)的開采(DataMiningforAudio&Video),如對文本數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開采;
尋求數(shù)據(jù)挖掘過程中的可視化方法,使知識發(fā)現(xiàn)的過程能夠被用戶理解,也便于在知識發(fā)現(xiàn)的過程中進行人機交互;
處理的數(shù)據(jù)將會涉及到更多的數(shù)據(jù)類型,這些數(shù)據(jù)類型或者比較復雜,或者是結(jié)構(gòu)比較獨特。發(fā)現(xiàn)語言的形式化描述,即研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,也許會像SQL語言一樣走向形式化和標準化;
商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘的前景就目前來看,將來研究的幾個焦點包括:幾點體會總結(jié)實施數(shù)據(jù)挖掘是一個戰(zhàn)略性舉措數(shù)據(jù)挖掘是年輕充滿希望的研究領(lǐng)域數(shù)據(jù)挖掘不是萬能的解決方案數(shù)據(jù)挖掘是一個循環(huán)探索的過程商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦幾點體會總結(jié)實施數(shù)據(jù)挖掘是一個戰(zhàn)略性舉措數(shù)據(jù)挖掘是年輕充滿希參考文獻商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦參考文獻商業(yè)智能研討沙龍-上海站網(wǎng)絡資源
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦網(wǎng)絡資源www.dmresThankYou!商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦ThankYou!商業(yè)智能研討沙龍-上海站數(shù)據(jù)挖掘技術(shù)概述及前景展望DataMiningandProspect商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘技術(shù)概述及前景展望DataMiningandP數(shù)據(jù)挖掘由來產(chǎn)生背景隨著數(shù)據(jù)庫技術(shù)的飛速發(fā)展,快速增長的海量數(shù)據(jù)收集、存放在大量數(shù)據(jù)儲存庫中理解他們已經(jīng)遠遠超出人的能力數(shù)據(jù)墳墓——難得再訪問的數(shù)據(jù)檔案數(shù)據(jù)爆炸,但知識缺乏人們被數(shù)據(jù)淹沒,卻饑餓于知識商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘由來產(chǎn)生背景商業(yè)智能研討沙龍-上海站數(shù)據(jù)挖掘的原由可怕的數(shù)據(jù)數(shù)據(jù)存儲成本越來越低,數(shù)據(jù)庫越來越大……
數(shù)據(jù)挖掘有價值的知識商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘的原由可怕的數(shù)據(jù)數(shù)據(jù)存儲成本越來越低,數(shù)據(jù)庫越來越大數(shù)據(jù)挖掘技術(shù)的由來“要學會拋棄信息”
“如何才能不被信息淹沒,而是從中及時發(fā)現(xiàn)有用的知識、提高信息利用率?”“需要是發(fā)明之母”-數(shù)據(jù)挖掘:海量數(shù)據(jù)的自動分析技術(shù)數(shù)據(jù)開采和知識發(fā)現(xiàn)(DMKD)技術(shù)應運而生
GartnerGroup的一次高級技術(shù)調(diào)查將數(shù)據(jù)挖掘和人工智能列為“未來三到五年內(nèi)將對工業(yè)產(chǎn)生深遠影響的五大關(guān)鍵技術(shù)”之首
網(wǎng)絡之后的下一個技術(shù)熱點
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘技術(shù)的由來“要學會拋棄信息”網(wǎng)絡之后的下一個技術(shù)熱數(shù)據(jù)挖掘技術(shù)的由來從商業(yè)數(shù)據(jù)到商業(yè)信息的進化
進化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點數(shù)據(jù)搜集(60年代)“過去五年中我的總收入是多少?”計算機,磁帶和磁盤IBM,CDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(RDBMS),結(jié)構(gòu)化查詢語言SQL),ODBC,Oracle,Sybase,Informix,IBM,MicrosoftOracle,Sybase,Informix,IBM,Microsoft在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫;決策支持(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機分析處理(OLAP),多維數(shù)據(jù)庫,數(shù)據(jù)倉庫Pilot,Comshare,Arbor,Cognos,Microstrategy在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘(正在流行)“下個月波士頓的銷售會怎么樣?為什么?”高級算法,多處理器計算機,海量數(shù)據(jù)庫Pilot,Lockheed,IBM,SGI,其他初創(chuàng)公司提供預測性的信息
商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘技術(shù)的由來從商業(yè)數(shù)據(jù)到商業(yè)信息的進化進化階段商業(yè)數(shù)據(jù)挖掘概念的提出現(xiàn)在數(shù)據(jù)挖掘概念的首次國際學術(shù)會議
1989年8月在美國底特律召開的第11屆國際聯(lián)合人工智能學術(shù)會議(IJCAI-89)上,GregoryPiatetsky-Shapiro組織了“數(shù)據(jù)庫中的知識發(fā)現(xiàn)”(KDD:KnowledgeDiscoveryinDatabase)專題討論會,該討論會的重點是強調(diào)發(fā)現(xiàn)(Discovery)的方法以及發(fā)現(xiàn)的是知識(Knowledge)兩個方面。相繼開展的專題討論會
隨后在1991、1993和1994年都舉行了KDD專題討論會,來自各個領(lǐng)域的研究人員和應用開發(fā)者集中討論了數(shù)據(jù)統(tǒng)計、海量數(shù)據(jù)分析算法、知識表示和知識運用等問題。商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘概念的提出現(xiàn)在數(shù)據(jù)挖掘概念的首次國際學術(shù)會議數(shù)據(jù)挖掘概念的提出第一屆KDD國際學術(shù)會議隨著參與科研和開發(fā)人員的不斷增加,國際KDD組委會于1995年把專題討論會發(fā)展成為國際年會。在加拿大的蒙特利爾市召開了第一屆KDD國際學術(shù)會。其會議名稱全稱為“ACMSIGKDD(SpecialInterestedGrouponKnowledgeDiscoveryinDatabases)InternationalConferenceonKnowledgeDiscoveryandDataMining”在這次會議上“數(shù)據(jù)挖掘”(DataMining)概念第一次由UsamaFayyad提出。UsamaFayyad對數(shù)據(jù)挖掘概念的界定數(shù)據(jù)挖掘指的是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、有效的、新穎的、潛在有用的、并且最終可理解的模式的非平凡過程。SAS軟件研究所對數(shù)據(jù)挖掘所下的定義是:數(shù)據(jù)挖掘是按照既定的業(yè)務目標,對大量的企業(yè)數(shù)據(jù)進行探索、揭示隱藏其中的規(guī)律性并進一步將之模型化的先進、有效的方法。商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘概念的提出第一屆KDD國際學術(shù)會議商業(yè)智能數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
技術(shù)上的定義及含義
商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘(DataMining)就是從大量數(shù)據(jù)挖掘的定義數(shù)據(jù)源必須是真實的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運用;并不要求發(fā)現(xiàn)放之四海皆準的知識,僅支持特定的發(fā)現(xiàn)問題技術(shù)上的定義及含義
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘的定義數(shù)據(jù)源必須是真實的、大量的、含噪聲的;技術(shù)上的數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。 按企業(yè)既定業(yè)務目標,對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化的先進有效的方法。
商業(yè)角度的定義
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特知識是什么……DataInformationKnowledgeWisdom知識是對信息進行智能性加工所形成的對客觀世界規(guī)律性的認識
Data+contextInformation+rulesKnowledge+experience商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦知識是什么……DataInformationKnowledg知識發(fā)現(xiàn)(KDD)的過程數(shù)據(jù)清理篩選數(shù)據(jù)目標數(shù)據(jù)Knowledge預處理及變換變換后的數(shù)據(jù)數(shù)據(jù)挖掘解釋/評估商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦知識發(fā)現(xiàn)(KDD)的過程數(shù)據(jù)清理篩選數(shù)據(jù)目標數(shù)據(jù)Knowle數(shù)據(jù)挖掘數(shù)據(jù)庫技術(shù)統(tǒng)計學其他學科信息科學機器學習可視化數(shù)據(jù)挖掘是一個交叉學科領(lǐng)域商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘數(shù)據(jù)庫技術(shù)統(tǒng)計學其他學科信息科學機器學習可視化數(shù)據(jù)挖計費系統(tǒng)客服系統(tǒng)源數(shù)據(jù)其他業(yè)務系統(tǒng)外部數(shù)據(jù)數(shù)據(jù)挖掘信用評分離網(wǎng)預警客戶細分交叉銷售OLAP多維分析數(shù)據(jù)訪問數(shù)據(jù)分析報表查詢中間層中間層中間件中間件多維數(shù)據(jù)庫數(shù)據(jù)抽取、轉(zhuǎn)換、裝載數(shù)據(jù)倉庫管理工具抽取轉(zhuǎn)換裝載數(shù)據(jù)清洗工具數(shù)據(jù)建模工具中心元數(shù)據(jù)數(shù)據(jù)集市中心數(shù)據(jù)倉庫數(shù)據(jù)集市數(shù)據(jù)集市中心數(shù)據(jù)倉庫局部元數(shù)據(jù)局部元數(shù)據(jù)局部元數(shù)據(jù)元數(shù)據(jù)交換關(guān)系數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫數(shù)據(jù)挖掘與數(shù)據(jù)倉庫通用數(shù)據(jù)倉庫技術(shù)架構(gòu)商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦計費系統(tǒng)客服系統(tǒng)源數(shù)據(jù)其他業(yè)務系統(tǒng)外部數(shù)據(jù)數(shù)據(jù)挖掘OLAP數(shù)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系數(shù)據(jù)倉庫并不是數(shù)據(jù)挖掘必需的數(shù)據(jù)倉庫匯總并清理數(shù)據(jù),可以作為數(shù)據(jù)挖掘的基礎數(shù)據(jù)倉庫與數(shù)據(jù)挖掘都是決策支持新技術(shù)。但它們有著完全不同的輔助決策方式。數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的結(jié)合對支持決策會起更大的作用。數(shù)據(jù)存儲、組織、管理分析、探索模型DataWarehouseDataMining$0.5-5M$30-200K商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系數(shù)據(jù)倉庫并不是數(shù)據(jù)挖掘必需的數(shù)據(jù)存儲數(shù)據(jù)挖掘與OLAP數(shù)據(jù)挖掘與OLAP的區(qū)別與聯(lián)系
OLAP是先建立一系列的假設,然后通過分析來證實或推理這些假設來最終得到自己的結(jié)論,本質(zhì)上是一個演繹推理過程。數(shù)據(jù)挖掘是在數(shù)據(jù)庫中自己尋找模型,本質(zhì)上是一個歸納過程。
兩個相輔相成,可以利用OLAP驗證DM的結(jié)果。例:用數(shù)據(jù)挖掘工具的分析員想找到引起貸款拖欠的風險因素。然后利用OLAP加以驗證結(jié)論的可靠性。
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘與OLAP數(shù)據(jù)挖掘與OLAP的區(qū)別與聯(lián)系數(shù)據(jù)挖掘系統(tǒng)的組成數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫:是一個或一組數(shù)據(jù)庫、數(shù)據(jù)倉庫、電子表格或其他類型的信息庫??梢栽跀?shù)據(jù)上進行數(shù)據(jù)清理和集成。數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器:根據(jù)用戶的挖掘請求,數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器負責提取相關(guān)數(shù)據(jù)。知識庫:是領(lǐng)域知識,用于指導搜索,或評估結(jié)果模式的興趣度。商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘系統(tǒng)的組成商業(yè)智能研討沙龍-上海站數(shù)據(jù)挖掘引擎:數(shù)據(jù)挖掘系統(tǒng)的基本部分,由一組功能模塊組成,用于特征化、關(guān)聯(lián)、分類、聚類分析以及演變和偏差分析。模式評估模塊:使用興趣度量,并與數(shù)據(jù)挖掘模塊交互,以便將搜索聚焦在有趣的模式上,可能使用興趣度閾值過濾發(fā)現(xiàn)的模式。圖形用戶界面:該模塊在用戶和數(shù)據(jù)挖掘系統(tǒng)之間通信,允許用戶與系統(tǒng)交互,指定數(shù)據(jù)挖掘查詢或任務,提供信息,幫助搜索聚焦,根據(jù)數(shù)據(jù)挖掘的中間結(jié)果進行探索式數(shù)據(jù)挖掘。商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦商業(yè)智能研討沙龍-上海站典型結(jié)構(gòu)數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)清理數(shù)據(jù)集成過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器數(shù)據(jù)挖掘引擎模式評估圖形用戶界面知識庫商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦典型結(jié)構(gòu)數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)清理分析問題數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)倉庫多維數(shù)據(jù)集創(chuàng)建和訓練模型校驗數(shù)據(jù)數(shù)據(jù)挖掘模型維護數(shù)據(jù)挖掘數(shù)據(jù)清洗和轉(zhuǎn)換查詢數(shù)據(jù)客戶端數(shù)據(jù)查詢OLAP數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘結(jié)果解釋查詢數(shù)據(jù)商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦分析問題數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)倉庫多維數(shù)據(jù)集創(chuàng)建和訓練模型校驗數(shù)據(jù)挖掘項目工作流程商業(yè)目標確定確認數(shù)據(jù)源識別數(shù)據(jù)篩選數(shù)據(jù)收集數(shù)據(jù)質(zhì)量檢測結(jié)果應用結(jié)果解釋應用建議模型構(gòu)建數(shù)據(jù)轉(zhuǎn)換商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦挖掘項目工作流程商業(yè)目標確定確認數(shù)據(jù)源識別數(shù)據(jù)篩選數(shù)據(jù)收集數(shù)數(shù)據(jù)挖掘過程數(shù)據(jù)清理(消除噪聲或不一致數(shù)據(jù))數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起)數(shù)據(jù)選擇(從數(shù)據(jù)庫中檢索與分析任務相關(guān)的數(shù)據(jù))數(shù)據(jù)變換(數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式)數(shù)據(jù)挖掘(使用各種方法提取數(shù)據(jù)模式)模式評估(使用某種度量,識別真正有趣的模式)知識表示(使用可視化和知識表示技術(shù),向用戶提供挖掘的知識《dataminingconceptsandtechniques》商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘過程數(shù)據(jù)清理(消除噪聲或不一致數(shù)據(jù))商業(yè)智能研討沙龍從系統(tǒng)設計看數(shù)據(jù)挖掘過程模型一種是Fayyad等人總結(jié)的過程模型另一種是遵循CRISP-DM標準的過程模型
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦從系統(tǒng)設計看數(shù)據(jù)挖掘過程模型一種是Fayyad等人總結(jié)的Fayyad過程模型
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦Fayyad過程模型商業(yè)智能研討沙龍-上海站CRISP-DM(Cross-IndustryStandardProcessforDataMining)過程模型
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦CRISP-DM(Cross-IndustryStan數(shù)據(jù)挖掘方法論CRISP_DM(CrossIndustryStandardProcessforDM)1998年,由NCR、Clementine、OHRA和Daimler-Benz的聯(lián)合項目組提出SEMMASAS公司提出的方法Sample,Explore,Modify,Model,Assess在戰(zhàn)略上使用Crisp_DM方法論,在戰(zhàn)術(shù)上應用SEMMA方法論商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘方法論CRISP_DM(CrossIndustr數(shù)據(jù)挖掘技術(shù)分類數(shù)據(jù)挖掘驗證驅(qū)動挖掘發(fā)現(xiàn)驅(qū)動挖掘SQLSQL生成器查詢工具OLAP描述預測可視化聚類關(guān)聯(lián)規(guī)則順序關(guān)聯(lián)匯總描述分類統(tǒng)計回歸時間序列決策樹神經(jīng)網(wǎng)路商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘技術(shù)分類數(shù)據(jù)挖掘驗證驅(qū)動挖掘發(fā)現(xiàn)驅(qū)動挖掘SQLSQL數(shù)據(jù)挖掘的任務和方法數(shù)據(jù)挖掘的任務是從大量的數(shù)據(jù)中發(fā)現(xiàn)模式。根據(jù)數(shù)據(jù)挖掘的任務可分為多種類型,其中比較典型的有:預測模型關(guān)聯(lián)分析分類分析聚類分析序列分析偏差檢測模式相似性挖掘Web數(shù)據(jù)挖掘商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦數(shù)據(jù)挖掘的任務和方法數(shù)據(jù)挖掘的任務是從大量的數(shù)據(jù)中發(fā)現(xiàn)模式。預測模型預測模型(PredictiveModeling):所謂預測即從數(shù)據(jù)庫或數(shù)據(jù)倉庫中已知的數(shù)據(jù)推測未知的數(shù)據(jù)或?qū)ο蠹心承傩缘闹捣植?。建立預測模型的常用方法:回歸分析線性模型關(guān)聯(lián)規(guī)則決策樹預測遺傳算法神經(jīng)網(wǎng)絡商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦預測模型預測模型(PredictiveModeling):關(guān)聯(lián)分析關(guān)聯(lián)(Association)分析:關(guān)聯(lián)規(guī)則描述了一組數(shù)據(jù)項之間的密切度或關(guān)系。關(guān)聯(lián)分析用于發(fā)現(xiàn)項目集之間的關(guān)聯(lián)。在關(guān)聯(lián)規(guī)則挖掘算法中,通常給出了置信度和支持度兩個概念,對于置信度和支持度均大于給定閾值的規(guī)則稱為強規(guī)則,而關(guān)聯(lián)分析主要就是對強規(guī)則的挖掘。關(guān)聯(lián)分析算法:
APRIORI算法、DHP算法、DIC算法、PARTITION算法及它們的各種改進算法等。
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦關(guān)聯(lián)分析關(guān)聯(lián)(Association)分析:關(guān)聯(lián)規(guī)則描述了一分類分析分類(Classification)分析:所謂分類是根據(jù)數(shù)據(jù)的特征為每個類別建立一個模型,根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分配到不同的組中。分類分析的常用方法:粗糙(Rough)集決策樹神經(jīng)網(wǎng)絡統(tǒng)計分析法商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦分類分析分類(Classification)分析:所謂分類是聚類分析聚類(Clustering)分析:所謂聚類是指一組彼此間非?!跋嗨啤钡臄?shù)據(jù)對象的集合。相似的程度可以通過距離函數(shù)來表示,由用戶或?qū)<抑付ā?/p>
聚類分析的常用方法:隨機搜索聚類法特征聚類CF樹(聚類特征數(shù))商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦聚類分析聚類(Clustering)分析:所謂聚類是指一組彼序列分析序列(Sequence)分析:序列分析主要用于分析數(shù)據(jù)倉庫中的某類與時間相關(guān)的數(shù)據(jù),搜索類似的序列或子序列,并挖掘時序模式、周期性、趨勢和偏離等。序列模式可以看成是一種特定的關(guān)聯(lián)模型,它在關(guān)聯(lián)模型中增加了時間屬性。例如:在所有購買了彩色電視機的人中,有60%的人再購買VCD產(chǎn)品
商業(yè)智能研討沙龍-上海站ITPUBChinaUnixIXPUB主辦序列分析序列(Sequence)分析:序列分析主要用于分析數(shù)偏差檢測偏差檢測(DeviationDetection):用于檢測并解釋數(shù)據(jù)分類的偏差,它有助于濾掉知識發(fā)現(xiàn)引擎所抽取的無關(guān)信息,也可濾掉那些不合適的數(shù)據(jù),同時可產(chǎn)生新的關(guān)注性事實。偏差包括很多有用的知識,如以下4類:分類中的反常實例;模式的例外;觀察結(jié)果對模型預測的偏差;量值隨時間的變化。
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦偏差檢測偏差檢測(DeviationDetection):模式相似性挖掘模式相似性挖掘:用于在時間數(shù)據(jù)庫或空間數(shù)據(jù)庫中搜索相似模式時,從所有對象中找出用戶定義范圍內(nèi)的對象;或找出所有元素對,元素對中兩者的距離小于用戶定義的距離范圍。模式相似性挖掘的方法有相似度測量法、遺傳算法等。
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦模式相似性挖掘模式相似性挖掘:用于在時間數(shù)據(jù)庫或空間數(shù)據(jù)庫中Web數(shù)據(jù)挖掘Web數(shù)據(jù)挖掘:萬維網(wǎng)是一個巨大的、分布廣泛的和全球性的信息服務中心,其中包含了豐富的超鏈接信息,為數(shù)據(jù)挖掘提供了豐富的資源。Web數(shù)據(jù)挖掘包括Web使用模式挖掘、Web結(jié)構(gòu)挖掘和Web內(nèi)容挖掘等。
商業(yè)智能研討沙龍-上海站
ITPUBChinaUnixIXPUB主辦Web數(shù)據(jù)挖掘Web數(shù)據(jù)挖掘:萬維網(wǎng)是一個巨大的、分布廣泛的分類與預測分類和預測是兩種重要的數(shù)據(jù)分析方法,在商業(yè)上的應用很多。分類和預測可以用于提取描述重要數(shù)據(jù)類型或預測未來的數(shù)據(jù)趨勢。
分類是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,既該類的內(nèi)涵描述。一般用規(guī)則或決策樹模式表示。該模式能把數(shù)據(jù)庫中的元組影射到給定類別中的某一個。
預測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并用此模型來預測未來數(shù)據(jù)的種類,特征不等。典型的方法是回歸分析,即利用大量的歷史數(shù)據(jù),以時間為變量建立線性或非線性回歸方程。分類的方法主要有:決策樹(C5或CART)、貝葉斯分類、基于遺傳算法分類預測的方法主要是回歸統(tǒng)計,包括:線性回歸、非線性回歸、多元回歸、泊松回歸、對數(shù)回歸等。分類也可以用來預測。神經(jīng)網(wǎng)絡方法預測既可用于連續(xù)數(shù)值,也可以用于離散數(shù)值。
常用的數(shù)據(jù)挖掘方法商業(yè)智能研討沙龍-上
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年地下室產(chǎn)權(quán)交易與資產(chǎn)評估合同3篇
- 二零二五年度倉儲租賃合同范本(含倉儲技術(shù)支持)3篇
- 二零二五年度企業(yè)環(huán)保責任擔保合同2篇
- 2024版產(chǎn)品工藝保密合作合同書版B版
- 2025短期勞務試用合同文本
- 2024年版股權(quán)回購保障合同版
- 2024版商鋪權(quán)屬變更協(xié)議樣本3篇
- 2024年蒸汽鍋爐安裝合作協(xié)議
- 二零二五年度個人創(chuàng)業(yè)貸款延期還款協(xié)議范本與創(chuàng)業(yè)扶持3篇
- 2025年度文化產(chǎn)業(yè)競業(yè)限制協(xié)議模板3篇
- GB/T 32545-2016鐵礦石產(chǎn)品等級的劃分
- 七年級下冊道德與法治復習資料
- 阿里云數(shù)字化轉(zhuǎn)型生態(tài)介紹課件
- 初中語文人教八年級上冊《誠信綜合實踐》PPT
- 奧齒泰-工具盒使用精講講解學習課件
- 最新MARSI-醫(yī)用黏膠相關(guān)皮膚損傷課件
- 工程開工報審表范本
- 航空小鎮(zhèn)主題樂園項目規(guī)劃設計方案
- 保潔冬季防滑防凍工作措施
- 少兒美術(shù)課件-《我的情緒小怪獸》
- 永續(xù)債計入權(quán)益的必備條件分析
評論
0/150
提交評論