aai知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘高級(jí)人工智能史忠植(共56張PPT)_第1頁(yè)
aai知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘高級(jí)人工智能史忠植(共56張PPT)_第2頁(yè)
aai知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘高級(jí)人工智能史忠植(共56張PPT)_第3頁(yè)
aai知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘高級(jí)人工智能史忠植(共56張PPT)_第4頁(yè)
aai知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘高級(jí)人工智能史忠植(共56張PPT)_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第九章知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘數(shù)據(jù)挖掘工具M(jìn)SMiner

史忠植中科院計(jì)算所2022/11/101日期主要內(nèi)容研究背景MSMiner體系結(jié)構(gòu)元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)數(shù)據(jù)采掘集成工具2022/11/102日期典型的知識(shí)發(fā)現(xiàn)系統(tǒng)(3)SAS公司的SASEnterpriseMinerIBM公司的IntelligentMinerSolution公司的ClementineDataEngineDBMiner中科院計(jì)算技術(shù)研究所的MSMiner2022/11/103日期知識(shí)發(fā)現(xiàn)工具SAS(1)SAS公司的SASEnterpriseMiner是一種通用的數(shù)據(jù)挖掘工具。通過(guò)收集分析各種統(tǒng)計(jì)資料和客戶購(gòu)買模式,SASEnterpriseMiner可以幫助您發(fā)現(xiàn)業(yè)務(wù)的趨勢(shì),解釋已知的事實(shí),預(yù)測(cè)未來(lái)的結(jié)果,并識(shí)別出完成任務(wù)所需的關(guān)鍵因素,以實(shí)現(xiàn)增加收入、降低成本。2022/11/104日期知識(shí)發(fā)現(xiàn)工具SAS(2)SASEnterpriseMiner提供"抽樣-探索-轉(zhuǎn)換-建模-評(píng)估"(SEMMA)的處理流程。數(shù)據(jù)挖掘算法有:·聚類分析,SOM/KOHONEN神經(jīng)網(wǎng)絡(luò)分類算法·關(guān)聯(lián)模式/序列模式分析·多元回歸模型·決策樹模型(C45,CHAID,CART)·神經(jīng)網(wǎng)絡(luò)模型(MLP,RBF)

·SAS/STAT,SAS/ETS等模塊提供的統(tǒng)計(jì)分析模型和時(shí)間序列分析模型也可嵌入其中。2022/11/105日期知識(shí)發(fā)現(xiàn)工具IntelligentMiner

IBM公司的IntelligentMiner具有典型數(shù)據(jù)集自動(dòng)生成、關(guān)聯(lián)發(fā)現(xiàn)、序列規(guī)律發(fā)現(xiàn)、概念性分類和可視化顯示等功能。它可以自動(dòng)實(shí)現(xiàn)數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)發(fā)掘和結(jié)果顯示。若有必要,對(duì)結(jié)果數(shù)據(jù)集還可以重復(fù)這一過(guò)程,直至得到滿意結(jié)果為止。2022/11/106日期知識(shí)發(fā)現(xiàn)工具ClementineSolution公司的Clementine提供了一個(gè)可視化的快速建立模型的環(huán)境。它由數(shù)據(jù)獲?。―ataAccess)、探查(Investigate)、整理(Manipulation)、建模(Modeling)和報(bào)告(Reporting)等部分組成。都使用一些有效、易用的按鈕表示,用戶只需用鼠標(biāo)將這些組件連接起來(lái)建立一個(gè)數(shù)據(jù)流,可視化的界面使得數(shù)據(jù)挖掘更加直觀交互,從而可以將用戶的商業(yè)知識(shí)在每一步中更好的利用。2022/11/107日期數(shù)據(jù)挖掘工具:公用系統(tǒng)

MLC++MatlabBrute2022/11/108日期知識(shí)發(fā)現(xiàn)工具M(jìn)SMiner

中科院計(jì)算技術(shù)研究所智能信息處理開放實(shí)驗(yàn)室開發(fā)的MSMiner是一種多策略知識(shí)發(fā)現(xiàn)平臺(tái),能夠提供快捷有效的數(shù)據(jù)挖掘解決方案,提供多種知識(shí)發(fā)現(xiàn)方法。MSMiner具有下列特點(diǎn):

·提出了一種面向?qū)ο蟮脑獢?shù)據(jù)結(jié)構(gòu),·設(shè)計(jì)實(shí)現(xiàn)了一種簡(jiǎn)單但有效的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)·提出了一種面向?qū)ο蟮臄?shù)據(jù)挖掘任務(wù)模型·設(shè)計(jì)了一種可擴(kuò)展算法庫(kù)2022/11/109日期數(shù)據(jù)倉(cāng)庫(kù):特征面向主題集成性穩(wěn)定性隨時(shí)間變化2022/11/1010日期數(shù)據(jù)倉(cāng)庫(kù):OLAPMOLAPROLAP2022/11/1011日期數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)的結(jié)合數(shù)據(jù)倉(cāng)庫(kù)為數(shù)據(jù)挖掘提供經(jīng)良好處理的數(shù)據(jù)源數(shù)據(jù)挖掘?yàn)閿?shù)據(jù)倉(cāng)庫(kù)提供深層數(shù)據(jù)分析手段2022/11/1012日期MSMiner體系結(jié)構(gòu)設(shè)計(jì)目標(biāo):

提供快捷有效的數(shù)據(jù)挖掘解決方案。設(shè)計(jì)要求:開放性可擴(kuò)展性效率易用性2022/11/1013日期MSMiner體系結(jié)構(gòu)MSMiner體系結(jié)構(gòu)示意圖客戶端服務(wù)器端元數(shù)據(jù)模塊執(zhí)行數(shù)據(jù)采掘任務(wù)編輯數(shù)據(jù)采掘任務(wù)數(shù)據(jù)采掘集成工具數(shù)據(jù)抽取和集成主題組織OLAP可視化數(shù)據(jù)倉(cāng)庫(kù)管理器數(shù)據(jù)倉(cāng)庫(kù)OLEDBforODBC2022/11/1014日期元數(shù)據(jù)的內(nèi)容關(guān)于外部數(shù)據(jù)源的關(guān)于內(nèi)部數(shù)據(jù)的(包括數(shù)據(jù)庫(kù)、表、字段的信息)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的(包括事實(shí)表、維表、立方以及其它的中間表)關(guān)于用戶信息的數(shù)據(jù)采掘算法(包括算法的參數(shù)信息)關(guān)于采掘任務(wù)的(包括采掘步驟、每個(gè)步驟的所用的參數(shù))2022/11/1015日期元數(shù)據(jù):元數(shù)據(jù)庫(kù)2022/11/1016日期元數(shù)據(jù):元數(shù)據(jù)對(duì)象模型設(shè)計(jì)思路一致性完備性易維護(hù)性2022/11/1017日期元數(shù)據(jù)是層次的嵌套的封裝的互相聯(lián)系的——采用面向?qū)ο蟮姆椒?0多個(gè)類元數(shù)據(jù)的結(jié)構(gòu)2022/11/1018日期數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):結(jié)構(gòu)MSMiner數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)示意圖外部數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)數(shù)據(jù)抽取、清洗、聚集、轉(zhuǎn)換主題2主題1主題nOLAP及可視化工具數(shù)據(jù)采掘集成工具...2022/11/1019日期數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):數(shù)據(jù)抽取和集成數(shù)據(jù)的簡(jiǎn)單抽取和集成數(shù)據(jù)的復(fù)雜處理面向數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理2022/11/1020日期數(shù)據(jù)抽取和集成:MSETL

MSETL系統(tǒng)作為本實(shí)驗(yàn)室數(shù)據(jù)處理軟件系列的一個(gè)重要組成部分,主要完成從業(yè)務(wù)數(shù)據(jù)源到分析數(shù)據(jù)源的轉(zhuǎn)換功能。具體包括從異質(zhì)業(yè)務(wù)數(shù)據(jù)源中抽取需要的數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行多種預(yù)處理,把經(jīng)過(guò)處理后的數(shù)據(jù)裝載入指定數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)庫(kù)2022/11/1021日期數(shù)據(jù)抽取和集成:MSETL

用戶界面(ETL轉(zhuǎn)換函數(shù)和ETL任務(wù))邏輯處理元數(shù)據(jù)管理數(shù)據(jù)庫(kù)服務(wù)器2022/11/1022日期數(shù)據(jù)抽取和集成:MSETL

支持多種數(shù)據(jù)源和目的數(shù)據(jù)庫(kù)良好的可擴(kuò)充性高效率的調(diào)度執(zhí)行功能增量更新功能2022/11/1023日期數(shù)據(jù)抽取和集成:MSETL2022/11/1024日期數(shù)據(jù)抽取和集成:MSETL2022/11/1025日期數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):數(shù)據(jù)倉(cāng)庫(kù)建模產(chǎn)品號(hào)產(chǎn)品名稱產(chǎn)品目錄產(chǎn)品表訂單號(hào)訂貨日期訂貨表客戶號(hào)客戶名稱客戶地址客戶表產(chǎn)品號(hào)客戶號(hào)訂單號(hào)時(shí)間標(biāo)識(shí)地區(qū)名稱產(chǎn)品數(shù)量總價(jià)事實(shí)表時(shí)間標(biāo)識(shí)月季度年時(shí)間表地區(qū)名稱省別地區(qū)表星型模型2022/11/1026日期OLAPMOLAP,ROLAP,HOLAPOLAP的操作SliceDiceRollupDrilldownPivot

OLAP方案

對(duì)小規(guī)模數(shù)據(jù):ActiveXOCX

對(duì)大規(guī)模數(shù)據(jù):前臺(tái)工具+MSOLAPServer2022/11/1027日期數(shù)據(jù)立方2022/11/1028日期OLAPMOLAP,ROLAP,HOLAPOLAP的操作SliceDiceRollupDrilldownPivot

OLAP方案

對(duì)小規(guī)模數(shù)據(jù):ActiveXOCX

對(duì)大規(guī)模數(shù)據(jù):前臺(tái)工具+MSOLAPServer2022/11/1029日期數(shù)據(jù)立方2022/11/1030日期數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):OLAP的實(shí)現(xiàn)2022/11/1031日期元數(shù)據(jù)的內(nèi)容關(guān)于外部數(shù)據(jù)源的關(guān)于內(nèi)部數(shù)據(jù)的(包括數(shù)據(jù)庫(kù)、表、字段的信息)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的(包括事實(shí)表、維表、立方以及其它的中間表)關(guān)于用戶信息的關(guān)于算法(包括算法的參數(shù)信息)關(guān)于采掘任務(wù)的(包括采掘步驟、每個(gè)步驟的所用的參數(shù))2022/11/1032日期數(shù)據(jù)挖掘集成工具:結(jié)構(gòu)數(shù)據(jù)挖掘集成工具結(jié)構(gòu)示意圖數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)任務(wù)編輯任務(wù)規(guī)劃和執(zhí)行算法庫(kù)算法管理元數(shù)據(jù)任務(wù)模型庫(kù)、算法描述2022/11/1033日期數(shù)據(jù)挖掘集成工具:數(shù)據(jù)挖掘任務(wù)模型Step1Step2Step4Step3Step5DMTask=(V,R)V={x|x∈StepObjects}R={<x,y>|P(x,y)∧x,y∈V}2022/11/1034日期數(shù)據(jù)挖掘集成工具:數(shù)據(jù)挖掘任務(wù)模型步驟對(duì)象BNF語(yǔ)法定義:<StepObject>::=<Attribute_List>;<Method_List><Attribute_List>::= [<Attribute>|<Attribute>;<Attribute_List>]<Attribute>::=<Name>,<Value><Method_List>::=[<Method>|<Method>;<Method_List>]<Method>::=<Name>,<Script><Name>::=[<char>|<string>]<Value>::=[<char>|<string>|<integer>|<float>]<Script>::=<DML_Sentence>*2022/11/1035日期數(shù)據(jù)挖掘集成工具:編輯任務(wù)模型任務(wù)向?qū)?022/11/1036日期數(shù)據(jù)挖掘集成工具:編輯任務(wù)模型任務(wù)編輯圖板2022/11/1037日期數(shù)據(jù)挖掘集成工具:處理任務(wù)模型人機(jī)界面主控模塊規(guī)劃器解釋器緩存函數(shù)庫(kù)黑板任務(wù)模型庫(kù)數(shù)據(jù)采掘任務(wù)處理引擎的結(jié)構(gòu)2022/11/1038日期數(shù)據(jù)挖掘集成工具:處理任務(wù)模型任務(wù)規(guī)劃和解釋執(zhí)行S1S3S2S4S5S1-S2-S3-S4-S52022/11/1039日期數(shù)據(jù)挖掘集成工具:DML語(yǔ)言DML函數(shù)人機(jī)交互和控制臺(tái)輸入/輸出數(shù)值計(jì)算字符串處理圖形、圖表展示文件操作數(shù)據(jù)庫(kù)訪問(wèn)網(wǎng)絡(luò)通訊對(duì)象訪問(wèn)消息處理和流程控制黑板操作外部功能調(diào)用其它輔助功能2022/11/1040日期數(shù)據(jù)挖掘集成工具:內(nèi)嵌決策樹SOM神經(jīng)網(wǎng)絡(luò)粗糙集關(guān)聯(lián)規(guī)則

2022/11/1041日期決策樹2022/11/1042日期知識(shí)約簡(jiǎn)知識(shí)約簡(jiǎn)——在保持知識(shí)庫(kù)的分類或決策能力不變的條件下,刪除其中不相關(guān)或不重要知識(shí)冗余知識(shí)——

資源的浪費(fèi);干擾人們作出正確而簡(jiǎn)潔的決策RoughSet——把那些無(wú)法確認(rèn)的個(gè)體都?xì)w屬于邊界線區(qū)域,而這種邊界線區(qū)域被定義為上近似集和下近似集之差集(Z.Pawlak)

知識(shí)約簡(jiǎn)是粗糙集的核心內(nèi)容之一

2022/11/1043日期RoughSet約簡(jiǎn)2022/11/1044日期數(shù)據(jù)挖掘集成工具:外聯(lián)BP神經(jīng)網(wǎng)絡(luò)統(tǒng)計(jì)分析模糊聚類超曲面分類SVM貝葉斯網(wǎng)絡(luò)基于范例推理(CBR)隱馬爾科夫模型(HMM)2022/11/1045日期BP用于預(yù)測(cè)2022/11/1046日期統(tǒng)計(jì)工具線性回歸模型

——一元線性回歸、多元線性回歸、逐步回歸

非線性回歸模型——二次曲線、三次曲線、指數(shù)曲線、冪指數(shù)曲線、生產(chǎn)函數(shù)等模型

確定型時(shí)間序列模型——指數(shù)平滑法、趨勢(shì)移動(dòng)平均法(水平趨勢(shì)、線性趨勢(shì)和二次曲線趨勢(shì))、成長(zhǎng)曲線模型(Compertz曲線、Logistic曲線和修正指數(shù)曲線)、季節(jié)指數(shù)法隨機(jī)型時(shí)間序列模型(自回歸-移動(dòng)平均模型ARMA)相關(guān)分析

2022/11/1047日期自回歸動(dòng)平均(ARMA)2022/11/1048日期模糊聚類基于傳遞閉包的模糊聚類

——計(jì)算模糊相似矩陣的傳遞閉包,

從而獲得傳遞閉包法的模糊聚類基于攝動(dòng)的模糊聚類

——參數(shù)系

相似矩陣的最優(yōu)模糊等價(jià)陣及其等價(jià)標(biāo)準(zhǔn)型獲得失真最小的模糊聚類2022/11/1049日期數(shù)據(jù)挖掘集成工具:可擴(kuò)展算法庫(kù)算法注冊(cè)2022/11/1050日期MSMiner的應(yīng)用:計(jì)算機(jī)選案決策樹選案執(zhí)行選案選案結(jié)果分析定義樣本模板訓(xùn)練樣本數(shù)據(jù)選案規(guī)則樣本數(shù)據(jù)表數(shù)據(jù)匯總表稅務(wù)稽查計(jì)算機(jī)選案系統(tǒng)功能結(jié)構(gòu)2022/11/1051日期MSMiner的應(yīng)用:計(jì)算機(jī)選案挖掘結(jié)果:2022/11/1052日期進(jìn)一步的工作與用戶合作開發(fā)應(yīng)用實(shí)例進(jìn)一步完善工作流完善和豐富數(shù)據(jù)挖掘算法庫(kù)算法評(píng)測(cè)功能。20

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論