版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第九章知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘數(shù)據(jù)挖掘工具M(jìn)SMiner
史忠植中科院計(jì)算所2022/11/101日期主要內(nèi)容研究背景MSMiner體系結(jié)構(gòu)元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)數(shù)據(jù)采掘集成工具2022/11/102日期典型的知識(shí)發(fā)現(xiàn)系統(tǒng)(3)SAS公司的SASEnterpriseMinerIBM公司的IntelligentMinerSolution公司的ClementineDataEngineDBMiner中科院計(jì)算技術(shù)研究所的MSMiner2022/11/103日期知識(shí)發(fā)現(xiàn)工具SAS(1)SAS公司的SASEnterpriseMiner是一種通用的數(shù)據(jù)挖掘工具。通過(guò)收集分析各種統(tǒng)計(jì)資料和客戶購(gòu)買模式,SASEnterpriseMiner可以幫助您發(fā)現(xiàn)業(yè)務(wù)的趨勢(shì),解釋已知的事實(shí),預(yù)測(cè)未來(lái)的結(jié)果,并識(shí)別出完成任務(wù)所需的關(guān)鍵因素,以實(shí)現(xiàn)增加收入、降低成本。2022/11/104日期知識(shí)發(fā)現(xiàn)工具SAS(2)SASEnterpriseMiner提供"抽樣-探索-轉(zhuǎn)換-建模-評(píng)估"(SEMMA)的處理流程。數(shù)據(jù)挖掘算法有:·聚類分析,SOM/KOHONEN神經(jīng)網(wǎng)絡(luò)分類算法·關(guān)聯(lián)模式/序列模式分析·多元回歸模型·決策樹模型(C45,CHAID,CART)·神經(jīng)網(wǎng)絡(luò)模型(MLP,RBF)
·SAS/STAT,SAS/ETS等模塊提供的統(tǒng)計(jì)分析模型和時(shí)間序列分析模型也可嵌入其中。2022/11/105日期知識(shí)發(fā)現(xiàn)工具IntelligentMiner
IBM公司的IntelligentMiner具有典型數(shù)據(jù)集自動(dòng)生成、關(guān)聯(lián)發(fā)現(xiàn)、序列規(guī)律發(fā)現(xiàn)、概念性分類和可視化顯示等功能。它可以自動(dòng)實(shí)現(xiàn)數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)發(fā)掘和結(jié)果顯示。若有必要,對(duì)結(jié)果數(shù)據(jù)集還可以重復(fù)這一過(guò)程,直至得到滿意結(jié)果為止。2022/11/106日期知識(shí)發(fā)現(xiàn)工具ClementineSolution公司的Clementine提供了一個(gè)可視化的快速建立模型的環(huán)境。它由數(shù)據(jù)獲?。―ataAccess)、探查(Investigate)、整理(Manipulation)、建模(Modeling)和報(bào)告(Reporting)等部分組成。都使用一些有效、易用的按鈕表示,用戶只需用鼠標(biāo)將這些組件連接起來(lái)建立一個(gè)數(shù)據(jù)流,可視化的界面使得數(shù)據(jù)挖掘更加直觀交互,從而可以將用戶的商業(yè)知識(shí)在每一步中更好的利用。2022/11/107日期數(shù)據(jù)挖掘工具:公用系統(tǒng)
MLC++MatlabBrute2022/11/108日期知識(shí)發(fā)現(xiàn)工具M(jìn)SMiner
中科院計(jì)算技術(shù)研究所智能信息處理開放實(shí)驗(yàn)室開發(fā)的MSMiner是一種多策略知識(shí)發(fā)現(xiàn)平臺(tái),能夠提供快捷有效的數(shù)據(jù)挖掘解決方案,提供多種知識(shí)發(fā)現(xiàn)方法。MSMiner具有下列特點(diǎn):
·提出了一種面向?qū)ο蟮脑獢?shù)據(jù)結(jié)構(gòu),·設(shè)計(jì)實(shí)現(xiàn)了一種簡(jiǎn)單但有效的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)·提出了一種面向?qū)ο蟮臄?shù)據(jù)挖掘任務(wù)模型·設(shè)計(jì)了一種可擴(kuò)展算法庫(kù)2022/11/109日期數(shù)據(jù)倉(cāng)庫(kù):特征面向主題集成性穩(wěn)定性隨時(shí)間變化2022/11/1010日期數(shù)據(jù)倉(cāng)庫(kù):OLAPMOLAPROLAP2022/11/1011日期數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)的結(jié)合數(shù)據(jù)倉(cāng)庫(kù)為數(shù)據(jù)挖掘提供經(jīng)良好處理的數(shù)據(jù)源數(shù)據(jù)挖掘?yàn)閿?shù)據(jù)倉(cāng)庫(kù)提供深層數(shù)據(jù)分析手段2022/11/1012日期MSMiner體系結(jié)構(gòu)設(shè)計(jì)目標(biāo):
提供快捷有效的數(shù)據(jù)挖掘解決方案。設(shè)計(jì)要求:開放性可擴(kuò)展性效率易用性2022/11/1013日期MSMiner體系結(jié)構(gòu)MSMiner體系結(jié)構(gòu)示意圖客戶端服務(wù)器端元數(shù)據(jù)模塊執(zhí)行數(shù)據(jù)采掘任務(wù)編輯數(shù)據(jù)采掘任務(wù)數(shù)據(jù)采掘集成工具數(shù)據(jù)抽取和集成主題組織OLAP可視化數(shù)據(jù)倉(cāng)庫(kù)管理器數(shù)據(jù)倉(cāng)庫(kù)OLEDBforODBC2022/11/1014日期元數(shù)據(jù)的內(nèi)容關(guān)于外部數(shù)據(jù)源的關(guān)于內(nèi)部數(shù)據(jù)的(包括數(shù)據(jù)庫(kù)、表、字段的信息)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的(包括事實(shí)表、維表、立方以及其它的中間表)關(guān)于用戶信息的數(shù)據(jù)采掘算法(包括算法的參數(shù)信息)關(guān)于采掘任務(wù)的(包括采掘步驟、每個(gè)步驟的所用的參數(shù))2022/11/1015日期元數(shù)據(jù):元數(shù)據(jù)庫(kù)2022/11/1016日期元數(shù)據(jù):元數(shù)據(jù)對(duì)象模型設(shè)計(jì)思路一致性完備性易維護(hù)性2022/11/1017日期元數(shù)據(jù)是層次的嵌套的封裝的互相聯(lián)系的——采用面向?qū)ο蟮姆椒?0多個(gè)類元數(shù)據(jù)的結(jié)構(gòu)2022/11/1018日期數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):結(jié)構(gòu)MSMiner數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)示意圖外部數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)數(shù)據(jù)抽取、清洗、聚集、轉(zhuǎn)換主題2主題1主題nOLAP及可視化工具數(shù)據(jù)采掘集成工具...2022/11/1019日期數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):數(shù)據(jù)抽取和集成數(shù)據(jù)的簡(jiǎn)單抽取和集成數(shù)據(jù)的復(fù)雜處理面向數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理2022/11/1020日期數(shù)據(jù)抽取和集成:MSETL
MSETL系統(tǒng)作為本實(shí)驗(yàn)室數(shù)據(jù)處理軟件系列的一個(gè)重要組成部分,主要完成從業(yè)務(wù)數(shù)據(jù)源到分析數(shù)據(jù)源的轉(zhuǎn)換功能。具體包括從異質(zhì)業(yè)務(wù)數(shù)據(jù)源中抽取需要的數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行多種預(yù)處理,把經(jīng)過(guò)處理后的數(shù)據(jù)裝載入指定數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)庫(kù)2022/11/1021日期數(shù)據(jù)抽取和集成:MSETL
用戶界面(ETL轉(zhuǎn)換函數(shù)和ETL任務(wù))邏輯處理元數(shù)據(jù)管理數(shù)據(jù)庫(kù)服務(wù)器2022/11/1022日期數(shù)據(jù)抽取和集成:MSETL
支持多種數(shù)據(jù)源和目的數(shù)據(jù)庫(kù)良好的可擴(kuò)充性高效率的調(diào)度執(zhí)行功能增量更新功能2022/11/1023日期數(shù)據(jù)抽取和集成:MSETL2022/11/1024日期數(shù)據(jù)抽取和集成:MSETL2022/11/1025日期數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):數(shù)據(jù)倉(cāng)庫(kù)建模產(chǎn)品號(hào)產(chǎn)品名稱產(chǎn)品目錄產(chǎn)品表訂單號(hào)訂貨日期訂貨表客戶號(hào)客戶名稱客戶地址客戶表產(chǎn)品號(hào)客戶號(hào)訂單號(hào)時(shí)間標(biāo)識(shí)地區(qū)名稱產(chǎn)品數(shù)量總價(jià)事實(shí)表時(shí)間標(biāo)識(shí)月季度年時(shí)間表地區(qū)名稱省別地區(qū)表星型模型2022/11/1026日期OLAPMOLAP,ROLAP,HOLAPOLAP的操作SliceDiceRollupDrilldownPivot
OLAP方案
對(duì)小規(guī)模數(shù)據(jù):ActiveXOCX
對(duì)大規(guī)模數(shù)據(jù):前臺(tái)工具+MSOLAPServer2022/11/1027日期數(shù)據(jù)立方2022/11/1028日期OLAPMOLAP,ROLAP,HOLAPOLAP的操作SliceDiceRollupDrilldownPivot
OLAP方案
對(duì)小規(guī)模數(shù)據(jù):ActiveXOCX
對(duì)大規(guī)模數(shù)據(jù):前臺(tái)工具+MSOLAPServer2022/11/1029日期數(shù)據(jù)立方2022/11/1030日期數(shù)據(jù)倉(cāng)庫(kù)平臺(tái):OLAP的實(shí)現(xiàn)2022/11/1031日期元數(shù)據(jù)的內(nèi)容關(guān)于外部數(shù)據(jù)源的關(guān)于內(nèi)部數(shù)據(jù)的(包括數(shù)據(jù)庫(kù)、表、字段的信息)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的(包括事實(shí)表、維表、立方以及其它的中間表)關(guān)于用戶信息的關(guān)于算法(包括算法的參數(shù)信息)關(guān)于采掘任務(wù)的(包括采掘步驟、每個(gè)步驟的所用的參數(shù))2022/11/1032日期數(shù)據(jù)挖掘集成工具:結(jié)構(gòu)數(shù)據(jù)挖掘集成工具結(jié)構(gòu)示意圖數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)任務(wù)編輯任務(wù)規(guī)劃和執(zhí)行算法庫(kù)算法管理元數(shù)據(jù)任務(wù)模型庫(kù)、算法描述2022/11/1033日期數(shù)據(jù)挖掘集成工具:數(shù)據(jù)挖掘任務(wù)模型Step1Step2Step4Step3Step5DMTask=(V,R)V={x|x∈StepObjects}R={<x,y>|P(x,y)∧x,y∈V}2022/11/1034日期數(shù)據(jù)挖掘集成工具:數(shù)據(jù)挖掘任務(wù)模型步驟對(duì)象BNF語(yǔ)法定義:<StepObject>::=<Attribute_List>;<Method_List><Attribute_List>::= [<Attribute>|<Attribute>;<Attribute_List>]<Attribute>::=<Name>,<Value><Method_List>::=[<Method>|<Method>;<Method_List>]<Method>::=<Name>,<Script><Name>::=[<char>|<string>]<Value>::=[<char>|<string>|<integer>|<float>]<Script>::=<DML_Sentence>*2022/11/1035日期數(shù)據(jù)挖掘集成工具:編輯任務(wù)模型任務(wù)向?qū)?022/11/1036日期數(shù)據(jù)挖掘集成工具:編輯任務(wù)模型任務(wù)編輯圖板2022/11/1037日期數(shù)據(jù)挖掘集成工具:處理任務(wù)模型人機(jī)界面主控模塊規(guī)劃器解釋器緩存函數(shù)庫(kù)黑板任務(wù)模型庫(kù)數(shù)據(jù)采掘任務(wù)處理引擎的結(jié)構(gòu)2022/11/1038日期數(shù)據(jù)挖掘集成工具:處理任務(wù)模型任務(wù)規(guī)劃和解釋執(zhí)行S1S3S2S4S5S1-S2-S3-S4-S52022/11/1039日期數(shù)據(jù)挖掘集成工具:DML語(yǔ)言DML函數(shù)人機(jī)交互和控制臺(tái)輸入/輸出數(shù)值計(jì)算字符串處理圖形、圖表展示文件操作數(shù)據(jù)庫(kù)訪問(wèn)網(wǎng)絡(luò)通訊對(duì)象訪問(wèn)消息處理和流程控制黑板操作外部功能調(diào)用其它輔助功能2022/11/1040日期數(shù)據(jù)挖掘集成工具:內(nèi)嵌決策樹SOM神經(jīng)網(wǎng)絡(luò)粗糙集關(guān)聯(lián)規(guī)則
2022/11/1041日期決策樹2022/11/1042日期知識(shí)約簡(jiǎn)知識(shí)約簡(jiǎn)——在保持知識(shí)庫(kù)的分類或決策能力不變的條件下,刪除其中不相關(guān)或不重要知識(shí)冗余知識(shí)——
資源的浪費(fèi);干擾人們作出正確而簡(jiǎn)潔的決策RoughSet——把那些無(wú)法確認(rèn)的個(gè)體都?xì)w屬于邊界線區(qū)域,而這種邊界線區(qū)域被定義為上近似集和下近似集之差集(Z.Pawlak)
知識(shí)約簡(jiǎn)是粗糙集的核心內(nèi)容之一
2022/11/1043日期RoughSet約簡(jiǎn)2022/11/1044日期數(shù)據(jù)挖掘集成工具:外聯(lián)BP神經(jīng)網(wǎng)絡(luò)統(tǒng)計(jì)分析模糊聚類超曲面分類SVM貝葉斯網(wǎng)絡(luò)基于范例推理(CBR)隱馬爾科夫模型(HMM)2022/11/1045日期BP用于預(yù)測(cè)2022/11/1046日期統(tǒng)計(jì)工具線性回歸模型
——一元線性回歸、多元線性回歸、逐步回歸
非線性回歸模型——二次曲線、三次曲線、指數(shù)曲線、冪指數(shù)曲線、生產(chǎn)函數(shù)等模型
確定型時(shí)間序列模型——指數(shù)平滑法、趨勢(shì)移動(dòng)平均法(水平趨勢(shì)、線性趨勢(shì)和二次曲線趨勢(shì))、成長(zhǎng)曲線模型(Compertz曲線、Logistic曲線和修正指數(shù)曲線)、季節(jié)指數(shù)法隨機(jī)型時(shí)間序列模型(自回歸-移動(dòng)平均模型ARMA)相關(guān)分析
2022/11/1047日期自回歸動(dòng)平均(ARMA)2022/11/1048日期模糊聚類基于傳遞閉包的模糊聚類
——計(jì)算模糊相似矩陣的傳遞閉包,
從而獲得傳遞閉包法的模糊聚類基于攝動(dòng)的模糊聚類
——參數(shù)系
相似矩陣的最優(yōu)模糊等價(jià)陣及其等價(jià)標(biāo)準(zhǔn)型獲得失真最小的模糊聚類2022/11/1049日期數(shù)據(jù)挖掘集成工具:可擴(kuò)展算法庫(kù)算法注冊(cè)2022/11/1050日期MSMiner的應(yīng)用:計(jì)算機(jī)選案決策樹選案執(zhí)行選案選案結(jié)果分析定義樣本模板訓(xùn)練樣本數(shù)據(jù)選案規(guī)則樣本數(shù)據(jù)表數(shù)據(jù)匯總表稅務(wù)稽查計(jì)算機(jī)選案系統(tǒng)功能結(jié)構(gòu)2022/11/1051日期MSMiner的應(yīng)用:計(jì)算機(jī)選案挖掘結(jié)果:2022/11/1052日期進(jìn)一步的工作與用戶合作開發(fā)應(yīng)用實(shí)例進(jìn)一步完善工作流完善和豐富數(shù)據(jù)挖掘算法庫(kù)算法評(píng)測(cè)功能。20
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 打鼓機(jī)產(chǎn)業(yè)運(yùn)行及前景預(yù)測(cè)報(bào)告
- 吸濕排汗運(yùn)動(dòng)褲產(chǎn)業(yè)規(guī)劃專項(xiàng)研究報(bào)告
- 蔬菜供應(yīng)鏈管理的挑戰(zhàn)與解決方案可行性研究報(bào)告
- 化妝包產(chǎn)業(yè)規(guī)劃專項(xiàng)研究報(bào)告
- 寵物項(xiàng)圈市場(chǎng)需求與消費(fèi)特點(diǎn)分析
- 多功能智能大廈設(shè)計(jì)方案
- 卸妝器具電市場(chǎng)發(fā)展預(yù)測(cè)和趨勢(shì)分析
- 失禁用吸收褲產(chǎn)業(yè)深度調(diào)研及未來(lái)發(fā)展現(xiàn)狀趨勢(shì)
- 家用芳香劑市場(chǎng)發(fā)展預(yù)測(cè)和趨勢(shì)分析
- 擋泥板產(chǎn)業(yè)運(yùn)行及前景預(yù)測(cè)報(bào)告
- 《聲音》(單元作業(yè)設(shè)計(jì))科學(xué)教科版四年級(jí)上冊(cè)
- 危險(xiǎn)廢物貯存場(chǎng)所建設(shè)方案及要求
- 型鋼橋梁拆除施工方案范本
- 學(xué)校保安服務(wù)質(zhì)量評(píng)價(jià)表
- 小學(xué)科學(xué)實(shí)驗(yàn)室儀器設(shè)備增補(bǔ)說(shuō)明
- 指導(dǎo)青年教師記錄表
- 08江山實(shí)習(xí)區(qū)域地質(zhì)調(diào)查報(bào)告
- 資格評(píng)審表(招投標(biāo)專用)
- 數(shù)獨(dú)題目100題2(可打印)12951
- (完整版)《工程倫理》歷年真題
- 骨盆骨折PPT完整版
評(píng)論
0/150
提交評(píng)論