




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘軟件和工具 數(shù)據(jù)挖掘是多學(xué)科知識(shí)的綜合,涵蓋了數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、可視化技術(shù)、信息科學(xué)、機(jī)器學(xué)習(xí)等多方面知識(shí)。 數(shù)據(jù)挖掘的重要作用已為人們了解,為了實(shí)現(xiàn)有效的數(shù)據(jù)挖掘,絕大多數(shù)用戶(hù)必須借助于合適的數(shù)據(jù)挖掘軟件,所以,數(shù)據(jù)挖掘軟件的研究是數(shù)據(jù)挖掘的一個(gè)重要研究方向。2022-4-13知識(shí)管理與數(shù)據(jù)分析實(shí)驗(yàn)室知識(shí)管理與數(shù)據(jù)分析實(shí)驗(yàn)室23代代次次特征特征DM算法支算法支持持集成性集成性分布計(jì)算分布計(jì)算數(shù)據(jù)模型數(shù)據(jù)模型可視化功能可視化功能1作為一個(gè)獨(dú)立的應(yīng)用和移動(dòng)數(shù)據(jù)/各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)合 獨(dú)立的系統(tǒng)單個(gè)機(jī)器 向量數(shù)據(jù)無(wú)2和數(shù)據(jù)庫(kù)以及數(shù)據(jù)倉(cāng)庫(kù)集成多個(gè)算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管
2、理系統(tǒng),包括數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)同質(zhì)、局部區(qū)域的計(jì)算機(jī)群集有些系統(tǒng)支持對(duì)象,文本和連續(xù)的媒體數(shù)據(jù) 基本圖表3和預(yù)測(cè)模型系統(tǒng)集成 多個(gè)算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計(jì)算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)較復(fù)雜多維圖形及動(dòng)畫(huà)4和移動(dòng)數(shù)據(jù)/各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)合多個(gè)算法數(shù)據(jù)管理、預(yù)言模型、移動(dòng)系統(tǒng)移動(dòng)和各種計(jì)算設(shè)備普遍存在的計(jì)算模型 交互式可視化挖掘流程設(shè)計(jì)和結(jié)果展示功能數(shù)據(jù)挖掘功能數(shù)據(jù)挖掘估計(jì)Estimation分類(lèi)Classification預(yù)測(cè)Prediction關(guān)聯(lián)規(guī)則Association Rules描述與可視化Description and Visualizati
3、on聚類(lèi)Cluster數(shù)據(jù)挖掘模型的分類(lèi) 數(shù)據(jù)描述和匯總(Data description and summarization) 細(xì)分(Segmentation) 概念描述(Concept descriptions) 分類(lèi)(Classification) 預(yù)測(cè)(Prediction) 相關(guān)分析(Dependency analysis)5數(shù)據(jù)挖掘技術(shù)的分類(lèi)6數(shù)據(jù)挖掘描述預(yù)測(cè)統(tǒng)計(jì)回歸關(guān)聯(lián)規(guī)則決策樹(shù)可視化聚類(lèi)順序關(guān)聯(lián)匯總神經(jīng)網(wǎng)絡(luò)分類(lèi)時(shí)間序列預(yù)測(cè)數(shù)據(jù)挖掘的典型結(jié)果金融 問(wèn)題描述:預(yù)測(cè)信用水平是好還是差,銀行據(jù)此決定是否向客戶(hù)發(fā)放貸款,發(fā)放多少 結(jié)果描述:(決策樹(shù))7收入大于5萬(wàn)元/年是否有無(wú)儲(chǔ)蓄帳戶(hù)是
4、否房主否是是否批準(zhǔn)不批準(zhǔn)批準(zhǔn)數(shù)據(jù)挖掘的典型結(jié)果電信 問(wèn)題描述:根據(jù)客戶(hù)信息,預(yù)測(cè)客戶(hù)流失可能性 結(jié)果描述:(神經(jīng)網(wǎng)絡(luò))8輸 入流失概率(0.87)輸 出男293000元/月套餐A130元/月數(shù)據(jù)挖掘的典型結(jié)果零售 問(wèn)題描述:如何決定超市中商品的擺放來(lái)增加銷(xiāo)售額 結(jié)果描述:(Web圖)9數(shù)據(jù)挖掘的典型結(jié)果制造業(yè) 問(wèn)題描述:如何對(duì)市場(chǎng)進(jìn)行細(xì)分,使產(chǎn)品滿(mǎn)足最有價(jià)值客戶(hù) 結(jié)果描述:(Koholen聚類(lèi))10數(shù)據(jù)挖掘的典型結(jié)果政府 問(wèn)題描述:如何從眾多申請(qǐng)經(jīng)費(fèi)或者納稅中發(fā)現(xiàn)欺詐 結(jié)果描述:(回歸、神經(jīng)網(wǎng)絡(luò))11Business Understanding 商業(yè)理解過(guò)程商業(yè)理解過(guò)程 理解商業(yè)目標(biāo) 熟悉業(yè)務(wù)
5、流程 統(tǒng)一業(yè)務(wù)術(shù)語(yǔ) 成本/收益分析 當(dāng)前系統(tǒng)評(píng)估 主要用戶(hù)使用者 結(jié)果的輸出形式 挖掘任務(wù)的結(jié)果和現(xiàn)有系統(tǒng)的集成 任務(wù)分解 挖掘目標(biāo)分解為子任務(wù) 將商業(yè)目標(biāo)轉(zhuǎn)化為數(shù)據(jù)挖掘任務(wù) 約束條件確認(rèn) 資源 數(shù)據(jù)保護(hù)制度等 制定項(xiàng)目計(jì)劃1商業(yè)目標(biāo)的確認(rèn)數(shù)據(jù)挖掘目標(biāo)的確定數(shù)據(jù)挖掘成功的標(biāo)準(zhǔn)Data Understanding 數(shù)據(jù)理解過(guò)程數(shù)據(jù)理解過(guò)程 數(shù)據(jù)源情況 數(shù)據(jù)處理范圍 數(shù)據(jù)源訪(fǎng)問(wèn)情況 數(shù)據(jù)描述 數(shù)據(jù)質(zhì)量描述 基本統(tǒng)計(jì)值/匯總值 數(shù)據(jù)探索 數(shù)據(jù)分布 相關(guān)性分析 缺失值處理 空值處理 奇異值處理2收集數(shù)據(jù)數(shù)據(jù)描述數(shù)據(jù)探索數(shù)據(jù)質(zhì)量檢查Data Preparation 數(shù)據(jù)準(zhǔn)備過(guò)程數(shù)據(jù)準(zhǔn)備過(guò)程 數(shù)據(jù)整合 多
6、個(gè)數(shù)據(jù)表的數(shù)據(jù)聯(lián)合 數(shù)據(jù)的匯總和聚合 數(shù)據(jù)選擇 記錄的選擇和排除 數(shù)據(jù)集合構(gòu)成:測(cè)試集,檢驗(yàn)集 數(shù)據(jù)轉(zhuǎn)換 函數(shù)轉(zhuǎn)換 標(biāo)準(zhǔn)化處理 離散化處理 數(shù)據(jù)清洗 數(shù)據(jù)缺失值處理 數(shù)據(jù)派生 新變量的生成3數(shù)據(jù)合并和清洗數(shù)據(jù)選擇數(shù)據(jù)轉(zhuǎn)換Modeling 數(shù)據(jù)建模過(guò)程數(shù)據(jù)建模過(guò)程 選擇合適的建模技術(shù) 數(shù)據(jù)預(yù)處理的情況 依賴(lài)于數(shù)據(jù)挖掘問(wèn)題類(lèi)型和輸出形式 構(gòu)建模型訓(xùn)練環(huán)境 訓(xùn)練樣本的構(gòu)建 模型建立 選擇初始化參數(shù)設(shè)置 模型估計(jì) 考慮過(guò)訓(xùn)練的情況 誤差分布的調(diào)查 模型參數(shù)修正及其原因4依據(jù)目標(biāo)選擇模型構(gòu)建模型訓(xùn)練環(huán)境模型建立和評(píng)估Evaluation 模型評(píng)估過(guò)程模型評(píng)估過(guò)程 模型評(píng)估 根據(jù)專(zhuān)家的知識(shí)和經(jīng)驗(yàn)進(jìn)行人工評(píng)
7、估 從商業(yè)角度來(lái)評(píng)價(jià)結(jié)果的有效性 定義參照對(duì)象 計(jì)算升益曲線(xiàn)(Lift Curve) 期望的投資回報(bào)率(ROI) 對(duì)整個(gè)數(shù)據(jù)挖掘過(guò)程進(jìn)行回顧 決定下一步驟 模型發(fā)布的時(shí)機(jī) 發(fā)布框架結(jié)構(gòu) 進(jìn)一步改進(jìn)模型5依據(jù)測(cè)試集模型評(píng)估不同模型的檢驗(yàn)標(biāo)準(zhǔn)技術(shù)標(biāo)準(zhǔn)和商業(yè)準(zhǔn)則Deployment 模型發(fā)布過(guò)程模型發(fā)布過(guò)程 數(shù)據(jù)挖掘結(jié)果的發(fā)布方式 模型的結(jié)果輸出到數(shù)據(jù)庫(kù) 形成簡(jiǎn)單的報(bào)表 結(jié)果轉(zhuǎn)化為可解釋的業(yè)務(wù)規(guī)則 在線(xiàn)實(shí)時(shí)地模型評(píng)分過(guò)程 數(shù)據(jù)的輸入輸出 與原有業(yè)務(wù)系統(tǒng)的集成 實(shí)時(shí)數(shù)據(jù)的來(lái)源和結(jié)果反饋 模型運(yùn)用的模式 實(shí)時(shí)處理 批處理 自動(dòng)化問(wèn)題(周期)6結(jié)果的發(fā)布方式數(shù)據(jù)挖掘結(jié)果的運(yùn)用數(shù)字到業(yè)務(wù)知識(shí)轉(zhuǎn)化Clemen
8、tine的軟件構(gòu)成 Clementine Client; Clementine Server; Clementine Batch; SPSS Data Access Pack; Clementine Solution Publisher (Optional)。18Clementine的兩種運(yùn)行方式單機(jī)版運(yùn)行單機(jī)版運(yùn)行以下情況必須使用單機(jī)版運(yùn)行:以下情況必須使用單機(jī)版運(yùn)行: 數(shù)據(jù)存儲(chǔ)在本機(jī),且不能在網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)在本機(jī),且不能在網(wǎng)絡(luò)上共享;上共享; 機(jī)器不聯(lián)網(wǎng);機(jī)器不聯(lián)網(wǎng); 無(wú)無(wú)Clementine Server可供使用。可供使用。以下情況可以使用單機(jī)版運(yùn)行:以下情況可以使用單機(jī)版運(yùn)行: 要處理的
9、數(shù)據(jù)量很?。ū热纾盒∫幚淼臄?shù)據(jù)量很小(比如:小于于2M)并且數(shù)據(jù)存儲(chǔ)在單機(jī)或可)并且數(shù)據(jù)存儲(chǔ)在單機(jī)或可到達(dá)局域網(wǎng)處;到達(dá)局域網(wǎng)處; 單機(jī)內(nèi)存、硬盤(pán)相對(duì)要處理的數(shù)單機(jī)內(nèi)存、硬盤(pán)相對(duì)要處理的數(shù)據(jù)量來(lái)說(shuō)足夠大,并且速度也滿(mǎn)據(jù)量來(lái)說(shuō)足夠大,并且速度也滿(mǎn)足要求。足要求。19C/S結(jié)構(gòu)運(yùn)行以下情況必須使用C/S結(jié)構(gòu)運(yùn)行: 單機(jī)內(nèi)存或者硬盤(pán)不夠大,難以運(yùn)行大量數(shù)據(jù); 單機(jī)上沒(méi)有或者無(wú)法配置數(shù)據(jù)連結(jié),無(wú)法從數(shù)據(jù)庫(kù)中獲取數(shù)據(jù); 組織規(guī)則不允許下載大量數(shù)據(jù)到單機(jī)。以下情況可以使用C/S結(jié)構(gòu)運(yùn)行: 要處理的數(shù)據(jù)量很大,并且存儲(chǔ)在可以通過(guò)SPSS Data Access技術(shù)可到達(dá)的數(shù)據(jù)庫(kù)處; 單機(jī)速度慢,Cleme
10、ntine Server運(yùn)行的機(jī)器配置高。Clementine的系統(tǒng)結(jié)構(gòu)20Clementine的三層結(jié)構(gòu):1、數(shù)據(jù)庫(kù)層;通過(guò)Clementine Server進(jìn)行調(diào)度,把那些可以通過(guò)SQL語(yǔ)句執(zhí)行的數(shù)據(jù)操作過(guò)程以SQL語(yǔ)句的形式導(dǎo)入數(shù)據(jù)庫(kù)并在其中進(jìn)行;2、服務(wù)器端;進(jìn)行調(diào)度,不能在數(shù)據(jù)庫(kù)層面進(jìn)行的操作在服務(wù)器端進(jìn)行(比如數(shù)據(jù)挖掘模型計(jì)算過(guò)程)3、客戶(hù)端。在三層結(jié)構(gòu)下通過(guò)Clementine Server進(jìn)行調(diào)度,由客戶(hù)端向服務(wù)器端發(fā)送數(shù)據(jù)挖掘指令,并接受和展示數(shù)據(jù)挖掘結(jié)果。Clementine Client和Clementine Server通過(guò)SDL(Stream Description
11、Language )之間進(jìn)行信息交換,Clementine Server和Database通過(guò)SQL語(yǔ)句進(jìn)行信息交換。Clementine運(yùn)行的兩種方式 圖形界面方式圖形界面方式 適用操作系統(tǒng)適用操作系統(tǒng) Windows系列系列 特點(diǎn):特點(diǎn): 圖形化界面圖形化界面 與客戶(hù)直接交互與客戶(hù)直接交互 適合交互式分析過(guò)程適合交互式分析過(guò)程21命令行方式使用操作系統(tǒng)Windows系列Unix系列特點(diǎn):命令行操作不能生成圖形,所有結(jié)果保存在文件里或者數(shù)據(jù)庫(kù)中適合于以下情況使用:運(yùn)行耗時(shí)較長(zhǎng)的建模過(guò)程希望在后臺(tái)運(yùn)行一些耗時(shí)較長(zhǎng)的數(shù)據(jù)準(zhǔn)備過(guò)程希望按照一定的時(shí)間定期運(yùn)行(比如每周、每月等)1. 希望把Cleme
12、ntine(數(shù)據(jù)挖掘過(guò)程)運(yùn)行過(guò)程嵌入應(yīng)用系統(tǒng)中Clementine的界面和設(shè)計(jì)思路 可視化界面可視化界面 四個(gè)區(qū)域分別是建模區(qū)、結(jié)點(diǎn)區(qū)、模型描述區(qū)、項(xiàng)目管理四個(gè)區(qū)域分別是建模區(qū)、結(jié)點(diǎn)區(qū)、模型描述區(qū)、項(xiàng)目管理區(qū)區(qū) 通過(guò)連接結(jié)點(diǎn)構(gòu)成數(shù)據(jù)流建立模型通過(guò)連接結(jié)點(diǎn)構(gòu)成數(shù)據(jù)流建立模型 ClementineClementine通過(guò)通過(guò)7 7類(lèi)結(jié)點(diǎn)的連接完成數(shù)據(jù)挖掘工作,它們類(lèi)結(jié)點(diǎn)的連接完成數(shù)據(jù)挖掘工作,它們是:是: Source(源結(jié)點(diǎn)):Database、Var. Files等 Record Ops (記錄處理結(jié)點(diǎn)):Select、Sample等 Field Ops(字段處理結(jié)點(diǎn)):Type、Filter等 Graphs(圖形結(jié)點(diǎn)):Plot、Distribute等 Modeling(模型結(jié)點(diǎn)):Neural Net、C5.0等 Output(輸出結(jié)點(diǎn)):Table、Matrix等22七大類(lèi)節(jié)點(diǎn) 按功能分為七大類(lèi)節(jié)點(diǎn) 數(shù)據(jù)源節(jié)點(diǎn) 記錄處理節(jié)點(diǎn) 變量處理節(jié)點(diǎn) 圖形節(jié)點(diǎn) 模型節(jié)點(diǎn) 輸出節(jié)點(diǎn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)生編織手工課件圖片
- 廠房建設(shè)項(xiàng)目施工、設(shè)備安裝及調(diào)試合同
- 財(cái)務(wù)合規(guī)審核勞動(dòng)合同
- 場(chǎng)監(jiān)督管理局行政執(zhí)法權(quán)委托執(zhí)行協(xié)議
- 電力與工業(yè)作業(yè)安全知識(shí)考核試卷及答案要點(diǎn)
- 2024-2025學(xué)年江蘇省宿遷市沭陽(yáng)縣高一下學(xué)期期中歷史試題及答案
- 養(yǎng)小雞教學(xué)課件
- 危險(xiǎn)化學(xué)品儲(chǔ)存環(huán)節(jié)事故統(tǒng)計(jì)分析考核試卷
- 農(nóng)藥制劑穩(wěn)定性與生物安全性研究考核試卷
- 人力資源市場(chǎng)調(diào)研與企業(yè)人才梯隊(duì)建設(shè)的關(guān)系考核試卷
- 湖北省八校聯(lián)考2024-2025學(xué)年高一下學(xué)期6月期末生物試卷(含答案)
- 人教版(2024)七年級(jí)下冊(cè)生物期末復(fù)習(xí)全冊(cè)考點(diǎn)背誦提綱
- 科研中試基地管理制度
- 2025年中國(guó)花生粕市場(chǎng)調(diào)查研究報(bào)告
- 直腸癌外科治療進(jìn)展講課件
- 幼托班員工管理制度
- 2025至2030中國(guó)密織防水透氣紡織品行業(yè)發(fā)展趨勢(shì)分析與未來(lái)投資戰(zhàn)略咨詢(xún)研究報(bào)告
- 2025年 政府專(zhuān)職消防員(文職)入職考試復(fù)習(xí)題庫(kù)(1000題)含答案
- 2025-2030年中國(guó)鍋爐水處理化學(xué)品行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 高中體育專(zhuān)項(xiàng)化教學(xué)對(duì)學(xué)生身心發(fā)展的促進(jìn)作用研究論文
- 道教考試試題及答案
評(píng)論
0/150
提交評(píng)論