




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、商務智能申貴成北京物資學院信息學院課程主要內(nèi)容數(shù)據(jù)挖掘和Clementine概述Clementine的數(shù)據(jù)讀入和數(shù)據(jù)集成Clementine的數(shù)據(jù)理解Clementine的數(shù)據(jù)準備Clementine的基本分析Clementine的數(shù)據(jù)精簡分類預測方法:決策樹分類預測方法:神經(jīng)網(wǎng)絡(luò)分類預測方法:支持向量機分類預測方法:貝葉斯網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu)分析:聚類數(shù)據(jù)結(jié)構(gòu)分析:關(guān)聯(lián)規(guī)則主要參考文獻薛薇,Clementine數(shù)據(jù)挖掘方法及應用,電子工業(yè)出版社SPSS Inc, Clementine 12.0 Node Reference, Integral Solutions Limited, 2007SPSS
2、Inc, Clementine 12.0 Algorithms Guide, Integral Solutions Limited, 2007SPSS Inc, Clementine 12.0 Applications Guide, Integral Solutions Limited, 2007參考文獻Ian H, Witten, Eibe Frank, DATA MINING: Practical Machine Learning Tools and Techniques, Second Edition, Morgan Kaufmann Publishers, Inc. 2005Mehme
3、d Kantardzic, DATA MINING: Concepts, Models, Methods, and Algorithms, IEEE Press, 2002David Hand, Principles of Data Mining, MIT Press,2001Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, Inc. 2001Thuraisingham, Bhavani M. Data mining: technologies, tec
4、hniques, tools and trends, CRC Press, 1999數(shù)據(jù)挖掘和Clementine綜述數(shù)據(jù)挖掘的產(chǎn)生背景什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘和數(shù)據(jù)庫中的知識發(fā)現(xiàn)數(shù)據(jù)挖掘方法論數(shù)據(jù)挖掘的任務和應用數(shù)據(jù)挖掘得到的知識形式數(shù)據(jù)挖掘算法的分類Clementine軟件概述數(shù)據(jù)挖掘產(chǎn)生的背景從數(shù)據(jù)分析看數(shù)據(jù)挖掘政治算術(shù)、概率論與數(shù)理統(tǒng)計、數(shù)據(jù)挖掘兩個主要原因催生數(shù)據(jù)挖掘海量數(shù)據(jù)的分析需求應用對理論的挑戰(zhàn)海量數(shù)據(jù)的分析需求微觀管理層面,以商業(yè)領(lǐng)域為例:美國某著名連鎖超市,數(shù)據(jù)庫中已積累了TB級以上的顧客購買行為數(shù)據(jù)和其他銷售數(shù)據(jù)?;ヂ?lián)網(wǎng)和電子商務的普及,網(wǎng)上商城、網(wǎng)上書店和營業(yè)廳積累的We
5、b點擊流存儲容量多達GB級。國內(nèi)的一些知名電子商務平臺,全國注冊用戶高達幾億,日交易量超過幾百萬筆,日交易數(shù)據(jù)量至兩位TB級海量數(shù)據(jù)的分析需求2011年,全球著名數(shù)據(jù)挖掘咨詢公司KDnuggets的調(diào)查顯示,被調(diào)查的148家公司中,大約35.4%公司處理和分析的最大數(shù)據(jù)量超過100GB,21.4%的超過1T,而這兩個指標2010年分別為32.2%和18.3%。海量數(shù)據(jù)的分析需求著名的數(shù)據(jù)倉庫專家Ralph Kimball:“我們花了二十多年的時間將數(shù)據(jù)放入數(shù)據(jù)庫,如今是該將它們拿出來的時候了。”數(shù)據(jù)倉庫行業(yè)最主要的開拓者海量數(shù)據(jù)的分析需求海量數(shù)據(jù)分析中的問題:“信息爆炸”、“數(shù)據(jù)多但知識少”輔
6、助決策的數(shù)據(jù)大多來自企業(yè)不同業(yè)務處理系統(tǒng)實施定量分析需要深厚的專業(yè)知識,更需要有效的分析工具數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的產(chǎn)生和發(fā)展,使得當今的計算機網(wǎng)絡(luò)應用體系從業(yè)務管理層逐步躍升到?jīng)Q策支持層應用對理論的挑戰(zhàn):數(shù)據(jù)倉庫數(shù)據(jù)庫與數(shù)據(jù)倉庫、人工智能與機器學習、統(tǒng)計學等理論的應用是數(shù)據(jù)挖掘誕生發(fā)展的理論基礎(chǔ)數(shù)據(jù)庫與數(shù)據(jù)倉庫“是否存在更有效的存儲模式實現(xiàn)高維海量數(shù)據(jù)的存儲管理?”“數(shù)據(jù)庫中的數(shù)據(jù)處理能力僅僅局限在簡單的查詢和匯總層面上嗎?”數(shù)據(jù)倉庫技術(shù)已成為一種有效的面向分析主題的數(shù)據(jù)整合、數(shù)據(jù)清洗和數(shù)據(jù)存儲管理集成工具大量基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘工具大行其道公司:Sql Server、IBM方法:OLAP、B
7、I應用對理論的挑戰(zhàn):人工智能人工智能和機器學習理論如何利用計算機模擬人腦的部分思維,如何利用計算機進行實際問題的求解和優(yōu)化等典型系統(tǒng):專家系統(tǒng):知識表示、100萬條常識博弈系統(tǒng):1997年,IBM“深藍”與國際象棋大師卡斯帕羅夫的比賽自然語言的理解:2011年,IBM“沃森”與人類選手在“危險邊緣”的比賽“這個被信賴的朋友是一種非奶制的奶末”情感理解困難應用對理論的挑戰(zhàn):統(tǒng)計學海量數(shù)據(jù)和數(shù)據(jù)類型多樣化帶來的挑戰(zhàn)例如:總體和樣本驗證驅(qū)動型分析和數(shù)據(jù)驅(qū)動型分析“干凈”數(shù)據(jù)和“臟”數(shù)據(jù)過去在統(tǒng)計應用視野之外的數(shù)據(jù)存儲和組織問題,與數(shù)據(jù)庫技術(shù)相結(jié)合什么是數(shù)據(jù)挖掘:概念數(shù)據(jù)挖掘和數(shù)據(jù)庫中的知識發(fā)現(xiàn)199
8、5年,在加拿大蒙特利爾召開第一屆知識發(fā)現(xiàn)KDD和數(shù)據(jù)挖掘DM國際學術(shù)會議什么是數(shù)據(jù)挖掘:理解數(shù)據(jù)挖掘是一個利用各種方法,從海量的有噪聲的凌亂數(shù)據(jù)中,提取隱含和潛在的,對決策有用的信息和模式的過程“海量”:樣本量龐大、樣本量不大但數(shù)據(jù)維度很高、樣本量龐大且數(shù)據(jù)維度很高特色:分布特征未知條件下的,高維非線性的,歸納型的分析方法信息:用于數(shù)據(jù)的分類預測模式:用于數(shù)據(jù)特征和關(guān)聯(lián)性的刻畫什么是數(shù)據(jù)挖掘:研究特點交叉學科數(shù)據(jù)挖掘方法論數(shù)據(jù)挖掘方法論是數(shù)據(jù)挖掘?qū)嵤┑目傮w指導方案CRISP-DM( Cross Industry Standard Process of Data Mining )業(yè)務理解數(shù)據(jù)理解
9、數(shù)據(jù)準備建立模型方案評估方案實施數(shù)據(jù)數(shù)據(jù)挖掘的任務數(shù)據(jù)總結(jié)分類和回歸聚類分析關(guān)聯(lián)分析數(shù)據(jù)挖掘得到的知識形式濃縮數(shù)據(jù):原始數(shù)據(jù)的精練統(tǒng)計報表銷售產(chǎn)品銷售地區(qū)1月 2月 3月 銷售時間(月)A產(chǎn)品B產(chǎn)品北京銷售額(萬元)數(shù)據(jù)挖掘得到的知識形式濃縮數(shù)據(jù):原始數(shù)據(jù)的精練數(shù)據(jù)挖掘得到的知識形式圖形數(shù)據(jù)挖掘得到的知識形式規(guī)則:一種邏輯表達形式IF(消費頻率=經(jīng)常)(消費頻率=偶爾)(收入水平=高收入中收入) THEN 打算購買數(shù)學模型數(shù)據(jù)挖掘的算法分類從算法分析數(shù)據(jù)的方式劃分假設(shè)檢驗型算法:自頂向下(Top-Down)型一般原理推出個別結(jié)論的驗證型演繹方法知識發(fā)現(xiàn)型算法:自底向上(Bottom-Up)型從
10、個別數(shù)據(jù)中歸納出一般性結(jié)論的歸納分析方法尿布和啤酒數(shù)據(jù)挖掘的算法分類從算法來自的學科類型劃分機器學習算法和統(tǒng)計學算法20世紀80年代中期,Leo Breiman等分類和回歸樹和機器學習專家J.Ross Quinlin的ID3算法機器學習的核心:通過對數(shù)據(jù)集n維屬性空間的搜索,找到數(shù)據(jù)屬性特征的恰當概括任務是通過對有限的系統(tǒng)輸入輸出分析,估計輸入輸出的相關(guān)性并進行分類預測,或揭示系統(tǒng)的內(nèi)在結(jié)構(gòu)特征數(shù)據(jù)挖掘的算法分類機器學習學習機的任務是從其所支持的函數(shù)集f(X,W)中,選擇一個一般化的與系統(tǒng)輸入和輸出關(guān)系最近似的函數(shù)f(X,w),并給出預測值y選擇近似函數(shù)的依據(jù)是損失函數(shù)L(e(y,f(X,w)
11、,是誤差函數(shù)e的函數(shù)輸入發(fā)生器學習機系統(tǒng)Xyy=f(X,w)數(shù)據(jù)挖掘的算法分類機器學習較多集中在模型搜索和參數(shù)優(yōu)化方面數(shù)據(jù)挖掘的算法分類從學習過程的類型劃分有指導的學習算法無指導的學習算法Clementine軟件概述Clementine(IBM SPSS Modeler)最早屬英國ISL(Integral Solutions Limited)公司的產(chǎn)品,后被SPSS公司收購2009年,SPSS被IBM公式收購,V14版自2000年以來,KDnuggets公司面向全球開展“最近12個月你使用的數(shù)據(jù)挖掘工具”的跟蹤調(diào)查,Clementine一直列居首位Clementine軟件概述Clementin
12、e的操作與數(shù)據(jù)分析的一般流程相吻合Clementine形象地將各個環(huán)節(jié)表示成若干個節(jié)點,將數(shù)據(jù)分析過程看作是數(shù)據(jù)在各個節(jié)點之間的流動,并通過圖形化的“數(shù)據(jù)流”方式,直觀表示整個數(shù)據(jù)挖掘操作使用Clementine的目標:建立數(shù)據(jù)流,即根據(jù)數(shù)據(jù)挖掘的實際需要,選擇節(jié)點,依次連接節(jié)點建立數(shù)據(jù)流,不斷修改和調(diào)整流中節(jié)點的參數(shù),執(zhí)行數(shù)據(jù)流,最終完成相應的數(shù)據(jù)挖掘任務Clementine軟件概述數(shù)據(jù)流的建立遵循數(shù)據(jù)挖掘方法論讀入數(shù)據(jù)瀏覽數(shù)據(jù)Source選項卡Output選項卡觀察單變量分布特點觀察多變量相關(guān)性Graphs選項卡Output選項卡評估數(shù)據(jù)質(zhì)量數(shù)據(jù)轉(zhuǎn)換和派生數(shù)據(jù)精簡Field Ops選項卡R
13、ecord Ops選項卡建立多個模型評價選擇模型Modeling選項卡建立數(shù)據(jù)源數(shù)據(jù)理解數(shù)據(jù)準備建立模型集成數(shù)據(jù)基本分析深入分析數(shù)據(jù)篩選Clementine的窗口Clementine的主要窗口數(shù)據(jù)流編輯區(qū)節(jié)點工具箱窗口流管理窗口Streams中,文件擴展名.strOutputs中,文件擴展名.couModels中,文件擴展名.gm項目管理窗口項目文件的擴展名.cpj數(shù)據(jù)流的基本管理數(shù)據(jù)流的基本管理:第一,選擇和管理節(jié)點第二,建立和調(diào)整節(jié)點間的連接第三,設(shè)置節(jié)點參數(shù)第四,執(zhí)行數(shù)據(jù)流緩沖節(jié)點和超節(jié)點緩沖節(jié)點:點具有數(shù)據(jù)緩沖的作用,即可在某個節(jié)點上建立一個數(shù)據(jù)緩沖區(qū),存放數(shù)據(jù)流執(zhí)行至此的中間結(jié)果,并
14、可保存到磁盤文件中建立緩沖節(jié)點保存緩沖區(qū)內(nèi)容清空緩沖區(qū)加載緩沖數(shù)據(jù)撤銷節(jié)點緩沖緩沖節(jié)點和超節(jié)點超節(jié)點:多個節(jié)點集成在一個節(jié)點,便于數(shù)據(jù)流的瀏覽和管理建立超節(jié)點查看超節(jié)點取消超節(jié)點Clementine使用示例案例數(shù)據(jù):藥物(Drug:Drug A、Drug B、Drug C、Drug X、Drug Y)、血壓(BP,High、Normal、Low)、膽固醇(Cholesterol,Normal、High)、唾液中鈉元素(Na)和鉀元素(K)含量,病人年齡(Age)、性別(Sex,M、F)Clementine使用示例第一,將數(shù)據(jù)到Clementine中第二,瀏覽數(shù)據(jù)內(nèi)容第三,觀察各個變量的數(shù)據(jù)分布
15、特征第四,觀察服用不同藥物的病人唾液中鈉元素和鉀元素的含量單純K含量較低的病人選用DrugY應比較理想第五,觀察服用不同藥物病人唾液中鈉元素和鉀元素的濃度比值Na/K比值高水平的病人,DrugY是理想選擇第六,不同血壓特征病人的藥物選擇第七,全面分析決定藥物選擇的其他影響因素第八,模型預測精度的評價案例數(shù)據(jù)以往有大批患有同種疾病的不同病人,服用五中藥物中的一種(Drug,分為drugA, drugB, DrugC, drugX,drugY)之后取得了同樣的效果血壓(BP, 分為高血壓High, 正常Normal,低血壓Low)膽固醇(Cholesterol,分為正常Normal和高膽固醇Hig
16、h)唾液中鈉元素(NA)和鉀元素(K)含量病人年齡(Age)性別(Sex, 包括男M和女F)導入數(shù)據(jù)選擇源選項卡中可變文件節(jié)點設(shè)置節(jié)點參數(shù),選擇drug.txt讀入瀏覽數(shù)據(jù),在輸出選項卡中選擇表節(jié)點,添加到數(shù)據(jù)流,執(zhí)行該節(jié)點觀察各個變量的數(shù)據(jù)分布特征,在輸出選項卡中選擇數(shù)據(jù)審核節(jié)點,添加到數(shù)據(jù)流中,執(zhí)行該節(jié)點觀察服用不同藥物的病人唾液中吶元素和鉀元素的含量輸入數(shù)據(jù)顯示數(shù)據(jù)觀察數(shù)據(jù)分布特征觀察數(shù)據(jù)分布特征觀察Na和鉀元素觀察Na和鉀元素觀察結(jié)果用DrugY的病人比較多可以看到用DrugY的人主要集中在下面有一個明確的分界線這個分界線幾乎就是直線觀察服用不同藥物的病人兔爺中鈉元素和鉀元素的濃度比值
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 貼墻布合同范本
- 箱式變壓器租賃合同范本
- 樣板間設(shè)計合同范本
- 管理軟件系統(tǒng)項目合作協(xié)議書范本
- 校企合作實踐教學基地協(xié)議書范本
- 第三單元第15課《Python的圖形界面設(shè)計》教學設(shè)計 2023-2024學年浙教版(2020)初中信息技術(shù)八年級上冊
- 醫(yī)療設(shè)備購銷合同
- 酒店員工勞動合同
- 電視機銷售協(xié)議
- 找次品(教學設(shè)計)-2023-2024學年五年級下冊數(shù)學人教版
- GB/T 15934-2008電器附件電線組件和互連電線組件
- GB/T 13277.4-2015壓縮空氣第4部分:固體顆粒測量方法
- 人教版八年級下冊歷史全冊教案完整版教學設(shè)計含教學反思
- 提高白云石配比對燒結(jié)生產(chǎn)的影響
- 《城市軌道交通應急處理》課件-《城市軌道交通應急處理》項目一
- 公安基礎(chǔ)知識考試題庫(含各題型)
- 2023年云上貴州大數(shù)據(jù)(集團)有限公司招聘筆試題庫及答案解析
- 選礦試車方案
- 自來水用水證明
- 小課題專題研究參考題目
- 《最好的未來》合唱曲譜
評論
0/150
提交評論