管理信息系統(tǒng)第五版黃梯云第17章_數(shù)據(jù)挖掘技術(shù)概論_第1頁
管理信息系統(tǒng)第五版黃梯云第17章_數(shù)據(jù)挖掘技術(shù)概論_第2頁
管理信息系統(tǒng)第五版黃梯云第17章_數(shù)據(jù)挖掘技術(shù)概論_第3頁
管理信息系統(tǒng)第五版黃梯云第17章_數(shù)據(jù)挖掘技術(shù)概論_第4頁
管理信息系統(tǒng)第五版黃梯云第17章_數(shù)據(jù)挖掘技術(shù)概論_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第十七章 數(shù)據(jù)挖掘技術(shù)概論 本 章 內(nèi) 容第一節(jié) 數(shù)據(jù)挖掘的概念第二節(jié) 數(shù)據(jù)挖掘的功能及主要應用第三節(jié) 數(shù)據(jù)挖掘的過程第四節(jié) 數(shù)據(jù)挖掘的常用方法第五節(jié) 數(shù)據(jù)挖掘技術(shù)的發(fā)展趨勢2022-4-29第十七章 數(shù)據(jù)挖掘技術(shù)概論2大數(shù)據(jù)時代大數(shù)據(jù)時代大數(shù)據(jù)(4V理論):規(guī)模性(Volume)1多樣性(Variety)2高速性(Velocity)3真實性(Veracity)42022-4-29第十七章 數(shù)據(jù)挖掘技術(shù)概論3關(guān)于大數(shù)據(jù)關(guān)于大數(shù)據(jù)信息技術(shù)進步的自然產(chǎn)物:數(shù)據(jù)挖掘信息爆炸數(shù)據(jù)過剩數(shù)據(jù)多,信息或知識少2022-4-29第十七章 數(shù)據(jù)挖掘技術(shù)概論41.11.1數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘就是從

2、大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘的含義數(shù)據(jù)源必須是真實的、大量的、多數(shù)是含有噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、易理解、可運用;所有發(fā)現(xiàn)的知識都是相對的,是有特定前提和約束條件、面向特定領(lǐng)域的;2022-4-29第十七章 數(shù)據(jù)挖掘技術(shù)概論5 本 章 內(nèi) 容第一節(jié) 數(shù)據(jù)挖掘的概念第二節(jié) 數(shù)據(jù)挖掘的功能及主要應用第三節(jié) 數(shù)據(jù)挖掘的過程第四節(jié) 數(shù)據(jù)挖掘的常用方法第五節(jié) 數(shù)據(jù)挖掘技術(shù)的發(fā)展趨勢2022-4-29第十七章 數(shù)據(jù)挖掘技術(shù)概論62.12.1數(shù)據(jù)挖掘的功能數(shù)據(jù)挖掘的功能 數(shù)據(jù)特征化

3、目的是對數(shù)據(jù)進行更高層次的抽象,給出它的總體綜合描述1.數(shù)據(jù)特征化 簡單關(guān)聯(lián)、時序關(guān)聯(lián)2.關(guān)聯(lián)分析 分析數(shù)據(jù)的各種屬性,并找出數(shù)據(jù)的屬性模型,確定哪些數(shù)據(jù)屬于哪些類3.分類與預測 按照某種相似程度度量方法(通常是測算距離),將數(shù)據(jù)分成一系列有意義的簇4.聚類分析 對離群點數(shù)據(jù)的分析處理5.離群點分析 對那些隨時間變化的數(shù)據(jù)對象的變化規(guī)律和趨勢進行建模描述6.演化分析2022-4-29第十七章 數(shù)據(jù)挖掘技術(shù)概論72.2 2.2 數(shù)據(jù)挖掘的應用領(lǐng)域數(shù)據(jù)挖掘的應用領(lǐng)域1. 商業(yè)領(lǐng)域 對商業(yè)數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性知識,尤其是在如:電信、電力

4、、銀行、保險、零售等典型的商業(yè)領(lǐng)域2. 科學與工程研究領(lǐng)域制造業(yè)實現(xiàn)零部件故障診斷、資源優(yōu)化、生產(chǎn)過程分析犯罪調(diào)查案件調(diào)查、詐騙監(jiān)測、洗錢認證、犯罪組織分析生物學領(lǐng)域?qū)崿F(xiàn)DNA序列相似搜索和比對,基因組特征及基因序列分析3. 網(wǎng)絡數(shù)據(jù)分析領(lǐng)域 可以分析出有哪些外部環(huán)境信息和內(nèi)部經(jīng)營信息會對企業(yè)產(chǎn)生重大或潛在重大的影響; 可以歸納、推理出個人用戶的使用偏好,預測個人的未來行為2022-4-29第十七章 數(shù)據(jù)挖掘技術(shù)概論8 本 章 內(nèi) 容第一節(jié) 數(shù)據(jù)挖掘的概念第二節(jié) 數(shù)據(jù)挖掘的功能及主要應用第三節(jié) 數(shù)據(jù)挖掘的過程第四節(jié) 數(shù)據(jù)挖掘的常用方法第五節(jié) 數(shù)據(jù)挖掘技術(shù)的發(fā)展趨勢2022-4-29第十七章 數(shù)

5、據(jù)挖掘技術(shù)概論93.13.1數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘的過程 消除數(shù)據(jù)噪聲和與挖掘主題無關(guān)的數(shù)據(jù);對數(shù)據(jù)做簡單的泛化處理數(shù)據(jù)清理 將來自于各個不同數(shù)據(jù)源的數(shù)據(jù)集成到一起數(shù)據(jù)集成 從大量的基礎(chǔ)數(shù)據(jù)中選擇與挖掘任務相關(guān)的數(shù)據(jù)數(shù)據(jù)選擇 通過匯總或聚集操作,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式數(shù)據(jù)轉(zhuǎn)換 KDD中最核心的一個步驟,其作用就是根據(jù)數(shù)據(jù)挖掘任務,利用各種數(shù)據(jù)挖掘方法對數(shù)據(jù)進行深入分析數(shù)據(jù)挖掘 根據(jù)一定的評估標準,從挖掘結(jié)果篩選出有意義的模式知識模式評估 采用可視化和知識表示技術(shù),向用戶提供和展示挖掘的知識知識展示2022-4-29第十七章 數(shù)據(jù)挖掘技術(shù)概論10 本 章 內(nèi) 容第一節(jié) 數(shù)據(jù)挖掘的概念第

6、二節(jié) 數(shù)據(jù)挖掘的功能及主要應用第三節(jié) 數(shù)據(jù)挖掘的過程第四節(jié) 數(shù)據(jù)挖掘的常用方法第五節(jié) 數(shù)據(jù)挖掘技術(shù)的發(fā)展趨勢2022-4-29第十七章 數(shù)據(jù)挖掘技術(shù)概論114.1 4.1 數(shù)據(jù)挖掘的常用方法數(shù)據(jù)挖掘的常用方法從大的方面來講,機器學習和數(shù)理統(tǒng)計等是數(shù)據(jù)挖掘主要依據(jù)的方法。 統(tǒng)計方法應用于數(shù)據(jù)挖掘主要是進行數(shù)據(jù)評估; 機器學習作為人工智能的一個重要分支,它通過學習訓練數(shù)據(jù)集,發(fā)現(xiàn)模型的參數(shù),并找出數(shù)據(jù)中隱含的規(guī)則。1.聯(lián)機分析處理(Online Analytical Processing,OLAP) OLAP是由數(shù)據(jù)倉庫提供一種重要的數(shù)據(jù)分析工具,主要通過多維的方式來對各種粒度數(shù)據(jù)進行分析、查詢和

7、報表。 主要的操作包括:上卷、下鉆、切片、切塊、旋轉(zhuǎn)以及統(tǒng)計操作等。2.關(guān)聯(lián)挖掘 關(guān)聯(lián)挖掘即是在大量的數(shù)據(jù)中找出能夠反映數(shù)據(jù)項之間關(guān)系的知識來。 最常應用的領(lǐng)域是購物籃分析 關(guān)聯(lián)規(guī)則的形式如:面包=牛奶 支持度=70%,置信度=65%。 關(guān)聯(lián)規(guī)則的挖掘分為兩步:(1)找出所有的頻繁項集(2)由頻繁項集中,再比較置信度,找出關(guān)聯(lián)規(guī)則來。2022-4-29第十七章 數(shù)據(jù)挖掘技術(shù)概論124.1 4.1 數(shù)據(jù)挖掘的常用方法數(shù)據(jù)挖掘的常用方法3.決策樹(Decision Tree) 決策樹是一種建立在信息論基礎(chǔ)之上的樹型結(jié)構(gòu)分類模型,是常用的數(shù)據(jù)進行分類的方法之一。 實現(xiàn)了數(shù)據(jù)分類規(guī)則的可視化,其輸出結(jié)

8、果也容易理解。 決策樹方法很適合于處理非數(shù)值型數(shù)據(jù),精確度比較高,分類結(jié)果容易理解,效率也比較高。4.神經(jīng)網(wǎng)絡(Neural Network) 神經(jīng)網(wǎng)絡方法是通過模擬生理神經(jīng)網(wǎng)絡結(jié)構(gòu)的非線性預測模型。 神經(jīng)網(wǎng)絡由一系列類似于人腦神經(jīng)元一樣的處理單元組成,稱之為神經(jīng)元節(jié)點(Nerodes),這些節(jié)點通過網(wǎng)絡彼此互連,每個單元之間的每個連接都關(guān)聯(lián)一個權(quán)重。 在網(wǎng)絡學習階段,網(wǎng)絡通過調(diào)整權(quán)重實現(xiàn)輸入樣本與輸出類別之間的對應。它比較擅長處理參數(shù)較多的復雜問題。例如:可以指定輸入層為代表過去的銷售情況、價格及季節(jié)等因素,輸出層便可輸出判斷本季度的銷售情況。2022-4-29第十七章 數(shù)據(jù)挖掘技術(shù)概論13

9、4.1 4.1 數(shù)據(jù)挖掘的常用方法數(shù)據(jù)挖掘的常用方法5. 均值(K-means)算法 K-均值算法是一種基本的、基于劃分的聚類算法。 首先從n個數(shù)據(jù)對象中任意選擇k個對象作為初始聚類中心;對于剩余的數(shù)據(jù)對象,則根據(jù)它們與這些中心之間的距離,將它們分配到與它們最相似的簇中;然后再重新計算每個所獲新聚簇的中心;不斷重復這一過程,直到標準測度函數(shù)收斂為止。6.數(shù)據(jù)可視化(Data Visualization) 通過數(shù)據(jù)可視化工具,可以使用戶可以“深入”數(shù)據(jù),觀看到數(shù)據(jù)不同層次的細節(jié),更容易理解數(shù)據(jù)。 常用的數(shù)據(jù)可視化方法有:散點圖、散點矩陣等,可以幫助用戶分析數(shù)據(jù)聚類,觀察數(shù)據(jù)的分布、看是否存在奇異

10、點等;其他還有盒圖、三維立方體、數(shù)據(jù)分布圖表、曲線、曲面、鏈接圖等。 早期的可視化工具多用于處理數(shù)值型數(shù)據(jù),而今多數(shù)數(shù)據(jù)為非數(shù)值型的,例如Web數(shù)據(jù)、社交網(wǎng)絡等,給數(shù)據(jù)可視化的研究帶來了新挑戰(zhàn)。2022-4-29第十七章 數(shù)據(jù)挖掘技術(shù)概論14 本 章 內(nèi) 容第一節(jié) 數(shù)據(jù)挖掘的概念第二節(jié) 數(shù)據(jù)挖掘的功能及主要應用第三節(jié) 數(shù)據(jù)挖掘的過程第四節(jié) 數(shù)據(jù)挖掘的常用方法第五節(jié) 數(shù)據(jù)挖掘技術(shù)的發(fā)展趨勢2022-4-29第十七章 數(shù)據(jù)挖掘技術(shù)概論155.1 5.1 數(shù)據(jù)挖掘技術(shù)的發(fā)展趨勢數(shù)據(jù)挖掘技術(shù)的發(fā)展趨勢數(shù)據(jù)挖掘技術(shù)應用領(lǐng)域的拓展;數(shù)據(jù)挖掘算法要能應付更大量的數(shù)據(jù),挖掘算法要能伸縮,最好還可交互;與搜索引擎、數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫系統(tǒng)和云計算系統(tǒng)等能有效、平滑地集成;研究能夠適應多種數(shù)據(jù)類型的數(shù)據(jù)挖掘算法;構(gòu)建分布式數(shù)據(jù)挖掘系統(tǒng);研究數(shù)據(jù)挖掘中的隱私保護和數(shù)據(jù)安全機制。2022-4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論