第6章數(shù)據(jù)倉庫、聯(lián)機分析處理和數(shù)據(jù)挖掘_第1頁
第6章數(shù)據(jù)倉庫、聯(lián)機分析處理和數(shù)據(jù)挖掘_第2頁
第6章數(shù)據(jù)倉庫、聯(lián)機分析處理和數(shù)據(jù)挖掘_第3頁
第6章數(shù)據(jù)倉庫、聯(lián)機分析處理和數(shù)據(jù)挖掘_第4頁
第6章數(shù)據(jù)倉庫、聯(lián)機分析處理和數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、DSS1決策支持系統(tǒng)決策支持系統(tǒng) 主講:彭柳芬主講:彭柳芬 公共郵箱:公共郵箱:密密 碼:碼:peng1232第六章第六章 數(shù)據(jù)倉庫、聯(lián)機分析處理和數(shù)據(jù)挖掘數(shù)據(jù)倉庫、聯(lián)機分析處理和數(shù)據(jù)挖掘v傳統(tǒng)數(shù)據(jù)庫應(yīng)用的局限性傳統(tǒng)數(shù)據(jù)庫應(yīng)用的局限性v數(shù)據(jù)倉庫數(shù)據(jù)倉庫v聯(lián)機分析處理聯(lián)機分析處理v數(shù)據(jù)挖掘數(shù)據(jù)挖掘vWeka數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘軟件3傳統(tǒng)數(shù)據(jù)庫應(yīng)用的局限性傳統(tǒng)數(shù)據(jù)庫應(yīng)用的局限性 v 企業(yè)在其業(yè)務(wù)活動中,積累了大量的關(guān)于客戶、產(chǎn)品、銷售、企業(yè)在其業(yè)務(wù)活動中,積累了大量的關(guān)于客戶、產(chǎn)品、銷售、庫存、供應(yīng)商等方面的數(shù)據(jù),也可以收集到來自于企業(yè)所處行庫存、供應(yīng)商等方面的數(shù)據(jù),也可以收集到來自于企業(yè)所處行業(yè)

2、和競爭對手以及外部環(huán)境中的數(shù)據(jù),為了支持企業(yè)或組織管業(yè)和競爭對手以及外部環(huán)境中的數(shù)據(jù),為了支持企業(yè)或組織管理人員的決策分析,必須把日益龐大的數(shù)據(jù)轉(zhuǎn)化為知識,這就理人員的決策分析,必須把日益龐大的數(shù)據(jù)轉(zhuǎn)化為知識,這就需要對數(shù)據(jù)進行聯(lián)機分析處理需要對數(shù)據(jù)進行聯(lián)機分析處理OLAP(Online Analytical Processing) 。v 傳統(tǒng)的數(shù)據(jù)庫應(yīng)用主要是針對數(shù)據(jù)的聯(lián)機事務(wù)處理傳統(tǒng)的數(shù)據(jù)庫應(yīng)用主要是針對數(shù)據(jù)的聯(lián)機事務(wù)處理OLTP(Online Transaction Processing),包括定期的數(shù)據(jù)查詢、),包括定期的數(shù)據(jù)查詢、插入、刪除和更新操作,以及基本的統(tǒng)計分析如使用交叉表、

3、插入、刪除和更新操作,以及基本的統(tǒng)計分析如使用交叉表、圖表或圖形進行報表的展示。圖表或圖形進行報表的展示。 v 要在一個系統(tǒng)中同時滿足要在一個系統(tǒng)中同時滿足OLTP和和OLAP這兩種需求是有問題的。這兩種需求是有問題的。 4一、決策支持系統(tǒng)一、決策支持系統(tǒng)v 決策支持系統(tǒng)(決策支持系統(tǒng)(DSS)中)中“決策決策”就是決策者根據(jù)所就是決策者根據(jù)所掌握的信息為決策對象選擇行為的思維過程。為決策者提掌握的信息為決策對象選擇行為的思維過程。為決策者提供支持的信息成為決策支持信息,相應(yīng)的信息系統(tǒng)稱為決供支持的信息成為決策支持信息,相應(yīng)的信息系統(tǒng)稱為決策支持系統(tǒng),我們將決策支持領(lǐng)域分成策支持系統(tǒng),我們將決

4、策支持領(lǐng)域分成OLTP、MIS、LDSS及及HDSS四個層次:四個層次:OLTPMISLDSSHDSSDWOLAPDM51、 OLTP(聯(lián)機事物處理)(聯(lián)機事物處理)v 最基本的數(shù)據(jù)庫應(yīng)用系統(tǒng),是更高級的最基本的數(shù)據(jù)庫應(yīng)用系統(tǒng),是更高級的MIS系統(tǒng)和系統(tǒng)和DSS系統(tǒng)的基礎(chǔ),系統(tǒng)的基礎(chǔ),OLTP系統(tǒng)一般具有底層信息采集(數(shù)系統(tǒng)一般具有底層信息采集(數(shù)據(jù)錄入功能)、一定的信息查詢以及信息庫更新維護功能據(jù)錄入功能)、一定的信息查詢以及信息庫更新維護功能,OLTP面向的是操作人員和低層管理人員面向的是操作人員和低層管理人員v 其主要功能在于對數(shù)據(jù)庫中的信息進行錄入、存儲、更新其主要功能在于對數(shù)據(jù)庫中的

5、信息進行錄入、存儲、更新、刪除等操作,是最基本的管理細節(jié)信息的數(shù)據(jù)庫應(yīng)用系、刪除等操作,是最基本的管理細節(jié)信息的數(shù)據(jù)庫應(yīng)用系統(tǒng)。統(tǒng)。66OLAP定義定義1. OLAP理事會給出的定義理事會給出的定義 聯(lián)機分析處理(聯(lián)機分析處理(OLAP)是一種軟件技術(shù),它使)是一種軟件技術(shù),它使分析人員能夠迅速、一致、交互地從各個方面(多分析人員能夠迅速、一致、交互地從各個方面(多維)觀察信息,以達到深入理解數(shù)據(jù)的目的。維)觀察信息,以達到深入理解數(shù)據(jù)的目的。 這些信息是從原始數(shù)據(jù)轉(zhuǎn)換過來的,按照用戶的這些信息是從原始數(shù)據(jù)轉(zhuǎn)換過來的,按照用戶的理解,它反映了企業(yè)真實的方方面面。理解,它反映了企業(yè)真實的方方面面

6、。77 聯(lián)機分析處理是共享多維信息的快速分析。聯(lián)機分析處理是共享多維信息的快速分析。 它體現(xiàn)了四個特征:它體現(xiàn)了四個特征: (1)快速性)快速性:用戶對:用戶對OLAP的快速反應(yīng)能力有很高的要求。的快速反應(yīng)能力有很高的要求。 (2)可分析性)可分析性:OLAP系統(tǒng)應(yīng)能處理任何邏輯分析和統(tǒng)計分系統(tǒng)應(yīng)能處理任何邏輯分析和統(tǒng)計分析。析。 (3)多維性)多維性:系統(tǒng)必須提供對數(shù)據(jù)分析的多維視圖和分析。:系統(tǒng)必須提供對數(shù)據(jù)分析的多維視圖和分析。 (4 4)信息性)信息性:OLAPOLAP系統(tǒng)應(yīng)能及時獲得信息,并且管理大容量系統(tǒng)應(yīng)能及時獲得信息,并且管理大容量的信息。的信息。 88 MOLAP數(shù)據(jù)模型數(shù)據(jù)

7、模型MOLAP是基于多維數(shù)據(jù)庫存儲方式建立的OLAP;表現(xiàn)為“超立方”結(jié)構(gòu),采用類似于多維數(shù)組的結(jié)構(gòu)。ROLAP數(shù)據(jù)模型數(shù)據(jù)模型ROLAP是基于關(guān)系數(shù)據(jù)庫的OLAP。它是一個平面結(jié)構(gòu),用關(guān)系數(shù)據(jù)庫表示多維數(shù)據(jù)時,采用星型模型。 MOLAP與與ROLAP的比較的比較HOLAP數(shù)據(jù)模型數(shù)據(jù)模型即混和OLAP介于MOLAP和ROLAP之間。在HOLAP中,對最常用的維度和維層次,使用多維數(shù)據(jù)表來存儲,對于用戶不常用的維度和數(shù)據(jù),采用ROLAP星型結(jié)構(gòu)來存儲。 99MDDB(二維)數(shù)據(jù)組織(二維)數(shù)據(jù)組織北京北京上海上海廣州廣州衣服衣服600700500鞋鞋800900700帽子帽子100200801

8、010產(chǎn)品名產(chǎn)品名地區(qū)地區(qū)銷售量銷售量衣服衣服北京北京600衣服衣服上海上海700衣服衣服廣州廣州500鞋鞋北京北京800鞋鞋上海上海900鞋鞋廣州廣州700帽子帽子北京北京100帽子帽子上海上海200帽子帽子廣州廣州80關(guān)系數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫RDBMS數(shù)據(jù)組織數(shù)據(jù)組織112、基于、基于OLTP的的MIS系統(tǒng)系統(tǒng)v 這是較高一級的數(shù)據(jù)庫應(yīng)用系統(tǒng),這類系統(tǒng)在這是較高一級的數(shù)據(jù)庫應(yīng)用系統(tǒng),這類系統(tǒng)在OUP的基礎(chǔ)上進一步擴展,包括提高信息訪問功能,報表生的基礎(chǔ)上進一步擴展,包括提高信息訪問功能,報表生成能力等。成能力等。MIS系統(tǒng)由若干個功能相對獨立的系統(tǒng)由若干個功能相對獨立的OLTP系統(tǒng)系統(tǒng)集成而成

9、,當前的信息服務(wù)系統(tǒng)基本屬于集成而成,當前的信息服務(wù)系統(tǒng)基本屬于MIS系統(tǒng)。系統(tǒng)。123、LDSS(低級決策支持系統(tǒng))(低級決策支持系統(tǒng))v LDSS處于比處于比MIS更高一層的位置,直接為決策者提更高一層的位置,直接為決策者提供決策支持服務(wù),它的關(guān)鍵在于信息的有效提取并加以分供決策支持服務(wù),它的關(guān)鍵在于信息的有效提取并加以分析而不在于信息的收集與更新(這些操作由基礎(chǔ)層的析而不在于信息的收集與更新(這些操作由基礎(chǔ)層的OLTP系統(tǒng)完成)。目前決策支持系統(tǒng)絕大部分屬于系統(tǒng)完成)。目前決策支持系統(tǒng)絕大部分屬于LDSS的層次,它存在著如下功能局限:的層次,它存在著如下功能局限:v (1)隨機性的綜合信

10、息提取功能較弱;)隨機性的綜合信息提取功能較弱;v (2)對查詢得到的信息的分析功能較弱;)對查詢得到的信息的分析功能較弱;v (3)不是基于海量數(shù)據(jù)庫。)不是基于海量數(shù)據(jù)庫。134、HDSS高級決策支持系統(tǒng)高級決策支持系統(tǒng))vHDSS是決策支持系統(tǒng)的最高形式,能夠真正是決策支持系統(tǒng)的最高形式,能夠真正使用戶利用使用戶利用DSS工具直接從企業(yè)信息池中隨機地提工具直接從企業(yè)信息池中隨機地提取、分析數(shù)據(jù),有效地服務(wù)于企業(yè)的全方位決策。取、分析數(shù)據(jù),有效地服務(wù)于企業(yè)的全方位決策。它由三個主要部件構(gòu)成:它由三個主要部件構(gòu)成: 數(shù)據(jù)倉庫技術(shù)(數(shù)據(jù)倉庫技術(shù)(DW,Data Warehousing) 聯(lián)機分

11、析處理技術(shù)(聯(lián)機分析處理技術(shù)(OLAP,On-line Analytical Processing) 數(shù)據(jù)挖掘技術(shù)(數(shù)據(jù)挖掘技術(shù)(DM,Data Mining) 14二二 數(shù)據(jù)挖掘數(shù)據(jù)挖掘v數(shù)據(jù)挖掘是從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中發(fā)現(xiàn)數(shù)據(jù)挖掘是從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中發(fā)現(xiàn)并提取隱藏在其中的信息或知識的過程,目的是并提取隱藏在其中的信息或知識的過程,目的是幫助分析人員尋找數(shù)據(jù)間潛在的關(guān)聯(lián),發(fā)現(xiàn)忽略幫助分析人員尋找數(shù)據(jù)間潛在的關(guān)聯(lián),發(fā)現(xiàn)忽略的要素,而這些信息對預(yù)測趨勢和決策行為是十的要素,而這些信息對預(yù)測趨勢和決策行為是十分有用的,所以它屬于決策支持系統(tǒng)的范疇。分有用的,所以它屬于決策支持系統(tǒng)的范疇。1

12、5v 1 預(yù)處理數(shù)據(jù)預(yù)處理數(shù)據(jù)v 通過消除噪聲、推導(dǎo)計算缺值數(shù)據(jù)、消除重復(fù)記錄、完通過消除噪聲、推導(dǎo)計算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換(如把連續(xù)值數(shù)據(jù)轉(zhuǎn)換為離散型的數(shù)據(jù),或成數(shù)據(jù)類型轉(zhuǎn)換(如把連續(xù)值數(shù)據(jù)轉(zhuǎn)換為離散型的數(shù)據(jù),或是把離散型的數(shù)據(jù)轉(zhuǎn)換為連續(xù)值數(shù)據(jù))等來收集和凈化來自是把離散型的數(shù)據(jù)轉(zhuǎn)換為連續(xù)值數(shù)據(jù))等來收集和凈化來自數(shù)據(jù)源的信息,并加以存儲,一般是將其存放在數(shù)據(jù)倉庫中數(shù)據(jù)源的信息,并加以存儲,一般是將其存放在數(shù)據(jù)倉庫中。v 2 模型搜索模型搜索v 利用數(shù)據(jù)挖掘工具在數(shù)據(jù)中查找模型,這個搜尋過程可利用數(shù)據(jù)挖掘工具在數(shù)據(jù)中查找模型,這個搜尋過程可以由系統(tǒng)自動執(zhí)行,自底向上搜尋原

13、始事實以發(fā)現(xiàn)它們之間以由系統(tǒng)自動執(zhí)行,自底向上搜尋原始事實以發(fā)現(xiàn)它們之間的某種聯(lián)系,也可以加入用戶交互過程,由分析人員主動發(fā)的某種聯(lián)系,也可以加入用戶交互過程,由分析人員主動發(fā)問,從上到下地找尋以驗證假定的正確性,對于一個問題的問,從上到下地找尋以驗證假定的正確性,對于一個問題的搜尋過程可能用到許多工具,例如神經(jīng)網(wǎng)絡(luò)、基于規(guī)則的系搜尋過程可能用到許多工具,例如神經(jīng)網(wǎng)絡(luò)、基于規(guī)則的系統(tǒng)、基于實例的推理、機器學習、統(tǒng)計方法等。統(tǒng)、基于實例的推理、機器學習、統(tǒng)計方法等。16v 3 評價輸出結(jié)果評價輸出結(jié)果v 數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來的模式,經(jīng)過用戶或機器的評數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來的模式,經(jīng)過用戶或機器的評

14、估,可能存在冗余、價值不大的或無關(guān)的模式,這時需要估,可能存在冗余、價值不大的或無關(guān)的模式,這時需要將其剔除,把重要的模式形成知識存儲到知識庫中,也有將其剔除,把重要的模式形成知識存儲到知識庫中,也有可能模式未能滿足用戶要求,這時則需要整個發(fā)現(xiàn)過程回可能模式未能滿足用戶要求,這時則需要整個發(fā)現(xiàn)過程回到發(fā)現(xiàn)階段之前,如重新選取數(shù)據(jù)、采用新的數(shù)據(jù)變換方到發(fā)現(xiàn)階段之前,如重新選取數(shù)據(jù)、采用新的數(shù)據(jù)變換方法、設(shè)定新的數(shù)據(jù)挖掘參數(shù)值,甚至換一種挖掘算法??煞ā⒃O(shè)定新的數(shù)據(jù)挖掘參數(shù)值,甚至換一種挖掘算法??梢姅?shù)據(jù)發(fā)掘的搜尋過程一般需要反復(fù)多次,因為當分析人見數(shù)據(jù)發(fā)掘的搜尋過程一般需要反復(fù)多次,因為當分析人

15、員評價輸出結(jié)果后,他們可能會形成一些新的問題或要求員評價輸出結(jié)果后,他們可能會形成一些新的問題或要求對某一方面作更精細的查詢。對某一方面作更精細的查詢。17v 4 生成最后的結(jié)果報告生成最后的結(jié)果報告v DM由于最終是面向人類用戶的,因此可能要對發(fā)現(xiàn)由于最終是面向人類用戶的,因此可能要對發(fā)現(xiàn)的模式進行可視化,或者把結(jié)果轉(zhuǎn)換為用戶易懂的另一種的模式進行可視化,或者把結(jié)果轉(zhuǎn)換為用戶易懂的另一種表示。表示。v 5 解釋結(jié)果報告解釋結(jié)果報告v 對結(jié)果進行解釋,依據(jù)此結(jié)果采取相應(yīng)的商業(yè)措施,對結(jié)果進行解釋,依據(jù)此結(jié)果采取相應(yīng)的商業(yè)措施,這是一個人工過程。這是一個人工過程。v 數(shù)據(jù)挖掘的相關(guān)技術(shù):為了簡化

16、和加快數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘的相關(guān)技術(shù):為了簡化和加快數(shù)據(jù)挖掘過程,使數(shù)據(jù)挖掘真正方便、實用,還需其他的技術(shù)支持,如,使數(shù)據(jù)挖掘真正方便、實用,還需其他的技術(shù)支持,如數(shù)據(jù)凈化、數(shù)據(jù)倉庫技術(shù)、強大的平行處理技術(shù)和存儲技數(shù)據(jù)凈化、數(shù)據(jù)倉庫技術(shù)、強大的平行處理技術(shù)和存儲技術(shù)。術(shù)。18三、數(shù)據(jù)挖掘與決策支持系統(tǒng)的聯(lián)系三、數(shù)據(jù)挖掘與決策支持系統(tǒng)的聯(lián)系 v 傳統(tǒng)的傳統(tǒng)的DSS系統(tǒng)通常是在某個假設(shè)的前提下通過數(shù)據(jù)查詢和分系統(tǒng)通常是在某個假設(shè)的前提下通過數(shù)據(jù)查詢和分析來驗證或否定這個假設(shè),而數(shù)據(jù)挖掘技術(shù)則能夠自動分析數(shù)析來驗證或否定這個假設(shè),而數(shù)據(jù)挖掘技術(shù)則能夠自動分析數(shù)據(jù),進行歸納整理,從中發(fā)現(xiàn)潛在的模式,或

17、產(chǎn)生聯(lián)想,建立據(jù),進行歸納整理,從中發(fā)現(xiàn)潛在的模式,或產(chǎn)生聯(lián)想,建立新的業(yè)務(wù)模型,幫助決策者調(diào)整市場策略,并找出正確的決策新的業(yè)務(wù)模型,幫助決策者調(diào)整市場策略,并找出正確的決策。例如在銷售業(yè)數(shù)據(jù)庫中,數(shù)據(jù)挖掘工具回答。例如在銷售業(yè)數(shù)據(jù)庫中,數(shù)據(jù)挖掘工具回答“哪些客戶最可哪些客戶最可能對促銷作出反應(yīng),為什么他會這樣?能對促銷作出反應(yīng),為什么他會這樣?”、“哪些商品之間具哪些商品之間具有潛在的聯(lián)系?有潛在的聯(lián)系?”、“下一個月,在天津的銷售部門的情況將下一個月,在天津的銷售部門的情況將會如何?為什么?會如何?為什么?”等。而等。而DSS系統(tǒng)回答系統(tǒng)回答“今年銷售總量比去今年銷售總量比去年多多少?從

18、而預(yù)測明年銷售總量年多多少?從而預(yù)測明年銷售總量”、“三月份中,在天津的三月份中,在天津的銷售部門的情況如何?從而推測在北京的銷售部門情況銷售部門的情況如何?從而推測在北京的銷售部門情況”,所,所以,數(shù)據(jù)挖掘的出現(xiàn)使決策支持工具跨人了一個新階段。以,數(shù)據(jù)挖掘的出現(xiàn)使決策支持工具跨人了一個新階段。v 數(shù)據(jù)挖掘技術(shù)能夠幫助用戶從歷史性數(shù)據(jù)中挖掘知識,進數(shù)據(jù)挖掘技術(shù)能夠幫助用戶從歷史性數(shù)據(jù)中挖掘知識,進而支持決策,極大地吸引用戶,而用戶造就的數(shù)十億美元的市而支持決策,極大地吸引用戶,而用戶造就的數(shù)十億美元的市場又極大地吸引了數(shù)據(jù)庫廠商,各大公司紛紛開始了自己的數(shù)場又極大地吸引了數(shù)據(jù)庫廠商,各大公司紛

19、紛開始了自己的數(shù)據(jù)挖掘工具產(chǎn)品的研制工作。據(jù)挖掘工具產(chǎn)品的研制工作。19四、數(shù)據(jù)倉庫四、數(shù)據(jù)倉庫v數(shù)據(jù)倉庫的用戶:數(shù)據(jù)倉庫的用戶:1 數(shù)據(jù)倉庫的信息使用者數(shù)據(jù)倉庫的信息使用者2 數(shù)據(jù)倉庫的探索者數(shù)據(jù)倉庫的探索者探索者要做的工作有:概括探索者要做的工作有:概括分析、抽取、建模和分類。分析、抽取、建模和分類。20數(shù)據(jù)倉庫的用戶有兩類:信息使用者和探索者數(shù)據(jù)倉庫的用戶有兩類:信息使用者和探索者v 信息使用者是使用數(shù)據(jù)倉庫的大量用戶。信息使用者是使用數(shù)據(jù)倉庫的大量用戶。 信息使用者以一種可預(yù)測的、重發(fā)性的方式使用數(shù)據(jù)信息使用者以一種可預(yù)測的、重發(fā)性的方式使用數(shù)據(jù)倉庫平臺。倉庫平臺。 信息使用者通常查看

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論