




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
商務(wù)智能與決策支持緒論山東大學(xué)管理學(xué)院第一頁,共一百零六頁。2山東大學(xué)管理學(xué)院主要內(nèi)容一、商務(wù)智能概述二、數(shù)據(jù)倉庫概述三、數(shù)據(jù)挖掘概述第二頁,共一百零六頁。3山東大學(xué)管理學(xué)院一、商務(wù)智能概述1、商務(wù)智能的定義2、商務(wù)智能的核心技術(shù)及其架構(gòu)3、商務(wù)智能的三個(gè)層次4、商務(wù)智能可以發(fā)揮的作用5、商務(wù)智能能為企業(yè)帶來效益嗎?6、商務(wù)智能的應(yīng)用現(xiàn)狀7、商務(wù)智能軟件廠商第三頁,共一百零六頁。4山東大學(xué)管理學(xué)院1、商務(wù)智能的定義:商務(wù)智能的定義:眾說紛紜。高級管理人員信息系統(tǒng)(EIS)?管理信息系統(tǒng)(MIS)?決策支持系統(tǒng)(DSS)?數(shù)據(jù)庫技術(shù)?數(shù)據(jù)倉庫?數(shù)據(jù)集市?數(shù)據(jù)整合與清洗工具?查詢和報(bào)告工具?在線分析處理工具?數(shù)據(jù)挖掘?統(tǒng)計(jì)分析?分析性ERP?分析性CRM?……
第四頁,共一百零六頁。5第五頁,共一百零六頁。6目前,學(xué)術(shù)界對商務(wù)智能的定義并不統(tǒng)一。商務(wù)智能通常被理解為將企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識,幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營決策的工具。這里所談的數(shù)據(jù)包括來自企業(yè)業(yè)務(wù)系統(tǒng)的訂單、庫存、交易賬目、客戶和供應(yīng)商等來自企業(yè)所處行業(yè)和競爭對手的數(shù)據(jù)以及來自企業(yè)所處的其他外部環(huán)境中的各種數(shù)據(jù)。
山東大學(xué)管理學(xué)院第六頁,共一百零六頁。7而商務(wù)智能能夠輔助的業(yè)務(wù)經(jīng)營決策,既可以是操作層的,也可以是戰(zhàn)術(shù)層和戰(zhàn)略層的決策。為了將數(shù)據(jù)轉(zhuǎn)化為知識,需要利用數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理(OLAP)工具和數(shù)據(jù)挖掘等技術(shù)。因此,從技術(shù)層面上講,商務(wù)智能不是什么新技術(shù),它只是數(shù)據(jù)倉庫、OLAP和數(shù)據(jù)挖掘等技術(shù)的綜合運(yùn)用。山東大學(xué)管理學(xué)院第七頁,共一百零六頁。8商務(wù)智能的概念于1996年最早由加特納集團(tuán)(GartnerGroup)提出,加特納集團(tuán)將商務(wù)智能定義為:商務(wù)智能描述了一系列的概念和方法,通過應(yīng)用基于事實(shí)的支持系統(tǒng)來輔助商業(yè)決策的制定。商務(wù)智能提供使企業(yè)迅速分析數(shù)據(jù)的技術(shù)和方法,包括收集、管理和分析數(shù)據(jù),將這些數(shù)據(jù)轉(zhuǎn)化為有用的信息,然后分發(fā)到企業(yè)各處。山東大學(xué)管理學(xué)院第八頁,共一百零六頁。9商務(wù)智能的定義
商務(wù)智能(BusinessIntelligence)是企業(yè)利用現(xiàn)代信息技術(shù)收集、管理和分析結(jié)構(gòu)化和非結(jié)構(gòu)化的商務(wù)數(shù)據(jù)和信息,創(chuàng)造和累計(jì)商務(wù)知識和見解,改善商務(wù)決策水平,采取有效的商務(wù)行動(dòng),完善各種商務(wù)流程,提升各方面商務(wù)績效,增強(qiáng)綜合競爭力的智慧和能力。山東大學(xué)管理學(xué)院第九頁,共一百零六頁。10山東大學(xué)管理學(xué)院2、商務(wù)智能的核心技術(shù)及其架構(gòu)BI不是一種技術(shù)而是多種技術(shù)綜合起來的解決方案。商務(wù)智能一般由數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復(fù)等部分組成。商業(yè)智能的實(shí)現(xiàn)涉及到軟件、硬件、咨詢服務(wù)及應(yīng)用,其基本體系結(jié)構(gòu)包括數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘三個(gè)部分。?DW—DataWarehousing?OLAP—On-LineAnalyticalProcessing?DM—DataMining第十頁,共一百零六頁。11
商務(wù)智能的關(guān)鍵是從許多來自不同的企業(yè)運(yùn)作系統(tǒng)的數(shù)據(jù)中提取出有用的數(shù)據(jù)并進(jìn)行清理,以保證數(shù)據(jù)的正確性,然后經(jīng)過抽?。‥xtraction)、轉(zhuǎn)換(Transformation)和裝載(Load),即ETL過程,合并到一個(gè)企業(yè)級的數(shù)據(jù)倉庫里,從而得到企業(yè)數(shù)據(jù)的一個(gè)全局視圖,在此基礎(chǔ)上利用合適的查詢和分析工具、數(shù)據(jù)挖掘工具、OLAP工具等對其進(jìn)行分析和處理(這時(shí)信息變?yōu)檩o助決策的知識),最后將知識呈現(xiàn)給管理者,為管理者的決策過程提供支持。
山東大學(xué)管理學(xué)院第十一頁,共一百零六頁。12山東大學(xué)管理學(xué)院ArchitectureofBusinessIntelligenceSystem第十二頁,共一百零六頁。13ETL(Extraction-Transformation-Loading)是數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform)、清洗(Cleansing)、裝載(Load)的過程。是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。
ETL負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。山東大學(xué)管理學(xué)院第十三頁,共一百零六頁。14
ETL是數(shù)據(jù)倉庫中的非常重要的一環(huán)。它是承前啟后的必要的一步。相對于關(guān)系數(shù)據(jù)庫,數(shù)據(jù)倉庫技術(shù)沒有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),它更面向?qū)嶋H工程應(yīng)用。所以從工程應(yīng)用的角度來考慮,按著物理數(shù)據(jù)模型的要求加載數(shù)據(jù)并對數(shù)據(jù)進(jìn)行一些系列處理,處理過程與經(jīng)驗(yàn)直接相關(guān),同時(shí)這部分的工作直接關(guān)系數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量,從而影響到聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘的結(jié)果的質(zhì)量。山東大學(xué)管理學(xué)院第十四頁,共一百零六頁。15多維聯(lián)機(jī)分析處理(multidimensionalonlineanalyticalprocessing)是一個(gè)直接編入多維數(shù)據(jù)庫的聯(lián)機(jī)分析處理(OLAP)。一般來說,一個(gè)OLAP應(yīng)用程序以多維方式處理數(shù)據(jù)。用戶可以觀察數(shù)據(jù)集合體的不同方面,例如銷售時(shí)間,地點(diǎn)和產(chǎn)品模型。如果數(shù)據(jù)貯存在相關(guān)的數(shù)據(jù)庫里,那么它能被多維的觀察,但是只能用連續(xù)的訪問和處理數(shù)據(jù)集合體的一個(gè)方面的表格的方式。MOLAP處理已經(jīng)存貯在多維列表里的數(shù)據(jù),在列表里數(shù)據(jù)可能的結(jié)合都被考慮,每個(gè)數(shù)據(jù)都在一個(gè)能夠直接訪問的單元里。
MOLAP常常用作數(shù)據(jù)倉庫應(yīng)用程序的一部分。
山東大學(xué)管理學(xué)院第十五頁,共一百零六頁。16
八維以上的數(shù)據(jù)分析
如果說OLTP側(cè)重于對數(shù)據(jù)庫進(jìn)行增加、修改、刪除等日常事務(wù)操作,OLAP(OnlineAnalyticsProcess,在線分析系統(tǒng))則側(cè)重于針對宏觀問題,全面分析數(shù)據(jù),獲得有價(jià)值的信息。
為了達(dá)到OLAP的目的,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已經(jīng)不夠了,需要一種新的技術(shù)叫做多維數(shù)據(jù)庫。
山東大學(xué)管理學(xué)院第十六頁,共一百零六頁。17
多維數(shù)據(jù)庫的概念并不復(fù)雜。舉一個(gè)例子,我們想描述2009年8月份可樂在北部地區(qū)銷售額10萬元時(shí),牽扯到幾個(gè)角度:時(shí)間、產(chǎn)品、地區(qū)。這些叫做維度。至于銷售額,叫做度量值。當(dāng)然,還有成本、利潤等。
除了時(shí)間、產(chǎn)品和地區(qū),我們還可以有很多維度,例如客戶的性別、職業(yè)、銷售部門、促銷方式等等。實(shí)際上,使用中的多維數(shù)據(jù)庫可能是一個(gè)8維或者15維的立方體。
雖然結(jié)構(gòu)上15維的立方體很復(fù)雜,但是概念上非常簡單。山東大學(xué)管理學(xué)院第十七頁,共一百零六頁。18KPI(Key
Performance
Indication)
即關(guān)鍵業(yè)績指標(biāo),是通過對組織內(nèi)部某一流程的輸入端、輸出端的關(guān)鍵參數(shù)進(jìn)行設(shè)置、取樣、計(jì)算、分析,衡量流程績效的一種目標(biāo)式量化管理指標(biāo),是把企業(yè)的戰(zhàn)略目標(biāo)分解為可運(yùn)作的遠(yuǎn)景目標(biāo)的工具,是企業(yè)績效管理系統(tǒng)的基礎(chǔ)。KPI是現(xiàn)代企業(yè)中受到普遍重視的業(yè)績考評方法。KPI可以使部門主管明確部門的主要責(zé)任,并以此為基礎(chǔ),明確部門人員的業(yè)績衡量指標(biāo),使業(yè)績考評建立在量化的基礎(chǔ)之上。建立明確的切實(shí)可行的KPI指標(biāo)體系是做好績效管理的關(guān)鍵。山東大學(xué)管理學(xué)院第十八頁,共一百零六頁。19
KPI法符合一個(gè)重要的管理原理——“二八原理”:在一個(gè)企業(yè)的價(jià)值創(chuàng)造過程中,存在著“20/80”的規(guī)律,即20%的骨干人員創(chuàng)造企業(yè)80%的價(jià)值;而且在每一位員工身上“二八原理”同樣適用,即80%的工作任務(wù)是由20%的關(guān)鍵行為完成的。因此,必須抓住20%的關(guān)鍵行為,對之進(jìn)行分析和衡量,這樣就能抓住業(yè)績評價(jià)的重心。山東大學(xué)管理學(xué)院第十九頁,共一百零六頁。203、商務(wù)智能的三個(gè)層次
低端:報(bào)表系統(tǒng)中端:數(shù)據(jù)分析高端:數(shù)據(jù)挖掘
山東大學(xué)管理學(xué)院第二十頁,共一百零六頁。21
經(jīng)過幾年的積累,大部分大中型的企事業(yè)單位已經(jīng)建立了比較完善的CRM、ERP、OA等基礎(chǔ)信息化系統(tǒng)。這些系統(tǒng)的統(tǒng)一特點(diǎn)都是:通過業(yè)務(wù)人員或者用戶的操作,最終對數(shù)據(jù)庫進(jìn)行增加、修改、刪除等操作。上述系統(tǒng)可統(tǒng)一稱為OLTP(OnlineTransactionProcess,在線事務(wù)處理),指的就是系統(tǒng)運(yùn)行了一段時(shí)間以后,必然幫助企事業(yè)單位收集大量的歷史數(shù)據(jù)。山東大學(xué)管理學(xué)院第二十一頁,共一百零六頁。22
但是,在數(shù)據(jù)庫中分散、獨(dú)立存在的大量數(shù)據(jù)對于業(yè)務(wù)人員來說,只是一些無法看懂的天書。業(yè)務(wù)人員所需要的是信息,是他們能夠看懂、理解并從中受益的抽象信息。此時(shí),如何把數(shù)據(jù)轉(zhuǎn)化為信息,使得業(yè)務(wù)人員(包括管理者)能夠充分掌握、利用這些信息,并且輔助決策,就是商務(wù)智能主要解決的問題。如何把數(shù)據(jù)庫中存在的數(shù)據(jù)轉(zhuǎn)變?yōu)闃I(yè)務(wù)人員需要的信息?大部分的答案是報(bào)表系統(tǒng)。簡單說,報(bào)表系統(tǒng)已經(jīng)可以稱作是BI了,它是BI的低端實(shí)現(xiàn)。山東大學(xué)管理學(xué)院第二十二頁,共一百零六頁。23現(xiàn)在國外的企業(yè),大部分已經(jīng)進(jìn)入了中端BI,叫做數(shù)據(jù)分析。有一些企業(yè)已經(jīng)開始進(jìn)入高端BI,叫做數(shù)據(jù)挖掘。而我國的企業(yè),目前大部分還停留在報(bào)表階段。
傳統(tǒng)的報(bào)表系統(tǒng)技術(shù)上已經(jīng)相當(dāng)成熟,大家熟悉的Excel、ReportingService等都已經(jīng)被廣泛使用。但是,隨著數(shù)據(jù)的增多,需求的提高,傳統(tǒng)報(bào)表系統(tǒng)面臨的挑戰(zhàn)也越來越多。山東大學(xué)管理學(xué)院第二十三頁,共一百零六頁。24數(shù)據(jù)太多,信息太少
密密麻麻的表格堆砌了大量數(shù)據(jù),到底有多少業(yè)務(wù)人員仔細(xì)看每一個(gè)數(shù)據(jù)?到底這些數(shù)據(jù)代表了什么信息、什么趨勢?級別越高的領(lǐng)導(dǎo),越需要簡明的信息。董事長可能只需要一句話:目前我們的情況是好、中還是差?
山東大學(xué)管理學(xué)院第二十四頁,共一百零六頁。25難以交互分析、了解各種組合
定制好的報(bào)表過于死板。例如,我們可以在一張表中列出不同地區(qū)、不同產(chǎn)品的銷量,另一張表中列出不同地區(qū)、不同年齡段顧客的銷量。但是,這兩張表無法回答諸如“華北地區(qū)中青年顧客購買數(shù)碼相機(jī)類型產(chǎn)品的情況”等問題。業(yè)務(wù)問題經(jīng)常需要多個(gè)角度的交互分析。
山東大學(xué)管理學(xué)院第二十五頁,共一百零六頁。26難以挖掘出潛在的規(guī)則
報(bào)表系統(tǒng)列出的往往是表面上的數(shù)據(jù)信息,但是海量數(shù)據(jù)深處潛在含有哪些規(guī)則呢?什么客戶對我們價(jià)值最大?產(chǎn)品之間相互關(guān)聯(lián)的程度如何?越是深層的規(guī)則,對于決策支持的價(jià)值越大,但是,也越難挖掘出來。山東大學(xué)管理學(xué)院第二十六頁,共一百零六頁。27難以追溯歷史,數(shù)據(jù)形成孤島
業(yè)務(wù)系統(tǒng)很多,數(shù)據(jù)存在于不同地方。太舊的數(shù)據(jù)(例如一年前的數(shù)據(jù))往往被業(yè)務(wù)系統(tǒng)備份出去,導(dǎo)致宏觀分析、長期歷史分析難度很大。因此,隨著時(shí)代的發(fā)展,傳統(tǒng)報(bào)表系統(tǒng)已經(jīng)不能滿足日益增長的業(yè)務(wù)需求了,企業(yè)期待著新的技術(shù)。數(shù)據(jù)分析和數(shù)據(jù)挖掘的時(shí)代正在來臨。山東大學(xué)管理學(xué)院第二十七頁,共一百零六頁。28山東大學(xué)管理學(xué)院4、商務(wù)智能可以發(fā)揮的作用-決策/管理(Decision/ManagementProcesses)-
客戶服務(wù)(CustomerServices)-
競爭優(yōu)勢(AheadofCompetition)-
合作策略(CorporateStrategy)-
運(yùn)作成本(CostsofOperations)-
客戶保持(CustomerRetention)-
新客戶/市場(NewCustomers/Markets)-
投資回報(bào)率(ROI/MarketingInvestments)第二十八頁,共一百零六頁。295.商務(wù)智能能為企業(yè)帶來效益嗎?商務(wù)智能幫助企業(yè)的管理層進(jìn)行快速,準(zhǔn)確的決策,迅速的發(fā)現(xiàn)企業(yè)中的問題,提示管理人員加以解決。但商務(wù)智能軟件系統(tǒng)不能代替管理人員進(jìn)行決策,不能自動(dòng)處理企業(yè)運(yùn)行過程中遇到的問題。因此商務(wù)智能系統(tǒng)并不能為企業(yè)帶來直接的經(jīng)濟(jì)效益。但必須看到,商務(wù)智能為企業(yè)帶來的是一種經(jīng)過科學(xué)武裝的管理思維,給整個(gè)企業(yè)帶來的是決策的快速性和準(zhǔn)確性,發(fā)現(xiàn)問題的及時(shí)性,以及發(fā)現(xiàn)那些對手未發(fā)現(xiàn)的潛在的知識和規(guī)律,而這些信息是企業(yè)產(chǎn)生經(jīng)濟(jì)效益的基礎(chǔ)。山東大學(xué)管理學(xué)院第二十九頁,共一百零六頁。30山東大學(xué)管理學(xué)院6、商務(wù)智能的應(yīng)用現(xiàn)狀-
IDC的一項(xiàng)研究表明北美企業(yè)紛紛轉(zhuǎn)向商務(wù)智能工具的開發(fā)和應(yīng)用。商業(yè)智能軟件市場方興未艾,為低迷的IT產(chǎn)業(yè)帶來一束曙光。-根據(jù)弗瑞斯特研究中心的調(diào)查發(fā)現(xiàn),去年底有44%的企業(yè)表示,計(jì)劃短期購買BI軟件。-另外,據(jù)IDC提供的數(shù)據(jù),在五年之內(nèi),商業(yè)智能市場規(guī)模將從現(xiàn)在的55億美元擴(kuò)大到157億美元。-正是看到了BI市場的巨大“錢途”,一些IT服務(wù)提供商紛紛推出自己的BI軟件,如Oracle、微軟、IBM公司,國內(nèi)的一些公司等均大力開發(fā)和推廣BI軟件。與此同時(shí),一些商業(yè)企業(yè)、制造企業(yè)也在積極應(yīng)用BI軟件,為其決策提供有價(jià)值的服務(wù)。
-報(bào)告預(yù)測,到2010年,中國BI市場規(guī)模會(huì)超過50億元。第三十頁,共一百零六頁。317.商務(wù)智能軟件廠商
目前主要商務(wù)智能軟件廠商有:IBMORACLE
SAPSASSybaseAnalyzer微軟菲奈特和勤山東大學(xué)管理學(xué)院第三十一頁,共一百零六頁。32山東大學(xué)管理學(xué)院二、數(shù)據(jù)倉庫概述1、數(shù)據(jù)庫技術(shù)的發(fā)展2、OLTP與OLAP3、數(shù)據(jù)倉庫的產(chǎn)生4、數(shù)據(jù)倉庫的定義5、數(shù)據(jù)倉庫的發(fā)展6、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系第三十二頁,共一百零六頁。33山東大學(xué)管理學(xué)院二、數(shù)據(jù)倉庫概述1、數(shù)據(jù)庫技術(shù)的發(fā)展
(1)1970~1980s早期
-關(guān)系數(shù)據(jù)模型,關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)的出現(xiàn)(2)1980s晚期~
-各種高級數(shù)據(jù)庫系統(tǒng)(擴(kuò)展的關(guān)系數(shù)據(jù)庫,面向?qū)ο髷?shù)據(jù)庫)
-面向應(yīng)用的數(shù)據(jù)庫系統(tǒng)(空間數(shù)據(jù)庫,時(shí)序數(shù)據(jù)庫)(3)1990s~
-數(shù)據(jù)挖掘,數(shù)據(jù)倉庫,多媒體數(shù)據(jù)庫和網(wǎng)絡(luò)數(shù)據(jù)庫(4)2000s~
-流數(shù)據(jù)管理和挖掘-基于各種應(yīng)用的數(shù)據(jù)挖掘-XML數(shù)據(jù)庫和整合的信息系統(tǒng)
第三十三頁,共一百零六頁。34山東大學(xué)管理學(xué)院2、OLTP與OLAP
(1)OLTP(On-lineTransactionProcessing)即在線操作處理,是指對數(shù)據(jù)庫的聯(lián)機(jī)操作處理。事務(wù)型處理是用來協(xié)助企業(yè)對響應(yīng)事件或事務(wù)的日常商務(wù)活動(dòng)進(jìn)行處理。它是事件驅(qū)動(dòng)、面向應(yīng)用的,通常是對一個(gè)或一組記錄的增、刪、改以及簡單查詢等。事務(wù)型處理的應(yīng)用程序和數(shù)據(jù)是緊緊圍繞著所管理的事件來構(gòu)造的。第三十四頁,共一百零六頁。35山東大學(xué)管理學(xué)院二、數(shù)據(jù)倉庫概述2、OLTP與OLAP
(2)OLAP(On-LineAnalyticalProcessing)即在線分析處理,用于管理人員的決策分析,例如DSS、EIS、和多維分析等。它幫助決策者分析數(shù)據(jù)以此察看趨向、判斷問題。分析型處理經(jīng)常要訪問大量的歷史數(shù)據(jù),支持復(fù)雜的查詢。在分析型處理中,并不是對從事務(wù)型處理環(huán)境中得到的細(xì)節(jié)數(shù)據(jù)進(jìn)行分析。細(xì)節(jié)數(shù)據(jù)量太大,會(huì)嚴(yán)重影響分析的效率,而且太多的細(xì)節(jié)數(shù)據(jù)不利于分析人員將注意力集中于有用的信息。第三十五頁,共一百零六頁。36山東大學(xué)管理學(xué)院二、數(shù)據(jù)倉庫概述2、OLTP與OLAP
第三十六頁,共一百零六頁。37山東大學(xué)管理學(xué)院二、數(shù)據(jù)倉庫概述3、數(shù)據(jù)倉庫的產(chǎn)生:為什么要?jiǎng)?chuàng)建數(shù)據(jù)倉庫?
傳統(tǒng)數(shù)據(jù)庫的處理方式和決策分析中的數(shù)據(jù)需求不相稱,主要表現(xiàn)在:
(1)決策處理的系統(tǒng)響應(yīng)問題在日常事務(wù)處理中,用戶對系統(tǒng)和數(shù)據(jù)庫的要求是數(shù)據(jù)存取頻率要高,操作時(shí)間要短;而在決策分析中,有的決策問題請求可能導(dǎo)致長達(dá)數(shù)小時(shí)的運(yùn)行,有的決策分析問題的解決需要遍歷數(shù)據(jù)庫中大部分?jǐn)?shù)據(jù),這些是日常事務(wù)處理系統(tǒng)所無法承擔(dān)的。因此操作型數(shù)據(jù)和決策型數(shù)據(jù)應(yīng)該分離。
第三十七頁,共一百零六頁。38(2)決策數(shù)據(jù)需求的問題在進(jìn)行決策時(shí),需要有全面的、正確的集成數(shù)據(jù)。如果將數(shù)據(jù)集成問題交給決策分析程序解決,將大大增加決策分析系統(tǒng)的負(fù)擔(dān),并且沒必要在每次進(jìn)行決策分析時(shí)都進(jìn)行數(shù)據(jù)集成。
對在不同的應(yīng)用系統(tǒng)中,存在的同一實(shí)體屬性具有不同數(shù)據(jù)類型、不同字段名稱以及不同格式等,在決策數(shù)據(jù)集成時(shí)需要進(jìn)行轉(zhuǎn)換。決策數(shù)據(jù)需要?jiǎng)討B(tài)更新,并且往往需要一些經(jīng)過匯總、概括的數(shù)據(jù)。山東大學(xué)管理學(xué)院二、數(shù)據(jù)倉庫概述第三十八頁,共一百零六頁。39(3)決策數(shù)據(jù)操作的問題從對數(shù)據(jù)的操作方式上講,日常事務(wù)處理系統(tǒng)遠(yuǎn)遠(yuǎn)不能滿足決策人員的需要,決策分析人員希望以專業(yè)用戶的身份使用各種工具對數(shù)據(jù)進(jìn)行多種形式的操作,對數(shù)據(jù)操作結(jié)果以商業(yè)智能的方式表達(dá)出來,現(xiàn)有系統(tǒng)很難達(dá)到此要求。
山東大學(xué)管理學(xué)院二、數(shù)據(jù)倉庫概述第三十九頁,共一百零六頁。40
由于系統(tǒng)響應(yīng)問題、決策數(shù)據(jù)問題和決策數(shù)據(jù)操作問題的存在,導(dǎo)致企業(yè)無法使用現(xiàn)有的業(yè)務(wù)處理來滿足決策分析的需要,因此決策分析需要一個(gè)能夠不受傳統(tǒng)事務(wù)處理的約束、高效率處理決策分析數(shù)據(jù)的支持環(huán)境,這就是數(shù)據(jù)倉庫存在的價(jià)值。山東大學(xué)管理學(xué)院二、數(shù)據(jù)倉庫概述第四十頁,共一百零六頁。41山東大學(xué)管理學(xué)院二、數(shù)據(jù)倉庫概述3、數(shù)據(jù)倉庫的產(chǎn)生
-1988年IBM愛爾蘭公司第一次提出了“信息倉庫”的概念。-90年代初數(shù)據(jù)倉庫的基本原理、框架架構(gòu),分析系統(tǒng)的主要原則都已經(jīng)確定,主要的技術(shù)已具備,一些公司開始建立數(shù)據(jù)倉庫。-1992年美國著名的信息工程學(xué)家WilliamH.Inmon在《BuildingtheDataWarehouse》(《建立數(shù)據(jù)倉庫》)一書中首先系統(tǒng)的闡述了數(shù)據(jù)倉庫的思想、理論。被人們尊稱為“數(shù)據(jù)倉庫之父”。
第四十一頁,共一百零六頁。42山東大學(xué)管理學(xué)院二、數(shù)據(jù)倉庫概述4、數(shù)據(jù)倉庫的定義數(shù)據(jù)倉庫用來保存從多個(gè)數(shù)據(jù)庫或其它信息源選取的數(shù)據(jù),并為上層應(yīng)用提供統(tǒng)一用戶接口,完成數(shù)據(jù)查詢和分析。數(shù)據(jù)倉庫是作為DSS服務(wù)基礎(chǔ)的分析型DB,用來存放大容量的只讀數(shù)據(jù),為制定決策提供所需要的信息。數(shù)據(jù)倉庫是與操作型系統(tǒng)相分離的、帶有時(shí)間屬性的、面向主題及不可更新的數(shù)據(jù)集合。W.H.Inmon在1992最先提出了數(shù)據(jù)倉庫的概念。按照Inmon的定義,數(shù)據(jù)倉庫是面向主題的、集成的、不可更新的(穩(wěn)定的)、隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合,用于支持經(jīng)營管理中的決策制定過程。
第四十二頁,共一百零六頁。43山東大學(xué)管理學(xué)院二、數(shù)據(jù)倉庫概述4、數(shù)據(jù)倉庫的定義數(shù)據(jù)集市(DataMart)也可叫做“小數(shù)據(jù)倉庫”。如果說數(shù)據(jù)倉庫是建立在企業(yè)級的數(shù)據(jù)模型之上的話。那么數(shù)據(jù)集市就是企業(yè)級數(shù)據(jù)倉庫的一個(gè)子集,他主要面向部門級業(yè)務(wù),并且只面向某個(gè)特定的主題。第四十三頁,共一百零六頁。44山東大學(xué)管理學(xué)院二、數(shù)據(jù)倉庫概述4、數(shù)據(jù)倉庫的定義
第四十四頁,共一百零六頁。45山東大學(xué)管理學(xué)院二、數(shù)據(jù)倉庫概述5、數(shù)據(jù)倉庫的發(fā)展-NCR公司為WalMart建立了第一個(gè)數(shù)據(jù)倉庫。-1996年,加拿大的IDC公司調(diào)查了62家實(shí)現(xiàn)了數(shù)據(jù)倉庫的歐美企業(yè),結(jié)果表明:數(shù)據(jù)倉庫為企業(yè)提供了巨大的收益。-IBM:在其DB2發(fā)布一年后的1998年9月發(fā)布5.2版,并于1998年12月推向中國市場,除了用于OLAP(聯(lián)機(jī)分析處理)的后臺服務(wù)器DB2OLAPServer外,IBM還提供了一系列相關(guān)的數(shù)據(jù)倉庫產(chǎn)品,包括前端工具,形成一整套解決方案。-Informix:在其動(dòng)態(tài)服務(wù)器IDS(InformixDynamicServer)中提供一系列相關(guān)選件,如高級決策支持選件(AdvancedDecisionSupportOption)、OLAP選件(MetaCubeROLAPOption)、擴(kuò)展并行選件(ExtendedParallelOption)等,其中數(shù)據(jù)倉庫和數(shù)據(jù)庫查詢的SQL語句的一致性使得用戶開發(fā)更加簡便。
第四十五頁,共一百零六頁。46山東大學(xué)管理學(xué)院二、數(shù)據(jù)倉庫概述5、數(shù)據(jù)倉庫的發(fā)展-微軟公司:在其SQLServer7.0以及SQLServer2000中集成了OLAP服務(wù)器。SQLServer2005集成了數(shù)據(jù)挖掘組件。-Sybase:提供了專門的OLAP服務(wù)器SybaseIQ,并將其與數(shù)據(jù)倉庫相關(guān)工具打包成WarehouseStudio。-Oracle:推出從數(shù)據(jù)倉庫構(gòu)建、OLAP到數(shù)據(jù)集市管理等一系列產(chǎn)品包(如OracleWarehouseBuilder、OracleExpress、DataMartSuit等)。
第四十六頁,共一百零六頁。47山東大學(xué)管理學(xué)院二、數(shù)據(jù)倉庫概述5、數(shù)據(jù)倉庫的發(fā)展我國數(shù)據(jù)倉庫的發(fā)展現(xiàn)狀:
數(shù)據(jù)倉庫的概念已經(jīng)被國內(nèi)用戶接受多年,但在應(yīng)用方面的收效仍很有限。原因:-尚不存在可靠的、完善的、被廣泛接受的數(shù)據(jù)倉庫標(biāo)準(zhǔn);-現(xiàn)有的數(shù)據(jù)庫系統(tǒng)不健全,數(shù)據(jù)積累還不夠,無法提出決策支持需求;-缺乏能夠擔(dān)負(fù)規(guī)劃、設(shè)計(jì)、構(gòu)建和維護(hù)數(shù)據(jù)倉庫的重任的復(fù)合型人才;-缺乏數(shù)據(jù)倉庫前端工具(如OLAP工具、數(shù)據(jù)挖掘工具等);-由于國內(nèi)外文化的差異,一些用于構(gòu)建數(shù)據(jù)倉庫的知名產(chǎn)品無法處理一些難以預(yù)料的問題,使得建立數(shù)據(jù)倉庫的困難加大。第四十七頁,共一百零六頁。48山東大學(xué)管理學(xué)院二、數(shù)據(jù)倉庫概述5、數(shù)據(jù)倉庫的發(fā)展
我國數(shù)據(jù)倉庫的發(fā)展前景:
隨著計(jì)算機(jī)技術(shù)的發(fā)展,尤其是分布式技術(shù)的發(fā)展,特別是思想觀念的進(jìn)步,數(shù)據(jù)倉庫在我國有著廣闊的發(fā)展空間和良好的發(fā)展前景。-由于銀行商業(yè)化的步伐正在加大和外資銀行的不斷進(jìn)入,各大中型銀行開始重新考慮自身的業(yè)務(wù),特別是信貸風(fēng)險(xiǎn)管理方面特別注意,因而有關(guān)信貸風(fēng)險(xiǎn)管理和風(fēng)險(xiǎn)規(guī)章的基于數(shù)據(jù)倉庫的決策支持系統(tǒng)的需求逐漸增多;-由于電子商務(wù)的迅速發(fā)展,越來越多的電子商務(wù)網(wǎng)站,開始考慮如何將數(shù)據(jù)倉庫應(yīng)用于商品銷售分析、顧客的誠信度分析等,為客戶提供更進(jìn)一步的個(gè)性化服務(wù);-移動(dòng)通信等各種大型企業(yè)也開始考慮著手進(jìn)行決策支持以及數(shù)據(jù)倉庫規(guī)劃。第四十八頁,共一百零六頁。49山東大學(xué)管理學(xué)院二、數(shù)據(jù)倉庫概述6、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系
-數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)可以作為數(shù)據(jù)挖掘的數(shù)據(jù)源數(shù)據(jù)倉庫系統(tǒng)能夠滿足數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)環(huán)境的要求,可以直接作為數(shù)據(jù)挖掘的數(shù)據(jù)源。
-數(shù)據(jù)挖掘的數(shù)據(jù)源不一定必須是數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)挖掘的數(shù)據(jù)源可以是任何數(shù)據(jù)文件或格式,但必須事先進(jìn)行數(shù)據(jù)預(yù)處理,處理成適合數(shù)據(jù)挖掘的數(shù)據(jù)。第四十九頁,共一百零六頁。50山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述1、數(shù)據(jù)挖掘的產(chǎn)生2、數(shù)據(jù)挖掘的定義3、數(shù)據(jù)挖掘與知識發(fā)現(xiàn)4、在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘5、數(shù)據(jù)挖掘的功能6、數(shù)據(jù)挖掘系統(tǒng)的分類7、數(shù)據(jù)挖掘常用技術(shù)8、數(shù)據(jù)挖掘的過程9、數(shù)據(jù)挖掘應(yīng)用領(lǐng)域10、數(shù)據(jù)挖掘的發(fā)展趨勢第五十頁,共一百零六頁。51山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中提取或挖掘知識,就像從礦石中采金第五十一頁,共一百零六頁。52山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述摩爾定律微處理器的性能每隔18個(gè)月提高一倍,而價(jià)格不變。
網(wǎng)絡(luò)化時(shí)代互聯(lián)網(wǎng)用戶數(shù)
網(wǎng)絡(luò)經(jīng)濟(jì)飛速發(fā)展電子商務(wù)市場交易額信息社會(huì)結(jié)果?第五十二頁,共一百零六頁。53山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述結(jié)果之一:信息量過大,難以消化結(jié)果之二:信息真假難以辨別結(jié)果之三:信息安全難以保證結(jié)果之四:信息形式不一致,難以統(tǒng)一處理HowTodealwithit?第五十三頁,共一百零六頁。54山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述數(shù)據(jù)庫越來越大數(shù)據(jù)挖掘有價(jià)值的知識可怕的數(shù)據(jù)第五十四頁,共一百零六頁。55山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述啤酒與尿布的故事全球連鎖零售巨頭沃爾瑪公司NCR公司Teradata(數(shù)據(jù)倉庫)事業(yè)部,提供數(shù)據(jù)倉庫系統(tǒng)第五十五頁,共一百零六頁。56山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述市場需求是技術(shù)發(fā)展的源動(dòng)力“我們花了20多年的時(shí)間將數(shù)據(jù)放入數(shù)據(jù)庫,如今是該將它們拿出來的時(shí)候了?!?/p>
——著名的數(shù)據(jù)挖掘?qū)<襌alphKimball第五十六頁,共一百零六頁。57山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述1、數(shù)據(jù)挖掘的產(chǎn)生
數(shù)據(jù)爆炸——自動(dòng)數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術(shù)使得大量的數(shù)據(jù)被收集,存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中以待分析。
知識饑餓——
我們擁有豐富的數(shù)據(jù),但卻缺乏有用的信息。
問題的解決——
從大量數(shù)據(jù)中找出隱藏在其中的、有用的信息和規(guī)律;計(jì)算機(jī)技術(shù)和信息技術(shù)的發(fā)展使其有能力處理這樣大量的數(shù)據(jù)。第五十七頁,共一百零六頁。58山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述1、數(shù)據(jù)挖掘的產(chǎn)生進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集(60年代)“過去五年中我的總收入是多少?”計(jì)算機(jī)、磁帶和磁盤IBM,CDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(RDBMS),結(jié)構(gòu)化查詢語言(SQL),ODBCOracle、Sybase、Informix、IBM、Microsoft提供歷史性的、動(dòng)態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫(90年代)“新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機(jī)分析處理(OLAP)、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫Pilot、Comshare、Arbor、Cognos、Microstrategy在各種層次上提供回溯的、動(dòng)態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘(正在流行)“下個(gè)月波士頓的銷售會(huì)怎么樣?為什么?”高級算法、多處理器計(jì)算機(jī)、海量數(shù)據(jù)庫SAS、SPSS、IBM、微軟、其他初創(chuàng)公司提供預(yù)測性的信息第五十八頁,共一百零六頁。59山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述1、數(shù)據(jù)挖掘的產(chǎn)生并非所有的東西都是數(shù)據(jù)挖掘
-基于數(shù)據(jù)倉庫的OLAP
OLAP專注于數(shù)據(jù)的匯總,而數(shù)據(jù)挖掘系統(tǒng)可以對數(shù)據(jù)進(jìn)行多種復(fù)雜的處理。-機(jī)器學(xué)習(xí)系統(tǒng),數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng)這些系統(tǒng)所處理的數(shù)據(jù)容量往往很有限。-信息系統(tǒng)專注于數(shù)據(jù)的查詢處理。相比于上述系統(tǒng),數(shù)據(jù)挖掘系統(tǒng)關(guān)注更廣的范圍,是一個(gè)多學(xué)科的融合。第五十九頁,共一百零六頁。60山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述1、數(shù)據(jù)挖掘的產(chǎn)生
數(shù)據(jù)挖掘技術(shù)是一門綜合性的技術(shù)領(lǐng)域,主要涉及數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計(jì)等技術(shù)領(lǐng)域??蓮V泛地應(yīng)用于科學(xué)研究、市場營銷、金融分析、體育比賽等許多方面。
第六十頁,共一百零六頁。61山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述1、數(shù)據(jù)挖掘的產(chǎn)生查詢驅(qū)動(dòng)的OLAP可以按要求將數(shù)據(jù)展示在決策者面前,卻無法自動(dòng)發(fā)現(xiàn)潛藏在數(shù)據(jù)中的有用信息,大大降低了數(shù)據(jù)的使用價(jià)值。為實(shí)現(xiàn)對潛藏信息的自動(dòng)發(fā)掘,90年代中期出現(xiàn)了數(shù)據(jù)挖掘技術(shù)(DataMining)。
-八十年代人工智能(AI)研究項(xiàng)目失敗后,轉(zhuǎn)入實(shí)際應(yīng)用時(shí)提出。
-1989年國際上第一次關(guān)于數(shù)據(jù)挖掘與知識發(fā)現(xiàn)的研討會(huì)在美國的底特律召開,在此次會(huì)議上第一次提出了知識發(fā)現(xiàn)一詞。-1995年,在加拿大召開了第一屆KDD和DM國際學(xué)術(shù)會(huì)議。會(huì)議對KDD和DM做了確切的定義。第六十一頁,共一百零六頁。62山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述2、數(shù)據(jù)挖掘的定義
技術(shù)上的定義:數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
-原始數(shù)據(jù)可以是結(jié)構(gòu)化的;也可以是半結(jié)構(gòu)化的。-數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;-發(fā)現(xiàn)的是用戶感興趣的知識;-發(fā)現(xiàn)的知識要可接受、可理解、可應(yīng)用;-并不要求發(fā)現(xiàn)放之四海而皆準(zhǔn)的普遍規(guī)律,僅支持特定的發(fā)現(xiàn)問題。
第六十二頁,共一百零六頁。63山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述結(jié)構(gòu)化數(shù)據(jù):存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù)叫結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù):不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)即稱為非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、Web頁、各類報(bào)表、圖像和音頻/視頻信息等等。
半結(jié)構(gòu)化數(shù)據(jù):介于兩者之間,具有隱含模式、信息結(jié)構(gòu)不規(guī)則、無嚴(yán)格類型約束等特點(diǎn)。字段可根據(jù)需要擴(kuò)充,即字段數(shù)目不定,例如Exchange存儲的數(shù)據(jù)。第六十三頁,共一百零六頁。64山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述2、數(shù)據(jù)挖掘的定義商業(yè)角度的定義:數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中得到輔助商業(yè)決策的關(guān)鍵數(shù)據(jù)。
企業(yè)數(shù)據(jù)量非常大,而其中真正有價(jià)值的信息卻很少,因此從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運(yùn)作、提高競爭力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也因此而得名。
第六十四頁,共一百零六頁。65山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述2、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別
數(shù)據(jù)挖掘與傳統(tǒng)分析方法(如查詢、報(bào)表、聯(lián)機(jī)應(yīng)用分析等)的本質(zhì)區(qū)別是:數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先前未知、有效和可實(shí)用三個(gè)特征。第六十五頁,共一百零六頁。66山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述3、數(shù)據(jù)挖掘與知識發(fā)現(xiàn)與數(shù)據(jù)挖掘相近的詞有知識發(fā)現(xiàn)、數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。
第六十六頁,共一百零六頁。67山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述第六十七頁,共一百零六頁。68山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述4、在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘-空間數(shù)據(jù)庫空間數(shù)據(jù)庫是指在關(guān)系型數(shù)據(jù)庫(DBMS)內(nèi)部對地理信息進(jìn)行物理存儲??臻g數(shù)據(jù)庫中存儲的海量數(shù)據(jù)包括對象的空間拓?fù)涮卣?、非空間屬性特征以及對象在時(shí)間上的狀態(tài)變化。常見的空間數(shù)據(jù)庫數(shù)據(jù)類型地理信息系統(tǒng)(GIS)遙感圖像數(shù)據(jù)醫(yī)學(xué)圖像數(shù)據(jù)數(shù)據(jù)挖掘技術(shù)的應(yīng)用:通過空間分類和空間趨勢分析,引入機(jī)器學(xué)習(xí)算法,對有用模式進(jìn)行智能檢索第六十八頁,共一百零六頁。69山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述4、在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘-時(shí)間數(shù)據(jù)庫和時(shí)間序列數(shù)據(jù)庫時(shí)間數(shù)據(jù)庫和時(shí)序數(shù)據(jù)庫都存放與時(shí)間有關(guān)的數(shù)據(jù)。時(shí)間數(shù)據(jù)庫通常存放包含時(shí)間相關(guān)屬性的數(shù)據(jù)。時(shí)序數(shù)據(jù)庫存放隨時(shí)間變化的值序列。對時(shí)間數(shù)據(jù)庫和時(shí)序數(shù)據(jù)庫的數(shù)據(jù)挖掘,可以通過研究事物發(fā)生發(fā)展的過程,有助于揭示事物發(fā)展的本質(zhì)規(guī)律,可以發(fā)現(xiàn)數(shù)據(jù)對象的演變特征或?qū)ο笞兓厔?。第六十九頁,共一百零六頁?0山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述4、在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘-流數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫技術(shù)中的靜態(tài)數(shù)據(jù)不同,流數(shù)據(jù)是連續(xù)的、有序的、變化的、快速的、大量的數(shù)據(jù)輸入的數(shù)據(jù)。主要應(yīng)用場合網(wǎng)絡(luò)監(jiān)控網(wǎng)頁點(diǎn)擊流股票市場流媒體…等等與傳統(tǒng)數(shù)據(jù)庫技術(shù)相比,流數(shù)據(jù)在存儲、查詢、訪問、實(shí)時(shí)性的要求等方面都有很大區(qū)別。第七十頁,共一百零六頁。71山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述4、在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘-多媒體數(shù)據(jù)庫多媒體數(shù)據(jù)庫實(shí)現(xiàn)用計(jì)算機(jī)管理龐大復(fù)雜的多媒體數(shù)據(jù),主要包括包括圖形(graphics)、圖象(image)、聲音(audio)、視頻(video)等等,現(xiàn)代數(shù)據(jù)庫技術(shù)一般將這些多媒體數(shù)據(jù)以二進(jìn)制大對象的形式進(jìn)行存儲。對于多媒體數(shù)據(jù)庫的數(shù)據(jù)挖掘,需要將存儲和檢索技術(shù)相結(jié)合。目前的主要方法包括構(gòu)造多媒體數(shù)據(jù)立方體、多媒體數(shù)據(jù)庫的多特征提取和基于相似性的模式匹配。第七十一頁,共一百零六頁。72山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述4、在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘-面向?qū)ο髷?shù)據(jù)庫和對象-關(guān)系數(shù)據(jù)庫面向?qū)ο髷?shù)據(jù)庫是面向?qū)ο蠹夹g(shù)和數(shù)據(jù)庫技術(shù)結(jié)合的產(chǎn)物,該技術(shù)對數(shù)據(jù)以對象的形式進(jìn)行存儲,并在這個(gè)基礎(chǔ)上實(shí)現(xiàn)了傳統(tǒng)數(shù)據(jù)庫的功能,包括持久性、并發(fā)控制、可恢復(fù)性、一致性和查詢數(shù)據(jù)庫的能力等。對象-關(guān)系數(shù)據(jù)庫基于對象-關(guān)系模型構(gòu)造,該模型通過處理復(fù)雜對象的豐富數(shù)據(jù)類型和對象定位等功能,擴(kuò)充關(guān)系模型。面向?qū)ο髷?shù)據(jù)庫和對象-關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)挖掘會(huì)涉及一些新的技術(shù),比如處理復(fù)雜對象結(jié)構(gòu)、復(fù)雜數(shù)據(jù)類型、類和子類層次結(jié)構(gòu)、構(gòu)造繼承以及方法和過程等等。第七十二頁,共一百零六頁。73山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述第七十三頁,共一百零六頁。74山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述5、數(shù)據(jù)挖掘的功能通常,用戶并不知道在數(shù)據(jù)中能挖掘出什么東西,對此我們會(huì)在數(shù)據(jù)挖掘中應(yīng)用一些常用的數(shù)據(jù)挖掘功能,挖掘出一些常用的模式,包括:概念描述:特征性描述和區(qū)別性描述關(guān)聯(lián)分析分類與預(yù)測聚類分析趨勢分析孤立點(diǎn)分析偏差分析
總體上可以分為兩類:Predication用歷史預(yù)測未來Description了解數(shù)據(jù)中潛在的規(guī)律第七十四頁,共一百零六頁。75山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述5、數(shù)據(jù)挖掘的功能(1)概念描述
對某類對象的內(nèi)涵進(jìn)行描述,并概括這類對象的有關(guān)特征。-特征性描述:描述某類對象的共同特征。
例:對某公司的“大客戶”(年消費(fèi)額¥5000以上)的特征性描述為40-50歲,有固定職業(yè),信譽(yù)良好,等等。-區(qū)別性描述:描述不同類對象之間的區(qū)別。例:第七十五頁,共一百零六頁。76山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述5、數(shù)據(jù)挖掘的功能(2)關(guān)聯(lián)分析
若兩個(gè)或多個(gè)變量間存在著某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)分析的目的就是找出數(shù)據(jù)中隱藏的規(guī)律。廣泛的用于購物籃或事務(wù)數(shù)據(jù)分析。
例:第七十六頁,共一百零六頁。77山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述5、數(shù)據(jù)挖掘的功能(3)分類與預(yù)測
分類:依照所分析對象的屬性分門別類、加以定義、建立類組。例:根據(jù)給定的分類規(guī)則可以將信用卡申請人可分為低、中、高風(fēng)險(xiǎn)群。
預(yù)測:利用歷史數(shù)據(jù)建立模型,再運(yùn)用最新數(shù)據(jù)作為輸入值,獲得未來變化的趨勢或者評估給定樣本可能具有的屬性值或值的范圍。例:根據(jù)已有客戶數(shù)據(jù)模型,可以預(yù)測將來客戶的消費(fèi)行為。第七十七頁,共一百零六頁。78山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述5、數(shù)據(jù)挖掘的功能(4)聚類分析客觀的按被處理對象的特征分類,將有相同特征的對象歸為一類。也就是,將物理或抽象對象的集合分組成為由類似的對象組成的多個(gè)類的過程。例:對在一個(gè)商場購買力較大的顧客居住地進(jìn)行聚類分析,以幫助商場針對相應(yīng)顧客群采取有針對性的營銷策略。
最大化類內(nèi)的相似性和最小化類間的相似性
分類與聚類的區(qū)別:分類中分類規(guī)則需要預(yù)先定義類別和訓(xùn)練樣本,而聚類分析直接面向源數(shù)據(jù),所有記錄根據(jù)彼此相似程度來歸類。第七十八頁,共一百零六頁。79山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述5、數(shù)據(jù)挖掘的功能(5)趨勢分析
趨勢分析又稱為時(shí)間序列分析,是從相當(dāng)長的時(shí)間的發(fā)展中發(fā)現(xiàn)規(guī)律和趨勢。
例:根據(jù)過去幾年的股票市場(時(shí)間序列)數(shù)據(jù),用趨勢分析可以發(fā)現(xiàn)整個(gè)股票市場或某支股票的變化規(guī)律。如:它可以導(dǎo)出類似“若AT&T股票連續(xù)上漲兩天且DEC股票不下跌,則第三天IBM股票上漲的可能性為75%”的數(shù)據(jù)關(guān)系。第七十九頁,共一百零六頁。80山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述5、數(shù)據(jù)挖掘的功能(6)孤立點(diǎn)分析
孤立點(diǎn):數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)。通常孤立點(diǎn)被作為“噪音”或異常被丟棄,但在欺騙檢測中卻可以通過對罕見事件進(jìn)行孤立點(diǎn)分析而得到結(jié)論。
應(yīng)用:信用卡欺詐檢測移動(dòng)電話欺詐檢測客戶劃分醫(yī)療分析(異常)第八十頁,共一百零六頁。81山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述5、數(shù)據(jù)挖掘的功能(7)偏差分析
偏差分析又稱為比較分析,是對差異和極端特例的描述,揭示事物偏離常規(guī)的異?,F(xiàn)象。偏差包括很多潛在的知識,如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差量值隨時(shí)間的變化等。第八十一頁,共一百零六頁。82山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述第八十二頁,共一百零六頁。83山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述6、數(shù)據(jù)挖掘系統(tǒng)的分類(2)根據(jù)挖掘的知識類型特征分析,關(guān)聯(lián)分析,分類聚類,孤立點(diǎn)分析,趨勢分析,偏差分析等等。(3)根據(jù)挖掘所用的技術(shù)面向數(shù)據(jù)庫的挖掘、數(shù)據(jù)倉庫、OLAP、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、可視化等。(4)根據(jù)應(yīng)用分類金融,電信,銀行,欺詐分析,DNA分析,股票市場,Web挖掘等等。第八十三頁,共一百零六頁。84山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述7、數(shù)據(jù)挖掘常用技術(shù)(1)數(shù)據(jù)挖掘算法是數(shù)據(jù)挖掘技術(shù)的一部分。(2)數(shù)據(jù)挖掘技術(shù)用于執(zhí)行數(shù)據(jù)挖掘功能。(3)一個(gè)特定的數(shù)據(jù)挖掘功能只適用于給定的領(lǐng)域。
按照上述思想,數(shù)據(jù)挖掘技術(shù)主要包含以下幾種:第八十四頁,共一百零六頁。85山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述7、數(shù)據(jù)挖掘常用技術(shù)(1)聚類檢測方法聚類檢測也稱為無指導(dǎo)的知識發(fā)現(xiàn)或無監(jiān)督學(xué)習(xí),聚類生成的組叫簇,簇是數(shù)據(jù)對象的集合。聚類檢測就是使同一個(gè)簇內(nèi)的任意兩個(gè)對象之間具有較高的相似性,不同簇的兩個(gè)對象之間具有較高的相異性。
聚類檢測方法有:劃分的方法、層次的方法、基于密度的方法、基于網(wǎng)絡(luò)的方法和基于模型的方法等??蛻艏?xì)分市場細(xì)分第八十五頁,共一百零六頁。86山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述7、數(shù)據(jù)挖掘常用技術(shù)(2)決策樹方法應(yīng)用于分類和預(yù)測,提供了一種展示在什么條件下會(huì)得到什么值這類規(guī)則的方法。一個(gè)決策樹表示一系列的問題,每個(gè)問題決定了繼續(xù)下去的問題會(huì)是什么。決策樹的基本組成包括決策節(jié)點(diǎn)、分支和葉子。適合于處理非數(shù)值型數(shù)據(jù),需要在生成決策樹后再對決策樹進(jìn)行剪枝處理,最后將決策樹轉(zhuǎn)化為規(guī)則,用于對新事例進(jìn)行分類。Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40K傾向性分析第八十六頁,共一百零六頁。87山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述7、數(shù)據(jù)挖掘常用技術(shù)(3)人工神經(jīng)網(wǎng)絡(luò)方法主要用于分類、聚類、特征挖掘、預(yù)測等方面。通過向一個(gè)訓(xùn)練數(shù)據(jù)集學(xué)習(xí)和應(yīng)用所學(xué)知識生成分類和預(yù)測的模式。神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)分為輸入層、輸出層和隱含層(中間層)。
人工神經(jīng)網(wǎng)絡(luò)方法:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)和自組織網(wǎng)絡(luò)。
QQQQII123456factor1factor2factorn傾向性分析客戶保留目標(biāo)市場欺詐檢測第八十七頁,共一百零六頁。88山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述7、數(shù)據(jù)挖掘常用技術(shù)(4)關(guān)聯(lián)分析方法適合于從關(guān)系中挖掘知識。包含關(guān)聯(lián)發(fā)現(xiàn)、序列模式發(fā)現(xiàn)和類似的時(shí)序發(fā)現(xiàn)等。-關(guān)聯(lián)發(fā)現(xiàn)算法:得到關(guān)聯(lián)規(guī)則、找出關(guān)聯(lián)組合,在關(guān)聯(lián)組合中,如果出現(xiàn)某一項(xiàng),則另一項(xiàng)也會(huì)出現(xiàn)。-序列模式發(fā)現(xiàn)算法:發(fā)現(xiàn)在時(shí)間序列上,一個(gè)項(xiàng)目集之后的項(xiàng)目集是什么,即找到時(shí)間上連續(xù)的事件。-類似的時(shí)序發(fā)現(xiàn)算法:先找到一個(gè)事件順序,再推測出其他類似的事件順序。
市場組合分析套裝產(chǎn)品分析目錄設(shè)計(jì)交叉銷售第八十八頁,共一百零六頁。89山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述7、數(shù)據(jù)挖掘常用技術(shù)(5)遺傳算法
模仿人工選擇培育良種的思路,從一個(gè)初始規(guī)則集合開始,迭代的通過交換對象成員(雜交、基因突變)產(chǎn)生群體(繁殖),評估并擇優(yōu)復(fù)制逐代積累計(jì)算,最終得到最有價(jià)值的知識集。遺傳算法基本算子:繁殖、交叉和變異。信號處理人工生命自適應(yīng)控制第八十九頁,共一百零六頁。90山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述7、數(shù)據(jù)挖掘常用技術(shù)(6)基于記憶的推理算法使用一個(gè)模型的已知實(shí)例來預(yù)測未知的實(shí)例。
3個(gè)關(guān)鍵問題:-選擇合適的歷史記錄形成基本數(shù)據(jù)集;-找出構(gòu)成歷史記錄的最好方法;-解決如何找到“最好的”鄰居。OpenAccn’tAddNewProductDecreaseUsage???Time客戶保留客戶生命周期管理目標(biāo)市場第九十頁,共一百零六頁。91山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述8、數(shù)據(jù)挖掘的過程(1)確定業(yè)務(wù)對象(2)數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)的選擇、數(shù)據(jù)的預(yù)處理和數(shù)據(jù)的轉(zhuǎn)換。(3)數(shù)據(jù)挖掘(4)結(jié)果分析及知識同化第九十一頁,共一百零六頁。92山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述9、數(shù)據(jù)挖掘應(yīng)用領(lǐng)域
金融業(yè)——對賬戶進(jìn)行信用等級的評估——分析信用卡的使用模式——進(jìn)行股票分析——探測金融政策與行情間的關(guān)系第九十二頁,共一百零六頁。93山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述9、數(shù)據(jù)挖掘應(yīng)用領(lǐng)域保險(xiǎn)業(yè)——保險(xiǎn)金的確定——險(xiǎn)種關(guān)聯(lián)分析——其他預(yù)測第九十三頁,共一百零六頁。94山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述9、數(shù)據(jù)挖掘應(yīng)用實(shí)例零售業(yè)——分析顧客的購買行為和習(xí)慣——分析商場的銷售商品的構(gòu)成——其他應(yīng)用第九十四頁,共一百零六頁。95山東大學(xué)管理學(xué)院三、數(shù)據(jù)挖掘概述9、數(shù)據(jù)挖掘應(yīng)用領(lǐng)域科學(xué)研究——自然科學(xué)——社會(huì)科學(xué)——其他應(yīng)用第九
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025天津市建筑安全員A證考試題庫附答案
- 生物-四川省金太陽2025屆高三2月開學(xué)考試試題和答案
- 2025年度房產(chǎn)出售代理售后服務(wù)協(xié)議
- 2025年度化工原料運(yùn)輸事故應(yīng)急預(yù)案合同
- 2025年度文化藝術(shù)公司公司掛靠文化藝術(shù)交流活動(dòng)合同
- 2025年度農(nóng)村魚塘養(yǎng)殖權(quán)轉(zhuǎn)讓與漁業(yè)資源可持續(xù)利用合同
- 2025年度圖書出版著作權(quán)許可及翻譯權(quán)合同
- 2025年度電商運(yùn)營顧問勞動(dòng)合同
- 2025年度商業(yè)地產(chǎn)開發(fā)車位贈(zèng)送及使用維護(hù)合同
- 2025年度個(gè)人自愿捐贈(zèng)殘疾人福利基金協(xié)議書
- 美麗的春天課件
- 2025年山東青島自貿(mào)發(fā)展有限公司招聘筆試參考題庫含答案解析
- 液化氣罐的使用和安全防范
- 會(huì)計(jì)法律法規(guī)答題答案
- 2024年山東外貿(mào)職業(yè)學(xué)院高職單招語文歷年參考題庫含答案解析
- 2025江蘇常州溧陽市部分機(jī)關(guān)事業(yè)單位招聘編外人員78人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025年學(xué)校心理健康教育工作計(jì)劃(三篇)
- 2025年教科版科學(xué)五年級下冊教學(xué)計(jì)劃(含進(jìn)度表)
- 北師大版一年級語文下冊第一單元元宵節(jié)《1元宵節(jié)》
- 歐盟一般食品法Regulation-(EC)-No-178-2002中文翻譯
- 2024屆高考語文二輪復(fù)習(xí)詩歌專題訓(xùn)練文學(xué)短評類題型(含解析)
評論
0/150
提交評論