CRM系統(tǒng)中的商業(yè)智能技術(shù)培訓(xùn)課件_第1頁(yè)
CRM系統(tǒng)中的商業(yè)智能技術(shù)培訓(xùn)課件_第2頁(yè)
CRM系統(tǒng)中的商業(yè)智能技術(shù)培訓(xùn)課件_第3頁(yè)
CRM系統(tǒng)中的商業(yè)智能技術(shù)培訓(xùn)課件_第4頁(yè)
CRM系統(tǒng)中的商業(yè)智能技術(shù)培訓(xùn)課件_第5頁(yè)
已閱讀5頁(yè),還剩77頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第7章CRM系統(tǒng)中的商業(yè)智能技術(shù)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)挖掘理解三種技術(shù)的的應(yīng)用CRM系統(tǒng)中商業(yè)智能技術(shù)本章主要內(nèi)容:)聯(lián)機(jī)分析處理數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第一節(jié)商業(yè)智能商業(yè)智能是從大量的數(shù)據(jù)和信息中發(fā)掘有用的知識(shí),并用于決策以增加商業(yè)利潤(rùn),是一個(gè)從數(shù)據(jù)到信息到知識(shí)的處理過程。商業(yè)智能用來輔助商業(yè)活動(dòng)作出快速反應(yīng),加快知識(shí)的獲取速度,減少企業(yè)不確定性因素的影響。因此能很好地滿足管理層和決策層對(duì)信息知識(shí)的時(shí)間性和準(zhǔn)確性的要求。商業(yè)智能在我國(guó)尚處于起步階段,雖然其在發(fā)展和應(yīng)用過程中仍存在很多不足,但商業(yè)智能正朝著實(shí)時(shí)性、標(biāo)準(zhǔn)化、集成性、實(shí)用性、大眾化方向發(fā)展。

商業(yè)智能的定義數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能支撐技術(shù):數(shù)據(jù)倉(cāng)庫(kù)為平臺(tái),數(shù)據(jù)挖掘OLAP互補(bǔ),進(jìn)行分析體系結(jié)構(gòu):以Web服務(wù)形式提供,以XML形式發(fā)放BI應(yīng)用的分析結(jié)果是新的發(fā)展趨勢(shì)。應(yīng)用系統(tǒng):BI系統(tǒng)將更具專業(yè)化和行業(yè)化的特點(diǎn),與企業(yè)門戶、企業(yè)應(yīng)用集成緊密相連商業(yè)智能的發(fā)展商業(yè)智能的發(fā)展第一節(jié)商業(yè)智能數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能數(shù)據(jù)倉(cāng)庫(kù)決策支持企業(yè)決策層OLAP數(shù)據(jù)挖掘數(shù)據(jù)存儲(chǔ)提取、清洗、轉(zhuǎn)化業(yè)務(wù)數(shù)據(jù)庫(kù)決策信息反饋到實(shí)際的業(yè)務(wù)系統(tǒng)中

商業(yè)智能系統(tǒng)的構(gòu)成商業(yè)智能系統(tǒng)由業(yè)務(wù)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)、決策支持系統(tǒng)等部分構(gòu)成。圖7-12商業(yè)智能系統(tǒng)的數(shù)據(jù)處理循環(huán)第一節(jié)商業(yè)智能數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能商務(wù)智能系統(tǒng)的三大支撐技術(shù)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)

OLAP

數(shù)據(jù)倉(cāng)庫(kù)完成了數(shù)據(jù)的收集、集成、存儲(chǔ)、管理等工作,商務(wù)智能面對(duì)的是經(jīng)過加工的數(shù)據(jù),能更專注于信息的提取和知識(shí)的發(fā)現(xiàn)。OLAP從多種角度對(duì)原始數(shù)據(jù)進(jìn)行分析,將其轉(zhuǎn)化為用戶所理解、并真實(shí)反映企業(yè)經(jīng)營(yíng)情況的信息,為決策提供依據(jù)。數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘技術(shù)能高度自動(dòng)化地分析數(shù)據(jù),做出歸納性推理,挖掘出潛在的模式,幫助決策者作出正確的決策。

商業(yè)智能系統(tǒng)的支撐技術(shù)第一節(jié)商業(yè)智能數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能客戶智能是創(chuàng)新和使用客戶知識(shí),幫助企業(yè)提高優(yōu)化客戶關(guān)系的決策能力和整體運(yùn)營(yíng)能力的概念、方法、過程以及軟件的集合。

客戶智能客戶智能的理解理論基礎(chǔ)信息系統(tǒng)層面數(shù)據(jù)分析層面知識(shí)發(fā)現(xiàn)層面戰(zhàn)略層面

客戶智能的定義第一節(jié)商業(yè)智能數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能客戶知識(shí),顧名思義,是有關(guān)客戶的知識(shí)??蛻糁R(shí)包括客戶的消費(fèi)偏好、喜歡選用的接觸渠道、消費(fèi)特征等許多描述客戶的知識(shí)??蛻糁R(shí)是人們通過實(shí)踐認(rèn)識(shí)到的、與客戶有關(guān)的規(guī)律性,而客戶智能是獲得客戶知識(shí)并使用客戶知識(shí)求解問題的能力。客戶智能是對(duì)企業(yè)戰(zhàn)略決策真正有價(jià)值的事物和行動(dòng)。生成客戶知識(shí)的過程稱之為客戶知識(shí)的加工處理過程,客戶智能不僅包括了客戶知識(shí)的生成,而且強(qiáng)調(diào)了客戶知識(shí)在企業(yè)中的分發(fā)、使用,直到產(chǎn)生客戶智能。

客戶知識(shí)第一節(jié)商業(yè)智能數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能客戶知識(shí)生成客戶知識(shí)分發(fā)客戶檔案客戶知識(shí)使用營(yíng)銷客戶服務(wù)。。。??蛻糁悄芸蛻糁悄軋D7-13客戶智能的生成、分發(fā)和使用第一節(jié)商業(yè)智能數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能

(1)客戶知識(shí)的生成(generation):使用商業(yè)智能提供的OLAP分析工具、數(shù)據(jù)挖掘工具或兩種工具的組合,發(fā)現(xiàn)存在于客戶數(shù)據(jù)中的模式、規(guī)則、概念、規(guī)律的整個(gè)過程,稱為客戶知識(shí)的生成。

(2)客戶知識(shí)的分發(fā)(distribution):客戶知識(shí)必須到達(dá)組織內(nèi)每一個(gè)需要客戶知識(shí)的部分。將客戶知識(shí)存儲(chǔ)與動(dòng)態(tài)知識(shí)庫(kù),借助CRM的系統(tǒng)平臺(tái),將客戶知識(shí)分發(fā)到需要的終端。

(3)客戶知識(shí)的使用(usingit):將客戶信息和知識(shí)投入使用是CRM的最后一個(gè)環(huán)節(jié)。許多CRM和知識(shí)發(fā)現(xiàn)沒有成功,很大程度上在于產(chǎn)生的與客戶有關(guān)的信息和知識(shí)不能投入使用。第一節(jié)商業(yè)智能數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)概述數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生沒有(一致的)全局信息→很難產(chǎn)生正確的決策沒有(完整的)歷史數(shù)據(jù)→歷史數(shù)據(jù)分析(經(jīng)驗(yàn))發(fā)展趨勢(shì)預(yù)測(cè)隱含信息挖掘→更難支持企業(yè)決策研究企業(yè)范圍內(nèi)的數(shù)據(jù)集成多數(shù)據(jù)庫(kù)系統(tǒng)面向問題的分析海量數(shù)據(jù)存儲(chǔ)產(chǎn)生一項(xiàng)新的信息技術(shù)

DataWarehousingDW的概念起源于20世紀(jì)80年代美國(guó)著名信息工程學(xué)家W.H.Inmon博士RecordSystemAtomicData→提出數(shù)據(jù)倉(cāng)庫(kù)的概念DecisionSupportDatabase數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)概述早期數(shù)據(jù)倉(cāng)庫(kù)的定義的重要文獻(xiàn):

MartinHubel1986.10DataBaseandtheDataWarehousingConcept

數(shù)據(jù)倉(cāng)庫(kù)的定義B.A.DevilinP.T.Murphy

AnArchitectureforaBusinessandInformationSystem—IBMSystemJournal其中,披露了一項(xiàng)IBM的內(nèi)部研究計(jì)劃目的:構(gòu)造一種“以關(guān)系數(shù)據(jù)庫(kù)為基礎(chǔ)的公司數(shù)據(jù)的集成化倉(cāng)儲(chǔ)”倉(cāng)儲(chǔ)的使用者:不是IT人員而是各級(jí)決策者→數(shù)據(jù)倉(cāng)庫(kù)1991年,IBM公司正式公布其DW構(gòu)架INDEPTH→成功開發(fā)DW數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)概述數(shù)據(jù)倉(cāng)庫(kù)(datawarehouse)是一個(gè)面向主題的(subjectoriented)、集成的(integrated)、非易失的(non-volatile)、隨時(shí)間變化的(timevariant)數(shù)據(jù)集合,用于支持管理決策。面向主題集成性非易失性時(shí)變性

在數(shù)據(jù)倉(cāng)庫(kù)中,所有數(shù)據(jù)都是圍繞一定主題進(jìn)行。對(duì)于同一主題:關(guān)系數(shù)據(jù)庫(kù)中,數(shù)據(jù)分布在相關(guān)的數(shù)據(jù)表中,在數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)存放在同一數(shù)據(jù)表中。數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)都經(jīng)過清洗、過濾、轉(zhuǎn)換。都有統(tǒng)一得格式、消除了源數(shù)據(jù)中結(jié)構(gòu)、表示方式、代碼含義,不一致性

對(duì)于支持決策,歷史數(shù)據(jù)非常重要。數(shù)據(jù)一旦寫入,幾乎不再更改,除非錯(cuò)誤。對(duì)數(shù)據(jù)倉(cāng)庫(kù)的操作只是數(shù)據(jù)追加。所以數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)是非易失的(穩(wěn)定的)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)是只增不刪的,所以記錄了所有的數(shù)據(jù)。反映企業(yè)各個(gè)時(shí)期的信息,即反映企業(yè)隨時(shí)間動(dòng)態(tài)變化的數(shù)據(jù)。

數(shù)據(jù)倉(cāng)庫(kù)的定義數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)概述面向主題案例數(shù)據(jù)結(jié)構(gòu):銷售管理系統(tǒng)顧客(顧客號(hào),姓名,性別,年齡,文化程度,地址,電話)銷售(員工號(hào),顧客號(hào),商品號(hào),數(shù)量,單價(jià),日期)采購(gòu)管理系統(tǒng)訂單(訂單號(hào),供應(yīng)商號(hào),總金額,日期)訂單細(xì)則(訂單號(hào),商品號(hào),類別,單價(jià),數(shù)量)供應(yīng)商(供應(yīng)商號(hào),供應(yīng)商名,地址,電話)庫(kù)存管理系統(tǒng)領(lǐng)料單(領(lǐng)料單號(hào),領(lǐng)料人,商品號(hào),數(shù)量,日期)進(jìn)料單(進(jìn)料單號(hào),訂單號(hào),進(jìn)料人,收料人,日期)庫(kù)存(商品號(hào),庫(kù)房號(hào),庫(kù)存量,日期)庫(kù)房(庫(kù)房號(hào),倉(cāng)庫(kù)管理員,地點(diǎn),庫(kù)存商品描述)數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)概述面向主題案例這種數(shù)據(jù)組織的特點(diǎn):對(duì)相關(guān)部門的數(shù)據(jù)進(jìn)行收集和處理,重點(diǎn)是“數(shù)據(jù)”和“處理”數(shù)據(jù)按部門的組織結(jié)構(gòu)和業(yè)務(wù)活動(dòng)特點(diǎn)進(jìn)行;數(shù)據(jù)是不斷變化和反復(fù)更新的,所以,是動(dòng)態(tài)的,要求的是處理的速度和即時(shí)性(只反映當(dāng)時(shí)的情況);數(shù)據(jù)庫(kù)中存儲(chǔ)的表與部門中的業(yè)務(wù)報(bào)表基本上是對(duì)應(yīng)的,所以,直觀,處理方便,易理解;數(shù)據(jù)庫(kù)建立的本質(zhì):數(shù)據(jù)與處理分離(在程序中不分離)因?yàn)椋汉芏鄳?yīng)用涉及同一數(shù)據(jù)項(xiàng),而同一數(shù)據(jù)項(xiàng)分散在不同的

數(shù)據(jù)庫(kù)中→造成數(shù)據(jù)的不一致性。

這樣的數(shù)據(jù)處理方式稱為“聯(lián)機(jī)事務(wù)處理”

——OLTP

數(shù)據(jù)庫(kù)的存儲(chǔ)要求冗余?。ǜ鞣N范式)速度快(保留一定的冗余)數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)概述按主題組織數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu):

商品商品固有信息(商品號(hào),商品名,類別,顏色,…)商品采購(gòu)信息(商品號(hào),供應(yīng)商號(hào),供應(yīng)價(jià),供應(yīng)日期,供應(yīng)量,…)商品銷售信息(商品號(hào),顧客號(hào),售價(jià),銷售日期,銷售量,….)商品庫(kù)存信息(商品號(hào),庫(kù)房號(hào),庫(kù)存量,日期,…)

供應(yīng)商供應(yīng)商固有信息(供應(yīng)商號(hào),供應(yīng)信息,地址,電話,…)供應(yīng)商品信息(供應(yīng)商號(hào),商品號(hào),供應(yīng)價(jià),供應(yīng)日期,供應(yīng)量,…)

顧客顧客固有信息(顧客號(hào),顧客名,性別,年齡,文化程度,住址,電話,…)顧客購(gòu)物信息(顧客號(hào),商品號(hào),售價(jià),購(gòu)買日期,購(gòu)買量,…)①企業(yè)關(guān)心的業(yè)務(wù)方向:客戶,商品,供應(yīng)商②對(duì)上述分析對(duì)象,可圍繞主題進(jìn)行數(shù)據(jù)組織:采購(gòu)銷售庫(kù)存商品(一致)信息,便于聯(lián)機(jī)分析處理OLAP數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能(1)數(shù)據(jù)粒度粒度級(jí)別綜合程度數(shù)據(jù)量數(shù)據(jù)細(xì)節(jié)(詳細(xì)度)高高小低低低大高面向數(shù)據(jù)挖掘面向OLAP粒度的大小反映數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)綜合程度。粒度越小,數(shù)據(jù)越詳細(xì),數(shù)據(jù)量也越大。(表7-1)反映的是抽樣率。抽樣率的確定取決于源數(shù)據(jù)量的大小和數(shù)據(jù)挖掘的具體要求。源數(shù)據(jù)量越大,抽樣率越低。表7-1數(shù)據(jù)粒度的相關(guān)指標(biāo)數(shù)據(jù)粒度的劃分是設(shè)計(jì)最重要的工作,需考慮數(shù)據(jù)倉(cāng)庫(kù)可接受的分析類型和最低粒度以及能存儲(chǔ)的數(shù)據(jù)量。一般數(shù)據(jù)倉(cāng)庫(kù)都選擇多重粒度的結(jié)構(gòu)。重要概念第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能數(shù)據(jù)分割常見形式垂直分割水平分割圖解分割(2)數(shù)據(jù)分割

數(shù)據(jù)分割就是將大量的數(shù)據(jù)分成獨(dú)立的、較小的單元進(jìn)行存儲(chǔ)以提高數(shù)據(jù)處理的效率。在進(jìn)行分割時(shí)要考慮數(shù)據(jù)量、數(shù)據(jù)對(duì)象和粒度劃分策略等幾個(gè)方面。一個(gè)表垂直分成兩部分,把一個(gè)大表分成兩個(gè)表,表之間通過關(guān)鍵字段關(guān)聯(lián)。表按行分成兩部分,表被用來存儲(chǔ)用戶聯(lián)系緊密的本地重要數(shù)據(jù),減少網(wǎng)絡(luò)查詢。經(jīng)過多個(gè)分布系統(tǒng)把一個(gè)圖分解成兩部分,從指定的服務(wù)器或在多個(gè)服務(wù)器之間建立連接而得到一個(gè)表所需要的全部數(shù)據(jù)。第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)概述特性數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)面向業(yè)務(wù)操作數(shù)據(jù)分析存儲(chǔ)讀寫操作多為只讀使用頻率高較低數(shù)據(jù)訪問量少多要求的響應(yīng)時(shí)間較短可以很長(zhǎng)關(guān)注數(shù)據(jù)輸入信息輸出

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的區(qū)別表7-2數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別

數(shù)據(jù)庫(kù)只存儲(chǔ)當(dāng)前數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)存放歷史數(shù)據(jù);數(shù)據(jù)庫(kù)主要面向業(yè)務(wù)操作,而數(shù)據(jù)倉(cāng)庫(kù)面向數(shù)據(jù)分析和決策支持;數(shù)據(jù)庫(kù)中的數(shù)據(jù)是動(dòng)態(tài)變化的,隨時(shí)刷新,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是靜態(tài)的,一般不會(huì)改變;數(shù)據(jù)庫(kù)使用頻率比數(shù)據(jù)倉(cāng)庫(kù)高,數(shù)據(jù)訪問量少,要求響應(yīng)時(shí)間短。數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能企業(yè)外部數(shù)據(jù)

數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)

業(yè)務(wù)操作型系統(tǒng)數(shù)據(jù)清洗/轉(zhuǎn)換數(shù)據(jù)提取提取倉(cāng)庫(kù)數(shù)據(jù)挖掘系統(tǒng)/數(shù)據(jù)展現(xiàn)系統(tǒng)數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)集市

數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)數(shù)據(jù)元數(shù)據(jù)圖7-3數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)圖第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能

數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)

由于數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的出發(fā)點(diǎn)不同,因此數(shù)據(jù)倉(cāng)庫(kù)與業(yè)務(wù)數(shù)據(jù)庫(kù)系統(tǒng)是相互獨(dú)立的,但數(shù)據(jù)倉(cāng)庫(kù)又同業(yè)務(wù)數(shù)據(jù)庫(kù)系統(tǒng)密切相關(guān)。數(shù)據(jù)倉(cāng)庫(kù)是將業(yè)務(wù)操作型系統(tǒng)中的數(shù)據(jù)提取出來,輔以企業(yè)外部數(shù)據(jù),這些數(shù)據(jù)經(jīng)過清洗和轉(zhuǎn)換,存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中。數(shù)據(jù)倉(cāng)庫(kù)不只存儲(chǔ)業(yè)務(wù)數(shù)據(jù),還存儲(chǔ)記錄數(shù)據(jù)信息的元數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)中還可以抽取部門型數(shù)據(jù)倉(cāng)庫(kù),即數(shù)據(jù)集市。數(shù)據(jù)最終傳送給數(shù)據(jù)挖掘系統(tǒng)或數(shù)據(jù)展現(xiàn)系統(tǒng),以供數(shù)據(jù)分析或展現(xiàn)給用戶。所以,數(shù)據(jù)倉(cāng)庫(kù)不是簡(jiǎn)單地對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),而是對(duì)數(shù)據(jù)進(jìn)行“再組織”。第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能傳統(tǒng)數(shù)據(jù)庫(kù)面向操作型環(huán)境,系統(tǒng)設(shè)計(jì)人員能夠明確了解用戶需求,因此傳統(tǒng)數(shù)據(jù)庫(kù)一般采用系統(tǒng)生命周期法(systemdevelopmentlifecycle,SDLC)。而數(shù)據(jù)倉(cāng)庫(kù)面向分析型應(yīng)用,設(shè)計(jì)人員要在與用戶不斷溝通的基礎(chǔ)上,逐步明確與完善系統(tǒng)需求,因此數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)采用CLDS(cyclelifedevelopmentsystem)方法。需求分析貫穿整個(gè)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)過程。數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)方法與步驟第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)方法與步驟第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)概述圖7-4SDLC方法和CLDS方法比較數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)方法與步驟第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)概述表7-3數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與數(shù)據(jù)庫(kù)設(shè)計(jì)的區(qū)別比較內(nèi)容數(shù)據(jù)庫(kù)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)面向的處理類型面向操作型應(yīng)用面向分析型應(yīng)用應(yīng)用需求比較明確不太明確系統(tǒng)設(shè)計(jì)的目標(biāo)事務(wù)處理的并發(fā)性、安全性保證數(shù)據(jù)有面向主題、集成穩(wěn)定和隨時(shí)間變化等特點(diǎn)數(shù)據(jù)來源業(yè)務(wù)操作員輸入業(yè)務(wù)系統(tǒng)系統(tǒng)設(shè)計(jì)方法需求驅(qū)動(dòng)數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)方法與步驟第二節(jié)數(shù)據(jù)倉(cāng)庫(kù)概述圖7-5數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的主要步驟數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第三節(jié)CRM系統(tǒng)中的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)最終用戶信息使用者知識(shí)挖掘者

數(shù)據(jù)倉(cāng)庫(kù)的用戶

信息使用者使用數(shù)據(jù)倉(cāng)庫(kù)是經(jīng)常性的、重復(fù)性的,只訪問很少的一部分?jǐn)?shù)據(jù)。每次查詢也許是相同的幾個(gè)指標(biāo),運(yùn)用數(shù)據(jù)倉(cāng)庫(kù)可以快速、準(zhǔn)確地得到他們所需要的信息。信息使用者是操作型用戶。

知識(shí)挖掘者不只查詢數(shù)據(jù)倉(cāng)庫(kù)目前能夠提供的信息,還通過數(shù)據(jù)分析找到其中的隱含信息,用以發(fā)現(xiàn)更深層次的知識(shí)來指導(dǎo)決策。知識(shí)挖掘者是分析型用戶。知識(shí)挖掘者在使用數(shù)據(jù)倉(cāng)庫(kù)時(shí),先對(duì)數(shù)據(jù)進(jìn)行概括分析,然后根據(jù)需要從數(shù)據(jù)倉(cāng)庫(kù)中抽取數(shù)據(jù),對(duì)抽取出來的數(shù)據(jù)選擇合適的數(shù)據(jù)挖掘算法進(jìn)行建模分析,最后是根據(jù)建模分析得到的知識(shí)對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行分類處理。數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能客戶數(shù)據(jù)倉(cāng)庫(kù)的功能動(dòng)態(tài)、整合的客戶數(shù)據(jù)管理和查詢功能基于數(shù)據(jù)倉(cāng)庫(kù)支持的客戶關(guān)系結(jié)構(gòu)和忠誠(chéng)客戶識(shí)別功能基于WEB數(shù)據(jù)倉(cāng)庫(kù)的信息共享功能基于數(shù)據(jù)倉(cāng)庫(kù)支持的客戶購(gòu)買行為參考功能基于數(shù)據(jù)倉(cāng)庫(kù)支持的客戶流失警示功能

CRM系統(tǒng)中數(shù)據(jù)倉(cāng)庫(kù)的功能CRM的數(shù)據(jù)倉(cāng)庫(kù)必須是動(dòng)態(tài)的、整合的數(shù)據(jù)庫(kù)系統(tǒng)。動(dòng)態(tài)指數(shù)據(jù)庫(kù)能夠?qū)崟r(shí)地提供客戶的基本資料和歷史交易行為等信息,并在客戶每次交易完成后,能夠自動(dòng)補(bǔ)充新的信息;整合是指客戶數(shù)據(jù)庫(kù)與企業(yè)其他資源和信息系統(tǒng)要綜合、統(tǒng)一,各業(yè)務(wù)部門及人員可根據(jù)職能、權(quán)限的不同實(shí)施信息查詢和更新功能,客戶數(shù)據(jù)倉(cāng)庫(kù)與企業(yè)的各交易渠道和聯(lián)絡(luò)中心必須緊密結(jié)合等。

實(shí)施忠誠(chéng)客戶管理的企業(yè)需要制定一套合理的建立和保持客戶關(guān)系的格式或結(jié)構(gòu)。即企業(yè)要像建立雇員的提升計(jì)劃一樣,建立一套把新客戶提升為老客戶的計(jì)劃和方法。例如,航空公司的里程積累計(jì)劃——客戶飛行了一定的里程數(shù),便可以獲得相應(yīng)的免費(fèi)里程,或根據(jù)客戶要求提升艙位等級(jí)等。

企業(yè)運(yùn)用客戶數(shù)據(jù)倉(cāng)庫(kù),可以使每一個(gè)服務(wù)人員在為客戶提供產(chǎn)品和服務(wù)時(shí),明確客戶的偏好和習(xí)慣,從而提供更具有針對(duì)性的個(gè)性化服務(wù)。例如,讀者俱樂部都有定制寄送服務(wù),他們能根據(jù)會(huì)員最后一次的選擇和購(gòu)買記錄,以及他們最近一次與會(huì)員交流獲得的有關(guān)個(gè)人生活信息,向會(huì)員推薦不同的書籍。

企業(yè)的客戶數(shù)據(jù)倉(cāng)庫(kù)將通過對(duì)客戶歷史交易行為的觀察和分析,發(fā)揮警示客戶異常購(gòu)買行為的功能。如一位客戶的購(gòu)買周期或購(gòu)買量出現(xiàn)顯著萎縮變化時(shí),就是潛在的客戶流失跡象??蛻魯?shù)據(jù)庫(kù)通過自動(dòng)監(jiān)視客戶的交易資料,對(duì)客戶的潛在流失現(xiàn)象作出警示。Web數(shù)據(jù)倉(cāng)庫(kù)將成為企業(yè)信息共享的基礎(chǔ)架構(gòu)??蛻魯?shù)據(jù)倉(cāng)庫(kù)應(yīng)擁有可以通過瀏覽器使用的接口,以成為支持客戶關(guān)系管理的基本架構(gòu),并且數(shù)據(jù)倉(cāng)庫(kù)要能夠通過用戶的簡(jiǎn)單點(diǎn)擊就可以獲得分析結(jié)果。CRM環(huán)境下連接分散單位的數(shù)據(jù)中心建成關(guān)鍵在于Web數(shù)據(jù)倉(cāng)庫(kù)構(gòu)造之初就為其所有部分確立一致的數(shù)據(jù)元,并通過一致的數(shù)據(jù)元實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)的總線體系結(jié)構(gòu)。第三節(jié)CRM系統(tǒng)中的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能圖7-6客戶數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)

數(shù)據(jù)挖掘?qū)Ψ治龅慕Y(jié)果進(jìn)行評(píng)估客戶信息客戶活動(dòng)清洗、轉(zhuǎn)換外部數(shù)據(jù)聯(lián)機(jī)分析處理數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)準(zhǔn)備客戶數(shù)據(jù)集市

CRM系統(tǒng)中數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)第三節(jié)CRM系統(tǒng)中的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能

CRM系統(tǒng)中數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)

數(shù)據(jù)通過抽取、轉(zhuǎn)換和裝載,形成數(shù)據(jù)倉(cāng)庫(kù),并通過OLAP和報(bào)表,將客戶的整體行為分析和企業(yè)運(yùn)營(yíng)分析等傳遞給數(shù)據(jù)倉(cāng)庫(kù)用戶。在數(shù)據(jù)倉(cāng)庫(kù)中,利用數(shù)據(jù)倉(cāng)庫(kù)的ETL(extraction-transformation-loading)工具,針對(duì)行為分組和尋找重點(diǎn)客戶的需要,產(chǎn)生相應(yīng)的數(shù)據(jù)集市(DM),將分析結(jié)果與性能評(píng)價(jià)等傳遞給CRM用戶。對(duì)于客戶量巨大、市場(chǎng)策略對(duì)企業(yè)影響較大的企業(yè),CRM要以數(shù)據(jù)倉(cāng)庫(kù)為核心。數(shù)據(jù)來源客戶信息客戶行為生產(chǎn)系統(tǒng)其他相關(guān)數(shù)據(jù)第三節(jié)CRM系統(tǒng)中的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能分析建立企業(yè)模型概念模型設(shè)計(jì)邏輯模型設(shè)計(jì)物理模型設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)生成確定系統(tǒng)邊界及主題域技術(shù)準(zhǔn)備工作確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)

確定數(shù)據(jù)存放位置

確定存儲(chǔ)分配

CRM系統(tǒng)中數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與實(shí)施第三節(jié)CRM系統(tǒng)中的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能客戶數(shù)據(jù)倉(cāng)庫(kù)的建立注意問題數(shù)據(jù)信息收集和集成確保數(shù)據(jù)的質(zhì)量

按規(guī)則更新客戶數(shù)據(jù),保持對(duì)已有客戶的統(tǒng)一看法數(shù)據(jù)倉(cāng)庫(kù)統(tǒng)一共享,以發(fā)揮最大作用為進(jìn)一步了解客戶身份及其需求,并做出預(yù)測(cè),企業(yè)需要花費(fèi)一些精力進(jìn)行分析,因此產(chǎn)生了數(shù)據(jù)信息搜集。成功地使用數(shù)據(jù)信息搜集是CRM建設(shè)的重要步驟。CRM的客戶數(shù)據(jù)倉(cāng)庫(kù)需要把企業(yè)內(nèi)外的客戶數(shù)據(jù)集成起來。就客戶數(shù)據(jù)集成來講,企業(yè)需要對(duì)客戶進(jìn)行匹配和合并。首先,在建立CRM數(shù)據(jù)庫(kù)時(shí),一定要確認(rèn)由應(yīng)用程序所生成的客戶編碼的唯一性;其次,建立完整、準(zhǔn)確的客戶數(shù)據(jù)倉(cāng)庫(kù),姓名和地址這兩個(gè)信息片段是很重要的,一定要進(jìn)行分解和規(guī)范化;最后,對(duì)企業(yè)想收集又沒有一定結(jié)構(gòu)且信息量比較大的數(shù)據(jù)一定要非常慎重,比如文本信息。首先識(shí)別新數(shù)據(jù)性質(zhì),新客戶的數(shù)據(jù)給一個(gè)獨(dú)立的標(biāo)識(shí),在數(shù)據(jù)倉(cāng)庫(kù)中插入一條新的記錄;如果是已有客戶的數(shù)據(jù),更新客戶記錄的相關(guān)信息片段。數(shù)據(jù)更新要求同步化是CRM數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)之一。

統(tǒng)一共享的客戶數(shù)據(jù)倉(cāng)庫(kù)把銷售、市場(chǎng)營(yíng)銷和客戶服務(wù)的所有信息連接起來。如果一個(gè)企業(yè)的信息來源互相獨(dú)立,那么這些信息會(huì)不可避免地出現(xiàn)重復(fù)、互相沖突等現(xiàn)象,這對(duì)企業(yè)的整體運(yùn)作效率將產(chǎn)生消極的影響。第三節(jié)CRM系統(tǒng)中的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)CRM系統(tǒng)中數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與實(shí)施數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能CRM中數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用客戶行為分析重點(diǎn)客戶發(fā)現(xiàn)

市場(chǎng)性能評(píng)估客戶行為分析包括整體行為分析和群體行為分析兩個(gè)方面。整體行為分析用來發(fā)現(xiàn)企業(yè)所有客戶的行為規(guī)律,行為分組時(shí)按照客戶的不同種類的行為,將客戶劃分成不同的群體。在行為分組完成后,要進(jìn)行客戶理解、客戶行為規(guī)律發(fā)現(xiàn)和客戶組間交叉分析等。重點(diǎn)客戶發(fā)現(xiàn)主要是發(fā)現(xiàn)能為企業(yè)帶來潛在效益的重要客戶。根據(jù)客戶的屬性特點(diǎn)就可以挖掘出重點(diǎn)客戶,然后做好保持和提高這些重點(diǎn)客戶的忠誠(chéng)度工作。此外,通過數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)清洗與集中過程,可以將客戶對(duì)市場(chǎng)的反饋?zhàn)詣?dòng)輸入數(shù)據(jù)倉(cāng)庫(kù)中,這個(gè)獲得客戶反饋的過程,稱為客戶行為追蹤。根據(jù)客戶行為分析,企業(yè)可以準(zhǔn)確地制定市場(chǎng)策略和市場(chǎng)活動(dòng)。然而,這些市場(chǎng)活動(dòng)是否能夠達(dá)到預(yù)定的目標(biāo),是改進(jìn)市場(chǎng)策略和評(píng)價(jià)客戶行為分組性能的重要指標(biāo)。因此,在CRM中必須對(duì)行為分析和市場(chǎng)策略進(jìn)行評(píng)估。第三節(jié)CRM系統(tǒng)中的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)CRM系統(tǒng)中數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用OLAP是共享多維信息的、針對(duì)特定問題的聯(lián)機(jī)數(shù)據(jù)快速訪問和分析的軟件技術(shù)。它通過對(duì)信息的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對(duì)數(shù)據(jù)進(jìn)行深入觀察。相關(guān)概念變量維維的層次性維成員多維數(shù)組數(shù)據(jù)單元

聯(lián)機(jī)分析處理的概念

數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能變量:分析數(shù)據(jù)時(shí)要考慮的屬性,即描述數(shù)據(jù)“是什么”。維:是人們觀察數(shù)據(jù)的特定角度,是考慮問題時(shí)的一類屬性,屬性集合構(gòu)成一個(gè)維。維的層次性:人們觀察數(shù)據(jù)的某個(gè)特定角度(即某個(gè)維)還可以存在細(xì)節(jié)程度不同的各個(gè)描述方面,我們稱這多個(gè)描述方面為維的層次。一個(gè)維往往具有多個(gè)層次。維成員:維的一個(gè)取值,若維分為幾個(gè)層次,那么維成員就是不同維層次取值的組合。多維數(shù)組:多維數(shù)組是維和變量的組合表示。一個(gè)多維數(shù)組可以表示為:(維1,維2,…,維n,變量)。數(shù)據(jù)單元:數(shù)據(jù)單元是多維數(shù)組的取值。當(dāng)多維數(shù)組的各個(gè)維都選中一個(gè)維成員,這些維成員的組合就唯一確定了一個(gè)變量的值。那么數(shù)據(jù)單元就可以表示為:(維1維成員,維2維成員,…,維n維成員,變量的值)。

聯(lián)機(jī)分析處理的概念

第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能

多維數(shù)據(jù)模型上的OLAP操作

對(duì)多維數(shù)據(jù)集(維1、維2、維3……維n、變量值)在維度i上選定一個(gè)維成員,得到一個(gè)n-1維多維數(shù)據(jù)集,稱得到的這個(gè)n-1維多維數(shù)據(jù)集為原數(shù)據(jù)集在第i維上的數(shù)據(jù)切片。OLAP的分析方法數(shù)據(jù)切片數(shù)據(jù)切塊數(shù)據(jù)鉆取數(shù)據(jù)聚集數(shù)據(jù)旋轉(zhuǎn)在多維數(shù)據(jù)立方體中,確定某些維度的取值范圍,得到一個(gè)原立方體的子立方體的過程被稱為數(shù)據(jù)切塊。數(shù)據(jù)切塊與數(shù)據(jù)切片得到的多維數(shù)組都是原多維立方體的子集,不同的是數(shù)據(jù)切片使多維立方體降低了一個(gè)維度,而數(shù)據(jù)切塊得到的多維立方體與原立方體的維度是相同的。

數(shù)據(jù)鉆取(數(shù)據(jù)下鉆),是由概括的數(shù)據(jù)到詳細(xì)的數(shù)據(jù)的過程。數(shù)據(jù)鉆取對(duì)應(yīng)于維的層次,它是由維的高層次展開到低層次的一個(gè)動(dòng)作。比如,我們由“年”數(shù)據(jù)下鉆到“季度”數(shù)據(jù),這無(wú)疑會(huì)增加數(shù)據(jù)細(xì)節(jié)和數(shù)據(jù)量,得到更詳細(xì)的數(shù)據(jù)。數(shù)據(jù)鉆取的具體操作參見圖7—2中的數(shù)據(jù)鉆取部分。數(shù)據(jù)聚集又叫數(shù)據(jù)上卷,是數(shù)據(jù)鉆取的逆過程。數(shù)據(jù)聚集是將詳細(xì)的數(shù)據(jù)聚集為較概括的數(shù)據(jù),是一個(gè)綜合數(shù)據(jù)的動(dòng)作。

數(shù)據(jù)旋轉(zhuǎn)即變換維度的位置,也就是轉(zhuǎn)動(dòng)數(shù)據(jù)的視角,給用戶提供一個(gè)從不同的角度觀察數(shù)據(jù)的方法。第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能

原數(shù)據(jù)立方體包含了時(shí)間(年)、城市、產(chǎn)品三個(gè)維度,其中a1,a2為產(chǎn)品名。鉆取過程是按時(shí)間下鉆,由年數(shù)據(jù)得到季度數(shù)據(jù),數(shù)據(jù)由原來的兩行展為八行。聚集過程是按地區(qū)維度上卷,將城市維上卷為國(guó)家維,即將北京、上海兩城市數(shù)據(jù)統(tǒng)計(jì)為中國(guó)的數(shù)據(jù),將東京、大阪兩城市的數(shù)據(jù)統(tǒng)計(jì)為日本的數(shù)據(jù)。數(shù)據(jù)聚集和數(shù)據(jù)鉆取為用戶提供了不同層次觀察數(shù)據(jù)的方法。20073季20071季20061季20063季20074季20072季20064季20062季a1a2

北京上海東京大阪鉆取聚集a2a120062007中國(guó)日本20062007北京上海東京大阪a1a2圖7-7

數(shù)據(jù)鉆取與聚集聚集鉆取第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能20062007A1200230A2456478A3100120A1A2A320062004561002007230478120圖7-8

數(shù)據(jù)旋轉(zhuǎn)圖7-8是數(shù)據(jù)旋轉(zhuǎn)的一個(gè)簡(jiǎn)單示例,只體現(xiàn)了二維表的旋轉(zhuǎn)。當(dāng)數(shù)據(jù)是三維或是三維以上的多維數(shù)據(jù)時(shí),數(shù)據(jù)旋轉(zhuǎn)將更有意義,每進(jìn)行一次數(shù)據(jù)旋轉(zhuǎn)就可以從一個(gè)新的視角觀察數(shù)據(jù)。第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能OLAP的特點(diǎn)

聯(lián)機(jī)分析處理的用戶是企業(yè)中的專業(yè)分析人員及管理決策人員,在分析業(yè)務(wù)經(jīng)營(yíng)的數(shù)據(jù)時(shí),從不同的角度來審視業(yè)務(wù)的衡量指標(biāo)是一種很自然的思考模式。比如,分析銷售數(shù)據(jù)時(shí),綜合時(shí)間周期、產(chǎn)品類別、分銷渠道、地理分布、客戶群類生成一張張報(bào)表,各個(gè)分析角度的不同組合又可以生成不同的報(bào)表,使得IT人員的工作量相當(dāng)大。聯(lián)機(jī)分析處理的主要特點(diǎn)是直接仿照用戶的多角度思考模式,預(yù)先為用戶組建多維的數(shù)據(jù)模型。一旦多維數(shù)據(jù)模型建立完成,用戶可以快速地從各個(gè)分析角度獲取數(shù)據(jù),也能動(dòng)態(tài)地在各個(gè)角度之間切換或者進(jìn)行多角度綜合分析,具有極大的分析靈活性。這也是聯(lián)機(jī)分析處理近年來被廣泛關(guān)注的根本原因,它從設(shè)計(jì)理念和真正實(shí)現(xiàn)上都與舊的管理信息系統(tǒng)有著本質(zhì)的區(qū)別。第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能OLAP的應(yīng)用

數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)核心是聯(lián)機(jī)分析處理,從應(yīng)用的角度來說,數(shù)據(jù)倉(cāng)庫(kù)還可以采用傳統(tǒng)的報(bào)表或數(shù)理統(tǒng)計(jì)和數(shù)據(jù)挖掘等人工智能方法,涵蓋的范圍更廣;從應(yīng)用的范圍來說,聯(lián)機(jī)分析處理往往根據(jù)用戶分析的主題進(jìn)行應(yīng)用分類,如銷售分析、市場(chǎng)推廣分析、客戶利潤(rùn)率分析等,每一個(gè)分析的主題形成一個(gè)OLAP應(yīng)用,而所有的OLAP應(yīng)用實(shí)際上只是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的一部分。

以某家電企業(yè)為例介紹OLAP的應(yīng)用。家電的多維分析涉及產(chǎn)品、銷售數(shù)量、地區(qū)和時(shí)間4個(gè)維。所有抽查的數(shù)據(jù)都是第1季度的。第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能冰箱銷售第1季度,冰箱在什么地區(qū)銷售情況最好?第1季度,哪個(gè)省份的冰箱銷量處于領(lǐng)先地位?第1季度,哪個(gè)城市的冰箱銷售數(shù)量最高?負(fù)責(zé)冰箱銷售的副總裁提出了以下3個(gè)問題:解決方法需要用到OLAP的兩種多維分析方法,即數(shù)據(jù)切片/切塊和數(shù)據(jù)鉆取,其他的分析方法還有數(shù)據(jù)旋轉(zhuǎn)和數(shù)據(jù)聚集等。第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能產(chǎn)品地點(diǎn)時(shí)間電視冰箱空調(diào)華東東北西北2006.42007.12007.22007.3冰箱圖7-9

運(yùn)用數(shù)據(jù)切片來進(jìn)行數(shù)據(jù)分析首先使用數(shù)據(jù)切片方法來對(duì)第一個(gè)問題進(jìn)行分析。在圖7-9的數(shù)據(jù)立方體中,時(shí)間、地區(qū)和產(chǎn)品分別是3個(gè)維度,銷售額是度量變量。在產(chǎn)品維上選定“冰箱”則形成在產(chǎn)品維上的數(shù)據(jù)切片,顯示了冰箱在各地區(qū)和各月份的銷售情況。第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能

數(shù)據(jù)鉆取和聚集會(huì)改變維的層次,變換分析的粒度,在家電企業(yè)的例子中,必須采用聯(lián)機(jī)分析處理工具深入的地區(qū)維中,通過數(shù)據(jù)鉆取來查看某地區(qū)維中更細(xì)致的數(shù)據(jù)。(如圖7-10所示)。項(xiàng)目2007年1季度2007年1季度2007年1季度電視數(shù)量冰箱數(shù)量空調(diào)數(shù)量西北360334489935621華東859357995495526東北460613604023312表7-4按地區(qū)劃分的銷售數(shù)據(jù)通過模型驅(qū)動(dòng)工具來查詢數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù),如表7-4第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能冰箱44899西北79954華東36040東北25309浙江29344江蘇17866吉林18174遼寧西北東北華東冰箱24632陜西20267甘肅25301山東圖7-10

運(yùn)用數(shù)據(jù)鉆取來進(jìn)行數(shù)據(jù)分析圖7-10表示的是對(duì)地區(qū)維數(shù)據(jù)鉆取的第一步,即顯示了該家電企業(yè)按地區(qū)劃分的各省份的冰箱銷售量(如表7-5所示);更深一步的鉆取可以顯示出各城市的銷售情況,得到表7-6。第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能項(xiàng)目2007年1季度2007年1季度2007年1季度電視數(shù)量冰箱數(shù)量空調(diào)數(shù)量西北陜西25596

2463219420甘肅100372026716201華東山東175512530121356浙江274012530936522江蘇409832934437648東北吉林172041786611211遼寧288571817412101表7-5按地區(qū)和省進(jìn)行劃分的銷售數(shù)據(jù)第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能

項(xiàng)目2007年1季度2007年1季度2007年1季度電視數(shù)量冰箱數(shù)量空調(diào)數(shù)量西北陜西西安145691354411308咸陽(yáng)11027110888112甘肅蘭州7205111699846天水283290986355華東山東濟(jì)南87701210910699青島87811319210657浙江杭州145711402519326寧波128301128417196江蘇南京226751662419665蘇州183081272017983東北吉林長(zhǎng)春900394136847四平820184534364遼寧沈陽(yáng)1675196315745大連1212685436356表7-6按地區(qū)、省和城市進(jìn)行劃分的銷售數(shù)據(jù)第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能通過OLAP得出了負(fù)責(zé)冰箱銷售的副總裁所提出的3個(gè)問題的答案:2007年第1季度,冰箱在華東地區(qū)銷售情況最好。2007年第1季度,在華東地區(qū),江蘇的冰箱銷售量處于領(lǐng)先地位。2007年第1季度,江蘇的南京冰箱銷售量最高。OLAP的應(yīng)用第四節(jié)OLAP技術(shù)及其在CRM系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘(datamining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取人們感興趣的知識(shí),這些知識(shí)是隱含的、事先未知的、潛在有用的信息。它是通過分析數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)內(nèi)部的信息和知識(shí)過程。

數(shù)據(jù)挖掘的基礎(chǔ)是大量數(shù)據(jù),所以具有高效處理大量數(shù)據(jù)的能力。這也是目前數(shù)據(jù)挖掘技術(shù)的一個(gè)難題,一些算法在小數(shù)據(jù)集上效果很好,但數(shù)據(jù)量增加到一定程度,算法的實(shí)現(xiàn)代價(jià)過大、效率太低,甚至無(wú)法實(shí)現(xiàn)。

數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能數(shù)據(jù)來源事務(wù)數(shù)據(jù)庫(kù)高級(jí)數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)關(guān)系數(shù)據(jù)庫(kù)

數(shù)據(jù)挖掘的數(shù)據(jù)來源關(guān)系數(shù)據(jù)庫(kù):關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)是最豐富、最詳細(xì)的。在進(jìn)行數(shù)據(jù)挖掘之前也要對(duì)數(shù)據(jù)進(jìn)行清洗和轉(zhuǎn)換。數(shù)據(jù)的真實(shí)性和一致性是進(jìn)行數(shù)據(jù)挖掘的前提和保證。數(shù)據(jù)倉(cāng)庫(kù):數(shù)據(jù)經(jīng)過清洗和轉(zhuǎn)換,不存在錯(cuò)誤和不一致的情況,數(shù)據(jù)倉(cāng)庫(kù)在獲取數(shù)據(jù)后就不需要再進(jìn)行這些數(shù)據(jù)處理工作了。數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘和聯(lián)機(jī)分析處理共同構(gòu)成了系統(tǒng)的決策支持模塊。事務(wù)數(shù)據(jù)庫(kù):數(shù)據(jù)挖掘可從事務(wù)數(shù)據(jù)庫(kù)中提取數(shù)據(jù)。其每個(gè)記錄代表一個(gè)事務(wù)。在進(jìn)行數(shù)據(jù)挖掘時(shí),可以只將一個(gè)或幾個(gè)事務(wù)數(shù)據(jù)庫(kù)集中到數(shù)據(jù)挖掘庫(kù)中進(jìn)行挖掘。高級(jí)數(shù)據(jù)庫(kù):面向?qū)ο蟮臄?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)間和時(shí)間序列數(shù)據(jù)庫(kù)、文本和多媒體數(shù)據(jù)庫(kù)等新的數(shù)據(jù)庫(kù)。這些結(jié)構(gòu)更為復(fù)雜的數(shù)據(jù)庫(kù)為數(shù)據(jù)挖掘提供了更加全面、更加多元化的數(shù)據(jù),也為數(shù)據(jù)挖掘技術(shù)提出了更大的挑戰(zhàn)。第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能

數(shù)據(jù)挖掘的基本步驟數(shù)據(jù)挖掘包括確定分析和預(yù)測(cè)目標(biāo)、建立數(shù)據(jù)挖掘庫(kù)、分析數(shù)據(jù)、建立模型、模型評(píng)估與驗(yàn)證、模型實(shí)施等幾個(gè)基本步驟。第五節(jié)數(shù)據(jù)挖掘概述圖7-11數(shù)據(jù)挖掘的基本步驟數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能

數(shù)據(jù)挖掘的基本步驟第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘的基本步驟1)確定分析和預(yù)測(cè)目標(biāo)確定分析和預(yù)測(cè)目標(biāo)相當(dāng)于需求分析,主要是明確業(yè)務(wù)目標(biāo)。確定分析和預(yù)測(cè)目標(biāo)是數(shù)據(jù)挖掘的基礎(chǔ)條件。同時(shí),定義了數(shù)據(jù)挖掘的分析目標(biāo)也就定義了評(píng)價(jià)這一挖掘模型的標(biāo)準(zhǔn)。2)建立數(shù)據(jù)挖掘庫(kù)首先要進(jìn)行數(shù)據(jù)收集,對(duì)于收集到的數(shù)據(jù),應(yīng)對(duì)數(shù)據(jù)的來源、大小、存儲(chǔ)位置和數(shù)據(jù)在使用上的限制等進(jìn)行詳細(xì)的記錄。完成數(shù)據(jù)收集后,要對(duì)數(shù)據(jù)進(jìn)行描述。數(shù)據(jù)挖掘庫(kù)可以是一個(gè)單獨(dú)的數(shù)據(jù)庫(kù),也可以和數(shù)據(jù)倉(cāng)庫(kù)建立在相同的物理介質(zhì)上。數(shù)據(jù)挖掘庫(kù)中還應(yīng)包括數(shù)據(jù)的元數(shù)據(jù)。

3)分析數(shù)據(jù)

分析數(shù)據(jù)即對(duì)數(shù)據(jù)挖掘庫(kù)中的數(shù)據(jù)進(jìn)行分析,對(duì)數(shù)據(jù)有了全面、細(xì)致的了解以后,就可以針對(duì)數(shù)據(jù)挖掘分析目標(biāo)選擇合適的變量和記錄。對(duì)于變量的選擇,首先要考慮對(duì)結(jié)果有影響、可以反映結(jié)果的變量。4)建立模型建立模型是選擇合適的方法和算法對(duì)數(shù)據(jù)進(jìn)行分析,得到一個(gè)數(shù)據(jù)挖掘模型的過程。建立模型是一個(gè)反復(fù)進(jìn)行的過程,它需要不斷地改進(jìn)或更換算法以尋找對(duì)目標(biāo)分析作用最明顯的模型,最后得到一個(gè)最合理、最適用的模型。

5)模型評(píng)估與驗(yàn)證

為了驗(yàn)證模型的有效性,一般會(huì)將數(shù)據(jù)集分為兩部分:一部分用于建立模型,另一部分則用于測(cè)試模型。對(duì)模型的驗(yàn)證主要需要考慮以下幾個(gè)方面:(1)模型的準(zhǔn)確性;(2)模型的可理解性;(3)模型的性能。模型建立和模型檢驗(yàn)是一個(gè)反復(fù)的過程。6)模型實(shí)施模型的實(shí)施有兩種情況:一種是將數(shù)據(jù)挖掘模型得到的結(jié)果提供給信息需求者或者管理者,以輔助管理者的決策分析;還有一種情況就是保留模型,以后每遇到類似問題就用這個(gè)模型進(jìn)行分析,或者將模型用于不同的數(shù)據(jù)集上(這些數(shù)據(jù)分析需要采用相同的方法)進(jìn)行分析。在模型的使用過程中,隨時(shí)間及環(huán)境的變化,還應(yīng)對(duì)模型進(jìn)行重新測(cè)試,并對(duì)模型進(jìn)行相應(yīng)的修改,這就是模型維護(hù)的過程。數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能數(shù)據(jù)挖掘工具及其選擇第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘工具包括數(shù)據(jù)挖掘(datamining)工具和文本挖掘(textmining)工具。數(shù)據(jù)挖掘工具主要是用來進(jìn)行聚類分析、關(guān)聯(lián)分析、時(shí)間序列分析以及統(tǒng)計(jì)分析的。文本挖掘工具主要應(yīng)用在市場(chǎng)調(diào)研報(bào)告中或呼叫中心(callcenter)的客戶抱怨定級(jí)、專利的分類、網(wǎng)頁(yè)的分類以及電子郵件的分類等方面。一般而言,目前市場(chǎng)上這些數(shù)據(jù)挖掘工具又可以分成兩類:企業(yè)級(jí)工具以及小型工具。數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能數(shù)據(jù)挖掘工具及其選擇第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘工具的選擇①公司的數(shù)據(jù)挖掘需求是短期行為還是長(zhǎng)期使用②公司的數(shù)據(jù)挖掘經(jīng)驗(yàn)和水平③公司的數(shù)據(jù)狀態(tài)④公司的預(yù)算⑤工具的性能數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能CRM中常用的數(shù)據(jù)挖掘算法1)關(guān)聯(lián)分析(associationanalysis)設(shè)I={i1,i2,…………im}是項(xiàng)的集合。設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫(kù)事務(wù)的集合,其中每個(gè)事務(wù)T是項(xiàng)的集合,使得T∈I。每一個(gè)事務(wù)有一個(gè)標(biāo)識(shí)符,稱作TID。設(shè)A是一個(gè)項(xiàng)集,事務(wù)T包含A當(dāng)且僅當(dāng)A∈T。項(xiàng)的集合稱為項(xiàng)集(Itemset)。包含k個(gè)項(xiàng)的集合稱為K-項(xiàng)集。項(xiàng)集的出現(xiàn)頻率是包含項(xiàng)集的事務(wù)數(shù),簡(jiǎn)稱為項(xiàng)集的頻率、支持計(jì)數(shù)或計(jì)數(shù)。關(guān)聯(lián)規(guī)則是形如AB的蘊(yùn)含式,其中A∈I,B∈I,并且A∩B=。規(guī)則AB在事務(wù)集D中成立,具有支持度s,其中s是D中包含A∪B的事務(wù)的百分比。它是概率P(A∪B)。規(guī)則AB在事務(wù)集D中具有置信度c,如果D中包含A的事務(wù)中同時(shí)也包含B的事務(wù)的百分比是c。這是條件概率P(B|A)。第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能

CRM中常用的數(shù)據(jù)挖掘算法支持度Support(AB)=P(A∪B)置信度Confidence(AB)=P(B|A)同時(shí)滿足最小支持度和最小置信度的規(guī)則稱為強(qiáng)規(guī)則。關(guān)聯(lián)規(guī)則挖掘就是尋找強(qiáng)規(guī)則的過程。如果項(xiàng)集滿足最小支持度,則稱為頻繁項(xiàng)集

Apriori算法是一個(gè)關(guān)于單維、單層、布爾規(guī)則的方法。因此它也是關(guān)聯(lián)規(guī)則挖掘中形式最簡(jiǎn)單的方法。

Apriori算法是一個(gè)逐層迭代尋找頻繁集的方法。如果項(xiàng)集滿足最小支持度,稱為頻繁項(xiàng)集。

Apriori算法的性質(zhì)是頻繁項(xiàng)集的所有非空子集一定是頻繁的。Apriori算法第五節(jié)數(shù)據(jù)挖掘概述1)關(guān)聯(lián)分析(associationanalysis)數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能Apriori算法的實(shí)例表7-7是一個(gè)事務(wù)數(shù)據(jù),ID表示顧客號(hào),“購(gòu)買商品”表示顧客一次購(gòu)買的商品名稱。規(guī)定最小支持度為60%,最小置信度為80%。ID購(gòu)買商品1{K,A,D,B}2{D,A,C,E,B}3{C,A,B,E}4{B,A,D}表7-7事務(wù)數(shù)據(jù)第四步,L2與L2連接,得到候選項(xiàng)集。根據(jù)Apriori算法的性質(zhì)去掉不符合條件的候選項(xiàng),即有不頻繁子集的項(xiàng)。然后掃描記錄,對(duì)候選集中剩余候選項(xiàng)計(jì)算支持度。根據(jù)最小支持度得到頻繁項(xiàng)集L3。第五步,繼續(xù)重復(fù)上述動(dòng)作,直到所得頻繁項(xiàng)集Ln為空,則頻繁項(xiàng)集Ln-1即為最大頻繁項(xiàng)集。第一步,掃描每條記錄,對(duì)每個(gè)項(xiàng)(即每種商品)出現(xiàn)的次數(shù)計(jì)數(shù)。第二步,根據(jù)最小支持度確定頻繁項(xiàng)集L1。第三步,L1與L1連接,得到候選項(xiàng)集。掃描記錄,對(duì)候選集中候選項(xiàng)計(jì)算支持度。根據(jù)最小支持度得到頻繁項(xiàng)集L2。第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能Apriori算法的實(shí)例圖7-12Apriori算法過程實(shí)例{F}25%項(xiàng)集支持度{A}100%{B}100%{C}50%{D}75%{E}50%根據(jù)最小支持度60%得到頻繁1項(xiàng)集L1連接產(chǎn)生候選集項(xiàng)集支持度{A}100%{B}100%{D}75%項(xiàng)集{A,B}{A,D}集{B,D}計(jì)算支持度項(xiàng)集支持度{A,B}100%{A,D}100%{B,D}75%全部滿足最小支持度連接產(chǎn)生新的頻繁2項(xiàng)集L2項(xiàng)集{A,B,D}支持度75%第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能得到一個(gè)頻繁項(xiàng)集{A,B,D}。這就是用Apriori算法尋找頻繁項(xiàng)集的過程。但關(guān)聯(lián)規(guī)則挖掘的最終目的是找到強(qiáng)規(guī)則。列出最終得到的頻繁項(xiàng)集{A,B,D}可產(chǎn)生的關(guān)聯(lián)規(guī)則,計(jì)算規(guī)則的置信度,如表7-8所示。規(guī)則置信度A∧BD75%A∧DB100%B∧DA100%A

B∧D75%BA∧D75%DA∧B100%表7-8關(guān)聯(lián)規(guī)則的置信度

根據(jù)最小置信度80%,可得到三個(gè)強(qiáng)規(guī)則A∧DB、B∧DA和DA∧B。至此,完成了一個(gè)最簡(jiǎn)單的規(guī)則挖掘。第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能案例

本例演示了對(duì)美國(guó)眾議院議員投票記錄應(yīng)用關(guān)聯(lián)分析的結(jié)果。

案例中的數(shù)據(jù)來自于1984年美國(guó)國(guó)會(huì)投票數(shù)據(jù)庫(kù),可以在UCI機(jī)器學(xué)習(xí)庫(kù)中找到。每一個(gè)事務(wù)包含議員的黨派信息,以及他/她對(duì)16個(gè)關(guān)鍵問題的投票記錄。數(shù)據(jù)集共有435個(gè)事務(wù)和34個(gè)項(xiàng)。表1中列出了所有的項(xiàng)。第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能案例1984年美國(guó)國(guó)會(huì)投票記錄的二元屬性列表。信息源:UCI機(jī)器學(xué)習(xí)庫(kù)RepublicanDemocrathandicapped-infants=yeshandicapped-infants=nowaterprojectcostsharing=yeswaterprojectcostsharing=nobudget-resolution=yesbudget-resolution=nophysicianfeefreeze=yesphysicianfeefreeze=noaidtoEISalvador=yesaidtoEISalvador=noreligiousgroupsinschools=yesreligiousgroupsinschools=noanti-satellitetestban=yesanti-satellitetestban=noaidtoNicaragua=yesaidtoNicaragua=noMX-missile=yesMX-missile=noimmigration=yesimmigration=nosynfuelcorporationcutback=yessynfuelcorporationcutback=noeducationspending=yeseducationspending=noright-to-sue=yesright-to-sue=nocrime=yescrime=noduty-free-exports=yesduty-free-exports=noexportadministrationact=yesexportadministrationact=yes第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能

設(shè)定minsup=30%和minconf=90%,對(duì)數(shù)據(jù)集采用Apriori算法。下表列舉了算法產(chǎn)生的一些高置信度的規(guī)則。從1984年美國(guó)國(guó)會(huì)投票記錄中提取的關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則

置信度{budgetresolution=no,MX-missile=no,aidtoE1Salvador=yes}

{Republican}91.0%{budgetresolution=yes,MX-missile=yes,aidtoE1Salvador=no}

{Democrat}97.5%{crime=yes,right-to-sue=yes,physicianfeefreeze=yes}

{Republican}93.5%{crime=no,right-to-sue=no,physicianfeefreeze=no}

{Democrat}100%案例第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能

前兩個(gè)規(guī)則暗示大部分同時(shí)投aidtoEISalvador贊成票、投budget-resolution和MX-missile反對(duì)票的是共和黨人;而同時(shí)投aidtoE1Salvador反對(duì)票、投budget-resolution和MX-missile贊成票的是民主黨人。這些高置信度的規(guī)則表明關(guān)鍵的問題可以將國(guó)會(huì)成員分為兩個(gè)政黨。如果降低最小置信度,將會(huì)發(fā)現(xiàn)很難找到區(qū)分政黨的特定問題。

例如,當(dāng)最小置信度為40%時(shí),這些規(guī)則暗示對(duì)于一個(gè)問題兩個(gè)政黨的投票差不多——投反對(duì)票的成員52.3%是共和黨人,另外47.7%的是民主黨人。案例第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能C=先購(gòu)買了商品X的組數(shù)先購(gòu)買了商品X在購(gòu)買商品Y的組數(shù)S=總組數(shù)先購(gòu)買了商品X在購(gòu)買商品Y的組數(shù)置信度支持度客戶號(hào)日期商品號(hào)數(shù)量甲2007-04-03A14B32007-04-04C11乙2007-06-05C2B3D132007-06-08B10D122)序列模式分析(sequentialpatternanalysis)以組(同一顧客)為基準(zhǔn),并且在Item1和Item2之間保持時(shí)間順序關(guān)系,可得一個(gè)最簡(jiǎn)單的序列規(guī)則(見表7-10)。如表7-9的第一行所示,客戶在購(gòu)買了商品A之后,必定隨著購(gòu)買商品B,其置信度C為1,支持度S為0.5。表7-9按時(shí)間分類表第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能Item1Item2置信度C支持度SAB10.5BC0.50.5A,BC0.50.5BB0.50.5BD0.50.5BB,D0.50.5B,C,DB,D0.50.5表7-10序列規(guī)則第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能客戶編號(hào)債務(wù)情況收入情況工作類型信用風(fēng)險(xiǎn)1HighHighSelf-employedBad2HighHighSalariedBad3HighLowSalariedBad4LowLowSalariedGood5LowLowSelf-employedBad6LowHighSalariedGood7LowHighSalariedGood3)分類分析(classificationanalysis)

基于債務(wù)水平、收入水平和工作情況,可對(duì)給定用戶進(jìn)行信用風(fēng)險(xiǎn)分析。分類分析通過判斷以上屬性與已知訓(xùn)練數(shù)據(jù)中風(fēng)險(xiǎn)程度的關(guān)系給出預(yù)測(cè)結(jié)果。決策樹是一種常見且有用的預(yù)測(cè)模式。表7—11是一個(gè)可用于判斷信用風(fēng)險(xiǎn)的訓(xùn)練數(shù)據(jù)集。表7-11

原始數(shù)據(jù)

第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能AllCreditRiskGood:3Bad:4Debt=LowCreditRiskGood:3Bad:1Debt=HighCreditRiskGood:0Bad:3EmploymentType=Self-employedCreditRiskGood:0Bad:1EmploymentType=salariedCreditRiskGood:3Bad:0圖7-13

決策樹圖7-13顯示了一個(gè)由表7-11中原始數(shù)據(jù)生成的決策樹。第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能在這個(gè)普通的例子中,一個(gè)決策樹算法對(duì)于信用風(fēng)險(xiǎn)預(yù)測(cè)來說,最重要的屬性是債務(wù)情況。決策樹中的第一個(gè)分支點(diǎn)設(shè)在債務(wù)情況。葉子“Debt=High”包含三條“CreditRisk=Bad”而沒有“CreditRisk=Good”的記錄。在這個(gè)例子中,客戶的高負(fù)債記錄是他的信用風(fēng)險(xiǎn)大的充分條件?!癉ebt=Low”仍是混合的,其中有三條“CreditRisk=Good”和一條“CreditRisk=Bad”。在這種情況下,決策樹算法將用“EmploymentType”作為第二條判斷條件。EmploymentType處分支得到兩個(gè)葉子。它顯示受雇于自己的人有較高的信用風(fēng)險(xiǎn)。分類分析則可以判斷成百的屬性、數(shù)以百萬(wàn)的記錄,以建立描述規(guī)則的決策樹。第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能(1)相異度0d(2,1)0d(3,1)d(3,2)0

d(n,1)d(n,2)……04)聚類分析用以描述兩個(gè)對(duì)象之間的差別,通過兩個(gè)對(duì)象的屬性值計(jì)算的。對(duì)于數(shù)值型數(shù)據(jù)通常用距離表示相異度。

(2)距離,最常用的距離表示方法是歐幾里得距離。他的定義是:xi1xj12+xi2xj22+…+xipxjp2

其中,i=(xi1,xi2,…

,xip)和j=(xj1,xj2,

,xjp)是兩個(gè)p維的對(duì)象。第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能兩個(gè)簇間的平均距離,是兩個(gè)簇中的對(duì)象兩兩之間的平均長(zhǎng)度。兩種簡(jiǎn)單的聚類分析算法:

(1)基于劃分的聚類K-平均算法的思想如下:輸入簇的數(shù)目K和包含n個(gè)對(duì)象的數(shù)據(jù)庫(kù)。a.任意選擇K個(gè)對(duì)象作為初始的簇中心。b.循環(huán)進(jìn)行c、d。c.根據(jù)簇中對(duì)象的平均值,將每個(gè)對(duì)象(重新)分給最類似的簇。d.更新簇的平均值,即計(jì)算每個(gè)簇中對(duì)象的平均值。e.直到不再發(fā)生變化。

K-平均算法基于簇中對(duì)象的平均值,輸出結(jié)果是K個(gè)簇。K-平均算法的優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單,易于理解;缺點(diǎn)是如果數(shù)據(jù)中存在孤立點(diǎn),會(huì)影響聚類質(zhì)量。第五節(jié)數(shù)據(jù)挖掘概述(3)兩個(gè)簇間的平均距離數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能(a)(b)(c)圖7-14K-平均算法(a)為輸入點(diǎn),以兩個(gè)星型點(diǎn)為初始的簇中心進(jìn)行聚集。(b)為第一次聚類后的結(jié)果,兩個(gè)星型點(diǎn)為簇的平均值。(c)圖中以兩個(gè)簇的平均值點(diǎn)為簇中心,進(jìn)行聚類的結(jié)果,由于至此結(jié)果不再變化,算法執(zhí)行結(jié)束。(c)圖中標(biāo)注的兩個(gè)聚類為結(jié)果聚類。第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能K-平均算法基于簇中對(duì)象的平均值,輸出結(jié)果是K個(gè)簇。K-平均算法的優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單,易于理解;缺點(diǎn)是如果數(shù)據(jù)中存在孤立點(diǎn),會(huì)影響聚類質(zhì)量。

K-中心點(diǎn)法是對(duì)K-平均法的一種改進(jìn),它不是采用平均值而是用代表點(diǎn)作為中心點(diǎn)進(jìn)行聚類,再逐步用非中心點(diǎn)代替中心點(diǎn)找到最優(yōu)解。當(dāng)數(shù)據(jù)量很大時(shí),K-中心點(diǎn)法的實(shí)現(xiàn)代價(jià)過高。進(jìn)而又產(chǎn)生了CLARA、CLARANS等改進(jìn)的劃分方法。第五節(jié)數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘

OLAP的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用基本步驟設(shè)計(jì)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù)體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)客戶智能定義、構(gòu)成OLAP技術(shù)應(yīng)用商業(yè)智能(2)基于層次的聚類基于層次的聚類分為凝聚的層次聚類和分裂的層次聚類兩種。凝聚的層次聚類將每個(gè)對(duì)象作為一個(gè)簇,然后一步步合并至所有的對(duì)象最終合并成一個(gè)簇。分裂的層次聚類是凝聚的層次聚類的逆過程。對(duì)于給定的數(shù)據(jù)集合,將所有對(duì)象作為一個(gè)簇,然后根據(jù)某些準(zhǔn)則被一步步

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論