數(shù)據(jù)挖掘基礎(chǔ)培訓(xùn)講義-數(shù)據(jù)挖掘概述課件_第1頁(yè)
數(shù)據(jù)挖掘基礎(chǔ)培訓(xùn)講義-數(shù)據(jù)挖掘概述課件_第2頁(yè)
數(shù)據(jù)挖掘基礎(chǔ)培訓(xùn)講義-數(shù)據(jù)挖掘概述課件_第3頁(yè)
數(shù)據(jù)挖掘基礎(chǔ)培訓(xùn)講義-數(shù)據(jù)挖掘概述課件_第4頁(yè)
數(shù)據(jù)挖掘基礎(chǔ)培訓(xùn)講義-數(shù)據(jù)挖掘概述課件_第5頁(yè)
已閱讀5頁(yè),還剩53頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

DM基礎(chǔ)-1

數(shù)據(jù)挖掘概述

教材內(nèi)容來(lái)源于《數(shù)據(jù)挖掘:概念與技術(shù)》第1章引言(JiaweiHanandMichelineKamber)2023/12/51課程大綱什么激發(fā)了數(shù)據(jù)挖掘?什么是數(shù)據(jù)挖掘?在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘?數(shù)據(jù)挖掘功能所有模式都是有意義的嗎?數(shù)據(jù)挖掘系統(tǒng)的分類數(shù)據(jù)挖掘中的主要問(wèn)題2023/12/52動(dòng)機(jī):“需要是發(fā)明之母”數(shù)據(jù)爆炸問(wèn)題

自動(dòng)化的數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫(kù)技術(shù)導(dǎo)致了數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和其它信息倉(cāng)庫(kù)中儲(chǔ)存了海量數(shù)據(jù)數(shù)據(jù)豐富,但信息貧乏!

解決方案:數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理從海量數(shù)據(jù)中抽取出有意義的知識(shí)(規(guī)則、規(guī)律、模式、約束)2023/12/53數(shù)據(jù)庫(kù)技術(shù)的演化

(參見圖1.1)1960s:數(shù)據(jù)集合,數(shù)據(jù)庫(kù)創(chuàng)建,IMS和網(wǎng)絡(luò)數(shù)據(jù)庫(kù)1970s:關(guān)系數(shù)據(jù)模型,關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)實(shí)現(xiàn)1980s:RDBMS,高級(jí)數(shù)據(jù)模型(擴(kuò)展關(guān)系模型,面向?qū)ο竽P停堇[模型等)和面向應(yīng)用的數(shù)據(jù)庫(kù)管理系統(tǒng)(空間,科學(xué),工程等)1990s—2000s:數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù),多媒體數(shù)據(jù)庫(kù)和Web數(shù)據(jù)庫(kù)2023/12/54什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)):從大型數(shù)據(jù)庫(kù)中抽取有意義的(非平凡的,隱含的,以前未知的并且是有潛在價(jià)值的)信息或模式其它類似術(shù)語(yǔ):數(shù)據(jù)挖掘:是否用詞不當(dāng)?數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD),知識(shí)抽取,數(shù)據(jù)/模式分析,數(shù)據(jù)考古,數(shù)據(jù)捕撈,商業(yè)智能等什么不屬于數(shù)據(jù)挖掘?(演繹)查詢處理專家系統(tǒng)或小型的機(jī)器學(xué)習(xí)/統(tǒng)計(jì)分析程序2023/12/55為何進(jìn)行數(shù)據(jù)挖掘?—潛在應(yīng)用數(shù)據(jù)庫(kù)分析和決策支持市場(chǎng)分析和管理目標(biāo)營(yíng)銷,客戶關(guān)系管理,購(gòu)物籃分析,交叉銷售,市場(chǎng)分段風(fēng)險(xiǎn)分析和管理預(yù)測(cè),客戶保持,降低風(fēng)險(xiǎn),質(zhì)量控制,競(jìng)爭(zhēng)力分析欺詐檢測(cè)與管理其它應(yīng)用文本挖掘(新聞組,電子郵件,文檔)和Web分析智能詢問(wèn)解答(QA)系統(tǒng)2023/12/56市場(chǎng)分析和管理(1)分析的數(shù)據(jù)源在哪里?信用卡交易,積分卡,折扣優(yōu)惠券,客戶抱怨電話,以及(公眾)生活方式研究目標(biāo)營(yíng)銷發(fā)現(xiàn)具有相同特征的客戶群模型:興趣,收入水平,消費(fèi)習(xí)慣等判別客戶的序列購(gòu)買模式從單身賬戶到共有賬戶的轉(zhuǎn)變:結(jié)婚交叉銷售分析產(chǎn)品銷售之間的關(guān)聯(lián)基于關(guān)聯(lián)信息而進(jìn)行的預(yù)測(cè)2023/12/57市場(chǎng)分析和管理(2)構(gòu)造客戶特征數(shù)據(jù)挖掘可以告訴您哪種客戶會(huì)購(gòu)買哪種產(chǎn)品(通過(guò)聚類或分類)識(shí)別出客戶需求識(shí)別出適合不同客戶的最佳產(chǎn)品通過(guò)預(yù)測(cè)來(lái)發(fā)現(xiàn)吸引新客戶的因素提供綜合信息各種各樣的多維綜合報(bào)表統(tǒng)計(jì)上的綜合信息(數(shù)據(jù)的集中趨勢(shì)和變化)2023/12/58集團(tuán)分析和風(fēng)險(xiǎn)管理財(cái)政計(jì)劃和資產(chǎn)評(píng)估現(xiàn)金周轉(zhuǎn)分析和預(yù)測(cè)資產(chǎn)評(píng)估中的相機(jī)要求分析交叉組合分析和時(shí)間序列分析(財(cái)務(wù)比率,趨勢(shì)分析等)資源規(guī)劃資源和開銷的總結(jié)和比較競(jìng)爭(zhēng)力監(jiān)視競(jìng)爭(zhēng)對(duì)手和市場(chǎng)導(dǎo)向?qū)蛻舴纸M并基于分類制定價(jià)格在激烈的競(jìng)爭(zhēng)市場(chǎng)中制定價(jià)格策略2023/12/59欺詐檢測(cè)和管理(1)應(yīng)用廣泛用于健康衛(wèi)生,零售,信用卡服務(wù),電信(電話卡欺詐)等行業(yè)方法使用歷史數(shù)據(jù)來(lái)構(gòu)造欺詐行為模型,同時(shí)利用數(shù)據(jù)挖掘來(lái)輔助識(shí)別出類似案例示例汽車保險(xiǎn):檢測(cè)出那些偽造事故來(lái)騙取保險(xiǎn)金的人群洗錢:檢測(cè)可疑的金錢交易(美國(guó)財(cái)政部的金融犯罪執(zhí)行網(wǎng)絡(luò))醫(yī)療保險(xiǎn):檢測(cè)出職業(yè)病人2023/12/510欺詐檢測(cè)和管理(2)檢測(cè)出不必要的醫(yī)療處理澳大利亞醫(yī)療保險(xiǎn)委員會(huì)查出在許多案例中病人都要求blanketscreeningtests(每年節(jié)省一百萬(wàn)澳元)檢測(cè)電話欺詐通話模型:對(duì)端號(hào)碼,通話時(shí)長(zhǎng),每天(周)通話次數(shù)。分析那些偏離預(yù)期的通話模式英國(guó)電信檢測(cè)出頻繁進(jìn)行集團(tuán)內(nèi)部通話(特別是用手機(jī)通話)的一些犯罪集團(tuán),成功避免了數(shù)百萬(wàn)美元的欺詐零售分析家估計(jì)大約38%的零售額減少是由于不誠(chéng)實(shí)的員工造成的2023/12/511其它應(yīng)用體育IBMAdvancedScout分析了NBA比賽的統(tǒng)計(jì)數(shù)據(jù)(阻攻,助攻,犯規(guī)等),幫助紐約尼克斯隊(duì)和邁阿密熱隊(duì)提高競(jìng)爭(zhēng)優(yōu)勢(shì)天文學(xué)JPL和Palomar天文臺(tái)借助數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)了22顆類星體因特網(wǎng)沖浪輔助IBMSurf-Aid利用數(shù)據(jù)挖掘算法來(lái)分析與銷售有關(guān)的Web訪問(wèn)日志,發(fā)現(xiàn)用戶的偏好和行為,分析電子商務(wù)的有效性,改善網(wǎng)站的結(jié)構(gòu)等2023/12/512數(shù)據(jù)挖掘:一個(gè)KDD過(guò)程數(shù)據(jù)挖掘:知識(shí)發(fā)現(xiàn)過(guò)程的核心數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)任務(wù)相關(guān)的數(shù)據(jù)選取數(shù)據(jù)挖掘模式評(píng)價(jià)2023/12/513KDD過(guò)程的步驟對(duì)應(yīng)用領(lǐng)域的研究:相關(guān)的預(yù)備知識(shí)和應(yīng)用的目標(biāo)建立目標(biāo)數(shù)據(jù)集:數(shù)據(jù)選取數(shù)據(jù)清洗和預(yù)處理:(可能占據(jù)多達(dá)60%的工作量!)數(shù)據(jù)歸約和轉(zhuǎn)換:找出有用的特征,維度/變量歸約,不變式轉(zhuǎn)換選擇數(shù)據(jù)挖掘功能綜合,分類,回歸,關(guān)聯(lián),聚類.選擇挖掘算法數(shù)據(jù)挖掘:找出有意義的模式模式評(píng)價(jià)和知識(shí)表達(dá)可視化,轉(zhuǎn)換,消除冗余模式等等利用發(fā)現(xiàn)的知識(shí)2023/12/514數(shù)據(jù)挖掘和商業(yè)智能

增加支持商業(yè)決策的潛能最終用戶業(yè)務(wù)分析師數(shù)據(jù)分析師DBA制定決策數(shù)據(jù)表達(dá)可視化技術(shù)數(shù)據(jù)挖掘信息發(fā)現(xiàn)數(shù)據(jù)探索OLAP,MDA統(tǒng)計(jì)分析,查詢和報(bào)表數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)集市數(shù)據(jù)源紙媒介,文件,信息來(lái)源,數(shù)據(jù)庫(kù),OLTP2023/12/515典型數(shù)據(jù)挖掘系統(tǒng)的架構(gòu)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)清洗&數(shù)據(jù)集成過(guò)濾數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器數(shù)據(jù)挖掘引擎模式評(píng)價(jià)圖形用戶界面知識(shí)庫(kù)2023/12/516數(shù)據(jù)挖掘:在何種數(shù)據(jù)上進(jìn)行?關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)交易數(shù)據(jù)庫(kù)高級(jí)數(shù)據(jù)庫(kù)和信息倉(cāng)庫(kù)面向?qū)ο蠛蛯?duì)象關(guān)系數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)時(shí)間序列數(shù)據(jù)和時(shí)態(tài)數(shù)據(jù)文本數(shù)據(jù)庫(kù)和多媒體數(shù)據(jù)庫(kù)異構(gòu)數(shù)據(jù)庫(kù)和遺留數(shù)據(jù)庫(kù)因特網(wǎng)2023/12/517數(shù)據(jù)挖掘功能(1)概念描述:特征化和區(qū)分泛化,綜合,以及數(shù)據(jù)特征對(duì)比,例如,干旱和潮濕的地區(qū)關(guān)聯(lián)(相關(guān)性和因果關(guān)系)多維關(guān)聯(lián)和單維關(guān)聯(lián)age(X,“20..29”)^income(X,“20..29K”)àbuys(X,“PC”)[support=2%,confidence=60%]contains(T,“computer”)àcontains(x,“software”)[1%,75%]2023/12/518數(shù)據(jù)挖掘功能(2)分類和預(yù)測(cè)找出能描述和區(qū)分分類或概念的模型(函數(shù)),用于以后的預(yù)測(cè)例如,按氣候來(lái)對(duì)國(guó)家進(jìn)行分類,或者按每公里耗油量來(lái)對(duì)汽車分類表達(dá):決策樹,分類規(guī)則,神經(jīng)網(wǎng)絡(luò)預(yù)測(cè):預(yù)測(cè)未知或缺失的數(shù)值聚類分析類標(biāo)記是未知的:對(duì)數(shù)據(jù)進(jìn)行分組以形成新類,例如,對(duì)房屋聚類以找出分布模式聚類的原則:最大化類內(nèi)相似性,并且最小化類間相似性2023/12/519數(shù)據(jù)挖掘功能(3)孤立點(diǎn)分析孤立點(diǎn):與數(shù)據(jù)的一般行為不一致的數(shù)據(jù)對(duì)象常常被視為噪聲或異常而丟棄,但對(duì)于欺詐檢測(cè)和稀有事件分析來(lái)說(shuō)很有用趨勢(shì)和演變分析趨勢(shì)和偏差:回歸分析序列模式挖掘,周期分析基于相似度的分析其它模式分析或統(tǒng)計(jì)分析2023/12/520所有“挖掘”的模式都是有意義的嗎?數(shù)據(jù)挖掘系統(tǒng)/查詢可能產(chǎn)生成千上萬(wàn)個(gè)模式,但并非都有意義建議的方法:以人為中心,基于查詢,有目的的挖掘興趣度度量:一個(gè)模式是有意義的,如果它易于被人理解,在某種程度上,對(duì)于新數(shù)據(jù)或測(cè)試數(shù)據(jù)有效,潛在有用,新穎,或者驗(yàn)證了用戶渴望確認(rèn)的某些假設(shè)客觀興趣度和主觀興趣度度量:客觀興趣度:基于統(tǒng)計(jì)和模式的結(jié)構(gòu),例如,支持度,置信度,等等主觀興趣度:基于用戶對(duì)數(shù)據(jù)的確信程度,例如,意外程度,新奇程度,可行動(dòng)性,等等2023/12/521能否只找出有意義的模式,能否找全?找出全部有意義的模式:完備性數(shù)據(jù)挖掘系統(tǒng)能否找出全部有意義的模式?關(guān)聯(lián)vs.分類vs.聚類只找出有意義的模式:優(yōu)化數(shù)據(jù)挖掘系統(tǒng)能否只找出有意義的模式?方法首先生成全部模式,然后過(guò)濾無(wú)意義的模式只生成有意義的模式—挖掘的查詢優(yōu)化

2023/12/522數(shù)據(jù)挖掘:多學(xué)科的匯合

數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)技術(shù)統(tǒng)計(jì)學(xué)其它學(xué)科信息科學(xué)機(jī)器學(xué)習(xí)可視化2023/12/523數(shù)據(jù)挖掘:分類方案一般功能描述型數(shù)據(jù)挖掘預(yù)測(cè)型數(shù)據(jù)挖掘不同角度,不同分類挖掘的數(shù)據(jù)庫(kù)類型挖掘的知識(shí)類型所用的技術(shù)應(yīng)用的領(lǐng)域2023/12/524數(shù)據(jù)挖掘分類的多維視圖挖掘的數(shù)據(jù)庫(kù)類型關(guān)系的、事務(wù)的、面向?qū)ο蟮?、?duì)象-關(guān)系的、空間的、時(shí)間序列的、文本的、多媒體的,WWW,等等挖掘的知識(shí)類型特征、區(qū)分、關(guān)聯(lián)、分類、聚類、趨勢(shì)和演化分析、孤立點(diǎn)、偏差分析、類似性分析等多重抽象層次的知識(shí)發(fā)現(xiàn)所用的技術(shù)面向數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)(OLAP),機(jī)器學(xué)習(xí),統(tǒng)計(jì)學(xué),可視化,神經(jīng)網(wǎng)絡(luò),等等應(yīng)用領(lǐng)域零售,電信,銀行,欺詐分析,DNA挖掘,股票證券,Web挖掘,Web日志分析,等等2023/12/525OLAP挖掘:數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)的集成數(shù)據(jù)挖掘系統(tǒng),數(shù)據(jù)庫(kù)管理系統(tǒng),數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的耦合不耦合,松散耦合,半緊密耦合,緊密耦合聯(lián)機(jī)分析型數(shù)據(jù)挖掘數(shù)據(jù)挖掘和OLAP技術(shù)的集成多層次知識(shí)的交互挖掘有必要通過(guò)上卷/下鉆,旋轉(zhuǎn),切片/切塊來(lái)挖掘不同抽象層次的知識(shí)和模式多種挖掘功能的集成基于特征化的分類,先聚類后關(guān)聯(lián)分析2023/12/526OLAM的架構(gòu)數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)MDDBOLAM引擎OLAP引擎圖形用戶界面API數(shù)據(jù)立方體API數(shù)據(jù)庫(kù)API數(shù)據(jù)清洗數(shù)據(jù)集成第3層OLAP/OLAM第2層多維數(shù)據(jù)庫(kù)第1層數(shù)據(jù)存儲(chǔ)第4層用戶界面過(guò)濾&集成過(guò)濾數(shù)據(jù)庫(kù)挖掘查詢挖掘結(jié)果2023/12/527數(shù)據(jù)挖掘中的主要問(wèn)題(1)挖掘方法論和用戶交互在數(shù)據(jù)庫(kù)中挖掘不同類型的知識(shí)多層次知識(shí)的交互挖掘結(jié)合背景知識(shí)數(shù)據(jù)挖掘查詢語(yǔ)言和特定數(shù)據(jù)挖掘數(shù)據(jù)挖掘結(jié)果的表達(dá)和可視化處理噪聲和不完備的數(shù)據(jù)模式評(píng)價(jià):興趣度問(wèn)題性能和縮放性數(shù)據(jù)挖掘算法的效率和縮放性并行的,分布式的和增量的挖掘算法2023/12/528數(shù)據(jù)挖掘中的主要問(wèn)題(2)數(shù)據(jù)類型的多樣性關(guān)系型數(shù)據(jù)和復(fù)雜類型數(shù)據(jù)的處理異構(gòu)數(shù)據(jù)庫(kù)和因特網(wǎng)(WWW)的挖掘應(yīng)用領(lǐng)域和社會(huì)影響知識(shí)發(fā)現(xiàn)的應(yīng)用領(lǐng)域領(lǐng)域相關(guān)的數(shù)據(jù)挖掘工具智能詢問(wèn)解答(QA)系統(tǒng)過(guò)程控制和決策制定挖掘的知識(shí)和現(xiàn)有知識(shí)的集成:知識(shí)融合問(wèn)題數(shù)據(jù)的安全性,完整性,和隱私保護(hù)

2023/12/529總結(jié)數(shù)據(jù)挖掘:從大量數(shù)據(jù)中發(fā)現(xiàn)有意義的模式數(shù)據(jù)庫(kù)技術(shù)的自然演變,巨大的需求,廣泛的應(yīng)用KDD過(guò)程包括數(shù)據(jù)清洗,數(shù)據(jù)集成,數(shù)據(jù)選取,轉(zhuǎn)換,數(shù)據(jù)挖掘,模式評(píng)價(jià),和知識(shí)表達(dá)數(shù)據(jù)挖掘可以在多種數(shù)據(jù)存儲(chǔ)上進(jìn)行數(shù)據(jù)挖掘功能:特征化,區(qū)分,關(guān)聯(lián),分類,聚類,孤立點(diǎn)和趨勢(shì)分析等等數(shù)據(jù)挖掘系統(tǒng)的分類數(shù)據(jù)挖掘中的主要問(wèn)題

2023/12/530NCR數(shù)據(jù)挖掘總體介紹Why?Which?Where?How?What?數(shù)據(jù)挖掘FAQ數(shù)據(jù)

=儲(chǔ)藏室數(shù)據(jù)

+工具

=網(wǎng)吧數(shù)據(jù)

+工具

+

方法

=信息數(shù)據(jù)

+工具

+方法

+目標(biāo)

=知識(shí)數(shù)據(jù)

+工具+方法

+目標(biāo)

+行動(dòng)

=價(jià)值(Why)為何要數(shù)據(jù)挖掘?DataMiningisforpoweruserstofollowaprovenmethodologytodiscoveraction-orientedinsightsfrom

detailoperationsdata

toimprovebusiness.數(shù)據(jù)挖掘是分析專家用已驗(yàn)證的方法在業(yè)務(wù)細(xì)節(jié)數(shù)據(jù)中發(fā)掘出可采取行動(dòng)的洞察力,從而改善企業(yè)運(yùn)營(yíng)。(What)什么是數(shù)據(jù)挖掘?客戶面向客戶客戶管理CRM

客戶關(guān)系管理

數(shù)據(jù)倉(cāng)庫(kù)WalletShareAcquisitionRetentionFraudProductAffinityPriceSensitivityValue&RisksPsycho-demographicsDMMethod’yTools&TechniquesArchitect&OAMAdHocQueryWAR/F(Which)在哪些方面進(jìn)行挖掘?NCRDMinTelecommunication業(yè)務(wù)目標(biāo) 模型------------------------------------------- ----------------------錢包份額/爭(zhēng)取新客戶(WalletShare/Acquisition)預(yù)測(cè)客戶購(gòu)買新產(chǎn)品的傾向

Cross-SellResponseModel預(yù)測(cè)客戶擴(kuò)展服務(wù)用量的傾向

Up-sellResponseModel預(yù)測(cè)客戶升級(jí)服務(wù)的傾向

UpscaleResponseModel客戶挽留及保育(Retention)預(yù)測(cè)哪些客戶會(huì)終止服務(wù)的使用

ChurnsentrySolution改善挽留行動(dòng)的效率

ResponseModel欺詐/拖欠偵測(cè)(Fraud/Delinquency)預(yù)測(cè)客戶拖欠賬單支付的傾向

PropensitytoDelinquent預(yù)測(cè)拖欠客戶對(duì)催繳的響應(yīng)

PropensitytoCollect欺詐偵測(cè)及管理

FraudsentrySolution基礎(chǔ)/知識(shí)(Infrastructure/Knowledge)了解客戶購(gòu)買不同產(chǎn)品的情況

ProductAffinity評(píng)估客戶對(duì)運(yùn)營(yíng)商的利潤(rùn)貢獻(xiàn)度 ValueScore評(píng)估客戶的價(jià)格敏感度 PriceSensitivityProfiling預(yù)測(cè)客戶稱為高價(jià)值客戶的傾向 PropensitytobeVIP客戶信用度評(píng)估 CreditScoring/CreditModel客戶分群 Psycho-demographicProfiling預(yù)測(cè)營(yíng)收變化趨勢(shì)

RevenueForecast預(yù)測(cè)客戶的服務(wù)使用量變化趨勢(shì)

UsageForecast分析專題示例分析型應(yīng)用業(yè)務(wù)問(wèn)題業(yè)務(wù)價(jià)值客戶分群客戶如何分群以及各群組的特征?客戶關(guān)系的個(gè)性化定制,以便提高客戶滿意度,降低流失率購(gòu)買傾向哪些客戶最可能響應(yīng)我的促銷活動(dòng)?有的放矢,鎖定有需求的客戶,提高客戶忠誠(chéng)度,提高營(yíng)銷活動(dòng)的效率利潤(rùn)貢獻(xiàn)度什么是客戶的生命周期價(jià)值?基于客戶的綜合利潤(rùn)貢獻(xiàn)度來(lái)有效決策欺詐偵測(cè)如何鑒別哪些交易可能會(huì)是欺詐行為?快速鑒別出欺詐行為,立即反應(yīng)以避免損失客戶流失哪些客戶可能會(huì)棄我而去?避免高價(jià)值客戶的流失,低價(jià)值客戶隨他去客戶獲取哪些人可能成為我的客戶?哪些人可能帶來(lái)最高的收益?最小化新客戶的招攬成本渠道優(yōu)化到達(dá)每個(gè)客戶分群的最佳渠道是什么?基于客戶偏好和企業(yè)需要與客戶交互,從而控制成本采用抽樣技術(shù)避免壓力需要頻繁耗時(shí)的數(shù)據(jù)遷移數(shù)據(jù)冗余/元數(shù)據(jù)管理問(wèn)題ModelersBuildModelsBusinessDeploysModels高性能、易擴(kuò)展基本無(wú)需數(shù)據(jù)遷移避免過(guò)時(shí)數(shù)據(jù)避免抽樣誤差元數(shù)據(jù)共享,易于使用降低成本,節(jié)省投資!ModelersBuildModelsBusinessDeploysModels傳統(tǒng)的數(shù)據(jù)挖掘場(chǎng)內(nèi)(In-DBS)挖掘(Where)在哪里挖掘?確定業(yè)務(wù)問(wèn)題范圍

(度量數(shù)稱勝)TeradataDataWarehouse選擇抽樣

(必也正名乎)數(shù)據(jù)清洗(謹(jǐn)防假做真時(shí)真亦假,無(wú)為有處有還無(wú))數(shù)據(jù)探索

(月有陰晴圓缺)建模

(奇正之變,不可勝數(shù)也)發(fā)布(工欲成其事,必先利其器)(How)NCR數(shù)據(jù)挖掘方法論數(shù)據(jù)挖掘行動(dòng)指南做什么?該項(xiàng)工作任務(wù)的內(nèi)容是什么,要達(dá)到什么目標(biāo)工作內(nèi)容和工作目標(biāo)目標(biāo):數(shù)據(jù)挖掘是分析專家用已驗(yàn)證的方法在業(yè)務(wù)細(xì)節(jié)數(shù)據(jù)中發(fā)掘出可采取行動(dòng)的洞察力,從而改善企業(yè)運(yùn)營(yíng)任務(wù):遵循NCR數(shù)據(jù)挖掘方法論,實(shí)施數(shù)據(jù)挖掘?qū)n}(確定業(yè)務(wù)問(wèn)題,數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)探索,建模,模型發(fā)布)向客戶提供業(yè)務(wù)咨詢,幫助客戶完善挽留,產(chǎn)品梳理和營(yíng)銷流程跟蹤實(shí)施效果,并改進(jìn)挖掘模型,體現(xiàn)數(shù)據(jù)挖掘?qū)OI的提升向客戶提供數(shù)據(jù)挖掘培訓(xùn)課程,提高挖掘人員的綜合能力工作內(nèi)容和工作目標(biāo)

數(shù)據(jù)挖掘可以應(yīng)用在哪些方面客戶面向客戶客戶管理CRM

客戶關(guān)系管理

數(shù)據(jù)倉(cāng)庫(kù)WalletShareAcquisitionRetentionFraudProductAffinityPriceSensitivityValue&RisksPsycho-demographicsDMMethod’yTools&TechniquesArchitect&OAMAdHocQueryWAR/FNCRDMinTelecommunication業(yè)務(wù)目標(biāo) 模型------------------------------------------- ----------------------錢包份額/爭(zhēng)取新客戶(WalletShare/Acquisition)預(yù)測(cè)客戶購(gòu)買新產(chǎn)品的傾向

Cross-SellResponseModel預(yù)測(cè)客戶擴(kuò)展服務(wù)用量的傾向

Up-sellResponseModel預(yù)測(cè)客戶升級(jí)服務(wù)的傾向

UpscaleResponseModel客戶挽留及保育(Retention)預(yù)測(cè)哪些客戶會(huì)終止服務(wù)的使用

ChurnsentrySolution改善挽留行動(dòng)的效率

ResponseModel欺詐/拖欠偵測(cè)(Fraud/Delinquency)預(yù)測(cè)客戶拖欠賬單支付的傾向

PropensitytoDelinquent預(yù)測(cè)拖欠客戶對(duì)催繳的響應(yīng)

PropensitytoCollect欺詐偵測(cè)及管理

FraudsentrySolution基礎(chǔ)/知識(shí)(Infrastructure/Knowledge)了解客戶購(gòu)買不同產(chǎn)品的情況

ProductAffinity評(píng)估客戶對(duì)運(yùn)營(yíng)商的利潤(rùn)貢獻(xiàn)度 ValueScore評(píng)估客戶的價(jià)格敏感度 PriceSensitivityProfiling預(yù)測(cè)客戶稱為高價(jià)值客戶的傾向 PropensitytobeVIP客戶信用度評(píng)估 CreditScoring/CreditModel客戶分群 Psycho-demographicProfiling預(yù)測(cè)營(yíng)收變化趨勢(shì)

RevenueForecast預(yù)測(cè)客戶的服務(wù)使用量變化趨勢(shì)

UsageForecastFrequentlyusedtechniques業(yè)務(wù)目標(biāo) 分析方法/技術(shù)------------------------------------------- ----------------------錢包份額/爭(zhēng)取新客戶(WalletShare/Acquisition)預(yù)測(cè)客戶購(gòu)買新產(chǎn)品的傾向

決策樹/對(duì)數(shù)回歸預(yù)測(cè)客戶擴(kuò)展服務(wù)用量的傾向

決策樹/對(duì)數(shù)回歸預(yù)測(cè)客戶升級(jí)服務(wù)的傾向

決策樹/對(duì)數(shù)回歸客戶挽留及保育(Retention)預(yù)測(cè)哪些客戶會(huì)終止服務(wù)的使用

決策樹/對(duì)數(shù)回歸改善挽留行動(dòng)的效率

描述型分析/響應(yīng)模型欺詐/拖欠偵測(cè)(Fraud/Delinquency)預(yù)測(cè)客戶拖欠賬單支付的傾向

對(duì)數(shù)回歸預(yù)測(cè)拖欠客戶對(duì)催繳的響應(yīng)

決策樹欺詐偵測(cè)及管理

規(guī)則歸納基礎(chǔ)/知識(shí)(Infrastructure/Knowledge)了解客戶購(gòu)買不同產(chǎn)品的情況

關(guān)聯(lián)規(guī)則評(píng)估客戶對(duì)運(yùn)營(yíng)商的利潤(rùn)貢獻(xiàn)度

ABC成本核算評(píng)估客戶的價(jià)格敏感度

描述型分析/聚類預(yù)測(cè)客戶稱為高價(jià)值客戶的傾向

對(duì)數(shù)回歸客戶信用度評(píng)估

描述型分析客戶分群

聚類預(yù)測(cè)營(yíng)收變化趨勢(shì)

線性回歸預(yù)測(cè)客戶的服務(wù)使用量變化趨勢(shì)

線性回歸由誰(shuí)來(lái)做由誰(shuí)來(lái)負(fù)責(zé)執(zhí)行該項(xiàng)工作任務(wù),應(yīng)具備什么資質(zhì)和技能實(shí)施人員數(shù)據(jù)挖掘項(xiàng)目的時(shí)間計(jì)劃要根據(jù)多個(gè)關(guān)鍵因素而定:挖掘?qū)n}的復(fù)雜程度客戶對(duì)挖掘結(jié)果性能評(píng)定的期望可用的數(shù)據(jù)完備性及數(shù)據(jù)質(zhì)量項(xiàng)目人力資源是否充足以及人員能力等等以移動(dòng)通信行業(yè)的客戶流失預(yù)測(cè)分析為例,一般需要2~4個(gè)月不等(在數(shù)據(jù)已經(jīng)準(zhǔn)備就緒的情況下)數(shù)據(jù)挖掘項(xiàng)目需要如下的成員或角色來(lái)參與完成:數(shù)據(jù)挖掘?qū)<襊DM建模人員ETL開發(fā)人員AP開發(fā)人員(客戶方)熟悉業(yè)務(wù)的人員以及熟悉數(shù)據(jù)倉(cāng)庫(kù)PDM的人員予以支持實(shí)施人員

數(shù)據(jù)挖掘?qū)<夷芰σ?基本要求)專業(yè)技能碩士以上學(xué)歷,數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)相關(guān)專業(yè)熟練掌握關(guān)系數(shù)據(jù)庫(kù)技術(shù),具有數(shù)據(jù)庫(kù)系統(tǒng)開發(fā)經(jīng)驗(yàn)熟練掌握常用的數(shù)據(jù)挖掘算法具備數(shù)理統(tǒng)計(jì)理論基礎(chǔ),并熟悉常用的統(tǒng)計(jì)工具軟件行業(yè)知識(shí)具有相關(guān)的行業(yè)知識(shí),或者能夠很快熟悉相關(guān)的行業(yè)知識(shí)合作精神具有良好的團(tuán)隊(duì)合作精神,能夠主動(dòng)和項(xiàng)目中其他成員緊密合作客戶關(guān)系能力具有良好的客戶溝通能力,能夠明確闡述數(shù)據(jù)挖掘項(xiàng)目的重點(diǎn)和難點(diǎn),善于調(diào)整客戶對(duì)數(shù)據(jù)挖掘的誤解和過(guò)高期望具有良好的知識(shí)轉(zhuǎn)移能力,能夠盡快地讓模型維護(hù)人員了解并掌握數(shù)據(jù)挖掘方法論及建模實(shí)施能力實(shí)施人員

數(shù)據(jù)挖掘?qū)<夷芰σ?進(jìn)階要求)具有數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目實(shí)施經(jīng)驗(yàn),熟悉Teradata數(shù)據(jù)倉(cāng)庫(kù)技術(shù)及方法論熟練掌握SQL語(yǔ)言,包括復(fù)雜查詢、性能調(diào)優(yōu)熟練掌握ETL開發(fā)工具和技術(shù)熟練掌握MicrosoftOffice軟件,包括Excel和PowerPoint中的各種統(tǒng)計(jì)圖形技術(shù)善于將挖掘結(jié)果和客戶的業(yè)務(wù)管理相結(jié)合,根據(jù)數(shù)據(jù)挖掘的成果向客戶提供有價(jià)值的可行性操作方案怎么做?執(zhí)行該項(xiàng)工作任務(wù)的方式、方法、工作流程和工作模板等工作流程和方法按照NCR的數(shù)據(jù)挖掘方法論,數(shù)據(jù)挖掘項(xiàng)目包含五個(gè)階段:定義業(yè)務(wù)問(wèn)題范圍、選取和抽樣、數(shù)據(jù)探索、建模和實(shí)施(評(píng)估和發(fā)布)工作流程和方法

階段1:定義業(yè)務(wù)問(wèn)題范圍在這個(gè)數(shù)據(jù)挖掘的初始階段,需明確闡述項(xiàng)目目標(biāo)和客戶業(yè)務(wù)需求,目的是明確包括客戶響應(yīng)的數(shù)據(jù)挖掘問(wèn)題?;诳蛻繇憫?yīng)(如客戶流失或產(chǎn)品購(gòu)買趨勢(shì))特性,可以從概念上定義響應(yīng)變量,與待選的預(yù)測(cè)變量沒(méi)有直接的派生關(guān)系〈直接的派生關(guān)系意指響應(yīng)變量可由一或多個(gè)預(yù)測(cè)變量直接計(jì)算出來(lái)〉。最終,為了這些目標(biāo)可以必要地調(diào)整項(xiàng)目計(jì)劃進(jìn)程。階段1的任務(wù)包括:明確業(yè)務(wù)目標(biāo)定義響應(yīng)變量項(xiàng)目計(jì)劃必要的調(diào)整工作流程和方法

階段2:選取和抽樣在這一階段,建模小組要搜尋并檢查客戶數(shù)據(jù),做為未來(lái)的分析定義屬性的簡(jiǎn)略一覽表。在數(shù)據(jù)挖掘的子過(guò)程中,創(chuàng)建一個(gè)數(shù)據(jù)映射概念圖以對(duì)應(yīng)客戶數(shù)據(jù)與建模相關(guān)的各個(gè)數(shù)據(jù)屬性名。數(shù)據(jù)能被整合到一個(gè)適當(dāng)?shù)某潭?,省略不適當(dāng)?shù)挠涗洠ㄈ缟虅?wù)客戶,非居民客戶,如果分析僅針對(duì)居民客戶)、不完整的數(shù)據(jù)記錄、訓(xùn)練數(shù)據(jù)、試驗(yàn)數(shù)據(jù),等等。階段2的任務(wù)包括:數(shù)據(jù)來(lái)源數(shù)據(jù)映射準(zhǔn)備數(shù)據(jù)評(píng)估數(shù)據(jù)的必要聚合數(shù)據(jù)抽樣工作流程和方法

階段3:數(shù)據(jù)探索在這個(gè)階段中,建模小組核查目前的數(shù)據(jù)源并且努力去發(fā)現(xiàn)在每個(gè)待選的預(yù)測(cè)變量和響應(yīng)變量之間是否有任何關(guān)系。數(shù)據(jù)轉(zhuǎn)換通常在更進(jìn)一步的范圍中探察數(shù)據(jù)關(guān)系。數(shù)據(jù)的派生方法被用來(lái)捕獲和表現(xiàn)已發(fā)現(xiàn)的關(guān)系。通常,數(shù)值分析是為了全面理解數(shù)據(jù)的第一步,跟著進(jìn)行的統(tǒng)計(jì)分析是為了得到有關(guān)數(shù)據(jù)分配的更好知識(shí)。如頻率圖、柱狀圖、條線圖,散點(diǎn)圖、框圖和許多其他方式是典型的且很好的數(shù)據(jù)的圖形化呈現(xiàn)工具,使為下一步建立模型準(zhǔn)備數(shù)據(jù)來(lái)源變得容易很多。在數(shù)據(jù)挖掘過(guò)程中這是一個(gè)關(guān)鍵的階段,通常隨伴著由正式的數(shù)據(jù)探索報(bào)告來(lái)記錄和呈現(xiàn)發(fā)現(xiàn)。階段3的任務(wù)包括:數(shù)據(jù)質(zhì)量檢查數(shù)據(jù)的必要整理通過(guò)圖形化呈現(xiàn)工具和其他的統(tǒng)計(jì)方法理解數(shù)據(jù)分析待選預(yù)測(cè)變量和響應(yīng)變量之間的關(guān)系數(shù)據(jù)轉(zhuǎn)換以輔助數(shù)據(jù)的分析數(shù)據(jù)派生為建立模型做準(zhǔn)備整理和呈現(xiàn)數(shù)據(jù)探索的發(fā)現(xiàn)工作流程和方法

階段4:建模在這一階段,建模小組建立并確認(rèn)分析模型。建模小組通常嘗試不同的建模技術(shù)或結(jié)合不同數(shù)據(jù)集,并衡量模型性能的不同,選出最好的。來(lái)自最終用戶的業(yè)務(wù)領(lǐng)域知識(shí)在這個(gè)階段是非常關(guān)鍵的,因?yàn)樗麄兛梢栽u(píng)價(jià)和確認(rèn)模型的結(jié)果、理解發(fā)現(xiàn)并付諸實(shí)際行動(dòng),即證明這些模型并在實(shí)際環(huán)境中實(shí)施。階段4的任務(wù)包括:為模型的訓(xùn)練和驗(yàn)證準(zhǔn)備數(shù)據(jù)集在模型的建立中使用適當(dāng)?shù)慕<夹g(shù)針對(duì)不同的建模技術(shù)測(cè)試模型性能必要地精煉分析模型和主題專家一起的檢驗(yàn)分析模型記錄分析模型和結(jié)果工作流程和方法

階段5:實(shí)施(評(píng)估和發(fā)布)在這一階段,需要用模型的結(jié)果來(lái)幫助作出業(yè)務(wù)決定、戰(zhàn)略設(shè)計(jì)和戰(zhàn)術(shù)實(shí)施。收集實(shí)施結(jié)果反饋,為模型的退化進(jìn)行偵測(cè),更進(jìn)一步改善模型性能。雖然能利用模型的結(jié)果,復(fù)雜的展示層界面通常是不必的,如果大量努力為了實(shí)施前端應(yīng)用,或自動(dòng)化的數(shù)據(jù)挖掘過(guò)程,這個(gè)階段會(huì)變得非常IT導(dǎo)向。數(shù)據(jù)挖掘過(guò)程的自動(dòng)化是CRM(客戶關(guān)系管理)的解決方案中不可或缺的一部分,因此,是與典型的數(shù)據(jù)挖掘分開實(shí)施的項(xiàng)目。模型的現(xiàn)場(chǎng)測(cè)試也通常是一個(gè)單獨(dú)的項(xiàng)目,它會(huì)花費(fèi)時(shí)間

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論