版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
DM基礎(chǔ)-1
數(shù)據(jù)挖掘概述
教材內(nèi)容來源于《數(shù)據(jù)挖掘:概念與技術(shù)》第1章引言(JiaweiHanandMichelineKamber)2023/12/51課程大綱什么激發(fā)了數(shù)據(jù)挖掘?什么是數(shù)據(jù)挖掘?在何種數(shù)據(jù)上進行數(shù)據(jù)挖掘?數(shù)據(jù)挖掘功能所有模式都是有意義的嗎?數(shù)據(jù)挖掘系統(tǒng)的分類數(shù)據(jù)挖掘中的主要問題2023/12/52動機:“需要是發(fā)明之母”數(shù)據(jù)爆炸問題
自動化的數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術(shù)導致了數(shù)據(jù)庫、數(shù)據(jù)倉庫和其它信息倉庫中儲存了海量數(shù)據(jù)數(shù)據(jù)豐富,但信息貧乏!
解決方案:數(shù)據(jù)倉庫和數(shù)據(jù)挖掘數(shù)據(jù)倉庫和聯(lián)機分析處理從海量數(shù)據(jù)中抽取出有意義的知識(規(guī)則、規(guī)律、模式、約束)2023/12/53數(shù)據(jù)庫技術(shù)的演化
(參見圖1.1)1960s:數(shù)據(jù)集合,數(shù)據(jù)庫創(chuàng)建,IMS和網(wǎng)絡(luò)數(shù)據(jù)庫1970s:關(guān)系數(shù)據(jù)模型,關(guān)系數(shù)據(jù)庫系統(tǒng)實現(xiàn)1980s:RDBMS,高級數(shù)據(jù)模型(擴展關(guān)系模型,面向?qū)ο竽P?,演繹模型等)和面向應用的數(shù)據(jù)庫管理系統(tǒng)(空間,科學,工程等)1990s—2000s:數(shù)據(jù)挖掘和數(shù)據(jù)倉庫,多媒體數(shù)據(jù)庫和Web數(shù)據(jù)庫2023/12/54什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(數(shù)據(jù)庫中的知識發(fā)現(xiàn)):從大型數(shù)據(jù)庫中抽取有意義的(非平凡的,隱含的,以前未知的并且是有潛在價值的)信息或模式其它類似術(shù)語:數(shù)據(jù)挖掘:是否用詞不當?數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD),知識抽取,數(shù)據(jù)/模式分析,數(shù)據(jù)考古,數(shù)據(jù)捕撈,商業(yè)智能等什么不屬于數(shù)據(jù)挖掘?(演繹)查詢處理專家系統(tǒng)或小型的機器學習/統(tǒng)計分析程序2023/12/55為何進行數(shù)據(jù)挖掘?—潛在應用數(shù)據(jù)庫分析和決策支持市場分析和管理目標營銷,客戶關(guān)系管理,購物籃分析,交叉銷售,市場分段風險分析和管理預測,客戶保持,降低風險,質(zhì)量控制,競爭力分析欺詐檢測與管理其它應用文本挖掘(新聞組,電子郵件,文檔)和Web分析智能詢問解答(QA)系統(tǒng)2023/12/56市場分析和管理(1)分析的數(shù)據(jù)源在哪里?信用卡交易,積分卡,折扣優(yōu)惠券,客戶抱怨電話,以及(公眾)生活方式研究目標營銷發(fā)現(xiàn)具有相同特征的客戶群模型:興趣,收入水平,消費習慣等判別客戶的序列購買模式從單身賬戶到共有賬戶的轉(zhuǎn)變:結(jié)婚交叉銷售分析產(chǎn)品銷售之間的關(guān)聯(lián)基于關(guān)聯(lián)信息而進行的預測2023/12/57市場分析和管理(2)構(gòu)造客戶特征數(shù)據(jù)挖掘可以告訴您哪種客戶會購買哪種產(chǎn)品(通過聚類或分類)識別出客戶需求識別出適合不同客戶的最佳產(chǎn)品通過預測來發(fā)現(xiàn)吸引新客戶的因素提供綜合信息各種各樣的多維綜合報表統(tǒng)計上的綜合信息(數(shù)據(jù)的集中趨勢和變化)2023/12/58集團分析和風險管理財政計劃和資產(chǎn)評估現(xiàn)金周轉(zhuǎn)分析和預測資產(chǎn)評估中的相機要求分析交叉組合分析和時間序列分析(財務比率,趨勢分析等)資源規(guī)劃資源和開銷的總結(jié)和比較競爭力監(jiān)視競爭對手和市場導向?qū)蛻舴纸M并基于分類制定價格在激烈的競爭市場中制定價格策略2023/12/59欺詐檢測和管理(1)應用廣泛用于健康衛(wèi)生,零售,信用卡服務,電信(電話卡欺詐)等行業(yè)方法使用歷史數(shù)據(jù)來構(gòu)造欺詐行為模型,同時利用數(shù)據(jù)挖掘來輔助識別出類似案例示例汽車保險:檢測出那些偽造事故來騙取保險金的人群洗錢:檢測可疑的金錢交易(美國財政部的金融犯罪執(zhí)行網(wǎng)絡(luò))醫(yī)療保險:檢測出職業(yè)病人2023/12/510欺詐檢測和管理(2)檢測出不必要的醫(yī)療處理澳大利亞醫(yī)療保險委員會查出在許多案例中病人都要求blanketscreeningtests(每年節(jié)省一百萬澳元)檢測電話欺詐通話模型:對端號碼,通話時長,每天(周)通話次數(shù)。分析那些偏離預期的通話模式英國電信檢測出頻繁進行集團內(nèi)部通話(特別是用手機通話)的一些犯罪集團,成功避免了數(shù)百萬美元的欺詐零售分析家估計大約38%的零售額減少是由于不誠實的員工造成的2023/12/511其它應用體育IBMAdvancedScout分析了NBA比賽的統(tǒng)計數(shù)據(jù)(阻攻,助攻,犯規(guī)等),幫助紐約尼克斯隊和邁阿密熱隊提高競爭優(yōu)勢天文學JPL和Palomar天文臺借助數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)了22顆類星體因特網(wǎng)沖浪輔助IBMSurf-Aid利用數(shù)據(jù)挖掘算法來分析與銷售有關(guān)的Web訪問日志,發(fā)現(xiàn)用戶的偏好和行為,分析電子商務的有效性,改善網(wǎng)站的結(jié)構(gòu)等2023/12/512數(shù)據(jù)挖掘:一個KDD過程數(shù)據(jù)挖掘:知識發(fā)現(xiàn)過程的核心數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)庫數(shù)據(jù)倉庫任務相關(guān)的數(shù)據(jù)選取數(shù)據(jù)挖掘模式評價2023/12/513KDD過程的步驟對應用領(lǐng)域的研究:相關(guān)的預備知識和應用的目標建立目標數(shù)據(jù)集:數(shù)據(jù)選取數(shù)據(jù)清洗和預處理:(可能占據(jù)多達60%的工作量!)數(shù)據(jù)歸約和轉(zhuǎn)換:找出有用的特征,維度/變量歸約,不變式轉(zhuǎn)換選擇數(shù)據(jù)挖掘功能綜合,分類,回歸,關(guān)聯(lián),聚類.選擇挖掘算法數(shù)據(jù)挖掘:找出有意義的模式模式評價和知識表達可視化,轉(zhuǎn)換,消除冗余模式等等利用發(fā)現(xiàn)的知識2023/12/514數(shù)據(jù)挖掘和商業(yè)智能
增加支持商業(yè)決策的潛能最終用戶業(yè)務分析師數(shù)據(jù)分析師DBA制定決策數(shù)據(jù)表達可視化技術(shù)數(shù)據(jù)挖掘信息發(fā)現(xiàn)數(shù)據(jù)探索OLAP,MDA統(tǒng)計分析,查詢和報表數(shù)據(jù)倉庫/數(shù)據(jù)集市數(shù)據(jù)源紙媒介,文件,信息來源,數(shù)據(jù)庫,OLTP2023/12/515典型數(shù)據(jù)挖掘系統(tǒng)的架構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)清洗&數(shù)據(jù)集成過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器數(shù)據(jù)挖掘引擎模式評價圖形用戶界面知識庫2023/12/516數(shù)據(jù)挖掘:在何種數(shù)據(jù)上進行?關(guān)系數(shù)據(jù)庫數(shù)據(jù)倉庫交易數(shù)據(jù)庫高級數(shù)據(jù)庫和信息倉庫面向?qū)ο蠛蛯ο箨P(guān)系數(shù)據(jù)庫空間數(shù)據(jù)庫時間序列數(shù)據(jù)和時態(tài)數(shù)據(jù)文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫異構(gòu)數(shù)據(jù)庫和遺留數(shù)據(jù)庫因特網(wǎng)2023/12/517數(shù)據(jù)挖掘功能(1)概念描述:特征化和區(qū)分泛化,綜合,以及數(shù)據(jù)特征對比,例如,干旱和潮濕的地區(qū)關(guān)聯(lián)(相關(guān)性和因果關(guān)系)多維關(guān)聯(lián)和單維關(guān)聯(lián)age(X,“20..29”)^income(X,“20..29K”)àbuys(X,“PC”)[support=2%,confidence=60%]contains(T,“computer”)àcontains(x,“software”)[1%,75%]2023/12/518數(shù)據(jù)挖掘功能(2)分類和預測找出能描述和區(qū)分分類或概念的模型(函數(shù)),用于以后的預測例如,按氣候來對國家進行分類,或者按每公里耗油量來對汽車分類表達:決策樹,分類規(guī)則,神經(jīng)網(wǎng)絡(luò)預測:預測未知或缺失的數(shù)值聚類分析類標記是未知的:對數(shù)據(jù)進行分組以形成新類,例如,對房屋聚類以找出分布模式聚類的原則:最大化類內(nèi)相似性,并且最小化類間相似性2023/12/519數(shù)據(jù)挖掘功能(3)孤立點分析孤立點:與數(shù)據(jù)的一般行為不一致的數(shù)據(jù)對象常常被視為噪聲或異常而丟棄,但對于欺詐檢測和稀有事件分析來說很有用趨勢和演變分析趨勢和偏差:回歸分析序列模式挖掘,周期分析基于相似度的分析其它模式分析或統(tǒng)計分析2023/12/520所有“挖掘”的模式都是有意義的嗎?數(shù)據(jù)挖掘系統(tǒng)/查詢可能產(chǎn)生成千上萬個模式,但并非都有意義建議的方法:以人為中心,基于查詢,有目的的挖掘興趣度度量:一個模式是有意義的,如果它易于被人理解,在某種程度上,對于新數(shù)據(jù)或測試數(shù)據(jù)有效,潛在有用,新穎,或者驗證了用戶渴望確認的某些假設(shè)客觀興趣度和主觀興趣度度量:客觀興趣度:基于統(tǒng)計和模式的結(jié)構(gòu),例如,支持度,置信度,等等主觀興趣度:基于用戶對數(shù)據(jù)的確信程度,例如,意外程度,新奇程度,可行動性,等等2023/12/521能否只找出有意義的模式,能否找全?找出全部有意義的模式:完備性數(shù)據(jù)挖掘系統(tǒng)能否找出全部有意義的模式?關(guān)聯(lián)vs.分類vs.聚類只找出有意義的模式:優(yōu)化數(shù)據(jù)挖掘系統(tǒng)能否只找出有意義的模式?方法首先生成全部模式,然后過濾無意義的模式只生成有意義的模式—挖掘的查詢優(yōu)化
2023/12/522數(shù)據(jù)挖掘:多學科的匯合
數(shù)據(jù)挖掘數(shù)據(jù)庫技術(shù)統(tǒng)計學其它學科信息科學機器學習可視化2023/12/523數(shù)據(jù)挖掘:分類方案一般功能描述型數(shù)據(jù)挖掘預測型數(shù)據(jù)挖掘不同角度,不同分類挖掘的數(shù)據(jù)庫類型挖掘的知識類型所用的技術(shù)應用的領(lǐng)域2023/12/524數(shù)據(jù)挖掘分類的多維視圖挖掘的數(shù)據(jù)庫類型關(guān)系的、事務的、面向?qū)ο蟮?、對?關(guān)系的、空間的、時間序列的、文本的、多媒體的,WWW,等等挖掘的知識類型特征、區(qū)分、關(guān)聯(lián)、分類、聚類、趨勢和演化分析、孤立點、偏差分析、類似性分析等多重抽象層次的知識發(fā)現(xiàn)所用的技術(shù)面向數(shù)據(jù)庫,數(shù)據(jù)倉庫(OLAP),機器學習,統(tǒng)計學,可視化,神經(jīng)網(wǎng)絡(luò),等等應用領(lǐng)域零售,電信,銀行,欺詐分析,DNA挖掘,股票證券,Web挖掘,Web日志分析,等等2023/12/525OLAP挖掘:數(shù)據(jù)挖掘和數(shù)據(jù)倉庫的集成數(shù)據(jù)挖掘系統(tǒng),數(shù)據(jù)庫管理系統(tǒng),數(shù)據(jù)倉庫系統(tǒng)的耦合不耦合,松散耦合,半緊密耦合,緊密耦合聯(lián)機分析型數(shù)據(jù)挖掘數(shù)據(jù)挖掘和OLAP技術(shù)的集成多層次知識的交互挖掘有必要通過上卷/下鉆,旋轉(zhuǎn),切片/切塊來挖掘不同抽象層次的知識和模式多種挖掘功能的集成基于特征化的分類,先聚類后關(guān)聯(lián)分析2023/12/526OLAM的架構(gòu)數(shù)據(jù)倉庫元數(shù)據(jù)MDDBOLAM引擎OLAP引擎圖形用戶界面API數(shù)據(jù)立方體API數(shù)據(jù)庫API數(shù)據(jù)清洗數(shù)據(jù)集成第3層OLAP/OLAM第2層多維數(shù)據(jù)庫第1層數(shù)據(jù)存儲第4層用戶界面過濾&集成過濾數(shù)據(jù)庫挖掘查詢挖掘結(jié)果2023/12/527數(shù)據(jù)挖掘中的主要問題(1)挖掘方法論和用戶交互在數(shù)據(jù)庫中挖掘不同類型的知識多層次知識的交互挖掘結(jié)合背景知識數(shù)據(jù)挖掘查詢語言和特定數(shù)據(jù)挖掘數(shù)據(jù)挖掘結(jié)果的表達和可視化處理噪聲和不完備的數(shù)據(jù)模式評價:興趣度問題性能和縮放性數(shù)據(jù)挖掘算法的效率和縮放性并行的,分布式的和增量的挖掘算法2023/12/528數(shù)據(jù)挖掘中的主要問題(2)數(shù)據(jù)類型的多樣性關(guān)系型數(shù)據(jù)和復雜類型數(shù)據(jù)的處理異構(gòu)數(shù)據(jù)庫和因特網(wǎng)(WWW)的挖掘應用領(lǐng)域和社會影響知識發(fā)現(xiàn)的應用領(lǐng)域領(lǐng)域相關(guān)的數(shù)據(jù)挖掘工具智能詢問解答(QA)系統(tǒng)過程控制和決策制定挖掘的知識和現(xiàn)有知識的集成:知識融合問題數(shù)據(jù)的安全性,完整性,和隱私保護
2023/12/529總結(jié)數(shù)據(jù)挖掘:從大量數(shù)據(jù)中發(fā)現(xiàn)有意義的模式數(shù)據(jù)庫技術(shù)的自然演變,巨大的需求,廣泛的應用KDD過程包括數(shù)據(jù)清洗,數(shù)據(jù)集成,數(shù)據(jù)選取,轉(zhuǎn)換,數(shù)據(jù)挖掘,模式評價,和知識表達數(shù)據(jù)挖掘可以在多種數(shù)據(jù)存儲上進行數(shù)據(jù)挖掘功能:特征化,區(qū)分,關(guān)聯(lián),分類,聚類,孤立點和趨勢分析等等數(shù)據(jù)挖掘系統(tǒng)的分類數(shù)據(jù)挖掘中的主要問題
2023/12/530NCR數(shù)據(jù)挖掘總體介紹Why?Which?Where?How?What?數(shù)據(jù)挖掘FAQ數(shù)據(jù)
=儲藏室數(shù)據(jù)
+工具
=網(wǎng)吧數(shù)據(jù)
+工具
+
方法
=信息數(shù)據(jù)
+工具
+方法
+目標
=知識數(shù)據(jù)
+工具+方法
+目標
+行動
=價值(Why)為何要數(shù)據(jù)挖掘?DataMiningisforpoweruserstofollowaprovenmethodologytodiscoveraction-orientedinsightsfrom
detailoperationsdata
toimprovebusiness.數(shù)據(jù)挖掘是分析專家用已驗證的方法在業(yè)務細節(jié)數(shù)據(jù)中發(fā)掘出可采取行動的洞察力,從而改善企業(yè)運營。(What)什么是數(shù)據(jù)挖掘?客戶面向客戶客戶管理CRM
客戶關(guān)系管理
數(shù)據(jù)倉庫WalletShareAcquisitionRetentionFraudProductAffinityPriceSensitivityValue&RisksPsycho-demographicsDMMethod’yTools&TechniquesArchitect&OAMAdHocQueryWAR/F(Which)在哪些方面進行挖掘?NCRDMinTelecommunication業(yè)務目標 模型------------------------------------------- ----------------------錢包份額/爭取新客戶(WalletShare/Acquisition)預測客戶購買新產(chǎn)品的傾向
Cross-SellResponseModel預測客戶擴展服務用量的傾向
Up-sellResponseModel預測客戶升級服務的傾向
UpscaleResponseModel客戶挽留及保育(Retention)預測哪些客戶會終止服務的使用
ChurnsentrySolution改善挽留行動的效率
ResponseModel欺詐/拖欠偵測(Fraud/Delinquency)預測客戶拖欠賬單支付的傾向
PropensitytoDelinquent預測拖欠客戶對催繳的響應
PropensitytoCollect欺詐偵測及管理
FraudsentrySolution基礎(chǔ)/知識(Infrastructure/Knowledge)了解客戶購買不同產(chǎn)品的情況
ProductAffinity評估客戶對運營商的利潤貢獻度 ValueScore評估客戶的價格敏感度 PriceSensitivityProfiling預測客戶稱為高價值客戶的傾向 PropensitytobeVIP客戶信用度評估 CreditScoring/CreditModel客戶分群 Psycho-demographicProfiling預測營收變化趨勢
RevenueForecast預測客戶的服務使用量變化趨勢
UsageForecast分析專題示例分析型應用業(yè)務問題業(yè)務價值客戶分群客戶如何分群以及各群組的特征?客戶關(guān)系的個性化定制,以便提高客戶滿意度,降低流失率購買傾向哪些客戶最可能響應我的促銷活動?有的放矢,鎖定有需求的客戶,提高客戶忠誠度,提高營銷活動的效率利潤貢獻度什么是客戶的生命周期價值?基于客戶的綜合利潤貢獻度來有效決策欺詐偵測如何鑒別哪些交易可能會是欺詐行為?快速鑒別出欺詐行為,立即反應以避免損失客戶流失哪些客戶可能會棄我而去?避免高價值客戶的流失,低價值客戶隨他去客戶獲取哪些人可能成為我的客戶?哪些人可能帶來最高的收益?最小化新客戶的招攬成本渠道優(yōu)化到達每個客戶分群的最佳渠道是什么?基于客戶偏好和企業(yè)需要與客戶交互,從而控制成本采用抽樣技術(shù)避免壓力需要頻繁耗時的數(shù)據(jù)遷移數(shù)據(jù)冗余/元數(shù)據(jù)管理問題ModelersBuildModelsBusinessDeploysModels高性能、易擴展基本無需數(shù)據(jù)遷移避免過時數(shù)據(jù)避免抽樣誤差元數(shù)據(jù)共享,易于使用降低成本,節(jié)省投資!ModelersBuildModelsBusinessDeploysModels傳統(tǒng)的數(shù)據(jù)挖掘場內(nèi)(In-DBS)挖掘(Where)在哪里挖掘?確定業(yè)務問題范圍
(度量數(shù)稱勝)TeradataDataWarehouse選擇抽樣
(必也正名乎)數(shù)據(jù)清洗(謹防假做真時真亦假,無為有處有還無)數(shù)據(jù)探索
(月有陰晴圓缺)建模
(奇正之變,不可勝數(shù)也)發(fā)布(工欲成其事,必先利其器)(How)NCR數(shù)據(jù)挖掘方法論數(shù)據(jù)挖掘行動指南做什么?該項工作任務的內(nèi)容是什么,要達到什么目標工作內(nèi)容和工作目標目標:數(shù)據(jù)挖掘是分析專家用已驗證的方法在業(yè)務細節(jié)數(shù)據(jù)中發(fā)掘出可采取行動的洞察力,從而改善企業(yè)運營任務:遵循NCR數(shù)據(jù)挖掘方法論,實施數(shù)據(jù)挖掘?qū)n}(確定業(yè)務問題,數(shù)據(jù)準備,數(shù)據(jù)探索,建模,模型發(fā)布)向客戶提供業(yè)務咨詢,幫助客戶完善挽留,產(chǎn)品梳理和營銷流程跟蹤實施效果,并改進挖掘模型,體現(xiàn)數(shù)據(jù)挖掘?qū)OI的提升向客戶提供數(shù)據(jù)挖掘培訓課程,提高挖掘人員的綜合能力工作內(nèi)容和工作目標
數(shù)據(jù)挖掘可以應用在哪些方面客戶面向客戶客戶管理CRM
客戶關(guān)系管理
數(shù)據(jù)倉庫WalletShareAcquisitionRetentionFraudProductAffinityPriceSensitivityValue&RisksPsycho-demographicsDMMethod’yTools&TechniquesArchitect&OAMAdHocQueryWAR/FNCRDMinTelecommunication業(yè)務目標 模型------------------------------------------- ----------------------錢包份額/爭取新客戶(WalletShare/Acquisition)預測客戶購買新產(chǎn)品的傾向
Cross-SellResponseModel預測客戶擴展服務用量的傾向
Up-sellResponseModel預測客戶升級服務的傾向
UpscaleResponseModel客戶挽留及保育(Retention)預測哪些客戶會終止服務的使用
ChurnsentrySolution改善挽留行動的效率
ResponseModel欺詐/拖欠偵測(Fraud/Delinquency)預測客戶拖欠賬單支付的傾向
PropensitytoDelinquent預測拖欠客戶對催繳的響應
PropensitytoCollect欺詐偵測及管理
FraudsentrySolution基礎(chǔ)/知識(Infrastructure/Knowledge)了解客戶購買不同產(chǎn)品的情況
ProductAffinity評估客戶對運營商的利潤貢獻度 ValueScore評估客戶的價格敏感度 PriceSensitivityProfiling預測客戶稱為高價值客戶的傾向 PropensitytobeVIP客戶信用度評估 CreditScoring/CreditModel客戶分群 Psycho-demographicProfiling預測營收變化趨勢
RevenueForecast預測客戶的服務使用量變化趨勢
UsageForecastFrequentlyusedtechniques業(yè)務目標 分析方法/技術(shù)------------------------------------------- ----------------------錢包份額/爭取新客戶(WalletShare/Acquisition)預測客戶購買新產(chǎn)品的傾向
決策樹/對數(shù)回歸預測客戶擴展服務用量的傾向
決策樹/對數(shù)回歸預測客戶升級服務的傾向
決策樹/對數(shù)回歸客戶挽留及保育(Retention)預測哪些客戶會終止服務的使用
決策樹/對數(shù)回歸改善挽留行動的效率
描述型分析/響應模型欺詐/拖欠偵測(Fraud/Delinquency)預測客戶拖欠賬單支付的傾向
對數(shù)回歸預測拖欠客戶對催繳的響應
決策樹欺詐偵測及管理
規(guī)則歸納基礎(chǔ)/知識(Infrastructure/Knowledge)了解客戶購買不同產(chǎn)品的情況
關(guān)聯(lián)規(guī)則評估客戶對運營商的利潤貢獻度
ABC成本核算評估客戶的價格敏感度
描述型分析/聚類預測客戶稱為高價值客戶的傾向
對數(shù)回歸客戶信用度評估
描述型分析客戶分群
聚類預測營收變化趨勢
線性回歸預測客戶的服務使用量變化趨勢
線性回歸由誰來做由誰來負責執(zhí)行該項工作任務,應具備什么資質(zhì)和技能實施人員數(shù)據(jù)挖掘項目的時間計劃要根據(jù)多個關(guān)鍵因素而定:挖掘?qū)n}的復雜程度客戶對挖掘結(jié)果性能評定的期望可用的數(shù)據(jù)完備性及數(shù)據(jù)質(zhì)量項目人力資源是否充足以及人員能力等等以移動通信行業(yè)的客戶流失預測分析為例,一般需要2~4個月不等(在數(shù)據(jù)已經(jīng)準備就緒的情況下)數(shù)據(jù)挖掘項目需要如下的成員或角色來參與完成:數(shù)據(jù)挖掘?qū)<襊DM建模人員ETL開發(fā)人員AP開發(fā)人員(客戶方)熟悉業(yè)務的人員以及熟悉數(shù)據(jù)倉庫PDM的人員予以支持實施人員
數(shù)據(jù)挖掘?qū)<夷芰σ?基本要求)專業(yè)技能碩士以上學歷,數(shù)據(jù)挖掘、統(tǒng)計學、數(shù)據(jù)庫相關(guān)專業(yè)熟練掌握關(guān)系數(shù)據(jù)庫技術(shù),具有數(shù)據(jù)庫系統(tǒng)開發(fā)經(jīng)驗熟練掌握常用的數(shù)據(jù)挖掘算法具備數(shù)理統(tǒng)計理論基礎(chǔ),并熟悉常用的統(tǒng)計工具軟件行業(yè)知識具有相關(guān)的行業(yè)知識,或者能夠很快熟悉相關(guān)的行業(yè)知識合作精神具有良好的團隊合作精神,能夠主動和項目中其他成員緊密合作客戶關(guān)系能力具有良好的客戶溝通能力,能夠明確闡述數(shù)據(jù)挖掘項目的重點和難點,善于調(diào)整客戶對數(shù)據(jù)挖掘的誤解和過高期望具有良好的知識轉(zhuǎn)移能力,能夠盡快地讓模型維護人員了解并掌握數(shù)據(jù)挖掘方法論及建模實施能力實施人員
數(shù)據(jù)挖掘?qū)<夷芰σ?進階要求)具有數(shù)據(jù)倉庫項目實施經(jīng)驗,熟悉Teradata數(shù)據(jù)倉庫技術(shù)及方法論熟練掌握SQL語言,包括復雜查詢、性能調(diào)優(yōu)熟練掌握ETL開發(fā)工具和技術(shù)熟練掌握MicrosoftOffice軟件,包括Excel和PowerPoint中的各種統(tǒng)計圖形技術(shù)善于將挖掘結(jié)果和客戶的業(yè)務管理相結(jié)合,根據(jù)數(shù)據(jù)挖掘的成果向客戶提供有價值的可行性操作方案怎么做?執(zhí)行該項工作任務的方式、方法、工作流程和工作模板等工作流程和方法按照NCR的數(shù)據(jù)挖掘方法論,數(shù)據(jù)挖掘項目包含五個階段:定義業(yè)務問題范圍、選取和抽樣、數(shù)據(jù)探索、建模和實施(評估和發(fā)布)工作流程和方法
階段1:定義業(yè)務問題范圍在這個數(shù)據(jù)挖掘的初始階段,需明確闡述項目目標和客戶業(yè)務需求,目的是明確包括客戶響應的數(shù)據(jù)挖掘問題。基于客戶響應(如客戶流失或產(chǎn)品購買趨勢)特性,可以從概念上定義響應變量,與待選的預測變量沒有直接的派生關(guān)系〈直接的派生關(guān)系意指響應變量可由一或多個預測變量直接計算出來〉。最終,為了這些目標可以必要地調(diào)整項目計劃進程。階段1的任務包括:明確業(yè)務目標定義響應變量項目計劃必要的調(diào)整工作流程和方法
階段2:選取和抽樣在這一階段,建模小組要搜尋并檢查客戶數(shù)據(jù),做為未來的分析定義屬性的簡略一覽表。在數(shù)據(jù)挖掘的子過程中,創(chuàng)建一個數(shù)據(jù)映射概念圖以對應客戶數(shù)據(jù)與建模相關(guān)的各個數(shù)據(jù)屬性名。數(shù)據(jù)能被整合到一個適當?shù)某潭龋÷圆贿m當?shù)挠涗洠ㄈ缟虅湛蛻?,非居民客戶,如果分析僅針對居民客戶)、不完整的數(shù)據(jù)記錄、訓練數(shù)據(jù)、試驗數(shù)據(jù),等等。階段2的任務包括:數(shù)據(jù)來源數(shù)據(jù)映射準備數(shù)據(jù)評估數(shù)據(jù)的必要聚合數(shù)據(jù)抽樣工作流程和方法
階段3:數(shù)據(jù)探索在這個階段中,建模小組核查目前的數(shù)據(jù)源并且努力去發(fā)現(xiàn)在每個待選的預測變量和響應變量之間是否有任何關(guān)系。數(shù)據(jù)轉(zhuǎn)換通常在更進一步的范圍中探察數(shù)據(jù)關(guān)系。數(shù)據(jù)的派生方法被用來捕獲和表現(xiàn)已發(fā)現(xiàn)的關(guān)系。通常,數(shù)值分析是為了全面理解數(shù)據(jù)的第一步,跟著進行的統(tǒng)計分析是為了得到有關(guān)數(shù)據(jù)分配的更好知識。如頻率圖、柱狀圖、條線圖,散點圖、框圖和許多其他方式是典型的且很好的數(shù)據(jù)的圖形化呈現(xiàn)工具,使為下一步建立模型準備數(shù)據(jù)來源變得容易很多。在數(shù)據(jù)挖掘過程中這是一個關(guān)鍵的階段,通常隨伴著由正式的數(shù)據(jù)探索報告來記錄和呈現(xiàn)發(fā)現(xiàn)。階段3的任務包括:數(shù)據(jù)質(zhì)量檢查數(shù)據(jù)的必要整理通過圖形化呈現(xiàn)工具和其他的統(tǒng)計方法理解數(shù)據(jù)分析待選預測變量和響應變量之間的關(guān)系數(shù)據(jù)轉(zhuǎn)換以輔助數(shù)據(jù)的分析數(shù)據(jù)派生為建立模型做準備整理和呈現(xiàn)數(shù)據(jù)探索的發(fā)現(xiàn)工作流程和方法
階段4:建模在這一階段,建模小組建立并確認分析模型。建模小組通常嘗試不同的建模技術(shù)或結(jié)合不同數(shù)據(jù)集,并衡量模型性能的不同,選出最好的。來自最終用戶的業(yè)務領(lǐng)域知識在這個階段是非常關(guān)鍵的,因為他們可以評價和確認模型的結(jié)果、理解發(fā)現(xiàn)并付諸實際行動,即證明這些模型并在實際環(huán)境中實施。階段4的任務包括:為模型的訓練和驗證準備數(shù)據(jù)集在模型的建立中使用適當?shù)慕<夹g(shù)針對不同的建模技術(shù)測試模型性能必要地精煉分析模型和主題專家一起的檢驗分析模型記錄分析模型和結(jié)果工作流程和方法
階段5:實施(評估和發(fā)布)在這一階段,需要用模型的結(jié)果來幫助作出業(yè)務決定、戰(zhàn)略設(shè)計和戰(zhàn)術(shù)實施。收集實施結(jié)果反饋,為模型的退化進行偵測,更進一步改善模型性能。雖然能利用模型的結(jié)果,復雜的展示層界面通常是不必的,如果大量努力為了實施前端應用,或自動化的數(shù)據(jù)挖掘過程,這個階段會變得非常IT導向。數(shù)據(jù)挖掘過程的自動化是CRM(客戶關(guān)系管理)的解決方案中不可或缺的一部分,因此,是與典型的數(shù)據(jù)挖掘分開實施的項目。模型的現(xiàn)場測試也通常是一個單獨的項目,它會花費時間
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 紙或紙板制告示牌項目運營指導方案
- 結(jié)腸鏡項目營銷計劃書
- 個人貸款行業(yè)營銷策略方案
- 就業(yè)前的背景調(diào)查服務行業(yè)市場調(diào)研分析報告
- 廢舊輪胎再生利用行業(yè)營銷策略方案
- 園林景觀規(guī)劃行業(yè)營銷策略方案
- 化妝包產(chǎn)品供應鏈分析
- 5G智能支付行業(yè)經(jīng)營分析報告
- 互聯(lián)網(wǎng)廣告服務行業(yè)營銷策略方案
- 家用微波爐出租行業(yè)經(jīng)營分析報告
- 幼兒園說課概述-課件
- 冠狀動脈介入風險預測評分的臨床應用
- 35導數(shù)在經(jīng)濟中的應用
- 蘇科版(2024新版)七年級上冊數(shù)學期中學情評估測試卷(含答案)
- 部編版《道德與法治》三年級上冊第10課《父母多愛我》教學課件
- 氣管插管操作規(guī)范(完整版)
- 2024-2025學年外研版英語八年級上冊期末作文范文
- 四級勞動關(guān)系協(xié)調(diào)員試題庫含答案
- 運城中學2023-2024學年八年級上學期期中考試數(shù)學試卷(含解析)
- 2024年國家能源集團公開招聘高頻500題難、易錯點模擬試題附帶答案詳解
- 盛世華誕慶祝祖國成立75周年共筑中國夢同慶國慶節(jié)課件
評論
0/150
提交評論