




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Data Mining:Concept, technical and method,NCR Data Mining Team 2005/06,議程,數(shù)據(jù)挖掘概述 數(shù)據(jù)挖掘業(yè)務(wù)案例 數(shù)據(jù)挖掘概念與常用技術(shù) 數(shù)據(jù)挖掘軟件與架構(gòu) 數(shù)據(jù)挖掘常見軟件 Teredata Warehouse Miner架構(gòu)特點(diǎn) 數(shù)據(jù)挖掘?qū)嵤┡c應(yīng)用 挖掘過程:有效的實(shí)施方法論 應(yīng)用過程:策劃和執(zhí)行 系統(tǒng)支撐:有效的IT系統(tǒng) 成功的關(guān)鍵,議程,數(shù)據(jù)挖掘概述 數(shù)據(jù)挖掘業(yè)務(wù)案例 數(shù)據(jù)挖掘概念與常用技術(shù) 數(shù)據(jù)挖掘軟件與架構(gòu) 數(shù)據(jù)挖掘常見軟件 Teredata Warehouse Miner架構(gòu)特點(diǎn) 數(shù)據(jù)挖掘?qū)嵤┡c應(yīng)用 挖掘過程:有效
2、的實(shí)施方法論 應(yīng)用過程:策劃和執(zhí)行 系統(tǒng)支撐:有效的IT系統(tǒng) 成功的關(guān)鍵,無所不能”的數(shù)據(jù)挖掘,提高客戶的利潤貢獻(xiàn)度,哪些客戶最可能離開,這個(gè)客戶可能購買什么其他的產(chǎn)品,哪個(gè)客戶可能不會(huì)付款,什么是接觸我客戶的最好渠道,誰最有可能購買此類產(chǎn)品,判斷交易是否為欺詐,對(duì)一個(gè)特殊的產(chǎn)品有什么特殊需求,大規(guī)模市場(chǎng).一對(duì)一市場(chǎng),哪些是最有利潤的客戶,金融業(yè)成功案例,客戶流失預(yù)測(cè),Model,客戶生態(tài)細(xì)分,Target: 2,000 Take Rate: Overall 2% Segment: 4% Saving = $750,000 = $15*100,000-$15*50,000,客戶響應(yīng)模型Righ
3、t channel for right customer,預(yù)測(cè)信用卡客戶延滯行為,Segment,議程,數(shù)據(jù)挖掘概述 數(shù)據(jù)挖掘業(yè)務(wù)案例 數(shù)據(jù)挖掘概念與常用技術(shù) 數(shù)據(jù)挖掘軟件與架構(gòu) 數(shù)據(jù)挖掘常見軟件 Teredata Warehouse Miner架構(gòu)特點(diǎn) 數(shù)據(jù)挖掘?qū)嵤┡c應(yīng)用 挖掘過程:有效的實(shí)施方法論 應(yīng)用過程:策劃和執(zhí)行 系統(tǒng)支撐:有效的IT系統(tǒng) 成功的關(guān)鍵,Data Mining is for power users to follow a proven methodology to discover action-oriented insights from detail operati
4、ons data to improve business. 數(shù)據(jù)挖掘是分析專家使用已驗(yàn)證的方法在經(jīng)營數(shù)據(jù)中發(fā)掘可采取行動(dòng)的改善企業(yè)的洞察力,什么是數(shù)據(jù)挖掘,數(shù)據(jù)挖掘: 多學(xué)科的融合,數(shù)據(jù)挖掘,數(shù)據(jù)庫技術(shù),統(tǒng)計(jì)學(xué),其它學(xué)科,信息科學(xué),機(jī)器學(xué)習(xí),可視化,從海量的數(shù)據(jù)庫中識(shí)別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程 -Fayyad,Piatetsky Shapiror 1996 若干種術(shù)語: 數(shù)據(jù)挖掘、數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(KDD),知識(shí)抽取,數(shù)據(jù)/模式分析,數(shù)據(jù)考古,數(shù)據(jù)捕撈,商業(yè)智能等 最常用的術(shù)語是“數(shù)據(jù)挖掘”和“知識(shí)發(fā)現(xiàn)” 數(shù)據(jù)挖掘:流行于統(tǒng)計(jì)界(最早出現(xiàn)于統(tǒng)計(jì)文獻(xiàn)中)、
5、數(shù)據(jù)分析、數(shù)據(jù)庫和管理信息系統(tǒng)界 知識(shí)發(fā)現(xiàn):主要流行于人工智能和機(jī)器學(xué)習(xí)界,數(shù)據(jù)挖掘潛在應(yīng)用,數(shù)據(jù)庫分析和決策支持 市場(chǎng)分析和管理 目標(biāo)營銷,客戶關(guān)系管理,購物籃分析,交叉銷售,市場(chǎng)分群、客戶保持 欺詐檢測(cè)與管理 其它應(yīng)用 文本挖掘(新聞組,電子郵件,文檔)和Web分析 智能詢問解答(QA)系統(tǒng),市場(chǎng)分析和管理 (1,分析的數(shù)據(jù)源在哪里 信用卡交易,積分卡,折扣優(yōu)惠券,客戶抱怨電話,以及(公眾)生活方式研究 目標(biāo)營銷 發(fā)現(xiàn)具有相同特征的客戶群模型:興趣,收入水平,消費(fèi)習(xí)慣等 判別客戶的序列購買模式 從單身賬戶到共有賬戶的轉(zhuǎn)變:結(jié)婚 交叉銷售分析 產(chǎn)品銷售之間的關(guān)聯(lián) 基于關(guān)聯(lián)信息而進(jìn)行的預(yù)測(cè),市
6、場(chǎng)分析和管理 (2,構(gòu)造客戶特征 客戶如何選擇和使用我們的產(chǎn)品和服務(wù)? 識(shí)別出客戶需求 識(shí)別出適合不同客戶的最佳產(chǎn)品 通過預(yù)測(cè)來發(fā)現(xiàn)吸引新客戶的因素 提供綜合信息 各種各樣的多維綜合報(bào)表 統(tǒng)計(jì)上的綜合信息(數(shù)據(jù)的集中趨勢(shì)和變化,欺詐檢測(cè)和管理 (1,應(yīng)用 廣泛用于健康衛(wèi)生,零售,信用卡服務(wù),電信(電話卡欺詐)等行業(yè) 方法 使用歷史數(shù)據(jù)來構(gòu)造欺詐行為模型,同時(shí)利用數(shù)據(jù)挖掘來輔助識(shí)別出類似案例 示例 汽車保險(xiǎn): 檢測(cè)出那些偽造事故來騙取保險(xiǎn)金的人群 洗錢: 檢測(cè)可疑的金錢交易(美國財(cái)政部的金融犯罪執(zhí)行網(wǎng)絡(luò)) 醫(yī)療保險(xiǎn): 檢測(cè)出職業(yè)病人,欺詐檢測(cè)和管理 (2,檢測(cè)出不必要的醫(yī)療處理 澳大利亞醫(yī)療保險(xiǎn)
7、委員會(huì)查出在許多案例中病人都要求blanket screening tests(每年節(jié)省一百萬澳元)。 檢測(cè)電話欺詐 通話模型:對(duì)端號(hào)碼,通話時(shí)長,每天(周)通話次數(shù)。分析那些偏離預(yù)期的通話模式。 英國電信檢測(cè)出頻繁進(jìn)行集團(tuán)內(nèi)部通話(特別是用手機(jī)通話)的一些犯罪集團(tuán),成功避免了數(shù)百萬美元的欺詐。 零售 分析家估計(jì)大約38%的零售額減少是由于不誠實(shí)的員工造成的,其它應(yīng)用,體育 IBM Advanced Scout分析了NBA比賽的統(tǒng)計(jì)數(shù)據(jù)(阻攻, 助攻, 犯規(guī)等),幫助紐約尼克斯隊(duì)和邁阿密熱隊(duì)提高競(jìng)爭(zhēng)優(yōu)勢(shì) 天文學(xué) JPL和Palomar天文臺(tái)借助數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)了22顆類星體 因特網(wǎng)沖浪輔助 I
8、BM Surf-Aid利用數(shù)據(jù)挖掘算法來分析與銷售有關(guān)的Web訪問日志,發(fā)現(xiàn)用戶的偏好和行為,分析電子商務(wù)的有效性,改善網(wǎng)站的結(jié)構(gòu)等,客戶為中心,市場(chǎng)為導(dǎo)向,客戶獲取,客戶保有,交叉銷售,客戶提升,提升銷售,客戶遷移,Fraud,常見的業(yè)務(wù)問題,業(yè)務(wù)目標(biāo)模型 - 錢包份額/爭(zhēng)取新客戶 (Wallet Share/Acquisition) 預(yù)測(cè)客戶購買新產(chǎn)品的傾向Cross-Sell Response Model 預(yù)測(cè)客戶擴(kuò)展服務(wù)用量的傾向Up-sell Response Model 預(yù)測(cè)客戶升級(jí)服務(wù)的傾向Upscale Response Model 客戶挽留及保育 (Retention) 預(yù)測(cè)
9、哪些客戶會(huì)終止服務(wù)的使用Churnsentry Solution 改善挽留行動(dòng)的效率Response Model 欺詐/拖欠偵測(cè) (Fraud/Delinquency) 預(yù)測(cè)客戶拖欠賬單支付的傾向Propensity to Delinquent 預(yù)測(cè)拖欠客戶對(duì)催繳的響應(yīng)Propensity to Collect 欺詐偵測(cè)及管理Fraudsentry Solution 基礎(chǔ)/知識(shí) (Infrastructure/Knowledge) 了解客戶購買不同產(chǎn)品的情況Product Affinity 評(píng)估客戶對(duì)運(yùn)營商的利潤貢獻(xiàn)度Value Score 評(píng)估客戶的價(jià)格敏感度Price Sensitivit
10、y Profiling 預(yù)測(cè)客戶稱為高價(jià)值客戶的傾向Propensity to be VIP 客戶信用度評(píng)估Credit Scoring/Credit Model 客戶分群Psycho-demographic Profiling 預(yù)測(cè)營收變化趨勢(shì)Revenue Forecast 預(yù)測(cè)客戶的服務(wù)使用量變化趨勢(shì)Usage Forecast,常用的技術(shù),業(yè)務(wù)目標(biāo)分析方法/技術(shù) - 錢包份額/爭(zhēng)取新客戶 (Wallet Share/Acquisition) 預(yù)測(cè)客戶購買新產(chǎn)品的傾向決策樹/對(duì)數(shù)回歸 預(yù)測(cè)客戶擴(kuò)展服務(wù)用量的傾向決策樹/對(duì)數(shù)回歸 預(yù)測(cè)客戶升級(jí)服務(wù)的傾向決策樹/對(duì)數(shù)回歸 客戶挽留及保育 (R
11、etention) 預(yù)測(cè)哪些客戶會(huì)終止服務(wù)的使用決策樹/對(duì)數(shù)回歸 改善挽留行動(dòng)的效率描述型分析/響應(yīng)模型 欺詐/拖欠偵測(cè) (Fraud/Delinquency) 預(yù)測(cè)客戶拖欠賬單支付的傾向?qū)?shù)回歸 預(yù)測(cè)拖欠客戶對(duì)催繳的響應(yīng)決策樹 欺詐偵測(cè)及管理規(guī)則歸納 基礎(chǔ)/知識(shí) (Infrastructure/Knowledge) 了解客戶購買不同產(chǎn)品的情況關(guān)聯(lián)規(guī)則 評(píng)估客戶對(duì)運(yùn)營商的利潤貢獻(xiàn)度ABC成本核算 評(píng)估客戶的價(jià)格敏感度描述型分析/聚類 預(yù)測(cè)客戶稱為高價(jià)值客戶的傾向?qū)?shù)回歸 客戶信用度評(píng)估描述型分析 客戶分群聚類分析 預(yù)測(cè)營收變化趨勢(shì)線性回歸 預(yù)測(cè)客戶的服務(wù)使用量變化趨勢(shì)線性回歸,常用的數(shù)據(jù)挖掘技
12、術(shù),數(shù)據(jù)挖掘分類,一般功能 描述型數(shù)據(jù)挖掘 預(yù)測(cè)型數(shù)據(jù)挖掘 不同角度, 不同分類 挖掘的數(shù)據(jù)庫類型 挖掘的知識(shí)類型 所用的技術(shù) 應(yīng)用的領(lǐng)域,數(shù)據(jù)挖掘分類,數(shù)據(jù)挖掘,描述,預(yù)測(cè),統(tǒng)計(jì)回歸,關(guān)聯(lián)分析,決策樹,可視化,聚類分析,時(shí)序分析,特征分析,神經(jīng)網(wǎng)絡(luò),分類,預(yù)測(cè),根據(jù)過去的數(shù)據(jù)預(yù)測(cè)將來要發(fā)生什么 問題描述:預(yù)測(cè)客戶流失可能性 結(jié)果描述: 決策樹,決策數(shù)模型基本假設(shè): 近朱者赤,近墨者黑,依賴變量 (因變量,獨(dú)立變量 (自變量,量化兩個(gè)連續(xù)變量之間的關(guān)系的統(tǒng)計(jì)技術(shù),回歸,線性回歸 Logistic回歸,擬合一條穿過數(shù)據(jù)的線,線上的點(diǎn)使對(duì)應(yīng)數(shù)據(jù)點(diǎn)的方差最小,線性回歸,與線形回歸相似,它的依賴變量(
13、因變量)不是連續(xù)的,而是離散的,Logistic回歸,Log ( p/ (1-p) = 4.9 + 0.911 * 收入,邏輯回歸模型(Logistic regression,系數(shù)絕對(duì)值越大,對(duì)目標(biāo)(欠款)影響力越顯重要,描述,聚類 物以類聚,人以群分 無指導(dǎo)學(xué)習(xí) 不同類間的個(gè)體相似度盡可能大,不同類之間的盡可能小 主要聚類分析方法分類 劃分的方法 層次的方法 基于密度的方法 基于網(wǎng)格的方法 基于模型的方法,Short Dark Hair, Smiling,Work in Consulting,Males with no Jacket,Glasses,Suits,K-均值算法,任意選擇k個(gè)對(duì)象
14、作為初始的類中心; 循環(huán): 根據(jù)類中對(duì)象的平均值,將每個(gè)對(duì)象(重新)賦給最類似的類 更新類的平均值,即計(jì)算每個(gè)類中對(duì)象的平均值; 終止:類中心不再發(fā)生變化聚類,X1,X2,Seed 1,Seed 2,Seed 3,K-均值算法,X1,X2,Seed 1,Seed 2,Seed 3,經(jīng)過一次迭代,客戶分群(Clustering,啤酒與尿布,1981年NCR為Wal-Mart超市集團(tuán)建立數(shù)據(jù)倉庫,目前容量超過130TB; 利用數(shù)據(jù)倉庫,Wal-Mart分析哪些商品顧客最有希望一起購買: “啤酒與尿布,關(guān)聯(lián)規(guī)則,問題描述: 如何決定超市中商品的擺放來增加銷售額 結(jié)果描述: 可視化,關(guān)聯(lián)規(guī)則,age(
15、X, “20.29”) income(X, “20.29K”) buys(X, “PC”) support = 2%, confidence = 60,關(guān)聯(lián)規(guī)則-購物車,Rule A D C A A C B 少量數(shù)據(jù)探索和轉(zhuǎn)換功能, V9.0版本推進(jìn)In-Dbs Mining) 通過ODBC訪問Teradata Teradata Warehouse Miner In-Dbs Mining先鋒, 完備穩(wěn)定的數(shù)據(jù)探索和轉(zhuǎn)換功能 避免數(shù)據(jù)遷移帶來的空間時(shí)間開銷以及數(shù)據(jù)管理問題,數(shù)據(jù)挖掘工具-特性,Teradata Warehouse Miner 充分利用Teradata的并行處理能力, 性能極佳 避
16、免數(shù)據(jù)遷移 擴(kuò)展能力強(qiáng), 隨Teradata線性擴(kuò)展 SAS Enterprise Miner 處理前需將數(shù)據(jù)保存到SAS數(shù)據(jù)文件, 擴(kuò)展能力受限 相對(duì)原始和有限的并行處理能力, 性能受限 在小數(shù)據(jù)樣本(小于1050GB)上的最佳選擇 SPSS Clementine 聲稱支持In-Dbs Mining, 但僅限有少量數(shù)據(jù)預(yù)處理功能 其它挖掘分析功能仍需在應(yīng)用服務(wù)器上運(yùn)行 (需要數(shù)據(jù)抽取) 適用于小數(shù)據(jù)樣本,Teradata Warehouse Miner的發(fā)展背景,1997年數(shù)據(jù)挖掘?qū)嶒?yàn)室成立 NCR專業(yè)服務(wù)人員具備多年數(shù)據(jù)挖掘應(yīng)用實(shí)施的經(jīng)驗(yàn) 金融業(yè) 零售業(yè) 電信業(yè) 開發(fā)團(tuán)隊(duì)擁有多年數(shù)據(jù)挖掘產(chǎn)
17、品的設(shè)計(jì)開發(fā)經(jīng)驗(yàn) Clementine OEM SAS “Analytic Templates” CRISP-DM數(shù)據(jù)挖掘方法論 攜手合作產(chǎn)生了In-dbs(場(chǎng)內(nèi)挖掘)挖掘的先鋒Teradata Warehouse Miner,議程,數(shù)據(jù)挖掘概述 數(shù)據(jù)挖掘業(yè)務(wù)案例 數(shù)據(jù)挖掘概念與常用技術(shù) 數(shù)據(jù)挖掘軟件與架構(gòu) 數(shù)據(jù)挖掘常見軟件 Teredata Warehouse Miner架構(gòu)特點(diǎn) 數(shù)據(jù)挖掘?qū)嵤┡c應(yīng)用 挖掘過程:有效的實(shí)施方法論 應(yīng)用過程:策劃和執(zhí)行 系統(tǒng)支撐:有效的IT系統(tǒng) 成功的關(guān)鍵,1997年,數(shù)據(jù)挖掘?qū)嶒?yàn)室已經(jīng)開發(fā)和驗(yàn)證了數(shù)據(jù)挖掘的方法論: 當(dāng)時(shí)使用第三方分析工具 SAS/SPSS/Q
18、uadstone,Teradata Warehouse Miner誕生的目標(biāo),TeraMiner Stats 1.0 and 2.0 1998-1999 描述統(tǒng)計(jì)/數(shù)據(jù)轉(zhuǎn)換/矩陣生成 與第三方分析軟件的互補(bǔ) Teradata Warehouse Miner 3.x 2000-2003 分析型算法 開發(fā)Cubes和Reports, 聯(lián)調(diào),啟動(dòng),議程,數(shù)據(jù)挖掘概述 數(shù)據(jù)挖掘業(yè)務(wù)案例 數(shù)據(jù)挖掘概念與常用技術(shù) 數(shù)據(jù)挖掘軟件與架構(gòu) 數(shù)據(jù)挖掘常見軟件 Teredata Warehouse Miner架構(gòu)特點(diǎn) 數(shù)據(jù)挖掘?qū)嵤┡c應(yīng)用 挖掘過程:有效的實(shí)施方法論 應(yīng)用過程:策劃和執(zhí)行 系統(tǒng)支撐:有效的IT系統(tǒng) 成功的關(guān)鍵,知識(shí)必將替代暴力、金錢,成為所有力量中最強(qiáng)有力的力量。 托夫勒力量的轉(zhuǎn)移,營銷(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)產(chǎn)品電商農(nóng)村電商發(fā)展手冊(cè)
- 三農(nóng)村新型城鎮(zhèn)化發(fā)展規(guī)劃綱要
- 電影行業(yè)在線選座購票系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)方案
- 家居裝修行業(yè)智能設(shè)計(jì)與裝修管理方案
- 技改項(xiàng)目可行性報(bào)告
- 家庭太陽能光伏發(fā)電
- 施工安全保障措施方案
- 新興文化消費(fèi)市場(chǎng)發(fā)展趨勢(shì)研究報(bào)告
- 三農(nóng)村合作社碳排放減少方案
- 乳制品行業(yè)風(fēng)味發(fā)酵乳生產(chǎn)技術(shù)研究與開發(fā)方案
- 精神科出院康復(fù)指導(dǎo)與隨訪制度
- 機(jī)械維修類設(shè)備采購 投標(biāo)文件(技術(shù)方案)
- 科技成果轉(zhuǎn)化成熟度評(píng)價(jià)規(guī)范
- 人工智能技術(shù)對(duì)社區(qū)治理的影響
- 人名調(diào)解員培訓(xùn)課件
- 水利工程中的水利法規(guī)與政策體系
- 20s206自動(dòng)噴水與水噴霧滅火設(shè)施安裝
- 能源托管服務(wù)投標(biāo)方案(技術(shù)方案)
- 工業(yè)機(jī)器人操作與安全防護(hù)培訓(xùn)
- 臀部膿腫的護(hù)理查房
- 光伏-施工安全培訓(xùn)
評(píng)論
0/150
提交評(píng)論