第10章數(shù)據(jù)挖掘與客戶關(guān)系管理_第1頁(yè)
第10章數(shù)據(jù)挖掘與客戶關(guān)系管理_第2頁(yè)
第10章數(shù)據(jù)挖掘與客戶關(guān)系管理_第3頁(yè)
第10章數(shù)據(jù)挖掘與客戶關(guān)系管理_第4頁(yè)
第10章數(shù)據(jù)挖掘與客戶關(guān)系管理_第5頁(yè)
已閱讀5頁(yè),還剩55頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第9章數(shù)據(jù)挖掘與客戶關(guān)系管理案例 卓越亞馬遜的推薦系統(tǒng)學(xué)習(xí)目標(biāo)通過(guò)本章的學(xué)習(xí),將能夠:理解數(shù)據(jù)挖掘的含義熟悉數(shù)據(jù)挖掘的功能熟悉數(shù)據(jù)挖掘的主要技術(shù)掌握數(shù)據(jù)挖掘的業(yè)務(wù)流程了解客戶關(guān)系管理對(duì)數(shù)據(jù)挖掘的需求理解數(shù)據(jù)挖掘在客戶關(guān)系管理中的作用數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)越來(lái)越大數(shù)據(jù)庫(kù)越來(lái)越大有價(jià)值的知識(shí)有價(jià)值的知識(shí)可怕的數(shù)據(jù)可怕的數(shù)據(jù)數(shù)據(jù)挖掘背景數(shù)據(jù)爆炸,知識(shí)貧乏數(shù)據(jù)爆炸,知識(shí)貧乏 苦惱: 淹沒(méi)在數(shù)據(jù)中 ; 不能制定合適的決策! 數(shù)據(jù)數(shù)據(jù)n模式模式n趨勢(shì)趨勢(shì)n事實(shí)事實(shí)n關(guān)系關(guān)系n模型模型n關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則n序列序列n目標(biāo)市場(chǎng)目標(biāo)市場(chǎng)n資金分配資金分配n貿(mào)易選擇貿(mào)易選擇n在哪兒做廣告在哪兒做廣告n銷售的地理位置

2、銷售的地理位置n金融金融n經(jīng)濟(jì)經(jīng)濟(jì)n政府政府nPOSn人口統(tǒng)計(jì)人口統(tǒng)計(jì)n生命周期生命周期數(shù)據(jù)挖掘是一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過(guò)程,這些模型和關(guān)系可以用來(lái)做出預(yù)測(cè)。 數(shù)據(jù)挖掘(數(shù)據(jù)挖掘(Data MiningData Mining)數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘數(shù)據(jù)挖掘的特點(diǎn)數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別數(shù)

3、據(jù)挖掘是在沒(méi)有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實(shí)用三個(gè)特征:l先前未知的信息是指該信息是預(yù)先未曾預(yù)料到的,既數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺(jué)發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺(jué)的信息或知識(shí)l有效信息是指符合實(shí)際情況且具有一定的代表性l可實(shí)用是指可以指導(dǎo)企業(yè)的營(yíng)銷決策數(shù)據(jù)挖掘的特點(diǎn) 數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí) 數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知、有效和可實(shí)用三個(gè)特征 數(shù)據(jù)源必須是大量的、真實(shí)的、有噪聲的 發(fā)現(xiàn)的是用戶感興趣的知識(shí) 發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用 并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問(wèn)題 客戶接觸客戶

4、接觸 客戶信息客戶信息客戶數(shù)據(jù)庫(kù)客戶數(shù)據(jù)庫(kù)統(tǒng)計(jì)分析與數(shù)據(jù)挖掘統(tǒng)計(jì)分析與數(shù)據(jù)挖掘客戶知識(shí)發(fā)現(xiàn)客戶知識(shí)發(fā)現(xiàn)客戶管理客戶管理知識(shí)發(fā)現(xiàn):從數(shù)據(jù)中深入抽取隱含的、未知的和有知識(shí)發(fā)現(xiàn):從數(shù)據(jù)中深入抽取隱含的、未知的和有潛在用途的信息潛在用途的信息從商業(yè)數(shù)據(jù)到商業(yè)智能各行業(yè)電子商務(wù)網(wǎng)站各行業(yè)電子商務(wù)網(wǎng)站算算法法層層商商業(yè)業(yè)邏邏輯輯層層行行業(yè)業(yè)應(yīng)應(yīng)用用層層商業(yè)應(yīng)用商業(yè)模型挖掘算法CRM產(chǎn)品推薦產(chǎn)品推薦客戶細(xì)分客戶細(xì)分客戶流失客戶流失客戶利潤(rùn)客戶利潤(rùn)客戶響應(yīng)客戶響應(yīng)關(guān)聯(lián)規(guī)則、序列模式、分類、聚集、神經(jīng)元網(wǎng)絡(luò)、偏差分析關(guān)聯(lián)規(guī)則、序列模式、分類、聚集、神經(jīng)元網(wǎng)絡(luò)、偏差分析WEB挖掘挖掘網(wǎng)站結(jié)構(gòu)優(yōu)化網(wǎng)站結(jié)構(gòu)優(yōu)化網(wǎng)頁(yè)推

5、薦網(wǎng)頁(yè)推薦商品推薦商品推薦?;蛲诰蚧蛲诰蚧虮磉_(dá)路徑分析基因表達(dá)路徑分析基因表達(dá)相似性分析基因表達(dá)相似性分析基因表達(dá)共發(fā)生分析基因表達(dá)共發(fā)生分析。銀行銀行電信電信零售零售保險(xiǎn)保險(xiǎn)制藥制藥生物信息生物信息科學(xué)研究科學(xué)研究。相關(guān)行業(yè)數(shù)據(jù)挖掘的應(yīng)用Debt$40KQ QQ QQ QQ QI II I1 12 23 34 45 56 6factor 1factor 2factor n神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò) Neural NetworksNeural Networks聚類分析聚類分析 ClusteringClusteringOpenAccntAdd NewProductDecreaseUsage?Time

6、序列分析序列分析 Sequence AnalysisSequence Analysis決策樹決策樹 Decision TreesDecision Trees 傾向性分析 客戶保留 客戶生命周期管理 目標(biāo)市場(chǎng) 價(jià)格彈性分析 客戶細(xì)分 市場(chǎng)細(xì)分 傾向性分析 客戶保留 目標(biāo)市場(chǎng) 欺詐檢測(cè)關(guān)聯(lián)分析關(guān)聯(lián)分析 AssociationAssociation 市場(chǎng)組合分析 套裝產(chǎn)品分析 目錄設(shè)計(jì) 交叉銷售數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘技術(shù)的分類數(shù)據(jù)挖掘技術(shù)的分類回顧分析:注重解決過(guò)去和現(xiàn)在的問(wèn)題 如:兩年來(lái)不同地區(qū)、人口和產(chǎn)品情況下的各銷售部門銷售業(yè)績(jī)分析預(yù)測(cè)分析:在歷史信息的基礎(chǔ)上預(yù)測(cè)某些事件和行為 如:建立預(yù)測(cè)模

7、型來(lái)描述客戶的流失率分類:根據(jù)某種標(biāo)準(zhǔn)將數(shù)據(jù)庫(kù)記錄分類到許多預(yù)先定義好的類別 如:信用卡公司將客戶記錄分為好、中、差三類 分類可以產(chǎn)生規(guī)則:如果一個(gè)客戶收入超過(guò)5000萬(wàn)元,年齡在4555歲之間,居住在某地區(qū),那么他的信用等級(jí)為好。數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)的分類數(shù)據(jù)挖掘技術(shù)的分類聚類:根據(jù)某些屬性將數(shù)據(jù)庫(kù)分割為一些子集和簇 如:在了解客戶的過(guò)程中,嘗試使用從未使用過(guò)的屬性分割人群以發(fā)現(xiàn)潛在客戶的簇關(guān)聯(lián):通過(guò)考察記錄來(lái)識(shí)別數(shù)據(jù)間的密切關(guān)系 關(guān)聯(lián)關(guān)系常常表現(xiàn)為規(guī)則,常用于超市購(gòu)物籃分析如:所有包含A和B的記錄中有60同時(shí)包含C。時(shí)間序列:用于幫助識(shí)別與時(shí)間有關(guān)的模式 如:通過(guò)對(duì)客戶多次購(gòu)物行為的分

8、析可以發(fā)現(xiàn)購(gòu)物行為在時(shí)間上的關(guān)系 常用于產(chǎn)品目錄營(yíng)銷的分析數(shù)據(jù)挖掘的一般目的就是數(shù)據(jù)挖掘的一般目的就是檢測(cè)、解釋和預(yù)測(cè)檢測(cè)、解釋和預(yù)測(cè)數(shù)據(jù)中定性的和或定量的模式數(shù)據(jù)中定性的和或定量的模式數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘方法學(xué)數(shù)據(jù)挖掘方法學(xué)模式模式 數(shù)據(jù)庫(kù)中一個(gè)事件或事件的結(jié)合,這些事件比預(yù)期的要經(jīng)常發(fā)生,其實(shí)際發(fā)生率明顯不同于隨機(jī)情況下的可期望發(fā)生率。 模式是數(shù)據(jù)驅(qū)動(dòng)的,一般只反映數(shù)據(jù)本身模型模型 對(duì)構(gòu)建事件的源時(shí)的歷史數(shù)據(jù)庫(kù)的描述,并且能夠成功地應(yīng)用于新的數(shù)據(jù),以便對(duì)缺少的數(shù)據(jù)作出預(yù)測(cè)或?qū)ζ谕臄?shù)據(jù)作出說(shuō)明。模型的一般表現(xiàn)形式數(shù)學(xué)方程式描述各客戶段的規(guī)則集計(jì)算機(jī)表示方式 模式可視化數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘方

9、法學(xué)數(shù)據(jù)挖掘方法學(xué)取樣取樣 根據(jù)問(wèn)題的需要采用隨機(jī)取樣的方法從數(shù)據(jù)庫(kù)中抽取數(shù)據(jù)進(jìn)行挖掘,有助于迅速發(fā)現(xiàn)模式、創(chuàng)建模型 數(shù)據(jù)本身的處理過(guò)程需要驗(yàn)證驗(yàn)證模型 模型創(chuàng)建過(guò)程需要保證正確 模型應(yīng)用的驗(yàn)證 在依據(jù)一些歷史數(shù)據(jù)建造模型后,將模型應(yīng)用于未參與建造模型的其他類似的歷史數(shù)據(jù),比較其模型輸出結(jié)果與實(shí)際結(jié)果。數(shù)據(jù)挖掘技術(shù)經(jīng)典方法經(jīng)典方法統(tǒng)計(jì)統(tǒng)計(jì) 統(tǒng)計(jì)可以通過(guò)對(duì)類似下列問(wèn)題的回答獲得模式在我的數(shù)據(jù)庫(kù)中存在什么模式某個(gè)事件發(fā)生的可能性是什么那些模式是重要的模式 統(tǒng)計(jì)的一個(gè)重要價(jià)值就是它提供了對(duì)數(shù)據(jù)庫(kù)的高層視圖,這種視圖提供了有用的信息,但不要求在細(xì)節(jié)上理解數(shù)據(jù)庫(kù)的每一條記錄。數(shù)據(jù)挖掘方法經(jīng)典方法經(jīng)典方法

10、最近鄰最近鄰 通過(guò)檢測(cè)與預(yù)測(cè)對(duì)象最接近的對(duì)象的狀況對(duì)預(yù)測(cè)對(duì)象進(jìn)行預(yù)測(cè) 原理: 某一特定對(duì)象可能與其他某一或某些對(duì)象比其 它一些第三對(duì)象更接近; 相互之間“接近”的對(duì)象會(huì)有相似的取值 根據(jù)其中一個(gè)對(duì)象的取值,預(yù)測(cè)其最近鄰對(duì)象的預(yù)測(cè)值 商業(yè) 應(yīng)用:文獻(xiàn)檢索市場(chǎng)籃子分析 應(yīng)用 評(píng)價(jià): 最近鄰的數(shù)量最近鄰的距離決定最近鄰預(yù)測(cè)的可信度數(shù)據(jù)挖掘方法現(xiàn)代方法現(xiàn)代方法基礎(chǔ)理論有指導(dǎo)的學(xué)習(xí)(Supervised Learning)歸納 概念 分類標(biāo)準(zhǔn)與模型 分類有指導(dǎo)的學(xué)習(xí)的目的:建立分類模型用模型確定新數(shù)據(jù)實(shí)例的類別訓(xùn)練數(shù)據(jù)(Training Data)與檢驗(yàn)集(Test Set)用于創(chuàng)建模型的數(shù)據(jù)實(shí)例稱為訓(xùn)

11、練數(shù)據(jù)用于檢驗(yàn)?zāi)P偷臏?zhǔn)確度的數(shù)據(jù)實(shí)例稱為檢驗(yàn)集數(shù)據(jù)挖掘方法 有指導(dǎo)的學(xué)習(xí)有指導(dǎo)的學(xué)習(xí)(Supervised Learning)患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫淋巴腫數(shù)據(jù)挖掘方法患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果11NoNoYesYesYes?12YesYesN

12、oNoYes?13NoNoNoNoYes?有指導(dǎo)的學(xué)習(xí)(Supervised Learning)患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesNoYesYes感冒淋巴腫淋巴腫發(fā)發(fā) 燒燒No No Yes Yes 咽炎敏感癥感冒淋巴腫、發(fā)燒是有意義的屬性嗓子痛、充血、頭痛是無(wú)意義的屬性數(shù)據(jù)挖掘方法 有指導(dǎo)的

13、學(xué)習(xí)有指導(dǎo)的學(xué)習(xí)(Supervised Learning)淋巴腫發(fā) 燒No No Yes Yes 咽炎敏感癥感冒患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?未知分類的數(shù)據(jù)實(shí)例(檢驗(yàn)集)數(shù)據(jù)挖掘方法無(wú)指導(dǎo)的學(xué)習(xí)無(wú)指導(dǎo)的學(xué)習(xí)(Unsupervised Learning)為沒(méi)有預(yù)先定義分類標(biāo)準(zhǔn)的數(shù)據(jù)建立模型客戶ID客戶類型交易保證金帳戶交易方法交易數(shù)月性別年齡嗜好年收入1005聯(lián)合NoOnline12.5F30-39網(wǎng)球45.9萬(wàn)1013委托保管NoBroke0.5F50-59滑雪89.9萬(wàn)1245聯(lián)合NoOnl

14、ine3.6M20-29高爾夫23.9萬(wàn)2110個(gè)人YesBroke22.3M30-39釣魚45.9萬(wàn)1001個(gè)人YesOnline5.0M40-49高爾夫67.9萬(wàn)ABC投資公司客戶表數(shù)據(jù)挖掘方法無(wú)指導(dǎo)的學(xué)習(xí)無(wú)指導(dǎo)的學(xué)習(xí)(Unsupervised Learning)區(qū)分在線投資者和經(jīng)紀(jì)人投資者的特征是什么一個(gè)新客戶未開設(shè)交易保證金帳戶,如何確定其將來(lái)是否會(huì)開設(shè)這種帳戶能建立一個(gè)預(yù)測(cè)新投資者月均交易數(shù)的模型嗎女性和男性投資者有什么不同的特征交易方式交易保證金帳戶月均交易數(shù)性別數(shù)數(shù) 據(jù)據(jù) 挖挖 掘掘 問(wèn)問(wèn) 題題屬屬 性性哪些屬性相似性決定ABC公司的客戶分組屬性值的哪些不同之處分隔了客戶數(shù)據(jù)庫(kù)有

15、指導(dǎo)有指導(dǎo)的學(xué)習(xí)的學(xué)習(xí)無(wú)指導(dǎo)無(wú)指導(dǎo)的學(xué)習(xí)的學(xué)習(xí)數(shù)據(jù)挖掘方法現(xiàn)代方法決策樹(Decision Tree)決策樹是一種有指導(dǎo)學(xué)習(xí)的數(shù)據(jù)挖掘方法決策樹的組成決策節(jié)點(diǎn)、分支、葉子根節(jié)點(diǎn)分支葉子Debt$40K節(jié)點(diǎn) 決策樹的分支過(guò)程就是對(duì)數(shù)據(jù)進(jìn)行分類的過(guò)程,利用幾個(gè)變量(每個(gè)變量對(duì)應(yīng)一個(gè)問(wèn)題)來(lái)判斷數(shù)據(jù)所屬的類別。在分支后,要使不同分支之間數(shù)據(jù)的差異盡可能大、同一分支內(nèi)的數(shù)據(jù)盡量相同。這一分割過(guò)程也就是數(shù)據(jù)的“純化”過(guò)程。數(shù)據(jù)挖掘方法決決策策樹樹的的算算法法步步驟驟假設(shè)T為訓(xùn)練實(shí)例集選擇一個(gè)最能區(qū)別T中實(shí)例的屬性創(chuàng)建一個(gè)決策節(jié)點(diǎn),它的值為所選擇的屬性創(chuàng)建該節(jié)點(diǎn)的分支,每個(gè)分支代表所選屬性的一個(gè)唯一值使用

16、分支的值,將數(shù)據(jù)實(shí)例分割為子類對(duì)于步驟5所創(chuàng)建的各個(gè)子類: 如果子類中的數(shù)據(jù)實(shí)例滿足以下條件,可按此決策樹對(duì)新數(shù)據(jù)實(shí)例指定類別 分割中只包含一條數(shù)據(jù)實(shí)例 分割中所有數(shù)據(jù)實(shí)例的屬性都相同 繼續(xù)分割得到的改進(jìn)不明顯 如果子類不滿足上述條件,則設(shè)T為當(dāng)前子類數(shù)據(jù)實(shí)例集合,返回步驟 2數(shù)據(jù)挖掘方法決策樹的屬性選取決策樹的屬性選取屬性選取標(biāo)準(zhǔn): 最大化反映數(shù)據(jù)差異,使樹的層次和節(jié)點(diǎn)數(shù)最小患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYes

17、No敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫淋巴腫發(fā)發(fā) 燒燒No No Yes Yes 咽炎敏感癥感冒數(shù)據(jù)挖掘方法患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫發(fā) 燒No No

18、Yes Yes 敏感癥敏感癥咽炎No Yes 頭 痛淋巴腫感冒發(fā) 燒淋巴腫No Yes 咽炎No Yes 數(shù)據(jù)挖掘方法決策樹的屬性選取決策樹的屬性選取屬性選取標(biāo)準(zhǔn): 最大化反映數(shù)據(jù)差異,使樹的層次和節(jié)點(diǎn)數(shù)最小信用卡促銷數(shù)據(jù)庫(kù)信用卡促銷數(shù)據(jù)庫(kù)收入收入段段壽險(xiǎn)促壽險(xiǎn)促銷銷信用卡保信用卡保險(xiǎn)險(xiǎn)性性別別年年齡齡4-5萬(wàn)萬(wàn)NoNoM453-4萬(wàn)萬(wàn)YesNoF404-5萬(wàn)萬(wàn)NoNoM423-4萬(wàn)萬(wàn)YesYesM435-6萬(wàn)萬(wàn)YesNoF382-3萬(wàn)萬(wàn) NoNoF553-4萬(wàn)萬(wàn)YesYesM352-3萬(wàn)萬(wàn)NoNo M273-4萬(wàn)萬(wàn)NoNo F433-4萬(wàn)萬(wàn)YesNoF414-5萬(wàn)萬(wàn)YesNoM432-3萬(wàn)萬(wàn)

19、YesNoF295-6萬(wàn)萬(wàn)YesNoF394-5萬(wàn)萬(wàn)NoNoM552-3萬(wàn)萬(wàn)YesYesF19選取收入段為根節(jié)點(diǎn)選取壽險(xiǎn)促銷為輸出屬性沿著每個(gè)分支有兩個(gè)類,選取最頻繁出現(xiàn)的類收入段收入段2Yes2No4Yes1No3No 1Yes2Yes23萬(wàn)萬(wàn)34萬(wàn)萬(wàn)45萬(wàn)萬(wàn)56萬(wàn)萬(wàn)訓(xùn)練集分類的正確性為111573數(shù)據(jù)挖掘方法決策樹(Decision Tree):例信用卡促銷數(shù)據(jù)庫(kù)選取信用卡保險(xiǎn)為根節(jié)點(diǎn)選取壽險(xiǎn)促銷為輸出屬性沿著每個(gè)分支有兩個(gè)類,選取最頻繁出現(xiàn)的類信用卡保險(xiǎn)信用卡保險(xiǎn)6Yes6No3Yes 0NoNoYes訓(xùn)練集分類的正確性為91560數(shù)據(jù)挖掘方法收入收入段段壽險(xiǎn)促壽險(xiǎn)促銷銷信用卡保信用卡保

20、險(xiǎn)險(xiǎn)性性別別年年齡齡4-5萬(wàn)萬(wàn)NoNoM453-4萬(wàn)萬(wàn)YesNoF404-5萬(wàn)萬(wàn)NoNoM423-4萬(wàn)萬(wàn)YesYesM435-6萬(wàn)萬(wàn)YesNoF382-3萬(wàn)萬(wàn) NoNoF553-4萬(wàn)萬(wàn)YesYesM352-3萬(wàn)萬(wàn)NoNo M273-4萬(wàn)萬(wàn)NoNo F433-4萬(wàn)萬(wàn)YesNoF414-5萬(wàn)萬(wàn)YesNoM432-3萬(wàn)萬(wàn)YesNoF295-6萬(wàn)萬(wàn)YesNoF394-5萬(wàn)萬(wàn)NoNoM552-3萬(wàn)萬(wàn)YesYesF19決策樹(Decision Tree):例信用卡促銷數(shù)據(jù)庫(kù)選取數(shù)值型屬性年齡為根節(jié)點(diǎn)選取壽險(xiǎn)促銷為輸出屬性依照年齡排序,對(duì)照輸出屬性進(jìn)行數(shù)據(jù)分割,選擇數(shù)據(jù)分割點(diǎn)年年 齡齡9Yes3No0Yes

21、 3No4343以年齡43結(jié)合壽險(xiǎn)促銷Yes,訓(xùn)練集分類的正確性為121580172729353839404142434343455555YNYYYYYYNYYNNNN數(shù)據(jù)挖掘方法收入收入段段壽險(xiǎn)促壽險(xiǎn)促銷銷信用卡保信用卡保險(xiǎn)險(xiǎn)性性別別年年齡齡4-5萬(wàn)萬(wàn)NoNoM453-4萬(wàn)萬(wàn)YesNoF404-5萬(wàn)萬(wàn)NoNoM423-4萬(wàn)萬(wàn)YesYesM435-6萬(wàn)萬(wàn)YesNoF382-3萬(wàn)萬(wàn) NoNoF553-4萬(wàn)萬(wàn)YesYesM352-3萬(wàn)萬(wàn)NoNo M273-4萬(wàn)萬(wàn)NoNo F433-4萬(wàn)萬(wàn)YesNoF414-5萬(wàn)萬(wàn)YesNoM432-3萬(wàn)萬(wàn)YesNoF295-6萬(wàn)萬(wàn)YesNoF394-5萬(wàn)萬(wàn)NoNo

22、M552-3萬(wàn)萬(wàn)YesYesF19決策樹(Decision Tree):例信用卡促銷數(shù)據(jù)庫(kù)年 齡Yes(61)No(21)4343性 別F M信用卡保險(xiǎn)Yes(20)No(30)No Yes信用卡數(shù)據(jù)庫(kù)的三節(jié)點(diǎn)決策樹信用卡數(shù)據(jù)庫(kù)的三節(jié)點(diǎn)決策樹訓(xùn)練集分類的正確性為131587數(shù)據(jù)挖掘方法收入收入段段壽險(xiǎn)促壽險(xiǎn)促銷銷信用卡保信用卡保險(xiǎn)險(xiǎn)性性別別年年齡齡4-5萬(wàn)萬(wàn)NoNoM453-4萬(wàn)萬(wàn)YesNoF404-5萬(wàn)萬(wàn)NoNoM423-4萬(wàn)萬(wàn)YesYesM435-6萬(wàn)萬(wàn)YesNoF382-3萬(wàn)萬(wàn) NoNoF553-4萬(wàn)萬(wàn)YesYesM352-3萬(wàn)萬(wàn)NoNo M273-4萬(wàn)萬(wàn)NoNo F433-4萬(wàn)萬(wàn)Yes

23、NoF414-5萬(wàn)萬(wàn)YesNoM432-3萬(wàn)萬(wàn)YesNoF295-6萬(wàn)萬(wàn)YesNoF394-5萬(wàn)萬(wàn)NoNoM552-3萬(wàn)萬(wàn)YesYesF19決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫(kù)收入收入段段壽險(xiǎn)促壽險(xiǎn)促銷銷信用卡保信用卡保險(xiǎn)險(xiǎn)性性別別年年齡齡4-5萬(wàn)萬(wàn)NoNoM453-4萬(wàn)萬(wàn)YesNoF404-5萬(wàn)萬(wàn)NoNoM423-4萬(wàn)萬(wàn)YesYesM435-6萬(wàn)萬(wàn)YesNoF382-3萬(wàn)萬(wàn) NoNoF553-4萬(wàn)萬(wàn)YesYesM352-3萬(wàn)萬(wàn)NoNo M273-4萬(wàn)萬(wàn)NoNo F433-4萬(wàn)萬(wàn)YesNoF414-5萬(wàn)萬(wàn)YesNoM432-3萬(wàn)萬(wàn)YesNoF295-6萬(wàn)萬(wàn)YesNoF394-

24、5萬(wàn)萬(wàn)NoNoM552-3萬(wàn)萬(wàn)YesYesF19信用卡保險(xiǎn)Yes(52)No(41)NoYes性 別F MYes(30)信用卡數(shù)據(jù)庫(kù)的兩節(jié)點(diǎn)決策樹信用卡數(shù)據(jù)庫(kù)的兩節(jié)點(diǎn)決策樹訓(xùn)練集分類的正確性為121580數(shù)據(jù)挖掘方法決策樹(Decision Tree):例信用卡促銷數(shù)據(jù)庫(kù)檢驗(yàn)集收入段壽險(xiǎn)促銷信用卡保險(xiǎn)性別年齡檢驗(yàn)結(jié)果4-5萬(wàn)NoNoM42正確2-3萬(wàn)NoNoM27正確3-4萬(wàn)NoNoM43正確2-3萬(wàn)YesNoM29錯(cuò)誤年 齡Yes(61)No(21)4343性 別F M信用卡保險(xiǎn)Yes(20)No(30)No Yes信用卡數(shù)據(jù)庫(kù)的三節(jié)點(diǎn)決策樹信用卡數(shù)據(jù)庫(kù)的三節(jié)點(diǎn)決策樹數(shù)據(jù)挖掘方法現(xiàn)代方法現(xiàn)代

25、方法K平均值算法 K-平均值算法是一種簡(jiǎn)單而有效的無(wú)指導(dǎo)學(xué)習(xí)的統(tǒng)計(jì)聚類方法,將一組數(shù)據(jù)劃分為不相關(guān)的簇算算 法法 步步 驟驟選擇一個(gè)K值,用以確定簇的總數(shù)在數(shù)據(jù)集中任意選擇K個(gè)數(shù)據(jù)實(shí)例,作為初始的簇中心試用簡(jiǎn)單的歐氏距離將其它數(shù)據(jù)實(shí)例賦予距離它們最近的簇中心試用每個(gè)簇中的數(shù)據(jù)實(shí)例,計(jì)算每個(gè)簇的新的平均值如果新的平均值等于次迭代的平均值,終止該過(guò)程。否則,用新平均值作為簇中心并重復(fù)步驟35。點(diǎn)A(x1,y1)與點(diǎn)B(x2,y2)之間的歐氏距離計(jì)算式為Disce ABxxyytan()()()121222數(shù)據(jù)挖掘方法K平均值算法:例K-平均值輸入屬性實(shí)例XY1(C1)1.01.521.04.53(

26、C2)2.01.542.03.553.02.565.06.01.選擇K=2,即將所有數(shù)據(jù)實(shí)例分為兩個(gè)簇2.選擇實(shí)例1作為第1個(gè)簇的中心,實(shí)例3作為第2個(gè)簇的中心3.計(jì)算各數(shù)據(jù)實(shí)例與C1、C2之間的歐氏距離Dist(C11)=0.00 Dist(C21)=1.00 C1Dist(C12)=3.00 Dist(C22)=3.16 C1Dist(C13)=1.00 Dist(C23)=0.00 C2Dist(C14)=2.24 Dist(C24)=2.00 C2Dist(C15)=2.24 Dist(C25)=1.41 C2Dist(C16)=6.02 Dist(C26)=5.41 C24.迭代結(jié)果

27、得到以下兩個(gè)簇簇C1包含實(shí)例1、2,簇C2包含實(shí)例3、4、5、6YX 數(shù)據(jù)挖掘方法K平均值算法:例K-平均值輸入屬性實(shí)例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.05.重新計(jì)算每個(gè)簇的中心 對(duì)于C1:x=(1.0+1.0)/2=1.0 y=(1.5+4.5)/2=3.0 對(duì)于C2:x=(2.0+2.0+3.0+5.0)/4=3.0 y=(1.5+3.5+2.5+6.0)/4=3.375 因此,新的簇中心為C1=(1.0,3.0) C2=(3.0,3.375)YX 6.由于簇中心改變,進(jìn)行第2次迭代K平均值算法:例K-平均值輸入屬性實(shí)例

28、XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.0Dist(C11)=1.50 Dist(C21)=2.74 C1Dist(C12)=1.50 Dist(C22)=2.29 C1Dist(C13)=1.80 Dist(C23)=2.125 C1Dist(C14)=1.12 Dist(C24)=1.01 C2Dist(C15)=2.06 Dist(C25)=0.875 C2Dist(C16)=5.00 Dist(C26)=3.30 C2第2次迭代的結(jié)果導(dǎo)致了簇的變化:C1包含實(shí)例1、2和3,C2包含4、5和6YX K平均值算法:例K-平均值輸

29、入屬性實(shí)例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.07.重新計(jì)算每個(gè)簇的中心 對(duì)于C1:x=(1.0+1.02.0)/3=1.33 y=(1.5+4.51.5)/3=2.50 對(duì)于C2:x=(2.0+3.0+5.0)/3=3.33 y=(3.5+2.5+6.0)/3=4.00 因此,新的簇中心為C1=(1.33,2.50) C2=(3.33,4.00)8.由于簇中心改變,繼續(xù)進(jìn)行第3次迭代YX K平均值算法:例 數(shù)據(jù)實(shí)例與它們所對(duì)應(yīng)的簇中心之間的誤差平方和最小K平均值算法的幾個(gè)應(yīng)用K平均值算法的最優(yōu)聚類標(biāo)準(zhǔn)輸出結(jié)果簇中心簇點(diǎn)均方誤差

30、1(2.67, 4.67)(2.00, 1.83)2, 4, 61, 3, 514.502(1.5, 1.5)(2.75, 4.125)1, 32, 4, 5, 615.943(1.8, 2.7) (5, 6)1, 2, 3, 4, 569.60YX YX YX 現(xiàn)代方法關(guān)聯(lián)規(guī)則(Association Rules) 關(guān)聯(lián)規(guī)則的表現(xiàn)形式 關(guān)聯(lián)規(guī)則是一種無(wú)指導(dǎo)學(xué)習(xí)的數(shù)據(jù)挖掘中最普遍的知識(shí)發(fā)現(xiàn),是指在行為上具有某種關(guān)聯(lián)的多個(gè)事物在一次事件中可能同時(shí)出現(xiàn),從而在多個(gè)事物中建立聯(lián)系規(guī)則的方法。 “如果怎么樣、怎么樣、怎么樣,那么就會(huì)怎么樣” 關(guān)聯(lián)規(guī)則的構(gòu)成 前件“如果怎么樣、怎么樣、怎么樣” 后件“那

31、么就怎么樣” 如果買了西裝,就會(huì)買領(lǐng)帶 如果買精顯彩電,就會(huì)買家庭影院系統(tǒng)規(guī)則的構(gòu)成如果怎么樣、怎么樣、怎么樣,就會(huì)怎么樣如果怎么樣、怎么樣、怎么樣,就會(huì)怎么樣前件,激發(fā)條件前件,激發(fā)條件后件,結(jié)果后件,結(jié)果規(guī)則表現(xiàn)為在前件所有條件成立的前提下,規(guī)則表現(xiàn)為在前件所有條件成立的前提下,后件結(jié)果會(huì)以某一正確概率出現(xiàn)后件結(jié)果會(huì)以某一正確概率出現(xiàn)關(guān)聯(lián)規(guī)則(Association Rules)規(guī)則的置信度和支持度關(guān)聯(lián)規(guī)則(Association Rules) 規(guī)則的置信度又稱為規(guī)則的正確率,是指在前提出現(xiàn)的情況下,后件出現(xiàn)的概率 規(guī)則的支持度又稱為規(guī)則的覆蓋率,是指包含規(guī)則出現(xiàn)的屬性值的交易占所有交易的

32、百分比 例:如果客戶買牛奶,那么他們也會(huì)買面包 置信度:在10000次交易中客戶購(gòu)買了牛奶,而且其中的5000個(gè)交易也同時(shí)購(gòu)買了面包,則上述規(guī)則的置信度為50001000050 支持度:在超市一個(gè)月的客戶交易中,共有600000次交易,其中購(gòu)買牛奶的交易為60000次,支持度為6000060000010 規(guī)則的生成關(guān)聯(lián)規(guī)則(Association Rules) 決策樹方法 規(guī)則1:如果客戶參加了信用卡保險(xiǎn),那么他就會(huì)參加壽險(xiǎn)促銷(置信度33100,支持度31520) 規(guī)則2:如果一個(gè)男性客戶沒(méi)有參加信用卡保險(xiǎn),那么他也不會(huì)參加壽險(xiǎn) 促銷(置信度4580,支持度51533) 規(guī)則3:如果一個(gè)女性

33、客戶沒(méi)有參加信用卡保險(xiǎn),那么她可能會(huì)參加壽險(xiǎn)促銷(置信度5771,支持度71547) 規(guī)則4:如果是一個(gè)女性客戶,那么她可能會(huì)參加壽險(xiǎn)促銷(置信度6875,支持度81553)信用卡保險(xiǎn)Yes(52)No(41)NoYes性 別F MYes(30)規(guī)則的生成現(xiàn)代方法關(guān)聯(lián)規(guī)則(Association Rules) 最近鄰方法 規(guī)則:如果一個(gè)客戶處于的狀況,那么他可能是一個(gè)逃款者 關(guān)聯(lián)規(guī)則可以使用傳統(tǒng)的方法生成,但適當(dāng)提供的屬性很多時(shí),因?yàn)槊織l規(guī)則的結(jié)果可能包含大量的前提條件,使用傳統(tǒng)方法會(huì)變得不切實(shí)際。規(guī)則的生成現(xiàn)代方法關(guān)聯(lián)規(guī)則(Association Rules) apriori方法 aprio

34、ri方法步驟: 1.設(shè)置最小的屬性值支持度要求 apriori方法是通過(guò)生成條目集,按照一定的準(zhǔn)則要求從中選擇規(guī)則的方法。 條目集是指符合一定支持度要求的“屬性值”的組合 2.生成條目集 3.使用生成的條目集來(lái)創(chuàng)建規(guī)則規(guī)則的生成現(xiàn)代方法關(guān)聯(lián)規(guī)則(Association Rules)雜志促銷手表促銷壽險(xiǎn)促銷信用卡保險(xiǎn)性別YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMYNNNMYYYNM apriori方法:例1.設(shè)置最小的屬性值支持度要求(30) 2.生成條目集單項(xiàng)集合條目數(shù)雜志促銷Y7手表促銷Y4手表促銷N6壽險(xiǎn)促銷Y5壽險(xiǎn)促銷N5信用卡保險(xiǎn)N8性別M6性別F

35、4單項(xiàng)條目集合規(guī)則的生成現(xiàn)代方法關(guān)聯(lián)規(guī)則(Association Rules)雜志促銷手表促銷壽險(xiǎn)促銷信用卡保險(xiǎn)性別YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMYNNNMYYYNM apriori方法:例雙項(xiàng)條目集合雙項(xiàng)集合條目數(shù)雜志促銷Y手表促銷N4雜志促銷Y壽險(xiǎn)促銷Y5雜志促銷Y信用卡保險(xiǎn)N5雜志促銷Y性別M4手表促銷N壽險(xiǎn)促銷N4手表促銷N信用卡保險(xiǎn)N5手表促銷N性別M4壽險(xiǎn)促銷N信用卡保險(xiǎn)N5壽險(xiǎn)促銷N性別M4新英卡保險(xiǎn)N 性別M4信用卡保險(xiǎn)N性別F4規(guī)則的生成現(xiàn)代方法關(guān)聯(lián)規(guī)則(Association Rules)雜志促銷手表促銷壽險(xiǎn)促銷信用卡保險(xiǎn)性

36、別YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMYNNNMYYYNM apriori方法:例 確定最小置信度(如50),利用雙項(xiàng)條目集合生成規(guī)則3.使用生成的條目集來(lái)創(chuàng)建規(guī)則規(guī)則1:如果雜志促銷Y,那么壽險(xiǎn)促銷Y(57) 置信度5771,支持度71070規(guī)則2:如果壽險(xiǎn)促銷Y,那么雜志促銷Y(55) 置信度55100,支持度51050規(guī)則的生成關(guān)聯(lián)規(guī)則(Association Rules) 市場(chǎng)籃子分析就是一種關(guān)聯(lián)規(guī)則的表現(xiàn) 時(shí)間序列分析是一種反映客戶行為在時(shí)間上的關(guān)聯(lián)性的關(guān)聯(lián)規(guī)則 規(guī)則的應(yīng)用關(guān)聯(lián)規(guī)則(Association Rules)以前件為目標(biāo)歸納所有前件一樣的規(guī)則分析后件的營(yíng)銷效果設(shè)計(jì)促銷方案(完善前件)例收集所有前件為文具、復(fù)讀機(jī)的規(guī)則,分析這

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論