客戶數(shù)據(jù)挖掘_第1頁(yè)
客戶數(shù)據(jù)挖掘_第2頁(yè)
客戶數(shù)據(jù)挖掘_第3頁(yè)
客戶數(shù)據(jù)挖掘_第4頁(yè)
客戶數(shù)據(jù)挖掘_第5頁(yè)
已閱讀5頁(yè),還剩60頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

項(xiàng)目四

客戶信息的數(shù)據(jù)挖掘案例卓越亞馬遜的推薦系統(tǒng)學(xué)習(xí)目標(biāo)通過(guò)本章的學(xué)習(xí),將能夠:理解數(shù)據(jù)挖掘的含義熟悉數(shù)據(jù)挖掘的功能熟悉數(shù)據(jù)挖掘的主要技術(shù)掌握數(shù)據(jù)挖掘的業(yè)務(wù)流程了解客戶關(guān)系管理對(duì)數(shù)據(jù)挖掘的需求理解數(shù)據(jù)挖掘在客戶關(guān)系管理中的作用4數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)越來(lái)越大有價(jià)值的知識(shí)可怕的數(shù)據(jù)數(shù)據(jù)挖掘背景5數(shù)據(jù)爆炸,知識(shí)貧乏苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!數(shù)據(jù)知識(shí)決策模式趨勢(shì)事實(shí)關(guān)系模型關(guān)聯(lián)規(guī)則序列目標(biāo)市場(chǎng)資金分配貿(mào)易選擇在哪兒做廣告銷售的地理位置金融經(jīng)濟(jì)政府POS人口統(tǒng)計(jì)生命周期——數(shù)據(jù)挖掘是一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過(guò)程,這些模型和關(guān)系可以用來(lái)做出預(yù)測(cè)。●數(shù)據(jù)挖掘(DataMining)——數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程?!獢?shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘數(shù)據(jù)挖掘的特點(diǎn)——數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實(shí)用三個(gè)特征:先前未知的信息是指該信息是預(yù)先未曾預(yù)料到的,既數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺的信息或知識(shí)有效信息是指符合實(shí)際情況且具有一定的代表性可實(shí)用是指可以指導(dǎo)企業(yè)的營(yíng)銷決策數(shù)據(jù)挖掘的特點(diǎn)數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知、有效和可實(shí)用三個(gè)特征數(shù)據(jù)源必須是大量的、真實(shí)的、有噪聲的發(fā)現(xiàn)的是用戶感興趣的知識(shí)發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問(wèn)題數(shù)據(jù)挖掘任務(wù):描述和預(yù)測(cè)描述可以通過(guò)下述方法得到:1、數(shù)據(jù)特征化2、數(shù)據(jù)區(qū)分3、數(shù)據(jù)特征化和比較客戶接觸

客戶信息客戶數(shù)據(jù)庫(kù)統(tǒng)計(jì)分析與數(shù)據(jù)挖掘客戶知識(shí)發(fā)現(xiàn)客戶管理知識(shí)發(fā)現(xiàn):從數(shù)據(jù)中深入抽取隱含的、未知的和有潛在用途的信息從商業(yè)數(shù)據(jù)到商業(yè)智能各行業(yè)電子商務(wù)網(wǎng)站算法層商業(yè)邏輯層行業(yè)應(yīng)用層商業(yè)應(yīng)用商業(yè)模型挖掘算法CRM產(chǎn)品推薦客戶細(xì)分客戶流失客戶利潤(rùn)客戶響應(yīng)關(guān)聯(lián)規(guī)則、序列模式、分類、聚集、神經(jīng)元網(wǎng)絡(luò)、偏差分析…WEB挖掘網(wǎng)站結(jié)構(gòu)優(yōu)化網(wǎng)頁(yè)推薦商品推薦。。?;蛲诰蚧虮磉_(dá)路徑分析基因表達(dá)相似性分析基因表達(dá)共發(fā)生分析。。。銀行電信零售保險(xiǎn)制藥生物信息科學(xué)研究。。。相關(guān)行業(yè)數(shù)據(jù)挖掘的應(yīng)用Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神經(jīng)網(wǎng)絡(luò)NeuralNetworks聚類分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis決策樹DecisionTrees傾向性分析客戶保留客戶生命周期管理目標(biāo)市場(chǎng)價(jià)格彈性分析客戶細(xì)分市場(chǎng)細(xì)分傾向性分析客戶保留目標(biāo)市場(chǎng)欺詐檢測(cè)關(guān)聯(lián)分析Association市場(chǎng)組合分析套裝產(chǎn)品分析目錄設(shè)計(jì)交叉銷售數(shù)據(jù)挖掘的應(yīng)用●數(shù)據(jù)挖掘技術(shù)的分類——回顧分析:注重解決過(guò)去和現(xiàn)在的問(wèn)題如:兩年來(lái)不同地區(qū)、人口和產(chǎn)品情況下的各銷售部門銷售業(yè)績(jī)分析——預(yù)測(cè)分析:在歷史信息的基礎(chǔ)上預(yù)測(cè)某些事件和行為如:建立預(yù)測(cè)模型來(lái)描述客戶的流失率——分類:根據(jù)某種標(biāo)準(zhǔn)將數(shù)據(jù)庫(kù)記錄分類到許多預(yù)先定義好的類別如:信用卡公司將客戶記錄分為好、中、差三類分類可以產(chǎn)生規(guī)則:如果一個(gè)客戶收入超過(guò)5000萬(wàn)元,年齡在45-55歲之間,居住在某地區(qū),那么他的信用等級(jí)為好。數(shù)據(jù)挖掘技術(shù)●數(shù)據(jù)挖掘技術(shù)的分類——聚類:根據(jù)某些屬性將數(shù)據(jù)庫(kù)分割為一些子集和簇

如:在了解客戶的過(guò)程中,嘗試使用從未使用過(guò)的屬性分割人群以發(fā)現(xiàn)潛在客戶的簇——關(guān)聯(lián):通過(guò)考察記錄來(lái)識(shí)別數(shù)據(jù)間的密切關(guān)系關(guān)聯(lián)關(guān)系常常表現(xiàn)為規(guī)則,常用于超市購(gòu)物籃分析如:所有包含A和B的記錄中有60%同時(shí)包含C?!葑兎治觯好枋鲂袨殡S時(shí)間變化的對(duì)象的規(guī)律或趨勢(shì)

如:通過(guò)對(duì)客戶多次購(gòu)物行為的分析可以發(fā)現(xiàn)購(gòu)物行為在時(shí)間上的關(guān)系常用于產(chǎn)品目錄營(yíng)銷的分析數(shù)據(jù)挖掘的一般目的就是檢測(cè)、解釋和預(yù)測(cè)數(shù)據(jù)中定性的和/或定量的模式數(shù)據(jù)挖掘技術(shù)(四)孤立點(diǎn)分析數(shù)據(jù)庫(kù)中包含一些數(shù)據(jù)對(duì)象,他們與數(shù)據(jù)的一般行為或模型不一致。(五)分類和預(yù)測(cè)找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型,以便能夠使用模型預(yù)測(cè)和分類標(biāo)志未知的對(duì)象類。●現(xiàn)代方法——關(guān)聯(lián)規(guī)則(AssociationRules)關(guān)聯(lián)規(guī)則的表現(xiàn)形式

關(guān)聯(lián)規(guī)則是一種無(wú)指導(dǎo)學(xué)習(xí)的數(shù)據(jù)挖掘中最普遍的知識(shí)發(fā)現(xiàn),是指在行為上具有某種關(guān)聯(lián)的多個(gè)事物在一次事件中可能同時(shí)出現(xiàn),從而在多個(gè)事物中建立聯(lián)系規(guī)則的方法。

“如果怎么樣、怎么樣、怎么樣,那么就會(huì)怎么樣”

關(guān)聯(lián)規(guī)則的構(gòu)成前件——“如果怎么樣、怎么樣、怎么樣”

后件——“那么就怎么樣”

——如果買了西裝,就會(huì)買領(lǐng)帶

——如果買精顯彩電,就會(huì)買家庭影院系統(tǒng)規(guī)則的構(gòu)成如果怎么樣、怎么樣、怎么樣,就會(huì)怎么樣前件,激發(fā)條件后件,結(jié)果規(guī)則表現(xiàn)為在前件所有條件成立的前提下,后件結(jié)果會(huì)以某一正確概率出現(xiàn)關(guān)聯(lián)規(guī)則(AssociationRules)規(guī)則的置信度和支持度關(guān)聯(lián)規(guī)則(AssociationRules)規(guī)則的置信度又稱為規(guī)則的正確率,是指在前提出現(xiàn)的情況下,后件出現(xiàn)的概率規(guī)則的支持度又稱為規(guī)則的覆蓋率,是指包含規(guī)則出現(xiàn)的屬性值的交易占所有交易的百分比例:如果客戶買牛奶,那么他們也會(huì)買面包置信度:在10000次交易中客戶購(gòu)買了牛奶,而且其中的5000個(gè)交易也同時(shí)購(gòu)買了面包,則上述規(guī)則的置信度為5000/10000=50%支持度:在超市一個(gè)月的客戶交易中,共有600000次交易,其中購(gòu)買牛奶的交易為60000次,支持度為60000/600000=10%規(guī)則的生成●現(xiàn)代方法——關(guān)聯(lián)規(guī)則(AssociationRules)最近鄰方法規(guī)則:如果一個(gè)客戶處于●的狀況,那么他可能是一個(gè)逃款者關(guān)聯(lián)規(guī)則可以使用傳統(tǒng)的方法生成,但適當(dāng)提供的屬性很多時(shí),因?yàn)槊織l規(guī)則的結(jié)果可能包含大量的前提條件,使用傳統(tǒng)方法會(huì)變得不切實(shí)際。規(guī)則的生成——關(guān)聯(lián)規(guī)則(AssociationRules)市場(chǎng)籃子分析就是一種關(guān)聯(lián)規(guī)則的表現(xiàn)時(shí)間序列分析是一種反映客戶行為在時(shí)間上的關(guān)聯(lián)性的關(guān)聯(lián)規(guī)則商業(yè)銀行的客戶細(xì)分

規(guī)則的應(yīng)用——關(guān)聯(lián)規(guī)則(AssociationRules)——以前件為目標(biāo)——?dú)w納所有前件一樣的規(guī)則——分析后件的營(yíng)銷效果——設(shè)計(jì)促銷方案(完善前件)——例——收集所有前件為文具、復(fù)讀機(jī)的規(guī)則,分析這些商品打折是否促進(jìn)其他高利潤(rùn)商品的銷售,從而調(diào)整商品結(jié)構(gòu)、設(shè)計(jì)促銷方案規(guī)則的應(yīng)用——關(guān)聯(lián)規(guī)則(AssociationRules)——以后件為目標(biāo)——?dú)w納所有后件一樣的規(guī)則——分析什么因素與后件有關(guān)或?qū)蠹杏绊憽O(shè)計(jì)前件促成后件——例——收集到所有后件為西裝的規(guī)則,可以幫助我們了解西裝的銷售受哪些因素的影響或與哪些因素相關(guān),從而可以考慮將這些因素集合在一起而產(chǎn)生促銷效果。規(guī)則的應(yīng)用——關(guān)聯(lián)規(guī)則(AssociationRules)置信度低置信度高支持度高支持度低規(guī)則的置信度和支持度規(guī)則很少是正確的,但可以經(jīng)常使用規(guī)則很少是正確的,而且很少被使用規(guī)則多數(shù)情況下是正確,但很少被使用規(guī)則多數(shù)情況下是正確的,而且可以經(jīng)常使用——以置信度或支持度為目標(biāo)案例:BellAtlantic公司BellAtlantic的數(shù)據(jù)挖掘系統(tǒng)非常成功,不僅為他們的業(yè)務(wù)開展帶來(lái)很大的方便,而且節(jié)省了許多開支。BellAtlantic的電話服務(wù)目前已經(jīng)覆蓋了美國(guó)14個(gè)州,擁有商業(yè)電話、住家電話帳戶近億個(gè)。BellAtlantic數(shù)據(jù)挖掘系統(tǒng)的首要任務(wù)就是盡快地追收拖欠的電話費(fèi),同時(shí)盡量減少收債部門的成本。案例:BellAtlantic公司軟件系統(tǒng)的選擇非常重要。經(jīng)過(guò)反復(fù)挑選后,BellAtlantic采用了SAS統(tǒng)計(jì)軟件系統(tǒng)建立數(shù)據(jù)挖掘系統(tǒng),然后在SAS環(huán)境中利用SAS宏程序建立挖掘系統(tǒng)。然后是建立SAS格式庫(kù)。許多數(shù)據(jù)需要格式化,比如年齡,可以從20到100歲,需要分成不同的組,這都需要利用模式來(lái)進(jìn)行數(shù)據(jù)轉(zhuǎn)換。有的數(shù)據(jù)不是連續(xù)變量,比如婚姻狀況(單身/已婚),也需要進(jìn)行一些變換才可以進(jìn)行計(jì)算。日期也是需要模式化的,不同計(jì)算機(jī)系統(tǒng)記錄日期方法不同,需要把日期轉(zhuǎn)換成一致的方法。在金融保險(xiǎn)行業(yè)日期這個(gè)變量非常重要,因?yàn)楹芏嗫蛻舻男袨槎加涗浽谌掌诶锩媪?。電話公司里記帳、付款的日期也非常重要。●?shù)據(jù)挖掘方法學(xué)——模式

數(shù)據(jù)庫(kù)中一個(gè)事件或事件的結(jié)合,這些事件比預(yù)期的要經(jīng)常發(fā)生,其實(shí)際發(fā)生率明顯不同于隨機(jī)情況下的可期望發(fā)生率。

模式是數(shù)據(jù)驅(qū)動(dòng)的,一般只反映數(shù)據(jù)本身——模型

對(duì)構(gòu)建事件的源時(shí)的歷史數(shù)據(jù)庫(kù)的描述,并且能夠成功地應(yīng)用于新的數(shù)據(jù),以便對(duì)缺少的數(shù)據(jù)作出預(yù)測(cè)或?qū)ζ谕臄?shù)據(jù)作出說(shuō)明。模型的一般表現(xiàn)形式數(shù)學(xué)方程式描述各客戶段的規(guī)則集計(jì)算機(jī)表示方式

模式可視化數(shù)據(jù)挖掘技術(shù)●數(shù)據(jù)挖掘方法學(xué)——取樣

根據(jù)問(wèn)題的需要采用隨機(jī)取樣的方法從數(shù)據(jù)庫(kù)中抽取數(shù)據(jù)進(jìn)行挖掘,有助于迅速發(fā)現(xiàn)模式、創(chuàng)建模型

數(shù)據(jù)本身的處理過(guò)程需要驗(yàn)證——驗(yàn)證模型

模型創(chuàng)建過(guò)程需要保證正確

模型應(yīng)用的驗(yàn)證

在依據(jù)一些歷史數(shù)據(jù)建造模型后,將模型應(yīng)用于未參與建造模型的其他類似的歷史數(shù)據(jù),比較其模型輸出結(jié)果與實(shí)際結(jié)果。數(shù)據(jù)挖掘技術(shù)●經(jīng)典方法——統(tǒng)計(jì)

統(tǒng)計(jì)可以通過(guò)對(duì)類似下列問(wèn)題的回答獲得模式○在我的數(shù)據(jù)庫(kù)中存在什么模式○某個(gè)事件發(fā)生的可能性是什么○那些模式是重要的模式

統(tǒng)計(jì)的一個(gè)重要價(jià)值就是它提供了對(duì)數(shù)據(jù)庫(kù)的高層視圖,這種視圖提供了有用的信息,但不要求在細(xì)節(jié)上理解數(shù)據(jù)庫(kù)的每一條記錄。數(shù)據(jù)挖掘方法●經(jīng)典方法——最近鄰

通過(guò)檢測(cè)與預(yù)測(cè)對(duì)象最接近的對(duì)象的狀況對(duì)預(yù)測(cè)對(duì)象進(jìn)行預(yù)測(cè)

原理:

某一特定對(duì)象可能與其他某一或某些對(duì)象比其它一些第三對(duì)象更接近;

相互之間“接近”的對(duì)象會(huì)有相似的取值

根據(jù)其中一個(gè)對(duì)象的取值,預(yù)測(cè)其最近鄰對(duì)象的預(yù)測(cè)值

商業(yè)應(yīng)用:文獻(xiàn)檢索市場(chǎng)籃子分析

應(yīng)用評(píng)價(jià):

最近鄰的數(shù)量最近鄰的距離決定最近鄰預(yù)測(cè)的可信度數(shù)據(jù)挖掘方法●現(xiàn)代方法——基礎(chǔ)理論有指導(dǎo)的學(xué)習(xí)(SupervisedLearning)歸納概念分類標(biāo)準(zhǔn)與模型分類有指導(dǎo)的學(xué)習(xí)的目的:建立分類模型用模型確定新數(shù)據(jù)實(shí)例的類別訓(xùn)練數(shù)據(jù)(TrainingData)與檢驗(yàn)集(TestSet)用于創(chuàng)建模型的數(shù)據(jù)實(shí)例稱為訓(xùn)練數(shù)據(jù)用于檢驗(yàn)?zāi)P偷臏?zhǔn)確度的數(shù)據(jù)實(shí)例稱為檢驗(yàn)集數(shù)據(jù)挖掘方法

有指導(dǎo)的學(xué)習(xí)(SupervisedLearning)患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫數(shù)據(jù)挖掘方法患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?有指導(dǎo)的學(xué)習(xí)(SupervisedLearning)患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesNoYesYes感冒淋巴腫發(fā)燒NoNoYesYes咽炎敏感癥感冒淋巴腫、發(fā)燒是有意義的屬性嗓子痛、充血、頭痛是無(wú)意義的屬性數(shù)據(jù)挖掘方法

有指導(dǎo)的學(xué)習(xí)(SupervisedLearning)淋巴腫發(fā)燒NoNoYesYes咽炎敏感癥感冒患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?未知分類的數(shù)據(jù)實(shí)例(檢驗(yàn)集)數(shù)據(jù)挖掘方法無(wú)指導(dǎo)的學(xué)習(xí)(UnsupervisedLearning)為沒有預(yù)先定義分類標(biāo)準(zhǔn)的數(shù)據(jù)建立模型客戶ID客戶類型交易保證金帳戶交易方法交易數(shù)/月性別年齡嗜好年收入1005聯(lián)合NoOnline12.5F30-39網(wǎng)球4-5.9萬(wàn)1013委托保管NoBroke0.5F50-59滑雪8-9.9萬(wàn)1245聯(lián)合NoOnline3.6M20-29高爾夫2-3.9萬(wàn)2110個(gè)人YesBroke22.3M30-39釣魚4-5.9萬(wàn)1001個(gè)人YesOnline5.0M40-49高爾夫6-7.9萬(wàn)ABC投資公司客戶表數(shù)據(jù)挖掘方法無(wú)指導(dǎo)的學(xué)習(xí)(UnsupervisedLearning)區(qū)分在線投資者和經(jīng)紀(jì)人投資者的特征是什么一個(gè)新客戶未開設(shè)交易保證金帳戶,如何確定其將來(lái)是否會(huì)開設(shè)這種帳戶能建立一個(gè)預(yù)測(cè)新投資者月均交易數(shù)的模型嗎女性和男性投資者有什么不同的特征交易方式交易保證金帳戶月均交易數(shù)性別數(shù)據(jù)挖掘問(wèn)題屬性哪些屬性相似性決定ABC公司的客戶分組屬性值的哪些不同之處分隔了客戶數(shù)據(jù)庫(kù)有指導(dǎo)的學(xué)習(xí)無(wú)指導(dǎo)的學(xué)習(xí)數(shù)據(jù)挖掘方法●現(xiàn)代方法——決策樹(DecisionTree)決策樹是一種有指導(dǎo)學(xué)習(xí)的數(shù)據(jù)挖掘方法決策樹的組成決策節(jié)點(diǎn)、分支、葉子———根節(jié)點(diǎn)分支———葉子Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40K節(jié)點(diǎn)

決策樹的分支過(guò)程就是對(duì)數(shù)據(jù)進(jìn)行分類的過(guò)程,利用幾個(gè)變量(每個(gè)變量對(duì)應(yīng)一個(gè)問(wèn)題)來(lái)判斷數(shù)據(jù)所屬的類別。在分支后,要使不同分支之間數(shù)據(jù)的差異盡可能大、同一分支內(nèi)的數(shù)據(jù)盡量相同。這一分割過(guò)程也就是數(shù)據(jù)的“純化”過(guò)程。數(shù)據(jù)挖掘方法決策樹的算法步驟○假設(shè)T為訓(xùn)練實(shí)例集○選擇一個(gè)最能區(qū)別T中實(shí)例的屬性○創(chuàng)建一個(gè)決策節(jié)點(diǎn),它的值為所選擇的屬性○創(chuàng)建該節(jié)點(diǎn)的分支,每個(gè)分支代表所選屬性的一個(gè)唯一值○使用分支的值,將數(shù)據(jù)實(shí)例分割為子類○對(duì)于步驟5所創(chuàng)建的各個(gè)子類:★如果子類中的數(shù)據(jù)實(shí)例滿足以下條件,可按此決策樹對(duì)新數(shù)據(jù)實(shí)例指定類別☆分割中只包含一條數(shù)據(jù)實(shí)例☆分割中所有數(shù)據(jù)實(shí)例的屬性都相同☆繼續(xù)分割得到的改進(jìn)不明顯★如果子類不滿足上述條件,則設(shè)T’為當(dāng)前子類數(shù)據(jù)實(shí)例集合,返回步驟2數(shù)據(jù)挖掘方法決策樹的屬性選取屬性選取標(biāo)準(zhǔn):最大化反映數(shù)據(jù)差異,使樹的層次和節(jié)點(diǎn)數(shù)最小患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫發(fā)燒NoNoYesYes咽炎敏感癥感冒數(shù)據(jù)挖掘方法患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫發(fā)燒NoNoYesYes敏感癥敏感癥咽炎NoYes頭痛淋巴腫感冒發(fā)燒淋巴腫NoYes咽炎NoYes數(shù)據(jù)挖掘方法決策樹的屬性選取屬性選取標(biāo)準(zhǔn):最大化反映數(shù)據(jù)差異,使樹的層次和節(jié)點(diǎn)數(shù)最小信用卡促銷數(shù)據(jù)庫(kù)收入段壽險(xiǎn)促銷信用卡保險(xiǎn)性別年齡4-5萬(wàn)NoNoM453-4萬(wàn)YesNoF404-5萬(wàn)NoNoM423-4萬(wàn)YesYesM435-6萬(wàn)YesNoF382-3萬(wàn)NoNoF553-4萬(wàn)YesYesM352-3萬(wàn)NoNoM273-4萬(wàn)NoNoF433-4萬(wàn)YesNoF414-5萬(wàn)YesNoM432-3萬(wàn)YesNoF295-6萬(wàn)YesNoF394-5萬(wàn)NoNoM552-3萬(wàn)YesYesF19○選取收入段為根節(jié)點(diǎn)○選取壽險(xiǎn)促銷為輸出屬性○沿著每個(gè)分支有兩個(gè)類,選取最頻繁出現(xiàn)的類收入段2Yes2No4Yes1No3No1Yes2Yes2—3萬(wàn)3—4萬(wàn)4—5萬(wàn)5—6萬(wàn)○訓(xùn)練集分類的正確性為11/15=73%數(shù)據(jù)挖掘方法——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫(kù)○選取信用卡保險(xiǎn)為根節(jié)點(diǎn)○選取壽險(xiǎn)促銷為輸出屬性○沿著每個(gè)分支有兩個(gè)類,選取最頻繁出現(xiàn)的類信用卡保險(xiǎn)6Yes6No3Yes0NoNoYes○訓(xùn)練集分類的正確性為9/15=60%數(shù)據(jù)挖掘方法收入段壽險(xiǎn)促銷信用卡保險(xiǎn)性別年齡4-5萬(wàn)NoNoM453-4萬(wàn)YesNoF404-5萬(wàn)NoNoM423-4萬(wàn)YesYesM435-6萬(wàn)YesNoF382-3萬(wàn)NoNoF553-4萬(wàn)YesYesM352-3萬(wàn)NoNoM273-4萬(wàn)NoNoF433-4萬(wàn)YesNoF414-5萬(wàn)YesNoM432-3萬(wàn)YesNoF295-6萬(wàn)YesNoF394-5萬(wàn)NoNoM552-3萬(wàn)YesYesF19——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫(kù)○選取數(shù)值型屬性年齡為根節(jié)點(diǎn)○選取壽險(xiǎn)促銷為輸出屬性○依照年齡排序,對(duì)照輸出屬性進(jìn)行數(shù)據(jù)分割,選擇數(shù)據(jù)分割點(diǎn)年齡9Yes3No0Yes3No≤43>43○以年齡≤43結(jié)合壽險(xiǎn)促銷=Y(jié)es,訓(xùn)練集分類的正確性為12/15=80%172729353839404142434343455555YNYYYYYYNYYNNNN數(shù)據(jù)挖掘方法收入段壽險(xiǎn)促銷信用卡保險(xiǎn)性別年齡4-5萬(wàn)NoNoM453-4萬(wàn)YesNoF404-5萬(wàn)NoNoM423-4萬(wàn)YesYesM435-6萬(wàn)YesNoF382-3萬(wàn)NoNoF553-4萬(wàn)YesYesM352-3萬(wàn)NoNoM273-4萬(wàn)NoNoF433-4萬(wàn)YesNoF414-5萬(wàn)YesNoM432-3萬(wàn)YesNoF295-6萬(wàn)YesNoF394-5萬(wàn)NoNoM552-3萬(wàn)YesYesF19——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫(kù)年齡Yes(6/1)No(2/1)≤43>43性別FM信用卡保險(xiǎn)Yes(2/0)No(3/0)NoYes信用卡數(shù)據(jù)庫(kù)的三節(jié)點(diǎn)決策樹○訓(xùn)練集分類的正確性為13/15=87%數(shù)據(jù)挖掘方法收入段壽險(xiǎn)促銷信用卡保險(xiǎn)性別年齡4-5萬(wàn)NoNoM453-4萬(wàn)YesNoF404-5萬(wàn)NoNoM423-4萬(wàn)YesYesM435-6萬(wàn)YesNoF382-3萬(wàn)NoNoF553-4萬(wàn)YesYesM352-3萬(wàn)NoNoM273-4萬(wàn)NoNoF433-4萬(wàn)YesNoF414-5萬(wàn)YesNoM432-3萬(wàn)YesNoF295-6萬(wàn)YesNoF394-5萬(wàn)NoNoM552-3萬(wàn)YesYesF19——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫(kù)收入段壽險(xiǎn)促銷信用卡保險(xiǎn)性別年齡4-5萬(wàn)NoNoM453-4萬(wàn)YesNoF404-5萬(wàn)NoNoM423-4萬(wàn)YesYesM435-6萬(wàn)YesNoF382-3萬(wàn)NoNoF553-4萬(wàn)YesYesM352-3萬(wàn)NoNoM273-4萬(wàn)NoNoF433-4萬(wàn)YesNoF414-5萬(wàn)YesNoM432-3萬(wàn)YesNoF295-6萬(wàn)YesNoF394-5萬(wàn)NoNoM552-3萬(wàn)YesYesF19信用卡保險(xiǎn)Yes(5/2)No(4/1)NoYes性別FMYes(3/0)信用卡數(shù)據(jù)庫(kù)的兩節(jié)點(diǎn)決策樹○訓(xùn)練集分類的正確性為12/15=80%數(shù)據(jù)挖掘方法——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫(kù)檢驗(yàn)集收入段壽險(xiǎn)促銷信用卡保險(xiǎn)性別年齡檢驗(yàn)結(jié)果4-5萬(wàn)NoNoM42正確2-3萬(wàn)NoNoM27正確3-4萬(wàn)NoNoM43正確2-3萬(wàn)YesNoM29錯(cuò)誤年齡Yes(6/1)No(2/1)≤43>43性別FM信用卡保險(xiǎn)Yes(2/0)No(3/0)NoYes信用卡數(shù)據(jù)庫(kù)的三節(jié)點(diǎn)決策樹數(shù)據(jù)挖掘方法●現(xiàn)代方法——K-平均值算法

K-平均值算法是一種簡(jiǎn)單而有效的無(wú)指導(dǎo)學(xué)習(xí)的統(tǒng)計(jì)聚類方法,將一組數(shù)據(jù)劃分為不相關(guān)的簇算法步驟○選擇一個(gè)K值,用以確定簇的總數(shù)○在數(shù)據(jù)集中任意選擇K個(gè)數(shù)據(jù)實(shí)例,作為初始的簇中心○試用簡(jiǎn)單的歐氏距離將其它數(shù)據(jù)實(shí)例賦予距離它們最近的簇中心○試用每個(gè)簇中的數(shù)據(jù)實(shí)例,計(jì)算每個(gè)簇的新的平均值○如果新的平均值等于次迭代的平均值,終止該過(guò)程。否則,用新平均值作為簇中心并重復(fù)步驟3-5。點(diǎn)A(x1,y1)與點(diǎn)B(x2,y2)之間的歐氏距離計(jì)算式為數(shù)據(jù)挖掘方法K-平均值算法:例K-平均值輸入屬性實(shí)例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.01.選擇K=2,即將所有數(shù)據(jù)實(shí)例分為兩個(gè)簇2.選擇實(shí)例1作為第1個(gè)簇的中心,實(shí)例3作為第2個(gè)簇的中心3.計(jì)算各數(shù)據(jù)實(shí)例與C1、C2之間的歐氏距離Dist(C1-1)=0.00Dist(C2-1)=1.00C1Dist(C1-2)=3.00Dist(C2-2)=3.16C1Dist(C1-3)=1.00Dist(C2-3)=0.00C2Dist(C1-4)=2.24Dist(C2-4)=2.00C2Dist(C1-5)=2.24Dist(C2-5)=1.41C2Dist(C1-6)=6.02Dist(C2-6)=5.41C24.迭代結(jié)果得到以下兩個(gè)簇簇C1包含實(shí)例1、2,簇C2包含實(shí)例3、4、5、6Y數(shù)據(jù)挖掘方法——K-平均值算法:例K-平均值輸入屬性實(shí)例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.05.重新計(jì)算每個(gè)簇的中心對(duì)于C1:

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論