客戶數(shù)據(jù)挖掘_第1頁
客戶數(shù)據(jù)挖掘_第2頁
客戶數(shù)據(jù)挖掘_第3頁
客戶數(shù)據(jù)挖掘_第4頁
客戶數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩60頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

項目四

客戶信息的數(shù)據(jù)挖掘案例卓越亞馬遜的推薦系統(tǒng)學習目標通過本章的學習,將能夠:理解數(shù)據(jù)挖掘的含義熟悉數(shù)據(jù)挖掘的功能熟悉數(shù)據(jù)挖掘的主要技術掌握數(shù)據(jù)挖掘的業(yè)務流程了解客戶關系管理對數(shù)據(jù)挖掘的需求理解數(shù)據(jù)挖掘在客戶關系管理中的作用4數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大有價值的知識可怕的數(shù)據(jù)數(shù)據(jù)挖掘背景5數(shù)據(jù)爆炸,知識貧乏苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!數(shù)據(jù)知識決策模式趨勢事實關系模型關聯(lián)規(guī)則序列目標市場資金分配貿(mào)易選擇在哪兒做廣告銷售的地理位置金融經(jīng)濟政府POS人口統(tǒng)計生命周期——數(shù)據(jù)挖掘是一個利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關系的過程,這些模型和關系可以用來做出預測?!駭?shù)據(jù)挖掘(DataMining)——數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程?!獢?shù)據(jù)挖掘是一種新的商業(yè)信息處理技術,其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關鍵性數(shù)據(jù)。數(shù)據(jù)挖掘數(shù)據(jù)挖掘的特點——數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別數(shù)據(jù)挖掘是在沒有明確假設的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘所得到的信息應具有先未知,有效和可實用三個特征:先前未知的信息是指該信息是預先未曾預料到的,既數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識有效信息是指符合實際情況且具有一定的代表性可實用是指可以指導企業(yè)的營銷決策數(shù)據(jù)挖掘的特點數(shù)據(jù)挖掘是在沒有明確假設的前提下去挖掘信息、發(fā)現(xiàn)知識數(shù)據(jù)挖掘所得到的信息應具有先未知、有效和可實用三個特征數(shù)據(jù)源必須是大量的、真實的、有噪聲的發(fā)現(xiàn)的是用戶感興趣的知識發(fā)現(xiàn)的知識要可接受、可理解、可運用并不要求發(fā)現(xiàn)放之四海皆準的知識,僅支持特定的發(fā)現(xiàn)問題數(shù)據(jù)挖掘任務:描述和預測描述可以通過下述方法得到:1、數(shù)據(jù)特征化2、數(shù)據(jù)區(qū)分3、數(shù)據(jù)特征化和比較客戶接觸

客戶信息客戶數(shù)據(jù)庫統(tǒng)計分析與數(shù)據(jù)挖掘客戶知識發(fā)現(xiàn)客戶管理知識發(fā)現(xiàn):從數(shù)據(jù)中深入抽取隱含的、未知的和有潛在用途的信息從商業(yè)數(shù)據(jù)到商業(yè)智能各行業(yè)電子商務網(wǎng)站算法層商業(yè)邏輯層行業(yè)應用層商業(yè)應用商業(yè)模型挖掘算法CRM產(chǎn)品推薦客戶細分客戶流失客戶利潤客戶響應關聯(lián)規(guī)則、序列模式、分類、聚集、神經(jīng)元網(wǎng)絡、偏差分析…WEB挖掘網(wǎng)站結構優(yōu)化網(wǎng)頁推薦商品推薦。。?;蛲诰蚧虮磉_路徑分析基因表達相似性分析基因表達共發(fā)生分析。。。銀行電信零售保險制藥生物信息科學研究。。。相關行業(yè)數(shù)據(jù)挖掘的應用Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神經(jīng)網(wǎng)絡NeuralNetworks聚類分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis決策樹DecisionTrees傾向性分析客戶保留客戶生命周期管理目標市場價格彈性分析客戶細分市場細分傾向性分析客戶保留目標市場欺詐檢測關聯(lián)分析Association市場組合分析套裝產(chǎn)品分析目錄設計交叉銷售數(shù)據(jù)挖掘的應用●數(shù)據(jù)挖掘技術的分類——回顧分析:注重解決過去和現(xiàn)在的問題如:兩年來不同地區(qū)、人口和產(chǎn)品情況下的各銷售部門銷售業(yè)績分析——預測分析:在歷史信息的基礎上預測某些事件和行為如:建立預測模型來描述客戶的流失率——分類:根據(jù)某種標準將數(shù)據(jù)庫記錄分類到許多預先定義好的類別如:信用卡公司將客戶記錄分為好、中、差三類分類可以產(chǎn)生規(guī)則:如果一個客戶收入超過5000萬元,年齡在45-55歲之間,居住在某地區(qū),那么他的信用等級為好。數(shù)據(jù)挖掘技術●數(shù)據(jù)挖掘技術的分類——聚類:根據(jù)某些屬性將數(shù)據(jù)庫分割為一些子集和簇

如:在了解客戶的過程中,嘗試使用從未使用過的屬性分割人群以發(fā)現(xiàn)潛在客戶的簇——關聯(lián):通過考察記錄來識別數(shù)據(jù)間的密切關系關聯(lián)關系常常表現(xiàn)為規(guī)則,常用于超市購物籃分析如:所有包含A和B的記錄中有60%同時包含C?!葑兎治觯好枋鲂袨殡S時間變化的對象的規(guī)律或趨勢

如:通過對客戶多次購物行為的分析可以發(fā)現(xiàn)購物行為在時間上的關系常用于產(chǎn)品目錄營銷的分析數(shù)據(jù)挖掘的一般目的就是檢測、解釋和預測數(shù)據(jù)中定性的和/或定量的模式數(shù)據(jù)挖掘技術(四)孤立點分析數(shù)據(jù)庫中包含一些數(shù)據(jù)對象,他們與數(shù)據(jù)的一般行為或模型不一致。(五)分類和預測找出描述并區(qū)分數(shù)據(jù)類或概念的模型,以便能夠使用模型預測和分類標志未知的對象類。●現(xiàn)代方法——關聯(lián)規(guī)則(AssociationRules)關聯(lián)規(guī)則的表現(xiàn)形式

關聯(lián)規(guī)則是一種無指導學習的數(shù)據(jù)挖掘中最普遍的知識發(fā)現(xiàn),是指在行為上具有某種關聯(lián)的多個事物在一次事件中可能同時出現(xiàn),從而在多個事物中建立聯(lián)系規(guī)則的方法。

“如果怎么樣、怎么樣、怎么樣,那么就會怎么樣”

關聯(lián)規(guī)則的構成前件——“如果怎么樣、怎么樣、怎么樣”

后件——“那么就怎么樣”

——如果買了西裝,就會買領帶

——如果買精顯彩電,就會買家庭影院系統(tǒng)規(guī)則的構成如果怎么樣、怎么樣、怎么樣,就會怎么樣前件,激發(fā)條件后件,結果規(guī)則表現(xiàn)為在前件所有條件成立的前提下,后件結果會以某一正確概率出現(xiàn)關聯(lián)規(guī)則(AssociationRules)規(guī)則的置信度和支持度關聯(lián)規(guī)則(AssociationRules)規(guī)則的置信度又稱為規(guī)則的正確率,是指在前提出現(xiàn)的情況下,后件出現(xiàn)的概率規(guī)則的支持度又稱為規(guī)則的覆蓋率,是指包含規(guī)則出現(xiàn)的屬性值的交易占所有交易的百分比例:如果客戶買牛奶,那么他們也會買面包置信度:在10000次交易中客戶購買了牛奶,而且其中的5000個交易也同時購買了面包,則上述規(guī)則的置信度為5000/10000=50%支持度:在超市一個月的客戶交易中,共有600000次交易,其中購買牛奶的交易為60000次,支持度為60000/600000=10%規(guī)則的生成●現(xiàn)代方法——關聯(lián)規(guī)則(AssociationRules)最近鄰方法規(guī)則:如果一個客戶處于●的狀況,那么他可能是一個逃款者關聯(lián)規(guī)則可以使用傳統(tǒng)的方法生成,但適當提供的屬性很多時,因為每條規(guī)則的結果可能包含大量的前提條件,使用傳統(tǒng)方法會變得不切實際。規(guī)則的生成——關聯(lián)規(guī)則(AssociationRules)市場籃子分析就是一種關聯(lián)規(guī)則的表現(xiàn)時間序列分析是一種反映客戶行為在時間上的關聯(lián)性的關聯(lián)規(guī)則商業(yè)銀行的客戶細分

規(guī)則的應用——關聯(lián)規(guī)則(AssociationRules)——以前件為目標——歸納所有前件一樣的規(guī)則——分析后件的營銷效果——設計促銷方案(完善前件)——例——收集所有前件為文具、復讀機的規(guī)則,分析這些商品打折是否促進其他高利潤商品的銷售,從而調整商品結構、設計促銷方案規(guī)則的應用——關聯(lián)規(guī)則(AssociationRules)——以后件為目標——歸納所有后件一樣的規(guī)則——分析什么因素與后件有關或對后件有影響——設計前件促成后件——例——收集到所有后件為西裝的規(guī)則,可以幫助我們了解西裝的銷售受哪些因素的影響或與哪些因素相關,從而可以考慮將這些因素集合在一起而產(chǎn)生促銷效果。規(guī)則的應用——關聯(lián)規(guī)則(AssociationRules)置信度低置信度高支持度高支持度低規(guī)則的置信度和支持度規(guī)則很少是正確的,但可以經(jīng)常使用規(guī)則很少是正確的,而且很少被使用規(guī)則多數(shù)情況下是正確,但很少被使用規(guī)則多數(shù)情況下是正確的,而且可以經(jīng)常使用——以置信度或支持度為目標案例:BellAtlantic公司BellAtlantic的數(shù)據(jù)挖掘系統(tǒng)非常成功,不僅為他們的業(yè)務開展帶來很大的方便,而且節(jié)省了許多開支。BellAtlantic的電話服務目前已經(jīng)覆蓋了美國14個州,擁有商業(yè)電話、住家電話帳戶近億個。BellAtlantic數(shù)據(jù)挖掘系統(tǒng)的首要任務就是盡快地追收拖欠的電話費,同時盡量減少收債部門的成本。案例:BellAtlantic公司軟件系統(tǒng)的選擇非常重要。經(jīng)過反復挑選后,BellAtlantic采用了SAS統(tǒng)計軟件系統(tǒng)建立數(shù)據(jù)挖掘系統(tǒng),然后在SAS環(huán)境中利用SAS宏程序建立挖掘系統(tǒng)。然后是建立SAS格式庫。許多數(shù)據(jù)需要格式化,比如年齡,可以從20到100歲,需要分成不同的組,這都需要利用模式來進行數(shù)據(jù)轉換。有的數(shù)據(jù)不是連續(xù)變量,比如婚姻狀況(單身/已婚),也需要進行一些變換才可以進行計算。日期也是需要模式化的,不同計算機系統(tǒng)記錄日期方法不同,需要把日期轉換成一致的方法。在金融保險行業(yè)日期這個變量非常重要,因為很多客戶的行為都記錄在日期里面了。電話公司里記帳、付款的日期也非常重要?!駭?shù)據(jù)挖掘方法學——模式

數(shù)據(jù)庫中一個事件或事件的結合,這些事件比預期的要經(jīng)常發(fā)生,其實際發(fā)生率明顯不同于隨機情況下的可期望發(fā)生率。

模式是數(shù)據(jù)驅動的,一般只反映數(shù)據(jù)本身——模型

對構建事件的源時的歷史數(shù)據(jù)庫的描述,并且能夠成功地應用于新的數(shù)據(jù),以便對缺少的數(shù)據(jù)作出預測或對期望的數(shù)據(jù)作出說明。模型的一般表現(xiàn)形式數(shù)學方程式描述各客戶段的規(guī)則集計算機表示方式

模式可視化數(shù)據(jù)挖掘技術●數(shù)據(jù)挖掘方法學——取樣

根據(jù)問題的需要采用隨機取樣的方法從數(shù)據(jù)庫中抽取數(shù)據(jù)進行挖掘,有助于迅速發(fā)現(xiàn)模式、創(chuàng)建模型

數(shù)據(jù)本身的處理過程需要驗證——驗證模型

模型創(chuàng)建過程需要保證正確

模型應用的驗證

在依據(jù)一些歷史數(shù)據(jù)建造模型后,將模型應用于未參與建造模型的其他類似的歷史數(shù)據(jù),比較其模型輸出結果與實際結果。數(shù)據(jù)挖掘技術●經(jīng)典方法——統(tǒng)計

統(tǒng)計可以通過對類似下列問題的回答獲得模式○在我的數(shù)據(jù)庫中存在什么模式○某個事件發(fā)生的可能性是什么○那些模式是重要的模式

統(tǒng)計的一個重要價值就是它提供了對數(shù)據(jù)庫的高層視圖,這種視圖提供了有用的信息,但不要求在細節(jié)上理解數(shù)據(jù)庫的每一條記錄。數(shù)據(jù)挖掘方法●經(jīng)典方法——最近鄰

通過檢測與預測對象最接近的對象的狀況對預測對象進行預測

原理:

某一特定對象可能與其他某一或某些對象比其它一些第三對象更接近;

相互之間“接近”的對象會有相似的取值

根據(jù)其中一個對象的取值,預測其最近鄰對象的預測值

商業(yè)應用:文獻檢索市場籃子分析

應用評價:

最近鄰的數(shù)量最近鄰的距離決定最近鄰預測的可信度數(shù)據(jù)挖掘方法●現(xiàn)代方法——基礎理論有指導的學習(SupervisedLearning)歸納概念分類標準與模型分類有指導的學習的目的:建立分類模型用模型確定新數(shù)據(jù)實例的類別訓練數(shù)據(jù)(TrainingData)與檢驗集(TestSet)用于創(chuàng)建模型的數(shù)據(jù)實例稱為訓練數(shù)據(jù)用于檢驗模型的準確度的數(shù)據(jù)實例稱為檢驗集數(shù)據(jù)挖掘方法

有指導的學習(SupervisedLearning)患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫數(shù)據(jù)挖掘方法患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?有指導的學習(SupervisedLearning)患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesNoYesYes感冒淋巴腫發(fā)燒NoNoYesYes咽炎敏感癥感冒淋巴腫、發(fā)燒是有意義的屬性嗓子痛、充血、頭痛是無意義的屬性數(shù)據(jù)挖掘方法

有指導的學習(SupervisedLearning)淋巴腫發(fā)燒NoNoYesYes咽炎敏感癥感冒患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?未知分類的數(shù)據(jù)實例(檢驗集)數(shù)據(jù)挖掘方法無指導的學習(UnsupervisedLearning)為沒有預先定義分類標準的數(shù)據(jù)建立模型客戶ID客戶類型交易保證金帳戶交易方法交易數(shù)/月性別年齡嗜好年收入1005聯(lián)合NoOnline12.5F30-39網(wǎng)球4-5.9萬1013委托保管NoBroke0.5F50-59滑雪8-9.9萬1245聯(lián)合NoOnline3.6M20-29高爾夫2-3.9萬2110個人YesBroke22.3M30-39釣魚4-5.9萬1001個人YesOnline5.0M40-49高爾夫6-7.9萬ABC投資公司客戶表數(shù)據(jù)挖掘方法無指導的學習(UnsupervisedLearning)區(qū)分在線投資者和經(jīng)紀人投資者的特征是什么一個新客戶未開設交易保證金帳戶,如何確定其將來是否會開設這種帳戶能建立一個預測新投資者月均交易數(shù)的模型嗎女性和男性投資者有什么不同的特征交易方式交易保證金帳戶月均交易數(shù)性別數(shù)據(jù)挖掘問題屬性哪些屬性相似性決定ABC公司的客戶分組屬性值的哪些不同之處分隔了客戶數(shù)據(jù)庫有指導的學習無指導的學習數(shù)據(jù)挖掘方法●現(xiàn)代方法——決策樹(DecisionTree)決策樹是一種有指導學習的數(shù)據(jù)挖掘方法決策樹的組成決策節(jié)點、分支、葉子———根節(jié)點分支———葉子Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40K節(jié)點

決策樹的分支過程就是對數(shù)據(jù)進行分類的過程,利用幾個變量(每個變量對應一個問題)來判斷數(shù)據(jù)所屬的類別。在分支后,要使不同分支之間數(shù)據(jù)的差異盡可能大、同一分支內的數(shù)據(jù)盡量相同。這一分割過程也就是數(shù)據(jù)的“純化”過程。數(shù)據(jù)挖掘方法決策樹的算法步驟○假設T為訓練實例集○選擇一個最能區(qū)別T中實例的屬性○創(chuàng)建一個決策節(jié)點,它的值為所選擇的屬性○創(chuàng)建該節(jié)點的分支,每個分支代表所選屬性的一個唯一值○使用分支的值,將數(shù)據(jù)實例分割為子類○對于步驟5所創(chuàng)建的各個子類:★如果子類中的數(shù)據(jù)實例滿足以下條件,可按此決策樹對新數(shù)據(jù)實例指定類別☆分割中只包含一條數(shù)據(jù)實例☆分割中所有數(shù)據(jù)實例的屬性都相同☆繼續(xù)分割得到的改進不明顯★如果子類不滿足上述條件,則設T’為當前子類數(shù)據(jù)實例集合,返回步驟2數(shù)據(jù)挖掘方法決策樹的屬性選取屬性選取標準:最大化反映數(shù)據(jù)差異,使樹的層次和節(jié)點數(shù)最小患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫發(fā)燒NoNoYesYes咽炎敏感癥感冒數(shù)據(jù)挖掘方法患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫發(fā)燒NoNoYesYes敏感癥敏感癥咽炎NoYes頭痛淋巴腫感冒發(fā)燒淋巴腫NoYes咽炎NoYes數(shù)據(jù)挖掘方法決策樹的屬性選取屬性選取標準:最大化反映數(shù)據(jù)差異,使樹的層次和節(jié)點數(shù)最小信用卡促銷數(shù)據(jù)庫收入段壽險促銷信用卡保險性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19○選取收入段為根節(jié)點○選取壽險促銷為輸出屬性○沿著每個分支有兩個類,選取最頻繁出現(xiàn)的類收入段2Yes2No4Yes1No3No1Yes2Yes2—3萬3—4萬4—5萬5—6萬○訓練集分類的正確性為11/15=73%數(shù)據(jù)挖掘方法——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫○選取信用卡保險為根節(jié)點○選取壽險促銷為輸出屬性○沿著每個分支有兩個類,選取最頻繁出現(xiàn)的類信用卡保險6Yes6No3Yes0NoNoYes○訓練集分類的正確性為9/15=60%數(shù)據(jù)挖掘方法收入段壽險促銷信用卡保險性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫○選取數(shù)值型屬性年齡為根節(jié)點○選取壽險促銷為輸出屬性○依照年齡排序,對照輸出屬性進行數(shù)據(jù)分割,選擇數(shù)據(jù)分割點年齡9Yes3No0Yes3No≤43>43○以年齡≤43結合壽險促銷=Yes,訓練集分類的正確性為12/15=80%172729353839404142434343455555YNYYYYYYNYYNNNN數(shù)據(jù)挖掘方法收入段壽險促銷信用卡保險性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫年齡Yes(6/1)No(2/1)≤43>43性別FM信用卡保險Yes(2/0)No(3/0)NoYes信用卡數(shù)據(jù)庫的三節(jié)點決策樹○訓練集分類的正確性為13/15=87%數(shù)據(jù)挖掘方法收入段壽險促銷信用卡保險性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫收入段壽險促銷信用卡保險性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19信用卡保險Yes(5/2)No(4/1)NoYes性別FMYes(3/0)信用卡數(shù)據(jù)庫的兩節(jié)點決策樹○訓練集分類的正確性為12/15=80%數(shù)據(jù)挖掘方法——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫檢驗集收入段壽險促銷信用卡保險性別年齡檢驗結果4-5萬NoNoM42正確2-3萬NoNoM27正確3-4萬NoNoM43正確2-3萬YesNoM29錯誤年齡Yes(6/1)No(2/1)≤43>43性別FM信用卡保險Yes(2/0)No(3/0)NoYes信用卡數(shù)據(jù)庫的三節(jié)點決策樹數(shù)據(jù)挖掘方法●現(xiàn)代方法——K-平均值算法

K-平均值算法是一種簡單而有效的無指導學習的統(tǒng)計聚類方法,將一組數(shù)據(jù)劃分為不相關的簇算法步驟○選擇一個K值,用以確定簇的總數(shù)○在數(shù)據(jù)集中任意選擇K個數(shù)據(jù)實例,作為初始的簇中心○試用簡單的歐氏距離將其它數(shù)據(jù)實例賦予距離它們最近的簇中心○試用每個簇中的數(shù)據(jù)實例,計算每個簇的新的平均值○如果新的平均值等于次迭代的平均值,終止該過程。否則,用新平均值作為簇中心并重復步驟3-5。點A(x1,y1)與點B(x2,y2)之間的歐氏距離計算式為數(shù)據(jù)挖掘方法K-平均值算法:例K-平均值輸入屬性實例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.01.選擇K=2,即將所有數(shù)據(jù)實例分為兩個簇2.選擇實例1作為第1個簇的中心,實例3作為第2個簇的中心3.計算各數(shù)據(jù)實例與C1、C2之間的歐氏距離Dist(C1-1)=0.00Dist(C2-1)=1.00C1Dist(C1-2)=3.00Dist(C2-2)=3.16C1Dist(C1-3)=1.00Dist(C2-3)=0.00C2Dist(C1-4)=2.24Dist(C2-4)=2.00C2Dist(C1-5)=2.24Dist(C2-5)=1.41C2Dist(C1-6)=6.02Dist(C2-6)=5.41C24.迭代結果得到以下兩個簇簇C1包含實例1、2,簇C2包含實例3、4、5、6Y數(shù)據(jù)挖掘方法——K-平均值算法:例K-平均值輸入屬性實例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.05.重新計算每個簇的中心對于C1:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論