客戶關(guān)系管理9_第1頁
客戶關(guān)系管理9_第2頁
客戶關(guān)系管理9_第3頁
客戶關(guān)系管理9_第4頁
客戶關(guān)系管理9_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

CRM中的數(shù)據(jù)管理2CRM的客戶數(shù)據(jù)數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)的應(yīng)用 聽說,下雪天,啤酒和尿布更配哦4案例:尿布+啤酒=更大的利益

先請大家做個腦力游戲——說出任何尿布和啤酒的聯(lián)系,即在什么情況下它們可以相提并論。

請想象這樣的一副情景:在一個大的超級市場里面,人來人往。一角的貨架上,尿布和啤酒赫然地擺放在一起出售。而且,尿布和啤酒的銷售量雙雙增加。

這是上個世紀(jì)發(fā)生在美國沃爾瑪連鎖超市的真實事件,而且也許是將尿布和啤酒最好地聯(lián)系起來的方法,因為它甚至符合了今天正在流行的“雙贏”原理。5

原來,美國的太太經(jīng)常囑咐他們的丈夫下班以后為小孩購買尿布,而丈夫們在買尿布以后又順手帶回了啤酒。啤酒和尿布在一起購買的機會是最多的。

誰在當(dāng)時就能看出這種帶來“利益”的聯(lián)系?其實想到答案的不是人,是信息技術(shù)。具體地說,就是美國沃爾瑪超市的數(shù)據(jù)倉庫。是它,通過集中商店一年多的詳細(xì)原始交易數(shù)據(jù),利用自動數(shù)據(jù)挖掘工具對這些數(shù)據(jù)進行分析,得到了這個意外的發(fā)現(xiàn)。6點評:從本例可以看出,CRM運用的成功必須依靠客戶數(shù)據(jù),對客戶數(shù)據(jù)進行科學(xué)地分析,往往會帶來意想不到的商機:對客戶數(shù)據(jù)進行初級處理,可以完成基本業(yè)務(wù)過程;對數(shù)據(jù)進行高級處理(如數(shù)據(jù)挖掘),可以提供企業(yè)決策支持,促進銷售,保持消費群體的穩(wěn)定。所以說,客戶數(shù)據(jù)是整個CRM運用的靈魂,本章內(nèi)容就是以客戶數(shù)據(jù)管理與分析為主。

2023/2/667第一節(jié)CRM的客戶數(shù)據(jù)一、客戶數(shù)據(jù)的類型81.直接渠道(1)在市場調(diào)查中獲取客戶數(shù)據(jù)(2)在營銷活動中獲取客戶數(shù)據(jù)(3)在服務(wù)過程中獲取客戶數(shù)據(jù)(4)通過博覽會、展銷會、洽談會等獲取客戶數(shù)據(jù)(5)網(wǎng)站和呼叫中心是收集客戶數(shù)據(jù)的新渠道(6)從客戶投訴中收集92.間接渠道(1)各種媒介(2)工商行政管理部門及駐外機構(gòu)(3)國內(nèi)外金融機構(gòu)及其分支機構(gòu)(4)國內(nèi)外咨詢公司及市場研究公司(5)從已建立客戶數(shù)據(jù)庫的公司租用或購買(6)其他渠道10二、客戶的隱私及保護在企業(yè)層面保證客戶信息安全性2012年3月15日,據(jù)央視3.15晚會報道,招商銀行信用卡中心風(fēng)險管理部貸款審核員胡XX就曾向作案人出售個人信息300多份;中國工商銀行客戶經(jīng)理曹XX,通過中介向作案人提供了多達(dá)2318份個人信息。向朱凱華出售個人征信報告、銀行卡信息的,還有中國農(nóng)業(yè)銀行無錫榮龍支行員工董某、中國工商銀行福州鼓樓支行員工陳某。112.使用匿名身份信息3.盡量使用匯總數(shù)據(jù)12三、構(gòu)建客戶數(shù)據(jù)庫(1)適當(dāng)超前。按照可預(yù)見未來所需的信息量,盡可能多地考慮預(yù)期客戶購買產(chǎn)品的情況和購買后的反應(yīng)。(2)設(shè)計彈性。深入策劃客戶數(shù)據(jù)庫的組成部分,應(yīng)保留一定的彈性,以滿足未來變化的需要。(3)靈活應(yīng)用。建立數(shù)據(jù)庫,可先建成一個小而實用的數(shù)據(jù)庫,在管理客戶數(shù)據(jù)庫中獲得經(jīng)驗,并對其評價,不斷改進。(4)必要參與。構(gòu)建客戶數(shù)據(jù)庫時,讓盡可能多的部門和人員參與。一方面使信息采集科學(xué)完備;另一方面讓數(shù)據(jù)庫的使用者充分了解設(shè)計者的思想。13第二節(jié)數(shù)據(jù)倉庫技術(shù)一、數(shù)據(jù)倉庫概述從數(shù)據(jù)庫到數(shù)據(jù)倉庫傳統(tǒng)的數(shù)據(jù)庫技術(shù)由于其高效的數(shù)據(jù)存儲與查詢技術(shù),支持了綜合型管理信息系統(tǒng)的廣泛應(yīng)用。然而這些數(shù)據(jù)庫主要適應(yīng)于業(yè)務(wù)處理的需要,不能提供從全局視圖對企業(yè)數(shù)據(jù)進行深入分析和挖掘。響應(yīng)時間要求短某些業(yè)務(wù)功能數(shù)據(jù)對決策分析無關(guān)緊要客戶信息被割裂在各個不同系統(tǒng)中以二維表格存儲,無法進行多視角分析1415營銷子系統(tǒng):

客戶特征(類別號,收入水平,交易期限,客戶價值,…)客戶行為(客戶號,購買頻次,最近購買時間,。。。)營業(yè)推廣(編號,推廣方式,成本,日期,客戶。。。。)銷售子系統(tǒng):客戶(客戶號,姓名,地址,電話,…

)銷售(客戶號,商品號,數(shù)量,單價,日期,…)售后服務(wù)子系統(tǒng):咨詢單(編號,客戶號,日期,相關(guān)產(chǎn)品…)維修單(編號,客戶號,商品號,日期,負(fù)責(zé)人…)

維修次數(shù)、客戶特征與客戶忠誠度之間具有什么樣的關(guān)系?162.?dāng)?shù)據(jù)倉庫的含義

目前,對于數(shù)據(jù)倉庫的概念,權(quán)威的定義是“數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、時變的、不可修改的數(shù)據(jù)集合”。3.建立數(shù)據(jù)倉庫的目的

建立數(shù)據(jù)倉庫并不是要取代原有的運作數(shù)據(jù)庫系統(tǒng),而是為了將企業(yè)多年來已經(jīng)收集到的數(shù)據(jù)按統(tǒng)一、一致的企業(yè)級視圖組織、存儲,對這些數(shù)據(jù)進行分析,從中得出有關(guān)企業(yè)經(jīng)營狀況、客戶需求、對手情況、發(fā)展趨勢等有用信息,幫助企業(yè)及時、準(zhǔn)確地做出相應(yīng)決策。16174.數(shù)據(jù)倉庫特征(1)面向主題(subject-oriented)。數(shù)據(jù)倉庫的數(shù)據(jù)組織是圍繞主題的。(2)集成(integrated)。數(shù)據(jù)倉庫通常是結(jié)合多個異種數(shù)據(jù)源構(gòu)成的。(3)時變(time-variant)。數(shù)據(jù)倉庫中包含時間元素,它所提供的信息總是與時間相關(guān)聯(lián)的。(4)不可修改(nonvolatile)。其數(shù)據(jù)相對穩(wěn)定,極少或根本不更新。18

客戶基本信息:客戶號,姓名,地址,電話。。。??蛻粜袨樾畔ⅲ嚎蛻籼枺徺I頻次,最近購買時間,。。。客戶維修信息:客戶號,商品號,日期,負(fù)責(zé)人…

客戶咨詢信息:編號,客戶號,日期,相關(guān)產(chǎn)品,

客戶主題域:營銷子系統(tǒng)銷售子系統(tǒng)售后子系統(tǒng)19整個數(shù)據(jù)倉庫系統(tǒng)是一個包含四個層次的體系結(jié)構(gòu),具體由下圖表示。20三、基于數(shù)據(jù)倉庫的OLAP

1.OLAP基本概念

1)維

維是人們觀察數(shù)據(jù)的特定角度。

2)維的層次

一個維往往具有多個層次,如描述時間維,可以從日期、月份、季度、年等不同層次來捕述,那么日期、月份、季度、年等就是時間維的層次;同樣,城市、地區(qū)、國家等構(gòu)成了一個地理維的多個層次。

21

(1)維成員。維的一個取值稱為該維的一個維成員。如果一個維是多層次的,那么,該維的維成員是在不同維層次的取值的組合。

(2)多維數(shù)組。一個多維數(shù)組可以表示為:(維1,維2,…,維n,變量)。例如,日用品銷售數(shù)據(jù)是按時間、地區(qū)和銷售渠道組織起來的三維立方體,加上變量"銷售額”,就組成了一個多維數(shù)組(地區(qū),時間,銷售渠道,銷售額)。

(3)數(shù)據(jù)單元。多維數(shù)組的取值稱為數(shù)據(jù)單元。

22切片

選定多維數(shù)組的一個二維子集的方法叫做切片,即選定多維數(shù)組(維1,維2,……,維n,變量)中的兩個維:維I和維J,在這兩個維上取某一區(qū)間或任意維成員,而將其余的維都取定一個維成員,則得到的就是多維數(shù)組在維I和j上一個二維子集,稱這個二維子集為多維數(shù)在維I和維J上的一個切片,表示為;(維I,維j,變量)。OLAP的分析方法23

例如,選定多維數(shù)組(地區(qū),時間,產(chǎn)品,銷售額)中的地區(qū)維與產(chǎn)品維,在另外一維:時間維,選取一個維成員(如“2006年1月”),就得到了多維數(shù)組(地區(qū),時間,產(chǎn)品,銷售額)在產(chǎn)品和地區(qū)兩維上的一個切片(客戶,地區(qū),銷售額)。這個切片表示2006年1月各地區(qū)、各產(chǎn)品的銷售情況。24

產(chǎn)品銷售情況2006.1產(chǎn)品銷售情況選定兩個維:產(chǎn)品維和地區(qū)維時間維數(shù)據(jù)切片產(chǎn)品維地區(qū)維產(chǎn)品維地區(qū)維25切塊

選定多維數(shù)的一個三維子集的方法稱切塊。即選定多維數(shù)組(維1,維2,……,維n,變量)中的三個維:維I、維j和維r,在這三個維上取某一區(qū)間或任意的維成員,而將其余的維都取定一個維成員,則得到的就是多維數(shù)組在維I、維j和維r上一個三維子集,我們稱這個三維子集為多維數(shù)組在維I、維j和r上的一個切塊,表示為:(維I,維j,維r,變量)。切塊與切片的作用與目的是相似的。美國中國手機電腦圖8-3

三維立方體切塊(Slice)26旋轉(zhuǎn)

旋轉(zhuǎn)即是改變一個報告或面顯示的維方向。例如,旋轉(zhuǎn)可能包含了交換行和列;或是把某一個行維移到列維中去,或是把一個橫向為時間、縱向為產(chǎn)品的報表旋轉(zhuǎn)成為橫向為產(chǎn)品、縱向為時間的報表。272005年2006年部門1季度2季度3季度4季度1季度2季度3季度4季度部門一2012182722161929部門二2311241722311234部門三26213433212326321季度2季度3季度4季度部門2005年2006年2005年2006年2005年2006年2005年2006年部門一2022121618192729部門二2322113124121734部門三2621212334263332旋轉(zhuǎn)前的有關(guān)數(shù)據(jù)描述旋轉(zhuǎn)后的有關(guān)數(shù)據(jù)描述28鉆取按時間維向下鉆取按時間維向上鉆取6029第三節(jié)數(shù)據(jù)挖掘技術(shù)30什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識)從大量的數(shù)據(jù)中挖掘哪些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識數(shù)據(jù)挖掘的替換詞數(shù)據(jù)庫中的知識挖掘(KDD)知識提煉數(shù)據(jù)/模式分析數(shù)據(jù)考古數(shù)據(jù)捕撈、信息收獲等等。31數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)庫數(shù)據(jù)倉庫知識任務(wù)相關(guān)的數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評估32數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大有價值的知識可怕的數(shù)據(jù)數(shù)據(jù)挖掘背景33數(shù)據(jù)爆炸,知識貧乏苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!數(shù)據(jù)知識決策模式趨勢事實關(guān)系模型關(guān)聯(lián)規(guī)則序列目標(biāo)市場資金分配貿(mào)易選擇在哪兒做廣告銷售的地理位置金融經(jīng)濟政府POS人口統(tǒng)計生命周期34客戶接觸

客戶信息客戶數(shù)據(jù)庫統(tǒng)計分析與數(shù)據(jù)挖掘客戶知識發(fā)現(xiàn)客戶管理知識發(fā)現(xiàn):從數(shù)據(jù)中深入抽取隱含的、未知的和有潛在用途的信息從商業(yè)數(shù)據(jù)到商業(yè)智能35各行業(yè)電子商務(wù)網(wǎng)站算法層商業(yè)邏輯層行業(yè)應(yīng)用層商業(yè)應(yīng)用商業(yè)模型挖掘算法CRM產(chǎn)品推薦客戶細(xì)分客戶流失客戶利潤客戶響應(yīng)關(guān)聯(lián)規(guī)則、序列模式、分類、聚集、神經(jīng)元網(wǎng)絡(luò)、偏差分析…WEB挖掘網(wǎng)站結(jié)構(gòu)優(yōu)化網(wǎng)頁推薦商品推薦。。?;蛲诰蚧虮磉_(dá)路徑分析基因表達(dá)相似性分析基因表達(dá)共發(fā)生分析。。。銀行電信零售保險制藥生物信息科學(xué)研究。。。相關(guān)行業(yè)數(shù)據(jù)挖掘的應(yīng)用36零售業(yè)用于識別顧客的購買模式,在顧客的統(tǒng)計特征中發(fā)現(xiàn)關(guān)聯(lián),預(yù)測促銷活動的反應(yīng),進行市場分析。啤酒和尿布的的關(guān)系,我們非常熟悉!如在購買面包和黃油的顧客中,有90%的人同時也買了牛奶”:(面包+黃油)→(牛奶)。數(shù)據(jù)挖掘其他應(yīng)用37銀行洗錢:發(fā)現(xiàn)可疑的貨幣交易行為保險如;保險客戶流失性判斷數(shù)據(jù)挖掘其他應(yīng)用收入>5萬元年齡>35歲不易流失易流失是否事業(yè)單位不易流失易流失YNYYNN38股票預(yù)設(shè)

預(yù)測一支股票的走勢幾乎是不可能,但是通過相關(guān)分析,可以找出一支股票的走勢與另一只股票走勢的潛在規(guī)律,比如數(shù)據(jù)挖掘曾經(jīng)得到過這個結(jié)論:“如果微軟的股票下跌4%,那么IBM的股票將在兩周內(nèi)下跌5%”。醫(yī)療探求各種疾病之間的相互關(guān)系、各種疾病的發(fā)展規(guī)律,總結(jié)各種治療方案的治療效果,以及對疾病的診斷、治療和醫(yī)學(xué)研究是非常有價值和發(fā)展前景的。同時,醫(yī)療數(shù)據(jù)是既有文本、數(shù)據(jù)挖掘其他應(yīng)用39在今天,NBA的教練有了他們的新式武器:決策支持下的數(shù)據(jù)分析。大約20個NBA球隊使用了IBM公司開發(fā)的數(shù)據(jù)挖掘軟件來優(yōu)化他們的戰(zhàn)術(shù)組合?;鸺目偨?jīng)理莫雷該軟件就因為研究了魔術(shù)隊隊員不同的布陣,在魔術(shù)隊與邁阿密熱隊的比賽中找到了獲勝的機會。(1)系統(tǒng)分析顯示魔術(shù)隊先發(fā)陣容中的兩個后衛(wèi)哈德衛(wèi)和伯蘭在前兩場中被評為-17分,這意味著他倆在場上,本隊輸?shù)舻姆謹(jǐn)?shù)比得到的分?jǐn)?shù)多17分。然而,當(dāng)哈德衛(wèi)與替補后衛(wèi)阿姆斯創(chuàng)組合時,魔術(shù)隊得分為正14分。(2)在下一場中,魔術(shù)隊增加了阿姆斯創(chuàng)的上場時間。此招果然見效:阿姆斯創(chuàng)得了21分,哈德衛(wèi)得了42分,魔術(shù)隊以88比79獲勝。有趣的數(shù)據(jù)挖掘----美國NBA40數(shù)據(jù)挖掘的方法

根據(jù)數(shù)據(jù)挖掘的方法分,可粗分為:統(tǒng)計方法機器學(xué)習(xí)方法神經(jīng)網(wǎng)絡(luò)方法數(shù)據(jù)庫方法41(1)統(tǒng)計方法回歸分析(多元回歸、自回歸、羅吉斯回歸等)判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別等)聚類分析(系統(tǒng)聚類、動態(tài)聚類等)探索性分析(主元分析法、相關(guān)分析法等)以及模糊集、粗糙集、支持向量機等。(2)機器學(xué)習(xí)歸納學(xué)習(xí)方法(決策樹(ID3算法)、規(guī)則歸納等)、基于范例的推理CBR遺傳算法貝葉斯信念網(wǎng)絡(luò)等。(3)神經(jīng)網(wǎng)絡(luò)方法前向神經(jīng)網(wǎng)絡(luò)(BP算法等)自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學(xué)習(xí)等)等。(4)數(shù)據(jù)庫方法基于可視化的多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。數(shù)據(jù)挖掘是CRM成功的保障CRM中數(shù)據(jù)挖掘的應(yīng)用:1.客戶的獲取。把客戶根據(jù)其性別、收入、交易行為特征等屬性細(xì)分為具有不同需求和交易習(xí)慣的群體,同一群體中的客戶對產(chǎn)品的需求以及交易心理等方面具有相似性,而不同群體間差異較大。這樣就有助于企業(yè)在營銷中更加貼近顧客需求。分類和聚類等挖掘方法可以把大量的客戶分成不同的類,適合于進行客戶細(xì)分。通過群體細(xì)分,CRM用戶可以更好地理解客戶,發(fā)現(xiàn)群體客戶的行為規(guī)律。在行為分組完成后,還要進行客戶理解、客戶行為規(guī)律發(fā)現(xiàn)和客戶組之間的交叉分析。數(shù)據(jù)挖掘是CRM成功的保障2.重點客戶發(fā)現(xiàn)。就是找出對企業(yè)具有重要意義的客戶,重點客戶發(fā)現(xiàn)主要包括:發(fā)現(xiàn)有價值的潛在客戶;發(fā)現(xiàn)有更多的消費需求的同一客戶;發(fā)現(xiàn)更多使用的同一種產(chǎn)品或服務(wù);保持客戶的忠誠度。根據(jù)80/20以及開發(fā)新客戶的費用是保留老客戶費用的5倍等營銷原則,重點客戶發(fā)現(xiàn)在CRM中具有舉足輕重的作用。數(shù)據(jù)挖掘是CRM成功的保障3.交叉營銷。商家與其客戶之間的商業(yè)關(guān)系是一種持續(xù)的不斷發(fā)展的關(guān)系,通過不斷地相互接觸和交流,客戶得到了更好更貼切的服務(wù)質(zhì)量,商家則因為增加了銷售量而獲利。交叉營銷指向已購買商品的客戶推薦其他產(chǎn)品和服務(wù)。這種策略成功的關(guān)鍵是要確保推銷的產(chǎn)品是用戶所感愛好的,有幾種挖掘方法都可以應(yīng)用于此問題,關(guān)聯(lián)規(guī)則分析能夠發(fā)現(xiàn)顧客傾向于關(guān)聯(lián)購買哪些商品;聚類分析能夠發(fā)現(xiàn)對特定產(chǎn)品感愛好的用戶群;神經(jīng)網(wǎng)絡(luò)、回歸等方法能夠猜測顧客購買該新產(chǎn)品的可能性。數(shù)據(jù)挖掘是CRM成功的保障4.客戶分析。主要包括:客戶價值金字塔分析、客戶分布分析、新增客戶分析、流失客戶分析和購買行為分析。其中分類等技術(shù)能夠判定具備哪些特性的客戶群體最輕易流失,建立客戶流失猜測模型,從而幫助企業(yè)對有流失風(fēng)險的顧客提前采取相應(yīng)營銷措施。利用數(shù)據(jù)挖掘技術(shù),可以通過挖掘大量的客戶信息來構(gòu)建猜測模型,較準(zhǔn)確地找出易流失客戶群,并制訂相應(yīng)的方案,最大程度地保持住老客戶。數(shù)據(jù)挖掘是CRM成功的保障5.性能評估。以客戶所提供的市場反饋為基礎(chǔ),通過數(shù)據(jù)倉庫的數(shù)據(jù)清潔與集中過程,將客戶對市場的反饋自動地輸入到數(shù)據(jù)倉庫中,從而進行客戶行為跟蹤。性能分析與客戶行為分析和重點客戶發(fā)現(xiàn)是相互交疊的過程,這樣才能保證企業(yè)的客戶關(guān)系治理能夠達(dá)到既定的目標(biāo),建立良好的客戶關(guān)系。47關(guān)聯(lián)分析

關(guān)聯(lián)分析主要用于發(fā)現(xiàn)不同事件之間的關(guān)聯(lián)性,即一個事件發(fā)生的同時,另一個事件也經(jīng)常發(fā)生。關(guān)聯(lián)分析的重點在于快速發(fā)現(xiàn)那些有實用價值的關(guān)聯(lián)發(fā)生的事件。三、數(shù)據(jù)挖掘方法的應(yīng)用舉例48關(guān)聯(lián)規(guī)則挖掘記錄號購物清單12345啤酒、尿布、嬰兒爽身粉、面包、雨傘尿布、嬰兒爽身粉啤酒、尿布、牛奶尿布、啤酒、洗衣粉啤酒、牛奶、可樂客戶購物清單單項統(tǒng)計支持度{啤酒}{尿布}{嬰兒爽身粉}{牛奶}0.80.80.40.4單項統(tǒng)計結(jié)果49雙項統(tǒng)計支持度{啤酒,尿布}{啤酒,牛奶}{尿布,嬰兒爽身粉}0.60.40.4R1:啤酒~尿布,S=0.6,C=0.6/0.8==0.75R2:尿布~啤酒,S=0.6,C=0.6/0.8==0.75R3:牛奶~啤酒,S=0.4,C=0.4/0.4==1R4:啤酒~牛奶,S=0.4,C=0.4/0.8==0.5R5:尿布~爽身粉,S=0.4,C=0.4/0.8==0.5R6:嬰兒爽身粉~尿布,S=0.4,C=0.4/0.4==l50●現(xiàn)代方法——決策樹(DecisionTree)決策樹的組成決策節(jié)點、分支、葉子———根節(jié)點分支———葉子Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40K節(jié)點

決策樹的分支過程就是對數(shù)據(jù)進行分類的過程,利用幾個變量(每個變量對應(yīng)一個問題)來判斷數(shù)據(jù)所屬的類別。在分支后,要使不同分支之間數(shù)據(jù)的差異盡可能大、同一分支內(nèi)的數(shù)據(jù)盡量相同。這一分割過程也就是數(shù)據(jù)的“純化”過程。2.決策樹方法決策樹算法決策樹的構(gòu)造采用自上而下的遞歸構(gòu)造。以多叉樹為例,其構(gòu)造思路是:如果訓(xùn)練樣本集中所有樣本是同類的,則將它作為葉子節(jié)點,節(jié)點內(nèi)容即是該類別標(biāo)記;否則,根據(jù)某種策略選擇一個屬性,按照屬性的不同取值,將樣本集劃分為若干子集,使得每個子集上的所有樣本在該屬性上具有同樣的屬性值。然后再依次處理各個子集。實際上就是“分而治之”(divide-and-conquer)的策略。二叉樹同理,差別僅在于要選擇一個好的邏輯判斷。

決策樹算法決策樹構(gòu)造的條件構(gòu)造好的決策樹的關(guān)鍵是:如何選擇好的邏輯判斷或?qū)傩?。對于同樣一組樣本,可以有很多決策樹能符合這組樣本。原則:選擇一個最能區(qū)別T中實例的屬性研究表明,一般情況下,樹越小則樹的預(yù)測能力越強。要構(gòu)造盡可能小的決策樹,關(guān)鍵在于選擇恰當(dāng)?shù)倪壿嬇袛嗷驅(qū)傩?。一般采用啟發(fā)式策略選擇好的邏輯判斷或?qū)傩浴?3患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫數(shù)據(jù)挖掘?qū)嵗颊叽a嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?54患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesNoYesYes感冒淋巴腫發(fā)燒NoNoYesYes咽炎敏感癥感冒淋巴腫、發(fā)燒是有意義的屬性嗓子痛、充血、頭痛是無意義的屬性數(shù)據(jù)挖掘?qū)嵗?5淋巴腫發(fā)燒NoNoYesYes咽炎敏感癥感冒患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?未知分類的數(shù)據(jù)實例(檢驗集)未知分類的數(shù)據(jù)檢驗56患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫發(fā)燒NoNoYesYes敏感癥敏感癥咽炎NoYes頭痛淋巴腫感冒發(fā)燒淋巴腫NoYes咽炎NoYes選取頭痛作為決策屬性決策樹的屬性選取屬性選取標(biāo)準(zhǔn):最大化反映數(shù)據(jù)差異,使樹的層次和節(jié)點數(shù)最小信用卡促銷數(shù)據(jù)庫收入段壽險促銷信用卡保險性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19數(shù)據(jù)挖掘?qū)嵗獕垭U促銷我們將試圖發(fā)現(xiàn)年齡、收入、性別、是否有信用卡保險等因素與是否購買壽險的關(guān)聯(lián),從而證實已購買壽險與某些相關(guān)因素間的規(guī)則。58收入段壽險促銷信用卡保險性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19○選取收入段為根節(jié)點○選取壽險促銷為輸出屬性○沿著每個分支有兩個類,選取最頻繁出現(xiàn)的類收入段2Yes2No4Yes1No3No1Yes2Yes2—3萬3—4萬4—5萬5—6萬○訓(xùn)練集分類的正確性為11/15=73%數(shù)據(jù)挖掘?qū)嵗獕垭U促銷59——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫○選取信用卡保險為根節(jié)點○選取壽險促銷為輸出屬性○沿著每個分支有兩個類,選取最頻繁出現(xiàn)的類信用卡保險6Yes6No3Yes0NoNoYes○訓(xùn)練集分類的正確性為9/15=60%收入段壽險促銷信用卡保險性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF1960——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫○選取數(shù)值型屬性年齡為根節(jié)點○選取壽險促銷為輸出屬性○依照年齡排序,對照輸出屬性進行數(shù)據(jù)分割,選擇數(shù)據(jù)分割點年齡9Yes3No0Yes3No≤43>43○以年齡≤43結(jié)合壽險促銷=Y(jié)es,訓(xùn)練集分類的正確性為12/15=80%172729353839404142434343455555YNYYYYYYNYYNNNN收入段壽險促銷信用卡保險性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF1961信用卡促銷數(shù)據(jù)庫年齡Yes(6/1)No(2/1)≤43>43性別FM信用卡保險Yes(2/0)No(3/0)NoYes信用卡數(shù)據(jù)庫的三節(jié)點決策樹○訓(xùn)練集分類的正確性為13/15=87%收入段壽險促銷信用卡保險性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論