




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、CC匡巒技越袁圧堞數(shù)據(jù)挖掘技術(shù)在客戶分析中的應(yīng)用祖巧紅1胡吉全2陳定方2(1,2.武漢理工大學(xué)物流工程學(xué)院,武漢 430063)摘 要:本文對五種數(shù)據(jù)挖掘預(yù)測算法分別進(jìn)行介紹,并結(jié)合實(shí)例對各種方法適用的情況進(jìn)行了比較,以便在對客戶的不同情況進(jìn)行分析的時候采取有效的預(yù)測方法。其中,回歸預(yù)測是比較傳統(tǒng)的預(yù)測方法,常根據(jù)歷史記錄分析得出總體趨勢;決策樹方法是一種類似于“枝丫”形狀的“二分制”數(shù)據(jù)分析和預(yù)測方法,主要用于對數(shù)據(jù)進(jìn)行歸類分割和預(yù)測,來解決 定性分析的問題;神經(jīng)網(wǎng)絡(luò)方法主要對客戶行為進(jìn)行分析和預(yù)測,從定量的角度進(jìn)行分析; 聚類和鄰點(diǎn)預(yù)測方法主要是對未來數(shù)據(jù)進(jìn)行預(yù)測;規(guī)則導(dǎo)引則是從一個樣本數(shù)
2、據(jù)庫中發(fā)現(xiàn)并歸納出“數(shù)據(jù)行為”模式。關(guān)鍵詞:數(shù)據(jù)挖掘 決策樹神經(jīng)網(wǎng)絡(luò)聚類鄰點(diǎn)預(yù)測1. 綜述理論上,數(shù)據(jù)挖掘技術(shù)或方法有很多,技術(shù)的“變種”也不少,數(shù)據(jù)倉庫技術(shù)也支持多種預(yù)測模型以便對客戶進(jìn)行相應(yīng)的分類和分析,針對各種具體情況,采取不同的預(yù)測方法是我們在進(jìn)行客戶分析中非常迫切解決的問題,因此我們有必要對它們進(jìn)行分析比較。2. 常用的預(yù)測方法2.1回歸預(yù)測回歸預(yù)測是比較傳統(tǒng)的預(yù)測方法,是根據(jù)歷史記錄分析得出總體趨勢,并將這種趨勢用某種數(shù)學(xué)方程式表示。利用這個方程式,就可以輸入未來的一個或多個變量計算出預(yù)測 結(jié)果。如果方程式的變量是一次方的,那么就稱為直線線性回歸,如果是多次方的,稱為曲 線線性回歸
3、。最簡單的一元線性回歸預(yù)測預(yù)測模型為Y=a+bX。一個實(shí)用的一元線性預(yù)測模型的建立就是為用戶提供一個求解參數(shù)a和b的過程。不斷輸入歷史數(shù)據(jù)X和Y值,反復(fù)校準(zhǔn),反復(fù)驗(yàn)證,直到求解出誤差率最小的參數(shù),并確定a和b的值。計算機(jī)運(yùn)算大量的數(shù)據(jù)的能力是非常強(qiáng)大的,利用誤差比較法不斷對參數(shù)進(jìn)行修正 便可以得到最佳模型?,F(xiàn)實(shí)生活中問題,其預(yù)測模型就會變?yōu)槎嘣啻蔚?,其?shù)學(xué)模型為Y=a+b 1X1 + b2X2+b3X3 +bnXn。當(dāng)然對于參數(shù)求解法的整個過程還是一樣的,對于人腦是無法想像,但對于可以高速處理數(shù)據(jù)的電腦,再復(fù)雜的模型都是可以得出結(jié)果的,至于結(jié)果準(zhǔn)確不準(zhǔn)確,有賴于歷史數(shù)據(jù)的多寡以及很多其他的“
4、不可測因素”的干擾程度了。2.2 決策樹決策樹是一種類似于“枝椏”形狀的“二分制”數(shù)據(jù)分析和預(yù)測方法,主要用于對數(shù)據(jù)進(jìn)行歸類分割和預(yù)測。決策樹運(yùn)用最多的是,市場營銷部門根據(jù)客戶的特征,對客戶大市場進(jìn)行“分割”,從而得到相對較小的客戶群體。這樣市場預(yù)算有限的情況下,可以針對性地開展市場營銷活動,從而節(jié)省資金,避免浪費(fèi),提高促銷活動地匯報率。另外,決策樹也廣泛用于其他數(shù)據(jù)挖掘工具, 如神經(jīng)網(wǎng)絡(luò)地數(shù)據(jù)預(yù)處理工具,通過對數(shù)據(jù)地初步探索, 找出最相關(guān)地變量集??蛻艏?客戶集4客戶集4客尸集4是客戶集411C0C4節(jié)點(diǎn)駆節(jié)點(diǎn)B1點(diǎn)從硫失客戶祥本(20001")圖1對客戶流失情況進(jìn)行分析預(yù)測的決策
5、樹例子隸禺題=客戶険護(hù)理新節(jié)點(diǎn)C1 BOO ©D%節(jié)點(diǎn)口分支空 調(diào):用尸年齡 >30900個45菊圖1是一個典型的對“流失客戶”特征進(jìn)行分析的決策樹,每個“樹丫”的生長,表示了流失客戶的進(jìn)一步劃分,直到這個樹丫無法繼續(xù)細(xì)分,或者說,這個樹丫所代表的客戶群其性質(zhì)“相當(dāng)類似”,任何更多的細(xì)分都沒有什么意義了,這就是樹的“枝末”,也是最后的最小分割,如果這種最小分割達(dá)到一個客戶,就是所謂的“一對一營銷”的理想境界了。營銷人員便可以對一個或多個“枝末”客戶進(jìn)行促銷,以實(shí)現(xiàn)留住客戶,提高促銷成功率的目 的。決策樹的目的是對一個數(shù)據(jù)樣本進(jìn)行最大限度的分割,也就是讓這棵樹得到合理生長。要坐到
6、這一點(diǎn),對每個節(jié)點(diǎn)所提的問題要盡量有效,并且,所有問題要盡量同要探索的業(yè)務(wù)目的相關(guān)。在對一個數(shù)據(jù)樣本分析之前, 如何知道哪些問題是相關(guān)的,哪些問題是不相關(guān)的呢?如果知道了,那也失去了數(shù)據(jù)挖掘的意義了,因?yàn)閿?shù)據(jù)挖掘的目的就是為了找到隱含的、尚未明了的某種行為模式。在進(jìn)行決策樹分析時,首先要明確到底要分析什么,目的是什么,這點(diǎn)是很重要的,并且,提供學(xué)習(xí)的樣本數(shù)據(jù)要盡量多而且準(zhǔn)確。支持決策樹模型的數(shù)據(jù)倉庫產(chǎn)品中,提供了 “決策樹”生長得機(jī)制,計算機(jī)可以幫助我們優(yōu)化樹的生長,一個問題不是很有效,用另外一個,直到找到每個級別都是最優(yōu)分割為止。在預(yù)測方面,企業(yè)可以根據(jù)需要“生長”多棵樹,經(jīng) 大量時間證明后
7、,可以成為企業(yè)特有的有效預(yù)測模型,提高決策能力。比如,客戶行為預(yù)測 的多個決策樹(類比于決策“森林”)可以包括客戶獲利能力預(yù)測樹,再購買可能性預(yù)測樹, 連帶銷售可能性樹以及流失可能性樹等。每個部門,每個企業(yè)的情況千差萬別,因而預(yù)測樹 的大小、預(yù)測邏輯也都不一樣。2.3神經(jīng)網(wǎng)絡(luò)人腦基本上是由神經(jīng)細(xì)胞組成的,稱為神經(jīng)元。每個神經(jīng)元接收來自其他神經(jīng)元的輸入,經(jīng)過處理后,向其他神經(jīng)元輸出。用于數(shù)據(jù)挖掘的神經(jīng)網(wǎng)絡(luò)技術(shù)其實(shí)就是對人腦對信息處理的簡單模擬,人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)的“神經(jīng)元”,基本上模擬人腦神經(jīng)元處理過程,以最簡單的乘積之和(輸入值乘以每個 輸入的比重參數(shù))作為輸出,即Y =刀Wn*Xn(n=0,1
8、, - ,n)。圖2 一個簡單的貸款可能性預(yù)測神經(jīng)網(wǎng)絡(luò)一個人工的銀行預(yù)測客戶向銀行貸款可能性的神經(jīng)元算法如圖2所示。這個有四個結(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò)通過對年齡、收入和教育的分析對貸款可能性進(jìn)行預(yù)測。通過定義各輸入的恰當(dāng)取值(如,30歲,可以用0.30表示,碩士取得 0.7,收入0.7表示年薪7萬),則可以得到可能性 Y值為0.72。神經(jīng)網(wǎng)絡(luò)的“學(xué)習(xí)過程”就是對一個樣本進(jìn) 行數(shù)據(jù)計算和校正,從而求解出每個輸入的比重的過程。根據(jù)事實(shí)結(jié)果(有無貸款1或0),在預(yù)定比重的基礎(chǔ)上,通過最小誤差法不斷調(diào)整參數(shù)值,直到找出最佳參數(shù),并用另外一套測試數(shù)據(jù)進(jìn)行檢驗(yàn), 直到參數(shù)的預(yù)測準(zhǔn)確率得到提高。神經(jīng)網(wǎng)絡(luò)的模型一旦建立
9、,便可以對潛在客戶進(jìn)行貸款可能性判斷,從而為企業(yè)提供進(jìn)行營銷和銷售活動的決策依據(jù)。圖4 一個典型的單輸出三層的神經(jīng)網(wǎng)絡(luò)圖一個單輸出的典型的線性神經(jīng)網(wǎng)絡(luò)如圖4所示,除了輸入和輸出層外, 還有一個或多個中間層(隱含層)。層與層之間的節(jié)點(diǎn)的關(guān)系可以是完全連接,也可以是部分連接,總之, 最后輸出的結(jié)果總是各輸入變量的函數(shù),并在中間層提供必要的校正。神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用于 CRM,可以對客戶行為進(jìn)行分析和預(yù)測。相對于決策樹的定性分 析預(yù)測方法,神經(jīng)網(wǎng)絡(luò)可以達(dá)到定量階段。不過,決策樹的一些結(jié)果可以作為定義神經(jīng)網(wǎng)絡(luò) 輸入變量的依據(jù)。目前,神經(jīng)網(wǎng)絡(luò)的應(yīng)用產(chǎn)品大部分還不太成熟,處于研究階段的較多。預(yù) 計隨著企業(yè)對數(shù)
10、據(jù)挖掘需要的提高,適用于特定行業(yè)特定業(yè)務(wù)員的分析預(yù)測的神經(jīng)網(wǎng)絡(luò)產(chǎn)品將不斷城市,就像認(rèn)得經(jīng)驗(yàn)具有很強(qiáng)的個人特點(diǎn)一樣,適用于企業(yè)A的比重參數(shù),如果用于企業(yè)B,其結(jié)果可能就是毫無可信度。2.4聚類和鄰點(diǎn)預(yù)測聚類是講如何將一批數(shù)據(jù)按照相似特性歸類,使我們能對它們有一個形象的概括性理 解:鄰點(diǎn)預(yù)測是在歸類的基礎(chǔ)上對未來數(shù)據(jù)進(jìn)行預(yù)測,是一個簡單的只有兩個變量的聚類圖,目的是看看公司銷售的所有產(chǎn)品的銷售量有無特別的地域優(yōu)勢(輸入5000個隨機(jī)交易數(shù)據(jù))。一個聚類應(yīng)用系統(tǒng)其實(shí)是一個中心點(diǎn)“逼近”過程,每一次所計算的點(diǎn)都向最佳中心點(diǎn)移動,直到所有記錄的“座次排定”,確定最后聚類歸屬。一旦對培訓(xùn)樣本數(shù)據(jù)的聚類成功
11、結(jié)束,便可以用鄰點(diǎn)預(yù)測法對新的未來數(shù)據(jù)預(yù)測它的歸屬,所采取的辦法一般也是距離最小法,即新的數(shù)據(jù)離哪個類的中心點(diǎn)最小,那么,這個數(shù)據(jù)就應(yīng)該屬于這個類,具有這個類 所有的類似特征。當(dāng)然,實(shí)際的聚類應(yīng)用要復(fù)雜得多,但區(qū)別在于聚類準(zhǔn)則的不同,主要概念都是類似的。 相對于其他數(shù)據(jù)挖掘技術(shù),聚類比較容易讓人理解, 傾向于定性分析,較難定量地獲得某種-5-CC匡巒技越袁圧堞結(jié)果。因此,在很多場合下,聚類結(jié)果作為其他技術(shù)的應(yīng)用基礎(chǔ),在類的基礎(chǔ)上采用其他如決策樹和神經(jīng)網(wǎng)絡(luò)方法,進(jìn)一步對特定類進(jìn)行分析,可以達(dá)到消除數(shù)據(jù)噪音,提高數(shù)據(jù)可靠性的效果.2.5規(guī)則導(dǎo)引規(guī)則導(dǎo)引是從一個樣本數(shù)據(jù)庫中發(fā)現(xiàn)并歸納出“數(shù)據(jù)行為”模
12、式,用我們?nèi)祟惐容^容易理解的“如果A.那么B,否則就是C”這樣的判斷語句來描述這種隱藏在數(shù)據(jù)倉庫中的“規(guī)律”。我們?nèi)粘I钪薪?jīng)常用此類語音來描述事件的規(guī)律。這些規(guī)則己經(jīng)成為我們?nèi)祟愔悄艿闹匾M成部分,并廣泛應(yīng)用于我們的邏輯判斷。如果我們認(rèn)真考慮這些判斷,就會發(fā)現(xiàn)有兩個重要的因素來衡量這種判斷,一個是準(zhǔn)確率,我們平常所講的“八九不離十”是準(zhǔn)確率相當(dāng)高的意思;另一個指標(biāo)是規(guī)則覆蓋率,即這個規(guī)則 適用于大部分場合嗎?或者說可以應(yīng)用于數(shù)據(jù)庫里的多少條記錄?判斷的準(zhǔn)確率的高低取 決于我們的經(jīng)驗(yàn)是否足夠豐富,亦即這個現(xiàn)象過去的發(fā)生率的高低,發(fā)生得越多,那么,今 后發(fā)生的概率也就越大。用于客戶行為分析的規(guī)則
13、主要有以下三種。連帶相關(guān)規(guī)則 Association Rule連帶相關(guān)規(guī)則是指一個事件的發(fā)生伴隨著另外一件事件的發(fā)生。挖掘出特定客戶購買行為的連帶相關(guān)性,可以預(yù)測出該客戶的消費(fèi)模式,從而為CRM應(yīng)用中向特定客戶提出準(zhǔn)確的連帶銷售建議準(zhǔn)備了重要的決策資源。順序相關(guān)規(guī)則 Seque nee Correlatio n Rule順序相關(guān)規(guī)則講的是一個事件的發(fā)生之后,一定時間內(nèi)也會發(fā)生另一個事件。掌握了客戶購買行為的時間相關(guān)性,就可以幫助你確定何時才是“最佳”的向客戶提出建議的時間, 為促銷提供重要的決策依據(jù)。分類相關(guān)規(guī)則一一 -Classification Rule分類相關(guān)是指具有某種特征的群體傾向于
14、特定的行為。這個概念同上面提到的聚類是相似的。數(shù)據(jù)挖掘技術(shù)中的規(guī)則導(dǎo)引就是要從大量的客戶數(shù)據(jù)中挖掘出這些規(guī)則。規(guī)則導(dǎo)引的引擎(應(yīng)用軟件)要將一個規(guī)則的幾個部分模型化,并根據(jù)統(tǒng)計結(jié)果對各個部分進(jìn)行“填寫”。由于規(guī)則是用人類的語言來描述規(guī)律性行為,因此比較容易被企業(yè)員工理解和執(zhí)行。3. 結(jié)論數(shù)據(jù)挖掘技術(shù)的預(yù)測方法雖然有多種,但是每一種預(yù)測方法都適用于不同的情況,解決不同類型的問題。有些數(shù)據(jù)挖掘在定性和數(shù)據(jù)分類方面使用方便,可以用做為更高一級預(yù)測的“探索”工具。比如,先用決策樹或聚類方法幫助找出數(shù)據(jù)的總體趨勢以及預(yù)測變量相關(guān) 性之后,再用神經(jīng)網(wǎng)絡(luò)或規(guī)則導(dǎo)引方法有針對性的建模,一來可以細(xì)化數(shù)據(jù),提高性
15、能,二 來在某種程度上也可以幫助消除噪音;另一方面也可以作為不同方法比較之用。數(shù)據(jù)挖掘技術(shù)中,決策樹和聚類是市場分割的常用工具。大多數(shù)分類型數(shù)據(jù)挖掘系統(tǒng)都提供高度自動化的市場分割工具,給出一定的參數(shù),經(jīng)過一定時間的運(yùn)算,就可以給出一個 分類,如果同事實(shí)情況不符,那十有八九是數(shù)據(jù)不夠準(zhǔn)確和完整,或者噪音太多。總結(jié)來看:回歸預(yù)測主要是根據(jù)歷史記錄分析得出總體趨勢,一般解決能夠用數(shù)學(xué)方程式表示的問題;決策樹主要進(jìn)行歸類分割和預(yù)測,一般從定性的角度分析解決問題,神經(jīng)網(wǎng)絡(luò)主要是對某種情形的可能性進(jìn)行預(yù)測,可以精確到定量的角度解決問題;聚類方法傾向于定性的分析,主要是把客戶進(jìn)行分類比較難定量地獲得某種結(jié)果
16、,所以一般作為其他如決策樹和神經(jīng)網(wǎng)絡(luò)等方法地應(yīng)用基礎(chǔ),在歸類以后,對某種特定類型進(jìn)行分析,可以達(dá)到消除數(shù)據(jù)噪音,提高數(shù)據(jù)可靠性的效果;規(guī)則導(dǎo)引主要對客戶行為進(jìn)行分析,通過歸納分析導(dǎo)引出預(yù)測結(jié)果。參考文獻(xiàn)1 何榮勤,CRM原理 設(shè)計 實(shí)踐,電子工業(yè)出版社,北京,20032 湯兵勇 王素芬等,客戶關(guān)系管理,高等教育岀版社,北京, 2003.3 邵兵家,于同奎等,清華大學(xué)出版社,北京, 2004.Applyme nt of the tech no logy of data mi ning in clie nt an alysis1 2 2ZU Qiaoho ng ,CHEN Din gfa ng ,
17、 HU Jiquan(1. 2.School of Logistics Engineering,WHUT, wuhan ,430063,)Abstract: In this paper, five popular forecast ing algorithms of data mining will be discussedseparately. At the same time, the situati ons which are fit for the algorithms are comparedcomb ined with the examples. Then, the efficie
18、 nt forecast ing methods can be adopted whe n thediffere nt situati ons of clie nts are an alyzed. There in to, regressi on forecast ing whichofte n educesthe gen eral trend accord ing with the historical records is traditi on al. The Decisi on Tree method is a data analysis and forecasting method which is shaped like“ Y” . It is used mainly to divide inclassification and forecast so as to solve the problem of qualitative analysis. The method of NeuralNetworks main ly an alyzes and forecasts the clie nts' behaviors with the qua ntitative p
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高校與企業(yè)合作機(jī)制的優(yōu)化路徑
- 智慧城市辦公樓宇的安防系統(tǒng)設(shè)計與實(shí)施
- 城市數(shù)字技術(shù)與文化旅游協(xié)同發(fā)展的未來趨勢
- 滁州鳳陽縣聯(lián)考2024-2025學(xué)年七年級數(shù)學(xué)第一學(xué)期期末學(xué)業(yè)水平測試試題含解析
- 餐飲行業(yè)聯(lián)營合作協(xié)議范本(含品牌授權(quán)及經(jīng)營管理)
- 車輛轉(zhuǎn)讓免責(zé)協(xié)議包含維修保養(yǎng)責(zé)任界定
- 2025至2030中國工業(yè)碳刷市場銷售前景及未來投資價值評估報告
- 2025至2030門窗木材行業(yè)產(chǎn)業(yè)運(yùn)行態(tài)勢及投資規(guī)劃深度研究報告
- 2025至2030中國美發(fā)行業(yè)發(fā)展分析及發(fā)展前景與投資報告
- 企業(yè)大型活動接待安排與管理工作指南
- 教師安全培訓(xùn)內(nèi)容課件
- GB/T 27818-2011化學(xué)品皮膚吸收體外試驗(yàn)方法
- 官員任期、財政資源與數(shù)字時代地方政府組織聲譽(yù)建構(gòu)
- 單位同意申報證明【模板】
- 無塵室管理規(guī)范(ppt)
- 2021年云南技師學(xué)院教師招聘試題及答案解析
- 電氣工程CAD教程PPT課件
- 暑假初二升初三數(shù)學(xué)銜接班精品教材
- 風(fēng)力發(fā)電機(jī)組主傳動鏈滾動軸承運(yùn)行狀態(tài)評估結(jié)果和措施、定期維護(hù)項(xiàng)目及要求、基于評估結(jié)果備件計劃
- 易經(jīng)全文注音(修訂版)
- 庫板安裝工藝
評論
0/150
提交評論