基于數(shù)據(jù)挖掘的國(guó)際貿(mào)易客戶流失的預(yù)測(cè)分析畢業(yè)論文_第1頁(yè)
基于數(shù)據(jù)挖掘的國(guó)際貿(mào)易客戶流失的預(yù)測(cè)分析畢業(yè)論文_第2頁(yè)
基于數(shù)據(jù)挖掘的國(guó)際貿(mào)易客戶流失的預(yù)測(cè)分析畢業(yè)論文_第3頁(yè)
基于數(shù)據(jù)挖掘的國(guó)際貿(mào)易客戶流失的預(yù)測(cè)分析畢業(yè)論文_第4頁(yè)
基于數(shù)據(jù)挖掘的國(guó)際貿(mào)易客戶流失的預(yù)測(cè)分析畢業(yè)論文_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于數(shù)據(jù)挖掘的國(guó)際貿(mào)易客戶流失的預(yù)測(cè)分析PAGE2目錄TOC\o"1-2"\h\z\u1前言………………2

1.1設(shè)計(jì)背景………………………2

1.2數(shù)據(jù)挖掘簡(jiǎn)介…………………2

1.3決策樹(shù)ID3和C4.5算法簡(jiǎn)介………………32客戶數(shù)據(jù)訓(xùn)練集的預(yù)處理………3

2.1選擇訓(xùn)練集……………………4

2.2去除訓(xùn)練集的冗余數(shù)據(jù)………42.3訓(xùn)練集中連續(xù)值的離散化……………………43結(jié)合信息增益和信息增益率進(jìn)行決策樹(shù)歸納…………………6

3.1計(jì)算對(duì)D中元組分類所需的期望信息………6

3.2計(jì)算每個(gè)屬性的期望信息需求(即信息熵)………………73.3計(jì)算每個(gè)屬性的信息增益率………………144構(gòu)建決策樹(shù)……………………16

4.1構(gòu)建根節(jié)點(diǎn)決策樹(shù)…………16

4.2構(gòu)建最終決策樹(shù)……………17

5客戶群流失的預(yù)測(cè)和分析……………………176總結(jié)……………18結(jié)束語(yǔ)……………18致謝………………18參考文獻(xiàn)…………18附錄………………19基于數(shù)據(jù)挖掘的國(guó)際貿(mào)易客戶流失的預(yù)測(cè)分析摘要:企業(yè)客戶流失是一個(gè)企業(yè)最大的損失,但大部分企業(yè)并未找到一個(gè)切實(shí)有效的方法來(lái)解決這個(gè)問(wèn)題,文章從數(shù)據(jù)挖掘角度,利用關(guān)聯(lián)規(guī)則對(duì)國(guó)際貿(mào)易客戶流失的預(yù)測(cè)進(jìn)行一些分析,找出流失率比較高的并有價(jià)值的客戶群體的特點(diǎn),為企業(yè)提供一些具體策略來(lái)減少客戶流失,最終獲得較大的經(jīng)濟(jì)效益!關(guān)鍵詞:數(shù)據(jù)挖掘客戶流失決策樹(shù)ID3算法c4.5算法離散化Abstract:Lossofbusinesscustomersarethebiggestlossofanenterprise,butmostenterpriseshaveNtfoundaneffectivewaytosolvethisproblem,dataminingarticlefromthepointofview,theuseofassociationrulesoninternationaltradethelossofcustomerstoconductsomeanalysisofthepredictiontoidentifythelossofrelativelyhighrateandvaluablecharacteristicsofclientgroups,providinganumberofspecificstrategiestoreducethelossofcustomers,andultimatelytheecoNmicbenefitsofalarger.Keywords:DataMining,Thelossofcustomers,DecisionTree,ID3algorithm,c4.5algorithm,DiscretizationPAGE191前言1.1設(shè)計(jì)背景隨著中國(guó)加入世貿(mào)組織,互聯(lián)網(wǎng)信息化高速發(fā)展帶來(lái)的機(jī)遇,有著越來(lái)越多的企業(yè)或者個(gè)人)參加到國(guó)際貿(mào)易當(dāng)中并從中獲利,在營(yíng)銷和推廣的手段的多元化的同時(shí),客戶群成了一個(gè)非常不穩(wěn)定的群體,商人無(wú)非重視的是個(gè)利字,那么這些客戶群很有可能會(huì)流向競(jìng)爭(zhēng)對(duì)手那里,那么如何提升公司客戶群的忠誠(chéng)度就成為了首要解決的問(wèn)題,為了滿足外貿(mào)企業(yè)和外貿(mào)soho對(duì)客戶流的需求以及掌控,由于數(shù)據(jù)量的復(fù)雜,也就非常有必要開(kāi)發(fā)一個(gè)基于數(shù)據(jù)挖掘的國(guó)際貿(mào)易客戶流失數(shù)據(jù)預(yù)測(cè)處理系統(tǒng)來(lái)來(lái)管理客戶數(shù)據(jù)和預(yù)防客戶的流失,這樣不僅可以及時(shí)檢測(cè)到客戶的流失動(dòng)向和原因,而且也為外貿(mào)企業(yè)外貿(mào)soho提供了更加快捷的方式來(lái)盡量減少客戶端流失。1.2數(shù)據(jù)挖掘簡(jiǎn)介數(shù)據(jù)挖掘(datamining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。隨著信息技術(shù)的高速發(fā)展,人們積累的數(shù)據(jù)量急劇增長(zhǎng),動(dòng)輒以tb計(jì),如何從海量的數(shù)據(jù)中提取有用的知識(shí)成為當(dāng)務(wù)之急。數(shù)據(jù)挖掘就是為順應(yīng)這種需要應(yīng)運(yùn)而生發(fā)展起來(lái)的數(shù)據(jù)處理技術(shù),是知識(shí)發(fā)現(xiàn)(kNwledgediscoveryindatabase)的關(guān)鍵步驟.1.3決策樹(shù)ID3與C4.5算法簡(jiǎn)介ID3算法是J.RossQuinlan開(kāi)發(fā)的一種數(shù)據(jù)挖掘[1]決策樹(shù)算法[2]【3】,后來(lái)C4.5(ID3的后繼),成為新的監(jiān)督學(xué)習(xí)算法,兩者都采用貪心非回溯的方法,其中決策樹(shù)以自頂向下遞歸的分治方法,從訓(xùn)練元祖集和它們的相關(guān)聯(lián)的類標(biāo)號(hào)開(kāi)始構(gòu)造決策樹(shù),隨著樹(shù)的構(gòu)建,訓(xùn)練集遞歸地劃分成較小的子集,并分別引進(jìn)信息增益和信息增益率來(lái)進(jìn)行構(gòu)造決策樹(shù)。

2客戶數(shù)據(jù)訓(xùn)練集的預(yù)處理

由于數(shù)據(jù)挖掘的對(duì)象是大量的數(shù)據(jù),非常的龐亂繁雜,所以非常有必要將這些數(shù)據(jù)進(jìn)行預(yù)處理[4][5],以適用于挖掘,這需要三個(gè)步驟

2.1選擇訓(xùn)練集

將不相關(guān)的數(shù)據(jù)剔除掉,只保留一些與挖掘有關(guān)的,比如姓名電話號(hào)碼,地址,取值太多,如果進(jìn)行概化,將大于概化閥值,所以予以刪除,還有對(duì)以前輸入的數(shù)據(jù)不完整的,不規(guī)范的,也不予以選取,將予以剔除,還有一些屬性關(guān)聯(lián)比較密切的[6],可以刪除個(gè)別,只留下代表屬性。2.2去除訓(xùn)練集的冗余數(shù)據(jù)從邏輯上判斷一些屬性對(duì)訓(xùn)練集類屬性結(jié)果不相關(guān)的,還有一些屬性關(guān)聯(lián)比較密切的,可以刪除掉一個(gè),從而極大的提高計(jì)算的效率和準(zhǔn)確度,因?yàn)橐恍┎幌嚓P(guān)的屬性可能導(dǎo)致數(shù)據(jù)挖掘的準(zhǔn)確度下降,以表一為例,成功率基本上都大于90%,但是跟數(shù)據(jù)挖掘的結(jié)果沒(méi)有必然聯(lián)系,將可能導(dǎo)致數(shù)據(jù)挖掘的準(zhǔn)確度下降比如交易次數(shù),交易總額,所以予以刪除,另外支付寶擔(dān)保交易付款和銀行轉(zhuǎn)帳付款關(guān)聯(lián)性大于90%,將支付寶擔(dān)保交易屬性也予以刪除。

2.3訓(xùn)練集中連續(xù)值的離散化

將連續(xù)的數(shù)值進(jìn)行離散化處理,如年齡分為三類:

A1:<20A2:20—30A3:>30可以將訂購(gòu)款式分為四類,B1:板鞋B2:帆布鞋B3:跑鞋B4綜合各種款式屬性年齡簡(jiǎn)稱A訂購(gòu)款式簡(jiǎn)稱B批發(fā)簡(jiǎn)稱C學(xué)生簡(jiǎn)稱D銀行匯款簡(jiǎn)稱E

結(jié)合上面歸納,給出轉(zhuǎn)化后的訓(xùn)練集表一,并給出相關(guān)的數(shù)據(jù)庫(kù)圖表,見(jiàn)圖一,二編號(hào)年齡A訂購(gòu)款式B批發(fā)C學(xué)生D銀行轉(zhuǎn)帳E流失1A2B1YNYN2A2B3NYYY3A3B1NNYN4A1B2NYYN5A3B2NYNN6A1B2NYNN7A3B4YNYN8A3B3YNYN9A1B2NYNY10A3B4YNYN11A2B2NYYN12A1B4YNYY13A2B2NYYY14A1B1NYNN15A2B1YYYN16A3B3NNNY17A2B3YNYY18A1B4NNYY19A2B4YNYY20A3B1NNNY表一經(jīng)過(guò)預(yù)處理對(duì)客戶數(shù)據(jù)訓(xùn)練集圖一創(chuàng)建的數(shù)據(jù)庫(kù)tradedb圖二數(shù)據(jù)庫(kù)中的trade表數(shù)據(jù)3結(jié)合信息增益和信息增益率進(jìn)行決策樹(shù)歸納

3.1計(jì)算對(duì)D中元組分類所需的期望信息表一給出了一個(gè)類標(biāo)記的元組的訓(xùn)練集D,每個(gè)屬性都是離散值(連續(xù)值屬性已經(jīng)被離散化),類標(biāo)號(hào)屬性“是否流失”有兩類,(即m=2),設(shè)類c1對(duì)應(yīng)Y類c2對(duì)應(yīng)N,類C1有11個(gè)元組,類C2有9個(gè)元組,由D中的元組創(chuàng)建(根)節(jié)點(diǎn)N,為了找出這些元組的分裂準(zhǔn)則,必須計(jì)算每個(gè)屬性的信息增益,計(jì)算對(duì)D中元組分類所需的期望信息(即信息熵):Info(D)=-log2(Pi)其中Pi是D中的任意元組屬于Ci的概率,并用|Ci,D|/|D|估計(jì),使用vb.Net構(gòu)造的函數(shù)代碼如下:PublicFunctiontradefuc(ByVala,ByValb)AsStringDimkAsStringk=a+btradefuc=-a/k*Log(a/k)/Log(2)-b/k*Log(b/k)/Log(2)Ifa=0Thentradefuc=-b/k*Log(b/k)/Log(2)EndIfIfb=0Thentradefuc=-a/k*Log(a/k)/Log(2)EndIfEndFunction計(jì)算對(duì)D中元組分類所需的期望信息:Info(D)=-log2(Pi)=0.992774453987808源代碼如下'客戶流失Dimt1AsDoubleDimsCon1AsString="SelectCount(*)Fromtradewhere流失='Y'"sCom.Connection=sConsCon.Open()sCom.CommandText=sCon1t1=sCom.ExecuteScalarDimt2AsDoubleDimsCon2AsString="SelectCount(*)Fromtradewhere流失='N'"sCom.Connection=sConsCom.CommandText=sCon2t2=sCom.ExecuteScalar'計(jì)算訓(xùn)練集D中元組分類的期望信息DimIAsDoubleI=tradefuc(t1,t2)計(jì)算如圖三圖三計(jì)算Info(D)的值3.2計(jì)算每個(gè)屬性的期望信息需求(即信息熵):從屬性age開(kāi)始,查詢age各個(gè)屬性對(duì)應(yīng)的流失是否個(gè)數(shù),并計(jì)算它的信息增益Info年齡(D)=0.00196975696587331'年齡Dimage1AsDoubleDimageCon1AsStringageCon1="SelectCount(*)fromtradewhere年齡='A1'"sCom.Connection=sConsCom.CommandText=ageCon1age1=sCom.ExecuteScalarDimage11AsDoubleDimageCon11AsStringageCon11="SelectCount(*)fromtradewhere年齡='A1'and流失='Y'"sCom.Connection=sConsCom.CommandText=ageCon11age11=sCom.ExecuteScalarDimage12AsDoubleDimageCon12AsStringageCon12="SelectCount(*)fromtradewhere年齡='A1'and流失='N'"sCom.Connection=sConsCom.CommandText=ageCon12age12=sCom.ExecuteScalarDimage2AsDoubleDimageCon2AsStringageCon2="SelectCount(*)fromtradewhere年齡='A2'"sCom.Connection=sConsCom.CommandText=ageCon2age2=sCom.ExecuteScalarDimage21AsDoubleDimageCon21AsStringageCon21="SelectCount(*)fromtradewhere年齡='A2'and流失='Y'"sCom.Connection=sConsCom.CommandText=ageCon21age21=sCom.ExecuteScalarDimage22AsDoubleDimageCon22AsStringageCon22="SelectCount(*)fromtradewhere年齡='A2'and流失='N'"sCom.Connection=sConsCom.CommandText=ageCon22age22=sCom.ExecuteScalarDimage3AsDoubleDimageCon3AsStringageCon3="SelectCount(*)fromtradewhere年齡='A3'"sCom.Connection=sConsCom.CommandText=ageCon3age3=sCom.ExecuteScalarDimage31AsDoubleDimageCon31AsStringageCon31="SelectCount(*)fromtradewhere年齡='A3'and流失='Y'"sCom.Connection=sConsCom.CommandText=ageCon31age31=sCom.ExecuteScalarDimage32AsDoubleDimageCon32AsStringageCon32="SelectCount(*)fromtradewhere年齡='A3'and流失='N'"sCom.Connection=sConsCom.CommandText=ageCon32age32=sCom.ExecuteScalar'計(jì)算年齡的信息增益DimIage1AsDoubleIage1=tradefuc(age11,age12)DimIage2AsDoubleIage2=tradefuc(age21,age22)DimIage3AsDoubleIage3=tradefuc(age31,age32)DimIageAsDoubleIage=age1/t*Iage1+age2/t*Iage2+age3/t*Iage3DimGainageAsDoubleGainage=I-Iage類似的,Gain(訂購(gòu)款式)的代碼如下'訂購(gòu)款式Dimdg1AsDoubleDimdgCon1AsStringdgCon1="SelectCount(*)fromtradewhere訂購(gòu)款式='B1'"sCom.Connection=sConsCom.CommandText=dgCon1dg1=sCom.ExecuteScalarDimdg11AsDoubleDimdgCon11AsStringdgCon11="SelectCount(*)fromtradewhere訂購(gòu)款式='B1'and流失='Y'"sCom.Connection=sConsCom.CommandText=dgCon11dg11=sCom.ExecuteScalarDimdg12AsDoubleDimdgCon12AsStringdgCon12="SelectCount(*)fromtradewhere訂購(gòu)款式='B1'and流失='N'"sCom.Connection=sConsCom.CommandText=dgCon12dg12=sCom.ExecuteScalarDimdg2AsDoubleDimdgCon2AsStringdgCon2="SelectCount(*)fromtradewhere訂購(gòu)款式='B2'"sCom.Connection=sConsCom.CommandText=dgCon2age2=sCom.ExecuteScalarDimdg21AsDoubleDimdgCon21AsStringdgCon21="SelectCount(*)fromtradewhere訂購(gòu)款式='B2'and流失='Y'"sCom.Connection=sConsCom.CommandText=dgCon21dg21=sCom.ExecuteScalarDimdg22AsDoubleDimdgCon22AsStringdgCon22="SelectCount(*)fromtradewhere訂購(gòu)款式='B2'and流失='N'"sCom.Connection=sConsCom.CommandText=dgCon22dg22=sCom.ExecuteScalarDimdg3AsDoubleDimdgCon3AsStringdgCon3="SelectCount(*)fromtradewhere訂購(gòu)款式='B3'"sCom.Connection=sConsCom.CommandText=dgCon3dg3=sCom.ExecuteScalarDimdg31AsDoubleDimdgCon31AsStringdgCon31="SelectCount(*)fromtradewhere訂購(gòu)款式='B3'and流失='Y'"sCom.Connection=sConsCom.CommandText=dgCon31dg31=sCom.ExecuteScalarDimdg32AsDoubleDimdgCon32AsStringdgCon32="SelectCount(*)fromtradewhere訂購(gòu)款式='B3'and流失='N'"sCom.Connection=sConsCom.CommandText=dgCon32dg32=sCom.ExecuteScalarDimdg4AsDoubleDimdgCon4AsStringdgCon4="SelectCount(*)fromtradewhere訂購(gòu)款式='B4'"sCom.Connection=sConsCom.CommandText=dgCon4dg4=sCom.ExecuteScalarDimdg41AsDoubleDimdgCon41AsStringdgCon41="SelectCount(*)fromtradewhere訂購(gòu)款式='B4'and流失='Y'"sCom.Connection=sConsCom.CommandText=dgCon41dg41=sCom.ExecuteScalarDimdg42AsDoubleDimdgCon42AsStringdgCon42="SelectCount(*)fromtradewhere訂購(gòu)款式='B4'and流失='N'"sCom.Connection=sConsCom.CommandText=dgCon42dg42=sCom.ExecuteScalar'計(jì)算訂購(gòu)款式的信息增益DimIdg1AsDoubleIdg1=tradefuc(dg11,dg12)DimIdg2AsDoubleIdg2=tradefuc(dg21,dg22)DimIdg3AsDoubleIdg3=tradefuc(dg31,dg32)DimIdg4AsDoubleIdg4=tradefuc(dg41,dg42)DimIdgAsDoubleIdg=age1/t*Idg1+dg2/t*Idg2+dg3/t*Idg3+dg4/t*Idg4DimGaindgAsDoubleGaindg=I-IdgGain(批發(fā))的源代碼如下'批發(fā)Dimpifa1AsDoubleDimpifaCon1AsStringpifaCon1="SelectCount(*)fromtradewhere批發(fā)='Y'"sCom.Connection=sConsCom.CommandText=pifaCon1pifa1=sCom.ExecuteScalarDimpifa11AsDoubleDimpifaCon11AsStringpifaCon11="SelectCount(*)fromtradewhere批發(fā)='Y'and流失='Y'"sCom.Connection=sConsCom.CommandText=pifaCon11pifa11=sCom.ExecuteScalarDimpifa12AsDoubleDimpifaCon12AsStringpifaCon12="SelectCount(*)fromtradewhere批發(fā)='Y'and流失='N'"sCom.Connection=sConsCom.CommandText=pifaCon12pifa12=sCom.ExecuteScalarDimpifa2AsDoubleDimpifaCon2AsStringpifaCon2="SelectCount(*)fromtradewhere批發(fā)='N'"sCom.Connection=sConsCom.CommandText=pifaCon2pifa2=sCom.ExecuteScalarDimpifa21AsDoubleDimpifaCon21AsStringpifaCon21="SelectCount(*)fromtradewhere批發(fā)='N'and流失='Y'"sCom.Connection=sConsCom.CommandText=pifaCon21pifa21=sCom.ExecuteScalarDimpifa22AsDoubleDimpifaCon22AsStringpifaCon22="SelectCount(*)fromtradewhere批發(fā)='N'and流失='N'"sCom.Connection=sConsCom.CommandText=pifaCon22pifa22=sCom.ExecuteScalar'計(jì)算批發(fā)的信息增益DimIpifa1AsDoubleIpifa1=tradefuc(pifa11,pifa12)DimIpifa2AsDoubleIpifa2=tradefuc(pifa21,pifa22)DimIpifaAsDoubleIpifa=pifa1/t*Ipifa1+pifa2/t*Ipifa2DimGainpifaAsDoubleGainpifa=I-IpifaGain(學(xué)生)的源代碼如下'學(xué)生Dimstudent1AsDoubleDimstudentCon1AsStringstudentCon1="SelectCount(*)fromtradewhere學(xué)生='Y'"sCom.Connection=sConsCom.CommandText=studentCon1student1=sCom.ExecuteScalarDimstudent11AsDoubleDimstudentCon11AsStringstudentCon11="SelectCount(*)fromtradewhere學(xué)生='Y'and流失='Y'"sCom.Connection=sConsCom.CommandText=studentCon11student11=sCom.ExecuteScalarDimstudent12AsDoubleDimstudentCon12AsStringstudentCon12="SelectCount(*)fromtradewhere學(xué)生='Y'and流失='N'"sCom.Connection=sConsCom.CommandText=studentCon12student12=sCom.ExecuteScalarDimstudent2AsDoubleDimstudentCon2AsStringstudentCon2="SelectCount(*)fromtradewhere學(xué)生='N'"sCom.Connection=sConsCom.CommandText=studentCon2student2=sCom.ExecuteScalarDimstudent21AsDoubleDimstudentCon21AsStringstudentCon21="SelectCount(*)fromtradewhere學(xué)生='N'and流失='Y'"sCom.Connection=sConsCom.CommandText=studentCon21student21=sCom.ExecuteScalarDimstudent22AsDoubleDimstudentCon22AsStringstudentCon22="SelectCount(*)fromtradewhere學(xué)生='N'and流失='N'"sCom.Connection=sConsCom.CommandText=studentCon22student22=sCom.ExecuteScalar'計(jì)算學(xué)生的信息增益DimIstudent1AsDoubleIstudent1=tradefuc(student11,student12)DimIstudent2AsDoubleIstudent2=tradefuc(student21,student22)DimIstudentAsDoubleIstudent=student1/t*Istudent1+student2/t*Istudent2DimGainstudentAsDoubleGainstudent=I-IstudentGain(銀行轉(zhuǎn)帳)的源代碼實(shí)現(xiàn)'支付方式--銀行轉(zhuǎn)帳Dimbank1AsDoubleDimbankCon1AsStringbankCon1="SelectCount(*)fromtradewhere銀行='Y'"sCom.Connection=sConsCom.CommandText=bankCon1bank1=sCom.ExecuteScalarDimbank11AsDoubleDimbankCon11AsStringbankCon11="SelectCount(*)fromtradewhere銀行='Y'and流失='Y'"sCom.Connection=sConsCom.CommandText=bankCon11bank11=sCom.ExecuteScalarDimbank12AsDoubleDimbankCon12AsStringbankCon12="SelectCount(*)fromtradewhere銀行='Y'and流失='N'"sCom.Connection=sConsCom.CommandText=bankCon12bank12=sCom.ExecuteScalarDimbank2AsDoubleDimbankCon2AsStringbankCon2="SelectCount(*)fromtradewhere銀行='N'"sCom.Connection=sConsCom.CommandText=bankCon2bank2=sCom.ExecuteScalarDimbank21AsDoubleDimbankCon21AsStringbankCon21="SelectCount(*)fromtradewhere銀行='N'and流失='Y'"sCom.Connection=sConsCom.CommandText=bankCon21bank21=sCom.ExecuteScalarDimbank22AsDoubleDimbankCon22AsStringbankCon22="SelectCount(*)fromtradewhere銀行='N'and流失='N'"sCom.Connection=sConsCom.CommandText=bankCon22bank22=sCom.ExecuteScalar'計(jì)算支付方式--銀行轉(zhuǎn)帳的信息增益DimIbank1AsDoubleIbank1=tradefuc(bank11,bank12)DimIbank2AsDoubleIbank2=tradefuc(bank21,bank22)DimIbankAsDoubleIbank=bank1/t*Ibank1+bank2/t*Ibank2DimGainbankAsDoubleGainbank=I-Ibank3.3計(jì)算每個(gè)屬性的信息增益率信息增益度量偏向具有許多輸出的測(cè)試,信息增益率可以克服這種偏倚,使用分裂信息值將信息增益規(guī)范化,分裂信息類似于Info(D),定義如下SplitInfoA(D)=-log2()該值代表通過(guò)將訓(xùn)練數(shù)據(jù)集D劃分成對(duì)應(yīng)于屬性A測(cè)試的V個(gè)輸出的V個(gè)劃分產(chǎn)生的信息,每個(gè)輸出,關(guān)于D中元祖總數(shù)考慮具有該輸出的元組數(shù),他不同于信息增益,信息增益關(guān)于分類度量基于相同劃分所需要的信息。增益率定義為:GainRatio(A)=選擇具有最大增益率的屬性作為分裂屬性,隨著分裂信息趨向于0,該比例變的不穩(wěn)定,為了避免這種情況,增加一個(gè)約束,選取測(cè)試的信息增益必須較大,至少與所考察的所有測(cè)試的平均增益一樣大。計(jì)算每個(gè)屬性的信息增益率,“年齡”計(jì)算如下:SplitInfoA(D)的源代碼實(shí)現(xiàn)'計(jì)算年齡的分裂信息DimSplitageAsDoubleSplitage=tradefuc2(age1,age2,age3)GainRatio(A)的源代碼實(shí)現(xiàn)'計(jì)算年齡的信息增益率DimGainradioageAsDoubleGainradioage=Gainage/Splitage類似的訂購(gòu)款式的分裂信息和信息增益率為'計(jì)算訂購(gòu)款式的分裂信息DimSplitdgAsDoubleSplitdg=tradefuc(dg1,dg2)+tradefuc(dg3,dg4)'計(jì)算訂購(gòu)款式的信息增益率DimGainradiodgAsDoubleGainradiodg=Gaindg/Splitdg批發(fā)的分裂信息和信息增益率為'計(jì)算批發(fā)的分裂信息DimSplitpifaAsDoubleSplitpifa=tradefuc(pifa1,pifa2)'計(jì)算批發(fā)的信息增益率DimGainradiopifaAsDoubleGainradiopifa=Gainpifa/Splitpifa批發(fā)的分裂信息和信息增益率為'計(jì)算學(xué)生的分裂信息DimSplitstudentAsDoubleSplitstudent=tradefuc(student1,student2)'計(jì)算學(xué)生的信息增益率DimGainradiostudentAsDoubleGainradiostudent=Gainstudent/Splitstudent銀行轉(zhuǎn)帳的分裂信息和信息增益率為'計(jì)算支付方式--銀行轉(zhuǎn)帳的分裂信息DimSplitbankAsDoubleSplitbank=tradefuc(bank1,bank2)'計(jì)算支付方式--銀行轉(zhuǎn)帳的信息增益率DimGainradiobankAsDoubleGainradiobank=Gainbank/Splitbank輸出計(jì)算結(jié)果,如圖四圖四第一次各屬性的信息增益率計(jì)算結(jié)果選取信息增益率最大但是同時(shí)獲取的信息增益又不低于所有屬性平均值的屬性作為測(cè)試屬性,以該屬性作為節(jié)點(diǎn),屬性的每一個(gè)分布引出一個(gè)分支,據(jù)此劃分樣本,要是節(jié)點(diǎn)中所有樣本都在同一個(gè)類,則該節(jié)點(diǎn)成為樹(shù)葉,以該客戶類別標(biāo)記樹(shù)葉,如此類推,遞歸的形成初始決策樹(shù),另外,在節(jié)點(diǎn)處記下符合條件的統(tǒng)計(jì)數(shù)據(jù)。4構(gòu)建決策樹(shù)4.1構(gòu)建根節(jié)點(diǎn)決策樹(shù)比較5個(gè)屬性的信息增益率,選擇信息增益率最大的屬性作為分裂屬性,將訓(xùn)練集分成若干個(gè)子集,程序結(jié)果如下,見(jiàn)圖五圖五比較5個(gè)屬性的信息增益率,并輸出源代碼如下DimGainradio1AsDoubleGainradio1=max(TextBox8.Text,TextBox9.Text)DimGainradio2AsDoubleGainradio2=max(TextBox11.Text,TextBox1.Text)DimGainradio3AsDoubleGainradio3=max(TextBox10.Text,Gainradio1)DimGainradio4AsDoubleGainradio4=max(Gainradio2,Gainradio3)TextBox20.Text=Gainradio4里面的max函數(shù)在附錄代碼里有注釋根據(jù)計(jì)算結(jié)果得出,第一次的根節(jié)點(diǎn)決策樹(shù),如圖六所示,圖六根節(jié)點(diǎn)決策樹(shù)4.2構(gòu)建最終決策樹(shù)下面接著對(duì)四個(gè)結(jié)點(diǎn)繼續(xù)類似分類,生成最終數(shù)據(jù)流失決策樹(shù),如下圖2圖七最終決策樹(shù)5客戶群流失的預(yù)測(cè)和分析我們來(lái)對(duì)決策樹(shù)結(jié)果做一些總結(jié),從圖2中可以看出,決策樹(shù)的第一選擇屬性是“訂購(gòu)款式”說(shuō)明訂購(gòu)款式是客戶流失的最重要因素,這個(gè)跟經(jīng)驗(yàn)比較接近,下來(lái)的就是批發(fā),學(xué)生,銀行匯款,年齡等屬性,根據(jù)最終決策樹(shù)模型,可以得到以下一些特征,當(dāng)客戶訂購(gòu)款式時(shí),不管客戶是批發(fā),零售,還是學(xué)生,客戶都不容易流失;當(dāng)客戶身份是學(xué)生時(shí),建議選購(gòu)B2(帆布鞋),則客戶不容易流失;當(dāng)客戶只訂購(gòu)B3(跑鞋)時(shí),建議客戶選購(gòu)其他款式,B3的客戶非常容易流失,也可以確定B3款式質(zhì)量不過(guò)硬,應(yīng)該加強(qiáng)質(zhì)量;當(dāng)客人選擇B1(板鞋),建議客人選擇銀行匯款方式付款,而不建議客人選用支付寶交易,這樣客人不容易流失;當(dāng)客戶是批發(fā)的話,查看客戶的年齡,如果客戶年齡屬于A3,此類客戶不容易流失,如果不屬于A3,則這類客戶很容易流失。根據(jù)上面分析的結(jié)果,應(yīng)該采取一些措施來(lái)盡量減少客戶的流失,并切實(shí)的提出一些具體的方案來(lái)改進(jìn),盡可能的增大客戶的忠誠(chéng)度,為企業(yè)創(chuàng)造更大的經(jīng)濟(jì)效益。6總結(jié)本文引用數(shù)據(jù)挖掘來(lái)預(yù)測(cè)和分析貿(mào)易公司客戶的流失,挖掘出了一定數(shù)量相當(dāng)寶貴的關(guān)聯(lián)規(guī)則,以及解決方法,選取了實(shí)際的客戶數(shù)據(jù)訓(xùn)練集進(jìn)行挖掘分析,引用決策樹(shù)ID3算法,c4.5算法,信息增益,信息增益率等技術(shù),最后生成了最終決策樹(shù),挖掘出了這些數(shù)據(jù)的一些關(guān)聯(lián)特征,公司可以借鑒這些規(guī)則來(lái)進(jìn)行2000年-2008等其他數(shù)據(jù)來(lái)預(yù)測(cè)和分析客戶數(shù)據(jù)的流失。結(jié)束語(yǔ)經(jīng)過(guò)三個(gè)月的學(xué)習(xí)和研究,基于數(shù)據(jù)挖掘的國(guó)際貿(mào)易客戶流失的預(yù)測(cè)分析基本完成,在完成過(guò)程中遇到的問(wèn)題,迫使我去認(rèn)真的查詢資料、搜索引擎網(wǎng)上搜索求助他人。經(jīng)過(guò)這三個(gè)月,對(duì)數(shù)據(jù)挖掘這門(mén)新興的課程有了更深的理解,對(duì)里面的決策樹(shù)ID3算法,c4.5算法等有了更為透徹的領(lǐng)悟。在這里我對(duì)一句話深有感悟,那就是“實(shí)踐是檢驗(yàn)學(xué)習(xí)的最好方法!”。但是,由于時(shí)間和我個(gè)人的經(jīng)驗(yàn)等原因,還有一些不完善的地方。這些將在下一步的工作中繼續(xù)完成。致謝經(jīng)過(guò)半年的認(rèn)真學(xué)習(xí)和工作,我的畢業(yè)設(shè)計(jì)已經(jīng)接近尾聲,但是作為一個(gè)本科畢業(yè)生來(lái)做一個(gè)研究生的課題的畢業(yè)設(shè)計(jì),由于經(jīng)驗(yàn)的匱乏,閱讀資料的難度,難免有許多考慮不周全的地方,如果沒(méi)有導(dǎo)師的督促指導(dǎo),以及一起工作的同學(xué)們的支持,想要完成這個(gè)設(shè)計(jì)是難以想象的。在本次畢業(yè)設(shè)計(jì)中,無(wú)論在理論上還是在實(shí)踐中以及精神鼓勵(lì),指導(dǎo)老師黃海老師都給予我很大的幫助,在設(shè)計(jì)中,遇到的問(wèn)題都能很認(rèn)真的講解,有什么不足的地方都能及時(shí)指出并提出個(gè)人相關(guān)的建議,促使論文設(shè)計(jì)能夠順利的完成,真誠(chéng)的感謝他細(xì)心而又耐心的指導(dǎo)。最后再次感謝黃海老師的認(rèn)真指導(dǎo)!參考文獻(xiàn)HanJiawei.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007。3-6184-195Quinlan,J.R..C4.5:ProgramsforMachineLearning.MorganKaufmann.

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論