CART算法在新浪微博客戶分類中的應(yīng)用研究_第1頁(yè)
CART算法在新浪微博客戶分類中的應(yīng)用研究_第2頁(yè)
CART算法在新浪微博客戶分類中的應(yīng)用研究_第3頁(yè)
CART算法在新浪微博客戶分類中的應(yīng)用研究_第4頁(yè)
CART算法在新浪微博客戶分類中的應(yīng)用研究_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

濟(jì)南大學(xué)畢業(yè)論文PAGEII-濟(jì)南大學(xué)畢業(yè)論文摘要基于當(dāng)今這個(gè)高度信息化的時(shí)代,數(shù)據(jù)挖掘技術(shù)及數(shù)據(jù)倉(cāng)庫(kù)的高速發(fā)展,通過網(wǎng)絡(luò)平臺(tái)交流的用戶日趨增加,客戶分類就成為了當(dāng)今社會(huì)首要解決的問題。本論文在數(shù)據(jù)挖掘的理論、方法及技術(shù)上,以決策樹為建模主要思想,采用決策樹中的基于Gini指數(shù)的分類和回歸樹(CART)算法,把新浪微博客戶信息轉(zhuǎn)化為屬性—結(jié)論式的形式,通過構(gòu)建樹、修剪樹、評(píng)估模型三步驟,將客戶進(jìn)行分類,從而快速準(zhǔn)確地區(qū)分目標(biāo)客戶及非目標(biāo)客戶。在數(shù)據(jù)挖掘技術(shù)模型的基礎(chǔ)上,將新浪微博的目標(biāo)客戶模型做部分的調(diào)整,最終能夠得到最優(yōu)化模型。該模型有著響應(yīng)時(shí)間較短且精度高的特點(diǎn),若運(yùn)用到實(shí)際生活中能夠大大地提升客戶分類的效率,那么無論是企業(yè)還是個(gè)人都將從中受益良多。關(guān)鍵詞:決策樹;目標(biāo)客戶;CART;新浪微博;數(shù)據(jù)挖掘ABSTRACTOursociety,nowisfullofinformation。Basedontherapiddevelopmentofthedatawarehouseanddat(yī)aminingtechnology,competinginnetworkplatformincreasesdaybyday。Sothecustomermanagementbecomesoneofthemostimportantissues。Thispaper,basedonthetheory,technologyandmethodsaboutdat(yī)aminingandgotclassificationtreeforthemainideasofthemodeling.MadethecustomerinformationofMicro-blogintotheproperties-theConclusionform,usingtheCARTalgorithmofclassificationtree(cuò)whichbasedonthesmallestofGiniindex。Bybuildingthetree,pruningthetreeandassessingthetree,thecustomersareclassified.Asaresult,targetandnon-targetcustomersaredistinguishedrapidlyandaccurately。Basedonthedat(yī)amining,themodelsofmicro-blogwithtargetcustomersdosomeadjustments,thenwecanfinallygettheoptimizationmodel。Thecombinationofdatawarehousemodel,appliedtoreallifecangreatlyimproveefficiency,inotherwords,thecustomerorthecompanywillbothbenefitlotsfromthis。Keywords:DecisionTree;SearchingTargetCustomers;CART;Micro-blog;DataMining目錄TOC\o”1—3"\h\z\uHYPERLINK(一)研究背景?PAGEREF_Toc357985843\h1HYPERLINK\l"_Toc357985844"(二)選題目的 PAGEREF_Toc357985844\h2HYPERLINK\l"_Toc357985845"二、數(shù)據(jù)挖掘與客戶分類概述?PAGEREF_Toc357985845\h3HYPERLINK\l"_Toc357985846”(一)關(guān)于數(shù)據(jù)挖掘?PAGEREF_Toc357985846\h3HYPERLINK\l”_Toc357985847"1.?dāng)?shù)據(jù)挖掘的概念及其操作過程 PAGEREF_Toc357985847\h3HYPERLINK\l”_Toc357985849”2。數(shù)據(jù)挖掘常用技術(shù)?PAGEREF_Toc357985849\h5HYPERLINK\l"_Toc357985851”(二)關(guān)于客戶分類 PAGEREF_Toc357985851\h6HYPERLINK\l"_Toc357985852"1.客戶分類的概念 PAGEREF_Toc357985852\h6HYPERLINK\l”_Toc357985853”2.新浪微博客戶分類的意義 PAGEREF_Toc357985853\h6HYPERLINK\l"_Toc357985855”3.新浪微博客戶操作流程?PAGEREF_Toc357985855\h7HYPERLINK\l"_Toc357985856"4。新浪微博客戶分類中的具體應(yīng)用 PAGEREF_Toc357985856\h8HYPERLINK\l”_Toc357985857"5。新浪微博客戶分類及特征 PAGEREF_Toc357985857\h8HYPERLINK\l”_Toc357985858”三、CART算法及其在新浪微博客戶分類中的具體應(yīng)用 PAGEREF_Toc357985858\h10HYPERLINK\l”_Toc357985859”(一)CART算法簡(jiǎn)介 PAGEREF_Toc357985859\h10HYPERLINK(二)CART算法的優(yōu)缺點(diǎn)及適用性 PAGEREF_Toc357985863\h13HYPERLINK\l"_Toc357985864"(三)CART算法在新浪微博客戶分類中的具體應(yīng)用 PAGEREF_Toc357985864\h14HYPERLINK\l"_Toc357985865”1.問題定義?PAGEREF_Toc357985865\h142。數(shù)據(jù)準(zhǔn)備 PAGEREF_Toc357985866\h14HYPERLINK\l"_Toc357985867"3.數(shù)據(jù)變換 PAGEREF_Toc357985867\h16HYPERLINK\l"_Toc357985868"4。CART算法的具體應(yīng)用過程 PAGEREF_Toc357985868\h21HYPERLINK\l"_Toc357985869"四、對(duì)新浪微博客戶分類的結(jié)果分析?PAGEREF_Toc357985869\h28HYPERLINK\l"_Toc357985870"(一)客戶分類及其相應(yīng)的營(yíng)銷策略 PAGEREF_Toc357985870\h28HYPERLINK結(jié)論 PAGEREF_Toc357985872\h32HYPERLINK\l”_Toc357985873"參考文獻(xiàn) PAGEREF_Toc357985873\h33HYPERLINK\l”_Toc357985874"致謝 PAGEREF_Toc357985874\h34-PAGE1-一、前言由于通訊技術(shù)迅猛發(fā)展,中國(guó)網(wǎng)絡(luò)發(fā)生了根本性地改變,與國(guó)外相比,國(guó)內(nèi)的交流平臺(tái)面對(duì)著一個(gè)全新的,全球化的,競(jìng)爭(zhēng)更加激烈的市場(chǎng)環(huán)境。在這樣一個(gè)商業(yè)時(shí)代,資源占有率成為一個(gè)企業(yè)生死存亡的關(guān)鍵點(diǎn),客戶才是企業(yè)生存與發(fā)展的根本,而對(duì)于如何改善客戶服務(wù),增加客戶滿意度和忠誠(chéng)度,提升客戶價(jià)值來擴(kuò)大自身的收入和利潤(rùn),如何用信息化管理來替代原有的傳統(tǒng)管理手段等方法,是新浪門戶當(dāng)前解決的重要問題之一。因此,企業(yè)必須從“產(chǎn)品”導(dǎo)向向“客戶"導(dǎo)向轉(zhuǎn)變,從而對(duì)客戶進(jìn)行有效管理,深層分析存儲(chǔ)大量客戶信息的數(shù)據(jù)倉(cāng)庫(kù),提高企業(yè)市場(chǎng)競(jìng)爭(zhēng)力,獲得有利于商業(yè)運(yùn)作,有效信息從而創(chuàng)造更多的價(jià)值。而當(dāng)前的數(shù)據(jù)庫(kù)技術(shù)雖可以對(duì)數(shù)據(jù)高效查詢、分析及統(tǒng)計(jì),但是仍無法發(fā)現(xiàn)潛在的規(guī)律和聯(lián)系,因此便無法對(duì)未來發(fā)展的趨勢(shì)進(jìn)行更好地預(yù)測(cè),導(dǎo)致了一種“數(shù)據(jù)膨脹但是知識(shí)貧乏”的現(xiàn)象[1],這樣的需求便使數(shù)據(jù)挖掘這門技術(shù)孕育而生。數(shù)據(jù)挖掘技術(shù)是從先前不知的、大量的、模糊的、不完整的隨機(jī)的數(shù)據(jù)中提取潛在的有用的知識(shí)及信息的一個(gè)過程。正是有了這種技術(shù)的支持,才使得客戶分類的理念及目標(biāo)得以完成,滿足當(dāng)前時(shí)代激烈競(jìng)爭(zhēng)的需求。(一)研究背景根據(jù)CNZZ權(quán)威發(fā)布的第31次中國(guó)互聯(lián)網(wǎng)統(tǒng)計(jì)報(bào)告,截止到2012年12月底,我國(guó)微博用戶持續(xù)增長(zhǎng),規(guī)模達(dá)到3.09億,比較2011年增長(zhǎng)5873億,網(wǎng)民中的微博用戶較去年相比提升6個(gè)百分比,達(dá)到了54.7%[2]。網(wǎng)絡(luò)信息交換的新風(fēng)向標(biāo)新浪微博平臺(tái)的推廣,打破了時(shí)空的限制,改變了交流的形勢(shì),加速了整EQ個(gè)社會(huì)的信息快速流通。對(duì)于企業(yè)而言,有助于降低企業(yè)成本,提高企業(yè)競(jìng)爭(zhēng)力,能夠幫助企業(yè)“走出去”,快速交換、獲得信息。數(shù)據(jù)挖掘是分析與探索大量數(shù)據(jù),以求發(fā)現(xiàn)有意義的規(guī)則與模式的過程。同樣對(duì)于一個(gè)企業(yè)來說,數(shù)據(jù)挖掘過程能夠有助于發(fā)現(xiàn)企業(yè)業(yè)務(wù)發(fā)展的趨勢(shì),預(yù)測(cè)未知的結(jié)果,揭示已知的事實(shí),且?guī)椭髽I(yè)分析出完成要求任務(wù)所需的關(guān)鍵因素,從而達(dá)到降低成本、增加收入,使企業(yè)處于更有利的競(jìng)爭(zhēng)位置的目的。齊克芒德認(rèn)為,“成功的管理者必須同時(shí)了解營(yíng)銷概念和信息系統(tǒng)結(jié)構(gòu),才能持續(xù)形成全面、可靠和完整的客戶觀念并加以成功應(yīng)用”企業(yè)必須建立適合自己的客戶管理系統(tǒng),構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),將客戶關(guān)系管理系統(tǒng)與數(shù)據(jù)挖掘技術(shù)有效結(jié)合,深層分析存儲(chǔ)大量客戶信息的數(shù)據(jù)倉(cāng)庫(kù),提高企業(yè)市場(chǎng)競(jìng)爭(zhēng)力,獲得有利于商業(yè)運(yùn)作、有效信息,爭(zhēng)取新的客戶,讓已有的客戶創(chuàng)造更多的利潤(rùn)、保持住有價(jià)值的客戶[2]。從這些方面能夠看出,當(dāng)今社會(huì)數(shù)據(jù)挖掘技術(shù)對(duì)于客戶分類具有相當(dāng)重要的意義及作用。(二)選題目的作為如今人類生活溝通必需品且服務(wù)于社會(huì)各階層的新浪微博,其在互聯(lián)網(wǎng)、廣播、電視等各種媒體上的覆蓋面,各種實(shí)體上的推廣,和在網(wǎng)絡(luò)上的推廣,在社會(huì)上產(chǎn)生巨大的影響力及知名度,最終帶來了大量的目標(biāo)客戶群.同時(shí),由于新浪微博的特殊性,也帶來了大量的非目標(biāo)客戶。為降低成本,提高新浪微博生成效率,降低成本,如何在數(shù)量巨大的客戶中準(zhǔn)確地尋找到目標(biāo)客戶,成為一個(gè)急需解決的重要問題.從相關(guān)資料分析得出,新浪微博平臺(tái)往往帶來非目標(biāo)客戶如兒童、老人等,也帶來大量捏造的、虛假的客戶資料。而人工篩選目標(biāo)客戶只會(huì)大大降低整個(gè)市場(chǎng)的效益,浪費(fèi)了企業(yè)大量的物力、人力以及財(cái)力。因此如何建立合理的客戶篩選模型,定位目標(biāo)客戶顯得尤為重要。本論文采用數(shù)據(jù)挖掘的方法,分析模型的方式,建立客戶篩選模型,對(duì)這一問題進(jìn)行深入分析、研究。二、數(shù)據(jù)挖掘與客戶分類概述(一)關(guān)于數(shù)據(jù)挖掘在“數(shù)據(jù)膨脹但是只是貧乏”的時(shí)代,人們?yōu)榱四軌蚋玫睦矛F(xiàn)有數(shù)據(jù),對(duì)其進(jìn)行更深層次的分析。在經(jīng)過不斷完善后,如今,應(yīng)用在不同的領(lǐng)域,本小節(jié)的主要內(nèi)容便是介紹數(shù)據(jù)挖掘與分析的理論與技術(shù)。1。數(shù)據(jù)挖掘的概念及其操作過程(1)數(shù)據(jù)挖掘的概念隨著網(wǎng)絡(luò)信息化的到來、信息存儲(chǔ)技術(shù)及計(jì)算機(jī)數(shù)據(jù)庫(kù)技術(shù)的飛速發(fā)展,面臨著不是信息的匱乏,而是對(duì)于龐大數(shù)據(jù)庫(kù)感到不知所措,人們迫切想要從這些數(shù)據(jù)中提取有用的信息,為人類創(chuàng)造價(jià)值,因此有效的技術(shù)顯得尤為重要.與傳統(tǒng)的分析方法不同,數(shù)據(jù)挖掘技術(shù)(DateMining,DM)是在沒有明確的假設(shè)下挖掘信息和發(fā)現(xiàn)知識(shí),它是數(shù)據(jù)庫(kù)只是發(fā)現(xiàn)(KnowledgeDiscoverDat(yī)abase,KDD)中的一個(gè)步驟,是從龐大的數(shù)據(jù)中獲得潛在的、具有價(jià)值的知識(shí)及信息的過程而所得到的信息有有效性、事先未知及實(shí)用性的特點(diǎn).數(shù)據(jù)挖掘基于統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)、面向?qū)ο蠓椒?、人工智能、高性能?jì)算、機(jī)器學(xué)習(xí)、知識(shí)工程、信息檢索及數(shù)據(jù)可視化等多種技術(shù)結(jié)合為一體的多學(xué)科的交叉研究領(lǐng)域,不但能夠查詢歷史信息,還能從歷史信息中尋找相關(guān)潛在聯(lián)系,然后進(jìn)行高層次的分析,從中提取有價(jià)值的、潛在的模型、知識(shí)、模式和規(guī)律等,在此過程中,能夠根據(jù)已有的發(fā)現(xiàn)從而對(duì)未來進(jìn)行預(yù)測(cè),幫助決策者調(diào)整市場(chǎng),最后做出科學(xué)的決策.數(shù)據(jù)挖掘的目標(biāo)是幫助決策者找到數(shù)據(jù)間的特征(Pattern)、潛在的關(guān)聯(lián)性(Relation)、趨勢(shì)(Trend)等,發(fā)現(xiàn)容易被忽視的要素,對(duì)決策行為及預(yù)測(cè)未來十分有用[4].本論文在使用數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,從龐大的客戶數(shù)據(jù)庫(kù)中,找出目標(biāo)客戶,為企業(yè)贏得更多的人力,節(jié)省大量的物力、財(cái)力[6]且大大地提升企業(yè)的工作效率。(2)數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘是一個(gè)高效的、能從數(shù)據(jù)訓(xùn)練集中識(shí)別出潛在有用、新穎、有效及最終能夠被理解模式的過程.數(shù)據(jù)挖掘過程分為五個(gè)階段:抽樣、說明、預(yù)處理、建模以及挖掘結(jié)果的評(píng)估。數(shù)據(jù)挖掘是一個(gè)多步驟的過程,之間反復(fù)調(diào)整及相互影響,從而形成一個(gè)螺旋式的上升過程。該過程類似于蓄水池中水的迭代過程:從蓄水池中的水被抽取到表層,在經(jīng)過處理后,就會(huì)沉到下一層,然后經(jīng)過不停地循環(huán),直到最后一層,接著再次循環(huán)被抽取到頂層。CRISP—DM(Cross-industryStandardProcessForDat(yī)aMining),即為"跨行業(yè)數(shù)據(jù)挖掘過程標(biāo)準(zhǔn)"反映了一個(gè)完整的數(shù)據(jù)挖掘環(huán)境.CRISP過程如圖所示[7]:BusinessUnderstandingDataBusinessUnderstandingDataUnderstandingDataDataPreparationDataDataDeploymentDeploymentModelingModelingEvaluationEvaluation圖3。1CRISP過程數(shù)據(jù)挖掘的過程可以分為下列幾個(gè)步驟:提出問題、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模型評(píng)估及結(jié)果分析.故簡(jiǎn)化的數(shù)據(jù)挖掘流程如下[8],見圖2.2.1)提出問題:明確地定義問題,分析需求,判斷問題所屬的類別,確定所需的的數(shù)據(jù)挖掘方法,最終確定數(shù)據(jù)挖掘的目的。2)數(shù)據(jù)選擇:為進(jìn)行分析而收集數(shù)據(jù),這一步可能成為這一整個(gè)過程中最重要的步驟,這一步應(yīng)當(dāng)確定選取數(shù)據(jù)挖掘的訓(xùn)練集數(shù)據(jù)的變量和它們的值域.數(shù)據(jù)的選擇在很大程度上決定了模型最終建立的結(jié)果,訓(xùn)練集應(yīng)該具備一定得數(shù)據(jù),數(shù)據(jù)應(yīng)該從海量的數(shù)據(jù)中提取覆蓋所有數(shù)據(jù)來源、數(shù)據(jù)類型、數(shù)據(jù)內(nèi)容、數(shù)據(jù)格式等方面的數(shù)據(jù)。其次對(duì)數(shù)據(jù)進(jìn)行預(yù)處理把選取后的數(shù)據(jù)做進(jìn)一步的分析。即對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行質(zhì)量上的把控。3)數(shù)據(jù)變換:把選取后的數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)挖掘所需的類型。例如:目標(biāo)客戶尋找,需把客戶的各種靜態(tài)狀態(tài)用特定的符號(hào)表示,并把不同類型的數(shù)據(jù)分組、分類。4)數(shù)據(jù)挖掘:準(zhǔn)備好數(shù)據(jù)之后,就對(duì)這批數(shù)據(jù)和業(yè)務(wù)進(jìn)行研究,對(duì)該業(yè)務(wù)問題進(jìn)行需求分析,確定數(shù)據(jù)挖掘的任務(wù)和算法以及最終目的。目前基于研究各種特定的業(yè)務(wù)均有比價(jià)適合的算法和步驟.關(guān)鍵在于這些算法的組合和不同算法的組合運(yùn)用,以及算法的完善,使得適合最終更加地貼近實(shí)際,貼近業(yè)務(wù)方。5)模型評(píng)估及結(jié)果分析:一旦算法實(shí)現(xiàn)并得到結(jié)論之后,需要對(duì)模型進(jìn)行測(cè)試和評(píng)估,確定該模型是否適用,是否可以完成最初的任務(wù)目的,如果不可以達(dá)到最初目的就要重新檢測(cè)模型,甚至要更改模型的算法。結(jié)果分析是利用預(yù)測(cè)集數(shù)據(jù)去判斷,查看是否符合實(shí)際。如果符合實(shí)際情況,模型達(dá)到了任務(wù)目的,則需要用可視化的方式把該模型的結(jié)論,以及對(duì)業(yè)務(wù)方的建議表現(xiàn)出來.數(shù)據(jù)挖掘過程如下圖所示:數(shù)據(jù)準(zhǔn)備模型評(píng)估和結(jié)果分析數(shù)據(jù)挖掘問題定義數(shù)據(jù)變換數(shù)據(jù)準(zhǔn)備模型評(píng)估和結(jié)果分析數(shù)據(jù)挖掘問題定義數(shù)據(jù)變換圖3。2數(shù)據(jù)挖掘流程2.?dāng)?shù)據(jù)挖掘常用技術(shù)在數(shù)據(jù)處理的過程中,數(shù)據(jù)挖掘算法,亦數(shù)據(jù)挖掘方法,成為數(shù)據(jù)挖掘技術(shù)的核心。數(shù)據(jù)挖掘方法分為以下兩類:各種邏輯算法和決策樹—-分類和回歸樹算法。為本論文主要是是關(guān)于分類和回歸樹算法。而邏輯算法主要分為四類:關(guān)聯(lián)算法、人工神經(jīng)網(wǎng)絡(luò)、遺傳算法及粗糙集算法[9]。(1)關(guān)聯(lián)算法關(guān)聯(lián)算法是與大多數(shù)人群所認(rèn)為的數(shù)據(jù)挖掘最相似的一種數(shù)據(jù)挖掘的形式,主要針對(duì)的是事物型數(shù)據(jù)庫(kù)。在關(guān)聯(lián)規(guī)則中,規(guī)則是“如果是怎么樣,那么便是怎么樣”的一種行為,關(guān)聯(lián)規(guī)則根據(jù)關(guān)聯(lián)規(guī)則涉及的抽象層次,分成多層關(guān)聯(lián)規(guī)則和單層關(guān)聯(lián)規(guī)則。而根據(jù)關(guān)聯(lián)算法處理值的類型,又可分成布爾關(guān)聯(lián)規(guī)則和量化關(guān)聯(lián)規(guī)則兩類。而根據(jù)關(guān)聯(lián)規(guī)則涉及的抽象層次,又分為單層關(guān)聯(lián)規(guī)則及多層關(guān)聯(lián)規(guī)則,這種算法對(duì)于收獲數(shù)據(jù)來說,只需分析歷史事物數(shù)據(jù),便可對(duì)顧客的購(gòu)買行為提供有價(jià)的信息[10].(2)人工神經(jīng)算法簡(jiǎn)單神經(jīng)元構(gòu)成了神經(jīng)網(wǎng)絡(luò),通過非常豐富和完善的連接構(gòu)成自適應(yīng)非線性動(dòng)態(tài)系統(tǒng),具有著聯(lián)想記憶、自學(xué)習(xí)、自組織、自適應(yīng)分布存儲(chǔ)等功能。人工神經(jīng)網(wǎng)絡(luò)在生物神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,模擬人類的思維形式,通過簡(jiǎn)化、歸納、提煉總結(jié)出一種并行處理網(wǎng)絡(luò)。而人工神經(jīng)網(wǎng)絡(luò)的過程,主要分為學(xué)習(xí)與工作兩個(gè)階段,在學(xué)習(xí)的過程中,此算法一定要依靠學(xué)習(xí)算法,來此糾正學(xué)習(xí)過程中的偏誤差或偏離[11]。與其他方法一樣,神經(jīng)網(wǎng)絡(luò)在發(fā)現(xiàn)規(guī)則對(duì)其概括之前,需要檢測(cè)數(shù)據(jù)中存在的模式,最終獲得結(jié)論。目前,主要用在優(yōu)化、預(yù)測(cè)和控制、分類、模式識(shí)別等領(lǐng)域.(3)遺傳算法遺傳算法是基于達(dá)爾文進(jìn)化論學(xué)說中的基因突變、基因重組及自然選擇等,利用交叉(重組)、變異(突變)及復(fù)制(選擇)基本算子優(yōu)化求解,此算法最大特點(diǎn)是不僅有強(qiáng)大的搜索最優(yōu)解的能力,而且問題的最優(yōu)解和初始條件無任何關(guān)聯(lián).目前,此算法的運(yùn)用領(lǐng)域廣泛,如計(jì)算機(jī)科學(xué)、工程技術(shù)等領(lǐng)域,遺傳算法的研究工作有:分布并行遺傳算法、遺傳神經(jīng)網(wǎng)絡(luò)、分類系統(tǒng)、基礎(chǔ)理論等.(4)粗糙集算法粗糙集算法的特征是特征或?qū)傩缘臄?shù)量描述是不需要預(yù)先給定的,以統(tǒng)計(jì)學(xué)中概率分布、模糊集理論中隸屬函數(shù)等為例,直接給定問題為出發(fā)點(diǎn),通過不可分辨類所確定問題的近似域及不可分辨關(guān)系,從中找到此問題的內(nèi)在規(guī)則.此算法的核心領(lǐng)域?yàn)樵谥皇窃从趯?duì)對(duì)象的分類的思想上,通過分類找到屬性之間的關(guān)聯(lián)規(guī)則[12]。(5)決策樹決策樹(DecisionTree)用樹型結(jié)構(gòu)來表示決策集合或分類,根據(jù)不同特征,形成發(fā)展規(guī)律及規(guī)則。為了找尋數(shù)據(jù)庫(kù)中最大信息量的字段采用信息論中的信息增益即互信息,在建立決策樹的節(jié)點(diǎn)后,再根據(jù)每個(gè)字段的取值來構(gòu)建樹的分枝,又在每個(gè)分枝的子集中,建立節(jié)點(diǎn)與分枝的循環(huán)過程。而每個(gè)內(nèi)部節(jié)點(diǎn)是每個(gè)屬性上的測(cè)試,又由分枝表示測(cè)試的輸入.這樣便生成一個(gè)分類樹,接著對(duì)分類樹進(jìn)行剪枝處理,最后把分類樹轉(zhuǎn)化成為規(guī)則.在學(xué)習(xí)過程中,分類樹的算法不需要使用者了解大量的背景知識(shí),只要能夠用屬性-結(jié)論式表示訓(xùn)練集,便能夠使用該算法。改動(dòng)算法成本低,且效率高,適用于海量數(shù)據(jù)。例如尋找企業(yè)的目標(biāo)客戶,針對(duì)企業(yè)的巨大客戶群,通過分類樹的各種邏輯算法判斷是否為目標(biāo)客戶,大大地提高企業(yè)的效率[12][13].(二)關(guān)于客戶分類1.客戶分類的概念客戶分類這個(gè)概念是由美國(guó)學(xué)者溫德爾·史密斯在20世紀(jì)50年代中期所提出,是指在指定的市場(chǎng)及明確的戰(zhàn)略模式中,企業(yè)根據(jù)客戶的需求、行為、屬性、價(jià)值及偏好等因素對(duì)客戶進(jìn)行分類,且提供服務(wù)、銷售模式及有針對(duì)性的產(chǎn)品[3]。2。新浪微博客戶分類的意義當(dāng)前,越來越多的行業(yè)運(yùn)用客戶分類來實(shí)現(xiàn)企業(yè)利潤(rùn)的增長(zhǎng)及服務(wù)水平的提高。從客戶價(jià)值的方面,不同的客戶為企業(yè)提供不同的價(jià)值,企業(yè)要想知道哪些是企業(yè)的忠誠(chéng)客戶,哪些是企業(yè)的潛在客戶,哪些是企業(yè)最有價(jià)值的客戶,哪些客戶最容易流失,哪些客戶的成長(zhǎng)性最好,企業(yè)就必須對(duì)自己的客戶進(jìn)行分類。客戶分類的結(jié)果表明,企業(yè)通過分析及檢測(cè)不同類的客戶行為,針對(duì)不同的客戶群,采取相應(yīng)的措施。隨著新浪微博中不同客戶群的加入,這個(gè)市場(chǎng)顯示出異質(zhì)化及細(xì)分化的特點(diǎn),由于不同的職業(yè)、生活習(xí)慣、收入水平等等的差別不同的客戶顯示出不一樣的特征。而客戶分類不但能夠?yàn)樾吕宋⒉┲付ㄏ到y(tǒng)及科學(xué)的差別化提供了證據(jù),而且提高新浪微博中企業(yè)及個(gè)人的推廣。隨著,電信市場(chǎng)的蓬勃發(fā)展,不同的客戶差別漸漸凸顯出來,所以,客戶分類變得尤為重要。3.新浪微博客戶操作流程新浪微博為個(gè)人及企業(yè)提供快速交流的平臺(tái),其擁有著大量客戶。目前,微博客戶操作的流程如圖1。1所示:開拓,挖掘,激活審核,管理,分發(fā)開拓,挖掘,激活審核,管理,分發(fā)LEADS信息管理部市場(chǎng)調(diào)研部跟蹤,監(jiān)督,反饋跟蹤,監(jiān)督,反饋 數(shù)據(jù)挖掘和分析部圖1.1客戶招商流程圖(1)市場(chǎng)調(diào)研部門市場(chǎng)調(diào)研部門即獲取客戶,新浪微博獲得客戶信息的渠道很多,主要分為免費(fèi)及付費(fèi)的方式.免費(fèi)是網(wǎng)上資源互換,即通過自身發(fā)布的信息和對(duì)方進(jìn)行交換獲得客戶的信息。所有的推廣目的是吸引客戶提交信息,然后保存到數(shù)據(jù)庫(kù)。付費(fèi)是企業(yè)等通過利用新浪微博平臺(tái)擴(kuò)大知名度分為實(shí)體廣告、搜索引擎鏈接付費(fèi)推廣等而搜索引擎付費(fèi)推廣即通過新浪微博平臺(tái)利用關(guān)鍵字的排名,從中獲得客戶的信息。實(shí)體廣告即在新浪微博平臺(tái)上通過信息發(fā)布、宣傳圖等方式提高知名度,在推廣的過程中附帶著客服電話,最終得到了客戶的信息.這樣獲得客戶信息的方式天羅地網(wǎng),但是有一個(gè)缺點(diǎn)就是客戶散亂,存在著很多非目標(biāo)客戶,而查找目標(biāo)客戶就是本論文要解決的問題。(2)信息管理部獲取客戶或企業(yè)信息后,就要全面跟進(jìn)客戶。由于這兩種方式都能夠帶來許多的目標(biāo)客戶,為考慮到企業(yè)的整體效率,所以在將客戶或企業(yè)信息交給銷售跟進(jìn)之前要對(duì)信息進(jìn)行統(tǒng)一管理及細(xì)分,把最有效的客戶交給銷售來跟進(jìn),這樣能夠最大限度提升效率。對(duì)信息的管理主要包括三方面即提取目標(biāo)客戶,將目標(biāo)客戶進(jìn)行分類,和最后將信息分出優(yōu)先級(jí)。(3)數(shù)據(jù)挖掘與分析部數(shù)據(jù)挖掘與分析部門是對(duì)整個(gè)流程進(jìn)行把控,通過分析反饋效果,從而提出科學(xué)的決策,最后對(duì)流程的每個(gè)步驟進(jìn)行最優(yōu)化調(diào)整,使得企業(yè)效率最大化。4。新浪微博客戶分類中的具體應(yīng)用(1)客戶現(xiàn)狀及問題描述基于社會(huì)經(jīng)濟(jì)和網(wǎng)絡(luò)的飛速發(fā)展,通過各種渠道的推廣給新浪微博帶來了大量客戶,由于一些非可控因素從而導(dǎo)致了得到的客戶中存在著大量的非目標(biāo)客戶。目前,新浪門戶采取的措施是通過關(guān)鍵字篩選,然后一條一條的人工判斷。盡管,新浪門戶投入了巨大的財(cái)力、物力、人力對(duì)目標(biāo)客戶進(jìn)行篩選,但是仍無法降低新浪門戶的工作效率。而數(shù)據(jù)挖掘技術(shù)可以快速地從客戶數(shù)據(jù)庫(kù)中尋找到目標(biāo)客戶,在提升查找目標(biāo)客戶的準(zhǔn)確度上提高了新浪門戶的工作效率。(2)研究目標(biāo)在各種推廣渠道中,新浪微博平臺(tái)能夠收集到客戶的信息多為靜態(tài)信息,包括:用戶昵稱、性別、用戶UID、粉絲數(shù)、關(guān)注數(shù)、微博數(shù)、互粉數(shù)、地址、語(yǔ)言版本、是否認(rèn)證及注冊(cè)時(shí)間。由于客戶數(shù)據(jù)庫(kù)一定會(huì)存在錯(cuò)誤及缺失的情況,所以在建模的過程中,必須尋找一種允許數(shù)據(jù)存在錯(cuò)誤及缺失信息的模型.由于新浪微博收集的客戶信息量龐大,達(dá)到了上千萬(wàn)上億條,因此在建模的過程中,必需找到一種能迅速分析龐大數(shù)據(jù)庫(kù)的模型。在達(dá)到上述目標(biāo)下,構(gòu)建一種最優(yōu)化模型,能采用最低的成本,從龐大客戶數(shù)據(jù)庫(kù)中尋找到目標(biāo)客戶。5。新浪微博客戶分類及特征微博,簡(jiǎn)稱是微博客,是一個(gè)基于用戶關(guān)系的基礎(chǔ)上進(jìn)行信息分享、獲取和傳播平臺(tái)的客戶端,用戶能夠通過WEB、WAP等從而組建個(gè)人社區(qū),以200字以下的文字進(jìn)行更新信息,且能夠?qū)崿F(xiàn)時(shí)時(shí)分享的網(wǎng)絡(luò)新平臺(tái)。中國(guó)著名的門戶網(wǎng)站新浪(HYPERLINK"http://w”www。sina.com)于2009年8月份推出“新浪微博”,成為了中國(guó)電信市場(chǎng)第一個(gè)有微博功能的網(wǎng)站,因此微博正式進(jìn)入上網(wǎng)主流人群的視野,而2011年10月份,中國(guó)的微博用戶總數(shù)達(dá)到2。498億,成為了世界第一大國(guó).2012年12月,新浪微博平臺(tái)上進(jìn)行了一次微博用戶使用情況的調(diào)查。依據(jù)微博用戶的心理特征、規(guī)模和行為分析,把微博分成兩大類:個(gè)人用戶、組織和機(jī)構(gòu)。其中,機(jī)構(gòu)和組織,能夠分為公益機(jī)構(gòu)、政府部門、慈善組織,政府公司以及相關(guān)機(jī)構(gòu)。而個(gè)人用戶又分成名人(業(yè)內(nèi)知名人士、公司高層、娛樂體育界明星、知名學(xué)者及媒體人)和普通用戶.(1)普通網(wǎng)民即組織類、名人類及非機(jī)構(gòu)類的一般普通的微博用戶。該群體類用戶的特點(diǎn):用戶年齡范圍從15—60歲,跨度非常之大,其中,又以18-35歲的中青年為主體。用戶職業(yè)呈現(xiàn)多層次化結(jié)構(gòu),并且涉及到如今的各行各業(yè)。普通網(wǎng)民的主題是發(fā)表博文即轉(zhuǎn)發(fā)或原創(chuàng),傳播方式為裂變式(即1:n:n)[5],特征是影響力大,傳播的范圍廣。微博具體行為的使用分類四類:1)瀏覽關(guān)注人微博更新動(dòng)態(tài)寫微博2)參與熱點(diǎn)話題的討論3)隨便瀏覽,了解資訊4)發(fā)表觀點(diǎn)或發(fā)泄情緒.(2)企業(yè)即企業(yè)是從事生產(chǎn)、流通、服務(wù)等經(jīng)濟(jì)活動(dòng),以此來滿足社會(huì)的需求,實(shí)行獨(dú)立核算、依法設(shè)立、自主經(jīng)營(yíng),而且在新浪門戶中注冊(cè)微博,并對(duì)商戶認(rèn)證.該用戶群體特點(diǎn):所有行為都是以營(yíng)利為目的。使用微博的目的為:利用微博平臺(tái),進(jìn)行網(wǎng)絡(luò)營(yíng)銷,包括進(jìn)行網(wǎng)站推廣、網(wǎng)絡(luò)品牌、信息發(fā)布、在線調(diào)研、銷售促進(jìn)等。從根本上來說,企業(yè)使用微博的目的是提高企業(yè)的知名度,樹立企業(yè)的品牌,擴(kuò)大企業(yè)的經(jīng)濟(jì)效益。微博具體行為的使用分類五類:1)網(wǎng)絡(luò)公關(guān)(即指網(wǎng)絡(luò)危機(jī)公關(guān))2)更新企業(yè)的動(dòng)態(tài)信息3)進(jìn)行在線的調(diào)研4)顧客網(wǎng)上服務(wù)5)發(fā)起活動(dòng)(公益、娛樂及促銷)。三、CART算法及其在新浪微博客戶分類中的具體應(yīng)用(一)CART算法簡(jiǎn)介分類與回歸樹(ClassificationandRegressionTrees,CART)算法由Breiman等人于1984年提出,是分類數(shù)據(jù)挖掘算法的其中一種,可處理無序的或順序的類屬性數(shù)據(jù),也能夠處理多態(tài)的數(shù)據(jù)值或高度傾斜數(shù)據(jù)[15].CART選擇最小GINI系數(shù)值的屬性為測(cè)試屬性,GINI值越小,樣本純凈度就越高,劃分的效果便越好.它是描述一個(gè)給定預(yù)測(cè)X值后,變量條件Y分布的一種靈活算法.該模型采用二叉樹,將預(yù)測(cè)空間遞歸劃分成若干個(gè)子集,在子集上Y變量上的分布是均勻及連續(xù)的。劃分是由和各個(gè)內(nèi)部的節(jié)點(diǎn)有關(guān)的分類規(guī)則(ClassificationRule)所定奪的,而CART樹的葉子節(jié)點(diǎn)對(duì)應(yīng)著不同的被劃分的區(qū)域。通過樹根到葉子節(jié)點(diǎn)的移動(dòng),預(yù)測(cè)訓(xùn)練集被給予唯一一個(gè)的葉子節(jié)點(diǎn),而同時(shí)確定Y變量在此節(jié)點(diǎn)中的條件分布。CART算法使用如下結(jié)構(gòu)的學(xué)習(xí)樣本集。其中,L是訓(xùn)練樣本集,是屬性向量(AttributeVectors),其屬性可以是離散的或者是有序的的;Y是標(biāo)簽向量(LabelVectors),其屬性可以是離散的或者是有序的。Y是離散值,稱為分類決策樹;或Y是有序的數(shù)量值時(shí),稱為回歸決策樹樹。根據(jù)所定的樣本集L,由以下三個(gè)步驟構(gòu)建分類樹[16]:(1)低規(guī)劃分訓(xùn)練樣本:使用L構(gòu)建樹,使得中每一個(gè)葉節(jié)點(diǎn)要么很?。ńo定值大于節(jié)點(diǎn)內(nèi)部所含樣本數(shù)量);得到惟一的屬性向量作為分支選擇,或者純節(jié)點(diǎn)(節(jié)點(diǎn)內(nèi)部樣本Y僅僅包含一類)。(2)使用修剪算法構(gòu)建一個(gè)有限的遞減(節(jié)點(diǎn)數(shù)目)有序子樹序列。(3)使用評(píng)估算法從第(2)步產(chǎn)生的子樹序列中選出一棵最優(yōu)樹作為最終的決策樹。構(gòu)建樹構(gòu)建樹是將給定的訓(xùn)練樣本集L轉(zhuǎn)換成為相對(duì)應(yīng)L的最大二叉樹的過程。的構(gòu)建主要分為兩步驟:①數(shù)據(jù)預(yù)處理;②由根節(jié)點(diǎn)遞歸構(gòu)建。此過程應(yīng)用最大雜度削減算法,能夠?qū)ふ业阶罴训姆种б?guī)則.數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘過程的關(guān)鍵步驟之一便是對(duì)初始數(shù)據(jù)集的準(zhǔn)備及變換。首先,數(shù)據(jù)預(yù)處理是降低屬性向量的基數(shù),即把向量分成若干段。然后,針對(duì)屬性向量構(gòu)建標(biāo)準(zhǔn)問題集,其中符號(hào)屬性向量即離散屬性向量與連續(xù)屬性向量,兩者的標(biāo)準(zhǔn)問題集的構(gòu)建方法不相同[17]。降低屬性向量的基數(shù):對(duì)于屬性向量值進(jìn)行降低基數(shù)的工作,即按客戶的需求,針對(duì)各個(gè)屬性向量設(shè)定一組離散值,將該屬性向量在訓(xùn)練樣本集L上的取值分配到這組范圍值中。CART樹的生成決策樹的核心算法是確定決策樹分枝準(zhǔn)則,該準(zhǔn)則涉及到兩個(gè)方面問題:⑴如何在眾多的輸入變量中選擇出一個(gè)最佳的分組變量;⑵如何在分組變量的眾多取值中尋找到最佳的分割值。首先在生成原始樹中引入差異系數(shù)(diversityindex)的概念。此系數(shù)用于測(cè)度各個(gè)個(gè)結(jié)點(diǎn)內(nèi)n(n>=2)個(gè)類樣本的分布情況。在這里我們采用的是CART算法中最常用的雜質(zhì)函數(shù)基尼系數(shù)(GINI),公式如下:(3-1)其中,p(j/t)為目標(biāo)類別j在節(jié)點(diǎn)t中出現(xiàn)的比例.對(duì)于所有的P,所以GINI系數(shù)一定為正數(shù),除非其中的一個(gè)P為1,而其他比為0。節(jié)點(diǎn)T在X屬性下分為N1和N2兩個(gè)部分,那么GAIN指數(shù)就是:(3-2)而對(duì)訓(xùn)練集進(jìn)行劃分時(shí),劃分的規(guī)則是利用二叉樹的表示形式,CART算法的開始是從根節(jié)點(diǎn)進(jìn)行劃分,對(duì)各個(gè)結(jié)點(diǎn)進(jìn)行重復(fù)遞歸的過程[18]:(1)對(duì)于每個(gè)結(jié)點(diǎn),選擇各個(gè)屬性的最優(yōu)劃分點(diǎn)。根據(jù)樣本中對(duì)于分割規(guī)則“否”或“是”的回答,將結(jié)點(diǎn)劃分為左右兩個(gè)子結(jié)點(diǎn),從規(guī)則中尋找變量X,如果最小值,X那么這就是當(dāng)前屬性的最優(yōu)劃分點(diǎn)。(2)在上步驟所得到的最優(yōu)劃分點(diǎn)中選擇對(duì)此結(jié)點(diǎn)最優(yōu)的分割點(diǎn),成為此結(jié)點(diǎn)的分割規(guī)則。分割規(guī)則的確定依據(jù)是使(2)式最小。(3)重復(fù)對(duì)此結(jié)點(diǎn)分割出來的兩個(gè)結(jié)點(diǎn)進(jìn)行分割這一過程。直到樣本全部屬于同一類為止,或者持續(xù)到葉結(jié)點(diǎn)樣本個(gè)數(shù)極少(如少于5個(gè)),這時(shí)建成的樹層次多,葉結(jié)點(diǎn)多,此時(shí)該樹為。4.樹的剪枝判定樹創(chuàng)建完成后,由于數(shù)據(jù)中的孤立點(diǎn)及噪聲,很多分枝反映出訓(xùn)練集中的異常.剪枝方法解決這種過分適應(yīng)的數(shù)據(jù)問題,起到優(yōu)化的作用.這種方法一般使用統(tǒng)計(jì)度量,剪去最不可靠能夠產(chǎn)生誤差的分枝,加快分類的速度,提高了樹獨(dú)立于測(cè)試數(shù)據(jù)正確的分類的能力。剪枝(Pruning)分為先剪枝及后剪枝兩種。CART算法采取后剪枝(postpruning)的方法,后剪枝是一個(gè)過程,它由“完全生長(zhǎng)”的樹剪去分枝,決策樹剪枝可視為決策樹對(duì)構(gòu)造的邏輯延續(xù)。分為兩類:子數(shù)提升即剪掉樹葉節(jié)點(diǎn),使得剪枝后降低了決策樹的規(guī)模及提高決策樹的準(zhǔn)確率;子數(shù)置換即通過刪除節(jié)點(diǎn)的分枝。在刪減中,我們采用剪枝算法中代價(jià)復(fù)雜性剪枝也稱為CART剪枝,CART系統(tǒng)的代價(jià)復(fù)雜度最小(Minimalcost—complexitypruning)原則,測(cè)度方法如下所示:(3-3)a為復(fù)雜度參數(shù),;為該樹葉結(jié)點(diǎn)個(gè)數(shù);將Ra(T)理解成該樹加權(quán)錯(cuò)分率與對(duì)復(fù)雜度處罰值之和的復(fù)合成本.根據(jù)AIC信息準(zhǔn)則,a=2(k—1),k為分類數(shù),在分類的問題中取a值為2;當(dāng)a一定時(shí),由刪減后生成的兩個(gè)具有同樣R(T)值的樹,葉子結(jié)點(diǎn)越多,表示樹的復(fù)雜度變得越高,Ra(T)越大,則可取性卻變得越小。對(duì)刪減的過程中一定會(huì)產(chǎn)生一系列子樹。整個(gè)子樹子樹的生成是迭代而成的,這意味著是隨機(jī)對(duì)其中一個(gè)結(jié)點(diǎn)剪枝后生成的樹的集合中能夠使(3)式最小的樹;是隨機(jī)對(duì)其中一個(gè)節(jié)點(diǎn)修剪后生成的樹的集合中能夠使(3)式成為最小的樹,以此類推,直到兩個(gè)葉節(jié)點(diǎn)與最后的根結(jié)點(diǎn)所組成的。接著再以(3)式為選擇標(biāo)準(zhǔn),使用獨(dú)立的測(cè)試集對(duì)各個(gè)子樹的Ra(T)進(jìn)行估計(jì),進(jìn)而選擇Ra(T)最小的樹是最優(yōu)樹。修剪過程主要完成兩部分工作:(1)生成有序樹序列;(2)確定葉節(jié)點(diǎn)的所屬類。其修剪過程如下[18]:(1)構(gòu)建:首先在中將滿足R(t)=R(t)+R(t)的子樹剪枝,獲得的修剪后的子樹即為;(2)生成有序的子樹序列:任給中的節(jié)點(diǎn)t,記{t},則Ra(t)=R(t)+a。對(duì)于給定節(jié)點(diǎn)t的修剪子樹,則,只要,則表示取修剪后的子樹比原節(jié)點(diǎn)更合適。解如上不等式得到:所以也即只要,與t節(jié)點(diǎn)具有同樣的代價(jià)復(fù)雜度,由于t節(jié)點(diǎn)比的節(jié)點(diǎn)更少,因此t節(jié)點(diǎn)比更可取,這就是由修剪成為有序的子樹集的主要思想。對(duì)于前面所構(gòu)建完成的,t∈,設(shè)是t的修剪子樹,且令將所對(duì)應(yīng)的修剪掉,修建完成后所得到的樹標(biāo)記為。循環(huán)此過程,能夠產(chǎn)生系列子樹直到修剪后所得的以左右字?jǐn)?shù)及根為葉子節(jié)點(diǎn)的樹,并把它作為有序的子樹集的最后一個(gè)子樹。5.CART樹的最優(yōu)選擇決策樹剪枝完成后,生成一系列子樹,為了從中選擇出最優(yōu)樹,首先要做的便是對(duì)樹進(jìn)行評(píng)估,最高準(zhǔn)確性的樹便是我們需要的最優(yōu)樹。決策樹評(píng)估的主要有兩種方法:k-折交叉和簡(jiǎn)單驗(yàn)證。k-折交叉驗(yàn)證:當(dāng)所需分析的數(shù)據(jù)樣本數(shù)量較少時(shí),采用k-折交叉驗(yàn)證能夠有效的利用所有可能的數(shù)據(jù).交叉驗(yàn)證使用訓(xùn)練集中的一部分?jǐn)?shù)據(jù),訓(xùn)練集既用于訓(xùn)練且也用于測(cè)試,此方法的核心是創(chuàng)建多個(gè)測(cè)試決策樹,將訓(xùn)練集分成N個(gè)子集,創(chuàng)建N棵測(cè)試決策樹,在每次創(chuàng)建樹后,選擇一個(gè)子集作為測(cè)試集,其他N—1個(gè)子集為訓(xùn)練集。這樣,訓(xùn)練集中N個(gè)子集都參與了測(cè)試.K—折交叉驗(yàn)證避免了對(duì)獨(dú)立的和新的測(cè)試數(shù)據(jù)的要求,通過這種方法得到的最優(yōu)樹剔除了由于數(shù)據(jù)自身特性帶來的過度適應(yīng),且充分反映了數(shù)據(jù)中的一般特性。(二)CART算法的優(yōu)缺點(diǎn)及適用性分類回歸樹CART樹除了具有一般決策樹的高效性、易用性、易解釋性等特點(diǎn)外,還具備一些自身特點(diǎn)。如:CART算法沒有對(duì)目標(biāo)變量及預(yù)測(cè)變量概率分布上要求,這使得不會(huì)因?yàn)轭A(yù)測(cè)變量不同及目標(biāo)變量概率的分布造成的結(jié)果;CART算法能夠?qū)杖甭毼贿M(jìn)行處理,因此減少了由于空缺值所造成的信息偏差;CART算法能夠處理孤立點(diǎn)即在數(shù)據(jù)集中與其他數(shù)據(jù)具有不同特征的數(shù)據(jù),使孤立點(diǎn)成為一個(gè)單獨(dú)的葉子節(jié)點(diǎn),從而對(duì)進(jìn)一步的分支不會(huì)產(chǎn)生任何影響;CART算法使用二元分支,這能夠充分運(yùn)用全部的數(shù)據(jù),盡可能發(fā)現(xiàn)全部樹的結(jié)構(gòu);與其他算法如神經(jīng)網(wǎng)絡(luò)算法相比,CART算法的效率更高.但是,與其它統(tǒng)計(jì)分析方法相比,CART自身也存在缺點(diǎn),如:CART本身是一種大樣本的統(tǒng)計(jì)分析方法,樣本量較小時(shí)模型不穩(wěn)定;CART算法的模型的穩(wěn)定性較差,用類似研究資料建立的樹型模型往往存在差異。對(duì)于內(nèi)部同質(zhì)性較好的數(shù)據(jù),CART算法分析的結(jié)果與其它分析方法得到的結(jié)果基本一致。由于在實(shí)際應(yīng)用中,企業(yè)收集到的客戶信息缺失度較高,而這個(gè)算法同樣允許缺失數(shù)據(jù)的存在.基于以上CART算法的獨(dú)特優(yōu)點(diǎn),對(duì)于本次目標(biāo)客戶篩選,客戶信息能夠表達(dá)成屬性—結(jié)論式樣式,本文采用該模型。為從海量客戶中篩選目標(biāo)客戶,為大樣本的統(tǒng)計(jì)分析方法,建立比較穩(wěn)定的模型。這樣篩選的過程能夠加快,大幅度地提高企業(yè)效率.(三)CART算法在新浪微博客戶分類中的具體應(yīng)用對(duì)數(shù)量龐大的客戶數(shù)據(jù)集進(jìn)行數(shù)據(jù)管理,從而收集客戶的靜態(tài)信息,通過四個(gè)步驟:(1)數(shù)據(jù)的清洗;(2)樣本數(shù)據(jù)的選擇;(3)數(shù)據(jù)的重組;(4)對(duì)訓(xùn)練樣本集數(shù)據(jù)建立數(shù)據(jù)模型,使用CART算法進(jìn)行數(shù)據(jù)挖掘,在獲得目標(biāo)客戶的篩選模型后,接著對(duì)模型進(jìn)行評(píng)價(jià)及優(yōu)化,最后獲得目標(biāo)客戶篩選模型。1.問題定義目標(biāo)客戶的尋找就是從電信市場(chǎng)新浪微博所收集的龐大客戶數(shù)據(jù)集中尋找到目標(biāo)客戶,從而提高客戶獲得率。根據(jù)新浪微博在目標(biāo)客戶查找方面以往所積累的經(jīng)驗(yàn),以及新浪微博的特殊性,發(fā)現(xiàn)目標(biāo)客戶的查找就是對(duì)現(xiàn)有的客戶進(jìn)行數(shù)據(jù)挖掘然后分析,建立客戶特征,區(qū)分非目標(biāo)客戶及目標(biāo)客戶的特性,再建立目標(biāo)客戶查找模型,將模型運(yùn)用于實(shí)際中,海量地進(jìn)行目標(biāo)客戶的尋找,提高潛在客戶獲得率。收集到的客戶信息均為靜態(tài)信息即用數(shù)字資料或文字描述來反映已經(jīng)發(fā)生的各種經(jīng)濟(jì)活動(dòng),且主要包括:用戶昵稱、性別、用戶UID、粉絲數(shù)、關(guān)注數(shù)、微博數(shù)、互粉數(shù)、地址、語(yǔ)言版本、是否認(rèn)證及注冊(cè)時(shí)間。2.?dāng)?shù)據(jù)準(zhǔn)備在進(jìn)行數(shù)據(jù)挖掘之前,本文采用的是2012年12月份新浪微博的用戶數(shù)據(jù)。由于數(shù)據(jù)比較龐大,本文采用具有強(qiáng)大數(shù)據(jù)統(tǒng)計(jì)分析功能的clementine存放數(shù)據(jù),而在將數(shù)據(jù)導(dǎo)入clementine之前,先人工初步對(duì)變量進(jìn)行處理,刪除不需要的變量。在統(tǒng)計(jì)中發(fā)現(xiàn)2012年數(shù)據(jù)比較集中,而且數(shù)據(jù)質(zhì)量較高,因此本次數(shù)據(jù)主要采用新浪微博數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行建模。截止到2012年12月份為止,采取的樣本的數(shù)據(jù)共有50358人。有關(guān)變量如表3.1所示:表3。1新浪微博變量查詢時(shí)間日期型訓(xùn)練集收集日期用戶昵稱字符型用戶賬戶的名稱性別字符型男或女UID字符型用戶賬戶編號(hào)地址字符型用戶所住城市語(yǔ)言版本字符型所用語(yǔ)言認(rèn)證字符型是否被新浪微博認(rèn)證粉絲數(shù)整型擁有粉絲數(shù)量關(guān)注數(shù)整型被其他人關(guān)注數(shù)量互粉數(shù)整型相互關(guān)注數(shù)量微博數(shù)整型用戶發(fā)表信息數(shù)收藏?cái)?shù)整型用戶收藏信息數(shù)注冊(cè)時(shí)間日期型用戶賬戶注冊(cè)時(shí)間在數(shù)據(jù)導(dǎo)入clementine軟件之前,先人工的對(duì)變量進(jìn)行初步處理,刪除一些顯然不重要的變量。雖然clementine能對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,但是先排除一些輸入變量,這有助于提高所建模型的結(jié)果精準(zhǔn)度以及數(shù)據(jù)處理效率。UID是每個(gè)用戶所登記的ID號(hào),此標(biāo)識(shí)對(duì)于每條記錄來說都是單一的,一定不會(huì)出現(xiàn)重復(fù)的情況,從中可得知,變量UID只能代表其特征,而不是共同的特性,所以,也不能反映數(shù)據(jù)間的內(nèi)在關(guān)聯(lián),可以將其刪除。此外,變量查詢時(shí)間,由于本論文在同一時(shí)間段抽取數(shù)據(jù),所有的用戶的查詢時(shí)間段都是相同的為2012年12月,即查詢時(shí)間及注冊(cè)時(shí)間不能反映出客戶客戶分類的重要特征,對(duì)于后續(xù)的clementine無意義,所以也將其刪去。同樣,對(duì)于語(yǔ)言版本這個(gè)變量,由于新浪微博抽取數(shù)據(jù)為中華人民共和國(guó)大陸地區(qū),所有的用戶使用的都是簡(jiǎn)體中文,因此,刪除此變量。綜上所述,導(dǎo)入clementine軟件的變量分別為用戶昵稱、性別、地址、粉絲數(shù)、關(guān)注數(shù)、微博數(shù)及收藏?cái)?shù)。如下表所示:表3.2變量說明用戶昵稱字符型用戶賬戶的名稱性別字符型男或女地址字符型用戶所住城市粉絲數(shù)整型擁有粉絲數(shù)量關(guān)注數(shù)整型被其他人關(guān)注數(shù)量微博數(shù)整型相互關(guān)注數(shù)量收藏?cái)?shù)整型用戶發(fā)表信息數(shù)由于分類樹最大的特點(diǎn)為可以存在缺失數(shù)據(jù),故在抽取樣本時(shí)也考慮缺失的情況,缺失情況如下表3.1所示:表3.3缺失情況缺失項(xiàng)是否認(rèn)證缺失數(shù)207進(jìn)行相關(guān)性計(jì)算,由于新浪微博的基本信息主要為:用戶昵稱、性別、用戶UID、粉絲數(shù)、關(guān)注數(shù)、微博數(shù)、互粉數(shù)、地址、語(yǔ)言版本、是否認(rèn)證及注冊(cè)時(shí)間,這幾項(xiàng)靜態(tài)信息的都不存在著相關(guān),因此不對(duì)各項(xiàng)進(jìn)行相關(guān)性分析.3.數(shù)據(jù)變換(1)數(shù)據(jù)的預(yù)處理數(shù)據(jù)預(yù)處理是建模型前最后的工作,這一步驟也是整個(gè)建模過程中最為關(guān)鍵的一步,不精準(zhǔn)的數(shù)據(jù)將嚴(yán)重影響所建模型結(jié)果的精準(zhǔn)性,造成我們做出錯(cuò)誤的決策,然而好的數(shù)據(jù)能建立更加附和實(shí)際情況且更加精準(zhǔn)的模型。由于原始數(shù)據(jù)一定存在著空缺、噪聲、錯(cuò)誤等數(shù)據(jù),他們最終有一定程度地影響模型的過程和輸出,因此首先對(duì)數(shù)據(jù)進(jìn)行清洗。由于分類樹的最大優(yōu)點(diǎn)是能夠允許空缺數(shù)據(jù)的尋在,因此對(duì)于空缺的數(shù)值統(tǒng)一賦“null”,而對(duì)于本次數(shù)據(jù)清洗主要針對(duì)錯(cuò)誤的數(shù)據(jù)。數(shù)據(jù)的錯(cuò)誤主要表現(xiàn)在客戶信息失真情況上,例如:粉絲數(shù)的位數(shù)不正確,用戶昵稱采用重復(fù)值,故對(duì)這批數(shù)據(jù)刪除重復(fù)項(xiàng),避免影響了模型的準(zhǔn)確性.通過上述步驟的數(shù)據(jù)清洗,去除了影響模型輸出的數(shù)據(jù),由于原數(shù)據(jù)樣本過于龐大故隨機(jī)抽取前2000項(xiàng)作為研究對(duì)象。流圖如下所示:圖3.4抽取訓(xùn)練集得到的前2000項(xiàng)數(shù)據(jù)量,如下圖所示:圖3.52000項(xiàng)具體訓(xùn)練集(2)將數(shù)據(jù)分類匯總每個(gè)用戶都有很多變量,要識(shí)別目標(biāo)客戶,首先要做的是對(duì)各個(gè)變量值進(jìn)行分類匯總,例如:用戶的粉絲數(shù)可能會(huì)在某種程度上預(yù)示著用戶的行為,如果粉絲數(shù)量龐大,那么可能發(fā)表微博數(shù)量也大,在新浪微博平臺(tái)互動(dòng)性高,成為目標(biāo)客戶;如果粉絲數(shù)量較小,映射著在新浪微博平臺(tái)互動(dòng)性較低,那么可能成為非目標(biāo)客戶。這樣才能使數(shù)據(jù)更有意義,有助于下一步的研究.為了查看粉絲數(shù)、關(guān)注數(shù)、微博數(shù)、互粉數(shù)、收藏?cái)?shù)的每一項(xiàng)數(shù)值,利用圖形版及統(tǒng)計(jì)量進(jìn)行分析。具體如下所示:圖3。6數(shù)據(jù)分析由于數(shù)據(jù)訓(xùn)練集的范圍較大,故將變量劃分成若干個(gè)字段,這樣數(shù)據(jù)較為直觀,然后進(jìn)行分類匯總,這樣有利于后面建模的數(shù)據(jù)分析.具體如下表所示:表3.7數(shù)據(jù)分類粉絲數(shù)目關(guān)注數(shù)目微博數(shù)目收藏?cái)?shù)目互粉數(shù)目粉絲數(shù)≦5000關(guān)注數(shù)≤300微博數(shù)≦500收藏?cái)?shù)≦100互粉數(shù)≤2005000〈粉絲數(shù)≦10000300<關(guān)注數(shù)≤600500<微博數(shù)≦2000100<收藏?cái)?shù)≦300200<互粉數(shù)≤100010000<粉絲數(shù)≦50000600<關(guān)注數(shù)≤9002000<微博數(shù)≦5000300<收藏?cái)?shù)≦10001000<互粉數(shù)≤200050000<粉絲數(shù)≦100000900〈關(guān)注數(shù)≤12005000<微博數(shù)≦10000收藏?cái)?shù)>1000互粉數(shù)≧200010000<粉絲數(shù)≦2000001200〈關(guān)注數(shù)≤1500微博數(shù)>10000粉絲數(shù)>2000000關(guān)注數(shù)〉1500利用過濾字段選項(xiàng),將原始訓(xùn)練集中的粉絲數(shù)、關(guān)注數(shù)、微博數(shù)、收藏?cái)?shù)及互粉數(shù)過濾。具體操作如下圖所示:圖3.8過濾變量(3)變量值確定方法本論文目的主要為挖掘新浪微博平臺(tái)中的目標(biāo)客戶及非目標(biāo)客戶,目標(biāo)客戶指當(dāng)前活躍在新浪微博平臺(tái)的用戶,而非目標(biāo)客戶指的是當(dāng)前對(duì)新浪門戶做的貢獻(xiàn)不大,但在不久的將來可能給新浪門戶帶來更多價(jià)值及利潤(rùn)的用戶.不同的企業(yè)對(duì)于衡量標(biāo)準(zhǔn)有不同的定位:有的企業(yè)可能認(rèn)為只要用戶有粉絲數(shù),即使沒有微博數(shù)、收藏?cái)?shù),仍然可能從非目標(biāo)客戶轉(zhuǎn)為潛在客戶。但有的可能認(rèn)為微博數(shù)為第一考慮因素,只有發(fā)表過微博才能成為目標(biāo)客戶。對(duì)此,應(yīng)為衡量方法制定一個(gè)標(biāo)準(zhǔn)。在之前的數(shù)據(jù)的分類匯總及預(yù)處理過程中,我們已經(jīng)將對(duì)模型有關(guān)聯(lián)的變量進(jìn)行分析,這為我們?cè)诤竺嬷贫ê饬磕繕?biāo)客戶的標(biāo)準(zhǔn)提供了準(zhǔn)則??蛻魞r(jià)值的預(yù)測(cè)方法有很多,此處采用交易量評(píng)價(jià)法,交易量評(píng)價(jià)法以粉絲數(shù)的大小來衡量用戶的價(jià)值.因?yàn)橥ㄟ^直方圖及統(tǒng)計(jì)量中的分布直觀呈現(xiàn)所有變量取值,如下列圖所示:圖3.9關(guān)注數(shù)直方圖圖3.10互粉數(shù)直方圖圖3.11收藏?cái)?shù)直方圖圖3。12微博數(shù)直方圖通過分析預(yù)測(cè)目標(biāo)變量的范圍,目標(biāo)變量大致分為四類:1)互粉數(shù)〈200and1000<互粉數(shù)≤2000;2)300<收藏?cái)?shù)≤1000and5000<粉絲數(shù)≤50000;3)關(guān)注數(shù)≤300and600<關(guān)注數(shù)≤900and關(guān)注數(shù)≥1500and粉絲數(shù)≤5000and粉絲數(shù)>10000and收藏?cái)?shù)<100and300<收藏?cái)?shù)≤1000and500<微博數(shù)≤2000and5000<微博數(shù)≤10000;4)關(guān)注數(shù)≤300and600<關(guān)注數(shù)≤900and關(guān)注數(shù)≥1500and10微博數(shù)0<收藏?cái)?shù)≤300and收藏?cái)?shù)≥1000and10000〈粉絲數(shù)≤50000and100000<粉絲數(shù)≤200000and500<微博數(shù)≤2000and5000<微博數(shù)≤10000。在EXCEL表中增加一列字段,命名為目標(biāo)客戶。首先定義客戶是否為目標(biāo)客戶,然后將目標(biāo)變量加入到匯總后的EXCEL數(shù)據(jù)表中,結(jié)果如下圖所示:圖3.13處理后的訓(xùn)練集上述步驟便是數(shù)據(jù)預(yù)處理、分類匯總及確定變量,而此時(shí)的數(shù)據(jù)基本符合建模要求。接下來便是建模過程。4.CART算法的具體應(yīng)用過程在經(jīng)過上述步驟后,可以建立模型,CART算法的樹生長(zhǎng)階段的分支標(biāo)準(zhǔn)采用GINI指數(shù),選用K-折交驗(yàn)證法,將樹的深度設(shè)置為5層;由于允許缺失值存在,故不必對(duì)缺失值進(jìn)行處理。(1)建立模型在將數(shù)據(jù)導(dǎo)入后,抽取前2000項(xiàng)作為訓(xùn)練集數(shù)據(jù),根據(jù)對(duì)數(shù)據(jù)的分析,通過建立CART模型對(duì)數(shù)據(jù)做最后的分類,將“目標(biāo)客戶"作為輸出屬性即為預(yù)測(cè)變量,其余變量作為輸入屬性,首先根據(jù)變量的分布定義是否為目標(biāo)客戶,將各種變量用直方圖表示,最后得到數(shù)據(jù)流程圖如下圖所示:圖3.14模型建立圖執(zhí)行此數(shù)據(jù)流程圖中CART算法節(jié)點(diǎn),訓(xùn)練集的模型如下所示:圖3。15模式結(jié)果圖上圖所示,CART模型中目標(biāo)客戶結(jié)果及運(yùn)算規(guī)則,[]中表示為模型的結(jié)果,如[是]代表著目標(biāo)客戶;而[否]代表著非目標(biāo)客戶。此CART模型結(jié)果的依據(jù)是根據(jù)葉子節(jié)點(diǎn)中目標(biāo)客戶與非目標(biāo)客戶兩個(gè)目標(biāo)變量的比例分布,即在一個(gè)葉子節(jié)點(diǎn)中,若目標(biāo)客戶的數(shù)量超過非目標(biāo)客戶,那么此節(jié)點(diǎn)的預(yù)測(cè)結(jié)果為“是”,若情況相反便是“否”。(2)二叉樹模型圖對(duì)于上面的模型結(jié)果的二叉樹圖表示如下:目標(biāo)客戶節(jié)點(diǎn)0類別%n否50.0251000是49。975999總計(jì)100.0001999300<關(guān)注數(shù)≤600;900<關(guān)注數(shù)≤1500關(guān)注數(shù)≤300;600<關(guān)注數(shù)≤900;關(guān)注數(shù)≥1500節(jié)點(diǎn)1類別%n否51.863334是48.137310總計(jì)32。216644節(jié)點(diǎn)2類別%n否49。151666是50.849689總計(jì)67。7841355圖3。16根節(jié)點(diǎn)及其第一層節(jié)點(diǎn)表示圖微博數(shù)目粉絲數(shù)量改進(jìn)=0。001改進(jìn)=0。001 節(jié)點(diǎn)5類型%n否57.97140是42。02929總計(jì)3。45269微博數(shù)≤500微博數(shù)≥5005000<粉絲數(shù)≦10000粉絲數(shù)≦5000;粉絲數(shù)≥100000節(jié)點(diǎn)3類型%n否64.70622是32.29412總計(jì)1。70134節(jié)點(diǎn)4類型%n否51。148312是48.852298總計(jì)30.515610節(jié)點(diǎn)6類型%n否48.678626是51.322660總計(jì)64.3221286圖3.17節(jié)點(diǎn)1和節(jié)點(diǎn)2的二層子樹表示圖收藏?cái)?shù)目改進(jìn)值=0.000收藏?cái)?shù)≦300收藏?cái)?shù)≥300節(jié)點(diǎn)7類型%n否52.956215是47.044191總計(jì)20.310406節(jié)點(diǎn)8類型%n否47.54997是52.451107總計(jì)10。205204圖3.18節(jié)點(diǎn)3的三層子樹表示圖收藏?cái)?shù)目改進(jìn)值=0.000收藏?cái)?shù)≤100;300<收藏?cái)?shù)≦1000100<收藏?cái)?shù)≤300;收藏?cái)?shù)>1000節(jié)點(diǎn)11類型%n否52。956215是47.044191總計(jì)20。310406節(jié)點(diǎn)12類型%n否47.54997是52。451107總計(jì)10.205204圖3.19節(jié)點(diǎn)6的三層子樹表示圖互粉數(shù)目改進(jìn)值=0.000200<互粉數(shù)≦1000200<互粉數(shù);1000<互粉數(shù)≤2000節(jié)點(diǎn)13類型%n否54。046187是45。954159總計(jì)17.309346節(jié)點(diǎn)14類型%n否46.66728是53.33332總計(jì)3.00260圖3。20節(jié)點(diǎn)7的四層子樹表示圖粉絲數(shù)量改進(jìn)值=0.0015000<粉絲數(shù)≦500005000<粉絲數(shù);10000<互粉數(shù)≤20000節(jié)點(diǎn)15類型%n否31。0349是68.96620總計(jì)1.45129節(jié)點(diǎn)16類型%n否50.28688是49.71487總計(jì)8.754151圖3.21節(jié)點(diǎn)8的四層子樹表示圖微博數(shù)目改進(jìn)值=0。000500<微博數(shù)≦2000;5000<微博數(shù)≦100005000<微博數(shù);2000<微博數(shù)≤5000;微博數(shù)>10000節(jié)點(diǎn)17類型%n否31。0349是68.96620總計(jì)1。45129節(jié)點(diǎn)18類型%n否50.28688是49。71487總計(jì)8.754151圖3.22節(jié)點(diǎn)11的四層子樹表示圖粉絲數(shù)量改進(jìn)值=0.00010000<粉絲數(shù)≦50000;100000〈粉絲數(shù)≤2000005000<粉絲數(shù);50000<粉絲數(shù)≤100000;粉絲數(shù)〉200000節(jié)點(diǎn)19類型%n否47.22234是52。77838總計(jì)3.60272節(jié)點(diǎn)20類型%n否55.07276是44。92862總計(jì)6.903138圖3.23節(jié)點(diǎn)12的四層子樹表示圖粉絲數(shù)量改進(jìn)值=0。0005000≤粉絲數(shù);10000<粉絲數(shù)≤5000050000〈粉絲數(shù)節(jié)點(diǎn)27類型%n否53.46554是46.53547總計(jì)5。053101節(jié)點(diǎn)28類型%n否48。193200是51。807215總計(jì)20。760415圖3.24節(jié)點(diǎn)17的五層子樹表示圖粉絲數(shù)量改進(jìn)值=0.000500≤微博數(shù);2000<微博數(shù)≤5000500<微博數(shù)≤2000;5000〈微博數(shù)≤10000節(jié)點(diǎn)29類型%n否57。14312是42.8579總計(jì)1.05121節(jié)點(diǎn)30類型%n否43.13722是56.86329總計(jì)2.55151圖3.25節(jié)點(diǎn)19的五層子樹表示圖CART算法的模型結(jié)果圖中,能夠清楚地看到模型的整體結(jié)構(gòu),其中有29個(gè)節(jié)點(diǎn)(Node),“否"代表非目標(biāo)客戶,“是”代表目標(biāo)客戶,n代表著在這個(gè)狀態(tài)下客戶的數(shù)量,%代表著在此狀態(tài)下目標(biāo)客戶或非目標(biāo)客戶所占的比例。整個(gè)模型有1個(gè)根節(jié)點(diǎn),將之記為0,共有30個(gè)節(jié)點(diǎn),根節(jié)點(diǎn)下共分為5層,故模型的深度為5層,每個(gè)節(jié)點(diǎn)都標(biāo)注清楚這個(gè)節(jié)點(diǎn)所包含非目標(biāo)客戶和目標(biāo)客戶的人數(shù)及目標(biāo)客戶或非目標(biāo)客戶占總客戶總數(shù)的比例。從總體情況來說,該模型已經(jīng)達(dá)到了預(yù)期的效果.利用快速的方法,從龐大客戶群中篩選目標(biāo)客戶。而且目標(biāo)客戶及非目標(biāo)客戶的判斷正確率均在能夠控制的范圍之內(nèi)。一旦將該模型利用到實(shí)際中去,將會(huì)大大地提高效率。圖3。26節(jié)點(diǎn)1—3中目標(biāo)客戶與非目標(biāo)客戶比例圖3.27節(jié)點(diǎn)1-6中目標(biāo)客戶與非目標(biāo)客戶比例圖3.28節(jié)點(diǎn)7—30中目標(biāo)客戶與非目標(biāo)客戶比例上圖表明了每個(gè)節(jié)點(diǎn)中目標(biāo)客戶與非目標(biāo)客戶的比例。以節(jié)點(diǎn)15為例,非目標(biāo)客戶的數(shù)量過半,這表明了此節(jié)點(diǎn)的預(yù)測(cè)結(jié)果為非目標(biāo)客戶,而從根節(jié)點(diǎn)到這個(gè)節(jié)點(diǎn)的路徑便是一條非目標(biāo)客戶的識(shí)別規(guī)則。Clementine軟件對(duì)于變量重要性分析,如下圖所示:表3.29目標(biāo)客戶變量重要性分析CART算法檢驗(yàn)結(jié)果如下圖:表3。30CART算法準(zhǔn)確度的分析圖四、對(duì)新浪微博客戶分類的結(jié)果分析(一)客戶分類及其相應(yīng)的營(yíng)銷策略通過客戶的靜態(tài)信息,采用回歸分類樹的算法,從海量的客戶中篩選出目標(biāo)客戶。同時(shí)運(yùn)用CART算法對(duì)客戶信息進(jìn)行特征學(xué)習(xí),得到判斷客戶是否為目標(biāo)客戶僅需粉絲數(shù)、微博數(shù)、關(guān)注數(shù)、收藏?cái)?shù)、互粉數(shù)。最終達(dá)到提高企業(yè)效率的目的。1.非目標(biāo)客戶在四種情況下為非目標(biāo)客戶:當(dāng)300<關(guān)注數(shù)≤600或900<關(guān)注數(shù)≤1500且微博數(shù)<500時(shí),100≤收藏?cái)?shù)≤300且互粉數(shù)≤200或1000<互粉數(shù)≤2000;當(dāng)300〈關(guān)注數(shù)≤600或900<關(guān)注數(shù)≤1500且微博數(shù)<500時(shí),收藏?cái)?shù)>300且5000〈互粉數(shù)≤50000;關(guān)注數(shù)≤300或600〈關(guān)注數(shù)≤900或關(guān)注數(shù)≥1500且粉絲數(shù)≤5000或粉絲數(shù)〉10000時(shí),收藏?cái)?shù)≤100或300<收藏?cái)?shù)≤10000且500〈微博數(shù)≤2000或5000<微博數(shù)≤10000且50000<粉絲數(shù)≤100000;關(guān)注數(shù)≤300或600<關(guān)注數(shù)≤900或關(guān)注數(shù)≥1500且粉絲數(shù)≤5000或粉絲數(shù)>10000時(shí),100<收藏?cái)?shù)≤300或收藏?cái)?shù)>10000且10000〈粉絲數(shù)≤50000或100000<粉絲數(shù)≤200000且5000<微博數(shù)≤10000。具體見下表3.24所示:表3.31非目標(biāo)客戶情況情況一情況二情況三情況四300<關(guān)注數(shù)≤600or900<關(guān)注數(shù)≤1500300<關(guān)注數(shù)≤600or900〈關(guān)注數(shù)≤1500關(guān)注數(shù)≤300or600<關(guān)注數(shù)≤900or關(guān)注數(shù)≥1500關(guān)注數(shù)≤300or600<關(guān)注數(shù)≤900or關(guān)注數(shù)≥1500微博數(shù)<500微博數(shù)〈500粉絲數(shù)≤5000or粉絲數(shù)>10000or10000〈粉絲數(shù)≤50000or100000<粉絲數(shù)≤200000粉絲數(shù)≤5000or粉絲數(shù)>10000or10000<粉絲數(shù)≤50000or100000〈粉絲數(shù)≤200000收藏?cái)?shù)≤100or300〈收藏?cái)?shù)≤10000100≤收藏?cái)?shù)≤300收藏?cái)?shù)>300100<收藏?cái)?shù)≤300or收藏?cái)?shù)>10000500<微博數(shù)≤2000or5000<微博數(shù)≤10000and50000<粉絲數(shù)≤100000互粉數(shù)≤200or1000<互粉數(shù)≤20005000〈互粉數(shù)≤500005000<微博數(shù)≤10000對(duì)于非目標(biāo)客戶來說,首先要將他們轉(zhuǎn)化成潛在客戶.措施有以下5種:1)應(yīng)用節(jié)日吸引客戶。很多節(jié)日是自然和某種產(chǎn)物有關(guān)聯(lián)的,如型牌男裝企業(yè)微博于五一勞動(dòng)節(jié)、父親節(jié)組織活動(dòng)且對(duì)此評(píng)價(jià),讓更多男性受眾體驗(yàn)他們的產(chǎn)物;還有喜歡尚鮮花網(wǎng)的微博,在母親節(jié)策劃寫祝愿語(yǔ)的運(yùn)動(dòng)、代送母親鮮花的運(yùn)動(dòng),都吸引了很多粉絲的參加,體驗(yàn)了鮮花傳遞情緒的魅力。2)籌劃有構(gòu)思的運(yùn)動(dòng)堆積粉絲。關(guān)于一個(gè)企業(yè)微博來說,需求不時(shí)發(fā)明創(chuàng)新的話題和運(yùn)動(dòng),才干源源不時(shí)地吸引更多的粉絲參加.飄飄龍先在淘寶網(wǎng)的論壇上組織粉絲到巴厘島往旅行,又轉(zhuǎn)到新浪微博上直播粉絲在巴厘島上天天的運(yùn)動(dòng),開端是送100只圍脖熊給微博上的受眾,后來又特制了2米高的泰迪熊,吸引了幾千名粉絲參加運(yùn)動(dòng)。3)應(yīng)用微博上的關(guān)鍵詞查找吸引客戶.在微博平臺(tái)上,一個(gè)十分風(fēng)趣的特征就是在這個(gè)平臺(tái)上有很多伴侶在議論公司,議論產(chǎn)物和效勞,議論同業(yè),議論相關(guān)行業(yè)的話題,這些碎碎語(yǔ)里鑲嵌了太多的關(guān)鍵詞,經(jīng)過如許的關(guān)鍵詞,就可以從中找到對(duì)方??梢栽谖⒉┢脚_(tái)查找框上查找如許連續(xù)串的關(guān)鍵詞,如產(chǎn)物的關(guān)鍵詞你行業(yè)的關(guān)鍵詞、存眷的地域的關(guān)鍵詞、存眷的市場(chǎng)的關(guān)鍵詞、公司的關(guān)鍵詞、品牌的關(guān)鍵詞、企業(yè)擔(dān)任人的關(guān)鍵詞、與行業(yè)定見首領(lǐng)相關(guān)的關(guān)鍵詞、相關(guān)HYPERLINK”http://home.51.com/?_sid=homek”\t”_blank"話題的關(guān)鍵詞等。在查找今后,就會(huì)呈現(xiàn)評(píng)論者,他們很有能夠就是企業(yè)存眷的客戶。4)經(jīng)過群組吸引客戶。在新浪微博上,可以本人組建群組,也可以參加到一些曾經(jīng)組建起來的群組。有很多群組會(huì)帶有分明的產(chǎn)物關(guān)聯(lián)、地域關(guān)聯(lián)、性別關(guān)聯(lián),他們都為一些企業(yè)便利地聯(lián)絡(luò)目的客戶發(fā)明了極好的條件,從而吸引用戶。5)應(yīng)用各類社會(huì)熱門話題吸引客戶。社交媒體有一個(gè)明顯的特點(diǎn),人們之間的交流是有內(nèi)容的交流,這種內(nèi)容假如是一起關(guān)懷的,就會(huì)上升為話題評(píng)論.伶俐的企業(yè)就會(huì)舉行各類話題評(píng)論,從參加者中發(fā)現(xiàn)潛伏客戶。2.目標(biāo)客戶在下列六種情況下為目標(biāo)客戶:當(dāng)300<關(guān)注數(shù)≤600或900〈關(guān)注數(shù)≤1500時(shí),粉絲數(shù)≤500;100≤收藏?cái)?shù)≤300且互粉數(shù)≤200或1000<互粉數(shù)≤2000;當(dāng)300<關(guān)注數(shù)≤600或900<關(guān)注數(shù)≤1500時(shí),微博數(shù)〉500,收藏?cái)?shù)≤300且200<互粉數(shù)≤1000;關(guān)注數(shù)≤300或600<關(guān)注數(shù)≤900或關(guān)注數(shù)≥1500且粉絲數(shù)≤5000或粉絲數(shù)>10000時(shí),收藏?cái)?shù)≤100或300〈收藏?cái)?shù)≤1000且500<微博數(shù)≤2000或5000<微博數(shù)≤10000且粉絲數(shù)≤5000或10000<粉絲數(shù)≤50000;關(guān)注數(shù)≤300或600<關(guān)注數(shù)≤900或關(guān)注數(shù)≥1500且粉絲數(shù)≤5000或粉絲數(shù)〉10000時(shí),100<收藏?cái)?shù)≤300或收藏?cái)?shù)>10000且10000<粉絲數(shù)≤50000或100000<粉絲數(shù)≤200000微博數(shù)≤500或2000<微博數(shù)≤5000;關(guān)注數(shù)≤300或600<關(guān)注數(shù)≤900或關(guān)注數(shù)≥1500且粉絲數(shù)≤5000或粉絲數(shù)>10000時(shí),100<收藏?cái)?shù)≤300或收藏?cái)?shù)>1000且粉絲數(shù)≤5000或50000<粉絲數(shù)≤100000或粉絲數(shù)>2000000;關(guān)注數(shù)≤300或600<關(guān)注數(shù)≤900或關(guān)注數(shù)≥1500時(shí),5000<粉絲數(shù)≤10000.最終可匯總成四中情況,具體見下表3.32所示:表3。32目標(biāo)客戶情況情況一情況二情況三情況四300<關(guān)注數(shù)≤600or900<關(guān)注數(shù)≤1500300<關(guān)注數(shù)or600<關(guān)注數(shù)≤900or關(guān)注數(shù)≥1500300<關(guān)注數(shù)or600<關(guān)注數(shù)≤900or關(guān)注數(shù)≥1500300<關(guān)注數(shù)or600<關(guān)注數(shù)≤900or關(guān)注數(shù)≥1500粉絲數(shù)≤500粉絲數(shù)≤500or粉絲數(shù)>10000粉絲數(shù)≤500or粉絲數(shù)〉10000粉絲數(shù)≤500or粉絲數(shù)〉10000微博數(shù)>500or收藏?cái)?shù)≤300and200<互粉數(shù)≤1000收藏?cái)?shù)≤100or300〈收藏?cái)?shù)≤1000and500<微博數(shù)≤2000or5000<微博數(shù)≤10000and1000〈粉絲數(shù)≤50000or粉絲數(shù)≤5000100<收藏?cái)?shù)≤300and20

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論