CART算法在新浪微博客戶分類中的應用研究_第1頁
CART算法在新浪微博客戶分類中的應用研究_第2頁
CART算法在新浪微博客戶分類中的應用研究_第3頁
CART算法在新浪微博客戶分類中的應用研究_第4頁
CART算法在新浪微博客戶分類中的應用研究_第5頁
已閱讀5頁,還剩33頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

濟南大學畢業(yè)論文PAGEII-濟南大學畢業(yè)論文摘要基于當今這個高度信息化的時代,數據挖掘技術及數據倉庫的高速發(fā)展,通過網絡平臺交流的用戶日趨增加,客戶分類就成為了當今社會首要解決的問題。本論文在數據挖掘的理論、方法及技術上,以決策樹為建模主要思想,采用決策樹中的基于Gini指數的分類和回歸樹(CART)算法,把新浪微博客戶信息轉化為屬性—結論式的形式,通過構建樹、修剪樹、評估模型三步驟,將客戶進行分類,從而快速準確地區(qū)分目標客戶及非目標客戶。在數據挖掘技術模型的基礎上,將新浪微博的目標客戶模型做部分的調整,最終能夠得到最優(yōu)化模型。該模型有著響應時間較短且精度高的特點,若運用到實際生活中能夠大大地提升客戶分類的效率,那么無論是企業(yè)還是個人都將從中受益良多。關鍵詞:決策樹;目標客戶;CART;新浪微博;數據挖掘ABSTRACTOursociety,nowisfullofinformation。Basedontherapiddevelopmentofthedatawarehouseanddat(yī)aminingtechnology,competinginnetworkplatformincreasesdaybyday。Sothecustomermanagementbecomesoneofthemostimportantissues。Thispaper,basedonthetheory,technologyandmethodsaboutdat(yī)aminingandgotclassificationtreeforthemainideasofthemodeling.MadethecustomerinformationofMicro-blogintotheproperties-theConclusionform,usingtheCARTalgorithmofclassificationtreewhichbasedonthesmallestofGiniindex。Bybuildingthetree,pruningthetreeandassessingthetree,thecustomersareclassified.Asaresult,targetandnon-targetcustomersaredistinguishedrapidlyandaccurately。Basedonthedat(yī)amining,themodelsofmicro-blogwithtargetcustomersdosomeadjustments,thenwecanfinallygettheoptimizationmodel。Thecombinationofdatawarehousemodel,appliedtoreallifecangreatlyimproveefficiency,inotherwords,thecustomerorthecompanywillbothbenefitlotsfromthis。Keywords:DecisionTree;SearchingTargetCustomers;CART;Micro-blog;DataMining目錄TOC\o”1—3"\h\z\uHYPERLINK(一)研究背景?PAGEREF_Toc357985843\h1HYPERLINK\l"_Toc357985844"(二)選題目的 PAGEREF_Toc357985844\h2HYPERLINK\l"_Toc357985845"二、數據挖掘與客戶分類概述?PAGEREF_Toc357985845\h3HYPERLINK\l"_Toc357985846”(一)關于數據挖掘?PAGEREF_Toc357985846\h3HYPERLINK\l”_Toc357985847"1.數據挖掘的概念及其操作過程 PAGEREF_Toc357985847\h3HYPERLINK\l”_Toc357985849”2。數據挖掘常用技術?PAGEREF_Toc357985849\h5HYPERLINK\l"_Toc357985851”(二)關于客戶分類 PAGEREF_Toc357985851\h6HYPERLINK\l"_Toc357985852"1.客戶分類的概念 PAGEREF_Toc357985852\h6HYPERLINK\l”_Toc357985853”2.新浪微博客戶分類的意義 PAGEREF_Toc357985853\h6HYPERLINK\l"_Toc357985855”3.新浪微博客戶操作流程?PAGEREF_Toc357985855\h7HYPERLINK\l"_Toc357985856"4。新浪微博客戶分類中的具體應用 PAGEREF_Toc357985856\h8HYPERLINK\l”_Toc357985857"5。新浪微博客戶分類及特征 PAGEREF_Toc357985857\h8HYPERLINK\l”_Toc357985858”三、CART算法及其在新浪微博客戶分類中的具體應用 PAGEREF_Toc357985858\h10HYPERLINK\l”_Toc357985859”(一)CART算法簡介 PAGEREF_Toc357985859\h10HYPERLINK(二)CART算法的優(yōu)缺點及適用性 PAGEREF_Toc357985863\h13HYPERLINK\l"_Toc357985864"(三)CART算法在新浪微博客戶分類中的具體應用 PAGEREF_Toc357985864\h14HYPERLINK\l"_Toc357985865”1.問題定義?PAGEREF_Toc357985865\h142。數據準備 PAGEREF_Toc357985866\h14HYPERLINK\l"_Toc357985867"3.數據變換 PAGEREF_Toc357985867\h16HYPERLINK\l"_Toc357985868"4。CART算法的具體應用過程 PAGEREF_Toc357985868\h21HYPERLINK\l"_Toc357985869"四、對新浪微博客戶分類的結果分析?PAGEREF_Toc357985869\h28HYPERLINK\l"_Toc357985870"(一)客戶分類及其相應的營銷策略 PAGEREF_Toc357985870\h28HYPERLINK結論 PAGEREF_Toc357985872\h32HYPERLINK\l”_Toc357985873"參考文獻 PAGEREF_Toc357985873\h33HYPERLINK\l”_Toc357985874"致謝 PAGEREF_Toc357985874\h34-PAGE1-一、前言由于通訊技術迅猛發(fā)展,中國網絡發(fā)生了根本性地改變,與國外相比,國內的交流平臺面對著一個全新的,全球化的,競爭更加激烈的市場環(huán)境。在這樣一個商業(yè)時代,資源占有率成為一個企業(yè)生死存亡的關鍵點,客戶才是企業(yè)生存與發(fā)展的根本,而對于如何改善客戶服務,增加客戶滿意度和忠誠度,提升客戶價值來擴大自身的收入和利潤,如何用信息化管理來替代原有的傳統管理手段等方法,是新浪門戶當前解決的重要問題之一。因此,企業(yè)必須從“產品”導向向“客戶"導向轉變,從而對客戶進行有效管理,深層分析存儲大量客戶信息的數據倉庫,提高企業(yè)市場競爭力,獲得有利于商業(yè)運作,有效信息從而創(chuàng)造更多的價值。而當前的數據庫技術雖可以對數據高效查詢、分析及統計,但是仍無法發(fā)現潛在的規(guī)律和聯系,因此便無法對未來發(fā)展的趨勢進行更好地預測,導致了一種“數據膨脹但是知識貧乏”的現象[1],這樣的需求便使數據挖掘這門技術孕育而生。數據挖掘技術是從先前不知的、大量的、模糊的、不完整的隨機的數據中提取潛在的有用的知識及信息的一個過程。正是有了這種技術的支持,才使得客戶分類的理念及目標得以完成,滿足當前時代激烈競爭的需求。(一)研究背景根據CNZZ權威發(fā)布的第31次中國互聯網統計報告,截止到2012年12月底,我國微博用戶持續(xù)增長,規(guī)模達到3.09億,比較2011年增長5873億,網民中的微博用戶較去年相比提升6個百分比,達到了54.7%[2]。網絡信息交換的新風向標新浪微博平臺的推廣,打破了時空的限制,改變了交流的形勢,加速了整EQ個社會的信息快速流通。對于企業(yè)而言,有助于降低企業(yè)成本,提高企業(yè)競爭力,能夠幫助企業(yè)“走出去”,快速交換、獲得信息。數據挖掘是分析與探索大量數據,以求發(fā)現有意義的規(guī)則與模式的過程。同樣對于一個企業(yè)來說,數據挖掘過程能夠有助于發(fā)現企業(yè)業(yè)務發(fā)展的趨勢,預測未知的結果,揭示已知的事實,且?guī)椭髽I(yè)分析出完成要求任務所需的關鍵因素,從而達到降低成本、增加收入,使企業(yè)處于更有利的競爭位置的目的。齊克芒德認為,“成功的管理者必須同時了解營銷概念和信息系統結構,才能持續(xù)形成全面、可靠和完整的客戶觀念并加以成功應用”企業(yè)必須建立適合自己的客戶管理系統,構建數據倉庫,將客戶關系管理系統與數據挖掘技術有效結合,深層分析存儲大量客戶信息的數據倉庫,提高企業(yè)市場競爭力,獲得有利于商業(yè)運作、有效信息,爭取新的客戶,讓已有的客戶創(chuàng)造更多的利潤、保持住有價值的客戶[2]。從這些方面能夠看出,當今社會數據挖掘技術對于客戶分類具有相當重要的意義及作用。(二)選題目的作為如今人類生活溝通必需品且服務于社會各階層的新浪微博,其在互聯網、廣播、電視等各種媒體上的覆蓋面,各種實體上的推廣,和在網絡上的推廣,在社會上產生巨大的影響力及知名度,最終帶來了大量的目標客戶群.同時,由于新浪微博的特殊性,也帶來了大量的非目標客戶。為降低成本,提高新浪微博生成效率,降低成本,如何在數量巨大的客戶中準確地尋找到目標客戶,成為一個急需解決的重要問題.從相關資料分析得出,新浪微博平臺往往帶來非目標客戶如兒童、老人等,也帶來大量捏造的、虛假的客戶資料。而人工篩選目標客戶只會大大降低整個市場的效益,浪費了企業(yè)大量的物力、人力以及財力。因此如何建立合理的客戶篩選模型,定位目標客戶顯得尤為重要。本論文采用數據挖掘的方法,分析模型的方式,建立客戶篩選模型,對這一問題進行深入分析、研究。二、數據挖掘與客戶分類概述(一)關于數據挖掘在“數據膨脹但是只是貧乏”的時代,人們?yōu)榱四軌蚋玫睦矛F有數據,對其進行更深層次的分析。在經過不斷完善后,如今,應用在不同的領域,本小節(jié)的主要內容便是介紹數據挖掘與分析的理論與技術。1。數據挖掘的概念及其操作過程(1)數據挖掘的概念隨著網絡信息化的到來、信息存儲技術及計算機數據庫技術的飛速發(fā)展,面臨著不是信息的匱乏,而是對于龐大數據庫感到不知所措,人們迫切想要從這些數據中提取有用的信息,為人類創(chuàng)造價值,因此有效的技術顯得尤為重要.與傳統的分析方法不同,數據挖掘技術(DateMining,DM)是在沒有明確的假設下挖掘信息和發(fā)現知識,它是數據庫只是發(fā)現(KnowledgeDiscoverDat(yī)abase,KDD)中的一個步驟,是從龐大的數據中獲得潛在的、具有價值的知識及信息的過程而所得到的信息有有效性、事先未知及實用性的特點.數據挖掘基于統計學、數據庫技術、面向對象方法、人工智能、高性能計算、機器學習、知識工程、信息檢索及數據可視化等多種技術結合為一體的多學科的交叉研究領域,不但能夠查詢歷史信息,還能從歷史信息中尋找相關潛在聯系,然后進行高層次的分析,從中提取有價值的、潛在的模型、知識、模式和規(guī)律等,在此過程中,能夠根據已有的發(fā)現從而對未來進行預測,幫助決策者調整市場,最后做出科學的決策.數據挖掘的目標是幫助決策者找到數據間的特征(Pattern)、潛在的關聯性(Relation)、趨勢(Trend)等,發(fā)現容易被忽視的要素,對決策行為及預測未來十分有用[4].本論文在使用數據挖掘技術的基礎上,從龐大的客戶數據庫中,找出目標客戶,為企業(yè)贏得更多的人力,節(jié)省大量的物力、財力[6]且大大地提升企業(yè)的工作效率。(2)數據挖掘過程數據挖掘是一個高效的、能從數據訓練集中識別出潛在有用、新穎、有效及最終能夠被理解模式的過程.數據挖掘過程分為五個階段:抽樣、說明、預處理、建模以及挖掘結果的評估。數據挖掘是一個多步驟的過程,之間反復調整及相互影響,從而形成一個螺旋式的上升過程。該過程類似于蓄水池中水的迭代過程:從蓄水池中的水被抽取到表層,在經過處理后,就會沉到下一層,然后經過不停地循環(huán),直到最后一層,接著再次循環(huán)被抽取到頂層。CRISP—DM(Cross-industryStandardProcessForDat(yī)aMining),即為"跨行業(yè)數據挖掘過程標準"反映了一個完整的數據挖掘環(huán)境.CRISP過程如圖所示[7]:BusinessUnderstandingDataBusinessUnderstandingDataUnderstandingDataDataPreparationDataDataDeploymentDeploymentModelingModelingEvaluationEvaluation圖3。1CRISP過程數據挖掘的過程可以分為下列幾個步驟:提出問題、數據選擇、數據變換、數據挖掘、模型評估及結果分析.故簡化的數據挖掘流程如下[8],見圖2.2.1)提出問題:明確地定義問題,分析需求,判斷問題所屬的類別,確定所需的的數據挖掘方法,最終確定數據挖掘的目的。2)數據選擇:為進行分析而收集數據,這一步可能成為這一整個過程中最重要的步驟,這一步應當確定選取數據挖掘的訓練集數據的變量和它們的值域.數據的選擇在很大程度上決定了模型最終建立的結果,訓練集應該具備一定得數據,數據應該從海量的數據中提取覆蓋所有數據來源、數據類型、數據內容、數據格式等方面的數據。其次對數據進行預處理把選取后的數據做進一步的分析。即對訓練集數據進行質量上的把控。3)數據變換:把選取后的數據轉換成數據挖掘所需的類型。例如:目標客戶尋找,需把客戶的各種靜態(tài)狀態(tài)用特定的符號表示,并把不同類型的數據分組、分類。4)數據挖掘:準備好數據之后,就對這批數據和業(yè)務進行研究,對該業(yè)務問題進行需求分析,確定數據挖掘的任務和算法以及最終目的。目前基于研究各種特定的業(yè)務均有比價適合的算法和步驟.關鍵在于這些算法的組合和不同算法的組合運用,以及算法的完善,使得適合最終更加地貼近實際,貼近業(yè)務方。5)模型評估及結果分析:一旦算法實現并得到結論之后,需要對模型進行測試和評估,確定該模型是否適用,是否可以完成最初的任務目的,如果不可以達到最初目的就要重新檢測模型,甚至要更改模型的算法。結果分析是利用預測集數據去判斷,查看是否符合實際。如果符合實際情況,模型達到了任務目的,則需要用可視化的方式把該模型的結論,以及對業(yè)務方的建議表現出來.數據挖掘過程如下圖所示:數據準備模型評估和結果分析數據挖掘問題定義數據變換數據準備模型評估和結果分析數據挖掘問題定義數據變換圖3。2數據挖掘流程2.數據挖掘常用技術在數據處理的過程中,數據挖掘算法,亦數據挖掘方法,成為數據挖掘技術的核心。數據挖掘方法分為以下兩類:各種邏輯算法和決策樹—-分類和回歸樹算法。為本論文主要是是關于分類和回歸樹算法。而邏輯算法主要分為四類:關聯算法、人工神經網絡、遺傳算法及粗糙集算法[9]。(1)關聯算法關聯算法是與大多數人群所認為的數據挖掘最相似的一種數據挖掘的形式,主要針對的是事物型數據庫。在關聯規(guī)則中,規(guī)則是“如果是怎么樣,那么便是怎么樣”的一種行為,關聯規(guī)則根據關聯規(guī)則涉及的抽象層次,分成多層關聯規(guī)則和單層關聯規(guī)則。而根據關聯算法處理值的類型,又可分成布爾關聯規(guī)則和量化關聯規(guī)則兩類。而根據關聯規(guī)則涉及的抽象層次,又分為單層關聯規(guī)則及多層關聯規(guī)則,這種算法對于收獲數據來說,只需分析歷史事物數據,便可對顧客的購買行為提供有價的信息[10].(2)人工神經算法簡單神經元構成了神經網絡,通過非常豐富和完善的連接構成自適應非線性動態(tài)系統,具有著聯想記憶、自學習、自組織、自適應分布存儲等功能。人工神經網絡在生物神經網絡的基礎上,模擬人類的思維形式,通過簡化、歸納、提煉總結出一種并行處理網絡。而人工神經網絡的過程,主要分為學習與工作兩個階段,在學習的過程中,此算法一定要依靠學習算法,來此糾正學習過程中的偏誤差或偏離[11]。與其他方法一樣,神經網絡在發(fā)現規(guī)則對其概括之前,需要檢測數據中存在的模式,最終獲得結論。目前,主要用在優(yōu)化、預測和控制、分類、模式識別等領域.(3)遺傳算法遺傳算法是基于達爾文進化論學說中的基因突變、基因重組及自然選擇等,利用交叉(重組)、變異(突變)及復制(選擇)基本算子優(yōu)化求解,此算法最大特點是不僅有強大的搜索最優(yōu)解的能力,而且問題的最優(yōu)解和初始條件無任何關聯.目前,此算法的運用領域廣泛,如計算機科學、工程技術等領域,遺傳算法的研究工作有:分布并行遺傳算法、遺傳神經網絡、分類系統、基礎理論等.(4)粗糙集算法粗糙集算法的特征是特征或屬性的數量描述是不需要預先給定的,以統計學中概率分布、模糊集理論中隸屬函數等為例,直接給定問題為出發(fā)點,通過不可分辨類所確定問題的近似域及不可分辨關系,從中找到此問題的內在規(guī)則.此算法的核心領域為在只是源于對對象的分類的思想上,通過分類找到屬性之間的關聯規(guī)則[12]。(5)決策樹決策樹(DecisionTree)用樹型結構來表示決策集合或分類,根據不同特征,形成發(fā)展規(guī)律及規(guī)則。為了找尋數據庫中最大信息量的字段采用信息論中的信息增益即互信息,在建立決策樹的節(jié)點后,再根據每個字段的取值來構建樹的分枝,又在每個分枝的子集中,建立節(jié)點與分枝的循環(huán)過程。而每個內部節(jié)點是每個屬性上的測試,又由分枝表示測試的輸入.這樣便生成一個分類樹,接著對分類樹進行剪枝處理,最后把分類樹轉化成為規(guī)則.在學習過程中,分類樹的算法不需要使用者了解大量的背景知識,只要能夠用屬性-結論式表示訓練集,便能夠使用該算法。改動算法成本低,且效率高,適用于海量數據。例如尋找企業(yè)的目標客戶,針對企業(yè)的巨大客戶群,通過分類樹的各種邏輯算法判斷是否為目標客戶,大大地提高企業(yè)的效率[12][13].(二)關于客戶分類1.客戶分類的概念客戶分類這個概念是由美國學者溫德爾·史密斯在20世紀50年代中期所提出,是指在指定的市場及明確的戰(zhàn)略模式中,企業(yè)根據客戶的需求、行為、屬性、價值及偏好等因素對客戶進行分類,且提供服務、銷售模式及有針對性的產品[3]。2。新浪微博客戶分類的意義當前,越來越多的行業(yè)運用客戶分類來實現企業(yè)利潤的增長及服務水平的提高。從客戶價值的方面,不同的客戶為企業(yè)提供不同的價值,企業(yè)要想知道哪些是企業(yè)的忠誠客戶,哪些是企業(yè)的潛在客戶,哪些是企業(yè)最有價值的客戶,哪些客戶最容易流失,哪些客戶的成長性最好,企業(yè)就必須對自己的客戶進行分類。客戶分類的結果表明,企業(yè)通過分析及檢測不同類的客戶行為,針對不同的客戶群,采取相應的措施。隨著新浪微博中不同客戶群的加入,這個市場顯示出異質化及細分化的特點,由于不同的職業(yè)、生活習慣、收入水平等等的差別不同的客戶顯示出不一樣的特征。而客戶分類不但能夠為新浪微博指定系統及科學的差別化提供了證據,而且提高新浪微博中企業(yè)及個人的推廣。隨著,電信市場的蓬勃發(fā)展,不同的客戶差別漸漸凸顯出來,所以,客戶分類變得尤為重要。3.新浪微博客戶操作流程新浪微博為個人及企業(yè)提供快速交流的平臺,其擁有著大量客戶。目前,微博客戶操作的流程如圖1。1所示:開拓,挖掘,激活審核,管理,分發(fā)開拓,挖掘,激活審核,管理,分發(fā)LEADS信息管理部市場調研部跟蹤,監(jiān)督,反饋跟蹤,監(jiān)督,反饋 數據挖掘和分析部圖1.1客戶招商流程圖(1)市場調研部門市場調研部門即獲取客戶,新浪微博獲得客戶信息的渠道很多,主要分為免費及付費的方式.免費是網上資源互換,即通過自身發(fā)布的信息和對方進行交換獲得客戶的信息。所有的推廣目的是吸引客戶提交信息,然后保存到數據庫。付費是企業(yè)等通過利用新浪微博平臺擴大知名度分為實體廣告、搜索引擎鏈接付費推廣等而搜索引擎付費推廣即通過新浪微博平臺利用關鍵字的排名,從中獲得客戶的信息。實體廣告即在新浪微博平臺上通過信息發(fā)布、宣傳圖等方式提高知名度,在推廣的過程中附帶著客服電話,最終得到了客戶的信息.這樣獲得客戶信息的方式天羅地網,但是有一個缺點就是客戶散亂,存在著很多非目標客戶,而查找目標客戶就是本論文要解決的問題。(2)信息管理部獲取客戶或企業(yè)信息后,就要全面跟進客戶。由于這兩種方式都能夠帶來許多的目標客戶,為考慮到企業(yè)的整體效率,所以在將客戶或企業(yè)信息交給銷售跟進之前要對信息進行統一管理及細分,把最有效的客戶交給銷售來跟進,這樣能夠最大限度提升效率。對信息的管理主要包括三方面即提取目標客戶,將目標客戶進行分類,和最后將信息分出優(yōu)先級。(3)數據挖掘與分析部數據挖掘與分析部門是對整個流程進行把控,通過分析反饋效果,從而提出科學的決策,最后對流程的每個步驟進行最優(yōu)化調整,使得企業(yè)效率最大化。4。新浪微博客戶分類中的具體應用(1)客戶現狀及問題描述基于社會經濟和網絡的飛速發(fā)展,通過各種渠道的推廣給新浪微博帶來了大量客戶,由于一些非可控因素從而導致了得到的客戶中存在著大量的非目標客戶。目前,新浪門戶采取的措施是通過關鍵字篩選,然后一條一條的人工判斷。盡管,新浪門戶投入了巨大的財力、物力、人力對目標客戶進行篩選,但是仍無法降低新浪門戶的工作效率。而數據挖掘技術可以快速地從客戶數據庫中尋找到目標客戶,在提升查找目標客戶的準確度上提高了新浪門戶的工作效率。(2)研究目標在各種推廣渠道中,新浪微博平臺能夠收集到客戶的信息多為靜態(tài)信息,包括:用戶昵稱、性別、用戶UID、粉絲數、關注數、微博數、互粉數、地址、語言版本、是否認證及注冊時間。由于客戶數據庫一定會存在錯誤及缺失的情況,所以在建模的過程中,必須尋找一種允許數據存在錯誤及缺失信息的模型.由于新浪微博收集的客戶信息量龐大,達到了上千萬上億條,因此在建模的過程中,必需找到一種能迅速分析龐大數據庫的模型。在達到上述目標下,構建一種最優(yōu)化模型,能采用最低的成本,從龐大客戶數據庫中尋找到目標客戶。5。新浪微博客戶分類及特征微博,簡稱是微博客,是一個基于用戶關系的基礎上進行信息分享、獲取和傳播平臺的客戶端,用戶能夠通過WEB、WAP等從而組建個人社區(qū),以200字以下的文字進行更新信息,且能夠實現時時分享的網絡新平臺。中國著名的門戶網站新浪(HYPERLINK"http://w”www。sina.com)于2009年8月份推出“新浪微博”,成為了中國電信市場第一個有微博功能的網站,因此微博正式進入上網主流人群的視野,而2011年10月份,中國的微博用戶總數達到2。498億,成為了世界第一大國.2012年12月,新浪微博平臺上進行了一次微博用戶使用情況的調查。依據微博用戶的心理特征、規(guī)模和行為分析,把微博分成兩大類:個人用戶、組織和機構。其中,機構和組織,能夠分為公益機構、政府部門、慈善組織,政府公司以及相關機構。而個人用戶又分成名人(業(yè)內知名人士、公司高層、娛樂體育界明星、知名學者及媒體人)和普通用戶.(1)普通網民即組織類、名人類及非機構類的一般普通的微博用戶。該群體類用戶的特點:用戶年齡范圍從15—60歲,跨度非常之大,其中,又以18-35歲的中青年為主體。用戶職業(yè)呈現多層次化結構,并且涉及到如今的各行各業(yè)。普通網民的主題是發(fā)表博文即轉發(fā)或原創(chuàng),傳播方式為裂變式(即1:n:n)[5],特征是影響力大,傳播的范圍廣。微博具體行為的使用分類四類:1)瀏覽關注人微博更新動態(tài)寫微博2)參與熱點話題的討論3)隨便瀏覽,了解資訊4)發(fā)表觀點或發(fā)泄情緒.(2)企業(yè)即企業(yè)是從事生產、流通、服務等經濟活動,以此來滿足社會的需求,實行獨立核算、依法設立、自主經營,而且在新浪門戶中注冊微博,并對商戶認證.該用戶群體特點:所有行為都是以營利為目的。使用微博的目的為:利用微博平臺,進行網絡營銷,包括進行網站推廣、網絡品牌、信息發(fā)布、在線調研、銷售促進等。從根本上來說,企業(yè)使用微博的目的是提高企業(yè)的知名度,樹立企業(yè)的品牌,擴大企業(yè)的經濟效益。微博具體行為的使用分類五類:1)網絡公關(即指網絡危機公關)2)更新企業(yè)的動態(tài)信息3)進行在線的調研4)顧客網上服務5)發(fā)起活動(公益、娛樂及促銷)。三、CART算法及其在新浪微博客戶分類中的具體應用(一)CART算法簡介分類與回歸樹(ClassificationandRegressionTrees,CART)算法由Breiman等人于1984年提出,是分類數據挖掘算法的其中一種,可處理無序的或順序的類屬性數據,也能夠處理多態(tài)的數據值或高度傾斜數據[15].CART選擇最小GINI系數值的屬性為測試屬性,GINI值越小,樣本純凈度就越高,劃分的效果便越好.它是描述一個給定預測X值后,變量條件Y分布的一種靈活算法.該模型采用二叉樹,將預測空間遞歸劃分成若干個子集,在子集上Y變量上的分布是均勻及連續(xù)的。劃分是由和各個內部的節(jié)點有關的分類規(guī)則(ClassificationRule)所定奪的,而CART樹的葉子節(jié)點對應著不同的被劃分的區(qū)域。通過樹根到葉子節(jié)點的移動,預測訓練集被給予唯一一個的葉子節(jié)點,而同時確定Y變量在此節(jié)點中的條件分布。CART算法使用如下結構的學習樣本集。其中,L是訓練樣本集,是屬性向量(AttributeVectors),其屬性可以是離散的或者是有序的的;Y是標簽向量(LabelVectors),其屬性可以是離散的或者是有序的。Y是離散值,稱為分類決策樹;或Y是有序的數量值時,稱為回歸決策樹樹。根據所定的樣本集L,由以下三個步驟構建分類樹[16]:(1)低規(guī)劃分訓練樣本:使用L構建樹,使得中每一個葉節(jié)點要么很?。ńo定值大于節(jié)點內部所含樣本數量);得到惟一的屬性向量作為分支選擇,或者純節(jié)點(節(jié)點內部樣本Y僅僅包含一類)。(2)使用修剪算法構建一個有限的遞減(節(jié)點數目)有序子樹序列。(3)使用評估算法從第(2)步產生的子樹序列中選出一棵最優(yōu)樹作為最終的決策樹。構建樹構建樹是將給定的訓練樣本集L轉換成為相對應L的最大二叉樹的過程。的構建主要分為兩步驟:①數據預處理;②由根節(jié)點遞歸構建。此過程應用最大雜度削減算法,能夠尋找到最佳的分支規(guī)則.數據預處理數據挖掘過程的關鍵步驟之一便是對初始數據集的準備及變換。首先,數據預處理是降低屬性向量的基數,即把向量分成若干段。然后,針對屬性向量構建標準問題集,其中符號屬性向量即離散屬性向量與連續(xù)屬性向量,兩者的標準問題集的構建方法不相同[17]。降低屬性向量的基數:對于屬性向量值進行降低基數的工作,即按客戶的需求,針對各個屬性向量設定一組離散值,將該屬性向量在訓練樣本集L上的取值分配到這組范圍值中。CART樹的生成決策樹的核心算法是確定決策樹分枝準則,該準則涉及到兩個方面問題:⑴如何在眾多的輸入變量中選擇出一個最佳的分組變量;⑵如何在分組變量的眾多取值中尋找到最佳的分割值。首先在生成原始樹中引入差異系數(diversityindex)的概念。此系數用于測度各個個結點內n(n>=2)個類樣本的分布情況。在這里我們采用的是CART算法中最常用的雜質函數基尼系數(GINI),公式如下:(3-1)其中,p(j/t)為目標類別j在節(jié)點t中出現的比例.對于所有的P,所以GINI系數一定為正數,除非其中的一個P為1,而其他比為0。節(jié)點T在X屬性下分為N1和N2兩個部分,那么GAIN指數就是:(3-2)而對訓練集進行劃分時,劃分的規(guī)則是利用二叉樹的表示形式,CART算法的開始是從根節(jié)點進行劃分,對各個結點進行重復遞歸的過程[18]:(1)對于每個結點,選擇各個屬性的最優(yōu)劃分點。根據樣本中對于分割規(guī)則“否”或“是”的回答,將結點劃分為左右兩個子結點,從規(guī)則中尋找變量X,如果最小值,X那么這就是當前屬性的最優(yōu)劃分點。(2)在上步驟所得到的最優(yōu)劃分點中選擇對此結點最優(yōu)的分割點,成為此結點的分割規(guī)則。分割規(guī)則的確定依據是使(2)式最小。(3)重復對此結點分割出來的兩個結點進行分割這一過程。直到樣本全部屬于同一類為止,或者持續(xù)到葉結點樣本個數極少(如少于5個),這時建成的樹層次多,葉結點多,此時該樹為。4.樹的剪枝判定樹創(chuàng)建完成后,由于數據中的孤立點及噪聲,很多分枝反映出訓練集中的異常.剪枝方法解決這種過分適應的數據問題,起到優(yōu)化的作用.這種方法一般使用統計度量,剪去最不可靠能夠產生誤差的分枝,加快分類的速度,提高了樹獨立于測試數據正確的分類的能力。剪枝(Pruning)分為先剪枝及后剪枝兩種。CART算法采取后剪枝(postpruning)的方法,后剪枝是一個過程,它由“完全生長”的樹剪去分枝,決策樹剪枝可視為決策樹對構造的邏輯延續(xù)。分為兩類:子數提升即剪掉樹葉節(jié)點,使得剪枝后降低了決策樹的規(guī)模及提高決策樹的準確率;子數置換即通過刪除節(jié)點的分枝。在刪減中,我們采用剪枝算法中代價復雜性剪枝也稱為CART剪枝,CART系統的代價復雜度最小(Minimalcost—complexitypruning)原則,測度方法如下所示:(3-3)a為復雜度參數,;為該樹葉結點個數;將Ra(T)理解成該樹加權錯分率與對復雜度處罰值之和的復合成本.根據AIC信息準則,a=2(k—1),k為分類數,在分類的問題中取a值為2;當a一定時,由刪減后生成的兩個具有同樣R(T)值的樹,葉子結點越多,表示樹的復雜度變得越高,Ra(T)越大,則可取性卻變得越小。對刪減的過程中一定會產生一系列子樹。整個子樹子樹的生成是迭代而成的,這意味著是隨機對其中一個結點剪枝后生成的樹的集合中能夠使(3)式最小的樹;是隨機對其中一個節(jié)點修剪后生成的樹的集合中能夠使(3)式成為最小的樹,以此類推,直到兩個葉節(jié)點與最后的根結點所組成的。接著再以(3)式為選擇標準,使用獨立的測試集對各個子樹的Ra(T)進行估計,進而選擇Ra(T)最小的樹是最優(yōu)樹。修剪過程主要完成兩部分工作:(1)生成有序樹序列;(2)確定葉節(jié)點的所屬類。其修剪過程如下[18]:(1)構建:首先在中將滿足R(t)=R(t)+R(t)的子樹剪枝,獲得的修剪后的子樹即為;(2)生成有序的子樹序列:任給中的節(jié)點t,記{t},則Ra(t)=R(t)+a。對于給定節(jié)點t的修剪子樹,則,只要,則表示取修剪后的子樹比原節(jié)點更合適。解如上不等式得到:所以也即只要,與t節(jié)點具有同樣的代價復雜度,由于t節(jié)點比的節(jié)點更少,因此t節(jié)點比更可取,這就是由修剪成為有序的子樹集的主要思想。對于前面所構建完成的,t∈,設是t的修剪子樹,且令將所對應的修剪掉,修建完成后所得到的樹標記為。循環(huán)此過程,能夠產生系列子樹直到修剪后所得的以左右字數及根為葉子節(jié)點的樹,并把它作為有序的子樹集的最后一個子樹。5.CART樹的最優(yōu)選擇決策樹剪枝完成后,生成一系列子樹,為了從中選擇出最優(yōu)樹,首先要做的便是對樹進行評估,最高準確性的樹便是我們需要的最優(yōu)樹。決策樹評估的主要有兩種方法:k-折交叉和簡單驗證。k-折交叉驗證:當所需分析的數據樣本數量較少時,采用k-折交叉驗證能夠有效的利用所有可能的數據.交叉驗證使用訓練集中的一部分數據,訓練集既用于訓練且也用于測試,此方法的核心是創(chuàng)建多個測試決策樹,將訓練集分成N個子集,創(chuàng)建N棵測試決策樹,在每次創(chuàng)建樹后,選擇一個子集作為測試集,其他N—1個子集為訓練集。這樣,訓練集中N個子集都參與了測試.K—折交叉驗證避免了對獨立的和新的測試數據的要求,通過這種方法得到的最優(yōu)樹剔除了由于數據自身特性帶來的過度適應,且充分反映了數據中的一般特性。(二)CART算法的優(yōu)缺點及適用性分類回歸樹CART樹除了具有一般決策樹的高效性、易用性、易解釋性等特點外,還具備一些自身特點。如:CART算法沒有對目標變量及預測變量概率分布上要求,這使得不會因為預測變量不同及目標變量概率的分布造成的結果;CART算法能夠對空缺職位進行處理,因此減少了由于空缺值所造成的信息偏差;CART算法能夠處理孤立點即在數據集中與其他數據具有不同特征的數據,使孤立點成為一個單獨的葉子節(jié)點,從而對進一步的分支不會產生任何影響;CART算法使用二元分支,這能夠充分運用全部的數據,盡可能發(fā)現全部樹的結構;與其他算法如神經網絡算法相比,CART算法的效率更高.但是,與其它統計分析方法相比,CART自身也存在缺點,如:CART本身是一種大樣本的統計分析方法,樣本量較小時模型不穩(wěn)定;CART算法的模型的穩(wěn)定性較差,用類似研究資料建立的樹型模型往往存在差異。對于內部同質性較好的數據,CART算法分析的結果與其它分析方法得到的結果基本一致。由于在實際應用中,企業(yè)收集到的客戶信息缺失度較高,而這個算法同樣允許缺失數據的存在.基于以上CART算法的獨特優(yōu)點,對于本次目標客戶篩選,客戶信息能夠表達成屬性—結論式樣式,本文采用該模型。為從海量客戶中篩選目標客戶,為大樣本的統計分析方法,建立比較穩(wěn)定的模型。這樣篩選的過程能夠加快,大幅度地提高企業(yè)效率.(三)CART算法在新浪微博客戶分類中的具體應用對數量龐大的客戶數據集進行數據管理,從而收集客戶的靜態(tài)信息,通過四個步驟:(1)數據的清洗;(2)樣本數據的選擇;(3)數據的重組;(4)對訓練樣本集數據建立數據模型,使用CART算法進行數據挖掘,在獲得目標客戶的篩選模型后,接著對模型進行評價及優(yōu)化,最后獲得目標客戶篩選模型。1.問題定義目標客戶的尋找就是從電信市場新浪微博所收集的龐大客戶數據集中尋找到目標客戶,從而提高客戶獲得率。根據新浪微博在目標客戶查找方面以往所積累的經驗,以及新浪微博的特殊性,發(fā)現目標客戶的查找就是對現有的客戶進行數據挖掘然后分析,建立客戶特征,區(qū)分非目標客戶及目標客戶的特性,再建立目標客戶查找模型,將模型運用于實際中,海量地進行目標客戶的尋找,提高潛在客戶獲得率。收集到的客戶信息均為靜態(tài)信息即用數字資料或文字描述來反映已經發(fā)生的各種經濟活動,且主要包括:用戶昵稱、性別、用戶UID、粉絲數、關注數、微博數、互粉數、地址、語言版本、是否認證及注冊時間。2.數據準備在進行數據挖掘之前,本文采用的是2012年12月份新浪微博的用戶數據。由于數據比較龐大,本文采用具有強大數據統計分析功能的clementine存放數據,而在將數據導入clementine之前,先人工初步對變量進行處理,刪除不需要的變量。在統計中發(fā)現2012年數據比較集中,而且數據質量較高,因此本次數據主要采用新浪微博數據庫的數據進行建模。截止到2012年12月份為止,采取的樣本的數據共有50358人。有關變量如表3.1所示:表3。1新浪微博變量查詢時間日期型訓練集收集日期用戶昵稱字符型用戶賬戶的名稱性別字符型男或女UID字符型用戶賬戶編號地址字符型用戶所住城市語言版本字符型所用語言認證字符型是否被新浪微博認證粉絲數整型擁有粉絲數量關注數整型被其他人關注數量互粉數整型相互關注數量微博數整型用戶發(fā)表信息數收藏數整型用戶收藏信息數注冊時間日期型用戶賬戶注冊時間在數據導入clementine軟件之前,先人工的對變量進行初步處理,刪除一些顯然不重要的變量。雖然clementine能對數據進行預處理,但是先排除一些輸入變量,這有助于提高所建模型的結果精準度以及數據處理效率。UID是每個用戶所登記的ID號,此標識對于每條記錄來說都是單一的,一定不會出現重復的情況,從中可得知,變量UID只能代表其特征,而不是共同的特性,所以,也不能反映數據間的內在關聯,可以將其刪除。此外,變量查詢時間,由于本論文在同一時間段抽取數據,所有的用戶的查詢時間段都是相同的為2012年12月,即查詢時間及注冊時間不能反映出客戶客戶分類的重要特征,對于后續(xù)的clementine無意義,所以也將其刪去。同樣,對于語言版本這個變量,由于新浪微博抽取數據為中華人民共和國大陸地區(qū),所有的用戶使用的都是簡體中文,因此,刪除此變量。綜上所述,導入clementine軟件的變量分別為用戶昵稱、性別、地址、粉絲數、關注數、微博數及收藏數。如下表所示:表3.2變量說明用戶昵稱字符型用戶賬戶的名稱性別字符型男或女地址字符型用戶所住城市粉絲數整型擁有粉絲數量關注數整型被其他人關注數量微博數整型相互關注數量收藏數整型用戶發(fā)表信息數由于分類樹最大的特點為可以存在缺失數據,故在抽取樣本時也考慮缺失的情況,缺失情況如下表3.1所示:表3.3缺失情況缺失項是否認證缺失數207進行相關性計算,由于新浪微博的基本信息主要為:用戶昵稱、性別、用戶UID、粉絲數、關注數、微博數、互粉數、地址、語言版本、是否認證及注冊時間,這幾項靜態(tài)信息的都不存在著相關,因此不對各項進行相關性分析.3.數據變換(1)數據的預處理數據預處理是建模型前最后的工作,這一步驟也是整個建模過程中最為關鍵的一步,不精準的數據將嚴重影響所建模型結果的精準性,造成我們做出錯誤的決策,然而好的數據能建立更加附和實際情況且更加精準的模型。由于原始數據一定存在著空缺、噪聲、錯誤等數據,他們最終有一定程度地影響模型的過程和輸出,因此首先對數據進行清洗。由于分類樹的最大優(yōu)點是能夠允許空缺數據的尋在,因此對于空缺的數值統一賦“null”,而對于本次數據清洗主要針對錯誤的數據。數據的錯誤主要表現在客戶信息失真情況上,例如:粉絲數的位數不正確,用戶昵稱采用重復值,故對這批數據刪除重復項,避免影響了模型的準確性.通過上述步驟的數據清洗,去除了影響模型輸出的數據,由于原數據樣本過于龐大故隨機抽取前2000項作為研究對象。流圖如下所示:圖3.4抽取訓練集得到的前2000項數據量,如下圖所示:圖3.52000項具體訓練集(2)將數據分類匯總每個用戶都有很多變量,要識別目標客戶,首先要做的是對各個變量值進行分類匯總,例如:用戶的粉絲數可能會在某種程度上預示著用戶的行為,如果粉絲數量龐大,那么可能發(fā)表微博數量也大,在新浪微博平臺互動性高,成為目標客戶;如果粉絲數量較小,映射著在新浪微博平臺互動性較低,那么可能成為非目標客戶。這樣才能使數據更有意義,有助于下一步的研究.為了查看粉絲數、關注數、微博數、互粉數、收藏數的每一項數值,利用圖形版及統計量進行分析。具體如下所示:圖3。6數據分析由于數據訓練集的范圍較大,故將變量劃分成若干個字段,這樣數據較為直觀,然后進行分類匯總,這樣有利于后面建模的數據分析.具體如下表所示:表3.7數據分類粉絲數目關注數目微博數目收藏數目互粉數目粉絲數≦5000關注數≤300微博數≦500收藏數≦100互粉數≤2005000〈粉絲數≦10000300<關注數≤600500<微博數≦2000100<收藏數≦300200<互粉數≤100010000<粉絲數≦50000600<關注數≤9002000<微博數≦5000300<收藏數≦10001000<互粉數≤200050000<粉絲數≦100000900〈關注數≤12005000<微博數≦10000收藏數>1000互粉數≧200010000<粉絲數≦2000001200〈關注數≤1500微博數>10000粉絲數>2000000關注數〉1500利用過濾字段選項,將原始訓練集中的粉絲數、關注數、微博數、收藏數及互粉數過濾。具體操作如下圖所示:圖3.8過濾變量(3)變量值確定方法本論文目的主要為挖掘新浪微博平臺中的目標客戶及非目標客戶,目標客戶指當前活躍在新浪微博平臺的用戶,而非目標客戶指的是當前對新浪門戶做的貢獻不大,但在不久的將來可能給新浪門戶帶來更多價值及利潤的用戶.不同的企業(yè)對于衡量標準有不同的定位:有的企業(yè)可能認為只要用戶有粉絲數,即使沒有微博數、收藏數,仍然可能從非目標客戶轉為潛在客戶。但有的可能認為微博數為第一考慮因素,只有發(fā)表過微博才能成為目標客戶。對此,應為衡量方法制定一個標準。在之前的數據的分類匯總及預處理過程中,我們已經將對模型有關聯的變量進行分析,這為我們在后面制定衡量目標客戶的標準提供了準則??蛻魞r值的預測方法有很多,此處采用交易量評價法,交易量評價法以粉絲數的大小來衡量用戶的價值.因為通過直方圖及統計量中的分布直觀呈現所有變量取值,如下列圖所示:圖3.9關注數直方圖圖3.10互粉數直方圖圖3.11收藏數直方圖圖3。12微博數直方圖通過分析預測目標變量的范圍,目標變量大致分為四類:1)互粉數〈200and1000<互粉數≤2000;2)300<收藏數≤1000and5000<粉絲數≤50000;3)關注數≤300and600<關注數≤900and關注數≥1500and粉絲數≤5000and粉絲數>10000and收藏數<100and300<收藏數≤1000and500<微博數≤2000and5000<微博數≤10000;4)關注數≤300and600<關注數≤900and關注數≥1500and10微博數0<收藏數≤300and收藏數≥1000and10000〈粉絲數≤50000and100000<粉絲數≤200000and500<微博數≤2000and5000<微博數≤10000。在EXCEL表中增加一列字段,命名為目標客戶。首先定義客戶是否為目標客戶,然后將目標變量加入到匯總后的EXCEL數據表中,結果如下圖所示:圖3.13處理后的訓練集上述步驟便是數據預處理、分類匯總及確定變量,而此時的數據基本符合建模要求。接下來便是建模過程。4.CART算法的具體應用過程在經過上述步驟后,可以建立模型,CART算法的樹生長階段的分支標準采用GINI指數,選用K-折交驗證法,將樹的深度設置為5層;由于允許缺失值存在,故不必對缺失值進行處理。(1)建立模型在將數據導入后,抽取前2000項作為訓練集數據,根據對數據的分析,通過建立CART模型對數據做最后的分類,將“目標客戶"作為輸出屬性即為預測變量,其余變量作為輸入屬性,首先根據變量的分布定義是否為目標客戶,將各種變量用直方圖表示,最后得到數據流程圖如下圖所示:圖3.14模型建立圖執(zhí)行此數據流程圖中CART算法節(jié)點,訓練集的模型如下所示:圖3。15模式結果圖上圖所示,CART模型中目標客戶結果及運算規(guī)則,[]中表示為模型的結果,如[是]代表著目標客戶;而[否]代表著非目標客戶。此CART模型結果的依據是根據葉子節(jié)點中目標客戶與非目標客戶兩個目標變量的比例分布,即在一個葉子節(jié)點中,若目標客戶的數量超過非目標客戶,那么此節(jié)點的預測結果為“是”,若情況相反便是“否”。(2)二叉樹模型圖對于上面的模型結果的二叉樹圖表示如下:目標客戶節(jié)點0類別%n否50.0251000是49。975999總計100.0001999300<關注數≤600;900<關注數≤1500關注數≤300;600<關注數≤900;關注數≥1500節(jié)點1類別%n否51.863334是48.137310總計32。216644節(jié)點2類別%n否49。151666是50.849689總計67。7841355圖3。16根節(jié)點及其第一層節(jié)點表示圖微博數目粉絲數量改進=0。001改進=0。001 節(jié)點5類型%n否57.97140是42。02929總計3。45269微博數≤500微博數≥5005000<粉絲數≦10000粉絲數≦5000;粉絲數≥100000節(jié)點3類型%n否64.70622是32.29412總計1。70134節(jié)點4類型%n否51。148312是48.852298總計30.515610節(jié)點6類型%n否48.678626是51.322660總計64.3221286圖3.17節(jié)點1和節(jié)點2的二層子樹表示圖收藏數目改進值=0.000收藏數≦300收藏數≥300節(jié)點7類型%n否52.956215是47.044191總計20.310406節(jié)點8類型%n否47.54997是52.451107總計10。205204圖3.18節(jié)點3的三層子樹表示圖收藏數目改進值=0.000收藏數≤100;300<收藏數≦1000100<收藏數≤300;收藏數>1000節(jié)點11類型%n否52。956215是47.044191總計20。310406節(jié)點12類型%n否47.54997是52。451107總計10.205204圖3.19節(jié)點6的三層子樹表示圖互粉數目改進值=0.000200<互粉數≦1000200<互粉數;1000<互粉數≤2000節(jié)點13類型%n否54。046187是45。954159總計17.309346節(jié)點14類型%n否46.66728是53.33332總計3.00260圖3。20節(jié)點7的四層子樹表示圖粉絲數量改進值=0.0015000<粉絲數≦500005000<粉絲數;10000<互粉數≤20000節(jié)點15類型%n否31。0349是68.96620總計1.45129節(jié)點16類型%n否50.28688是49.71487總計8.754151圖3.21節(jié)點8的四層子樹表示圖微博數目改進值=0。000500<微博數≦2000;5000<微博數≦100005000<微博數;2000<微博數≤5000;微博數>10000節(jié)點17類型%n否31。0349是68.96620總計1。45129節(jié)點18類型%n否50.28688是49。71487總計8.754151圖3.22節(jié)點11的四層子樹表示圖粉絲數量改進值=0.00010000<粉絲數≦50000;100000〈粉絲數≤2000005000<粉絲數;50000<粉絲數≤100000;粉絲數〉200000節(jié)點19類型%n否47.22234是52。77838總計3.60272節(jié)點20類型%n否55.07276是44。92862總計6.903138圖3.23節(jié)點12的四層子樹表示圖粉絲數量改進值=0。0005000≤粉絲數;10000<粉絲數≤5000050000〈粉絲數節(jié)點27類型%n否53.46554是46.53547總計5。053101節(jié)點28類型%n否48。193200是51。807215總計20。760415圖3.24節(jié)點17的五層子樹表示圖粉絲數量改進值=0.000500≤微博數;2000<微博數≤5000500<微博數≤2000;5000〈微博數≤10000節(jié)點29類型%n否57。14312是42.8579總計1.05121節(jié)點30類型%n否43.13722是56.86329總計2.55151圖3.25節(jié)點19的五層子樹表示圖CART算法的模型結果圖中,能夠清楚地看到模型的整體結構,其中有29個節(jié)點(Node),“否"代表非目標客戶,“是”代表目標客戶,n代表著在這個狀態(tài)下客戶的數量,%代表著在此狀態(tài)下目標客戶或非目標客戶所占的比例。整個模型有1個根節(jié)點,將之記為0,共有30個節(jié)點,根節(jié)點下共分為5層,故模型的深度為5層,每個節(jié)點都標注清楚這個節(jié)點所包含非目標客戶和目標客戶的人數及目標客戶或非目標客戶占總客戶總數的比例。從總體情況來說,該模型已經達到了預期的效果.利用快速的方法,從龐大客戶群中篩選目標客戶。而且目標客戶及非目標客戶的判斷正確率均在能夠控制的范圍之內。一旦將該模型利用到實際中去,將會大大地提高效率。圖3。26節(jié)點1—3中目標客戶與非目標客戶比例圖3.27節(jié)點1-6中目標客戶與非目標客戶比例圖3.28節(jié)點7—30中目標客戶與非目標客戶比例上圖表明了每個節(jié)點中目標客戶與非目標客戶的比例。以節(jié)點15為例,非目標客戶的數量過半,這表明了此節(jié)點的預測結果為非目標客戶,而從根節(jié)點到這個節(jié)點的路徑便是一條非目標客戶的識別規(guī)則。Clementine軟件對于變量重要性分析,如下圖所示:表3.29目標客戶變量重要性分析CART算法檢驗結果如下圖:表3。30CART算法準確度的分析圖四、對新浪微博客戶分類的結果分析(一)客戶分類及其相應的營銷策略通過客戶的靜態(tài)信息,采用回歸分類樹的算法,從海量的客戶中篩選出目標客戶。同時運用CART算法對客戶信息進行特征學習,得到判斷客戶是否為目標客戶僅需粉絲數、微博數、關注數、收藏數、互粉數。最終達到提高企業(yè)效率的目的。1.非目標客戶在四種情況下為非目標客戶:當300<關注數≤600或900<關注數≤1500且微博數<500時,100≤收藏數≤300且互粉數≤200或1000<互粉數≤2000;當300〈關注數≤600或900<關注數≤1500且微博數<500時,收藏數>300且5000〈互粉數≤50000;關注數≤300或600〈關注數≤900或關注數≥1500且粉絲數≤5000或粉絲數〉10000時,收藏數≤100或300<收藏數≤10000且500〈微博數≤2000或5000<微博數≤10000且50000<粉絲數≤100000;關注數≤300或600<關注數≤900或關注數≥1500且粉絲數≤5000或粉絲數>10000時,100<收藏數≤300或收藏數>10000且10000〈粉絲數≤50000或100000<粉絲數≤200000且5000<微博數≤10000。具體見下表3.24所示:表3.31非目標客戶情況情況一情況二情況三情況四300<關注數≤600or900<關注數≤1500300<關注數≤600or900〈關注數≤1500關注數≤300or600<關注數≤900or關注數≥1500關注數≤300or600<關注數≤900or關注數≥1500微博數<500微博數〈500粉絲數≤5000or粉絲數>10000or10000〈粉絲數≤50000or100000<粉絲數≤200000粉絲數≤5000or粉絲數>10000or10000<粉絲數≤50000or100000〈粉絲數≤200000收藏數≤100or300〈收藏數≤10000100≤收藏數≤300收藏數>300100<收藏數≤300or收藏數>10000500<微博數≤2000or5000<微博數≤10000and50000<粉絲數≤100000互粉數≤200or1000<互粉數≤20005000〈互粉數≤500005000<微博數≤10000對于非目標客戶來說,首先要將他們轉化成潛在客戶.措施有以下5種:1)應用節(jié)日吸引客戶。很多節(jié)日是自然和某種產物有關聯的,如型牌男裝企業(yè)微博于五一勞動節(jié)、父親節(jié)組織活動且對此評價,讓更多男性受眾體驗他們的產物;還有喜歡尚鮮花網的微博,在母親節(jié)策劃寫祝愿語的運動、代送母親鮮花的運動,都吸引了很多粉絲的參加,體驗了鮮花傳遞情緒的魅力。2)籌劃有構思的運動堆積粉絲。關于一個企業(yè)微博來說,需求不時發(fā)明創(chuàng)新的話題和運動,才干源源不時地吸引更多的粉絲參加.飄飄龍先在淘寶網的論壇上組織粉絲到巴厘島往旅行,又轉到新浪微博上直播粉絲在巴厘島上天天的運動,開端是送100只圍脖熊給微博上的受眾,后來又特制了2米高的泰迪熊,吸引了幾千名粉絲參加運動。3)應用微博上的關鍵詞查找吸引客戶.在微博平臺上,一個十分風趣的特征就是在這個平臺上有很多伴侶在議論公司,議論產物和效勞,議論同業(yè),議論相關行業(yè)的話題,這些碎碎語里鑲嵌了太多的關鍵詞,經過如許的關鍵詞,就可以從中找到對方。可以在微博平臺查找框上查找如許連續(xù)串的關鍵詞,如產物的關鍵詞你行業(yè)的關鍵詞、存眷的地域的關鍵詞、存眷的市場的關鍵詞、公司的關鍵詞、品牌的關鍵詞、企業(yè)擔任人的關鍵詞、與行業(yè)定見首領相關的關鍵詞、相關HYPERLINK”http://home.51.com/?_sid=homek”\t”_blank"話題的關鍵詞等。在查找今后,就會呈現評論者,他們很有能夠就是企業(yè)存眷的客戶。4)經過群組吸引客戶。在新浪微博上,可以本人組建群組,也可以參加到一些曾經組建起來的群組。有很多群組會帶有分明的產物關聯、地域關聯、性別關聯,他們都為一些企業(yè)便利地聯絡目的客戶發(fā)明了極好的條件,從而吸引用戶。5)應用各類社會熱門話題吸引客戶。社交媒體有一個明顯的特點,人們之間的交流是有內容的交流,這種內容假如是一起關懷的,就會上升為話題評論.伶俐的企業(yè)就會舉行各類話題評論,從參加者中發(fā)現潛伏客戶。2.目標客戶在下列六種情況下為目標客戶:當300<關注數≤600或900〈關注數≤1500時,粉絲數≤500;100≤收藏數≤300且互粉數≤200或1000<互粉數≤2000;當300<關注數≤600或900<關注數≤1500時,微博數〉500,收藏數≤300且200<互粉數≤1000;關注數≤300或600<關注數≤900或關注數≥1500且粉絲數≤5000或粉絲數>10000時,收藏數≤100或300〈收藏數≤1000且500<微博數≤2000或5000<微博數≤10000且粉絲數≤5000或10000<粉絲數≤50000;關注數≤300或600<關注數≤900或關注數≥1500且粉絲數≤5000或粉絲數〉10000時,100<收藏數≤300或收藏數>10000且10000<粉絲數≤50000或100000<粉絲數≤200000微博數≤500或2000<微博數≤5000;關注數≤300或600<關注數≤900或關注數≥1500且粉絲數≤5000或粉絲數>10000時,100<收藏數≤300或收藏數>1000且粉絲數≤5000或50000<粉絲數≤100000或粉絲數>2000000;關注數≤300或600<關注數≤900或關注數≥1500時,5000<粉絲數≤10000.最終可匯總成四中情況,具體見下表3.32所示:表3。32目標客戶情況情況一情況二情況三情況四300<關注數≤600or900<關注數≤1500300<關注數or600<關注數≤900or關注數≥1500300<關注數or600<關注數≤900or關注數≥1500300<關注數or600<關注數≤900or關注數≥1500粉絲數≤500粉絲數≤500or粉絲數>10000粉絲數≤500or粉絲數〉10000粉絲數≤500or粉絲數〉10000微博數>500or收藏數≤300and200<互粉數≤1000收藏數≤100or300〈收藏數≤1000and500<微博數≤2000or5000<微博數≤10000and1000〈粉絲數≤50000or粉絲數≤5000100<收藏數≤300and20

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論