數(shù)據(jù)挖掘在電信行業(yè)精準營銷的應(yīng)用研究_第1頁
數(shù)據(jù)挖掘在電信行業(yè)精準營銷的應(yīng)用研究_第2頁
數(shù)據(jù)挖掘在電信行業(yè)精準營銷的應(yīng)用研究_第3頁
數(shù)據(jù)挖掘在電信行業(yè)精準營銷的應(yīng)用研究_第4頁
數(shù)據(jù)挖掘在電信行業(yè)精準營銷的應(yīng)用研究_第5頁
已閱讀5頁,還剩76頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第73頁畢業(yè)論文數(shù)據(jù)挖掘在電信行業(yè)精準營銷的應(yīng)用研究院別專業(yè)名稱班級學號學生姓名指導教師年月日第PAGEI頁數(shù)據(jù)挖掘在電信行業(yè)精準營銷的應(yīng)用研究摘要21世紀以來,快速增長著的數(shù)據(jù)為企業(yè)和學者在各個領(lǐng)域的研究提供了豐富的資源,為了從這些海量數(shù)據(jù)中提取出有用的信息,數(shù)據(jù)挖掘應(yīng)運而生;與此同時,越來越多的企業(yè)意識到傳統(tǒng)的營銷方式已經(jīng)不適合現(xiàn)在的市場,企業(yè)紛紛由原來的以產(chǎn)品和服務(wù)為中心的營銷模式轉(zhuǎn)換為以客戶需求為中心的營銷模式,因此產(chǎn)生了精準營銷的理念。本文的研究工作涉及兩方面內(nèi)容,一是數(shù)據(jù)挖掘,二是精準營銷,考慮到電信行業(yè)數(shù)據(jù)資源豐富的特點,本文即對二者在電信行業(yè)的應(yīng)用展開研究。首先借助SPSSClementine工具利用數(shù)據(jù)挖掘中的聚類技術(shù),根據(jù)電信行業(yè)用戶的通話時間、通話次數(shù)、通話習慣等對用戶進行聚類;其次利用關(guān)聯(lián)規(guī)則算法得出用戶通話規(guī)律之間的關(guān)聯(lián)關(guān)系;最后根據(jù)聚類后的群體特征,對不同類別的用戶進行分類營銷,并根據(jù)關(guān)聯(lián)關(guān)系進行捆綁銷售和交叉銷售,這兩種方法均實現(xiàn)了精準營銷,從而達到提高企業(yè)收益,同時滿足用戶需求的雙贏目的。關(guān)鍵詞:電信行業(yè),精準營銷,數(shù)據(jù)挖掘,SPSSClementine

ResearchonDataMiningApplicationinTelecommunicationsPreciseMarketingAbstractSincethe21stcentury,thedatagrowingatanunprecedentedrateprovidesawealthofresourcesfortheresearchofenterpriseandscholarsinvariousfields.Inordertoextractusefulinformationfromthesemassivedata,dataminingcameintobeing.Atthesametime,moreandmoreenterpriseshaverealizedthattraditionalmarketingmethodsarenotsuitableforthecurrentmarket,somostofthemaretransformingthemarketingmodelfromtheoriginalproductandservice-centrictocustomer-centric,whichistheprecisemarketing.Thepaperwillfinishtwoparties:First,datamining,andsecond,precisemarketing.Consideringthereisawealthofdataresourcesinthetelecommunicationsindustry,thispaperwillhavearesearchandapplicationaboutthetwomethodsabove-mentionedinthetelecommunicationsindustry.Firstly,thispaperwilluseclusteringalgorithm,oneofthedataminingalgorithms.Thisalgorithmcanmakethetargetdatadividedintoseveralkindsofgroups,whichisbasedonthebehaviorsofcustomerswhentheyusethetelephone.Secondly,thispaperwillusethealgorithmofassociationrulestodiscovertherelationshipbetweentheregularpatternwhenusersusethetelephone.Finally,thispaperachievesprecisemarketingprocessthroughmakingdifferentmarketingstrategybyanalyzingthebasisofclusteringanalysisandassociationrules.Thetwowaysabovearetheso-calledprecisemarketing,andtheybothachieveawin-winofimprovingtheprofitsofenterpriseandmeetingtheneedsofcustomers.Keywords:TelecommunicationsIndustry,PreciseMarketing,DataMining,SPSSClementine.

目錄1緒論 11.1課題來源及研究背景介紹 11.2研究目的和意義 11.2.1研究目的 11.2.2研究意義 11.3國內(nèi)外研究現(xiàn)狀 21.4研究內(nèi)容和組織結(jié)構(gòu) 41.4.1主要研究內(nèi)容 41.4.2研究方法 41.4.3論文組織結(jié)構(gòu) 52數(shù)據(jù)挖掘及精準營銷理論基礎(chǔ) 62.1數(shù)據(jù)挖掘基本理論 62.1.1數(shù)據(jù)挖掘定義及過程 62.1.2數(shù)據(jù)挖掘工具及選擇 72.1.3數(shù)據(jù)挖掘的未來 92.2精準營銷基本理論 92.2.1精準營銷的概念 92.2.2精準營銷的特點 102.2.3精準營銷的實施策略 112.3本章小結(jié) 113數(shù)據(jù)挖掘與精準營銷的結(jié)合應(yīng)用 123.1應(yīng)用模型 123.2應(yīng)用領(lǐng)域 143.3應(yīng)用中可能存在的問題及對策 153.4本章小結(jié) 164數(shù)據(jù)挖掘在電信行業(yè)精準營銷的實例研究 174.1實例背景介紹 174.2使用方法介紹 174.2.1聚類分析 174.2.2關(guān)聯(lián)規(guī)則發(fā)現(xiàn) 194.3需求分析 204.4數(shù)據(jù)準備 214.4.1數(shù)據(jù)選擇 224.4.2數(shù)據(jù)預(yù)處理 224.5聚類分析 234.5.1K-means算法 234.5.2TwoStep算法 284.5.3判斷聚類依據(jù) 314.5.4查看用戶歸屬類別 344.6關(guān)聯(lián)規(guī)則分析 354.7制定精準營銷策略 404.7.1細分客戶 404.7.2交叉銷售和捆綁銷售 414.8本章小結(jié) 42結(jié)論 43致謝 44參考文獻 45附錄 47附錄A 47附錄B 52

第1頁1緒論1.1課題來源及研究背景介紹近些年,隨著互聯(lián)網(wǎng)和移動終端的發(fā)展,人們對電信行業(yè)的依賴和需求日益增加,急劇地促進了電信行業(yè)的發(fā)展。隨著電信行業(yè)的不斷發(fā)展,電信業(yè)務(wù)有了很大的改變,并且由于許多國家電信業(yè)的開放和新興技術(shù)的發(fā)展,電信市場正在迅速擴張并越發(fā)競爭激烈[1]。與此同時,電信行業(yè)的發(fā)展使得電信企業(yè)與客戶的交互也發(fā)生了巨大的變化。因為客戶有了更多的選擇,電信企業(yè)只有深入了解客戶的需求,并為客戶提供精準的營銷服務(wù),更好地滿足客戶物質(zhì)和心理上的雙重需求,才能保留住自己的客戶并吸引更多的客戶。精準營銷在電信行業(yè)的應(yīng)用應(yīng)運而生。21世紀以來,各種快速增長著的數(shù)據(jù)充斥著人們的生活,但是由于出現(xiàn)了“數(shù)據(jù)豐富,但知識匱乏”的現(xiàn)象,人們需要一個強有力的工具對數(shù)據(jù)進行分析,并從大量數(shù)據(jù)中提取出有效的信息即“知識”,因此產(chǎn)生了數(shù)據(jù)挖掘(DataMining,DM),也稱知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD)。1.2研究目的和意義1.2.1研究目的本文的目的在于探討數(shù)據(jù)挖掘技術(shù)在電信行業(yè)精準營銷的應(yīng)用,即利用數(shù)據(jù)挖掘中的聚類技術(shù),根據(jù)電信行業(yè)用戶的通話時間、通話次數(shù)、通話習慣等對用戶進行聚類,幫助電信企業(yè)對不同類別的用戶進行分類營銷,同時利用關(guān)聯(lián)規(guī)則算法得出用戶通話規(guī)律之間的關(guān)聯(lián)關(guān)系,進行捆綁銷售和交叉銷售,這兩種精準營銷方式可以達到提高企業(yè)收益,同時滿足用戶需求的雙贏目的。1.2.2研究意義眾所周知,在營銷過程中了解客戶的消費習慣并挖掘其潛在需求,制定出有針對性的營銷策略,就可以有效地增加客戶的終身價值,提高營銷成功的概率[2]。而數(shù)據(jù)挖掘技術(shù)可以很好地滿足上述要求,顯然數(shù)據(jù)挖掘技術(shù)和精準營銷的結(jié)合在任何營銷過程中的應(yīng)用都是意義非凡的。隨著手機等移動終端的不斷發(fā)展,人們對于移動終端的需求和依賴性也日益增長,電信業(yè)在為人類提供便捷、娛樂的同時也積累了大量的客戶數(shù)據(jù),這些數(shù)據(jù)無疑是一筆寶貴的財富,只有盡早意識到這一點,并利用現(xiàn)代技術(shù)對這些數(shù)據(jù)加以挖掘和利用,創(chuàng)造出數(shù)據(jù)本身之外的價值,企業(yè)乃至整個行業(yè)才能擁有自己的核心競爭力。同時,隨著現(xiàn)代生活水平的不斷提高,各行各業(yè)競爭壓力巨大,各式各樣的營銷手段鋪天蓋地包圍著人們的生活。原有的營銷手段和大眾的營銷方式早已讓客戶感到厭倦且不再適應(yīng)市場,而精準營銷可以準確地了解客戶真實需求,以客戶需求為出發(fā)點設(shè)計出真正讓客戶滿意的產(chǎn)品,對不同群體的客戶提供一對一和差異化的服務(wù),提高企業(yè)利潤和降低企業(yè)成本,同時幫助企業(yè)更好地應(yīng)對競爭,脫離“價格戰(zhàn)”的泥潭[2]。1.3國內(nèi)外研究現(xiàn)狀目前,數(shù)據(jù)挖掘技術(shù)和知識已經(jīng)發(fā)展成為計算機科學界乃至各行各業(yè)的研究熱點。國外數(shù)據(jù)挖掘的最新發(fā)展主要有對知識發(fā)現(xiàn)方法的進一步研究,如近年來提出多種對Bayes(貝葉斯)方法和Boosting方法的研究和改進;KDD與數(shù)據(jù)庫的緊密結(jié)合等。數(shù)據(jù)挖掘的開發(fā)應(yīng)用也得到許多計算機公司和研究機構(gòu)的高度重視[3]。例如由IBM公司研究開發(fā)的多任務(wù)數(shù)據(jù)挖掘系統(tǒng)Quest面向大型數(shù)據(jù)庫系統(tǒng),包括序列模式、相似序列、關(guān)聯(lián)規(guī)則和分類規(guī)則等[4]。國內(nèi)相比于國外對數(shù)據(jù)挖掘開始研究的時間較晚,研究成果也沒有國外成熟。當前,我國對于數(shù)據(jù)挖掘的研究項目多是政府資助進行的,如國家自然科學基金,九八五計劃等[3]。數(shù)據(jù)挖掘是一個多學科領(lǐng)域,它融合了多種最新技術(shù)的研究成果,其應(yīng)用領(lǐng)域得到了廣泛的拓展,精準營銷便是一個很好的實例。通過學校圖書館各類相關(guān)書籍、電子期刊數(shù)據(jù)庫等多種渠道查找國內(nèi)外相關(guān)論文資料,尤其重視對相關(guān)博士、碩士優(yōu)秀畢業(yè)論文的參考學習,整理出本次論文的參考文獻,并以此為基礎(chǔ)完成本次論文寫作。通過對參考資料的研究,以及對“中國知網(wǎng)”提供的文獻數(shù)量進行統(tǒng)計,可以發(fā)現(xiàn),數(shù)據(jù)挖掘相關(guān)論文以及數(shù)據(jù)挖掘技術(shù)在各行業(yè)精準營銷應(yīng)用的相關(guān)論文數(shù)量隨年遞增。圖1.1和1.2顯示了在“中國知網(wǎng)”數(shù)據(jù)庫分別以“數(shù)據(jù)挖掘”和“數(shù)據(jù)挖掘和精準營銷”為關(guān)鍵字搜索出的文獻數(shù)量隨年份增長的趨勢??梢钥闯?,近5-10年,國內(nèi)學者對這兩種技術(shù)的研究在文獻數(shù)量上有了突飛猛進的發(fā)展。圖1.1“數(shù)據(jù)挖掘”相關(guān)文獻數(shù)量變化圖圖1.2“數(shù)據(jù)挖掘和精準營銷”相關(guān)文獻數(shù)量變化圖但是,數(shù)據(jù)挖掘技術(shù)與精準營銷結(jié)合應(yīng)用的相關(guān)論文多為高校教師和學生撰寫,利用這兩種技術(shù)在商業(yè)和企業(yè)中解決實際問題的實質(zhì)性論文較少,說明目前國內(nèi)在該方向的研究主要基于高校的假想性研究。同樣以高校發(fā)表論文為主,近些年也出現(xiàn)了利用數(shù)據(jù)挖掘技術(shù)設(shè)計與實現(xiàn)精準營銷的信息系統(tǒng),如浙江大學陳秋陽發(fā)表的《基于數(shù)據(jù)挖掘技術(shù)的精準營銷系統(tǒng)的設(shè)計與實現(xiàn)》。1.4研究內(nèi)容和組織結(jié)構(gòu)1.4.1主要研究內(nèi)容本論文主要的研究內(nèi)容如下:1、數(shù)據(jù)挖掘理論數(shù)據(jù)挖掘作為本論文核心研究工具,是本論文的主要研究內(nèi)容之一。它是一個包括問題界定、數(shù)據(jù)收集與預(yù)處理、數(shù)據(jù)挖掘過程執(zhí)行以及對結(jié)果的分析和解釋,最后得出合理結(jié)論的綜合性、系統(tǒng)性過程。2、數(shù)據(jù)挖掘算法挖掘算法眾多,每一種算法在不同應(yīng)用方面都有其獨有的優(yōu)勢。針對本文的實際情況,選擇了聚類算法中的K-means和TwoStep兩種算法及關(guān)聯(lián)規(guī)則中的Apriori算法,利用聚類和關(guān)聯(lián)規(guī)則兩種不同的思路對用戶數(shù)據(jù)進行處理。3、電信行業(yè)的精準營銷理論模型有了強有力的工具,就要應(yīng)用在生活中去解決實際的問題。在經(jīng)歷了傳統(tǒng)營銷之后,精準營銷的優(yōu)勢越來越明顯,結(jié)合電信行業(yè)數(shù)據(jù)資源豐富的特點,本文即以電信行業(yè)的精準營銷為主要研究內(nèi)容。1.4.2研究方法本文在借鑒多篇國內(nèi)外相關(guān)文獻的基礎(chǔ)上,選擇了聚類技術(shù)和關(guān)聯(lián)規(guī)則作為前期技術(shù)對客戶進行精準營銷,基于該思路,本文采用了以下研究方法:1、理論學習的方法由于自身所學知識限制,進行論文寫作前對數(shù)據(jù)挖掘和精準營銷的知識只是有大概的了解。通過閱讀大量文獻和相關(guān)書籍,了解了數(shù)據(jù)挖掘和精準營銷的基本理論,為論文的完成做好了前期準備。2、比較分析的方法一方面,在確定K-means聚類數(shù)目時,比較分析了當聚類數(shù)目分別為3、4、5、6、7時的迭代次數(shù),在選擇TwoStep聚類數(shù)目時,比較分析了自動確定和手動確定兩種方式,從而確定了最佳聚類數(shù)目。另一方面,對K-means和TwoStep兩種方法聚類后的標準差進行比較,最終選擇了K-means聚類結(jié)果對用戶進行分類。3、建模的方法本文通過創(chuàng)建K-means、TwoStep及Apriori模型對數(shù)據(jù)進行挖掘,根據(jù)模型結(jié)果制定精準營銷策略。1.4.3論文組織結(jié)構(gòu)各章的安排內(nèi)容如下:第一章是緒論,介紹了課題的研究背景、研究目的及意義,國內(nèi)外的研究現(xiàn)狀以及行文結(jié)構(gòu);第二章是理論基礎(chǔ),對數(shù)據(jù)挖掘和精準營銷的基本理論進行闡述;第三章將數(shù)據(jù)挖掘與精準營銷兩種方法相結(jié)合,介紹了二者結(jié)合后的應(yīng)用模型、應(yīng)用領(lǐng)域、應(yīng)用過程中可能存在的問題及對策;第四章為本文的核心部分,即借助實例完成數(shù)據(jù)挖掘和精準營銷的過程;結(jié)論總結(jié)了在本次論文完成過程中我所做的工作,并對下一步工作進行了展望。

2數(shù)據(jù)挖掘及精準營銷理論基礎(chǔ)2.1數(shù)據(jù)挖掘基本理論2.1.1數(shù)據(jù)挖掘定義及過程近些年來,隨著各行各業(yè)的不斷發(fā)展,人們在日常生活中產(chǎn)生的數(shù)據(jù)以前所未有的速度增長著,但出現(xiàn)了“數(shù)據(jù)豐富,而知識匱乏”的現(xiàn)象。因此需要一個強有力的數(shù)據(jù)分析工具從海量數(shù)據(jù)和大量繁雜信息中提取出對人們有用的知識。由此數(shù)據(jù)挖掘相應(yīng)的研究逐步展開。就技術(shù)層面來說,數(shù)據(jù)挖掘最權(quán)威同時也是最常見的定義是“數(shù)據(jù)挖掘就是從大量不完全的、隨機的、模糊的、有噪聲的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的人們事先不知道的、但又是潛在有用的信息和知識的過程”[5]。其中隨機性是指事件發(fā)生與否的不確定性,而模糊是指事物本身從屬概念的不確定性。由于數(shù)據(jù)挖掘已經(jīng)被廣泛應(yīng)用于現(xiàn)代商業(yè)的各個領(lǐng)域,因此可以將數(shù)據(jù)挖掘理解為一種新的商業(yè)信息處理技術(shù),其重點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和模型化處理,從中得出關(guān)鍵性數(shù)據(jù),以輔助商業(yè)決策。知識發(fā)現(xiàn)的過程如圖2.1所示。圖2.1數(shù)據(jù)挖掘流程圖根據(jù)紀希禹主編的《數(shù)據(jù)挖掘技術(shù)應(yīng)用案例》一書中介紹,數(shù)據(jù)挖掘的四個過程描述如下[6]:1、問題界定任何研究都是在一個特定的背景下展開的,數(shù)據(jù)挖掘也不例外。在數(shù)據(jù)挖掘之前首先要對挖掘的目的進行分析和界定。比如本文是在電信行業(yè)中利用數(shù)據(jù)挖掘技術(shù)達到精準營銷的目的,而精準營銷的方式有很多,如本文使用的細分客戶和捆綁銷售,因此本文著重采用了數(shù)據(jù)挖掘方法中的聚類和關(guān)聯(lián)規(guī)則技術(shù)。2、數(shù)據(jù)準備階段數(shù)據(jù)準備階段包括對數(shù)據(jù)進行選擇、集成、清洗等工作,這是由于數(shù)據(jù)挖掘要處理的數(shù)據(jù)來自不同的數(shù)據(jù)源,并且有大量噪聲數(shù)據(jù)和冗余數(shù)據(jù)。數(shù)據(jù)準備階段在數(shù)據(jù)挖掘過程中起著十分關(guān)鍵的作用,因為數(shù)據(jù)準備是數(shù)據(jù)挖掘工作的基礎(chǔ)。3、數(shù)據(jù)挖掘階段通過數(shù)據(jù)準備階段的一系列操作,基本上就可以擁有一個高質(zhì)量、可操作的數(shù)據(jù)集合了。下面就該進行最核心的步驟——數(shù)據(jù)挖掘了。通過問題界定可以確定數(shù)據(jù)挖掘要發(fā)現(xiàn)的任務(wù)是什么,由此判斷屬于哪種挖掘類型,并選擇合適的數(shù)據(jù)挖掘算法和工具。目前流行的數(shù)據(jù)挖掘工具有很多,如SAS、SPSS等,這些都是國外經(jīng)典的數(shù)據(jù)挖掘工具,算法齊全,實用性高。中國也有一些自主知識產(chǎn)權(quán)的軟件,如MSMiner[7]。最后,利用工具,按照選擇的算法在數(shù)據(jù)集合中完成數(shù)據(jù)挖掘的操作。4、結(jié)果評價經(jīng)過數(shù)據(jù)挖掘的一系列過程,得出的結(jié)果應(yīng)有助于決策,如將所有用戶進行聚類并針對不同類別的用戶實施不同的營銷手段。對挖掘結(jié)果的評價依賴于此次挖掘的任務(wù),由本領(lǐng)域的專家對所挖掘結(jié)果的實用性和有效性進行評價。經(jīng)過專家或機器的評估后,將不滿足任務(wù)的結(jié)果返回到前面的步驟去反復處理,直到挖掘出有效、準確的知識;另外如果在數(shù)據(jù)挖掘的過程中發(fā)現(xiàn)數(shù)據(jù)不能產(chǎn)生期望的結(jié)果,則要重新處理數(shù)據(jù)甚至重新選擇數(shù)據(jù)??傊?,數(shù)據(jù)挖掘是一個需要不斷反饋與改進的閉環(huán)過程。2.1.2數(shù)據(jù)挖掘工具及選擇數(shù)據(jù)挖掘理論的不斷發(fā)展使得數(shù)據(jù)挖掘工具得到廣泛應(yīng)用,只有通過合適的工具才能從海量的數(shù)據(jù)中提取出人們想要的信息,得到人們想要的結(jié)論,將理論付諸實踐。事實上,數(shù)據(jù)挖掘工具有很多如SASEnterpriseMiner、IntelligentMiner、Darwin等,在此僅對本文使用的工具SPSSClementine進行介紹[8]。SPSS是一款功能齊全且強大的統(tǒng)計工具,包含數(shù)據(jù)錄入、整理、分析及數(shù)據(jù)探索、發(fā)布和集成等功能,適用于多種操作系統(tǒng),支持腳本功能,支持多種數(shù)據(jù)類型,鼓勵人工參與和改進,比較容易掌握,性價比較高。Clementine是SPSS公司的代表產(chǎn)品,擁有功能強大的數(shù)據(jù)挖掘算法和良好的用戶界面。圖2.2和2.3分別是該軟件12.0版本的啟動界面和主界面。圖2.2SPSSClementine12.0啟動界面圖2.3SPSSClementine12.0主界面那么如何在眾多工具中選擇最適合自己的是一個企業(yè)或?qū)W者在數(shù)據(jù)挖掘之前必須要考慮的,同時這是一個非常具有挑戰(zhàn)性的工作,因為工具的選擇決定了數(shù)據(jù)挖掘結(jié)果的質(zhì)量。由于各個公司的技術(shù)水平、文化背景、財務(wù)水平都不盡相同,對數(shù)據(jù)挖掘的要求和目的也不盡相同,到目前為止,可供參考的權(quán)威評估標準少之又少,因此一般可從兩個角度考慮,一個是工具的角度,另一則是從公司的角度。從工具的角度來說[8]:應(yīng)考慮數(shù)據(jù)挖掘工具的功能、簡易性、開放性及可視化是否能滿足用戶需求;從公司的角度來說[9],要考慮公司的數(shù)據(jù)挖掘需求時間長短,公司的數(shù)據(jù)狀態(tài)、預(yù)算以及數(shù)據(jù)挖掘經(jīng)驗和水平等。然而,上述介紹的這些標準都是一些比較權(quán)威和常見的,至于具體到一個企業(yè)到底選擇何種數(shù)據(jù)挖掘工具還要具體問題具體分析,判斷的標準當然也不止局限于此,要結(jié)合企業(yè)自身各個方面的條件和要求綜合考評選擇一款性價比最高的軟件進行數(shù)據(jù)挖掘,從而為企業(yè)創(chuàng)造更多未知的價值,這才是數(shù)據(jù)挖掘真正的目的。2.1.3數(shù)據(jù)挖掘的未來就目前來看,數(shù)據(jù)挖掘的研究熱點主要包括以下幾點:生物信息或基因的數(shù)據(jù)挖掘及其文本的數(shù)據(jù)挖掘、網(wǎng)站的數(shù)據(jù)挖掘。目前數(shù)據(jù)挖掘已成功應(yīng)用于社會生活的各個方面,大多數(shù)研究者目前采用的有效技術(shù)是將多種理論與方法的合理整合,相比來說,數(shù)據(jù)挖掘未來的發(fā)展趨勢主要體現(xiàn)在以下幾個方面:探索數(shù)據(jù)挖掘過程中的可視化方法,即人機交互;網(wǎng)絡(luò)與分布式環(huán)境下的KDD問題;數(shù)據(jù)挖掘語言的標準化描述;數(shù)據(jù)挖掘與數(shù)據(jù)庫系統(tǒng)和Web數(shù)據(jù)庫系統(tǒng)的集成[3];應(yīng)用領(lǐng)域的不斷擴充,如在生物醫(yī)學、電信業(yè)的應(yīng)用;與特定數(shù)據(jù)存儲類型的適應(yīng)問題,與數(shù)據(jù)庫和數(shù)據(jù)倉庫系統(tǒng)的緊耦合是未來數(shù)據(jù)挖掘系統(tǒng)的理想體系結(jié)構(gòu)[10]。2.2精準營銷基本理論2.2.1精準營銷的概念隨著時代的發(fā)展和科技的不斷進步,21世紀的人們無論是消費理念還是消費模式都發(fā)生了巨大的變化,越來越多的企業(yè)也逐步意識到傳統(tǒng)的營銷方式已經(jīng)不適合現(xiàn)在的市場,企業(yè)紛紛由原來的以產(chǎn)品和服務(wù)為中心的營銷模式轉(zhuǎn)換為以客戶需求為中心的營銷模式,精準營銷的理念應(yīng)運而生。世界級營銷大師菲利普·科特勒在2005年第一次提出精準營銷的概念:“公司需要更精準、可衡量和高投資回報的營銷溝通,需要更注重結(jié)果和行動的營銷傳播計劃,還有越來越注重對直接銷售溝通的投資?!边@是精準營銷理論的正式起源[11]。該理論一提出,便得到了社會各界的廣泛關(guān)注和認可,各行各業(yè)開始嘗試利用該理論指導實踐。通過長期實踐證明,精準營銷可以很好地為客戶提供一對一和差異化服務(wù),真正實現(xiàn)在合適的時間和地點替客戶所想,為客戶所需,增強了產(chǎn)品價值的適應(yīng)性,為企業(yè)帶來更大的利益,因此精準營銷能夠很好地實現(xiàn)企業(yè)與客戶之間的共贏。目前,我國著名的精準營銷學者徐海亮提出了一個比較權(quán)威的定義,他認為:“精準營銷就是以精準定位為核心,依托現(xiàn)代信息技術(shù)手段,建立個性化的顧客溝通體系,實現(xiàn)企業(yè)可度量的低成本擴張”。由此可知精準營銷必須具備的條件有:精準定位,可度量和高效益[11]。2.2.2精準營銷的特點精準營銷的概念一經(jīng)提出,便受到了各個行業(yè)的重視,企業(yè)紛紛嘗試這種營銷方式并取得了良好的效果,這是因為精準營銷有非常多的特點,下面就幾個主要方面進行討論。1、營銷對象的針對性精準營銷最大的特點是精準和準確,對目標對象進行細分是實施精準營銷的前提,選擇對最有可能購買自己產(chǎn)品或服務(wù)的那一部分消費者進行營銷活動[11],這樣的針對性營銷大大減少了營銷的成本,提高了營銷的收益,從而實現(xiàn)低投資高回報的營銷目的。2、營銷效果的可衡量性精準營銷另一個顯著特點就是對效果的可衡量和可評估。就傳統(tǒng)營銷方式而言,如電視媒體、平面廣告,由于受眾人數(shù)和對象無法確定,營銷效果也無法評估和改進。而在精準營銷方式中,無論是搜索引擎的競價排名,還是廣告聯(lián)盟等,它們都因事先了解受眾人群的年齡、性別和學歷等基本信息,對營銷效果可以進行較好的評估,同時可以根據(jù)評估結(jié)果改進營銷策略,從而取得更優(yōu)的效果。3、營銷策略的高效性基于以上兩個特點,可以看出精準營銷具有高效性。這種高效性既體現(xiàn)在企業(yè)信息對目標客戶的傳播上,也體現(xiàn)在企業(yè)產(chǎn)品和服務(wù)的銷售上。由于營銷之前對顧客有充分的了解,顧客也更容易接受企業(yè)的產(chǎn)品和服務(wù),使企業(yè)的營銷活動起到預(yù)期的作用。4、營銷過程的動態(tài)性精準營銷的“精準程度”本身是動態(tài)的、相對的,是指現(xiàn)在的營銷方式比過去更“精準”了,而未來會比現(xiàn)在更“精準”[12]。2.2.3精準營銷的實施策略精準營銷發(fā)展至今,實施策略非常豐富,歸結(jié)起來可以分為三大類[12]。1、基于數(shù)據(jù)庫的營銷方法進行精準營銷的重要基礎(chǔ)是要建立一個相關(guān)信息比較完備的潛在消費者數(shù)據(jù)庫,但由于其耗時、任務(wù)艱巨,需要企業(yè)持續(xù)努力、不斷積累。企業(yè)如果一時難以建立起自己的消費者數(shù)據(jù)庫,可以參考其他組織的消費者數(shù)據(jù)庫,從中選擇滿足企業(yè)自身需要的消費者信息,以開展自己的營銷活動。2、基于互聯(lián)網(wǎng)的營銷方法互聯(lián)網(wǎng)的快速發(fā)展使得現(xiàn)代人們生活的方方面面都離不開網(wǎng)絡(luò),相關(guān)企業(yè)可以充分利用這一點,通過研究網(wǎng)民在互聯(lián)網(wǎng)的行為特征,開展針對性很強的精準營銷活動。目前,基于互聯(lián)網(wǎng)的精準營銷方法也有很多,除了門戶網(wǎng)站廣告、博客、E-mail這些常見的方式,也有關(guān)鍵詞搜索、電子優(yōu)惠券、來電廣告等諸多不常見的方式。3、基于第三方渠道的營銷方法在初始階段,一些企業(yè)難以確定自己的潛在消費者的特性,但其他成熟的企業(yè)(通常是非競爭性企業(yè))可能與自身的潛在客戶群相同。因為兩個企業(yè)的產(chǎn)品或服務(wù)雖然不同,但正好針對相同的目標客戶群,如中年女性。這樣通過第三方的渠道就能夠很好地把握目標客戶并展開營銷活動。這里需要強調(diào)的是精準營銷不是要否定傳統(tǒng)的營銷理論和方法,而是要推廣和發(fā)展他們。精準營銷是目前營銷界的熱點話題,我們相信隨著各類營銷理論的不斷發(fā)展和實踐,精準營銷的理論也將會得到更好地闡釋和實施。2.3本章小結(jié)良好的理論基礎(chǔ)是技術(shù)實施的有力保障,本章對數(shù)據(jù)挖掘和精準營銷理論進行了詳細闡述,為后文的寫作打下了扎實的基礎(chǔ)。數(shù)據(jù)挖掘部分具體介紹了數(shù)據(jù)挖掘的定義及過程、工具及選擇,以及數(shù)據(jù)挖掘的未來;精準營銷部分闡述了精準營銷的概念、特點和實施策略。

3數(shù)據(jù)挖掘與精準營銷的結(jié)合應(yīng)用3.1應(yīng)用模型精準營銷相比于傳統(tǒng)粗放型營銷方式,營銷思維發(fā)生了很大的變化,它是在客戶信息和行為的基礎(chǔ)上,利用數(shù)據(jù)挖掘細分市場并制定精準化的營銷策略。進行精準營銷不但可以幫助企業(yè)節(jié)省營銷成本,以低投資高回報的方式開展營銷活動;更能有效地提升用戶的感知和滿意度,提高企業(yè)的核心競爭力。根據(jù)傳統(tǒng)營銷策略(如4P、4C理論)的思想,精準營銷模式可以概括為5W營銷分析框架,即在恰當?shù)臅r機(When),將合適的業(yè)務(wù)(Which),通過正確的渠道(Where),采取正確的行動(What),營銷給需要的客戶(Who)?!耙钥蛻魹橹行摹钡睦砟钬灤┱麄€精準營銷過程,這也是精準營銷的核心所在[12]。事實上,精準營銷的模型有很多,不同行業(yè)的精準營銷模型都是不同的,電信行業(yè)由于受到資金、人才以及相關(guān)軟件產(chǎn)品等因素的制約,很多企業(yè)目前并沒有在精準營銷方面建立專門的系統(tǒng)。本文在此介紹一種以數(shù)據(jù)挖掘作為精準營銷的前期技術(shù)且行之有效、簡單易用的精準營銷模型。模型結(jié)構(gòu)如圖3.1。圖3.1精準營銷模型圖1、需求分析和確定目標不同的精準營銷目標決定了不同的精準營銷方法和過程,因此,在進行精準營銷之前要對精準營銷的目標進行明確界定,是為了降低客戶流失率還是為了挖掘潛在客戶,還是為了提高市場占有率等等。對于不同的目標,所采用的數(shù)據(jù)挖掘方法和算法也不同。本文所涉及的領(lǐng)域為電信行業(yè),目前這一行業(yè)在國內(nèi)有著其他行業(yè)不具備的顯著特點即由聯(lián)通、電信、移動三大支柱產(chǎn)業(yè)完全壟斷市場,三者都擁有各自龐大的客戶群,實力相當、競爭激烈,電信企業(yè)紛紛尋求一種方式,想要在留住現(xiàn)有客戶的同時吸引更多客戶。本文通過數(shù)據(jù)挖掘的聚類技術(shù)將客戶劃分到不同類別,針對不同類別的客戶采取不同的營銷手段。同時根據(jù)關(guān)聯(lián)規(guī)則技術(shù)找出用戶通話規(guī)律之間的關(guān)系,為其推薦或定制差異化的產(chǎn)品,讓客戶的需求得到更好地滿足,提高客戶忠誠度的同時吸引更多客戶。2、選擇業(yè)務(wù)變量由于電信行業(yè)自身的特點,無論是企業(yè)還是個人,每天都在為電信行業(yè)提供著大量的數(shù)據(jù),且由于每個人的通話習慣和需求不同,電信行業(yè)涉及的業(yè)務(wù)數(shù)據(jù)極其復雜,要想選擇有效的變量進行數(shù)據(jù)挖掘就需要前期的比較分析和篩選。3、數(shù)據(jù)準備在確定目標變量之后,我們需要對數(shù)據(jù)樣本進行提取,并對數(shù)據(jù)進行清理和預(yù)處理,我們稱之為數(shù)據(jù)準備階段。之所以要進行這步工作,是由于雖然有海量數(shù)據(jù),但是這些數(shù)據(jù)不同于可用的信息,要想完成精準營銷的目標,需要對數(shù)據(jù)進行篩選,去除噪聲數(shù)據(jù)和冗余數(shù)據(jù),以免影響挖掘結(jié)果。這部分的工作量較大,將占到整個工作量的50%左右。4、建模和調(diào)優(yōu)數(shù)據(jù)準備好了,就要實現(xiàn)挖掘,也就是完成數(shù)據(jù)挖掘最為關(guān)鍵的工作。在這一階段,我們要依照挖掘任務(wù)和目標變量的特征,選擇合適的數(shù)據(jù)模型。模型建立之后,需要判斷模型是否有效,判斷規(guī)則要遵循以下原則:(1)達到最高盈利規(guī)模,我們都知道,營銷是市場經(jīng)濟的產(chǎn)物,而精準營銷更加注重用最低的成本創(chuàng)造最大的價值,因此只有達到了最高的盈利規(guī)模才能實現(xiàn)精準營銷的價值;(2)目標需求有明顯差異,這也是精準營銷的前提所在。只有目標客戶群體的需求有明顯差異,進行市場細分才是有意義的;也只有目標客戶需求有明顯差異,才便于我們識別,從而利用數(shù)據(jù)挖掘的聚類方法實現(xiàn)細分;(3)市場開發(fā)具有可行性,要開發(fā)市場,我們必須能夠接觸到這個市場,對其施加一定的影響,從而提高市場占有率或者加強客戶忠誠度。5、結(jié)果描述和特征歸納數(shù)據(jù)挖掘工具將數(shù)據(jù)挖掘的結(jié)果直接地展現(xiàn)給我們,但要想得出什么樣的結(jié)論需要研究者理性的思維加工過程,對結(jié)果進行描述。例如在聚類分析中,數(shù)據(jù)挖掘工具只是將全部用戶分類,我們要找出不同群體之間的差異,提煉出關(guān)鍵的要素,即分群的依據(jù),并根據(jù)這些依據(jù)給每個群起一個簡短且能反映該群特征的名字,便于在后續(xù)營銷過程中使用。在電信行業(yè),我們就可以根據(jù)客戶的消費特征和消費習慣將客戶分為本地繁忙組,指絕大部分通話業(yè)務(wù)集中在本地,漫游少;漫游組,指通話集中在漫游業(yè)務(wù)上,漫游業(yè)務(wù)量大。6、制定對應(yīng)的營銷策略精準營銷是一個閉環(huán)循環(huán)過程。在精準營銷的過程中,數(shù)據(jù)挖掘技術(shù)對用戶數(shù)據(jù)進行處理只是第一個步驟,依據(jù)數(shù)據(jù)挖掘結(jié)果制定精準營銷策略并實施,最終根據(jù)從市場獲得的反饋不斷改進營銷策略才是完成了整個精準營銷的過程。這里反饋是指根據(jù)從營銷活動執(zhí)行過程中收集到的數(shù)據(jù)以及客戶的反應(yīng)程度,對營銷活動的執(zhí)行、渠道、產(chǎn)生和廣告進行評價,找出有待改進和優(yōu)化的地方,總結(jié)在執(zhí)行期間遇到的相關(guān)問題及經(jīng)驗教訓,為下一次的營銷活動奠定良好的基礎(chǔ)。3.2應(yīng)用領(lǐng)域1、潛在用戶挖掘隨著國內(nèi)外電信市場競爭的日趨激烈,各大運營商為了提高自身核心競爭力,已經(jīng)從原來的被動式營銷改為主動式營銷。雖然現(xiàn)在國內(nèi)電信行業(yè)呈現(xiàn)幾大巨頭企業(yè)完全壟斷市場的局面,各自擁有龐大的客戶群,但從商家頻繁推出各類促銷形式吸引顧客來看,彼此之間競爭是十分激烈的,如何從大量客戶中,挖掘出潛在客戶,將競爭對手的客戶轉(zhuǎn)變?yōu)樽约旱目蛻?,擴大市場占有率是電信行業(yè)主要考慮的問題之一??赏ㄟ^建立各類數(shù)據(jù)挖掘預(yù)測模型,預(yù)測潛在用戶使用該業(yè)務(wù)的可能性大小,為運營商實行主動性和精確化營銷提供依據(jù)。2、客戶流失預(yù)測很長一段時間,由于我國各電信運營商進行價格競爭,客戶不得不頻繁地更換運營商,這種現(xiàn)象導致客戶流失成為中國電信企業(yè)發(fā)展中面臨的一個日趨嚴重的問題。因此要在客戶流失之前做出相關(guān)預(yù)測,并采取相應(yīng)營銷手段挽留客戶??梢岳脭?shù)據(jù)挖掘技術(shù)建立客戶流失預(yù)測模型,找出即將離開該模型的用戶,也就是即將流失的客戶,并通過預(yù)測分析過程中的相關(guān)數(shù)據(jù)確定用戶類型,依據(jù)此類型的用戶特征采用挽留的營銷手段[13]。3、客戶消費模式分析由于電信消費具有長期性和持續(xù)性的特點,可以對電信行業(yè)逐日積累的海量客戶數(shù)據(jù),如客戶的個人信息、歷年來長話、市話、集中通話時段等等數(shù)據(jù)進行關(guān)聯(lián)分析,從消費行為和習慣等方面對客戶的消費模式展開研究,這樣有利于電信運營商的營銷人員在進行營銷活動時可以從客戶行為和客戶心理雙重層面上把握客戶的消費習慣和潛在消費可能性,也有利于營銷人員爭取到更多優(yōu)質(zhì)的客戶資源。4、客戶欺詐行為分析通過數(shù)據(jù)挖掘技術(shù),不僅可以得出正常的顧客消費規(guī)律,也能得到各種騙費、欠費的行為規(guī)律??衫眠@類數(shù)據(jù)建立一套欠費和欺詐行為的規(guī)則庫。當某一客戶的消費行為與規(guī)則庫的某條規(guī)則匹配時,系統(tǒng)就會提示運營商提高警惕并采取相關(guān)措施,從而降低損失的風險。3.3應(yīng)用中可能存在的問題及對策1、數(shù)據(jù)質(zhì)量不高電信行業(yè)由于其自身的行業(yè)特點,擁有龐大的數(shù)據(jù)資源,但是這些海量的數(shù)據(jù)資源中不乏很多的臟數(shù)據(jù)和缺失數(shù)據(jù),反而一些有用的數(shù)據(jù)無法收集,例如客戶的基本信息,如性別和年齡[14]。因為不同的性別和年齡消費模式和習慣必定不同,知道客戶的基本信息可以很好地將廣大用戶進行初步分類以輔助后續(xù)營銷策略的制定。因此應(yīng)注重數(shù)據(jù)的收集過程,提高數(shù)據(jù)的收集質(zhì)量,并建立一個統(tǒng)一的數(shù)據(jù)庫平臺,為企業(yè)應(yīng)用提供數(shù)據(jù)服務(wù)。值得強調(diào)的是數(shù)據(jù)庫建設(shè)本身是一個長期的、漸進的項目,企業(yè)應(yīng)做好持續(xù)努力的準備。2、缺乏專業(yè)的數(shù)據(jù)建模人員雖然數(shù)據(jù)挖掘已成為近年來的熱門話題,但電信行業(yè)企業(yè)內(nèi)部即可利用數(shù)據(jù)挖掘技術(shù)解決企業(yè)實際問題的情況并未普及,這是因為利用數(shù)據(jù)挖掘方法建模,需要很強的專業(yè)知識,包括數(shù)據(jù)庫、數(shù)據(jù)倉庫以及機器學習等等,另外能否選擇合適的挖掘工具和算法是決定挖掘結(jié)果是否能引導營銷人員得出正確結(jié)論的關(guān)鍵因素;與此同時,又需要扎實的業(yè)務(wù)知識,可以將挖掘結(jié)果進行分析比較,從而得出有效的結(jié)論并作用于企業(yè)。因此要求建模人員既要有專業(yè)的數(shù)據(jù)挖掘背景同時對企業(yè)的業(yè)務(wù)了然于胸,簡單地依賴某些數(shù)據(jù)挖掘工具,脫離實際的應(yīng)用背景,會使數(shù)據(jù)挖掘的效果事倍功半。因此企業(yè)只有從一開始就有針對性地培養(yǎng)數(shù)據(jù)挖掘人才,使其具備行業(yè)背景的同時深知數(shù)據(jù)挖掘原理和操作,才能使數(shù)據(jù)挖掘成功地應(yīng)用于企業(yè)并為自身創(chuàng)造價值。總之,精準營銷是近些年來營銷界熱門的話題,因為精準營銷相比原來的傳統(tǒng)式營銷可以節(jié)約成本,提高效率,擴大市場占有率。利用數(shù)據(jù)挖掘技術(shù)進行數(shù)據(jù)分析和統(tǒng)計,可以在很大程度上輔助營銷策略的制定,這一做法已經(jīng)成為精準營銷領(lǐng)域普遍采取的方法。電信行業(yè)由于其自身行業(yè)特征擁有海量數(shù)據(jù),我們可以充分利用這些數(shù)據(jù),為企業(yè)和行業(yè)創(chuàng)造價值。3.4本章小結(jié)本章在第二章的基礎(chǔ)上,將兩種概念相結(jié)合,對二者在電信行業(yè)的結(jié)合應(yīng)用進行了理論闡述,具體介紹了二者結(jié)合應(yīng)用的應(yīng)用模型、應(yīng)用領(lǐng)域以及在應(yīng)用過程中可能出現(xiàn)的問題及對策。本章為第四章的實例研究提供了理論依據(jù)。

4數(shù)據(jù)挖掘在電信行業(yè)精準營銷的實例研究4.1實例背景介紹近些年,移動終端的不斷發(fā)展極大地促進了世界各地電信業(yè)務(wù)突飛猛進的發(fā)展。據(jù)統(tǒng)計,2012年8月,中國移動新增移動電話用戶512.2萬戶,同比增速-11.34%;中國電信新增移動電話用戶251萬戶,同比增長-3.09%;中國聯(lián)通新增移動電話用戶340.5萬戶,同比增長44.04%。就該數(shù)據(jù)來看,在新增用戶中中國移動仍然占較大比重,達到46.85%,但這一比重呈下滑趨勢。研究中國電信行業(yè)用戶消費行為,并提供精準化的營銷服務(wù),降低客戶流失率的同時增強客戶忠誠度,成為目前電信行業(yè)亟待解決的問題。本文的實例研究以2012年中國某地區(qū)移動用戶的通話記錄作為原始數(shù)據(jù)集,該數(shù)據(jù)集包含了共65500個用戶的個人信息和長達六個月的通話記錄。本文將利用這些數(shù)據(jù)進行聚類和關(guān)聯(lián)規(guī)則兩種數(shù)據(jù)挖掘方法,根據(jù)挖掘結(jié)果制定有針對性的營銷策略,從而實現(xiàn)精準營銷的過程,而精準營銷可以很好地幫助電信行業(yè)解決降低客戶流失率和增強客戶忠誠度的問題。4.2使用方法介紹在整個數(shù)據(jù)挖掘過程中最為關(guān)鍵的便是數(shù)據(jù)挖掘算法,而算法的選擇取決于挖掘的目的和任務(wù)。從任務(wù)層面來說,常見的數(shù)據(jù)挖掘技術(shù)主要分為三類,分別是關(guān)聯(lián)規(guī)則發(fā)現(xiàn),分類分析以及聚類分析。下面分別結(jié)合本文使用的算法予以簡要介紹。4.2.1聚類分析聚類分析是指將一個集合劃分成為由相似的對象組成的對象類(即簇)的一個過程,聚類分析也稱為群分析[15]。它與分類有一個明顯不同的特點,即分類中數(shù)據(jù)的類別是已知的,通過這些數(shù)據(jù)類型構(gòu)建模型并對未知數(shù)據(jù)進行預(yù)測;而聚類中所有的數(shù)據(jù)類型以及有幾個數(shù)據(jù)類型都是未知的,要對所有對象進行分組,而分組的依據(jù)是對象之間的相似程度。最終使得一個組內(nèi)的數(shù)據(jù)對象盡可能相似,而不同組中的數(shù)據(jù)對象不相似[16]。1、K-means聚類算法K-means算法是最為經(jīng)典的聚類算法之一。該算法是把對象集合X劃分為一組聚類{C1,C2,...,Ck},這里k是最終的聚類個數(shù)。首先隨機選取初始聚類中心,通過計算各個點到初始聚類中心的距離對所有數(shù)據(jù)點進行分類,然后計算每個聚類的平均值調(diào)整聚類中心,以此不斷地迭代循環(huán)。最終使每個對象歸屬一個類,并滿足同一類內(nèi)的對象盡可能相似,類間對象不相似。通常,采用目標函數(shù)是平方誤差函數(shù),見公式4.1。E=i=1kp∈c這里,E是表示數(shù)據(jù)集中所有對象的平方誤差和,p為一個數(shù)據(jù)對象,mi是聚類Ci的中心,這個目標函數(shù)使得生成的簇盡可能地緊湊和獨立。K-means聚類算法用流程圖和示意圖分別表示為圖4.1和圖4.2。圖4.1K-means算法流程圖K-means算法之所以成為聚類的經(jīng)典算法,主要因為其算法簡潔、快速的優(yōu)點。另外,這種算法面對大規(guī)模數(shù)據(jù)集時具有較高的效率,這正好符合本文涉及行業(yè)的特點。但是這種算法有一個很大的缺點,就是要求事先人為地給出要生成的簇的數(shù)目并指定各聚類的中心。由于初始聚類中心的選擇對聚類效果有較大的影響,如果選擇不合適,會出現(xiàn)局部最優(yōu)解,而這是我們不希望得到的結(jié)果。圖4.2K-means算法示意圖2、TwoStep聚類算法這里所指的TwoStep聚類算法是二階段群集算法(TwoStepCluster)的簡寫。二階段群集算法是一種分層群集算法,目前多用于資料統(tǒng)計采礦與多元統(tǒng)計的交叉領(lǐng)域,其算法適合于任何尺度的變數(shù)。此算法可自動確定類的數(shù)目,也能由使用者自己設(shè)定聚類數(shù)目,能夠處理連續(xù)變量和分類變量的混合數(shù)據(jù)。TwoStep算法是分前后兩步進行的,也即“兩步”或“二階段”的意義所在。第一步使用的是分層群集中針對大樣本群集產(chǎn)生的Birch算法,將樣本分成許多子類。該算法是傳統(tǒng)分層群集算法的改進,其實質(zhì)是層次群集方法與其他群集方法相結(jié)合的多階段群集。第二步使用對數(shù)似然函數(shù)作為距離測量公式,利用第一步的結(jié)果對每個樣本再次群集,對在一定范圍的每個群集成員計算一些判別值,并用來估計類的最初數(shù)目。我們常用的算法是分層群集算法。4.2.2關(guān)聯(lián)規(guī)則發(fā)現(xiàn)關(guān)聯(lián)規(guī)則發(fā)現(xiàn)是另一類數(shù)據(jù)挖掘算法。關(guān)聯(lián)規(guī)則的挖掘是在數(shù)據(jù)庫中發(fā)現(xiàn)數(shù)據(jù)間強關(guān)聯(lián)特征的模式,目的是以有效的方式提取最有趣的模式[17]。關(guān)聯(lián)規(guī)則在市場營銷領(lǐng)域主要可以解決精準營銷的兩類問題:一是交叉銷售,即對用戶進行產(chǎn)品推薦;二是捆綁銷售,即分析哪些商品在一起銷售更好,著名的“啤酒與尿布”就是這類問題的典型應(yīng)用。Apriori是關(guān)聯(lián)規(guī)則最經(jīng)典的算法之一。其基本思想是首先從事件集中尋找所有頻繁出現(xiàn)的事件子集,然后在這些頻繁事件子集中發(fā)現(xiàn)可信度較高的規(guī)則。關(guān)聯(lián)規(guī)則有兩個重要的評價指標:支持度和可信度。支持度是指事物A、B同時發(fā)生的可能性,用來衡量關(guān)聯(lián)規(guī)則的重要性程度。而可信度是指事物A發(fā)生的同時B發(fā)生的可能性,用來衡量關(guān)聯(lián)規(guī)則的準確度。圖4.3為Apriori算法流程圖。圖4.3Apriori算法流程圖4.3需求分析開發(fā)任何項目之前,都要進行需求分析,數(shù)據(jù)挖掘因涉及的項目領(lǐng)域、工具、算法眾多,更加需要需求分析。一個標準的數(shù)據(jù)挖掘需求分析模型應(yīng)由功能、數(shù)據(jù)和方法三部分組成,在此結(jié)合本文研究實例進行分析:1、功能部分既是目標又是結(jié)果。本文的目標是對電信用戶進行精準營銷,一般來說精準營銷的內(nèi)容包括:客戶流失預(yù)測、潛在客戶挖掘、客戶欺詐行為分析等;2、任何一個數(shù)據(jù)挖掘模型都離不開數(shù)據(jù)部分。數(shù)據(jù)的準備和預(yù)處理是產(chǎn)生真實有效的挖掘模式的保證;3、方法部分是模型的核心部分。通過功能部分可以清楚地知道數(shù)據(jù)挖掘的目標和期望得到的結(jié)果,由此決定選擇哪一種挖掘方法。本文希望對不同消費特征的用戶采取精準營銷策略,因此首先需要將海量客戶進行區(qū)分,而由于事先難以確定各類客戶的特征,這里選用了無監(jiān)督模式的聚類分析。在聚類分析中,本文采用了K-means和TwoStep兩種算法。同時為了挖掘客戶通話規(guī)律之間的關(guān)聯(lián)關(guān)系,又采用了關(guān)聯(lián)規(guī)則算法中最為經(jīng)典的Apriori算法。4.4數(shù)據(jù)準備數(shù)據(jù)準備是數(shù)據(jù)挖掘過程中非常重要的環(huán)節(jié),因為在該階段要將最初的、未加工的原始數(shù)據(jù)轉(zhuǎn)換為最終可以進行數(shù)據(jù)挖掘的數(shù)據(jù)集,而優(yōu)質(zhì)的數(shù)據(jù)集是數(shù)據(jù)挖掘的基礎(chǔ)和保障。數(shù)據(jù)準備階段工作量較大,占到整個數(shù)據(jù)挖掘過程中工作量的50%左右。4.4.1數(shù)據(jù)選擇據(jù)挖掘數(shù)據(jù)部分的第一個步驟是數(shù)據(jù)選擇,也稱為數(shù)據(jù)獲取。數(shù)據(jù)選擇是指初步獲取數(shù)據(jù)挖掘過程中所用的數(shù)據(jù)集合,目的是選擇挖掘任務(wù)的操作對象,即目標數(shù)據(jù)。數(shù)據(jù)選擇的方法有很多,在本文實例中,如果能夠從實際生活中直接獲取到某一地區(qū)電信運營商在某一階段的真實通信數(shù)據(jù),則能夠?qū)?shù)據(jù)挖掘的結(jié)果作用于該地區(qū)電信運營商的實際分析當中,但限于行業(yè)機密,這一做法并不容易實現(xiàn)。本文所使用的數(shù)據(jù)是由某權(quán)威科研數(shù)據(jù)共享平臺提供的科研數(shù)據(jù)。依靠國家科技部的大力支持,并通過與國內(nèi)外著名科研機構(gòu)、高等院校的通力合作,該平臺積累了豐富的科研數(shù)據(jù)資源。本文使用的數(shù)據(jù)是2012年中國某地區(qū)移動用戶通信記錄的數(shù)據(jù)集。該數(shù)據(jù)集中包含了大量信息,就屬性字段而言,共有用戶ID、姓名、年齡、職業(yè)、通信時長、本地接聽次數(shù)、本地市話撥打次數(shù)、本地長途次數(shù)、漫游接聽次數(shù)、漫游撥打次數(shù)、呼叫聯(lián)通次數(shù)、呼叫電信次數(shù)、呼叫聯(lián)通時長、呼叫電信時長、本地接聽時長、本地市話撥打時長、本地長途撥打時長、漫游接聽時長、漫游撥打時長、本地基本通話費(主叫)、本地基本通話費(被叫)、漫游主費用、聯(lián)通聯(lián)系次數(shù)、電信聯(lián)系次數(shù)共24個屬性。數(shù)據(jù)記錄條數(shù)高達65500條,海量的數(shù)據(jù)信息和較高的可信度和真實度為本次數(shù)據(jù)挖掘提供了良好的保障。4.4.2數(shù)據(jù)預(yù)處理雖然擁有如此多的數(shù)據(jù),但是一般情況下這些原始數(shù)據(jù)中存在著大量的不完整、冗余性和模糊性的數(shù)據(jù),無法滿足數(shù)據(jù)挖掘算法的要求,嚴重影響了數(shù)據(jù)挖掘算法的執(zhí)行,因此在真正挖掘工作之前,需要進行數(shù)據(jù)預(yù)處理。常見的數(shù)據(jù)預(yù)處理方法有:數(shù)據(jù)抽取、數(shù)據(jù)集成、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)歸約。1、數(shù)據(jù)抽取又稱數(shù)據(jù)采集,就是從不同的數(shù)據(jù)源中抽取數(shù)據(jù)。由于實際問題的需要,往往要從不同數(shù)據(jù)源中獲取數(shù)據(jù),而這些數(shù)據(jù)大部分是沒有聯(lián)系的,如果不進行數(shù)據(jù)抽取,將所有數(shù)據(jù)進行數(shù)據(jù)挖掘,一般挖掘算法都可以在這些不相關(guān)的數(shù)據(jù)中也挖掘出“規(guī)律”來,而這并不是我們需要的,因此數(shù)據(jù)抽取顯得尤為重要。2、數(shù)據(jù)集成數(shù)據(jù)集成廣義上是指將多個數(shù)據(jù)源系統(tǒng)數(shù)據(jù)合并存放在一個統(tǒng)一的數(shù)據(jù)存儲中,統(tǒng)一業(yè)務(wù)規(guī)則和編碼規(guī)則,消除數(shù)據(jù)本身的冗余等,數(shù)據(jù)集成一般來說涉及2個問題[18]:(1)模式集成,涉及實體識別,即同一個實體在不同數(shù)據(jù)集中用不同的屬性來表示,通常借助于數(shù)據(jù)庫或數(shù)據(jù)倉庫中元數(shù)據(jù)的查詢來解決這一問題;(2)冗余,數(shù)據(jù)集成往往導致數(shù)據(jù)冗余,如同一個屬性命名不一致或者同一個屬性多次出現(xiàn)等情況,利用相關(guān)分析可以檢測到屬性間冗余,然后刪除即可。3、數(shù)據(jù)清洗數(shù)據(jù)清洗主要包括處理空缺值、平滑噪聲數(shù)據(jù)(臟數(shù)據(jù))??杖敝凳侵改硞€或某些數(shù)據(jù)的缺失,可以利用回歸、貝葉斯等方法填充空缺值;噪聲是指一個數(shù)據(jù)集中的隨機錯誤或偏差,包括錯誤的值或偏離期望的孤立點值,可以利用平滑技術(shù)處理噪聲數(shù)據(jù)??杖敝岛驮肼晹?shù)據(jù)在實際數(shù)據(jù)集中都是無法避免的,數(shù)據(jù)清洗可以提高數(shù)據(jù)質(zhì)量,大大減少了數(shù)據(jù)變換過程異常處理的工作量[18,19]。4、數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換就是對數(shù)據(jù)進行規(guī)范化,從而使數(shù)據(jù)轉(zhuǎn)換成一個適合數(shù)據(jù)挖掘的形式。數(shù)據(jù)轉(zhuǎn)換一般包括以下內(nèi)容:(1)平滑處理,就是再次進行噪聲處理;(2)數(shù)據(jù)泛化處理,用更抽象或更高層次的概念來取代低層次的對象;(3)屬性構(gòu)造,指根據(jù)已有屬性構(gòu)造新的屬性,以輔助數(shù)據(jù)挖掘的過程。5、數(shù)據(jù)歸約數(shù)據(jù)歸約是指在盡可能保證數(shù)據(jù)完整性的基礎(chǔ)上,獲得數(shù)據(jù)的簡化表示,以減少數(shù)據(jù)存儲空間,使挖掘過程更有效,數(shù)據(jù)規(guī)約的概念很大,數(shù)據(jù)挖掘中常用和有效的是維歸約,也稱變量簡約[20]。按照上述數(shù)據(jù)預(yù)處理原理,考慮到聚類和關(guān)聯(lián)規(guī)則算法都只是對客戶通話記錄進行數(shù)據(jù)挖掘,因此客戶姓名、年齡、職業(yè)等信息顯然是冗余信息,在進行數(shù)據(jù)預(yù)處理時筆者刪除了這些信息,并對數(shù)據(jù)集中的空缺數(shù)據(jù)和噪聲數(shù)據(jù)都進行了處理,至此得到了質(zhì)量較高,可以進行挖掘的優(yōu)質(zhì)數(shù)據(jù)集。4.5聚類分析4.5.1K-means算法通過前文介紹,我們已經(jīng)清楚地知道,本次數(shù)據(jù)挖掘的背景和任務(wù),并且得到了經(jīng)過預(yù)處理的優(yōu)質(zhì)數(shù)據(jù)集,下面就可以在SPSSClementine中實現(xiàn)數(shù)據(jù)挖掘。首先我們實現(xiàn)K-means算法的聚類分析。1、由于數(shù)據(jù)集以Excel形式存儲,而SPPSClementine提供了與多種源文件形式的接口,因此可以直接以Excel文件形式讀取數(shù)據(jù)集,如圖4.4所示。圖4.4導入數(shù)據(jù)2、在接入其他運算節(jié)點之前,需要先檢驗剛剛讀取的數(shù)據(jù)是否正確或者確認將要聚類的屬性都有哪些,因此接入Table節(jié)點(圖4.5-4.6),即以表格的形式查看接入的數(shù)據(jù)集(圖4.7)。圖4.5選擇Table節(jié)點圖4.6接入Table節(jié)點圖4.7查看數(shù)據(jù)3、確定之后接入類型節(jié)點,在字段選項中選擇“類型”節(jié)點,即Type節(jié)點。如圖4.8所示。圖4.8接入Type節(jié)點雙擊該節(jié)點,設(shè)置該節(jié)點的值。在K-means算法中,要求所有參與聚類的屬性“方向值”都必須為“輸入”(In),設(shè)置結(jié)果如圖4.9所示。圖4.9設(shè)置字段屬性4、選擇模型:選擇聚類分析中最為經(jīng)典的K-means模型,如圖4.10所示;構(gòu)建好的模型整體示意圖如圖4.11所示。圖4.10選擇K-means模型圖4.11接入K-means模型5、設(shè)置K-means屬性,尤其是聚類數(shù),如圖4.12所示;設(shè)置好聚類數(shù)后執(zhí)行算法,圖4.13為執(zhí)行過程。圖4.12設(shè)置模型屬性圖4.13模型執(zhí)行過程圖聚類數(shù)目的選擇是K-means算法的關(guān)鍵,這里采用比較分析的方法確定聚類數(shù)目。根據(jù)經(jīng)驗,一般情況下聚類數(shù)目為5類左右,因此這里分別設(shè)置聚類數(shù)目為3、4、5、6、7并執(zhí)行算法。圖4.14表示當聚類數(shù)目不同時,迭代次數(shù)和誤差值也不同。圖4.14聚類數(shù)目不同時的迭代次數(shù)比較圖從上圖可以看出,當聚類數(shù)目為3或4時,迭代次數(shù)少,聚類效果好,結(jié)合實際情況考慮,最終選擇4作為聚類數(shù)目,即將所有數(shù)據(jù)聚為4類。每類的記錄條數(shù)及百分比如圖4.15和圖4.16所示。圖4.15各聚類記錄條數(shù)示意圖圖4.16各聚類記錄百分比示意圖SPSSClementine12.0使用方差分析的F檢驗方法識別變量的均值是否存在顯著差異,查看器為我們提供了各屬性值對每一類的重要性程度,如圖4.17所示。圖4.17屬性重要程度示意圖4.5.2TwoStep算法1、在Type節(jié)點之后接入兩步模型,如圖4.18所示。圖4.18TwoStep模型圖2、由于該算法可以自己設(shè)定聚類數(shù)目,我們先按此方法執(zhí)行模型,如圖4.19所示。圖4.20為模型執(zhí)行過程。圖4.19設(shè)置模型屬性圖4.20模型執(zhí)行過程圖圖4.21各聚類記錄條數(shù)示意圖3、如圖4.21和4.22,查看執(zhí)行結(jié)果可知該算法將全部用戶聚類2類,通過查看器(圖4.23)可知,所有屬性對聚類1的重要程度為1.00,對聚類2的重要程度為0.00,這顯然是不符合實際情況的。因此該算法執(zhí)行結(jié)果不列入比較結(jié)果中。圖4.22查看器結(jié)果圖圖4.23各屬性對聚類的影響程度示例圖4、顯然本文使用的數(shù)據(jù)并不適合讓Twostep算法自動確定聚類數(shù)目,因此為了提高算法的有效性,也為了更好地與K-means算法進行比較,在這里將兩步模型的聚類數(shù)目手動設(shè)置為4,并執(zhí)行,如圖4.24所示。圖4.24設(shè)置模型屬性5、對比該執(zhí)行結(jié)果與K-means結(jié)果(圖4.25),可以發(fā)現(xiàn),TwoStep每個聚類中屬性的標準差普遍大于K-means的標準差,我們都知道,標準差越小,聚類效果越好,因此可得出在本例中K-means的聚類效果明顯優(yōu)于TwoStep的結(jié)論,究其原因,可能是因為K-means這種算法面對大規(guī)模數(shù)據(jù)集時具有較高的效率。圖4.25兩種聚類算法對比圖4.5.3判斷聚類依據(jù)根據(jù)查看器中的重要性程度指標我們可以判斷出每一個屬性主要影響的聚類類別,綜合這些屬性便可以得出每個聚類的特征。下面舉例說明:根據(jù)圖4.26可以很明顯看出,“呼叫電信次數(shù)”這一屬性對聚類4的重要性程度為0.97,代表“重要”,而對其他三類重要性程度小于0.9代表“不重要”,因此,“呼叫電信次數(shù)”這一屬性影響聚類4的屬性特征。將每一個屬性按照上述方法分析,即可得出每個類的屬性特征,由此判斷出算法聚類的依據(jù)。表4.1表示了每個屬性對各個類是否重要,重要用“√”表示,不重要用“×”表示。圖4.26各屬性對聚類的影響程度示例圖表4.1各屬性對聚類的影響程度判斷表聚類1聚類2聚類3聚類4呼轉(zhuǎn)“電信”次數(shù)×××√呼轉(zhuǎn)“電信”時長×××√呼轉(zhuǎn)“聯(lián)通”時長×××√呼轉(zhuǎn)“聯(lián)通”次數(shù)√××√本地基本通話費(主叫)√√××本地基本通話費(被叫)√××√本地市話撥打時長√√××本地市話撥打次數(shù)√√××本地接聽時長√√××本地接聽次數(shù)√√××本地長途撥打時長×√××本地長途撥打次數(shù)×√××漫游總費用√×××漫游撥打時長××√×漫游撥打次數(shù)××√×漫游接聽時長××√×漫游接聽次數(shù)√××ד電信”聯(lián)系次數(shù)√√×ד聯(lián)通”聯(lián)系次數(shù)√√××通信時長√√××由表4.1可以看出,聚類1區(qū)別于其他類的類別特征影響因素主要是本地業(yè)務(wù),再由SPSSClementine查看器(圖4.27)可知,聚類1的被叫通話費用超過了主叫通過費用,因此把該組稱為“被動呼叫組”;圖4.27類1的聚類依據(jù)圖圖4.28類2的聚類依據(jù)圖聚類2區(qū)別于其他類的類別特征影響因素也主要是本地業(yè)務(wù),但是該組主叫費用明顯多于被叫費用(圖4.27),且在本地各項業(yè)務(wù)中該類別業(yè)務(wù)量都最大(圖4.28),因此將該組稱為“本地繁忙組”;聚類3只有三個屬性影響其特征,即“漫游撥打時長”、“漫游撥打次數(shù)”、“漫游接聽時長”,說明該組的業(yè)務(wù)都集中在漫游上,因此稱該組為“漫游組”;聚類4有5個屬性影響其特征,區(qū)別其他類別,選出關(guān)鍵影響因素,可以看出該組與“聯(lián)通”、“電信”用戶聯(lián)系頻繁(圖4.29),因此稱為“聯(lián)通電信組”。由此給出了4個聚類各自的關(guān)鍵特征。圖4.29類4的聚類依據(jù)圖4.5.4查看用戶歸屬類別在Type節(jié)點之后接入K-means聚類結(jié)果,并在之后接入Table節(jié)點(圖4.30),可以知道每個用戶分別歸屬于哪個聚類(圖4.31)??梢钥闯鰣D4.31比圖4.7多了兩列,分別表示每個用戶歸屬的聚類類別以及每個用戶與其所在類的類中心的距離,距離越近,表示它聚在該類的效果越好。至此,利用聚類K-means算法進行數(shù)據(jù)挖掘的全部過程都已完成。圖4.30接入Table節(jié)點圖4.31聚類結(jié)果圖4.6關(guān)聯(lián)規(guī)則分析1、替換數(shù)據(jù)關(guān)聯(lián)規(guī)則是挖掘事件A發(fā)生時事件B或C發(fā)生的可能性,為了便于關(guān)聯(lián)規(guī)則分析的進行,這里需要將原數(shù)據(jù)的屬性進行篩選和修改。選取有關(guān)時長的字段,包括通信時長、本地接聽時長、本地市話撥打時長、本地長途撥打時長、漫游接聽時長和漫游撥打時長共六個字段進行關(guān)聯(lián)分析,并在Excel中借助IF函數(shù)將數(shù)值大于其所在組平均值的定義為通話時間長,數(shù)值小于其所在組平均值的定義為通話時間短。同時關(guān)聯(lián)規(guī)則算法要求一次最多運行250條數(shù)據(jù),為了提高運算效率,這里從原始數(shù)據(jù)中隨機抽取了200條進行修改。2、在模型中接入數(shù)據(jù)源節(jié)點和Table節(jié)點,并查看數(shù)據(jù),如圖4.32和4.33。圖4.32接入Table節(jié)點圖4.33查看數(shù)據(jù)3、接入Type節(jié)點,并設(shè)置數(shù)據(jù)方向值(圖4.34),在這里將不需要進行分析的屬性方向值更改為None(無),要分析的屬性方向值更改為Both(兩者),因為關(guān)聯(lián)規(guī)則分析的是兩個屬性間的關(guān)系,每個屬性既作為模型的輸入又作為模型的輸出,因此屬性方向是雙向的,且是離散型的數(shù)據(jù)。圖4.34設(shè)置字段屬性4、接入模型:SPSSClementine12.0提供了三種關(guān)聯(lián)規(guī)則算法,在這里我們選用最為經(jīng)典的Apriori算法,如圖4.35接入模型,圖4.36設(shè)置屬性并執(zhí)行。圖4.35接入Apriori模型圖4.36設(shè)置模型屬性5、查看模型執(zhí)行結(jié)果(圖4.37),可以得出前項與后項的支持度和置信度,例如“本地接聽時長”長和“通信時長”長同時發(fā)生的可能性是41.206%,當已知“本地接聽時長”長時,“通信時長”長的可能性是81.707%。圖4.37模型結(jié)果圖圖4.38接入Web圖節(jié)點6、關(guān)聯(lián)規(guī)則分析的結(jié)果還可以以各類圖形的方式表示出來,這也是SPSSClementine12.0的一大優(yōu)勢,即提供了良好的圖形化界面,便于用戶對結(jié)果的觀察與分析。在Type節(jié)點后接入Web圖節(jié)點,如圖4.38所示,并設(shè)置節(jié)點屬性(圖4.39)。圖4.39設(shè)置節(jié)點屬性圖4.40劃桿值為18的Web結(jié)果圖7、分析圖形化結(jié)果。圖4.40—4.42為模型執(zhí)行結(jié)果圖。圖4.40是一張全連圖,任意兩個屬性之間都有線連接,但線的粗細不同,代表二者關(guān)聯(lián)程度不同,這里我們設(shè)定線越粗關(guān)聯(lián)程度越大,另外還可以調(diào)節(jié)劃桿,縮小屬性范圍,留下關(guān)聯(lián)程度較大的屬性。圖4.40—4.42分別是劃桿值為18、40、66時的情況??梢钥闯霰镜亟勇爼r長與通信時長的關(guān)聯(lián)度最強,這與上面第6步得出的結(jié)論是相符的。另外,Web圖還提供文字化結(jié)果,給出了強鏈接、中等鏈接和弱鏈接三種情況下屬性的關(guān)聯(lián)關(guān)系以及有多少用戶符合這種關(guān)聯(lián)規(guī)則,如圖4.43所示。圖4.41劃桿值為40的Web結(jié)果圖圖4.42劃桿值為60的Web結(jié)果圖4.7制定精準營銷策略4.7.1細分客戶劃分好客戶群后,就可以根據(jù)每個群的特征制定針對性的營銷策略,由于數(shù)據(jù)集是中國移動客戶數(shù)據(jù),這里以中國移動為例進行具體闡述:聚類1“被動呼叫組”,由于該組被叫通話費用超過了主叫通過費用,因此要向其推薦全國接聽免費等類似服務(wù),同時為了吸引其增加主叫時長和費用,可推薦其選擇含有最低消費的相關(guān)業(yè)務(wù),即主叫時長達到某一水平時可積分或優(yōu)惠的活動;圖4.43文字化的Web圖結(jié)果圖聚類2“本地繁忙組”,可以看出該組主叫費用明顯多于被叫費用,且在本地各項業(yè)務(wù)中業(yè)務(wù)量都很大,說明該組有著很大的市場需求和市場占有率,因此應(yīng)作為精準營銷的主要目標客戶群體。可向其推薦性價比較高、涵蓋業(yè)務(wù)種類較廣的套餐;另一方面由于業(yè)務(wù)量大,企業(yè)中任何新推出的活動都應(yīng)積極向該組用戶推薦介紹,如親情號碼、閑時優(yōu)惠等,以滿足客戶各個方面的需求;與此同時,對該類客戶還應(yīng)進行捆綁銷售,讓其考慮為家人購買合適套餐,如“神州行夕陽紅”,一款特別為老年人定做的移動套餐等;聚類3“漫游組”,作為本次數(shù)據(jù)挖掘結(jié)果聚類數(shù)目最多,群體特征最明顯的一個簇,可以推斷出該組用戶由于生活或工作的原因經(jīng)常各地奔波,漫游業(yè)務(wù)使用頻繁,因此應(yīng)向其推薦漫游類優(yōu)惠套餐如“全球通”等;聚類4“聯(lián)通電信組”,該組與“聯(lián)通”、“電信”用戶聯(lián)系頻繁,對于該類用戶則應(yīng)向其推薦親情號碼,同時為了吸引其他企業(yè)客戶,可推出若能將聯(lián)系頻繁的用戶都更換為中國移動用戶,通信更加優(yōu)惠的活動。4.7.2交叉銷售和捆綁銷售關(guān)聯(lián)規(guī)則分析也叫購物籃分析,最早用于零售行業(yè)。利用關(guān)聯(lián)規(guī)則算法,通過分析顧客的銷售記錄,可知哪兩種或幾種商品同時被購買的機率大,便將這幾種商品擺放在一起銷售,這種做法稱為捆綁銷售,根據(jù)分析結(jié)果對顧客進行產(chǎn)品推薦的行為叫做交叉銷售,二者都是關(guān)聯(lián)規(guī)則算法在精準營銷領(lǐng)域主要解決的問題。在4.6節(jié)筆者利用SPSSClementine對數(shù)據(jù)源數(shù)據(jù)執(zhí)行Apriori算法,結(jié)果用數(shù)值和圖形兩種方式展示,都表示“本地接聽時長”和“通信時長”的關(guān)聯(lián)程度最大。由于關(guān)聯(lián)規(guī)則中屬性間的關(guān)系是雙向的,因此可知通信時長較長的用戶,本地接聽時長很有可能較長,同樣,本地接聽時長長的用戶,通信時長也會較長。利用這一點,可以推斷出本地接聽時長長的用戶可能整體通話業(yè)務(wù)量都很大,因此可以為其推薦適合業(yè)務(wù)量大的人群的套餐,如滿定額按比例返話費等,定額越高,返利越多,而這種業(yè)務(wù)對于通話時長一般的人群來說顯然是不合適的,這樣便實現(xiàn)了交叉銷售?;蛘邽樵擃惾巳和瞥鲆豢顦I(yè)務(wù),接聽免費,但整體通話業(yè)務(wù)量要有保證,即最低消費,滿足消費下限后便可按比例返話費,從而實現(xiàn)了捆綁銷售。這里需要指出的是,在實際生活中,考慮到全國各省市電信行業(yè)發(fā)展水平不同,對于上述模型思路不可一概而論,因此在實際業(yè)務(wù)推廣中應(yīng)首先選擇一個試點進行測試,并隨時了解模型應(yīng)用的收益情況。若在一段時間內(nèi),收益有明顯提高,則可考慮大范圍推廣,若收益并無增長,則考慮修正模型并再次測試。總之,電信行業(yè)實現(xiàn)精準化營銷是一個涉及客戶洞察、客戶細分、產(chǎn)品研發(fā)、市場營銷,以及營銷結(jié)果評估的閉環(huán)過程,只有不斷追蹤市場反應(yīng)、企業(yè)收益并以此修正營銷策略才是精準營銷的真正意義所在。4.8本章小結(jié)有了第二章和第三章的理論綜述,本章為論文的核心部分,即完成實例的數(shù)據(jù)挖掘和精準營銷過程。首先介紹了實例的背景和使用的數(shù)據(jù)挖掘算法;然后進行了需求分析和數(shù)據(jù)準備,數(shù)據(jù)準備包括數(shù)據(jù)選擇和數(shù)據(jù)預(yù)處理;之后從聚類和關(guān)聯(lián)規(guī)則兩個方面對數(shù)據(jù)進行挖掘,聚類結(jié)果將所有用戶聚類4類,針對每類用戶的聚類特征制定了不同的營銷策略,關(guān)聯(lián)規(guī)則挖掘出兩個屬性的強關(guān)聯(lián)關(guān)系,利用該強關(guān)聯(lián)關(guān)系進行交叉銷售和捆綁銷售,實現(xiàn)了精準營銷的過程。

結(jié)論本文到此主體內(nèi)容已經(jīng)完成,經(jīng)過幾個月的努力,筆者對本文涉及的相關(guān)理論和算法應(yīng)用都有了深入的了解,現(xiàn)對本文內(nèi)容從以下兩個方面進行總結(jié):1、理論方面:良好的理論基礎(chǔ)是技術(shù)實施的有力保障,本文共涉及兩大方面的理論知識,數(shù)據(jù)挖掘和精準營銷。數(shù)據(jù)挖掘方面,具體介紹了數(shù)據(jù)挖掘的定義及過程、工具及選擇,以及數(shù)據(jù)挖掘的未來;精準營銷部分闡述了精準營銷的概念、特點和實施策略,并將兩種概念相結(jié)合,對二者的結(jié)合應(yīng)用進行了理論闡述。這些內(nèi)容為應(yīng)用部分打下了良好的理論基礎(chǔ)。2、應(yīng)用方面:依據(jù)前三章的理論綜述,在本文第四章節(jié),實現(xiàn)了兩個方面的應(yīng)用。一是利用工具對真實數(shù)據(jù)源實現(xiàn)了完整的數(shù)據(jù)挖掘過程,包括數(shù)據(jù)準備、數(shù)據(jù)預(yù)處理及數(shù)據(jù)挖掘;二是通過對數(shù)據(jù)挖掘結(jié)果的分析,制定了有針對性的營銷策略,實現(xiàn)了精準營銷,完成了由理論到實踐的過程。下一步工作:1、事實上數(shù)據(jù)挖掘方法主要有三類,本文只采用了其中的兩類,即聚類算法和關(guān)聯(lián)規(guī)則,沒有使用分類技術(shù)。該技術(shù)在電信行業(yè)的精準營銷上有很多應(yīng)用實例,例如利用決策樹算法構(gòu)建客戶流失預(yù)測模型,從而預(yù)測客戶流失情況;2、本文由于借助工具實現(xiàn)數(shù)據(jù)挖掘過程,無法將算法結(jié)合實際情況進行改進,例如改進K-means計算變量之間距離的公式。要想達到這一目的,應(yīng)使用Java編程語言完成數(shù)據(jù)挖掘過程;3、利用JSP、Servlet等技術(shù)可創(chuàng)建一個聚類分析的應(yīng)用系統(tǒng),包括用戶登錄與管理、聚類分析等模塊,可以通過該系統(tǒng)選擇不同聚類方法和指標參數(shù),直接對數(shù)據(jù)進行挖掘。

致謝經(jīng)過一段時間的努力,本論文至此已接近尾聲,回憶過去的這段時間,需要感謝的人有很多,特此致謝。首先感謝我的導師丁老師。丁老師作為信管專業(yè)授課門數(shù)最多的老師,教授了我們很多專業(yè)知識,陪伴我們走過了三年的學習路程。老師平日里工作繁多,但在我們撰寫論文期間,每周都會與我們開會討論論

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論