




已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
電信帳單數(shù)據(jù)挖掘17一概述11.1項目背景11.2數(shù)據(jù)挖掘和相關(guān)概念11.2.1數(shù)據(jù)挖掘的概念和過程11.2.2數(shù)據(jù)挖掘在電信管理中的應(yīng)用21.3項目計劃31.3.1項目目標(biāo)31.3.2時間安排41.3.3人員組織5二項目實施62.1選擇數(shù)據(jù)挖掘工具62.2建立數(shù)據(jù)庫表建立和數(shù)據(jù)清理72.3建立數(shù)據(jù)多維存儲82.3.1維度創(chuàng)建82.3.2OLAP存儲創(chuàng)建92.3.3OLAP數(shù)據(jù)分析102.4數(shù)據(jù)挖掘122.4.1決策樹計算(月用戶數(shù)量分析)132.4.2用戶分類(聚類分析)14三總結(jié)15一概述1.1項目背景隨著國內(nèi)電信市場競爭的日趨激烈,電信運營商的經(jīng)營模式逐漸從“技術(shù)驅(qū)動”向“市場驅(qū)動”、“客戶驅(qū)動”轉(zhuǎn)化。這就要求運營商要采取以客戶為中心的策略,根據(jù)客戶的實際需求提供多樣化、層次化、個性化的服務(wù)解決方案。因此,客戶關(guān)系管理(CRM)成了電信運營商增加收入和利潤,提高客戶滿意度、忠誠度的有效工具。在客戶關(guān)系管理的流程中,為了準(zhǔn)確、及時地進行經(jīng)營決策,必須充分獲取并利用相關(guān)的數(shù)據(jù)信息對決策過程進行輔助支持。近幾年迅速發(fā)展起來的數(shù)據(jù)挖掘技術(shù)就是實現(xiàn)這一目標(biāo)的重要手段。 1.2數(shù)據(jù)挖掘和相關(guān)概念1.2.1數(shù)據(jù)挖掘的概念和過程 1數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘是根據(jù)企業(yè)的既定業(yè)務(wù)目標(biāo)和存在的問題,對大量的業(yè)務(wù)數(shù)據(jù)進行探索,揭示其中隱藏的規(guī)律,并將其模型化,指導(dǎo)并應(yīng)用于企業(yè)的實際經(jīng)營。 數(shù)據(jù)挖掘是建立在數(shù)據(jù)倉庫基礎(chǔ)上的高層應(yīng)用,但數(shù)據(jù)挖掘跟數(shù)據(jù)倉庫的其它一些應(yīng)用如OLAP分析、預(yù)定義報表和即席查詢等有很大的區(qū)別。后三者通常是用戶根據(jù)已知的情況對所關(guān)心的業(yè)務(wù)指標(biāo)進行分析;而前者則是在業(yè)務(wù)問題和目標(biāo)明確但考察的問題不清楚時,對數(shù)據(jù)進行探索,揭示隱藏其中的規(guī)律性,進而將其模型化。 2數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘是一個循環(huán)往復(fù)的過程,通常涉及數(shù)據(jù)準(zhǔn)備、建立模型、評估和解釋模型、運用和鞏固模型等步驟。 (1)數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)準(zhǔn)備工作包括數(shù)據(jù)的選擇(選擇相關(guān)和合適的數(shù)據(jù))、探索(了解數(shù)據(jù)分布情況和異常數(shù)據(jù)等)、修正(包括缺失數(shù)據(jù)的插值等)和變換(離散值數(shù)據(jù)與連續(xù)值數(shù)據(jù)的相互轉(zhuǎn)換,數(shù)據(jù)的分組分類,數(shù)據(jù)項的計算組合等)。 (2)建立模型:選取數(shù)據(jù)挖掘工具提供的算法并應(yīng)用于準(zhǔn)備好的數(shù)據(jù),選取相應(yīng)參數(shù),生成模型。 (3)評估和解釋模型:對模型進行比較和評估,生成一個相對最優(yōu)模型,并對此模型用業(yè)務(wù)語言加以解釋。 (4)運用和鞏固模型:對模型在實際應(yīng)用中的表現(xiàn)進行監(jiān)控,如果模型表現(xiàn)不好,則對模型作進一步的考察和修正,以反映業(yè)務(wù)運作規(guī)律的變化。1.2.2數(shù)據(jù)挖掘在電信管理中的應(yīng)用電信運營商擁有許多熟的數(shù)據(jù)庫應(yīng)用系統(tǒng),如網(wǎng)管系統(tǒng)、財務(wù)系統(tǒng)、計費賬務(wù)系統(tǒng)、112障礙管理系統(tǒng)、繳費銷賬系統(tǒng)等,并產(chǎn)生了大量的業(yè)務(wù)處理數(shù)據(jù)。如果針對客戶關(guān)系管理相關(guān)決策分析的需求,對這些數(shù)據(jù)進行重組整合,就能充分利用這些寶貴的數(shù)據(jù),體現(xiàn)信息的真正價值。 數(shù)據(jù)挖掘技術(shù)在電信行業(yè)主要應(yīng)用領(lǐng)域如下:(1)客戶消費模式分析客戶消費模式分析(如固話話費行為分析)是對客戶歷年來長話、市話、信息臺的大量詳單、數(shù)據(jù)以及客戶檔案資料等相關(guān)數(shù)據(jù)進行關(guān)聯(lián)分析,結(jié)合客戶的分類,可以從消費能力、消費習(xí)慣、消費周期等諸方面對客戶的話費行為進行分析和預(yù)測,從而為固話運營商的相關(guān)經(jīng)營決策提供依據(jù)。 (2)客戶市場推廣分析客戶市場推廣分析(如優(yōu)惠策略預(yù)測仿真)是利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)優(yōu)惠策略的仿真,根據(jù)數(shù)據(jù)挖掘模型進行模擬計費和模擬出賬,其仿真結(jié)果可以揭示優(yōu)惠策略中存在的問題,并進行相應(yīng)的調(diào)整優(yōu)化,以達(dá)到優(yōu)惠促銷活動的收益最大化。(3)客戶欠費分析和動態(tài)防欺詐通過數(shù)據(jù)挖掘,總結(jié)各種騙費、欠費行為的內(nèi)在規(guī)律,并建立一套欺詐和欠費行為的規(guī)則庫。當(dāng)客戶的話費行為與該庫中規(guī)則吻合時,系統(tǒng)可以提示運營商相關(guān)部門采取措施,從而降低運營商的損失風(fēng)險。 (4)客戶流失分析根據(jù)已有的客戶流失數(shù)據(jù),建立客戶屬性、服務(wù)屬性、客戶消費情況等數(shù)據(jù)與客戶流失概率相關(guān)聯(lián)的數(shù)學(xué)模型,找出這些數(shù)據(jù)之間的關(guān)系,并給出明確的數(shù)學(xué)公式。然后根據(jù)此模型來監(jiān)控客戶流失的可能性,如果客戶流失的可能性過高,則通過促銷等手段來提高客戶忠誠度,防止客戶流失的發(fā)生。這就徹底改變了以往電信運營商在成功獲得客戶以后無法監(jiān)控客戶流失、無法有效實現(xiàn)客戶關(guān)懷的狀況。 1.3項目計劃1.3.1項目目標(biāo)電信公司每個月的帳單有數(shù)百萬條,牽涉到千家萬戶,這些數(shù)據(jù)中有很多寶貴的東西,可以從這些資料中獲得寶貴的資料。電信的產(chǎn)品非常多,主要有以下一些種類:普通電話(市內(nèi)電話)、長途電話、小靈通和寬帶業(yè)務(wù),這些業(yè)務(wù)是電信業(yè)務(wù)的主體;電信公司的帳單目前按自然月開帳,每個月給用戶郵寄帳單;電信公司具有劃分為多個區(qū)域包括(區(qū)局、分局)。項目的目標(biāo)之一就是對這些數(shù)據(jù)進行分類統(tǒng)計,按照產(chǎn)品/時間/區(qū)域等對數(shù)據(jù)進行分類統(tǒng)計(建立三個維度),如本地、長途、寬帶、小靈通用戶數(shù);本地(長途和小靈通)通話次數(shù)和平均時長,語音ARP(平均用戶收入)值,寬帶ARP值,小靈通ARP值等。決策樹分析,統(tǒng)計月收入的變化情況,對用戶進行聚類分析,將用戶分為不同的等級。項目目標(biāo)之二是進一步加深對數(shù)據(jù)挖掘的認(rèn)識,通過上課,我們已經(jīng)初步了解了數(shù)據(jù)挖掘的基本原理和基本算法,通過電信數(shù)據(jù)挖掘這個實踐,可初步掌握數(shù)據(jù)挖掘的一般過程和工具,對數(shù)據(jù)挖掘有更深刻的認(rèn)識,這對今后的工作是有非常大的好處的。通過項目也可以促進項目組人員之間的了解,取長補短,共同提高技能。1.3.2時間安排初步時間安排為三周時間時間安排備注第一周l 項目需求l 系統(tǒng)分析l 人員分工l 選擇數(shù)據(jù)挖掘工具l 建立數(shù)據(jù)庫表結(jié)構(gòu)l 建立挖掘模型第二周 l 數(shù)據(jù)清理,轉(zhuǎn)換成數(shù)據(jù)庫表l 建立多維度OLAP數(shù)據(jù)存儲模型l OLAP數(shù)據(jù)分析第三周l 數(shù)據(jù)挖掘l 知識發(fā)現(xiàn)l 編寫課題報告和演示報告,演示成果1.3.3人員組織二項目實施2.1選擇數(shù)據(jù)挖掘工具目前市場上的數(shù)據(jù)挖掘工具比較多,一般而言,目前市場上這些數(shù)據(jù)挖掘工具又可分成兩類企業(yè)型工具以及小型工具。l 企業(yè)型數(shù)據(jù)挖掘工具:應(yīng)用在需要高處理能力、高網(wǎng)絡(luò)容量和大數(shù)據(jù)量的場合下。這些工具通常支持多種平臺,并基于客戶機/服務(wù)器結(jié)構(gòu)。它通??梢灾苯舆B接一些 復(fù)雜的數(shù)據(jù)管理系統(tǒng)(不像普通文本文件),并能處理大量的數(shù)據(jù)。這類數(shù)據(jù)挖掘工具的另一個特點是它通常提供了多種數(shù)據(jù)挖掘算法,并有能力解決多種應(yīng)用問 題。企業(yè)數(shù)據(jù)挖掘工具的實例有IBM的Intelligent Miner和SAS Enterprise Miner,SPSS Clementine等。l 小型數(shù)據(jù)挖掘工具:它與企業(yè)型的工具著眼點不同。小型數(shù)據(jù)挖掘工具或者是針對低端、低消費的用戶,或者是為解決特定的應(yīng)用問題提供特定的解決方案。比如Oracle公司的 Darwin,Insightful公司的Insightful Miner,等等。本次項目選擇的工具為Microsoft Analysis Servicel 優(yōu)點 掌握快,易上手,適合初學(xué)者和本次項目 支持多種數(shù)據(jù)庫,支持ODBC接口 成本低,SQL Server2000自帶的Service Pack包l 缺點 只能做很簡單的挖掘工作,過于傻瓜 只支持基于維度的數(shù)據(jù)挖掘 只支持決策樹和聚類分析2.2建立數(shù)據(jù)庫表建立和數(shù)據(jù)清理根據(jù)電信帳單數(shù)據(jù)挖掘項目的要求,選擇比較簡單的ACCESS數(shù)據(jù)庫存儲數(shù)據(jù),ACCESS的操作比較簡單,由于數(shù)據(jù)庫的通用性,今后也可以擴展到大型數(shù)據(jù)庫,如ORACLE,SYBASE,DB2等,建立如下的表結(jié)構(gòu)如下:1電信帳單事實表該表記錄了電信的帳單2產(chǎn)品表3區(qū)域表 4時間表由于電信帳務(wù)數(shù)據(jù)庫非常復(fù)雜,結(jié)構(gòu)繁多,不利于數(shù)據(jù)挖掘,因此必須首先進行數(shù)據(jù)清理,規(guī)范化數(shù)據(jù)。利于挖掘的數(shù)據(jù)庫應(yīng)該是星型或雪花形的數(shù)據(jù)結(jié)構(gòu),我們的數(shù)據(jù)庫表的關(guān)聯(lián)關(guān)系如圖所示:數(shù)據(jù)清理后得到以下的數(shù)據(jù):l 總共建立計費數(shù)據(jù)事實表,數(shù)據(jù)總量為132762條;l 建立從2003-2004年的時間表;l 建立區(qū)局-分局的對應(yīng)關(guān)系表,總共13個區(qū)局和180個分局;l 建立產(chǎn)品表(普通電話,長途電話,小靈通和寬帶)。2.3建立數(shù)據(jù)多維存儲2.3.1維度創(chuàng)建數(shù)據(jù)多維存儲是OLAP(在線事物處理)的存儲形式,不同于數(shù)據(jù)庫的關(guān)系結(jié)構(gòu),采用了立方體的存儲結(jié)構(gòu),更利于數(shù)據(jù)的快速匯總和查找。立方體的結(jié)構(gòu)以數(shù)據(jù)維度為基礎(chǔ),為此我們建立了三個維度,時間、區(qū)域和產(chǎn)品,有些維度分等級,如時間和區(qū)域就分兩級維度,因為時間可以分到年/月,區(qū)域這里分為區(qū)局和分局兩級。如圖所示區(qū)域維的結(jié)構(gòu):同樣可創(chuàng)建其它維度,Analysis Service可根據(jù)多種表結(jié)構(gòu)創(chuàng)建數(shù)據(jù)維度,如同一張表內(nèi)創(chuàng)建,表內(nèi)的自關(guān)聯(lián)創(chuàng)建,父子表的創(chuàng)建等。2.3.2OLAP存儲創(chuàng)建根據(jù)Analysis Service的向?qū)Э梢詣?chuàng)建數(shù)據(jù)的多維存儲,生成較容易分析的多維存儲結(jié)構(gòu),在本例中,帳單事實表的大小約為30MB,經(jīng)過Analysis Service的處理生成OLAP存儲后數(shù)據(jù)可以大大壓縮,并以文件形式保存,減少了分析的時間,特別適合統(tǒng)計工作。2.3.3OLAP數(shù)據(jù)分析利用OLAP分析工具和生成的OLAP存儲文件,可以對數(shù)據(jù)進行初步的分析工作,如圖所示:由上圖可見各年度,各區(qū)局,各種相關(guān)產(chǎn)品的統(tǒng)計情況,可進行上鉆和下鉆的操作,如先看每年的情況,下鉆后可以看到每月的情況,粒度更細(xì)微,為分析提供的數(shù)據(jù)更詳細(xì),同理也可只看某一區(qū)局的數(shù)據(jù),通過下鉆可以看到更細(xì)的分局的數(shù)據(jù)。還可以通過不同維度的排列組合,獲得所需要分析的數(shù)據(jù),滿足不同用戶對數(shù)據(jù)分析的需求。此外還可以提供鉆取功能,直接看到數(shù)據(jù)庫的原始記錄,更方便分析。如圖鉆取數(shù)據(jù)庫的原始數(shù)據(jù):2.4數(shù)據(jù)挖掘數(shù)據(jù)挖掘基于OLAP,但是OLAP只是數(shù)據(jù)挖掘的基礎(chǔ),而本身并不是數(shù)據(jù)挖掘。數(shù)據(jù)挖掘有一些方法:如關(guān)聯(lián)分析、分類和預(yù)測、聚類分析等,每一種類方法又有許多不同的算法:如分類預(yù)測就包括判定樹、貝葉斯分類、后向傳播分類、回歸算法等。目前Microsoft Analysis Service僅支持聚類分析和決策樹算法,決策數(shù)算法可以根據(jù)以下例子說明:.市場部想分析當(dāng)前銷售事務(wù)并找出客戶統(tǒng)計信息(性別、婚姻狀況、年收入等等)和所申請會員卡(金卡/銀卡/普通卡)之間的模式。然后根據(jù)這些信息和申請會員卡的客戶的特征重新定義會員卡??赡艿玫饺缦碌臎Q策樹:10萬20-30歲銀卡5-10萬30-40歲50歲男性普通卡4萬4-12萬12萬40歲根據(jù)以上決策樹,我們可以判斷客戶選卡的模式,男性30-40歲年收入大于10萬的比較偏好選擇金卡。根據(jù)決策樹所構(gòu)造的結(jié)果是實現(xiàn)我們并不知道的一個結(jié)果,就象關(guān)聯(lián)分析中我們并不知道尿布和啤酒是關(guān)聯(lián)商品,往往用戶會同時購買一樣,決策樹的分枝是有數(shù)據(jù)和決策樹算法決定的,如果使用現(xiàn)成工具進行決策樹的挖掘,我們無法預(yù)料能產(chǎn)生什么樣的決策結(jié)果。2.4.1決策樹計算(月用戶數(shù)量分析)根據(jù)以上算法計算一個決策樹,判斷各月的收入情況,可以得到以下的分析結(jié)果:可以看到某些月份用戶數(shù)量比較多,而有些月份用戶數(shù)量比較少。這樣市場部就可以根據(jù)用戶數(shù)量在淡季進行有針對性的促銷活動。2.4.2用戶分類(聚類分析)我們要求對用戶進行分類,但我們并不知道要怎么樣分類,我們將數(shù)據(jù)交Anaylise Service 處理,Anaylise Service為我們得到一個分類,可以作為用戶分類的依據(jù)。分類結(jié)果如下表所表示:月話費用戶數(shù)百分比13000.7585236.4%全部132762100%可見用戶大多數(shù)還是以低端用戶為主(數(shù)據(jù)經(jīng)過處理),高端用戶也有6.4%,主要是企業(yè)用戶。三總結(jié)通過對該項目的初步挖掘,產(chǎn)生了一些挖掘結(jié)果,但由于考慮到電信安全性,因此數(shù)據(jù)經(jīng)過了一些處理,可能與實際情況并不十分符合。而且由于工具的缺乏,也可能導(dǎo)致挖掘結(jié)果的不夠完善。真正的電信數(shù)據(jù)挖掘也還存在以下一些問題:(1) 數(shù)據(jù)質(zhì)量和完備性:電信公司不象移動公司,用戶和手機是綁定的,有比較完善原始數(shù)據(jù),電信公司的一個電話是好多人同時使用的,因此無法對用戶的通信行為模式進行詳細(xì)的分析。目前很多分析只是數(shù)據(jù)報表,還沒有上升到數(shù)據(jù)挖掘的高度,不能從大量數(shù)據(jù)中得到真正的金子。(2) 國內(nèi)電信運營商現(xiàn)有的、面向事務(wù)的數(shù)據(jù)在質(zhì)量、完整性和一致性上存在許多問題,必須投入大量的精力去進行數(shù)據(jù)的抽取、凈化和處理。此外,業(yè)務(wù)問題的相關(guān)數(shù)據(jù)有時難以全面收集。例如客戶信用是客戶價值評估中的關(guān)鍵因素,但由于國內(nèi)未建立完善的信用體系,無法根據(jù)現(xiàn)有客戶數(shù)據(jù)建立優(yōu)質(zhì)的信用評價模型,從而導(dǎo)致客戶價值模型有效性的降低。 (3) 相應(yīng)的人員素質(zhì):在數(shù)據(jù)挖掘應(yīng)用過程的多個環(huán)節(jié)中,人的主觀辨識和控制是應(yīng)用成敗的關(guān)鍵,這就對系統(tǒng)使用人員提出了很高的要求。如果沒有具備相應(yīng)素質(zhì)的使用和維護人員,必將導(dǎo)致分析系統(tǒng)與現(xiàn)實脫
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 英語語法時態(tài)體系梳理與實戰(zhàn)演練:高考英語沖刺教學(xué)教案
- 提升縣域基層醫(yī)療服務(wù)能力與綜合服務(wù)水平
- 音調(diào)的原理與表現(xiàn):音樂基礎(chǔ)樂理教學(xué)教案
- 利用信息技術(shù)手段促進教育家精神的傳承與發(fā)展
- 推動鄉(xiāng)村衛(wèi)生設(shè)施建設(shè)與資源均衡配置
- 畜牧業(yè)產(chǎn)品購銷互助協(xié)議
- 金融行業(yè)風(fēng)險管理系統(tǒng)設(shè)計與實現(xiàn)
- 產(chǎn)品研發(fā)投入結(jié)構(gòu)表
- 2025年藝術(shù)學(xué)專業(yè)研究生入學(xué)考試試題及答案
- 2025年生物醫(yī)學(xué)工程專業(yè)基礎(chǔ)知識考試試題及答案
- 2024年山東威海文旅發(fā)展集團有限公司招聘筆試參考題庫含答案解析
- 堅持以人民為中心
- DB32/T 4700-2024 蓄熱式焚燒爐系統(tǒng)安全技術(shù)要求
- 2024年甘肅省國際物流有限公司招聘筆試參考題庫含答案解析
- 婦科急癥的處理與應(yīng)急預(yù)案
- 鋼筋掛籃計算書
- 集團分權(quán)管理手冊
- 信息系統(tǒng)運維服務(wù)項目歸檔資料清單
- 遼寧省義務(wù)教育課程各科目安排及占九年總課時比例、各科目安排樣表(供參考使用)
- 慢性呼吸疾病肺康復(fù)護理專家共識課件
- 烏蘭杰的蒙古族音樂史研究-評烏蘭杰的《蒙古族音樂史》
評論
0/150
提交評論