電信帳單數(shù)據(jù)挖掘_第1頁
電信帳單數(shù)據(jù)挖掘_第2頁
電信帳單數(shù)據(jù)挖掘_第3頁
電信帳單數(shù)據(jù)挖掘_第4頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、精品文檔電信帳單數(shù)據(jù)挖掘。1歡迎下載精品文檔一概述 .11.1項目背景 .11.2數(shù)據(jù)挖掘和相關概念 .11.2.1數(shù)據(jù)挖掘的概念和過程 .11.2.2數(shù)據(jù)挖掘在電信管理中的應用 .21.3項目計劃 .31.3.1項目目標 .31.3.2時間安排 .41.3.3人員組織 .5二項目實施.62.1選擇數(shù)據(jù)挖掘工具 .62.2建立數(shù)據(jù)庫表建立和數(shù)據(jù)清理 .72.3建立數(shù)據(jù)多維存儲 .82.3.1維度創(chuàng)建 .82.3.2 OLAP存儲創(chuàng)建 .92.3.3 OLAP數(shù)據(jù)分析 .102.4數(shù)據(jù)挖掘 .122.4.1決策樹計算(月用戶數(shù)量分析) .132.4.2用戶分類(聚類分析) .14三總結 .15。

2、2歡迎下載精品文檔一概述1.1 項目背景隨著國內電信市場競爭的日趨激烈,電信運營商的經營模式逐漸從“技術驅動 ”向 “市場驅動 ”、“客戶驅動 ”轉化。這就要求運營商要采取以客戶為中心的策略,根據(jù)客戶的實際需求提供多樣化、層次化、個性化的服務解決方案。因此,客戶關系管理( CRM)成了電信運營商增加收入和利潤,提高客戶滿意度、忠誠度的有效工具。在客戶關系管理的流程中,為了準確、及時地進行經營決策,必須充分獲取并利用相關的數(shù)據(jù)信息對決策過程進行輔助支持。近幾年迅速發(fā)展起來的數(shù)據(jù)挖掘技術就是實現(xiàn)這一目標的重要手段。1.2 數(shù)據(jù)挖掘和相關概念1.2.1 數(shù)據(jù)挖掘的概念和過程1數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘是

3、根據(jù)企業(yè)的既定業(yè)務目標和存在的問題, 對大量的業(yè)務數(shù)據(jù)進行探索,揭示其中隱藏的規(guī)律,并將其模型化,指導并應用于企業(yè)的實際經營。數(shù)據(jù)挖掘是建立在數(shù)據(jù)倉庫基礎上的高層應用, 但數(shù)據(jù)挖掘跟數(shù)據(jù)倉庫的其它一些應用如 OLAP分析、預定義報表和即席查詢等有很大的區(qū)別。后三者通常是用戶根據(jù)已知的情況對所關心的業(yè)務指標進行分析; 而前者則是在業(yè)務問題和目標明確但考察的問題不清楚時, 對數(shù)據(jù)進行探索, 揭示隱藏其中的規(guī)律性, 進而將其模型化。2數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘是一個循環(huán)往復的過程, 通常涉及數(shù)據(jù)準備、 建立模型、評估和解釋模型、運用和鞏固模型等步驟。(1)數(shù)據(jù)準備:數(shù)據(jù)準備工作包括數(shù)據(jù)的選擇(選擇相關和合

4、適的數(shù)據(jù)) 、探索(了解數(shù)據(jù)分布情況和異常數(shù)據(jù)等) 、修正(包括缺失數(shù)據(jù)的插值等)和變。1歡迎下載精品文檔換(離散值數(shù)據(jù)與連續(xù)值數(shù)據(jù)的相互轉換,數(shù)據(jù)的分組分類, 數(shù)據(jù)項的計算組合等)。(2)建立模型:選取數(shù)據(jù)挖掘工具提供的算法并應用于準備好的數(shù)據(jù),選取相應參數(shù),生成模型。(3)評估和解釋模型:對模型進行比較和評估,生成一個相對最優(yōu)模型,并對此模型用業(yè)務語言加以解釋。(4)運用和鞏固模型:對模型在實際應用中的表現(xiàn)進行監(jiān)控,如果模型表現(xiàn)不好,則對模型作進一步的考察和修正,以反映業(yè)務運作規(guī)律的變化。1.2.2 數(shù)據(jù)挖掘在電信管理中的應用電信運營商擁有許多熟的數(shù)據(jù)庫應用系統(tǒng),如網管系統(tǒng)、財務系統(tǒng)、計費

5、賬務系統(tǒng)、 112 障礙管理系統(tǒng)、繳費銷賬系統(tǒng)等,并產生了大量的業(yè)務處理數(shù)據(jù)。如果針對客戶關系管理相關決策分析的需求,對這些數(shù)據(jù)進行重組整合, 就能充分利用這些寶貴的數(shù)據(jù),體現(xiàn)信息的真正價值。數(shù)據(jù)挖掘技術在電信行業(yè)主要應用領域如下:(1)客戶消費模式分析客戶消費模式分析(如固話話費行為分析)是對客戶歷年來長話、市話、信息臺的大量詳單、 數(shù)據(jù)以及客戶檔案資料等相關數(shù)據(jù)進行關聯(lián)分析,結合客戶的。2歡迎下載精品文檔分類,可以從消費能力、 消費習慣、 消費周期等諸方面對客戶的話費行為進行分析和預測,從而為固話運營商的相關經營決策提供依據(jù)。(2)客戶市場推廣分析客戶市場推廣分析(如優(yōu)惠策略預測仿真)是利

6、用數(shù)據(jù)挖掘技術實現(xiàn)優(yōu)惠策略的仿真,根據(jù)數(shù)據(jù)挖掘模型進行模擬計費和模擬出賬, 其仿真結果可以揭示優(yōu)惠策略中存在的問題, 并進行相應的調整優(yōu)化, 以達到優(yōu)惠促銷活動的收益最大化。(3)客戶欠費分析和動態(tài)防欺詐通過數(shù)據(jù)挖掘,總結各種騙費、欠費行為的內在規(guī)律,并建立一套欺詐和欠費行為的規(guī)則庫。 當客戶的話費行為與該庫中規(guī)則吻合時,系統(tǒng)可以提示運營商相關部門采取措施,從而降低運營商的損失風險。(4)客戶流失分析根據(jù)已有的客戶流失數(shù)據(jù),建立客戶屬性、服務屬性、客戶消費情況等數(shù)據(jù)與客戶流失概率相關聯(lián)的數(shù)學模型,找出這些數(shù)據(jù)之間的關系, 并給出明確的數(shù)學公式。然后根據(jù)此模型來監(jiān)控客戶流失的可能性,如果客戶流失

7、的可能性過高,則通過促銷等手段來提高客戶忠誠度,防止客戶流失的發(fā)生。 這就徹底改變了以往電信運營商在成功獲得客戶以后無法監(jiān)控客戶流失、無法有效實現(xiàn)客戶關懷的狀況。1.3 項目計劃1.3.1 項目目標電信公司每個月的帳單有數(shù)百萬條,牽涉到千家萬戶,這些數(shù)據(jù)中有很多寶貴的東西,可以從這些資料中獲得寶貴的資料。電信的產品非常多, 主要有以下一些種類:普通電話(市內電話) 、長途電話、小靈通和寬帶業(yè)務,這些業(yè)務是電信業(yè)務的主體;電信公司的帳單目前按自然月開帳,每個月給用戶郵寄帳單;電信公司具有劃分為多個區(qū)域包括(區(qū)局、分局)。項目的目標之一就是對這些數(shù)據(jù)進行分類統(tǒng)計,按照產品/ 時間 / 區(qū)域等對數(shù)據(jù)

8、進行分類統(tǒng)計(建立三個維度),如本地、長途、寬帶、小靈通用戶數(shù);本地(長途和小靈通)通話次數(shù)和。3歡迎下載精品文檔平均時長,語音 ARP(平均用戶收入)值,寬帶 ARP值,小靈通 ARP值等。決策樹分析,統(tǒng)計月收入的變化情況, 對用戶進行聚類分析, 將用戶分為不同的等級。項目目標之二是進一步加深對數(shù)據(jù)挖掘的認識,通過上課,我們已經初步了解了數(shù)據(jù)挖掘的基本原理和基本算法, 通過電信數(shù)據(jù)挖掘這個實踐, 可初步掌握數(shù)據(jù)挖掘的一般過程和工具, 對數(shù)據(jù)挖掘有更深刻的認識, 這對今后的工作是有非常大的好處的。 通過項目也可以促進項目組人員之間的了解, 取長補短,共同提高技能。1.3.2 時間安排初步時間安

9、排為三周時間時間安排備注第一周項目需求系統(tǒng)分析人員分工選擇數(shù)據(jù)挖掘工具建立數(shù)據(jù)庫表結構建立挖掘模型第二周數(shù)據(jù)清理,轉換成數(shù)據(jù)庫表建立多維度 OLAP數(shù)據(jù)存儲模型OLAP數(shù)據(jù)分析第三周數(shù)據(jù)挖掘知識發(fā)現(xiàn)編寫課題報告和演示報告,演示成果。4歡迎下載精品文檔1.3.3 人員組織。5歡迎下載精品文檔二項目實施2.1 選擇數(shù)據(jù)挖掘工具目前市場上的數(shù)據(jù)挖掘工具比較多,一般而言,目前市場上這些數(shù)據(jù)挖掘工具又可分成兩類 企業(yè)型工具以及小型工具。企業(yè)型數(shù)據(jù)挖掘工具:應用在需要高處理能力、高網絡容量和大數(shù)據(jù)量的場合下。這些工具通常支持多種平臺,并基于客戶機/ 服務器結構。它通??梢灾苯舆B接一些復雜的數(shù)據(jù)管理系統(tǒng) (

10、 不像普通文本文件 ) ,并能處理大量的數(shù)據(jù)。這類數(shù)據(jù)挖掘工具的另一個特點是它通常提供了多種數(shù)據(jù)挖掘算法,并有能力解決多種應用問題。企業(yè)數(shù)據(jù)挖掘工具的實例有 IBM的 IntelligentMiner 和 SASEnterprise Miner ,SPSSClementine等。小型數(shù)據(jù)挖掘工具:它與企業(yè)型的工具著眼點不同。小型數(shù)據(jù)挖掘工具或者是針對低端、低消費的用戶,或者是為解決特定的應用問題提供特定的解 決方 案。比 如 Oracle 公 司的 Darwin , Insightful公司的Insightful Miner,等等。本次項目選擇的工具為Microsoft Analysis Se

11、rvice優(yōu)點 掌握快,易上手,適合初學者和本次項目 支持多種數(shù)據(jù)庫,支持ODBC接口 成本低, SQL Server2000 自帶的 Service Pack 包缺點 只能做很簡單的挖掘工作,過于傻瓜 只支持基于維度的數(shù)據(jù)挖掘 只支持決策樹和聚類分析。6歡迎下載精品文檔2.2 建立數(shù)據(jù)庫表建立和數(shù)據(jù)清理根據(jù)電信帳單數(shù)據(jù)挖掘項目的要求,選擇比較簡單的ACCESS數(shù)據(jù)庫存儲數(shù)據(jù), ACCESS的操作比較簡單,由于數(shù)據(jù)庫的通用性,今后也可以擴展到大型數(shù)據(jù)庫,如 ORACLE,SYBASE,DB2等,建立如下的表結構如下:1電信帳單事實表該表記錄了電信的帳單2產品表3區(qū)域表4時間表由于電信帳務數(shù)據(jù)庫

12、非常復雜,結構繁多,不利于數(shù)據(jù)挖掘,因此必須首先。7歡迎下載精品文檔進行數(shù)據(jù)清理,規(guī)范化數(shù)據(jù)。利于挖掘的數(shù)據(jù)庫應該是星型或雪花形的數(shù)據(jù)結構,我們的數(shù)據(jù)庫表的關聯(lián)關系如圖所示:數(shù)據(jù)清理后得到以下的數(shù)據(jù):總共建立計費數(shù)據(jù)事實表,數(shù)據(jù)總量為 132762 條;建立從 2003-2004 年的時間表;建立區(qū)局 - 分局的對應關系表,總共 13 個區(qū)局和 180 個分局;建立產品表(普通電話,長途電話,小靈通和寬帶) 。2.3 建立數(shù)據(jù)多維存儲2.3.1 維度創(chuàng)建數(shù)據(jù)多維存儲是OLAP(在線事物處理) 的存儲形式, 不同于數(shù)據(jù)庫的關系結構,采用了立方體的存儲結構,更利于數(shù)據(jù)的快速匯總和查找。立方體的結構

13、以數(shù)據(jù)維度為基礎,為此我們建立了三個維度,時間、區(qū)域和產品,有些維度分等級, 如時間和區(qū)域就分兩級維度,因為時間可以分到年 / 月,區(qū)域這里分為區(qū)局和分局兩級。如圖所示區(qū)域維的結構:。8歡迎下載精品文檔同樣可創(chuàng)建其它維度, Analysis Service可根據(jù)多種表結構創(chuàng)建數(shù)據(jù)維度,如同一張表內創(chuàng)建,表內的自關聯(lián)創(chuàng)建,父子表的創(chuàng)建等。2.3.2 OLAP存儲創(chuàng)建根據(jù) Analysis Service的向導可以創(chuàng)建數(shù)據(jù)的多維存儲,生成較容易分析的多維存儲結構,在本例中,帳單事實表的大小約為30MB,經過 AnalysisService的處理生成 OLAP存儲后數(shù)據(jù)可以大大壓縮,并以文件形式保存

14、,減少了分析的時間,特別適合統(tǒng)計工作。9歡迎下載精品文檔2.3.3 OLAP數(shù)據(jù)分析利用 OLAP分析工具和生成的OLAP存儲文件, 可以對數(shù)據(jù)進行初步的分析工作,如圖所示:。10歡迎下載精品文檔由上圖可見各年度,各區(qū)局,各種相關產品的統(tǒng)計情況,可進行上鉆和下鉆的操作,如先看每年的情況,下鉆后可以看到每月的情況,粒度更細微,為分析提供的數(shù)據(jù)更詳細, 同理也可只看某一區(qū)局的數(shù)據(jù),通過下鉆可以看到更細的分局的數(shù)據(jù)。還可以通過不同維度的排列組合,獲得所需要分析的數(shù)據(jù), 滿足不同用戶對數(shù)據(jù)分析的需求。 此外還可以提供鉆取功能, 直接看到數(shù)據(jù)庫的原始記錄,更方便分析。如圖鉆取數(shù)據(jù)庫的原始數(shù)據(jù):。11歡迎

15、下載精品文檔2.4 數(shù)據(jù)挖掘數(shù)據(jù)挖掘基于 OLAP,但是 OLAP只是數(shù)據(jù)挖掘的基礎,而本身并不是數(shù)據(jù)挖掘。數(shù)據(jù)挖掘有一些方法:如關聯(lián)分析、分類和預測、聚類分析等,每一種類方法又有許多不同的算法: 如分類預測就包括判定樹、 貝葉斯分類、后向傳播分類、回歸算法等。目前 Microsoft Analysis Service僅支持聚類分析和決策樹算法,決策數(shù)算法可以根據(jù)以下例子說明:市場部想分析當前銷售事務并找出客戶統(tǒng)計信息(性別、婚姻狀況、年收入等等)和所申請會員卡(金卡 / 銀卡 / 普通卡)之間的模式。然后根據(jù)這些信息和申請會員卡的客戶的特征重新定義會員卡??赡艿玫饺缦碌臎Q策樹:10 萬金卡男

16、性5-10 萬銀卡30-40 歲40-50 歲50 歲12 萬金卡4 萬普通卡女性20-40 歲.40 歲根據(jù)以上決策樹,我們可以判斷客戶選卡的模式,男性30-40 歲年收入大于10 萬的比較偏好選擇金卡。根據(jù)決策樹所構造的結果是實現(xiàn)我們并不知道的一個結果,就象關聯(lián)分析中我們并不知道尿布和啤酒是關聯(lián)商品, 往往用戶會同時。12歡迎下載精品文檔購買一樣,決策樹的分枝是有數(shù)據(jù)和決策樹算法決定的,如果使用現(xiàn)成工具進行決策樹的挖掘,我們無法預料能產生什么樣的決策結果。2.4.1 決策樹計算(月用戶數(shù)量分析)根據(jù)以上算法計算一個決策樹,判斷各月的收入情況,可以得到以下的分析結果:可以看到某些月份用戶數(shù)量

17、比較多,而有些月份用戶數(shù)量比較少。這樣市場部就可以根據(jù)用戶數(shù)量在淡季進行有針對性的促銷活動。13歡迎下載精品文檔2.4.2 用戶分類(聚類分析)我們要求對用戶進行分類,但我們并不知道要怎么樣分類,我們將數(shù)據(jù)交Anaylise Service處理, Anaylise Service為我們得到一個分類,可以作為用戶分類的依據(jù)。分類結果如下表所表示:月話費用戶數(shù)百分比13000.7585236.4%全部132762100%可見用戶大多數(shù)還是以低端用戶為主 (數(shù)據(jù)經過處理),高端用戶也有 6.4%,主要是企業(yè)用戶。14歡迎下載精品文檔三總結通過對該項目的初步挖掘, 產生了一些挖掘結果, 但由于考慮到電

18、信安全性,因此數(shù)據(jù)經過了一些處理, 可能與實際情況并不十分符合。 而且由于工具的缺乏,也可能導致挖掘結果的不夠完善。真正的電信數(shù)據(jù)挖掘也還存在以下一些問題:(1) 數(shù)據(jù)質量和完備性:電信公司不象移動公司,用戶和手機是綁定的,有比較完善原始數(shù)據(jù),電信公司的一個電話是好多人同時使用的,因此無法對用戶的通信行為模式進行詳細的分析。 目前很多分析只是數(shù)據(jù)報表,還沒有上升到數(shù)據(jù)挖掘的高度,不能從大量數(shù)據(jù)中得到真正的金子。(2) 國內電信運營商現(xiàn)有的、面向事務的數(shù)據(jù)在質量、完整性和一致性上存在許多問題,必須投入大量的精力去進行數(shù)據(jù)的抽取、凈化和處理。此外,業(yè)務問題的相關數(shù)據(jù)有時難以全面收集。例如客戶信用是客戶價值評估中的關鍵因素,但由于國內未建立完善的信用體系,無法根據(jù)現(xiàn)有客戶數(shù)據(jù)建立優(yōu)質的信用評價模型, 從而導致客戶價值模型有效性的降低。(3) 相應的人員素質:在數(shù)據(jù)挖掘應用過程的多個環(huán)節(jié)中,人的主觀辨識和控制是應用成敗的關鍵,這就對系統(tǒng)使用人員提出了很高的要求。如果沒有具備相應素質的使用和維護人員, 必將導致分析系統(tǒng)與現(xiàn)實脫鉤,無法達到預期效果。(4) 應用周期:數(shù)據(jù)挖掘存在一個較長的應用周期。技術本身不能給使用者解決任何問題,只能從數(shù)據(jù)中把一些

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論