某電信經(jīng)營(yíng)分析與決策支持系統(tǒng)數(shù)據(jù)挖掘分析_第1頁(yè)
某電信經(jīng)營(yíng)分析與決策支持系統(tǒng)數(shù)據(jù)挖掘分析_第2頁(yè)
某電信經(jīng)營(yíng)分析與決策支持系統(tǒng)數(shù)據(jù)挖掘分析_第3頁(yè)
某電信經(jīng)營(yíng)分析與決策支持系統(tǒng)數(shù)據(jù)挖掘分析_第4頁(yè)
某電信經(jīng)營(yíng)分析與決策支持系統(tǒng)數(shù)據(jù)挖掘分析_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、XX電信經(jīng)營(yíng)分析與決策支持系統(tǒng)二期數(shù)據(jù)挖掘分析1 前言小靈通用戶是XX電信企業(yè)利潤(rùn)的主要來源之一,也是市場(chǎng)競(jìng)爭(zhēng)的焦點(diǎn)。在目前的市場(chǎng)形勢(shì)下,發(fā)展新客戶的成本遠(yuǎn)遠(yuǎn)大于留住已有客戶的成本。因此加強(qiáng)對(duì)小靈通用戶的營(yíng)銷和服務(wù)工作,減少小靈通用戶的流失,是XX電信的重要任務(wù)。目前在XX電信經(jīng)營(yíng)分析與決策支持系統(tǒng)中,存在對(duì)離網(wǎng)小靈通數(shù)據(jù)的事后分析,但是這樣的分析無法做到提前預(yù)警,挽留用戶。利用數(shù)據(jù)挖掘技術(shù)則可以發(fā)現(xiàn)離網(wǎng)小靈通用戶的潛在模式,提前進(jìn)行預(yù)測(cè),從而變被動(dòng)服務(wù)為主動(dòng)服務(wù)。CRISPDM(cross-industry standard process for data mining)是一個(gè)跨行業(yè)的、以

2、用戶為中心,交互式的數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程,是目前數(shù)據(jù)挖掘領(lǐng)域內(nèi)較成熟的方法論。它將數(shù)據(jù)挖掘過程分為商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評(píng)估和結(jié)果部署等6個(gè)階段。本挖掘分析遵循數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程,討論小靈通用戶流失預(yù)測(cè)模型建立的方法和過程,并對(duì)預(yù)測(cè)結(jié)果進(jìn)行分析,以幫助業(yè)務(wù)人員及時(shí)、準(zhǔn)確地做出針對(duì)性營(yíng)銷服務(wù)。2 后付費(fèi)小靈通用戶離網(wǎng)預(yù)測(cè)2.1 理解商業(yè)理解是從業(yè)務(wù)角度來理解數(shù)據(jù)挖掘的目標(biāo)和要求,再轉(zhuǎn)化為數(shù)據(jù)挖掘問題。本挖掘分析的目標(biāo)確定為:針對(duì)目前在網(wǎng)的后付費(fèi)小靈通數(shù)據(jù)進(jìn)行離網(wǎng)概率的預(yù)測(cè)。該目標(biāo)涉及后付費(fèi)小靈通用戶和離網(wǎng)兩個(gè)概念。其中,后付費(fèi)小靈通在業(yè)務(wù)系統(tǒng)中已有標(biāo)識(shí);離網(wǎng)的用戶定義為主動(dòng)及被動(dòng)

3、拆機(jī)用戶。2.2數(shù)據(jù)理解數(shù)據(jù)理解的任務(wù)是對(duì)原始數(shù)據(jù)進(jìn)行收集和熟悉,檢查數(shù)據(jù)質(zhì)量,對(duì)數(shù)據(jù)進(jìn)行初步探索,并發(fā)現(xiàn)可能存在的、有分析價(jià)值的數(shù)據(jù)特征,以形成對(duì)隱藏信息的假設(shè)。2.1.1 研究對(duì)象選取以全省2007年1月離網(wǎng)的后付費(fèi)小靈通用戶為研究對(duì)象,同時(shí)選取同期在網(wǎng)的后付費(fèi)小靈通用戶作為對(duì)照研究對(duì)象。確定離網(wǎng)時(shí)間點(diǎn)為2007年1月,因此對(duì)后付費(fèi)小靈通用戶從2006年7月至12月共6個(gè)月的相關(guān)變量進(jìn)行研究。離網(wǎng)用戶的選?。哼x取2006年7月前入網(wǎng),2007年1月內(nèi)拆機(jī)的用戶,共選出滿足條件的用戶31862名。在網(wǎng)客戶的選?。?006年7月前入網(wǎng),2007年1月31日狀態(tài)為正常的后付費(fèi)小靈通用戶共1805

4、006名。同時(shí),為避免一些偏差數(shù)據(jù)的影響,在用戶的選擇中屏蔽了公免后付費(fèi)小靈通用戶。2.1.2 變量選取基本假設(shè):后付費(fèi)小靈通用戶的行為在年度上不存在強(qiáng)的季節(jié)性,即后付費(fèi)小靈通用戶的行為特征和離網(wǎng)影響變量不會(huì)因?yàn)樘幱谝荒曛械牟煌路荩径龋┒l(fā)生較大變化。根據(jù)對(duì)業(yè)務(wù)的理解,選定以下3方面的變量進(jìn)行數(shù)據(jù)理解:1. 后付費(fèi)小靈通用戶產(chǎn)品訂購(gòu)數(shù)據(jù):主要反映用戶與服務(wù)商關(guān)系的數(shù)據(jù),如產(chǎn)品類型、在網(wǎng)時(shí)長(zhǎng)、訂購(gòu)增值業(yè)務(wù)信息、是否加入套餐等。2. 用戶消費(fèi)行為特征數(shù)據(jù):主要通過用戶每月帳務(wù)數(shù)據(jù)反映,且這類數(shù)據(jù)可以從平均水平和變動(dòng)情況2個(gè)方面來反映。本挖掘分析采用離網(wǎng)時(shí)間前6個(gè)月,用戶的帳務(wù)數(shù)據(jù)變化情況來反映

5、用戶消費(fèi)行為的變動(dòng)。主要數(shù)據(jù)包括:用戶6個(gè)月的收入、平均月租費(fèi)、市話費(fèi)、傳統(tǒng)長(zhǎng)話費(fèi)、IP長(zhǎng)話費(fèi),以及用戶平均月租費(fèi)占總費(fèi)用的比例、6個(gè)月總收入波動(dòng)率(最大收入-最小收入)/平均收入)等3. 用戶其他行為特征數(shù)據(jù):如欠費(fèi)時(shí)長(zhǎng)、累計(jì)欠費(fèi)金額等。2.2 數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備階段初步完成變量的選擇和導(dǎo)出變量的生成,同時(shí)對(duì)一些存在數(shù)據(jù)質(zhì)量問題的字段進(jìn)行相應(yīng)的處理。首先按照選取的數(shù)據(jù)范圍和變量生成數(shù)據(jù),如下圖結(jié)構(gòu):在Clementine中對(duì)數(shù)據(jù)進(jìn)行實(shí)例化分析,數(shù)據(jù)結(jié)果如下所示1. 后付費(fèi)小靈通用戶產(chǎn)品訂購(gòu)數(shù)據(jù):主要反映用戶與服務(wù)商關(guān)系的數(shù)據(jù),如產(chǎn)品類型、在網(wǎng)時(shí)長(zhǎng)、訂購(gòu)增值業(yè)務(wù)信息、是否加入套餐等。此部分?jǐn)?shù)據(jù)來

6、自于97系統(tǒng)用戶資料,經(jīng)檢測(cè),除入網(wǎng)時(shí)長(zhǎng)外,這些數(shù)據(jù)準(zhǔn)確度較高,無缺失值和偏差值。從上圖可看出,入網(wǎng)時(shí)長(zhǎng)取值范圍為6個(gè)月到24071個(gè)月,很明顯,存在錯(cuò)誤數(shù)據(jù)。故將超過入網(wǎng)時(shí)長(zhǎng)在180個(gè)月(15年)以上的用戶(共3314個(gè)),定義為入網(wǎng)時(shí)長(zhǎng)180個(gè)月。因總數(shù)據(jù)量大,此操作直接在數(shù)據(jù)庫(kù)中進(jìn)行。2. 用戶消費(fèi)行為特征數(shù)據(jù):主要包括:用戶6個(gè)月的收入、平均月租費(fèi)、市話費(fèi)、傳統(tǒng)長(zhǎng)話費(fèi)、IP長(zhǎng)話費(fèi),以及用戶平均月租費(fèi)占總費(fèi)用的比例、6個(gè)月總收入波動(dòng)率(最大收入-最小收入)/平均收入)等。經(jīng)數(shù)據(jù)質(zhì)量核查,發(fā)現(xiàn)有部分用戶6個(gè)月收入都為0。這些數(shù)據(jù)(共88322條記錄)中,絕大部分是由于97、計(jì)費(fèi)系統(tǒng)資料不統(tǒng)

7、一造成,少量是由于用戶長(zhǎng)期欠費(fèi),造成停機(jī),不產(chǎn)生費(fèi)用。這些數(shù)據(jù)由于特征值相同,對(duì)模型會(huì)造成偏差影響,故直接刪除這些數(shù)據(jù)。3. 用戶其他行為特征數(shù)據(jù):如欠費(fèi)時(shí)長(zhǎng)、累計(jì)欠費(fèi)金額等,經(jīng)核查,數(shù)據(jù)較準(zhǔn)確,不進(jìn)行任何處理。進(jìn)行上述處理后,數(shù)據(jù)質(zhì)量報(bào)告如下:2.3 建立模型在建立模型過程中,將根據(jù)實(shí)際模型的效果對(duì)變量做進(jìn)一步的篩選和處理,既保證模型準(zhǔn)確率,又盡量減少最終模型輸入的變量,便于業(yè)務(wù)解釋。離網(wǎng)預(yù)測(cè)模型的準(zhǔn)確率,在技術(shù)上主要包含預(yù)測(cè)命中率和預(yù)測(cè)覆蓋率2個(gè)指標(biāo)。其中,預(yù)測(cè)命中率表示在被預(yù)測(cè)出離網(wǎng)的客戶當(dāng)中,實(shí)際離網(wǎng)所占的比率,它是描述模型精確性的指標(biāo);預(yù)測(cè)覆蓋率表示在實(shí)際離網(wǎng)客戶中,被預(yù)測(cè)出為離網(wǎng)的

8、客戶所占的比率,它是描述模型普適性的指標(biāo)。從業(yè)務(wù)的角度來說,對(duì)離網(wǎng)用戶的預(yù)測(cè)是盡可能地將存在離網(wǎng)傾向的后付費(fèi)小靈通用戶預(yù)測(cè)出來,以便能及時(shí)采取措施進(jìn)行挽留。因此,要求在控制預(yù)測(cè)命中率的前提下盡量提高模型的預(yù)測(cè)覆蓋率。2.3.1 變量篩選首先選擇除主體產(chǎn)品實(shí)例標(biāo)識(shí)、業(yè)務(wù)接入號(hào)、本地網(wǎng)代碼、拆機(jī)標(biāo)志外的所有字段作為模型的輸入變量,拆機(jī)標(biāo)志作為輸出變量,類型節(jié)點(diǎn)定義如圖:分別生成神經(jīng)元網(wǎng)絡(luò)、C5.0、Logistic回歸模型,如圖:對(duì)生成的模型進(jìn)行實(shí)際值和預(yù)測(cè)值比較,得出結(jié)果如下(圖中縱坐標(biāo)表示實(shí)際離網(wǎng)情況,橫坐標(biāo)表示預(yù)測(cè)離網(wǎng)情況):  以上三個(gè)模型,命中率和覆蓋率分別是:神經(jīng)元

9、網(wǎng)絡(luò)模型:命中率:79.01%,覆蓋率:74.36%;C5.0模型:命中率:90.25%,覆蓋率:84.02%;Logistic回歸模型:命中率:79.36%,覆蓋率:72.61%。從以上分析可以看出,這3種模型均達(dá)到較理想的狀態(tài),尤其是C5.0模型,命中率超過90%。但是模型中用到了所有的變量,不利于業(yè)務(wù)理解和解釋,對(duì)這三種模型進(jìn)行詳細(xì)分析,進(jìn)行變量篩選:神經(jīng)元網(wǎng)絡(luò)變量關(guān)聯(lián)度圖:Logistic回歸關(guān)聯(lián)圖:C5.0模型樹:對(duì)三種模型中,變量關(guān)聯(lián)度與重要性進(jìn)行篩選,最終確定以下變量作為最終模型變量:入網(wǎng)時(shí)長(zhǎng)、定購(gòu)增值業(yè)務(wù)個(gè)數(shù)、是否加入套餐、平均月租費(fèi)、平均月租費(fèi)占比、平均市話費(fèi)、平均長(zhǎng)話費(fèi)、平

10、均IP長(zhǎng)話費(fèi)、總收入波動(dòng)率。2.3.2 建立模型和模型參數(shù)調(diào)整過程以篩選后的變量作為輸入,分別建立神經(jīng)網(wǎng)絡(luò)模型、C50模型和Logistic回歸模型。類型節(jié)點(diǎn)定義如下:神經(jīng)網(wǎng)絡(luò)模型評(píng)估:命中率:70.62%;覆蓋率:80.19%C5.0模型評(píng)估:命中率:86.33%;覆蓋率:84.60%Logistic回歸模型評(píng)估:命中率:70.18%;覆蓋率:87.02%從以上建立模型的過程中發(fā)現(xiàn),不同的模型達(dá)到的準(zhǔn)確率(命中率和覆蓋率)都比較高,能夠達(dá)到業(yè)務(wù)上的要求。實(shí)際應(yīng)用中,可以根據(jù)具體需要選擇使用不同的模型。2.4 模型評(píng)估從技術(shù)角度來看,建立的神經(jīng)網(wǎng)絡(luò)模型、C50模型和Logistic回歸模型中,

11、C5.0模型的綜合準(zhǔn)確率最高,但是與其它模型的準(zhǔn)確率相比并無大的差異。從業(yè)務(wù)角度來看,由于目前競(jìng)爭(zhēng)激烈,小靈通用戶是企業(yè)利潤(rùn)的關(guān)鍵,業(yè)務(wù)人員最關(guān)注的是能夠盡可能多地獲取可能離網(wǎng)的小靈通用戶的信息,即要求預(yù)測(cè)模型的覆蓋率盡可能高,其次的要求才是保證模型的命中率。因此,在實(shí)際應(yīng)用過程中,可以將利用神經(jīng)網(wǎng)絡(luò)、C50、Logistic回歸模型預(yù)測(cè)出的離網(wǎng)用戶,都作為可能離網(wǎng)的用戶,以盡量提高模型的覆蓋率。從模型評(píng)估結(jié)果來看,模型的覆蓋率達(dá)到了87.02,而模型的命中率也達(dá)到了86.33。2.5 結(jié)果發(fā)布結(jié)果部署的目標(biāo)是將預(yù)測(cè)模型生成的結(jié)果以一定的形式展現(xiàn)給業(yè)務(wù)人員使用。因此,應(yīng)當(dāng)從業(yè)務(wù)的角度來關(guān)注模型

12、發(fā)布的形式。后付費(fèi)小靈通用戶離網(wǎng)預(yù)測(cè)模型的預(yù)測(cè)結(jié)果主要包括:給出具體的離網(wǎng)用戶的名單;針對(duì)預(yù)測(cè)出可能離網(wǎng)的用戶,給出其離網(wǎng)可能性的量化指標(biāo),即離網(wǎng)概率。這些結(jié)果是針對(duì)單個(gè)用戶的,可以以列表的形式提供給業(yè)務(wù)人員,采取一對(duì)一的服務(wù)。如果是采用決策樹(C50)算法建立模型,還可以得到離網(wǎng)用戶的特征描述。但由于其中特征描述是以規(guī)則的形式表現(xiàn)的,過于技術(shù)化,很難從業(yè)務(wù)角度加以理解和解釋,也不適合業(yè)務(wù)人員獲取真正的離網(wǎng)用戶的特征信息。因此,在分析離網(wǎng)用戶特征時(shí),考慮以預(yù)測(cè)出的離網(wǎng)用戶為研究對(duì)象,將輸入模型的變量作為分析角度,利用多維聯(lián)機(jī)分析處理(MOLAP)技術(shù)輔助業(yè)務(wù)人員獲取離網(wǎng)用戶的群體特征,得出定性的結(jié)論,從而采取有針對(duì)性的挽留措施。2.6 總結(jié)本文遵循數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(CRISPDM),介紹了后付費(fèi)小靈通離網(wǎng)預(yù)測(cè)模型的建立過程。建立的預(yù)測(cè)模型的準(zhǔn)確率能夠滿足業(yè)務(wù)人員的需求,但是仍存在一定的局限性。一方面,在數(shù)據(jù)準(zhǔn)備過程中,將滿足條件的數(shù)據(jù)隨機(jī)地拆分成了訓(xùn)練集和檢驗(yàn)集。訓(xùn)練集用于模型的訓(xùn)練,而檢驗(yàn)集用來判斷模型效果的好壞。但是在模型評(píng)估中并

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論