數(shù)據(jù)挖掘技術(shù)在提升電信業(yè)欠費(fèi)控制能力上應(yīng)用_第1頁
數(shù)據(jù)挖掘技術(shù)在提升電信業(yè)欠費(fèi)控制能力上應(yīng)用_第2頁
數(shù)據(jù)挖掘技術(shù)在提升電信業(yè)欠費(fèi)控制能力上應(yīng)用_第3頁
數(shù)據(jù)挖掘技術(shù)在提升電信業(yè)欠費(fèi)控制能力上應(yīng)用_第4頁
數(shù)據(jù)挖掘技術(shù)在提升電信業(yè)欠費(fèi)控制能力上應(yīng)用_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘技術(shù)在提升電信業(yè)欠費(fèi)預(yù)測及控制能力上的應(yīng)用摘要:數(shù)據(jù)挖掘是目前發(fā)展迅速、應(yīng)用廣泛的一種從海量數(shù)據(jù)中抽取出潛在的、有價(jià)值的知識的過程?;跀?shù)據(jù)挖掘技術(shù)海量數(shù)據(jù)提取和知識發(fā)現(xiàn)的特點(diǎn),本文主要基于數(shù)據(jù)挖掘技術(shù)在提升電信業(yè)欠費(fèi)控制能力上進(jìn)行分析與研究?;陔娦趴蛻羰抢硇缘暮徒?jīng)濟(jì)的這一基本前提,可以采用決策樹,神經(jīng)網(wǎng)絡(luò),關(guān)聯(lián)規(guī)則分析等數(shù)據(jù)挖掘算法和統(tǒng)計(jì)分析技術(shù),通過對電信客戶的歷史業(yè)務(wù)行為進(jìn)行深入分析,從而預(yù)測其在未來時(shí)間的欠費(fèi)傾向。 關(guān)鍵字:數(shù)據(jù)挖掘 欠費(fèi) 預(yù)測引言 欠費(fèi)問題是困擾通信行業(yè)的主要難題之一,長期居高不下的欠費(fèi)用戶量不僅關(guān)系到運(yùn)營商的切身利益,更影響消費(fèi)行業(yè)的平衡運(yùn)作,欠費(fèi)金額的激

2、增不僅是對運(yùn)營商切身利益的損害,更造成了國有資產(chǎn)的潛在流失,使國家蒙受損失。因此,追討欠費(fèi)是當(dāng)前通信行業(yè)亟待解決的問題。雖然,現(xiàn)有電信業(yè)務(wù)經(jīng)營分析過程中,根據(jù)業(yè)務(wù)人員在工作中積累的經(jīng)驗(yàn),已對部分欠費(fèi)數(shù)據(jù)作出分析,如:欠費(fèi)金額、欠費(fèi)用戶數(shù)、當(dāng)月欠費(fèi)用戶數(shù)、逾期欠費(fèi)用戶數(shù)等。但是,針對已發(fā)生欠費(fèi)行為的用戶做出分析,分析范圍有限,不能達(dá)到控制欠費(fèi)及預(yù)測欠費(fèi)的目的,最終結(jié)果還是不停的追討欠費(fèi)。所以,做好電信欠費(fèi)的防范工作,及早遏制欠費(fèi)的發(fā)生才是當(dāng)前一項(xiàng)緊迫且意義重大的任務(wù),只有及時(shí)有效的預(yù)測欠費(fèi)用戶,才能有針對性的采取精準(zhǔn)化營銷措施,挽回這部分用戶,進(jìn)而控制欠費(fèi)的發(fā)生,提升電信業(yè)自身對欠費(fèi)用戶的控制能

3、力。本文主要以欠費(fèi)用戶預(yù)測為研究主題,以提升欠費(fèi)控制能力為目標(biāo),以神經(jīng)網(wǎng)絡(luò)算法和決策樹分類算法作為理論支撐,展開深入研究。1、 基本原理1.1 設(shè)計(jì)思想研究過程主要以客戶的歷史業(yè)務(wù)行為為依據(jù),預(yù)測其在未來時(shí)間的欠費(fèi)傾向。在模型建設(shè)完畢后,只要輸入該客戶的相關(guān)數(shù)據(jù)變量即可根據(jù)模型輸出結(jié)果判斷其在未來時(shí)間的欠費(fèi)概率,從而采取相關(guān)控制行為。如下圖所示:輸 入欠費(fèi)概率(0.87)輸 出29全球通347元/月長春男圖一 欠費(fèi)用戶預(yù)測模型效果圖1.2 算法原理 基于上述設(shè)計(jì)思想,在具體應(yīng)用過程中主要用到的數(shù)據(jù)挖掘算法有神經(jīng)網(wǎng)絡(luò)算法和決策樹算法。神經(jīng)網(wǎng)絡(luò)算法的實(shí)施過程是由輸入變量至輸出變量的一個(gè)數(shù)據(jù)清洗沉淀

4、過程。輸入層結(jié)構(gòu)由輸入變量(屬性)來定。每個(gè)屬性為一個(gè)輸入結(jié)點(diǎn)。輸出層結(jié)構(gòu)由輸出結(jié)果來定。有幾個(gè)輸出值,就有幾個(gè)輸出結(jié)點(diǎn)。隱藏層 層數(shù)和結(jié)點(diǎn)數(shù)點(diǎn)的確定:主要靠經(jīng)驗(yàn)。初始權(quán)值的確定:取決于對問題的了解和先驗(yàn)知識,哪部分作用強(qiáng),權(quán)值就設(shè)得大些。訓(xùn)練過程:一個(gè)神經(jīng)元連接權(quán)重調(diào)整的過程。前向傳播階段:輸入層>隱層>輸出層,反向傳播階段:計(jì)算輸出的結(jié)果和目標(biāo)結(jié)果的差距 經(jīng)輸出層>隱層>輸入層 ,反推神經(jīng)元連接的權(quán)重調(diào)整,對每個(gè)輸入樣本重復(fù)上述步驟,直到網(wǎng)絡(luò)收斂為止。決策樹算法是一種逼近離散函數(shù)值的方法。它是一種典型的分類方法,首先對數(shù)據(jù)進(jìn)行處理,利用歸納算法生成可讀的規(guī)則和決策樹

5、,然后使用決策對新數(shù)據(jù)進(jìn)行分析。本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程。決策樹算法構(gòu)造決策樹來發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)涵的分類規(guī)則如何構(gòu)造精度高、規(guī)模小的決策樹是決策樹算法的核心內(nèi)容。決策樹構(gòu)造可以分兩步進(jìn)行。第一步,決策樹的生成:由訓(xùn)練樣本集生成決策樹的過程。一般情況下,訓(xùn)練樣本數(shù)據(jù)集是根據(jù)實(shí)際需要有歷史的、有一定綜合程度的,用于數(shù)據(jù)分析處理的數(shù)據(jù)集。第二步,決策樹的剪技:決策樹的剪枝是對上一階段生成的決策樹進(jìn)行檢驗(yàn)、校正和修下的過程,主要是用新的樣本數(shù)扼集(稱為測試數(shù)據(jù)集)中的數(shù)據(jù)校驗(yàn)決策樹生成過程中產(chǎn)生的初步規(guī)則,將那些影響預(yù)衡準(zhǔn)確性的分枝剪除。2、 模型設(shè)計(jì)2.1 變量選取選取某月某地區(qū)

6、欠費(fèi)用戶的業(yè)務(wù)行為數(shù)據(jù)作為研究樣本,采用神經(jīng)網(wǎng)絡(luò)算法思想挖掘欠費(fèi)用戶的業(yè)務(wù)行為特征??山⒁韵伦兞浚篴) 通話消費(fèi)進(jìn)度 b) 總消費(fèi)進(jìn)度 c) 最大/小繳費(fèi)金額 d) 用戶剩余免費(fèi)時(shí)長 e) 呼叫主要集中的時(shí)段 f) 短信主要集中的時(shí)段 g) 查詢話費(fèi)次數(shù) h) 在網(wǎng)時(shí)長i) 通話消費(fèi)頻率j) 總消費(fèi)頻率驗(yàn)證變量選取的代表性。如:我們對某一欠費(fèi)用戶在一個(gè)月中的通話行為進(jìn)行日分析,可看出該用戶的通話消費(fèi)進(jìn)度,如下圖所示:圖二 欠費(fèi)用戶通話消費(fèi)進(jìn)度圖可見該用戶屬于月末突擊消費(fèi)的類型,該類型用戶欠費(fèi)可能性極大。下圖為所選樣本中某個(gè)用戶的消費(fèi)進(jìn)度圖,可見該用戶屬于消費(fèi)較少的用戶,且月末也有突擊消費(fèi)現(xiàn)象

7、存在。圖三 消費(fèi)進(jìn)度圖2.2 利用神經(jīng)網(wǎng)絡(luò)算法挖掘欠費(fèi)用戶特征將已準(zhǔn)備好的變量集由輸入層輸入,經(jīng)由隱含層對數(shù)據(jù)作出處理后,傳到輸出層。如果輸出層輸出的信號與期望的輸出不符,則反向傳播。誤差的反向傳播是將實(shí)際輸出與期望輸出之間的誤差以某種形式通過隱含層再向輸入層反傳,并且在反傳的過程中,將誤差分?jǐn)偨o各層的所有單元,用來獲得各層單元的誤差信號,用這個(gè)誤差信號去修正各單元的連接權(quán),然后再進(jìn)行信號的正向傳遞,這種信號正向傳遞和誤差的反向傳播的過程是周而復(fù)始地進(jìn)行,連接權(quán)值也相應(yīng)不斷地進(jìn)行調(diào)整,這個(gè)過程就是網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練的過程,直到網(wǎng)絡(luò)輸出的誤差足夠小或者達(dá)到了我們的預(yù)設(shè)值,或者進(jìn)行到預(yù)設(shè)的學(xué)習(xí)次數(shù),網(wǎng)絡(luò)

8、的學(xué)習(xí)訓(xùn)練才結(jié)束。對輸出層得到的數(shù)據(jù)結(jié)果進(jìn)行分析,該結(jié)果集即為欠費(fèi)用戶的特征集。2.3 利用決策樹分類算法進(jìn)行用戶預(yù)測根據(jù)神經(jīng)元輸出結(jié)果中的欠費(fèi)用戶特征,對隨機(jī)抽取的單用戶業(yè)務(wù)行為數(shù)據(jù)進(jìn)行分析,待分析的數(shù)據(jù)的范圍大于或者等于上述特征集。根據(jù)決策樹分類算法思想,分析該用戶的業(yè)務(wù)行為數(shù)據(jù)是否滿足上述特征集,如果滿足即將其歸為準(zhǔn)欠費(fèi)用戶,業(yè)務(wù)人員需要采取相關(guān)營銷策略爭取這部分用戶,盡量避免其欠費(fèi)行為在當(dāng)月月結(jié)時(shí)產(chǎn)生。反之,經(jīng)過分析后,該用戶的業(yè)務(wù)行為不滿足上述特征集,那么該類用戶屬于正常在用用戶,業(yè)務(wù)人員可以不采取相關(guān)營銷措施。如下圖所示以圖形的表現(xiàn)形式,展現(xiàn)了決策樹分類思想的流程圖。當(dāng)然,在模型建

9、設(shè)的過程中,決策樹算法多以多分支形式的屬性圖結(jié)果展現(xiàn),圖四 決策樹分類算法流程圖3、效果評估 如下圖所示為某一地區(qū)某月的用戶數(shù)據(jù):網(wǎng)別類型欠費(fèi)用戶數(shù)預(yù)測欠費(fèi)用戶數(shù)命中用戶準(zhǔn)確率3G手機(jī)173581140231800265706%3G-上網(wǎng)卡5770390028067194%2G8897576985074208546025%固定電話4683%無線市話7902356693330705833%寬帶13357799335573525773%公用電話3089197312446305%其他9456734548716631%小計(jì)4814%可見預(yù)測模型還是能夠有效的預(yù)測出欠費(fèi)用戶,在模型使用的過程中仍需要不斷的完善,使其對欠費(fèi)用戶預(yù)測的準(zhǔn)確率上有所提升,從而實(shí)現(xiàn)該模型的更大價(jià)值。4、結(jié)束語本文主要基于數(shù)據(jù)挖掘算法中神經(jīng)網(wǎng)絡(luò)算法和決策樹分類算法的算法思想,對樣本數(shù)據(jù)集中海量的數(shù)據(jù)信息進(jìn)行挖掘,從中挖掘出學(xué)習(xí)者從表象很難識別的內(nèi)在數(shù)據(jù)特征,從而加以應(yīng)用,以此作為用戶分類的依據(jù),從而實(shí)現(xiàn)用戶預(yù)測的功能,可將這部分預(yù)測用戶,用于OCS計(jì)費(fèi)系統(tǒng),實(shí)時(shí)監(jiān)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論