數(shù)據(jù)挖掘的步驟及實(shí)例(客戶流失模型)_第1頁(yè)
數(shù)據(jù)挖掘的步驟及實(shí)例(客戶流失模型)_第2頁(yè)
數(shù)據(jù)挖掘的步驟及實(shí)例(客戶流失模型)_第3頁(yè)
數(shù)據(jù)挖掘的步驟及實(shí)例(客戶流失模型)_第4頁(yè)
數(shù)據(jù)挖掘的步驟及實(shí)例(客戶流失模型)_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2-5數(shù)據(jù)挖掘過(guò)程及實(shí)例(手機(jī)客戶流失預(yù)測(cè))第一步:需求分析。明確挖掘目標(biāo)和要求。第二步:數(shù)據(jù)理解。了解目前的數(shù)據(jù)狀況。第三步:數(shù)據(jù)準(zhǔn)備:選擇挖掘的數(shù)據(jù)并進(jìn)行預(yù)處理

第四步:挖掘算法與挖掘軟件的選擇。第五步:構(gòu)建硬件、軟件、數(shù)據(jù)平臺(tái),確定相關(guān)參數(shù),并具體挖掘。第六步:結(jié)果展示與評(píng)價(jià)、導(dǎo)出。0數(shù)據(jù)挖掘的步驟數(shù)據(jù)清理篩選數(shù)據(jù)目標(biāo)數(shù)據(jù)Knowledge預(yù)處理及變換變換后的數(shù)據(jù)數(shù)據(jù)挖掘解釋/評(píng)估0數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘中的數(shù)據(jù)變換過(guò)程第一步:需求分析。明確挖掘目標(biāo)和要求。方法:1)調(diào)查、訪談。2)頭腦風(fēng)暴。頭腦風(fēng)暴會(huì)議應(yīng)在充分的材料準(zhǔn)備基礎(chǔ)上,在輕松的環(huán)境中進(jìn)行,以充分發(fā)揮與會(huì)人員的才智。任務(wù):

1)數(shù)據(jù)挖掘應(yīng)完成哪一類任務(wù):關(guān)聯(lián)、分類、回歸、聚類?

2)如何展示和應(yīng)用挖掘結(jié)果。

3)挖掘系統(tǒng)部署后,對(duì)業(yè)務(wù)有哪些提升?1需求分析手機(jī)客戶流失預(yù)測(cè)需求分析:發(fā)展一個(gè)新客戶的成本遠(yuǎn)遠(yuǎn)高于保持一個(gè)老客戶。所以,保持老客戶就十分重要。一個(gè)電信企業(yè)在運(yùn)營(yíng)過(guò)程中,不可避免地要流失部分客戶。所以,可以建立客戶流失模型。從大量的與客戶相關(guān)的數(shù)據(jù)中,挖掘出流失客戶的共同特征。從而對(duì)初顯流失客戶特征的客戶采取必要的措施。手機(jī)客戶的特征:自然特征+行為特征

1需求分析第二步:數(shù)據(jù)理解。即了解目前的數(shù)據(jù)狀況。

1.需要的數(shù)據(jù)及含義

2.數(shù)據(jù)的分布情況:需要的數(shù)據(jù)都分布在哪些系統(tǒng)(數(shù)據(jù)庫(kù)、表)中,有多少數(shù)據(jù)。

3.數(shù)據(jù)的質(zhì)量:

1)關(guān)鍵數(shù)據(jù)是否能夠獲取。2)缺失值或無(wú)效值數(shù)量如何?3)是否有足夠的歷史數(shù)據(jù)。2數(shù)據(jù)理解手機(jī)客戶流失預(yù)測(cè)數(shù)據(jù)理解:預(yù)測(cè)需要的數(shù)據(jù):客戶數(shù)據(jù)、通話詳單、短信詳單、投訴數(shù)據(jù)、交費(fèi)數(shù)據(jù)等。客戶數(shù)據(jù):客戶代碼客戶姓名性別年齡學(xué)歷職業(yè)單位收入…手機(jī)號(hào)碼號(hào)碼品牌套餐付款方式入網(wǎng)渠道客戶類型…2數(shù)據(jù)理解客戶級(jí)別數(shù)據(jù)按月提供,每個(gè)客戶一條記錄。客戶的年齡、職業(yè)、學(xué)歷、收入等數(shù)據(jù)準(zhǔn)確性較低。通話詳單如下:2數(shù)據(jù)理解手機(jī)號(hào)碼呼叫類型漫游類型長(zhǎng)途類型目標(biāo)通話號(hào)碼通話開(kāi)始時(shí)間通話持續(xù)時(shí)間….主叫被叫短信詳單與上面類似。投訴數(shù)據(jù):2數(shù)據(jù)理解客戶號(hào)碼投訴時(shí)間投訴類型投訴小類投訴處理情況客戶滿意度…..交費(fèi)數(shù)據(jù):對(duì)后付費(fèi)客戶,主要是交費(fèi)是否及時(shí),對(duì)預(yù)付費(fèi)客戶,主要是充值時(shí)間、金額等。第三步:數(shù)據(jù)準(zhǔn)備。按要求準(zhǔn)備好需要挖掘的數(shù)據(jù)。

按照挖掘要求,通過(guò)抽取數(shù)據(jù),轉(zhuǎn)換,聚集以及數(shù)據(jù)預(yù)處理技術(shù),將數(shù)據(jù)整理成適合挖掘的形式。(寬表)數(shù)據(jù)預(yù)處理的主要內(nèi)容

1)數(shù)據(jù)歸約:在保持?jǐn)?shù)據(jù)完整性和有效性的前提下,將龐大的數(shù)據(jù)量壓縮到可接受的范圍。

2)數(shù)據(jù)清理:填充空缺值,識(shí)別孤立點(diǎn),消除噪音。

3)離散化處理:有些數(shù)據(jù)的屬性呈連續(xù)值,不利于數(shù)據(jù)挖掘。應(yīng)對(duì)這些連續(xù)值,采用不同粒度進(jìn)行離散化采樣處理;

4)概念提升:有些屬性值域很大(可能的取值數(shù)量很多),對(duì)于過(guò)于密集的離散值,用更概括的值取代。例如年齡屬性可以概括為青年、中年、老年等。3數(shù)據(jù)準(zhǔn)備將詳單數(shù)據(jù)聚集為月度數(shù)據(jù):客戶號(hào)碼月通話總長(zhǎng)月通話次數(shù)月呼出時(shí)長(zhǎng)月呼出次數(shù)漫游通話時(shí)長(zhǎng)長(zhǎng)途通話時(shí)長(zhǎng)IP電話通話時(shí)長(zhǎng)分時(shí)段通話時(shí)長(zhǎng)分天通話時(shí)長(zhǎng)主、被叫市話的個(gè)數(shù)主、被叫長(zhǎng)話的個(gè)數(shù)….短信詳單可聚集出類似的變量。投訴信息可統(tǒng)計(jì)出投訴次數(shù)等。3數(shù)據(jù)準(zhǔn)備數(shù)據(jù)采樣:客戶流失模型研究的目標(biāo)是為了挽留客戶。研究?jī)r(jià)值低的客戶得不償失。因此,應(yīng)選擇滿足一定價(jià)值標(biāo)準(zhǔn)的客戶。例如,積分或歷史消費(fèi)數(shù)據(jù)應(yīng)大于某個(gè)標(biāo)準(zhǔn)??蛻簟邦悩?biāo)簽”的確定:在電信客戶流失中,主要有三類流失:

1)主動(dòng)流失:客戶客戶主動(dòng)去營(yíng)業(yè)廳要求銷戶

2)變動(dòng)流失:因欠費(fèi),被電信公司關(guān)閉賬戶。

3)自然流失:因各種原因停止使用手機(jī)號(hào)碼,有時(shí)可能還有少量通話。前兩類由系統(tǒng)自動(dòng)標(biāo)記,第三類形成比較復(fù)雜,可通過(guò)消費(fèi)額的變化,予以標(biāo)記。3數(shù)據(jù)準(zhǔn)備數(shù)據(jù)清理:1)客戶基本數(shù)據(jù)中的學(xué)歷、職業(yè)等字段中有大量的缺值,而且正確性難以保證,可以去掉,不參加建模。2)有些客戶的通話數(shù)據(jù)可能存在異常,可以刪除這些客戶。3)有些屬性之間相關(guān)性較大,可進(jìn)一步選擇。3數(shù)據(jù)準(zhǔn)備時(shí)間窗口選擇:

客戶流失與時(shí)間有關(guān)。因此,需要選擇時(shí)間窗口。例如,時(shí)間窗口為3,就是取3個(gè)月的通話等相關(guān)數(shù)據(jù)。

3數(shù)據(jù)準(zhǔn)備客戶號(hào)碼手機(jī)號(hào)碼號(hào)碼品牌套餐付款方式入網(wǎng)渠道客戶類型…第1個(gè)月各項(xiàng)數(shù)據(jù)第2個(gè)月各項(xiàng)數(shù)據(jù)第3個(gè)月各項(xiàng)數(shù)據(jù)流失情況流失正常時(shí)間窗口的疊加:為了提高模型的適應(yīng)性,可使用不同的時(shí)間窗口的數(shù)據(jù)進(jìn)行疊加。4567891011121233數(shù)據(jù)準(zhǔn)備456789101112123456789101112123456789101112123第四步:挖掘算法與挖掘軟件的選擇。主要考慮因素:1)算法的有效性:即算法對(duì)要解決的問(wèn)題是否有效。數(shù)據(jù)集的特征是千變?nèi)f化的。目前,每個(gè)算法都對(duì)數(shù)據(jù)集有潛在假設(shè)。沒(méi)有一種算法在所有類型的數(shù)據(jù)集上都表現(xiàn)良好。因此,數(shù)據(jù)集的特征應(yīng)與算法的假設(shè)比較吻合。2)模型的可理解性:模型可解釋,可增加人們對(duì)模型的信任度。例如,用決策樹(shù)算法生成的模型易于解釋,而神經(jīng)網(wǎng)絡(luò)算法生成的模型則難以解釋。3)性能與計(jì)算復(fù)雜度。4)處理連續(xù)數(shù)據(jù)或離散數(shù)據(jù)的能力、處理高維數(shù)據(jù)的能力等。常見(jiàn)的算法都可對(duì)部分參數(shù)進(jìn)行調(diào)整。實(shí)際問(wèn)題中,可使用多個(gè)算法對(duì)同一個(gè)問(wèn)題進(jìn)行建模。4挖掘算法與挖掘軟件的選擇典型數(shù)據(jù)挖掘軟件介紹:1)SAS公司的EnterprideMiner軟件。為SAS統(tǒng)計(jì)軟件的一個(gè)模塊。2)IBM公司IntelligentMiner軟件、Clementine軟件(原SPSS公司)。3)Oracle公司的OracleDataMining軟件。為Oracle數(shù)據(jù)庫(kù)管理系統(tǒng)新增的模

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論