數(shù)據(jù)挖掘的步驟及實例(客戶流失模型)課件_第1頁
數(shù)據(jù)挖掘的步驟及實例(客戶流失模型)課件_第2頁
數(shù)據(jù)挖掘的步驟及實例(客戶流失模型)課件_第3頁
數(shù)據(jù)挖掘的步驟及實例(客戶流失模型)課件_第4頁
數(shù)據(jù)挖掘的步驟及實例(客戶流失模型)課件_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2-5數(shù)據(jù)挖掘過程及實例(手機(jī)客戶流失預(yù)測)2-5數(shù)據(jù)挖掘過程及實例(手機(jī)客戶流失預(yù)測)1第一步:需求分析。明確挖掘目標(biāo)和要求。第二步:數(shù)據(jù)理解。了解目前的數(shù)據(jù)狀況。第三步:數(shù)據(jù)準(zhǔn)備:選擇挖掘的數(shù)據(jù)并進(jìn)行預(yù)處理

第四步:挖掘算法與挖掘軟件的選擇。第五步:構(gòu)建硬件、軟件、數(shù)據(jù)平臺,確定相關(guān)參數(shù),并具體挖掘。第六步:結(jié)果展示與評價、導(dǎo)出。0數(shù)據(jù)挖掘的步驟第一步:需求分析。明確挖掘目標(biāo)和要求。0數(shù)據(jù)挖掘的步驟2數(shù)據(jù)清理篩選數(shù)據(jù)目標(biāo)數(shù)據(jù)Knowledge預(yù)處理及變換變換后的數(shù)據(jù)數(shù)據(jù)挖掘解釋/評估0數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘中的數(shù)據(jù)變換過程數(shù)據(jù)清理篩選數(shù)據(jù)目標(biāo)數(shù)據(jù)Knowledge預(yù)處理及變換變換后3第一步:需求分析。明確挖掘目標(biāo)和要求。方法:1)調(diào)查、訪談。2)頭腦風(fēng)暴。頭腦風(fēng)暴會議應(yīng)在充分的材料準(zhǔn)備基礎(chǔ)上,在輕松的環(huán)境中進(jìn)行,以充分發(fā)揮與會人員的才智。任務(wù):

1)數(shù)據(jù)挖掘應(yīng)完成哪一類任務(wù):關(guān)聯(lián)、分類、回歸、聚類?

2)如何展示和應(yīng)用挖掘結(jié)果。

3)挖掘系統(tǒng)部署后,對業(yè)務(wù)有哪些提升?1需求分析第一步:需求分析。明確挖掘目標(biāo)和要求。1需求分析4手機(jī)客戶流失預(yù)測需求分析:發(fā)展一個新客戶的成本遠(yuǎn)遠(yuǎn)高于保持一個老客戶。所以,保持老客戶就十分重要。一個電信企業(yè)在運營過程中,不可避免地要流失部分客戶。所以,可以建立客戶流失模型。從大量的與客戶相關(guān)的數(shù)據(jù)中,挖掘出流失客戶的共同特征。從而對初顯流失客戶特征的客戶采取必要的措施。手機(jī)客戶的特征:自然特征+行為特征

1需求分析手機(jī)客戶流失預(yù)測需求分析:1需求分析5第二步:數(shù)據(jù)理解。即了解目前的數(shù)據(jù)狀況。

1.需要的數(shù)據(jù)及含義

2.數(shù)據(jù)的分布情況:需要的數(shù)據(jù)都分布在哪些系統(tǒng)(數(shù)據(jù)庫、表)中,有多少數(shù)據(jù)。

3.數(shù)據(jù)的質(zhì)量:

1)關(guān)鍵數(shù)據(jù)是否能夠獲取。2)缺失值或無效值數(shù)量如何?3)是否有足夠的歷史數(shù)據(jù)。2數(shù)據(jù)理解第二步:數(shù)據(jù)理解。即了解目前的數(shù)據(jù)狀況。2數(shù)據(jù)理解6手機(jī)客戶流失預(yù)測數(shù)據(jù)理解:預(yù)測需要的數(shù)據(jù):客戶數(shù)據(jù)、通話詳單、短信詳單、投訴數(shù)據(jù)、交費數(shù)據(jù)等??蛻魯?shù)據(jù):客戶代碼客戶姓名性別年齡學(xué)歷職業(yè)單位收入…手機(jī)號碼號碼品牌套餐付款方式入網(wǎng)渠道客戶類型…2數(shù)據(jù)理解客戶級別數(shù)據(jù)按月提供,每個客戶一條記錄??蛻舻哪挲g、職業(yè)、學(xué)歷、收入等數(shù)據(jù)準(zhǔn)確性較低。手機(jī)客戶流失預(yù)測數(shù)據(jù)理解:客戶代碼客戶姓名性別年齡學(xué)歷職業(yè)單7通話詳單如下:2數(shù)據(jù)理解手機(jī)號碼呼叫類型漫游類型長途類型目標(biāo)通話號碼通話開始時間通話持續(xù)時間….主叫被叫短信詳單與上面類似。通話詳單如下:2數(shù)據(jù)理解手機(jī)號碼呼叫類型漫游類型長途類型8投訴數(shù)據(jù):2數(shù)據(jù)理解客戶號碼投訴時間投訴類型投訴小類投訴處理情況客戶滿意度…..交費數(shù)據(jù):對后付費客戶,主要是交費是否及時,對預(yù)付費客戶,主要是充值時間、金額等。投訴數(shù)據(jù):2數(shù)據(jù)理解客戶號碼投訴時間投訴類型投訴小類投訴9第三步:數(shù)據(jù)準(zhǔn)備。按要求準(zhǔn)備好需要挖掘的數(shù)據(jù)。

按照挖掘要求,通過抽取數(shù)據(jù),轉(zhuǎn)換,聚集以及數(shù)據(jù)預(yù)處理技術(shù),將數(shù)據(jù)整理成適合挖掘的形式。(寬表)數(shù)據(jù)預(yù)處理的主要內(nèi)容

1)數(shù)據(jù)歸約:在保持?jǐn)?shù)據(jù)完整性和有效性的前提下,將龐大的數(shù)據(jù)量壓縮到可接受的范圍。

2)數(shù)據(jù)清理:填充空缺值,識別孤立點,消除噪音。

3)離散化處理:有些數(shù)據(jù)的屬性呈連續(xù)值,不利于數(shù)據(jù)挖掘。應(yīng)對這些連續(xù)值,采用不同粒度進(jìn)行離散化采樣處理;

4)概念提升:有些屬性值域很大(可能的取值數(shù)量很多),對于過于密集的離散值,用更概括的值取代。例如年齡屬性可以概括為青年、中年、老年等。3數(shù)據(jù)準(zhǔn)備第三步:數(shù)據(jù)準(zhǔn)備。按要求準(zhǔn)備好需要挖掘的數(shù)據(jù)。3數(shù)據(jù)準(zhǔn)備10將詳單數(shù)據(jù)聚集為月度數(shù)據(jù):客戶號碼月通話總長月通話次數(shù)月呼出時長月呼出次數(shù)漫游通話時長長途通話時長IP電話通話時長分時段通話時長分天通話時長主、被叫市話的個數(shù)主、被叫長話的個數(shù)….短信詳單可聚集出類似的變量。投訴信息可統(tǒng)計出投訴次數(shù)等。3數(shù)據(jù)準(zhǔn)備將詳單數(shù)據(jù)聚集為月度數(shù)據(jù):客戶號碼月通話總長月通話次數(shù)月呼出11數(shù)據(jù)采樣:客戶流失模型研究的目標(biāo)是為了挽留客戶。研究價值低的客戶得不償失。因此,應(yīng)選擇滿足一定價值標(biāo)準(zhǔn)的客戶。例如,積分或歷史消費數(shù)據(jù)應(yīng)大于某個標(biāo)準(zhǔn)??蛻簟邦悩?biāo)簽”的確定:在電信客戶流失中,主要有三類流失:

1)主動流失:客戶客戶主動去營業(yè)廳要求銷戶

2)變動流失:因欠費,被電信公司關(guān)閉賬戶。

3)自然流失:因各種原因停止使用手機(jī)號碼,有時可能還有少量通話。前兩類由系統(tǒng)自動標(biāo)記,第三類形成比較復(fù)雜,可通過消費額的變化,予以標(biāo)記。3數(shù)據(jù)準(zhǔn)備數(shù)據(jù)采樣:3數(shù)據(jù)準(zhǔn)備12數(shù)據(jù)清理:1)客戶基本數(shù)據(jù)中的學(xué)歷、職業(yè)等字段中有大量的缺值,而且正確性難以保證,可以去掉,不參加建模。2)有些客戶的通話數(shù)據(jù)可能存在異常,可以刪除這些客戶。3)有些屬性之間相關(guān)性較大,可進(jìn)一步選擇。3數(shù)據(jù)準(zhǔn)備數(shù)據(jù)清理:3數(shù)據(jù)準(zhǔn)備13時間窗口選擇:

客戶流失與時間有關(guān)。因此,需要選擇時間窗口。例如,時間窗口為3,就是取3個月的通話等相關(guān)數(shù)據(jù)。

3數(shù)據(jù)準(zhǔn)備客戶號碼手機(jī)號碼號碼品牌套餐付款方式入網(wǎng)渠道客戶類型…第1個月各項數(shù)據(jù)第2個月各項數(shù)據(jù)第3個月各項數(shù)據(jù)流失情況流失正常時間窗口選擇:3數(shù)據(jù)準(zhǔn)備客戶號碼手機(jī)號碼號碼品牌套餐付款14時間窗口的疊加:為了提高模型的適應(yīng)性,可使用不同的時間窗口的數(shù)據(jù)進(jìn)行疊加。4567891011121233數(shù)據(jù)準(zhǔn)備456789101112123456789101112123456789101112123時間窗口的疊加:4567891011121233數(shù)據(jù)準(zhǔn)備15第四步:挖掘算法與挖掘軟件的選擇。主要考慮因素:1)算法的有效性:即算法對要解決的問題是否有效。數(shù)據(jù)集的特征是千變?nèi)f化的。目前,每個算法都對數(shù)據(jù)集有潛在假設(shè)。沒有一種算法在所有類型的數(shù)據(jù)集上都表現(xiàn)良好。因此,數(shù)據(jù)集的特征應(yīng)與算法的假設(shè)比較吻合。2)模型的可理解性:模型可解釋,可增加人們對模型的信任度。例如,用決策樹算法生成的模型易于解釋,而神經(jīng)網(wǎng)絡(luò)算法生成的模型則難以解釋。3)性能與計算復(fù)雜度。4)處理連續(xù)數(shù)據(jù)或離散數(shù)據(jù)的能力、處理高維數(shù)據(jù)的能力等。常見的算法都可對部分參數(shù)進(jìn)行調(diào)整。實際問題中,可使用多個算法對同一個問題進(jìn)行建模。4挖掘算法與挖掘軟件的選擇第四步:挖掘算法與挖掘軟件的選擇。4挖掘算法與挖掘軟件的16典型數(shù)據(jù)挖掘軟件介紹:1)SAS公司的EnterprideMiner軟件。為SAS統(tǒng)計軟件的一個模塊。2)IBM公司IntelligentMiner軟件、Clementine軟件(原SPSS公司)。3)Oracle公司的OracleDataMining軟件。為Oracle數(shù)據(jù)庫管理系統(tǒng)新增的模塊,與數(shù)據(jù)庫管理軟件緊密集成。4)MS公司的SQLServer2005DataMining軟件。4挖掘算法與

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論