




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2-5數(shù)據(jù)挖掘過(guò)程及實(shí)例(手機(jī)客戶流失預(yù)測(cè))第一步:需求分析。明確挖掘目標(biāo)和要求。第二步:數(shù)據(jù)理解。了解目前的數(shù)據(jù)狀況。第三步:數(shù)據(jù)準(zhǔn)備:選擇挖掘的數(shù)據(jù)并進(jìn)行預(yù)處理
第四步:挖掘算法與挖掘軟件的選擇。第五步:構(gòu)建硬件、軟件、數(shù)據(jù)平臺(tái),確定相關(guān)參數(shù),并具體挖掘。第六步:結(jié)果展示與評(píng)價(jià)、導(dǎo)出。0數(shù)據(jù)挖掘的步驟數(shù)據(jù)清理篩選數(shù)據(jù)目標(biāo)數(shù)據(jù)Knowledge預(yù)處理及變換變換后的數(shù)據(jù)數(shù)據(jù)挖掘解釋/評(píng)估0數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘中的數(shù)據(jù)變換過(guò)程第一步:需求分析。明確挖掘目標(biāo)和要求。方法:1)調(diào)查、訪談。2)頭腦風(fēng)暴。頭腦風(fēng)暴會(huì)議應(yīng)在充分的材料準(zhǔn)備基礎(chǔ)上,在輕松的環(huán)境中進(jìn)行,以充分發(fā)揮與會(huì)人員的才智。任務(wù):
1)數(shù)據(jù)挖掘應(yīng)完成哪一類任務(wù):關(guān)聯(lián)、分類、回歸、聚類?
2)如何展示和應(yīng)用挖掘結(jié)果。
3)挖掘系統(tǒng)部署后,對(duì)業(yè)務(wù)有哪些提升?1需求分析手機(jī)客戶流失預(yù)測(cè)需求分析:發(fā)展一個(gè)新客戶的成本遠(yuǎn)遠(yuǎn)高于保持一個(gè)老客戶。所以,保持老客戶就十分重要。一個(gè)電信企業(yè)在運(yùn)營(yíng)過(guò)程中,不可避免地要流失部分客戶。所以,可以建立客戶流失模型。從大量的與客戶相關(guān)的數(shù)據(jù)中,挖掘出流失客戶的共同特征。從而對(duì)初顯流失客戶特征的客戶采取必要的措施。手機(jī)客戶的特征:自然特征+行為特征
1需求分析第二步:數(shù)據(jù)理解。即了解目前的數(shù)據(jù)狀況。
1.需要的數(shù)據(jù)及含義
2.數(shù)據(jù)的分布情況:需要的數(shù)據(jù)都分布在哪些系統(tǒng)(數(shù)據(jù)庫(kù)、表)中,有多少數(shù)據(jù)。
3.數(shù)據(jù)的質(zhì)量:
1)關(guān)鍵數(shù)據(jù)是否能夠獲取。2)缺失值或無(wú)效值數(shù)量如何?3)是否有足夠的歷史數(shù)據(jù)。2數(shù)據(jù)理解手機(jī)客戶流失預(yù)測(cè)數(shù)據(jù)理解:預(yù)測(cè)需要的數(shù)據(jù):客戶數(shù)據(jù)、通話詳單、短信詳單、投訴數(shù)據(jù)、交費(fèi)數(shù)據(jù)等。客戶數(shù)據(jù):客戶代碼客戶姓名性別年齡學(xué)歷職業(yè)單位收入…手機(jī)號(hào)碼號(hào)碼品牌套餐付款方式入網(wǎng)渠道客戶類型…2數(shù)據(jù)理解客戶級(jí)別數(shù)據(jù)按月提供,每個(gè)客戶一條記錄。客戶的年齡、職業(yè)、學(xué)歷、收入等數(shù)據(jù)準(zhǔn)確性較低。通話詳單如下:2數(shù)據(jù)理解手機(jī)號(hào)碼呼叫類型漫游類型長(zhǎng)途類型目標(biāo)通話號(hào)碼通話開(kāi)始時(shí)間通話持續(xù)時(shí)間….主叫被叫短信詳單與上面類似。投訴數(shù)據(jù):2數(shù)據(jù)理解客戶號(hào)碼投訴時(shí)間投訴類型投訴小類投訴處理情況客戶滿意度…..交費(fèi)數(shù)據(jù):對(duì)后付費(fèi)客戶,主要是交費(fèi)是否及時(shí),對(duì)預(yù)付費(fèi)客戶,主要是充值時(shí)間、金額等。第三步:數(shù)據(jù)準(zhǔn)備。按要求準(zhǔn)備好需要挖掘的數(shù)據(jù)。
按照挖掘要求,通過(guò)抽取數(shù)據(jù),轉(zhuǎn)換,聚集以及數(shù)據(jù)預(yù)處理技術(shù),將數(shù)據(jù)整理成適合挖掘的形式。(寬表)數(shù)據(jù)預(yù)處理的主要內(nèi)容
1)數(shù)據(jù)歸約:在保持?jǐn)?shù)據(jù)完整性和有效性的前提下,將龐大的數(shù)據(jù)量壓縮到可接受的范圍。
2)數(shù)據(jù)清理:填充空缺值,識(shí)別孤立點(diǎn),消除噪音。
3)離散化處理:有些數(shù)據(jù)的屬性呈連續(xù)值,不利于數(shù)據(jù)挖掘。應(yīng)對(duì)這些連續(xù)值,采用不同粒度進(jìn)行離散化采樣處理;
4)概念提升:有些屬性值域很大(可能的取值數(shù)量很多),對(duì)于過(guò)于密集的離散值,用更概括的值取代。例如年齡屬性可以概括為青年、中年、老年等。3數(shù)據(jù)準(zhǔn)備將詳單數(shù)據(jù)聚集為月度數(shù)據(jù):客戶號(hào)碼月通話總長(zhǎng)月通話次數(shù)月呼出時(shí)長(zhǎng)月呼出次數(shù)漫游通話時(shí)長(zhǎng)長(zhǎng)途通話時(shí)長(zhǎng)IP電話通話時(shí)長(zhǎng)分時(shí)段通話時(shí)長(zhǎng)分天通話時(shí)長(zhǎng)主、被叫市話的個(gè)數(shù)主、被叫長(zhǎng)話的個(gè)數(shù)….短信詳單可聚集出類似的變量。投訴信息可統(tǒng)計(jì)出投訴次數(shù)等。3數(shù)據(jù)準(zhǔn)備數(shù)據(jù)采樣:客戶流失模型研究的目標(biāo)是為了挽留客戶。研究?jī)r(jià)值低的客戶得不償失。因此,應(yīng)選擇滿足一定價(jià)值標(biāo)準(zhǔn)的客戶。例如,積分或歷史消費(fèi)數(shù)據(jù)應(yīng)大于某個(gè)標(biāo)準(zhǔn)??蛻簟邦悩?biāo)簽”的確定:在電信客戶流失中,主要有三類流失:
1)主動(dòng)流失:客戶客戶主動(dòng)去營(yíng)業(yè)廳要求銷戶
2)變動(dòng)流失:因欠費(fèi),被電信公司關(guān)閉賬戶。
3)自然流失:因各種原因停止使用手機(jī)號(hào)碼,有時(shí)可能還有少量通話。前兩類由系統(tǒng)自動(dòng)標(biāo)記,第三類形成比較復(fù)雜,可通過(guò)消費(fèi)額的變化,予以標(biāo)記。3數(shù)據(jù)準(zhǔn)備數(shù)據(jù)清理:1)客戶基本數(shù)據(jù)中的學(xué)歷、職業(yè)等字段中有大量的缺值,而且正確性難以保證,可以去掉,不參加建模。2)有些客戶的通話數(shù)據(jù)可能存在異常,可以刪除這些客戶。3)有些屬性之間相關(guān)性較大,可進(jìn)一步選擇。3數(shù)據(jù)準(zhǔn)備時(shí)間窗口選擇:
客戶流失與時(shí)間有關(guān)。因此,需要選擇時(shí)間窗口。例如,時(shí)間窗口為3,就是取3個(gè)月的通話等相關(guān)數(shù)據(jù)。
3數(shù)據(jù)準(zhǔn)備客戶號(hào)碼手機(jī)號(hào)碼號(hào)碼品牌套餐付款方式入網(wǎng)渠道客戶類型…第1個(gè)月各項(xiàng)數(shù)據(jù)第2個(gè)月各項(xiàng)數(shù)據(jù)第3個(gè)月各項(xiàng)數(shù)據(jù)流失情況流失正常時(shí)間窗口的疊加:為了提高模型的適應(yīng)性,可使用不同的時(shí)間窗口的數(shù)據(jù)進(jìn)行疊加。4567891011121233數(shù)據(jù)準(zhǔn)備456789101112123456789101112123456789101112123第四步:挖掘算法與挖掘軟件的選擇。主要考慮因素:1)算法的有效性:即算法對(duì)要解決的問(wèn)題是否有效。數(shù)據(jù)集的特征是千變?nèi)f化的。目前,每個(gè)算法都對(duì)數(shù)據(jù)集有潛在假設(shè)。沒(méi)有一種算法在所有類型的數(shù)據(jù)集上都表現(xiàn)良好。因此,數(shù)據(jù)集的特征應(yīng)與算法的假設(shè)比較吻合。2)模型的可理解性:模型可解釋,可增加人們對(duì)模型的信任度。例如,用決策樹(shù)算法生成的模型易于解釋,而神經(jīng)網(wǎng)絡(luò)算法生成的模型則難以解釋。3)性能與計(jì)算復(fù)雜度。4)處理連續(xù)數(shù)據(jù)或離散數(shù)據(jù)的能力、處理高維數(shù)據(jù)的能力等。常見(jiàn)的算法都可對(duì)部分參數(shù)進(jìn)行調(diào)整。實(shí)際問(wèn)題中,可使用多個(gè)算法對(duì)同一個(gè)問(wèn)題進(jìn)行建模。4挖掘算法與挖掘軟件的選擇典型數(shù)據(jù)挖掘軟件介紹:1)SAS公司的EnterprideMiner軟件。為SAS統(tǒng)計(jì)軟件的一個(gè)模塊。2)IBM公司IntelligentMiner軟件、Clementine軟件(原SPSS公司)。3)Oracle公司的OracleDataMining軟件。為Oracle數(shù)據(jù)庫(kù)管理系統(tǒng)新增的模
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中獸醫(yī)基礎(chǔ)理論知到課后答案智慧樹(shù)章節(jié)測(cè)試答案2025年春河北農(nóng)業(yè)大學(xué)
- 阜陽(yáng)幼兒師范高等??茖W(xué)校《Scratch與創(chuàng)意設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 云南省玉溪市元江縣第一中學(xué)2025屆高三第二學(xué)期學(xué)生月考測(cè)試卷(2.22)化學(xué)試題試卷含附加題含解析
- 溫州職業(yè)技術(shù)學(xué)院《現(xiàn)代漢語(yǔ)A3》2023-2024學(xué)年第一學(xué)期期末試卷
- 宿州學(xué)院《金融工程學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖北省武漢市武漢小學(xué)瑞景小學(xué)2024-2025學(xué)年五年級(jí)數(shù)學(xué)第二學(xué)期期末教學(xué)質(zhì)量檢測(cè)試題含答案
- 天津生物工程職業(yè)技術(shù)學(xué)院《化工熱力學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 公司車間衛(wèi)生流動(dòng)紅旗評(píng)比方案
- 酸罐區(qū)土建施工方案
- 2025年中考語(yǔ)文寫作素材積累:《人民日?qǐng)?bào)》作文素材之人文情懷
- 統(tǒng)編版(2024)道德與法治七年級(jí)下冊(cè)第一單元 珍惜青春時(shí)光 單元測(cè)試卷(含答案)
- 蘇教版數(shù)學(xué)一年級(jí)下冊(cè)(2024)第七單元觀察物體(一)綜合素養(yǎng)測(cè)評(píng) A 卷(含答案)
- 2025年甘肅省張掖市民樂(lè)縣招聘專業(yè)技術(shù)人員9人(第二期)歷年高頻重點(diǎn)模擬試卷提升(共500題附帶答案詳解)
- 2025年湖北武漢理工大學(xué)學(xué)生輔導(dǎo)員招聘18人歷年高頻重點(diǎn)模擬試卷提升(共500題附帶答案詳解)
- 金融科技概論-課件 第十五章 金融科技監(jiān)管與監(jiān)管科技
- 2025年烏蘭察布醫(yī)學(xué)高等專科學(xué)校高職單招職業(yè)技能測(cè)試近5年??及鎱⒖碱}庫(kù)含答案解析
- 2024入團(tuán)知識(shí)題庫(kù)(含答案)
- 義務(wù)教育英語(yǔ)課程標(biāo)準(zhǔn)(2022年版)
- 某隧道仰拱棧橋施工方案
- DB37∕T 5197-2021 公共建筑節(jié)能監(jiān)測(cè)系統(tǒng)技術(shù)標(biāo)準(zhǔn)
- 門診特定病種待遇認(rèn)定申請(qǐng)表
評(píng)論
0/150
提交評(píng)論