版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第9章電信行業(yè)大數(shù)據(jù)應(yīng)用案例1-網(wǎng)絡(luò)優(yōu)化010203主要內(nèi)容電信大數(shù)據(jù)應(yīng)用電信大數(shù)據(jù)概述案例2-客戶(hù)細(xì)分04案例3-客戶(hù)流失管理051
電信大數(shù)據(jù)概述①電信大數(shù)據(jù)發(fā)展現(xiàn)狀綜合國(guó)內(nèi)外情況來(lái)看,國(guó)際運(yùn)營(yíng)商對(duì)大數(shù)據(jù)的應(yīng)用起步較早,在2011年大數(shù)據(jù)發(fā)展初期,就已經(jīng)開(kāi)始大數(shù)據(jù)業(yè)務(wù)的布局。目前,國(guó)際運(yùn)營(yíng)商的大數(shù)據(jù)運(yùn)營(yíng)能力已經(jīng)逐漸成熟,內(nèi)外部應(yīng)用持續(xù)拓展豐富,產(chǎn)業(yè)合作模式不斷創(chuàng)新和完善,大數(shù)據(jù)應(yīng)用市場(chǎng)進(jìn)入穩(wěn)定發(fā)展期。國(guó)內(nèi)運(yùn)營(yíng)商在短時(shí)間內(nèi)順利渡過(guò)了大數(shù)據(jù)發(fā)展的起步
和成長(zhǎng)階段,當(dāng)前應(yīng)用市場(chǎng)需求不斷增長(zhǎng),相關(guān)產(chǎn)業(yè)、技術(shù)逐漸成熟,大數(shù)據(jù)應(yīng)用已進(jìn)入快速發(fā)展期。電信大數(shù)據(jù)概述②
電信大數(shù)據(jù)的類(lèi)型01020304B域:電信運(yùn)營(yíng)商進(jìn)行市場(chǎng)營(yíng)銷(xiāo)、客戶(hù)服務(wù)的應(yīng)用支撐平臺(tái),包含客戶(hù)資料管理、計(jì)費(fèi)、結(jié)算、客服、營(yíng)銷(xiāo)等數(shù)據(jù)。O域:電信業(yè)務(wù)開(kāi)展
和運(yùn)營(yíng)所必需的支撐平臺(tái),包括綜合網(wǎng)管、網(wǎng)絡(luò)優(yōu)化、信令監(jiān)測(cè)、資源管理、故障管理、性能分析、告警監(jiān)控、安全管理等數(shù)據(jù)。M域:電信企業(yè)的信息化基礎(chǔ)平臺(tái),包括企業(yè)資源管理系統(tǒng)、企業(yè)信息門(mén)戶(hù)、辦公自動(dòng)化系統(tǒng)等組成部分,主要有資產(chǎn)數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、合同數(shù)據(jù)、預(yù)算數(shù)據(jù)等。DPI:HTTP/WAP訪問(wèn)日志數(shù)據(jù)、URL解析數(shù)據(jù)、APP應(yīng)用解析數(shù)據(jù)、網(wǎng)絡(luò)軌跡數(shù)據(jù)、WLAN解析數(shù)據(jù)等。根據(jù)數(shù)據(jù)來(lái)源電信大數(shù)據(jù)概述從商業(yè)需求的角度看,最具價(jià)值的電信大數(shù)據(jù)資源有:身份數(shù)據(jù):實(shí)名認(rèn)證信息
消費(fèi)數(shù)據(jù):用戶(hù)選擇的套餐業(yè)務(wù)、通信消費(fèi)額度、欠費(fèi)情況等位置數(shù)據(jù):終端附著的基站、使用的WiFi熱點(diǎn)等社交數(shù)據(jù):用戶(hù)的通信交往圈(含語(yǔ)音、短信、彩信等)偏好數(shù)據(jù):從用戶(hù)上網(wǎng)行為中獲得用戶(hù)的偏好信息電信大數(shù)據(jù)概述③電信大數(shù)據(jù)的特征電信大數(shù)據(jù)在數(shù)據(jù)體量、結(jié)構(gòu)類(lèi)型、產(chǎn)生速度、數(shù)據(jù)質(zhì)量等方面均符合大數(shù)據(jù)的“4V”特征。而且,與互聯(lián)網(wǎng)企業(yè)相比,電信運(yùn)營(yíng)商在大數(shù)據(jù)應(yīng)用領(lǐng)域有著先天的優(yōu)勢(shì)。電信大數(shù)據(jù)概述數(shù)據(jù)體量數(shù)據(jù)類(lèi)型產(chǎn)生速度020103數(shù)據(jù)質(zhì)量04數(shù)億用戶(hù)的客戶(hù)資料、終端數(shù)據(jù)、通信和上網(wǎng)行為數(shù)據(jù)用戶(hù)全量的互聯(lián)網(wǎng)訪問(wèn)行為、通信行為、位置、消費(fèi)能力等數(shù)據(jù)實(shí)時(shí)連續(xù)地獲取用戶(hù)的相關(guān)數(shù)據(jù),保證數(shù)據(jù)的可持續(xù)性和一致性最真實(shí)的客戶(hù)資料、產(chǎn)品數(shù)據(jù)、賬單、資源和訂單等數(shù)據(jù)2
電信大數(shù)據(jù)應(yīng)用2012年,美國(guó)加德納公司通過(guò)調(diào)研電信運(yùn)營(yíng)商數(shù)據(jù),歸納總結(jié)出最受關(guān)注的八類(lèi)數(shù)據(jù)應(yīng)用案例。六類(lèi)應(yīng)用面向運(yùn)營(yíng)商內(nèi)部運(yùn)營(yíng),主要目標(biāo)是借助大數(shù)據(jù)轉(zhuǎn)變經(jīng)營(yíng)理念、改善內(nèi)部管理、提高運(yùn)營(yíng)效率、提升服務(wù)水平。兩類(lèi)應(yīng)用面向外部服務(wù),目的是通過(guò)開(kāi)放數(shù)據(jù)資產(chǎn),實(shí)現(xiàn)運(yùn)營(yíng)商商業(yè)模式的創(chuàng)新。電信大數(shù)據(jù)應(yīng)用①
內(nèi)部應(yīng)用電信大數(shù)據(jù)應(yīng)用網(wǎng)絡(luò)管理和優(yōu)化
在基礎(chǔ)設(shè)施建設(shè)優(yōu)化方面,運(yùn)營(yíng)商通過(guò)大數(shù)據(jù)分析,將全面了解當(dāng)前網(wǎng)絡(luò)資源的配置和使用情況、用戶(hù)分布狀況、用戶(hù)未來(lái)需求等,從而及時(shí)進(jìn)行網(wǎng)絡(luò)擴(kuò)容升級(jí)或者調(diào)整網(wǎng)絡(luò)資源配置,確保網(wǎng)絡(luò)覆蓋和資源利用的最大化。
在網(wǎng)絡(luò)運(yùn)營(yíng)動(dòng)態(tài)優(yōu)化方面,運(yùn)營(yíng)商借助大數(shù)據(jù)技術(shù),可以突破傳統(tǒng)網(wǎng)優(yōu)分析中數(shù)據(jù)源較為單一的限制,從而實(shí)現(xiàn)全網(wǎng)優(yōu)化,提升網(wǎng)絡(luò)質(zhì)量和網(wǎng)絡(luò)利用率。電信大數(shù)據(jù)應(yīng)用(2)市場(chǎng)與精準(zhǔn)營(yíng)銷(xiāo)
在客戶(hù)洞察方面,運(yùn)營(yíng)商基于客戶(hù)基礎(chǔ)數(shù)據(jù)、客戶(hù)屬性數(shù)據(jù)、行為屬性數(shù)據(jù)、營(yíng)銷(xiāo)接觸數(shù)據(jù)等,識(shí)別客戶(hù)特征與習(xí)慣偏好,為每個(gè)客戶(hù)打上消費(fèi)行為、上網(wǎng)行為和興趣愛(ài)好的標(biāo)簽,從而完善客戶(hù)的360°畫(huà)像。
在客戶(hù)畫(huà)像的基礎(chǔ)上,建立以客戶(hù)使用習(xí)慣、終端偏好、消費(fèi)行為等數(shù)據(jù)為依據(jù)的營(yíng)銷(xiāo)模型,在推送渠道、推送
時(shí)機(jī)、推送方式等各方面滿(mǎn)足客戶(hù)的需求,實(shí)現(xiàn)精準(zhǔn)營(yíng)
銷(xiāo)。電信大數(shù)據(jù)應(yīng)用
運(yùn)營(yíng)商還可以通過(guò)分析客戶(hù)通話記錄、上網(wǎng)信息和駐留位置等多種行為特征,得到客戶(hù)的社會(huì)交往結(jié)構(gòu)信息,進(jìn)而利用這些信息實(shí)施業(yè)務(wù)的精準(zhǔn)營(yíng)銷(xiāo),開(kāi)辟營(yíng)銷(xiāo)新渠道。電信大數(shù)據(jù)應(yīng)用(3)客戶(hù)關(guān)系管理
運(yùn)用大數(shù)據(jù)技術(shù),可以深入分析客服熱線呼入客戶(hù)的行為特征、訪問(wèn)路徑、等候時(shí)長(zhǎng)等;同時(shí)結(jié)合客戶(hù)歷史接觸信息、套餐消費(fèi)情況、業(yè)務(wù)特征、客戶(hù)機(jī)型等數(shù)據(jù),可以建立客戶(hù)熱線智能識(shí)別模型,為客服中心內(nèi)部流程優(yōu)化提供數(shù)據(jù)支撐。
運(yùn)營(yíng)商利用客戶(hù)離網(wǎng)預(yù)警模型評(píng)估客戶(hù)離網(wǎng)、轉(zhuǎn)網(wǎng)的概率,再結(jié)合客戶(hù)畫(huà)像系統(tǒng)、客戶(hù)營(yíng)銷(xiāo)觸點(diǎn)和場(chǎng)景,進(jìn)一步分析離網(wǎng)的原因,最后利用市場(chǎng)細(xì)分的各種技術(shù)手段,確定需要采取的應(yīng)對(duì)策略。電信大數(shù)據(jù)應(yīng)用
在電信客戶(hù)生命周期的不同階段,客戶(hù)通信的消費(fèi)量和給電信企業(yè)帶來(lái)的利潤(rùn)都會(huì)發(fā)生一定的規(guī)律性變化,運(yùn)營(yíng)商需要根據(jù)各階段的特點(diǎn)制定營(yíng)銷(xiāo)策略組合,以獲取更大的經(jīng)濟(jì)效益。電信大數(shù)據(jù)應(yīng)用(4)企業(yè)運(yùn)營(yíng)管理
在市場(chǎng)監(jiān)測(cè)方面,運(yùn)營(yíng)商借助大數(shù)據(jù)技術(shù),跟蹤分析客戶(hù)使用各種業(yè)務(wù)、產(chǎn)品和服務(wù)的情況以及競(jìng)爭(zhēng)對(duì)手的發(fā)展情況,從中篩選出有利于企業(yè)發(fā)展的市場(chǎng)信息,或者及時(shí)發(fā)現(xiàn)市場(chǎng)異常變化,以便采取科學(xué)合理的應(yīng)對(duì)措施,使企業(yè)在激烈的市場(chǎng)競(jìng)爭(zhēng)中立于不敗之地。
在經(jīng)營(yíng)分析與決策支持方面,大數(shù)據(jù)技術(shù)能夠?qū)ζ髽I(yè)日常經(jīng)營(yíng)數(shù)據(jù)、用戶(hù)數(shù)據(jù)、外部社交網(wǎng)絡(luò)數(shù)據(jù)、技術(shù)和市場(chǎng)數(shù)據(jù)進(jìn)行分析挖掘,并自動(dòng)生成經(jīng)營(yíng)報(bào)告和專(zhuān)題分析報(bào)告,為企業(yè)決策者和各級(jí)管理者提供經(jīng)營(yíng)決策依據(jù)。電信大數(shù)據(jù)應(yīng)用
在業(yè)務(wù)運(yùn)營(yíng)監(jiān)控方面,運(yùn)營(yíng)商通過(guò)大數(shù)據(jù)分析,可以從網(wǎng)絡(luò)、業(yè)務(wù)、用戶(hù)和業(yè)務(wù)量、業(yè)務(wù)質(zhì)量、終端等多個(gè)維度對(duì)監(jiān)控管道和客戶(hù)運(yùn)營(yíng)情況進(jìn)行洞察,構(gòu)建靈活可定制的指標(biāo)模塊、指標(biāo)體系和異動(dòng)智能監(jiān)控體系,從宏觀到微觀全方位快速準(zhǔn)確地掌控運(yùn)營(yíng)狀況及異動(dòng)原因。電信大數(shù)據(jù)應(yīng)用②對(duì)外應(yīng)用對(duì)外數(shù)據(jù)服務(wù)是電信大數(shù)據(jù)應(yīng)用的高級(jí)階段。在這個(gè)階段,電信運(yùn)營(yíng)商將數(shù)據(jù)封裝成服務(wù),提供給行業(yè)客戶(hù),進(jìn)而實(shí)現(xiàn)從單一網(wǎng)絡(luò)服務(wù)提供商的管道模式向多元信息服務(wù)提供商的智能模式轉(zhuǎn)變。運(yùn)營(yíng)商早期的對(duì)外數(shù)據(jù)服務(wù)形式比較簡(jiǎn)單,是將源數(shù)據(jù)進(jìn)行脫敏處理后,以售賣(mài)、租賃等方式直接提供給數(shù)據(jù)需求者,使其獲得數(shù)據(jù)資產(chǎn)中所蘊(yùn)含的價(jià)值。電信大數(shù)據(jù)應(yīng)用運(yùn)營(yíng)商拓展對(duì)外應(yīng)用的重點(diǎn)方向是將大數(shù)據(jù)分析處理成果以服務(wù)的形式提供給合作伙伴,滿(mǎn)足其現(xiàn)實(shí)應(yīng)用需求,幫助他們獲取更大的社會(huì)經(jīng)濟(jì)價(jià)值。這種基于數(shù)據(jù)分析的服務(wù)模式具有豐富的用戶(hù)需求,廣闊的市場(chǎng)前景,是運(yùn)營(yíng)商未來(lái)實(shí)現(xiàn)大數(shù)據(jù)變現(xiàn)的核心價(jià)值點(diǎn)。3
案例1-網(wǎng)絡(luò)優(yōu)化移動(dòng)通信網(wǎng)絡(luò)優(yōu)化包括無(wú)線網(wǎng)絡(luò)優(yōu)化和核心網(wǎng)優(yōu)化兩部分。由于核心網(wǎng)的網(wǎng)元相對(duì)較少,且運(yùn)行環(huán)境較為穩(wěn)定,因此無(wú)線網(wǎng)絡(luò)優(yōu)化是移動(dòng)通信網(wǎng)優(yōu)化工作的重點(diǎn)內(nèi)容。①
無(wú)線網(wǎng)絡(luò)優(yōu)化概述所謂無(wú)線網(wǎng)絡(luò)優(yōu)化,就是對(duì)投入運(yùn)行的無(wú)線網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)采集和分析,找出影響網(wǎng)絡(luò)運(yùn)行質(zhì)量的原因,然后通過(guò)技術(shù)手段或者調(diào)整系統(tǒng)參數(shù),使網(wǎng)絡(luò)達(dá)到最佳運(yùn)行狀態(tài),使網(wǎng)絡(luò)資源獲得最佳效益。案例1-網(wǎng)絡(luò)優(yōu)化依據(jù)實(shí)施階段和工作目標(biāo)的不同,可以把網(wǎng)絡(luò)優(yōu)化分為工程優(yōu)化和運(yùn)維優(yōu)化兩部分。工程優(yōu)化是在網(wǎng)絡(luò)新建或者經(jīng)歷較大規(guī)模擴(kuò)容后開(kāi)展的,主要目的是解決網(wǎng)絡(luò)建設(shè)的工程遺留問(wèn)題并對(duì)即將投入運(yùn)營(yíng)的網(wǎng)絡(luò)進(jìn)行評(píng)估,了解工程建設(shè)后的網(wǎng)絡(luò)運(yùn)行狀況,通過(guò)調(diào)測(cè)和優(yōu)化使網(wǎng)絡(luò)達(dá)到驗(yàn)收指標(biāo)并可以正常開(kāi)通。運(yùn)維優(yōu)化是網(wǎng)絡(luò)正常運(yùn)行過(guò)程中的優(yōu)化,目標(biāo)是保持和提高網(wǎng)絡(luò)質(zhì)量,有效利用網(wǎng)絡(luò)資源。案例1-網(wǎng)絡(luò)優(yōu)化網(wǎng)絡(luò)優(yōu)化的關(guān)鍵工作流程案例1-網(wǎng)絡(luò)優(yōu)化
第一步:現(xiàn)網(wǎng)情況調(diào)查。收集反映網(wǎng)絡(luò)設(shè)計(jì)指標(biāo)和現(xiàn)網(wǎng)設(shè)備運(yùn)行狀況的數(shù)據(jù),為后續(xù)具體進(jìn)行數(shù)據(jù)采集、深入分析和問(wèn)題定位做好準(zhǔn)備。
第二步:數(shù)據(jù)采集。通過(guò)各種網(wǎng)絡(luò)優(yōu)化工具和系統(tǒng),采集無(wú)線網(wǎng)絡(luò)的各類(lèi)數(shù)據(jù),包括路測(cè)數(shù)據(jù)(DT)、撥打測(cè)試數(shù)據(jù)(CQT),OMC性能統(tǒng)計(jì)數(shù)據(jù)、用戶(hù)投訴信息、系統(tǒng)告警信息等。
第三步:數(shù)據(jù)分析。對(duì)采集到的數(shù)據(jù)進(jìn)行匯總、統(tǒng)計(jì)和分析,評(píng)估網(wǎng)絡(luò)運(yùn)行質(zhì)量,發(fā)現(xiàn)和定位網(wǎng)絡(luò)中可能存在的問(wèn)題,并給出優(yōu)化建議。案例1-網(wǎng)絡(luò)優(yōu)化
第四步:制定優(yōu)化方案。定位網(wǎng)絡(luò)問(wèn)題后,通常有一套或幾套解決方案可供選擇,此時(shí)需要根據(jù)現(xiàn)網(wǎng)的運(yùn)行和工程情況制定出最佳的優(yōu)化調(diào)整方案。
第五步:方案實(shí)施及測(cè)試。對(duì)制定的優(yōu)化方案進(jìn)行具體實(shí)施。在網(wǎng)絡(luò)優(yōu)化完成后,還需要重新進(jìn)行測(cè)試,以驗(yàn)證網(wǎng)絡(luò)問(wèn)題是否被解決或者網(wǎng)絡(luò)性能是否得到改善。以上過(guò)程是一個(gè)不斷循環(huán)反復(fù)的過(guò)程。案例1-網(wǎng)絡(luò)優(yōu)化②
基于大數(shù)據(jù)分析的無(wú)線網(wǎng)絡(luò)優(yōu)化在無(wú)線網(wǎng)絡(luò)優(yōu)化工作中,大數(shù)據(jù)技術(shù)主要體現(xiàn)在數(shù)據(jù)的存儲(chǔ)調(diào)取和分析挖掘兩個(gè)方面。采用分布式虛擬化存儲(chǔ)技術(shù)有效地存儲(chǔ)多來(lái)源、多格式的海量數(shù)據(jù)。利用大數(shù)據(jù)技術(shù)進(jìn)行多數(shù)據(jù)源的關(guān)聯(lián)性分析,深
挖隱藏在數(shù)據(jù)下面的規(guī)律和模式。數(shù)據(jù)存儲(chǔ)數(shù)據(jù)分析案例1-網(wǎng)絡(luò)優(yōu)化大數(shù)據(jù)無(wú)線網(wǎng)絡(luò)優(yōu)化系統(tǒng)架構(gòu)案例1-網(wǎng)絡(luò)優(yōu)化③
移動(dòng)通信網(wǎng)絡(luò)語(yǔ)音質(zhì)量MOS值預(yù)測(cè)語(yǔ)音業(yè)務(wù)是移動(dòng)用戶(hù)最核心的業(yè)務(wù)需求之一,優(yōu)化提升語(yǔ)音質(zhì)量的前提是要有能正確評(píng)估語(yǔ)音質(zhì)量的方法,通常采用平均意見(jiàn)得分(Mean
Opinion
Score,MOS)評(píng)分法。MOS是從用戶(hù)主觀感受的角度評(píng)估語(yǔ)音質(zhì)量的一個(gè)指標(biāo),它將用戶(hù)對(duì)語(yǔ)音質(zhì)量的感知量化為5個(gè)等級(jí)。案例1-網(wǎng)絡(luò)優(yōu)化MOS分值對(duì)照表案例1-網(wǎng)絡(luò)優(yōu)化(1)數(shù)據(jù)集介紹數(shù)據(jù)集共有105828條記錄,每條記錄包含9個(gè)屬性。案例1-網(wǎng)絡(luò)優(yōu)化Date
Of
Test:呼叫測(cè)試日期Signal:接收信號(hào)強(qiáng)度Speed:終端移動(dòng)速度Distance
from
site:與基站的距離Call
Test
Duration:呼叫持續(xù)時(shí)長(zhǎng)Call
Test
Result:呼叫測(cè)試結(jié)果,有成功、掉話、建立失敗三種情況Call
Test
Technology:網(wǎng)絡(luò)制式,有2G、3G、4G三種類(lèi)型Call
Test
Setup
Time:呼叫建立時(shí)延MOS:MOS值案例1-網(wǎng)絡(luò)優(yōu)化(2)數(shù)據(jù)導(dǎo)入下載的數(shù)據(jù)集以.xlsx文件的形式保存,處理時(shí)需要通過(guò)pandas.read_excel()函數(shù)導(dǎo)入,并存儲(chǔ)在一個(gè)DataFrame類(lèi)型的數(shù)據(jù)結(jié)構(gòu)中。案例1-網(wǎng)絡(luò)優(yōu)化(3)數(shù)據(jù)預(yù)處理處理缺失數(shù)據(jù)首先檢查數(shù)據(jù)集中哪些屬性存在缺失值。Signal屬性的缺失值很少,直接刪除含有缺失值的記錄。Distance屬性的數(shù)據(jù)缺失量較大,采用插值法進(jìn)行估計(jì)和填充。案例1-網(wǎng)絡(luò)優(yōu)化處理不合理數(shù)據(jù)調(diào)用pandas.DataFrame.describe()函數(shù)觀察連續(xù)屬性的取值范圍和統(tǒng)計(jì)信息。案例1-網(wǎng)絡(luò)優(yōu)化Speed的最小值為-1m/s,考慮到在移動(dòng)通信中,終端
移動(dòng)速度不可能取負(fù)值,因此很有可能是測(cè)試者記錄錯(cuò)誤,或者-1是缺失數(shù)據(jù)的填充值。對(duì)于不合常理的數(shù)據(jù),可采用與缺失值相類(lèi)似的處理方法,例如通過(guò)插值法進(jìn)行替換。案例1-網(wǎng)絡(luò)優(yōu)化識(shí)別離群值識(shí)別連續(xù)屬性離群值的方法有IQR(InterQuartile
Range,四分位數(shù)間距)法、Z-Score法、聚類(lèi)法等。IQR法的基本思想是利用四分位數(shù)Q1(第一四分位數(shù))、Q2(第二四分位數(shù))和Q3(第三四分位數(shù))將數(shù)據(jù)集等分為4個(gè)部分,在此基礎(chǔ)上定義IQR作為數(shù)據(jù)離散程度的度量。案例1-網(wǎng)絡(luò)優(yōu)化如果數(shù)據(jù)點(diǎn)xi
滿(mǎn)足:則被視為離群點(diǎn)。箱線圖(Box-plot)可以更加直觀地顯示IQR法的分析結(jié)果。案例1-網(wǎng)絡(luò)優(yōu)化Signal屬性的箱線圖藍(lán)色方框由Q1、Q2和Q3構(gòu)成,上下兩條水平直線分別位于和位置。在沒(méi)有離群值的情況下,這兩條直線分別對(duì)應(yīng)數(shù)據(jù)集的最大值和最小值。離群值在圖中用黑色的點(diǎn)標(biāo)識(shí)出。案例1-網(wǎng)絡(luò)優(yōu)化處理日期數(shù)據(jù)為了更好地理解數(shù)據(jù),通過(guò)特征衍生從Date中產(chǎn)生一些新屬性,如月、日、小時(shí)、星期等。案例1-網(wǎng)絡(luò)優(yōu)化MOS值隨時(shí)間變化趨勢(shì)曲線表明語(yǔ)音質(zhì)量在白天和晚上會(huì)稍有差別,這可能是由于該地區(qū)為商業(yè)區(qū),晚間用戶(hù)較少;也可能是因用戶(hù)休息而使網(wǎng)絡(luò)負(fù)荷下降,服務(wù)質(zhì)量提高。案例1-網(wǎng)絡(luò)優(yōu)化處理離散屬性非數(shù)值的分類(lèi)屬性必須轉(zhuǎn)化成數(shù)值屬性才可用于訓(xùn)練模型,這里采用獨(dú)熱編碼(One-Hot
Encoding)。案例1-網(wǎng)絡(luò)優(yōu)化探索離散屬性與其他屬性之間的關(guān)系例如:不同網(wǎng)絡(luò)制式對(duì)接收信號(hào)強(qiáng)度的影響。LTE網(wǎng)絡(luò)的接收信號(hào)強(qiáng)度一般要低于UMTS和GSM
網(wǎng)絡(luò),因此分析數(shù)據(jù)時(shí),不能通過(guò)簡(jiǎn)單比較樣本Signal值的大小來(lái)判斷信號(hào)質(zhì)量的優(yōu)劣。案例1-網(wǎng)絡(luò)優(yōu)化處理連續(xù)屬性使用散點(diǎn)圖或者熱圖可以檢查連續(xù)屬性之間可能存在的關(guān)聯(lián)關(guān)系。案例1-網(wǎng)絡(luò)優(yōu)化偏態(tài)數(shù)據(jù)的處理Distance屬性的頻率直方圖左右分布不對(duì)稱(chēng),右側(cè)有一個(gè)很長(zhǎng)的拖尾,這種情況稱(chēng)為右偏態(tài)或者正偏態(tài)。案例1-網(wǎng)絡(luò)優(yōu)化對(duì)偏態(tài)數(shù)據(jù)進(jìn)行變換,以便在一定程度上消除傾斜,使數(shù)據(jù)分布更趨向于正態(tài)化。常見(jiàn)的變換方法包括自然對(duì)數(shù)變換、平方根變換、平方根對(duì)數(shù)變換等。案例1-網(wǎng)絡(luò)優(yōu)化(4)建模與評(píng)價(jià)采用隨機(jī)森林回歸算法建立預(yù)測(cè)模型。隨機(jī)森林(Random
Forest)是一種典型的集成學(xué)習(xí)(ensemblelearning)算法,它的基本思想是在模型中構(gòu)建多棵決策樹(shù),由它們共同完成分類(lèi)或回歸任務(wù)。隨機(jī)森林的性能受到多種因素的影響,除了與決策樹(shù)相關(guān)的參數(shù)外,還包括決策樹(shù)的數(shù)量、屬性子集的規(guī)模等。案例1-網(wǎng)絡(luò)優(yōu)化sklearn庫(kù)中提供的隨機(jī)森林回歸RandomForestRegressor類(lèi):案例1-網(wǎng)絡(luò)優(yōu)化將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集兩部分,訓(xùn)練集占數(shù)
據(jù)總量的75%;然后創(chuàng)建一個(gè)RandomForestRegressor對(duì)象,將它的所有參數(shù)設(shè)為默認(rèn)值,并使用訓(xùn)練集對(duì)該對(duì)象進(jìn)行訓(xùn)練;模型訓(xùn)練好后,通過(guò)測(cè)試集來(lái)檢驗(yàn)它的預(yù)測(cè)效果。評(píng)價(jià)指標(biāo)采用決定系數(shù)R2,訓(xùn)練集得到的R2評(píng)分為0.907,而測(cè)試集的R2評(píng)分僅為0.479。顯然,模型出現(xiàn)了過(guò)擬合現(xiàn)象,因此需要進(jìn)行優(yōu)化。案例1-網(wǎng)絡(luò)優(yōu)化(5)模型優(yōu)化模型優(yōu)化有多種不同的思路,例如增加新的屬性,刪除相關(guān)性較低的屬性,調(diào)整模型的超參數(shù)等,下面僅介紹超參數(shù)調(diào)優(yōu)法。超參數(shù)調(diào)優(yōu)主要包括網(wǎng)格搜索法、隨機(jī)搜索法、貝葉斯優(yōu)化法等。案例1-網(wǎng)絡(luò)優(yōu)化sklearn庫(kù)中提供的隨機(jī)搜索RandomizedSearchCV類(lèi):案例1-網(wǎng)絡(luò)優(yōu)化在指定的參數(shù)值范圍內(nèi)隨機(jī)搜索5個(gè)采樣點(diǎn)后,得到一個(gè)表現(xiàn)最優(yōu)的參數(shù)組合,其中各參數(shù)的取值分別為:利用優(yōu)化后的模型對(duì)訓(xùn)練集和測(cè)試集進(jìn)行預(yù)測(cè),得到的R2評(píng)分分別為0.637和0.543。案例1-網(wǎng)絡(luò)優(yōu)化(6)結(jié)果分析隨機(jī)森林算法在訓(xùn)練模型的同時(shí),還能夠定量地分析各屬性對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn),稱(chēng)為屬性重要性分析。4
案例2-客戶(hù)細(xì)分電信企業(yè)的發(fā)展模式正在逐步從“以產(chǎn)品為中心”向
“以客戶(hù)為中心”轉(zhuǎn)變。如何建立長(zhǎng)期穩(wěn)定的客戶(hù)關(guān)系,提高已有客戶(hù)的忠誠(chéng)度和滿(mǎn)意度,同時(shí)贏得更多有價(jià)值的潛在客戶(hù),已經(jīng)成為電信運(yùn)營(yíng)商亟待解決的重要問(wèn)題。客戶(hù)細(xì)分(CustomerSegmentation)是電信運(yùn)營(yíng)商實(shí)現(xiàn)“保持老客戶(hù)、發(fā)展新客戶(hù)、提升客戶(hù)價(jià)值”這三大目標(biāo)的重要途經(jīng)。案例2-客戶(hù)細(xì)分①
客戶(hù)細(xì)分概述客戶(hù)細(xì)分是現(xiàn)代營(yíng)銷(xiāo)理念的產(chǎn)物,主要指企業(yè)在收集和整理客戶(hù)資料信息的基礎(chǔ)上,依據(jù)客戶(hù)的需求特點(diǎn)、購(gòu)買(mǎi)行為、購(gòu)買(mǎi)習(xí)慣、信譽(yù)狀況等方面的差異,以某種既定的規(guī)則或者標(biāo)準(zhǔn),將所有客戶(hù)劃分為若干個(gè)具有不同特征的客戶(hù)群的過(guò)程。案例2-客戶(hù)細(xì)分客戶(hù)細(xì)分處理流程案例2-客戶(hù)細(xì)分②
客戶(hù)細(xì)分的方法客戶(hù)細(xì)分沒(méi)有統(tǒng)一的模式,企業(yè)通常需要根據(jù)自身的實(shí)際情況和業(yè)務(wù)目標(biāo),選擇合適的細(xì)分方法。人口統(tǒng)計(jì)細(xì)分將客戶(hù)按照人口統(tǒng)計(jì)變量,如年齡、性別、職業(yè)、地域、收入、教育背景、婚姻狀況等要素劃分成不同的群體。細(xì)分的依據(jù)是客戶(hù)的需求主要由其社會(huì)和經(jīng)濟(jì)背景決定,因此人口統(tǒng)計(jì)因素會(huì)對(duì)客戶(hù)的需求、偏好、消費(fèi)行為產(chǎn)生很強(qiáng)的影響。案例2-客戶(hù)細(xì)分行為細(xì)分根據(jù)客戶(hù)的消費(fèi)行為模式進(jìn)行客戶(hù)分群,其依據(jù)是客戶(hù)的行為在過(guò)去、現(xiàn)在和未來(lái)具有一定的一致性和規(guī)律性,通過(guò)對(duì)客戶(hù)以往和現(xiàn)在行為的分析得以預(yù)測(cè)其將來(lái)的行為。價(jià)值細(xì)分根據(jù)客戶(hù)為企業(yè)帶來(lái)的盈利能力和價(jià)值對(duì)客戶(hù)進(jìn)行劃分,細(xì)分時(shí)可以單純依據(jù)客戶(hù)生命周期價(jià)值的大小,也可以綜合考量客戶(hù)的當(dāng)前價(jià)值和潛在價(jià)值。案例2-客戶(hù)細(xì)分按照客戶(hù)生命周期價(jià)值大小進(jìn)行排序,可以將用戶(hù)分
成若干個(gè)等級(jí),位于最前面等級(jí)的就是最有價(jià)值的客戶(hù)群。基于當(dāng)前價(jià)值和潛在價(jià)值的細(xì)分方法是以客戶(hù)價(jià)值矩陣為依據(jù),將客戶(hù)細(xì)分為4類(lèi),其中當(dāng)前價(jià)值和潛在價(jià)值都高的IV類(lèi)客戶(hù)是企業(yè)最有價(jià)值的客戶(hù)。案例2-客戶(hù)細(xì)分生活方式細(xì)分生活方式是人們根據(jù)某一中心目標(biāo)安排其生活的模式,它通過(guò)個(gè)人的活動(dòng)、興趣和觀點(diǎn)體現(xiàn)出來(lái)。生活方式細(xì)分的代表性研究工作主要有兩類(lèi):一是客戶(hù)活動(dòng)、興趣和觀點(diǎn)法(Activity
Interests
Opinion,
AIO),二是價(jià)值觀念和生活方式結(jié)構(gòu)法(Value
and
Life
Styles,VALS)。案例2-客戶(hù)細(xì)分③
基于通信行為數(shù)據(jù)的移動(dòng)客戶(hù)細(xì)分本案例以描述客戶(hù)通話行為的呼叫詳細(xì)記錄(CallDetail
Records,CDR)數(shù)據(jù)作為分析對(duì)象,通過(guò)k-means聚類(lèi)算法實(shí)現(xiàn)移動(dòng)客戶(hù)的細(xì)分。CDR是由電話交換機(jī)的計(jì)費(fèi)系統(tǒng)產(chǎn)生的一種日志信息,包含通話的詳細(xì)記錄,如主叫號(hào)碼、被叫號(hào)碼、呼叫日期、通話持續(xù)時(shí)間、通話費(fèi)用,以及在通話過(guò)程中遇到的故障情況等。案例2-客戶(hù)細(xì)分(1)數(shù)據(jù)集介紹數(shù)據(jù)集由CDR數(shù)據(jù)模擬生成器“CDR
Tool”產(chǎn)生,包含cdr_outgoing.xlsx和cdr_incoming.xlsx兩個(gè)文件,分別記錄2019年4月1日至4月30日期間英國(guó)某地區(qū)所有移動(dòng)客戶(hù)的呼出數(shù)據(jù)和呼入數(shù)據(jù)。呼出數(shù)據(jù)集共有657335條記錄,每一條記錄代表移動(dòng)客戶(hù)作為主叫方的一次通話,由7個(gè)屬性變量描述。案例2-客戶(hù)細(xì)分呼出數(shù)據(jù)集的部分記錄案例2-客戶(hù)細(xì)分Date:通話日期CustomerID:主叫用戶(hù)的電話號(hào)碼Called:被叫用戶(hù)的電話號(hào)碼StartTime:通話起始時(shí)間EndTime:通話終止時(shí)間CallType:呼叫類(lèi)型,有本地呼叫(Local)、國(guó)內(nèi)長(zhǎng)途(National)、國(guó)際長(zhǎng)途(Intl)和漫游(Mobile)四種類(lèi)型CallCost:通話費(fèi)用案例2-客戶(hù)細(xì)分呼入數(shù)據(jù)集共有318990條記錄,每一條記錄代表客戶(hù)作為被叫方的一次通話,包含2個(gè)屬性。Date:通話日期CustomerID:被叫用戶(hù)的電話號(hào)碼案例2-客戶(hù)細(xì)分(2)數(shù)據(jù)預(yù)處理為了便于后續(xù)選擇細(xì)分變量,從時(shí)間屬性衍生出2個(gè)新的屬性。通話時(shí)長(zhǎng)(Duration):根據(jù)StartTime和EndTime屬性計(jì)算得到,單位為s。呼叫是否發(fā)生在工作日(IsWorkday):由Date屬性計(jì)算得到的一個(gè)二值屬性,1代表“是”,0代表“否”。案例2-客戶(hù)細(xì)分根據(jù)Duration屬性檢查是否存在異常通話記錄。案例2-客戶(hù)細(xì)分(3)細(xì)分變量選取CDR數(shù)據(jù)集以每次通話記錄作為樣本,不適合直接用于分析。因此,構(gòu)造一個(gè)新的客戶(hù)行為數(shù)據(jù)集,其中每個(gè)樣本對(duì)應(yīng)一位客戶(hù),并以客戶(hù)的唯一標(biāo)識(shí)CustomerID作為索引。派生新變量案例2-客戶(hù)細(xì)分新構(gòu)造的客戶(hù)行為數(shù)據(jù)集的屬性變量。案例2-客戶(hù)細(xì)分新數(shù)據(jù)集的統(tǒng)計(jì)信息案例2-客戶(hù)細(xì)分探索變量間關(guān)系由散點(diǎn)圖矩陣發(fā)現(xiàn),部分變量間存在相關(guān)性,如果對(duì)這些高度相關(guān)的變量不做任何處理而直接建模,將會(huì)出現(xiàn)嚴(yán)重的多重共線性,從而影響模型質(zhì)量,導(dǎo)致產(chǎn)生不可靠的結(jié)果。案例2-客戶(hù)細(xì)分案例2-客戶(hù)細(xì)分主成分分析(PCA)PCA是一種多元統(tǒng)計(jì)分析技術(shù),廣泛應(yīng)用于降維、有損數(shù)據(jù)壓縮、特征提取和數(shù)據(jù)可視化等領(lǐng)域。由于PCA的結(jié)果會(huì)受量綱影響,因此在對(duì)數(shù)據(jù)進(jìn)行PCA變換前,先利用Z-score法規(guī)范化數(shù)據(jù)。案例2-客戶(hù)細(xì)分sklearn定義的主成分分析算法PCA類(lèi):取n_components等于0.95,經(jīng)PCA分析后保留5個(gè)主成分,它們的方差值和方差百分比為:案例2-客戶(hù)細(xì)分(4)建模與評(píng)價(jià)采用k-means算法對(duì)PCA降維后的數(shù)據(jù)集進(jìn)行聚類(lèi)分析。由于k-means算法要求預(yù)先指定分簇?cái)?shù)目k,為此以方差最大的3個(gè)主成分作為坐標(biāo)軸,觀察數(shù)據(jù)集的分布情況。案例2-客戶(hù)細(xì)分取k=3,聚類(lèi)后得到各分簇的中心點(diǎn)為:簇1:[0.27218023,1.61265494,2.37280691,0.09340007,0.11248631]簇2:[-0.32860328,0.01263082,-0.35406196,-0.03353844,0.01954656]簇3:[2.35664603,-1.71370149,0.4596888,0.17490742,-0.26885882]各樣本點(diǎn)到其簇中心點(diǎn)的距離總和約等于3093.89。案例2-客戶(hù)細(xì)分以輪廓系數(shù)作為評(píng)價(jià)指標(biāo),選擇最佳k
值。案例2-客戶(hù)細(xì)分取最佳值k=4,聚類(lèi)后得到各分簇的中心點(diǎn)為:簇1:[-0.5629671,-0.24920406,-0.15281575,-0.06907042,-0.04410977]簇2:[1.31194347,1.84547493,-1.76278545,0.21518548,0.46514088]簇3:[0.27218023,1.61265494,2.37280691,0.09340007,0.11248631]簇4:[2.35664603,-1.71370149,0.4596888,0.17490742,-0.26885882]各樣本點(diǎn)到其簇中心點(diǎn)的距離總和約等于2145.82。案例2-客戶(hù)細(xì)分(5)細(xì)分結(jié)果分析根據(jù)k-means算法的分析結(jié)果,將客戶(hù)分為A、B、C、D四類(lèi)。下表是各類(lèi)客戶(hù)的統(tǒng)計(jì)信息。案例2-客戶(hù)細(xì)分案例2-客戶(hù)細(xì)分A類(lèi)客戶(hù)業(yè)務(wù)規(guī)模不大、消費(fèi)水平較低,屬于中低端客戶(hù)。呼叫主要集中于本地和國(guó)內(nèi),周末時(shí)段通信較頻繁,有可能是年輕的上班族。B類(lèi)客戶(hù)通話對(duì)象的數(shù)量非常多,工作日與周末的呼叫頻度無(wú)明顯差異,每次通話時(shí)間較短,而且呼入數(shù)量遠(yuǎn)小于呼出數(shù)量,具備電話推銷(xiāo)的特征。C類(lèi)客戶(hù)通話對(duì)象的數(shù)量非常多,工作日與周末的呼叫頻度無(wú)明顯差異,本地呼出次數(shù)占比極高,并且呼入數(shù)量與呼出數(shù)量相近,有可能是從事快遞或者外賣(mài)行業(yè)的工作人員。D類(lèi)客戶(hù)消費(fèi)水平最高,屬于高端客戶(hù)。漫游業(yè)務(wù)和國(guó)際長(zhǎng)途業(yè)務(wù)占比較大,且通信時(shí)段集中于工作日,有可能是工作繁忙、需要經(jīng)常出差的商業(yè)人士。5
案例3-客戶(hù)流失管理為了爭(zhēng)取更多的市場(chǎng)份額,運(yùn)營(yíng)商不斷推出各種市場(chǎng)營(yíng)銷(xiāo)措施,但這同時(shí)也在很大程度上增加了客戶(hù)的不穩(wěn)定性,導(dǎo)致客戶(hù)流失愈加頻繁。大量的客戶(hù)流失會(huì)使運(yùn)營(yíng)商蒙受巨大的經(jīng)濟(jì)損失。在產(chǎn)品和服務(wù)同質(zhì)化程度不斷加深、發(fā)展新客戶(hù)變得日益困難的形勢(shì)下,如何最大限度地降低客戶(hù)的流失率并挽留客戶(hù),已經(jīng)成為電信企業(yè)管理者高度關(guān)注的問(wèn)題之一。案例3-客戶(hù)流失管理①
客戶(hù)流失的概念客戶(hù)流失是指客戶(hù)終止與電信企業(yè)的服務(wù)合同或轉(zhuǎn)向使用其他企業(yè)提供的服務(wù)??蛻?hù)流失一般有3種表現(xiàn)形式:
一是客戶(hù)主動(dòng)離網(wǎng),即賬戶(hù)注銷(xiāo);二是客戶(hù)賬戶(hù)休眠;三是客戶(hù)有離網(wǎng)傾向。案例3-客戶(hù)流失管理②
客戶(hù)流失管理過(guò)程客戶(hù)流失管理是指運(yùn)用科學(xué)的方法建立客戶(hù)流失預(yù)測(cè)模型,確定即將流失的客戶(hù),并對(duì)其中有價(jià)值的客戶(hù)采取挽留措施,爭(zhēng)取將其留在網(wǎng)內(nèi),以延長(zhǎng)客戶(hù)的生命周期;同時(shí),放棄無(wú)利潤(rùn)和信用差的客戶(hù),以降低企業(yè)運(yùn)營(yíng)成本和風(fēng)險(xiǎn)??蛻?hù)流失管理可劃分為3個(gè)處理階段:分析客戶(hù)流失原因、建立客戶(hù)流失預(yù)測(cè)模型、制定客戶(hù)挽留策略。案例3-客戶(hù)流失管理客戶(hù)流失原因分析大致可分為內(nèi)因和外因兩方面,內(nèi)因來(lái)自電信企業(yè)自身,外因主要來(lái)自競(jìng)爭(zhēng)對(duì)手和企業(yè)客戶(hù)。案例3-客戶(hù)流失管理從電信企業(yè)自身來(lái)看,服務(wù)質(zhì)量不佳是導(dǎo)致客戶(hù)流失的最主要原因。從競(jìng)爭(zhēng)對(duì)手方面來(lái)看,爭(zhēng)奪客戶(hù)資源的重要手段之一是關(guān)注電信市場(chǎng)的發(fā)展變化,及時(shí)捕捉客戶(hù)的新需求,并為之提供相應(yīng)的組網(wǎng)方案和產(chǎn)品配套組合。從客戶(hù)方面來(lái)看,有四個(gè)方面:運(yùn)營(yíng)商提供的業(yè)務(wù)和服務(wù)無(wú)法滿(mǎn)足客戶(hù)需求;各大運(yùn)營(yíng)商的價(jià)格策略競(jìng)爭(zhēng);客戶(hù)受到廣告宣傳等的影響;趨眾心理。案例3-客戶(hù)流失管理客戶(hù)流失預(yù)測(cè)主要任務(wù)是利用數(shù)據(jù)挖掘等分析方法,對(duì)在網(wǎng)客戶(hù)與已流失客戶(hù)的基本資料、通信行為、消費(fèi)行為等信息進(jìn)行分析,提煉出已流失或有流失趨勢(shì)的客戶(hù)的特征,建立客戶(hù)流失預(yù)測(cè)模型,并將模型應(yīng)用于現(xiàn)實(shí)的客戶(hù)服務(wù)中,從而提前鎖定流失風(fēng)險(xiǎn)較高的用戶(hù)??蛻?hù)流失預(yù)測(cè)模型的構(gòu)建主要包括數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練和測(cè)試、模型發(fā)布和應(yīng)用三個(gè)環(huán)節(jié)。案例3-客戶(hù)流失管理案例3-客戶(hù)流失管理客戶(hù)流失預(yù)測(cè)在數(shù)據(jù)準(zhǔn)備階段,首先要明確流失客戶(hù)的定義,并根據(jù)定義為數(shù)據(jù)集中的用戶(hù)加上“流失”或“未流失”的標(biāo)簽。數(shù)據(jù)準(zhǔn)備階段的另一個(gè)重要工作是通過(guò)對(duì)電信業(yè)務(wù)和用戶(hù)行為的理解,從運(yùn)營(yíng)商的B域、O域、M域中提取數(shù)據(jù),用于篩選離網(wǎng)預(yù)測(cè)特征字段,構(gòu)建離網(wǎng)預(yù)測(cè)特征庫(kù)。模型訓(xùn)練和測(cè)試階段的主要任務(wù)是選取數(shù)據(jù)挖掘算法,進(jìn)行模型訓(xùn)練、評(píng)估和調(diào)優(yōu),最終獲得最佳模型。案例3-客戶(hù)流失管理客戶(hù)流失預(yù)測(cè)模型建立起來(lái)后,需要對(duì)模型的效果進(jìn)行評(píng)估。評(píng)價(jià)預(yù)測(cè)模型的指標(biāo)基本可以分成兩類(lèi):經(jīng)濟(jì)型評(píng)價(jià)指標(biāo)和技術(shù)型評(píng)價(jià)指標(biāo)。在模型發(fā)布和應(yīng)用階段,將訓(xùn)練好的最佳模型應(yīng)用于現(xiàn)網(wǎng)數(shù)據(jù),實(shí)現(xiàn)準(zhǔn)確的流失預(yù)測(cè)。而后進(jìn)一步通過(guò)有效的維系手段,對(duì)預(yù)測(cè)出的流失用戶(hù)進(jìn)行精準(zhǔn)維系,減少用戶(hù)離網(wǎng)率,提升在網(wǎng)用戶(hù)的價(jià)值。案例3-客戶(hù)流失管理客戶(hù)挽留在開(kāi)展客戶(hù)挽留工作前,有必要先對(duì)潛在流失客戶(hù)的價(jià)值進(jìn)行評(píng)估,根據(jù)挽留收益和挽留成本確定高挽留價(jià)值客戶(hù)和低挽留價(jià)值客戶(hù),依此制定更加高效精準(zhǔn)的客戶(hù)挽留方案,從而獲得理想的挽留效果??蛻?hù)挽留策略分為基于客戶(hù)細(xì)分的挽留策略和基于客戶(hù)價(jià)值優(yōu)化的挽留策略?xún)纱箢?lèi)。案例3-客戶(hù)流失管理③
基于SVM的客戶(hù)流失預(yù)測(cè)支持向量機(jī)(SupportVectorMachines,SVM)在二分類(lèi)問(wèn)題中應(yīng)用非常廣泛,它采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則設(shè)計(jì)學(xué)習(xí)機(jī)器,折中考慮經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍,具有較好的泛化能力。案例3-客戶(hù)流失管理(1)數(shù)據(jù)集介紹數(shù)據(jù)集來(lái)自kaggle平臺(tái),其中共有7043條記錄,每條記錄對(duì)應(yīng)一個(gè)電信客戶(hù),包含客戶(hù)的基本屬性、服務(wù)屬性、消費(fèi)屬性和目標(biāo)屬性。案例3-客戶(hù)流失管理數(shù)據(jù)集的屬性及含義屬性類(lèi)別屬性名稱(chēng)含義取值基本屬性customerID客戶(hù)ID數(shù)字、字母組合gender客戶(hù)性別female,maleSeniorCitizen是否老年客戶(hù)1,0Partner客戶(hù)是否有配偶Yes,NoDependents客戶(hù)是否有受撫養(yǎng)人Yes,No服務(wù)屬性tenure客戶(hù)在網(wǎng)時(shí)間月數(shù)PhoneService客戶(hù)是否有電話服務(wù)Yes,NoMultipleLines客戶(hù)是否有多線服務(wù)Yes,No,No
phoneserviceInternetService客戶(hù)上網(wǎng)服務(wù)的類(lèi)型DSL,F(xiàn)iber
optic,No案例3-客戶(hù)流失管理數(shù)據(jù)集的屬性及含義屬性類(lèi)別屬性名稱(chēng)含義取值服務(wù)屬性消費(fèi)屬性O(shè)nlineSecurity客戶(hù)是否有在線安全服務(wù)Yes,No,No
internet
serviceOnlineBackup客戶(hù)是否有在線備份服務(wù)Yes,No,No
internet
serviceDeviceProtection客戶(hù)是否有設(shè)備保護(hù)服務(wù)Yes,No,No
internet
serviceTechSupport客戶(hù)是否有技術(shù)支持服務(wù)Yes,No,No
internet
serviceStreamingTV客戶(hù)是否有流媒體電視服務(wù)Yes,No,No
internet
serviceStreamingMovies客戶(hù)是否有流媒體電影服務(wù)Yes,No,No
internet
serviceContract客戶(hù)的合約期Month-to-month,One
year,Two
yearPaperlessBilling客戶(hù)是否采用無(wú)紙化賬單Yes,NoPaymentMethod客戶(hù)付費(fèi)方式
Electronic
check,Mailed
check,Banktransfer
(automatic),Credit
card
(automatic)MonthlyCharges客戶(hù)當(dāng)月消費(fèi)額浮點(diǎn)值TotalCharges客戶(hù)總消費(fèi)額浮點(diǎn)值目標(biāo)屬性Churn是否流失客戶(hù)Yes,No案例3-客戶(hù)流失管理(2)數(shù)據(jù)探索對(duì)數(shù)據(jù)集進(jìn)行探索性分析,以了解數(shù)據(jù)的結(jié)構(gòu)特征和分布特性,發(fā)現(xiàn)數(shù)據(jù)間的內(nèi)在規(guī)律和相互聯(lián)系,為數(shù)據(jù)預(yù)處理和建模做好準(zhǔn)備。處理缺失數(shù)據(jù)經(jīng)檢查發(fā)現(xiàn),數(shù)據(jù)集中有11個(gè)缺失值,全部位于TotalCharges屬性列??紤]到缺失值數(shù)量很少,本案例將直接刪除有缺失值的記錄。案例3-客戶(hù)流失管理(2)數(shù)據(jù)探索探索樣本分布特點(diǎn) 該數(shù)據(jù)集中未流失客戶(hù)的數(shù)量明顯多于流失客戶(hù),二者之比約為2.76:1,因此數(shù)據(jù)集略有不平衡。案例3-客戶(hù)流失管理(2)數(shù)據(jù)探索探索基本屬性與目標(biāo)屬性間的關(guān)系通過(guò)柱狀圖可以直觀地了解這些屬性與客戶(hù)流失之間的關(guān)系。案例3-客戶(hù)流失管理(2)數(shù)據(jù)探索探索服務(wù)屬性與目標(biāo)屬性間的關(guān)系流失客戶(hù)與未流失客戶(hù)在網(wǎng)時(shí)間的直方圖。案例3-客戶(hù)流失管理電話服務(wù)和上網(wǎng)服務(wù)與客戶(hù)流失之間的柱狀圖。案例3-客戶(hù)流失管理各類(lèi)在線服務(wù)對(duì)客戶(hù)流失影響的柱狀圖。案例3-客戶(hù)流失管理案例3-客戶(hù)流失管理(2)數(shù)據(jù)探索探索消費(fèi)屬性與目標(biāo)屬性間的關(guān)系合約期類(lèi)型和付費(fèi)方式對(duì)客戶(hù)流失的影響。案例3-客戶(hù)流失管理(2)數(shù)據(jù)探索探索消費(fèi)屬性與目標(biāo)屬性間的關(guān)系月消費(fèi)額與客戶(hù)流失之間的關(guān)系。案例3-客戶(hù)流失管理(3)數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理的主要任務(wù)是對(duì)離散屬性進(jìn)行編碼,對(duì)連續(xù)屬性進(jìn)行歸一化處理,檢驗(yàn)各特征屬性之間、特征屬性與目標(biāo)屬性之間的相關(guān)性,以及進(jìn)行特征選擇等。處理離散屬性對(duì)于多值離散屬性,如InternetService、Contract、PaymentMethod等,采用獨(dú)熱編碼進(jìn)行處理;對(duì)于二值離散屬性,如gender、Partner、Dependents等,采用標(biāo)簽編碼。案例3-客戶(hù)流失管理(3)數(shù)據(jù)預(yù)處理處理連續(xù)屬性通過(guò)pandas.DataFrame.describe()函數(shù)了解其統(tǒng)計(jì)信息。案例3-客戶(hù)流失管理(3)數(shù)據(jù)預(yù)處理處理連續(xù)屬性通過(guò)IQR法和四分位數(shù),可以識(shí)別數(shù)據(jù)集中的離群點(diǎn);利用箱線圖也可以識(shí)別離群點(diǎn)。案例3-客戶(hù)流失管理(3)數(shù)據(jù)預(yù)處理處理連續(xù)屬性由于本數(shù)據(jù)集中連續(xù)屬性的量綱存在差異,所以需要進(jìn)行歸一化處理。采用min-max標(biāo)準(zhǔn)化法,計(jì)算公式為:其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。這種方法將對(duì)原始數(shù)據(jù)x進(jìn)行線性變換,使結(jié)果x*落到[0,1]區(qū)間內(nèi)。案例3-客戶(hù)流失管理(3)數(shù)據(jù)預(yù)處理檢驗(yàn)屬性間的相關(guān)性考察各特征屬性與目標(biāo)屬性Churn之間的相關(guān)性,從中篩選出相關(guān)性較大的屬性。案例3-客戶(hù)流失管理(3)數(shù)據(jù)預(yù)處理檢驗(yàn)屬性間的相關(guān)性部分特征屬性(如tenure、TotalCharges等)與Churn呈正相關(guān)性,而MonthlyCharges、PaperlessBilling等則呈現(xiàn)負(fù)相關(guān)。gender、PhoneServices等屬性與目標(biāo)屬性之間的相關(guān)系數(shù)接近0,這與數(shù)據(jù)探索階段得到的分析結(jié)果一致。這些與目標(biāo)屬性基本不相關(guān)的特征屬性將不作為模型的輸入。案例3-客戶(hù)流失管理特征屬性之間的相關(guān)性矩陣:案例3-客戶(hù)流失管理(3)數(shù)據(jù)預(yù)處理特征選擇特征選擇的常用方法有方差選擇、單變量特征選擇、遞歸式特征消除等。方差選擇法:特征的方差值越大、對(duì)模型區(qū)分不同類(lèi)別的貢獻(xiàn)就越大,因此建模時(shí)只選擇方差大于某個(gè)閾值的特征作為輸入。單變量特征選擇法:利用統(tǒng)計(jì)度量的方法對(duì)每個(gè)特征與目標(biāo)屬性
間的關(guān)系進(jìn)行評(píng)價(jià)打分,然后從中選出最好的特征子集。這類(lèi)方法主要有皮爾遜相關(guān)系數(shù)法、互信息法、距離相關(guān)系數(shù)法、卡方檢驗(yàn)法等。遞歸式特征消除(Recursive
Feature
Elimination,RFE)法:構(gòu)建一個(gè)機(jī)器學(xué)習(xí)模型并反復(fù)對(duì)它進(jìn)行訓(xùn)練,每輪訓(xùn)練計(jì)算出當(dāng)前特征子
集中所有特征的排序分?jǐn)?shù),并移除對(duì)應(yīng)于最小排序分?jǐn)?shù)的特征。該過(guò)
程重復(fù)執(zhí)行,直到特征集中只剩余最后一個(gè)變量時(shí)為止。案例3-客戶(hù)流失管理(3)數(shù)據(jù)預(yù)處理特征選擇本案例采用RFE方法,相應(yīng)的RFE類(lèi)的定義為:estimator是用于訓(xùn)練的機(jī)器學(xué)習(xí)模型,本案例采用邏輯回歸模型;n_features_to_select指定最終保留的特征數(shù)量;step指定每輪訓(xùn)練移除的特征數(shù)量。案例3-客戶(hù)流失管理(3)數(shù)據(jù)預(yù)處理特征選擇經(jīng)過(guò)RFE處理后,最終保留5個(gè)特征屬性。按照排序分?jǐn)?shù)從高到低依次是:InternetService_Fiberoptic、InternetService_No、Contract_Month-to-month、tenu和TotalCharges。案例3-客戶(hù)流失管理(4)建模本案例采用sklearn庫(kù)提供的支持向量機(jī)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年衛(wèi)生部工作計(jì)劃范本(三篇)
- 蘇教版三-六年級(jí)科學(xué)下冊(cè)實(shí)驗(yàn)報(bào)告單
- 描寫(xiě)關(guān)于哲理優(yōu)美描述100句【25】
- 河南省商丘市2023-2024學(xué)年七年級(jí)上學(xué)期期中道德與法治試卷
- 2024年工程整體機(jī)械租賃合同模板范本
- 2024年通訊服務(wù)合同
- 2024年山場(chǎng)租賃合同
- 2024年××有限公司年用工合同范文
- 2024年文化墻設(shè)計(jì)制作合同范本
- 2024年機(jī)械行業(yè)勞動(dòng)合同(2110字)
- 服務(wù)員的禮儀禮節(jié)禮貌培訓(xùn)
- 2023年中國(guó)鐵塔股份有限公司招聘筆試題庫(kù)及答案解析
- “雙減”背景下的小學(xué)英語(yǔ)作業(yè)優(yōu)化設(shè)計(jì)PPT
- GB/T 12807-2021實(shí)驗(yàn)室玻璃儀器分度吸量管
- XX省大型醫(yī)院巡查領(lǐng)導(dǎo)班子民主測(cè)評(píng)表
- 學(xué)情分析方案《王戎不取道旁李》
- 財(cái)務(wù)流程介紹課件
- 機(jī)械通氣過(guò)程中的霧化治療
- 水的組成發(fā)現(xiàn)史
- 行政訴訟流程
- 《統(tǒng)計(jì)預(yù)測(cè)與決策》課程教學(xué)大綱
評(píng)論
0/150
提交評(píng)論