《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件9.1 處理電信運(yùn)營(yíng)商用戶信息數(shù)據(jù)_第1頁
《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件9.1 處理電信運(yùn)營(yíng)商用戶信息數(shù)據(jù)_第2頁
《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件9.1 處理電信運(yùn)營(yíng)商用戶信息數(shù)據(jù)_第3頁
《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件9.1 處理電信運(yùn)營(yíng)商用戶信息數(shù)據(jù)_第4頁
《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件9.1 處理電信運(yùn)營(yíng)商用戶信息數(shù)據(jù)_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

處理電信運(yùn)營(yíng)商用戶信息數(shù)據(jù)電信運(yùn)營(yíng)商用戶分析任務(wù)描述電信運(yùn)營(yíng)中電信企業(yè)需要考慮如何最大程度地控制客戶流失、挽留現(xiàn)存在網(wǎng)用戶并且吸取新客戶增加盈利等。對(duì)于電信企業(yè)而言,分析和預(yù)測(cè)運(yùn)營(yíng)商流失用戶數(shù)據(jù)是一項(xiàng)非常重要的工作,以便于建立健全網(wǎng)絡(luò)綜合治理體系,推動(dòng)形成良好網(wǎng)絡(luò)生態(tài)。分析與預(yù)測(cè)流失用戶數(shù)據(jù)處理電信運(yùn)營(yíng)商用戶信息數(shù)據(jù)需要先對(duì)數(shù)據(jù)進(jìn)行初步處理,從而優(yōu)化數(shù)據(jù)質(zhì)量、提高數(shù)據(jù)處理效率、確保數(shù)據(jù)一致性和完整性,為數(shù)據(jù)分析和決策提供可靠的支持。本任務(wù)先后將數(shù)據(jù)去重與降維、處理缺失值與異常值和合并數(shù)據(jù),處理電信運(yùn)營(yíng)商的用戶信息數(shù)據(jù)集,將初始電信運(yùn)營(yíng)商用戶數(shù)據(jù)進(jìn)行優(yōu)化和簡(jiǎn)化,提高數(shù)據(jù)的質(zhì)量,著力推進(jìn)高質(zhì)量發(fā)展。任務(wù)要求使用pandas庫對(duì)數(shù)據(jù)進(jìn)行去重。使用pandas庫進(jìn)行數(shù)據(jù)降維。使用pandas庫和NumPy庫進(jìn)行數(shù)據(jù)合并。使用pandas庫處理缺失值和異常值。隨著中國(guó)電信運(yùn)營(yíng)業(yè)務(wù)的快速發(fā)展,市場(chǎng)競(jìng)爭(zhēng)也愈演愈烈。如何最大程度地挽留在網(wǎng)用戶、吸取新客戶,是電信企業(yè)最關(guān)注的問題之一。競(jìng)爭(zhēng)對(duì)手的促銷、公司資費(fèi)軟著陸措施的出臺(tái)和政策法規(guī)的不斷變化,影響了客戶消費(fèi)心理和消費(fèi)行為,導(dǎo)致客戶的流失特征不斷變化。對(duì)于電信運(yùn)營(yíng)商而言,流失會(huì)給電信企業(yè)帶來市場(chǎng)占有率下降、營(yíng)銷成本增加、利潤(rùn)下降等一系列問題。在發(fā)展用戶每月增加的同時(shí),如何挽留和爭(zhēng)取更多的用戶,是一項(xiàng)非常重要的工作。相關(guān)知識(shí)隨著大數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展和應(yīng)用,本著守正創(chuàng)新的精神,移動(dòng)運(yùn)營(yíng)商希望能借助數(shù)據(jù)挖掘技術(shù)識(shí)別哪些用戶可能流失,什么時(shí)候會(huì)發(fā)生流失。而通過建立流失預(yù)測(cè)模型,分析用戶的歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù),提取輔助決策的關(guān)鍵性數(shù)據(jù),并從中發(fā)現(xiàn)隱藏關(guān)系和模式,進(jìn)而預(yù)測(cè)未來可能發(fā)生的行為,就可以幫助移動(dòng)運(yùn)營(yíng)商實(shí)現(xiàn)這些要求。相關(guān)知識(shí)數(shù)據(jù)去重與降維合并數(shù)據(jù)處理缺失值與異常值數(shù)據(jù)去重與降維查看電信運(yùn)營(yíng)商用戶信息數(shù)據(jù)使用pandas庫中read_csv函數(shù)讀取電信運(yùn)營(yíng)商用戶信息數(shù)據(jù)。使用drop_duplicates()方法刪除重復(fù)數(shù)據(jù)。數(shù)據(jù)降維,使用del刪除手機(jī)品牌、手機(jī)型號(hào)和操作系統(tǒng)描述3個(gè)特征數(shù)據(jù)去重與降維的步驟如下。電信運(yùn)營(yíng)商用戶數(shù)據(jù)包含了運(yùn)營(yíng)商用戶的基礎(chǔ)信息和使用行為信息,數(shù)據(jù)的特征說明,如下表所示。特征名稱特征說明特征名稱特征說明月份月份國(guó)內(nèi)漫游通話次數(shù)國(guó)內(nèi)漫游通話次數(shù)/次用戶ID用戶ID短信發(fā)送數(shù)短信發(fā)送數(shù)/條在網(wǎng)時(shí)長(zhǎng)在網(wǎng)時(shí)長(zhǎng)上網(wǎng)流量上網(wǎng)流量/MB是否合約有效用戶是否合約有效用戶本地非漫游上網(wǎng)流量本地非漫游上網(wǎng)流量/MB合約計(jì)劃到期時(shí)間合約計(jì)劃到期時(shí)間國(guó)內(nèi)漫游上網(wǎng)流量國(guó)內(nèi)漫游上網(wǎng)流量/MB信用等級(jí)信用等級(jí)有通話天數(shù)有通話天數(shù)VIP等級(jí)VIP等級(jí)有主叫天數(shù)有主叫天數(shù)查看電信運(yùn)營(yíng)商用戶信息數(shù)據(jù)查看電信運(yùn)營(yíng)商用戶信息數(shù)據(jù)特征名稱特征說明特征名稱特征說明本月費(fèi)用本月費(fèi)用/元有被叫天數(shù)有被叫天數(shù)通話時(shí)長(zhǎng)通話時(shí)長(zhǎng)/秒語音呼叫圈語音呼叫圈本地通話時(shí)長(zhǎng)本地通話時(shí)長(zhǎng)/秒主叫呼叫圈主叫呼叫圈國(guó)內(nèi)長(zhǎng)途通話時(shí)長(zhǎng)國(guó)內(nèi)長(zhǎng)途通話時(shí)長(zhǎng)/秒被叫呼叫圈被叫呼叫圈國(guó)內(nèi)漫游通話時(shí)長(zhǎng)國(guó)內(nèi)漫游通話時(shí)長(zhǎng)/秒性別性別通話次數(shù)通話次數(shù)/次年齡年齡非漫游通話次數(shù)非漫游通話次數(shù)/次手機(jī)品牌名稱手機(jī)品牌名稱本地通話次數(shù)本地通話次數(shù)/次手機(jī)型號(hào)名稱手機(jī)型號(hào)名稱特征名稱特征說明特征名稱特征說明國(guó)內(nèi)長(zhǎng)途通話次數(shù)國(guó)內(nèi)長(zhǎng)途通話次數(shù)/次操作系統(tǒng)描述操作系統(tǒng)描述終端硬件類型終端硬件類型(0=無法區(qū)分,4=4g、3=3g、2=2g)用戶在3月是否流失標(biāo)記用戶在3月是否流失標(biāo)記(1=是,0=否),1月和2月值為空查看電信運(yùn)營(yíng)商用戶信息數(shù)據(jù)基于保護(hù)用戶的網(wǎng)絡(luò)信息安全的目的,本任務(wù)使用的數(shù)據(jù)已進(jìn)行脫敏處理,加強(qiáng)個(gè)人信息保護(hù)。為了篩選出影響用戶流失的信息屬性,需要對(duì)建模用戶數(shù)據(jù)集進(jìn)行預(yù)處理和降維。合并數(shù)據(jù)在原始的建模數(shù)據(jù)中,每個(gè)用戶有三行的數(shù)據(jù),對(duì)應(yīng)著同一個(gè)ID三個(gè)月的信息。用戶ID在網(wǎng)時(shí)長(zhǎng)是否合約有效用戶合約計(jì)劃到期時(shí)間…U3114031824149372231201603…U3114031824149372241201603…U3114031824149372250…月種數(shù)據(jù)格式不便于進(jìn)行建模和分析。因此,本任務(wù)對(duì)數(shù)據(jù)進(jìn)行提取和整合,將每個(gè)用戶信息處理為一行數(shù)據(jù)。移動(dòng)用戶基本信息由于同一個(gè)用戶的基本信息在三個(gè)月內(nèi)是相同的。因此,用戶ID、性別、年齡以及終端硬件類型只取1月的數(shù)據(jù)。201602U3114031824149372139…3201603U3114031824149372139…3月份用戶ID性別年齡…終端硬件類型201601U3114031824149372139…3在網(wǎng)時(shí)長(zhǎng)由于每個(gè)月的在網(wǎng)時(shí)長(zhǎng)等于上個(gè)月的在網(wǎng)時(shí)長(zhǎng)加一(為零的除外),故第三個(gè)月的在網(wǎng)時(shí)長(zhǎng)的數(shù)據(jù)就包含了這三個(gè)月在網(wǎng)時(shí)長(zhǎng)的全部信息。因此,每個(gè)ID只提取第三個(gè)月的數(shù)據(jù),按用戶ID和在網(wǎng)時(shí)長(zhǎng)分組后取在網(wǎng)時(shí)長(zhǎng)的最后一行。月份用戶ID在網(wǎng)時(shí)長(zhǎng)是否合約有效用戶201601U3114031824149372231201602U3114031824149372241201603U3114031824149372250是否合約有效將這三個(gè)月的合約有效的情況規(guī)整為一個(gè)數(shù)據(jù),處理方法為:當(dāng)三個(gè)月不全為1時(shí),用第三個(gè)月的值減去前兩個(gè)的均值;當(dāng)三個(gè)月的值都是為1時(shí),取值為1.5。這樣操作之后,所有取值情況為-1、-0.5、0、0.5、1、1.5,如下表所示。-1前兩個(gè)月合約有效,第三個(gè)月合約無效-0.5前兩個(gè)月其中一個(gè)月合約有效,另一個(gè)月和第三個(gè)月合約無效。0三個(gè)月均合約無效0.5前兩個(gè)月其中一個(gè)月合約無效,另一個(gè)月和第三個(gè)月合約有效1前兩個(gè)月合約無效,第三個(gè)月合約有效1.5三個(gè)月均合約有效數(shù)值含義合約計(jì)劃到期時(shí)間取第三個(gè)月的數(shù)據(jù)作為合約計(jì)劃到期時(shí)長(zhǎng),將空值賦值為-1,不是空值的到期時(shí)間以201603為基準(zhǔn)0,每增加一個(gè)月,數(shù)據(jù)為1,以此類推。月份用戶ID合約計(jì)劃到期時(shí)間201601U3114031824148707201602U3114031824148707201603U3114031824148707201601U3114031824149251201605201602U3114031824149251201605201603U3114031824149251201605賦值為-1賦值為2信用等級(jí)月份用戶ID信用等級(jí)本月費(fèi)用…201601U31140318241493726577.2…201602U31140318241493726583…201603U31140318241493726576.4…按用戶信用等級(jí)分組后取3個(gè)月的平均值。VIP等級(jí)如果同一個(gè)ID值,三個(gè)月的VIP等級(jí)數(shù)值相等,則取第三個(gè)月的數(shù)值。三個(gè)月的VIP等級(jí)數(shù)值都不相等,則第三個(gè)月的數(shù)據(jù)減去前兩個(gè)月的均值

VIP等級(jí)的空值賦值為0。月份用戶ID…201601U311403182414870799201602U311403182414870799201603U311403182414870799201601U31150616332226384201602U31150616332226384201603U311506163322263899取第三個(gè)月的數(shù)值9999-(4+4)/2=95本月費(fèi)用月份用戶ID信用等級(jí)本月費(fèi)用…201601U31140318241493726577.2…201602U31140318241493726583…201603U31140318241493726576.4…按本月費(fèi)用分組后取三個(gè)月費(fèi)用的平均值。平均每次通話時(shí)長(zhǎng)將各種通話時(shí)長(zhǎng)除以通話次數(shù),得到各類的平均通話時(shí)長(zhǎng)。使用mean()方法計(jì)算通話時(shí)間、本地通話時(shí)間、長(zhǎng)途通話時(shí)間、漫游通話時(shí)間的均值。使用fillna()方法進(jìn)行均值填充空值。使用rename()方法重新命名新得出的變量,得到平均通話時(shí)長(zhǎng)、平均本地通話時(shí)間、平均長(zhǎng)途通話時(shí)長(zhǎng)、平均國(guó)內(nèi)漫游通話時(shí)間,將原有的8個(gè)特征減少到4個(gè)新特征。其余特征月份用戶ID信用等級(jí)本月費(fèi)用…201601U31140318241493726577.2…201602U31140318241493726583…201603U31140318241493726576.4…對(duì)于其余的特征,同一個(gè)ID下,使

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論