《大數(shù)據(jù)挖掘與統(tǒng)計機器學習(第3版)》 課件7-智能手機用戶監(jiān)測數(shù)據(jù)案例分析_第1頁
《大數(shù)據(jù)挖掘與統(tǒng)計機器學習(第3版)》 課件7-智能手機用戶監(jiān)測數(shù)據(jù)案例分析_第2頁
《大數(shù)據(jù)挖掘與統(tǒng)計機器學習(第3版)》 課件7-智能手機用戶監(jiān)測數(shù)據(jù)案例分析_第3頁
《大數(shù)據(jù)挖掘與統(tǒng)計機器學習(第3版)》 課件7-智能手機用戶監(jiān)測數(shù)據(jù)案例分析_第4頁
《大數(shù)據(jù)挖掘與統(tǒng)計機器學習(第3版)》 課件7-智能手機用戶監(jiān)測數(shù)據(jù)案例分析_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第7章智能手機用戶監(jiān)測數(shù)據(jù)案例分析

本章應用前面所學內(nèi)容對一個實際大數(shù)據(jù)進行案例分析:智能手機用戶監(jiān)測數(shù)據(jù),數(shù)據(jù)量在10G左右。我們給出案例分析的兩個版本:一是單機操作,讀者可以在自己的個人機或者單臺服務器上完成數(shù)據(jù)分析任務。我們給出Python代碼。讀者可以嘗試寫出R

代碼。

對于10G左右的數(shù)據(jù)量,目前主流的臺式機、筆記本或者服務器是可以接受的。如果數(shù)據(jù)量繼續(xù)增大,這就不是好的解決方案了。因此,我們提供的第二個數(shù)據(jù)分析的版本是在分布式集群Hadoop

和Spark

上實現(xiàn)的,使用的計算機語言以及軟件包和工具包括HDFS文件存儲系統(tǒng)、Map-Reduce

技術(shù)、Python、Hive、Spark的MLlib等。17.1數(shù)據(jù)簡介

該數(shù)據(jù)來自某公司某年連續(xù)30

天的4萬多智能手機用戶的監(jiān)測數(shù)據(jù)。每天的數(shù)據(jù)為1

個txt

文件,共10列,記錄了每個用戶(以uid為唯一標識)每天使用各款APP(以appid為唯一標識)的起始時間、使用時長、上下行流量等。此外,有一個輔助表格,app_class.csv,共兩列.第一列是appid,第二列給出4000

多個常用APP所屬類別(app_class),比如視頻類、游戲類、社交類等,用英文字母a-t

表示。其余APP不常用,所屬類別未知。數(shù)據(jù)可從中國人民大學出版社()下載。交類等,用英文字母a-t表示。其余APP不常用,所屬類別未知。23表7.1用戶和產(chǎn)品的數(shù)據(jù)7.2單機實現(xiàn)

7.2.1描述統(tǒng)計分析 1.用戶記錄的有效情況

如果一個用戶在一天中沒有任何APP

的使用記錄,則該用戶在該天記錄缺失,據(jù)此統(tǒng)計每位用戶在30天中的有效記錄天數(shù)。 2.各類APP

的使用強度和相關性 (1)對每天的每條數(shù)據(jù)記錄計算使用時長 (2)對每一天的數(shù)據(jù)進行分類匯總,得到每人每天使用每

種類別

APP的總時長。 (3)匯總30天的數(shù)據(jù),得到每人使用每種類別APP

的總

時長(有效觀測天數(shù)內(nèi)的總時長)。

45圖7.1用戶缺失天數(shù)頻數(shù)分布直方圖6表7.2各類APP使用強度(對數(shù)變換)單位:秒7圖7.2各類APP間的相關系數(shù)7.2.2APP使用情況預測分析

本節(jié)對用戶使用APP

的情況進行預測。我們要研究的問題是通過用戶的APP

使用記錄預測用戶未來是否使用APP(分類問題)及使用時長(回歸問題)。分類。根據(jù)用戶第1-23天的某類APP

的使用情況,來預測用戶在第24~30天是否會使用該類APP。處理后的數(shù)據(jù)隨機選取80%作為訓練集,20%作為測試集,模型選用隨機森林?;貧w。與上一部分分類不同的是,這里要預測的是第24~30天用戶使用某類APP的有效日均使用時長,24~30天是否會使用該類APP。案例的預測模型選取的是隨機森林。89表7.3因變量和自變量說明10圖7.3隨機森林變量重要性(分類)11圖7.4隨機森林變量重要性(回歸)7.2.3用戶行為聚類分析(1)用戶APP

使用差異情況聚類

對于在描述統(tǒng)計分析中得到的用戶對20類APP有效使用天數(shù)的日均使用強度數(shù)據(jù)(對數(shù)變換之后),我們選用K均值聚類。(2)RFM

聚類

基于原始數(shù)據(jù),借鑒度量消費者行為的三個重要指標RFM——最近一次消費(Recency)、消費頻率(Frequency)和消費金額(Monetary),針對APP

數(shù)據(jù)構(gòu)造最近一次使用(最近一次使用距離最后一天的天數(shù))、使用頻率(使用天數(shù)除以有效觀測天數(shù))和有效使用時長(使用總時長除以使用天數(shù))三個指標,以標準化后的這三個變量作為特征對人群進行聚類分析。121314圖7.5RFM聚類各類中心7.3分布式實現(xiàn)7.3.1數(shù)據(jù)預處理與描述分析

由于原始數(shù)據(jù)是結(jié)構(gòu)化的記錄數(shù)據(jù),因此可以利用Hive

進行數(shù)據(jù)預處理。7.3.2基于Spark

的模型分析

數(shù)據(jù)準備完畢之后,可以利用Spark

中的MLlib

對數(shù)據(jù)進行模型分析。在此我們進行7.2.2中單機版的i類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論