《手機上網用戶行為分析系統(tǒng)》結題匯報課件_第1頁
《手機上網用戶行為分析系統(tǒng)》結題匯報課件_第2頁
《手機上網用戶行為分析系統(tǒng)》結題匯報課件_第3頁
《手機上網用戶行為分析系統(tǒng)》結題匯報課件_第4頁
《手機上網用戶行為分析系統(tǒng)》結題匯報課件_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、中國移動集團級重點研發(fā)項目結題匯報報告9/13/2022項目名稱:手機上網用戶行為分析系統(tǒng)一. 課題目標實現情況目 錄二、主要研究成果(整合后)研究背景“十一五”期間,我國網民規(guī)模躍居全球第一,寬帶普及率接近100%,手機網民規(guī)模迅速發(fā)展,互聯(lián)網應用更加深入,推動著社會進步和人們生活方式的變革。隨著移動互聯(lián)網近幾年快速的發(fā)展,作為移動互聯(lián)網關鍵環(huán)節(jié)的中國移動正在感受這個浪潮帶來的沖擊。上網流量同比上升112.3%流量收入同比上升49.4%高速發(fā)展的流量并沒有帶來相關收入的同步增長研究背景在以用戶為中心的發(fā)展時代下,了解用戶需求成為我們面對課題的第一步工作,這就需要我們對我們網絡中的流量有深入的

2、了解,掌握我們用戶的行為情況,便于我們針對性的調整運營戰(zhàn)略,在正在到來的移動互聯(lián)網大潮中未雨綢繆,迎接即將到來的挑戰(zhàn)。針對用戶的需求分析作為中國移動具有先天的優(yōu)勢,海量的CMWAP、CMNET的日志信息蘊含著巨大的財富,通過用戶移動互聯(lián)網行為分析,一方面讓我們更了解我們的用戶,實現個性化需求的識別。同時在有限的資源情況下及時的為用戶提供個性化的產品生產、個性化的匹配/分發(fā)。通過針對用戶上網行為的分析實現個性化需求的識別,成為數據部迫不及待需要解決的問題;同時在流量經營和精細化的營銷方面具有非常重要的戰(zhàn)略意義。研究目標研究一種適應分類體系變化的海量網頁快速分類系統(tǒng),要求如下:實現一個快速爬取手機

3、用戶訪問日志的方法,需要深入到用戶訪問頁面的標題、正文信息以及相關網頁鏈接。針對手機互聯(lián)網,提出一種正文提取的方法?;诜謮K的基礎上,提取每個信息塊的信息量,并計算各個分塊和網頁title的相似度,最終確定正文塊。基于主題的多分類方法。文本不被看作僅僅是由一些特征詞所組成的,而是被看作是由一些主題構成的,主題是由一些特征詞構成的。通過樣本中不同類別的主題分布,實現預測出一個新的文本到底屬于什么類別。研究總體框架手機上網用戶行為分析項目研究的總體架構如下:多數據海量數據預處理海量數據存儲和計算“客戶-內容”特征類標簽分層可擴充體系“客戶-內容-業(yè)務”三維匹配矩陣前臺應用管理模塊難點及解決方案項目

4、的難點:本課題首先是獲取不同類型網頁的正文內容,然后利用數據挖掘來分析用戶的喜好,其主要的困難如下:數據大規(guī)模性網頁類型多樣性分類要求的高效性多分類性分類體系的變化性“客戶-內容-業(yè)務”三維矩陣模型的構建用戶數據的零散性垃圾數據的清理用戶數據業(yè)務偏好的識別項目的難點及解決方案相關解決方案:系統(tǒng)架構采用云存儲和云計算的方式,有良好的擴展性;建立適應性分類體系變化的海量網頁快速分類體系和系統(tǒng)基于主題的分類方法正是為解決這些問題應運而生。它基于PLSA模型,計算出文本的主題分布,再根據貝葉斯分類來預測文本所屬的類別。由于PLSA模型在訓練的時候比較耗時,但在訓練過之后,計算文本的主題分布的時間是線性

5、的,所以在實際應用中,計算文本的主題分布并不是很耗時。另外,基于主題貝葉斯分類消耗的時間也是有限的,因為主題數通常都在1000以下,相比于特征詞來說,維度已經降低了很多,所以時間花費也比較少。基于主題的分類方法以PLSA的模型的理論基礎,通過抽象出一個虛擬的主題層,通過文檔和關鍵詞之間的共生關系,來求解主題和各文檔的關系及主題和關鍵詞的分布情況。以及在求解過程中所采用的EM迭代算法。主要技術方案和關鍵技術hadoop-分布式存儲系統(tǒng)hdfs高效性:任務分配,數據分發(fā),本地計算,高吞吐量等異構軟硬件平臺的可移植性可靠性:容錯,復本大數據集數據一致性主要技術方案和關鍵技術hadoop-并行計算框架

6、MapReduceMapReduce是一種編程模型,用于大規(guī)模數據集的并行運算,所有操作被抽象為兩類:Map(映射)和Reduce(規(guī)約)包括:分布grep,分布排序,WAP連接圖反轉,WAP訪問日志分析,反向索引構建,文檔聚類,機器學習,基于統(tǒng)計的機器翻譯等主要技術方案和關鍵技術主題分類體系的建設是基于主題的分類方法,而不是文本的關鍵詞屬性。而主題是隱含在某些文章里面的,它是抽象出來的一個概念,必須通過一個計算階段把它用實際的向量表示出來,先找到本文分類體系中所有分類的樣本,再從這些樣本中去尋找隱含的主題。計算與存儲平臺爬取正文提取PLSA模型訓練降維分類訓練分類不同的分類體系收集用戶上網的

7、URL集合訪問內容層面的分析網頁分類分析:加了一個語義層,建立文檔、語義、關鍵詞之間的概率關系解決傳統(tǒng)VSM(向量空間模型)的問題-同義詞,多義詞等,超越詞匯層面,更加深刻地把握文本的主旨語義層面的理解具有概率理論作為理論依據,相比于LSA新穎性,此技術先前主要應用尋找一些相關詞,在這里,成功應用于主題分類。訪問內容層面的分析關鍵詞分析根據用戶訪問的信息(詞向量),求得這些詞向量所屬的主題及其概率p1,并根據詞表找到該主題下所有的詞及其概率分布p2,再參考這些詞向量本身的tf*idf,最終求得p1*p2*tf*idf,取前N個得分最高的詞,即作為用戶最為喜好的關鍵詞。文本有勒布朗在場上,對手就

8、不得不在防守上小心謹慎,因為在他的促進下,沒有人不可以成為得分的威脅。不僅如此,勒布朗也能在進攻端統(tǒng)治比賽,此外他在防守端也能做到如此。這些讓他成為一個全能戰(zhàn)將。分詞結果比賽 1 不得 1 不僅如此 1 不可以 1 不在 1 成為 2 促進 1 得分 1對手 1 防守 2 進攻 1 勒布朗 2 沒有人 1 能做到 1 全能戰(zhàn)將 1 統(tǒng)治 1威脅 1 小心謹慎 1 在場 1主題分布414 0.26259 486 0.0920321 203 0.064595 111 0.0592055 759 0.052535 1028 0.0485639 485 0.0467883 402 0.045465 4

9、26 0.0447405 271 0.0435144 595 0.0414496 397 0.0394543 301 0.0366626 9 0.0355855 809 0.0322277 559 0.031286 909 0.0174838 508 0.00420075 1149 0.00160299 811 1.57853e-05 346 1.27575e-06分類結果體育 0.328462 旅游 0.0637043 游戲 0.0617362(體育的概率是游戲的五倍,因此該正文歸為體育標簽)訪問內容層面的分析網頁分類分析舉例說明項目研究建設情況目前完成系統(tǒng)平臺建設,正在進一步優(yōu)化標簽體系;

10、目前一級標簽25類,包括新聞、閱讀、娛樂、健康、財經、游戲、體育、科技等,基本覆蓋移動互聯(lián)網的內容體系;目前二級分類標簽約238類,針對一級標簽進行了詳細的內容分析,目前重點完成的分類包括閱讀、新聞、娛樂等,其他一級分類對應的二級分類還在進一步完善中;系統(tǒng)每天分析的話單量約9-10億條,涉及用戶600-1000余萬;目前每天成功分析并標注內容標簽的用戶約500-800萬間,標簽標注成功率在75%;目前用戶的偏好主要分布在新聞、社區(qū)、博客、游戲、閱讀等一級內容標簽下;分析共捕捉了15萬多個網站(包括二級域名),其中成功根據用戶點擊進行內容標注的網站約2萬網站,覆蓋用戶100%,覆蓋點擊量99.9

11、%;其中前281個網站占總訪問量的80%偏好分析主菜單全景分析 對訪問內容偏好情況的總體分析綜合分析 對內容進行的35個類別的統(tǒng)計閱讀、新聞、游戲、音樂、視頻 對五種內容的類型的進一步分析;目前音樂和視頻無法分析。個性化分析 針對某個用戶號碼的個性化偏好,以及適合推薦的業(yè)務。根據用戶數、用戶點擊次數的餅圖顯示“其他|其他”是訪問內容無法歸類的內容“|”為標簽的分級分隔符一級標簽、二級標簽目前的分類體系方法,仍在優(yōu)化過程中。按日查詢按地區(qū)查詢見下頁系統(tǒng)功能界面:全景分析-用戶系統(tǒng)功能界面:綜合分析內容的一級分類,目前有35個一級分類;根據目前互聯(lián)網的內容分類方式。偏好某個分類下的用戶號碼列表,目

12、前隱藏了中間四位。該內容標簽的點擊次數占該用戶總點擊次數的比重“新聞”類的域名的根據點擊量進行排行系統(tǒng)功能界面:閱讀閱讀類內容的進一步分類;目前共45個閱讀二級分類;可對用戶偏好的程度進行選擇性篩選該閱讀偏好的用戶在哪些網站訪問內容研究成功在營銷工作上的應用對客戶移動互聯(lián)網行為進行采集,分析,發(fā)現用戶關注相關內容,為開展營銷提供號碼支持。人不分高低貴賤,只是環(huán)境使然,讓一個總統(tǒng)之才出生在“狼窩”,他的內心也會滋生出拔不斷根的淫臟癮窺癖虐的齷齪來。他們一旦被主流文化、主流環(huán)境所邊緣,就會用戶行為爬蟲采集頁面分析偏好:閱讀,勵志等行為閱讀類勵志關鍵詞用戶視圖按偏好、關注點、業(yè)務群用戶群實時用戶群規(guī)

13、模分析;勵志內容關注群分析;閱讀頻道行為群分析;用戶群提取開展營銷營銷方案營銷支撐用戶響應率有三倍提升本次營銷相關激勵措施和前期開展的WAP PUSH營銷相同;對比以往的群發(fā)響應率1%-3%,本次群發(fā)響應率效果明顯,達到5.80%-10.21%,有近乎3倍的提升效果。訪問用戶活躍度高用戶后有繼續(xù)點擊其他內容的行為,最高占比達到91.4%;產生二次點擊行為的用戶數的占比高,反映貼合用戶需求的內容對用戶的吸引力,用戶粘性越高。項目取得的研究應用成果1.3 目標完成情況總結項目進度執(zhí)行情況表可作為附件項目研究產出產出成果承擔單位研究成果:包括研究報告、形成的軟硬件平臺用戶上網行為分析系統(tǒng)標準成果:形成的企業(yè)標準及標準化組織成果專利成果:專利情況無試驗成果:開展的相關試驗室及外場測試工作中形成的試驗報告(模板見xx)項目對企業(yè)績效貢獻的量化路徑圖1.4 項目企業(yè)績效貢獻和特征指標項目特征指標(PAV)指標名稱項目應用前指標現狀值:PAVc項目應用1年后指標預期值:PAVe1此項目帶來的指標變動量:PAV分析客戶數600萬2000萬1400萬企業(yè)特征指標網絡及生產類(EAV-PS)指標名稱項目應用前指

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論