




已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于海量用戶行為數(shù)據(jù)分析的 互聯(lián)網(wǎng)增值新業(yè)務(wù) What , Why and How,What ? 要作什么事,對每個寬帶用戶的每次瀏覽網(wǎng)頁行為進(jìn)行記錄,在海量的數(shù)據(jù)記錄上分析用戶的瀏覽習(xí)慣、興趣愛好、關(guān)注焦點(diǎn)等,對用戶進(jìn)行全方位的“畫像”。 按用戶屬性和行為特征對全部寬帶用戶進(jìn)行聚類和精細(xì)化的客戶群劃分。 依托運(yùn)營商平臺,利用網(wǎng)絡(luò)廣告、直投、個性化內(nèi)容推送等手段對寬帶用戶進(jìn)行“一對一”的精準(zhǔn)營銷。,What 圖解,用戶上網(wǎng)的歷史行為,用戶屬性和行為特征,男性 年齡25-35歲 來自北京.海淀.上地 IT從業(yè)人士 熱衷科技產(chǎn)品 Nokia N95用戶 中高端消費(fèi)等級 喜歡戶外運(yùn)動和旅游 追求奢侈品 . . .,What 圖解 續(xù),客戶群A,客戶群B,客戶群C,客戶群D,客戶群E,客戶群F,用戶標(biāo)識和特征,用戶精細(xì)劃分,精準(zhǔn)營銷,Why ? - 為網(wǎng)通帶來新價值,精準(zhǔn)廣告收入 合作模式:與網(wǎng)絡(luò)廣告商、傳統(tǒng)廣告商、SP、廣告聯(lián)盟分成 精準(zhǔn)的用戶屬性將大幅度提高廣告的價值,讓每一次Page View都變成金子 自營模式:個性化內(nèi)容推送 例子: “一對一”的個性化號百和12580 想用戶所想,急用戶所急 直銷(DM)分成收入:與最終廠商合作 提升ARPU值,快速拓展新用戶 采用精準(zhǔn)的營銷策略帶動用戶升速 分析升速用戶的行為習(xí)慣:什么樣的用戶需要升速?什么樣的SP會吸引升速用戶? 通過DM捆綁銷售和優(yōu)惠的接入價格快速拓展新用戶 在新競爭格局中領(lǐng)先一步,形成良性的循環(huán):更低的接入價格帶來更多的用戶,獲得更多的增值業(yè)務(wù)收入,How ? HyperCloud解決方案,技術(shù)架構(gòu) 核心處理算法 演示 ROI分析,低成本和可靠的海量存儲子系統(tǒng),平滑可擴(kuò)展的分布式運(yùn)算子系統(tǒng),高吞吐率的運(yùn)營服務(wù)子系統(tǒng),低成本和可靠的海量存儲子系統(tǒng),多級別存儲,成本降到300$/TB 無需RAID支持,保證99.9%可用性 多元數(shù)據(jù)服務(wù)器,管理億級數(shù)量文件 可在線擴(kuò)展至PB級規(guī)模,條帶化存儲,多數(shù)據(jù)通路聚合 支持對象存儲(OSD)接口 I/O緩存,平滑可擴(kuò)展的分布式運(yùn)算子系統(tǒng),3M架構(gòu):借鑒Google的分布式計(jì)算架構(gòu),針對海量數(shù)據(jù)挖掘的需求對單點(diǎn)性能和多點(diǎn)負(fù)載均衡作最大限度的優(yōu)化 Key-Value Query with Memory Cache 突破Key-Value Query的瓶頸,單點(diǎn)上億條規(guī)模Key-Value對的查詢時間小于200ms (傳統(tǒng)DB的1/20), Dell 1950 Dual Quad-Core, 3.0Ghz Range Query with Memory Database 列存儲(Column-based)結(jié)構(gòu),突破Range Query的瓶頸,單點(diǎn)上億條記錄的Range Query ( select x from t where a y and y b ) 小于1000ms, 為傳統(tǒng)DB的1/10, Dell 1950 Dual Quad-Core, 3.0Ghz Distributed Computing with Map-reduce 分布式計(jì)算架構(gòu),處理100G的文本時間小于10min ( 10 * Dell 1950 Dual Quad-Core, 3.0Ghz ),高吞吐率的運(yùn)營服務(wù)子系統(tǒng),Memcache Cluster,MySQL Cluster ( ndb),ADWords /User Search Engine,Niginx,Squid,Squid,LVS (soft F5),DNS, Billing,核心處理算法 (1) 基礎(chǔ),發(fā)現(xiàn)用戶真正的點(diǎn)擊行為 改進(jìn)的貝葉斯算法過濾超過95的垃圾或廣告流量 語義分析技術(shù) 單字和詞庫結(jié)合的中文智能分詞技術(shù) 大規(guī)模統(tǒng)計(jì)分析基礎(chǔ)上的機(jī)器學(xué)習(xí) 從億萬網(wǎng)頁中發(fā)現(xiàn)詞的相關(guān)性 從單個頁面中發(fā)現(xiàn)最重要的詞 面向數(shù)據(jù)挖掘優(yōu)化的海量計(jì)算 將傳統(tǒng)的Data Mining算法移植到分布式平臺上,實(shí)現(xiàn)PB級數(shù)據(jù)上 快速聚類和分類 快速關(guān)聯(lián)分析,核心處理算法(2)-如何對用戶行為分析建模,基本思想 發(fā)掘用戶的顯性特征 ( 關(guān)注關(guān)鍵詞或相關(guān)詞) 推理用戶的隱性特征 (用戶的自然屬性和社會屬性, 性別、職業(yè)、年齡、階層、愛好) 顯性特征- 隱性特征是大樣本基礎(chǔ)上的機(jī)器學(xué)習(xí) Machine Learning,ML ),例子 “勁舞團(tuán)” = 游戲 - 舞蹈類 | 青少年 85% “蘭寇” = 化妝品 - 蘭寇 | 女 70% 高端 = 65% “鐵血” = 愛國 | 男 90% “美女” = 閑逛 | 男 90% “愛卡論壇” /“寶馬” = 汽車 - 寶馬 | 高端消費(fèi)人群 70% 中端消費(fèi)人群 60% 低端 30% “奶粉” = 嬰幼兒用品 - 奶粉 | 女 70%,有小孩90% “內(nèi)衣”, “愛慕” = 內(nèi)衣 - 文胸 - 愛慕 | 女 85%,核心處理算法 (3)處理流程,HTTP請求數(shù)據(jù),Radius計(jì)費(fèi)鏡像數(shù)據(jù),垃圾流量過濾器(ML),垃圾流量排名,Radius歸并過濾器,廣告流量過濾器(ML),廣告流量排名,用戶會話/ 點(diǎn)擊路徑識別過濾器,高權(quán)重行為模式分析器,泛行為模式分析器,訪問統(tǒng)計(jì)過濾器,第三方PV,UV,ADV,PUV 權(quán)威排名,爬取分詞,關(guān)鍵詞排序(ML),樣本庫,精準(zhǔn)匹配模式庫 行業(yè)Top 20,樣本庫,樣本庫,用戶顯性特征 (關(guān)鍵詞),用戶隱性特征 (用戶分群),隱性特征推理器(ML),Top 10000詞推理樣本,分類庫 (行業(yè)/職業(yè)、商品),統(tǒng)計(jì)過濾器,熱點(diǎn)、 輿情、 行業(yè)咨詢,對接運(yùn)營服務(wù)系統(tǒng)(廣告或內(nèi)容推送),演示,Get a feeling of it ,演示用的數(shù)據(jù)樣本來源,某運(yùn)營商(江蘇南京) 20000用戶一周數(shù)據(jù) 計(jì)費(fèi)系統(tǒng)Radius數(shù)據(jù):1000萬條 , 10GB 包含:ADSL帳號、上線時間、離線時間、IP地址 用戶所有上網(wǎng)行為數(shù)據(jù)(未清洗前):14億條HTTP Requests, 1TB 包含:Client IP地址, HTTP Host, URL, Cookie, Referer, Agent 數(shù)據(jù)分析平臺 使用2臺雙路4核 Dell 1950需要16小時 使用10臺雙路4核 Dell 1950只需要1小時,1、用戶群精準(zhǔn)定位演示 按關(guān)鍵詞,關(guān)鍵詞“二手房”,對“二手房”關(guān)注的用戶群,寬帶用戶z68862449的敏感關(guān)鍵詞表,用戶詳細(xì),寬帶帳號,性別推斷,DSLAM位置,2、用戶群精準(zhǔn)定位演示 按行業(yè),行業(yè)“汽車”,“汽車”相關(guān)的SP頻道Top排名,對其中某個頻道關(guān)注的用戶群,3、用戶深度分析演示,寬帶用戶帳號,性別分析,消費(fèi)層次分析,最經(jīng)常訪問的內(nèi)容頻道,最經(jīng)常上的網(wǎng)站,最關(guān)注的關(guān)鍵詞,ROI分析,成本 每百萬用戶硬件成本(不含推送系統(tǒng)): 服務(wù)器:規(guī)格:Dell PowerEdge 1950 ( 1U ) , 雙路4核, 4G, SAS 300G * 2,數(shù)量:50,造價:15000*50 = 75 (萬元) 存儲設(shè)備,用于存檔備份 規(guī)格: Dell MD1000 + DIY 磁盤 ,40T,數(shù)量: 2-3臺,成本:10萬元 每百萬用戶軟件成本:0 商業(yè)模式 直接投放廣告 合作運(yùn)營,商業(yè)模式,直接廣告投放 網(wǎng)站廣告合作 廣告客戶的長尾效應(yīng),目前搜索引擎的收入高于門戶網(wǎng)站,門戶網(wǎng)站的廣告位有限,大量PV被浪費(fèi)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育技術(shù)對在線學(xué)習(xí)的推動作用
- 協(xié)作學(xué)習(xí)中教育技術(shù)工具的應(yīng)用與影響
- 學(xué)習(xí)科學(xué)引領(lǐng)教育革新之路
- 混合式教學(xué)模式下的課程設(shè)計(jì)與實(shí)施策略分析
- 教育技術(shù)在醫(yī)療培訓(xùn)中的創(chuàng)新應(yīng)用案例分析
- 新教育政策對特殊教育的支持與推動
- 抖音商戶客服客訴升級處理時限制度
- 抖音商戶直播樣品視頻制作流程制度
- 八大城市教育行業(yè)教育培訓(xùn)機(jī)構(gòu)市場營銷策略與品牌建設(shè)報(bào)告
- 公交優(yōu)先戰(zhàn)略視角下2025年城市交通擁堵治理效果評價體系構(gòu)建報(bào)告
- 2025年貴州省6月28日納雍事業(yè)單位教師崗考試真題及答案
- 建筑施工企業(yè)2025年半年業(yè)績總結(jié)和下半年工作計(jì)劃
- 昭通設(shè)備裝卸方案(3篇)
- 2025至2030中國港口航道工程行業(yè)深度研究及發(fā)展前景投資評估分析
- 單元復(fù)習(xí)AB卷:第二十八章 圓(A卷-中檔卷)解析版
- 建筑工程項(xiàng)目參與證明(8篇)
- 疏通經(jīng)絡(luò)課件
- 汽車司機(jī)宿舍管理制度
- 2025-2030年中國MiniLED行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報(bào)告
- 中國成人呼吸系統(tǒng)疾病家庭氧療指南(2024年)解讀課件
- 氫能加氣站建設(shè)與設(shè)備租賃合作協(xié)議
評論
0/150
提交評論