版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
電信行業(yè)大數(shù)據(jù)實時營銷與實時分析夏明武個人簡介2004年清華大學(xué)軟件學(xué)院畢業(yè)智慧圖聯(lián)合創(chuàng)始人,大數(shù)據(jù)首席架構(gòu)師中國信息協(xié)會大數(shù)據(jù)分會理事工作10年+,做商業(yè)智能BI9年+在思特奇、亞信BI研發(fā)部、去哪兒網(wǎng)等工作多年大數(shù)據(jù)實時營銷、實時分析電信行業(yè)中國第一名在去哪兒網(wǎng)酒店事業(yè)部組建商業(yè)智能BI團(tuán)隊什么是商業(yè)智能BI、大數(shù)據(jù)?商業(yè)智能BI,就是智能化、自動化做商業(yè),提升公司品牌形象,幫助公司賺錢大數(shù)據(jù),核心是小量結(jié)果數(shù)據(jù),通過分析、研究數(shù)據(jù),以結(jié)果為導(dǎo)向,挖掘結(jié)果數(shù)據(jù)價值,幫公司賺大錢才是真?;ヂ?lián)網(wǎng)企業(yè),競爭激烈,今天還活著,明天隨時會死去,以結(jié)果為導(dǎo)向,非常現(xiàn)實,當(dāng)然也非常殘酷。對企業(yè)而言無價值的海量數(shù)據(jù)是什么?商業(yè)智能BI三階段第一階段:報表、olap階段。做報表根本不能體現(xiàn)出智能,體力活,實習(xí)生工作。第二階段:數(shù)據(jù)分析、傳統(tǒng)數(shù)據(jù)挖掘階段。阿里巴巴做的數(shù)據(jù)魔方、量子恒道是典型代表。非常成功,非常簡潔有效,快速幫公司和客戶賺錢,實現(xiàn)多方共贏。第三階段:做實時營銷、實時分析、實時告警等等實時或準(zhǔn)實時系統(tǒng),更接近于OLTP系統(tǒng),處理難度高,顛覆著傳統(tǒng)的BI系統(tǒng)。商業(yè)智能BI系統(tǒng)存在的問題某電信運營商十幾年商業(yè)智能BI系統(tǒng)建設(shè),是否有用?數(shù)據(jù)分析、數(shù)據(jù)挖掘真的重要嗎?
某公司數(shù)據(jù)挖掘團(tuán)隊被解散,某公司數(shù)據(jù)分析團(tuán)隊被解散客戶細(xì)分問題?分析報告一定是正確的嗎?大數(shù)據(jù)、數(shù)據(jù)挖掘、數(shù)據(jù)分析真的重要嗎在互聯(lián)網(wǎng)企業(yè),以結(jié)果為導(dǎo)向,價值為主?;ヂ?lián)網(wǎng)企業(yè)競爭激烈,今天活著,明天隨時會死去,以結(jié)果為導(dǎo)向非常有必要。有的公司數(shù)據(jù)挖掘團(tuán)隊被解散,有的公司數(shù)據(jù)分析團(tuán)隊被解散。這些團(tuán)隊中其實有很強(qiáng)的TeamLeader和很靠譜的團(tuán)隊成員。為什么還是要解散呢?這是因為數(shù)據(jù)挖掘、數(shù)據(jù)分析能做到百分之三十或百分之五十已經(jīng)非常好,當(dāng)企業(yè)自然增長達(dá)到百分之百或百分之幾百時,從投入產(chǎn)出比角度出發(fā),數(shù)據(jù)挖掘、數(shù)據(jù)分析團(tuán)隊是無價值的,是應(yīng)被解散掉的。信令數(shù)據(jù)介紹CS域語音主叫語音被叫短信發(fā)送短信接收位置更新開機(jī)關(guān)機(jī)位置切換信令數(shù)據(jù)介紹PS域彩信發(fā)送彩信接收WAP連接WAP使用WAP斷開3G上網(wǎng)4G上網(wǎng)信令名詞解釋LAC:
locationareacode位置區(qū)碼(移動通信系統(tǒng)中),是為尋呼而設(shè)置的一個區(qū)域,覆蓋一片地理區(qū)域。CELL:
采用基站識別碼或全球小區(qū)識別進(jìn)行標(biāo)識的無線覆蓋區(qū)域叫做小區(qū)。IMSI:
InternationalMobileSubscriberIdentificationNumber國際移動用戶識別碼,是區(qū)別移動用戶的標(biāo)志,儲存在SIM卡中,可用于區(qū)別移動用戶的有效信息。信令名詞解釋IMEI:InternationalMobileEquipmentIdentity,是國際移動設(shè)備身份碼的縮寫,國際移動裝備辨識碼,是由15位數(shù)字組成的“電子串號”,它與每臺手機(jī)一一對應(yīng),而且該碼是全世界唯一的。MSISDN:MobileSubscriberInternationalISDN/PSTNnumber(ISDN即是綜合業(yè)務(wù)數(shù)字網(wǎng),是IntegratedServiceDigitalNetwork的簡稱),即手機(jī)號碼。信令數(shù)據(jù)據(jù)能做什什么?實時營銷銷(精準(zhǔn)準(zhǔn)營銷、、精確營營銷)事件營銷銷(信令令監(jiān)控、、信令分分析、數(shù)數(shù)據(jù)挖掘掘)基于信令令數(shù)據(jù)和和客戶統(tǒng)統(tǒng)一視圖圖的模型型高中生高中生家家長大學(xué)生飛機(jī)來港港客戶飛機(jī)離港港客戶景區(qū)游客客火車站到到達(dá)客戶戶火車站離離開客戶戶數(shù)據(jù)模型型的創(chuàng)新新規(guī)則以界界面化的的方式展展示給業(yè)業(yè)務(wù)人員員參數(shù)可調(diào)調(diào)整,業(yè)業(yè)務(wù)人員員可以根根據(jù)業(yè)務(wù)務(wù)經(jīng)驗調(diào)調(diào)整業(yè)務(wù)人員員可以直直接界面面執(zhí)行數(shù)數(shù)據(jù)挖掘掘,重跑跑數(shù)據(jù)通過外呼呼查全和和查準(zhǔn)前端界面面規(guī)則配配置到數(shù)數(shù)據(jù)庫中中環(huán)境發(fā)生生大變化化時,業(yè)業(yè)務(wù)人員員熟悉模模型規(guī)則則,就能能很方便便給研發(fā)發(fā)提新需需求,研研發(fā)遠(yuǎn)程程開發(fā)后后遠(yuǎn)程發(fā)發(fā)包部署署實時營銷銷(精準(zhǔn)準(zhǔn)營銷、、精確營營銷)速度實時時合適的時時間合適的地地點給客戶推推薦合適適的內(nèi)容容實時營銷銷(精準(zhǔn)準(zhǔn)營銷、、精確營營銷)案例兩城一家家機(jī)場旅客客推薦各各種套餐餐高考考生生推薦各各種業(yè)務(wù)務(wù)體育場觀觀眾推薦薦歌星歌歌曲關(guān)于10張標(biāo)簽表表,每張張表8000萬記錄,,每張表表幾百幾幾千個標(biāo)標(biāo)簽字段段,關(guān)聯(lián)聯(lián)取數(shù)據(jù)據(jù),秒級級出結(jié)果果的高效效方法?大數(shù)據(jù)關(guān)關(guān)聯(lián)查詢詢創(chuàng)新案案例方案1:數(shù)據(jù)庫庫內(nèi)方案案把所有客客戶統(tǒng)一一視圖大大標(biāo)簽寬寬表先按按地市分分表,再再按號碼碼分別拆拆分為10000張表。每張小表表中包括括所有需需要的幾幾百、幾幾千個字字段。小小表總表表數(shù)為1萬到幾萬萬之間,,詳細(xì)為為地市數(shù)數(shù)量*1000。有的省份份,小表表數(shù)據(jù)量量為2000條到8000條。前端端訪問時時,不再再需要做做多表sql關(guān)聯(lián),數(shù)數(shù)據(jù)量級級別為千千行級的的單表sql查詢語句句速度也也很快。。起10000個線程并并發(fā)執(zhí)行行,可以以做到實實時。方案2:數(shù)據(jù)庫庫外方案案把所有客客戶統(tǒng)一一視圖大大標(biāo)簽寬寬表按地地市分文文件,再再按號碼碼繼續(xù)拆拆分為1000個文件。。每個小文文件中包包括所有有需要的的幾百、、幾千個個字段。。小文件件總數(shù)量量為1萬到幾萬萬之間,,詳細(xì)為為地市數(shù)數(shù)量*1000。如果是直直轄市,,直接拆拆分為10000個小文件件。使用標(biāo)準(zhǔn)準(zhǔn)C,開發(fā)出出處理程程序,并并發(fā)啟動動1萬到幾萬萬個線程程,每個個線程把把小文件件數(shù)據(jù)加加載到各各自內(nèi)存存中。當(dāng)需要處處理數(shù)據(jù)據(jù)時,實實用LUA來訪問數(shù)數(shù)據(jù),每每個線程程需要處處理的數(shù)數(shù)據(jù)量為為千行級級??傮w體速度應(yīng)應(yīng)該在毫毫表級,,可以實實時把數(shù)數(shù)據(jù)回傳傳給前端端。像有的省省,如果果地市用用戶提取取客戶群群,則同同樣只需需訪問此此地市的的1000個小內(nèi)存存文件,,速度能能更快。。方案1細(xì)節(jié):表文件、、和線程程的數(shù)量量可以根根據(jù)實際際需要調(diào)調(diào)整,可可以調(diào)整整到100張表、1000張表、或或者是100個文件、、1000文件、再再或者是是100個線程、、1000個線程。。具體還需需要查詢詢資料,,依據(jù)現(xiàn)現(xiàn)場機(jī)器器配置,,做性能能調(diào)優(yōu)而而定。如果并發(fā)發(fā)線程壓壓力太大大的話,,可以考考慮改為為減少并并發(fā)線程程數(shù),或或者改為為串行。。當(dāng)數(shù)據(jù)據(jù)無法做做大表關(guān)關(guān)聯(lián)時,,每次只只需從單單行記錄錄就可去去到。方案1細(xì)節(jié):分表或分分文件時時,按手手機(jī)號碼碼尾號2位或3位來分,,手機(jī)號號碼尾號號本身是是均勻的的。在同同一地市市的小表表中,每每張小表表的數(shù)據(jù)據(jù)量是基基本接近近相同的的。地市之間間,考慮慮到不同同地市的的用戶數(shù)數(shù)不同,,則可以以對不同同地市的的分表或或分文件件數(shù)量做做優(yōu)化,,用戶數(shù)數(shù)多的地地市分表表和文件件多,用用戶數(shù)少少的地市市分表或或文件少少,盡量量和所有有的100、1000或10000以上的表表或文件件中數(shù)據(jù)據(jù)量保持持一致,,這樣并并發(fā)處理理線程同同時處理理,完成成時間也也能基本本相同。。方案2細(xì)節(jié):數(shù)據(jù)為每每月或每每日凌晨晨初始化化讀入,,載入到到內(nèi)存后后。在上上班時間間訪問,,直接查查詢內(nèi)存存靜態(tài)數(shù)數(shù)據(jù),速速度快,,但也涉涉及到內(nèi)內(nèi)存分配配太大的的問題。。此時,需需要考慮慮做并發(fā)發(fā)或者分分布式處處理。涉涉及到硬硬件投資資增加問問題,不不建議采采購小型型機(jī),改改為采購購刀片服服務(wù)器或或其它服服務(wù)器。。數(shù)據(jù)也可可采用前前端調(diào)用用時再動動態(tài)加載載,根據(jù)據(jù)機(jī)器配配置,讓讓線程分分批次加加載數(shù)據(jù)據(jù)并處理理。這樣樣對硬件件要求低低,但速速度相對對會慢。。方案2細(xì)節(jié):前端向后后臺通信信采取socket方式,后后臺處理理完數(shù)據(jù)據(jù)后,可可以把最最終數(shù)據(jù)據(jù)合并,,再加載載到數(shù)據(jù)據(jù)庫中的的表,也也可以由由各線程程把各自自數(shù)據(jù)分分批插入入到數(shù)據(jù)據(jù)庫中的的表。數(shù)據(jù)加載載完成后后,再通通過socket通知前端端處理完完畢。LUA具體如何何處理和和優(yōu)化,,細(xì)節(jié)尚尚待研究究,需要要花時間間。細(xì)致工作作還有很很多,需需要繼續(xù)續(xù)研究和和深入下下去。方案2細(xì)節(jié):如果要考考慮到硬硬件成本本、分布布式部署署、開發(fā)發(fā)時間和和難度問問題,可可以接下下來優(yōu)化化為采用用hadoop方案。采用hadoop方案后,,整體數(shù)數(shù)據(jù)量在在千萬級級,有些些省例外外,到了了億級。。硬件投投資改為為采購幾幾臺PCServer,硬件投投入為幾幾萬元。。數(shù)據(jù)都在在庫外處處理,NOSQL方式,數(shù)數(shù)據(jù)庫可可以改為為使用開開源數(shù)據(jù)據(jù)庫MySQL,存放配配置信息息。這樣樣DB2、Oracle或其它數(shù)數(shù)據(jù)庫都都可以替替換掉。。方案2細(xì)節(jié)::整體來來說,,實用用hadoop方式或或庫外外標(biāo)準(zhǔn)準(zhǔn)C開發(fā)方方式后后,可可以更更有效效減少少中國國移動動在硬硬件上上的投投入,,在數(shù)數(shù)據(jù)庫庫的投投入。。可以把把節(jié)省省的成成本投投一部部分到到應(yīng)用用軟件件廠商商上。。這樣樣,中中國移移動就就可以以和應(yīng)應(yīng)用軟軟件廠廠商實實現(xiàn)共共贏。。這也也是IT業(yè)界的的發(fā)展展趨勢勢。至于hadoop方案,,客戶戶統(tǒng)一一視圖圖標(biāo)簽簽月表表每月月生成成一次次,日日表每每日按按生產(chǎn)產(chǎn)一次次。生生成后后為靜靜態(tài)數(shù)數(shù)據(jù),,每日日上班班時間間數(shù)據(jù)據(jù)不會會更新新,為為靜態(tài)態(tài)數(shù)據(jù)據(jù)。方案2細(xì)節(jié):基于此特點點,可以在在每日凌晨晨把客戶統(tǒng)統(tǒng)一視圖數(shù)數(shù)據(jù)加載到到hadoop中,白天訪訪問時直接接查詢數(shù)據(jù)據(jù),速度快快,效率高高。數(shù)據(jù)加載到到內(nèi)存數(shù)據(jù)據(jù)庫中做查查詢,我目目前用到的的是solo+lucene,有的同事事用的是MongoDB。云計算方案案,應(yīng)該是是可以考慮慮借鑒谷歌歌做搜索查查詢這塊的的成功經(jīng)驗驗。云計算方案案,貌似用用流計算也也不錯。Yahoo的S4聽說挺不錯錯。《論中國》西方戰(zhàn)略家家思考如何何在關(guān)鍵點點上集結(jié)優(yōu)優(yōu)勢兵力,,而孫子研研究如何在在政治和心心理上取得得優(yōu)勢地位位,從而確確保勝利。。西方戰(zhàn)略略家通過打打勝仗檢驗驗自己的理理論,孫子子則通過不不戰(zhàn)而勝檢檢驗自己的的理論。亨利·基辛格個人建議::平時多積累累,“功功夫在詩外外”多做SWOT分析多關(guān)注大環(huán)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 26342-2024國際間遺體轉(zhuǎn)運棺柩
- 高考地理一輪復(fù)習(xí)第四章地球上的水及其運動第四節(jié)海-氣相互作用課件
- 吉林省德惠市第七中學(xué)七年級地理上冊 第一章 地球和地圖綜合教案 (新版)新人教版
- 二年級品德與生活上冊 3.3 做個快樂鳥3教學(xué)設(shè)計 新人教版
- 2024-2025學(xué)年高中政治上學(xué)期第4周《文化的繼承性與文化發(fā)展》教學(xué)設(shè)計
- 元稹-《菊花》課件
- 裝修甲醛合同(2篇)
- 2020-2024年上海市春考語文真題試卷匯編含答案
- 西南林業(yè)大學(xué)《地理學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 裝在套子里的人 (公開課獲獎?wù)n件)
- 圓錐曲線的光學(xué)性質(zhì)及其應(yīng)用-(3)-PPT課件
- 三年級上冊語文期中質(zhì)量分析
- 滾珠絲杠基礎(chǔ)知識ppt課件
- (完整版)鋼結(jié)構(gòu)質(zhì)量通病及防治措施
- (高清正版)JJG 342-2014 凝膠色譜儀
- 潛孔鉆安全的操作規(guī)程
- 印刷品供貨總體服務(wù)方案
- 新生兒聽力篩查PPT幻燈片課件
- 招投標(biāo)業(yè)務(wù)工作失誤檢討書
- 網(wǎng)吧公司章程范本
- 同一溶質(zhì)不同濃度溶液混合濃度判斷
評論
0/150
提交評論