中國移動云南公司大數(shù)據(jù)平臺技術(shù)建議書-TAS_第1頁
中國移動云南公司大數(shù)據(jù)平臺技術(shù)建議書-TAS_第2頁
中國移動云南公司大數(shù)據(jù)平臺技術(shù)建議書-TAS_第3頁
中國移動云南公司大數(shù)據(jù)平臺技術(shù)建議書-TAS_第4頁
中國移動云南公司大數(shù)據(jù)平臺技術(shù)建議書-TAS_第5頁
已閱讀5頁,還剩51頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

PAGEV中國移動云南公司大數(shù)據(jù)平臺技術(shù)建議書編寫編寫時(shí)間2014-12-23審批陳娟審批時(shí)間文檔版本VX.X中國移動云南公司信息技術(shù)中心版權(quán)所有文檔中的全部內(nèi)容屬中國移動云南公司信息技術(shù)中心所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。文檔修訂摘要日期修訂號描述修訂人審閱人審閱日期2014-12-23V1.0云南移動大數(shù)據(jù)項(xiàng)目技術(shù)建議書

目 錄1. 需求概述 11.1. 建設(shè)背景 11.2. 系統(tǒng)目標(biāo)定位 11.3. 系統(tǒng)建設(shè)原則 21.4. 業(yè)務(wù)框架 22. 系統(tǒng)概述 32.1. 系統(tǒng)功能框架 32.2. 系統(tǒng)技術(shù)架構(gòu) 42.3. 兩階段的建設(shè)考慮 53. 業(yè)務(wù)需求 63.1. 標(biāo)簽體系 63.1.1. 標(biāo)簽體系構(gòu)建 6. 需求目的 6. 分析維度 6. 分析指標(biāo) 7. 界面展示要求 7. 查詢條件 7. 功能優(yōu)先級 7. 其它要求 7. 使用對象 7. 數(shù)據(jù)保存周期 73.1.2. 標(biāo)簽智能化推薦 73.1.3. 客戶標(biāo)簽完善 73.2. 流量價(jià)值提升 73.2.1. 流量價(jià)值提升影響因素分析 73.2.2. 惡意刷機(jī)用戶分析 73.2.3. 終端信息自動運(yùn)維 83.3. 客服專區(qū) 83.3.1. 客服KPI監(jiān)控 83.3.2. 客服流程分析 83.3.3. 投訴分類、熱點(diǎn)分析 83.3.4. 投訴輿情分析 83.3.5. 區(qū)域投訴分析 83.4. 網(wǎng)絡(luò)智能分析 83.4.1. 行業(yè)APN業(yè)務(wù)保障智能分析與監(jiān)控 83.4.2. 小區(qū)網(wǎng)絡(luò)監(jiān)控、分析 83.4.3. PCC管控策略分析與監(jiān)控 83.5. 星級專區(qū) 83.6. 融合專區(qū) 83.7. 4G專區(qū)優(yōu)化 83.8. 集團(tuán)專區(qū) 83.9. IMCD智慧營銷場景 83.9.1. 場景名稱(舉例) 84. 一線支撐需求 104.1. 自助分析優(yōu)化 10. 功能說明 10. 功能描述 10. 關(guān)鍵技術(shù) 104.2. 一線支撐APP 114.2.1. 一線營銷小助手APP 114.2.2. 指標(biāo)跟蹤APP 114.2.3. 客戶特征APP 114.2.4. 一線量酬APP 114.3. 增值業(yè)務(wù)支撐APP 114.3.1. 客戶洞察小助手 114.3.2. 指標(biāo)訂閱小助手 114.3.3. 個(gè)性化營銷信息推送小助手 114.3.4. 飛信流失用戶每日預(yù)警小助手 114.3.5. 業(yè)務(wù)管理人員移動小助手 115. 基礎(chǔ)功能需求 115.1. 數(shù)據(jù)源采集與解析 115.1.1. 源數(shù)據(jù)擴(kuò)展 115.1.2. 信息增強(qiáng) 115.2. 數(shù)據(jù)處理與交換 125.2.1. 數(shù)據(jù)融合 125.2.2. 跨平臺數(shù)據(jù)處理 125.2.3. 跨平臺統(tǒng)一調(diào)度 125.2.4. 數(shù)據(jù)處理監(jiān)控 125.3. 數(shù)據(jù)融合 125.3.1. 數(shù)據(jù)融合要求 125.3.2. 數(shù)據(jù)融合模型設(shè)計(jì)及管理 125.3.3. 數(shù)據(jù)融合流程及實(shí)現(xiàn) 12. 數(shù)據(jù)融合總體流程 12. DB2與MPP數(shù)據(jù)庫融合 12. DB2與Hadoop平臺數(shù)據(jù)融合 12. MPP數(shù)據(jù)庫與Hadoop平臺數(shù)據(jù)融合 125.4. IMCD智慧營銷 125.4.1. 配置界面優(yōu)化 12. 功能說明 12. 功能描述 13. 關(guān)鍵技術(shù) 135.4.2. 策略中心 13. 功能說明 13. 功能描述 13. 關(guān)鍵技術(shù) 135.4.3. 事件中心 13. 功能說明 13. 功能描述 13. 關(guān)鍵技術(shù) 135.4.4. 個(gè)性化推薦引擎 14. 功能說明 14. 功能描述 14. 關(guān)鍵技術(shù) 145.4.5. 觸點(diǎn)渠道拓展 14. 功能說明 14. 功能描述 14. 關(guān)鍵技術(shù) 145.5. 投訴智能處理 155.5.1. 投訴文本分詞、關(guān)鍵詞處理 155.5.2. 投訴文本挖掘 155.5.3. 投訴文本營銷商機(jī)挖掘 155.6. 服務(wù)開放 155.6.1. 服務(wù)開放平臺 155.6.2. 自媒體廣告平臺 155.7. 綜合管控 155.7.1. 數(shù)據(jù)資產(chǎn)管理優(yōu)化 155.7.2. 平臺多租戶管理 155.7.3. 平臺安全管理 156. 上游平臺改造需求 156.1. Billing重構(gòu) 156.1.1. 接口改造 156.1.2. 一經(jīng)模型改造 156.1.3. 二經(jīng)模型改造 156.1.4. MIS模型改造 156.1.5. 數(shù)據(jù)核對 166.2. CRM云化 166.2.1. 接口改造 166.2.2. 一經(jīng)模型改造 166.2.3. 二經(jīng)模型改造 166.2.4. MIS模型改造 166.2.5. 數(shù)據(jù)核對 167. 附錄 167.1. 二級目錄 167.1.1. 三級目錄 16. 四級目錄 16.1. 五級目錄 16中國移動云南公司大數(shù)據(jù)營銷項(xiàng)目需求規(guī)格說明書第37頁需求概述建設(shè)背景利用大數(shù)據(jù)能力實(shí)現(xiàn)的精細(xì)化、智能化、個(gè)性化的市場營銷與服務(wù),以及與之配套的數(shù)據(jù)分析驅(qū)動的方案策劃、營銷執(zhí)行、渠道協(xié)同、接觸管理、過程優(yōu)化、效果評估等功能。提高大數(shù)據(jù)在市場營銷與客戶服務(wù)中的應(yīng)用水平,提升企業(yè)層面的整體營銷與服務(wù)能力。目前,我省通過長期實(shí)踐,在營銷支撐方面積累了豐富的經(jīng)驗(yàn),如客戶標(biāo)簽庫,幫助實(shí)現(xiàn)深度的客戶洞察;開發(fā)了營銷管理平臺,部分實(shí)現(xiàn)了營銷活動的策劃、審核、執(zhí)行、評估的閉環(huán)管理,整合并打通了不同類型的多種營銷渠道與觸點(diǎn),如短信、外呼、前臺、網(wǎng)廳、掌廳、業(yè)務(wù)平臺等;并在流量經(jīng)營、存量保有、業(yè)務(wù)營銷方面了作了積極有意的嘗試,通過系統(tǒng)支撐的手段協(xié)同營銷在各個(gè)渠道的執(zhí)行。但是,現(xiàn)有的數(shù)字化營銷實(shí)踐也存在著一些局限性與片面性,包括:1)大數(shù)據(jù)應(yīng)用尚處于初級階段,受限于大數(shù)據(jù)能力未能充分發(fā)揮,客戶需求洞察能力不足,很多營銷仍然依賴于人工經(jīng)驗(yàn),大數(shù)據(jù)價(jià)值體現(xiàn)不足;2)渠道協(xié)同能力不足,渠道之間缺乏協(xié)同,造成跨渠道、多波次的營銷活動開展能力不足,營銷資源未能到充分利用,并造成重復(fù)接觸、重復(fù)打擾等問題;3)實(shí)時(shí)事件驅(qū)動的營銷能力不足,缺乏對關(guān)鍵事件的實(shí)時(shí)捕捉,以及后續(xù)的自動化營銷過程;4)營銷經(jīng)驗(yàn)的沉淀不足,營銷活動往往按需策劃,好的營銷活動往往未能通過適當(dāng)抽象轉(zhuǎn)化為營銷,便于后續(xù)的復(fù)用與共享。系統(tǒng)目標(biāo)定位以基于大數(shù)據(jù)的客戶上網(wǎng)行為挖掘?yàn)榛A(chǔ),通過智能營銷管理平臺,實(shí)現(xiàn)目標(biāo)客戶準(zhǔn)識別、營銷產(chǎn)品精匹配、營銷渠道全方位,實(shí)時(shí)和準(zhǔn)實(shí)時(shí)互搭配,重點(diǎn)服務(wù)于4G客戶遷移、存量維系、流量經(jīng)營、終端營銷、內(nèi)容營銷等領(lǐng)域。從產(chǎn)品、客戶、渠道、關(guān)鍵時(shí)刻、商機(jī)等多個(gè)維度沉淀和落地幾類營銷場景。通過綜合網(wǎng)關(guān)的上網(wǎng)觸點(diǎn)感知和流處理技術(shù)的位置觸點(diǎn)感知實(shí)現(xiàn)幾類實(shí)時(shí)營銷的落地。上網(wǎng)日志留存系統(tǒng)的經(jīng)分適應(yīng)性改造,提升大數(shù)據(jù)平臺的數(shù)據(jù)來源,在數(shù)據(jù)質(zhì)量、響應(yīng)及時(shí)性、信息承載等方面的能力,為用戶上網(wǎng)行為和基于位置的深度分析挖掘,用戶需求深度洞察等提供基礎(chǔ)能力。營銷管理平臺的智能化改造,實(shí)現(xiàn)營銷觸點(diǎn)的自動感知、營銷渠道的統(tǒng)一管控、營銷執(zhí)行的科學(xué)反饋;并提升目標(biāo)客戶識別、產(chǎn)品策略匹配,渠道選型的綜合營銷策劃能力。系統(tǒng)建設(shè)原則本期工程建設(shè)滿足以下原則:開放性與先進(jìn)性:基于開放式標(biāo)準(zhǔn),采用先進(jìn)成熟的設(shè)備和技術(shù),確保系統(tǒng)的技術(shù)先進(jìn)性,保證投資的有效性和延續(xù)性。靈活性與可擴(kuò)展性:方便擴(kuò)展設(shè)備容量和提升設(shè)備性能;支持業(yè)務(wù)處理的靈活的、參數(shù)化配置,業(yè)務(wù)功能的重組與更新的靈活性,新的應(yīng)用業(yè)務(wù)可靈活加載,并不影響原有業(yè)務(wù)流程。安全性與可靠性:提供良好的安全可靠性策略,支持多種安全可靠性技術(shù)手段,制定嚴(yán)格的安全可靠性管理措施。準(zhǔn)確性與實(shí)時(shí)性:保證系統(tǒng)數(shù)據(jù)處理的準(zhǔn)確性,提供多種核查手段。對實(shí)時(shí)性要求高的處理提供特殊有效的處理方法。易用性與可管理性:對于用戶可以方便、快捷的使用業(yè)務(wù),對于用戶可以快速的提供內(nèi)容服務(wù)。平臺本身應(yīng)具有良好的操作界面、詳細(xì)的幫助信息,系統(tǒng)參數(shù)的維護(hù)與管理通過操作界面完成。平臺應(yīng)具有良好的管理手段,可管理網(wǎng)絡(luò)、服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫及應(yīng)用等。業(yè)務(wù)框架以大數(shù)據(jù)資源為依托,通過客戶標(biāo)簽與產(chǎn)品標(biāo)簽實(shí)現(xiàn)客戶群超細(xì)分,捕捉客戶群事件性即時(shí)需求和群體性商機(jī),適時(shí)開展針對細(xì)分客戶群的靜態(tài)、準(zhǔn)實(shí)時(shí)甚至實(shí)時(shí)營銷。整個(gè)營銷過程執(zhí)行之前,需要針對客戶數(shù)據(jù)、產(chǎn)品資源進(jìn)行準(zhǔn)備,部署事件和商機(jī)規(guī)則,由事件/商機(jī)觸發(fā)營銷活動,當(dāng)制定事件或商機(jī)發(fā)生時(shí),匹配出客戶-產(chǎn)品-渠道的營銷活動方案,開展多波次營銷,實(shí)現(xiàn)基于關(guān)鍵時(shí)刻的針對性準(zhǔn)實(shí)時(shí)或?qū)崟r(shí)營銷,并就營銷效果進(jìn)行及時(shí)跟蹤和數(shù)據(jù)評估,為后續(xù)營銷活動規(guī)則、客戶標(biāo)簽的不斷優(yōu)化迭代提供依據(jù),推進(jìn)營銷方案的不斷完善。因此,將營銷過程從營銷準(zhǔn)備、事件/商機(jī)捕捉、客戶-產(chǎn)品-渠道匹配、活動開展及效果評估五個(gè)環(huán)節(jié),抽象出相關(guān)營銷要素配置工作,形成5個(gè)核心營銷要素:目標(biāo)、產(chǎn)品、營銷事件、營銷渠道、與之相關(guān)商機(jī)。同時(shí),隨著營銷的深度開展,將逐步形成海量的營銷方案。為準(zhǔn)實(shí)時(shí)或?qū)崟r(shí)的營銷事件自動智能匹配相應(yīng)的營銷,需要對各類營銷活動進(jìn)行統(tǒng)一管理。系統(tǒng)概述系統(tǒng)功能框架系統(tǒng)技術(shù)架構(gòu)技術(shù)選型及亮點(diǎn)采用Flume計(jì)算框架,實(shí)現(xiàn)文件和消息采集與解析;采用流式爬蟲、中文分詞技術(shù),實(shí)現(xiàn)互聯(lián)網(wǎng)網(wǎng)頁信息實(shí)時(shí)采集。引入Hadoop2.0,在1個(gè)集群上承載批處理和流處理,基于Yarn資源管理可最大效率利用資源,實(shí)現(xiàn)消峰填谷。在Yarn基礎(chǔ)上,引入Storm計(jì)算框架,通過Hive、Mahout、RHadoop實(shí)現(xiàn)海量數(shù)據(jù)計(jì)算和全量數(shù)據(jù)挖掘;引入VoltDB內(nèi)存數(shù)據(jù)庫,結(jié)合Esper,實(shí)現(xiàn)基于CEP的實(shí)時(shí)動態(tài)營銷。支持分析中心架構(gòu)差異化,可有效保護(hù)現(xiàn)有投資;同時(shí),積極的引入MySQL,利用Sharding實(shí)現(xiàn)數(shù)據(jù)快速訪問,為未來技術(shù)替換縮減投資奠定基礎(chǔ)。兩階段的建設(shè)考慮依據(jù)云南移動各業(yè)務(wù)部門對大數(shù)據(jù)平臺支撐營銷場景需求,結(jié)合云南現(xiàn)有大數(shù)據(jù)平臺建設(shè)情況,參考其它兄弟省份大數(shù)據(jù)平臺建設(shè)經(jīng)驗(yàn),建議云南移動大數(shù)據(jù)平臺建設(shè)分階段有序推進(jìn),達(dá)到“階段目標(biāo)、過程可控、效果可見”的目標(biāo)。第一階段:繼續(xù)利用融合感知分析(C3)能力,通過擴(kuò)容hadoop平臺,提升大數(shù)據(jù)處理能力;升級智能營銷(IMCD)軟件并擴(kuò)容智能營銷(IMCD),實(shí)現(xiàn)與綜合網(wǎng)關(guān)對接,實(shí)現(xiàn)實(shí)時(shí)營銷;擴(kuò)充并完善客戶標(biāo)簽、數(shù)據(jù)挖掘,為精準(zhǔn)營銷奠定基礎(chǔ);升級互聯(lián)網(wǎng)內(nèi)容規(guī)則及實(shí)例庫,細(xì)化互聯(lián)網(wǎng)分類及準(zhǔn)確性;探索客戶服務(wù)投訴文本分析。從而滿足業(yè)務(wù)部門所提營銷及平臺建設(shè)技術(shù)要求。第二階段:上網(wǎng)日志留存系統(tǒng)改造,取代融合感知分析(C3)的采集和初級預(yù)處理能力,構(gòu)建信息識別增強(qiáng)模塊實(shí)現(xiàn)對URL信息的識別與增強(qiáng);升級互聯(lián)網(wǎng)內(nèi)容解析軟件,并擴(kuò)容互聯(lián)網(wǎng)爬蟲、實(shí)例庫匹配功能,提升互聯(lián)網(wǎng)內(nèi)容分類、解析能力;改造智能營銷(IMCD)產(chǎn)品,使用flume+storm技術(shù)實(shí)現(xiàn)與信息增強(qiáng)模塊對接,以支撐融合感知分析(C3)下線后的實(shí)時(shí)營銷場景;依據(jù)新的數(shù)據(jù)源和業(yè)務(wù)發(fā)展需要,擴(kuò)充并完善客戶標(biāo)簽,優(yōu)化并驗(yàn)證數(shù)據(jù)挖掘模型。業(yè)務(wù)需求標(biāo)簽體系標(biāo)簽體系構(gòu)建需求目的/*簡要說明此功能分析主要內(nèi)容及分析目標(biāo)。*/如:目前普通的營銷方式(贈送食用品,積分等)不能滿足用戶的多樣性需求,為擴(kuò)大商盟商戶合作,同時(shí)也能夠更貼近客戶,提升客戶的體驗(yàn),通過商盟商戶合作,實(shí)現(xiàn)向不同用戶根據(jù)偏好或需求,通過贈送電子購物券等方式向用戶推薦不同的商盟商戶,建立完善良好的營銷模式。分析維度日期:月地域:地市、區(qū)縣商圈:商圈名稱用戶類型:居住、工作、駐留品牌:全球通,動感地帶,神州行終端類型:是否智能終端近3月ARPU:停留時(shí)長:分析指標(biāo)界面展示要求查詢條件功能優(yōu)先級其它要求提供分頁展示功能;下載清單字段可以包含用戶一些其他消費(fèi),收入等信息;營銷目標(biāo)用戶數(shù)提供清單下載功能;使用對象數(shù)據(jù)保存周期標(biāo)簽智能化推薦客戶標(biāo)簽完善流量價(jià)值提升流量提升驅(qū)動力因素分析需求目的為幫助運(yùn)營商完成提升流量目標(biāo),從傳統(tǒng)的單靠業(yè)務(wù)營銷知識入手轉(zhuǎn)變?yōu)橥ㄟ^自動化手段分析挖掘流量驅(qū)動因素,從而做到拉伸流量規(guī)模。產(chǎn)品從流量使用的對象,即從用戶方面入手,分析用戶流量使用習(xí)慣。通過對用戶群進(jìn)行篩選分類,分析用戶上網(wǎng)行為及流量使用情況,挖掘?qū)α髁孔儎佑绊懽钪匾囊蛩?,全面分析因素?qū)動流量變動的影響度,分析結(jié)果可為提升流量的策略提供強(qiáng)有力、精準(zhǔn)的數(shù)據(jù)支撐。功能概述流量驅(qū)動力因素分析通過對一些固化沉淀出的流量影響因素,經(jīng)過一系列的指標(biāo)選取、相似度計(jì)算和短發(fā)分析,輸入影響流量驅(qū)動的因素列表以及對應(yīng)的影響度大小。主要是為用戶提供一個(gè)制定營銷策略提升流量的數(shù)據(jù)支撐平臺。流量驅(qū)動力因素分析的過程是將影響因素、數(shù)據(jù)經(jīng)過規(guī)則篩選、算法分析,輸出對流量驅(qū)動影響因素及其對應(yīng)的影響程度。此過程中根據(jù)既定規(guī)則和數(shù)據(jù)類型從不同的口徑獲取數(shù)據(jù),通過對因素指標(biāo)模板的管理、初選,并結(jié)合數(shù)據(jù)篩選出相關(guān)性較大的指標(biāo),后通過算法分析出因素已經(jīng)因素的影響度。關(guān)鍵技術(shù)建立指標(biāo)模板,用戶根據(jù)省份業(yè)務(wù),選擇初選因素指標(biāo)。通過觀察用戶的上網(wǎng)行為數(shù)據(jù)和專業(yè)人員的業(yè)務(wù)經(jīng)驗(yàn)提煉沉淀出100個(gè)流量波動影響因素作為固化的模板。例如:可用流量較上月增幅、近3個(gè)月超套的次數(shù)、是否變更為3G手機(jī)用戶、應(yīng)用消耗流量較上月增幅、是否變更為4G手機(jī)用戶、新增使用應(yīng)用的個(gè)數(shù)、是否流量套餐包升級等等。用戶根據(jù)本省業(yè)務(wù),對提供的一百個(gè)指標(biāo)模板進(jìn)行選擇,選擇可能對流量產(chǎn)品影響的指標(biāo)。用戶樣板選取的規(guī)模和類型。樣本的數(shù)據(jù)量,需要根據(jù)部署省份的數(shù)據(jù)情況進(jìn)行計(jì)算,推算樣本的最小數(shù)據(jù)量,以保證不會影響后續(xù)模型算法的準(zhǔn)確性。由于在不同的置信度和不同精度水平下,需要不同的樣本量做保證,因此,在樣本選取前,需要對部署省份數(shù)據(jù)進(jìn)行分析。例如:樣本量確定過程假設(shè)置信度為95%,最大系統(tǒng)誤差不超過3%,即E=3%,a=99%=0.99,得:N=1863.36。樣本量數(shù)據(jù)確定結(jié)果考慮到以為建模慣例、數(shù)據(jù)處理能力等,選取正、負(fù)樣本共計(jì)10萬戶。其中正、負(fù)樣本的數(shù)量比例為1:2。將樣本以9:1為比例,平均劃分為兩部分,一部分為正式樣本數(shù)據(jù),供用戶模型計(jì)算使用;另一部分為測試樣本數(shù)據(jù),供用戶驗(yàn)證數(shù)據(jù)使用。對于用戶流量提升而言,可從多角度(流量變化、套餐、終端等)分析決定流量提升的關(guān)鍵性因素,在各個(gè)不同角度下,分析的因素不盡相同,亞信方案提供給客戶進(jìn)行用戶分群的角度選擇,以便后續(xù)模型計(jì)算更加精準(zhǔn)。在可選擇的同時(shí),亞信也會憑借業(yè)務(wù)經(jīng)驗(yàn)給用戶推薦貼合業(yè)務(wù)的分群角度。篩選影響流量的指標(biāo)原始選擇的指標(biāo),大體依靠業(yè)務(wù)經(jīng)驗(yàn),導(dǎo)致指標(biāo)繁雜、無章可循,并且僅以業(yè)務(wù)為角度進(jìn)行了梳理,影響后續(xù)模型計(jì)算的結(jié)果和效率,需要從數(shù)據(jù)角度進(jìn)行精簡、篩選和梳理,經(jīng)過Pearson系數(shù)相關(guān)度,篩選后的模型可用指標(biāo)。通過模型計(jì)算,進(jìn)行因素分析亞信流量驅(qū)動力因素分析專題,以指標(biāo)篩選后的流量因素和正式樣本數(shù)據(jù)兩個(gè)數(shù)據(jù)源為依據(jù),以當(dāng)前普適性較高的計(jì)算模型為計(jì)算基礎(chǔ),分別根據(jù)各個(gè)算法,計(jì)算出該算法下的流量因素、因素影響度,還有其算法對應(yīng)的正確率,供用戶進(jìn)行選擇。模型計(jì)算規(guī)則集由用戶選擇算法,自動生成規(guī)則集。規(guī)則集中每一條線為各個(gè)節(jié)點(diǎn)組成的規(guī)則。模型驗(yàn)證,跟蹤分析流量波動群用戶,評估改進(jìn)算法產(chǎn)品根據(jù)算法計(jì)算出的規(guī)則集和測試樣本數(shù)據(jù)兩部分共同生成驗(yàn)證結(jié)果。用戶群體的跟蹤分析,更深層次的了解用戶使用流量的波動曲線,挖掘更具有影響力的因素;跟蹤用戶在接收營銷推廣之后一段時(shí)間內(nèi)使用流量情況,查看基于驅(qū)動因素分析數(shù)據(jù)建立起的營銷活動對用戶流量提升的影響效果。智能推薦引擎概述智能推薦引擎是基于大數(shù)據(jù)平臺的數(shù)據(jù)和計(jì)算能力,通過對各類數(shù)據(jù)的分析、計(jì)算、關(guān)聯(lián)、預(yù)測等方式,將對的產(chǎn)品推薦給對的人,為精準(zhǔn)營銷提供能力支撐。智能推薦引擎提供的能力包括:產(chǎn)品推薦能力(找到適合推薦的產(chǎn)品,例如,活性最高的應(yīng)用、熱門的終端等等),用戶推薦能力(找到每一類產(chǎn)品適合推薦的用戶群)以及基于大數(shù)據(jù)挖掘的效果評估。與現(xiàn)有營銷流程的整合集成方案如下:與IMCD系統(tǒng)接口該接口用于在TAS智能推薦引擎與IMCD系統(tǒng)間通過FTP方式進(jìn)行數(shù)據(jù)同步。接口采用FTP方式進(jìn)行數(shù)據(jù)傳輸,TAS與IMCD需互相開放文件存儲服務(wù)器及路徑、定時(shí)將封裝后的文件向?qū)Ψ缴蟼?;需同步的?shù)據(jù)文件應(yīng)以csv或xml文本方式保存,并遵循csv或xml格式規(guī)則;數(shù)據(jù)文件統(tǒng)一命名格式:TypeSubTypeMmDdMmDd.INR;Type代表數(shù)據(jù)類型;SubType代表子數(shù)據(jù)類型,主要營銷效果評估報(bào)表中,多維度的統(tǒng)計(jì)數(shù)據(jù)需要生成多份文件;MmDdMmDd代表數(shù)據(jù)的時(shí)間范圍,其中第一個(gè)MmDd是數(shù)據(jù)處理的起始日期、第二個(gè)MmDd是數(shù)據(jù)處理的完成日期;為了檢查是否有文件丟失,接口層生成完一個(gè)數(shù)據(jù)文件后即生成一個(gè)校驗(yàn)文件,文件名也需要包含生成時(shí)間信息(如TypeMmDdMmDd.CHK)當(dāng)沒有數(shù)據(jù)也要按照約定的時(shí)間生成文件,表示系統(tǒng)工作正常。與COC系統(tǒng)接口該接口用于在TAS智能推薦引擎與COC系統(tǒng)間通過FTP方式進(jìn)行數(shù)據(jù)同步。接口采用FTP方式進(jìn)行數(shù)據(jù)傳輸,COC需互相開放文件存儲服務(wù)器及路徑、TAS定時(shí)將封裝后的文件向?qū)Ψ缴蟼?;TAS向COC同步的數(shù)據(jù)類型包括:用戶應(yīng)用偏好標(biāo)識與用戶渠道偏好標(biāo)識;需同步的數(shù)據(jù)文件應(yīng)以csv或xml文本方式保存,并遵循csv或xml格式規(guī)則;數(shù)據(jù)文件統(tǒng)一命名格式:TypeMmDd.INR;Type代表數(shù)據(jù)類型;MmDd代表數(shù)據(jù)生成的時(shí)間;為了檢查是否有文件丟失,接口層生成完一個(gè)數(shù)據(jù)文件后即生成一個(gè)校驗(yàn)文件,文件名也需要包含生成時(shí)間信息(如TypeMmDdMmDd.CHK)當(dāng)沒有數(shù)據(jù)也要按照約定的時(shí)間生成文件,表示系統(tǒng)工作正常。個(gè)性化應(yīng)用推薦需求目的在流量時(shí)代,業(yè)務(wù)部門需求與大數(shù)據(jù)緊密關(guān)聯(lián),利用大數(shù)據(jù)推動運(yùn)營流程轉(zhuǎn)變、推動商業(yè)模式變革。個(gè)性化應(yīng)用正是形成以大數(shù)據(jù)分析驅(qū)動的智能營銷閉環(huán)管理流程,實(shí)現(xiàn)營銷策劃的精細(xì)化和智能化,助力電信運(yùn)營商提升4G用戶流量規(guī)模。功能概述產(chǎn)品從應(yīng)用安裝使用的對象,即從用戶方面入手,活性分析得出用戶熱門應(yīng)用,實(shí)現(xiàn)自動推薦;其次對全量用戶通過協(xié)同過濾篩選后再從中挑選出4G用戶(4G用戶口徑:使用4G終端、開通4G套餐、4G流量包),給予個(gè)性化的應(yīng)用推薦;對推薦結(jié)果進(jìn)行多維度的效果評估,通過安裝應(yīng)用、監(jiān)控應(yīng)用的使用來推動用戶的流量提升。具體實(shí)現(xiàn)功能包括:用戶業(yè)務(wù)偏好分析、應(yīng)用活性分析、應(yīng)用使用特性分析、協(xié)同過濾算法、營銷效果多維分析。關(guān)鍵技術(shù)整體功能框架:1.用戶應(yīng)用偏好分析基于DPI流量話單(HTTP話單或通用話單)中計(jì)算的應(yīng)用訪問量、訪問時(shí)長、訪問流量等多維度的指標(biāo),通過一系列規(guī)則計(jì)算得出用戶對其所已使用過應(yīng)用的偏好得分。2.應(yīng)用活性分析應(yīng)用活性分析從靜態(tài)和動態(tài)視角對已識別應(yīng)用的用戶保有率、流量保有率等關(guān)鍵指標(biāo)進(jìn)行統(tǒng)計(jì),評估應(yīng)用的用戶粘性和對流量提升的作用。應(yīng)用活性分析的用戶樣本是各月的應(yīng)用‘新裝用戶’,分析周期為3個(gè)月。即在2015年1月統(tǒng)計(jì)出各個(gè)應(yīng)用的新裝用戶后,分別從靜態(tài)視角和動態(tài)視角對相關(guān)指標(biāo)進(jìn)行統(tǒng)計(jì)。其中,靜態(tài)視角主要關(guān)注第N月新裝用戶在第N+3月的用戶保有率和流量保有率指標(biāo)現(xiàn)狀;動態(tài)視角主要關(guān)注‘增幅’類指標(biāo),以及流量保有率和用戶保有率等指標(biāo)在分析周期內(nèi)的變化趨勢。3.應(yīng)用特性分析系統(tǒng)通過最佳推薦應(yīng)用分析提供默認(rèn)的最佳推薦應(yīng)用列表。最佳推薦應(yīng)用列表產(chǎn)生的原則是:根據(jù)靜態(tài)活性分析結(jié)果,分別選取用戶保有率和流量保有率TOP30的應(yīng)用,取并集同時(shí)去重;根據(jù)動態(tài)活性分析結(jié)果,分別選取用戶保有率增幅和流量保有率增幅TOP30的應(yīng)用,取并集同時(shí)去重;針對最終選取出的應(yīng)用中,判斷應(yīng)用使用類型,過濾出戶均流量‘上升型’的應(yīng)用。如果過濾出的應(yīng)用數(shù)量不足30個(gè),則選取用戶保有率最高的應(yīng)用進(jìn)行補(bǔ)全;如果過濾出的應(yīng)用數(shù)量大于30個(gè),則選取用戶保有率最低的應(yīng)用進(jìn)行過濾;目前主要參考新裝與存量用戶的戶均流量變化趨勢對比來選擇最佳推薦應(yīng)用,后續(xù)可疊加指標(biāo)和判定規(guī)則,采用戶均訪問量、戶均流量組合判斷的方式來選定推薦推薦應(yīng)用且判定規(guī)則可由用戶選擇或配置4.協(xié)同過濾算法1)協(xié)同過濾算法用于基于用戶相似度或應(yīng)用的相似度來分析和圈定目標(biāo)推薦用戶。它的實(shí)質(zhì)是根據(jù)用戶對應(yīng)用的偏好度,利用相似度算法生成用戶相似度矩陣和應(yīng)用相似度矩陣,計(jì)算出用戶對被推薦應(yīng)用的偏好度,根據(jù)這個(gè)偏好度來確定各應(yīng)用的目標(biāo)推薦用戶。2)相似度矩陣計(jì)算得出后,可通過設(shè)定固定數(shù)量的鄰居或基于相似度門檻來過濾鄰居用戶或鄰居物品。根據(jù)經(jīng)驗(yàn),用戶相似度矩陣計(jì)算量較大、物品相似度矩陣計(jì)算量較??;此外,余弦相似度和皮爾遜相似度算法是最適用于相似度矩陣計(jì)算的2類算法3)目標(biāo)用戶二次過濾功能主要用于當(dāng)協(xié)同過濾后得到的推薦用戶規(guī)模較大時(shí),可根據(jù)上述指標(biāo)進(jìn)行過濾,縮小用戶規(guī)模4)對篩選出的用戶再次過濾,只取出4G用戶。(4G用戶口徑:使用4G終端、開通4G套餐、4G流量包)5.營銷效果評估計(jì)劃推薦用戶數(shù)和實(shí)際傳播用戶數(shù),IMCD通過外部接口向TAS進(jìn)行同步后。一般從傳播開始前一周到傳播結(jié)束后一周作為評估周期,為了增加指標(biāo)效果,可延長統(tǒng)計(jì)周期至傳播前后1個(gè)月,傳播效果分析中,指標(biāo)統(tǒng)計(jì)均以‘實(shí)際傳播用戶’為數(shù)據(jù)樣本總體。用戶可以查詢到歷史推薦的列表,能查看到當(dāng)時(shí)具體推薦應(yīng)用的內(nèi)容以及用戶數(shù)規(guī)模;并可對具體的推薦活動進(jìn)行效果評估。主要從應(yīng)用及區(qū)域兩個(gè)維度對歷史活動進(jìn)行分析評估推薦效果。個(gè)性化主套餐推薦需求目的隨著運(yùn)營商提供的套餐方案越來越多,套餐內(nèi)提供的產(chǎn)品種類繁多,每種產(chǎn)品的適用條件又不盡相同,用戶往往不能清楚的知道自己應(yīng)該使用哪一種套餐;新的套餐也因?yàn)樾麄魇侄斡邢?,無法及時(shí)通知到最適合的用戶。通過個(gè)性化主套餐推薦,及時(shí)的推薦用戶新的套餐或者建議升級主套餐,最大限度地保有存量用戶,在穩(wěn)步提高收入的同時(shí),更能有效的提升用戶感知,降低用戶維系的成本。功能概述首先,基于大數(shù)據(jù)中心的數(shù)據(jù)挖掘分析能力,分析并預(yù)測出用戶下月對各類產(chǎn)品的實(shí)際需求;其次,根據(jù)用戶現(xiàn)在使用的套餐,分析匹配程度;第三,分析現(xiàn)有的所有套餐產(chǎn)品,分析出最合適的主套餐;第四,分析用戶的“月保底消費(fèi)疊加規(guī)則”,濾除 資費(fèi)中大部分是保底消費(fèi)的用戶;第五,輸出需要升級主套餐的用戶以及推薦的目標(biāo)主套餐產(chǎn)品。關(guān)鍵技術(shù)預(yù)測用戶下月對主套餐內(nèi)各種產(chǎn)品的需求根據(jù)用戶使用本地通話、長途通話、流量、WLAN、短信、彩信等產(chǎn)品的實(shí)際數(shù)據(jù),分析出用戶使用每一種產(chǎn)品的歷史變化趨勢,通過產(chǎn)品使用量預(yù)測模型,推算出用戶下個(gè)月對每種產(chǎn)品可能的需求量。主要使用的算法:其中表示在t時(shí)刻的收入值,類似表示在t-1時(shí)刻的收入值,t值可以根據(jù)獲取值的情況,可以取時(shí)、天、周、月等值,是自回歸參數(shù),是滑動平均參數(shù),為殘差。定階:以表示為序列真值,為根據(jù)模型階數(shù)(p,q)得到的估計(jì)值。利用在不同階數(shù)下是否顯著來判斷模型階數(shù)。為此引入殘差方差。=模型的剩余平方和/(實(shí)際觀察值個(gè)數(shù)-模型的參數(shù)個(gè)數(shù)),模型的剩余平方和,實(shí)際觀察值個(gè)數(shù)=N-自回歸階數(shù),對于ARMA(p,q)為,利用a2的變化規(guī)律,確定模型階數(shù)。隨著模型階數(shù)的增大,分母減?。环肿釉诓蛔銛M合時(shí),一直減小,速度較快;過擬合時(shí),分子雖減小,但速度很慢,幾乎不變。a2取決于分子、分母減小的速度。在不足擬合時(shí),a2一直減??;過擬合時(shí),a2卻增大。選擇a2的最低點(diǎn)為模型的最優(yōu)階數(shù)。參數(shù)估計(jì):共有(p+q+1)個(gè)待估參數(shù)1,2,,p與1,2,,q以及2,其估計(jì)量計(jì)算步驟及公式如下:第一步,估計(jì)1,2,,p,利用如下方程組是總體自相關(guān)函數(shù)的估計(jì)值,關(guān)于p的計(jì)算可參照AR(p).附AR(p)模型參數(shù)的最小二乘估計(jì)法:假設(shè)模型AR(p)的參數(shù)估計(jì)值已經(jīng)得到,即有殘差的平方和為:所要求的參數(shù)估計(jì)值是下列方程組的解:,即,j=1,2,…,p。解該方程組,就可得到待估參數(shù)的估計(jì)值。第二步,改寫模型,求1,2,,q以及2的估計(jì)值,將模型改寫為:令,于是上述方程改寫為,構(gòu)成一個(gè)MA模型。按照估計(jì)MA模型參數(shù)的方法,可以得到1,2,,q以及2的估計(jì)值。附MA(q)模型參數(shù)的矩估計(jì)法:將MA(q)模型的自協(xié)方差函數(shù)中的各個(gè)量用估計(jì)量代替,得到:首先求得自協(xié)方差函數(shù)的估計(jì)值,上述方程是一個(gè)包含(q+1)個(gè)待估參數(shù)的非線性方程組,可以用直接法求解。對MA(1)模型的直接法為:對于MA(1)模型,上述方程相應(yīng)地寫成:于是有解:,由于參數(shù)估計(jì)有兩組解,可根據(jù)可逆性條件|1|<1來判斷選取一組。檢驗(yàn):由于ARMA(p,q)模型的識別與估計(jì)是在假設(shè)隨機(jī)擾動項(xiàng)是一白噪聲的基礎(chǔ)上進(jìn)行的,因此,如果估計(jì)的模型確認(rèn)正確的話,殘差應(yīng)代表一白噪聲序列。如果通過所估計(jì)的模型計(jì)算的樣本殘差不代表一白噪聲,則說明模型的識別與估計(jì)有誤,需重新識別與估計(jì)。在實(shí)際檢驗(yàn)時(shí),主要檢驗(yàn)殘差序列是否存在自相關(guān)??衫?檢驗(yàn)來檢驗(yàn)是否拒絕殘差序列為白噪聲的假設(shè)。最終得出每一個(gè)用戶下一個(gè)月使用各種產(chǎn)品的預(yù)測情況,例如:本地通話:200分鐘長途通話:100分鐘漫游通話:50分鐘流量:500MBWLAN:60分鐘短信:50條彩信:10條139郵箱:是分析現(xiàn)有套餐的匹配度按照不同產(chǎn)品符合程度的加權(quán)算法,得出用戶現(xiàn)有套餐組合產(chǎn)品的符合程度得分。確定分類指標(biāo)中的子指標(biāo)得分權(quán)重,用變異系數(shù)權(quán)重法找出三因子的權(quán)重系數(shù);算法如下:為了消除各項(xiàng)評價(jià)指標(biāo)的量綱不同的影響,需要用各項(xiàng)指標(biāo)的變異系數(shù)來衡量各項(xiàng)指標(biāo)取值的差異程度。各項(xiàng)指標(biāo)的變異系數(shù)公式如下:式中:是第項(xiàng)指標(biāo)的變異系數(shù)、也稱為標(biāo)準(zhǔn)差系數(shù);是第項(xiàng)指標(biāo)的標(biāo)準(zhǔn)差;是第項(xiàng)指標(biāo)的平均數(shù)。各項(xiàng)指標(biāo)的權(quán)重為:計(jì)算各指標(biāo)的最大值和最小值;使用最大最小規(guī)格化法對指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,得到標(biāo)準(zhǔn)化指標(biāo)index,具體計(jì)算公式:設(shè)指標(biāo)的最大值為a_max,指標(biāo)的最小值為a_min,則標(biāo)準(zhǔn)化:index=(當(dāng)前值-a_min)/(a_max-a_min)計(jì)算應(yīng)用偏好得分score:score(n)=index(1)*weight(1)+index(2)*weight(2)+index(3)*weight(3)...index(n)*weight(n) index(1):第一個(gè)指標(biāo)值 weight(1):第一個(gè)指標(biāo)值的權(quán)重 index(2): 第二個(gè)指標(biāo)值 weight(2):第二個(gè)指標(biāo)值的權(quán)重 index(3): 第三個(gè)指標(biāo)值 weight(3):第三個(gè)指標(biāo)值的權(quán)重...index(n): 第n個(gè)指標(biāo)值weight(n):第n個(gè)指標(biāo)值的權(quán)重根據(jù)用戶的“月保底消費(fèi)疊加規(guī)則”,濾除不建議再推薦升級主套餐的用戶群。結(jié)合用戶近三個(gè)月出賬費(fèi)用的穩(wěn)定性及規(guī)模(X),假定參加某活動A需要添加保底Y1且活動A將產(chǎn)生消費(fèi)額Y2,用戶參加活動A前已有保底消費(fèi)規(guī)則Y,系統(tǒng)判斷Y+Y1+Y2<X*90%,如果滿足則向用戶推薦活動A,否則不推薦。4G終端推薦需求目的終端引領(lǐng)一直是運(yùn)營商很重要的用戶發(fā)展手段,如今通信市場已正式進(jìn)入4G高速移動互聯(lián)網(wǎng)時(shí)代,而現(xiàn)網(wǎng)中還有大量的2G、3G存量用戶。通過增加對4G終端潛在換機(jī)用戶的精確識別幫助運(yùn)營商正確引導(dǎo)用戶,完成終端換機(jī)推薦,實(shí)現(xiàn)提升流量目標(biāo),同時(shí)讓各合作終端廠商的終端都能夠被推薦給對其感興趣的用戶,是現(xiàn)在需要分析解決的問題。功能概述4G終端推薦通過終端信息獲取、用戶畫像、終端參數(shù)與流量分析、終端算法推薦等流程手段可提供對4G終端潛在換機(jī)用戶的精確識別及4G終端推薦結(jié)果查詢兩大功能。4G終端推薦精準(zhǔn)分析可通過幾種識別方式對用戶進(jìn)行篩選,將適合推薦的人群展現(xiàn)出來:“用戶興趣人群化”識別:基于用戶業(yè)務(wù)使用習(xí)慣,興趣分類及流量數(shù)據(jù)業(yè)務(wù)監(jiān)控進(jìn)行用戶群篩選畫像,圈定終端推薦適配人群。“購買事前動作”識別:基于用戶通信行為和上網(wǎng)行為進(jìn)行分析,通過用戶流量使用行為變化,APP使用行為變化、特定網(wǎng)站上網(wǎng)行為變化等篩選潛在換機(jī)用戶?!敖K端偏好”識別:基于用戶通信消費(fèi)能力、交往圈、用戶位置、上網(wǎng)行為、終端搜索行為、終端參數(shù)配置爬取等匹配用戶適配終端。4G終端推薦結(jié)果查詢可以查詢到歷史推薦列表,查看當(dāng)時(shí)具體推薦終端型號及用戶數(shù)規(guī)模;同時(shí)還可對推薦結(jié)果進(jìn)行效果評估,從終端型號、用戶群、區(qū)域等維度對歷史活動進(jìn)行分析評估推薦效果。關(guān)鍵技術(shù)建立用戶對4G終端偏好的畫像通過用戶分類判斷條件將用戶按照興趣進(jìn)行人群化分類,剔除掉已在用4G終端用戶,分析客戶的基礎(chǔ)信息、消費(fèi)能力及終端使用情況。使用潛在用戶換機(jī)識別模型挖掘剩余用戶中現(xiàn)有終端的生命周期及對終端需求的變化,識別定制終端潛在客戶。推薦引擎組合算法1)基于用戶業(yè)務(wù)偏好推薦算法統(tǒng)計(jì)單用戶各大類業(yè)務(wù)的日均流量和每款待推薦終端平均單用戶各大類業(yè)務(wù)的日均流量。例如:使用pearson相關(guān)系數(shù)的方法,用戶A與小米4終端用戶的相似度可以用如下公式來表達(dá)。代表用戶A每天各大類業(yè)務(wù)的平均流量。P代表各項(xiàng)業(yè)務(wù)的集合。得到計(jì)算結(jié)果:推薦策略:用戶群體業(yè)務(wù)喜好相似度最大;排名規(guī)則:按相似度由高到低排序。2)基于終端性價(jià)比推薦算法為了對現(xiàn)有用戶的終端以及將要推薦的終端進(jìn)行評估,故選取了決定終端性能的重要參數(shù)和終端價(jià)格評估待推薦終端,求出性價(jià)比參數(shù)CP。以部分現(xiàn)網(wǎng)流量top終端為例,求出其性價(jià)比參數(shù)CP并對終端按高中低性價(jià)比的不同進(jìn)行分類。CP>20的終端,我們稱為高性價(jià)比終端。CP<10的終端,我們稱為低性價(jià)比終端。10<CP<20的終端,我們成為中等性價(jià)比終端。推薦策略:推薦高、中性價(jià)比以及高價(jià)低性價(jià)比終端。排名順序:按性價(jià)比參數(shù)由高到低排序。3)基于終端流量預(yù)測值推薦算法屏幕尺寸,屏幕占比,電池容量,CPU性能、內(nèi)存、是否支持4G這些參數(shù)的提升都會促進(jìn)用戶流量的增長。其中屏幕是最重要的促進(jìn)因素。推薦策略:推薦預(yù)測值大于用戶現(xiàn)流量值50%以上的終端。排名順序:待推終端按流量預(yù)測值由高到低排序。通過模型計(jì)算,生成最終推薦4G終端推薦分析經(jīng)過前面的一系列算法計(jì)算會生成一份初始推薦結(jié)果,使用用戶終端偏好分析模型,通過數(shù)據(jù)挖掘算法,從價(jià)格、品牌、功能三個(gè)角度對客戶的終端偏好進(jìn)行深入分析,借助訓(xùn)練模型,得到?jīng)Q策樹規(guī)則集。通過決策樹規(guī)則集輸出終端價(jià)格,終端品牌,終端功能數(shù)據(jù),對挖掘輸出的潛在購機(jī)用戶進(jìn)行購機(jī)營銷,并根據(jù)營銷反饋結(jié)果迭代訓(xùn)練模型,實(shí)現(xiàn)機(jī)器學(xué)習(xí)。決策樹算法說明:對現(xiàn)有用戶進(jìn)行數(shù)據(jù)篩選,提取有終端價(jià)格需求數(shù)據(jù)的用戶相關(guān)信息,并將用戶群隨機(jī)拆分形成訓(xùn)練集和檢驗(yàn)集。訓(xùn)練集和檢驗(yàn)集可依據(jù)決策樹效果交叉檢驗(yàn)。目標(biāo)集為待挖掘用戶的群體,該群體用戶有模型所需的相關(guān)信息,但終端價(jià)格偏好未知。結(jié)果集由目標(biāo)集輸入檢驗(yàn)后的決策樹,得到用戶群的WLAN需求。根據(jù)結(jié)果集的數(shù)據(jù)制定營銷方案,將營銷反饋數(shù)據(jù)重新檢驗(yàn),迭代訓(xùn)練決策樹規(guī)則,實(shí)現(xiàn)系統(tǒng)閉環(huán)。惡意刷機(jī)用戶分析需求目的通過“三碼對應(yīng)”規(guī)則可切實(shí)有效的甄別惡意刷機(jī)行為,分析識別疑似惡意刷機(jī)終端群體,查找這些終端對應(yīng)的渠道商信息,為運(yùn)營商有效進(jìn)行渠道管控、商業(yè)止損提供數(shù)據(jù)支撐,旨在解決當(dāng)前運(yùn)營商普遍面臨的不良渠道商通過惡意刷機(jī)非法套取傭金酬金但無法有效識別與監(jiān)督的現(xiàn)狀難題。功能概述惡意刷機(jī)用戶分析通過“三碼對應(yīng)”手段可提供惡意刷機(jī)識別,及惡意刷機(jī)結(jié)果查詢兩大功能。惡意刷機(jī)用戶分析識別可通過對用戶上網(wǎng)記錄數(shù)據(jù)中關(guān)鍵字段信息進(jìn)行解析提取,包括IMEI匹配、Useragent/URL中的終端信息,采用“三碼對應(yīng)”規(guī)則,對數(shù)據(jù)解析的結(jié)果數(shù)據(jù)進(jìn)行比對分析,初步判定出可能刷機(jī)的用戶群。惡意刷機(jī)用戶分析對初步判定的可能刷機(jī)的用戶群IMEI號進(jìn)行監(jiān)測分析(如一個(gè)月),通過“二次甄別”手段將UA/URL數(shù)據(jù)中剔除手機(jī)作wifi熱點(diǎn)導(dǎo)致IMEI變化的部分用戶,剩下的則判定為疑似刷機(jī)終端。同時(shí)將刷機(jī)用戶與渠道信息進(jìn)行關(guān)聯(lián),甄別判定惡意刷機(jī)渠道。惡意刷機(jī)用戶分析查詢可逐月提供合約機(jī)識別輸出分析報(bào)表,包括:疑似惡意刷機(jī)用戶列表,惡意刷機(jī)渠道列表等。關(guān)鍵技術(shù)數(shù)據(jù)解析通過接口從DPI系統(tǒng)側(cè)獲取用戶上網(wǎng)詳單數(shù)據(jù)(至少包括:Starttime、MSISDN、UA、URL、IMEI字段)。通過DPI識別手機(jī)號,確定唯一。通過DPI識別獲得用戶上網(wǎng)的IMEI后,再匹配IMEI信息庫,即可得出終端品牌、終端型號信息;通過DPI識別獲得用戶上網(wǎng)的Useragent字段后,可通過一定的文本抽取規(guī)則,從Useragent字符串中,匹配抽取出用戶的終端品牌、終端型號信息;通過DPI識別獲得用戶上網(wǎng)的URL字段后,可通過一定的文本抽取規(guī)則,從URL字符串中,匹配抽取出用戶的終端品牌、終端型號信息。通過接口從終端運(yùn)維平臺獲取終端信息,將用戶上網(wǎng)的IMEI號與終端信息庫進(jìn)行關(guān)聯(lián)匹配,得出終端品牌、終端型號信息。通過接口從經(jīng)分系統(tǒng)獲取渠道信息以及各渠道的終端銷售信息,將識別出來的疑似惡意刷機(jī)用戶與渠道銷售信息進(jìn)行關(guān)聯(lián),統(tǒng)計(jì)分析出各渠道的疑似惡意刷機(jī)用戶數(shù)。初步判定采用“三碼對應(yīng)”規(guī)則作為鑒別疑似惡意刷機(jī)行為的依據(jù)。終端在被惡意IMEI刷機(jī)后,會改變IMEI串號,但不會影響UA和URL中的手機(jī)品牌型號信息。取Useragent/URL通過規(guī)則模板進(jìn)行解析,匹配識別在用終端品牌及終端型號信息,與導(dǎo)入終端品牌型號信息表關(guān)聯(lián)比對判斷是否一致,初步判定疑似惡意刷機(jī)用戶。示例:二次甄別惡意刷機(jī)終端甄別判定:如果一部終端被當(dāng)作熱點(diǎn)使用,則會出現(xiàn)監(jiān)測到的Useragent信息中型號與IMEI匹配出來的信息多次不一致狀況,此類情況不屬于刷機(jī)終端。針對這種情況需要進(jìn)行二次甄別。如果該終端在IMEI號變化之后的監(jiān)控期(比如一個(gè)月)內(nèi),其UA/URL中原有IMEI號又反復(fù)(原IMEI出現(xiàn)次數(shù)≥1)出現(xiàn),則判定為該終端被作為WIFI熱點(diǎn)使用,為非刷機(jī)終端。如果該終端在IMEI號變化之后的監(jiān)控期內(nèi),其UA/URL中沒有再次出現(xiàn)過原有IMEI號(原IMEI出現(xiàn)次數(shù)=1),則判定為疑似刷機(jī)終端。惡意刷機(jī)渠道甄別判定:通過疑似惡意刷機(jī)用戶清單數(shù)據(jù)與渠道信息表關(guān)聯(lián),分析出各渠道的疑似惡意刷機(jī)用戶數(shù)量及比例。根據(jù)一定的閾值來判定是否屬于惡意刷機(jī)渠道。終端信息自動運(yùn)維需求目的伴隨著移動互聯(lián)網(wǎng)大力發(fā)展和4G時(shí)代的到來,移動終端成為了承載移動互聯(lián)網(wǎng)應(yīng)用的重要載體,終端運(yùn)營成為了在4 G新時(shí)期移動轉(zhuǎn)型的核心戰(zhàn)略之一。在收獲了手機(jī)用戶的同時(shí)也面臨著終端管理帶來的新挑戰(zhàn)。運(yùn)營商需要對現(xiàn)有的移動終端進(jìn)行統(tǒng)一管理維護(hù),保證終端信息覆蓋全面、準(zhǔn)確,以支撐網(wǎng)絡(luò)分析、精確營銷等業(yè)務(wù)。在這種背景需求下,建立一個(gè)統(tǒng)一的終端信息運(yùn)維平臺,實(shí)現(xiàn)終端信息的實(shí)時(shí)更新,提升覆蓋度及準(zhǔn)確性,對企業(yè)經(jīng)營戰(zhàn)略的落地提供基礎(chǔ)的支撐能力顯得尤為重要。功能概述終端運(yùn)維平臺產(chǎn)品,主要是面向運(yùn)營商業(yè)務(wù)支撐部門提供的基于規(guī)則識別和爬蟲爬取的終端信息運(yùn)維產(chǎn)品,旨在解決當(dāng)前運(yùn)營商普遍面臨的終端信息庫不全、終端信息不新、不準(zhǔn)的現(xiàn)狀難題,為用戶提供一個(gè)完整、準(zhǔn)確的終端信息庫。終端信息自動運(yùn)維的過程是:1)從流量數(shù)據(jù)中分析用戶終端的IMEI號,通過解析獲得該終端的TAC信息,對比已有的IMEI信息庫,獲取無法關(guān)聯(lián)匹配的終端TAC碼;2)從流量數(shù)據(jù)中分析用戶訪問網(wǎng)絡(luò)時(shí)使用的Useragent/URL,通過一定的文本抽取規(guī)則結(jié)合UA/URL識別模板,獲取這些無法識別的TAC碼對應(yīng)的用戶終端廠家以及型號信息;3)根據(jù)識別的終端型號,利用網(wǎng)絡(luò)爬取技術(shù)獲取終端特征數(shù)據(jù),識別終端的其他屬性信息;4)將解析爬取到的庫中沒有的終端信息,作為一條新的終端信息記錄,自動新增到終端信息庫中。5)將終端信息庫的終端信息與爬取的終端屬性信息做對比,如果存在不一致,提示管理者存在更新信息,手工確認(rèn)后更新至終端信息庫。同時(shí)為了使終端解析更加準(zhǔn)確,覆蓋面更廣。面不斷變化的UA/URL,現(xiàn)有的解析規(guī)則并不完整需要進(jìn)行不斷的完善維護(hù)。記錄操作人員在系統(tǒng)操作終端信息的日志,方便系統(tǒng)運(yùn)維人員對系統(tǒng)數(shù)據(jù)流轉(zhuǎn)的監(jiān)控。關(guān)鍵技術(shù)終端UA/URL/人工解析(1)用戶通過手機(jī)應(yīng)用訪問互聯(lián)網(wǎng)時(shí)都會產(chǎn)生一個(gè)UA的標(biāo)識。通過這個(gè)標(biāo)識,用戶所訪問的網(wǎng)站可以顯示不同的排版從而為用戶提供更好的體驗(yàn)或者進(jìn)行信息統(tǒng)計(jì)。如下圖所示:在該信息中我們可以看到它攜帶了終端品牌以及型號標(biāo)志等信息。通過反復(fù)多次的對各種UA進(jìn)行整理總結(jié)出規(guī)則,然后使用該規(guī)則庫對用戶的UA信息進(jìn)行解析,獲取終端信息。對UA解析不出來的還可以同過URL二次識別,URL是用戶在Internet上所有資源都有一個(gè)獨(dú)一無二的URL地址如下圖所示。同樣通過先建立解析模板然后再對用戶上網(wǎng)進(jìn)行解析,獲取終端信息。經(jīng)過兩次識別都未能識別的終端信息對UA/URL都解析不出來的用戶將通過UA解析和URL解析的終端信息數(shù)據(jù)進(jìn)行合并,然后還可通過累積下來的UA/URL/EMAIL/TEL等信息人工觀察或者外呼等方式解析出終端的平臺和型號信息。終端屬性信息爬取在UA解析出用戶終端后需要用網(wǎng)絡(luò)爬蟲去完善該終端的信息,并將該信息更新入終端庫。網(wǎng)絡(luò)爬蟲是按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或者腳本。根據(jù)一定的網(wǎng)頁分析算法過濾與終端無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到爬取完所有需要的終端屬性信息為止。業(yè)務(wù)模型流量提升驅(qū)動力因素分析模型模型描述通過分析用戶的上網(wǎng)行為,實(shí)現(xiàn)對流量提升的各關(guān)鍵因素的影響度計(jì)算,輸出決策樹規(guī)則集圖表以及各個(gè)因素的影響度排行,支撐對省內(nèi)用戶的流量提升情況的分析以及預(yù)測。輸入項(xiàng)可能對流量提升有影響的因素指標(biāo),包括:手機(jī)上網(wǎng)流量較上月變化,手機(jī)上網(wǎng)時(shí)長較上月變化,3G流量較上月變化,4G流量較上月變化,wlan流量較上月變化,wlan時(shí)長較上月變化,可用流量較上月變化,是否變更為4G手機(jī),是否參與贈送流量型營銷活動,是否階躍用戶等等。輸出項(xiàng)決策樹規(guī)則集圖表以及各個(gè)因素的影響度排行。數(shù)據(jù)分析周期生成模型的數(shù)據(jù)周期越長,準(zhǔn)確性越高,建議至少采用三個(gè)月的歷史數(shù)據(jù),其中兩個(gè)月的數(shù)據(jù)作為訓(xùn)練集,一個(gè)月的數(shù)據(jù)為校驗(yàn)集。分析思路分析不同因素在用戶上網(wǎng)行為數(shù)據(jù)中的表現(xiàn)形式,深入這些因素本身各個(gè)層面,使用決策樹算法,細(xì)致分析它們對流量波動產(chǎn)生的影響度,形成可量化的評估指標(biāo)。分析步驟提取在網(wǎng)用戶的上網(wǎng)行為數(shù)據(jù),輸入可能對流量提升有影響的因素指標(biāo)可能對流量提升有影響的因素指標(biāo),包括:手機(jī)上網(wǎng)流量較上月變化,手機(jī)上網(wǎng)時(shí)長較上月變化,3G流量較上月變化,4G流量較上月變化,wlan流量較上月變化,wlan時(shí)長較上月變化,可用流量較上月變化,是否變更為4G手機(jī),是否參與贈送流量型營銷活動,是否階躍用戶等等。構(gòu)建決策樹將訓(xùn)練集用戶清理過后的數(shù)據(jù)通過決策樹算法,形成決策規(guī)則,將模型輸出結(jié)果處理得到樹節(jié)點(diǎn),將用戶的相關(guān)信息數(shù)據(jù)處理得到?jīng)Q策點(diǎn),并對形成的決策樹進(jìn)行相應(yīng)的剪枝處理,最終形成決策樹。將待挖掘用戶(目標(biāo)集)信息輸入決策樹對待挖掘用戶信息進(jìn)行數(shù)據(jù)清理后,逐個(gè)輸入到已構(gòu)建好規(guī)則的決策樹中,決策系統(tǒng)將根據(jù)已有的決策規(guī)則得出判斷,輸出決策樹規(guī)則集圖表以及各個(gè)因素的影響度排行。個(gè)性化應(yīng)用推薦用戶篩選分析模型模型描述根據(jù)用戶對應(yīng)用的偏好度,利用相似度算法生成應(yīng)用相似度矩陣,計(jì)算出用戶對被推薦應(yīng)用的偏好度,根據(jù)這個(gè)偏好度排序來確定各應(yīng)用的目標(biāo)推薦用戶。輸入項(xiàng)輸入基于應(yīng)用訪問量、應(yīng)用訪問量占比、日均訪問量等指標(biāo)得出的偏好度打分矩陣。輸出項(xiàng)物品相似度矩陣,排序的應(yīng)用列表。數(shù)據(jù)分析周期生成模型的數(shù)據(jù)周期越長,準(zhǔn)確性越高,建議至少采用三個(gè)月的歷史數(shù)據(jù),其中兩個(gè)月的數(shù)據(jù)作為訓(xùn)練集,一個(gè)月的數(shù)據(jù)為校驗(yàn)集。分析思路基于所有用戶對應(yīng)用的偏好,找與應(yīng)用A相似的應(yīng)用B。根據(jù)用戶歷史偏好打分找到“已安裝應(yīng)用X但未安裝應(yīng)用Y”的用戶A,將應(yīng)用Y推薦給A。分析步驟1.建立向量:將所有用戶對某個(gè)應(yīng)用的偏好作為元素建立該應(yīng)用X的向量;2.得到應(yīng)用相似度:通過向量間的計(jì)算公式得到所有應(yīng)用之間的相似度;基于物品相似度的常用算法有皮爾遜相關(guān)系數(shù)、余弦相似度(在最后介紹)。3.找到相似應(yīng)用:通過計(jì)算結(jié)果,找到某個(gè)應(yīng)用的相似應(yīng)用Y;4.得出應(yīng)用偏好:根據(jù)每個(gè)用戶的歷史偏好打分矩陣,用相似度矩陣中的相似應(yīng)用預(yù)測尚未表示偏好的應(yīng)用,計(jì)算得出一個(gè)排序的應(yīng)用列表作為當(dāng)前用戶推薦的清單。具體示例:假設(shè)1)根據(jù)三個(gè)用戶歷史偏好,對物品A/物品B/物品C分別建立每個(gè)物品的向量,即矩陣的縱列;2)通過向量相似度算法,分別計(jì)算出物品間的相似度,即矩陣中的每個(gè)單元格,打鉤表示相似。物品A僅計(jì)算得到一個(gè)相似物品C;3)根據(jù)用戶C喜歡物品A的歷史偏好,預(yù)測用戶C也可能喜歡物品C說明:1)皮爾遜算法:皮爾遜相關(guān)系數(shù)是一個(gè)-1到1的值,表示兩個(gè)定距變量間聯(lián)系的緊密程度,值越大表示兩組變量聯(lián)系越緊密,相似度越高,反之亦然。皮爾遜相關(guān)系數(shù)可以理解為兩組組數(shù)字按比例一起運(yùn)動的一個(gè)趨勢,這樣就會在一組變量和其他變量的值之間有一個(gè)大致的線性關(guān)系。當(dāng)緊密程度很高的時(shí)候,系數(shù)值為1;當(dāng)幾乎沒有關(guān)聯(lián)時(shí),系數(shù)值為0;當(dāng)呈現(xiàn)對立關(guān)系時(shí)(一組變量中的值很大,而另一組對應(yīng)變量值很低),則系數(shù)值為-1。皮爾遜相關(guān)系數(shù)計(jì)算公式:其中X,Y在基于用戶CF中表示兩組用戶對物品的偏好值向量,在基于物品CF中表示用戶對兩組物品的偏好值向量。2)余弦相似度算法:余弦相似度(Cosine-basedSimilarity)的計(jì)算方法為將兩個(gè)項(xiàng)目i,j視作為兩個(gè)m維用戶空間向量,相似度計(jì)算通過計(jì)算兩個(gè)向量的余弦夾角,那么,對于m*n的評分矩陣i,j的相似度sim(i,j)計(jì)算公式為:潛在用戶換機(jī)識別模型模型描述通過分析客戶的基礎(chǔ)信息,終端使用情況及歷史換機(jī)行為等相關(guān)數(shù)據(jù),挖掘現(xiàn)有終端的生命周期及用戶對終端的需求變化,識別定制終端潛在客戶,為定制終端精準(zhǔn)營銷提供目標(biāo)客戶名單,提高營銷資源分配合理性,并最終促進(jìn)定制終端銷量增長。輸入項(xiàng)客戶終端使用情況分析相關(guān)指標(biāo):客戶ID,消費(fèi)能力,入網(wǎng)品牌,入網(wǎng)時(shí)長,使用時(shí)長,換機(jī)周期,換機(jī)次數(shù)等。輸出項(xiàng)決策樹規(guī)則集圖表以及客戶購機(jī)需求列表。數(shù)據(jù)分析周期生成模型的數(shù)據(jù)周期越長,準(zhǔn)確性越高,建議至少采用1年的歷史數(shù)據(jù),其中8個(gè)月的數(shù)據(jù)作為訓(xùn)練集,4個(gè)月的數(shù)據(jù)為校驗(yàn)集。分析思路1)提取已有購機(jī)記錄的用戶相關(guān)數(shù)據(jù),作為模型構(gòu)建基礎(chǔ)數(shù)據(jù)。2)根據(jù)有購機(jī)記錄的用戶相關(guān)數(shù)據(jù)通過決策樹算法訓(xùn)練得到分類規(guī)則。3)將購機(jī)挖用戶的相關(guān)數(shù)據(jù)帶入分類規(guī)則,得到目標(biāo)掘目標(biāo)用戶的購機(jī)需求。4)對挖掘輸出的潛在購機(jī)用戶進(jìn)行外呼調(diào)查,并根據(jù)外呼調(diào)查反饋結(jié)果迭代訓(xùn)練模型,實(shí)現(xiàn)模型優(yōu)化。分析步驟1)對現(xiàn)有用戶進(jìn)行數(shù)據(jù)篩選,提取有購機(jī)需求(包含各檔需求)數(shù)據(jù)的用戶相關(guān)信息,并將用戶群隨機(jī)拆分形成訓(xùn)練集和檢驗(yàn)集。2)訓(xùn)練集和檢驗(yàn)集可依據(jù)決策樹效果交叉檢驗(yàn)。3)目標(biāo)集為待挖掘購機(jī)用戶的群體,該群體用戶有模型所需的相關(guān)信息,但換機(jī)需求未知。4)結(jié)果集由目標(biāo)集輸入檢驗(yàn)后的決策樹,得到用戶群的換機(jī)需求。5)根據(jù)結(jié)果集的數(shù)據(jù)制定外呼確認(rèn)方案,將外呼反饋數(shù)據(jù)重新檢驗(yàn),迭代訓(xùn)練決策樹規(guī)則,實(shí)現(xiàn)系統(tǒng)閉環(huán)。用戶終端偏好模型模型描述通過數(shù)據(jù)挖掘算法,從價(jià)格、品牌、功能三個(gè)角度對客戶的終端偏好進(jìn)行深入分析,為業(yè)務(wù)部門的終端營銷工作和數(shù)據(jù)流量提升提供幫助。輸入項(xiàng)終端價(jià)格偏好分析相關(guān)指標(biāo):換機(jī)器按三個(gè)月平均ARPU,最近使用終端價(jià)格,歷史使用終端最高價(jià)格,歷史終端平均價(jià)格,歷史終端最低價(jià)格,交往圈終端平均價(jià)格,最近搜索終端價(jià)格等。終端品牌偏好分析相關(guān)指標(biāo):換機(jī)器按三個(gè)月平均ARPU,最近一次使用終端品牌,歷史使用最大品牌,交往圈最多終端品牌,最近搜索終端品牌等。終端功能偏好分析相關(guān)指標(biāo):原終端屏幕大小,原終端價(jià)格檔次,原終端是否智能機(jī),最近終端搜索關(guān)鍵詞,品牌,入網(wǎng)時(shí)長,用戶基本信息,通信費(fèi)用,通信行為等。輸出項(xiàng)決策樹規(guī)則集圖表以及用戶終端價(jià)格、終端品牌、終端規(guī)則等推薦列表。數(shù)據(jù)分析周期生成模型的數(shù)據(jù)周期越長,準(zhǔn)確性越高,建議至少采用1年的歷史數(shù)據(jù),其中8個(gè)月的數(shù)據(jù)作為訓(xùn)練集,4個(gè)月的數(shù)據(jù)為校驗(yàn)集。分析思路1)通過數(shù)據(jù)挖掘算法,從價(jià)格、品牌、功能三個(gè)角度對客戶的終端偏好進(jìn)行深入分析,為業(yè)務(wù)部門的終端營銷工作和數(shù)據(jù)流量提升提供幫助。2)終端價(jià)格,終端品牌,終端功能三方面選取指標(biāo),分別建立三個(gè)模型。3)訓(xùn)練模型,得到?jīng)Q策樹規(guī)則集。4)通過決策樹規(guī)則集輸出終端價(jià)格,終端品牌,終端功能數(shù)據(jù)。5)對挖掘輸出的潛在購機(jī)用戶進(jìn)行購機(jī)營銷,并根據(jù)營銷反饋結(jié)果迭代訓(xùn)練模型,實(shí)現(xiàn)機(jī)器學(xué)習(xí)。分析步驟1)對現(xiàn)有用戶進(jìn)行數(shù)據(jù)篩選,提取有終端價(jià)格需求數(shù)據(jù)的用戶相關(guān)信息,并將用戶群隨機(jī)拆分形成訓(xùn)練集和檢驗(yàn)集。2)訓(xùn)練集和檢驗(yàn)集可依據(jù)決策樹效果交叉檢驗(yàn)。3)目標(biāo)集為待挖掘用戶的群體,該群體用戶有模型所需的相關(guān)信息,但終端價(jià)格偏好未知。4)結(jié)果集由目標(biāo)集輸入檢驗(yàn)后的決策樹,得到用戶群的WLAN需求。5)根據(jù)結(jié)果集的數(shù)據(jù)制定營銷方案,將營銷反饋數(shù)據(jù)重新檢驗(yàn),迭代訓(xùn)練決策樹規(guī)則,實(shí)現(xiàn)系統(tǒng)閉環(huán)。產(chǎn)品使用量預(yù)測模型模型描述通過對用戶的本地通話、長途通話、流量、WLAN、短信、彩信等產(chǎn)品使用歷史數(shù)據(jù)的計(jì)算,分析預(yù)測出用戶下一個(gè)月可能的需求用量,為下一步的套餐營銷決策、業(yè)務(wù)發(fā)展方向提供數(shù)據(jù)支撐。輸入項(xiàng)用戶前一年使用的本地通話時(shí)長、長途通話時(shí)長、漫游通話時(shí)長、本地流量大小、全國流量大小、WLAN使用時(shí)長、短信條數(shù)、彩信條數(shù)。輸出項(xiàng)用戶下一個(gè)月的本地通話時(shí)長、長途通話時(shí)長、漫游通話時(shí)長、本地流量大小、全國流量大小、WLAN使用時(shí)長、短信條數(shù)、彩信條數(shù)。數(shù)據(jù)分析周期生成模型的數(shù)據(jù)周期越長,準(zhǔn)確性越高,建議至少采用1年的歷史數(shù)據(jù),其中8個(gè)月的數(shù)據(jù)作為訓(xùn)練集,4個(gè)月的數(shù)據(jù)為校驗(yàn)集。分析思路分析不同產(chǎn)品的使用趨勢變化,使用時(shí)間序列算法,細(xì)致分析每一個(gè)產(chǎn)品的變化趨勢預(yù)測出未來的發(fā)展方向,形成每一個(gè)用戶的主套餐需求。分析步驟通過計(jì)算用戶使用產(chǎn)品的一定時(shí)間段(建議1年)數(shù)據(jù),通過時(shí)間序列(ARMA)模型預(yù)測出后1個(gè)月的相關(guān)值。獲取之前一定時(shí)間段(建議1年)的本地通話時(shí)長、長途通話時(shí)長、漫游通話時(shí)長、本地流量大小、全國流量大小、WLAN使用時(shí)長、短信條數(shù)、彩信條數(shù)的歷史詳細(xì)數(shù)據(jù)。預(yù)處理用戶明細(xì)數(shù)據(jù)中的極值、異常值、空值等信息。通過對輸入數(shù)據(jù)進(jìn)行按天匯總,得出以日為單位的相關(guān)信息對上述歷史值采用時(shí)間序列(ARMA)模型進(jìn)行計(jì)算得出后1個(gè)月的值按天計(jì)算的各自值;在中間表中存有按天的詳細(xì)數(shù)據(jù)信息;按月進(jìn)行匯總并計(jì)算相應(yīng)的增長率??头^(qū)客服KPI監(jiān)控客服流程分析投訴分類、熱點(diǎn)分析投訴輿情分析區(qū)域投訴分析網(wǎng)絡(luò)智能分析重點(diǎn)區(qū)域保障分析業(yè)務(wù)目標(biāo)基于常駐用戶特征的區(qū)域保障分析功能以大數(shù)據(jù)平臺的流量數(shù)據(jù)位置修正能力為基礎(chǔ),準(zhǔn)確獲取用戶常駐區(qū)域,同時(shí)結(jié)合用戶標(biāo)簽信息分析不同區(qū)域內(nèi)的常駐用戶特征,結(jié)合用戶特征與業(yè)務(wù)使用特征指導(dǎo)客服、市場運(yùn)營及網(wǎng)絡(luò)工作的開展,促進(jìn)網(wǎng)絡(luò)、市場與客服的工作聯(lián)動,保障區(qū)域內(nèi)的用戶感知。通過該功能的應(yīng)用,業(yè)務(wù)人員完成以下工作:了解不同區(qū)域內(nèi)的常駐用戶特征及業(yè)務(wù)使用特征;了解不同用戶群體的區(qū)域分布特征了解重點(diǎn)區(qū)域(如:高離網(wǎng)率區(qū)域、VIP用戶常駐區(qū)域、高投訴率區(qū)域)的網(wǎng)絡(luò)質(zhì)量及業(yè)務(wù)質(zhì)量現(xiàn)狀明確重點(diǎn)區(qū)域網(wǎng)絡(luò)保障策略(有限保障哪些區(qū)域、如何保障)業(yè)務(wù)流程首先,利用大數(shù)據(jù)平臺的ETL關(guān)聯(lián)分析能力修正流量數(shù)據(jù)中位置信息(LAC/CI)不準(zhǔn)確的問題,準(zhǔn)確獲取用戶發(fā)生業(yè)務(wù)的小區(qū);其次,利用經(jīng)過位置修正的Gn接口用戶上網(wǎng)日志數(shù)據(jù),結(jié)合用戶標(biāo)簽(VIP用戶、離網(wǎng)用戶……)信息劃分區(qū)域類型(VIP區(qū)域、高離網(wǎng)率區(qū)域……);第三,結(jié)合流量數(shù)據(jù)、經(jīng)分?jǐn)?shù)據(jù)、資源數(shù)據(jù)等多種數(shù)據(jù)源對區(qū)域內(nèi)的網(wǎng)絡(luò)及業(yè)務(wù)發(fā)展現(xiàn)狀進(jìn)行全面評估與,對區(qū)域內(nèi)的問題及現(xiàn)狀進(jìn)行可視化分析;最后,結(jié)合區(qū)域內(nèi)的用戶及業(yè)務(wù)特征制定有針對性地保障策略,促進(jìn)跨部門工作聯(lián)動。關(guān)鍵技術(shù)Gn接口DPI話單是流量經(jīng)營相關(guān)應(yīng)用功能的主要數(shù)據(jù)來源,在對流量特征進(jìn)行透視分析時(shí),需要從應(yīng)用、區(qū)域、終端、用戶等維度深入挖掘流量產(chǎn)生的各種特征,但由于Gn接口DPI話單中只能夠記錄用戶PDP上線的位置信息(LAC-CI),在用戶位置發(fā)生變化時(shí)無法準(zhǔn)確記錄,因此單純地基于Gn接口DPI數(shù)據(jù)對流量產(chǎn)生的區(qū)域特征進(jìn)行分析,分析結(jié)果會與實(shí)際情況存在較大偏差。流量數(shù)據(jù)位置修正功能,通過將DPI流量話單域Mc位置更新話單的位置信息抽取與關(guān)聯(lián)實(shí)現(xiàn)DPI話單中位置信息的修正,準(zhǔn)確獲取用戶所在的小區(qū),一定程度上解決數(shù)據(jù)統(tǒng)計(jì)及模型分析的數(shù)據(jù)準(zhǔn)確性問題。用戶業(yè)務(wù)使用過程中無位置變化在一條Gn接口的HTTP話單或通用業(yè)務(wù)話單的開始時(shí)間至結(jié)束時(shí)間范圍內(nèi),在Mc接口的位置更新話單中沒有找到對應(yīng)IMSI的記錄,將該IMSI最新的位置信息(LAC/CI,在該用戶的最近一次位置更新記錄里查找)同步至Gn話單的對應(yīng)字段中。從Mc接口的位置更新話單中,抽取時(shí)間、IMSI、Lac、CI四個(gè)關(guān)鍵信息,并將信息進(jìn)行緩存,建立用戶位置標(biāo)簽庫將位置標(biāo)簽庫中的位置信息與最新的位置更新話單進(jìn)行比對,若不一致,則需要將Mc位置更新話單中的信息更新至用戶位置標(biāo)簽庫從Gn接口HTTP話單或通用業(yè)務(wù)話單中獲取用戶上網(wǎng)位置信息將用戶上網(wǎng)位置信息與用戶位置標(biāo)簽庫中的信息進(jìn)行比對、同步將位置信息同步結(jié)果返回,在Gn話單中進(jìn)行更新利用更新后的Gn接口話單進(jìn)行數(shù)據(jù)建模及應(yīng)用分析用戶業(yè)務(wù)使用過程中有位置變化在一條Gn接口的HTTP話單或通用業(yè)務(wù)話單的開始時(shí)間至結(jié)束時(shí)間范圍內(nèi),在Mc接口的位置更新話單中找到對應(yīng)IMSI的1條或多條記錄,首先對用戶數(shù)據(jù)業(yè)務(wù)的起始位置進(jìn)行修正,然后再根據(jù)位置更新時(shí)間計(jì)算用戶駐留在各位置區(qū)的時(shí)長,對Gn話單按時(shí)間進(jìn)行拆分,生成多條話單。從Gn接口話單中提取IMSI、LAC、CI、時(shí)間、流量、包數(shù)六類關(guān)鍵信息,同步至ETL模塊ETL模塊從Mc位置更新話單中,根據(jù)IMSI和時(shí)間范圍進(jìn)行搜索,產(chǎn)生2個(gè)中間結(jié)果:在Gn話單開始時(shí)間前的用戶最后一次位置更新記錄和Gn話單過程中用戶所有的位置更新記錄和每次位置更新的時(shí)間將Gn話單中的位置信息與Gn話單開始時(shí)間前的用戶最后一次位置更新記錄中的位置信息進(jìn)行對比,如果不一致則將位置更新記錄中的位置同步至Gn話單,修正Gn話單的起始位置信息根據(jù)搜索出的所有位置更新記錄,計(jì)算每2次位置更新的時(shí)間間隔,把計(jì)算結(jié)果作為用戶駐留在各小區(qū)的時(shí)長根據(jù)用戶駐留在各小區(qū)的時(shí)長拆分Gn上網(wǎng)話單,其中流量、數(shù)據(jù)包等字段信息按照時(shí)長分布比例進(jìn)行拆分拆分后生成新的Gn話單基于最新的Gn話單進(jìn)行數(shù)據(jù)建模及應(yīng)用分析小區(qū)劣化預(yù)警業(yè)務(wù)目標(biāo)小區(qū)劣化預(yù)警分析以大數(shù)據(jù)平臺的數(shù)據(jù)挖掘分析能力為基礎(chǔ),挖掘并量化導(dǎo)致小區(qū)劣化的各類因素,建立小區(qū)劣化預(yù)警模型,監(jiān)控并及時(shí)發(fā)現(xiàn)有劣化趨勢的小區(qū),及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)問題,支撐網(wǎng)絡(luò)優(yōu)化、網(wǎng)絡(luò)建設(shè)工作的開展。通過該功能的應(yīng)用,業(yè)務(wù)人員完成以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論