版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
PAGEV中國(guó)移動(dòng)云南公司大數(shù)據(jù)平臺(tái)技術(shù)建議書(shū)編寫(xiě)編寫(xiě)時(shí)間2014-12-23審批陳娟審批時(shí)間文檔版本VX.X中國(guó)移動(dòng)云南公司信息技術(shù)中心版權(quán)所有文檔中的全部?jī)?nèi)容屬中國(guó)移動(dòng)云南公司信息技術(shù)中心所有,未經(jīng)允許,不可全部或部分發(fā)表、復(fù)制、使用于任何目的。文檔修訂摘要日期修訂號(hào)描述修訂人審閱人審閱日期2014-12-23V1.0云南移動(dòng)大數(shù)據(jù)項(xiàng)目技術(shù)建議書(shū)
目 錄1. 需求概述 11.1. 建設(shè)背景 11.2. 系統(tǒng)目標(biāo)定位 11.3. 系統(tǒng)建設(shè)原則 21.4. 業(yè)務(wù)框架 22. 系統(tǒng)概述 32.1. 系統(tǒng)功能框架 32.2. 系統(tǒng)技術(shù)架構(gòu) 42.3. 兩階段的建設(shè)考慮 53. 業(yè)務(wù)需求 63.1. 標(biāo)簽體系 63.1.1. 標(biāo)簽體系構(gòu)建 6. 需求目的 6. 分析維度 6. 分析指標(biāo) 7. 界面展示要求 7. 查詢條件 7. 功能優(yōu)先級(jí) 7. 其它要求 7. 使用對(duì)象 7. 數(shù)據(jù)保存周期 73.1.2. 標(biāo)簽智能化推薦 73.1.3. 客戶標(biāo)簽完善 73.2. 流量?jī)r(jià)值提升 73.2.1. 流量?jī)r(jià)值提升影響因素分析 73.2.2. 惡意刷機(jī)用戶分析 73.2.3. 終端信息自動(dòng)運(yùn)維 83.3. 客服專區(qū) 83.3.1. 客服KPI監(jiān)控 83.3.2. 客服流程分析 83.3.3. 投訴分類、熱點(diǎn)分析 83.3.4. 投訴輿情分析 83.3.5. 區(qū)域投訴分析 83.4. 網(wǎng)絡(luò)智能分析 83.4.1. 行業(yè)APN業(yè)務(wù)保障智能分析與監(jiān)控 83.4.2. 小區(qū)網(wǎng)絡(luò)監(jiān)控、分析 83.4.3. PCC管控策略分析與監(jiān)控 83.5. 星級(jí)專區(qū) 83.6. 融合專區(qū) 83.7. 4G專區(qū)優(yōu)化 83.8. 集團(tuán)專區(qū) 83.9. IMCD智慧營(yíng)銷(xiāo)場(chǎng)景 83.9.1. 場(chǎng)景名稱(舉例) 84. 一線支撐需求 104.1. 自助分析優(yōu)化 10. 功能說(shuō)明 10. 功能描述 10. 關(guān)鍵技術(shù) 104.2. 一線支撐APP 114.2.1. 一線營(yíng)銷(xiāo)小助手APP 114.2.2. 指標(biāo)跟蹤APP 114.2.3. 客戶特征APP 114.2.4. 一線量酬APP 114.3. 增值業(yè)務(wù)支撐APP 114.3.1. 客戶洞察小助手 114.3.2. 指標(biāo)訂閱小助手 114.3.3. 個(gè)性化營(yíng)銷(xiāo)信息推送小助手 114.3.4. 飛信流失用戶每日預(yù)警小助手 114.3.5. 業(yè)務(wù)管理人員移動(dòng)小助手 115. 基礎(chǔ)功能需求 115.1. 數(shù)據(jù)源采集與解析 115.1.1. 源數(shù)據(jù)擴(kuò)展 115.1.2. 信息增強(qiáng) 115.2. 數(shù)據(jù)處理與交換 125.2.1. 數(shù)據(jù)融合 125.2.2. 跨平臺(tái)數(shù)據(jù)處理 125.2.3. 跨平臺(tái)統(tǒng)一調(diào)度 125.2.4. 數(shù)據(jù)處理監(jiān)控 125.3. 數(shù)據(jù)融合 125.3.1. 數(shù)據(jù)融合要求 125.3.2. 數(shù)據(jù)融合模型設(shè)計(jì)及管理 125.3.3. 數(shù)據(jù)融合流程及實(shí)現(xiàn) 12. 數(shù)據(jù)融合總體流程 12. DB2與MPP數(shù)據(jù)庫(kù)融合 12. DB2與Hadoop平臺(tái)數(shù)據(jù)融合 12. MPP數(shù)據(jù)庫(kù)與Hadoop平臺(tái)數(shù)據(jù)融合 125.4. IMCD智慧營(yíng)銷(xiāo) 125.4.1. 配置界面優(yōu)化 12. 功能說(shuō)明 12. 功能描述 13. 關(guān)鍵技術(shù) 135.4.2. 策略中心 13. 功能說(shuō)明 13. 功能描述 13. 關(guān)鍵技術(shù) 135.4.3. 事件中心 13. 功能說(shuō)明 13. 功能描述 13. 關(guān)鍵技術(shù) 135.4.4. 個(gè)性化推薦引擎 14. 功能說(shuō)明 14. 功能描述 14. 關(guān)鍵技術(shù) 145.4.5. 觸點(diǎn)渠道拓展 14. 功能說(shuō)明 14. 功能描述 14. 關(guān)鍵技術(shù) 145.5. 投訴智能處理 155.5.1. 投訴文本分詞、關(guān)鍵詞處理 155.5.2. 投訴文本挖掘 155.5.3. 投訴文本營(yíng)銷(xiāo)商機(jī)挖掘 155.6. 服務(wù)開(kāi)放 155.6.1. 服務(wù)開(kāi)放平臺(tái) 155.6.2. 自媒體廣告平臺(tái) 155.7. 綜合管控 155.7.1. 數(shù)據(jù)資產(chǎn)管理優(yōu)化 155.7.2. 平臺(tái)多租戶管理 155.7.3. 平臺(tái)安全管理 156. 上游平臺(tái)改造需求 156.1. Billing重構(gòu) 156.1.1. 接口改造 156.1.2. 一經(jīng)模型改造 156.1.3. 二經(jīng)模型改造 156.1.4. MIS模型改造 156.1.5. 數(shù)據(jù)核對(duì) 166.2. CRM云化 166.2.1. 接口改造 166.2.2. 一經(jīng)模型改造 166.2.3. 二經(jīng)模型改造 166.2.4. MIS模型改造 166.2.5. 數(shù)據(jù)核對(duì) 167. 附錄 167.1. 二級(jí)目錄 167.1.1. 三級(jí)目錄 16. 四級(jí)目錄 16.1. 五級(jí)目錄 16中國(guó)移動(dòng)云南公司大數(shù)據(jù)營(yíng)銷(xiāo)項(xiàng)目需求規(guī)格說(shuō)明書(shū)第37頁(yè)需求概述建設(shè)背景利用大數(shù)據(jù)能力實(shí)現(xiàn)的精細(xì)化、智能化、個(gè)性化的市場(chǎng)營(yíng)銷(xiāo)與服務(wù),以及與之配套的數(shù)據(jù)分析驅(qū)動(dòng)的方案策劃、營(yíng)銷(xiāo)執(zhí)行、渠道協(xié)同、接觸管理、過(guò)程優(yōu)化、效果評(píng)估等功能。提高大數(shù)據(jù)在市場(chǎng)營(yíng)銷(xiāo)與客戶服務(wù)中的應(yīng)用水平,提升企業(yè)層面的整體營(yíng)銷(xiāo)與服務(wù)能力。目前,我省通過(guò)長(zhǎng)期實(shí)踐,在營(yíng)銷(xiāo)支撐方面積累了豐富的經(jīng)驗(yàn),如客戶標(biāo)簽庫(kù),幫助實(shí)現(xiàn)深度的客戶洞察;開(kāi)發(fā)了營(yíng)銷(xiāo)管理平臺(tái),部分實(shí)現(xiàn)了營(yíng)銷(xiāo)活動(dòng)的策劃、審核、執(zhí)行、評(píng)估的閉環(huán)管理,整合并打通了不同類型的多種營(yíng)銷(xiāo)渠道與觸點(diǎn),如短信、外呼、前臺(tái)、網(wǎng)廳、掌廳、業(yè)務(wù)平臺(tái)等;并在流量經(jīng)營(yíng)、存量保有、業(yè)務(wù)營(yíng)銷(xiāo)方面了作了積極有意的嘗試,通過(guò)系統(tǒng)支撐的手段協(xié)同營(yíng)銷(xiāo)在各個(gè)渠道的執(zhí)行。但是,現(xiàn)有的數(shù)字化營(yíng)銷(xiāo)實(shí)踐也存在著一些局限性與片面性,包括:1)大數(shù)據(jù)應(yīng)用尚處于初級(jí)階段,受限于大數(shù)據(jù)能力未能充分發(fā)揮,客戶需求洞察能力不足,很多營(yíng)銷(xiāo)仍然依賴于人工經(jīng)驗(yàn),大數(shù)據(jù)價(jià)值體現(xiàn)不足;2)渠道協(xié)同能力不足,渠道之間缺乏協(xié)同,造成跨渠道、多波次的營(yíng)銷(xiāo)活動(dòng)開(kāi)展能力不足,營(yíng)銷(xiāo)資源未能到充分利用,并造成重復(fù)接觸、重復(fù)打擾等問(wèn)題;3)實(shí)時(shí)事件驅(qū)動(dòng)的營(yíng)銷(xiāo)能力不足,缺乏對(duì)關(guān)鍵事件的實(shí)時(shí)捕捉,以及后續(xù)的自動(dòng)化營(yíng)銷(xiāo)過(guò)程;4)營(yíng)銷(xiāo)經(jīng)驗(yàn)的沉淀不足,營(yíng)銷(xiāo)活動(dòng)往往按需策劃,好的營(yíng)銷(xiāo)活動(dòng)往往未能通過(guò)適當(dāng)抽象轉(zhuǎn)化為營(yíng)銷(xiāo),便于后續(xù)的復(fù)用與共享。系統(tǒng)目標(biāo)定位以基于大數(shù)據(jù)的客戶上網(wǎng)行為挖掘?yàn)榛A(chǔ),通過(guò)智能營(yíng)銷(xiāo)管理平臺(tái),實(shí)現(xiàn)目標(biāo)客戶準(zhǔn)識(shí)別、營(yíng)銷(xiāo)產(chǎn)品精匹配、營(yíng)銷(xiāo)渠道全方位,實(shí)時(shí)和準(zhǔn)實(shí)時(shí)互搭配,重點(diǎn)服務(wù)于4G客戶遷移、存量維系、流量經(jīng)營(yíng)、終端營(yíng)銷(xiāo)、內(nèi)容營(yíng)銷(xiāo)等領(lǐng)域。從產(chǎn)品、客戶、渠道、關(guān)鍵時(shí)刻、商機(jī)等多個(gè)維度沉淀和落地幾類營(yíng)銷(xiāo)場(chǎng)景。通過(guò)綜合網(wǎng)關(guān)的上網(wǎng)觸點(diǎn)感知和流處理技術(shù)的位置觸點(diǎn)感知實(shí)現(xiàn)幾類實(shí)時(shí)營(yíng)銷(xiāo)的落地。上網(wǎng)日志留存系統(tǒng)的經(jīng)分適應(yīng)性改造,提升大數(shù)據(jù)平臺(tái)的數(shù)據(jù)來(lái)源,在數(shù)據(jù)質(zhì)量、響應(yīng)及時(shí)性、信息承載等方面的能力,為用戶上網(wǎng)行為和基于位置的深度分析挖掘,用戶需求深度洞察等提供基礎(chǔ)能力。營(yíng)銷(xiāo)管理平臺(tái)的智能化改造,實(shí)現(xiàn)營(yíng)銷(xiāo)觸點(diǎn)的自動(dòng)感知、營(yíng)銷(xiāo)渠道的統(tǒng)一管控、營(yíng)銷(xiāo)執(zhí)行的科學(xué)反饋;并提升目標(biāo)客戶識(shí)別、產(chǎn)品策略匹配,渠道選型的綜合營(yíng)銷(xiāo)策劃能力。系統(tǒng)建設(shè)原則本期工程建設(shè)滿足以下原則:開(kāi)放性與先進(jìn)性:基于開(kāi)放式標(biāo)準(zhǔn),采用先進(jìn)成熟的設(shè)備和技術(shù),確保系統(tǒng)的技術(shù)先進(jìn)性,保證投資的有效性和延續(xù)性。靈活性與可擴(kuò)展性:方便擴(kuò)展設(shè)備容量和提升設(shè)備性能;支持業(yè)務(wù)處理的靈活的、參數(shù)化配置,業(yè)務(wù)功能的重組與更新的靈活性,新的應(yīng)用業(yè)務(wù)可靈活加載,并不影響原有業(yè)務(wù)流程。安全性與可靠性:提供良好的安全可靠性策略,支持多種安全可靠性技術(shù)手段,制定嚴(yán)格的安全可靠性管理措施。準(zhǔn)確性與實(shí)時(shí)性:保證系統(tǒng)數(shù)據(jù)處理的準(zhǔn)確性,提供多種核查手段。對(duì)實(shí)時(shí)性要求高的處理提供特殊有效的處理方法。易用性與可管理性:對(duì)于用戶可以方便、快捷的使用業(yè)務(wù),對(duì)于用戶可以快速的提供內(nèi)容服務(wù)。平臺(tái)本身應(yīng)具有良好的操作界面、詳細(xì)的幫助信息,系統(tǒng)參數(shù)的維護(hù)與管理通過(guò)操作界面完成。平臺(tái)應(yīng)具有良好的管理手段,可管理網(wǎng)絡(luò)、服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫(kù)及應(yīng)用等。業(yè)務(wù)框架以大數(shù)據(jù)資源為依托,通過(guò)客戶標(biāo)簽與產(chǎn)品標(biāo)簽實(shí)現(xiàn)客戶群超細(xì)分,捕捉客戶群事件性即時(shí)需求和群體性商機(jī),適時(shí)開(kāi)展針對(duì)細(xì)分客戶群的靜態(tài)、準(zhǔn)實(shí)時(shí)甚至實(shí)時(shí)營(yíng)銷(xiāo)。整個(gè)營(yíng)銷(xiāo)過(guò)程執(zhí)行之前,需要針對(duì)客戶數(shù)據(jù)、產(chǎn)品資源進(jìn)行準(zhǔn)備,部署事件和商機(jī)規(guī)則,由事件/商機(jī)觸發(fā)營(yíng)銷(xiāo)活動(dòng),當(dāng)制定事件或商機(jī)發(fā)生時(shí),匹配出客戶-產(chǎn)品-渠道的營(yíng)銷(xiāo)活動(dòng)方案,開(kāi)展多波次營(yíng)銷(xiāo),實(shí)現(xiàn)基于關(guān)鍵時(shí)刻的針對(duì)性準(zhǔn)實(shí)時(shí)或?qū)崟r(shí)營(yíng)銷(xiāo),并就營(yíng)銷(xiāo)效果進(jìn)行及時(shí)跟蹤和數(shù)據(jù)評(píng)估,為后續(xù)營(yíng)銷(xiāo)活動(dòng)規(guī)則、客戶標(biāo)簽的不斷優(yōu)化迭代提供依據(jù),推進(jìn)營(yíng)銷(xiāo)方案的不斷完善。因此,將營(yíng)銷(xiāo)過(guò)程從營(yíng)銷(xiāo)準(zhǔn)備、事件/商機(jī)捕捉、客戶-產(chǎn)品-渠道匹配、活動(dòng)開(kāi)展及效果評(píng)估五個(gè)環(huán)節(jié),抽象出相關(guān)營(yíng)銷(xiāo)要素配置工作,形成5個(gè)核心營(yíng)銷(xiāo)要素:目標(biāo)、產(chǎn)品、營(yíng)銷(xiāo)事件、營(yíng)銷(xiāo)渠道、與之相關(guān)商機(jī)。同時(shí),隨著營(yíng)銷(xiāo)的深度開(kāi)展,將逐步形成海量的營(yíng)銷(xiāo)方案。為準(zhǔn)實(shí)時(shí)或?qū)崟r(shí)的營(yíng)銷(xiāo)事件自動(dòng)智能匹配相應(yīng)的營(yíng)銷(xiāo),需要對(duì)各類營(yíng)銷(xiāo)活動(dòng)進(jìn)行統(tǒng)一管理。系統(tǒng)概述系統(tǒng)功能框架系統(tǒng)技術(shù)架構(gòu)技術(shù)選型及亮點(diǎn)采用Flume計(jì)算框架,實(shí)現(xiàn)文件和消息采集與解析;采用流式爬蟲(chóng)、中文分詞技術(shù),實(shí)現(xiàn)互聯(lián)網(wǎng)網(wǎng)頁(yè)信息實(shí)時(shí)采集。引入Hadoop2.0,在1個(gè)集群上承載批處理和流處理,基于Yarn資源管理可最大效率利用資源,實(shí)現(xiàn)消峰填谷。在Yarn基礎(chǔ)上,引入Storm計(jì)算框架,通過(guò)Hive、Mahout、RHadoop實(shí)現(xiàn)海量數(shù)據(jù)計(jì)算和全量數(shù)據(jù)挖掘;引入VoltDB內(nèi)存數(shù)據(jù)庫(kù),結(jié)合Esper,實(shí)現(xiàn)基于CEP的實(shí)時(shí)動(dòng)態(tài)營(yíng)銷(xiāo)。支持分析中心架構(gòu)差異化,可有效保護(hù)現(xiàn)有投資;同時(shí),積極的引入MySQL,利用Sharding實(shí)現(xiàn)數(shù)據(jù)快速訪問(wèn),為未來(lái)技術(shù)替換縮減投資奠定基礎(chǔ)。兩階段的建設(shè)考慮依據(jù)云南移動(dòng)各業(yè)務(wù)部門(mén)對(duì)大數(shù)據(jù)平臺(tái)支撐營(yíng)銷(xiāo)場(chǎng)景需求,結(jié)合云南現(xiàn)有大數(shù)據(jù)平臺(tái)建設(shè)情況,參考其它兄弟省份大數(shù)據(jù)平臺(tái)建設(shè)經(jīng)驗(yàn),建議云南移動(dòng)大數(shù)據(jù)平臺(tái)建設(shè)分階段有序推進(jìn),達(dá)到“階段目標(biāo)、過(guò)程可控、效果可見(jiàn)”的目標(biāo)。第一階段:繼續(xù)利用融合感知分析(C3)能力,通過(guò)擴(kuò)容hadoop平臺(tái),提升大數(shù)據(jù)處理能力;升級(jí)智能營(yíng)銷(xiāo)(IMCD)軟件并擴(kuò)容智能營(yíng)銷(xiāo)(IMCD),實(shí)現(xiàn)與綜合網(wǎng)關(guān)對(duì)接,實(shí)現(xiàn)實(shí)時(shí)營(yíng)銷(xiāo);擴(kuò)充并完善客戶標(biāo)簽、數(shù)據(jù)挖掘,為精準(zhǔn)營(yíng)銷(xiāo)奠定基礎(chǔ);升級(jí)互聯(lián)網(wǎng)內(nèi)容規(guī)則及實(shí)例庫(kù),細(xì)化互聯(lián)網(wǎng)分類及準(zhǔn)確性;探索客戶服務(wù)投訴文本分析。從而滿足業(yè)務(wù)部門(mén)所提營(yíng)銷(xiāo)及平臺(tái)建設(shè)技術(shù)要求。第二階段:上網(wǎng)日志留存系統(tǒng)改造,取代融合感知分析(C3)的采集和初級(jí)預(yù)處理能力,構(gòu)建信息識(shí)別增強(qiáng)模塊實(shí)現(xiàn)對(duì)URL信息的識(shí)別與增強(qiáng);升級(jí)互聯(lián)網(wǎng)內(nèi)容解析軟件,并擴(kuò)容互聯(lián)網(wǎng)爬蟲(chóng)、實(shí)例庫(kù)匹配功能,提升互聯(lián)網(wǎng)內(nèi)容分類、解析能力;改造智能營(yíng)銷(xiāo)(IMCD)產(chǎn)品,使用flume+storm技術(shù)實(shí)現(xiàn)與信息增強(qiáng)模塊對(duì)接,以支撐融合感知分析(C3)下線后的實(shí)時(shí)營(yíng)銷(xiāo)場(chǎng)景;依據(jù)新的數(shù)據(jù)源和業(yè)務(wù)發(fā)展需要,擴(kuò)充并完善客戶標(biāo)簽,優(yōu)化并驗(yàn)證數(shù)據(jù)挖掘模型。業(yè)務(wù)需求標(biāo)簽體系標(biāo)簽體系構(gòu)建需求目的/*簡(jiǎn)要說(shuō)明此功能分析主要內(nèi)容及分析目標(biāo)。*/如:目前普通的營(yíng)銷(xiāo)方式(贈(zèng)送食用品,積分等)不能滿足用戶的多樣性需求,為擴(kuò)大商盟商戶合作,同時(shí)也能夠更貼近客戶,提升客戶的體驗(yàn),通過(guò)商盟商戶合作,實(shí)現(xiàn)向不同用戶根據(jù)偏好或需求,通過(guò)贈(zèng)送電子購(gòu)物券等方式向用戶推薦不同的商盟商戶,建立完善良好的營(yíng)銷(xiāo)模式。分析維度日期:月地域:地市、區(qū)縣商圈:商圈名稱用戶類型:居住、工作、駐留品牌:全球通,動(dòng)感地帶,神州行終端類型:是否智能終端近3月ARPU:停留時(shí)長(zhǎng):分析指標(biāo)界面展示要求查詢條件功能優(yōu)先級(jí)其它要求提供分頁(yè)展示功能;下載清單字段可以包含用戶一些其他消費(fèi),收入等信息;營(yíng)銷(xiāo)目標(biāo)用戶數(shù)提供清單下載功能;使用對(duì)象數(shù)據(jù)保存周期標(biāo)簽智能化推薦客戶標(biāo)簽完善流量?jī)r(jià)值提升流量提升驅(qū)動(dòng)力因素分析需求目的為幫助運(yùn)營(yíng)商完成提升流量目標(biāo),從傳統(tǒng)的單靠業(yè)務(wù)營(yíng)銷(xiāo)知識(shí)入手轉(zhuǎn)變?yōu)橥ㄟ^(guò)自動(dòng)化手段分析挖掘流量驅(qū)動(dòng)因素,從而做到拉伸流量規(guī)模。產(chǎn)品從流量使用的對(duì)象,即從用戶方面入手,分析用戶流量使用習(xí)慣。通過(guò)對(duì)用戶群進(jìn)行篩選分類,分析用戶上網(wǎng)行為及流量使用情況,挖掘?qū)α髁孔儎?dòng)影響最重要的因素,全面分析因素驅(qū)動(dòng)流量變動(dòng)的影響度,分析結(jié)果可為提升流量的策略提供強(qiáng)有力、精準(zhǔn)的數(shù)據(jù)支撐。功能概述流量驅(qū)動(dòng)力因素分析通過(guò)對(duì)一些固化沉淀出的流量影響因素,經(jīng)過(guò)一系列的指標(biāo)選取、相似度計(jì)算和短發(fā)分析,輸入影響流量驅(qū)動(dòng)的因素列表以及對(duì)應(yīng)的影響度大小。主要是為用戶提供一個(gè)制定營(yíng)銷(xiāo)策略提升流量的數(shù)據(jù)支撐平臺(tái)。流量驅(qū)動(dòng)力因素分析的過(guò)程是將影響因素、數(shù)據(jù)經(jīng)過(guò)規(guī)則篩選、算法分析,輸出對(duì)流量驅(qū)動(dòng)影響因素及其對(duì)應(yīng)的影響程度。此過(guò)程中根據(jù)既定規(guī)則和數(shù)據(jù)類型從不同的口徑獲取數(shù)據(jù),通過(guò)對(duì)因素指標(biāo)模板的管理、初選,并結(jié)合數(shù)據(jù)篩選出相關(guān)性較大的指標(biāo),后通過(guò)算法分析出因素已經(jīng)因素的影響度。關(guān)鍵技術(shù)建立指標(biāo)模板,用戶根據(jù)省份業(yè)務(wù),選擇初選因素指標(biāo)。通過(guò)觀察用戶的上網(wǎng)行為數(shù)據(jù)和專業(yè)人員的業(yè)務(wù)經(jīng)驗(yàn)提煉沉淀出100個(gè)流量波動(dòng)影響因素作為固化的模板。例如:可用流量較上月增幅、近3個(gè)月超套的次數(shù)、是否變更為3G手機(jī)用戶、應(yīng)用消耗流量較上月增幅、是否變更為4G手機(jī)用戶、新增使用應(yīng)用的個(gè)數(shù)、是否流量套餐包升級(jí)等等。用戶根據(jù)本省業(yè)務(wù),對(duì)提供的一百個(gè)指標(biāo)模板進(jìn)行選擇,選擇可能對(duì)流量產(chǎn)品影響的指標(biāo)。用戶樣板選取的規(guī)模和類型。樣本的數(shù)據(jù)量,需要根據(jù)部署省份的數(shù)據(jù)情況進(jìn)行計(jì)算,推算樣本的最小數(shù)據(jù)量,以保證不會(huì)影響后續(xù)模型算法的準(zhǔn)確性。由于在不同的置信度和不同精度水平下,需要不同的樣本量做保證,因此,在樣本選取前,需要對(duì)部署省份數(shù)據(jù)進(jìn)行分析。例如:樣本量確定過(guò)程假設(shè)置信度為95%,最大系統(tǒng)誤差不超過(guò)3%,即E=3%,a=99%=0.99,得:N=1863.36。樣本量數(shù)據(jù)確定結(jié)果考慮到以為建模慣例、數(shù)據(jù)處理能力等,選取正、負(fù)樣本共計(jì)10萬(wàn)戶。其中正、負(fù)樣本的數(shù)量比例為1:2。將樣本以9:1為比例,平均劃分為兩部分,一部分為正式樣本數(shù)據(jù),供用戶模型計(jì)算使用;另一部分為測(cè)試樣本數(shù)據(jù),供用戶驗(yàn)證數(shù)據(jù)使用。對(duì)于用戶流量提升而言,可從多角度(流量變化、套餐、終端等)分析決定流量提升的關(guān)鍵性因素,在各個(gè)不同角度下,分析的因素不盡相同,亞信方案提供給客戶進(jìn)行用戶分群的角度選擇,以便后續(xù)模型計(jì)算更加精準(zhǔn)。在可選擇的同時(shí),亞信也會(huì)憑借業(yè)務(wù)經(jīng)驗(yàn)給用戶推薦貼合業(yè)務(wù)的分群角度。篩選影響流量的指標(biāo)原始選擇的指標(biāo),大體依靠業(yè)務(wù)經(jīng)驗(yàn),導(dǎo)致指標(biāo)繁雜、無(wú)章可循,并且僅以業(yè)務(wù)為角度進(jìn)行了梳理,影響后續(xù)模型計(jì)算的結(jié)果和效率,需要從數(shù)據(jù)角度進(jìn)行精簡(jiǎn)、篩選和梳理,經(jīng)過(guò)Pearson系數(shù)相關(guān)度,篩選后的模型可用指標(biāo)。通過(guò)模型計(jì)算,進(jìn)行因素分析亞信流量驅(qū)動(dòng)力因素分析專題,以指標(biāo)篩選后的流量因素和正式樣本數(shù)據(jù)兩個(gè)數(shù)據(jù)源為依據(jù),以當(dāng)前普適性較高的計(jì)算模型為計(jì)算基礎(chǔ),分別根據(jù)各個(gè)算法,計(jì)算出該算法下的流量因素、因素影響度,還有其算法對(duì)應(yīng)的正確率,供用戶進(jìn)行選擇。模型計(jì)算規(guī)則集由用戶選擇算法,自動(dòng)生成規(guī)則集。規(guī)則集中每一條線為各個(gè)節(jié)點(diǎn)組成的規(guī)則。模型驗(yàn)證,跟蹤分析流量波動(dòng)群用戶,評(píng)估改進(jìn)算法產(chǎn)品根據(jù)算法計(jì)算出的規(guī)則集和測(cè)試樣本數(shù)據(jù)兩部分共同生成驗(yàn)證結(jié)果。用戶群體的跟蹤分析,更深層次的了解用戶使用流量的波動(dòng)曲線,挖掘更具有影響力的因素;跟蹤用戶在接收營(yíng)銷(xiāo)推廣之后一段時(shí)間內(nèi)使用流量情況,查看基于驅(qū)動(dòng)因素分析數(shù)據(jù)建立起的營(yíng)銷(xiāo)活動(dòng)對(duì)用戶流量提升的影響效果。智能推薦引擎概述智能推薦引擎是基于大數(shù)據(jù)平臺(tái)的數(shù)據(jù)和計(jì)算能力,通過(guò)對(duì)各類數(shù)據(jù)的分析、計(jì)算、關(guān)聯(lián)、預(yù)測(cè)等方式,將對(duì)的產(chǎn)品推薦給對(duì)的人,為精準(zhǔn)營(yíng)銷(xiāo)提供能力支撐。智能推薦引擎提供的能力包括:產(chǎn)品推薦能力(找到適合推薦的產(chǎn)品,例如,活性最高的應(yīng)用、熱門(mén)的終端等等),用戶推薦能力(找到每一類產(chǎn)品適合推薦的用戶群)以及基于大數(shù)據(jù)挖掘的效果評(píng)估。與現(xiàn)有營(yíng)銷(xiāo)流程的整合集成方案如下:與IMCD系統(tǒng)接口該接口用于在TAS智能推薦引擎與IMCD系統(tǒng)間通過(guò)FTP方式進(jìn)行數(shù)據(jù)同步。接口采用FTP方式進(jìn)行數(shù)據(jù)傳輸,TAS與IMCD需互相開(kāi)放文件存儲(chǔ)服務(wù)器及路徑、定時(shí)將封裝后的文件向?qū)Ψ缴蟼?;需同步的?shù)據(jù)文件應(yīng)以csv或xml文本方式保存,并遵循csv或xml格式規(guī)則;數(shù)據(jù)文件統(tǒng)一命名格式:TypeSubTypeMmDdMmDd.INR;Type代表數(shù)據(jù)類型;SubType代表子數(shù)據(jù)類型,主要營(yíng)銷(xiāo)效果評(píng)估報(bào)表中,多維度的統(tǒng)計(jì)數(shù)據(jù)需要生成多份文件;MmDdMmDd代表數(shù)據(jù)的時(shí)間范圍,其中第一個(gè)MmDd是數(shù)據(jù)處理的起始日期、第二個(gè)MmDd是數(shù)據(jù)處理的完成日期;為了檢查是否有文件丟失,接口層生成完一個(gè)數(shù)據(jù)文件后即生成一個(gè)校驗(yàn)文件,文件名也需要包含生成時(shí)間信息(如TypeMmDdMmDd.CHK)當(dāng)沒(méi)有數(shù)據(jù)也要按照約定的時(shí)間生成文件,表示系統(tǒng)工作正常。與COC系統(tǒng)接口該接口用于在TAS智能推薦引擎與COC系統(tǒng)間通過(guò)FTP方式進(jìn)行數(shù)據(jù)同步。接口采用FTP方式進(jìn)行數(shù)據(jù)傳輸,COC需互相開(kāi)放文件存儲(chǔ)服務(wù)器及路徑、TAS定時(shí)將封裝后的文件向?qū)Ψ缴蟼?;TAS向COC同步的數(shù)據(jù)類型包括:用戶應(yīng)用偏好標(biāo)識(shí)與用戶渠道偏好標(biāo)識(shí);需同步的數(shù)據(jù)文件應(yīng)以csv或xml文本方式保存,并遵循csv或xml格式規(guī)則;數(shù)據(jù)文件統(tǒng)一命名格式:TypeMmDd.INR;Type代表數(shù)據(jù)類型;MmDd代表數(shù)據(jù)生成的時(shí)間;為了檢查是否有文件丟失,接口層生成完一個(gè)數(shù)據(jù)文件后即生成一個(gè)校驗(yàn)文件,文件名也需要包含生成時(shí)間信息(如TypeMmDdMmDd.CHK)當(dāng)沒(méi)有數(shù)據(jù)也要按照約定的時(shí)間生成文件,表示系統(tǒng)工作正常。個(gè)性化應(yīng)用推薦需求目的在流量時(shí)代,業(yè)務(wù)部門(mén)需求與大數(shù)據(jù)緊密關(guān)聯(lián),利用大數(shù)據(jù)推動(dòng)運(yùn)營(yíng)流程轉(zhuǎn)變、推動(dòng)商業(yè)模式變革。個(gè)性化應(yīng)用正是形成以大數(shù)據(jù)分析驅(qū)動(dòng)的智能營(yíng)銷(xiāo)閉環(huán)管理流程,實(shí)現(xiàn)營(yíng)銷(xiāo)策劃的精細(xì)化和智能化,助力電信運(yùn)營(yíng)商提升4G用戶流量規(guī)模。功能概述產(chǎn)品從應(yīng)用安裝使用的對(duì)象,即從用戶方面入手,活性分析得出用戶熱門(mén)應(yīng)用,實(shí)現(xiàn)自動(dòng)推薦;其次對(duì)全量用戶通過(guò)協(xié)同過(guò)濾篩選后再?gòu)闹刑暨x出4G用戶(4G用戶口徑:使用4G終端、開(kāi)通4G套餐、4G流量包),給予個(gè)性化的應(yīng)用推薦;對(duì)推薦結(jié)果進(jìn)行多維度的效果評(píng)估,通過(guò)安裝應(yīng)用、監(jiān)控應(yīng)用的使用來(lái)推動(dòng)用戶的流量提升。具體實(shí)現(xiàn)功能包括:用戶業(yè)務(wù)偏好分析、應(yīng)用活性分析、應(yīng)用使用特性分析、協(xié)同過(guò)濾算法、營(yíng)銷(xiāo)效果多維分析。關(guān)鍵技術(shù)整體功能框架:1.用戶應(yīng)用偏好分析基于DPI流量話單(HTTP話單或通用話單)中計(jì)算的應(yīng)用訪問(wèn)量、訪問(wèn)時(shí)長(zhǎng)、訪問(wèn)流量等多維度的指標(biāo),通過(guò)一系列規(guī)則計(jì)算得出用戶對(duì)其所已使用過(guò)應(yīng)用的偏好得分。2.應(yīng)用活性分析應(yīng)用活性分析從靜態(tài)和動(dòng)態(tài)視角對(duì)已識(shí)別應(yīng)用的用戶保有率、流量保有率等關(guān)鍵指標(biāo)進(jìn)行統(tǒng)計(jì),評(píng)估應(yīng)用的用戶粘性和對(duì)流量提升的作用。應(yīng)用活性分析的用戶樣本是各月的應(yīng)用‘新裝用戶’,分析周期為3個(gè)月。即在2015年1月統(tǒng)計(jì)出各個(gè)應(yīng)用的新裝用戶后,分別從靜態(tài)視角和動(dòng)態(tài)視角對(duì)相關(guān)指標(biāo)進(jìn)行統(tǒng)計(jì)。其中,靜態(tài)視角主要關(guān)注第N月新裝用戶在第N+3月的用戶保有率和流量保有率指標(biāo)現(xiàn)狀;動(dòng)態(tài)視角主要關(guān)注‘增幅’類指標(biāo),以及流量保有率和用戶保有率等指標(biāo)在分析周期內(nèi)的變化趨勢(shì)。3.應(yīng)用特性分析系統(tǒng)通過(guò)最佳推薦應(yīng)用分析提供默認(rèn)的最佳推薦應(yīng)用列表。最佳推薦應(yīng)用列表產(chǎn)生的原則是:根據(jù)靜態(tài)活性分析結(jié)果,分別選取用戶保有率和流量保有率TOP30的應(yīng)用,取并集同時(shí)去重;根據(jù)動(dòng)態(tài)活性分析結(jié)果,分別選取用戶保有率增幅和流量保有率增幅TOP30的應(yīng)用,取并集同時(shí)去重;針對(duì)最終選取出的應(yīng)用中,判斷應(yīng)用使用類型,過(guò)濾出戶均流量‘上升型’的應(yīng)用。如果過(guò)濾出的應(yīng)用數(shù)量不足30個(gè),則選取用戶保有率最高的應(yīng)用進(jìn)行補(bǔ)全;如果過(guò)濾出的應(yīng)用數(shù)量大于30個(gè),則選取用戶保有率最低的應(yīng)用進(jìn)行過(guò)濾;目前主要參考新裝與存量用戶的戶均流量變化趨勢(shì)對(duì)比來(lái)選擇最佳推薦應(yīng)用,后續(xù)可疊加指標(biāo)和判定規(guī)則,采用戶均訪問(wèn)量、戶均流量組合判斷的方式來(lái)選定推薦推薦應(yīng)用且判定規(guī)則可由用戶選擇或配置4.協(xié)同過(guò)濾算法1)協(xié)同過(guò)濾算法用于基于用戶相似度或應(yīng)用的相似度來(lái)分析和圈定目標(biāo)推薦用戶。它的實(shí)質(zhì)是根據(jù)用戶對(duì)應(yīng)用的偏好度,利用相似度算法生成用戶相似度矩陣和應(yīng)用相似度矩陣,計(jì)算出用戶對(duì)被推薦應(yīng)用的偏好度,根據(jù)這個(gè)偏好度來(lái)確定各應(yīng)用的目標(biāo)推薦用戶。2)相似度矩陣計(jì)算得出后,可通過(guò)設(shè)定固定數(shù)量的鄰居或基于相似度門(mén)檻來(lái)過(guò)濾鄰居用戶或鄰居物品。根據(jù)經(jīng)驗(yàn),用戶相似度矩陣計(jì)算量較大、物品相似度矩陣計(jì)算量較小;此外,余弦相似度和皮爾遜相似度算法是最適用于相似度矩陣計(jì)算的2類算法3)目標(biāo)用戶二次過(guò)濾功能主要用于當(dāng)協(xié)同過(guò)濾后得到的推薦用戶規(guī)模較大時(shí),可根據(jù)上述指標(biāo)進(jìn)行過(guò)濾,縮小用戶規(guī)模4)對(duì)篩選出的用戶再次過(guò)濾,只取出4G用戶。(4G用戶口徑:使用4G終端、開(kāi)通4G套餐、4G流量包)5.營(yíng)銷(xiāo)效果評(píng)估計(jì)劃推薦用戶數(shù)和實(shí)際傳播用戶數(shù),IMCD通過(guò)外部接口向TAS進(jìn)行同步后。一般從傳播開(kāi)始前一周到傳播結(jié)束后一周作為評(píng)估周期,為了增加指標(biāo)效果,可延長(zhǎng)統(tǒng)計(jì)周期至傳播前后1個(gè)月,傳播效果分析中,指標(biāo)統(tǒng)計(jì)均以‘實(shí)際傳播用戶’為數(shù)據(jù)樣本總體。用戶可以查詢到歷史推薦的列表,能查看到當(dāng)時(shí)具體推薦應(yīng)用的內(nèi)容以及用戶數(shù)規(guī)模;并可對(duì)具體的推薦活動(dòng)進(jìn)行效果評(píng)估。主要從應(yīng)用及區(qū)域兩個(gè)維度對(duì)歷史活動(dòng)進(jìn)行分析評(píng)估推薦效果。個(gè)性化主套餐推薦需求目的隨著運(yùn)營(yíng)商提供的套餐方案越來(lái)越多,套餐內(nèi)提供的產(chǎn)品種類繁多,每種產(chǎn)品的適用條件又不盡相同,用戶往往不能清楚的知道自己應(yīng)該使用哪一種套餐;新的套餐也因?yàn)樾麄魇侄斡邢蓿瑹o(wú)法及時(shí)通知到最適合的用戶。通過(guò)個(gè)性化主套餐推薦,及時(shí)的推薦用戶新的套餐或者建議升級(jí)主套餐,最大限度地保有存量用戶,在穩(wěn)步提高收入的同時(shí),更能有效的提升用戶感知,降低用戶維系的成本。功能概述首先,基于大數(shù)據(jù)中心的數(shù)據(jù)挖掘分析能力,分析并預(yù)測(cè)出用戶下月對(duì)各類產(chǎn)品的實(shí)際需求;其次,根據(jù)用戶現(xiàn)在使用的套餐,分析匹配程度;第三,分析現(xiàn)有的所有套餐產(chǎn)品,分析出最合適的主套餐;第四,分析用戶的“月保底消費(fèi)疊加規(guī)則”,濾除 資費(fèi)中大部分是保底消費(fèi)的用戶;第五,輸出需要升級(jí)主套餐的用戶以及推薦的目標(biāo)主套餐產(chǎn)品。關(guān)鍵技術(shù)預(yù)測(cè)用戶下月對(duì)主套餐內(nèi)各種產(chǎn)品的需求根據(jù)用戶使用本地通話、長(zhǎng)途通話、流量、WLAN、短信、彩信等產(chǎn)品的實(shí)際數(shù)據(jù),分析出用戶使用每一種產(chǎn)品的歷史變化趨勢(shì),通過(guò)產(chǎn)品使用量預(yù)測(cè)模型,推算出用戶下個(gè)月對(duì)每種產(chǎn)品可能的需求量。主要使用的算法:其中表示在t時(shí)刻的收入值,類似表示在t-1時(shí)刻的收入值,t值可以根據(jù)獲取值的情況,可以取時(shí)、天、周、月等值,是自回歸參數(shù),是滑動(dòng)平均參數(shù),為殘差。定階:以表示為序列真值,為根據(jù)模型階數(shù)(p,q)得到的估計(jì)值。利用在不同階數(shù)下是否顯著來(lái)判斷模型階數(shù)。為此引入殘差方差。=模型的剩余平方和/(實(shí)際觀察值個(gè)數(shù)-模型的參數(shù)個(gè)數(shù)),模型的剩余平方和,實(shí)際觀察值個(gè)數(shù)=N-自回歸階數(shù),對(duì)于ARMA(p,q)為,利用a2的變化規(guī)律,確定模型階數(shù)。隨著模型階數(shù)的增大,分母減?。环肿釉诓蛔銛M合時(shí),一直減小,速度較快;過(guò)擬合時(shí),分子雖減小,但速度很慢,幾乎不變。a2取決于分子、分母減小的速度。在不足擬合時(shí),a2一直減?。贿^(guò)擬合時(shí),a2卻增大。選擇a2的最低點(diǎn)為模型的最優(yōu)階數(shù)。參數(shù)估計(jì):共有(p+q+1)個(gè)待估參數(shù)1,2,,p與1,2,,q以及2,其估計(jì)量計(jì)算步驟及公式如下:第一步,估計(jì)1,2,,p,利用如下方程組是總體自相關(guān)函數(shù)的估計(jì)值,關(guān)于p的計(jì)算可參照AR(p).附AR(p)模型參數(shù)的最小二乘估計(jì)法:假設(shè)模型AR(p)的參數(shù)估計(jì)值已經(jīng)得到,即有殘差的平方和為:所要求的參數(shù)估計(jì)值是下列方程組的解:,即,j=1,2,…,p。解該方程組,就可得到待估參數(shù)的估計(jì)值。第二步,改寫(xiě)模型,求1,2,,q以及2的估計(jì)值,將模型改寫(xiě)為:令,于是上述方程改寫(xiě)為,構(gòu)成一個(gè)MA模型。按照估計(jì)MA模型參數(shù)的方法,可以得到1,2,,q以及2的估計(jì)值。附MA(q)模型參數(shù)的矩估計(jì)法:將MA(q)模型的自協(xié)方差函數(shù)中的各個(gè)量用估計(jì)量代替,得到:首先求得自協(xié)方差函數(shù)的估計(jì)值,上述方程是一個(gè)包含(q+1)個(gè)待估參數(shù)的非線性方程組,可以用直接法求解。對(duì)MA(1)模型的直接法為:對(duì)于MA(1)模型,上述方程相應(yīng)地寫(xiě)成:于是有解:,由于參數(shù)估計(jì)有兩組解,可根據(jù)可逆性條件|1|<1來(lái)判斷選取一組。檢驗(yàn):由于ARMA(p,q)模型的識(shí)別與估計(jì)是在假設(shè)隨機(jī)擾動(dòng)項(xiàng)是一白噪聲的基礎(chǔ)上進(jìn)行的,因此,如果估計(jì)的模型確認(rèn)正確的話,殘差應(yīng)代表一白噪聲序列。如果通過(guò)所估計(jì)的模型計(jì)算的樣本殘差不代表一白噪聲,則說(shuō)明模型的識(shí)別與估計(jì)有誤,需重新識(shí)別與估計(jì)。在實(shí)際檢驗(yàn)時(shí),主要檢驗(yàn)殘差序列是否存在自相關(guān)??衫?檢驗(yàn)來(lái)檢驗(yàn)是否拒絕殘差序列為白噪聲的假設(shè)。最終得出每一個(gè)用戶下一個(gè)月使用各種產(chǎn)品的預(yù)測(cè)情況,例如:本地通話:200分鐘長(zhǎng)途通話:100分鐘漫游通話:50分鐘流量:500MBWLAN:60分鐘短信:50條彩信:10條139郵箱:是分析現(xiàn)有套餐的匹配度按照不同產(chǎn)品符合程度的加權(quán)算法,得出用戶現(xiàn)有套餐組合產(chǎn)品的符合程度得分。確定分類指標(biāo)中的子指標(biāo)得分權(quán)重,用變異系數(shù)權(quán)重法找出三因子的權(quán)重系數(shù);算法如下:為了消除各項(xiàng)評(píng)價(jià)指標(biāo)的量綱不同的影響,需要用各項(xiàng)指標(biāo)的變異系數(shù)來(lái)衡量各項(xiàng)指標(biāo)取值的差異程度。各項(xiàng)指標(biāo)的變異系數(shù)公式如下:式中:是第項(xiàng)指標(biāo)的變異系數(shù)、也稱為標(biāo)準(zhǔn)差系數(shù);是第項(xiàng)指標(biāo)的標(biāo)準(zhǔn)差;是第項(xiàng)指標(biāo)的平均數(shù)。各項(xiàng)指標(biāo)的權(quán)重為:計(jì)算各指標(biāo)的最大值和最小值;使用最大最小規(guī)格化法對(duì)指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,得到標(biāo)準(zhǔn)化指標(biāo)index,具體計(jì)算公式:設(shè)指標(biāo)的最大值為a_max,指標(biāo)的最小值為a_min,則標(biāo)準(zhǔn)化:index=(當(dāng)前值-a_min)/(a_max-a_min)計(jì)算應(yīng)用偏好得分score:score(n)=index(1)*weight(1)+index(2)*weight(2)+index(3)*weight(3)...index(n)*weight(n) index(1):第一個(gè)指標(biāo)值 weight(1):第一個(gè)指標(biāo)值的權(quán)重 index(2): 第二個(gè)指標(biāo)值 weight(2):第二個(gè)指標(biāo)值的權(quán)重 index(3): 第三個(gè)指標(biāo)值 weight(3):第三個(gè)指標(biāo)值的權(quán)重...index(n): 第n個(gè)指標(biāo)值weight(n):第n個(gè)指標(biāo)值的權(quán)重根據(jù)用戶的“月保底消費(fèi)疊加規(guī)則”,濾除不建議再推薦升級(jí)主套餐的用戶群。結(jié)合用戶近三個(gè)月出賬費(fèi)用的穩(wěn)定性及規(guī)模(X),假定參加某活動(dòng)A需要添加保底Y1且活動(dòng)A將產(chǎn)生消費(fèi)額Y2,用戶參加活動(dòng)A前已有保底消費(fèi)規(guī)則Y,系統(tǒng)判斷Y+Y1+Y2<X*90%,如果滿足則向用戶推薦活動(dòng)A,否則不推薦。4G終端推薦需求目的終端引領(lǐng)一直是運(yùn)營(yíng)商很重要的用戶發(fā)展手段,如今通信市場(chǎng)已正式進(jìn)入4G高速移動(dòng)互聯(lián)網(wǎng)時(shí)代,而現(xiàn)網(wǎng)中還有大量的2G、3G存量用戶。通過(guò)增加對(duì)4G終端潛在換機(jī)用戶的精確識(shí)別幫助運(yùn)營(yíng)商正確引導(dǎo)用戶,完成終端換機(jī)推薦,實(shí)現(xiàn)提升流量目標(biāo),同時(shí)讓各合作終端廠商的終端都能夠被推薦給對(duì)其感興趣的用戶,是現(xiàn)在需要分析解決的問(wèn)題。功能概述4G終端推薦通過(guò)終端信息獲取、用戶畫(huà)像、終端參數(shù)與流量分析、終端算法推薦等流程手段可提供對(duì)4G終端潛在換機(jī)用戶的精確識(shí)別及4G終端推薦結(jié)果查詢兩大功能。4G終端推薦精準(zhǔn)分析可通過(guò)幾種識(shí)別方式對(duì)用戶進(jìn)行篩選,將適合推薦的人群展現(xiàn)出來(lái):“用戶興趣人群化”識(shí)別:基于用戶業(yè)務(wù)使用習(xí)慣,興趣分類及流量數(shù)據(jù)業(yè)務(wù)監(jiān)控進(jìn)行用戶群篩選畫(huà)像,圈定終端推薦適配人群。“購(gòu)買(mǎi)事前動(dòng)作”識(shí)別:基于用戶通信行為和上網(wǎng)行為進(jìn)行分析,通過(guò)用戶流量使用行為變化,APP使用行為變化、特定網(wǎng)站上網(wǎng)行為變化等篩選潛在換機(jī)用戶?!敖K端偏好”識(shí)別:基于用戶通信消費(fèi)能力、交往圈、用戶位置、上網(wǎng)行為、終端搜索行為、終端參數(shù)配置爬取等匹配用戶適配終端。4G終端推薦結(jié)果查詢可以查詢到歷史推薦列表,查看當(dāng)時(shí)具體推薦終端型號(hào)及用戶數(shù)規(guī)模;同時(shí)還可對(duì)推薦結(jié)果進(jìn)行效果評(píng)估,從終端型號(hào)、用戶群、區(qū)域等維度對(duì)歷史活動(dòng)進(jìn)行分析評(píng)估推薦效果。關(guān)鍵技術(shù)建立用戶對(duì)4G終端偏好的畫(huà)像通過(guò)用戶分類判斷條件將用戶按照興趣進(jìn)行人群化分類,剔除掉已在用4G終端用戶,分析客戶的基礎(chǔ)信息、消費(fèi)能力及終端使用情況。使用潛在用戶換機(jī)識(shí)別模型挖掘剩余用戶中現(xiàn)有終端的生命周期及對(duì)終端需求的變化,識(shí)別定制終端潛在客戶。推薦引擎組合算法1)基于用戶業(yè)務(wù)偏好推薦算法統(tǒng)計(jì)單用戶各大類業(yè)務(wù)的日均流量和每款待推薦終端平均單用戶各大類業(yè)務(wù)的日均流量。例如:使用pearson相關(guān)系數(shù)的方法,用戶A與小米4終端用戶的相似度可以用如下公式來(lái)表達(dá)。代表用戶A每天各大類業(yè)務(wù)的平均流量。P代表各項(xiàng)業(yè)務(wù)的集合。得到計(jì)算結(jié)果:推薦策略:用戶群體業(yè)務(wù)喜好相似度最大;排名規(guī)則:按相似度由高到低排序。2)基于終端性價(jià)比推薦算法為了對(duì)現(xiàn)有用戶的終端以及將要推薦的終端進(jìn)行評(píng)估,故選取了決定終端性能的重要參數(shù)和終端價(jià)格評(píng)估待推薦終端,求出性價(jià)比參數(shù)CP。以部分現(xiàn)網(wǎng)流量top終端為例,求出其性價(jià)比參數(shù)CP并對(duì)終端按高中低性價(jià)比的不同進(jìn)行分類。CP>20的終端,我們稱為高性價(jià)比終端。CP<10的終端,我們稱為低性價(jià)比終端。10<CP<20的終端,我們成為中等性價(jià)比終端。推薦策略:推薦高、中性價(jià)比以及高價(jià)低性價(jià)比終端。排名順序:按性價(jià)比參數(shù)由高到低排序。3)基于終端流量預(yù)測(cè)值推薦算法屏幕尺寸,屏幕占比,電池容量,CPU性能、內(nèi)存、是否支持4G這些參數(shù)的提升都會(huì)促進(jìn)用戶流量的增長(zhǎng)。其中屏幕是最重要的促進(jìn)因素。推薦策略:推薦預(yù)測(cè)值大于用戶現(xiàn)流量值50%以上的終端。排名順序:待推終端按流量預(yù)測(cè)值由高到低排序。通過(guò)模型計(jì)算,生成最終推薦4G終端推薦分析經(jīng)過(guò)前面的一系列算法計(jì)算會(huì)生成一份初始推薦結(jié)果,使用用戶終端偏好分析模型,通過(guò)數(shù)據(jù)挖掘算法,從價(jià)格、品牌、功能三個(gè)角度對(duì)客戶的終端偏好進(jìn)行深入分析,借助訓(xùn)練模型,得到?jīng)Q策樹(shù)規(guī)則集。通過(guò)決策樹(shù)規(guī)則集輸出終端價(jià)格,終端品牌,終端功能數(shù)據(jù),對(duì)挖掘輸出的潛在購(gòu)機(jī)用戶進(jìn)行購(gòu)機(jī)營(yíng)銷(xiāo),并根據(jù)營(yíng)銷(xiāo)反饋結(jié)果迭代訓(xùn)練模型,實(shí)現(xiàn)機(jī)器學(xué)習(xí)。決策樹(shù)算法說(shuō)明:對(duì)現(xiàn)有用戶進(jìn)行數(shù)據(jù)篩選,提取有終端價(jià)格需求數(shù)據(jù)的用戶相關(guān)信息,并將用戶群隨機(jī)拆分形成訓(xùn)練集和檢驗(yàn)集。訓(xùn)練集和檢驗(yàn)集可依據(jù)決策樹(shù)效果交叉檢驗(yàn)。目標(biāo)集為待挖掘用戶的群體,該群體用戶有模型所需的相關(guān)信息,但終端價(jià)格偏好未知。結(jié)果集由目標(biāo)集輸入檢驗(yàn)后的決策樹(shù),得到用戶群的WLAN需求。根據(jù)結(jié)果集的數(shù)據(jù)制定營(yíng)銷(xiāo)方案,將營(yíng)銷(xiāo)反饋數(shù)據(jù)重新檢驗(yàn),迭代訓(xùn)練決策樹(shù)規(guī)則,實(shí)現(xiàn)系統(tǒng)閉環(huán)。惡意刷機(jī)用戶分析需求目的通過(guò)“三碼對(duì)應(yīng)”規(guī)則可切實(shí)有效的甄別惡意刷機(jī)行為,分析識(shí)別疑似惡意刷機(jī)終端群體,查找這些終端對(duì)應(yīng)的渠道商信息,為運(yùn)營(yíng)商有效進(jìn)行渠道管控、商業(yè)止損提供數(shù)據(jù)支撐,旨在解決當(dāng)前運(yùn)營(yíng)商普遍面臨的不良渠道商通過(guò)惡意刷機(jī)非法套取傭金酬金但無(wú)法有效識(shí)別與監(jiān)督的現(xiàn)狀難題。功能概述惡意刷機(jī)用戶分析通過(guò)“三碼對(duì)應(yīng)”手段可提供惡意刷機(jī)識(shí)別,及惡意刷機(jī)結(jié)果查詢兩大功能。惡意刷機(jī)用戶分析識(shí)別可通過(guò)對(duì)用戶上網(wǎng)記錄數(shù)據(jù)中關(guān)鍵字段信息進(jìn)行解析提取,包括IMEI匹配、Useragent/URL中的終端信息,采用“三碼對(duì)應(yīng)”規(guī)則,對(duì)數(shù)據(jù)解析的結(jié)果數(shù)據(jù)進(jìn)行比對(duì)分析,初步判定出可能刷機(jī)的用戶群。惡意刷機(jī)用戶分析對(duì)初步判定的可能刷機(jī)的用戶群IMEI號(hào)進(jìn)行監(jiān)測(cè)分析(如一個(gè)月),通過(guò)“二次甄別”手段將UA/URL數(shù)據(jù)中剔除手機(jī)作wifi熱點(diǎn)導(dǎo)致IMEI變化的部分用戶,剩下的則判定為疑似刷機(jī)終端。同時(shí)將刷機(jī)用戶與渠道信息進(jìn)行關(guān)聯(lián),甄別判定惡意刷機(jī)渠道。惡意刷機(jī)用戶分析查詢可逐月提供合約機(jī)識(shí)別輸出分析報(bào)表,包括:疑似惡意刷機(jī)用戶列表,惡意刷機(jī)渠道列表等。關(guān)鍵技術(shù)數(shù)據(jù)解析通過(guò)接口從DPI系統(tǒng)側(cè)獲取用戶上網(wǎng)詳單數(shù)據(jù)(至少包括:Starttime、MSISDN、UA、URL、IMEI字段)。通過(guò)DPI識(shí)別手機(jī)號(hào),確定唯一。通過(guò)DPI識(shí)別獲得用戶上網(wǎng)的IMEI后,再匹配IMEI信息庫(kù),即可得出終端品牌、終端型號(hào)信息;通過(guò)DPI識(shí)別獲得用戶上網(wǎng)的Useragent字段后,可通過(guò)一定的文本抽取規(guī)則,從Useragent字符串中,匹配抽取出用戶的終端品牌、終端型號(hào)信息;通過(guò)DPI識(shí)別獲得用戶上網(wǎng)的URL字段后,可通過(guò)一定的文本抽取規(guī)則,從URL字符串中,匹配抽取出用戶的終端品牌、終端型號(hào)信息。通過(guò)接口從終端運(yùn)維平臺(tái)獲取終端信息,將用戶上網(wǎng)的IMEI號(hào)與終端信息庫(kù)進(jìn)行關(guān)聯(lián)匹配,得出終端品牌、終端型號(hào)信息。通過(guò)接口從經(jīng)分系統(tǒng)獲取渠道信息以及各渠道的終端銷(xiāo)售信息,將識(shí)別出來(lái)的疑似惡意刷機(jī)用戶與渠道銷(xiāo)售信息進(jìn)行關(guān)聯(lián),統(tǒng)計(jì)分析出各渠道的疑似惡意刷機(jī)用戶數(shù)。初步判定采用“三碼對(duì)應(yīng)”規(guī)則作為鑒別疑似惡意刷機(jī)行為的依據(jù)。終端在被惡意IMEI刷機(jī)后,會(huì)改變IMEI串號(hào),但不會(huì)影響UA和URL中的手機(jī)品牌型號(hào)信息。取Useragent/URL通過(guò)規(guī)則模板進(jìn)行解析,匹配識(shí)別在用終端品牌及終端型號(hào)信息,與導(dǎo)入終端品牌型號(hào)信息表關(guān)聯(lián)比對(duì)判斷是否一致,初步判定疑似惡意刷機(jī)用戶。示例:二次甄別惡意刷機(jī)終端甄別判定:如果一部終端被當(dāng)作熱點(diǎn)使用,則會(huì)出現(xiàn)監(jiān)測(cè)到的Useragent信息中型號(hào)與IMEI匹配出來(lái)的信息多次不一致?tīng)顩r,此類情況不屬于刷機(jī)終端。針對(duì)這種情況需要進(jìn)行二次甄別。如果該終端在IMEI號(hào)變化之后的監(jiān)控期(比如一個(gè)月)內(nèi),其UA/URL中原有IMEI號(hào)又反復(fù)(原IMEI出現(xiàn)次數(shù)≥1)出現(xiàn),則判定為該終端被作為WIFI熱點(diǎn)使用,為非刷機(jī)終端。如果該終端在IMEI號(hào)變化之后的監(jiān)控期內(nèi),其UA/URL中沒(méi)有再次出現(xiàn)過(guò)原有IMEI號(hào)(原IMEI出現(xiàn)次數(shù)=1),則判定為疑似刷機(jī)終端。惡意刷機(jī)渠道甄別判定:通過(guò)疑似惡意刷機(jī)用戶清單數(shù)據(jù)與渠道信息表關(guān)聯(lián),分析出各渠道的疑似惡意刷機(jī)用戶數(shù)量及比例。根據(jù)一定的閾值來(lái)判定是否屬于惡意刷機(jī)渠道。終端信息自動(dòng)運(yùn)維需求目的伴隨著移動(dòng)互聯(lián)網(wǎng)大力發(fā)展和4G時(shí)代的到來(lái),移動(dòng)終端成為了承載移動(dòng)互聯(lián)網(wǎng)應(yīng)用的重要載體,終端運(yùn)營(yíng)成為了在4 G新時(shí)期移動(dòng)轉(zhuǎn)型的核心戰(zhàn)略之一。在收獲了手機(jī)用戶的同時(shí)也面臨著終端管理帶來(lái)的新挑戰(zhàn)。運(yùn)營(yíng)商需要對(duì)現(xiàn)有的移動(dòng)終端進(jìn)行統(tǒng)一管理維護(hù),保證終端信息覆蓋全面、準(zhǔn)確,以支撐網(wǎng)絡(luò)分析、精確營(yíng)銷(xiāo)等業(yè)務(wù)。在這種背景需求下,建立一個(gè)統(tǒng)一的終端信息運(yùn)維平臺(tái),實(shí)現(xiàn)終端信息的實(shí)時(shí)更新,提升覆蓋度及準(zhǔn)確性,對(duì)企業(yè)經(jīng)營(yíng)戰(zhàn)略的落地提供基礎(chǔ)的支撐能力顯得尤為重要。功能概述終端運(yùn)維平臺(tái)產(chǎn)品,主要是面向運(yùn)營(yíng)商業(yè)務(wù)支撐部門(mén)提供的基于規(guī)則識(shí)別和爬蟲(chóng)爬取的終端信息運(yùn)維產(chǎn)品,旨在解決當(dāng)前運(yùn)營(yíng)商普遍面臨的終端信息庫(kù)不全、終端信息不新、不準(zhǔn)的現(xiàn)狀難題,為用戶提供一個(gè)完整、準(zhǔn)確的終端信息庫(kù)。終端信息自動(dòng)運(yùn)維的過(guò)程是:1)從流量數(shù)據(jù)中分析用戶終端的IMEI號(hào),通過(guò)解析獲得該終端的TAC信息,對(duì)比已有的IMEI信息庫(kù),獲取無(wú)法關(guān)聯(lián)匹配的終端TAC碼;2)從流量數(shù)據(jù)中分析用戶訪問(wèn)網(wǎng)絡(luò)時(shí)使用的Useragent/URL,通過(guò)一定的文本抽取規(guī)則結(jié)合UA/URL識(shí)別模板,獲取這些無(wú)法識(shí)別的TAC碼對(duì)應(yīng)的用戶終端廠家以及型號(hào)信息;3)根據(jù)識(shí)別的終端型號(hào),利用網(wǎng)絡(luò)爬取技術(shù)獲取終端特征數(shù)據(jù),識(shí)別終端的其他屬性信息;4)將解析爬取到的庫(kù)中沒(méi)有的終端信息,作為一條新的終端信息記錄,自動(dòng)新增到終端信息庫(kù)中。5)將終端信息庫(kù)的終端信息與爬取的終端屬性信息做對(duì)比,如果存在不一致,提示管理者存在更新信息,手工確認(rèn)后更新至終端信息庫(kù)。同時(shí)為了使終端解析更加準(zhǔn)確,覆蓋面更廣。面不斷變化的UA/URL,現(xiàn)有的解析規(guī)則并不完整需要進(jìn)行不斷的完善維護(hù)。記錄操作人員在系統(tǒng)操作終端信息的日志,方便系統(tǒng)運(yùn)維人員對(duì)系統(tǒng)數(shù)據(jù)流轉(zhuǎn)的監(jiān)控。關(guān)鍵技術(shù)終端UA/URL/人工解析(1)用戶通過(guò)手機(jī)應(yīng)用訪問(wèn)互聯(lián)網(wǎng)時(shí)都會(huì)產(chǎn)生一個(gè)UA的標(biāo)識(shí)。通過(guò)這個(gè)標(biāo)識(shí),用戶所訪問(wèn)的網(wǎng)站可以顯示不同的排版從而為用戶提供更好的體驗(yàn)或者進(jìn)行信息統(tǒng)計(jì)。如下圖所示:在該信息中我們可以看到它攜帶了終端品牌以及型號(hào)標(biāo)志等信息。通過(guò)反復(fù)多次的對(duì)各種UA進(jìn)行整理總結(jié)出規(guī)則,然后使用該規(guī)則庫(kù)對(duì)用戶的UA信息進(jìn)行解析,獲取終端信息。對(duì)UA解析不出來(lái)的還可以同過(guò)URL二次識(shí)別,URL是用戶在Internet上所有資源都有一個(gè)獨(dú)一無(wú)二的URL地址如下圖所示。同樣通過(guò)先建立解析模板然后再對(duì)用戶上網(wǎng)進(jìn)行解析,獲取終端信息。經(jīng)過(guò)兩次識(shí)別都未能識(shí)別的終端信息對(duì)UA/URL都解析不出來(lái)的用戶將通過(guò)UA解析和URL解析的終端信息數(shù)據(jù)進(jìn)行合并,然后還可通過(guò)累積下來(lái)的UA/URL/EMAIL/TEL等信息人工觀察或者外呼等方式解析出終端的平臺(tái)和型號(hào)信息。終端屬性信息爬取在UA解析出用戶終端后需要用網(wǎng)絡(luò)爬蟲(chóng)去完善該終端的信息,并將該信息更新入終端庫(kù)。網(wǎng)絡(luò)爬蟲(chóng)是按照一定的規(guī)則,自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或者腳本。根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與終端無(wú)關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè)URL,并重復(fù)上述過(guò)程,直到爬取完所有需要的終端屬性信息為止。業(yè)務(wù)模型流量提升驅(qū)動(dòng)力因素分析模型模型描述通過(guò)分析用戶的上網(wǎng)行為,實(shí)現(xiàn)對(duì)流量提升的各關(guān)鍵因素的影響度計(jì)算,輸出決策樹(shù)規(guī)則集圖表以及各個(gè)因素的影響度排行,支撐對(duì)省內(nèi)用戶的流量提升情況的分析以及預(yù)測(cè)。輸入項(xiàng)可能對(duì)流量提升有影響的因素指標(biāo),包括:手機(jī)上網(wǎng)流量較上月變化,手機(jī)上網(wǎng)時(shí)長(zhǎng)較上月變化,3G流量較上月變化,4G流量較上月變化,wlan流量較上月變化,wlan時(shí)長(zhǎng)較上月變化,可用流量較上月變化,是否變更為4G手機(jī),是否參與贈(zèng)送流量型營(yíng)銷(xiāo)活動(dòng),是否階躍用戶等等。輸出項(xiàng)決策樹(shù)規(guī)則集圖表以及各個(gè)因素的影響度排行。數(shù)據(jù)分析周期生成模型的數(shù)據(jù)周期越長(zhǎng),準(zhǔn)確性越高,建議至少采用三個(gè)月的歷史數(shù)據(jù),其中兩個(gè)月的數(shù)據(jù)作為訓(xùn)練集,一個(gè)月的數(shù)據(jù)為校驗(yàn)集。分析思路分析不同因素在用戶上網(wǎng)行為數(shù)據(jù)中的表現(xiàn)形式,深入這些因素本身各個(gè)層面,使用決策樹(shù)算法,細(xì)致分析它們對(duì)流量波動(dòng)產(chǎn)生的影響度,形成可量化的評(píng)估指標(biāo)。分析步驟提取在網(wǎng)用戶的上網(wǎng)行為數(shù)據(jù),輸入可能對(duì)流量提升有影響的因素指標(biāo)可能對(duì)流量提升有影響的因素指標(biāo),包括:手機(jī)上網(wǎng)流量較上月變化,手機(jī)上網(wǎng)時(shí)長(zhǎng)較上月變化,3G流量較上月變化,4G流量較上月變化,wlan流量較上月變化,wlan時(shí)長(zhǎng)較上月變化,可用流量較上月變化,是否變更為4G手機(jī),是否參與贈(zèng)送流量型營(yíng)銷(xiāo)活動(dòng),是否階躍用戶等等。構(gòu)建決策樹(shù)將訓(xùn)練集用戶清理過(guò)后的數(shù)據(jù)通過(guò)決策樹(shù)算法,形成決策規(guī)則,將模型輸出結(jié)果處理得到樹(shù)節(jié)點(diǎn),將用戶的相關(guān)信息數(shù)據(jù)處理得到?jīng)Q策點(diǎn),并對(duì)形成的決策樹(shù)進(jìn)行相應(yīng)的剪枝處理,最終形成決策樹(shù)。將待挖掘用戶(目標(biāo)集)信息輸入決策樹(shù)對(duì)待挖掘用戶信息進(jìn)行數(shù)據(jù)清理后,逐個(gè)輸入到已構(gòu)建好規(guī)則的決策樹(shù)中,決策系統(tǒng)將根據(jù)已有的決策規(guī)則得出判斷,輸出決策樹(shù)規(guī)則集圖表以及各個(gè)因素的影響度排行。個(gè)性化應(yīng)用推薦用戶篩選分析模型模型描述根據(jù)用戶對(duì)應(yīng)用的偏好度,利用相似度算法生成應(yīng)用相似度矩陣,計(jì)算出用戶對(duì)被推薦應(yīng)用的偏好度,根據(jù)這個(gè)偏好度排序來(lái)確定各應(yīng)用的目標(biāo)推薦用戶。輸入項(xiàng)輸入基于應(yīng)用訪問(wèn)量、應(yīng)用訪問(wèn)量占比、日均訪問(wèn)量等指標(biāo)得出的偏好度打分矩陣。輸出項(xiàng)物品相似度矩陣,排序的應(yīng)用列表。數(shù)據(jù)分析周期生成模型的數(shù)據(jù)周期越長(zhǎng),準(zhǔn)確性越高,建議至少采用三個(gè)月的歷史數(shù)據(jù),其中兩個(gè)月的數(shù)據(jù)作為訓(xùn)練集,一個(gè)月的數(shù)據(jù)為校驗(yàn)集。分析思路基于所有用戶對(duì)應(yīng)用的偏好,找與應(yīng)用A相似的應(yīng)用B。根據(jù)用戶歷史偏好打分找到“已安裝應(yīng)用X但未安裝應(yīng)用Y”的用戶A,將應(yīng)用Y推薦給A。分析步驟1.建立向量:將所有用戶對(duì)某個(gè)應(yīng)用的偏好作為元素建立該應(yīng)用X的向量;2.得到應(yīng)用相似度:通過(guò)向量間的計(jì)算公式得到所有應(yīng)用之間的相似度;基于物品相似度的常用算法有皮爾遜相關(guān)系數(shù)、余弦相似度(在最后介紹)。3.找到相似應(yīng)用:通過(guò)計(jì)算結(jié)果,找到某個(gè)應(yīng)用的相似應(yīng)用Y;4.得出應(yīng)用偏好:根據(jù)每個(gè)用戶的歷史偏好打分矩陣,用相似度矩陣中的相似應(yīng)用預(yù)測(cè)尚未表示偏好的應(yīng)用,計(jì)算得出一個(gè)排序的應(yīng)用列表作為當(dāng)前用戶推薦的清單。具體示例:假設(shè)1)根據(jù)三個(gè)用戶歷史偏好,對(duì)物品A/物品B/物品C分別建立每個(gè)物品的向量,即矩陣的縱列;2)通過(guò)向量相似度算法,分別計(jì)算出物品間的相似度,即矩陣中的每個(gè)單元格,打鉤表示相似。物品A僅計(jì)算得到一個(gè)相似物品C;3)根據(jù)用戶C喜歡物品A的歷史偏好,預(yù)測(cè)用戶C也可能喜歡物品C說(shuō)明:1)皮爾遜算法:皮爾遜相關(guān)系數(shù)是一個(gè)-1到1的值,表示兩個(gè)定距變量間聯(lián)系的緊密程度,值越大表示兩組變量聯(lián)系越緊密,相似度越高,反之亦然。皮爾遜相關(guān)系數(shù)可以理解為兩組組數(shù)字按比例一起運(yùn)動(dòng)的一個(gè)趨勢(shì),這樣就會(huì)在一組變量和其他變量的值之間有一個(gè)大致的線性關(guān)系。當(dāng)緊密程度很高的時(shí)候,系數(shù)值為1;當(dāng)幾乎沒(méi)有關(guān)聯(lián)時(shí),系數(shù)值為0;當(dāng)呈現(xiàn)對(duì)立關(guān)系時(shí)(一組變量中的值很大,而另一組對(duì)應(yīng)變量值很低),則系數(shù)值為-1。皮爾遜相關(guān)系數(shù)計(jì)算公式:其中X,Y在基于用戶CF中表示兩組用戶對(duì)物品的偏好值向量,在基于物品CF中表示用戶對(duì)兩組物品的偏好值向量。2)余弦相似度算法:余弦相似度(Cosine-basedSimilarity)的計(jì)算方法為將兩個(gè)項(xiàng)目i,j視作為兩個(gè)m維用戶空間向量,相似度計(jì)算通過(guò)計(jì)算兩個(gè)向量的余弦?jiàn)A角,那么,對(duì)于m*n的評(píng)分矩陣i,j的相似度sim(i,j)計(jì)算公式為:潛在用戶換機(jī)識(shí)別模型模型描述通過(guò)分析客戶的基礎(chǔ)信息,終端使用情況及歷史換機(jī)行為等相關(guān)數(shù)據(jù),挖掘現(xiàn)有終端的生命周期及用戶對(duì)終端的需求變化,識(shí)別定制終端潛在客戶,為定制終端精準(zhǔn)營(yíng)銷(xiāo)提供目標(biāo)客戶名單,提高營(yíng)銷(xiāo)資源分配合理性,并最終促進(jìn)定制終端銷(xiāo)量增長(zhǎng)。輸入項(xiàng)客戶終端使用情況分析相關(guān)指標(biāo):客戶ID,消費(fèi)能力,入網(wǎng)品牌,入網(wǎng)時(shí)長(zhǎng),使用時(shí)長(zhǎng),換機(jī)周期,換機(jī)次數(shù)等。輸出項(xiàng)決策樹(shù)規(guī)則集圖表以及客戶購(gòu)機(jī)需求列表。數(shù)據(jù)分析周期生成模型的數(shù)據(jù)周期越長(zhǎng),準(zhǔn)確性越高,建議至少采用1年的歷史數(shù)據(jù),其中8個(gè)月的數(shù)據(jù)作為訓(xùn)練集,4個(gè)月的數(shù)據(jù)為校驗(yàn)集。分析思路1)提取已有購(gòu)機(jī)記錄的用戶相關(guān)數(shù)據(jù),作為模型構(gòu)建基礎(chǔ)數(shù)據(jù)。2)根據(jù)有購(gòu)機(jī)記錄的用戶相關(guān)數(shù)據(jù)通過(guò)決策樹(shù)算法訓(xùn)練得到分類規(guī)則。3)將購(gòu)機(jī)挖用戶的相關(guān)數(shù)據(jù)帶入分類規(guī)則,得到目標(biāo)掘目標(biāo)用戶的購(gòu)機(jī)需求。4)對(duì)挖掘輸出的潛在購(gòu)機(jī)用戶進(jìn)行外呼調(diào)查,并根據(jù)外呼調(diào)查反饋結(jié)果迭代訓(xùn)練模型,實(shí)現(xiàn)模型優(yōu)化。分析步驟1)對(duì)現(xiàn)有用戶進(jìn)行數(shù)據(jù)篩選,提取有購(gòu)機(jī)需求(包含各檔需求)數(shù)據(jù)的用戶相關(guān)信息,并將用戶群隨機(jī)拆分形成訓(xùn)練集和檢驗(yàn)集。2)訓(xùn)練集和檢驗(yàn)集可依據(jù)決策樹(shù)效果交叉檢驗(yàn)。3)目標(biāo)集為待挖掘購(gòu)機(jī)用戶的群體,該群體用戶有模型所需的相關(guān)信息,但換機(jī)需求未知。4)結(jié)果集由目標(biāo)集輸入檢驗(yàn)后的決策樹(shù),得到用戶群的換機(jī)需求。5)根據(jù)結(jié)果集的數(shù)據(jù)制定外呼確認(rèn)方案,將外呼反饋數(shù)據(jù)重新檢驗(yàn),迭代訓(xùn)練決策樹(shù)規(guī)則,實(shí)現(xiàn)系統(tǒng)閉環(huán)。用戶終端偏好模型模型描述通過(guò)數(shù)據(jù)挖掘算法,從價(jià)格、品牌、功能三個(gè)角度對(duì)客戶的終端偏好進(jìn)行深入分析,為業(yè)務(wù)部門(mén)的終端營(yíng)銷(xiāo)工作和數(shù)據(jù)流量提升提供幫助。輸入項(xiàng)終端價(jià)格偏好分析相關(guān)指標(biāo):換機(jī)器按三個(gè)月平均ARPU,最近使用終端價(jià)格,歷史使用終端最高價(jià)格,歷史終端平均價(jià)格,歷史終端最低價(jià)格,交往圈終端平均價(jià)格,最近搜索終端價(jià)格等。終端品牌偏好分析相關(guān)指標(biāo):換機(jī)器按三個(gè)月平均ARPU,最近一次使用終端品牌,歷史使用最大品牌,交往圈最多終端品牌,最近搜索終端品牌等。終端功能偏好分析相關(guān)指標(biāo):原終端屏幕大小,原終端價(jià)格檔次,原終端是否智能機(jī),最近終端搜索關(guān)鍵詞,品牌,入網(wǎng)時(shí)長(zhǎng),用戶基本信息,通信費(fèi)用,通信行為等。輸出項(xiàng)決策樹(shù)規(guī)則集圖表以及用戶終端價(jià)格、終端品牌、終端規(guī)則等推薦列表。數(shù)據(jù)分析周期生成模型的數(shù)據(jù)周期越長(zhǎng),準(zhǔn)確性越高,建議至少采用1年的歷史數(shù)據(jù),其中8個(gè)月的數(shù)據(jù)作為訓(xùn)練集,4個(gè)月的數(shù)據(jù)為校驗(yàn)集。分析思路1)通過(guò)數(shù)據(jù)挖掘算法,從價(jià)格、品牌、功能三個(gè)角度對(duì)客戶的終端偏好進(jìn)行深入分析,為業(yè)務(wù)部門(mén)的終端營(yíng)銷(xiāo)工作和數(shù)據(jù)流量提升提供幫助。2)終端價(jià)格,終端品牌,終端功能三方面選取指標(biāo),分別建立三個(gè)模型。3)訓(xùn)練模型,得到?jīng)Q策樹(shù)規(guī)則集。4)通過(guò)決策樹(shù)規(guī)則集輸出終端價(jià)格,終端品牌,終端功能數(shù)據(jù)。5)對(duì)挖掘輸出的潛在購(gòu)機(jī)用戶進(jìn)行購(gòu)機(jī)營(yíng)銷(xiāo),并根據(jù)營(yíng)銷(xiāo)反饋結(jié)果迭代訓(xùn)練模型,實(shí)現(xiàn)機(jī)器學(xué)習(xí)。分析步驟1)對(duì)現(xiàn)有用戶進(jìn)行數(shù)據(jù)篩選,提取有終端價(jià)格需求數(shù)據(jù)的用戶相關(guān)信息,并將用戶群隨機(jī)拆分形成訓(xùn)練集和檢驗(yàn)集。2)訓(xùn)練集和檢驗(yàn)集可依據(jù)決策樹(shù)效果交叉檢驗(yàn)。3)目標(biāo)集為待挖掘用戶的群體,該群體用戶有模型所需的相關(guān)信息,但終端價(jià)格偏好未知。4)結(jié)果集由目標(biāo)集輸入檢驗(yàn)后的決策樹(shù),得到用戶群的WLAN需求。5)根據(jù)結(jié)果集的數(shù)據(jù)制定營(yíng)銷(xiāo)方案,將營(yíng)銷(xiāo)反饋數(shù)據(jù)重新檢驗(yàn),迭代訓(xùn)練決策樹(shù)規(guī)則,實(shí)現(xiàn)系統(tǒng)閉環(huán)。產(chǎn)品使用量預(yù)測(cè)模型模型描述通過(guò)對(duì)用戶的本地通話、長(zhǎng)途通話、流量、WLAN、短信、彩信等產(chǎn)品使用歷史數(shù)據(jù)的計(jì)算,分析預(yù)測(cè)出用戶下一個(gè)月可能的需求用量,為下一步的套餐營(yíng)銷(xiāo)決策、業(yè)務(wù)發(fā)展方向提供數(shù)據(jù)支撐。輸入項(xiàng)用戶前一年使用的本地通話時(shí)長(zhǎng)、長(zhǎng)途通話時(shí)長(zhǎng)、漫游通話時(shí)長(zhǎng)、本地流量大小、全國(guó)流量大小、WLAN使用時(shí)長(zhǎng)、短信條數(shù)、彩信條數(shù)。輸出項(xiàng)用戶下一個(gè)月的本地通話時(shí)長(zhǎng)、長(zhǎng)途通話時(shí)長(zhǎng)、漫游通話時(shí)長(zhǎng)、本地流量大小、全國(guó)流量大小、WLAN使用時(shí)長(zhǎng)、短信條數(shù)、彩信條數(shù)。數(shù)據(jù)分析周期生成模型的數(shù)據(jù)周期越長(zhǎng),準(zhǔn)確性越高,建議至少采用1年的歷史數(shù)據(jù),其中8個(gè)月的數(shù)據(jù)作為訓(xùn)練集,4個(gè)月的數(shù)據(jù)為校驗(yàn)集。分析思路分析不同產(chǎn)品的使用趨勢(shì)變化,使用時(shí)間序列算法,細(xì)致分析每一個(gè)產(chǎn)品的變化趨勢(shì)預(yù)測(cè)出未來(lái)的發(fā)展方向,形成每一個(gè)用戶的主套餐需求。分析步驟通過(guò)計(jì)算用戶使用產(chǎn)品的一定時(shí)間段(建議1年)數(shù)據(jù),通過(guò)時(shí)間序列(ARMA)模型預(yù)測(cè)出后1個(gè)月的相關(guān)值。獲取之前一定時(shí)間段(建議1年)的本地通話時(shí)長(zhǎng)、長(zhǎng)途通話時(shí)長(zhǎng)、漫游通話時(shí)長(zhǎng)、本地流量大小、全國(guó)流量大小、WLAN使用時(shí)長(zhǎng)、短信條數(shù)、彩信條數(shù)的歷史詳細(xì)數(shù)據(jù)。預(yù)處理用戶明細(xì)數(shù)據(jù)中的極值、異常值、空值等信息。通過(guò)對(duì)輸入數(shù)據(jù)進(jìn)行按天匯總,得出以日為單位的相關(guān)信息對(duì)上述歷史值采用時(shí)間序列(ARMA)模型進(jìn)行計(jì)算得出后1個(gè)月的值按天計(jì)算的各自值;在中間表中存有按天的詳細(xì)數(shù)據(jù)信息;按月進(jìn)行匯總并計(jì)算相應(yīng)的增長(zhǎng)率??头^(qū)客服KPI監(jiān)控客服流程分析投訴分類、熱點(diǎn)分析投訴輿情分析區(qū)域投訴分析網(wǎng)絡(luò)智能分析重點(diǎn)區(qū)域保障分析業(yè)務(wù)目標(biāo)基于常駐用戶特征的區(qū)域保障分析功能以大數(shù)據(jù)平臺(tái)的流量數(shù)據(jù)位置修正能力為基礎(chǔ),準(zhǔn)確獲取用戶常駐區(qū)域,同時(shí)結(jié)合用戶標(biāo)簽信息分析不同區(qū)域內(nèi)的常駐用戶特征,結(jié)合用戶特征與業(yè)務(wù)使用特征指導(dǎo)客服、市場(chǎng)運(yùn)營(yíng)及網(wǎng)絡(luò)工作的開(kāi)展,促進(jìn)網(wǎng)絡(luò)、市場(chǎng)與客服的工作聯(lián)動(dòng),保障區(qū)域內(nèi)的用戶感知。通過(guò)該功能的應(yīng)用,業(yè)務(wù)人員完成以下工作:了解不同區(qū)域內(nèi)的常駐用戶特征及業(yè)務(wù)使用特征;了解不同用戶群體的區(qū)域分布特征了解重點(diǎn)區(qū)域(如:高離網(wǎng)率區(qū)域、VIP用戶常駐區(qū)域、高投訴率區(qū)域)的網(wǎng)絡(luò)質(zhì)量及業(yè)務(wù)質(zhì)量現(xiàn)狀明確重點(diǎn)區(qū)域網(wǎng)絡(luò)保障策略(有限保障哪些區(qū)域、如何保障)業(yè)務(wù)流程首先,利用大數(shù)據(jù)平臺(tái)的ETL關(guān)聯(lián)分析能力修正流量數(shù)據(jù)中位置信息(LAC/CI)不準(zhǔn)確的問(wèn)題,準(zhǔn)確獲取用戶發(fā)生業(yè)務(wù)的小區(qū);其次,利用經(jīng)過(guò)位置修正的Gn接口用戶上網(wǎng)日志數(shù)據(jù),結(jié)合用戶標(biāo)簽(VIP用戶、離網(wǎng)用戶……)信息劃分區(qū)域類型(VIP區(qū)域、高離網(wǎng)率區(qū)域……);第三,結(jié)合流量數(shù)據(jù)、經(jīng)分?jǐn)?shù)據(jù)、資源數(shù)據(jù)等多種數(shù)據(jù)源對(duì)區(qū)域內(nèi)的網(wǎng)絡(luò)及業(yè)務(wù)發(fā)展現(xiàn)狀進(jìn)行全面評(píng)估與,對(duì)區(qū)域內(nèi)的問(wèn)題及現(xiàn)狀進(jìn)行可視化分析;最后,結(jié)合區(qū)域內(nèi)的用戶及業(yè)務(wù)特征制定有針對(duì)性地保障策略,促進(jìn)跨部門(mén)工作聯(lián)動(dòng)。關(guān)鍵技術(shù)Gn接口DPI話單是流量經(jīng)營(yíng)相關(guān)應(yīng)用功能的主要數(shù)據(jù)來(lái)源,在對(duì)流量特征進(jìn)行透視分析時(shí),需要從應(yīng)用、區(qū)域、終端、用戶等維度深入挖掘流量產(chǎn)生的各種特征,但由于Gn接口DPI話單中只能夠記錄用戶PDP上線的位置信息(LAC-CI),在用戶位置發(fā)生變化時(shí)無(wú)法準(zhǔn)確記錄,因此單純地基于Gn接口DPI數(shù)據(jù)對(duì)流量產(chǎn)生的區(qū)域特征進(jìn)行分析,分析結(jié)果會(huì)與實(shí)際情況存在較大偏差。流量數(shù)據(jù)位置修正功能,通過(guò)將DPI流量話單域Mc位置更新話單的位置信息抽取與關(guān)聯(lián)實(shí)現(xiàn)DPI話單中位置信息的修正,準(zhǔn)確獲取用戶所在的小區(qū),一定程度上解決數(shù)據(jù)統(tǒng)計(jì)及模型分析的數(shù)據(jù)準(zhǔn)確性問(wèn)題。用戶業(yè)務(wù)使用過(guò)程中無(wú)位置變化在一條Gn接口的HTTP話單或通用業(yè)務(wù)話單的開(kāi)始時(shí)間至結(jié)束時(shí)間范圍內(nèi),在Mc接口的位置更新話單中沒(méi)有找到對(duì)應(yīng)IMSI的記錄,將該IMSI最新的位置信息(LAC/CI,在該用戶的最近一次位置更新記錄里查找)同步至Gn話單的對(duì)應(yīng)字段中。從Mc接口的位置更新話單中,抽取時(shí)間、IMSI、Lac、CI四個(gè)關(guān)鍵信息,并將信息進(jìn)行緩存,建立用戶位置標(biāo)簽庫(kù)將位置標(biāo)簽庫(kù)中的位置信息與最新的位置更新話單進(jìn)行比對(duì),若不一致,則需要將Mc位置更新話單中的信息更新至用戶位置標(biāo)簽庫(kù)從Gn接口HTTP話單或通用業(yè)務(wù)話單中獲取用戶上網(wǎng)位置信息將用戶上網(wǎng)位置信息與用戶位置標(biāo)簽庫(kù)中的信息進(jìn)行比對(duì)、同步將位置信息同步結(jié)果返回,在Gn話單中進(jìn)行更新利用更新后的Gn接口話單進(jìn)行數(shù)據(jù)建模及應(yīng)用分析用戶業(yè)務(wù)使用過(guò)程中有位置變化在一條Gn接口的HTTP話單或通用業(yè)務(wù)話單的開(kāi)始時(shí)間至結(jié)束時(shí)間范圍內(nèi),在Mc接口的位置更新話單中找到對(duì)應(yīng)IMSI的1條或多條記錄,首先對(duì)用戶數(shù)據(jù)業(yè)務(wù)的起始位置進(jìn)行修正,然后再根據(jù)位置更新時(shí)間計(jì)算用戶駐留在各位置區(qū)的時(shí)長(zhǎng),對(duì)Gn話單按時(shí)間進(jìn)行拆分,生成多條話單。從Gn接口話單中提取IMSI、LAC、CI、時(shí)間、流量、包數(shù)六類關(guān)鍵信息,同步至ETL模塊ETL模塊從Mc位置更新話單中,根據(jù)IMSI和時(shí)間范圍進(jìn)行搜索,產(chǎn)生2個(gè)中間結(jié)果:在Gn話單開(kāi)始時(shí)間前的用戶最后一次位置更新記錄和Gn話單過(guò)程中用戶所有的位置更新記錄和每次位置更新的時(shí)間將Gn話單中的位置信息與Gn話單開(kāi)始時(shí)間前的用戶最后一次位置更新記錄中的位置信息進(jìn)行對(duì)比,如果不一致則將位置更新記錄中的位置同步至Gn話單,修正Gn話單的起始位置信息根據(jù)搜索出的所有位置更新記錄,計(jì)算每2次位置更新的時(shí)間間隔,把計(jì)算結(jié)果作為用戶駐留在各小區(qū)的時(shí)長(zhǎng)根據(jù)用戶駐留在各小區(qū)的時(shí)長(zhǎng)拆分Gn上網(wǎng)話單,其中流量、數(shù)據(jù)包等字段信息按照時(shí)長(zhǎng)分布比例進(jìn)行拆分拆分后生成新的Gn話單基于最新的Gn話單進(jìn)行數(shù)據(jù)建模及應(yīng)用分析小區(qū)劣化預(yù)警業(yè)務(wù)目標(biāo)小區(qū)劣化預(yù)警分析以大數(shù)據(jù)平臺(tái)的數(shù)據(jù)挖掘分析能力為基礎(chǔ),挖掘并量化導(dǎo)致小區(qū)劣化的各類因素,建立小區(qū)劣化預(yù)警模型,監(jiān)控并及時(shí)發(fā)現(xiàn)有劣化趨勢(shì)的小區(qū),及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)問(wèn)題,支撐網(wǎng)絡(luò)優(yōu)化、網(wǎng)絡(luò)建設(shè)工作的開(kāi)展。通過(guò)該功能的應(yīng)用,業(yè)務(wù)人員完成以
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年黑河市大學(xué)生鄉(xiāng)村醫(yī)生專項(xiàng)計(jì)劃招聘24人筆試模擬試題及答案解析
- 【初中歷史】大一統(tǒng)王朝的鞏固+課件 2024-2025學(xué)年統(tǒng)編版七年級(jí)歷史上冊(cè)
- 推動(dòng)社區(qū)科技創(chuàng)新計(jì)劃
- 幼兒園創(chuàng)新思維訓(xùn)練計(jì)劃
- 積木與拼圖促進(jìn)邏輯思維發(fā)展的策略計(jì)劃
- 企業(yè)社會(huì)責(zé)任管理培訓(xùn)
- 儲(chǔ)物柜租賃合同三篇
- 滑板行業(yè)推廣滑板運(yùn)動(dòng)文化計(jì)劃
- 生物教育成果評(píng)估與分析計(jì)劃
- 家居美學(xué)知識(shí)講座-家居美學(xué)概念與應(yīng)用
- 大學(xué)美育(同濟(jì)大學(xué)版)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 2024年2024年離婚協(xié)議書(shū)模板
- 2024年柔性直流輸電系統(tǒng)寬頻振蕩分析與控制報(bào)告-華北電力大學(xué)(劉崇茹)
- 廣西邕衡教育名校聯(lián)盟2024-2025學(xué)年高三上學(xué)期10月適應(yīng)性檢測(cè)試題 英語(yǔ) 含答案
- 江蘇鹽城射陽(yáng)縣招考聘用部分村(居)宣傳文化管理員42人高頻難、易錯(cuò)點(diǎn)500題模擬試題附帶答案詳解
- 應(yīng)急第一響應(yīng)人理論考試試卷(含答案)
- MOOC 跨文化交際通識(shí)通論-揚(yáng)州大學(xué) 中國(guó)大學(xué)慕課答案
- EDA實(shí)驗(yàn)報(bào)告1組合邏輯電路的設(shè)計(jì)
- 第一單元 計(jì)算機(jī)中的編碼 課件 初中信息技術(shù)七年級(jí)上冊(cè)
- 10000中國(guó)普通人名大全
- 祿馬貴人方速查表
評(píng)論
0/150
提交評(píng)論