華為大數(shù)據(jù)平臺(tái)規(guī)劃方案匯報(bào)24_第1頁(yè)
華為大數(shù)據(jù)平臺(tái)規(guī)劃方案匯報(bào)24_第2頁(yè)
華為大數(shù)據(jù)平臺(tái)規(guī)劃方案匯報(bào)24_第3頁(yè)
華為大數(shù)據(jù)平臺(tái)規(guī)劃方案匯報(bào)24_第4頁(yè)
華為大數(shù)據(jù)平臺(tái)規(guī)劃方案匯報(bào)24_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司上海市分公司業(yè)務(wù)平臺(tái)運(yùn)營(yíng)中心2022年10月12日上海聯(lián)通大數(shù)據(jù)平臺(tái)規(guī)劃方案匯報(bào)目錄錄二、大數(shù)據(jù)據(jù)平臺(tái)整整體規(guī)劃劃一、大數(shù)數(shù)據(jù)應(yīng)用用發(fā)展趨趨勢(shì)大數(shù)據(jù)所謂“大數(shù)據(jù)”,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的信息。大數(shù)據(jù)處理技術(shù)代表了新一代的技術(shù)架構(gòu),這種架構(gòu)通過(guò)高速獲取數(shù)據(jù)并對(duì)其進(jìn)行分析和挖掘,從海量形式各異的數(shù)據(jù)源中更有效地抽取出富含價(jià)值的信息。從大量數(shù)據(jù)中挖掘高價(jià)值知識(shí)是各界對(duì)于大數(shù)據(jù)的一個(gè)共識(shí)。海量數(shù)據(jù)可廣泛獲得,所稀缺的是如何從中挖掘出智慧和觀點(diǎn)。 Google 首席經(jīng)濟(jì)學(xué)家

2、Hal Varian大數(shù)據(jù)主要被用于分析和決策,企業(yè)用以分析的數(shù)據(jù)越全面,分析的結(jié)果就越接近于真實(shí)。大數(shù)據(jù)分析意味著企業(yè)能夠從這些新的數(shù)據(jù)中獲取新的洞察力,并將其與已知業(yè)務(wù)的各個(gè)細(xì)節(jié)相融合,對(duì)企業(yè)產(chǎn)生新的價(jià)值。大數(shù)據(jù)對(duì)對(duì)電信運(yùn)營(yíng)商的的應(yīng)用價(jià)價(jià)值體現(xiàn)現(xiàn)31542自助分析、生產(chǎn)管道可視化、資源解耦隨需而動(dòng),營(yíng)銷(xiāo)實(shí)時(shí),以業(yè)務(wù)效率提升為標(biāo)志。提升業(yè)務(wù)效率數(shù)據(jù)集中到數(shù)據(jù)中心,多數(shù)據(jù)源管理,透明服務(wù)支持,實(shí)時(shí)的決策和預(yù)測(cè)能力提升整體經(jīng)營(yíng)管理水平。增強(qiáng)管理水平數(shù)據(jù)開(kāi)放服務(wù)、與OTT廠商合作的后向收費(fèi)、廣告等新業(yè)務(wù).創(chuàng)新商業(yè)模式互聯(lián)網(wǎng)化的電子渠道全景體驗(yàn)、個(gè)性化商品推薦、LBS位置營(yíng)銷(xiāo)、面向客戶個(gè)體的深度洞察

3、提升客戶體驗(yàn)以技術(shù)驅(qū)動(dòng)為標(biāo)志,內(nèi)存計(jì)算、MPP、CEP分而治之的分布式計(jì)算讓運(yùn)營(yíng)商實(shí)時(shí)高效決策.技術(shù)高效、低成本上海聯(lián)通通數(shù)據(jù)平臺(tái)現(xiàn)狀狀精細(xì)化營(yíng)銷(xiāo)數(shù)據(jù)中心營(yíng)賬系統(tǒng)經(jīng)分(BI)GN口上網(wǎng)話單終端(DM)VAC短彩信中心語(yǔ)音通話詳單客服接觸記錄流媒體平臺(tái)詳單位置信令話單基站信息116114企業(yè)黃頁(yè)信息渠道應(yīng)用助銷(xiāo)信息經(jīng)過(guò)一二二期的建建設(shè),精精細(xì)化運(yùn)運(yùn)營(yíng)平臺(tái)臺(tái)的數(shù)據(jù)據(jù)中心,已經(jīng)成成為上海海聯(lián)通最大、內(nèi)內(nèi)容最豐豐富的數(shù)據(jù)倉(cāng)倉(cāng)庫(kù);隨著數(shù)據(jù)量的的增長(zhǎng),需要對(duì)對(duì)基礎(chǔ)架架構(gòu)做長(zhǎng)長(zhǎng)遠(yuǎn)規(guī)劃劃;有必要深深入挖掘數(shù)據(jù)據(jù)價(jià)值,研究新新的商業(yè)業(yè)模式,將成本本中心轉(zhuǎn)轉(zhuǎn)化為利利潤(rùn)中心心5擴(kuò)展性增量式的、幾乎無(wú)限的擴(kuò)展可用性要

4、求系統(tǒng)總是在線運(yùn)行靈活性靈活可動(dòng)態(tài)改變的數(shù)據(jù)模型擴(kuò)展性縱向擴(kuò)展橫向擴(kuò)展分布式資源集中計(jì)算和存儲(chǔ)分布可用性單份數(shù)據(jù)數(shù)據(jù)復(fù)制一致性不要使用分布式事務(wù)處理大數(shù)據(jù)處處理的需需求和特特點(diǎn)低成本運(yùn)運(yùn)營(yíng)一體化運(yùn)運(yùn)營(yíng)精細(xì)化運(yùn)運(yùn)營(yíng)全網(wǎng)運(yùn)營(yíng)營(yíng)實(shí)時(shí)、智智能化運(yùn)運(yùn)營(yíng)集中化建建設(shè)、管管理和維維護(hù)可不斷線線性擴(kuò)展展提高資源源綜合利利用率標(biāo)準(zhǔn)化功功能組件件,可共共享可復(fù)復(fù)用按業(yè)務(wù)量量、按需需支付BASS與BOSS、CRM的一體化化BSS與MSS、OSS、VAS等跨域一一體化對(duì)外部客客戶和應(yīng)應(yīng)用的一一體化片區(qū)化、網(wǎng)格化化管理長(zhǎng)尾市場(chǎng)場(chǎng)、小眾眾市場(chǎng)的的支撐個(gè)性化、短周期期需求的的滿足異地客戶戶、家庭庭客戶、集團(tuán)客客戶一點(diǎn)接入入

5、、全網(wǎng)網(wǎng)服務(wù)、全網(wǎng)客客戶畫(huà)像像全國(guó)統(tǒng)一一套餐、全網(wǎng)營(yíng)營(yíng)銷(xiāo)、統(tǒng)統(tǒng)一客客服實(shí)時(shí)數(shù)據(jù)據(jù)獲取、處理、分析智能化主主動(dòng)事件件觸發(fā)智能管道道移動(dòng)互聯(lián)聯(lián)網(wǎng)業(yè)務(wù)運(yùn)營(yíng)營(yíng)發(fā)展趨趨勢(shì)對(duì)業(yè)務(wù)支撐平臺(tái)臺(tái)的集中中化要求求對(duì)數(shù)據(jù)架構(gòu)的集中化要求集中化、大容量量、高擴(kuò)擴(kuò)展、高高可用數(shù)數(shù)據(jù)庫(kù)平平臺(tái):支支持全網(wǎng)網(wǎng)型數(shù)據(jù)據(jù)、跨域域數(shù)據(jù)的的整合,形成集集中化管管理的的的企業(yè)級(jí)級(jí)數(shù)據(jù)中中心高性能:支持3G時(shí)代更高高的實(shí)時(shí)時(shí)性要求、支支持動(dòng)態(tài)資源源共享:支持多多租戶管管理、資資源動(dòng)態(tài)態(tài)按需供供應(yīng)可重用、標(biāo)準(zhǔn)化化組件:形成可可重用組組件,支支持一次次開(kāi)發(fā)、各省共共享的模模式,形形成規(guī)模模型效益益數(shù)據(jù)集中中化趨勢(shì)勢(shì)使得運(yùn)運(yùn)營(yíng)商面面臨著海海量

6、數(shù)據(jù)據(jù)的存儲(chǔ)儲(chǔ)及分析析問(wèn)題,大數(shù)據(jù)據(jù)在支撐撐移動(dòng)業(yè)業(yè)務(wù)發(fā)展展趨勢(shì)中中,充當(dāng)當(dāng)重要角角色。電信運(yùn)營(yíng)營(yíng)商數(shù)據(jù)據(jù)集中化化趨勢(shì)7電信運(yùn)營(yíng)面臨的大大數(shù)據(jù)挑挑戰(zhàn)移動(dòng)互聯(lián)聯(lián)網(wǎng)和個(gè)個(gè)人消費(fèi)費(fèi)領(lǐng)域業(yè)務(wù)擴(kuò)展展和CEM導(dǎo)致海量量數(shù)據(jù)的的及時(shí)分分析帶來(lái)來(lái)挑戰(zhàn)運(yùn)營(yíng)商一體化化集中運(yùn)運(yùn)營(yíng)和透透明管控控,催生生巨大的的經(jīng)營(yíng)分分析數(shù)據(jù)據(jù)倉(cāng)庫(kù),對(duì)大數(shù)數(shù)據(jù)的存存儲(chǔ)、性性能、開(kāi)開(kāi)放帶來(lái)來(lái)挑戰(zhàn)DPI和信令監(jiān)監(jiān)測(cè),產(chǎn)產(chǎn)生的大大量事件件在存儲(chǔ)儲(chǔ)和用戶戶通信行行為分析析的實(shí)時(shí)時(shí)處理性性能帶來(lái)來(lái)挑戰(zhàn)ICT融合,核核心網(wǎng)絡(luò)絡(luò)、運(yùn)營(yíng)營(yíng)支撐和和VAS業(yè)務(wù)數(shù)據(jù)據(jù)的融合合催生海海量User Profile并集,對(duì)對(duì)大數(shù)據(jù)據(jù)的關(guān)聯(lián)聯(lián)分析計(jì)計(jì)算效能能帶來(lái)挑

7、挑戰(zhàn)移動(dòng)互聯(lián)聯(lián)網(wǎng)流量量井噴與與客戶行行為分析析業(yè)務(wù)融合合、能力力互通帶帶來(lái)數(shù)據(jù)據(jù)融合提升客戶戶體驗(yàn)要要求分析析網(wǎng)絡(luò)服服務(wù)數(shù)據(jù)據(jù)IT系統(tǒng)集中中化和行行業(yè)數(shù)據(jù)據(jù)價(jià)值挖挖掘BSSBI數(shù)據(jù):河南17個(gè)地市,每天抽抽取正常常用戶數(shù)數(shù)7000多萬(wàn),撥撥備用戶戶數(shù)3000多萬(wàn),DW層用戶表表總量1億多條;語(yǔ)音清清單每天天2.7億條數(shù)據(jù)據(jù),GPRS清單每天4.2億條數(shù)據(jù)據(jù);賬務(wù)每每天4.7億條數(shù)據(jù)據(jù);GPRS文件每個(gè)個(gè)100M左右,其其它文件件25M。日接口數(shù)數(shù)據(jù)量:2000G,其中話話單220G,WAP清單300G,工單服務(wù)務(wù)200G,用戶、帳帳務(wù)300G,其它980G。每月124TB數(shù)據(jù)量入入庫(kù),歷歷史數(shù)

8、據(jù)據(jù)保留1年,總數(shù)數(shù)據(jù)量1.45PB。按照用戶戶數(shù)簡(jiǎn)單單測(cè)算, 6.5億用戶下下,總數(shù)數(shù)據(jù)量 10PB!聯(lián)通總部部3G互聯(lián)網(wǎng)訪訪問(wèn)記錄錄查詢及及分析系統(tǒng):全國(guó)每日新增增10TB數(shù)據(jù),每月近萬(wàn)萬(wàn)億條記錄,要要存放6個(gè)月,約2PB的上網(wǎng)記記錄數(shù)據(jù)據(jù)。上網(wǎng)網(wǎng)記錄入入庫(kù)時(shí)間間小于30分鐘,原原始上上網(wǎng)記錄錄保留6個(gè)月。上上網(wǎng)查詢速度度不高于于1秒,并發(fā)發(fā)查詢數(shù)數(shù)1000請(qǐng)求/秒。集群規(guī)模模188個(gè)數(shù)據(jù)節(jié)節(jié)點(diǎn),存存儲(chǔ)容量量2.6PB傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)無(wú)法有有效存儲(chǔ)儲(chǔ)日益增增長(zhǎng)的業(yè)業(yè)務(wù)數(shù)據(jù)存儲(chǔ)儲(chǔ)需求基礎(chǔ)數(shù)據(jù)(用戶資料料,產(chǎn)品品訂購(gòu)信信息):15G/日*365+40G *12月= 5T/年考慮20%的業(yè)務(wù)增增長(zhǎng)

9、率后后為:6T/年用戶上網(wǎng)網(wǎng)數(shù)據(jù)話單數(shù)據(jù)據(jù):250T/年考慮20%的業(yè)務(wù)增增長(zhǎng)率后后為:300T/年MR數(shù)據(jù)話單數(shù)據(jù)據(jù):634G/日634G/日*365= 227T/年考慮20%的業(yè)務(wù)增增長(zhǎng)率后后為:272T/年BSS數(shù)據(jù)新增新增評(píng)估中日使用流量(TB)6月 10月隨著業(yè)務(wù)務(wù)發(fā)展數(shù)數(shù)據(jù)量的的增加,隨著應(yīng)應(yīng)用復(fù)雜雜導(dǎo)致的的數(shù)據(jù)量量增加,這些數(shù)數(shù)據(jù)量導(dǎo)導(dǎo)致了數(shù)數(shù)據(jù)存儲(chǔ)儲(chǔ)和處理理壓力; 數(shù)據(jù)據(jù)倉(cāng)庫(kù)無(wú)無(wú)法線性性擴(kuò)容,管理難難度加大大,成本本高擴(kuò)容容壓力大大,效率率下降等傳統(tǒng)數(shù)據(jù)據(jù)倉(cāng)庫(kù)只只保存處處理后的的匯總數(shù)數(shù)據(jù)。在在大數(shù)據(jù)架構(gòu)構(gòu)下需要要對(duì)用戶戶原始話話單進(jìn)行行長(zhǎng)期保保存。需要擴(kuò)擴(kuò)容大量量存儲(chǔ)空空間。

10、大數(shù)據(jù)使得得現(xiàn)有的的數(shù)據(jù)處處理方法面臨臨新問(wèn)題用戶層現(xiàn)平臺(tái)的數(shù)據(jù)保存周期大數(shù)據(jù)的數(shù)據(jù)保存周期應(yīng)用層KR/CB/DM層永久保留至少2年數(shù)據(jù)存儲(chǔ)層MK層永久保留至少2年DW層5個(gè)月永久保留數(shù)據(jù)獲取層ODS層37天永久保留面對(duì)海量量的數(shù)據(jù)據(jù)壓力,需要大大數(shù)據(jù)平平臺(tái)提供可供供線性擴(kuò)擴(kuò)容的存存儲(chǔ)能力力。每個(gè)應(yīng)用用需求的的變化就就是一場(chǎng)場(chǎng)災(zāi)難。由于數(shù)數(shù)據(jù)處理理與業(yè)務(wù)務(wù)的緊密密關(guān)聯(lián)可可能需要要對(duì)中間間每個(gè)處處理環(huán)節(jié)節(jié)進(jìn)行逐逐個(gè)調(diào)整整。重新新生成數(shù)數(shù)據(jù)的周周期也非非常緩慢慢。由于傳統(tǒng)統(tǒng)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的數(shù)數(shù)據(jù)處理理流程與與業(yè)務(wù)保保持緊密密關(guān)聯(lián)。整個(gè)數(shù)數(shù)據(jù)加工工流程為為最終應(yīng)應(yīng)用服務(wù)務(wù)。為緩緩解存儲(chǔ)儲(chǔ)壓力在在數(shù)據(jù)抽抽

11、取和清清洗階段段會(huì)過(guò)濾濾掉與業(yè)業(yè)務(wù)無(wú)關(guān)關(guān)的數(shù)據(jù)據(jù)記錄和和字段。大數(shù)據(jù)使得得現(xiàn)有的的數(shù)據(jù)處處理方法面臨臨新問(wèn)題數(shù)據(jù)源明細(xì)數(shù)據(jù)據(jù)層(DW)匯總層(MK)報(bào)表數(shù)據(jù)據(jù)標(biāo)簽庫(kù)指標(biāo)數(shù)據(jù)據(jù)客戶統(tǒng)一一視圖應(yīng)用層DW&MK操作型數(shù)數(shù)據(jù)ODS層Oracle數(shù)據(jù)庫(kù)精細(xì)化營(yíng)營(yíng)銷(xiāo)架構(gòu)構(gòu)短信中心經(jīng)分DMVACGN話單流媒體客服系統(tǒng)計(jì)費(fèi)中心MC話單彩信中心MR數(shù)據(jù)BSS用戶互聯(lián)網(wǎng)聯(lián)系方式(總部研究院)241234現(xiàn)網(wǎng)數(shù)據(jù)據(jù)平臺(tái)是是傳統(tǒng)關(guān)關(guān)系型數(shù)數(shù)據(jù)庫(kù)架架構(gòu)。大大量的用用戶上網(wǎng)網(wǎng)、用戶戶行為等等半結(jié)構(gòu)構(gòu)化和非非結(jié)構(gòu)化化數(shù)據(jù)無(wú)無(wú)法保存存和處理理,缺乏非結(jié)結(jié)構(gòu)化數(shù)數(shù)據(jù)的處處理能力力。用戶戶上網(wǎng)行行為等互聯(lián)網(wǎng)行行為數(shù)據(jù)據(jù)以結(jié)構(gòu)構(gòu)化

12、數(shù)據(jù)據(jù)方式保保存至數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中。傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)無(wú)法法有效應(yīng)應(yīng)對(duì)大數(shù)數(shù)據(jù)分析析需求1現(xiàn)網(wǎng)每日日用戶上上網(wǎng)HTTP話單達(dá)14億條。每每月匯總總的記錄錄條數(shù)也也近30億條。隨著移動(dòng)動(dòng)互聯(lián)網(wǎng)網(wǎng)正在迅迅猛增長(zhǎng)長(zhǎng),傳統(tǒng)數(shù)據(jù)據(jù)倉(cāng)庫(kù)將將很難駕駕馭,無(wú)無(wú)法滿足足數(shù)據(jù)處處理時(shí)限限和事務(wù)務(wù)處理需需求。3面對(duì)海量量的數(shù)據(jù)據(jù)壓力,需要大大數(shù)據(jù)平平臺(tái)提供供快速的的處理能力。大數(shù)據(jù)使得得現(xiàn)有的的數(shù)據(jù)處處理方法面臨臨新問(wèn)題傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)組網(wǎng)網(wǎng)將是大大數(shù)據(jù)分分析的瓶瓶頸現(xiàn)網(wǎng)精細(xì)細(xì)化營(yíng)銷(xiāo)銷(xiāo)平臺(tái)的的數(shù)據(jù)庫(kù)庫(kù)既存放放著所有有采集的的原始數(shù)數(shù)據(jù),又又承擔(dān)所所有的數(shù)數(shù)據(jù)加工工任務(wù),還承載載所有報(bào)報(bào)表和業(yè)業(yè)務(wù)應(yīng)用用的數(shù)據(jù)據(jù)存儲(chǔ)和和計(jì)算。缺乏

13、對(duì)對(duì)數(shù)據(jù)分分層分級(jí)級(jí)及生命命周期的的有效管管理。系統(tǒng)核心架構(gòu)構(gòu)為Oracle數(shù)據(jù)庫(kù)+小型機(jī)+磁陣。數(shù)據(jù)據(jù)存放在在磁陣上上,計(jì)算算時(shí)由數(shù)數(shù)據(jù)庫(kù)服服務(wù)器從從磁陣讀讀到本地地后進(jìn)行行計(jì)算結(jié)結(jié)果。隨隨著數(shù)據(jù)量增長(zhǎng),磁盤(pán)I/O、網(wǎng)絡(luò)帶寬、數(shù)數(shù)據(jù)庫(kù)服服務(wù)器的的處理能能力將存存在瓶頸,處處理時(shí)延延嚴(yán)重。由于傳傳統(tǒng)架構(gòu)構(gòu)的可擴(kuò)展性差,無(wú)法法滿足大大數(shù)據(jù)的的計(jì)算的的擴(kuò)容需需求。為應(yīng)對(duì)海海量數(shù)據(jù)處理理需求,大數(shù)據(jù)據(jù)將從集集中數(shù)據(jù)據(jù)庫(kù)向分分布式數(shù)數(shù)據(jù)庫(kù)進(jìn)進(jìn)行轉(zhuǎn)變。計(jì)計(jì)算和存存儲(chǔ)資源源都由x86服務(wù)器提提供。因?yàn)樵谝埔苿?dòng)互聯(lián)聯(lián)網(wǎng)和物物聯(lián)網(wǎng)上上需要有有新領(lǐng)域域的突破破,不同同于傳統(tǒng)統(tǒng)通信業(yè)業(yè)務(wù)分析析特點(diǎn),需要對(duì)對(duì)內(nèi)容等

14、等非結(jié)構(gòu)構(gòu)化、大大容量信信息進(jìn)行行有效分分析,傳傳統(tǒng)的架架構(gòu)處理理吃力。關(guān)系數(shù)據(jù)據(jù)庫(kù)引入入對(duì)XML的支持仍仍然無(wú)法法有效處處理ETL大數(shù)據(jù)使得得現(xiàn)有的的數(shù)據(jù)處處理方法面臨臨新問(wèn)題傳統(tǒng)數(shù)據(jù)據(jù)倉(cāng)庫(kù)無(wú)無(wú)法有效效處理新新型的業(yè)業(yè)務(wù)數(shù)據(jù)據(jù)主要關(guān)鍵技術(shù)自然語(yǔ)言理解,文本分詞、語(yǔ)義分析,情感分析或者大規(guī)模計(jì)算技術(shù)非結(jié)構(gòu)化數(shù)據(jù)索引技術(shù),如搜索引擎倒排索引技術(shù)多媒體處理,包括圖像識(shí)別,語(yǔ)音識(shí)別,多媒體索引等技術(shù)傳統(tǒng)數(shù)據(jù)據(jù)倉(cāng)庫(kù)無(wú)法法有效支支撐數(shù)據(jù)據(jù)合作運(yùn)運(yùn)營(yíng)由于保存存原始話話單數(shù)據(jù)據(jù)周期較較短,合合作運(yùn)營(yíng)營(yíng)無(wú)法追追溯歷史史原始數(shù)數(shù)據(jù)?,F(xiàn)網(wǎng)傳統(tǒng)統(tǒng)主數(shù)據(jù)據(jù)庫(kù)的設(shè)設(shè)計(jì)只適適用與向向上層提提供既定定好的數(shù)數(shù)據(jù)分析析任務(wù)結(jié)

15、結(jié)果。對(duì)對(duì)外開(kāi)放放底層數(shù)數(shù)據(jù)將大大大消耗耗系統(tǒng)資資源,影影響主庫(kù)庫(kù)正常的的數(shù)據(jù)處處理流程程。同時(shí)時(shí)數(shù)據(jù)的的處理方方式及結(jié)結(jié)果也恐恐難以滿滿足合作作運(yùn)營(yíng)的的需要。大數(shù)據(jù)平平臺(tái)的架架構(gòu)將數(shù)數(shù)據(jù)分層層管理。在各層層提供數(shù)數(shù)據(jù)開(kāi)放放接口,以滿足足不同數(shù)數(shù)據(jù)需求求。將更更有效支支撐數(shù)據(jù)據(jù)合作運(yùn)運(yùn)營(yíng)。同同時(shí)歷時(shí)時(shí)數(shù)據(jù)能能促使合合作在第第一時(shí)間間就開(kāi)展展起來(lái)。目錄錄二、大數(shù)數(shù)據(jù)平臺(tái)臺(tái)整體規(guī)規(guī)劃一、大數(shù)數(shù)據(jù)應(yīng)用用發(fā)展趨趨勢(shì)上海聯(lián)通通大數(shù)據(jù)據(jù)平臺(tái)目目標(biāo)架構(gòu)構(gòu)及定位位準(zhǔn)實(shí)時(shí)采采集批量采集Hadoop平臺(tái)MPP,基于X86平臺(tái)主數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)分布式數(shù)數(shù)據(jù)庫(kù)基于X86平臺(tái)數(shù)據(jù)采集集(云化化ETL,流數(shù)據(jù)據(jù)處理、爬蟲(chóng))數(shù)據(jù)

16、層獲取層能力層精細(xì)化營(yíng)營(yíng)銷(xiāo)智能運(yùn)營(yíng)營(yíng)物聯(lián)網(wǎng)應(yīng)應(yīng)用應(yīng)用商店店客服應(yīng)用用基礎(chǔ)分析析能力數(shù)據(jù)挖掘掘能力實(shí)時(shí)分析析能力自助分析析能力多維分析析能力數(shù)據(jù)共享享能力指標(biāo)應(yīng)用報(bào)表應(yīng)用主題分析析專題分析析互聯(lián)網(wǎng)GN口半結(jié)構(gòu)化化、非結(jié)構(gòu)化數(shù)數(shù)據(jù)BSS經(jīng)分DMVACMC話單業(yè)務(wù)平臺(tái)臺(tái)結(jié)構(gòu)化數(shù)數(shù)據(jù)數(shù)據(jù)源分布式文件系統(tǒng)統(tǒng)HDFS記錄明細(xì)細(xì)數(shù)據(jù)HBaseM/RHive記錄匯總總數(shù)據(jù)數(shù)據(jù)統(tǒng)一一服務(wù)和和開(kāi)放SQL、FTP、WS、MDX、API、分布式數(shù)數(shù)據(jù)庫(kù)(MPP):存儲(chǔ)加工工、關(guān)聯(lián)聯(lián)、匯總總后的業(yè)業(yè)務(wù)數(shù)據(jù)據(jù),并提提供分布布式計(jì)算算,支撐撐數(shù)據(jù)深深度分析析和數(shù)據(jù)挖掘掘能力,向主數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)輸出KPI和高度匯匯總數(shù)據(jù)據(jù)。主

17、數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)(與與MPP合設(shè)):存儲(chǔ)指標(biāo)標(biāo)數(shù)據(jù)、KPI數(shù)據(jù)和高高度匯總總數(shù)據(jù)。Hadoop云平臺(tái):負(fù)責(zé)存儲(chǔ)儲(chǔ)海量的的流量話話單數(shù)據(jù)據(jù),提供供并行的的計(jì)算和和非結(jié)構(gòu)構(gòu)化數(shù)據(jù)據(jù)的處理理能力,實(shí)現(xiàn)低低成本的的存儲(chǔ)和和低時(shí)延延、高并并發(fā)的查查詢能力力。數(shù)據(jù)開(kāi)放放接口:向大數(shù)據(jù)據(jù)應(yīng)用方方提供大大數(shù)據(jù)平平臺(tái)的能能力。數(shù)據(jù)采集集(ETL):負(fù)責(zé)源數(shù)數(shù)據(jù)的采采集、清清洗、轉(zhuǎn)轉(zhuǎn)換和加加載包括括:1、把原始始數(shù)據(jù)加加載到Hadoop平臺(tái)。2、把加工工后的數(shù)數(shù)據(jù)加載載分布式式數(shù)據(jù)庫(kù)庫(kù)和主數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)應(yīng)用層HDFS:分布式式文件系系統(tǒng)有較強(qiáng)的的容錯(cuò)性性可在x86平臺(tái)上運(yùn)運(yùn)行,減減少總體體成本可擴(kuò)展,能構(gòu)建建大規(guī)模模的應(yīng)

18、用用HBase:非結(jié)構(gòu)構(gòu)化NoSQl分布式數(shù)數(shù)據(jù)庫(kù)基于分布布式文件件系統(tǒng)HDFS,保證數(shù)數(shù)據(jù)安全全列式存儲(chǔ)儲(chǔ),節(jié)省省存儲(chǔ)空空間提供大數(shù)數(shù)據(jù)量的的高速讀讀寫(xiě)操作作Hive:分布式式關(guān)系型型數(shù)據(jù)庫(kù)庫(kù)數(shù)據(jù)可保保存在HDFS,可提供供海量的的數(shù)據(jù)存存儲(chǔ)類SQL的查詢語(yǔ)語(yǔ)句,提提供大數(shù)數(shù)據(jù)的統(tǒng)統(tǒng)計(jì)和分分析操作作,適合合海量數(shù)數(shù)據(jù)的批批處理通過(guò)MapReduce實(shí)現(xiàn)大規(guī)規(guī)劃并行行計(jì)算MapReduce:大規(guī)劃劃并行計(jì)計(jì)算引擎擎可將任務(wù)務(wù)分布并并行運(yùn)行行在一個(gè)個(gè)集群服服務(wù)器中中Hadoop平臺(tái)提供供了海量量數(shù)據(jù)的的分布式式存儲(chǔ)與與處理的的框架?;诜?wù)器本本地的計(jì)計(jì)算與存存儲(chǔ)資源源,Hadoop集群可以以

19、擴(kuò)展到到上千臺(tái)臺(tái)服務(wù)器器。同時(shí)時(shí),Hadoop在設(shè)計(jì)時(shí)時(shí)充分考考慮了硬硬件設(shè)備備的不可可靠因素素,在軟軟件層面面提供數(shù)數(shù)據(jù)和計(jì)計(jì)算的高高可靠保保證。大數(shù)據(jù)平平臺(tái):Hadoop主要功能能HBaseMapReduceHiveHDFS快速的數(shù)數(shù)據(jù)讀取取大數(shù)據(jù)存存儲(chǔ)統(tǒng)計(jì)計(jì)復(fù)雜計(jì)算算并行處處理SharedNothing代表數(shù)據(jù)庫(kù):GreenPlum、Vertica、Teradata適合大數(shù)數(shù)據(jù)量的的OLAP應(yīng)用缺點(diǎn)優(yōu)點(diǎn)線性擴(kuò)展:X86平臺(tái)高可用性較低新型MPP數(shù)據(jù)庫(kù)主主要構(gòu)建建在x86平臺(tái)上,為無(wú)共共享架構(gòu)構(gòu)(ShareNothing),依靠靠軟件架架構(gòu)上的的創(chuàng)新和和數(shù)據(jù)多多副本機(jī)機(jī)制,實(shí)實(shí)現(xiàn)系統(tǒng)統(tǒng)的高

20、可可用性和和可擴(kuò)展展性。負(fù)責(zé)深度度分析、復(fù)雜查查詢、KPI計(jì)算、數(shù)數(shù)據(jù)挖掘掘以及多多變的自自助分析析應(yīng)用等,支持持PB級(jí)的數(shù)據(jù)據(jù)存儲(chǔ)。大數(shù)據(jù)平平臺(tái):分布式數(shù)數(shù)據(jù)庫(kù)新型MPP分布式數(shù)數(shù)據(jù)庫(kù)基于開(kāi)放放平臺(tái)x86服務(wù)器大規(guī)模的的并發(fā)處處理能力力無(wú)單點(diǎn)故故障,可可線性擴(kuò)擴(kuò)展多副本機(jī)機(jī)制保證證數(shù)據(jù)安安全支撐PB級(jí)的數(shù)據(jù)據(jù)量支持SQL,開(kāi)放靈靈活數(shù)據(jù)分級(jí)級(jí)存儲(chǔ)原原則數(shù)據(jù)融合合與分級(jí)級(jí)存儲(chǔ)實(shí)實(shí)施按數(shù)據(jù)血血緣按邏輯層層次按業(yè)務(wù)種種類按設(shè)備網(wǎng)網(wǎng)絡(luò)劃分分按設(shè)備物物理地址址在線、近近線、離離線按訪問(wèn)頻頻度內(nèi)存數(shù)據(jù)據(jù)庫(kù)按響應(yīng)及時(shí)性內(nèi)存數(shù)據(jù)據(jù)庫(kù)數(shù)據(jù)生命命周期中中在線數(shù)數(shù)據(jù)對(duì)高高性能存存儲(chǔ)的需需求,以以及隨著著數(shù)據(jù)生生命

21、周期期的變更更,逐漸漸向一般般性能存存儲(chǔ)的遷遷移,是是分級(jí)存存儲(chǔ)管理理的一條條主線。同時(shí)兼兼顧考慮慮其他分分級(jí)原則則,共同同作用影影響數(shù)據(jù)據(jù)遷移機(jī)機(jī)制。基于生命周期期基于訪問(wèn)問(wèn)壓力基于業(yè)務(wù)務(wù)用途基于物理理屬性分級(jí)原則則高性能磁盤(pán)庫(kù)磁帶光盤(pán)庫(kù)中低性能能磁盤(pán)庫(kù)將核心模模型(即即中度匯匯總的模模型)通通過(guò)改造造融入到到現(xiàn)有主數(shù)據(jù)倉(cāng)庫(kù)的核核心模型型中,減少數(shù)數(shù)據(jù)冗余余,提升升數(shù)據(jù)質(zhì)質(zhì)量。將主數(shù)據(jù)據(jù)倉(cāng)庫(kù)中中的歷史數(shù)據(jù)據(jù)和清單數(shù)據(jù)據(jù)遷移到低低成本分分布式數(shù)數(shù)據(jù)庫(kù),減輕主主數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的計(jì)計(jì)算與存存儲(chǔ)壓力力并支撐撐深度數(shù)數(shù)據(jù)分析析。數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)1、核心模模型融入入主數(shù)據(jù)據(jù)倉(cāng)庫(kù)主數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)2、歷史數(shù)數(shù)據(jù)遷移移到

22、分布布式數(shù)據(jù)據(jù)庫(kù)分布式數(shù)數(shù)據(jù)庫(kù)1、清單數(shù)數(shù)據(jù)入MPP數(shù)據(jù)庫(kù)大數(shù)據(jù)平平臺(tái):數(shù)據(jù)分級(jí)級(jí)存儲(chǔ)Hadoop平臺(tái)主數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)報(bào)表數(shù)據(jù)據(jù)標(biāo)簽庫(kù)指標(biāo)數(shù)據(jù)據(jù)客戶統(tǒng)一一視圖信息子層層話單數(shù)據(jù)據(jù)非結(jié)構(gòu)化化數(shù)據(jù)信息子層層:報(bào)表數(shù)數(shù)據(jù)、多多維數(shù)據(jù)據(jù)、指標(biāo)標(biāo)庫(kù)等數(shù)數(shù)據(jù)來(lái)源源于匯總總層。匯總層:主題域域之間進(jìn)進(jìn)行關(guān)聯(lián)聯(lián)、匯總總計(jì)算。匯總數(shù)數(shù)據(jù)服務(wù)務(wù)于信息息子層,目的是是為了節(jié)節(jié)約信息息子層數(shù)數(shù)據(jù)計(jì)算算成本和和計(jì)算時(shí)時(shí)間。輕度匯總總層:主題域域內(nèi)部基基于明細(xì)細(xì)層數(shù)據(jù)據(jù),進(jìn)行行多維度度的、用用戶級(jí)的的匯總。明細(xì)數(shù)據(jù)據(jù)層:主題域域內(nèi)部進(jìn)進(jìn)行拆分分、關(guān)聯(lián)聯(lián)。是對(duì)對(duì)ODS操作型數(shù)數(shù)據(jù)按照照主題域域劃分規(guī)規(guī)則進(jìn)行行的拆分分及合并并O

23、DS層:數(shù)據(jù)來(lái)來(lái)源于各各生產(chǎn)系系統(tǒng),通通過(guò)ETL工具對(duì)接接口文件件數(shù)據(jù)進(jìn)進(jìn)行編碼碼替換和和數(shù)據(jù)清清洗轉(zhuǎn)換換,不做做關(guān)聯(lián)操操作。未未來(lái)也可可用于準(zhǔn)準(zhǔn)實(shí)時(shí)數(shù)數(shù)據(jù)查詢?cè)?。明?xì)數(shù)據(jù)據(jù)層(DW)輕度匯總總層(MK)高度匯總總層(MK)應(yīng)用庫(kù)精細(xì)化營(yíng)營(yíng)銷(xiāo)分布式數(shù)數(shù)據(jù)庫(kù)MPP其他應(yīng)用用1其他應(yīng)用用2應(yīng)用層:應(yīng)用系系統(tǒng)的私私有數(shù)據(jù)據(jù),應(yīng)用用的業(yè)務(wù)務(wù)數(shù)據(jù)。精細(xì)化營(yíng)營(yíng)銷(xiāo)做為為大數(shù)據(jù)據(jù)平臺(tái)的的一個(gè)上上層應(yīng)用,有有由大數(shù)數(shù)據(jù)平臺(tái)臺(tái)提供數(shù)數(shù)據(jù)支撐撐數(shù)據(jù)訪問(wèn)問(wèn)SQLFTPHSQLAPIETL數(shù)據(jù)采集集ETL互聯(lián)網(wǎng)GN口非結(jié)構(gòu)化數(shù)數(shù)據(jù)BSS經(jīng)分DMVACMC話單業(yè)務(wù)平臺(tái)臺(tái)結(jié)構(gòu)化數(shù)數(shù)據(jù)數(shù)據(jù)源獲取層12123344大數(shù)據(jù)平平臺(tái)

24、:數(shù)據(jù)分層層源數(shù)據(jù)導(dǎo)導(dǎo)入ETL,進(jìn)行數(shù)數(shù)據(jù)的清清洗、轉(zhuǎn)換和入入庫(kù)?;A(chǔ)數(shù)據(jù)據(jù)加載到到主數(shù)據(jù)據(jù)倉(cāng)庫(kù),規(guī)劃保保存3年清洗、轉(zhuǎn)轉(zhuǎn)換后的的ODS加載到分分布式數(shù)數(shù)據(jù)庫(kù)規(guī)規(guī)劃保存存1+1月,在分分布式數(shù)數(shù)據(jù)庫(kù)內(nèi)內(nèi)完成明明細(xì)數(shù)據(jù)據(jù)和輕度度匯總數(shù)數(shù)據(jù)加工工生成,規(guī)劃保保存2年ODS數(shù)據(jù)和非非結(jié)構(gòu)化化數(shù)據(jù),如爬到到的網(wǎng)頁(yè)頁(yè)數(shù)據(jù)ftp到Hadoop平臺(tái)做長(zhǎng)長(zhǎng)久保存存非結(jié)化數(shù)數(shù)據(jù)分析析處理在在Hadoop平臺(tái)完成成,產(chǎn)生生的結(jié)果果加載到到分布式式數(shù)據(jù)庫(kù)庫(kù)生成KPI和高度匯匯總數(shù)據(jù)據(jù)加載到到主數(shù)據(jù)據(jù)倉(cāng)庫(kù)。Hadoop平臺(tái)主數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)報(bào)表數(shù)據(jù)據(jù)標(biāo)簽庫(kù)客戶統(tǒng)一一視圖信息子層層話單數(shù)據(jù)據(jù)非結(jié)構(gòu)化化數(shù)據(jù)明細(xì)數(shù)據(jù)據(jù)層(DW)

25、輕度匯總總層(MK)高度匯總總層(MK)應(yīng)用庫(kù)分布式數(shù)數(shù)據(jù)庫(kù)MPP數(shù)據(jù)訪問(wèn)問(wèn)SQLFTPHSQLAPIETL數(shù)據(jù)采集集ETL互聯(lián)網(wǎng)GN口非結(jié)構(gòu)化數(shù)數(shù)據(jù)BSS經(jīng)分DMVACMC話單業(yè)務(wù)平臺(tái)臺(tái)結(jié)構(gòu)化數(shù)數(shù)據(jù)數(shù)據(jù)源獲取層123465業(yè)務(wù)應(yīng)用用通過(guò)數(shù)數(shù)據(jù)訪問(wèn)問(wèn)接口獲獲取所需需求數(shù)據(jù)據(jù)。7精細(xì)化營(yíng)營(yíng)銷(xiāo)其他應(yīng)用用1其他應(yīng)用用2指標(biāo)數(shù)據(jù)據(jù)大數(shù)據(jù)平平臺(tái):數(shù)據(jù)處理理流程消息采集文件采集話單預(yù)處理信令預(yù)處理Gn話單位置信令DCNBSS炫鈴VAC短彩平臺(tái)物聯(lián)網(wǎng)客服平臺(tái)1*10GE1*GE2*GES9300S9300分布式數(shù)數(shù)據(jù)庫(kù)集集群新建ETL、分布式式數(shù)據(jù)庫(kù)庫(kù)和Hadoop集群內(nèi)部部各自獨(dú)獨(dú)立組網(wǎng)網(wǎng)。分別別通過(guò)10

26、GE網(wǎng)口接入入?yún)R聚交交換機(jī)。Hadoop集群1*10GEETL集群1*10GE大數(shù)據(jù)平臺(tái)的組組網(wǎng)20Pcap數(shù)據(jù)(DPI)互聯(lián)網(wǎng)路由器路由器防火墻WAP網(wǎng)站W(wǎng)WW網(wǎng)站分光鏡像DPI數(shù)據(jù)爬取數(shù)據(jù)爬取數(shù)據(jù)采集Agentcollector日志采集網(wǎng)元設(shè)備(GGSNPDSNWAP網(wǎng)關(guān)、NET網(wǎng)關(guān))/Apache日志核心設(shè)備話單互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)正向采集用戶行為數(shù)據(jù)反向采集互聯(lián)網(wǎng)數(shù)據(jù)建設(shè)方案案基于Hadoop構(gòu)建大數(shù)數(shù)據(jù)的用用戶行為為分析系系統(tǒng)系統(tǒng)提供供了核心心的分布布式云存存儲(chǔ)、分分布式并并行計(jì)算算、分布布式數(shù)據(jù)據(jù)倉(cāng)庫(kù)、分布式式列數(shù)據(jù)據(jù)庫(kù)整體體解決方方案方案延伸伸基于Hadoop的大數(shù)據(jù)據(jù)解決方方案提供供了基礎(chǔ)礎(chǔ)的云存存儲(chǔ)和云云計(jì)算的的能力,基于該該技術(shù)框框架可進(jìn)進(jìn)行應(yīng)用用的擴(kuò)展展和衍生生?;谟脩魬艋ヂ?lián)網(wǎng)網(wǎng)訪問(wèn)行行為分析析結(jié)果,形成詳詳細(xì)的戶戶興趣愛(ài)愛(ài)好列表表,可進(jìn)進(jìn)行即時(shí)時(shí)、精準(zhǔn)準(zhǔn)的廣告告投放大數(shù)據(jù)平平臺(tái)有助助于提升升現(xiàn)網(wǎng)分分析能力力21系統(tǒng)構(gòu)成系統(tǒng)主要要包含數(shù)據(jù)采集集子系統(tǒng)統(tǒng)、數(shù)據(jù)據(jù)入庫(kù)子子系統(tǒng)、數(shù)據(jù)存存儲(chǔ)子系系統(tǒng)、數(shù)數(shù)據(jù)查詢?cè)兣c分析析子系統(tǒng)采用Hadoop/HBase作為上網(wǎng)網(wǎng)記錄存存儲(chǔ)方案案采用MapReduce/Hive作用統(tǒng)計(jì)計(jì)分析和和數(shù)據(jù)挖挖掘工具具關(guān)鍵性指指標(biāo)數(shù)據(jù)存儲(chǔ)儲(chǔ)上網(wǎng)記錄入庫(kù)庫(kù)時(shí)間:一般小小于30分鐘,實(shí)實(shí)際約10

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論