遼寧移動(dòng)大數(shù)據(jù)平臺建設(shè)方案V1159_第1頁
遼寧移動(dòng)大數(shù)據(jù)平臺建設(shè)方案V1159_第2頁
遼寧移動(dòng)大數(shù)據(jù)平臺建設(shè)方案V1159_第3頁
遼寧移動(dòng)大數(shù)據(jù)平臺建設(shè)方案V1159_第4頁
遼寧移動(dòng)大數(shù)據(jù)平臺建設(shè)方案V1159_第5頁
已閱讀5頁,還剩56頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、遼寧移動(dòng)大數(shù)據(jù)平臺方案-交流稿北京天云融創(chuàng)軟件技術(shù)有限公司7/27/2022天云簡介天云公司致力于云計(jì)算產(chǎn)品研發(fā)、云系統(tǒng)構(gòu)建、云系統(tǒng)解決方案、大數(shù)據(jù)解決方案的提供。天云公司專注云計(jì)算領(lǐng)域,引入國內(nèi)外的云計(jì)算的頂尖人才??偛吭O(shè)在北京云基地,在中國(包括香港、臺灣)16個(gè)省市設(shè)有分支機(jī)構(gòu),在北京, 西安以及美國硅谷擁有自己的研發(fā)中心,共有核心研發(fā)人員:255名,首席云專家:5名。云基地?fù)?dān)任云計(jì)算事業(yè)的先鋒角色 :云計(jì)算知識產(chǎn)權(quán)創(chuàng)新聯(lián)盟理事單位院士專家工作站科技企業(yè)孵化器博士后工作站天云公司客戶主要集中于運(yùn)營商、政府、能源、制造業(yè)等行業(yè)天云公司運(yùn)營團(tuán)隊(duì):由具有國際化背景和本地化經(jīng)驗(yàn)的優(yōu)秀人才構(gòu)成,核

2、心成員均為從美國硅谷回國創(chuàng)業(yè)人員,曾分別服務(wù)于各大國際知名電信和網(wǎng)絡(luò)運(yùn)營商及跨國IT企業(yè)。公司大事記2010年4月,天云聯(lián)合趨勢科技,在中國移動(dòng)通信研究院,成功搭建中國移動(dòng)IaaS PoC平臺第一期,實(shí)現(xiàn)與大云虛擬化平臺對接,為中國移動(dòng)IaaS業(yè)務(wù)的商業(yè)化運(yùn)營奠定了基礎(chǔ)2010年9月,天云攜手趨勢、友友天宇,與國網(wǎng)信息通信有限公司一起,創(chuàng)立了中國電力行業(yè)第一個(gè)“云計(jì)算仿真實(shí)驗(yàn)室”,共同為智能電網(wǎng)大規(guī)模數(shù)據(jù)處理進(jìn)行預(yù)研和驗(yàn)證,這也是中國第一個(gè)產(chǎn)業(yè)云;2010年9月,中國科學(xué)院與云基地天云公司簽署在云計(jì)算和移動(dòng)互聯(lián)網(wǎng)領(lǐng)域戰(zhàn)略合作;2010年12月,天云公司與臺灣電信龍頭中華電信簽署合作備忘錄(MO

3、U),雙方將致力于兩岸云計(jì)算服務(wù),云計(jì)算解決方案及ICT(信息技術(shù)與通信技術(shù))智能產(chǎn)品解決方案展開全面合作。2011年12月,天云公司成功的完成了上海浦東軟件園“匯智在線,IT服務(wù)云”項(xiàng)目,正式向園區(qū)企業(yè)提供云計(jì)算服務(wù)。2012年02月,天云公司中標(biāo)首信電子商務(wù)云項(xiàng)目,以建設(shè)北京市級電子政務(wù)云平臺互聯(lián)網(wǎng)云,面向電子政務(wù)應(yīng)用系統(tǒng)提供IAAS、PAAS、SAAS各級服務(wù),以推動(dòng)北京市電子政務(wù)向更高層次躍進(jìn)。2012年05月,天云公司榮獲中國通信行業(yè)云計(jì)算優(yōu)秀解決方案獎(jiǎng)、中國綠色I(xiàn)T服務(wù)與外包創(chuàng)新貢獻(xiàn)獎(jiǎng)。2012年-2013年,天云公司中標(biāo)北京電視臺、黑龍江移動(dòng)業(yè)支云(二期、三期)、廣東移動(dòng)VDC云

4、二期建設(shè)、上海移動(dòng)大數(shù)據(jù)共享平臺、中國聯(lián)通沃云、浙江移動(dòng)存儲(chǔ)管理平臺等一系列云平臺、大數(shù)據(jù)項(xiàng)目。2013年11月,天云軟件榮獲“2013年最佳云計(jì)算平臺解決方案獎(jiǎng)”,CEO張福波博士榮獲“2013年中國行業(yè)信息化領(lǐng)軍人物獎(jiǎng)”天云案例運(yùn)營商行業(yè)云應(yīng)用落地案例黑龍江移動(dòng)私有云項(xiàng)目黑龍江移動(dòng)支撐云項(xiàng)目中國聯(lián)通沃云-中國聯(lián)通一級公眾服務(wù)云項(xiàng)目中國聯(lián)通云計(jì)算戰(zhàn)略咨詢項(xiàng)目中國電信中小企業(yè)云項(xiàng)目北京移動(dòng)云應(yīng)用技術(shù)服務(wù)項(xiàng)目中國移動(dòng)南方基地云網(wǎng)管咨詢項(xiàng)目中國移動(dòng)南方基地經(jīng)分Hadoop云項(xiàng)目廣東移動(dòng)VDC一期云平臺項(xiàng)目廣東移動(dòng)VDC二期云平臺項(xiàng)目廣東移動(dòng)SaaS咨詢項(xiàng)目山東電信云平臺項(xiàng)目上海移動(dòng)數(shù)據(jù)平臺項(xiàng)目浙江

5、移動(dòng)統(tǒng)一存儲(chǔ)云平臺管理項(xiàng)目重慶移動(dòng)GPRS話單查詢項(xiàng)目行業(yè)案例涉及:深圳國家動(dòng)漫基地云平臺項(xiàng)目中國光大銀行歷史數(shù)據(jù)查詢項(xiàng)目北京電視臺云平臺項(xiàng)目上海浦東軟件園項(xiàng)目北京市電子政務(wù)云平臺項(xiàng)目目錄遼寧移動(dòng)大數(shù)據(jù)項(xiàng)目技術(shù)需求 大數(shù)據(jù)平臺分層建設(shè)方案大數(shù)據(jù)建設(shè)背景資源池規(guī)劃與落地點(diǎn)探討大數(shù)據(jù)平臺頂層架構(gòu)設(shè)計(jì)附件:案例介紹移動(dòng)運(yùn)營商面臨的挑戰(zhàn)環(huán)境變化能力提升,支撐業(yè)務(wù)規(guī)模發(fā)展和創(chuàng)新突破架構(gòu)優(yōu)化,支撐企業(yè)集中化與一體化、專業(yè)化的運(yùn)營與服務(wù)數(shù)據(jù)共享,支撐企業(yè)科學(xué)決策和精確管理新的要求移動(dòng)互聯(lián)網(wǎng)迅速發(fā)展企業(yè)電子商務(wù)化云計(jì)算、大數(shù)據(jù)等新技術(shù)興起跨行業(yè)產(chǎn)業(yè)鏈變革業(yè)務(wù)目標(biāo)存量經(jīng)營流量經(jīng)營集客經(jīng)營終端銷售管理目標(biāo)質(zhì)量&服

6、務(wù)管理優(yōu)化企業(yè)深化轉(zhuǎn)型三大戰(zhàn)略:移動(dòng)互聯(lián)網(wǎng)戰(zhàn)略,四網(wǎng)協(xié)同戰(zhàn)略,全業(yè)務(wù)戰(zhàn)略新業(yè)務(wù)發(fā)展國際業(yè)務(wù)鐵通協(xié)同數(shù)據(jù)應(yīng)用面臨的挑戰(zhàn)準(zhǔn)實(shí)時(shí)批處理應(yīng)用非實(shí)時(shí)批處理應(yīng)用每次請求處理的數(shù)據(jù)規(guī)模每次請求的處理時(shí)長OLTP在線事務(wù)處理應(yīng)用OLAP在線分析應(yīng)用表示各類系統(tǒng)的技術(shù)難點(diǎn)低高高技術(shù)難點(diǎn):每次處理數(shù)據(jù)規(guī)模增大;要求處理完成時(shí)間卻縮短!Scale OutorScale Up數(shù)據(jù)規(guī)模處理能力?批處理交互式大數(shù)據(jù)應(yīng)用分析應(yīng)用可能性電信政府(公共事業(yè))交通金融醫(yī)療教育能源(電力/石油)縱軸契合度:表示該用戶的IT應(yīng)用特點(diǎn)與大數(shù)據(jù)特性的契合程度;橫軸應(yīng)用可能性:表示該用戶出于主客觀因素在短期內(nèi)投資大數(shù)據(jù)的可能性;注:該位置

7、為分析師訪談的綜合印象,為定性分析,圖中位置不代表具體數(shù)值HighMidLowLowMidHigh優(yōu)先關(guān)注行業(yè)用戶應(yīng)用特點(diǎn)與大數(shù)據(jù)技術(shù)有較高的契合度,在主客觀條件上也有較高的應(yīng)用可能性。值得關(guān)注行業(yè)用戶應(yīng)有特點(diǎn)與大數(shù)據(jù)的契合度及應(yīng)用可能性綜合較高適當(dāng)關(guān)注行業(yè)用戶兩個(gè)維度暫時(shí)都不具備優(yōu)勢,可適當(dāng)給予關(guān)注互聯(lián)網(wǎng)(電子商務(wù))契合度流通零售制造第三代業(yè)務(wù)支撐系統(tǒng)將向什么方向發(fā)展?IT支撐能力持續(xù)提升實(shí)現(xiàn)BOSS系統(tǒng)集中化改造,構(gòu)建業(yè)務(wù)支撐網(wǎng),支撐“服務(wù)與業(yè)務(wù)領(lǐng)先” 戰(zhàn)略形成標(biāo)準(zhǔn)化客戶運(yùn)營和產(chǎn)品運(yùn)營分離的支撐體系,支撐從“移動(dòng)通信專家”到“移動(dòng)信息”專家的轉(zhuǎn)型借助先進(jìn)的技術(shù),采用基于云計(jì)算的新架構(gòu)等,構(gòu)

8、建更加高效、開放、靈活的適應(yīng)移動(dòng)互聯(lián)網(wǎng)發(fā)展的業(yè)務(wù)支撐體系,完成一體化運(yùn)營支撐模式的轉(zhuǎn)變,支撐企業(yè)的全業(yè)務(wù)戰(zhàn)略、四網(wǎng)協(xié)同戰(zhàn)略、移動(dòng)互聯(lián)網(wǎng)戰(zhàn)略2007201719982012BOSSNGBOSS3rd BOSS主要特征省級集中橫向整合、縱向解耦、網(wǎng)狀網(wǎng)絡(luò)?目錄 大數(shù)據(jù)平臺分層建設(shè)方案大數(shù)據(jù)建設(shè)背景資源池規(guī)劃與落地點(diǎn)探討大數(shù)據(jù)平臺頂層架構(gòu)設(shè)計(jì)附件:案例介紹遼寧移動(dòng)大數(shù)據(jù)項(xiàng)目技術(shù)需求項(xiàng)目技術(shù)需求建設(shè)規(guī)模:一期規(guī)模考慮數(shù)據(jù)總?cè)萘?.2P, 其中熱數(shù)據(jù)2P,冷數(shù)據(jù)1.2P集成內(nèi)容:數(shù)據(jù)項(xiàng)目選擇HADOOP+MPP+RDBMS的模式軟件開發(fā)與技術(shù)要求:需要針對具體數(shù)據(jù)種類格式等進(jìn)行相應(yīng)的軟件開發(fā),以實(shí)現(xiàn)數(shù)據(jù)

9、統(tǒng)一導(dǎo)入,對外統(tǒng)一接口,統(tǒng)一查詢及開發(fā)服務(wù),數(shù)據(jù)管理,資源分配和系統(tǒng)操作維護(hù)支撐等功能實(shí)現(xiàn)目標(biāo):四網(wǎng)協(xié)同、A+Abis、經(jīng)分wapETL等已有Hadoop架構(gòu)系統(tǒng),及經(jīng)營分析、詳單查詢、信令類分析系統(tǒng)、網(wǎng)管話單查詢、位置類等多個(gè)系統(tǒng)利用統(tǒng)一的H+M+R大數(shù)據(jù)資源池,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理及高效利用系統(tǒng)架構(gòu):采用X86架構(gòu),考慮H+M+R 除oracle考慮小機(jī)等環(huán)境外,H+M考慮規(guī)模配置可調(diào),充分滿足各種數(shù)據(jù)存儲(chǔ)及分析需求雙中心規(guī)劃:按照公司規(guī)劃,數(shù)據(jù)中心要實(shí)現(xiàn)渾南、沈北雙中心的規(guī)劃結(jié)構(gòu),在兩個(gè)中心分別部署設(shè)備和系統(tǒng),實(shí)現(xiàn)重要系統(tǒng)雙活,保障生產(chǎn)安全,穩(wěn)定運(yùn)行,大數(shù)據(jù)平臺也要考慮在兩個(gè)中心的分別部署

10、其他:數(shù)據(jù)管理、工作界面劃分、系統(tǒng)管理、維護(hù)接口等目錄遼寧移動(dòng)大數(shù)據(jù)項(xiàng)目技術(shù)需求 大數(shù)據(jù)平臺分層建設(shè)方案大數(shù)據(jù)建設(shè)背景資源池規(guī)劃與落地點(diǎn)探討附件:案例介紹大數(shù)據(jù)平臺頂層架構(gòu)設(shè)計(jì)傳統(tǒng)的數(shù)據(jù)倉庫的架構(gòu)數(shù)據(jù)源抽取、轉(zhuǎn)換、加載業(yè)務(wù)數(shù)據(jù)集市企業(yè)數(shù)據(jù)倉庫ETL元數(shù)據(jù)前端分析展現(xiàn)工具查詢工具、應(yīng)用OLTP傳統(tǒng)數(shù)據(jù)倉庫在大數(shù)據(jù)時(shí)代面臨的挑戰(zhàn):成本居高不下,以Scale Up為主數(shù)據(jù)量,以GBTB為主擴(kuò)展能力擁有成本處理數(shù)據(jù)的能力數(shù)據(jù)共享能力天云新一代數(shù)據(jù)平臺定義企業(yè)數(shù)據(jù)平臺是指建立在數(shù)據(jù)倉庫與數(shù)據(jù)倉庫之上的決策分析應(yīng)用,應(yīng)包括數(shù)據(jù)源、數(shù)據(jù)ETL、ODS數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)集市、商務(wù)智能應(yīng)用、數(shù)據(jù)管理等功能。

11、數(shù)據(jù)平臺應(yīng)該具備常見數(shù)據(jù)的處理與管理能力,具備對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等數(shù)據(jù)的處理能力,同時(shí)支持RDB、MPP、NoSQL,同時(shí)具備數(shù)據(jù)的通用管理能力,以數(shù)據(jù)為中心進(jìn)行平臺建設(shè)。數(shù)據(jù)平臺數(shù)據(jù)平臺在接口層要豐富又簡單,可以提供各種應(yīng)用所需接口,最大程度匹配已有接口,對應(yīng)用改動(dòng)需求力求最低。數(shù)據(jù)平臺數(shù)據(jù)管理能力至少應(yīng)包含:1.元數(shù)據(jù)管理,2.數(shù)據(jù)質(zhì)量管理,3.數(shù)據(jù)安全管理,4.數(shù)據(jù)可視化管理,5.數(shù)據(jù)生命周期管理。數(shù)據(jù)平臺必須針對數(shù)據(jù)提供完整方案,同時(shí)兼顧應(yīng)用接口、其他平臺接入,系統(tǒng)管理、系統(tǒng)調(diào)度等功能。任何一種單一技術(shù)都難以適應(yīng)數(shù)據(jù)平臺數(shù)據(jù)采集、存儲(chǔ)、處理和對外服務(wù)的需求,多種技術(shù)并存才是發(fā)

12、展趨勢。采集處理層數(shù)據(jù)抽取/加載/檢查ETL調(diào)度數(shù)據(jù)交互、轉(zhuǎn)換數(shù)據(jù)映射數(shù)據(jù)層數(shù)據(jù)存儲(chǔ)數(shù)據(jù)聚合服務(wù)數(shù)據(jù)處理服務(wù)數(shù)據(jù)查詢服務(wù)事件通知服務(wù)信息子層KPI報(bào)表統(tǒng)一視圖知識庫接口層服務(wù)管理資料類數(shù)據(jù)服務(wù)指標(biāo)類數(shù)據(jù)服務(wù)配置類數(shù)據(jù)服務(wù)清單累數(shù)據(jù)服務(wù)日志類數(shù)據(jù)服務(wù)OPEN API數(shù)據(jù)管理功能數(shù)據(jù)生命周期管理數(shù)據(jù)可視化管理數(shù)據(jù)質(zhì)量管理采集層數(shù)據(jù)質(zhì)量管理數(shù)據(jù)質(zhì)量規(guī)則、知識庫數(shù)據(jù)質(zhì)量稽核指標(biāo)運(yùn)維數(shù)據(jù)安全管理4A認(rèn)證隱私信息保護(hù)權(quán)限管控、審計(jì)追蹤元數(shù)據(jù)管理元數(shù)據(jù)獲取管理元數(shù)據(jù)存儲(chǔ)與模型管理元數(shù)據(jù)分析、展現(xiàn)、服務(wù)技術(shù)、業(yè)務(wù)元數(shù)據(jù)管理ODW-RDBODW-MPP分布式文件系統(tǒng)分布式關(guān)系數(shù)據(jù)庫分布式計(jì)算數(shù)據(jù)分發(fā)同步處理用戶

13、管理權(quán)限管理備份與恢復(fù)日志管理設(shè)備監(jiān)控指標(biāo)資源池指標(biāo)數(shù)據(jù)庫指標(biāo)分布式系統(tǒng)指標(biāo)指標(biāo)匯總存儲(chǔ)管理資源池管理設(shè)備管理作業(yè)調(diào)度管理事件自動(dòng)化規(guī)則配置執(zhí)行引擎性能預(yù)警調(diào)度異??刂票毕蚪涌诠芾頂?shù)據(jù)采集接口管理數(shù)據(jù)共享配置通用接口配置平臺管理功能數(shù)據(jù)服務(wù)功能綜合分析系統(tǒng)A+ABIS應(yīng)用無線網(wǎng)優(yōu)綜合監(jiān)控系統(tǒng)信令監(jiān)測系統(tǒng)日志上層應(yīng)用其他應(yīng)用大數(shù)據(jù)平臺建設(shè)的功能層次需求數(shù)據(jù)服務(wù)接口業(yè)務(wù)協(xié)同數(shù)據(jù)查詢服務(wù)、分析服務(wù)數(shù)據(jù)倉庫、數(shù)據(jù)集市數(shù)據(jù)交換數(shù)據(jù)處理清洗、轉(zhuǎn)換、加載異構(gòu)數(shù)據(jù)源海量數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)應(yīng)用數(shù)據(jù)服務(wù)數(shù)據(jù)共享數(shù)據(jù)整合數(shù)據(jù)集中數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)源大數(shù)據(jù)平臺數(shù)據(jù)集中: 結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)的

14、統(tǒng)一存儲(chǔ),“存得下” 節(jié)約存儲(chǔ)成本,“存得起” 分布式存儲(chǔ)架構(gòu),提高靈活性與可擴(kuò)展性數(shù)據(jù)整合: 消除異構(gòu)數(shù)據(jù)源的混雜性 采用云計(jì)算架構(gòu),提升處理速度與能力數(shù)據(jù)共享: 消除“數(shù)據(jù)孤島”,實(shí)現(xiàn)系統(tǒng)間的數(shù)據(jù)交換與共享數(shù)據(jù)服務(wù): 數(shù)據(jù)即服務(wù),多類標(biāo)準(zhǔn)化的服務(wù)接口更易使用頂層架構(gòu)平臺邏輯架構(gòu)數(shù)據(jù)源數(shù)據(jù)處理域半結(jié)構(gòu)/非結(jié)構(gòu)化數(shù)據(jù)流式數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)運(yùn)行數(shù)據(jù)庫(Oracle)數(shù)據(jù)存儲(chǔ)域基礎(chǔ)數(shù)據(jù)服務(wù)數(shù)據(jù)聚合服務(wù)數(shù)據(jù)處理服務(wù)數(shù)據(jù)查詢服務(wù)事件通知服務(wù)分析挖掘數(shù)據(jù)庫(MPP)分布式文件系統(tǒng)分布式計(jì)算框架非關(guān)系數(shù)據(jù)庫NoSQL統(tǒng)一ETL管理傳統(tǒng)技術(shù)ETLHadoopETL流式計(jì)算ETL數(shù)據(jù)分發(fā)同步處理話單業(yè)務(wù)類信令類網(wǎng)

15、管類數(shù)據(jù)集市A數(shù)據(jù)集市B數(shù)據(jù)集市C元數(shù)據(jù)管理元數(shù)據(jù)應(yīng)用元數(shù)據(jù)服務(wù)封裝元數(shù)據(jù)分析展現(xiàn)元數(shù)據(jù)基礎(chǔ)管理元數(shù)據(jù)存儲(chǔ)元數(shù)據(jù)獲取平臺管理接口管理調(diào)度管理監(jiān)控管理數(shù)據(jù)質(zhì)量管理新數(shù)據(jù)源稽核數(shù)據(jù)質(zhì)量監(jiān)控?cái)?shù)據(jù)質(zhì)量評估數(shù)據(jù)質(zhì)量配置管理數(shù)據(jù)質(zhì)量兩級聯(lián)動(dòng)數(shù)據(jù)質(zhì)量問題處理安全管理4A認(rèn)證安全服務(wù)調(diào)用隱私管理審計(jì)追蹤生命周期管理入庫存儲(chǔ)數(shù)據(jù)清理數(shù)據(jù)管理域ESB數(shù)據(jù)服務(wù)總線(webservice)應(yīng)用層接口服務(wù)域資料類數(shù)據(jù)服務(wù)指標(biāo)類數(shù)據(jù)服務(wù)清單類數(shù)據(jù)服務(wù)日志類數(shù)據(jù)服務(wù)事件類數(shù)據(jù)服務(wù)配置類數(shù)據(jù)服務(wù)查詢類應(yīng)用統(tǒng)計(jì)類應(yīng)用分析類應(yīng)用Open API審計(jì)類應(yīng)用客服投訴綜合監(jiān)控?zé)o線網(wǎng)優(yōu)經(jīng)營分析客戶感知數(shù)據(jù)門戶域數(shù)據(jù)管理門戶系統(tǒng)管理域大數(shù)

16、據(jù)平臺建設(shè)的最終目標(biāo)X86服務(wù)器 數(shù)據(jù)抽取轉(zhuǎn)換ETL數(shù)據(jù)管理流式計(jì)算非關(guān)系數(shù)據(jù)庫數(shù)據(jù)平臺服務(wù)DAASBI展現(xiàn)及分析挖掘服務(wù)PAASESBAPP1創(chuàng)新應(yīng)用應(yīng)用層數(shù)據(jù)庫個(gè)性化應(yīng)用APP2應(yīng)用層數(shù)據(jù)庫個(gè)性化應(yīng)用APP3應(yīng)用層數(shù)據(jù)庫個(gè)性化應(yīng)用個(gè)性化應(yīng)用OpenAPI完善數(shù)據(jù)平臺功能,實(shí)現(xiàn)數(shù)據(jù)平臺服務(wù)DAAS和BI展現(xiàn)及分析挖掘服務(wù)P所有信運(yùn)基礎(chǔ)服務(wù)和網(wǎng)運(yùn)基礎(chǔ)服務(wù)基于數(shù)據(jù)平臺服務(wù)實(shí)現(xiàn)引入第三方基于基于OpenAPI的創(chuàng)新服務(wù)開發(fā)模式,優(yōu)化管理新應(yīng)用開發(fā)和上線運(yùn)營信運(yùn)基礎(chǔ)服務(wù)網(wǎng)運(yùn)基礎(chǔ)服務(wù) 關(guān)系數(shù)據(jù)庫分布式計(jì)算數(shù)據(jù)管理平臺擴(kuò)展 / 集成 / 管理 / 調(diào)度 / 維護(hù) / 自動(dòng)化 數(shù)據(jù)流 / 分布存儲(chǔ) / 數(shù)

17、據(jù)保護(hù) / 管理視圖數(shù)據(jù)平臺引入大數(shù)據(jù)的意義與原則隨著半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等新型數(shù)據(jù)源的引入以及分析需求對分析深度和廣度的增加,以移動(dòng)運(yùn)營商行業(yè)為例,越來越需要大數(shù)據(jù)。主要包括如下:1、數(shù)據(jù)規(guī)模方面:GPRS流量話單的條數(shù)和數(shù)據(jù)量已經(jīng)超過了語音詳單,而位置信令、Gn信令、客服語音、互聯(lián)網(wǎng)外部數(shù)據(jù)等規(guī)模更大,且還處在不斷增長的趨勢。2、數(shù)據(jù)類型方面:逐步從OLTP系統(tǒng)中獲得的結(jié)構(gòu)化數(shù)據(jù),過渡到結(jié)構(gòu)化數(shù)據(jù)和互聯(lián)網(wǎng)網(wǎng)頁、上網(wǎng)日志等非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)共存。3、對數(shù)據(jù)的使用方面:不僅有批量的數(shù)據(jù)加工和前臺界面的訪問,臨時(shí)統(tǒng)計(jì)、數(shù)據(jù)挖掘等訪問需求也逐步增多。對歷史明細(xì)數(shù)據(jù)的訪問增多。

18、對數(shù)據(jù)訪問的及時(shí)性增強(qiáng)。隨著數(shù)據(jù)平臺越來越具備大數(shù)據(jù)平臺的特征,利用傳統(tǒng)的單一數(shù)據(jù)倉庫技術(shù)就難以滿足高效低成本的需求,需要引入相應(yīng)的大數(shù)據(jù)技術(shù)。新技術(shù)的引入不能影響原有的使用感知,需要按照分階段逐步引入的方式??梢詤⒖既缦碌膸讉€(gè)引入原則:1、先增量后存量?,F(xiàn)有的數(shù)據(jù)處理系統(tǒng)引入大數(shù)據(jù)處理技術(shù),面臨著模型改造、流程改造等一系列的問題,可以首先在新上線應(yīng)用引入大數(shù)據(jù)處理技術(shù)。2、先邊緣后核心。對于原有功能的遷移,可以先遷移非關(guān)鍵的應(yīng)用。這些應(yīng)用不涉及到關(guān)鍵生產(chǎn)任務(wù),可以忍受數(shù)據(jù)處理延遲和故障修復(fù)時(shí)間較高等可能出現(xiàn)的風(fēng)險(xiǎn)。3、先簡單后復(fù)雜。數(shù)據(jù)處理邏輯較簡單的應(yīng)用也可以首先嘗試引入大數(shù)據(jù)處理技術(shù),降

19、低實(shí)施的復(fù)雜度,積累運(yùn)維經(jīng)驗(yàn)。通過在大數(shù)據(jù)處理技術(shù)的規(guī)劃、實(shí)施及運(yùn)維過程中積累經(jīng)驗(yàn)及教訓(xùn),不斷提升和完善大數(shù)據(jù)技術(shù)的應(yīng)用水平,逐步拓展大數(shù)據(jù)技術(shù)應(yīng)用領(lǐng)域。大數(shù)據(jù)在數(shù)據(jù)平臺的應(yīng)用場景大數(shù)據(jù)技術(shù)可以應(yīng)用在以下場景(包括但不限于):1、原數(shù)據(jù)倉庫底層結(jié)構(gòu)化數(shù)據(jù)處理(ETL或ELT)。底層結(jié)構(gòu)化數(shù)據(jù)處理計(jì)算任務(wù)重但復(fù)雜性不高,不涉及多表關(guān)聯(lián),適合引入大數(shù)據(jù)技術(shù)實(shí)現(xiàn)高效低成本。例如:對運(yùn)營商的清單(語音詳單、GPRS清單、WLAN清單等)的清洗、轉(zhuǎn)換、匯總等。2、半結(jié)構(gòu)和非結(jié)構(gòu)數(shù)據(jù)處理與分析。例如對上網(wǎng)日志、網(wǎng)絡(luò)信令、客服語音等數(shù)據(jù)的處理和分析,這些數(shù)據(jù)難以利用傳統(tǒng)數(shù)據(jù)倉庫技術(shù)進(jìn)行處理和分析。3、數(shù)據(jù)集

20、市。地?cái)?shù)據(jù)集市應(yīng)用較為獨(dú)立,且對可靠性的要求并不是十分嚴(yán)格,適合作為引入大數(shù)據(jù)技術(shù)形成資源池,以移動(dòng)運(yùn)營商為例,可實(shí)現(xiàn)各地市、各部門數(shù)據(jù)集市的云化、池化和虛擬化,最終實(shí)現(xiàn)資源動(dòng)態(tài)調(diào)配,達(dá)到高效低成本。4、數(shù)據(jù)倉庫數(shù)據(jù)分級存儲(chǔ)。對低價(jià)值的細(xì)節(jié)數(shù)據(jù)以及長周期的歷史數(shù)據(jù)(冷數(shù)據(jù))訪問頻率較低,也能容忍相對較長的響應(yīng)時(shí)間,可以存儲(chǔ)在成本更低的平臺上。5、數(shù)據(jù)挖掘。某些數(shù)據(jù)挖掘設(shè)計(jì)長周期的數(shù)據(jù),計(jì)算時(shí)間很長(數(shù)天),占用很多數(shù)據(jù)倉庫資源。還有一些數(shù)據(jù)挖掘算法超出了關(guān)系代數(shù)計(jì)算范疇,需要抽取數(shù)據(jù)到獨(dú)立的計(jì)算平臺(例如SAS統(tǒng)計(jì)分析系統(tǒng))中進(jìn)行計(jì)算。這些數(shù)據(jù)挖掘任務(wù)可以遷移到大數(shù)據(jù)平臺之上進(jìn)行計(jì)算。例如交往

21、圈的計(jì)算,因其僅涉及單一數(shù)據(jù),但數(shù)據(jù)量非常大,且需要多次迭代計(jì)算。6、對外查詢。數(shù)據(jù)平臺不僅僅是數(shù)據(jù)處理,也需要將數(shù)據(jù)處理的結(jié)果對外提供查詢,而這些查詢一部分是海量的OLAP性質(zhì)的查詢,另外還有一部分OLTP性質(zhì)的查詢,即數(shù)量眾多但每次查詢量較少的。比如數(shù)據(jù)平臺前端庫、與生產(chǎn)系統(tǒng)互動(dòng)的數(shù)據(jù)庫以及提供流量詳單查詢的數(shù)據(jù)庫。這些查詢?nèi)蝿?wù)不能很好地運(yùn)行在OLAP類數(shù)據(jù)庫之上,可以遷移到大數(shù)據(jù)平臺上。針對這些應(yīng)用場景,可以看到,主要需要引入的是Hadoop和MPP技術(shù),然后逐步考慮NoSQL、流計(jì)算和內(nèi)存計(jì)算等技術(shù)的引入。Hadoop技術(shù)與MPP技術(shù)的比較HadoopMPP 傳統(tǒng)數(shù)據(jù)倉庫平臺開放性高低

22、低運(yùn)維復(fù)雜度高,與運(yùn)維人員能力相關(guān)中中擴(kuò)展能力高中低擁有成本低中高系統(tǒng)和數(shù)據(jù)管理成本高中中應(yīng)用開發(fā)維護(hù)成本高中中SQL支持低高高數(shù)據(jù)規(guī)模PB級別部分PBTB級別計(jì)算性能對非關(guān)系型操作效率高對關(guān)系型操作效率高對關(guān)系型操作效率中數(shù)據(jù)結(jié)構(gòu)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)Hadoop 在處理非結(jié)構(gòu)數(shù)據(jù)和半結(jié)構(gòu)數(shù)據(jù)上具備優(yōu)勢,尤其適合海量數(shù)據(jù)批處理等應(yīng)用需求。當(dāng)然隨著Hadoop技術(shù)的成熟,基于Hadoop的即席查詢技術(shù)也逐漸嶄露頭角。比如仿照Dremel的開源項(xiàng)目Apache Drill以及Cloudera Impala。MPP適合替代現(xiàn)有關(guān)系數(shù)據(jù)結(jié)構(gòu)下的大數(shù)據(jù)處理,具有較高的效率,但

23、其在大規(guī)模集群(超過100個(gè)節(jié)點(diǎn))下的可用性還有待試點(diǎn)證實(shí)。MPP數(shù)據(jù)庫場景下經(jīng)常需要掃描大量的數(shù)據(jù),所以對磁盤存儲(chǔ)系統(tǒng)的I/O性能要求非常高,在測試和日常運(yùn)行中,I/O多大情況下是瓶頸,這點(diǎn)與Hadoop平臺可以明顯區(qū)分開來。目錄遼寧移動(dòng)大數(shù)據(jù)項(xiàng)目技術(shù)需求大數(shù)據(jù)建設(shè)背景資源池規(guī)劃與落地點(diǎn)探討附件:案例介紹大數(shù)據(jù)平臺頂層架構(gòu)設(shè)計(jì) 大數(shù)據(jù)平臺分層建設(shè)方案大數(shù)據(jù)平臺分層描述-數(shù)據(jù)采集、ETL層半結(jié)構(gòu)化數(shù)據(jù)與海量半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)與流式數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)常規(guī)ETL處理實(shí)時(shí)或準(zhǔn)實(shí)時(shí)ETL處理采集層處理層傳統(tǒng)技術(shù)ETL流式計(jì)算ETL海量數(shù)據(jù)ETL處理Hadoop ETLETL可視化管理統(tǒng)一ETL調(diào)度數(shù)

24、據(jù)采集根據(jù)需要進(jìn)行數(shù)據(jù)采集,采集的數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、海量半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及流式數(shù)據(jù)數(shù)據(jù)處理根據(jù)數(shù)據(jù)結(jié)構(gòu)特征分類,可分為結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)主要采用傳統(tǒng)ETL,半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)主要采用Hadoop ETL;根據(jù)數(shù)據(jù)量級分類,分為海量數(shù)據(jù)和常規(guī)量級數(shù)據(jù)。海量數(shù)據(jù)主要包括話單、信令數(shù)據(jù),采用Hadoop ETL處理;根據(jù)采用技術(shù)分類,分為常規(guī)技術(shù)ETL、Hadoop ETL和流式計(jì)算ETL。Hadoop主要處理海量數(shù)據(jù)和準(zhǔn)實(shí)時(shí)需求數(shù)據(jù),流式計(jì)算處理有實(shí)時(shí)需求的數(shù)據(jù)如實(shí)時(shí)營銷需要的信令觸點(diǎn);根據(jù)處理時(shí)效分類,分為常規(guī)ETL,準(zhǔn)實(shí)時(shí)ETL和

25、實(shí)時(shí)ETL。其中實(shí)時(shí)和準(zhǔn)實(shí)時(shí)處理主要處理網(wǎng)管和信令數(shù)據(jù)。目的:對公司各項(xiàng)數(shù)據(jù)(經(jīng)分、話單、業(yè)務(wù)類、信令類、網(wǎng)管類、財(cái)務(wù)類、企劃類等)進(jìn)行整合,整合到大數(shù)據(jù)存儲(chǔ)平臺;數(shù)據(jù)采集/ETL技術(shù)架構(gòu)數(shù)據(jù)采集通過智能數(shù)據(jù)采集適配器,輕松支持各種數(shù)據(jù)源的接入,如FTP/SFTP、DB、Webservice,Scoket等數(shù)據(jù)處理數(shù)據(jù)ETL支持傳統(tǒng)ETL、云化(Hadoop)ETL、流式ETL通過元數(shù)據(jù)可以定制ETL,對ETL流程進(jìn)行實(shí)時(shí)監(jiān)控全程ETL數(shù)據(jù)質(zhì)量監(jiān)控和管理大數(shù)據(jù)平臺分層描述-數(shù)據(jù)存儲(chǔ)層關(guān)系數(shù)據(jù)庫(RDB)基礎(chǔ)數(shù)據(jù)服務(wù)數(shù)據(jù)聚合服務(wù)數(shù)據(jù)處理引擎數(shù)據(jù)查詢服務(wù)數(shù)據(jù)分發(fā)同步處理工具事件通知服務(wù)分布式關(guān)系數(shù)

26、據(jù)庫(GBase)數(shù)據(jù)層處理規(guī)則管理分析引擎數(shù)據(jù)存儲(chǔ)傳統(tǒng)關(guān)系型數(shù)據(jù)庫主要存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù);分布式關(guān)系數(shù)據(jù)主要存儲(chǔ)對復(fù)雜數(shù)據(jù)的進(jìn)行多表關(guān)聯(lián)分析需要的從主庫各表聚合的數(shù)據(jù);分布式文件系統(tǒng)HDFS主要存儲(chǔ)海量半結(jié)構(gòu)化數(shù)據(jù);分布式非關(guān)系數(shù)據(jù)庫HBase主要存儲(chǔ)海量原始數(shù)據(jù)經(jīng)過ETL的匯總數(shù)據(jù),主要用于海量數(shù)據(jù)查詢和簡單分析應(yīng)用基礎(chǔ)數(shù)據(jù)服務(wù)數(shù)據(jù)分發(fā)同步工具支持在各種不同存儲(chǔ)間進(jìn)行數(shù)據(jù)的交換、同步、分發(fā);處理規(guī)則管理和數(shù)據(jù)處理引擎提供不同存儲(chǔ)中的數(shù)據(jù)根據(jù)業(yè)務(wù)需求進(jìn)行數(shù)據(jù)組合,轉(zhuǎn)換,處理能力的支持;分析引擎主要支持業(yè)務(wù)分析,提供基礎(chǔ)工具,算法等;數(shù)據(jù)聚合服務(wù)主要提供各種不同場景需要的數(shù)據(jù)集市和數(shù)據(jù)集市的構(gòu)建數(shù)

27、據(jù)查詢服務(wù)對上層業(yè)務(wù)提供靈活的數(shù)據(jù)查詢,屏蔽下層不同存儲(chǔ)處理方式的查詢事件通知服務(wù)提供業(yè)務(wù)所需的實(shí)時(shí)事件通知,數(shù)據(jù)訂閱通知等同時(shí)完成:對各項(xiàng)數(shù)據(jù)進(jìn)行梳理,形成高效數(shù)據(jù)索引規(guī)范,便于數(shù)據(jù)查找、整合;分布式文件系統(tǒng)分布式計(jì)算系統(tǒng)分布式非關(guān)系數(shù)據(jù)庫天云Hadoop體系架構(gòu)1.處理客戶端請求2.啟動(dòng)/監(jiān)控ApplicationMaster3.監(jiān)控NodeManager4.資源分配與調(diào)度1.單個(gè)節(jié)點(diǎn)的資源管理2.處理來自ResourceManager的命令3.處理來自ApplictionMaster的命令Container中封裝了機(jī)器資源,每個(gè)任務(wù)會(huì)被分配一個(gè)容器,該任務(wù)只能在該容器中運(yùn)行,并使用該容器

28、封裝的資源。1.數(shù)據(jù)切分2.為應(yīng)用申請資源,并分配給內(nèi)部任務(wù)3.任務(wù)監(jiān)控與容錯(cuò)部署在NameNode部署在DataNodeHadoop分布式文件系統(tǒng)設(shè)計(jì)目標(biāo)錯(cuò)誤檢測和快速自動(dòng)恢復(fù); -硬件故障是常態(tài)而非異常支持大數(shù)據(jù)集 -單個(gè)文件大小有數(shù)GB或者TB -提供高聚合寬帶訪問 -可以擴(kuò)展至數(shù)千個(gè)節(jié)點(diǎn)簡化的一致性模型:一次寫、多次讀移動(dòng)計(jì)算比移動(dòng)數(shù)據(jù)更便宜;主要特點(diǎn)使用低成本存儲(chǔ)和服務(wù)器構(gòu)建;存放PB級的海量數(shù)據(jù);高擴(kuò)展性,實(shí)際生產(chǎn)環(huán)境中可以擴(kuò)充到4000個(gè)節(jié)點(diǎn);高可靠性和高容錯(cuò)性,提供7*24小時(shí)不間斷服務(wù),數(shù)據(jù)自動(dòng)復(fù)制,可自我修復(fù)高帶寬,高并發(fā)訪問Hadoop MapReduce為離線數(shù)據(jù)分析而

29、設(shè)計(jì),基本上是個(gè)利用數(shù)據(jù)并行性進(jìn)行分布運(yùn)算而后匯總結(jié)果的計(jì)算框架 分析問題能夠被并行化,且輸入數(shù)據(jù)集可以被切分 一個(gè)Map函數(shù),在第一階段計(jì)算對 一個(gè)Reduce函數(shù),在第二階段用于匯總Map函數(shù)的結(jié)果HBase分布式數(shù)據(jù)庫HBase是一個(gè)分布式的、按列存儲(chǔ)的、多維表結(jié)構(gòu)的實(shí)時(shí)數(shù)據(jù)庫, 為高速在線數(shù)據(jù)服務(wù)而設(shè)計(jì)表: (行,列族,列名,版本名) 值主要特點(diǎn) NoSQL 面向列、可壓縮,有效降低磁盤I/O,提高利用率。 多維表,四個(gè)維度,其中三個(gè)維度可變,適合描述復(fù)雜嵌套關(guān)系。 靈活的表結(jié)構(gòu),可動(dòng)態(tài)改變和增加(包括行、列和時(shí)間戳)。 支持單行的ACID事務(wù)處理 分布式系統(tǒng) 高性能,支持高速并發(fā)寫入

30、和高并發(fā)查詢; 可擴(kuò)展,數(shù)據(jù)自動(dòng)切分和分布,可動(dòng)態(tài)擴(kuò)容,無需停機(jī); 高可用性,建立在HDFS分布式文件系統(tǒng)之上Hbase配置建議Rowkey設(shè)計(jì):HBase表的rowkey設(shè)計(jì),一般是將關(guān)系數(shù)據(jù)庫中的候選key拼接形成。但是要注意熱點(diǎn)問題,比如rowkey開始的幾位是時(shí)間排序,那么在插入的時(shí)候,最近幾天的數(shù)據(jù)很可能是熱點(diǎn)數(shù)據(jù),這樣所有的查詢可能都指向了一個(gè)region server導(dǎo)致了HBase的性能瓶頸。盡量避免使用單調(diào)遞增的rowkey,因?yàn)樵谔砑訑?shù)據(jù)的時(shí)候,所有的新數(shù)據(jù)都添加到最后一個(gè)region,前面的region沒有或者很少有請求,也是熱點(diǎn)問題。熱點(diǎn)問題的處理方式一般是加鹽,即在r

31、owkey前面添加hash數(shù),來對數(shù)據(jù)進(jìn)行hash劃分。列簇設(shè)計(jì):HBase表的Column Family最好少于4,一般少于3,對于一般數(shù)據(jù)放入一個(gè)列簇中即可。對于一些強(qiáng)關(guān)聯(lián),頻繁訪問的數(shù)據(jù)可以放一列,這樣在取數(shù)據(jù)時(shí),熱點(diǎn)訪問只用取這一列數(shù)據(jù),可以節(jié)省IO。多個(gè)列簇有各自memstore,memstore 開銷大,而且flush一個(gè)列簇,其他的類簇也會(huì)flush,會(huì)造成不必要的開銷。Region劃分:HBase在導(dǎo)入大量數(shù)據(jù)前最好預(yù)先劃分region,這樣可以加快導(dǎo)入效率。同時(shí)也要避免使用HBase自動(dòng)劃分region,在一種情況下,HBase面臨大量寫入或者scan請求,同時(shí)它的regio

32、n中的數(shù)據(jù)又達(dá)到了閥值,那么它會(huì)啟動(dòng)自動(dòng)劃分region,有可能導(dǎo)致region劃分風(fēng)暴,大量的請求會(huì)使region server和name node的壓力過大而導(dǎo)致region dead或者name node dead。TTL設(shè)計(jì):TTL(time to live),它一般可以用來控制數(shù)據(jù)的生存時(shí)間。一些數(shù)據(jù)比如客戶幾年以前的數(shù)據(jù),幾年以后已經(jīng)不關(guān)心這些數(shù)據(jù),可以使用TTL刪除。如果數(shù)據(jù)沒有這些要求,可以不使用。Hive數(shù)據(jù)倉庫Hive是一個(gè)建立在hadoop之上的數(shù)據(jù)倉庫,用于查詢和分析結(jié)構(gòu)化海量數(shù)據(jù) 采用HDFS進(jìn)行數(shù)據(jù)存儲(chǔ) 采用Map/Reduce基本特點(diǎn): 提供類似于SQL的查詢語言

33、 高擴(kuò)展性(scale-out),動(dòng)態(tài)擴(kuò)容無須停機(jī) 針對海量數(shù)據(jù)的高性能查詢和分析系統(tǒng) 提供靈活的擴(kuò)展性復(fù)雜數(shù)據(jù)類型,擴(kuò)展函數(shù)和腳本等數(shù)據(jù)平臺透明訪問HADOOP+MPP+RDB的混搭架構(gòu)在解決大數(shù)據(jù)處理問題的同時(shí)也加大了上層應(yīng)用的數(shù)據(jù)訪問復(fù)雜度。主要問題體現(xiàn)在:多種數(shù)據(jù)實(shí)例:數(shù)據(jù)可能分布在關(guān)系型數(shù)據(jù)庫、Hadoop分布式計(jì)算集群以及HBase庫中。多種訪問接口:不同類型的數(shù)據(jù)實(shí)例的技術(shù)實(shí)現(xiàn)方式差異大,如關(guān)系型數(shù)據(jù)提供了標(biāo)準(zhǔn)SQL,Hadoop、HBase提供開放API或Hive方式訪問,這同樣對上層訪問增加了難度??鐢?shù)據(jù)實(shí)例的數(shù)據(jù)計(jì)算:不同類型的數(shù)據(jù)實(shí)例的底層數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)不同,如關(guān)系型數(shù)據(jù)庫

34、存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),而Hadoop計(jì)算集群多存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù),如果需要涉及到兩種類型數(shù)據(jù)實(shí)例中的數(shù)據(jù)關(guān)聯(lián)(join)計(jì)算,目前還難以直接實(shí)現(xiàn),需要做一系列數(shù)據(jù)互通調(diào)度,然后在單實(shí)例上完成關(guān)聯(lián)計(jì)算,整個(gè)過程復(fù)雜度高、工作量大。針對目前出現(xiàn)的這些問題,可以考慮構(gòu)建數(shù)據(jù)透明訪問能力。也就是提供統(tǒng)一的數(shù)據(jù)訪問接口,對上層屏蔽底層數(shù)據(jù)處理實(shí)現(xiàn)細(xì)節(jié),提升上層應(yīng)用的開發(fā)效率。主要需要解決兩個(gè)方面的問題:1、通過統(tǒng)一的語言或服務(wù)接口訪問到不同的數(shù)據(jù)庫實(shí)例,包括數(shù)據(jù)查詢、數(shù)據(jù)處理操作等。2、針對跨數(shù)據(jù)實(shí)例的數(shù)據(jù)互通、關(guān)聯(lián)操作等,可以通過統(tǒng)一的的語言、服務(wù)接口或管理工具等技術(shù)來實(shí)現(xiàn)。3、通過ESB封裝數(shù)據(jù)服務(wù),通過消

35、息路由進(jìn)行訪問呢大數(shù)據(jù)平臺分層描述-大數(shù)據(jù)平臺數(shù)據(jù)接口及服務(wù)事件類數(shù)據(jù)服務(wù)數(shù)據(jù)交換及應(yīng)用接口服務(wù)數(shù)據(jù)交換提供獨(dú)立、可重用的業(yè)務(wù)數(shù)據(jù)服務(wù),所有數(shù)據(jù)服務(wù)通過ESB對外提供服務(wù)接口,同時(shí)為其他服務(wù)提供支持ESB需支持多種業(yè)務(wù)接口,比如MQ、Socket、SOAP、FTP、HTTP、JDBC/ODBC等應(yīng)用層提供對第三方開發(fā)的Open API服務(wù)及其他各種應(yīng)用, 應(yīng)用使用接口層提供的各種數(shù)據(jù)服務(wù);其中分析類應(yīng)用可以使用獨(dú)立的關(guān)系數(shù)據(jù)庫來復(fù)雜的關(guān)聯(lián)分析目的:實(shí)現(xiàn)大數(shù)據(jù)平臺對外提供統(tǒng)一查詢接口,便于數(shù)據(jù)進(jìn)行并發(fā)的高速查詢、提??;客戶關(guān)系應(yīng)用數(shù)據(jù)呈現(xiàn)應(yīng)用指標(biāo)監(jiān)控類應(yīng)用業(yè)務(wù)分析應(yīng)用Open API質(zhì)量保障應(yīng)用

36、綜合經(jīng)營分析資料類數(shù)據(jù)服務(wù)指標(biāo)類數(shù)據(jù)服務(wù)清單類數(shù)據(jù)服務(wù)配置類數(shù)據(jù)服務(wù)日志類數(shù)據(jù)服務(wù)數(shù)據(jù)總線性能類數(shù)據(jù)服務(wù)信令類數(shù)據(jù)服務(wù)ESB介紹功能豐富的協(xié)議適配器較強(qiáng)的數(shù)據(jù)格式轉(zhuǎn)換能力簡單易用的服務(wù)流程開發(fā)工具支持平臺擴(kuò)展的二次開發(fā)能力支持安全可靠的消息傳輸支持服務(wù)的動(dòng)態(tài)部署、在線升級支持平臺運(yùn)行參數(shù)熱生效支持服務(wù)調(diào)用記錄的測量、監(jiān)控和統(tǒng)計(jì)支持多級互聯(lián)分布式部署技術(shù)特點(diǎn)基于高度可擴(kuò)展的系統(tǒng)架構(gòu),具備熱插件機(jī)制。支撐跨系統(tǒng)、跨編程語言的系統(tǒng)通訊?;诿嫦蛄鞒痰姆?wù)集成思想。豐富的適配器并支持自定義適配器簡單易用的自定義路由策略?;跓o狀態(tài)消息傳輸機(jī)制,高度支持平臺橫向擴(kuò)展。支持業(yè)內(nèi)標(biāo)準(zhǔn)通信技術(shù)、協(xié)議和標(biāo)準(zhǔn),包

37、括Http(s),WebService,(S)FTP,TCP(s)等。支持同步和異步消息傳遞大數(shù)據(jù)平臺分層描述-數(shù)據(jù)管理域數(shù)據(jù)管理元數(shù)據(jù)管理符合CWM規(guī)范及中國移動(dòng)元數(shù)據(jù)管理技術(shù)規(guī)范元數(shù)據(jù)采集元模型管庫可視化建模血緣分析一致性分析數(shù)據(jù)地圖數(shù)據(jù)可視化元數(shù)據(jù)統(tǒng)計(jì)分析數(shù)據(jù)安全管理與4A系統(tǒng)對接,提供對應(yīng)用、數(shù)據(jù)權(quán)限定義和支持,做到事前可管,事中可控、事后可查做到數(shù)據(jù)隱私保護(hù)對數(shù)據(jù)行為進(jìn)行審計(jì)跟蹤數(shù)據(jù)質(zhì)量管理支持?jǐn)?shù)據(jù)質(zhì)量規(guī)則定義、數(shù)據(jù)質(zhì)量監(jiān)控預(yù)警、數(shù)據(jù)質(zhì)量分析、數(shù)據(jù)質(zhì)量報(bào)告、數(shù)據(jù)質(zhì)量評估、數(shù)據(jù)質(zhì)量問題處理、圖形化指標(biāo)運(yùn)維等數(shù)據(jù)生命周期管理根據(jù)數(shù)據(jù)價(jià)值根據(jù)時(shí)間推移的演化關(guān)系,提供對數(shù)據(jù)的高效、低成本、安

38、全、訪問便捷的管理架構(gòu)元數(shù)據(jù)管理元數(shù)據(jù)應(yīng)用元數(shù)據(jù)服務(wù)封裝元數(shù)據(jù)分析展現(xiàn)元數(shù)據(jù)基礎(chǔ)管理元數(shù)據(jù)存儲(chǔ)元數(shù)據(jù)獲取數(shù)據(jù)質(zhì)量管理新數(shù)據(jù)源稽核數(shù)據(jù)質(zhì)量監(jiān)控?cái)?shù)據(jù)質(zhì)量評估數(shù)據(jù)質(zhì)量配置管理數(shù)據(jù)質(zhì)量兩級聯(lián)動(dòng)數(shù)據(jù)質(zhì)量問題處理數(shù)據(jù)安全管理4A認(rèn)證安全服務(wù)調(diào)用隱私管理審計(jì)追蹤生命周期管理入庫存儲(chǔ)數(shù)據(jù)清理數(shù)據(jù)管理域大數(shù)據(jù)平臺分層描述-系統(tǒng)管理域Hadoop分布式文件系統(tǒng)統(tǒng)一ETL處理主庫(RDB)數(shù)據(jù)層處理層傳統(tǒng)技術(shù)ETLHadoopETL流式計(jì)算ETLHadoop 分布式非關(guān)系數(shù)據(jù)庫系統(tǒng)管理平臺應(yīng)用管理平臺接口管理數(shù)據(jù)管理指標(biāo)監(jiān)控平臺管理系統(tǒng)調(diào)度管理以兩庫數(shù)據(jù)調(diào)度為例數(shù)據(jù)共享管理平臺發(fā)起兩庫數(shù)據(jù)調(diào)度請求經(jīng)分主庫準(zhǔn)備歷史數(shù)

39、據(jù),統(tǒng)一ETL調(diào)度層通過JDBC連接經(jīng)分主庫,根據(jù)分布式共享系統(tǒng)計(jì)算資源池根據(jù)輸入條件,生成一個(gè)map-reduce的作業(yè),進(jìn)行歷史數(shù)據(jù)傳輸,完成數(shù)據(jù)傳輸,返回傳輸結(jié)果。數(shù)據(jù)管理平臺判斷是否完成數(shù)據(jù)調(diào)度12345調(diào)度步驟Hadoop 分布式計(jì)算系統(tǒng)天云數(shù)據(jù)平臺系統(tǒng)集成在引入Hadoop和MPP數(shù)據(jù)庫后,數(shù)據(jù)平臺建設(shè)將會(huì)在現(xiàn)有傳統(tǒng)數(shù)據(jù)倉庫平臺與新技術(shù)之間形成混搭。經(jīng)典數(shù)據(jù)倉庫中的One Single View of Truth將難以維持。主要會(huì)面臨如下的問題:數(shù)據(jù)互通:數(shù)據(jù)需要跨Hadoop和多個(gè)數(shù)據(jù)庫進(jìn)行交互,如何實(shí)現(xiàn)高效的數(shù)據(jù)同步或數(shù)據(jù)調(diào)用?透明訪問:是否有必要對上層應(yīng)用屏蔽底層不同數(shù)據(jù)平臺

40、的細(xì)節(jié),提供統(tǒng)一的數(shù)據(jù)訪問方式?統(tǒng)一管理:如何進(jìn)行多套數(shù)據(jù)平臺的元數(shù)據(jù)、數(shù)據(jù)質(zhì)量管理,如何實(shí)現(xiàn)統(tǒng)一的調(diào)度和運(yùn)維監(jiān)控?數(shù)據(jù)互通機(jī)制是多個(gè)數(shù)據(jù)庫與Hadoop之間的橋梁。通過數(shù)據(jù)互通,我們可以將數(shù)據(jù)快速從一個(gè)平臺遷移到另外一個(gè)平臺或從一個(gè)平臺方便地訪問另外一個(gè)平臺中的數(shù)據(jù)。數(shù)據(jù)互通機(jī)制的主要難點(diǎn)是要保障數(shù)據(jù)在兩個(gè)平臺間流轉(zhuǎn)時(shí)的高效性和可靠性。數(shù)據(jù)平臺系統(tǒng)互通的建議實(shí)現(xiàn)數(shù)據(jù)互通機(jī)制有2種方法:數(shù)據(jù)同步、數(shù)據(jù)調(diào)用數(shù)據(jù)同步:數(shù)據(jù)同步的主要是實(shí)現(xiàn)數(shù)據(jù)庫與Hadoop之間雙向數(shù)據(jù)復(fù)制功能,數(shù)據(jù)同步的目的包括這些的場景:不同系統(tǒng)上的數(shù)據(jù)需要進(jìn)行關(guān)聯(lián)分析、數(shù)據(jù)生命周期管理要求進(jìn)行數(shù)據(jù)歸檔或備份、ETL分節(jié)點(diǎn)部署

41、需要同步數(shù)據(jù)等??梢圆扇∪缦聰?shù)據(jù)同步方案:在Hadoop端發(fā)起的雙向數(shù)據(jù)同步在數(shù)據(jù)庫端發(fā)起的雙向數(shù)據(jù)同步在第三方發(fā)起的雙向數(shù)據(jù)同步數(shù)據(jù)調(diào)用:數(shù)據(jù)調(diào)用指的是:不移動(dòng)數(shù)據(jù),通過接口調(diào)用實(shí)現(xiàn)對另外一個(gè)平臺上數(shù)據(jù)的訪問,被調(diào)用平臺承擔(dān)運(yùn)算任務(wù)。數(shù)據(jù)調(diào)用方法根據(jù)調(diào)用方的不同,又分為“從數(shù)據(jù)庫側(cè)調(diào)用Hadoop數(shù)據(jù)”及“從Hadoop側(cè)調(diào)用數(shù)據(jù)庫數(shù)據(jù)”兩種情況。數(shù)據(jù)調(diào)用方法適用的場景原則:低頻度(如:每月/季度/年一次)或臨時(shí)(如:臨時(shí)訪問5次以下)需要使用其他平臺中存儲(chǔ)的數(shù)據(jù)。數(shù)據(jù)平臺互通的技術(shù)實(shí)現(xiàn)連接器方式通過設(shè)計(jì)專用的軟件或硬件連接器模塊,實(shí)現(xiàn)數(shù)據(jù)庫與Hadoop之間高速的數(shù)據(jù)傳輸,其一般具備以下特

42、點(diǎn):雙向連接器并行連接數(shù)據(jù)庫節(jié)點(diǎn)到的Hadoop數(shù)據(jù)節(jié)點(diǎn)支持UTF-8編碼和常見的數(shù)據(jù)類型通過動(dòng)態(tài)工作負(fù)載管理的資源控制融合系統(tǒng)中的角色/用戶提供認(rèn)證為數(shù)據(jù)庫域提供的數(shù)據(jù)節(jié)點(diǎn),主要實(shí)現(xiàn)以下按照源表進(jìn)行任務(wù)分工,可以為表間并行以及表內(nèi)并行建立分區(qū)、索引及裝載,根據(jù)分區(qū)原則以及索引等策略,裝載節(jié)點(diǎn)將數(shù)據(jù)直接發(fā)送給相應(yīng)的MPP數(shù)據(jù)庫節(jié)點(diǎn)上 通過連接器的方式,可以實(shí)現(xiàn)數(shù)據(jù)庫與Hadoop系統(tǒng)之間的高速和可靠的數(shù)據(jù)互通,非常適合數(shù)據(jù)同步的計(jì)算場景。外部表方式:數(shù)據(jù)庫可以通過外部表的方式,直接訪問存儲(chǔ)在HDFS上的文件。在使用外部表時(shí),數(shù)據(jù)庫可以像訪問內(nèi)部數(shù)據(jù)一樣,將文件當(dāng)作表insert到數(shù)據(jù)庫內(nèi)其他表

43、中,或?qū)DFS上的文件和數(shù)據(jù)庫內(nèi)的表進(jìn)行關(guān)聯(lián)操作。同時(shí)也可以將RDBMS內(nèi)的數(shù)據(jù),通過外部表的形式,寫入到HDFS上去。例如如下操作:Select count(*) from HDFS_data h, RDBMS_data g where h.key = g.key;Insert into HDFS_data select * from RDBMS_data;目前天云平臺集成的數(shù)據(jù)互通工具工具HadoopAsterDataSQL-MapreduceGreenPlumHDFS-GreenPlumVerticaVertica-Hadoop集成適配器InfiniteDB雙向?qū)覵QL Server

44、HortonWorkIBM NetezzaHadoop-NetezzaTeradataTD-Hadoop適配器OracleOraHive OraOopSybaseSybase IQ15.4開始集成雙中心規(guī)劃形成大數(shù)據(jù)數(shù)據(jù)備份渾南數(shù)據(jù)中心江北數(shù)據(jù)中心在分布式文件存儲(chǔ)層,采取DistCP方式:DistCP方式可以將一個(gè)分布式文件系統(tǒng)(集群)里的某個(gè)目錄拷貝到另一個(gè)分布式文件系統(tǒng)(集群)。DistCp(分布式拷貝)是用于大規(guī)模集群內(nèi)部和集群之間拷貝的工具。在分布式非關(guān)系型數(shù)據(jù)庫層,采取Hbase Replication方式大數(shù)據(jù)平臺建設(shè)討論工作界面劃分?大數(shù)據(jù)平臺維護(hù)人員如何設(shè)置?接口維護(hù)?天云大數(shù)

45、據(jù)平臺亮點(diǎn)一句話定位:天云數(shù)據(jù)平臺=“傳統(tǒng)”+“現(xiàn)代”數(shù)據(jù)平臺集大成者。傳統(tǒng)=傳統(tǒng)數(shù)據(jù)倉庫/RDBMS,是基于傳統(tǒng)基于結(jié)構(gòu)化數(shù)據(jù)處理的關(guān)系型數(shù)據(jù)(倉)庫,以Scale Up為特點(diǎn)現(xiàn)代=基于關(guān)系代數(shù)理論的MPP + Hadoop技術(shù),以分布式處理為基礎(chǔ),以Scale out為特點(diǎn),可處理海量數(shù)據(jù)適用場景:運(yùn)營商跨域數(shù)據(jù)融合,智慧城市,智慧省份解決方案,公安,醫(yī)療等。放眼未來,更好支撐運(yùn)營商互聯(lián)網(wǎng)轉(zhuǎn)型,更好的支撐數(shù)據(jù)黃金資源時(shí)代的到來。目錄遼寧移動(dòng)大數(shù)據(jù)項(xiàng)目技術(shù)需求大數(shù)據(jù)建設(shè)背景附件:案例介紹大數(shù)據(jù)平臺頂層架構(gòu)設(shè)計(jì) 大數(shù)據(jù)平臺分層建設(shè)方案資源池規(guī)劃與落地點(diǎn)探討數(shù)據(jù)中心平臺選型依據(jù)平臺的選型首先要進(jìn)

46、行規(guī)模評估,確定數(shù)據(jù)中心的容量;其次要進(jìn)行需求評估,主要包括線性擴(kuò)展、成本、穩(wěn)定性、性能、運(yùn)維等評估,據(jù)此選取合適的存儲(chǔ)平臺技術(shù);最后,依據(jù)規(guī)模、需求評估,導(dǎo)出容量評估,確定建設(shè)方式,機(jī)房選址、服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等物理資源規(guī)劃。規(guī)模評估思路數(shù)據(jù)量(T)賬單類數(shù)據(jù)指標(biāo)類數(shù)據(jù)投訴類數(shù)據(jù)原始數(shù)據(jù) 首先針對汕頭移動(dòng)目前數(shù)據(jù)現(xiàn)狀進(jìn)行梳理,并進(jìn)行標(biāo)簽分類,比如賬單類數(shù)據(jù)、指標(biāo)類數(shù)據(jù)、投訴類數(shù)據(jù)、原始數(shù)據(jù)等,如下圖中的橫坐標(biāo)表示;其次針對梳理出來的數(shù)據(jù)類型,進(jìn)行數(shù)據(jù)量統(tǒng)計(jì),獲取每種類型的數(shù)據(jù)量;再次,針對數(shù)據(jù)種類,依據(jù)數(shù)據(jù)增長趨勢,進(jìn)行數(shù)據(jù)量增長預(yù)測,確定數(shù)據(jù)中心平臺未來一段時(shí)間內(nèi)所需的規(guī)模。數(shù)據(jù)類型日增長

47、量(M)月增長量(M)年增長量(T)加權(quán)年增長量(T)賬單類數(shù)據(jù)指標(biāo)類數(shù)據(jù)投訴類數(shù)據(jù)原始數(shù)據(jù)其他類型數(shù)據(jù)示例需求評估、容量評估思路依據(jù)規(guī)模、需求評估,導(dǎo)出所需物理資源數(shù)量,確定建設(shè)方式,機(jī)房選址、服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等物理資源規(guī)劃;依據(jù)關(guān)系型數(shù)據(jù)庫(以O(shè)racle為例)容量情況,MPP分布式數(shù)據(jù)庫容量情況(GreenPlum為例),分布式Hadoop系統(tǒng)容量情況,推出所需的服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等物理資源數(shù)量;依據(jù)物理資源數(shù)量,導(dǎo)出所需的機(jī)房資源,包括機(jī)房面積、承重、電力、空調(diào)、維護(hù)人員等。示例共享平臺Hadoop資源池服務(wù)器選型建議項(xiàng)目主節(jié)點(diǎn)配置建議數(shù)據(jù)處理(MR/hive)的數(shù)據(jù)節(jié)點(diǎn)數(shù)據(jù)查詢(H

48、Base)的數(shù)據(jù)節(jié)點(diǎn),可以與數(shù)據(jù)處理的數(shù)據(jù)節(jié)點(diǎn)合設(shè)zk節(jié)點(diǎn)CPU個(gè)數(shù)及核心數(shù)2路8核以上2路8核以上,如果壓縮數(shù)據(jù)或者處理比較復(fù)雜,可以考慮更多路多核的2路6核以上2路8核以上硬盤數(shù)硬盤數(shù)可以不同太多,4-6塊6、8或者12塊,數(shù)據(jù)處理時(shí)IO一般不是瓶頸,但更多的磁盤可以存儲(chǔ)更多的數(shù)據(jù)6、8或者12塊,取決于存儲(chǔ)量(主要靠緩存)硬盤數(shù)2-4塊內(nèi)存128G或更高48G或更高64G或更高,太高GC可能成為負(fù)擔(dān)48G或更高網(wǎng)絡(luò)雙口萬兆或千兆網(wǎng)卡雙口萬兆或千兆網(wǎng)卡,主要影響裝載速度和節(jié)點(diǎn)間數(shù)據(jù)交換效率雙口千兆網(wǎng)卡雙口萬兆或千兆網(wǎng)卡,對網(wǎng)絡(luò)延時(shí)有高要求,如果可以,建議單獨(dú)設(shè)立奇數(shù)個(gè)集群,3-5個(gè)如果執(zhí)行

49、MapReduce,特別是在壓縮文件上執(zhí)行,其對CPU的消耗較高,CPU成為了瓶頸;而在運(yùn)行Hbase的時(shí)候,更多的內(nèi)存會(huì)緩存更多的數(shù)據(jù),提高查詢吞吐率并縮短響應(yīng)時(shí)間。內(nèi)存的選擇:通常情況下,Hadoop處理任務(wù)每個(gè)CPU邏輯核(指超線程下,一般一個(gè)核對應(yīng)兩個(gè)邏輯核)對應(yīng)2G內(nèi)存即可。CPU的選擇:實(shí)測表明:Hadoop處理性能與CPU性能密切相關(guān),任務(wù)運(yùn)行時(shí)間與SPEC值基本成反比關(guān)系,因此應(yīng)該選擇性能較高的CPU。服務(wù)器類型:一般的Hadoop項(xiàng)目選擇2U的機(jī)架式服務(wù)器,試點(diǎn)中有公司選擇了多節(jié)點(diǎn)服務(wù)器(2U四節(jié)點(diǎn)),也應(yīng)用得比較好。服務(wù)器配置列表存儲(chǔ)計(jì)算機(jī)器配置如下:CPU2*8核至強(qiáng)處理

50、器內(nèi)存48-64G硬盤2T * 12,7200轉(zhuǎn)網(wǎng)卡2 * 萬兆接口 / 2 *千兆接口產(chǎn)品結(jié)構(gòu)2U產(chǎn)品類型機(jī)架式管理節(jié)點(diǎn)服務(wù)器CPU2*8核至強(qiáng)處理器內(nèi)存64-128G硬盤1T * 4(RIAD0)網(wǎng)卡2 * 萬兆接口/ 2 * 千兆接口產(chǎn)品結(jié)構(gòu)2U產(chǎn)品類型機(jī)架式CPU2*8核至強(qiáng)處理器內(nèi)存8-16G硬盤2T * 12,5400轉(zhuǎn)網(wǎng)卡2 * 萬兆接口 / 2 *千兆接口產(chǎn)品結(jié)構(gòu)2U產(chǎn)品類型機(jī)架式共享平臺Hadoop組網(wǎng)建議主要關(guān)注點(diǎn):節(jié)點(diǎn)與機(jī)架交換機(jī)使用L2連接。機(jī)架交換機(jī)與核心交換機(jī)使用L3連接。機(jī)架內(nèi)部通訊延遲低于跨機(jī)架時(shí)延(Hadoop默認(rèn)策略)。交換機(jī) oversubscriptio

51、n(入出率)比率建議2.5:1(不能高于交換機(jī)最高值)。核心交換機(jī)與Rack數(shù)相關(guān),Rack數(shù)量與核心交換機(jī)數(shù)量和端口數(shù)成正比,但交換機(jī)不應(yīng)太多,會(huì)降低機(jī)架上傳帶寬。機(jī)架交換機(jī)方式的機(jī)柜交換機(jī)的上行鏈路會(huì)成為瓶頸,交換機(jī)數(shù)量多,設(shè)備管理復(fù)雜性增加。在核心交換機(jī)端口緊張情況下,可以從機(jī)架交換機(jī)接入外部網(wǎng)關(guān),提供集群外部訪問能力。共享平臺MPP軟硬件選型建議對比項(xiàng)目TeradataEMC南大通用IBMHPAster DataGreenPlumGBase 8ADB2 DPF Over GPFSVertica無共享MPP架構(gòu)-無主控節(jié)點(diǎn)*無共享MPP架構(gòu)-有主控節(jié)點(diǎn)支持行存儲(chǔ)支持列存儲(chǔ)(10.5版本發(fā)

52、布后)當(dāng)前構(gòu)建在X86平臺上的新型MPP數(shù)據(jù)庫產(chǎn)品眾多,Garnter每年會(huì)發(fā)布一版數(shù)據(jù)倉庫魔力象限可以供參考。在大陸地區(qū)可以獲得技術(shù)支持的MPP產(chǎn)品及其特性如下不同架構(gòu)的數(shù)據(jù)倉庫各有優(yōu)缺點(diǎn)。比如帶主控節(jié)點(diǎn)(Master)的數(shù)據(jù)庫會(huì)存在單點(diǎn)故障,但各節(jié)點(diǎn)分工明確;無主控節(jié)點(diǎn)的數(shù)據(jù)庫不存在單點(diǎn)故障,但可能某各節(jié)點(diǎn)承擔(dān)的任務(wù)不平均。行存儲(chǔ)裝載數(shù)據(jù)快、壓縮率低、查詢速度稍慢;列存儲(chǔ)裝載數(shù)據(jù)慢、壓縮率高、查詢速度快,但部分產(chǎn)品的列存儲(chǔ)方式無法支持更新、刪除數(shù)據(jù)。所以建議在引入MPP數(shù)據(jù)庫前各公司應(yīng)該根據(jù)預(yù)期的應(yīng)用場景編寫測試案例,用去隱私的實(shí)際數(shù)據(jù)作為測試數(shù)據(jù),對可選的MPP產(chǎn)品進(jìn)行評估,然后確定最適

53、合自身場景的產(chǎn)品。其數(shù)據(jù)節(jié)點(diǎn)一般按照如下要求來配置:CPU核數(shù)、內(nèi)存(G)和磁盤個(gè)數(shù)的配比:一般情況下為1:8:1或1:8:2。同等情況下磁盤個(gè)數(shù)越多性能越高,但磁盤總個(gè)數(shù)受機(jī)架式服務(wù)器的空間限制,一般為12(3.5寸)到16個(gè)(2.5寸),少部分非集采服務(wù)器更多。磁盤:為了獲得高可靠、高讀寫帶寬和高IOPS,應(yīng)選用SAS接口的企業(yè)級硬盤,轉(zhuǎn)數(shù)一萬及以上。RAID卡:雖然MPP數(shù)據(jù)庫大多通過副本的機(jī)制來保證某個(gè)節(jié)點(diǎn)故障情況下的高可用,但是代價(jià)高:大部分?jǐn)?shù)據(jù)庫故障情況下當(dāng)前應(yīng)用需要中斷,少部分?jǐn)?shù)據(jù)庫還需要重啟來應(yīng)對故障;且故障情況下理論的效率要下降50%而不是按故障節(jié)點(diǎn)比例下降。所以在選擇硬件平

54、臺的時(shí)候要有限選擇高可靠的硬件,比如電源,更比如RAID卡。一般將通過RAID卡的PCI-E接口連接到主機(jī)上,通過RAID10或RAID5來保證單個(gè)磁盤出錯(cuò)不會(huì)觸發(fā)節(jié)點(diǎn)故障。這點(diǎn)也與Hadoop明顯區(qū)分出來。MPP組網(wǎng)建議MPP數(shù)據(jù)庫中運(yùn)算的特點(diǎn)是多節(jié)點(diǎn)并發(fā)計(jì)算,其間可能會(huì)出現(xiàn)節(jié)點(diǎn)間的裝載、數(shù)據(jù)重分布、復(fù)制或數(shù)據(jù)廣播(如非分區(qū)鍵關(guān)聯(lián)等操作),最后各節(jié)點(diǎn)運(yùn)算結(jié)果數(shù)據(jù)匯總,所以節(jié)點(diǎn)間互連網(wǎng)絡(luò)的速度(包括帶寬和時(shí)延)會(huì)直接影響到計(jì)算效率的高低,這就使得MPP數(shù)據(jù)庫的架構(gòu)會(huì)對內(nèi)部互連網(wǎng)絡(luò)有較高的要求。因此MPP數(shù)據(jù)庫內(nèi)部交換網(wǎng)絡(luò)需要保證點(diǎn)到點(diǎn)的萬兆以太網(wǎng)帶寬,MPP數(shù)據(jù)庫對網(wǎng)絡(luò)的要求也與Hadoop有

55、較大差別。因此每臺機(jī)器至少需要配置兩個(gè)網(wǎng)口(當(dāng)然配備兩個(gè)的大多數(shù)原因是為了保證高可用,而不是綁定在一起負(fù)荷分擔(dān)),推薦使用IB網(wǎng)卡(但是這種情況下,要注意PCI-E的版本應(yīng)3.0以上才能和網(wǎng)卡速度匹配)或萬兆網(wǎng)卡和交換機(jī)以保證內(nèi)部數(shù)據(jù)高速傳輸。用于數(shù)據(jù)加載的ETL服務(wù)器也應(yīng)處于內(nèi)部網(wǎng)絡(luò)內(nèi)以保證大數(shù)據(jù)量的加載性能。為了實(shí)現(xiàn)點(diǎn)對點(diǎn)的萬兆速度保障,在超過一個(gè)機(jī)柜的情況下,一般還需要通過核心交換機(jī)來實(shí)現(xiàn)FLAT TREE方式的一比一收斂,參見之前Hadoop的組網(wǎng)章節(jié)。目錄遼寧移動(dòng)大數(shù)據(jù)項(xiàng)目技術(shù)需求大數(shù)據(jù)建設(shè)背景附件:案例介紹大數(shù)據(jù)平臺頂層架構(gòu)設(shè)計(jì) 大數(shù)據(jù)平臺分層建設(shè)方案資源池規(guī)劃與落地點(diǎn)探討案例1-

56、中國移動(dòng)南方基地經(jīng)分Hadoop云系統(tǒng)客戶:中國移動(dòng)南方基地 上線功能:目前已經(jīng)上線的模塊有數(shù)據(jù)清洗、轉(zhuǎn)換、匯總模塊、URL地址抓取模塊、用戶上網(wǎng)行為分析模塊和網(wǎng)頁分類模塊,平臺管理模塊、權(quán)限控制模塊和詞庫管理模塊等。具體功能包括行業(yè)應(yīng)用、行為分析、網(wǎng)頁分類、抓取管理、詞庫管理、數(shù)據(jù)查詢、平臺部署、集群監(jiān)控、異常預(yù)警、權(quán)限控制。目前系統(tǒng)穩(wěn)定運(yùn)行。經(jīng)分Hadoop云系統(tǒng)項(xiàng)目背景:移動(dòng)互聯(lián)網(wǎng)如此普及的今天,因?yàn)橐曰贑DR為主的客戶行為分析可能缺失了大量的客戶行為有效信息。例如,兩個(gè)通話行為相似的人可能是完全不同類型的客戶,如果將之同等對待,客戶的接受度必然很差,浪費(fèi)大量資源,并且無法取得良好的效果。用戶的上網(wǎng)行為中蘊(yùn)含著大量的客戶特征和客戶需求信息,這些信息至關(guān)重要,而又是傳統(tǒng)的CDR話單分析所不能提供的,因此對用戶上網(wǎng)的內(nèi)容進(jìn)行解析對電信運(yùn)營商實(shí)現(xiàn)精細(xì)化運(yùn)營提供重要的營銷依據(jù),是泛互聯(lián)網(wǎng)化精準(zhǔn)營銷的基礎(chǔ)。功能實(shí)現(xiàn): 項(xiàng)目基于Hadoop架構(gòu)進(jìn)行開發(fā)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論