版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、遼寧移動(dòng)大數(shù)據(jù)平臺方案-交流稿北京天云融創(chuàng)軟件技術(shù)有限公司7/27/2022天云簡介天云公司致力于云計(jì)算產(chǎn)品研發(fā)、云系統(tǒng)構(gòu)建、云系統(tǒng)解決方案、大數(shù)據(jù)解決方案的提供。天云公司專注云計(jì)算領(lǐng)域,引入國內(nèi)外的云計(jì)算的頂尖人才??偛吭O(shè)在北京云基地,在中國(包括香港、臺灣)16個(gè)省市設(shè)有分支機(jī)構(gòu),在北京, 西安以及美國硅谷擁有自己的研發(fā)中心,共有核心研發(fā)人員:255名,首席云專家:5名。云基地?fù)?dān)任云計(jì)算事業(yè)的先鋒角色 :云計(jì)算知識產(chǎn)權(quán)創(chuàng)新聯(lián)盟理事單位院士專家工作站科技企業(yè)孵化器博士后工作站天云公司客戶主要集中于運(yùn)營商、政府、能源、制造業(yè)等行業(yè)天云公司運(yùn)營團(tuán)隊(duì):由具有國際化背景和本地化經(jīng)驗(yàn)的優(yōu)秀人才構(gòu)成,核
2、心成員均為從美國硅谷回國創(chuàng)業(yè)人員,曾分別服務(wù)于各大國際知名電信和網(wǎng)絡(luò)運(yùn)營商及跨國IT企業(yè)。公司大事記2010年4月,天云聯(lián)合趨勢科技,在中國移動(dòng)通信研究院,成功搭建中國移動(dòng)IaaS PoC平臺第一期,實(shí)現(xiàn)與大云虛擬化平臺對接,為中國移動(dòng)IaaS業(yè)務(wù)的商業(yè)化運(yùn)營奠定了基礎(chǔ)2010年9月,天云攜手趨勢、友友天宇,與國網(wǎng)信息通信有限公司一起,創(chuàng)立了中國電力行業(yè)第一個(gè)“云計(jì)算仿真實(shí)驗(yàn)室”,共同為智能電網(wǎng)大規(guī)模數(shù)據(jù)處理進(jìn)行預(yù)研和驗(yàn)證,這也是中國第一個(gè)產(chǎn)業(yè)云;2010年9月,中國科學(xué)院與云基地天云公司簽署在云計(jì)算和移動(dòng)互聯(lián)網(wǎng)領(lǐng)域戰(zhàn)略合作;2010年12月,天云公司與臺灣電信龍頭中華電信簽署合作備忘錄(MO
3、U),雙方將致力于兩岸云計(jì)算服務(wù),云計(jì)算解決方案及ICT(信息技術(shù)與通信技術(shù))智能產(chǎn)品解決方案展開全面合作。2011年12月,天云公司成功的完成了上海浦東軟件園“匯智在線,IT服務(wù)云”項(xiàng)目,正式向園區(qū)企業(yè)提供云計(jì)算服務(wù)。2012年02月,天云公司中標(biāo)首信電子商務(wù)云項(xiàng)目,以建設(shè)北京市級電子政務(wù)云平臺互聯(lián)網(wǎng)云,面向電子政務(wù)應(yīng)用系統(tǒng)提供IAAS、PAAS、SAAS各級服務(wù),以推動(dòng)北京市電子政務(wù)向更高層次躍進(jìn)。2012年05月,天云公司榮獲中國通信行業(yè)云計(jì)算優(yōu)秀解決方案獎(jiǎng)、中國綠色I(xiàn)T服務(wù)與外包創(chuàng)新貢獻(xiàn)獎(jiǎng)。2012年-2013年,天云公司中標(biāo)北京電視臺、黑龍江移動(dòng)業(yè)支云(二期、三期)、廣東移動(dòng)VDC云
4、二期建設(shè)、上海移動(dòng)大數(shù)據(jù)共享平臺、中國聯(lián)通沃云、浙江移動(dòng)存儲(chǔ)管理平臺等一系列云平臺、大數(shù)據(jù)項(xiàng)目。2013年11月,天云軟件榮獲“2013年最佳云計(jì)算平臺解決方案獎(jiǎng)”,CEO張福波博士榮獲“2013年中國行業(yè)信息化領(lǐng)軍人物獎(jiǎng)”天云案例運(yùn)營商行業(yè)云應(yīng)用落地案例黑龍江移動(dòng)私有云項(xiàng)目黑龍江移動(dòng)支撐云項(xiàng)目中國聯(lián)通沃云-中國聯(lián)通一級公眾服務(wù)云項(xiàng)目中國聯(lián)通云計(jì)算戰(zhàn)略咨詢項(xiàng)目中國電信中小企業(yè)云項(xiàng)目北京移動(dòng)云應(yīng)用技術(shù)服務(wù)項(xiàng)目中國移動(dòng)南方基地云網(wǎng)管咨詢項(xiàng)目中國移動(dòng)南方基地經(jīng)分Hadoop云項(xiàng)目廣東移動(dòng)VDC一期云平臺項(xiàng)目廣東移動(dòng)VDC二期云平臺項(xiàng)目廣東移動(dòng)SaaS咨詢項(xiàng)目山東電信云平臺項(xiàng)目上海移動(dòng)數(shù)據(jù)平臺項(xiàng)目浙江
5、移動(dòng)統(tǒng)一存儲(chǔ)云平臺管理項(xiàng)目重慶移動(dòng)GPRS話單查詢項(xiàng)目行業(yè)案例涉及:深圳國家動(dòng)漫基地云平臺項(xiàng)目中國光大銀行歷史數(shù)據(jù)查詢項(xiàng)目北京電視臺云平臺項(xiàng)目上海浦東軟件園項(xiàng)目北京市電子政務(wù)云平臺項(xiàng)目目錄遼寧移動(dòng)大數(shù)據(jù)項(xiàng)目技術(shù)需求 大數(shù)據(jù)平臺分層建設(shè)方案大數(shù)據(jù)建設(shè)背景資源池規(guī)劃與落地點(diǎn)探討大數(shù)據(jù)平臺頂層架構(gòu)設(shè)計(jì)附件:案例介紹移動(dòng)運(yùn)營商面臨的挑戰(zhàn)環(huán)境變化能力提升,支撐業(yè)務(wù)規(guī)模發(fā)展和創(chuàng)新突破架構(gòu)優(yōu)化,支撐企業(yè)集中化與一體化、專業(yè)化的運(yùn)營與服務(wù)數(shù)據(jù)共享,支撐企業(yè)科學(xué)決策和精確管理新的要求移動(dòng)互聯(lián)網(wǎng)迅速發(fā)展企業(yè)電子商務(wù)化云計(jì)算、大數(shù)據(jù)等新技術(shù)興起跨行業(yè)產(chǎn)業(yè)鏈變革業(yè)務(wù)目標(biāo)存量經(jīng)營流量經(jīng)營集客經(jīng)營終端銷售管理目標(biāo)質(zhì)量&服
6、務(wù)管理優(yōu)化企業(yè)深化轉(zhuǎn)型三大戰(zhàn)略:移動(dòng)互聯(lián)網(wǎng)戰(zhàn)略,四網(wǎng)協(xié)同戰(zhàn)略,全業(yè)務(wù)戰(zhàn)略新業(yè)務(wù)發(fā)展國際業(yè)務(wù)鐵通協(xié)同數(shù)據(jù)應(yīng)用面臨的挑戰(zhàn)準(zhǔn)實(shí)時(shí)批處理應(yīng)用非實(shí)時(shí)批處理應(yīng)用每次請求處理的數(shù)據(jù)規(guī)模每次請求的處理時(shí)長OLTP在線事務(wù)處理應(yīng)用OLAP在線分析應(yīng)用表示各類系統(tǒng)的技術(shù)難點(diǎn)低高高技術(shù)難點(diǎn):每次處理數(shù)據(jù)規(guī)模增大;要求處理完成時(shí)間卻縮短!Scale OutorScale Up數(shù)據(jù)規(guī)模處理能力?批處理交互式大數(shù)據(jù)應(yīng)用分析應(yīng)用可能性電信政府(公共事業(yè))交通金融醫(yī)療教育能源(電力/石油)縱軸契合度:表示該用戶的IT應(yīng)用特點(diǎn)與大數(shù)據(jù)特性的契合程度;橫軸應(yīng)用可能性:表示該用戶出于主客觀因素在短期內(nèi)投資大數(shù)據(jù)的可能性;注:該位置
7、為分析師訪談的綜合印象,為定性分析,圖中位置不代表具體數(shù)值HighMidLowLowMidHigh優(yōu)先關(guān)注行業(yè)用戶應(yīng)用特點(diǎn)與大數(shù)據(jù)技術(shù)有較高的契合度,在主客觀條件上也有較高的應(yīng)用可能性。值得關(guān)注行業(yè)用戶應(yīng)有特點(diǎn)與大數(shù)據(jù)的契合度及應(yīng)用可能性綜合較高適當(dāng)關(guān)注行業(yè)用戶兩個(gè)維度暫時(shí)都不具備優(yōu)勢,可適當(dāng)給予關(guān)注互聯(lián)網(wǎng)(電子商務(wù))契合度流通零售制造第三代業(yè)務(wù)支撐系統(tǒng)將向什么方向發(fā)展?IT支撐能力持續(xù)提升實(shí)現(xiàn)BOSS系統(tǒng)集中化改造,構(gòu)建業(yè)務(wù)支撐網(wǎng),支撐“服務(wù)與業(yè)務(wù)領(lǐng)先” 戰(zhàn)略形成標(biāo)準(zhǔn)化客戶運(yùn)營和產(chǎn)品運(yùn)營分離的支撐體系,支撐從“移動(dòng)通信專家”到“移動(dòng)信息”專家的轉(zhuǎn)型借助先進(jìn)的技術(shù),采用基于云計(jì)算的新架構(gòu)等,構(gòu)
8、建更加高效、開放、靈活的適應(yīng)移動(dòng)互聯(lián)網(wǎng)發(fā)展的業(yè)務(wù)支撐體系,完成一體化運(yùn)營支撐模式的轉(zhuǎn)變,支撐企業(yè)的全業(yè)務(wù)戰(zhàn)略、四網(wǎng)協(xié)同戰(zhàn)略、移動(dòng)互聯(lián)網(wǎng)戰(zhàn)略2007201719982012BOSSNGBOSS3rd BOSS主要特征省級集中橫向整合、縱向解耦、網(wǎng)狀網(wǎng)絡(luò)?目錄 大數(shù)據(jù)平臺分層建設(shè)方案大數(shù)據(jù)建設(shè)背景資源池規(guī)劃與落地點(diǎn)探討大數(shù)據(jù)平臺頂層架構(gòu)設(shè)計(jì)附件:案例介紹遼寧移動(dòng)大數(shù)據(jù)項(xiàng)目技術(shù)需求項(xiàng)目技術(shù)需求建設(shè)規(guī)模:一期規(guī)模考慮數(shù)據(jù)總?cè)萘?.2P, 其中熱數(shù)據(jù)2P,冷數(shù)據(jù)1.2P集成內(nèi)容:數(shù)據(jù)項(xiàng)目選擇HADOOP+MPP+RDBMS的模式軟件開發(fā)與技術(shù)要求:需要針對具體數(shù)據(jù)種類格式等進(jìn)行相應(yīng)的軟件開發(fā),以實(shí)現(xiàn)數(shù)據(jù)
9、統(tǒng)一導(dǎo)入,對外統(tǒng)一接口,統(tǒng)一查詢及開發(fā)服務(wù),數(shù)據(jù)管理,資源分配和系統(tǒng)操作維護(hù)支撐等功能實(shí)現(xiàn)目標(biāo):四網(wǎng)協(xié)同、A+Abis、經(jīng)分wapETL等已有Hadoop架構(gòu)系統(tǒng),及經(jīng)營分析、詳單查詢、信令類分析系統(tǒng)、網(wǎng)管話單查詢、位置類等多個(gè)系統(tǒng)利用統(tǒng)一的H+M+R大數(shù)據(jù)資源池,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理及高效利用系統(tǒng)架構(gòu):采用X86架構(gòu),考慮H+M+R 除oracle考慮小機(jī)等環(huán)境外,H+M考慮規(guī)模配置可調(diào),充分滿足各種數(shù)據(jù)存儲(chǔ)及分析需求雙中心規(guī)劃:按照公司規(guī)劃,數(shù)據(jù)中心要實(shí)現(xiàn)渾南、沈北雙中心的規(guī)劃結(jié)構(gòu),在兩個(gè)中心分別部署設(shè)備和系統(tǒng),實(shí)現(xiàn)重要系統(tǒng)雙活,保障生產(chǎn)安全,穩(wěn)定運(yùn)行,大數(shù)據(jù)平臺也要考慮在兩個(gè)中心的分別部署
10、其他:數(shù)據(jù)管理、工作界面劃分、系統(tǒng)管理、維護(hù)接口等目錄遼寧移動(dòng)大數(shù)據(jù)項(xiàng)目技術(shù)需求 大數(shù)據(jù)平臺分層建設(shè)方案大數(shù)據(jù)建設(shè)背景資源池規(guī)劃與落地點(diǎn)探討附件:案例介紹大數(shù)據(jù)平臺頂層架構(gòu)設(shè)計(jì)傳統(tǒng)的數(shù)據(jù)倉庫的架構(gòu)數(shù)據(jù)源抽取、轉(zhuǎn)換、加載業(yè)務(wù)數(shù)據(jù)集市企業(yè)數(shù)據(jù)倉庫ETL元數(shù)據(jù)前端分析展現(xiàn)工具查詢工具、應(yīng)用OLTP傳統(tǒng)數(shù)據(jù)倉庫在大數(shù)據(jù)時(shí)代面臨的挑戰(zhàn):成本居高不下,以Scale Up為主數(shù)據(jù)量,以GBTB為主擴(kuò)展能力擁有成本處理數(shù)據(jù)的能力數(shù)據(jù)共享能力天云新一代數(shù)據(jù)平臺定義企業(yè)數(shù)據(jù)平臺是指建立在數(shù)據(jù)倉庫與數(shù)據(jù)倉庫之上的決策分析應(yīng)用,應(yīng)包括數(shù)據(jù)源、數(shù)據(jù)ETL、ODS數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)集市、商務(wù)智能應(yīng)用、數(shù)據(jù)管理等功能。
11、數(shù)據(jù)平臺應(yīng)該具備常見數(shù)據(jù)的處理與管理能力,具備對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等數(shù)據(jù)的處理能力,同時(shí)支持RDB、MPP、NoSQL,同時(shí)具備數(shù)據(jù)的通用管理能力,以數(shù)據(jù)為中心進(jìn)行平臺建設(shè)。數(shù)據(jù)平臺數(shù)據(jù)平臺在接口層要豐富又簡單,可以提供各種應(yīng)用所需接口,最大程度匹配已有接口,對應(yīng)用改動(dòng)需求力求最低。數(shù)據(jù)平臺數(shù)據(jù)管理能力至少應(yīng)包含:1.元數(shù)據(jù)管理,2.數(shù)據(jù)質(zhì)量管理,3.數(shù)據(jù)安全管理,4.數(shù)據(jù)可視化管理,5.數(shù)據(jù)生命周期管理。數(shù)據(jù)平臺必須針對數(shù)據(jù)提供完整方案,同時(shí)兼顧應(yīng)用接口、其他平臺接入,系統(tǒng)管理、系統(tǒng)調(diào)度等功能。任何一種單一技術(shù)都難以適應(yīng)數(shù)據(jù)平臺數(shù)據(jù)采集、存儲(chǔ)、處理和對外服務(wù)的需求,多種技術(shù)并存才是發(fā)
12、展趨勢。采集處理層數(shù)據(jù)抽取/加載/檢查ETL調(diào)度數(shù)據(jù)交互、轉(zhuǎn)換數(shù)據(jù)映射數(shù)據(jù)層數(shù)據(jù)存儲(chǔ)數(shù)據(jù)聚合服務(wù)數(shù)據(jù)處理服務(wù)數(shù)據(jù)查詢服務(wù)事件通知服務(wù)信息子層KPI報(bào)表統(tǒng)一視圖知識庫接口層服務(wù)管理資料類數(shù)據(jù)服務(wù)指標(biāo)類數(shù)據(jù)服務(wù)配置類數(shù)據(jù)服務(wù)清單累數(shù)據(jù)服務(wù)日志類數(shù)據(jù)服務(wù)OPEN API數(shù)據(jù)管理功能數(shù)據(jù)生命周期管理數(shù)據(jù)可視化管理數(shù)據(jù)質(zhì)量管理采集層數(shù)據(jù)質(zhì)量管理數(shù)據(jù)質(zhì)量規(guī)則、知識庫數(shù)據(jù)質(zhì)量稽核指標(biāo)運(yùn)維數(shù)據(jù)安全管理4A認(rèn)證隱私信息保護(hù)權(quán)限管控、審計(jì)追蹤元數(shù)據(jù)管理元數(shù)據(jù)獲取管理元數(shù)據(jù)存儲(chǔ)與模型管理元數(shù)據(jù)分析、展現(xiàn)、服務(wù)技術(shù)、業(yè)務(wù)元數(shù)據(jù)管理ODW-RDBODW-MPP分布式文件系統(tǒng)分布式關(guān)系數(shù)據(jù)庫分布式計(jì)算數(shù)據(jù)分發(fā)同步處理用戶
13、管理權(quán)限管理備份與恢復(fù)日志管理設(shè)備監(jiān)控指標(biāo)資源池指標(biāo)數(shù)據(jù)庫指標(biāo)分布式系統(tǒng)指標(biāo)指標(biāo)匯總存儲(chǔ)管理資源池管理設(shè)備管理作業(yè)調(diào)度管理事件自動(dòng)化規(guī)則配置執(zhí)行引擎性能預(yù)警調(diào)度異??刂票毕蚪涌诠芾頂?shù)據(jù)采集接口管理數(shù)據(jù)共享配置通用接口配置平臺管理功能數(shù)據(jù)服務(wù)功能綜合分析系統(tǒng)A+ABIS應(yīng)用無線網(wǎng)優(yōu)綜合監(jiān)控系統(tǒng)信令監(jiān)測系統(tǒng)日志上層應(yīng)用其他應(yīng)用大數(shù)據(jù)平臺建設(shè)的功能層次需求數(shù)據(jù)服務(wù)接口業(yè)務(wù)協(xié)同數(shù)據(jù)查詢服務(wù)、分析服務(wù)數(shù)據(jù)倉庫、數(shù)據(jù)集市數(shù)據(jù)交換數(shù)據(jù)處理清洗、轉(zhuǎn)換、加載異構(gòu)數(shù)據(jù)源海量數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)應(yīng)用數(shù)據(jù)服務(wù)數(shù)據(jù)共享數(shù)據(jù)整合數(shù)據(jù)集中數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)源大數(shù)據(jù)平臺數(shù)據(jù)集中: 結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)的
14、統(tǒng)一存儲(chǔ),“存得下” 節(jié)約存儲(chǔ)成本,“存得起” 分布式存儲(chǔ)架構(gòu),提高靈活性與可擴(kuò)展性數(shù)據(jù)整合: 消除異構(gòu)數(shù)據(jù)源的混雜性 采用云計(jì)算架構(gòu),提升處理速度與能力數(shù)據(jù)共享: 消除“數(shù)據(jù)孤島”,實(shí)現(xiàn)系統(tǒng)間的數(shù)據(jù)交換與共享數(shù)據(jù)服務(wù): 數(shù)據(jù)即服務(wù),多類標(biāo)準(zhǔn)化的服務(wù)接口更易使用頂層架構(gòu)平臺邏輯架構(gòu)數(shù)據(jù)源數(shù)據(jù)處理域半結(jié)構(gòu)/非結(jié)構(gòu)化數(shù)據(jù)流式數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)運(yùn)行數(shù)據(jù)庫(Oracle)數(shù)據(jù)存儲(chǔ)域基礎(chǔ)數(shù)據(jù)服務(wù)數(shù)據(jù)聚合服務(wù)數(shù)據(jù)處理服務(wù)數(shù)據(jù)查詢服務(wù)事件通知服務(wù)分析挖掘數(shù)據(jù)庫(MPP)分布式文件系統(tǒng)分布式計(jì)算框架非關(guān)系數(shù)據(jù)庫NoSQL統(tǒng)一ETL管理傳統(tǒng)技術(shù)ETLHadoopETL流式計(jì)算ETL數(shù)據(jù)分發(fā)同步處理話單業(yè)務(wù)類信令類網(wǎng)
15、管類數(shù)據(jù)集市A數(shù)據(jù)集市B數(shù)據(jù)集市C元數(shù)據(jù)管理元數(shù)據(jù)應(yīng)用元數(shù)據(jù)服務(wù)封裝元數(shù)據(jù)分析展現(xiàn)元數(shù)據(jù)基礎(chǔ)管理元數(shù)據(jù)存儲(chǔ)元數(shù)據(jù)獲取平臺管理接口管理調(diào)度管理監(jiān)控管理數(shù)據(jù)質(zhì)量管理新數(shù)據(jù)源稽核數(shù)據(jù)質(zhì)量監(jiān)控?cái)?shù)據(jù)質(zhì)量評估數(shù)據(jù)質(zhì)量配置管理數(shù)據(jù)質(zhì)量兩級聯(lián)動(dòng)數(shù)據(jù)質(zhì)量問題處理安全管理4A認(rèn)證安全服務(wù)調(diào)用隱私管理審計(jì)追蹤生命周期管理入庫存儲(chǔ)數(shù)據(jù)清理數(shù)據(jù)管理域ESB數(shù)據(jù)服務(wù)總線(webservice)應(yīng)用層接口服務(wù)域資料類數(shù)據(jù)服務(wù)指標(biāo)類數(shù)據(jù)服務(wù)清單類數(shù)據(jù)服務(wù)日志類數(shù)據(jù)服務(wù)事件類數(shù)據(jù)服務(wù)配置類數(shù)據(jù)服務(wù)查詢類應(yīng)用統(tǒng)計(jì)類應(yīng)用分析類應(yīng)用Open API審計(jì)類應(yīng)用客服投訴綜合監(jiān)控?zé)o線網(wǎng)優(yōu)經(jīng)營分析客戶感知數(shù)據(jù)門戶域數(shù)據(jù)管理門戶系統(tǒng)管理域大數(shù)
16、據(jù)平臺建設(shè)的最終目標(biāo)X86服務(wù)器 數(shù)據(jù)抽取轉(zhuǎn)換ETL數(shù)據(jù)管理流式計(jì)算非關(guān)系數(shù)據(jù)庫數(shù)據(jù)平臺服務(wù)DAASBI展現(xiàn)及分析挖掘服務(wù)PAASESBAPP1創(chuàng)新應(yīng)用應(yīng)用層數(shù)據(jù)庫個(gè)性化應(yīng)用APP2應(yīng)用層數(shù)據(jù)庫個(gè)性化應(yīng)用APP3應(yīng)用層數(shù)據(jù)庫個(gè)性化應(yīng)用個(gè)性化應(yīng)用OpenAPI完善數(shù)據(jù)平臺功能,實(shí)現(xiàn)數(shù)據(jù)平臺服務(wù)DAAS和BI展現(xiàn)及分析挖掘服務(wù)P所有信運(yùn)基礎(chǔ)服務(wù)和網(wǎng)運(yùn)基礎(chǔ)服務(wù)基于數(shù)據(jù)平臺服務(wù)實(shí)現(xiàn)引入第三方基于基于OpenAPI的創(chuàng)新服務(wù)開發(fā)模式,優(yōu)化管理新應(yīng)用開發(fā)和上線運(yùn)營信運(yùn)基礎(chǔ)服務(wù)網(wǎng)運(yùn)基礎(chǔ)服務(wù) 關(guān)系數(shù)據(jù)庫分布式計(jì)算數(shù)據(jù)管理平臺擴(kuò)展 / 集成 / 管理 / 調(diào)度 / 維護(hù) / 自動(dòng)化 數(shù)據(jù)流 / 分布存儲(chǔ) / 數(shù)
17、據(jù)保護(hù) / 管理視圖數(shù)據(jù)平臺引入大數(shù)據(jù)的意義與原則隨著半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等新型數(shù)據(jù)源的引入以及分析需求對分析深度和廣度的增加,以移動(dòng)運(yùn)營商行業(yè)為例,越來越需要大數(shù)據(jù)。主要包括如下:1、數(shù)據(jù)規(guī)模方面:GPRS流量話單的條數(shù)和數(shù)據(jù)量已經(jīng)超過了語音詳單,而位置信令、Gn信令、客服語音、互聯(lián)網(wǎng)外部數(shù)據(jù)等規(guī)模更大,且還處在不斷增長的趨勢。2、數(shù)據(jù)類型方面:逐步從OLTP系統(tǒng)中獲得的結(jié)構(gòu)化數(shù)據(jù),過渡到結(jié)構(gòu)化數(shù)據(jù)和互聯(lián)網(wǎng)網(wǎng)頁、上網(wǎng)日志等非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)共存。3、對數(shù)據(jù)的使用方面:不僅有批量的數(shù)據(jù)加工和前臺界面的訪問,臨時(shí)統(tǒng)計(jì)、數(shù)據(jù)挖掘等訪問需求也逐步增多。對歷史明細(xì)數(shù)據(jù)的訪問增多。
18、對數(shù)據(jù)訪問的及時(shí)性增強(qiáng)。隨著數(shù)據(jù)平臺越來越具備大數(shù)據(jù)平臺的特征,利用傳統(tǒng)的單一數(shù)據(jù)倉庫技術(shù)就難以滿足高效低成本的需求,需要引入相應(yīng)的大數(shù)據(jù)技術(shù)。新技術(shù)的引入不能影響原有的使用感知,需要按照分階段逐步引入的方式??梢詤⒖既缦碌膸讉€(gè)引入原則:1、先增量后存量?,F(xiàn)有的數(shù)據(jù)處理系統(tǒng)引入大數(shù)據(jù)處理技術(shù),面臨著模型改造、流程改造等一系列的問題,可以首先在新上線應(yīng)用引入大數(shù)據(jù)處理技術(shù)。2、先邊緣后核心。對于原有功能的遷移,可以先遷移非關(guān)鍵的應(yīng)用。這些應(yīng)用不涉及到關(guān)鍵生產(chǎn)任務(wù),可以忍受數(shù)據(jù)處理延遲和故障修復(fù)時(shí)間較高等可能出現(xiàn)的風(fēng)險(xiǎn)。3、先簡單后復(fù)雜。數(shù)據(jù)處理邏輯較簡單的應(yīng)用也可以首先嘗試引入大數(shù)據(jù)處理技術(shù),降
19、低實(shí)施的復(fù)雜度,積累運(yùn)維經(jīng)驗(yàn)。通過在大數(shù)據(jù)處理技術(shù)的規(guī)劃、實(shí)施及運(yùn)維過程中積累經(jīng)驗(yàn)及教訓(xùn),不斷提升和完善大數(shù)據(jù)技術(shù)的應(yīng)用水平,逐步拓展大數(shù)據(jù)技術(shù)應(yīng)用領(lǐng)域。大數(shù)據(jù)在數(shù)據(jù)平臺的應(yīng)用場景大數(shù)據(jù)技術(shù)可以應(yīng)用在以下場景(包括但不限于):1、原數(shù)據(jù)倉庫底層結(jié)構(gòu)化數(shù)據(jù)處理(ETL或ELT)。底層結(jié)構(gòu)化數(shù)據(jù)處理計(jì)算任務(wù)重但復(fù)雜性不高,不涉及多表關(guān)聯(lián),適合引入大數(shù)據(jù)技術(shù)實(shí)現(xiàn)高效低成本。例如:對運(yùn)營商的清單(語音詳單、GPRS清單、WLAN清單等)的清洗、轉(zhuǎn)換、匯總等。2、半結(jié)構(gòu)和非結(jié)構(gòu)數(shù)據(jù)處理與分析。例如對上網(wǎng)日志、網(wǎng)絡(luò)信令、客服語音等數(shù)據(jù)的處理和分析,這些數(shù)據(jù)難以利用傳統(tǒng)數(shù)據(jù)倉庫技術(shù)進(jìn)行處理和分析。3、數(shù)據(jù)集
20、市。地?cái)?shù)據(jù)集市應(yīng)用較為獨(dú)立,且對可靠性的要求并不是十分嚴(yán)格,適合作為引入大數(shù)據(jù)技術(shù)形成資源池,以移動(dòng)運(yùn)營商為例,可實(shí)現(xiàn)各地市、各部門數(shù)據(jù)集市的云化、池化和虛擬化,最終實(shí)現(xiàn)資源動(dòng)態(tài)調(diào)配,達(dá)到高效低成本。4、數(shù)據(jù)倉庫數(shù)據(jù)分級存儲(chǔ)。對低價(jià)值的細(xì)節(jié)數(shù)據(jù)以及長周期的歷史數(shù)據(jù)(冷數(shù)據(jù))訪問頻率較低,也能容忍相對較長的響應(yīng)時(shí)間,可以存儲(chǔ)在成本更低的平臺上。5、數(shù)據(jù)挖掘。某些數(shù)據(jù)挖掘設(shè)計(jì)長周期的數(shù)據(jù),計(jì)算時(shí)間很長(數(shù)天),占用很多數(shù)據(jù)倉庫資源。還有一些數(shù)據(jù)挖掘算法超出了關(guān)系代數(shù)計(jì)算范疇,需要抽取數(shù)據(jù)到獨(dú)立的計(jì)算平臺(例如SAS統(tǒng)計(jì)分析系統(tǒng))中進(jìn)行計(jì)算。這些數(shù)據(jù)挖掘任務(wù)可以遷移到大數(shù)據(jù)平臺之上進(jìn)行計(jì)算。例如交往
21、圈的計(jì)算,因其僅涉及單一數(shù)據(jù),但數(shù)據(jù)量非常大,且需要多次迭代計(jì)算。6、對外查詢。數(shù)據(jù)平臺不僅僅是數(shù)據(jù)處理,也需要將數(shù)據(jù)處理的結(jié)果對外提供查詢,而這些查詢一部分是海量的OLAP性質(zhì)的查詢,另外還有一部分OLTP性質(zhì)的查詢,即數(shù)量眾多但每次查詢量較少的。比如數(shù)據(jù)平臺前端庫、與生產(chǎn)系統(tǒng)互動(dòng)的數(shù)據(jù)庫以及提供流量詳單查詢的數(shù)據(jù)庫。這些查詢?nèi)蝿?wù)不能很好地運(yùn)行在OLAP類數(shù)據(jù)庫之上,可以遷移到大數(shù)據(jù)平臺上。針對這些應(yīng)用場景,可以看到,主要需要引入的是Hadoop和MPP技術(shù),然后逐步考慮NoSQL、流計(jì)算和內(nèi)存計(jì)算等技術(shù)的引入。Hadoop技術(shù)與MPP技術(shù)的比較HadoopMPP 傳統(tǒng)數(shù)據(jù)倉庫平臺開放性高低
22、低運(yùn)維復(fù)雜度高,與運(yùn)維人員能力相關(guān)中中擴(kuò)展能力高中低擁有成本低中高系統(tǒng)和數(shù)據(jù)管理成本高中中應(yīng)用開發(fā)維護(hù)成本高中中SQL支持低高高數(shù)據(jù)規(guī)模PB級別部分PBTB級別計(jì)算性能對非關(guān)系型操作效率高對關(guān)系型操作效率高對關(guān)系型操作效率中數(shù)據(jù)結(jié)構(gòu)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)Hadoop 在處理非結(jié)構(gòu)數(shù)據(jù)和半結(jié)構(gòu)數(shù)據(jù)上具備優(yōu)勢,尤其適合海量數(shù)據(jù)批處理等應(yīng)用需求。當(dāng)然隨著Hadoop技術(shù)的成熟,基于Hadoop的即席查詢技術(shù)也逐漸嶄露頭角。比如仿照Dremel的開源項(xiàng)目Apache Drill以及Cloudera Impala。MPP適合替代現(xiàn)有關(guān)系數(shù)據(jù)結(jié)構(gòu)下的大數(shù)據(jù)處理,具有較高的效率,但
23、其在大規(guī)模集群(超過100個(gè)節(jié)點(diǎn))下的可用性還有待試點(diǎn)證實(shí)。MPP數(shù)據(jù)庫場景下經(jīng)常需要掃描大量的數(shù)據(jù),所以對磁盤存儲(chǔ)系統(tǒng)的I/O性能要求非常高,在測試和日常運(yùn)行中,I/O多大情況下是瓶頸,這點(diǎn)與Hadoop平臺可以明顯區(qū)分開來。目錄遼寧移動(dòng)大數(shù)據(jù)項(xiàng)目技術(shù)需求大數(shù)據(jù)建設(shè)背景資源池規(guī)劃與落地點(diǎn)探討附件:案例介紹大數(shù)據(jù)平臺頂層架構(gòu)設(shè)計(jì) 大數(shù)據(jù)平臺分層建設(shè)方案大數(shù)據(jù)平臺分層描述-數(shù)據(jù)采集、ETL層半結(jié)構(gòu)化數(shù)據(jù)與海量半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)與流式數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)常規(guī)ETL處理實(shí)時(shí)或準(zhǔn)實(shí)時(shí)ETL處理采集層處理層傳統(tǒng)技術(shù)ETL流式計(jì)算ETL海量數(shù)據(jù)ETL處理Hadoop ETLETL可視化管理統(tǒng)一ETL調(diào)度數(shù)
24、據(jù)采集根據(jù)需要進(jìn)行數(shù)據(jù)采集,采集的數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、海量半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及流式數(shù)據(jù)數(shù)據(jù)處理根據(jù)數(shù)據(jù)結(jié)構(gòu)特征分類,可分為結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)主要采用傳統(tǒng)ETL,半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)主要采用Hadoop ETL;根據(jù)數(shù)據(jù)量級分類,分為海量數(shù)據(jù)和常規(guī)量級數(shù)據(jù)。海量數(shù)據(jù)主要包括話單、信令數(shù)據(jù),采用Hadoop ETL處理;根據(jù)采用技術(shù)分類,分為常規(guī)技術(shù)ETL、Hadoop ETL和流式計(jì)算ETL。Hadoop主要處理海量數(shù)據(jù)和準(zhǔn)實(shí)時(shí)需求數(shù)據(jù),流式計(jì)算處理有實(shí)時(shí)需求的數(shù)據(jù)如實(shí)時(shí)營銷需要的信令觸點(diǎn);根據(jù)處理時(shí)效分類,分為常規(guī)ETL,準(zhǔn)實(shí)時(shí)ETL和
25、實(shí)時(shí)ETL。其中實(shí)時(shí)和準(zhǔn)實(shí)時(shí)處理主要處理網(wǎng)管和信令數(shù)據(jù)。目的:對公司各項(xiàng)數(shù)據(jù)(經(jīng)分、話單、業(yè)務(wù)類、信令類、網(wǎng)管類、財(cái)務(wù)類、企劃類等)進(jìn)行整合,整合到大數(shù)據(jù)存儲(chǔ)平臺;數(shù)據(jù)采集/ETL技術(shù)架構(gòu)數(shù)據(jù)采集通過智能數(shù)據(jù)采集適配器,輕松支持各種數(shù)據(jù)源的接入,如FTP/SFTP、DB、Webservice,Scoket等數(shù)據(jù)處理數(shù)據(jù)ETL支持傳統(tǒng)ETL、云化(Hadoop)ETL、流式ETL通過元數(shù)據(jù)可以定制ETL,對ETL流程進(jìn)行實(shí)時(shí)監(jiān)控全程ETL數(shù)據(jù)質(zhì)量監(jiān)控和管理大數(shù)據(jù)平臺分層描述-數(shù)據(jù)存儲(chǔ)層關(guān)系數(shù)據(jù)庫(RDB)基礎(chǔ)數(shù)據(jù)服務(wù)數(shù)據(jù)聚合服務(wù)數(shù)據(jù)處理引擎數(shù)據(jù)查詢服務(wù)數(shù)據(jù)分發(fā)同步處理工具事件通知服務(wù)分布式關(guān)系數(shù)
26、據(jù)庫(GBase)數(shù)據(jù)層處理規(guī)則管理分析引擎數(shù)據(jù)存儲(chǔ)傳統(tǒng)關(guān)系型數(shù)據(jù)庫主要存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù);分布式關(guān)系數(shù)據(jù)主要存儲(chǔ)對復(fù)雜數(shù)據(jù)的進(jìn)行多表關(guān)聯(lián)分析需要的從主庫各表聚合的數(shù)據(jù);分布式文件系統(tǒng)HDFS主要存儲(chǔ)海量半結(jié)構(gòu)化數(shù)據(jù);分布式非關(guān)系數(shù)據(jù)庫HBase主要存儲(chǔ)海量原始數(shù)據(jù)經(jīng)過ETL的匯總數(shù)據(jù),主要用于海量數(shù)據(jù)查詢和簡單分析應(yīng)用基礎(chǔ)數(shù)據(jù)服務(wù)數(shù)據(jù)分發(fā)同步工具支持在各種不同存儲(chǔ)間進(jìn)行數(shù)據(jù)的交換、同步、分發(fā);處理規(guī)則管理和數(shù)據(jù)處理引擎提供不同存儲(chǔ)中的數(shù)據(jù)根據(jù)業(yè)務(wù)需求進(jìn)行數(shù)據(jù)組合,轉(zhuǎn)換,處理能力的支持;分析引擎主要支持業(yè)務(wù)分析,提供基礎(chǔ)工具,算法等;數(shù)據(jù)聚合服務(wù)主要提供各種不同場景需要的數(shù)據(jù)集市和數(shù)據(jù)集市的構(gòu)建數(shù)
27、據(jù)查詢服務(wù)對上層業(yè)務(wù)提供靈活的數(shù)據(jù)查詢,屏蔽下層不同存儲(chǔ)處理方式的查詢事件通知服務(wù)提供業(yè)務(wù)所需的實(shí)時(shí)事件通知,數(shù)據(jù)訂閱通知等同時(shí)完成:對各項(xiàng)數(shù)據(jù)進(jìn)行梳理,形成高效數(shù)據(jù)索引規(guī)范,便于數(shù)據(jù)查找、整合;分布式文件系統(tǒng)分布式計(jì)算系統(tǒng)分布式非關(guān)系數(shù)據(jù)庫天云Hadoop體系架構(gòu)1.處理客戶端請求2.啟動(dòng)/監(jiān)控ApplicationMaster3.監(jiān)控NodeManager4.資源分配與調(diào)度1.單個(gè)節(jié)點(diǎn)的資源管理2.處理來自ResourceManager的命令3.處理來自ApplictionMaster的命令Container中封裝了機(jī)器資源,每個(gè)任務(wù)會(huì)被分配一個(gè)容器,該任務(wù)只能在該容器中運(yùn)行,并使用該容器
28、封裝的資源。1.數(shù)據(jù)切分2.為應(yīng)用申請資源,并分配給內(nèi)部任務(wù)3.任務(wù)監(jiān)控與容錯(cuò)部署在NameNode部署在DataNodeHadoop分布式文件系統(tǒng)設(shè)計(jì)目標(biāo)錯(cuò)誤檢測和快速自動(dòng)恢復(fù); -硬件故障是常態(tài)而非異常支持大數(shù)據(jù)集 -單個(gè)文件大小有數(shù)GB或者TB -提供高聚合寬帶訪問 -可以擴(kuò)展至數(shù)千個(gè)節(jié)點(diǎn)簡化的一致性模型:一次寫、多次讀移動(dòng)計(jì)算比移動(dòng)數(shù)據(jù)更便宜;主要特點(diǎn)使用低成本存儲(chǔ)和服務(wù)器構(gòu)建;存放PB級的海量數(shù)據(jù);高擴(kuò)展性,實(shí)際生產(chǎn)環(huán)境中可以擴(kuò)充到4000個(gè)節(jié)點(diǎn);高可靠性和高容錯(cuò)性,提供7*24小時(shí)不間斷服務(wù),數(shù)據(jù)自動(dòng)復(fù)制,可自我修復(fù)高帶寬,高并發(fā)訪問Hadoop MapReduce為離線數(shù)據(jù)分析而
29、設(shè)計(jì),基本上是個(gè)利用數(shù)據(jù)并行性進(jìn)行分布運(yùn)算而后匯總結(jié)果的計(jì)算框架 分析問題能夠被并行化,且輸入數(shù)據(jù)集可以被切分 一個(gè)Map函數(shù),在第一階段計(jì)算對 一個(gè)Reduce函數(shù),在第二階段用于匯總Map函數(shù)的結(jié)果HBase分布式數(shù)據(jù)庫HBase是一個(gè)分布式的、按列存儲(chǔ)的、多維表結(jié)構(gòu)的實(shí)時(shí)數(shù)據(jù)庫, 為高速在線數(shù)據(jù)服務(wù)而設(shè)計(jì)表: (行,列族,列名,版本名) 值主要特點(diǎn) NoSQL 面向列、可壓縮,有效降低磁盤I/O,提高利用率。 多維表,四個(gè)維度,其中三個(gè)維度可變,適合描述復(fù)雜嵌套關(guān)系。 靈活的表結(jié)構(gòu),可動(dòng)態(tài)改變和增加(包括行、列和時(shí)間戳)。 支持單行的ACID事務(wù)處理 分布式系統(tǒng) 高性能,支持高速并發(fā)寫入
30、和高并發(fā)查詢; 可擴(kuò)展,數(shù)據(jù)自動(dòng)切分和分布,可動(dòng)態(tài)擴(kuò)容,無需停機(jī); 高可用性,建立在HDFS分布式文件系統(tǒng)之上Hbase配置建議Rowkey設(shè)計(jì):HBase表的rowkey設(shè)計(jì),一般是將關(guān)系數(shù)據(jù)庫中的候選key拼接形成。但是要注意熱點(diǎn)問題,比如rowkey開始的幾位是時(shí)間排序,那么在插入的時(shí)候,最近幾天的數(shù)據(jù)很可能是熱點(diǎn)數(shù)據(jù),這樣所有的查詢可能都指向了一個(gè)region server導(dǎo)致了HBase的性能瓶頸。盡量避免使用單調(diào)遞增的rowkey,因?yàn)樵谔砑訑?shù)據(jù)的時(shí)候,所有的新數(shù)據(jù)都添加到最后一個(gè)region,前面的region沒有或者很少有請求,也是熱點(diǎn)問題。熱點(diǎn)問題的處理方式一般是加鹽,即在r
31、owkey前面添加hash數(shù),來對數(shù)據(jù)進(jìn)行hash劃分。列簇設(shè)計(jì):HBase表的Column Family最好少于4,一般少于3,對于一般數(shù)據(jù)放入一個(gè)列簇中即可。對于一些強(qiáng)關(guān)聯(lián),頻繁訪問的數(shù)據(jù)可以放一列,這樣在取數(shù)據(jù)時(shí),熱點(diǎn)訪問只用取這一列數(shù)據(jù),可以節(jié)省IO。多個(gè)列簇有各自memstore,memstore 開銷大,而且flush一個(gè)列簇,其他的類簇也會(huì)flush,會(huì)造成不必要的開銷。Region劃分:HBase在導(dǎo)入大量數(shù)據(jù)前最好預(yù)先劃分region,這樣可以加快導(dǎo)入效率。同時(shí)也要避免使用HBase自動(dòng)劃分region,在一種情況下,HBase面臨大量寫入或者scan請求,同時(shí)它的regio
32、n中的數(shù)據(jù)又達(dá)到了閥值,那么它會(huì)啟動(dòng)自動(dòng)劃分region,有可能導(dǎo)致region劃分風(fēng)暴,大量的請求會(huì)使region server和name node的壓力過大而導(dǎo)致region dead或者name node dead。TTL設(shè)計(jì):TTL(time to live),它一般可以用來控制數(shù)據(jù)的生存時(shí)間。一些數(shù)據(jù)比如客戶幾年以前的數(shù)據(jù),幾年以后已經(jīng)不關(guān)心這些數(shù)據(jù),可以使用TTL刪除。如果數(shù)據(jù)沒有這些要求,可以不使用。Hive數(shù)據(jù)倉庫Hive是一個(gè)建立在hadoop之上的數(shù)據(jù)倉庫,用于查詢和分析結(jié)構(gòu)化海量數(shù)據(jù) 采用HDFS進(jìn)行數(shù)據(jù)存儲(chǔ) 采用Map/Reduce基本特點(diǎn): 提供類似于SQL的查詢語言
33、 高擴(kuò)展性(scale-out),動(dòng)態(tài)擴(kuò)容無須停機(jī) 針對海量數(shù)據(jù)的高性能查詢和分析系統(tǒng) 提供靈活的擴(kuò)展性復(fù)雜數(shù)據(jù)類型,擴(kuò)展函數(shù)和腳本等數(shù)據(jù)平臺透明訪問HADOOP+MPP+RDB的混搭架構(gòu)在解決大數(shù)據(jù)處理問題的同時(shí)也加大了上層應(yīng)用的數(shù)據(jù)訪問復(fù)雜度。主要問題體現(xiàn)在:多種數(shù)據(jù)實(shí)例:數(shù)據(jù)可能分布在關(guān)系型數(shù)據(jù)庫、Hadoop分布式計(jì)算集群以及HBase庫中。多種訪問接口:不同類型的數(shù)據(jù)實(shí)例的技術(shù)實(shí)現(xiàn)方式差異大,如關(guān)系型數(shù)據(jù)提供了標(biāo)準(zhǔn)SQL,Hadoop、HBase提供開放API或Hive方式訪問,這同樣對上層訪問增加了難度??鐢?shù)據(jù)實(shí)例的數(shù)據(jù)計(jì)算:不同類型的數(shù)據(jù)實(shí)例的底層數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)不同,如關(guān)系型數(shù)據(jù)庫
34、存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),而Hadoop計(jì)算集群多存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù),如果需要涉及到兩種類型數(shù)據(jù)實(shí)例中的數(shù)據(jù)關(guān)聯(lián)(join)計(jì)算,目前還難以直接實(shí)現(xiàn),需要做一系列數(shù)據(jù)互通調(diào)度,然后在單實(shí)例上完成關(guān)聯(lián)計(jì)算,整個(gè)過程復(fù)雜度高、工作量大。針對目前出現(xiàn)的這些問題,可以考慮構(gòu)建數(shù)據(jù)透明訪問能力。也就是提供統(tǒng)一的數(shù)據(jù)訪問接口,對上層屏蔽底層數(shù)據(jù)處理實(shí)現(xiàn)細(xì)節(jié),提升上層應(yīng)用的開發(fā)效率。主要需要解決兩個(gè)方面的問題:1、通過統(tǒng)一的語言或服務(wù)接口訪問到不同的數(shù)據(jù)庫實(shí)例,包括數(shù)據(jù)查詢、數(shù)據(jù)處理操作等。2、針對跨數(shù)據(jù)實(shí)例的數(shù)據(jù)互通、關(guān)聯(lián)操作等,可以通過統(tǒng)一的的語言、服務(wù)接口或管理工具等技術(shù)來實(shí)現(xiàn)。3、通過ESB封裝數(shù)據(jù)服務(wù),通過消
35、息路由進(jìn)行訪問呢大數(shù)據(jù)平臺分層描述-大數(shù)據(jù)平臺數(shù)據(jù)接口及服務(wù)事件類數(shù)據(jù)服務(wù)數(shù)據(jù)交換及應(yīng)用接口服務(wù)數(shù)據(jù)交換提供獨(dú)立、可重用的業(yè)務(wù)數(shù)據(jù)服務(wù),所有數(shù)據(jù)服務(wù)通過ESB對外提供服務(wù)接口,同時(shí)為其他服務(wù)提供支持ESB需支持多種業(yè)務(wù)接口,比如MQ、Socket、SOAP、FTP、HTTP、JDBC/ODBC等應(yīng)用層提供對第三方開發(fā)的Open API服務(wù)及其他各種應(yīng)用, 應(yīng)用使用接口層提供的各種數(shù)據(jù)服務(wù);其中分析類應(yīng)用可以使用獨(dú)立的關(guān)系數(shù)據(jù)庫來復(fù)雜的關(guān)聯(lián)分析目的:實(shí)現(xiàn)大數(shù)據(jù)平臺對外提供統(tǒng)一查詢接口,便于數(shù)據(jù)進(jìn)行并發(fā)的高速查詢、提??;客戶關(guān)系應(yīng)用數(shù)據(jù)呈現(xiàn)應(yīng)用指標(biāo)監(jiān)控類應(yīng)用業(yè)務(wù)分析應(yīng)用Open API質(zhì)量保障應(yīng)用
36、綜合經(jīng)營分析資料類數(shù)據(jù)服務(wù)指標(biāo)類數(shù)據(jù)服務(wù)清單類數(shù)據(jù)服務(wù)配置類數(shù)據(jù)服務(wù)日志類數(shù)據(jù)服務(wù)數(shù)據(jù)總線性能類數(shù)據(jù)服務(wù)信令類數(shù)據(jù)服務(wù)ESB介紹功能豐富的協(xié)議適配器較強(qiáng)的數(shù)據(jù)格式轉(zhuǎn)換能力簡單易用的服務(wù)流程開發(fā)工具支持平臺擴(kuò)展的二次開發(fā)能力支持安全可靠的消息傳輸支持服務(wù)的動(dòng)態(tài)部署、在線升級支持平臺運(yùn)行參數(shù)熱生效支持服務(wù)調(diào)用記錄的測量、監(jiān)控和統(tǒng)計(jì)支持多級互聯(lián)分布式部署技術(shù)特點(diǎn)基于高度可擴(kuò)展的系統(tǒng)架構(gòu),具備熱插件機(jī)制。支撐跨系統(tǒng)、跨編程語言的系統(tǒng)通訊?;诿嫦蛄鞒痰姆?wù)集成思想。豐富的適配器并支持自定義適配器簡單易用的自定義路由策略?;跓o狀態(tài)消息傳輸機(jī)制,高度支持平臺橫向擴(kuò)展。支持業(yè)內(nèi)標(biāo)準(zhǔn)通信技術(shù)、協(xié)議和標(biāo)準(zhǔn),包
37、括Http(s),WebService,(S)FTP,TCP(s)等。支持同步和異步消息傳遞大數(shù)據(jù)平臺分層描述-數(shù)據(jù)管理域數(shù)據(jù)管理元數(shù)據(jù)管理符合CWM規(guī)范及中國移動(dòng)元數(shù)據(jù)管理技術(shù)規(guī)范元數(shù)據(jù)采集元模型管庫可視化建模血緣分析一致性分析數(shù)據(jù)地圖數(shù)據(jù)可視化元數(shù)據(jù)統(tǒng)計(jì)分析數(shù)據(jù)安全管理與4A系統(tǒng)對接,提供對應(yīng)用、數(shù)據(jù)權(quán)限定義和支持,做到事前可管,事中可控、事后可查做到數(shù)據(jù)隱私保護(hù)對數(shù)據(jù)行為進(jìn)行審計(jì)跟蹤數(shù)據(jù)質(zhì)量管理支持?jǐn)?shù)據(jù)質(zhì)量規(guī)則定義、數(shù)據(jù)質(zhì)量監(jiān)控預(yù)警、數(shù)據(jù)質(zhì)量分析、數(shù)據(jù)質(zhì)量報(bào)告、數(shù)據(jù)質(zhì)量評估、數(shù)據(jù)質(zhì)量問題處理、圖形化指標(biāo)運(yùn)維等數(shù)據(jù)生命周期管理根據(jù)數(shù)據(jù)價(jià)值根據(jù)時(shí)間推移的演化關(guān)系,提供對數(shù)據(jù)的高效、低成本、安
38、全、訪問便捷的管理架構(gòu)元數(shù)據(jù)管理元數(shù)據(jù)應(yīng)用元數(shù)據(jù)服務(wù)封裝元數(shù)據(jù)分析展現(xiàn)元數(shù)據(jù)基礎(chǔ)管理元數(shù)據(jù)存儲(chǔ)元數(shù)據(jù)獲取數(shù)據(jù)質(zhì)量管理新數(shù)據(jù)源稽核數(shù)據(jù)質(zhì)量監(jiān)控?cái)?shù)據(jù)質(zhì)量評估數(shù)據(jù)質(zhì)量配置管理數(shù)據(jù)質(zhì)量兩級聯(lián)動(dòng)數(shù)據(jù)質(zhì)量問題處理數(shù)據(jù)安全管理4A認(rèn)證安全服務(wù)調(diào)用隱私管理審計(jì)追蹤生命周期管理入庫存儲(chǔ)數(shù)據(jù)清理數(shù)據(jù)管理域大數(shù)據(jù)平臺分層描述-系統(tǒng)管理域Hadoop分布式文件系統(tǒng)統(tǒng)一ETL處理主庫(RDB)數(shù)據(jù)層處理層傳統(tǒng)技術(shù)ETLHadoopETL流式計(jì)算ETLHadoop 分布式非關(guān)系數(shù)據(jù)庫系統(tǒng)管理平臺應(yīng)用管理平臺接口管理數(shù)據(jù)管理指標(biāo)監(jiān)控平臺管理系統(tǒng)調(diào)度管理以兩庫數(shù)據(jù)調(diào)度為例數(shù)據(jù)共享管理平臺發(fā)起兩庫數(shù)據(jù)調(diào)度請求經(jīng)分主庫準(zhǔn)備歷史數(shù)
39、據(jù),統(tǒng)一ETL調(diào)度層通過JDBC連接經(jīng)分主庫,根據(jù)分布式共享系統(tǒng)計(jì)算資源池根據(jù)輸入條件,生成一個(gè)map-reduce的作業(yè),進(jìn)行歷史數(shù)據(jù)傳輸,完成數(shù)據(jù)傳輸,返回傳輸結(jié)果。數(shù)據(jù)管理平臺判斷是否完成數(shù)據(jù)調(diào)度12345調(diào)度步驟Hadoop 分布式計(jì)算系統(tǒng)天云數(shù)據(jù)平臺系統(tǒng)集成在引入Hadoop和MPP數(shù)據(jù)庫后,數(shù)據(jù)平臺建設(shè)將會(huì)在現(xiàn)有傳統(tǒng)數(shù)據(jù)倉庫平臺與新技術(shù)之間形成混搭。經(jīng)典數(shù)據(jù)倉庫中的One Single View of Truth將難以維持。主要會(huì)面臨如下的問題:數(shù)據(jù)互通:數(shù)據(jù)需要跨Hadoop和多個(gè)數(shù)據(jù)庫進(jìn)行交互,如何實(shí)現(xiàn)高效的數(shù)據(jù)同步或數(shù)據(jù)調(diào)用?透明訪問:是否有必要對上層應(yīng)用屏蔽底層不同數(shù)據(jù)平臺
40、的細(xì)節(jié),提供統(tǒng)一的數(shù)據(jù)訪問方式?統(tǒng)一管理:如何進(jìn)行多套數(shù)據(jù)平臺的元數(shù)據(jù)、數(shù)據(jù)質(zhì)量管理,如何實(shí)現(xiàn)統(tǒng)一的調(diào)度和運(yùn)維監(jiān)控?數(shù)據(jù)互通機(jī)制是多個(gè)數(shù)據(jù)庫與Hadoop之間的橋梁。通過數(shù)據(jù)互通,我們可以將數(shù)據(jù)快速從一個(gè)平臺遷移到另外一個(gè)平臺或從一個(gè)平臺方便地訪問另外一個(gè)平臺中的數(shù)據(jù)。數(shù)據(jù)互通機(jī)制的主要難點(diǎn)是要保障數(shù)據(jù)在兩個(gè)平臺間流轉(zhuǎn)時(shí)的高效性和可靠性。數(shù)據(jù)平臺系統(tǒng)互通的建議實(shí)現(xiàn)數(shù)據(jù)互通機(jī)制有2種方法:數(shù)據(jù)同步、數(shù)據(jù)調(diào)用數(shù)據(jù)同步:數(shù)據(jù)同步的主要是實(shí)現(xiàn)數(shù)據(jù)庫與Hadoop之間雙向數(shù)據(jù)復(fù)制功能,數(shù)據(jù)同步的目的包括這些的場景:不同系統(tǒng)上的數(shù)據(jù)需要進(jìn)行關(guān)聯(lián)分析、數(shù)據(jù)生命周期管理要求進(jìn)行數(shù)據(jù)歸檔或備份、ETL分節(jié)點(diǎn)部署
41、需要同步數(shù)據(jù)等??梢圆扇∪缦聰?shù)據(jù)同步方案:在Hadoop端發(fā)起的雙向數(shù)據(jù)同步在數(shù)據(jù)庫端發(fā)起的雙向數(shù)據(jù)同步在第三方發(fā)起的雙向數(shù)據(jù)同步數(shù)據(jù)調(diào)用:數(shù)據(jù)調(diào)用指的是:不移動(dòng)數(shù)據(jù),通過接口調(diào)用實(shí)現(xiàn)對另外一個(gè)平臺上數(shù)據(jù)的訪問,被調(diào)用平臺承擔(dān)運(yùn)算任務(wù)。數(shù)據(jù)調(diào)用方法根據(jù)調(diào)用方的不同,又分為“從數(shù)據(jù)庫側(cè)調(diào)用Hadoop數(shù)據(jù)”及“從Hadoop側(cè)調(diào)用數(shù)據(jù)庫數(shù)據(jù)”兩種情況。數(shù)據(jù)調(diào)用方法適用的場景原則:低頻度(如:每月/季度/年一次)或臨時(shí)(如:臨時(shí)訪問5次以下)需要使用其他平臺中存儲(chǔ)的數(shù)據(jù)。數(shù)據(jù)平臺互通的技術(shù)實(shí)現(xiàn)連接器方式通過設(shè)計(jì)專用的軟件或硬件連接器模塊,實(shí)現(xiàn)數(shù)據(jù)庫與Hadoop之間高速的數(shù)據(jù)傳輸,其一般具備以下特
42、點(diǎn):雙向連接器并行連接數(shù)據(jù)庫節(jié)點(diǎn)到的Hadoop數(shù)據(jù)節(jié)點(diǎn)支持UTF-8編碼和常見的數(shù)據(jù)類型通過動(dòng)態(tài)工作負(fù)載管理的資源控制融合系統(tǒng)中的角色/用戶提供認(rèn)證為數(shù)據(jù)庫域提供的數(shù)據(jù)節(jié)點(diǎn),主要實(shí)現(xiàn)以下按照源表進(jìn)行任務(wù)分工,可以為表間并行以及表內(nèi)并行建立分區(qū)、索引及裝載,根據(jù)分區(qū)原則以及索引等策略,裝載節(jié)點(diǎn)將數(shù)據(jù)直接發(fā)送給相應(yīng)的MPP數(shù)據(jù)庫節(jié)點(diǎn)上 通過連接器的方式,可以實(shí)現(xiàn)數(shù)據(jù)庫與Hadoop系統(tǒng)之間的高速和可靠的數(shù)據(jù)互通,非常適合數(shù)據(jù)同步的計(jì)算場景。外部表方式:數(shù)據(jù)庫可以通過外部表的方式,直接訪問存儲(chǔ)在HDFS上的文件。在使用外部表時(shí),數(shù)據(jù)庫可以像訪問內(nèi)部數(shù)據(jù)一樣,將文件當(dāng)作表insert到數(shù)據(jù)庫內(nèi)其他表
43、中,或?qū)DFS上的文件和數(shù)據(jù)庫內(nèi)的表進(jìn)行關(guān)聯(lián)操作。同時(shí)也可以將RDBMS內(nèi)的數(shù)據(jù),通過外部表的形式,寫入到HDFS上去。例如如下操作:Select count(*) from HDFS_data h, RDBMS_data g where h.key = g.key;Insert into HDFS_data select * from RDBMS_data;目前天云平臺集成的數(shù)據(jù)互通工具工具HadoopAsterDataSQL-MapreduceGreenPlumHDFS-GreenPlumVerticaVertica-Hadoop集成適配器InfiniteDB雙向?qū)覵QL Server
44、HortonWorkIBM NetezzaHadoop-NetezzaTeradataTD-Hadoop適配器OracleOraHive OraOopSybaseSybase IQ15.4開始集成雙中心規(guī)劃形成大數(shù)據(jù)數(shù)據(jù)備份渾南數(shù)據(jù)中心江北數(shù)據(jù)中心在分布式文件存儲(chǔ)層,采取DistCP方式:DistCP方式可以將一個(gè)分布式文件系統(tǒng)(集群)里的某個(gè)目錄拷貝到另一個(gè)分布式文件系統(tǒng)(集群)。DistCp(分布式拷貝)是用于大規(guī)模集群內(nèi)部和集群之間拷貝的工具。在分布式非關(guān)系型數(shù)據(jù)庫層,采取Hbase Replication方式大數(shù)據(jù)平臺建設(shè)討論工作界面劃分?大數(shù)據(jù)平臺維護(hù)人員如何設(shè)置?接口維護(hù)?天云大數(shù)
45、據(jù)平臺亮點(diǎn)一句話定位:天云數(shù)據(jù)平臺=“傳統(tǒng)”+“現(xiàn)代”數(shù)據(jù)平臺集大成者。傳統(tǒng)=傳統(tǒng)數(shù)據(jù)倉庫/RDBMS,是基于傳統(tǒng)基于結(jié)構(gòu)化數(shù)據(jù)處理的關(guān)系型數(shù)據(jù)(倉)庫,以Scale Up為特點(diǎn)現(xiàn)代=基于關(guān)系代數(shù)理論的MPP + Hadoop技術(shù),以分布式處理為基礎(chǔ),以Scale out為特點(diǎn),可處理海量數(shù)據(jù)適用場景:運(yùn)營商跨域數(shù)據(jù)融合,智慧城市,智慧省份解決方案,公安,醫(yī)療等。放眼未來,更好支撐運(yùn)營商互聯(lián)網(wǎng)轉(zhuǎn)型,更好的支撐數(shù)據(jù)黃金資源時(shí)代的到來。目錄遼寧移動(dòng)大數(shù)據(jù)項(xiàng)目技術(shù)需求大數(shù)據(jù)建設(shè)背景附件:案例介紹大數(shù)據(jù)平臺頂層架構(gòu)設(shè)計(jì) 大數(shù)據(jù)平臺分層建設(shè)方案資源池規(guī)劃與落地點(diǎn)探討數(shù)據(jù)中心平臺選型依據(jù)平臺的選型首先要進(jìn)
46、行規(guī)模評估,確定數(shù)據(jù)中心的容量;其次要進(jìn)行需求評估,主要包括線性擴(kuò)展、成本、穩(wěn)定性、性能、運(yùn)維等評估,據(jù)此選取合適的存儲(chǔ)平臺技術(shù);最后,依據(jù)規(guī)模、需求評估,導(dǎo)出容量評估,確定建設(shè)方式,機(jī)房選址、服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等物理資源規(guī)劃。規(guī)模評估思路數(shù)據(jù)量(T)賬單類數(shù)據(jù)指標(biāo)類數(shù)據(jù)投訴類數(shù)據(jù)原始數(shù)據(jù) 首先針對汕頭移動(dòng)目前數(shù)據(jù)現(xiàn)狀進(jìn)行梳理,并進(jìn)行標(biāo)簽分類,比如賬單類數(shù)據(jù)、指標(biāo)類數(shù)據(jù)、投訴類數(shù)據(jù)、原始數(shù)據(jù)等,如下圖中的橫坐標(biāo)表示;其次針對梳理出來的數(shù)據(jù)類型,進(jìn)行數(shù)據(jù)量統(tǒng)計(jì),獲取每種類型的數(shù)據(jù)量;再次,針對數(shù)據(jù)種類,依據(jù)數(shù)據(jù)增長趨勢,進(jìn)行數(shù)據(jù)量增長預(yù)測,確定數(shù)據(jù)中心平臺未來一段時(shí)間內(nèi)所需的規(guī)模。數(shù)據(jù)類型日增長
47、量(M)月增長量(M)年增長量(T)加權(quán)年增長量(T)賬單類數(shù)據(jù)指標(biāo)類數(shù)據(jù)投訴類數(shù)據(jù)原始數(shù)據(jù)其他類型數(shù)據(jù)示例需求評估、容量評估思路依據(jù)規(guī)模、需求評估,導(dǎo)出所需物理資源數(shù)量,確定建設(shè)方式,機(jī)房選址、服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等物理資源規(guī)劃;依據(jù)關(guān)系型數(shù)據(jù)庫(以O(shè)racle為例)容量情況,MPP分布式數(shù)據(jù)庫容量情況(GreenPlum為例),分布式Hadoop系統(tǒng)容量情況,推出所需的服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等物理資源數(shù)量;依據(jù)物理資源數(shù)量,導(dǎo)出所需的機(jī)房資源,包括機(jī)房面積、承重、電力、空調(diào)、維護(hù)人員等。示例共享平臺Hadoop資源池服務(wù)器選型建議項(xiàng)目主節(jié)點(diǎn)配置建議數(shù)據(jù)處理(MR/hive)的數(shù)據(jù)節(jié)點(diǎn)數(shù)據(jù)查詢(H
48、Base)的數(shù)據(jù)節(jié)點(diǎn),可以與數(shù)據(jù)處理的數(shù)據(jù)節(jié)點(diǎn)合設(shè)zk節(jié)點(diǎn)CPU個(gè)數(shù)及核心數(shù)2路8核以上2路8核以上,如果壓縮數(shù)據(jù)或者處理比較復(fù)雜,可以考慮更多路多核的2路6核以上2路8核以上硬盤數(shù)硬盤數(shù)可以不同太多,4-6塊6、8或者12塊,數(shù)據(jù)處理時(shí)IO一般不是瓶頸,但更多的磁盤可以存儲(chǔ)更多的數(shù)據(jù)6、8或者12塊,取決于存儲(chǔ)量(主要靠緩存)硬盤數(shù)2-4塊內(nèi)存128G或更高48G或更高64G或更高,太高GC可能成為負(fù)擔(dān)48G或更高網(wǎng)絡(luò)雙口萬兆或千兆網(wǎng)卡雙口萬兆或千兆網(wǎng)卡,主要影響裝載速度和節(jié)點(diǎn)間數(shù)據(jù)交換效率雙口千兆網(wǎng)卡雙口萬兆或千兆網(wǎng)卡,對網(wǎng)絡(luò)延時(shí)有高要求,如果可以,建議單獨(dú)設(shè)立奇數(shù)個(gè)集群,3-5個(gè)如果執(zhí)行
49、MapReduce,特別是在壓縮文件上執(zhí)行,其對CPU的消耗較高,CPU成為了瓶頸;而在運(yùn)行Hbase的時(shí)候,更多的內(nèi)存會(huì)緩存更多的數(shù)據(jù),提高查詢吞吐率并縮短響應(yīng)時(shí)間。內(nèi)存的選擇:通常情況下,Hadoop處理任務(wù)每個(gè)CPU邏輯核(指超線程下,一般一個(gè)核對應(yīng)兩個(gè)邏輯核)對應(yīng)2G內(nèi)存即可。CPU的選擇:實(shí)測表明:Hadoop處理性能與CPU性能密切相關(guān),任務(wù)運(yùn)行時(shí)間與SPEC值基本成反比關(guān)系,因此應(yīng)該選擇性能較高的CPU。服務(wù)器類型:一般的Hadoop項(xiàng)目選擇2U的機(jī)架式服務(wù)器,試點(diǎn)中有公司選擇了多節(jié)點(diǎn)服務(wù)器(2U四節(jié)點(diǎn)),也應(yīng)用得比較好。服務(wù)器配置列表存儲(chǔ)計(jì)算機(jī)器配置如下:CPU2*8核至強(qiáng)處理
50、器內(nèi)存48-64G硬盤2T * 12,7200轉(zhuǎn)網(wǎng)卡2 * 萬兆接口 / 2 *千兆接口產(chǎn)品結(jié)構(gòu)2U產(chǎn)品類型機(jī)架式管理節(jié)點(diǎn)服務(wù)器CPU2*8核至強(qiáng)處理器內(nèi)存64-128G硬盤1T * 4(RIAD0)網(wǎng)卡2 * 萬兆接口/ 2 * 千兆接口產(chǎn)品結(jié)構(gòu)2U產(chǎn)品類型機(jī)架式CPU2*8核至強(qiáng)處理器內(nèi)存8-16G硬盤2T * 12,5400轉(zhuǎn)網(wǎng)卡2 * 萬兆接口 / 2 *千兆接口產(chǎn)品結(jié)構(gòu)2U產(chǎn)品類型機(jī)架式共享平臺Hadoop組網(wǎng)建議主要關(guān)注點(diǎn):節(jié)點(diǎn)與機(jī)架交換機(jī)使用L2連接。機(jī)架交換機(jī)與核心交換機(jī)使用L3連接。機(jī)架內(nèi)部通訊延遲低于跨機(jī)架時(shí)延(Hadoop默認(rèn)策略)。交換機(jī) oversubscriptio
51、n(入出率)比率建議2.5:1(不能高于交換機(jī)最高值)。核心交換機(jī)與Rack數(shù)相關(guān),Rack數(shù)量與核心交換機(jī)數(shù)量和端口數(shù)成正比,但交換機(jī)不應(yīng)太多,會(huì)降低機(jī)架上傳帶寬。機(jī)架交換機(jī)方式的機(jī)柜交換機(jī)的上行鏈路會(huì)成為瓶頸,交換機(jī)數(shù)量多,設(shè)備管理復(fù)雜性增加。在核心交換機(jī)端口緊張情況下,可以從機(jī)架交換機(jī)接入外部網(wǎng)關(guān),提供集群外部訪問能力。共享平臺MPP軟硬件選型建議對比項(xiàng)目TeradataEMC南大通用IBMHPAster DataGreenPlumGBase 8ADB2 DPF Over GPFSVertica無共享MPP架構(gòu)-無主控節(jié)點(diǎn)*無共享MPP架構(gòu)-有主控節(jié)點(diǎn)支持行存儲(chǔ)支持列存儲(chǔ)(10.5版本發(fā)
52、布后)當(dāng)前構(gòu)建在X86平臺上的新型MPP數(shù)據(jù)庫產(chǎn)品眾多,Garnter每年會(huì)發(fā)布一版數(shù)據(jù)倉庫魔力象限可以供參考。在大陸地區(qū)可以獲得技術(shù)支持的MPP產(chǎn)品及其特性如下不同架構(gòu)的數(shù)據(jù)倉庫各有優(yōu)缺點(diǎn)。比如帶主控節(jié)點(diǎn)(Master)的數(shù)據(jù)庫會(huì)存在單點(diǎn)故障,但各節(jié)點(diǎn)分工明確;無主控節(jié)點(diǎn)的數(shù)據(jù)庫不存在單點(diǎn)故障,但可能某各節(jié)點(diǎn)承擔(dān)的任務(wù)不平均。行存儲(chǔ)裝載數(shù)據(jù)快、壓縮率低、查詢速度稍慢;列存儲(chǔ)裝載數(shù)據(jù)慢、壓縮率高、查詢速度快,但部分產(chǎn)品的列存儲(chǔ)方式無法支持更新、刪除數(shù)據(jù)。所以建議在引入MPP數(shù)據(jù)庫前各公司應(yīng)該根據(jù)預(yù)期的應(yīng)用場景編寫測試案例,用去隱私的實(shí)際數(shù)據(jù)作為測試數(shù)據(jù),對可選的MPP產(chǎn)品進(jìn)行評估,然后確定最適
53、合自身場景的產(chǎn)品。其數(shù)據(jù)節(jié)點(diǎn)一般按照如下要求來配置:CPU核數(shù)、內(nèi)存(G)和磁盤個(gè)數(shù)的配比:一般情況下為1:8:1或1:8:2。同等情況下磁盤個(gè)數(shù)越多性能越高,但磁盤總個(gè)數(shù)受機(jī)架式服務(wù)器的空間限制,一般為12(3.5寸)到16個(gè)(2.5寸),少部分非集采服務(wù)器更多。磁盤:為了獲得高可靠、高讀寫帶寬和高IOPS,應(yīng)選用SAS接口的企業(yè)級硬盤,轉(zhuǎn)數(shù)一萬及以上。RAID卡:雖然MPP數(shù)據(jù)庫大多通過副本的機(jī)制來保證某個(gè)節(jié)點(diǎn)故障情況下的高可用,但是代價(jià)高:大部分?jǐn)?shù)據(jù)庫故障情況下當(dāng)前應(yīng)用需要中斷,少部分?jǐn)?shù)據(jù)庫還需要重啟來應(yīng)對故障;且故障情況下理論的效率要下降50%而不是按故障節(jié)點(diǎn)比例下降。所以在選擇硬件平
54、臺的時(shí)候要有限選擇高可靠的硬件,比如電源,更比如RAID卡。一般將通過RAID卡的PCI-E接口連接到主機(jī)上,通過RAID10或RAID5來保證單個(gè)磁盤出錯(cuò)不會(huì)觸發(fā)節(jié)點(diǎn)故障。這點(diǎn)也與Hadoop明顯區(qū)分出來。MPP組網(wǎng)建議MPP數(shù)據(jù)庫中運(yùn)算的特點(diǎn)是多節(jié)點(diǎn)并發(fā)計(jì)算,其間可能會(huì)出現(xiàn)節(jié)點(diǎn)間的裝載、數(shù)據(jù)重分布、復(fù)制或數(shù)據(jù)廣播(如非分區(qū)鍵關(guān)聯(lián)等操作),最后各節(jié)點(diǎn)運(yùn)算結(jié)果數(shù)據(jù)匯總,所以節(jié)點(diǎn)間互連網(wǎng)絡(luò)的速度(包括帶寬和時(shí)延)會(huì)直接影響到計(jì)算效率的高低,這就使得MPP數(shù)據(jù)庫的架構(gòu)會(huì)對內(nèi)部互連網(wǎng)絡(luò)有較高的要求。因此MPP數(shù)據(jù)庫內(nèi)部交換網(wǎng)絡(luò)需要保證點(diǎn)到點(diǎn)的萬兆以太網(wǎng)帶寬,MPP數(shù)據(jù)庫對網(wǎng)絡(luò)的要求也與Hadoop有
55、較大差別。因此每臺機(jī)器至少需要配置兩個(gè)網(wǎng)口(當(dāng)然配備兩個(gè)的大多數(shù)原因是為了保證高可用,而不是綁定在一起負(fù)荷分擔(dān)),推薦使用IB網(wǎng)卡(但是這種情況下,要注意PCI-E的版本應(yīng)3.0以上才能和網(wǎng)卡速度匹配)或萬兆網(wǎng)卡和交換機(jī)以保證內(nèi)部數(shù)據(jù)高速傳輸。用于數(shù)據(jù)加載的ETL服務(wù)器也應(yīng)處于內(nèi)部網(wǎng)絡(luò)內(nèi)以保證大數(shù)據(jù)量的加載性能。為了實(shí)現(xiàn)點(diǎn)對點(diǎn)的萬兆速度保障,在超過一個(gè)機(jī)柜的情況下,一般還需要通過核心交換機(jī)來實(shí)現(xiàn)FLAT TREE方式的一比一收斂,參見之前Hadoop的組網(wǎng)章節(jié)。目錄遼寧移動(dòng)大數(shù)據(jù)項(xiàng)目技術(shù)需求大數(shù)據(jù)建設(shè)背景附件:案例介紹大數(shù)據(jù)平臺頂層架構(gòu)設(shè)計(jì) 大數(shù)據(jù)平臺分層建設(shè)方案資源池規(guī)劃與落地點(diǎn)探討案例1-
56、中國移動(dòng)南方基地經(jīng)分Hadoop云系統(tǒng)客戶:中國移動(dòng)南方基地 上線功能:目前已經(jīng)上線的模塊有數(shù)據(jù)清洗、轉(zhuǎn)換、匯總模塊、URL地址抓取模塊、用戶上網(wǎng)行為分析模塊和網(wǎng)頁分類模塊,平臺管理模塊、權(quán)限控制模塊和詞庫管理模塊等。具體功能包括行業(yè)應(yīng)用、行為分析、網(wǎng)頁分類、抓取管理、詞庫管理、數(shù)據(jù)查詢、平臺部署、集群監(jiān)控、異常預(yù)警、權(quán)限控制。目前系統(tǒng)穩(wěn)定運(yùn)行。經(jīng)分Hadoop云系統(tǒng)項(xiàng)目背景:移動(dòng)互聯(lián)網(wǎng)如此普及的今天,因?yàn)橐曰贑DR為主的客戶行為分析可能缺失了大量的客戶行為有效信息。例如,兩個(gè)通話行為相似的人可能是完全不同類型的客戶,如果將之同等對待,客戶的接受度必然很差,浪費(fèi)大量資源,并且無法取得良好的效果。用戶的上網(wǎng)行為中蘊(yùn)含著大量的客戶特征和客戶需求信息,這些信息至關(guān)重要,而又是傳統(tǒng)的CDR話單分析所不能提供的,因此對用戶上網(wǎng)的內(nèi)容進(jìn)行解析對電信運(yùn)營商實(shí)現(xiàn)精細(xì)化運(yùn)營提供重要的營銷依據(jù),是泛互聯(lián)網(wǎng)化精準(zhǔn)營銷的基礎(chǔ)。功能實(shí)現(xiàn): 項(xiàng)目基于Hadoop架構(gòu)進(jìn)行開發(fā)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 疫情時(shí)期零售店租金減免協(xié)議書
- 商場招商管理合作協(xié)議
- 政府部門服務(wù)項(xiàng)目考核制度
- 水母缸產(chǎn)業(yè)規(guī)劃專項(xiàng)研究報(bào)告
- 檢影鏡產(chǎn)品入市調(diào)查研究報(bào)告
- 樹木嫁接工具手工具市場洞察報(bào)告
- 瞬時(shí)計(jì)市場洞察報(bào)告
- 卡車拖車產(chǎn)品入市調(diào)查研究報(bào)告
- 中介服務(wù)合同法律咨詢指南
- 無勞動(dòng)合同員工的權(quán)益保護(hù)
- 安全風(fēng)險(xiǎn)分級管控清單
- OBE理念與人才培養(yǎng)方案制定PPT課件
- 離任審計(jì)工作方案 樣稿
- 四大名著稱四大小說三國演義西游記水滸傳紅樓夢中國古典章回小說PPT資料課件
- 港珠澳大橋項(xiàng)目管理案例分析PPT課件
- 員工入職體檢表
- GB∕T 12810-2021 實(shí)驗(yàn)室玻璃儀器 玻璃量器的容量校準(zhǔn)和使用方法
- 一般跨越架搭設(shè)施工方案
- 小學(xué)體育《網(wǎng)球傳統(tǒng)正手擊球的原地拋球擊球技術(shù)》教案
- RPG游戲概要設(shè)計(jì)文檔
- 水泥混凝土路面施工驗(yàn)收規(guī)范(完整版)
評論
0/150
提交評論