某科技離線大數(shù)據(jù)處理平臺(tái)_第1頁
某科技離線大數(shù)據(jù)處理平臺(tái)_第2頁
某科技離線大數(shù)據(jù)處理平臺(tái)_第3頁
某科技離線大數(shù)據(jù)處理平臺(tái)_第4頁
某科技離線大數(shù)據(jù)處理平臺(tái)_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、阿里巴巴離線大數(shù)據(jù)處理平臺(tái)提綱大數(shù)據(jù)時(shí)代阿里巴巴數(shù)據(jù)事業(yè)部離線大數(shù)據(jù)處理平臺(tái)(ODPS)我們面臨的主要問題ODPS部分功能概覽結(jié)語大數(shù)據(jù)時(shí)時(shí)代3大數(shù)據(jù)時(shí)時(shí)代的挑挑戰(zhàn)4數(shù)據(jù)關(guān)聯(lián)性社交網(wǎng)絡(luò)、用戶行為、購買關(guān)系企業(yè)內(nèi)外IT系統(tǒng)的整合處理能力數(shù)據(jù)規(guī)模爆炸式增長(zhǎng)結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)并存、噪聲增多組合離線、在線、流式等多項(xiàng)計(jì)算能力提供解決方案在大數(shù)據(jù)上應(yīng)用傳統(tǒng)統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘算法數(shù)據(jù)安全用戶隱私保護(hù)、商業(yè)數(shù)據(jù)泄漏、復(fù)雜的訪問控制需求企業(yè)發(fā)展的達(dá)摩克利斯之劍商業(yè)模式如何利用大數(shù)據(jù)盈利數(shù)據(jù)驅(qū)動(dòng)的新業(yè)務(wù)模式與企業(yè)傳統(tǒng)業(yè)務(wù)模式的沖突阿里巴巴巴的大數(shù)數(shù)據(jù)產(chǎn)品品探索淘寶貸款款6解決小微微企業(yè)貸貸款難的的問題:金額高流

2、程長(zhǎng)授信難周期長(zhǎng)完全以數(shù)數(shù)據(jù)驅(qū)動(dòng)動(dòng)的產(chǎn)品品對(duì)既有數(shù)數(shù)據(jù)進(jìn)行行二次挖挖掘顛覆原有有業(yè)務(wù)模模式規(guī)模優(yōu)勢(shì)勢(shì)阿里巴巴巴大數(shù)據(jù)據(jù)事業(yè)部部7離線存儲(chǔ)與計(jì)算在線存儲(chǔ)與計(jì)算實(shí)時(shí)計(jì)算流式計(jì)算任務(wù)調(diào)度與管理數(shù)據(jù)開發(fā)與數(shù)據(jù)可視化界面數(shù)據(jù)同步數(shù)據(jù)質(zhì)量監(jiān)控元數(shù)據(jù)管理安全與審計(jì)計(jì)量與計(jì)費(fèi)服務(wù)化API & SDK算法庫數(shù)據(jù)產(chǎn)品數(shù)據(jù)地圖數(shù)據(jù)共享與合作阿里巴巴巴離線大大數(shù)據(jù)處處理平臺(tái)臺(tái)ODPS (Open DataProcessingService)支持海量量結(jié)構(gòu)化化數(shù)據(jù)的的離線存存儲(chǔ)和計(jì)計(jì)算以RESTfulAPI的方式提提供服務(wù)務(wù)基于阿里里巴巴自自主知識(shí)識(shí)產(chǎn)權(quán)的的分布式式操作系系統(tǒng)支持高吞吐量量的數(shù)據(jù)上傳下載載服務(wù)支持SQL

3、和存儲(chǔ)過過程支持MapReduce、BSP編程框架架支持常用用的矩陣陣運(yùn)算和和數(shù)據(jù)挖挖掘算法法支持多用用戶管理理和基于于ACL和policy的權(quán)限控控制基于ODPS可以打造造完整的的數(shù)據(jù)倉倉庫解決決方案我們面臨臨的主要要問題首先需要提供一個(gè)高效穩(wěn)定的離線存儲(chǔ)和計(jì)算引擎如何支撐5萬、15萬臺(tái)以上的機(jī)群規(guī)模?多集群架構(gòu),運(yùn)維和管理系統(tǒng)如何在一個(gè)平臺(tái)上支持多個(gè)組織的多個(gè)用戶進(jìn)行開發(fā)?多租戶支持,安全隔離,權(quán)限控制如何了解業(yè)務(wù)運(yùn)行狀態(tài)?元數(shù)據(jù)管理,指標(biāo)系統(tǒng)如何管理不同種類的任務(wù)?服務(wù)化,統(tǒng)一計(jì)算入口,可度量和控制的計(jì)算資源準(zhǔn)實(shí)時(shí)查詢,R-ODPS,我們還在繼續(xù)探索高效穩(wěn)定定的計(jì)算算模型10SQL、Ma

4、pReduce仍然是離離線運(yùn)算算的主流流,但是,頻繁IO帶來的性性能瓶頸頸模型描述述能力的的局限準(zhǔn)實(shí)時(shí)查查詢11優(yōu)勢(shì):避免IO消耗節(jié)約調(diào)度度成本劣勢(shì):Failover資源占用用數(shù)據(jù)規(guī)模模適用場(chǎng)景景:Adhoc分析圖編程功能:統(tǒng)一的API、授權(quán)、數(shù)據(jù)存存儲(chǔ)、metaMaster-slave,worker負(fù)責(zé)子圖圖通過迭代代在節(jié)點(diǎn)點(diǎn)間通訊訊和修改改圖拓?fù)鋼涮魬?zhàn):數(shù)據(jù)傾斜斜時(shí)的內(nèi)內(nèi)存控制制與其他類類型作業(yè)業(yè)共存錯(cuò)誤恢復(fù)復(fù)優(yōu)勢(shì):方便處理理圖數(shù)據(jù)據(jù)多輪迭代代性能遠(yuǎn)遠(yuǎn)好于MR應(yīng)用場(chǎng)景景:推薦、社社交網(wǎng)絡(luò)絡(luò)、物流流、利用圖編編程實(shí)現(xiàn)現(xiàn)SSSP算法(1)GraphLoader圖加載基類publicstatic

5、 classSSSPGraphLoaderextendsGraphLoaderOverridepublicvoidload(Record record,MutationContextcontext)SSSPVertexvertex=newSSSPVertex();vertex.setId(LongWritable)record.get(0);Stringedges= record.get(1).toString().split(,);for(inti =0;i edges.length;i+)Stringss= edgesi.split(:);vertex.addEdge(new LongWr

6、itable(Long.parseLong(ss0),newLongWritable(Long.parseLong(ss1);context.addVertexRequest(vertex); 利用圖編編程實(shí)現(xiàn)現(xiàn)SSSP算法(2)Vertex點(diǎn)基類publicstatic classSSSPVertexextendsVertex Overridepublicvoidcompute(ComputeContextcontext,Iterablemessages) long minDist=(getId()=1)? 0:Integer.MAX_VALUE;for(LongWritablemsg:me

7、ssages)if(msg minDist)minDist =msg;if(minDist this.getValue()this.setValue(minDist);for(Edgee: this.getEdges()context.sendMessage(e.getDestVertexId(),minDist+ getValue(); elsevoteToHalt();利用圖編編程實(shí)現(xiàn)現(xiàn)SSSP算法(3)矩陣和算算法運(yùn)算算支持基于MPI的算法運(yùn)運(yùn)算包圖形化交交互界面面支持算法法:SVD分解邏輯回歸歸隨機(jī)森林林連接R與ODPS集成ODPS的算法- ODPS多集群架架構(gòu)17業(yè)務(wù)增長(zhǎng)長(zhǎng)的速度度永

8、遠(yuǎn)快快于技術(shù)術(shù)完善的的速度,如何支撐撐日益膨膨脹的存存儲(chǔ)和計(jì)計(jì)算需求求?多集群架架構(gòu)18多計(jì)算機(jī)機(jī)群解決規(guī)模模瓶頸統(tǒng)一meta準(zhǔn)實(shí)時(shí)數(shù)數(shù)據(jù)同步步減少熱數(shù)數(shù)據(jù)跨機(jī)機(jī)房業(yè)務(wù)遷移移多控制機(jī)機(jī)群灰度發(fā)布布業(yè)務(wù)分離離多租戶模模型19如何支持持多個(gè)團(tuán)團(tuán)隊(duì)在一一個(gè)平臺(tái)臺(tái)上開發(fā)發(fā)?多租戶模模型20用戶空間間授權(quán)訪問問跨空間訪訪問受保護(hù)的的空間空間互信信ODPS安全架構(gòu)構(gòu)數(shù)據(jù)安全全是每個(gè)個(gè)平臺(tái)產(chǎn)產(chǎn)品需要解決決的核心心問題Web服務(wù)器ODPS安全架構(gòu)(MetaOTSStore)ODPS服務(wù)計(jì)算集群群n計(jì)算集群群1ODPS客戶端(SDK,Console)ODPS接入層ODPS控制集群群OdpsWorkerSched

9、ulerExecutor Hive Server云帳號(hào)Shenshu(授權(quán)服務(wù)務(wù))KDC(SSO服務(wù))Web服務(wù)器OTS(MetaStore)域帳號(hào)用戶認(rèn)證證飛天內(nèi)部部認(rèn)證與授權(quán)中中心ODPS服務(wù)計(jì)算集群群n計(jì)算集群群1ODPS客戶端(SDK,Console)ODPS接入層ODPS控制集群群1.認(rèn)證.2.檢查用戶戶權(quán)限,檢查數(shù)據(jù)據(jù)保護(hù)策策略.3.給Fuxi Job配置最小小權(quán)限的的Capability.eg,pangucap權(quán)限如下下:“pangu:/odps/prjA/shop/”:R,“pangu:/odps/prjB/sale_detail/”:R,“pangu:/odps/prjB/t

10、1/”:WSQL實(shí)例:INSERTOVERWRITE prjB.t1ASSELECT a.shop_name,b.sale_totalFROM prjA.shopaLEFT OUTER JOINprjB.sale_detailbONa.shop_name=b.shop_name;OdpsWorkerSchedulerExecutor Hive Server云帳號(hào)Shenshu(授權(quán)服務(wù)務(wù))KDC(SSO服務(wù))Web服務(wù)器OTS(MetaStore)域帳號(hào)用戶認(rèn)證證飛天內(nèi)部部認(rèn)證與授權(quán)中中心ODPS服務(wù)計(jì)算集群群n計(jì)算集群群1ODPS客戶端(SDK,Console)ODPS接入層ODPS控制集群

11、群Java SandboxProcessSandboxGuest OS Kernel用戶提交交的MapReduce程序可能能會(huì):惡意耗盡盡集群資資源(CPU,Memory, Network, Disk);直接訪問問Pangu文件,竊竊取或篡篡改其他他用戶數(shù)數(shù)據(jù);竊取Linux節(jié)點(diǎn)上的的飛天系系統(tǒng)進(jìn)程程的敏感感數(shù)據(jù)(如Tubo的capability);.基于沙箱箱的縱深深防御體體系1.Java沙箱2.Linux進(jìn)程級(jí)沙沙箱3.虛擬機(jī)沙沙箱OdpsWorkerSchedulerExecutor Hive Server靈活的授授權(quán)方式式Version: 1,Statement:Effect:Allow,Principal:zinan.tang,Resource:acs:odps:*:projects/sampleprj/tables/test_*,Action:odps:Update, odps:SelectCondition: IpAddress: acs:SourceIp:/2325數(shù)據(jù)上傳傳下載服服務(wù)如何解決決系統(tǒng)與與多個(gè)數(shù)數(shù)據(jù)源之之間的數(shù)數(shù)據(jù)交換換問題?數(shù)據(jù)上傳傳下載服服務(wù)服務(wù)化:REST結(jié)構(gòu)化數(shù)數(shù)據(jù)流式數(shù)據(jù)據(jù)傳輸高并發(fā)上上傳下載載服務(wù)能力力水平擴(kuò)擴(kuò)展可靠傳輸輸Fail

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論