阿里巴巴離線大數(shù)據(jù)處理平臺(tái)_第1頁(yè)
阿里巴巴離線大數(shù)據(jù)處理平臺(tái)_第2頁(yè)
阿里巴巴離線大數(shù)據(jù)處理平臺(tái)_第3頁(yè)
阿里巴巴離線大數(shù)據(jù)處理平臺(tái)_第4頁(yè)
阿里巴巴離線大數(shù)據(jù)處理平臺(tái)_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、阿里巴巴離線大數(shù)據(jù)處理平臺(tái)提綱大數(shù)據(jù)時(shí)代阿里巴巴數(shù)據(jù)事業(yè)部離線大數(shù)據(jù)處理平臺(tái)(ODPS)我們面臨的主要問題ODPS部分功能概覽結(jié)語(yǔ)大數(shù)據(jù)時(shí)代3大數(shù)據(jù)時(shí)代的挑戰(zhàn)4 社交網(wǎng)絡(luò)、用戶行為、購(gòu)買關(guān)系 企業(yè)內(nèi)外IT系統(tǒng)的整合數(shù)據(jù)關(guān)聯(lián)性 數(shù)據(jù)規(guī)模爆炸式增長(zhǎng) 結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)并存、噪聲增多 組合離線、在線、流式等多項(xiàng)計(jì)算能力提供解決方案 在大數(shù)據(jù)上應(yīng)用傳統(tǒng)統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘算法處理能力 用戶隱私保護(hù)、商業(yè)數(shù)據(jù)泄漏、復(fù)雜的訪問控制需求 企業(yè)發(fā)展的達(dá)摩克利斯之劍數(shù)據(jù)安全 如何利用大數(shù)據(jù)盈利 數(shù)據(jù)驅(qū)動(dòng)的新業(yè)務(wù)模式與企業(yè)傳統(tǒng)業(yè)務(wù)模式的沖突商業(yè)模式阿里巴巴的大數(shù)據(jù)產(chǎn)品探索淘寶貸款6解決小微企業(yè)貸款難的問題:金額高流

2、程長(zhǎng)授信難周期長(zhǎng)完全以數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)品對(duì)既有數(shù)據(jù)進(jìn)行二次挖掘顛覆原有業(yè)務(wù)模式規(guī)模優(yōu)勢(shì)阿里巴巴大數(shù)據(jù)事業(yè)部7離線存儲(chǔ)與計(jì)算在線存儲(chǔ)與計(jì)算實(shí)時(shí)計(jì)算流式計(jì)算任務(wù)調(diào)度與管理數(shù)據(jù)開發(fā)與數(shù)據(jù)可視化界面數(shù)據(jù)同步數(shù)據(jù)質(zhì)量監(jiān)控元數(shù)據(jù)管理安全與審計(jì)計(jì)量與計(jì)費(fèi)服務(wù)化API & SDK算法庫(kù)數(shù)據(jù)產(chǎn)品數(shù)據(jù)地圖數(shù)據(jù)共享與合作阿里巴巴離線大數(shù)據(jù)處理平臺(tái)ODPS (Open Data Processing Service)支持海量結(jié)構(gòu)化數(shù)據(jù)的離線存儲(chǔ)和計(jì)算以RESTful API的方式提供服務(wù)基于阿里巴巴自主知識(shí)產(chǎn)權(quán)的分布式操作系統(tǒng)支持高吞吐量的數(shù)據(jù)上傳下載服務(wù)支持SQL和存儲(chǔ)過程支持MapReduce、BSP編程框架

3、支持常用的矩陣運(yùn)算和數(shù)據(jù)挖掘算法支持多用戶管理和基于ACL和policy的權(quán)限控制基于ODPS可以打造完整的數(shù)據(jù)倉(cāng)庫(kù)解決方案我們面臨的主要問題首先需要提供一個(gè)高效穩(wěn)定的離線存儲(chǔ)和計(jì)算引擎如何支撐5萬、15萬臺(tái)以上的機(jī)群規(guī)模? 多集群架構(gòu),運(yùn)維和管理系統(tǒng)如何在一個(gè)平臺(tái)上支持多個(gè)組織的多個(gè)用戶進(jìn)行開發(fā)? 多租戶支持,安全隔離,權(quán)限控制如何了解業(yè)務(wù)運(yùn)行狀態(tài)? 元數(shù)據(jù)管理,指標(biāo)系統(tǒng)如何管理不同種類的任務(wù)? 服務(wù)化,統(tǒng)一計(jì)算入口,可度量和控制的計(jì)算資源準(zhǔn)實(shí)時(shí)查詢,R-ODPS,我們還在繼續(xù)探索高效穩(wěn)定的計(jì)算模型10SQL、Map Reduce仍然是離線運(yùn)算的主流,但是,頻繁IO帶來的性能瓶頸模型描述能力

4、的局限準(zhǔn)實(shí)時(shí)查詢11優(yōu)勢(shì):避免IO消耗節(jié)約調(diào)度成本劣勢(shì):Failover資源占用數(shù)據(jù)規(guī)模適用場(chǎng)景:Ad hoc分析圖編程功能:統(tǒng)一的API、授權(quán)、數(shù)據(jù)存儲(chǔ)、metaMaster-slave,worker負(fù)責(zé)子圖通過迭代在節(jié)點(diǎn)間通訊和修改圖拓?fù)涮魬?zhàn):數(shù)據(jù)傾斜時(shí)的內(nèi)存控制與其他類型作業(yè)共存錯(cuò)誤恢復(fù)優(yōu)勢(shì):方便處理圖數(shù)據(jù)多輪迭代性能遠(yuǎn)好于MR應(yīng)用場(chǎng)景:推薦、社交網(wǎng)絡(luò)、物流、利用圖編程實(shí)現(xiàn)SSSP算法(1)GraphLoader 圖加載基類 public static class SSSPGraphLoader extends GraphLoader Override public void load(

5、Record record, MutationContext context) SSSPVertex vertex = new SSSPVertex(); vertex.setId(LongWritable) record.get(0); String edges = record.get(1).toString().split(,); for (int i = 0; i edges.length; i+) String ss = edgesi.split(:); vertex.addEdge(new LongWritable(Long.parseLong(ss0), new LongWrit

6、able(Long.parseLong(ss1); context.addVertexRequest(vertex); 利用圖編程實(shí)現(xiàn)SSSP算法(2)Vertex 點(diǎn)基類public static class SSSPVertex extends Vertex Override public void compute(ComputeContext context, Iterable messages) long minDist = (getId() = 1) ? 0 : Integer.MAX_VALUE; for (LongWritable msg : messages) if (msg

7、minDist) minDist = msg; if (minDist this.getValue() this.setValue(minDist); for (Edge e : this.getEdges() context.sendMessage(e.getDestVertexId(), minDist + getValue(); else voteToHalt(); 利用圖編程實(shí)現(xiàn)SSSP算法(3)矩陣和算法運(yùn)算支持基于MPI的算法運(yùn)算包圖形化交互界面支持算法:SVD分解邏輯回歸隨機(jī)森林連接R與ODPS集成ODPS的算法- ODPS多集群架構(gòu)17業(yè)務(wù)增長(zhǎng)的速度永遠(yuǎn)快于技術(shù)完善的速度,如何

8、支撐日益膨脹的存儲(chǔ)和計(jì)算需求?多集群架構(gòu)18多計(jì)算機(jī)群 解決規(guī)模瓶頸 統(tǒng)一meta準(zhǔn)實(shí)時(shí)數(shù)據(jù)同步 減少熱數(shù)據(jù)跨機(jī)房 業(yè)務(wù)遷移多控制機(jī)群 灰度發(fā)布 業(yè)務(wù)分離多租戶模型19如何支持多個(gè)團(tuán)隊(duì)在一個(gè)平臺(tái)上開發(fā)?多租戶模型20用戶空間授權(quán)訪問跨空間訪問受保護(hù)的空間空間互信ODPS安全架構(gòu)數(shù)據(jù)安全是每個(gè)平臺(tái)產(chǎn)品需要解決的核心問題Web 服務(wù)器ODPS安全架構(gòu)(Meta OTSStore)ODPS服務(wù)計(jì)算集群n計(jì)算集群1ODPS 客戶端(SDK, Console)ODPS接入層ODPS控制集群OdpsWorkerSchedulerExecutor Hive Server云帳號(hào)Shenshu(授權(quán)服務(wù))KDC

9、 (SSO服務(wù))Web 服務(wù)器OTS(Meta Store)域帳號(hào)用戶認(rèn)證飛天內(nèi)部認(rèn)證與授權(quán)中心ODPS服務(wù)計(jì)算集群n計(jì)算集群1ODPS 客戶端(SDK, Console)ODPS接入層ODPS控制集群1. 認(rèn)證.2. 檢查用戶權(quán)限, 檢查數(shù)據(jù)保護(hù)策略.3. 給Fuxi Job配置最小權(quán)限的Capability.eg, pangu cap權(quán)限如下: “pangu:/odps/prjA/shop/”: R, “pangu:/odps/prjB/sale_detail/”: R, “pangu:/odps/prjB/t1/”: WSQL實(shí)例:INSERT OVERWRITE prjB.t1 AS

10、SELECT a.shop_name, b.sale_totalFROM prjA.shop a LEFT OUTER JOIN prjB.sale_detail b ON a.shop_name=b.shop_name;OdpsWorkerSchedulerExecutor Hive Server云帳號(hào)Shenshu(授權(quán)服務(wù))KDC (SSO服務(wù))Web 服務(wù)器OTS(Meta Store)域帳號(hào)用戶認(rèn)證飛天內(nèi)部認(rèn)證與授權(quán)中心ODPS服務(wù)計(jì)算集群n計(jì)算集群1ODPS 客戶端(SDK, Console)ODPS接入層ODPS控制集群Java SandboxProcessSandboxGues

11、t OS Kernel用戶提交的MapReduce程序可能會(huì): 惡意耗盡集群資源(CPU, Memory, Network, Disk); 直接訪問Pangu文件,竊取或篡改其他用戶數(shù)據(jù); 竊取Linux節(jié)點(diǎn)上的飛天系統(tǒng)進(jìn)程的敏感數(shù)據(jù)(如Tubo的capability); .基于沙箱的縱深防御體系1. Java沙箱2. Linux進(jìn)程級(jí)沙箱3. 虛擬機(jī)沙箱OdpsWorkerSchedulerExecutor Hive Server靈活的授權(quán)方式 Version: 1, Statement: Effect: Allow, Principal: zinan.tang, Resource: acs:odps:*:projects/sampleprj/tables/test_*, Action: odps:Update, odps:Select Condition : IpAddress : acs:SourceIp: 10.32.180.0/23 25數(shù)據(jù)上傳下載服務(wù)如何解決系統(tǒng)與多個(gè)數(shù)據(jù)源之間的數(shù)據(jù)交換問題?數(shù)據(jù)上傳下載服務(wù)服務(wù)化:REST結(jié)構(gòu)化數(shù)據(jù)流式數(shù)據(jù)傳輸高并發(fā)上傳下載服務(wù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論