版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1.02.0,1.02.0介紹下當(dāng)前比較重要的項(xiàng)目“olap引擎的選型與效果”以及遇到的一些問(wèn)題;第四個(gè)簡(jiǎn)單架構(gòu)1.0階段,底層是Hadoop,用來(lái)存儲(chǔ)數(shù)據(jù)和分析數(shù)據(jù)。需要把log數(shù)據(jù)和事務(wù)數(shù)據(jù)傳輸?shù)紿adoop平臺(tái)上,我們使用的是kafka和sqoop進(jìn)行數(shù)據(jù)傳輸。然后在HadoopHiveoozieHql然后將數(shù)據(jù)mysql集群或redis集群,上層承接的是一個(gè)報(bào)表系統(tǒng)。這個(gè)需求基本跑了一量時(shí)間在獲取怎樣數(shù)據(jù);(4)故障頻發(fā),比如Hql跑失敗了或者網(wǎng)絡(luò)延遲沒(méi)成功,oozie是通過(guò)xml配置發(fā)布任務(wù),我們解決需要從數(shù)據(jù)倉(cāng)庫(kù)最底層跑到數(shù)據(jù)倉(cāng)庫(kù)最高層,還要重刷msl,花費(fèi)時(shí)間。spark、Presto等,在這些基礎(chǔ)上構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)Hive。還有一些分布式實(shí)時(shí)數(shù)據(jù)庫(kù)HBaseoozie、sqoop第二層就是工具鏈,這一層是一個(gè)自研發(fā)調(diào)度平臺(tái),架構(gòu)1.0用的oozie?;緷M足需求有關(guān)系可視化,數(shù)據(jù)出問(wèn)題可以很快定位與修復(fù)。然后就是Meta(元數(shù)據(jù)管理平臺(tái)),數(shù)據(jù)3AdHoc,化查詢引擎、記錄維護(hù)、權(quán)限控制、限速和分流。最上層將整個(gè)大數(shù)據(jù)的數(shù)據(jù)抽象為API,API,面向公司業(yè)務(wù)API,通用APIAPI可以滿APIAPI。面向公司業(yè)務(wù)API,我們是為業(yè)務(wù)服務(wù)的,通過(guò)我們的技術(shù)讓業(yè)務(wù)產(chǎn)生更多產(chǎn)出,將用戶需OK2.01.0一個(gè)presto18PB,93-4(3)sqlserver數(shù)據(jù)、Oracle數(shù)據(jù)等數(shù)據(jù)導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)中,系統(tǒng)能夠?qū)佣喾N數(shù)據(jù)源,因此我們財(cái)務(wù)人關(guān)系可視化。比如我們有100個(gè)任務(wù)是關(guān)聯(lián)的,最底層std層有50個(gè)任務(wù),中間層有2016年我們發(fā)現(xiàn)有多個(gè)口徑,因此通過(guò)指標(biāo)系統(tǒng)將指標(biāo)統(tǒng)一化,指標(biāo)都從這里出,可以去做做自己的desktop,指標(biāo)系統(tǒng)的后端使用后續(xù)講Kylin的一個(gè)多維分析引擎支撐的。鏈家使用的是一個(gè)叫kylin的開(kāi)源數(shù)據(jù)引擎,可以把數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通過(guò)集群調(diào)度寫(xiě)入到HBase中做一個(gè)預(yù)計(jì)算。這樣就可以支持指標(biāo)系統(tǒng)千億級(jí)數(shù)據(jù)亞秒級(jí)的查詢,不支持明細(xì)查詢因?yàn)樽鲞^(guò)預(yù)計(jì)算。還引入了百度開(kāi)源的palo,經(jīng)過(guò)優(yōu)化,通過(guò)這樣一個(gè)架構(gòu)就滿足上分析、sql查詢接口、超大規(guī)模數(shù)據(jù)集、釋放數(shù)據(jù)的能力以及數(shù)據(jù)可視化。adhoc搜索引擎有很多,比如presto、hive、spark等。用戶也不知道該選擇那種引擎,他的需接口、自助查詢,這樣就基本解決了數(shù)據(jù)開(kāi)發(fā)的工作。我們自研發(fā)了一個(gè)在底層有presto、sparksql、hive等,queryengine特點(diǎn)就是能夠發(fā)揮各自引擎的特性,prestosqlsparksqlsqlhive快,hive就是穩(wěn)但是慢。queryengine就是智能選擇各種引擎,用戶把sql提交過(guò)來(lái),queryenginesql是計(jì)費(fèi),因?yàn)橘Y源是有限的。queryenginemysqlBIBImysql數(shù)據(jù)暴露出去,用戶只需用其他BI就能使用。1.02.0這里分享兩個(gè)案例,一個(gè)是olap引擎的選型與效果,第二個(gè)就是為什么要做透明壓縮,是如何做的。Rolap過(guò)傳統(tǒng)數(shù)據(jù)庫(kù)或spqrksql和presto,spqrksql和presto是根據(jù)數(shù)據(jù)實(shí)時(shí)計(jì)算;MolapKylin/Druid,Druid(KylinkafkaSparksql的是叫olap,混合多引擎,不同場(chǎng)景路由到不同引擎。景就是能預(yù)知查詢模式,并發(fā)有要求的場(chǎng)景,固化場(chǎng)景可以使用molap。kylin,因?yàn)橹С州^sqlkylinApacheKylin?是一個(gè)開(kāi)源的分布式分析引擎,提供Hadoop之上的SQL查詢接口及多維分析能力,以支持超大規(guī)模數(shù)據(jù),最初由eBayInc.Hive定義維度和指標(biāo),預(yù)計(jì)算cube,存儲(chǔ)到hbasesql路由到hbaseolap架構(gòu),HBasekylinHBase集群。Kylinbuild然后就是面向線上的一個(gè)查詢,還有一個(gè)kylin中間件,解決查詢、cube任務(wù)執(zhí)行、數(shù)據(jù)管理、統(tǒng)計(jì)。指標(biāo)平臺(tái)大部分是查詢kylin,但是kylin不能滿足明細(xì)查詢,這個(gè)就通過(guò)queryenginespark集群或presto集群,還有alluxio做壓縮,然后將明kylincube優(yōu)化構(gòu)建時(shí)字典下載策略,kylin構(gòu)建時(shí)需要將所有元數(shù)據(jù)字典全部下載下來(lái),因此從Hadoopbuild后只需要下載一次就可以;優(yōu)化全局字典鎖,build時(shí)需要鎖住整個(gè)build集群,完成后鎖別上;Kylin的query查詢機(jī)器使用G1納一個(gè)無(wú)限容量的隊(duì)列,針對(duì)特定cube制。架構(gòu)有外面的調(diào)度系統(tǒng),有一個(gè)kylin中間件,所有的查詢和build都經(jīng)過(guò)kylin中間件。還做了一個(gè)任務(wù)隊(duì)列、統(tǒng)計(jì)、優(yōu)先級(jí)調(diào)度、監(jiān)控報(bào)警、cube架構(gòu)從0到1.0(0-1PB兩年時(shí)間,1PB-16PB)、冷數(shù)據(jù)預(yù)期,針對(duì)這些問(wèn)題提出透明壓縮項(xiàng)目。就是分層存儲(chǔ)(Hadoop特性),根據(jù)不同數(shù)據(jù)分不同級(jí)別存儲(chǔ),比如把一ssd,把另一部分?jǐn)?shù)據(jù)存儲(chǔ)到磁盤(pán)之上。Hot第二個(gè)就是ZFS文件系統(tǒng),它具有存儲(chǔ)池、自我修復(fù)功能、壓縮與可變塊大小、寫(xiě)時(shí)拷貝/校驗(yàn)和/快照、ARC(自適應(yīng)內(nèi)存緩存)與L2ARC(SSD做二級(jí)緩存)。HDFSZFSExt4ZFSEXT4HadoopHDFS冷熱數(shù)據(jù)移動(dòng)優(yōu)化;第二個(gè)就是ZFS文件系統(tǒng)優(yōu)化。ZFS支持很多壓縮算法,經(jīng)過(guò)測(cè)試發(fā)問(wèn)此部分?jǐn)?shù)據(jù)時(shí)的效率,從表可知,ZFSgzdatanode加載數(shù)據(jù)上對(duì)LZ4EXT4。綜合考慮壓縮率,讀取,寫(xiě)入速度,datanodegz作為ZFS文件系統(tǒng)的壓縮算法。透明壓縮前數(shù)據(jù)增長(zhǎng)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中山市施工合同范本
- 山西住建部可研合同范本
- 2024至2030年蒸煲項(xiàng)目投資價(jià)值分析報(bào)告
- 2024至2030年電火花機(jī)加工油項(xiàng)目投資價(jià)值分析報(bào)告
- 2024至2030年P(guān)S版保護(hù)膠項(xiàng)目投資價(jià)值分析報(bào)告
- 體育俱樂(lè)部股權(quán)分配合作協(xié)議書(shū)
- 地方節(jié)慶活動(dòng)拍攝服務(wù)合同
- 婚前房產(chǎn)協(xié)議書(shū)的法律效力
- 大型活動(dòng)贊助銷售合同模板
- 生產(chǎn)線項(xiàng)目可行性研究報(bào)告
- 2024秋期國(guó)家開(kāi)放大學(xué)??啤陡叩葦?shù)學(xué)基礎(chǔ)》一平臺(tái)在線形考(形考任務(wù)一至四)試題及答案
- 懷感恩與愛(ài)同行 主題班會(huì)課件
- 牛津譯林版英語(yǔ)2024七年級(jí)上冊(cè)全冊(cè)單元知識(shí)清單(默寫(xiě)版)
- 生物體的結(jié)構(gòu)層次大單元教學(xué)設(shè)計(jì)人教版生物七年級(jí)上冊(cè)
- 世界地理-英文課件
- 思想道德與法治課件:第五章 第二節(jié) 吸收借鑒優(yōu)秀道德成果
- 部編教材九年級(jí)歷史(上)全冊(cè)教案
- 初中美術(shù)板報(bào)設(shè)計(jì)1ppt課件
- 南苑校區(qū)集團(tuán)考核自評(píng)報(bào)告
- 淺談智能化工程總包管理及智能化工程深化設(shè)計(jì)
- TPO26聽(tīng)力題目及答案
評(píng)論
0/150
提交評(píng)論