阿里巴巴新一代交互式分析引擎 Hologres-金曉軍_第1頁(yè)
阿里巴巴新一代交互式分析引擎 Hologres-金曉軍_第2頁(yè)
阿里巴巴新一代交互式分析引擎 Hologres-金曉軍_第3頁(yè)
阿里巴巴新一代交互式分析引擎 Hologres-金曉軍_第4頁(yè)
阿里巴巴新一代交互式分析引擎 Hologres-金曉軍_第5頁(yè)
已閱讀5頁(yè),還剩41頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

C-JC-J網(wǎng)里云IQ2夕奧運(yùn)會(huì)全球指定云服務(wù)商QCon?主辦方QCon?主辦方Geekbang》.極客邦科技C-JC-J啊里云IQ2夕奧運(yùn)會(huì)全球指定云服務(wù)商QCon QCon 辦方&ban9>.InfoQi新一代交互式分析引擎hologres金曉軍阿里云智能■計(jì)算平臺(tái)事業(yè)部■交互式分析自我介紹大數(shù)據(jù)領(lǐng)域從業(yè)9年,曾擔(dān)任阿里云數(shù)據(jù)平臺(tái)架構(gòu)師,從無(wú)到有設(shè)計(jì)研發(fā)AliyunStreamComputeV1.0o后擔(dān)任網(wǎng)易數(shù)據(jù)科學(xué)中心大數(shù)據(jù)平臺(tái)負(fù)責(zé)人,負(fù)責(zé)網(wǎng)易大數(shù)據(jù)平臺(tái)建設(shè)、團(tuán)隊(duì)建設(shè)、人才培養(yǎng),負(fù)責(zé)整體架構(gòu)設(shè)計(jì)、自研系統(tǒng)研發(fā)與開(kāi)源組件功能擴(kuò)展與集成、大數(shù)據(jù)產(chǎn)品化輸出。現(xiàn)就職于阿里巴巴計(jì)算平臺(tái)事業(yè)部,從事交互式分析引擎hologres設(shè)計(jì)與研發(fā)工作。WW阿里云Iw奧運(yùn)會(huì)全球指定云服務(wù)商C-JC-J啊里云IQ2夕奧運(yùn)會(huì)全球指定云服務(wù)商QCon?QCon?背景介紹基礎(chǔ)架構(gòu)技術(shù)亮點(diǎn)典型場(chǎng)景介紹未來(lái)規(guī)劃主辦方GeeKbang主辦方GeeKbang》.InfoOti極客邦科技 1背景介紹QConDOh主辦方GeeKbang》.極容邦科技QCon主辦方QCon主辦方Geekbang》.極客邦科技DataVolCost調(diào)度例如:數(shù)據(jù)清洗數(shù)倉(cāng)建立報(bào)表模型訓(xùn)練內(nèi)部任務(wù)(例]檔)交互查作業(yè)?■分析類數(shù)據(jù)量中小人驅(qū)動(dòng)1有延期要求QuervDataVolCost調(diào)度例如:數(shù)據(jù)清洗數(shù)倉(cāng)建立報(bào)表模型訓(xùn)練內(nèi)部任務(wù)(例]檔)交互查作業(yè)?■分析類數(shù)據(jù)量中小人驅(qū)動(dòng)1有延期要求Querv不固定,Adhoc例如:?jiǎn)栴}調(diào)查人驅(qū)動(dòng)的數(shù)據(jù)分析交互查作業(yè)??BI類數(shù)據(jù)量小maybePre-cooked人驅(qū)動(dòng),WebUI,延遲敏感生態(tài)工具integration實(shí)時(shí)監(jiān)控類涓耗~15%炭:源?例如:BI流式輸入,有低延期要求機(jī)器處理,Query固定例如:監(jiān)控報(bào)警,大屏廣播,onlinelearning1Day1Min7Sec<1SecLatencyC-D阿里云IQ2夕背景:典型場(chǎng)景分析(業(yè)務(wù)需求,數(shù)據(jù)/計(jì)算量與資源—消耗的分布)FlexibilityDataworkflow數(shù)據(jù)量大,依賴多(DB,LOG,同步數(shù)據(jù),己有數(shù)據(jù))定時(shí)任務(wù),Query固定資源通常不夠,按優(yōu)」C-DC-D阿里云IQ2夕奧運(yùn)會(huì)全球指定云服務(wù)商QConl?hQConl?h主辦方Geekbang》.極客邦科技背景:典型開(kāi)源架構(gòu)背景:典型開(kāi)源架構(gòu)Lambda架構(gòu)的問(wèn)題:1?使用多種引擎和系統(tǒng)去組合,開(kāi)發(fā)和維護(hù)成本高,學(xué)習(xí)生成高數(shù)據(jù)在不同的View中存儲(chǔ)多份,空間浪費(fèi),數(shù)據(jù)一致性的問(wèn)題如何解決從使用上來(lái)說(shuō),Batch,Streaming及Query均使用不同的language,使用起來(lái)并不容易C-DC-D阿里云IQ2夕奧運(yùn)會(huì)全球指定云服務(wù)商背景:技術(shù)和業(yè)務(wù)背景>技術(shù)源于流計(jì)算+數(shù)據(jù)庫(kù)技術(shù),落地于搜索與廣告業(yè)務(wù)>開(kāi)源的解決方案無(wú)法滿足阿里巴巴復(fù)雜的業(yè)務(wù)場(chǎng)景A實(shí)時(shí)數(shù)據(jù)中臺(tái)建設(shè)的需求:一個(gè)入口,一份數(shù)據(jù),一種查詢語(yǔ)言>成本,易用性,實(shí)時(shí)數(shù)據(jù)中臺(tái)架構(gòu)的統(tǒng)一性 >AlibabaBlink(Flink內(nèi)部版,已開(kāi)源)創(chuàng)始人量仔老師牽頭打造新一代交互式分析引擎QCOn 次熙惑bang》.InfoQC-JC-J啊里云IQ2夕奧運(yùn)會(huì)全球指定云服務(wù)商QConH。主辦方Geekbang》.InfoOi極客邦科技C-DC-D阿里云IQ2夕奧運(yùn)會(huì)全球指定云服務(wù)商QConQConHologres介紹>新一代海量數(shù)據(jù)交互式分析引擎>—套引擎支持PointQuery(hbase場(chǎng)景),Ad-hocQuery(Druid場(chǎng)景),OLAPQuery(Impala場(chǎng)景)>快>存儲(chǔ)計(jì)算分離>支持實(shí)時(shí)數(shù)據(jù)與批量數(shù)據(jù)導(dǎo)入 >支持ExternalStorage,與阿里云大數(shù)據(jù)產(chǎn)品無(wú)縫對(duì)接主辦方Geekbang》.極客邦科技C-D阿里云C-D阿里云IQ2夕奧運(yùn)會(huì)全球指定云服務(wù)商Hologres架構(gòu)QConl?QConl?hDataWorksBItoolsJDBCDriver1JDBCServerHHoloFEUserAuth■SQLParser1OptimizerMCoordinator■QueryRewriteHologresHoloSMHoloQEQERuntime OperatorsHoloSEBuffer/CacheIndex ??.FileFormat/IndexPangu/FuxiCatalog

ServiceCluster

ManagerMetricsSystemWatch

DogTrace

System主辦方Geekbang》.極客邦科技c-jc-j啊里云Iw奧運(yùn)會(huì)全球指定云服務(wù)商StorageEngine(SE)>存儲(chǔ)計(jì)算分離的架構(gòu)>內(nèi)置存儲(chǔ)引擎(行存,列存)>行存:整行數(shù)據(jù)連續(xù)存放,更新高效,對(duì)pointquery和批量scan更友好(Hbase場(chǎng)景) >列存:相關(guān)列的數(shù)據(jù)連續(xù)存放,按列做聚合更高效,壓縮更高效,適合分析型場(chǎng)景QConD。>ExternalTableQConD。主辦方Geekbang〉.InfoQi極客邦科技1C-D阿里云C-D阿里云IQ2夕奧運(yùn)會(huì)全球指定云服務(wù)商QueryEngine(QE)QConl?QConl?h>自研QE(性能卓越)>異步執(zhí)行引擎>向量化計(jì)算>支持Filter/Agg計(jì)算的pushdown>PostgreSQLQE(兼容生態(tài))>兼容PostgreSQL生態(tài)>與生態(tài)合作開(kāi)發(fā)主辦方Geekbang》.極客邦科技C-DC-D阿里云IQ2夕奧運(yùn)會(huì)全球指定云服務(wù)商QConl?QConl?hFrontend(FE)>PostgreSQL協(xié)議及SQL語(yǔ)法的兼容>更加智能的優(yōu)化器,提供QueryFederation的能力?調(diào)度,流控,反壓主辦方主辦方Geekbang》.極客邦科技C-DC-D阿里云IQ2夕奧運(yùn)會(huì)全球指定云服務(wù)商QConQConHH啊里云IW奧運(yùn)會(huì)全球指定云服務(wù)商Hologres'技術(shù)亮點(diǎn)QConD。QConD。主辦方&ban9>InfoQhologres技術(shù)亮點(diǎn)-統(tǒng)一引擎架構(gòu)?Why?大數(shù)據(jù)業(yè)務(wù)Hbase中數(shù)據(jù)存一份,Druid里存一份,XXX里存一份?浪費(fèi)?。緮?shù)據(jù)一致性怎么保證?>學(xué)習(xí)成本高,成天學(xué)習(xí)新系統(tǒng)的使用?功能 >內(nèi)置支持兩種存儲(chǔ)格式,創(chuàng)建表的時(shí)候選其一或者都選,數(shù)據(jù)一致有保證?QE提供兩個(gè)版本,自研和開(kāi)源?能夠替換現(xiàn)有業(yè)務(wù)的Hbase,Druid和impala,且性能更好?阿里巴巴業(yè)務(wù)已得到驗(yàn)證>團(tuán)隊(duì)十多名Flinkcommiter,兩名HbasePMC,多名Hbase/Druid/Kylin等開(kāi)源系統(tǒng)commiter主辦方Geekbang》.極客邦科技hologres技術(shù)亮點(diǎn)-存儲(chǔ)計(jì)算分離?Why?>用戶只關(guān)心自己有多少計(jì)算資源,根本不關(guān)心自已的機(jī)器是什么>已經(jīng)申請(qǐng)的計(jì)算資源可否利用,如ODPS/Blink>新的NVMESSD盤(pán)可以達(dá)到150000IOPS,磁盤(pán)I。不再是性能瓶頸,問(wèn)題轉(zhuǎn)變?yōu)槿绾伟袰PU局效利用起來(lái) >存儲(chǔ)計(jì)算分離是未來(lái)大勢(shì)所趨,存儲(chǔ)和計(jì)算非對(duì)齊采購(gòu),成本更低,部署運(yùn)維更方便?功能>存儲(chǔ)使用Pangu2.0,由存儲(chǔ)團(tuán)隊(duì)維護(hù),QE和SE可運(yùn)行在K8S及飛天集群中>全異步的存儲(chǔ)和計(jì)算引擎,吃盡所有CPU計(jì)算能力>靈活擴(kuò)容,缺存儲(chǔ)擴(kuò)存儲(chǔ),缺計(jì)算擴(kuò)計(jì)算主辦方Geekbang》.極客邦科技C-JC-J啊里云IQ2夕奧運(yùn)會(huì)全球指定云服務(wù)商hologres技術(shù)亮點(diǎn)-更加聰明的Optimizer?Why?>用戶寫(xiě)好Query如何去調(diào)優(yōu)?>一套引擎中支持多套QE,查詢計(jì)劃如何去生成?>多種文件格式,不同版本的operator多種實(shí)現(xiàn)方案,如何去選擇?>如何更高效的去生成上述查詢計(jì)劃??功能A支持多引擎的查詢優(yōu)化器,能夠很容易與各種QE結(jié)合A基于代價(jià)的優(yōu)化器模型,支持各種index,predictedpushdownQCon辦方照鯉bang〉InfoQC-D阿里云C-D阿里云IQW奧運(yùn)會(huì)全球指定云服務(wù)商hologres技術(shù)亮點(diǎn)-新技術(shù)?Why?>近幾年硬件性能提升的很快,N年前的技術(shù)方案不一定能夠很好的利用現(xiàn)在的硬件性能發(fā)揮到極致>技術(shù)追求,沒(méi)有最好,只有更好?功能>全異步框架(Thread-per-core架構(gòu)),把CPU利用到極致>vectorization(細(xì)節(jié)很多坑),集團(tuán)內(nèi)大規(guī)模使用向量化計(jì)算技術(shù)加速計(jì)算(1個(gè)量級(jí))>各種Index的實(shí)現(xiàn)>精細(xì)化的CacheQConIIOh主辦方Geekbang〉InfQConIIOh極客邦科技UserspaceKernelDriverRX/TXqueuepairsPekkaEnbergUniversityofHelsinkiSasuTarkomaUniversityofHelsinkiAshwinRaoUniversityofHelsinkiI/OIsFasterThantheCPU一Let'sPartitionResourcesAbstractUserspaceKernelDriverRX/TXqueuepairsPekkaEnbergUniversityofHelsinkiSasuTarkomaUniversityofHelsinkiAshwinRaoUniversityofHelsinkiI/OIsFasterThantheCPU一Let'sPartitionResourcesAbstractI/OisgettingfasterinserversthathavefastprogrammableNICsandnon-volatilemainmemoryoperatingclosetothespeedofDRAM,butsingle-threadedCPUspeedshavestagnated*ApplicationscannottakeadvantageofmodernhardwarecapabilitieswhenusinginterfacesbuiltaroundabstractionsthatassumeI/Otobeslow.WethereforeproposeastructureforanOScalledparakernel,whicheliminatesmostOSabstractionsandprovidesinterfacesforapplicationstoleveragethefullpotentialoftheunderlyinghardware*Theparakernelfacilitatesapplication-levelparallelismbysecurelypartitioningtheresourcesandmultiplexingonlythoseresourcesthatarenotpartitioned.ACMReferenceFormat:PekkaEnberg,AshwinRao,andSasuTarkoma.2019,I/OIsFasterThantheCPU—Let'sPartitionResourcesandEliminate(Most)技術(shù)亮點(diǎn)舉例為什么要用全異歩架構(gòu)?QConlOh?傳統(tǒng)存?最新硬?Open;Q99:服務(wù)商C-J啊里五奧運(yùn)會(huì)全球指定C-DC-D阿里云IQ2夕奧運(yùn)會(huì)全球指定云服務(wù)商主辦方主辦方Geekbang》.極客邦科技技術(shù)亮點(diǎn)舉例……全異步架構(gòu)實(shí)現(xiàn)有何難點(diǎn)?傳染性,系統(tǒng)整體執(zhí)行流程需要全部異?;幊?更加極致的利用cpu?cpu調(diào)度,thread-per-core?代碼中不能有blocker,tracing,debugging技術(shù)亮點(diǎn)舉例 向量化計(jì)算技術(shù)亮點(diǎn)舉例 向量化計(jì)算SISMISDInstruction、oolCHJ阿里云IW奧運(yùn)會(huì)全球指定云服務(wù)商Instruction>ool4cruIooCi一臥一四J4cruIooCiQConlOh主辦方Geekbang〉.Infpfyi極客類科技C-J啊里云C-J啊里云IQ29奧運(yùn)會(huì)全球指定云服務(wù)商技術(shù)亮點(diǎn)舉例???…向量化計(jì)算QCon QCon 辦方&ban9>InfoQFlynn分類法:SISD,SIMD,MISD,MIMDSIMD:intelMMX->SSE->AVX?并非新技術(shù),但對(duì)于大數(shù)據(jù)處理卻非常有用?如何更多的實(shí)現(xiàn)向量化版本的function??重劍無(wú)鋒,大巧不工。細(xì)節(jié)C-D阿里云C-D阿里云IQW奧運(yùn)會(huì)全球指定云服務(wù)商技術(shù)亮點(diǎn)舉例……優(yōu)化器QCon?QCon?operater實(shí)現(xiàn)可能同時(shí)存在行存版本,列存版本,向量化版本query如何高效的執(zhí)行,如何去選擇不同的operater實(shí)現(xiàn)?如何去支持各種index?如何去支持多種QE?重劍無(wú)鋒,大巧不工主辦方主辦方Geekbang〉.InfoQi極客部科技C-DC-D阿里云IQ2夕奧運(yùn)會(huì)全球指定云服務(wù)商典型業(yè)務(wù)場(chǎng)景介紹QCOn 次熙惑bang》.InfoQC-JC-J阿里云Iw奧運(yùn)會(huì)全球指定云服務(wù)商QConHQConH。服務(wù)場(chǎng)景-海量數(shù)據(jù)復(fù)雜查詢服務(wù)場(chǎng)景-海量數(shù)據(jù)復(fù)雜查詢?用戶需求>大數(shù)據(jù)復(fù)雜準(zhǔn)實(shí)時(shí)分析T+1(億級(jí)別) >對(duì)latency敏感但可以接受資源消耗的成本>查詢復(fù)雜,需要支持完善的SQL語(yǔ)義(join/distinct/topk/window)以及方便的接入?yún)f(xié)議(jdbc)?優(yōu)勢(shì)>完備的SQL支持A支持實(shí)時(shí)和批量導(dǎo)入,性能遠(yuǎn)超同類產(chǎn)品A便捷性+性能A與MaxCompute共享資源(計(jì)算/存儲(chǔ)),錯(cuò)峰調(diào)度主辦方Geekbang》.InfoOi極客邦科技C-JC-J啊里云IQ2夕奧運(yùn)會(huì)全球指定云服務(wù)商C-DC-D阿里云IQ2夕奧運(yùn)會(huì)全球指定云服務(wù)商QConQCon服務(wù)場(chǎng)景-海量數(shù)據(jù)點(diǎn)查詢(Hbase)?用戶需求>海量數(shù)據(jù)PB級(jí)別存儲(chǔ)+Billion級(jí)記錄>高頻寫(xiě)入,高頻查詢,計(jì)算簡(jiǎn)單?典型客戶,搜索廣告,集團(tuán)安全部,支付寶風(fēng)控(平臺(tái)型用戶)?現(xiàn)有方案(Hbase)>導(dǎo)入任務(wù)難以維護(hù)+浪費(fèi)存儲(chǔ)+導(dǎo)入性能極低(5-8個(gè)小時(shí))>無(wú)SQL接口>海量存儲(chǔ)成本極高?優(yōu)勢(shì)>統(tǒng)一存儲(chǔ),無(wú)需導(dǎo)入操作>提供SQL接口,方便開(kāi)發(fā)集成主辦方Geekbang》.極客邦科技

服務(wù)場(chǎng)景-小表直讀(RD

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論