版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
(2022年)CloudNativeIndustryAlliance,CNIA編制說(shuō)明峰、楊哲、丁冉、張立群、前言促進(jìn)數(shù)據(jù)基礎(chǔ)設(shè)施、關(guān)鍵技術(shù)、應(yīng)用治理等方面的健康有序發(fā)展。伴隨著行業(yè)用戶(hù)對(duì)于數(shù)據(jù)價(jià)值的深入挖掘,數(shù)據(jù)平臺(tái)和產(chǎn)品正在發(fā)揮著不可替代的創(chuàng)新引領(lǐng)作用。本白皮書(shū)首先介紹了數(shù)據(jù)平臺(tái)發(fā)展的三個(gè)重要階段,通過(guò)對(duì)于發(fā)展歷程的總結(jié),引出了行業(yè)用戶(hù)在進(jìn)行數(shù)據(jù)分析和處理中面臨的瓶頸難題,并且重點(diǎn)從主要架構(gòu)、關(guān)鍵技術(shù)、方案特征、應(yīng)用價(jià)值等方面代表廠商和代表解決方案的分析,力求反應(yīng)現(xiàn)階段國(guó)內(nèi)湖倉(cāng)生態(tài)現(xiàn)狀。最后,從銀行、保險(xiǎn)、證券用戶(hù)單位的不同角度出發(fā),開(kāi)展了較為詳實(shí)的場(chǎng)景化應(yīng)用分析,并進(jìn)行了總結(jié)與展望。 (一)萌芽期:數(shù)據(jù)倉(cāng)庫(kù)初探數(shù)據(jù)價(jià)值 1(二)上升期:大數(shù)據(jù)平臺(tái)挖掘數(shù)據(jù)價(jià)值 3(三)成熟期:湖倉(cāng)一體全面展現(xiàn)數(shù)據(jù)價(jià)值 5 (一)行業(yè)用戶(hù)數(shù)據(jù)處理五大難題 7(二)解決數(shù)據(jù)處理瓶頸的最佳方案 11(三)云原生湖倉(cāng)一體主要技術(shù)路線 23(四)云原生湖倉(cāng)一體方案應(yīng)用價(jià)值 25 (一)國(guó)內(nèi)湖倉(cāng)生態(tài)版圖 28(二)國(guó)際湖倉(cāng)典型應(yīng)用 29 34 在全球數(shù)據(jù)產(chǎn)業(yè)蓬勃發(fā)展的背景下,數(shù)據(jù)系統(tǒng)正在發(fā)揮關(guān)鍵的支撐賦能作用,對(duì)于數(shù)據(jù)價(jià)值挖掘和業(yè)務(wù)創(chuàng)新發(fā)展起到重要影響。為了應(yīng)對(duì)各類(lèi)用戶(hù)需求,衍生出了聚焦聯(lián)機(jī)事務(wù)處理、聯(lián)機(jī)分析計(jì)算、事務(wù)分析混合等不同場(chǎng)景的數(shù)據(jù)平臺(tái)。數(shù)據(jù)平臺(tái)作為企業(yè)數(shù)字化轉(zhuǎn)型的重要基礎(chǔ)設(shè)施,決定了企業(yè)對(duì)數(shù)據(jù)這一新興生產(chǎn)要素的應(yīng)用能力,對(duì)企業(yè)數(shù)字化轉(zhuǎn)型的成敗起到了至關(guān)重要的作用,其發(fā)展經(jīng)歷了三個(gè)時(shí)期。1.發(fā)展背景上世紀(jì)50-60年代,數(shù)據(jù)管理工具以“數(shù)據(jù)庫(kù)”的形式首次問(wèn)世,先后基于網(wǎng)狀模型、層次模型、關(guān)系模型等不同的數(shù)據(jù)結(jié)構(gòu),出現(xiàn)了er具代表性的傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù),本質(zhì)上是通過(guò)結(jié)構(gòu)化查詢(xún)語(yǔ)句,對(duì)數(shù)、查操作,以實(shí)現(xiàn)在OLTP聯(lián)機(jī)事務(wù)處理場(chǎng)景下對(duì)于關(guān)系型表結(jié)構(gòu)數(shù)據(jù)的存儲(chǔ)和利用。業(yè)務(wù)數(shù)據(jù)庫(kù)產(chǎn)生負(fù)載,導(dǎo)致業(yè)務(wù)系統(tǒng)運(yùn)行速度降低。在日益激烈的市場(chǎng)競(jìng)爭(zhēng)中,企業(yè)需要對(duì)積累的數(shù)據(jù)進(jìn)行分析,獲取更加準(zhǔn)確的決策信息來(lái)完成市場(chǎng)推廣、運(yùn)營(yíng)管理等工作。由此,提出將歷史數(shù)據(jù)存儲(chǔ)到1OLAP系統(tǒng)數(shù)據(jù)庫(kù)性能的同時(shí),可以更專(zhuān)注的提升數(shù)據(jù)分析效率,輔助企業(yè)決策。2.技術(shù)特性傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的技術(shù)架構(gòu),尤其是OLTP數(shù)據(jù)庫(kù)在海量數(shù)據(jù)的存儲(chǔ)、查閱以及分析方面出現(xiàn)了明顯的性能瓶頸。隨著分布式技術(shù)的產(chǎn)生和發(fā)展,出現(xiàn)了以Teradata為代表的MPP一體機(jī)數(shù)據(jù)庫(kù),以及Greenplum和Vertica等軟硬件分離的MPP數(shù)據(jù)庫(kù),采用無(wú)共享架構(gòu)(Share-nothing)以支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)的建設(shè)。這個(gè)階段的主要任務(wù)是數(shù)據(jù)分析和決策支持類(lèi)系統(tǒng)的建設(shè),如數(shù)據(jù)倉(cāng)庫(kù)、ODS、數(shù)據(jù)集市、應(yīng)用數(shù)據(jù)庫(kù)、歷史數(shù)據(jù)庫(kù)以及報(bào)表、分析報(bào)告、數(shù)據(jù)挖掘、客戶(hù)標(biāo)簽畫(huà)像等。3.階段特點(diǎn)該階段早期,不少企業(yè)直接采用了共享存儲(chǔ)(share-disk)架構(gòu)的Oracle和DB2,或是采用MPP無(wú)共享(Share-nothing)架構(gòu)的Teradata等產(chǎn)品,通?;谲浻惨惑w的專(zhuān)有服務(wù)器和昂貴的存儲(chǔ),后雖然引入2點(diǎn)體現(xiàn)為:數(shù)據(jù)以結(jié)構(gòu)化為主,集群的擴(kuò)展能力有限。開(kāi)始呈現(xiàn)出海量、異構(gòu)、多源等特點(diǎn),傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)擴(kuò)容困難、處理數(shù)據(jù)類(lèi)型單一的缺點(diǎn)開(kāi)始逐漸暴露出來(lái),也無(wú)法支撐越來(lái)越豐富的業(yè)務(wù)分析需求。1.發(fā)展背景展,數(shù)據(jù)規(guī)模呈幾何倍數(shù)增長(zhǎng),數(shù)據(jù)種類(lèi)也變得更加豐富。傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)側(cè)重結(jié)構(gòu)化據(jù)處理時(shí)效性的需求,由此帶來(lái)了海量異構(gòu)數(shù)據(jù)存儲(chǔ)和處理等的諸多3大數(shù)據(jù)平臺(tái)開(kāi)始受到關(guān)注,尤其受互聯(lián)網(wǎng)行業(yè)迅速發(fā)展的影響,大數(shù)據(jù)平臺(tái)迎來(lái)快速發(fā)展期。2.技術(shù)特性Hadoop平臺(tái)使用HDFS實(shí)現(xiàn)數(shù)據(jù)的分布式存儲(chǔ),有效解決海量數(shù)據(jù)的存儲(chǔ)問(wèn)題。與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)相比,HDFS在支持存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)的同時(shí)還實(shí)現(xiàn)了非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)。HDFS不是一個(gè)單機(jī)文件系數(shù)據(jù)將分布在多個(gè)節(jié)點(diǎn)上。讀取文件時(shí),數(shù)據(jù)從多個(gè)節(jié)點(diǎn)讀取。duceSpark且可以對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行大規(guī)模并行處理。通過(guò)切片將大量復(fù)雜的任務(wù)分解成多個(gè)少量簡(jiǎn)單的任務(wù)進(jìn)行處理,再對(duì)處理完成后的任務(wù)結(jié)果進(jìn)行匯總分類(lèi)。3.階段特點(diǎn)apReduce量的不斷增大以及對(duì)于數(shù)據(jù)處理時(shí)效性的需求不斷升高。計(jì)算和存儲(chǔ)組件也在不斷的變化,以適應(yīng)不同場(chǎng)景的數(shù)據(jù)存儲(chǔ)與處理需求。大數(shù)據(jù)平臺(tái)底層存儲(chǔ)經(jīng)過(guò)了十余年發(fā)展,一直是HDFS一枝獨(dú)秀。大數(shù)據(jù)平臺(tái)在計(jì)算方面發(fā)展迅速,由于最初的MapReduce大規(guī)模批處理無(wú)法滿足海量數(shù)據(jù)處理的實(shí)時(shí)性,業(yè)界在計(jì)算方面設(shè)計(jì)了Spark快速批處理、Flink實(shí)時(shí)數(shù)據(jù)處理等計(jì)算框架。配合這些計(jì)算框4架的,還有像Sqoop這樣的數(shù)據(jù)流轉(zhuǎn)采集組件。在大數(shù)據(jù)分析和處理領(lǐng)域,Hadoop兼容體系已經(jīng)成為一個(gè)非常成熟的生態(tài)圈。Hadoop的誕生改變了企業(yè)對(duì)數(shù)據(jù)的存儲(chǔ)、處理和分析的過(guò)程,加速了大數(shù)據(jù)的發(fā)展,受到廣泛的應(yīng)用,給整個(gè)行業(yè)帶來(lái)了變革。隨著云計(jì)算時(shí)代的到來(lái),企業(yè)開(kāi)始對(duì)Hadoop的架構(gòu)進(jìn)行從基于物理集群到云原生化的改造。1.發(fā)展背景經(jīng)過(guò)前兩個(gè)階段的嘗試,更多的企業(yè)發(fā)現(xiàn)獨(dú)立構(gòu)建大數(shù)據(jù)平臺(tái)與數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)的技術(shù)架構(gòu),已經(jīng)無(wú)法滿足某些場(chǎng)景下的業(yè)務(wù)需求。企ETL,完成湖倉(cāng)獨(dú)立部署,這就是業(yè)內(nèi)常說(shuō)的“Hadoop+MPP”模式,我們稱(chēng)之為湖倉(cāng)分體模式。湖倉(cāng)分體模式最大的問(wèn)題就是數(shù)據(jù)孤島和業(yè)務(wù)實(shí)時(shí)數(shù)據(jù)分析能力不足,因此面臨著數(shù)據(jù)多集群冗余存儲(chǔ)、集群規(guī)模受5限、業(yè)務(wù)的實(shí)時(shí)性不足、業(yè)務(wù)應(yīng)用開(kāi)發(fā)敏捷需求不足等問(wèn)題,這些需求和痛點(diǎn)促進(jìn)了湖倉(cāng)一體技術(shù)的發(fā)展。2.技術(shù)特性湖倉(cāng)一體方案應(yīng)該在數(shù)據(jù)和查詢(xún)層面形成一體化架構(gòu),徹底解決實(shí)時(shí)性和并發(fā)度,以及集群規(guī)模受限、非結(jié)構(gòu)化數(shù)據(jù)無(wú)法整合、建模路徑冗長(zhǎng)、數(shù)據(jù)一致性弱、性能瓶頸等問(wèn)題,有效降低IT運(yùn)維成本和數(shù)據(jù)管理的技術(shù)門(mén)檻。所以,新時(shí)代需求的湖倉(cāng)一體方案應(yīng)具備實(shí)時(shí)處理、數(shù)據(jù)共享、高并發(fā)、云原生等特性。3.階段特點(diǎn)云的普及讓業(yè)務(wù)上云成為趨勢(shì),為了實(shí)現(xiàn)數(shù)據(jù)湖的靈活性和數(shù)倉(cāng)的易用性、規(guī)范性、高性能結(jié)合起來(lái)的融合架構(gòu),并且保證存儲(chǔ)和計(jì)算可以獨(dú)立的彈性擴(kuò)展和伸縮,數(shù)據(jù)平臺(tái)的設(shè)計(jì)出現(xiàn)了一個(gè)嶄新的架構(gòu),即存算分離架構(gòu)。在此階段,Snowflake、Amazon、阿里云、偶數(shù)等企業(yè)相繼突破了傳統(tǒng)MPP和Hadoop的局限性,實(shí)現(xiàn)了存算分,優(yōu)勢(shì)明顯,缺點(diǎn)也同樣突出,而更為先進(jìn)的“湖倉(cāng)原生一體”架構(gòu)在未來(lái)將更加契合用戶(hù)對(duì)于數(shù)據(jù)價(jià)值挖掘的訴求。6融行業(yè)的運(yùn)營(yíng)管理人員每天都會(huì)采用報(bào)表數(shù)據(jù)來(lái)指導(dǎo)決策,由于業(yè)務(wù)的不斷增長(zhǎng),采集的數(shù)據(jù)復(fù)雜度越來(lái)越高,管理者希望能第一時(shí)間掌握市場(chǎng)動(dòng)態(tài),以便及時(shí)做出有利于業(yè)務(wù)發(fā)展的決策。為了滿足業(yè)務(wù)應(yīng)用發(fā)展要求,數(shù)據(jù)處理通常會(huì)遇到各種挑戰(zhàn)。數(shù)據(jù)加工過(guò)程中,需要耗費(fèi)大量時(shí)間,完成各種業(yè)務(wù)數(shù)據(jù)加工處故障,造成數(shù)據(jù)不一致,從而影響數(shù)據(jù)分析結(jié)果;數(shù)據(jù)應(yīng)用過(guò)程中,都要通過(guò)各種條件限制,以控制查詢(xún)的數(shù)據(jù)規(guī)模;數(shù)據(jù)系統(tǒng)升級(jí)過(guò)程段數(shù)據(jù)處理瓶頸的五大難題。1.數(shù)據(jù)處理面臨數(shù)據(jù)孤島的難題很多企業(yè)的數(shù)據(jù)平臺(tái)都是經(jīng)過(guò)多次系統(tǒng)迭代和技術(shù)升級(jí)后建設(shè)業(yè)的數(shù)據(jù)平臺(tái)往往存在多個(gè)數(shù)據(jù)庫(kù)集群,每個(gè)數(shù)據(jù)庫(kù)就是一個(gè)數(shù)據(jù)孤7島和煙囪,甚至因數(shù)據(jù)庫(kù)產(chǎn)品的擴(kuò)展性,還可能導(dǎo)致MPP和Hadoop集群建設(shè)多套的情況,形成更多的孤島和煙囪。這些數(shù)據(jù)孤島和煙囪的出現(xiàn)在存儲(chǔ)、開(kāi)發(fā)、運(yùn)維、治理等多個(gè)方面帶來(lái)了影響。數(shù)據(jù)存儲(chǔ)方面,多個(gè)獨(dú)立數(shù)據(jù)庫(kù)集群中都放了同樣的的資源成本的浪費(fèi)。數(shù)雜,不同集群之間的時(shí)序、數(shù)據(jù)同步流程多。這種情況會(huì)導(dǎo)致數(shù)據(jù)庫(kù)產(chǎn)品技術(shù)門(mén)檻多,對(duì)于技術(shù)人員的素質(zhì)要求高;集群之間需要大量的據(jù)開(kāi)發(fā)的總體工作量大約增加了1倍左右。從項(xiàng)目管理的角度看大約增加了1倍的成本;同時(shí),作業(yè)的鏈路延長(zhǎng),大大降低了數(shù)據(jù)時(shí)效。比較多。數(shù)據(jù)治理方面,基于多份數(shù)據(jù)進(jìn)行維護(hù),可能會(huì)導(dǎo)致數(shù)據(jù)不一致,數(shù)據(jù)質(zhì)量等問(wèn)題,數(shù)據(jù)治理難度大,浪費(fèi)的成本難以估量。82.數(shù)據(jù)處理面臨性能瓶頸的難題傳統(tǒng)數(shù)據(jù)平臺(tái)的計(jì)算性能不能滿足業(yè)務(wù)需求,大體上有兩種情況:一方面因數(shù)據(jù)平臺(tái)的數(shù)據(jù)處理、業(yè)務(wù)查詢(xún)時(shí)間長(zhǎng),性能慢,無(wú)法滿足業(yè)務(wù)需求,需要在業(yè)務(wù)流程和用戶(hù)端進(jìn)行規(guī)避,導(dǎo)致用戶(hù)體驗(yàn)很差。另一方面部分企業(yè)為了提高性能,在數(shù)據(jù)平臺(tái)之上架設(shè)一個(gè)或多個(gè)內(nèi)存查詢(xún)引擎,這種方式犧牲了ACID和兼容性。性能不足的問(wèn)題影響運(yùn)營(yíng)、決策效率、無(wú)法支撐業(yè)務(wù)運(yùn)行對(duì)時(shí)延語(yǔ)法兼容性;部分計(jì)算引擎只支持簡(jiǎn)單查詢(xún),缺少?gòu)?fù)雜關(guān)聯(lián)分析能力。3.數(shù)據(jù)處理面臨高并發(fā)復(fù)雜查詢(xún)的難題隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,很多業(yè)務(wù)逐步開(kāi)放至更多的人員參與,上市公司數(shù)據(jù)等各類(lèi)場(chǎng)景。但是傳統(tǒng)數(shù)倉(cāng)、Hadoop僅支持幾十并發(fā),導(dǎo)致分庫(kù)、分表,限制業(yè)務(wù)部門(mén)使用,限制查詢(xún),對(duì)很多新型的業(yè)務(wù)沒(méi)有很好的支撐。為了保證各類(lèi)查詢(xún)同時(shí)進(jìn)行,采用很多計(jì)算引擎分流的方式實(shí)現(xiàn),如:實(shí)時(shí)計(jì)算、批處理、固定報(bào)表、即席查詢(xún)等廠家分別由不同計(jì)算撐多業(yè)務(wù)場(chǎng)景。4.數(shù)據(jù)處理面臨實(shí)時(shí)處理的難題9Gartner定義的實(shí)時(shí)數(shù)據(jù)處理的包括三個(gè)階段:第一階段,Real-TimeContinuousIntelligence:對(duì)事件做出實(shí)時(shí)處理響應(yīng),包括指標(biāo)對(duì)比,告警,趨勢(shì)分析,自動(dòng)決策;第二階段,Real-Time,On-DemandIntelligence:生成報(bào)告,支持即席查詢(xún),延伸數(shù)據(jù)探索,記錄操作流程;查詢(xún),實(shí)時(shí)決策,建模及長(zhǎng)期決策;對(duì)應(yīng)的在實(shí)時(shí)分析處理中按照事件的發(fā)生時(shí)間長(zhǎng)短可以總結(jié)為:事件發(fā)生同時(shí)的實(shí)時(shí)流處理、事件發(fā)生短時(shí)間內(nèi)的實(shí)時(shí)按需分析、事件發(fā)生后較長(zhǎng)時(shí)間的離線分析。傳統(tǒng)數(shù)據(jù)處理平臺(tái)不能完全滿足實(shí)時(shí)數(shù)據(jù)分析需求,存在以下問(wèn)題:實(shí)時(shí)數(shù)據(jù)與批量數(shù)據(jù)的關(guān)聯(lián)查詢(xún),有實(shí)時(shí)數(shù)據(jù)與維表關(guān)聯(lián)查詢(xún),有實(shí)時(shí)數(shù)據(jù)與事實(shí)數(shù)據(jù)關(guān)聯(lián)查詢(xún),離線數(shù)據(jù)量大現(xiàn)有平臺(tái)難以支撐;多庫(kù)數(shù)據(jù)無(wú)法實(shí)時(shí)歸集,按需查詢(xún)需求無(wú)法滿足;交易型數(shù)據(jù)庫(kù)無(wú)法支持頻繁、復(fù)雜的查詢(xún),為保證數(shù)據(jù)庫(kù)的穩(wěn)定,只能限制查詢(xún);現(xiàn)有基于Flink和Kafka的流處理平臺(tái),不支持?jǐn)?shù)據(jù)血緣,不能支持即席按需查詢(xún)分析等。5.數(shù)據(jù)處理面臨資源彈性伸縮的難題傳統(tǒng)數(shù)據(jù)平臺(tái)因技術(shù)架構(gòu)的局限性,對(duì)敏捷彈性資源管理支持度捷管理難題基本可以分為敏捷應(yīng)用響應(yīng)難題、如何實(shí)現(xiàn)資源彈性合理調(diào)配使用。敏捷應(yīng)用響應(yīng)難題主要體現(xiàn)為:傳統(tǒng)MPP上線新應(yīng)用的資源分配周期長(zhǎng),無(wú)法滿足業(yè)務(wù)端快速試錯(cuò)、快速布局的訴求;超過(guò)集群規(guī)模上限時(shí),性能不增反減,約減少50%以上;集群擴(kuò)容耗時(shí)很長(zhǎng),停機(jī)維護(hù)影響業(yè)務(wù)等。要體現(xiàn)為:在非云環(huán)境,資源不能共享,資源以獨(dú)占的方式使用,利用率很低;資源不夠時(shí)無(wú)法彈性擴(kuò)展,資源空閑時(shí)無(wú)法分配給需要的用戶(hù),無(wú)法做到削峰填谷,提高資源利用率。通過(guò)對(duì)于現(xiàn)階段數(shù)據(jù)分析存在的瓶頸和難題進(jìn)行深入分析,我們發(fā)現(xiàn),為了解決數(shù)據(jù)孤島、性能不足、高并發(fā)、實(shí)時(shí)處理和資源彈性問(wèn)題,可以嘗試以下的解決方案:要引入多主節(jié)點(diǎn)技術(shù)實(shí)現(xiàn)分析型數(shù)據(jù)平臺(tái)上的高并發(fā),將并發(fā),無(wú)法同時(shí)處理實(shí)時(shí)和數(shù)據(jù)規(guī)模比較大的歷史數(shù)據(jù)相結(jié)合的實(shí)時(shí)業(yè)務(wù)場(chǎng)景,需要引進(jìn)支持海量數(shù)據(jù)下實(shí)現(xiàn)高性能高并發(fā)以及具備資源隔離的支持多租戶(hù)各自獨(dú)立擴(kuò)展,同時(shí),對(duì)于資源的使用無(wú)法實(shí)現(xiàn)根據(jù)業(yè)務(wù)需要同時(shí)考慮到以上計(jì)算存儲(chǔ)分離、彈性可擴(kuò)展架構(gòu)、ACID特性、SQL標(biāo)準(zhǔn)支持、高性能并行執(zhí)行等方面的能力,基于云原生技術(shù)架構(gòu)的云原生湖倉(cāng)一體產(chǎn)品,可以通過(guò)云平臺(tái)構(gòu)建、部署和交付的數(shù)據(jù)服務(wù),提供可擴(kuò)展的、高可靠的數(shù)據(jù)解決方案。1.云原生湖倉(cāng)一體典型架構(gòu)Gartner認(rèn)為湖倉(cāng)一體是將數(shù)據(jù)湖的靈活性和數(shù)倉(cāng)的易用性、規(guī)范性、高性能結(jié)合起來(lái)的融合架構(gòu),無(wú)數(shù)據(jù)孤島。云原生湖倉(cāng)一體就數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)兩個(gè)平臺(tái)合為一個(gè)平臺(tái),并依托云原生的特性,支持基于數(shù)據(jù)湖的普通存儲(chǔ)硬件和存儲(chǔ)引擎以及數(shù)據(jù)倉(cāng)庫(kù)的多功能高性能分析引擎,實(shí)現(xiàn)對(duì)海量原始數(shù)據(jù)(結(jié)構(gòu)化、非結(jié)構(gòu)化、流式數(shù)據(jù)、圖數(shù)據(jù))以及潔凈數(shù)據(jù)(對(duì)原始數(shù)據(jù)進(jìn)行治理和分析后的數(shù)據(jù))統(tǒng)一存儲(chǔ)、分析、管理,集群可在線擴(kuò)容到幾千節(jié)點(diǎn)。支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)ETL及數(shù)據(jù)資產(chǎn)動(dòng)化機(jī)器學(xué)習(xí),支持無(wú)代碼/低代碼數(shù)2.云原生湖倉(cāng)一體關(guān)鍵技術(shù)(1)存算分離技術(shù)在云原生數(shù)據(jù)庫(kù)出現(xiàn)之前,由于單機(jī)吞吐量和集群網(wǎng)絡(luò)帶寬限制等因素,數(shù)據(jù)庫(kù)集群部署都是存儲(chǔ)和計(jì)算在一起,讓計(jì)算靠近數(shù)據(jù),而不是將數(shù)據(jù)傳輸?shù)接?jì)算節(jié)點(diǎn),這種方式可以產(chǎn)生更少的數(shù)據(jù)遷移,降低機(jī)器間、機(jī)柜間的網(wǎng)絡(luò)帶寬消耗。隨著數(shù)據(jù)量的增長(zhǎng),無(wú)論是計(jì)算還是存儲(chǔ)先達(dá)到瓶頸,都必須同時(shí)對(duì)計(jì)算和擴(kuò)展進(jìn)行擴(kuò)展,因此就會(huì)存在不少浪費(fèi),并且擴(kuò)展需要大量數(shù)據(jù)移動(dòng),非常不方便。計(jì)算與存儲(chǔ)的解耦,可以讓我們更加方便的管理計(jì)算與存儲(chǔ)資源。在大規(guī)模數(shù)據(jù)處理場(chǎng)景下,管理員可以快速的單獨(dú)擴(kuò)展計(jì)算或存儲(chǔ)資了統(tǒng)一存儲(chǔ),可以被多種計(jì)算引擎所共享。因此,存算分離是湖倉(cāng)一體平臺(tái)必備的技術(shù)之一。算層與存儲(chǔ)層的映射關(guān)系,節(jié)點(diǎn)異常處理、如何保證讀寫(xiě)一致等問(wèn)題。通常是云原生數(shù)據(jù)庫(kù)的重要特性之一。(2)高性能計(jì)算引擎技術(shù)存算分離以后勢(shì)必帶來(lái)更多的網(wǎng)絡(luò)開(kāi)銷(xiāo),影響數(shù)據(jù)庫(kù)集群的整體性能。因而需要通過(guò)其他方面的增強(qiáng)來(lái)彌補(bǔ)這一損耗。其中一個(gè)重要的途徑就是通過(guò)優(yōu)化計(jì)算引擎來(lái)增強(qiáng)性能。采用基于代價(jià)的優(yōu)化器(CBO),通過(guò)算法來(lái)動(dòng)態(tài)選擇每個(gè)SQL的最優(yōu)查詢(xún)計(jì)劃,彈性的執(zhí)行引擎可以動(dòng)態(tài)調(diào)整計(jì)算單元,使得資源使用更加合理和高效。在計(jì)算層通過(guò)使用向量化執(zhí)行器可以大大提升SQL的執(zhí)行速度,由于存算分離會(huì)帶來(lái)額外的網(wǎng)絡(luò)開(kāi)銷(xiāo),因此計(jì)算層采用分布式的緩存服務(wù),采用基于LRU協(xié)議的緩存管理機(jī)制,用戶(hù)還可根據(jù)情況動(dòng)態(tài)配置緩存空間的大小,緩存支持使用內(nèi)存和計(jì)算節(jié)點(diǎn)的本地磁盤(pán)空間。節(jié)點(diǎn)之間的通訊協(xié)議,改為采用UDP的互聯(lián)協(xié)議,可以大大提升通訊效率。性能的提升意味著在單位時(shí)間內(nèi)云原生湖倉(cāng)一體平臺(tái)可以處理更多的數(shù)據(jù)。(3)多活主節(jié)點(diǎn)支持超高并發(fā)云原生湖倉(cāng)一體平臺(tái)的主節(jié)點(diǎn)采用多活主節(jié)點(diǎn)集群部署,主節(jié)點(diǎn)采用無(wú)狀態(tài)設(shè)計(jì),各主節(jié)點(diǎn)之間沒(méi)有相互依賴(lài)關(guān)系,不存儲(chǔ)任何元數(shù)據(jù)。用戶(hù)可以非常方便的對(duì)主節(jié)點(diǎn)集群進(jìn)行擴(kuò)展,以處理更多的連接請(qǐng)求(JDBC/ODBC)。主節(jié)點(diǎn)可以在線增減,實(shí)現(xiàn)資源的動(dòng)態(tài)調(diào)度。例如當(dāng)用戶(hù)請(qǐng)求越來(lái)越多時(shí),用戶(hù)可以根據(jù)情況隨意增加一個(gè)或多個(gè)主節(jié)點(diǎn),反之則可以減少一個(gè)或多個(gè)主節(jié)點(diǎn)。主節(jié)點(diǎn)的動(dòng)態(tài)增減不會(huì)影響數(shù)據(jù)庫(kù)的服務(wù)。當(dāng)主節(jié)點(diǎn)集群中某個(gè)節(jié)點(diǎn)出現(xiàn)故障時(shí),也不會(huì)影響整個(gè)集群的可用性。支持用戶(hù)可視化的方式輕松完成擴(kuò)容。(4)元數(shù)據(jù)集群高可用元數(shù)據(jù)集群架構(gòu)采用P2P去中心化完全對(duì)等網(wǎng)絡(luò)架構(gòu),集群內(nèi)無(wú)固定主節(jié)點(diǎn),通過(guò)一致性協(xié)議算法實(shí)現(xiàn)節(jié)點(diǎn)的數(shù)據(jù)同步,當(dāng)某一節(jié)點(diǎn)保了元數(shù)據(jù)的安全。各個(gè)主節(jié)點(diǎn)將同時(shí)并發(fā)連接每個(gè)元數(shù)據(jù)節(jié)點(diǎn),因此,元數(shù)據(jù)集群內(nèi)不存在單點(diǎn)瓶頸,實(shí)現(xiàn)了元數(shù)據(jù)讀寫(xiě)的負(fù)載均衡。(5)多虛擬計(jì)算集群支持混合負(fù)載在存算分離基礎(chǔ)上,多虛擬計(jì)算集群支持對(duì)用戶(hù)訪問(wèn)的CPU和內(nèi)存資源的物理隔離。多虛擬計(jì)算集群(VirtualCluster)可以將一個(gè)超大規(guī)模計(jì)算節(jié)點(diǎn)根據(jù)負(fù)載情況劃分為多個(gè)虛擬計(jì)算子集群。數(shù)據(jù)庫(kù)管理員可通過(guò)配置,將用戶(hù)與某個(gè)VC進(jìn)行綁定。當(dāng)用戶(hù)發(fā)起執(zhí)行請(qǐng)對(duì)應(yīng)的VC資源來(lái)執(zhí)行,當(dāng)VC資源不速增加從其他VC中調(diào)度計(jì)算資源來(lái)給VC進(jìn)行擴(kuò)以大大提高資源利用率,從而減少硬件資源的投入。(6)可插拔存儲(chǔ)框架可插拔存儲(chǔ)框架實(shí)現(xiàn)計(jì)算資源可同時(shí)訪問(wèn)不同類(lèi)型的存儲(chǔ),如:HDFS存儲(chǔ)、基于S3協(xié)議的對(duì)象存儲(chǔ)以及分布式表存儲(chǔ)。通過(guò)可插通過(guò)配置,新增一套或多套存儲(chǔ)系統(tǒng),并且這種異構(gòu)的存儲(chǔ)對(duì)于用戶(hù)訪問(wèn)是透明的,即用戶(hù)無(wú)需知道數(shù)據(jù)存放在哪種存儲(chǔ)上,而是直接通過(guò)表名讀寫(xiě)數(shù)據(jù)??刹灏未鎯?chǔ)框架還可以支持二次開(kāi)發(fā),用戶(hù)可通過(guò)二次開(kāi)發(fā)使得計(jì)算引擎對(duì)接未來(lái)新出現(xiàn)的存儲(chǔ)系統(tǒng)。平臺(tái)可以對(duì)接多套HDFS,并且對(duì)用戶(hù)無(wú)感。(7)多虛擬存儲(chǔ)集群實(shí)現(xiàn)磁盤(pán)IO的隔離上述的可插拔存儲(chǔ)框架實(shí)現(xiàn)了計(jì)算資源與存儲(chǔ)的對(duì)接,但是在實(shí)際使用中,依然存在著存儲(chǔ)中磁盤(pán)IO資源的競(jìng)爭(zhēng),因此多虛擬存儲(chǔ)的功能實(shí)現(xiàn)類(lèi)似于HDFS的聯(lián)邦功能。多虛擬存儲(chǔ)集群支持用戶(hù)將多套HDFS集群或分布式表存儲(chǔ)集群劃分為一套虛擬存儲(chǔ)集群(VirtualStorageCluster)。開(kāi)發(fā)人員在進(jìn)行數(shù)據(jù)建模時(shí),可以根據(jù)磁盤(pán)IO的負(fù)載情況,將不同負(fù)載的表建在不同的VSC中,就可實(shí)現(xiàn)負(fù)載的隔綁定關(guān)系,可以被任意的計(jì)算資源訪問(wèn),保證了數(shù)據(jù)的共享。同時(shí),云原生湖倉(cāng)一體平臺(tái)根據(jù)使用量自動(dòng)將不同的表分布到統(tǒng)一VSC中的不同HDFS集群或分布式表存儲(chǔ)集群中,從而實(shí)現(xiàn)數(shù)據(jù)的均勻分布。基于這個(gè)特性,用戶(hù)在進(jìn)行存儲(chǔ)擴(kuò)容時(shí)就實(shí)現(xiàn)在線的秒級(jí)擴(kuò)容而無(wú)須進(jìn)行數(shù)據(jù)重分布。當(dāng)某一VSC存儲(chǔ)空間不夠時(shí),用戶(hù)可以新部署一套HDFS集群加入到VSC中,即實(shí)現(xiàn)了存儲(chǔ)空間的擴(kuò)容,又無(wú)須進(jìn)行人工干預(yù)。(8)高性能分布式表存儲(chǔ)支持實(shí)時(shí)數(shù)據(jù)讀寫(xiě)在實(shí)時(shí)場(chǎng)景中,數(shù)據(jù)往往是逐條進(jìn)行插入、更新或刪除,這種對(duì)HDFS或?qū)ο蟠鎯?chǔ)僅適合對(duì)景的業(yè)務(wù)需求。因此,云原生湖倉(cāng)一體平臺(tái)需要引入分布式表存儲(chǔ)支持高并發(fā)、事務(wù)以及提供索引,并且原生支持?jǐn)?shù)據(jù)更新和刪除。在云湖倉(cāng)一體平臺(tái)的架構(gòu)中,分布式表存儲(chǔ)與HDFS、對(duì)象存儲(chǔ)平行,是能夠獨(dú)立運(yùn)行的存儲(chǔ)系統(tǒng),不依賴(lài)第三方組件。分布式表存儲(chǔ)的主要特性有:?采用完全點(diǎn)對(duì)點(diǎn)(P2P)無(wú)中心分布式存儲(chǔ)(相比主從架構(gòu)更容易管理更容易擴(kuò)展)?結(jié)構(gòu)化數(shù)據(jù)定義存儲(chǔ)(不是簡(jiǎn)單鍵值對(duì)形式存儲(chǔ))?支持?jǐn)?shù)據(jù)的增刪改查(提供真正的INSERTUPDATEDELETE?支持基于Raft協(xié)議數(shù)據(jù)復(fù)制實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)和訪問(wèn)服務(wù)的高可用?支持基于多版本MVCC的分布式事務(wù)特性?目前提供針對(duì)分析型負(fù)載的高性能數(shù)據(jù)查詢(xún)能力(行列混合存儲(chǔ)格式)?支持?jǐn)?shù)據(jù)索引功能(包括主鍵索引,非主鍵索引)?整合數(shù)據(jù)預(yù)處理技術(shù)提升數(shù)據(jù)查詢(xún)性能(非純粹的數(shù)據(jù)存儲(chǔ)實(shí)現(xiàn),具有內(nèi)建計(jì)算能力)?便捷的集群動(dòng)態(tài)擴(kuò)展?自動(dòng)集群容錯(cuò)和負(fù)載均衡能力從讀寫(xiě)性能的角度比較,分布式表存儲(chǔ)的性能優(yōu)于HDFS,HDFS的性能優(yōu)于對(duì)象存儲(chǔ)。因此,在實(shí)際使用中通常會(huì)把T+0的實(shí)時(shí)數(shù)據(jù)寫(xiě)入分布式表存儲(chǔ),T+1的批量數(shù)據(jù)寫(xiě)入HDFS,而對(duì)象存儲(chǔ)由于更據(jù)。從用戶(hù)視角看,開(kāi)發(fā)人員需要基于不同使用場(chǎng)景把不同的表建立到不同的存儲(chǔ)中,在之后的使用中則不再感知異構(gòu)的存儲(chǔ),也就是說(shuō)用戶(hù)直接通過(guò)表名即可查詢(xún)各種類(lèi)型存儲(chǔ)中的數(shù)據(jù),也可以把存儲(chǔ)在不同類(lèi)型存儲(chǔ)中的數(shù)據(jù)進(jìn)行關(guān)聯(lián)查詢(xún)、計(jì)算、比較等不同的操作。如下圖所示:(9)Hadoop生態(tài)兼容能力云原生湖倉(cāng)一體平臺(tái)可以直接使用Hadoop生態(tài)普遍使用的HDFS來(lái)作為數(shù)據(jù)存儲(chǔ),同時(shí)存儲(chǔ)格式使用開(kāi)源社區(qū)比較通用的orc理的數(shù)據(jù)表也同樣可以被Hive訪問(wèn)。程或結(jié)果數(shù)據(jù),另一類(lèi)是通過(guò)CDC工具采集的實(shí)時(shí)變化的數(shù)據(jù)。云原生湖倉(cāng)一體平臺(tái)支持這兩類(lèi)數(shù)據(jù)的同時(shí)讀寫(xiě)。例如:Flink可直接使用SQL直接查詢(xún)。此外,云原生湖倉(cāng)一體平臺(tái)支持使用Hudi、Iceberg開(kāi)源數(shù)據(jù)湖格式,用戶(hù)也可以選擇將實(shí)時(shí)數(shù)據(jù)直接寫(xiě)為Hudi或Iceberg格式,這樣可以將數(shù)據(jù)統(tǒng)一存儲(chǔ)到HDFS中,實(shí)現(xiàn)數(shù)據(jù)的物理統(tǒng)一。3.云原生湖倉(cāng)一體六大特性對(duì)于上述云原生湖倉(cāng)一體的關(guān)鍵技術(shù),我們從用戶(hù)角度概括成六個(gè)代表字母的ANCHOR特性。A(AllDataTypes:支持多類(lèi)型數(shù)據(jù))、N(NativeonCloud:云原生)、C(Consistency:數(shù)據(jù)一致性)、H(HighConcurrency:超高并發(fā))、O(OneCopyofData:一份數(shù)據(jù))、R(Real-Time:實(shí)時(shí)T+0)。?支持多類(lèi)型數(shù)據(jù)(AllDataTypes,Structured&Unstructured):支持關(guān)系表、文本、圖像、視頻等結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)?云原生(NativeonCloud):適合云環(huán)境,自由增減計(jì)算和存?數(shù)據(jù)一致性(Consistency):通過(guò)完善的事務(wù)機(jī)制,保障不同用戶(hù)同時(shí)查詢(xún)和更新同一份數(shù)據(jù)時(shí)的一致性。?超高并發(fā)(HighConcurrency):支持?jǐn)?shù)十萬(wàn)用戶(hù)使用復(fù)雜分析查詢(xún)并發(fā)訪問(wèn)同一份數(shù)據(jù)。?一份數(shù)據(jù)(OneCopyofData):所有用戶(hù)(BI用戶(hù)、數(shù)據(jù)科學(xué)家等)可以共享同一份數(shù)據(jù),避免數(shù)據(jù)孤島。?實(shí)時(shí)T+0(Real-Time):通過(guò)全量數(shù)據(jù)T+0的流處理和實(shí)時(shí)據(jù)的事前預(yù)測(cè)、事中判斷和事后分析。1.主要技術(shù)路線對(duì)比分析目前,常見(jiàn)的湖倉(cāng)一體技術(shù)方案主要有兩大類(lèi)型:基于傳統(tǒng)Hadoop架構(gòu)的方案,以及基于云原生數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)的方案?;趥鹘y(tǒng)Hadoop的方案主要從事務(wù)特性出發(fā)進(jìn)行優(yōu)化,基于HDFS或S3實(shí)現(xiàn)一個(gè)支持事務(wù)的存儲(chǔ)層,其他方面與Hadoop區(qū)別不大。而云原生數(shù)據(jù)倉(cāng)庫(kù),其存算分離特性更具有技術(shù)前瞻性,該架構(gòu)將是未來(lái)的發(fā)展趨勢(shì)。傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)傳統(tǒng)數(shù)據(jù)湖平臺(tái) 進(jìn)性離高中低高低低事務(wù)ACID事務(wù)ACID支持差模>1000001001000L非引擎儲(chǔ):HDFSS/Magma儲(chǔ)FSS格式Hudi等否否一體ushuDB否否一份數(shù)據(jù)低低高度低低高2.云原生湖倉(cāng)一體的建設(shè)路徑從云原生湖倉(cāng)一體平臺(tái)的建設(shè)方式上,企業(yè)可以結(jié)合業(yè)務(wù)情況、已有數(shù)據(jù)平臺(tái)情況等方面出發(fā)進(jìn)行建設(shè)路徑的規(guī)劃,主要有以下三種建設(shè)途徑:?從數(shù)據(jù)倉(cāng)庫(kù)到云原生湖倉(cāng)一體企業(yè)目前數(shù)據(jù)類(lèi)應(yīng)用主要集中在數(shù)據(jù)倉(cāng)庫(kù),而且總體數(shù)據(jù)量也不生的湖倉(cāng)一體平臺(tái)建設(shè)。首先從數(shù)據(jù)倉(cāng)庫(kù)開(kāi)始進(jìn)行技術(shù)平臺(tái)的升級(jí),選擇云原生的數(shù)據(jù)庫(kù)產(chǎn)品進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的遷移替換,將底層“倉(cāng)”的存儲(chǔ)和“湖”的存儲(chǔ)現(xiàn)數(shù)據(jù)打通,建立統(tǒng)一的數(shù)據(jù)模型。?從數(shù)據(jù)湖到云原生湖倉(cāng)一體采用從數(shù)據(jù)湖到湖倉(cāng)一體的建設(shè)方式,最終實(shí)現(xiàn)云原生湖倉(cāng)一體平臺(tái)。在現(xiàn)有的數(shù)據(jù)湖上進(jìn)行技術(shù)平臺(tái)升級(jí),在湖上增加具備數(shù)據(jù)倉(cāng)庫(kù)計(jì)算能力的組件并將新的業(yè)務(wù)應(yīng)用部署到湖倉(cāng)一體平臺(tái)上,逐步將原有的數(shù)據(jù)倉(cāng)庫(kù)和集市的數(shù)據(jù)和應(yīng)用都遷移到湖倉(cāng)一體平臺(tái)上。?數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)融合建設(shè)倉(cāng)融合為一個(gè)產(chǎn)品的解決方案,底層的數(shù)據(jù)產(chǎn)品均具備云原生特性、計(jì)算存儲(chǔ)分離彈性可擴(kuò)展架構(gòu)、強(qiáng)ACID特性、強(qiáng)SQL標(biāo)準(zhǔn)支持、高性能并行執(zhí)行能力。使用一個(gè)入口,并保證強(qiáng)事務(wù)一致性。一的數(shù)據(jù)模型進(jìn)行管理,并只保留一份。工序,數(shù)據(jù)存儲(chǔ)原則等。最終完成云原生湖倉(cāng)一體平臺(tái)的建設(shè)。1.用戶(hù)體驗(yàn)的提升云原生湖倉(cāng)一體平臺(tái)能夠大大提升用戶(hù)的數(shù)據(jù)服務(wù)體驗(yàn):管理人員:一個(gè)湖倉(cāng)一體的平臺(tái)可以統(tǒng)一運(yùn)營(yíng)企業(yè)內(nèi)所有應(yīng)用的數(shù)據(jù),不需要單獨(dú)考慮不同數(shù)據(jù)平臺(tái)產(chǎn)品的部署、招標(biāo)采購(gòu)、擴(kuò)容等問(wèn)題,提升了管理決策的效率,降低了管理運(yùn)營(yíng)的成本。降低。而且湖倉(cāng)一體平臺(tái)存算分離的架構(gòu),支持計(jì)算資源與存儲(chǔ)資源的單獨(dú)橫向擴(kuò)容和縮容,給日常的升級(jí)維護(hù)帶來(lái)極大的便利。業(yè)務(wù)人員:湖倉(cāng)一體平臺(tái)實(shí)現(xiàn)超高的并發(fā),一個(gè)平臺(tái)支撐所有數(shù)據(jù)存儲(chǔ)、計(jì)算、分析的需求,并提供面向業(yè)務(wù)部門(mén)的自助數(shù)據(jù)分析服務(wù),在實(shí)際工作中不需要切換平臺(tái)進(jìn)行業(yè)務(wù)實(shí)現(xiàn);數(shù)據(jù)底層共用一份數(shù)據(jù),用戶(hù)之間可以很方便地共享數(shù)據(jù)。2.數(shù)據(jù)平臺(tái)運(yùn)營(yíng)成本下降云原生湖倉(cāng)一體平臺(tái)支持資源物理隔離,按照業(yè)務(wù)需求分配資源,大大提升資源利用率、硬件資源池按需建設(shè),采購(gòu)規(guī)模下降、折舊減少。通過(guò)湖倉(cāng)一體平臺(tái)可以有效降低數(shù)據(jù)平臺(tái)運(yùn)營(yíng)成本,主要體現(xiàn)在?湖倉(cāng)一體平臺(tái)完成了數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市和數(shù)據(jù)湖的數(shù)據(jù)整省大約3倍-5倍存儲(chǔ)空間和資源成本。?平臺(tái)基于一份數(shù)據(jù),避免了不同數(shù)據(jù)平臺(tái)間的數(shù)據(jù)傳輸和拷貝,一般在數(shù)據(jù)處理任務(wù)中數(shù)據(jù)同步作業(yè)占到總作業(yè)量50%左右。開(kāi)發(fā)工作量可以節(jié)省1倍左右、平臺(tái)算力資源節(jié)省1?湖倉(cāng)一體平臺(tái)基于云平臺(tái)進(jìn)行部署,不再依賴(lài)底層單節(jié)點(diǎn)的計(jì)算和存儲(chǔ)資源,由云平臺(tái)統(tǒng)一進(jìn)行合理的安排和管理。不同配置的服務(wù)器都可以通過(guò)云平臺(tái)提供算力資源和存儲(chǔ)資源。3.管理、開(kāi)發(fā)和運(yùn)維的效率提升和業(yè)務(wù)部門(mén)的協(xié)同工作效率,降低管理成本,具體體現(xiàn)在以下方面:?管理人員相比原來(lái)的平臺(tái)可以近乎實(shí)時(shí)的了解企業(yè)業(yè)務(wù)現(xiàn)狀,第一時(shí)間做出決策;?運(yùn)維人員僅需維護(hù)和管理一個(gè)平臺(tái),極大地減少了運(yùn)維壓力?湖倉(cāng)一體平臺(tái)能夠超高并發(fā)的處理多業(yè)務(wù)場(chǎng)景,不需要額外學(xué)習(xí)其他產(chǎn)品,有效地降低了技術(shù)開(kāi)發(fā)門(mén)檻。?平臺(tái)基于一份數(shù)據(jù),還降低了數(shù)據(jù)治理難度。降低了數(shù)據(jù)治理類(lèi)項(xiàng)目成本投入;避免了數(shù)據(jù)同步作業(yè)開(kāi)發(fā),開(kāi)發(fā)工作量節(jié)省1倍左右、減少1倍左右的項(xiàng)目成本;同時(shí),作業(yè)的鏈?云原生湖倉(cāng)一體平臺(tái)具備的實(shí)時(shí)特性支持業(yè)務(wù)創(chuàng)新,增強(qiáng)用戶(hù)體驗(yàn),可以讓用戶(hù)與金融行業(yè)的企業(yè)之間互動(dòng)更加頻繁,帶來(lái)最佳用戶(hù)體驗(yàn),形成業(yè)務(wù)發(fā)展的新模式,帶來(lái)新價(jià)值。覆蓋銀行、券商、保險(xiǎn)等細(xì)分領(lǐng)域,可以幫助企業(yè)應(yīng)對(duì)數(shù)字化轉(zhuǎn)型過(guò)程中的創(chuàng)新難題。2020年,大數(shù)據(jù)DataBricks公司首次提出了湖倉(cāng)一體(Data出就得到眾多廠商的推崇。湖倉(cāng)一體技術(shù)依托硬件層提供的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)能力,實(shí)現(xiàn)數(shù)據(jù)采集、匯聚、計(jì)算、分析,是整個(gè)“湖倉(cāng)一體”的生態(tài)基石。湖倉(cāng)一體通過(guò)基礎(chǔ)軟件層的技術(shù)創(chuàng)新,打破了數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)在存儲(chǔ)、計(jì)算、網(wǎng)絡(luò)三個(gè)層面割裂的體系,并將數(shù)據(jù)湖的靈活性、生態(tài)豐富能力與數(shù)據(jù)倉(cāng)庫(kù)的企業(yè)級(jí)部署能力進(jìn)行融合,構(gòu)建了數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)相融合的數(shù)據(jù)管理平臺(tái)?!昂}(cāng)一體”繼承了數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)處理和管理優(yōu)勢(shì),打通了數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)兩套體系,讓數(shù)據(jù)和計(jì)算在湖和倉(cāng)之間自由流動(dòng),既能面向業(yè)務(wù)實(shí)現(xiàn)高并發(fā)、精準(zhǔn)化、高性能的數(shù)據(jù)實(shí)時(shí)查詢(xún)服務(wù),又能承載分析報(bào)表、批處理、數(shù)據(jù)挖掘等分析型業(yè)務(wù)。軟件層面,企業(yè)在數(shù)據(jù)接入、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理、數(shù)據(jù)分析等不同技術(shù)方向做出了新的嘗試。在服務(wù)層面,根據(jù)不同行業(yè)場(chǎng)景的具體應(yīng)用需求,各大廠商紛紛為用戶(hù)提供行業(yè)定制化的解決方案,幫助企業(yè)解決數(shù)據(jù)孤島、實(shí)時(shí)數(shù)據(jù)分析、高性能處理、高并發(fā)查詢(xún)、資源彈性伸縮等難題。為企業(yè)提供安全可靠的“湖倉(cāng)一體解決方案”,構(gòu)建融合創(chuàng)新的新一代數(shù)據(jù)平1.Lambda數(shù)據(jù)框架Lambda數(shù)據(jù)處理框架由Storm的作者NathanMarz首次提出,目標(biāo)是設(shè)計(jì)出一個(gè)能滿足實(shí)時(shí)大數(shù)據(jù)系統(tǒng)關(guān)鍵特性的架構(gòu),整合離線計(jì)算和實(shí)時(shí)計(jì)算,讀寫(xiě)分離和復(fù)雜性隔離等,可集成Hadoop,Kafka,Storm,Spark,Hbase等各類(lèi)大數(shù)據(jù)組件。Lambda架構(gòu)通過(guò)把數(shù)據(jù)分解為服務(wù)層(ServingLayer)、速度層(SpeedLayer,亦即流處理層)、批處理層(BatchLayer)三層來(lái)解決不同數(shù)據(jù)集的數(shù)據(jù)需求。在批處理層主要對(duì)離線數(shù)據(jù)進(jìn)行處理,將接進(jìn)行完整的計(jì)算,最后以批視圖的形式提供給業(yè)務(wù)應(yīng)用。由于服務(wù)層通常使用MySQL,HBase等實(shí)現(xiàn),供業(yè)務(wù)應(yīng)用查詢(xún)圖通常就是MySQL中的表信息,流處理作業(yè)在新數(shù)據(jù)到來(lái)后不停更戶(hù)需求把批處理層和流處理層產(chǎn)生的數(shù)據(jù)合并到一起得到最終的數(shù)2.Kappa數(shù)據(jù)框架Kappa架構(gòu)在Lambda架構(gòu)的基礎(chǔ)上移除了批處理層,利用流計(jì)a處理的對(duì)象是所有歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù),其產(chǎn)生的結(jié)果我們稱(chēng)之為實(shí)時(shí)批視圖(Realtime_Batch_View)。ka (StreamJob_Version_N+1),該作業(yè)會(huì)從Kafka中讀取所有歷史數(shù)據(jù)和新增數(shù)據(jù),直到追上舊版本作業(yè)(StreamJob_Version_N),舊的作業(yè)版本才會(huì)停止。Kappa架構(gòu)通過(guò)這種方法升級(jí)流處理程序,架構(gòu)的流處理系統(tǒng)通常使用SparkStreaming或者Flink等實(shí)現(xiàn),服務(wù)層通常當(dāng)前各行各業(yè)的云原生湖倉(cāng)一體建設(shè)剛起步,本次白皮書(shū)重點(diǎn)介紹金融行業(yè)場(chǎng)景,選擇了中國(guó)建設(shè)銀行、中國(guó)人壽、中信建投等金融機(jī)構(gòu),分析最近3年在云原生湖倉(cāng)一體技術(shù)上的研究成果和實(shí)踐探索。當(dāng)前,金融行業(yè)普遍存在數(shù)據(jù)倉(cāng)庫(kù)和大數(shù)據(jù)平臺(tái)兩套數(shù)據(jù)平臺(tái)各司其職的情況。在湖倉(cāng)一體建設(shè)思路上,由于歷史包袱沉重,多數(shù)企業(yè)規(guī)劃將兩套數(shù)據(jù)平臺(tái)體系通過(guò)統(tǒng)一的云平臺(tái)以及軟件工具實(shí)現(xiàn)一定程度的資源共享和數(shù)據(jù)互訪。但是,數(shù)據(jù)平臺(tái)的五大難題依然存在。從云原生湖倉(cāng)一體建設(shè)的六大特性來(lái)看,企業(yè)選擇轉(zhuǎn)型為云原生湖倉(cāng)一體可以為企業(yè)帶來(lái)巨大的經(jīng)濟(jì)效益和社會(huì)效益。因此,我們建議企業(yè)可以將云原生湖倉(cāng)一體平臺(tái)的建設(shè)確定為企業(yè)數(shù)據(jù)平臺(tái)建設(shè)平臺(tái)的平穩(wěn)過(guò)渡,可以考慮將業(yè)務(wù)部門(mén)的新業(yè)務(wù)、傳統(tǒng)領(lǐng)域中的創(chuàng)新業(yè)務(wù),以及傳統(tǒng)業(yè)務(wù)中對(duì)性能要求高、對(duì)數(shù)據(jù)共享能力要求高的業(yè)務(wù)遷移到新建的云原生湖倉(cāng)一體平臺(tái)上,以實(shí)現(xiàn)企業(yè)云原生湖倉(cāng)一體平臺(tái)價(jià)值的最大化,并在后續(xù)的運(yùn)營(yíng)中形成符合企業(yè)獨(dú)有特色的云原生湖倉(cāng)一體平臺(tái)。中國(guó)建設(shè)銀行在多年的數(shù)據(jù)平臺(tái)建設(shè)中,逐步匯聚了多種數(shù)據(jù)平臺(tái)的技術(shù)棧,積累了PB級(jí)的海量數(shù)據(jù),同時(shí)也帶來(lái)了數(shù)據(jù)冗余、加工流程復(fù)雜、數(shù)據(jù)服務(wù)效率無(wú)法滿足業(yè)務(wù)需求等一些亟待解決的問(wèn)題。建行于2019年提出了關(guān)于“數(shù)據(jù)供應(yīng)鏈的時(shí)效性和可用性”的要求,確定了加快推進(jìn)“數(shù)據(jù)湖建設(shè)”的決議。同年,啟動(dòng)了數(shù)據(jù)湖建設(shè)技術(shù)路線的研究工作,并確定了云原生、高性能、穩(wěn)定安全、自主可控的技術(shù)原則。開(kāi)源的數(shù)據(jù)湖方案。經(jīng)過(guò)多輪全面的測(cè)試和對(duì)比確定了以ApacheHAWQ作為建行未來(lái)湖倉(cāng)一體建設(shè)的基礎(chǔ)技術(shù)方案,打造建行自主可控的云原生數(shù)據(jù)庫(kù)產(chǎn)品CHAWQ作為建行湖倉(cāng)一體數(shù)據(jù)平臺(tái)建設(shè)的整體解決方案。2020年隨著CHAWQ產(chǎn)品在行內(nèi)部署上線,建行啟動(dòng)將多個(gè)業(yè)務(wù)應(yīng)用遷移到湖倉(cāng)一體平臺(tái)上,由此相比原來(lái)的業(yè)務(wù)運(yùn)運(yùn)營(yíng)成本。由此,建行基于云原生數(shù)據(jù)庫(kù)產(chǎn)品CHAWQ走出了一條適合建行發(fā)展的湖倉(cāng)一體技術(shù)發(fā)展之路。截至2022年底,建行湖倉(cāng)一體平臺(tái)可供數(shù)據(jù)湖上數(shù)百個(gè)分析類(lèi)應(yīng)用場(chǎng)景使用,包括營(yíng)銷(xiāo)、風(fēng)險(xiǎn)管理等,支撐了萬(wàn)億級(jí)別的交易明細(xì)業(yè)數(shù)量減少了近十萬(wàn),大大降低了數(shù)據(jù)平臺(tái)運(yùn)營(yíng)成本。中國(guó)人壽作為國(guó)家大型金融保險(xiǎn)企業(yè),2018年集團(tuán)公司合并營(yíng)業(yè)收入7684億元,合并保費(fèi)收入6463億元,合并總資產(chǎn)近4萬(wàn)億圍全面涵蓋壽險(xiǎn)、財(cái)險(xiǎn)、企業(yè)和職業(yè)年金、銀行、基金、資產(chǎn)管理、財(cái)富管理、實(shí)業(yè)投資、海外業(yè)務(wù)等多個(gè)領(lǐng)域多家公司和機(jī)構(gòu)。集團(tuán)目前采用了SQLSERVER數(shù)據(jù)庫(kù)采集各個(gè)省級(jí)分公司的數(shù)據(jù),并建立了數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)用于報(bào)表的匯總統(tǒng)計(jì)分析。業(yè)務(wù)創(chuàng)新的需求驅(qū)動(dòng)下,國(guó)壽推出用戶(hù)權(quán)益視圖的數(shù)據(jù)服務(wù),對(duì)數(shù)據(jù)平臺(tái)的實(shí)時(shí)采集能力、海量歷史數(shù)據(jù)的流批一體實(shí)時(shí)計(jì)算能力,以及高并發(fā)高性能的秒級(jí)響應(yīng)查詢(xún)能力提出了更高的技術(shù)能力要求。經(jīng)過(guò)充分的研究和必選,最終確定了云原生湖倉(cāng)一體的技術(shù)方向,通過(guò)與相關(guān)廠商開(kāi)展深入探索和測(cè)試,對(duì)未來(lái)云原生湖倉(cāng)一體的平臺(tái)建設(shè)進(jìn)行了架構(gòu)規(guī)劃設(shè)計(jì),并從業(yè)務(wù)角度進(jìn)行創(chuàng)新設(shè)計(jì),逐步發(fā)揮云原生湖倉(cāng)一體平臺(tái)在業(yè)務(wù)領(lǐng)域的巨大價(jià)值。中信建投證券在“科技賦能、運(yùn)營(yíng)升級(jí),以數(shù)字化轉(zhuǎn)型助推客戶(hù)服務(wù)體系建設(shè)”的戰(zhàn)略目標(biāo)指引下,持續(xù)進(jìn)行數(shù)據(jù)平臺(tái)的升級(jí)和建設(shè),逐步建設(shè)了基于GP的數(shù)據(jù)倉(cāng)庫(kù)、基于Hadoop的數(shù)據(jù)湖和基于Flink+kafka的實(shí)時(shí)數(shù)倉(cāng),支撐了公司從各業(yè)務(wù)線到管理的所有應(yīng)用。,平臺(tái)內(nèi)存在多個(gè)數(shù)據(jù)孤島,造成大量的數(shù)據(jù)冗余,從而不斷推升了運(yùn)營(yíng)成本。同時(shí)分散的數(shù)據(jù)也給數(shù)據(jù)管理帶來(lái)了巨大的挑戰(zhàn),為了維護(hù)數(shù)據(jù)的質(zhì)量通常需要花費(fèi)大量的人力和物力成本,并且收效甚微,數(shù)據(jù)質(zhì)量難以保障。進(jìn)入2022年,中信建投緊跟國(guó)家信創(chuàng)戰(zhàn)略的發(fā)展方向,使用國(guó)產(chǎn)的云原生數(shù)據(jù)庫(kù)替換現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)集群,實(shí)現(xiàn)數(shù)倉(cāng)應(yīng)用的平滑過(guò)渡,由于云原生數(shù)據(jù)庫(kù)可直接訪問(wèn)并使用數(shù)據(jù)湖進(jìn)行數(shù)據(jù)存儲(chǔ),從而實(shí)現(xiàn)存儲(chǔ),數(shù)據(jù)應(yīng)用可根據(jù)業(yè)務(wù)需求選擇使用SQL引擎、機(jī)器學(xué)習(xí)引擎或流處理引擎來(lái)加工處理所需要的數(shù)據(jù),各引擎之間可共享一份業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)不再需要跨集群流動(dòng),從而大大增加了數(shù)據(jù)處理的效率,同時(shí)也減少了數(shù)據(jù)冗余。下一步,中信建投證券將繼續(xù)探索數(shù)據(jù)倉(cāng)庫(kù)供給效率,從而加速數(shù)據(jù)這一生產(chǎn)要素在企業(yè)內(nèi)部的應(yīng)用和流動(dòng)。國(guó)公有云IaaS市場(chǎng)規(guī)模達(dá)1614.7億元,同比增長(zhǎng)80.4%;PaaS市場(chǎng)比增
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度禮品包裝設(shè)計(jì)創(chuàng)意授權(quán)合同
- 軟件公司裝修監(jiān)理合同要求
- 企業(yè)級(jí)云計(jì)算服務(wù)解決方案設(shè)計(jì)與實(shí)施
- 粉煤灰銷(xiāo)售合同
- 架子工安全施工的協(xié)議書(shū)
- 農(nóng)產(chǎn)品質(zhì)量安全追溯系統(tǒng)建設(shè)與合作協(xié)議
- 農(nóng)業(yè)綜合開(kāi)發(fā)工作指南與規(guī)范
- 化學(xué)品運(yùn)輸合同
- 三農(nóng)村社區(qū)信息化建設(shè)與管理規(guī)范
- 公共衛(wèi)生與防疫服務(wù)作業(yè)指導(dǎo)書(shū)
- 造價(jià)咨詢(xún)進(jìn)度控制措施全
- 物業(yè)管理服務(wù)房屋及公用設(shè)施維修養(yǎng)護(hù)方案
- 醫(yī)療器械法規(guī)培訓(xùn)
- 2023中華護(hù)理學(xué)會(huì)團(tuán)體標(biāo)準(zhǔn)-注射相關(guān)感染預(yù)防與控制
- 《數(shù)字電子技術(shù)》課程說(shuō)課課件
- 2024河南省鄭州市公安局輔警招聘2024人歷年高頻難、易錯(cuò)點(diǎn)500題模擬試題附帶答案詳解
- 2024年高素質(zhì)農(nóng)民職業(yè)技能大賽(農(nóng)業(yè)經(jīng)理人)賽項(xiàng)考試題庫(kù)-下(多選、判斷題)
- 開(kāi)發(fā)商物業(yè)維修合同
- 德育教育教案8篇-范本兩篇
- JBT 14685-2023 無(wú)油渦旋空氣壓縮機(jī) (正式版)
- 行政倫理學(xué)教程(第四版)課件 第6章?行政良心
評(píng)論
0/150
提交評(píng)論