2023大數(shù)據(jù)湖倉(cāng)一體技術(shù)規(guī)范_第1頁(yè)
2023大數(shù)據(jù)湖倉(cāng)一體技術(shù)規(guī)范_第2頁(yè)
2023大數(shù)據(jù)湖倉(cāng)一體技術(shù)規(guī)范_第3頁(yè)
2023大數(shù)據(jù)湖倉(cāng)一體技術(shù)規(guī)范_第4頁(yè)
2023大數(shù)據(jù)湖倉(cāng)一體技術(shù)規(guī)范_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)湖倉(cāng)一體技術(shù)規(guī)范2023IIIIII前言數(shù)據(jù)是國(guó)家基礎(chǔ)戰(zhàn)略性資源和重要生產(chǎn)要素,數(shù)據(jù)要素是數(shù)字經(jīng)濟(jì)深化發(fā)展的核心引擎。協(xié)同推進(jìn)技術(shù)、模式、業(yè)態(tài)和制度創(chuàng)新,切實(shí)用好數(shù)據(jù)要素,將為經(jīng)濟(jì)社會(huì)數(shù)字化發(fā)展帶來(lái)強(qiáng)勁動(dòng)力。隨著企業(yè)數(shù)字化轉(zhuǎn)型的深入,圍繞數(shù)據(jù),涌現(xiàn)出更大規(guī)模、更復(fù)雜的數(shù)據(jù)處理系統(tǒng),現(xiàn)代商業(yè)智能、多模式數(shù)據(jù)處理、人工智能和機(jī)器學(xué)習(xí)等等用來(lái)構(gòu)建新一代數(shù)據(jù)基礎(chǔ)設(shè)施正在興起。大數(shù)據(jù)平臺(tái)架構(gòu)通常是數(shù)據(jù)湖(hadoop)和數(shù)據(jù)倉(cāng)庫(kù)(MPP數(shù)據(jù)庫(kù))的混合架構(gòu),由于湖和倉(cāng)之間的技術(shù)架構(gòu)不一樣,導(dǎo)致出現(xiàn)數(shù)據(jù)孤島問(wèn)題,在進(jìn)行融合計(jì)算時(shí)需進(jìn)行數(shù)據(jù)拷貝,會(huì)造成數(shù)據(jù)冗余存儲(chǔ)。為打破數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)割裂的體系,架構(gòu)上融合數(shù)據(jù)湖的靈活性、生態(tài)豐富和數(shù)據(jù)倉(cāng)庫(kù)的企業(yè)級(jí)能力,推出《大數(shù)據(jù)湖倉(cāng)一體技術(shù)標(biāo)準(zhǔn)》,打通數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖兩套體系,讓數(shù)據(jù)和計(jì)算在湖和倉(cāng)之間自由流動(dòng),從而構(gòu)建一個(gè)完整的有機(jī)的大數(shù)據(jù)技術(shù)生態(tài)體系。PAGE\*ROMANPAGE\*ROMANIV目錄版權(quán)聲明 I編制說(shuō)明 II前言 III一、范圍 1二、縮略語(yǔ) 1三、參考標(biāo)準(zhǔn) 1四、湖倉(cāng)一體技術(shù)架構(gòu) 1(一)統(tǒng)一存儲(chǔ) 2(二)統(tǒng)一元數(shù)據(jù) 3(三)統(tǒng)一計(jì)算 3(四)統(tǒng)一服務(wù) 3(五)統(tǒng)一運(yùn)維 3(六)安全管理 3(七)湖倉(cāng)一體架構(gòu)演進(jìn) 3五、統(tǒng)一存儲(chǔ)能力要求 3(一)分布式文件系統(tǒng) 4基礎(chǔ)能力 4數(shù)據(jù)接入 4數(shù)據(jù)格式 4數(shù)據(jù)訪問(wèn)接口 5存儲(chǔ)分級(jí) 5數(shù)據(jù)可靠性 5文件操作 6(二)負(fù)載均衡功能 6(三)數(shù)據(jù)緩存加速 6(四)數(shù)據(jù)組織格式 7六、統(tǒng)一元數(shù)據(jù)能力要求 7(一)元數(shù)據(jù)注冊(cè) 8(二)數(shù)據(jù)源管理 8(三)元數(shù)據(jù)采集 8(四)元數(shù)據(jù)稽核 8(五)元數(shù)據(jù)管理 9(六)元數(shù)據(jù)服務(wù) 9(七)元數(shù)據(jù)追溯和審計(jì) 9七、統(tǒng)一計(jì)算能力要求 9(一)批處理引擎 10(二)流處理引擎 10(三)交互式查詢引擎 10(四)交互式分析引擎 10(五)機(jī)器學(xué)習(xí)引擎 11八、統(tǒng)一服務(wù)能力要求 11(一)統(tǒng)一開(kāi)發(fā)能力 11通用開(kāi)發(fā)能力要求 11湖倉(cāng)一體開(kāi)發(fā)能力要求 12開(kāi)放對(duì)接要求 12(二)統(tǒng)一調(diào)度能力 12調(diào)度配置 13觸發(fā)方式 13任務(wù)協(xié)同調(diào)度 13流程控制 13容錯(cuò)管理 13(三)統(tǒng)一運(yùn)營(yíng)能力 14數(shù)據(jù)資產(chǎn)化管理 14數(shù)據(jù)價(jià)值管理 14(四)統(tǒng)一開(kāi)放能力 14數(shù)據(jù)服務(wù)開(kāi)放管理 15服務(wù)目錄管理 15數(shù)據(jù)開(kāi)放形式 15(五)統(tǒng)一管理能力 15九、運(yùn)維管理能力要求 15(一)配置管理 15(二)湖倉(cāng)一體運(yùn)維 16(三)在線升級(jí) 16(四)亞健康檢測(cè) 16(五)故障自愈 16(六)日志管理 17(七)北向接口 17十、安全管理能力要求 17十一、湖倉(cāng)一體架構(gòu)平滑演進(jìn) 17(一)數(shù)據(jù)湖向湖倉(cāng)一體演進(jìn) 18(二)數(shù)據(jù)倉(cāng)庫(kù)向湖倉(cāng)一體演進(jìn) 18PAGEPAGE10一、范圍本文件定義了大數(shù)據(jù)湖倉(cāng)一體的技術(shù)架構(gòu),以及統(tǒng)一存儲(chǔ)、統(tǒng)一元數(shù)據(jù)、統(tǒng)一計(jì)算、統(tǒng)一服務(wù)、運(yùn)維管理、安全管理、平滑演進(jìn)相關(guān)能力要求。本文件適用于大數(shù)據(jù)湖倉(cāng)一體架構(gòu)設(shè)計(jì),產(chǎn)品研發(fā)和測(cè)評(píng),以及企業(yè)落地實(shí)施湖倉(cāng)一體架構(gòu)升級(jí)做參考。二、縮略語(yǔ)縮略語(yǔ)英文全名中文解釋CDCChangeDataCapture變更數(shù)據(jù)捕獲,可以記錄數(shù)據(jù)源的增量變動(dòng),同步到一個(gè)或多個(gè)數(shù)據(jù)目的DeltaLakeApacheDeltaLake一種數(shù)據(jù)格式,為ApacheSpark和其他大數(shù)據(jù)引擎提供可伸縮的ACID事務(wù)FlinkApacheFlinkApacheFlink是一個(gè)框架和分布式處理引擎,用于在無(wú)邊界和有邊界數(shù)據(jù)流上進(jìn)行有狀態(tài)的計(jì)算HadoopApacheHadoop由Apache基金會(huì)所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)HDFSApacheHDFSHadoop分布式文件系統(tǒng)(HadoopDistributedFilesystem)HiveApacheHive基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具HudiApacheHudi一個(gè)開(kāi)源Apache Spark庫(kù),用于在ApacheHadoop上執(zhí)行諸如更新,插入和刪除之類的操作IcebergApacheIceberg一種面向海量數(shù)據(jù)分析場(chǎng)景的開(kāi)放表格式MRApacheMapReduce一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算TezApacheTezApache支持DAG作業(yè)的開(kāi)源計(jì)算框架SparkApacheSpark基于內(nèi)存計(jì)算的開(kāi)源的集群計(jì)算系統(tǒng)三、參考標(biāo)準(zhǔn)GB/T37939-2019 信息安全技術(shù)網(wǎng)絡(luò)存儲(chǔ)安全技術(shù)要求YD/T4029-2022 計(jì)算存儲(chǔ)分離架構(gòu)的分布式存儲(chǔ)技術(shù)要四、湖倉(cāng)一體技術(shù)架構(gòu)湖倉(cāng)一體是一種新的大數(shù)據(jù)架構(gòu),融合數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)勢(shì),實(shí)現(xiàn)數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)無(wú)縫打通,提升數(shù)據(jù)分析效率,同時(shí)還能減小數(shù)據(jù)冗余和搬遷,降低成本,支撐企業(yè)大數(shù)據(jù)系統(tǒng)高效運(yùn)行。湖倉(cāng)一體結(jié)合云原生技術(shù),采用存算分離架構(gòu),提供統(tǒng)一開(kāi)放的存儲(chǔ)接口,對(duì)接多樣的計(jì)算引擎,實(shí)現(xiàn)存儲(chǔ)合和計(jì)算靈活規(guī)劃和部署,資源彈性、按需伸縮,從而有效簡(jiǎn)化企業(yè)的數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu)。湖倉(cāng)一體技術(shù)架構(gòu)如下圖所示:在該架構(gòu)中,數(shù)據(jù)統(tǒng)一存儲(chǔ),提供統(tǒng)一元數(shù)據(jù),將大數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)、機(jī)器學(xué)習(xí)、等技術(shù)進(jìn)行整合,形成一套數(shù)據(jù)服務(wù)系統(tǒng),將數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的價(jià)值進(jìn)行疊加,更好地分析、整合數(shù)據(jù)。該架構(gòu)可以很好的克服數(shù)據(jù)重力,讓數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)可以自由流動(dòng),用戶可以便捷地調(diào)取數(shù)據(jù)。借助湖倉(cāng)一體,企業(yè)可高效處理數(shù)倉(cāng)內(nèi)的熱數(shù)據(jù)與數(shù)據(jù)湖中的歷史數(shù)據(jù),并生成豐富的數(shù)據(jù)集,無(wú)需做數(shù)據(jù)搬移。湖倉(cāng)一體技術(shù)架構(gòu)由以下七部分組成。(一)統(tǒng)一存儲(chǔ)接入多種數(shù)據(jù),提供多種數(shù)據(jù)存儲(chǔ)格式,包括數(shù)據(jù)湖的數(shù)據(jù)格式和數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)格式,可以存儲(chǔ)任意規(guī)模的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。通過(guò)通用的數(shù)據(jù)組織格式,如Hudi、Iceberg、DeltLake等,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一存儲(chǔ)訪問(wèn)。(二)統(tǒng)一元數(shù)據(jù)通過(guò)采集、管理數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù),構(gòu)建統(tǒng)一元數(shù)據(jù)目錄和數(shù)據(jù)視圖,實(shí)現(xiàn)數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)共享,提供湖倉(cāng)一體化的元數(shù)據(jù)服務(wù)。(三)統(tǒng)一計(jì)算集成批處理引擎、流處理引擎、交互式查詢引擎、交互式分析引擎、機(jī)器學(xué)習(xí)引擎等通用數(shù)據(jù)處理引擎,覆蓋數(shù)據(jù)處理全場(chǎng)景,通過(guò)統(tǒng)一元數(shù)據(jù)管理,實(shí)現(xiàn)與統(tǒng)一的存儲(chǔ)的無(wú)縫對(duì)接。(四)統(tǒng)一服務(wù)為上層業(yè)務(wù)提供一體化的數(shù)據(jù)服務(wù)體驗(yàn),無(wú)需關(guān)注底層異構(gòu)環(huán)境,為數(shù)據(jù)開(kāi)發(fā)者、數(shù)據(jù)使用者、數(shù)據(jù)運(yùn)營(yíng)管理者提供統(tǒng)湖倉(cāng)一體化服務(wù)能力。(五)統(tǒng)一運(yùn)維滿足多樣化運(yùn)維需求,支撐平臺(tái)管理員、各類運(yùn)維人員或使用者及時(shí)發(fā)現(xiàn)、定位并處理問(wèn)題,提高運(yùn)維效率。(六)安全管理依據(jù)三法一條例,構(gòu)建全面的安全保護(hù)解決方案,從系統(tǒng)層安全、數(shù)據(jù)層安全、應(yīng)用層安全構(gòu)筑完整的安全管理能力。(七)湖倉(cāng)一體架構(gòu)演進(jìn)基于數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)現(xiàn)有能力,對(duì)標(biāo)湖倉(cāng)一體的架構(gòu)進(jìn)行補(bǔ)充與完善,實(shí)現(xiàn)向湖倉(cāng)一體架構(gòu)的平滑演進(jìn)。五、統(tǒng)一存儲(chǔ)能力要求統(tǒng)一存儲(chǔ),提供高可靠、可擴(kuò)展的存儲(chǔ)能力,滿足海量、多樣化的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。面向業(yè)務(wù)訴求,為原始數(shù)據(jù)、中間數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、歸檔數(shù)據(jù)提供存儲(chǔ)空間和數(shù)據(jù)管理能力,滿足不同業(yè)務(wù)對(duì)數(shù)據(jù)訪問(wèn)訴求,實(shí)現(xiàn)熱點(diǎn)數(shù)據(jù)高吞吐、低時(shí)延讀寫,溫冷數(shù)據(jù)大容量、低成本讀寫。提供開(kāi)放、統(tǒng)一的數(shù)據(jù)組織格式,實(shí)現(xiàn)數(shù)據(jù)湖、倉(cāng)數(shù)據(jù)共享。(一)分布式文件系統(tǒng)基礎(chǔ)能力應(yīng)符合YD/T4029-2022中5.6章的要求基礎(chǔ)上,符合如下要求:EB據(jù)存儲(chǔ)。對(duì)外接口:與主流大數(shù)據(jù)、數(shù)據(jù)庫(kù)、AI單文件系統(tǒng)應(yīng)支持十億以上海量文件,業(yè)務(wù)連續(xù)不中斷。數(shù)據(jù)接入a)支持?jǐn)?shù)據(jù)按多種方式接入:批量寫入、實(shí)時(shí)寫入、CDC寫入。b)支持連接多種數(shù)據(jù)庫(kù)、文件系統(tǒng)、消息隊(duì)列。c)支持?jǐn)?shù)據(jù)并行導(dǎo)入/導(dǎo)出。數(shù)據(jù)格式支持關(guān)系表、文本、圖像、視頻等結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ);TXT、CSV、JSON、ApacheParquet、ApacheOrc、HadoopAPIJPEG、BMP、JPG,WAV、FLAC、MP3、AVI、MPEG、RMVB、PDF、TXT、WORD、DOCX等常見(jiàn)文檔格式。壓縮格式要求,根據(jù)不同的業(yè)務(wù)場(chǎng)景,支持采用不同的文件壓縮格式,gzip、lzo、snappy、bzip2數(shù)據(jù)訪問(wèn)接口YD/T4029-20225.5a)S3SMB、NFS、POSIXApacheKAFK、ApachePlusa5.存儲(chǔ)分級(jí)支持熱、溫、冷等不同層級(jí)數(shù)據(jù)存儲(chǔ)需求。支持分級(jí)策略配置,指定整個(gè)存儲(chǔ)系統(tǒng)內(nèi)文件或者指定目錄/件按照分級(jí)策略在不同存儲(chǔ)層級(jí)之間遷移。支持按照文件在指定訪問(wèn)周期內(nèi)的訪問(wèn)頻次,自動(dòng)轉(zhuǎn)換文件的存儲(chǔ)層級(jí)。數(shù)據(jù)可靠性支持采用多副本、EC支持?jǐn)?shù)據(jù)糾刪碼方式保護(hù),支持22+2、20+2、16+2、8+2、4+22應(yīng)支持?jǐn)?shù)據(jù)副本校驗(yàn)和巡檢能力,支持故障副本快速恢復(fù)。硬盤故障,支持?jǐn)?shù)據(jù)自動(dòng)重構(gòu),無(wú)需人工干預(yù);數(shù)據(jù)重構(gòu)對(duì)業(yè)務(wù)性能影20。文件操作應(yīng)支持文件上傳、下載、創(chuàng)建、復(fù)制、刪除、獲取、批量刪除對(duì)象操作。支持設(shè)置文件權(quán)限操作。對(duì)于超大型文件,支持通過(guò)分段的方式上傳或者下載。a)支持追加寫文件。支持使用為文件/對(duì)象添加對(duì)象標(biāo)簽以便分類管理。b)支持通過(guò)對(duì)象標(biāo)簽管理生命周期規(guī)則、跨地域復(fù)制規(guī)則、清單規(guī)則等。c)支持用戶對(duì)于自己的文件系統(tǒng)空間和文件數(shù)量的查詢。(二)負(fù)載均衡功能支持湖倉(cāng)一體架構(gòu)下,多業(yè)務(wù)并行訪問(wèn)數(shù)據(jù)。應(yīng)符合YD/T4029-2022中5.3、5.7和5.8章的負(fù)載均衡相關(guān)要求。(三)數(shù)據(jù)緩存加速支持湖倉(cāng)一體架構(gòu)下,數(shù)據(jù)高性能訪問(wèn)。a)HDFS、S3、NFSb)支持?jǐn)?shù)據(jù)、元數(shù)據(jù)緩存和加速。支持多種緩存設(shè)備:內(nèi)存/SSD/HDD。支持計(jì)算側(cè)算子下推到存儲(chǔ)側(cè)執(zhí)行,在存儲(chǔ)側(cè)讀取數(shù)據(jù)就近計(jì)算,優(yōu)化大數(shù)據(jù)計(jì)算性能。支持多計(jì)算節(jié)點(diǎn)共享緩存數(shù)據(jù),減少數(shù)據(jù)冗余存儲(chǔ)。支持緩存數(shù)據(jù)高可用,計(jì)算節(jié)點(diǎn)故障遷移、擴(kuò)容場(chǎng)景,數(shù)據(jù)免重建,RTO/RPO<1(四)數(shù)據(jù)組織格式Hudi、Iceberg、DeltaLake實(shí)現(xiàn)增量寫入讀取。a)支持事務(wù)ACID,可以對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行插入/更新操作。b)支持快照查詢,讀取數(shù)據(jù)集的最新快照。支持增量查詢,查詢指定時(shí)間的最新數(shù)據(jù)集。commit/compacte)支持?jǐn)?shù)據(jù)時(shí)間旅行,可基于時(shí)間/版本號(hào)訪問(wèn)歸檔的歷史版本數(shù)據(jù)。支持訪問(wèn)性能優(yōu)化,支持小文件合并、數(shù)據(jù)分布、排序、索引、統(tǒng)計(jì)信息、緩存的優(yōu)化支持對(duì)接大數(shù)據(jù)計(jì)算引擎,對(duì)數(shù)據(jù)分析,如:ApacheSpark、FlinkPresto、Hive六、統(tǒng)一元數(shù)據(jù)能力要求基于元數(shù)據(jù)管理標(biāo)準(zhǔn),對(duì)數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的的元數(shù)據(jù)進(jìn)行統(tǒng)一采集、適配、拉通與管理,形成統(tǒng)一的元數(shù)據(jù)目錄,實(shí)現(xiàn)數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)一元數(shù)據(jù)管理,為統(tǒng)一服務(wù)、統(tǒng)一計(jì)算與統(tǒng)一存儲(chǔ)提供湖倉(cāng)一體的元數(shù)據(jù)服務(wù)。(一)元數(shù)據(jù)注冊(cè)名稱等。支持提供系統(tǒng)級(jí)數(shù)據(jù)架構(gòu)定義,包括主題、層次、系統(tǒng)、數(shù)據(jù)庫(kù)等。支持湖倉(cāng)模型等元數(shù)據(jù)信息注冊(cè)。(二)數(shù)據(jù)源管理a)支持?jǐn)?shù)據(jù)湖與數(shù)據(jù)倉(cāng)的所有數(shù)據(jù)源進(jìn)行統(tǒng)一管理。b)支持?jǐn)?shù)據(jù)源的增、刪、改。(三)元數(shù)據(jù)采集支持通過(guò)對(duì)文件存儲(chǔ)的目錄/文件/護(hù)元數(shù)據(jù)。支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)技術(shù)元數(shù)據(jù)采集,抽取數(shù)據(jù)字典信息。MetaStore,支持技術(shù)元數(shù)據(jù)入湖識(shí)別與解析。任務(wù)測(cè)試功能。支持基于行業(yè)數(shù)據(jù)治理規(guī)范,具備元數(shù)據(jù)的適配轉(zhuǎn)換能力。(四)元數(shù)據(jù)稽核支持?jǐn)?shù)據(jù)湖元數(shù)據(jù)的稽核,包括一致性稽核、關(guān)鍵屬性稽核等。支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)的稽核,包括一致性稽核、關(guān)鍵屬性稽核等。(五)元數(shù)據(jù)管理a)支持元數(shù)據(jù)的增刪改、版本管理。支持元數(shù)據(jù)的分層管理。d)支持針對(duì)數(shù)據(jù)湖和數(shù)倉(cāng)構(gòu)建統(tǒng)一的元數(shù)據(jù)目錄。e)支持基于不同角色和用戶身份,進(jìn)行功能和數(shù)據(jù)權(quán)限管理。(六)元數(shù)據(jù)服務(wù)存儲(chǔ)位置等。c)支持記錄元數(shù)據(jù)訪問(wèn)頻次,標(biāo)記數(shù)據(jù)熱度。d)支持查詢歷史版本的元數(shù)據(jù)信息。(七)元數(shù)據(jù)追溯和審計(jì)a)b)支持記錄元數(shù)據(jù)采集任務(wù)日志,展現(xiàn)任務(wù)完成情況。c)支持記錄審計(jì)日志,對(duì)元數(shù)據(jù)操作行為追溯、審計(jì)。七、統(tǒng)一計(jì)算能力要求面向湖倉(cāng)一體業(yè)務(wù),提供多樣化計(jì)算引擎,滿足多種場(chǎng)景的數(shù)據(jù)處理和分析要求。用戶可使用自助查詢、報(bào)表、商業(yè)智能(BI)和數(shù)據(jù)探索等形式,驅(qū)動(dòng)計(jì)算引擎對(duì)數(shù)據(jù)進(jìn)行分析。提供與數(shù)據(jù)湖/數(shù)據(jù)倉(cāng)庫(kù)的交互工具,如JDBC/ODBC驅(qū)動(dòng),支持Java、C/C++、Go、Python、Perl和Php等語(yǔ)言客戶端程序連接。(一)批處理引擎支持處理結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。提供SQL訪問(wèn)接口,兼容TPC-DS標(biāo)準(zhǔn)語(yǔ)法。支持MapReduce、Hive、Spark、Tez、MaxCompute等常用批處理引擎。(二)流處理引擎支持訪問(wèn)Hudi、Iceberg、DeltaLake等開(kāi)放格式。支持Flink、SparkStreaming、Storm等常用流處理引擎。(三)交互式查詢引擎低時(shí)延的數(shù)據(jù)查詢和分析,如Greenplum、ClickHouse、GBase、Hologres等常用交互式查詢引擎。支持SQL結(jié)構(gòu)化查詢語(yǔ)句,包括數(shù)據(jù)查詢(DQL)、數(shù)據(jù)定義(DDL)據(jù)操縱(DML)、數(shù)據(jù)控制(DCL)。支持ANSISQL2003標(biāo)準(zhǔn)語(yǔ)法。(四)交互式分析引擎提供大數(shù)據(jù)實(shí)時(shí)查詢和分析能力,高性能、高容錯(cuò)的分布式OLAP能快速處理大規(guī)模的數(shù)據(jù),并能夠?qū)崿F(xiàn)快速查詢和分析,如Presto、openLooKeng等。支持SQL結(jié)構(gòu)化查詢語(yǔ)句,支持ANSISQL2003標(biāo)準(zhǔn)語(yǔ)法。d)支持對(duì)接數(shù)據(jù)探索、BI分析、報(bào)表展示等工具。(五)機(jī)器學(xué)習(xí)引擎支持機(jī)器學(xué)習(xí)模型開(kāi)發(fā)和部署,提供模型開(kāi)發(fā)所需的工具,提供常用的機(jī)器學(xué)習(xí)算法,如決策樹(shù)和支持向量機(jī)(SVM),神經(jīng)網(wǎng)絡(luò)(CNN),循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等。支持TensorFlow、PyTorch和ApacheMXNet等深度學(xué)習(xí)框架。八、統(tǒng)一服務(wù)能力要求針對(duì)湖倉(cāng)一體面對(duì)的數(shù)據(jù)開(kāi)發(fā)者、數(shù)據(jù)使用者以及數(shù)據(jù)運(yùn)營(yíng)管理者,提供一體化的數(shù)據(jù)服務(wù)。(一)統(tǒng)一開(kāi)發(fā)能力構(gòu)建可視化的湖倉(cāng)統(tǒng)一集成開(kāi)發(fā)環(huán)境,基于租戶作業(yè)運(yùn)行隔離機(jī)制,提供一體化的開(kāi)發(fā)模式,實(shí)現(xiàn)全流程的敏捷交付支撐,滿足多樣化開(kāi)發(fā)需求。1.通用開(kāi)發(fā)能力要求a)支持?jǐn)?shù)據(jù)目錄查看,方便數(shù)據(jù)開(kāi)發(fā)者了解數(shù)據(jù)模型情況。b)支持模型開(kāi)發(fā)、審核、發(fā)布與上下線。c)支持模型發(fā)布后,元數(shù)據(jù)的自動(dòng)采集與注冊(cè)。d)支持?jǐn)?shù)據(jù)任務(wù)開(kāi)發(fā),包括流處理、批處理、流批一體、交互查詢等任務(wù)開(kāi)發(fā)。e)支持?jǐn)?shù)據(jù)任務(wù)開(kāi)發(fā)、測(cè)試、發(fā)布、運(yùn)維一套標(biāo)準(zhǔn)的線上開(kāi)發(fā)流程。支持可視化開(kāi)發(fā)與腳本開(kāi)發(fā)。的抽象與配置。2.湖倉(cāng)一體開(kāi)發(fā)能力要求a)支持基于統(tǒng)一元數(shù)據(jù)的湖倉(cāng)一體任務(wù)開(kāi)發(fā),實(shí)現(xiàn)任務(wù)的跨湖跨倉(cāng)。b)支持基于統(tǒng)一元數(shù)據(jù)的統(tǒng)一模型開(kāi)發(fā),實(shí)現(xiàn)湖倉(cāng)模型的統(tǒng)一。3.開(kāi)放對(duì)接要求模型開(kāi)發(fā),實(shí)現(xiàn)元數(shù)據(jù)注冊(cè)。支持統(tǒng)一計(jì)算層所有計(jì)算引擎的適配,如Flink、Spark、Presto等。支持統(tǒng)一存儲(chǔ)下的存儲(chǔ)引擎適配,包括Hudi、Iceberg、DeltaLake布式存儲(chǔ)、對(duì)象存儲(chǔ)等。(二)統(tǒng)一調(diào)度能力開(kāi)發(fā)業(yè)務(wù)模型所形成的數(shù)據(jù)加工任務(wù),需要按時(shí)間、事件、或業(yè)務(wù)要求進(jìn)行任務(wù)的啟??刂?。調(diào)度配置a)支持提供圖形化任務(wù)配置管理,通過(guò)配置任務(wù)的基礎(chǔ)信息,支持不同的周期類型任務(wù)。b)支持模版任務(wù)配置,一鍵生成批量調(diào)度任務(wù)。觸發(fā)方式方式進(jìn)行任務(wù)啟??刂?。3.任務(wù)協(xié)同調(diào)度支持按任務(wù)的優(yōu)先級(jí)調(diào)度。支持設(shè)置定時(shí)任務(wù);多個(gè)子任務(wù)并行執(zhí)行;支持按任務(wù)先后順序執(zhí)行。c)數(shù)據(jù)倉(cāng)庫(kù)運(yùn)行。4.流程控制支持設(shè)置任務(wù)間的依賴關(guān)系。等。d)支持用戶自定義表達(dá)式,設(shè)置和控制任務(wù)觸發(fā)條件。5.容錯(cuò)管理具備平臺(tái)級(jí)調(diào)度恢復(fù)保障(狀態(tài)記憶)、調(diào)度健壯性(重跑重試)、數(shù)據(jù)完整性保障(歷史補(bǔ)算)、簡(jiǎn)化運(yùn)維難度(失敗告警)等能力。(三)統(tǒng)一運(yùn)營(yíng)能力統(tǒng)一運(yùn)營(yíng)通過(guò)數(shù)據(jù)資產(chǎn)化管理與數(shù)據(jù)價(jià)值化管理,提升湖倉(cāng)數(shù)據(jù)質(zhì)量與價(jià)值,加速數(shù)據(jù)到資產(chǎn)與資本的轉(zhuǎn)變。1.?dāng)?shù)據(jù)資產(chǎn)化管理與分類,形成數(shù)據(jù)資產(chǎn)目錄。支持不同角色、不同場(chǎng)景的數(shù)據(jù)資產(chǎn)目錄展示。支持可視化的數(shù)據(jù)資產(chǎn)從數(shù)據(jù)接入、生產(chǎn)、使用、消亡的全過(guò)程監(jiān)控。d)支持持續(xù)的數(shù)據(jù)運(yùn)營(yíng)分析與治理,發(fā)現(xiàn)問(wèn)題與改進(jìn)問(wèn)題,提升數(shù)據(jù)質(zhì)量。2.?dāng)?shù)據(jù)價(jià)值管理數(shù)據(jù)價(jià)值分析能力。c)支持通過(guò)數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估,對(duì)數(shù)據(jù)分級(jí)管理。d)支持通過(guò)數(shù)據(jù)服務(wù)組合管理提升數(shù)據(jù)變現(xiàn)能力。(四)統(tǒng)一開(kāi)放能力構(gòu)建湖倉(cāng)數(shù)據(jù)服務(wù)的全流程管理,通過(guò)數(shù)據(jù)服務(wù)目錄展示可對(duì)外提供的湖倉(cāng)數(shù)據(jù)服務(wù),提供多種數(shù)據(jù)開(kāi)放形式,滿足各種場(chǎng)景的需求。數(shù)據(jù)服務(wù)開(kāi)放管理a)b)支持?jǐn)?shù)據(jù)安全管理,如數(shù)據(jù)加密、脫敏等。c)支持?jǐn)?shù)據(jù)服務(wù)計(jì)量和流控。服務(wù)目錄管理等。c)支持服務(wù)目錄更新、維護(hù)和發(fā)布。3.?dāng)?shù)據(jù)開(kāi)放形式支持?jǐn)?shù)據(jù)服務(wù)使用方提供數(shù)據(jù)授權(quán)、數(shù)據(jù)復(fù)制、數(shù)據(jù)API息訂閱等數(shù)據(jù)開(kāi)放方式。支持同步、異步、訂閱、消息等多種服務(wù)訂購(gòu)方式。(五)統(tǒng)一管理能力遵循行業(yè)數(shù)據(jù)治理規(guī)范的具體要求,具備與數(shù)據(jù)治理模塊對(duì)接能力,實(shí)現(xiàn)湖、倉(cāng)數(shù)據(jù)的統(tǒng)一管理。九、運(yùn)維管理能力要求(一)配置管理支持圖形管理界面,提供管理員配置存儲(chǔ)系統(tǒng)所需的圖形化流程。應(yīng)支持存儲(chǔ)池管理、HDFSNameSpace理、硬盤管理、拓?fù)涔芾?、?quán)限管理、運(yùn)維管理。c)支持統(tǒng)一監(jiān)控頁(yè)面,對(duì)平臺(tái)運(yùn)行湖倉(cāng)任務(wù)進(jìn)行監(jiān)控,包括任務(wù)狀態(tài)、任務(wù)依賴關(guān)系,前置任務(wù)運(yùn)行情況等,對(duì)于異常的任務(wù)進(jìn)行告警。態(tài)展示。統(tǒng)計(jì)信息;排隊(duì)計(jì)算是對(duì)排隊(duì)中任務(wù),計(jì)算排隊(duì)數(shù)量。(二)湖倉(cāng)一體運(yùn)維據(jù)壓縮等。支持用戶手動(dòng)對(duì)存儲(chǔ)數(shù)據(jù)布局優(yōu)化,提升數(shù)據(jù)訪問(wèn)性能,如小文件合并。(三)在線升級(jí)應(yīng)支持存儲(chǔ)、計(jì)算引擎,軟件、硬件驅(qū)動(dòng)的在線升級(jí)和補(bǔ)丁。(四)亞健康檢測(cè)報(bào)告。支持亞健康檢測(cè)告警,并自動(dòng)隔離該節(jié)點(diǎn)。(五)故障自愈a)支持故障自動(dòng)識(shí)別,定位定界;設(shè)置故障處理預(yù)案。b)支持根據(jù)預(yù)案,故障任務(wù)自動(dòng)重做。c)支持調(diào)度節(jié)點(diǎn)異常情況下,同組其他調(diào)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論