HC大數(shù)據(jù)產(chǎn)品技術(shù)白皮書(shū)_第1頁(yè)
HC大數(shù)據(jù)產(chǎn)品技術(shù)白皮書(shū)_第2頁(yè)
HC大數(shù)據(jù)產(chǎn)品技術(shù)白皮書(shū)_第3頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、h3c 大數(shù)據(jù)產(chǎn)品技術(shù)白皮書(shū)杭州華三通信技術(shù)有限公司2020 年 4 月目錄1h3c 大數(shù)據(jù)產(chǎn)品介紹 .11.11.2產(chǎn)品簡(jiǎn)介 .1產(chǎn)品架構(gòu) .11.2.1 數(shù)據(jù)處理 .21.2.2 數(shù)據(jù)分層 .31.3產(chǎn)品技術(shù)特點(diǎn) .4先進(jìn)的混合計(jì)算架構(gòu) .4高性?xún)r(jià)比的分布式集群 .4云化 etl.5數(shù)據(jù)分層和分級(jí)存儲(chǔ) .5數(shù)據(jù)分析挖掘 .6數(shù)據(jù)服務(wù)接口 .6可視化運(yùn)維管理 .71.4產(chǎn)品功能簡(jiǎn)介 .7管理平面功能: .12業(yè)務(wù)平面功能: .142dataengine hdp 核心技術(shù) .153dataengine mpp cluster 核心技術(shù).163.13.23.33.43.53.63.7mpp +

2、shared nothing 架構(gòu) .16核心組件 .16高可用 .17高性能擴(kuò)展能力 .18高性能數(shù)據(jù)加載 .18olap 函數(shù) .19行列混合存儲(chǔ) .191 1h3ch3c 大數(shù)據(jù)產(chǎn)品介紹大數(shù)據(jù)產(chǎn)品介紹1.11.1產(chǎn)品簡(jiǎn)介產(chǎn)品簡(jiǎn)介h3c 大數(shù)據(jù)平臺(tái)采用開(kāi)源社區(qū) apache hadoop2.0和 mpp 分布式數(shù)據(jù)庫(kù)混合計(jì)算框架為用戶(hù)提供一套完整的大數(shù)據(jù)平臺(tái)解決方案,具備高性能、高可用、高擴(kuò)展特性,可以為超大規(guī)模數(shù)據(jù)管理提供高性?xún)r(jià)比的通用計(jì)算存儲(chǔ)能力。h3c 大數(shù)據(jù)平臺(tái)提供數(shù)據(jù)采集轉(zhuǎn)換、計(jì)算存儲(chǔ)、分析挖掘、共享交換以及可視化等全系列功能,并廣泛地用于支撐各類(lèi)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)、bi系統(tǒng)和決策支持

3、系統(tǒng)幫助用戶(hù)構(gòu)建海量數(shù)據(jù)處理系統(tǒng),發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在價(jià)值。1.21.2產(chǎn)品架構(gòu)產(chǎn)品架構(gòu)h3c 大數(shù)據(jù)平臺(tái)包含 4 個(gè)部分:第一部分是運(yùn)維管理,包括:安裝部署、配置管理、主機(jī)管理、用戶(hù)管理、服務(wù)管理、監(jiān)控告警和安全管理等。第二部分是數(shù)據(jù) etl,即獲取、轉(zhuǎn)換、加載,包括:關(guān)系數(shù)據(jù)庫(kù)連接 sqoop、日志采集 flume、etl 工具 kettle。第三部分是數(shù)據(jù)計(jì)算。mpp 采用分析型分布式數(shù)據(jù)庫(kù),存儲(chǔ)高價(jià)值密度的結(jié)構(gòu)化數(shù)據(jù);hadoop 存儲(chǔ)非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)和低價(jià)值密度結(jié)構(gòu)化數(shù)據(jù)。計(jì)算結(jié)果都存到數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)可直接用于分析和展示。數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的且隨時(shí)間不斷變

4、化的數(shù)據(jù)集合,用以支持經(jīng)營(yíng)管理中的決策制定過(guò)程。第四部分?jǐn)?shù)據(jù)服務(wù),包括:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)檢索、數(shù)據(jù)可視化、即席分析、sql 和 api,為應(yīng)用層提供服務(wù)和中間件調(diào)用。1.1.11.1.1 數(shù)據(jù)處理數(shù)據(jù)處理對(duì)于大數(shù)據(jù)管理平臺(tái),應(yīng)該建立一套標(biāo)準(zhǔn)化、規(guī)范化的數(shù)據(jù)處理流程,例如:如何采集內(nèi)部和外部數(shù)據(jù)、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);如何清洗采集來(lái)的臟數(shù)據(jù)和無(wú)效數(shù)據(jù);如何對(duì)不同來(lái)源的數(shù)據(jù)進(jìn)行打通;如何對(duì)非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化加工;如何在結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)上進(jìn)行商業(yè)建模和數(shù)據(jù)挖掘等等。大數(shù)據(jù)管理層在一條數(shù)據(jù)總線上構(gòu)建了一條完整的大數(shù)據(jù)處理流水線。這條流水線從數(shù)據(jù)的采集、清洗到加工處理,把原始雜亂無(wú)章的數(shù)據(jù)

5、加工成結(jié)構(gòu)化的數(shù)據(jù)組件,供上層的大數(shù)據(jù)應(yīng)用來(lái)拼裝調(diào)用,讓企業(yè)擁有創(chuàng)造數(shù)據(jù)資產(chǎn)的能力。1.1.21.1.2 數(shù)據(jù)分層數(shù)據(jù)分層ods 層:數(shù)據(jù)來(lái)源于各生產(chǎn)系統(tǒng),通過(guò) etl 工具對(duì)接口文件數(shù)據(jù)進(jìn)行編碼替換和數(shù)據(jù)清洗轉(zhuǎn)換,不做關(guān)聯(lián)操作。未來(lái)也可用于準(zhǔn)實(shí)時(shí)數(shù)據(jù)查詢(xún)。輕度匯總層:主題域內(nèi)部基于明細(xì)層數(shù)據(jù),進(jìn)行多維度的、用戶(hù)級(jí)的匯總明細(xì)數(shù)據(jù)層:主題域內(nèi)部進(jìn)行拆分、關(guān)聯(lián)。是對(duì) ods 操作型數(shù)據(jù)按照主題域劃分規(guī)則進(jìn)行的拆分及合并。信息子層:報(bào)表數(shù)據(jù)、多維數(shù)據(jù)、指標(biāo)庫(kù)等數(shù)據(jù)來(lái)源于匯總層。匯總層:主題域之間進(jìn)行關(guān)聯(lián)、匯總計(jì)算。匯總數(shù)據(jù)服務(wù)于信息子層,目的是為了節(jié)約信息子層數(shù)據(jù)計(jì)算成本和計(jì)算時(shí)間。應(yīng)用層:應(yīng)用系統(tǒng)

6、的私有數(shù)據(jù),應(yīng)用的業(yè)務(wù)數(shù)據(jù)。精細(xì)化營(yíng)銷(xiāo)做為大數(shù)據(jù)平臺(tái)的一個(gè)上層應(yīng)用,由大數(shù)據(jù)平臺(tái)提供數(shù)據(jù)支撐。1.31.3產(chǎn)品技術(shù)特點(diǎn)產(chǎn)品技術(shù)特點(diǎn)先進(jìn)的混合計(jì)算架構(gòu)先進(jìn)的混合計(jì)算架構(gòu)采用hadoop和mpp融合技術(shù)架構(gòu), 對(duì)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)支持并行計(jì)算和低成本存儲(chǔ),提供低時(shí)延、高并發(fā)的查詢(xún)和分析功能; 對(duì)結(jié)構(gòu)化數(shù)據(jù)采用mpp分布式列存儲(chǔ),支持分布式計(jì)算、智能索引等功能,實(shí)現(xiàn)高性能結(jié)構(gòu)化數(shù)據(jù)分析處理。集成mapreduce、spark、storm、tez等多種計(jì)算框架,利用yarn資源管理做統(tǒng)一管理,可在同一份數(shù)據(jù)集上運(yùn)行多種計(jì)算。離線計(jì)算、內(nèi)存計(jì)算和流式計(jì)算并存,能滿(mǎn)足高吞吐、大數(shù)據(jù)量和低時(shí)延實(shí)時(shí)處理等

7、多方面的數(shù)據(jù)計(jì)算要求。高性?xún)r(jià)比的分布式集群高性?xún)r(jià)比的分布式集群基于x86服務(wù)器本地的計(jì)算與存儲(chǔ)資源, 計(jì)算集群可以動(dòng)態(tài)調(diào)整,從數(shù)臺(tái)到數(shù)千臺(tái)之間彈性擴(kuò)展,按需構(gòu)建應(yīng)用,減少總體成本; 同時(shí), 在設(shè)計(jì)時(shí)充分考慮了硬件設(shè)備的不可靠因素,在軟件層面提供計(jì)算和存儲(chǔ)的高可靠保證,具備較強(qiáng)的容錯(cuò)性。云化云化 etletl將不同業(yè)務(wù)系統(tǒng)中分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的各種源數(shù)據(jù)中的數(shù)據(jù)進(jìn)行匯聚。支持從dbms、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、企業(yè)生產(chǎn)系統(tǒng)等各種數(shù)據(jù)源中提取數(shù)據(jù)。各類(lèi)數(shù)據(jù)經(jīng)過(guò)抽取、清洗和轉(zhuǎn)化后,實(shí)現(xiàn)多對(duì)多地加載到包含但不限于大數(shù)據(jù)集群和各類(lèi)關(guān)系型數(shù)據(jù)庫(kù)中。該過(guò)程由一個(gè)統(tǒng)一的操作接口封裝,經(jīng)過(guò)無(wú)代碼的可視化配置后,可實(shí)

8、現(xiàn)自動(dòng)化地、分布式地執(zhí)行整個(gè)etl作業(yè)流程。數(shù)據(jù)分層和分級(jí)存儲(chǔ)數(shù)據(jù)分層和分級(jí)存儲(chǔ)把數(shù)據(jù)按照不同階段分為 ods(operational data store)數(shù)據(jù)、輕度匯總數(shù)據(jù)、信息子層數(shù)據(jù)和應(yīng)用數(shù)據(jù),分別存儲(chǔ)在hadoop平臺(tái)、 mpp分布式數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù),滿(mǎn)足不同階段的計(jì)算需求; 按照在線數(shù)據(jù)、歷史數(shù)據(jù)等來(lái)管理數(shù)據(jù)生命周期,滿(mǎn)足在線數(shù)據(jù)的高性能存儲(chǔ)的需求;將核心模型數(shù)據(jù)通過(guò)改造融入到數(shù)據(jù)倉(cāng)庫(kù)的核心模型中,減少數(shù)據(jù)冗余,提升數(shù)據(jù)質(zhì)量; 將數(shù)據(jù)倉(cāng)庫(kù)中的歷史數(shù)據(jù)遷移到低成本分布式數(shù)據(jù)庫(kù),減輕數(shù)據(jù)倉(cāng)庫(kù)的計(jì)算與存儲(chǔ)壓力并支撐深度數(shù)據(jù)分析。數(shù)據(jù)分析挖掘數(shù)據(jù)分析挖掘支持r語(yǔ)言,集成機(jī)器學(xué)習(xí)算法庫(kù)mah

9、out和spark mllib,包含聚類(lèi)分析、分類(lèi)算法、頻度關(guān)聯(lián)分析和推薦系統(tǒng)在內(nèi)的常用機(jī)器學(xué)習(xí)算法。滿(mǎn)足批處理統(tǒng)計(jì)分析、在線數(shù)據(jù)檢索、 r語(yǔ)言數(shù)據(jù)挖掘、實(shí)時(shí)流處理、全文搜索等全方位需求??蓭椭髽I(yè)建立高速可擴(kuò)展的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市,結(jié)合多種報(bào)表工具提供交互式數(shù)據(jù)分析、 即時(shí)報(bào)表和bi可視化展示能力。數(shù)據(jù)服務(wù)接口數(shù)據(jù)服務(wù)接口提供交互式sql和可編程api,提取數(shù)據(jù)存儲(chǔ)計(jì)算平臺(tái)的數(shù)據(jù)處理結(jié)果,屏蔽底層細(xì)節(jié),為上層應(yīng)用提供數(shù)據(jù)服務(wù)。主要包括sql接口、mapreduce/spark/storm計(jì)算接口等多種可編程api、全文實(shí)時(shí)搜索接口、業(yè)務(wù)定向接口、關(guān)聯(lián)查詢(xún)接口,滿(mǎn)足數(shù)據(jù)查詢(xún)、可視化bi展示、數(shù)

10、據(jù)交換、數(shù)據(jù)分析、目錄服務(wù)、綜合查詢(xún)等業(yè)務(wù)應(yīng)用的需要??梢暬\(yùn)維管理可視化運(yùn)維管理提供web圖形化界面實(shí)現(xiàn)運(yùn)集群的管理和監(jiān)控,集群的節(jié)點(diǎn)、主機(jī)和服務(wù)的運(yùn)行狀態(tài)都能在界面上顯示,操作友好,功能豐富。提供集群快速安裝部署、機(jī)架展示、用戶(hù)權(quán)限管理、主機(jī)與服務(wù)管理、監(jiān)控及告警通知等多方面支持,在可管理性方面優(yōu)勢(shì)顯著。服務(wù)服務(wù)服務(wù)名稱(chēng)服務(wù)名稱(chēng)分類(lèi)分類(lèi)服務(wù)功能說(shuō)明服務(wù)功能說(shuō)明一種全新的通用的 hadoop 資源管理器,為集群在利用率和資源統(tǒng)一管理等方面帶來(lái)了巨yarn系統(tǒng)服務(wù)大便利??墒?mapreduce、spark、storm 等共存。zookeeper分布式應(yīng)用程序協(xié)調(diào)服務(wù),保證集群的一致性。提供的

11、功能包括:配置維護(hù)、名字服務(wù)、分布式同步、組服務(wù)等。將已存在服務(wù)部署在 yarn 集群上,而不用修slider改已存在服務(wù)。提供 hadoop 作業(yè)工作流管理功能,可管理ooziemr、hive、pig、sqoop 和 hdfs 等任務(wù)。一種低時(shí)延高吞吐量的分布式發(fā)布/訂閱消kafka息系統(tǒng),同時(shí)滿(mǎn)足在線和離線處理海量消息數(shù)據(jù)派發(fā)。一個(gè)基于共享密鑰對(duì)稱(chēng)加密的安全網(wǎng)絡(luò)認(rèn)證kerberos系統(tǒng),可防止對(duì)集群的惡意使用和篡改,保障 hadoop 集群的安全可靠。計(jì)算服mapreduce批處理框架,將一個(gè)大任務(wù)分成多個(gè)獨(dú)立的小任務(wù),最后匯總各個(gè)小任務(wù)的結(jié)果。用戶(hù)務(wù)只需關(guān)注上層應(yīng)用的邏輯,完全不用關(guān)注底

12、層分布式細(xì)節(jié),大大提升了分布式應(yīng)用開(kāi)發(fā)的效率和質(zhì)量。主要用于離線計(jì)算和計(jì)算密集型應(yīng)用。迭代計(jì)算框架,基于內(nèi)存計(jì)算。性能比mr 快spark10-100 倍,通用性好,支持批處理、流處理、sql 查詢(xún)、機(jī)器學(xué)習(xí)、圖計(jì)算等。流處理框架,具有效率高、能保證每條消息storm都能被處理和實(shí)踐應(yīng)用很多等優(yōu)點(diǎn)。mapreduce 程序性能優(yōu)化器。將 mr 程序轉(zhuǎn)化tez為有向無(wú)環(huán)圖,大大提升性能。存儲(chǔ)服hdfshadoop 分布式文件系統(tǒng),具有高容錯(cuò)性,可以部署在廉價(jià)的機(jī)器上。提供高吞吐量來(lái)訪務(wù)問(wèn)應(yīng)用程序的數(shù)據(jù),適合存儲(chǔ)超大數(shù)據(jù)集。分布式、面向列數(shù)據(jù)庫(kù),利用hdfs 作為持久化數(shù)據(jù)存儲(chǔ),使用 zookee

13、per 作為協(xié)同服務(wù)hbase組件。具有容量巨大、面向列存儲(chǔ)和權(quán)限控制、稀疏性、高可用和高性能等特點(diǎn)。hadoop 和關(guān)系型數(shù)據(jù)庫(kù)之間進(jìn)行批量數(shù)據(jù)轉(zhuǎn)sqoop移的工具。一個(gè)高可用的,高可靠的,分布式的海量日數(shù)據(jù)處理基于 hadoop 的數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化hive的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,采用hiveql 作為查詢(xún)語(yǔ)言。將 hiveql 轉(zhuǎn)換為mapreduce 任務(wù), 從而完成海量數(shù)據(jù)的查詢(xún)和flume志采集、聚合和傳輸?shù)南到y(tǒng)。分析?;?hadoop 的數(shù)據(jù)流處理引擎,將類(lèi) sql 的pig數(shù)據(jù)分析請(qǐng)求轉(zhuǎn)換為 map/reduce 任務(wù)。機(jī)器學(xué)習(xí)算法庫(kù), 3 個(gè)主要應(yīng)用場(chǎng)景是協(xié)作

14、篩mahout選、集群和分類(lèi),可使用 mr、scala、spark來(lái)提交 mahout 接口。提供機(jī)器學(xué)習(xí) mahout、 數(shù)據(jù)挖掘、 數(shù)據(jù)檢索、數(shù)據(jù)即服r 語(yǔ)言、交互式 sql(sql on hadoop) 、可編務(wù)程 api 等功能,滿(mǎn)足上次應(yīng)用開(kāi)發(fā)需求。mpp 分關(guān)系型數(shù)據(jù)庫(kù)集群,良好的 sql 語(yǔ)言支持。布式數(shù)h3c mpp高性能、高容錯(cuò)、高可用。據(jù)庫(kù)1.41.4產(chǎn)品功能簡(jiǎn)介產(chǎn)品功能簡(jiǎn)介服務(wù)名服務(wù)名服務(wù)功能說(shuō)明服務(wù)功能說(shuō)明稱(chēng)稱(chēng)安裝部署提供定制部署、zero 部署和虛機(jī)部署等多種集群部署方式,滿(mǎn)足用戶(hù)不用應(yīng)用場(chǎng)景需求。提供 web 圖形化界面和快速向?qū)?,引?dǎo)用戶(hù)快捷高效地建立集群。機(jī)架管

15、理實(shí)現(xiàn) hdfs 副本存放策略的可視化管理。配置管理實(shí)現(xiàn)集群各項(xiàng)服務(wù)配置參數(shù)的歷史快照功能, 記錄配置變更,方便性能調(diào)優(yōu)。用戶(hù)和組管理支持單用戶(hù)和用戶(hù)組管理,便捷的用戶(hù)和組的增刪操作,提供不同級(jí)別的訪問(wèn)權(quán)限控制;主機(jī)管理實(shí)時(shí)監(jiān)控主機(jī)各項(xiàng)硬件資源(cpu、內(nèi)存、磁盤(pán)、網(wǎng)絡(luò)等)及其上承載的服務(wù)的運(yùn)行狀態(tài)。執(zhí)行主機(jī)級(jí)別操作如停止、運(yùn)行主機(jī)上的服務(wù)等。服務(wù)管理對(duì)集群的各項(xiàng)服務(wù)做集中式管理,提供啟動(dòng)服務(wù)、停止服務(wù)、修改屬性和設(shè)定運(yùn)行參數(shù)等功能。實(shí)現(xiàn)集群各項(xiàng)服務(wù)運(yùn)行狀態(tài)(基本信息、告警、運(yùn)行健康狀態(tài))實(shí)時(shí)監(jiān)控。監(jiān)控和告警監(jiān)控集群運(yùn)行的健康狀態(tài),在特定的情況下發(fā)出信息,幫助識(shí)別和定位問(wèn)題原因。可自定義告警的

16、監(jiān)控間隔和閾值、觸發(fā)條件、告警通知方式。版本管理實(shí)現(xiàn) hdp stack 可用服務(wù)和軟件版本的管理功能。多租戶(hù)支持多租戶(hù)訪問(wèn)集群資源。安全管理支持本地、ldap和kerberos多種身份認(rèn)證方式,實(shí)現(xiàn)訪問(wèn)權(quán)限控制。支持對(duì)文件、目錄、表、列、行等細(xì)粒度的訪問(wèn)控制,可防止對(duì)集群的惡意使用和篡改,保證集群的可安全可靠。數(shù)據(jù)管理實(shí)現(xiàn)數(shù)據(jù)的壓縮、備份、交換及數(shù)據(jù) etl 的管理。管理平面功能:管理平面功能:業(yè)務(wù)平面功能:業(yè)務(wù)平面功能:2 2dataengine hdpdataengine hdp核核心心技技術(shù)術(shù)dataengine hdp基于x86服務(wù)器本地的計(jì)算與存儲(chǔ)資源提供了分布式并行計(jì)算和低成本存

17、儲(chǔ),提供低時(shí)延、高并發(fā)的查詢(xún)功能,集群可以擴(kuò)展到上千臺(tái)服務(wù)器。h3c通過(guò)對(duì)hadoop開(kāi)源組件的封裝和增強(qiáng),對(duì)外提供數(shù)據(jù)分布式計(jì)算存儲(chǔ)、數(shù)據(jù)分析能力。資源管理 yarn:改進(jìn)的 yarn 統(tǒng)一資源管理,在同一物理主機(jī)/虛擬主機(jī)和數(shù)據(jù)集上運(yùn)行多種計(jì)算框架 ,包括離線計(jì)算、內(nèi)存計(jì)算和實(shí)時(shí)計(jì)算。分布式文件系統(tǒng) hdfs:分布式文件系統(tǒng),有較強(qiáng)的容錯(cuò)性,可在 x86平臺(tái)上運(yùn)行,減少總體成本,可擴(kuò)展,能構(gòu)建大規(guī)模的應(yīng)用。數(shù)據(jù)庫(kù) hbase:hbase 是一種構(gòu)建在 hdfs(hadoop distributed filesystem)之上的分布式、面向列的存儲(chǔ)系統(tǒng),它具有高可靠、高性能、面向列和可伸縮的

18、特性。hbase 適合于存儲(chǔ)大表數(shù)據(jù)(表的規(guī)??梢赃_(dá)到數(shù)十億行以及數(shù)百萬(wàn)列),并且對(duì)大表數(shù)據(jù)的讀、寫(xiě)訪問(wèn)可以達(dá)到實(shí)時(shí)級(jí)別。離線計(jì)算: mapreduce 是一種離線計(jì)算框架,將一個(gè)算法抽象成 map和 reduce 兩個(gè)階段進(jìn)行處理,適合數(shù)據(jù)密集型計(jì)算場(chǎng)景。內(nèi)存計(jì)算: spark 是一種內(nèi)存計(jì)算框架,它將數(shù)據(jù)盡可能放到內(nèi)存中以提高迭代應(yīng)用和交互式應(yīng)用的計(jì)算效率。實(shí)時(shí)計(jì)算: storm 擅長(zhǎng)流式計(jì)算、實(shí)時(shí)分析,比如廣告點(diǎn)擊計(jì)算、它在實(shí)時(shí)性要遠(yuǎn)遠(yuǎn)好于 mapreduce 計(jì)算框架。3 3dataengine mpp clusterdataengine mpp cluster 核心技術(shù)核心技術(shù)3.1

19、3.1mpp + shared nothingmpp + shared nothing 架構(gòu)架構(gòu)dataengine mpp cluster采用完全并行的 mpp + shared nothing 的分布式扁平架構(gòu),這種架構(gòu)中的每一個(gè)節(jié)點(diǎn)(node)都是獨(dú)立的、自給的、節(jié)點(diǎn)之間對(duì)等,而且整個(gè)系統(tǒng)中不存在單點(diǎn)瓶頸,具有非常強(qiáng)的擴(kuò)展性。圖 3-1 shared nothing + mpp 架構(gòu)示意圖3.23.2核心組件核心組件dataengine mpp cluster 產(chǎn)品總共包含三大核心組件,即 gcluster、gcware 和 gnode。 gcware 用于各節(jié)點(diǎn) gcluster 實(shí)例

20、間共享信息, gcluster負(fù)責(zé)集群調(diào)度,每個(gè) gnode 就是最基本的存儲(chǔ)和計(jì)算單元。gclustergcluster:gcluster 負(fù)責(zé) sql 的解析、sql 優(yōu)化、分布式執(zhí)行計(jì)劃生成、執(zhí)行調(diào)度。gcwaregcware:gcware 用于各節(jié)點(diǎn) gcluster 實(shí)例間共享信息(包括集群結(jié)構(gòu), 節(jié)點(diǎn)狀態(tài),節(jié)點(diǎn)資源狀態(tài)等信息),以及控制多副本數(shù)據(jù)操作時(shí),提供可操作節(jié)點(diǎn),并在多副本操作中,控制各節(jié)點(diǎn)數(shù)據(jù)一致性狀態(tài)。 gcware 對(duì)于集群的管理工作是以節(jié)點(diǎn)為基本單位的。gnodegnode:gnode 是 gcluster 中最基本的存儲(chǔ)和計(jì)算單元。gnode 是由 gcware管理

21、的一個(gè) 8a 實(shí)例, 每個(gè) gcluster 節(jié)點(diǎn)上有一個(gè) gnode 實(shí)例運(yùn)行。 gnode負(fù)責(zé)集群數(shù)據(jù)在節(jié)點(diǎn)上的實(shí)際存儲(chǔ),并從 gcluster 接收和執(zhí)行經(jīng)分解的sql 執(zhí)行計(jì)劃,執(zhí)行結(jié)果返回給 gcluster。數(shù)據(jù)加載時(shí),gnode 直接從集群加載服務(wù)接收數(shù)據(jù),寫(xiě)入本地存儲(chǔ)空間。gcmonitgcmonit:gcmonit用于定期監(jiān)測(cè)dataengine mpp cluster服務(wù)程序的運(yùn)行狀態(tài),一旦發(fā)現(xiàn)某個(gè)服務(wù)程序的進(jìn)程狀態(tài)發(fā)生變化,就會(huì)根據(jù)配置文件中的內(nèi)容來(lái)執(zhí)行相應(yīng)的命令。gcmonit 進(jìn)程監(jiān)控程序?yàn)榧褐械拿總€(gè)組件提供各自的啟停腳本,提供的總腳本可以一次性啟停所有模塊的服務(wù)。

22、3.33.3高可用高可用dataengine mpp cluster 通過(guò) safegroup 組內(nèi)冗余機(jī)制來(lái)保證集群的高可用特性:1) 每個(gè) safegroup 可提供 1 個(gè)或 2 個(gè)副本數(shù)據(jù)冗余;2) safegroup 內(nèi)數(shù)據(jù)副本自動(dòng)同步;3) 復(fù)制引擎自動(dòng)管理數(shù)據(jù)同步;圖 3-2 safegroup 高可用性管理示意圖3.43.4高性能擴(kuò)展能力高性能擴(kuò)展能力dataengine mpp cluster 具備高性能擴(kuò)展能力:1) 通過(guò) safegroup 動(dòng)態(tài)擴(kuò)展集群節(jié)點(diǎn);2) 每個(gè)節(jié)點(diǎn)可以處理 10tb 有效數(shù)據(jù),同時(shí)提供計(jì)算和存儲(chǔ)能力;3) gcware 負(fù)責(zé)新節(jié)點(diǎn)的數(shù)據(jù)同步。圖 3-

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論