XXX大數(shù)據(jù)平臺(tái)技術(shù)白皮書(shū)_第1頁(yè)
XXX大數(shù)據(jù)平臺(tái)技術(shù)白皮書(shū)_第2頁(yè)
XXX大數(shù)據(jù)平臺(tái)技術(shù)白皮書(shū)_第3頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、xxx大數(shù)據(jù)平臺(tái)技術(shù)白皮書(shū)xxxx大數(shù)據(jù)平臺(tái) 技術(shù)白皮書(shū)文檔版本號(hào): 文檔密級(jí): 編寫(xiě)人: 屬部門(mén)/項(xiàng)目:編寫(xiě)日期: 產(chǎn)品部xxxx 有限公司修訂記錄:版本號(hào) v 修訂人修訂日期 修訂描述xx 版權(quán)全部 xxxx 科技有限公司文檔編號(hào): 歸保留全部權(quán)利 版權(quán)聲明:檔著作權(quán) xxxx 科技有限公司享有。文中涉及 xxxx 科技有限公司的專(zhuān)有信息,未經(jīng)xxxx 科技有限公司書(shū)面許可, 任何單位和個(gè)人不得使用和泄漏該文檔以及該文檔包含的 任何圖片、表格、數(shù)據(jù)及其他信息。檔中的信息隨著 xxxx 科技有限公司產(chǎn)品和技術(shù)的進(jìn)步 將不斷更新,xxxx 科技有限公司不再通知此類(lèi)信息的更新。名目第 1 章產(chǎn)

2、品 概述 .系統(tǒng)架. 4第 3 章 數(shù)據(jù)存儲(chǔ) . 5分布式集群存儲(chǔ)分布式文件系統(tǒng) . 6hbase-分布列式數(shù)據(jù)庫(kù) . 7hive-數(shù)據(jù)倉(cāng)庫(kù) .9 graphdb-大規(guī)模分布式并行圖數(shù)據(jù)庫(kù) . 12第 4 章 數(shù)據(jù)總線 . 13數(shù) 據(jù) 采 集 與 交換 .15理 . 16規(guī)濾.則過(guò)17疋制化etl .19第5早計(jì)算引擎 . 21能 . 21成 .232325292930功能特. 30效 果 展示 .31 第 8 章 運(yùn)維治理平.33系統(tǒng)監(jiān)控界面 .33系 統(tǒng) 配 置 界面 .33sql查詢分析 .34批 量 數(shù) 據(jù) 導(dǎo) 入 導(dǎo)出 .第9章產(chǎn)品規(guī)格 .產(chǎn)品指標(biāo).35平臺(tái)規(guī)模.35系統(tǒng)能力.35系

3、統(tǒng)運(yùn)營(yíng).36硬件環(huán)境. 35境.36 參 考 配 置. 36第 1 章產(chǎn)品概述xx 大數(shù)據(jù)引擎平臺(tái) ude 是一款大數(shù)據(jù)通用平臺(tái)軟件產(chǎn) 品, 支持海量數(shù)據(jù)的采集、過(guò)濾、轉(zhuǎn)換、存儲(chǔ)、搜尋、查詢、 統(tǒng)計(jì)、分析、可視化與平安治理等大數(shù)據(jù)全生命周期治理, 各種行業(yè)應(yīng)用和最終用戶,可以通過(guò)平臺(tái)供應(yīng)的豐富的接 口,完成大規(guī)模行業(yè)數(shù)據(jù)的挖掘分析和應(yīng)用對(duì)接治理。對(duì)外 供應(yīng)大容量數(shù)據(jù)分析和查詢力量,為解決各大企業(yè)的以下需 求: 軟硬件國(guó)產(chǎn)自主可控 多源異構(gòu)數(shù)據(jù)接入數(shù)據(jù)關(guān)聯(lián)融合、統(tǒng)一訪問(wèn) 大規(guī)模、高性能、可擴(kuò)展 高牢靠、 咼可用xxxx 在開(kāi)源 hadoop 版本的基礎(chǔ)上對(duì) hbase hdfs 和mapredu

4、ce 等組件增加了 ha 查詢和分析功能,并進(jìn)行了性 能優(yōu)化。產(chǎn)品定位如圖 1-1 所示:第 2 章系統(tǒng)架構(gòu)圖 2-1 xx 系統(tǒng)架構(gòu)圖如上圖所示,xx 是一款大數(shù)據(jù)治理分析平臺(tái),基于底層 的基礎(chǔ)平臺(tái),自下而上可以分四層,依次是數(shù)據(jù)存儲(chǔ)層、數(shù) 據(jù)總線、數(shù)據(jù)處理層以及業(yè)務(wù)適配層。同時(shí)具有高性能和高 可用的特征。數(shù)據(jù)存儲(chǔ)層:支持海量異構(gòu)數(shù)據(jù)的統(tǒng)一牢靠的存儲(chǔ)管 理,對(duì)外供應(yīng)統(tǒng)一的分布式調(diào)用接口。數(shù)據(jù)總線:支持?jǐn)?shù)據(jù)采集、過(guò)濾、緩存、中轉(zhuǎn)分發(fā)調(diào) 度等。數(shù)據(jù)總線是計(jì)算與存儲(chǔ)的樞紐,同時(shí)是內(nèi)外數(shù)據(jù)交換的通道,完成數(shù)據(jù)在組件間及 層次間中轉(zhuǎn)、緩沖及調(diào)度。數(shù)據(jù)處理層:基于支持多種計(jì)算模型的分布式計(jì)算框架,為上層

5、業(yè)務(wù)系統(tǒng)供應(yīng)專(zhuān)業(yè)的計(jì)算處理庫(kù),包括 文本處理、搜尋引擎、數(shù)據(jù)挖掘等。業(yè)務(wù)適配層:為上層業(yè)務(wù)系統(tǒng)供應(yīng)各種不同協(xié)議和標(biāo) 準(zhǔn)的訪問(wèn)接口。高性能高可用保障:通過(guò)軟硬件多方優(yōu)化配置和深度 爭(zhēng)辯, 保證整個(gè)平臺(tái)的高可用和高性能。產(chǎn)品特點(diǎn):面對(duì)網(wǎng)絡(luò)內(nèi)容及社會(huì)計(jì)算領(lǐng)域,通過(guò)多年積存數(shù)據(jù)處理層的特有業(yè)務(wù)處理引擎決方案深度業(yè)務(wù)適配及衍生的垂直解以數(shù)據(jù)總線為中心進(jìn)行數(shù)據(jù)全生命周期調(diào)度及價(jià)值實(shí) 現(xiàn)的數(shù)據(jù)流驅(qū)動(dòng)視角第 3 章數(shù)據(jù)存儲(chǔ)xx 為用戶供應(yīng)企業(yè)級(jí)大數(shù)據(jù)平臺(tái)軟件一體化解決方案; 并支持特別應(yīng)用場(chǎng)景下的定制化硬件加速。面對(duì)結(jié)構(gòu)簡(jiǎn)單、 需求多變的異構(gòu)數(shù)據(jù)處理業(yè)務(wù),xx 不僅供應(yīng)統(tǒng)一、穩(wěn)定、高效的存儲(chǔ)子系統(tǒng),還整合了先

6、進(jìn)的分布式集群資源治理和進(jìn) 程調(diào)度方案、高性能數(shù)據(jù)總線技術(shù)、全并行架構(gòu)分布式關(guān)系 數(shù)據(jù)庫(kù)、面對(duì)圖計(jì)算的并行圖數(shù)據(jù)庫(kù)、分布式kv 存數(shù)據(jù)庫(kù),以及面對(duì)用戶業(yè)務(wù)的各類(lèi)工具軟件和庫(kù)支持?;趚x 平臺(tái),用戶可以以格外低的時(shí)間代價(jià)構(gòu)建大規(guī)模企業(yè)大數(shù)據(jù)一體 化解決方案。文檔數(shù)據(jù)庫(kù)圖片音視頻流式數(shù)據(jù) db 郵件消息多維數(shù)據(jù)graphdb 關(guān)系型數(shù)據(jù)hbase 非關(guān)系型數(shù)據(jù)hdfsdsc 龍威集群 存儲(chǔ)(申威國(guó)產(chǎn)平臺(tái))圖 3-1 : xx 數(shù)據(jù)存儲(chǔ)子系統(tǒng)結(jié)構(gòu)圖上圖是 xx 存儲(chǔ)組件的結(jié)構(gòu)圖,主要包括如下功能組件: 分布式集群存儲(chǔ):基于對(duì)象的高性能分布式文件存儲(chǔ)系統(tǒng)。tbase:分布式 key-value 數(shù)據(jù)

7、庫(kù)。據(jù)庫(kù)。graphdb :并行圖數(shù)據(jù)庫(kù)。分布式集群存儲(chǔ)分布式文件系統(tǒng)dsql :分布式關(guān)系數(shù)分布式集群存儲(chǔ)是一款針對(duì)海量數(shù)據(jù)存儲(chǔ)應(yīng)用而設(shè)計(jì) 的大規(guī)模通用集群存儲(chǔ)系統(tǒng),接受通用硬件設(shè)備作為基本的 構(gòu)建單元,為應(yīng)用供應(yīng)全局統(tǒng)一的系統(tǒng)映像和完全容的 api 接口posix 兼分布式集群存儲(chǔ)系統(tǒng)接受了存儲(chǔ)服務(wù)器集群和元數(shù)據(jù)服務(wù)器集群通過(guò)千兆以太網(wǎng)絡(luò)/萬(wàn)兆以太網(wǎng)絡(luò)/ infiniband網(wǎng)絡(luò)構(gòu)建,具備極高的擴(kuò)展性和牢靠性。利用分布式集群存 儲(chǔ)的相關(guān)軟件功能消退集群內(nèi)的單點(diǎn)故障,避開(kāi)由于故障而 導(dǎo)致服務(wù)中斷或者數(shù)據(jù)丟失等影響,并且打破了傳統(tǒng)存儲(chǔ)系 統(tǒng)架構(gòu)上的限制。其基本架構(gòu)如圖3-2 所示。圖 3-2

8、:分布式集群存儲(chǔ)系統(tǒng)架構(gòu)圖 3-2 :分布式集群存儲(chǔ)系統(tǒng)架構(gòu)分布式集群存儲(chǔ)為異構(gòu)數(shù)據(jù)供應(yīng)統(tǒng)一的存儲(chǔ)方案;不僅對(duì)大文件應(yīng)用場(chǎng)景供應(yīng)良 好的性能支持,元數(shù)據(jù)集群、高效檢索、橫向擴(kuò)展等特性使 得它在簡(jiǎn)單的大數(shù)據(jù)應(yīng)用場(chǎng)景中有更好的表現(xiàn)。除了100%posix 兼容外,還供應(yīng)完全的hadoop api 兼容。這意味著hadoop 生態(tài)群的計(jì)算框架和組件可以透亮運(yùn)行于分布式集 群存儲(chǔ)之上。分布式集群存儲(chǔ)供應(yīng)如下關(guān)鍵特性:元數(shù)據(jù)集群多個(gè)元數(shù)據(jù)服務(wù)器組成集群供應(yīng)互備ha 及動(dòng)態(tài)負(fù)載分擔(dān),可有效分載對(duì)名目樹(shù)熱點(diǎn)區(qū)域的訪問(wèn),同時(shí)可在線擴(kuò)展 對(duì)元數(shù)據(jù)高密集型應(yīng)用供應(yīng)支撐。并發(fā)數(shù)據(jù)恢復(fù)消退傳統(tǒng)raid 恢復(fù)技術(shù)中單盤(pán)

9、性能瓶頸,接受多對(duì)多 的方式,從全部節(jié)點(diǎn)的全部磁盤(pán)并發(fā)進(jìn)行數(shù)據(jù)恢復(fù),可供應(yīng)極高的聚合恢復(fù)帶寬,從而有效縮短因設(shè)備出錯(cuò)導(dǎo)致的全系 統(tǒng)降級(jí)運(yùn)行時(shí)間。兼容 posix/hadoop通過(guò)供應(yīng)hadoop 接口,可使數(shù)據(jù)分析直接基于在線生 產(chǎn)環(huán)境進(jìn)行,避開(kāi)大量的數(shù)據(jù)遷移操作。動(dòng)態(tài)擴(kuò)展&容量均衡分布式集群存儲(chǔ)供應(yīng)在線的容量及處理力量擴(kuò)展,包括 數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)及元數(shù)據(jù)處理節(jié)點(diǎn),并自動(dòng)在擴(kuò)容后對(duì)全系統(tǒng) 容量和熱點(diǎn)訪問(wèn)進(jìn)行均衡。分布式 ec數(shù)據(jù)牢靠性方面,分布式集群存儲(chǔ)除了供應(yīng)副本方式之 外還供應(yīng)基于 erasure code 技術(shù)的冗余方式,包括及 n+1 等多種策略。其數(shù)據(jù)分布也是跨節(jié)點(diǎn)跨磁盤(pán)的。hb

10、ase-分布列式數(shù)據(jù)庫(kù)raid5hbase 是適合大數(shù)據(jù)場(chǎng)景的一款海量分布式列數(shù)據(jù)庫(kù)產(chǎn) 品。其架構(gòu)上兼容了hadoop 體系的高可擴(kuò)展性,可支持大于幾十個(gè)節(jié)點(diǎn),pb 存儲(chǔ)規(guī)模的scale-out ;性能上其針對(duì)具 體大數(shù)據(jù)應(yīng)用場(chǎng)景進(jìn)行深度定制和調(diào)優(yōu),尤其對(duì)于高吞吐率 入庫(kù)和實(shí)時(shí)檢索場(chǎng)景;功能上除了支持標(biāo)準(zhǔn)的k-v 訪問(wèn)接口之外,xxbase 還可較好的兼容 sql 標(biāo)準(zhǔn)及 jdbc 接口,可以 很好的與既有數(shù)據(jù)分析業(yè)務(wù)對(duì)接。尤其在索引性能優(yōu)化及對(duì) 后綴和全文索引的支持上x(chóng)xbase 都有顯著優(yōu)勢(shì)。圖 3-3 : tbase 系統(tǒng)架構(gòu)在應(yīng)用場(chǎng)景方面,tbase 常被用作全量基礎(chǔ)數(shù)據(jù)的組織和存儲(chǔ),

11、同時(shí)供應(yīng)對(duì)此全量數(shù)據(jù)的實(shí)時(shí)查詢;此外 tbase 可兼容傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù) olap 場(chǎng)景,對(duì)簡(jiǎn)單sql 分析可供應(yīng)近實(shí) 時(shí)的分析性能。從而可同時(shí)支持對(duì)大數(shù)據(jù)的實(shí)時(shí)查詢和簡(jiǎn)單 離線分析。tbase 底層架構(gòu)在 hdfs 和 mapreduce 之上,功 能層分別供應(yīng)數(shù)據(jù)壓縮/解壓縮、數(shù)據(jù)導(dǎo)入、索引、計(jì)算、 sql 訪問(wèn)以及訪問(wèn)把握和應(yīng)用隔離等主要功能。其系統(tǒng)架構(gòu) 如下圖所示。圖 3-4 : tbase 基于 hbase 的優(yōu)化增加 tbase 架構(gòu)基 于分布式列存模型進(jìn)行擴(kuò)展。其實(shí)現(xiàn)參考開(kāi)源hbase 的技術(shù) 架構(gòu),并在其基礎(chǔ)上針對(duì)應(yīng)用場(chǎng)景進(jìn)行了深度性能調(diào)優(yōu),并 基于業(yè)務(wù)場(chǎng)景的實(shí)際需求對(duì)功能進(jìn)行了擴(kuò)

12、展增加。其優(yōu)化點(diǎn) 涉及從客戶端到底層存儲(chǔ)的各個(gè)環(huán)節(jié),如圖tbase 供應(yīng)如下關(guān)鍵特性:3-3 所示。sql 實(shí)時(shí)短查詢對(duì)全量數(shù)據(jù)的實(shí)時(shí)簡(jiǎn)潔查詢,包括單表多條件的組合查 詢 sql 長(zhǎng)查詢olapxxxx 大數(shù)據(jù)平臺(tái) 技術(shù)白皮書(shū)文檔版本號(hào): 文檔密級(jí): 編寫(xiě)人: 屬部門(mén)/項(xiàng)目:編寫(xiě)日期: 產(chǎn)品部xxxx 有限公司修訂記錄:版本號(hào) v 修訂人修訂日期xx 版權(quán)全部 xxxx 科技有限公司文檔編號(hào): 歸修訂描述保留全部權(quán)利 版權(quán)聲明:檔著作權(quán) xxxx 科技有限公司享有。文中涉及 xxxx 科技有限公司的專(zhuān)有信息,未經(jīng)xxxx 科技有限公司書(shū)面許可, 任何單位和個(gè)人不得使用和泄漏該文檔以及該文檔包含

13、的 任何圖片、表格、數(shù)據(jù)及其他信息。檔中的信息隨著 xxxx 科技有限公司產(chǎn)品和技術(shù)的進(jìn)步將不斷更新,xxxx 科技有限公司不再通知此類(lèi)信息的更新名目第 1 章述. 3第 2章 系統(tǒng)架構(gòu) . 4第 3章 數(shù)據(jù)存儲(chǔ) . 5分布式集群存儲(chǔ)分布式文件系統(tǒng) . 6庫(kù) .hbase-分布列式數(shù)據(jù)hive-數(shù)據(jù)倉(cāng)庫(kù) .9 graphdb-大規(guī)模分布式并行圖數(shù)據(jù)庫(kù) . 12第 4 章線 . 13數(shù) 據(jù) 采 集換 .15數(shù)據(jù)理. 16規(guī) 濾 .17etl19第 5 章擎 . 21能 . 21成 . 21架 . 23子 .23板 .早高性通 用 算專(zhuān)用算子及分析 模25 第 6能高可2929303030313333sql343535模 .35系統(tǒng)能力 .35系統(tǒng)運(yùn)營(yíng) .36硬件環(huán)境 .36軟件環(huán)境 .36參考配置. 36第 1 章產(chǎn)品概述xx 大數(shù)據(jù)引擎平臺(tái) ude 是一款大數(shù)據(jù)通用平臺(tái)軟件產(chǎn)品,支持海量數(shù)據(jù)的采集、過(guò)濾、轉(zhuǎn)換、存儲(chǔ)、搜尋、查詢、統(tǒng)計(jì)、分析、可視化與平安治理等大數(shù)據(jù)全生命周期治理, 各種行

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論