版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 海量數(shù)據(jù)分析平臺(tái)方案設(shè)計(jì)目 錄 TOC o 1-3 h z u HYPERLINK l _Toc526966557 1.1 海量數(shù)據(jù)分析挖掘平臺(tái)設(shè)計(jì) PAGEREF _Toc526966557 h 1 HYPERLINK l _Toc526966558 1.1.1 系統(tǒng)設(shè)計(jì) PAGEREF _Toc526966558 h 1 HYPERLINK l _Toc526966559 1.1.2 平臺(tái)總體框架設(shè)計(jì) PAGEREF _Toc526966559 h 3 HYPERLINK l _Toc526966560 1.1.3 結(jié)構(gòu)化數(shù)據(jù)分析挖掘系統(tǒng) PAGEREF _Toc526966560 h
2、5 HYPERLINK l _Toc526966561 1.1.4 非結(jié)構(gòu)化數(shù)據(jù)離線分析挖掘系統(tǒng) PAGEREF _Toc526966561 h 18 HYPERLINK l _Toc526966562 1.1.5 統(tǒng)一數(shù)據(jù)處理平臺(tái) PAGEREF _Toc526966562 h 20 HYPERLINK l _Toc526966563 1.1.6 統(tǒng)一管理監(jiān)控 PAGEREF _Toc526966563 h 24海量數(shù)據(jù)分析挖掘平臺(tái)設(shè)計(jì)根據(jù)當(dāng)前數(shù)據(jù)建設(shè)現(xiàn)狀和新的系統(tǒng)建設(shè)目標(biāo)來看,既要保證對(duì)現(xiàn)有業(yè)務(wù)系統(tǒng)數(shù)據(jù)的充分利用,又要盡可能少對(duì)原有業(yè)務(wù)系統(tǒng)和數(shù)據(jù)的修改與交叉,比較好的一個(gè)策略是只通過業(yè)務(wù)系
3、統(tǒng)來交互需要的信息,另建一個(gè)數(shù)量數(shù)據(jù)分析挖掘平臺(tái)用來進(jìn)行相關(guān)數(shù)據(jù)的存儲(chǔ)、分析和挖掘,而業(yè)務(wù)數(shù)據(jù)存儲(chǔ)系統(tǒng)功能相對(duì)保持獨(dú)立。系統(tǒng)設(shè)計(jì)數(shù)據(jù)分析及挖掘系統(tǒng)是云數(shù)據(jù)中心的核心組件,為云數(shù)據(jù)中心給上層業(yè)務(wù)應(yīng)用提供數(shù)據(jù)分析服務(wù)。數(shù)據(jù)分析挖掘系統(tǒng)一般不直接接收原始數(shù)據(jù),而是處理由數(shù)據(jù)加工系統(tǒng)處理規(guī)整之后的數(shù)據(jù)。需同時(shí)支持海量結(jié)構(gòu)化數(shù)據(jù)(主要為分析數(shù)據(jù)加工系統(tǒng)預(yù)處理之后產(chǎn)生的記錄、日志等信息,也包括業(yè)務(wù)應(yīng)用系統(tǒng)對(duì)數(shù)據(jù)處理之后產(chǎn)生的分析結(jié)果)和海量非結(jié)構(gòu)化數(shù)據(jù)(主要為從業(yè)務(wù)系統(tǒng)抓取的原始數(shù)據(jù),也包括業(yè)務(wù)系統(tǒng)預(yù)處理之后得到的數(shù)據(jù)文件)。由業(yè)務(wù)系統(tǒng)產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)具備如下特點(diǎn):數(shù)據(jù)量龐大,總?cè)萘窟_(dá)到幾十甚至上百TB寫
4、入速度很高,每秒鐘寫入幾萬甚至幾十萬條數(shù)據(jù)記錄,數(shù)據(jù)寫入速度達(dá)GB級(jí)/秒;每天寫入數(shù)據(jù)總量可達(dá)到40億條,加載數(shù)據(jù)達(dá)TB級(jí)/天;單臺(tái)數(shù)據(jù)庫無法完成更新操作極少,數(shù)據(jù)以追加方式寫入,一旦寫入,幾乎沒有數(shù)據(jù)修改查詢涉及大量的磁盤讀操作,查詢處理產(chǎn)生大量的臨時(shí)結(jié)果不同類型的數(shù)據(jù)存在聯(lián)合分析查詢數(shù)據(jù)入庫實(shí)時(shí)性要求高:數(shù)據(jù)一旦寫入即要求實(shí)時(shí)可查數(shù)據(jù)訪問具有時(shí)間熱點(diǎn)特性由業(yè)務(wù)系統(tǒng)產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)具備如下特點(diǎn):格式多樣化(包括文本,圖片,語音和視頻文件等業(yè)務(wù)數(shù)據(jù))內(nèi)容復(fù)雜,需要復(fù)雜的后續(xù)計(jì)算才能得到有用數(shù)據(jù)入庫時(shí)通常需要進(jìn)行結(jié)構(gòu)化特征提取,即非結(jié)構(gòu)化數(shù)據(jù)一般可分解為結(jié)構(gòu)化特征加非結(jié)構(gòu)化文件相結(jié)合的形式,通
5、過文件路徑(如file path或者URL)描述兩者關(guān)系,以便于后續(xù)的查詢分析和檢索因此,在海量數(shù)據(jù)存儲(chǔ)分析挖掘平臺(tái)的構(gòu)建中,必須要利用這些特點(diǎn),有針對(duì)性的采用分布式處理技術(shù),才能有效面對(duì)海量數(shù)據(jù)的處理要求。同樣,對(duì)于業(yè)務(wù)系統(tǒng)來說,對(duì)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)分析也有著不同的使用需求。對(duì)結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)而言,核心是并行數(shù)據(jù)庫系統(tǒng)。最主要的需求通過多節(jié)點(diǎn)并行提高數(shù)據(jù)庫的加載與查詢性能。具體而言,就是要求結(jié)構(gòu)化數(shù)據(jù)分析平臺(tái)具備如下特性:高吞吐率,支持高并發(fā)加載數(shù)據(jù)可伸縮,可根據(jù)前端數(shù)據(jù)量要求彈性地調(diào)整規(guī)??焖夙憫?yīng),實(shí)時(shí)地將數(shù)據(jù)存下來高可用支持類SQL語義支持多節(jié)點(diǎn)間的數(shù)據(jù)劃分策略支持過濾型及分析
6、型快速查詢操作支持復(fù)雜的關(guān)聯(lián)查詢操作無需支持事務(wù)操作結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)平臺(tái)典型的應(yīng)用場(chǎng)景為實(shí)時(shí)數(shù)據(jù)加工系統(tǒng)中大量處理節(jié)點(diǎn)實(shí)時(shí)地將產(chǎn)生的日志、分析記錄進(jìn)行入庫。因此結(jié)構(gòu)化數(shù)據(jù)處理平臺(tái)必須提供批量數(shù)據(jù)加載的接口,滿足數(shù)據(jù)的高速入庫要求。后續(xù)統(tǒng)計(jì)和分析業(yè)務(wù)應(yīng)用通過查詢語句訪問這些數(shù)據(jù),可以支持預(yù)定義的統(tǒng)計(jì)報(bào)表類的查詢,也可以支持用戶的即席查詢。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),一般采用分布式存儲(chǔ)系統(tǒng)的方式來實(shí)現(xiàn)。業(yè)務(wù)系統(tǒng)還原得到的非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)需要實(shí)時(shí)進(jìn)行存儲(chǔ)和加工,再交給分析挖掘平臺(tái)或者應(yīng)用做后續(xù)處理。這就要求這套系統(tǒng)需要實(shí)時(shí)、并發(fā)的進(jìn)行文件存儲(chǔ),并且這里存儲(chǔ)的一般為海量文件,具備良好的寫入性能。對(duì)于海
7、量數(shù)據(jù)的分析挖掘是系統(tǒng)的核心,一般根據(jù)分析的特點(diǎn)分為在線分析和離線分析兩個(gè)過程。在線分析一般算法相對(duì)簡單,并且在執(zhí)行在線分析過程中,系統(tǒng)仍支持不斷的加載數(shù)據(jù)。大多數(shù)的在線分析都是基于結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析。對(duì)于更深度的數(shù)據(jù)挖掘、非結(jié)構(gòu)化數(shù)據(jù)、和非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)組合分析的場(chǎng)景,由于分析時(shí)間較長,為不影響數(shù)據(jù)的正常加載,一般放到離線分析階段來做。這一階段主要需要利用MapReduce的方式將計(jì)算分布化以提高性能,采用主流的Hadoop平臺(tái)進(jìn)行系統(tǒng)的搭建。海量數(shù)據(jù)存儲(chǔ)分析挖掘平臺(tái)的數(shù)據(jù)流程如下圖所示:圖 海量數(shù)據(jù)存儲(chǔ)分析挖掘平臺(tái)的數(shù)據(jù)流程在數(shù)據(jù)分析挖掘平臺(tái)的建設(shè)中,除了要選擇適合業(yè)務(wù)應(yīng)用的結(jié)構(gòu)化
8、數(shù)據(jù)處理平臺(tái)和高質(zhì)量地搭建hadoop系統(tǒng)外,如何將這兩者有機(jī)的結(jié)合起來是建設(shè)的難點(diǎn)。自主研發(fā)的XData海量數(shù)據(jù)存儲(chǔ)分析平臺(tái)除了包含XData-神通進(jìn)行結(jié)構(gòu)化數(shù)據(jù)的挖掘處理,也包含XData-Hadoop對(duì)統(tǒng)一(結(jié)構(gòu)化與非結(jié)構(gòu)化)數(shù)據(jù)進(jìn)行深度挖掘的離線處理。更重要的是,XData對(duì)外提供了一種統(tǒng)一的訪問接口,將兩者很好的結(jié)合在一起,豐富了應(yīng)用的分析手段的同時(shí),也降低了開發(fā)和管理的難度。平臺(tái)總體框架設(shè)計(jì)海量數(shù)據(jù)分析挖掘平臺(tái)包括六個(gè)組成部分,可實(shí)現(xiàn)系統(tǒng)存儲(chǔ)資源的整合,對(duì)海量結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),在線分析以及離線分析進(jìn)行統(tǒng)一的處理。平臺(tái)總體架構(gòu)如下圖所示。圖 平臺(tái)總體架構(gòu)XData的六個(gè)組成部
9、分功能如下:定制的服務(wù)器和操作系統(tǒng)通過對(duì)通用的服務(wù)器、存儲(chǔ)服務(wù)器和Linux操作系統(tǒng)進(jìn)行定制與優(yōu)化,使其能夠更好的適用于海量數(shù)據(jù)存儲(chǔ)分析系統(tǒng),提高系統(tǒng)處理效率。數(shù)據(jù)源層數(shù)據(jù)源層能夠?qū)牒蛯?dǎo)出各種數(shù)據(jù)源,包括Sqoop和Flume兩個(gè)模塊。其中Sqoop用于在Hadoop與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫間進(jìn)行數(shù)據(jù)的傳遞;Flume實(shí)現(xiàn)了對(duì)日志的收集與傳輸。數(shù)據(jù)存儲(chǔ)層數(shù)據(jù)存儲(chǔ)層實(shí)現(xiàn)對(duì)海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的并行存儲(chǔ),包括神通數(shù)據(jù)倉庫模塊、ParaStor并行文件存儲(chǔ)系統(tǒng)和基于開源Hadoop的存儲(chǔ)分析系統(tǒng)。其中Hive是基于Hadoop的一個(gè)離線 HYPERLINK /view/19711.htm t _b
10、lank 數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供完整的SQL查詢功能,可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行;HBase是一個(gè)分布式的、面向列的NoSQL數(shù)據(jù)庫;HDFS是Hadoop分布式文件系統(tǒng)。數(shù)據(jù)處理層數(shù)據(jù)處理層提供完整的分布式數(shù)據(jù)處理框架。其中MapReduce是Hadoop的并行計(jì)算框架,包含Map(映射)和Reduce(化簡);SQL+為經(jīng)過優(yōu)化和擴(kuò)展的SQL;Katta/Lucene是一個(gè)全文檢索引擎的架構(gòu),提供了完整的查詢引擎和索引引擎,部分 HYPERLINK /view/3488135.htm t _blank 文本分析引擎;Data
11、 Processing Lib是自定義的數(shù)據(jù)處理庫,可以實(shí)現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一存儲(chǔ)和處理,實(shí)現(xiàn)高速數(shù)據(jù)流的實(shí)時(shí)處理;Mahout為機(jī)器學(xué)習(xí)模塊。應(yīng)用層應(yīng)用層對(duì)系統(tǒng)內(nèi)的功能進(jìn)行抽象與封裝,并對(duì)外提供用戶使用的接口,從而方便用戶使用,簡化操作流程。其中Search API提供數(shù)據(jù)查詢API;Pig是一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺(tái),它提供的SQL-LIKE語言叫Pig Latin,該語言的編譯器會(huì)把類SQL的數(shù)據(jù)分析請(qǐng)求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理的MapReduce運(yùn)算。Pig為復(fù)雜的海量數(shù)據(jù)并行計(jì)算提供了一個(gè)簡單的操作和編程接口;SJDBC為自主研發(fā)的類JDBC接口,用戶編程只需要
12、頭文件和庫文件;UDF為用戶定義的函數(shù),根據(jù)用戶實(shí)際應(yīng)用的需要而自行開發(fā)的函數(shù);Hive QL為Hive的查詢語言模塊。系統(tǒng)管理層系統(tǒng)管理層對(duì)整個(gè)XData海量數(shù)據(jù)存儲(chǔ)分析平臺(tái)進(jìn)行監(jiān)管,功能包括系統(tǒng)、日志管理、賬戶管理、配置管理、資源調(diào)度和系統(tǒng)高可用。結(jié)構(gòu)化數(shù)據(jù)分析挖掘系統(tǒng)數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)倉庫模型設(shè)計(jì)技術(shù)服務(wù)實(shí)現(xiàn)航天數(shù)據(jù)倉庫建設(shè),包括對(duì)數(shù)據(jù)倉庫設(shè)計(jì)流程的要求和數(shù)據(jù)倉庫模型設(shè)計(jì)要求。數(shù)據(jù)倉庫設(shè)計(jì)流程確定分析型應(yīng)用需求根據(jù)航天現(xiàn)有業(yè)務(wù)需求和業(yè)務(wù)未來發(fā)展規(guī)劃,分析分析型應(yīng)用需求,在現(xiàn)有數(shù)據(jù)基礎(chǔ)上設(shè)計(jì)專業(yè)的、可行的分析專題。數(shù)據(jù)特征分析為了能夠建設(shè)高效的數(shù)據(jù)倉庫,支撐復(fù)雜的統(tǒng)計(jì)分析應(yīng)用,數(shù)據(jù)倉庫建設(shè)將
13、分析業(yè)務(wù)數(shù)據(jù)特征,重點(diǎn)分析業(yè)務(wù)數(shù)據(jù)的類型和數(shù)據(jù)值分布特點(diǎn),根據(jù)數(shù)據(jù)的集中趨勢(shì)、離散程度等,設(shè)計(jì)恰當(dāng)?shù)臄?shù)據(jù)倉庫模型,并對(duì)數(shù)據(jù)倉庫進(jìn)行優(yōu)化。根據(jù)對(duì)應(yīng)用和數(shù)據(jù)分析,按照不同的主題建立數(shù)據(jù)倉庫模型(星型模型) 數(shù)據(jù)倉庫概念模型設(shè)計(jì)(概念模型E-R圖、數(shù)據(jù)詞典)數(shù)據(jù)倉庫邏輯模型設(shè)計(jì)(ROLAP、模式對(duì)象)數(shù)據(jù)倉庫物理模型設(shè)計(jì)(存儲(chǔ)結(jié)構(gòu)、存取方法建立索引)各部門根據(jù)各自的數(shù)據(jù)分析需求,建立數(shù)據(jù)集市(星型模型)數(shù)據(jù)集市概念模型設(shè)計(jì)(概念模型E-R圖、數(shù)據(jù)詞典)數(shù)據(jù)集市邏輯模型設(shè)計(jì)(ROLAP、模式對(duì)象)數(shù)據(jù)集市物理模型設(shè)計(jì)(存儲(chǔ)結(jié)構(gòu)、存取方法建立索引)根據(jù)既定數(shù)據(jù)同步策略,通過ETL工具,將業(yè)務(wù)庫的數(shù)據(jù)加載
14、到數(shù)據(jù)倉庫,并實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)增量同步。數(shù)據(jù)倉庫模型設(shè)計(jì)數(shù)據(jù)倉庫模型設(shè)計(jì)為星型模型,首先分析業(yè)務(wù)需求進(jìn)行調(diào)研分析,確定分析主題,根據(jù)不同的分析主題設(shè)計(jì)相應(yīng)的星型模型。數(shù)據(jù)倉庫模型設(shè)計(jì)流程如下:根據(jù)主題建立星型模型,由一個(gè)事實(shí)表和若干個(gè)維度表構(gòu)成。事實(shí)表設(shè)計(jì):將指標(biāo)數(shù)據(jù)放在一個(gè)大表事實(shí)表中。事實(shí)表包含事實(shí)表主鍵,所有維度表的主鍵和指標(biāo)數(shù)據(jù)項(xiàng)。事實(shí)表應(yīng)包含盡可能全的指標(biāo)數(shù)據(jù),即包含相關(guān)主題所要考察的所有指標(biāo)數(shù)據(jù)項(xiàng)。維度表設(shè)計(jì):根據(jù)主題確定維度。選擇維度的粒度,確定數(shù)據(jù)結(jié)構(gòu)中數(shù)據(jù)的詳細(xì)程度。確保每一個(gè)維度中的數(shù)據(jù)元素相互之間保持一致。維度表字段應(yīng)盡可能少。選擇數(shù)據(jù)庫的持久度,決定應(yīng)該保存多長時(shí)間的歷史
15、數(shù)據(jù)。專業(yè)數(shù)據(jù)庫系統(tǒng)專業(yè)數(shù)據(jù)庫系統(tǒng)主要包括:產(chǎn)品類應(yīng)用數(shù)據(jù)庫,如主要涉及“設(shè)計(jì)參數(shù)”、“重量”等類型數(shù)據(jù)信息;參考數(shù)據(jù)庫,如“海洋環(huán)境”、“重力場(chǎng)”等類型數(shù)據(jù);試驗(yàn)數(shù)據(jù)庫,如:“飛行試驗(yàn)數(shù)據(jù)庫”、“閥門數(shù)據(jù)庫”等。專業(yè)數(shù)據(jù)庫中可能包含了大量已建成的專業(yè)數(shù)據(jù)庫和數(shù)據(jù),這類數(shù)據(jù)庫一方面繼續(xù)保持現(xiàn)有應(yīng)用方式不變,同時(shí)可根據(jù)需要做統(tǒng)一的接口擴(kuò)展,如:單點(diǎn)登錄集成。這樣可以滿足現(xiàn)有應(yīng)用需要和新平臺(tái)建設(shè)的要求和方向。后續(xù)還可增加如某項(xiàng)應(yīng)用的特有接口來為平臺(tái)提供專項(xiàng)應(yīng)用服務(wù),如:提供特定的數(shù)據(jù)檢索,甚至數(shù)據(jù)處理服務(wù)等。此種接口模式既可以是通過跳轉(zhuǎn)到該系統(tǒng)處理,也可是通過提供處理界面來集成到平臺(tái)應(yīng)用系統(tǒng)中的方
16、式。新開發(fā)系統(tǒng)可根據(jù)平臺(tái)要求,事先約定標(biāo)準(zhǔn)接口來為數(shù)據(jù)平臺(tái)提供特定數(shù)據(jù)服務(wù),避免重復(fù)開發(fā)與資源浪費(fèi)。專業(yè)數(shù)據(jù)庫系統(tǒng)分別采用Oracle 11g和神通通用數(shù)據(jù)庫,按照數(shù)據(jù)的重要性,分為一級(jí)和二級(jí),其中比較重要的一級(jí)數(shù)據(jù)采用Oracle 11g,二級(jí)數(shù)據(jù)采用神通通用數(shù)據(jù)庫。數(shù)據(jù)倉庫存儲(chǔ)航天數(shù)據(jù)倉庫產(chǎn)品選擇神通分布式并行數(shù)據(jù)庫集群實(shí)現(xiàn)。神通分布式并行數(shù)據(jù)庫集群的架構(gòu)設(shè)計(jì)充分滿足了海量數(shù)據(jù)分析需求,是具有高效復(fù)雜統(tǒng)計(jì)和分析能力的列存儲(chǔ)關(guān)系型數(shù)據(jù)庫管理系統(tǒng)。產(chǎn)品面向分析型應(yīng)用領(lǐng)域,以列為基本存儲(chǔ)方式和數(shù)據(jù)運(yùn)算對(duì)象,結(jié)合列數(shù)據(jù)壓縮處理、并行處理、智能索引等新型數(shù)據(jù)處理技術(shù)。神通分布式并行數(shù)據(jù)庫集群采用Sh
17、ared-Nothing架構(gòu),相對(duì)于Shared-Everything架構(gòu),在處理海量數(shù)據(jù)時(shí)有非常大的優(yōu)勢(shì)。Shared-Everything架構(gòu)使用共享的SCSI或光纖通道,每個(gè)節(jié)點(diǎn)使用其本地磁盤存儲(chǔ)操作系統(tǒng)交換空間和系統(tǒng)文件,而應(yīng)用數(shù)據(jù)存儲(chǔ)在共享磁盤上,每個(gè)節(jié)點(diǎn)均可讀取由其它節(jié)點(diǎn)寫入的數(shù)據(jù)。應(yīng)用間的并發(fā)磁盤訪問需要分布鎖定管理器(DLM),而且共享磁盤子系統(tǒng)與其集群節(jié)點(diǎn)之間的距離會(huì)受到所選擇介質(zhì)(SCSI或光纖通道等)的限制。Shared-Nothing(簡稱SN)集群稱為無共享集群,是一種分布式計(jì)算結(jié)構(gòu),此結(jié)構(gòu)設(shè)計(jì)中每個(gè)節(jié)點(diǎn)都是獨(dú)立的和自滿足的,無需單獨(dú)設(shè)立主控節(jié)點(diǎn),可避免數(shù)據(jù)量大、訪問
18、集中造成主控節(jié)點(diǎn)成為性能瓶頸而影響集群訪問性能。Shared Nothing集群采用大規(guī)模并行處理(MPP)的硬件構(gòu)架保障。無共享的環(huán)境將加載與查詢劃分為若干個(gè)小塊,每個(gè)節(jié)點(diǎn)一小塊,再由各節(jié)點(diǎn)不同的處理器并發(fā)地執(zhí)行。每個(gè)小塊的并行進(jìn)程經(jīng)過統(tǒng)一分配,相對(duì)獨(dú)立的處理各自管轄的數(shù)據(jù)分區(qū),與其它節(jié)點(diǎn)不相干。Shared-Nothing集群只需部署在普通硬件上,而無需用戶在昂貴的高端硬件設(shè)施上作過多的投資。Shared-Nothing集群采取多份數(shù)據(jù)的機(jī)制來保證數(shù)據(jù)的高可靠性。數(shù)據(jù)冗余存儲(chǔ),可存儲(chǔ)一份或多份。數(shù)據(jù)進(jìn)行分片存儲(chǔ),SQL算子的并行執(zhí)行保證了系統(tǒng)的水平擴(kuò)展性。SN集群的性能可以隨著節(jié)點(diǎn)的增加實(shí)
19、現(xiàn)線性的擴(kuò)展。由于SN集群構(gòu)架對(duì)用戶硬件要求較低,它逐漸能夠使用戶體會(huì)到在普通傳統(tǒng)硬件上前所未有的性能提升。此外,SN集群構(gòu)架對(duì)硬件的要求特性使得它在Linux平臺(tái)上可以始終保持兼容性與可擴(kuò)展性。概括來說, SN MPP集群構(gòu)架可以體現(xiàn)出如下的特性:對(duì)用戶硬件要求較低,數(shù)據(jù)庫可以運(yùn)行在用戶已有的硬件平臺(tái)上;對(duì)查詢的處理進(jìn)程可以直接在各節(jié)點(diǎn)本地?cái)?shù)據(jù)上進(jìn)行;沒有用戶的同步問題,整個(gè)體系沒有I/O瓶頸;適用于海量數(shù)據(jù)的分析型應(yīng)用。與SN集群相比,Shared-Everything架構(gòu)的擴(kuò)展性無法滿足數(shù)據(jù)倉庫數(shù)據(jù)量日益膨脹的需求。Shared-Everything架構(gòu)的局限性在于節(jié)點(diǎn)間的信息提取與傳輸
20、,這些信息能夠?qū)⑵渌?jié)點(diǎn)的狀況告知一個(gè)節(jié)點(diǎn)。SD體系中節(jié)點(diǎn)越多,所需傳輸?shù)臓顟B(tài)信息也就越復(fù)雜,傳輸時(shí)間也就越長。僅此擴(kuò)展性一點(diǎn)所產(chǎn)生的影響便使得SD集群構(gòu)架不適合數(shù)據(jù)倉庫的應(yīng)用。Shared-Everything架構(gòu)集群在4個(gè)節(jié)點(diǎn)的體系中能夠發(fā)揮良好,但擴(kuò)展至4個(gè)以上節(jié)點(diǎn)時(shí),便會(huì)產(chǎn)生問題。神通分布式并行數(shù)據(jù)庫集群管理是云數(shù)據(jù)管理平臺(tái)核心架構(gòu)和管理支撐平臺(tái),主要研究分布式集群管理平臺(tái)集群的資源調(diào)度、集群管理和數(shù)據(jù)訪問。分布式集群支持線性擴(kuò)展,能夠在不間斷運(yùn)行的條件下動(dòng)態(tài)增刪節(jié)點(diǎn),實(shí)現(xiàn)集群的線性擴(kuò)容,并保證在數(shù)據(jù)量增加的情況下性能不下降。分布式集群能夠?qū)A康慕Y(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)資源整合管理,在分
21、布式環(huán)境下,保證數(shù)據(jù)訪問的高可用性和高擴(kuò)展性。產(chǎn)品設(shè)計(jì)的主導(dǎo)思想如下:三個(gè)“1/10”:把同樣一條查詢 SQL 需要的 I/O 降低到傳統(tǒng)行存儲(chǔ)數(shù)據(jù)庫的 1/10 以下;在啟動(dòng)壓縮的情況下,同樣的裸數(shù)據(jù)加載到數(shù)據(jù)庫后占有的磁盤空間是傳統(tǒng)行存儲(chǔ)數(shù)據(jù)庫的 1/10 以下;人工管理費(fèi)用(安裝,調(diào)試,優(yōu)化,維護(hù),擴(kuò)展)是傳統(tǒng)行存儲(chǔ)數(shù)據(jù)庫的1/10以下。兩個(gè)“10 倍以上”:在面對(duì)海量數(shù)據(jù)分析型應(yīng)用中,平均綜合查詢性能(復(fù)雜查詢,即席查詢,模糊查詢,分頁類查詢,TOP-N 查詢等)是傳統(tǒng)行存儲(chǔ)數(shù)據(jù)庫的 10 倍以上;壓縮比 10 倍以上。以分布式SN集群的分布式查詢、分布式調(diào)度、遠(yuǎn)程管理、高可用機(jī)制、數(shù)
22、據(jù)分片存儲(chǔ)、遠(yuǎn)程數(shù)據(jù)加載、統(tǒng)一訪問接口為主要研究內(nèi)容,主要包括以下幾個(gè)方面:統(tǒng)一數(shù)據(jù)訪問接口:研究對(duì)于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一訪問,應(yīng)用通過標(biāo)準(zhǔn)的SQL語句訪問云數(shù)據(jù)管理平臺(tái),對(duì)于應(yīng)用完全透明,只需要一條SQL語句即可完成對(duì)結(jié)構(gòu)化數(shù)據(jù)檢索、全文檢索和非結(jié)構(gòu)化數(shù)據(jù)檢索,大大降低了應(yīng)用開發(fā)的復(fù)雜程度。統(tǒng)一數(shù)據(jù)接口,實(shí)現(xiàn)了對(duì)SQL 92、Full Text和PATH的接口封裝。遠(yuǎn)程數(shù)據(jù)加載:實(shí)現(xiàn)海量數(shù)據(jù)的高速并行入庫,滿足大數(shù)據(jù)量入庫時(shí)的性能需求。數(shù)據(jù)分片存儲(chǔ):適用不同的場(chǎng)景,采用不同的方法(range、round robin、hash),把數(shù)據(jù)與其相關(guān)的索引的分片存儲(chǔ)在一個(gè)節(jié)點(diǎn)中。分布式查詢
23、、調(diào)度:研究分布式集群調(diào)度各節(jié)點(diǎn)的工作,分解查詢請(qǐng)求,制訂節(jié)點(diǎn)查詢計(jì)劃,并對(duì)不同節(jié)點(diǎn)的查詢結(jié)果進(jìn)行匯總。遠(yuǎn)程管理:檢測(cè)和監(jiān)控云數(shù)據(jù)管理平臺(tái)的運(yùn)行狀況。高可用機(jī)制:研究分布式SN集群的多副本機(jī)制,以便提升整個(gè)平臺(tái)的運(yùn)行性能。產(chǎn)品特點(diǎn)包括:采用列存儲(chǔ)的專門面向分析型應(yīng)用的新型分布式并行數(shù)據(jù)庫集群;支持多CPU,能夠充分利用現(xiàn)代的多核 CPU 資源并行處理海量數(shù)據(jù);遵循標(biāo)準(zhǔn)規(guī)范:SQL92、JDBC2.0、JDBC3.0、ODBC3.0;支持 C API、JDBC、ODBC、.NET應(yīng)用開發(fā)接口;支持多語種,多字符集,如GB、GBK、UNICODE、UTF-8等;能夠支撐海量數(shù)據(jù)存儲(chǔ),能夠通過集群線
24、性擴(kuò)容,支持百TB級(jí)以上的數(shù)據(jù)存儲(chǔ);具備高效數(shù)據(jù)加載性能:數(shù)據(jù)加載速度快,支持并行批量加載;具備良好查詢性能:具備高效查詢優(yōu)化機(jī)制;良好地支持復(fù)雜查詢,即席查詢,模糊查詢,分頁類查詢,TOP-N查詢等操作;能夠自動(dòng)高效地并行執(zhí)行SQL查詢;支持SN集群,支持集群在線增刪節(jié)點(diǎn)服務(wù)器,支持集群的線性擴(kuò)容;具備良好的并發(fā)能力,能夠通過集群擴(kuò)展并發(fā)支撐能力;具備良好的數(shù)據(jù)膨脹控制機(jī)制,建立索引后的膨脹率不超過百分之一;具備高效的業(yè)務(wù)負(fù)載均衡能力; 數(shù)據(jù)采集平臺(tái)數(shù)據(jù)采集平臺(tái)負(fù)責(zé)從業(yè)務(wù)數(shù)據(jù)庫及外部數(shù)據(jù)源中獲取資源庫所需的數(shù)據(jù)。數(shù)據(jù)采集平臺(tái)位于業(yè)務(wù)數(shù)據(jù)庫和數(shù)據(jù)轉(zhuǎn)換平臺(tái)之間,屏蔽了后續(xù)數(shù)據(jù)處理與數(shù)據(jù)來源間的直
25、接關(guān)系。數(shù)據(jù)采集平臺(tái)對(duì)保障資源庫數(shù)據(jù)的有效性起著關(guān)鍵的作用。數(shù)據(jù)采集平臺(tái)的核心功能是數(shù)據(jù)的清洗和轉(zhuǎn)換處理。它從數(shù)據(jù)采集平臺(tái)獲取數(shù)據(jù),然后進(jìn)行后續(xù)的加工處理,并將加工處理完畢的數(shù)據(jù)存儲(chǔ)到目標(biāo)信息資源庫中。數(shù)據(jù)采集平臺(tái)的目標(biāo)顧名思義,數(shù)據(jù)轉(zhuǎn)換平臺(tái)的主要功能是根據(jù)數(shù)據(jù)的真實(shí)性、有效性驗(yàn)證規(guī)則,對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換清洗。其常見工作內(nèi)容包括:消除同名異義和異名同義現(xiàn)象一致性檢查去冗余 數(shù)據(jù)歸并上述的數(shù)據(jù)轉(zhuǎn)換需求,假如通過編程實(shí)現(xiàn),其工作量非常浩大,而且面臨著質(zhì)量保證的問題。因此,我們推薦采用神通ETL作為數(shù)據(jù)轉(zhuǎn)換平臺(tái),利用它本身豐富的數(shù)據(jù)轉(zhuǎn)換功能,進(jìn)行圖形化的編輯,保障系統(tǒng)數(shù)據(jù)的真實(shí)性和一致性。數(shù)據(jù)采集平臺(tái)的
26、功能我們推薦采用神通ETL作為數(shù)據(jù)轉(zhuǎn)換平臺(tái)。神通ETL建立了一個(gè)堅(jiān)實(shí)的數(shù)據(jù)抽取、清洗和轉(zhuǎn)換的集成環(huán)境,以其易用性、完善功能和優(yōu)越性能幫助系統(tǒng)進(jìn)行數(shù)據(jù)轉(zhuǎn)換。其特點(diǎn)為:完善的數(shù)據(jù)源支持神通ETL可通過一個(gè)job提供各種數(shù)據(jù)來源系統(tǒng)與目標(biāo)系統(tǒng)的支持,包括:文本文件復(fù)雜的XML數(shù)據(jù)結(jié)構(gòu)ERP系統(tǒng)各種數(shù)據(jù)庫的數(shù)據(jù),包括已分區(qū)的數(shù)據(jù)庫,如Oracle、DB2、Informix、Sybase、Teradata、SQL Server、神通數(shù)據(jù)庫、GBase數(shù)據(jù)庫以及使用ODBC存取的數(shù)據(jù)。實(shí)時(shí)或者定時(shí)數(shù)據(jù)轉(zhuǎn)換神通ETL可以在整合了大量數(shù)據(jù)的同一個(gè)平臺(tái)上實(shí)時(shí)/定時(shí)轉(zhuǎn)換或傳送數(shù)據(jù)。如果客戶有實(shí)時(shí)數(shù)據(jù)交換的需要,可
27、以觸發(fā)系統(tǒng)預(yù)先定義的神通ETL的數(shù)據(jù)采集功能,自動(dòng)進(jìn)行數(shù)據(jù)采集、轉(zhuǎn)換并收集到八大資源庫。完善的開發(fā)環(huán)境神通ETL的開發(fā)人員通過數(shù)據(jù)流模式的程序設(shè)計(jì)功能建立一連串的數(shù)據(jù)流程圖。完整的圖形接口允許開發(fā)人員使用GUI拖放功能來描繪出企業(yè)內(nèi)部的數(shù)據(jù)流。多樣性的描述語言、強(qiáng)大的調(diào)試排錯(cuò)功能以及允許使用外部程序代碼的開放式應(yīng)用程序設(shè)計(jì)接口(API)都可讓開發(fā)人員在設(shè)計(jì)時(shí)更得心應(yīng)手。強(qiáng)大的數(shù)據(jù)轉(zhuǎn)換功能神通ETL提供業(yè)界中最廣泛的數(shù)據(jù)整合開發(fā)環(huán)境,它的鏈接庫提供了上百種內(nèi)建函數(shù)與程序,供開發(fā)人員選取使用。在開發(fā)市局的應(yīng)用時(shí),這些內(nèi)置的函數(shù)能極大地減少數(shù)據(jù)驗(yàn)證和清洗處理的開發(fā)量。相對(duì)于業(yè)界其他的數(shù)據(jù)抽取清洗和轉(zhuǎn)
28、換工具,神通ETL在數(shù)據(jù)清洗方面的功能強(qiáng)大性是無可比擬的。分割與自動(dòng)重新分割神通ETL的并行處理技術(shù)使用分區(qū)處理技巧,將大型的整合工作切割為分區(qū)(分割并行處理),并將這些分區(qū)同時(shí)傳送給所有處理器(管道并行處理)。管道與分區(qū)并行處理的組合可提供完整的并行處理功能(效能提升與處理器數(shù)量成正比),并讓硬件成為性能的唯一決定性因素。廣泛的并行處理硬件支持神通ETL可從SMP與SMP集群擴(kuò)充到擁有數(shù)百個(gè)處理器的MPP。重要的整合應(yīng)用程序可隨企業(yè)發(fā)展的規(guī)模同步擴(kuò)充。將來八大資源庫需要進(jìn)行數(shù)據(jù)量擴(kuò)展,以及應(yīng)用擴(kuò)展時(shí),數(shù)據(jù)采集工具在這方面的能力很重要。綜上所述,神通ETL通過強(qiáng)大的數(shù)據(jù)轉(zhuǎn)換函數(shù),以及分割與管道
29、并行處理的技術(shù),支持來自數(shù)據(jù)采集平臺(tái)的數(shù)據(jù),并將其迅速轉(zhuǎn)換成為真實(shí)的、一致的數(shù)據(jù),形成了一個(gè)有效的數(shù)據(jù)轉(zhuǎn)換平臺(tái)。數(shù)據(jù)庫管理平臺(tái)綜合數(shù)據(jù)庫管理數(shù)據(jù)標(biāo)準(zhǔn)按照航天制定資源庫數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn),資源庫的設(shè)計(jì)將有以下設(shè)計(jì)原則:以綜合庫共享數(shù)據(jù)項(xiàng)集為基礎(chǔ)進(jìn)行擴(kuò)展;遵循業(yè)務(wù)系統(tǒng)的數(shù)據(jù)內(nèi)容;統(tǒng)一規(guī)范,包括描述、命名、長度、類型等;統(tǒng)一引用標(biāo)準(zhǔn),國標(biāo)、部標(biāo)、資源庫標(biāo)準(zhǔn);考慮擴(kuò)展性;考慮數(shù)據(jù)的關(guān)聯(lián)性??蓴U(kuò)展性遵照數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行的數(shù)據(jù)庫邏輯設(shè)計(jì),在綜合考慮數(shù)據(jù)量、數(shù)據(jù)應(yīng)用頻度、索引分布等數(shù)據(jù)庫設(shè)計(jì)要素后,可以進(jìn)行數(shù)據(jù)庫物理設(shè)計(jì)??紤]每年的增長情況,和需要納入的新數(shù)據(jù)源。在這種情況下,傳統(tǒng)的數(shù)據(jù)表設(shè)計(jì)將經(jīng)受比較大的性能壓力。
30、在考慮到數(shù)據(jù)庫將來的可擴(kuò)展性和平滑增長,我們建議結(jié)合神通分析型數(shù)據(jù)庫集群的數(shù)據(jù)分區(qū)功能來進(jìn)行分區(qū)設(shè)計(jì),保障整個(gè)系統(tǒng)的處理性能。安全性本方案的數(shù)據(jù)采集平臺(tái)和數(shù)據(jù)轉(zhuǎn)換平臺(tái)均有獨(dú)立的安全性管理機(jī)制,具有包括用戶認(rèn)證提交、源數(shù)據(jù)訪問控制、用戶管理和權(quán)限定義的功能;從資源庫一級(jí),可以采用用戶認(rèn)證、用戶管理、權(quán)限管理等模塊來進(jìn)行訪問控制。因此,數(shù)據(jù)采集平臺(tái)和數(shù)據(jù)轉(zhuǎn)換平臺(tái)的安全性管理機(jī)制,結(jié)合資源庫本身的數(shù)據(jù)庫安全管理方式,以及資源庫使用時(shí)的應(yīng)用安全管理模式,可以形成從數(shù)據(jù)采集、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)使用、數(shù)據(jù)傳輸?shù)纫幌盗械陌踩U?。而且,?shù)據(jù)采集/轉(zhuǎn)換平臺(tái)和資源庫的安全保障機(jī)制還可以進(jìn)一步結(jié)合市局統(tǒng)一部
31、署的安全保障平臺(tái),進(jìn)行統(tǒng)一的身份認(rèn)證和權(quán)限管理。備份策略在系統(tǒng)運(yùn)行環(huán)境下進(jìn)行備份,可以采用物理備份的方式,或者在保障數(shù)據(jù)一致性的情況下采用邏輯備份。同時(shí),我們考慮到資源庫原始數(shù)據(jù)量和每年數(shù)據(jù)增量,在這種情況下,每天全量備份如此大的數(shù)據(jù)庫基本上是不現(xiàn)實(shí)的。因此,需要考慮全量備份與增量備份相結(jié)合的問題,也就是說,在比較長的周期(例如每個(gè)月),進(jìn)行全量備份,在這個(gè)周期內(nèi),使用增量備份的方式來滿足要求。資源庫擴(kuò)展和變更管理本文建議的解決方案中,采用了數(shù)據(jù)轉(zhuǎn)換平臺(tái)對(duì)數(shù)據(jù)進(jìn)行了轉(zhuǎn)換處理,有效地支持了資源庫的變更和擴(kuò)展。當(dāng)資源庫的數(shù)據(jù)增加或者合并時(shí),只需要改變資源庫的邏輯設(shè)計(jì)和物理設(shè)計(jì),然后在數(shù)據(jù)轉(zhuǎn)換平臺(tái),
32、修改原有轉(zhuǎn)換流程的數(shù)據(jù)目標(biāo),或者添加相應(yīng)的新數(shù)據(jù)流程即可。只要不要求增加新的業(yè)務(wù)數(shù)據(jù),整個(gè)數(shù)據(jù)采集平臺(tái)無需改變,因此能將系統(tǒng)的變化量減到最低。如果新的業(yè)務(wù)數(shù)據(jù)也要增加進(jìn)來,則數(shù)據(jù)采集平臺(tái)會(huì)增加新的采集流程,。整個(gè)變更和數(shù)據(jù)轉(zhuǎn)換的過程可以很清晰地通過圖形化界面來展現(xiàn)出來,數(shù)據(jù)轉(zhuǎn)換的所有更改都可以通過元數(shù)據(jù)管理展現(xiàn)出來,并在需要改變時(shí)在圖形化界面修改定義和配置,無需大的編程工作量,就可以實(shí)現(xiàn)資源庫的擴(kuò)展,充分發(fā)揮出靈活和擴(kuò)展性強(qiáng)的特點(diǎn)。管理平臺(tái)主要負(fù)責(zé)基礎(chǔ)信息管理(人員信息,型號(hào),密級(jí)等),單點(diǎn)登錄服務(wù)(統(tǒng)一身份驗(yàn)證),集中化系統(tǒng)管理(依托開發(fā)平臺(tái)中的“數(shù)據(jù)標(biāo)準(zhǔn)接口服務(wù)”集合)開發(fā)平臺(tái)一是針對(duì)已有
33、數(shù)據(jù)庫中各類數(shù)據(jù)的二次開發(fā),提取可被復(fù)用的數(shù)據(jù)和處理,按照標(biāo)準(zhǔn)數(shù)據(jù)接口來開發(fā)出可供上層系統(tǒng)統(tǒng)一調(diào)用的接口服務(wù);二是針對(duì)一系列接口應(yīng)用的統(tǒng)一管理和靈活的用戶定制界面,可為用戶提供特定的,多內(nèi)容交叉的綜合數(shù)據(jù)服務(wù)。應(yīng)用平臺(tái)在開發(fā)和管理兩平臺(tái)的基礎(chǔ)上,為用戶提供友好的人機(jī)交互界面和相應(yīng)的各類數(shù)據(jù)處理服務(wù),如數(shù)據(jù)回放,檢索,數(shù)據(jù)判讀,數(shù)據(jù)分析等。數(shù)據(jù)質(zhì)量監(jiān)控系統(tǒng)數(shù)據(jù)質(zhì)量監(jiān)控系統(tǒng)可以自動(dòng)地掃描數(shù)據(jù)樣本以判斷其數(shù)據(jù)質(zhì)量和數(shù)據(jù)結(jié)構(gòu)。這個(gè)分析工具幫助了解集成流程的各種輸入,從各個(gè)字段直到高級(jí)數(shù)據(jù)實(shí)體,還讓您能夠提前糾正數(shù)據(jù)結(jié)構(gòu)或數(shù)據(jù)有效性方面的問題,避免它們影響項(xiàng)目。在許多情況下,用戶必須確保數(shù)據(jù)、值和規(guī)則適
34、合業(yè)務(wù)用戶理解。根據(jù)業(yè)務(wù)知識(shí)檢驗(yàn)數(shù)據(jù)是重要的步驟。 業(yè)務(wù)知識(shí)構(gòu)成數(shù)據(jù)監(jiān)視和審計(jì)的基礎(chǔ),從而確保數(shù)據(jù)有效、準(zhǔn)確且符合內(nèi)部標(biāo)準(zhǔn)和行業(yè)規(guī)定。盡管分析源數(shù)據(jù)是任何集成項(xiàng)目的關(guān)鍵步驟,但是還必須持續(xù)監(jiān)視數(shù)據(jù)的質(zhì)量。提供標(biāo)準(zhǔn)的數(shù)據(jù)剖析特性和質(zhì)量控制。元數(shù)據(jù)存儲(chǔ)庫存儲(chǔ)數(shù)據(jù)分析結(jié)果和項(xiàng)目元數(shù)據(jù),比如項(xiàng)目級(jí)和角色級(jí)安全性和功能管理。通過基于任務(wù)的用戶界面幫助業(yè)務(wù)用戶檢查數(shù)據(jù)中的異常和變化,向開發(fā)人員提供關(guān)鍵的功能性和設(shè)計(jì)信息。通過共用的并行處理技術(shù)處理大量數(shù)據(jù),利用連接性等共用服務(wù)訪問各種數(shù)據(jù)源和目標(biāo)。提供全程數(shù)據(jù)生命周期管理(從數(shù)據(jù)訪問和分析直到數(shù)據(jù)監(jiān)視),從而減少在整個(gè)企業(yè)中發(fā)現(xiàn)、評(píng)估、糾正和檢驗(yàn)數(shù)據(jù)所需的
35、時(shí)間和成本。使用單一主動(dòng)式元數(shù)據(jù)存儲(chǔ)庫提供共用的平臺(tái)視圖。采用大容量可伸縮的并行處理設(shè)計(jì),提供對(duì)大型數(shù)據(jù)源的高性能分析。當(dāng)業(yè)務(wù)需求發(fā)生變化時(shí),允許您審查并采用新的數(shù)據(jù)格式和數(shù)據(jù)值。數(shù)據(jù)質(zhì)量監(jiān)控系統(tǒng)幫助管理業(yè)務(wù)規(guī)則的定義和分析,檢查源和目標(biāo)數(shù)據(jù),跨各個(gè)列分析有效的值組合、合適的數(shù)據(jù)范圍、準(zhǔn)確的計(jì)算公式和正確的 if-then-else 運(yùn)算。數(shù)據(jù)質(zhì)量監(jiān)控系統(tǒng)為度量這些業(yè)務(wù)規(guī)則建立指標(biāo),存儲(chǔ)這些分析和指標(biāo)的歷史以反映數(shù)據(jù)質(zhì)量趨勢(shì)。數(shù)據(jù)標(biāo)準(zhǔn)管理系統(tǒng)數(shù)據(jù)標(biāo)準(zhǔn)管理系統(tǒng)分為兩部分,一是標(biāo)準(zhǔn)數(shù)據(jù)的存儲(chǔ),這部分由ETL通過清洗轉(zhuǎn)換判斷將標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行存儲(chǔ);二是數(shù)據(jù)的標(biāo)準(zhǔn)定義,也就是對(duì)于數(shù)據(jù)的統(tǒng)一描述,統(tǒng)一理解。
36、數(shù)據(jù)標(biāo)準(zhǔn)管理系統(tǒng)讓用戶能夠創(chuàng)建、管理和共享業(yè)務(wù)詞匯表和分類系統(tǒng)。它幫助用戶創(chuàng)建集中的業(yè)務(wù)詞匯表。業(yè)務(wù)詞匯表是包含與企業(yè)相關(guān)的詞匯以及詞匯與信息資產(chǎn)的關(guān)系的集合。設(shè)計(jì)它的目的是幫助用戶理解業(yè)務(wù)語言和信息資產(chǎn)(比如數(shù)據(jù)庫、作業(yè)、數(shù)據(jù)庫表和列以及業(yè)務(wù)智能化報(bào)告)的業(yè)務(wù)含義。常用的業(yè)務(wù)詞匯數(shù)據(jù)的業(yè)務(wù)含義和描述業(yè)務(wù)信息主題領(lǐng)域的層次結(jié)構(gòu)負(fù)責(zé)的專員數(shù)據(jù)源和數(shù)據(jù)流共用的詞匯表讓不同的用戶對(duì)業(yè)務(wù)概念形成一致的理解,這會(huì)改進(jìn)交流和效率。例如,組織中的一個(gè)部門可能使用單詞“customers”,另一個(gè)部門使用“users”,而第三個(gè)部門使用“client”,它們都是指同一群人。數(shù)據(jù)標(biāo)準(zhǔn)管理系統(tǒng)讓企業(yè)能夠捕捉這些詞
37、匯、定義它們的含義、創(chuàng)建它們之間的關(guān)系(在上面的示例中,三個(gè)詞的含義相同,所以它們是同義詞)并整合詞匯,從而提高交流的準(zhǔn)確性。其他詞匯表用戶隨時(shí)可以參考這些信息。用戶可以指定關(guān)于詞匯和類別的信息,描述它們?cè)谄髽I(yè)中的使用。例如,對(duì)于給定的詞匯或類別,作者可以定義描述、使用狀態(tài)以及與其他詞匯和類別的關(guān)系。作者還可以為詞匯指定專員(負(fù)責(zé)詞匯定義和維護(hù)的個(gè)人或組)。作者可以指定詞匯的屬性、與其他詞匯的關(guān)系和同義詞,可以為詞匯定義客戶化(與企業(yè)相關(guān)的)屬性。管理員可以導(dǎo)入和導(dǎo)出詞匯表內(nèi)容。這樣就可以添加來自其他源的詞匯表內(nèi)容、離線地修改詞匯表內(nèi)容、在詞匯表之間傳輸內(nèi)容以及創(chuàng)建詞匯表的存檔。應(yīng)用支撐平臺(tái)航
38、天應(yīng)用支撐平臺(tái),可以提供輔助領(lǐng)導(dǎo)決策和滿足工作人員工作需求的可視化展現(xiàn)平臺(tái)。綜合應(yīng)用展現(xiàn)將借助神通商業(yè)智能BI系統(tǒng)實(shí)現(xiàn)。神通商業(yè)智能(BI)產(chǎn)品,是數(shù)據(jù)整合、查詢、分析和展示的全過程可視化工具集合,其敏捷的實(shí)施過程和易用的界面設(shè)計(jì)貼合用戶的需求。產(chǎn)品以全新的方式分析數(shù)據(jù),以絢麗的圖表形式展示結(jié)果,以全面的視覬揭示數(shù)據(jù)的關(guān)系、趨勢(shì)和KPI指標(biāo),并支持圖表中的數(shù)據(jù)聯(lián)勱和鉆取等交互操作,更深入的獲取數(shù)據(jù)的價(jià)值,協(xié)劣用戶高效、正確的預(yù)測(cè)和決策。產(chǎn)品提供了全面的查詢、分析和展示等功能,滿足當(dāng)前企業(yè)對(duì)數(shù)據(jù)處理的多樣性需求。并依托公司數(shù)據(jù)庫產(chǎn)品研發(fā)的技術(shù)積累,實(shí)現(xiàn)海量數(shù)據(jù)處理的高性能。 集成服務(wù) 集成數(shù)據(jù)源
39、、數(shù)據(jù)模型(語義層)管理和數(shù)據(jù)訪問的后臺(tái)服務(wù),包含用戶及權(quán)限管理、CMS管理、行為審計(jì)等功能,提供二次開發(fā)和應(yīng)用集成接口,為整個(gè)BI系統(tǒng)提供核心服務(wù); 門戶 統(tǒng)一內(nèi)容和應(yīng)用發(fā)布及使用平臺(tái),可定制屬于用戶自己的工作空間。支持BI內(nèi)容的自勱分發(fā)和更新,借劣內(nèi)容導(dǎo)航工具全面迅速搜索和閱讀BI內(nèi)容; 呈現(xiàn)器 支持幾乎全部種類的PC瀏覽器和android PAD(安卐操作系統(tǒng))閱讀BI內(nèi)容。包括交互式圖表的格式轉(zhuǎn)換、數(shù)據(jù)聯(lián)勱鉆取操作,頁面內(nèi)容導(dǎo)出和打印等功能; 智能查詢 融合“即系查詢Ad Hoc”與“多維分析OLAP”兩項(xiàng)重要功能,滿足用戶對(duì)數(shù)據(jù)快速查詢與鉆取分析的雙重需求,通過拖拽無需編寫SQL即可
40、按需查詢和分析數(shù)據(jù),并生成統(tǒng)計(jì)圖形,以及選擇不同的文件格式或打印機(jī)輸出; 交互報(bào)表 支持列表、交叉表和中國式網(wǎng)格表等格式,報(bào)表數(shù)據(jù)可為靜態(tài)與動(dòng)態(tài)兩種方式的企業(yè)級(jí)報(bào)表系統(tǒng)。支持圖表混合、數(shù)據(jù)展開、鉆?。ㄌD(zhuǎn))、預(yù)警、Excel文件的導(dǎo)入導(dǎo)出等主要功能; 交互圖表 高效快捷的創(chuàng)建BI內(nèi)容,支持上百種統(tǒng)計(jì)圖形、多種表格、報(bào)表格式、圖形化KPI顯示??蓪?bào)表、GIS、Ad Hoc、OLAP、統(tǒng)計(jì)圖等內(nèi)容繪制在同一頁面,支持多頁、跳轉(zhuǎn)、數(shù)據(jù)和圖形的聯(lián)動(dòng)與鉆取等交互操作; 空間分析 帶有位置信息的統(tǒng)計(jì)數(shù)據(jù)可以選擇不同的地圖圖層,以區(qū)域著色、位置標(biāo)注、統(tǒng)計(jì)圖形疊加等方式進(jìn)行分析,并展示在BI內(nèi)容中;預(yù)測(cè)與挖
41、掘支持200余種函數(shù)組合的表達(dá)式,可按分類和時(shí)間進(jìn)行數(shù)據(jù)分析與預(yù)測(cè),支持用戶擴(kuò)展復(fù)雜預(yù)測(cè)和分析模型。一經(jīng)在數(shù)據(jù)模型和報(bào)表中定義,就可以在所有BI工具和內(nèi)容中使用。神通商業(yè)智能BI系統(tǒng)具有以下功能及特點(diǎn):高集成度的個(gè)性化門戶,實(shí)現(xiàn)用戶個(gè)性化信息的定制和管理功能。具備即席查詢功能:即能夠滿足用戶靈活多變的統(tǒng)計(jì)分析和查詢需求。能夠讓用戶自己根據(jù)需求組合查詢條件和設(shè)定查詢結(jié)果列表。對(duì)于即席查詢結(jié)果報(bào)表的部分統(tǒng)計(jì)數(shù)據(jù)能夠通過圖形展示,做到圖表結(jié)合。能夠打印查詢結(jié)果報(bào)表。能夠?qū)⒉樵兘Y(jié)果導(dǎo)出成PDF、EXCEL等多種格式。能夠?qū)Σ樵兘Y(jié)果列表的一列設(shè)置預(yù)警條件并以不同的顏色標(biāo)識(shí)。能夠?qū)Σ樵兘Y(jié)果報(bào)表的行高、列寬
42、、字體、字號(hào)、對(duì)齊方式進(jìn)行設(shè)置。能夠?qū)Σ樵兘Y(jié)果列表的一列進(jìn)行求和、求平均、計(jì)數(shù)、求最大值、求最小值等運(yùn)算。具備設(shè)計(jì)和展現(xiàn)交互式圖表的專用工具:能夠讓用戶自己根據(jù)需求設(shè)計(jì)動(dòng)態(tài)統(tǒng)計(jì)圖形。不僅支持餅圖、柱圖、線圖等常見統(tǒng)計(jì)圖形,還支持氣泡圖、散點(diǎn)圖、地圖示意圖、TreeMap和HeatMap等特殊統(tǒng)計(jì)圖形。支持柱線組合圖、線散點(diǎn)組合圖等組合圖。支持?jǐn)?shù)據(jù)的表格展現(xiàn)??梢詫?duì)圖形進(jìn)行豐富的顯示特性的設(shè)定。支持普通圖的類型轉(zhuǎn)換,比如柱圖可以轉(zhuǎn)換成線圖。有多種圖形顏色主題供用戶選擇??梢詫?duì)柱圖等常見圖形進(jìn)行維度和度量的顯示轉(zhuǎn)換。支持圖形之間的聯(lián)動(dòng)(通過多個(gè)圖形的互動(dòng),綜合展示統(tǒng)計(jì)信息)操作并提供豐富的數(shù)據(jù)過濾
43、組件。支持圖形的鉆?。ㄍㄟ^點(diǎn)擊圖形的某部分,進(jìn)一步用圖形展示不同層次維度的統(tǒng)計(jì)信息)操作。可以將設(shè)計(jì)的交互圖表發(fā)布到門戶中顯示。具備OLAP多維分析功能:能夠讓用戶自己根據(jù)需求設(shè)計(jì)不同的維度組合進(jìn)行OLAP多維分析,支持OLAP的鉆取、切片、行列轉(zhuǎn)換等操作,能夠支持MDX,并支持與圖形相結(jié)合展示分析結(jié)果。提供交互式圖表展現(xiàn)工具,通過該展現(xiàn)工具能夠靈活的把交互式的統(tǒng)計(jì)圖表嵌入到其他應(yīng)用系統(tǒng)中進(jìn)行展示。非結(jié)構(gòu)化數(shù)據(jù)離線分析挖掘系統(tǒng)對(duì)于數(shù)據(jù)處理系統(tǒng)加工之后,需要進(jìn)行深度數(shù)據(jù)挖掘及分析處理的海量非結(jié)構(gòu)化數(shù)據(jù)來說,由于會(huì)涉及大量、復(fù)雜、長時(shí)間的挖掘過程,并且會(huì)涉及到與結(jié)構(gòu)化數(shù)據(jù)的組合分析,這部分工作并不
44、適合放在在線數(shù)據(jù)分析系統(tǒng)當(dāng)中,而是通過離線數(shù)據(jù)挖掘子系統(tǒng)來實(shí)現(xiàn)對(duì)深度數(shù)據(jù)挖掘的需求。目前,業(yè)內(nèi)對(duì)于離線數(shù)據(jù)挖掘的一個(gè)成熟、高性能、高可靠、高性價(jià)比的解決方案是通過對(duì)開源的Hadoop架構(gòu)進(jìn)行針對(duì)性的優(yōu)化來實(shí)現(xiàn)的。Hadoop是一個(gè)針對(duì)海量數(shù)據(jù)處理的分布式計(jì)算平臺(tái),能夠很好的解決海量非結(jié)構(gòu)化數(shù)據(jù)/半結(jié)構(gòu)化數(shù)據(jù)的離線分析與處理問題,可以輕松地在Hadoop上開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個(gè)優(yōu)點(diǎn):高可靠性:Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。高擴(kuò)展性:Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。高效性:Hado
45、op能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此其處理速度非???。高容錯(cuò)性:Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。對(duì)開源的Hadoop進(jìn)行了優(yōu)化,使其作為海量數(shù)據(jù)存儲(chǔ)分析平臺(tái)的離線數(shù)據(jù)挖掘子系統(tǒng),能夠很好的與結(jié)構(gòu)化數(shù)據(jù)處理子系統(tǒng)結(jié)合,形成面對(duì)海量結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)檢索、分析處理與深度挖掘的一體化解決方案。 系統(tǒng)架構(gòu)下圖給出了基于Hadoop技術(shù)的數(shù)據(jù)離線分析挖掘系統(tǒng)架構(gòu)。它從邏輯上分為硬件層、存儲(chǔ)層和計(jì)算層,對(duì)上支持各種業(yè)務(wù)模型。圖 基于Hadoop技術(shù)的統(tǒng)一數(shù)據(jù)離線分析挖掘系統(tǒng)架構(gòu)硬件平臺(tái)統(tǒng)一為整合計(jì)算和存儲(chǔ)能力的存儲(chǔ)服
46、務(wù)器,服務(wù)器之間通過以太網(wǎng)絡(luò)互相連接。這種不再需要門類繁多的存儲(chǔ)設(shè)備和服務(wù)器類型的設(shè)計(jì)可以大大簡化管理和建設(shè)的復(fù)雜程度。存儲(chǔ)層解決各種類型數(shù)據(jù)的存儲(chǔ)問題。上層業(yè)務(wù)的數(shù)據(jù)可以分解為:結(jié)構(gòu)化數(shù)據(jù)、文本(包括網(wǎng)頁)、圖片、影像、XML文件以及索引文件等。結(jié)構(gòu)化程度高、事務(wù)性強(qiáng)、需要反復(fù)操作的數(shù)據(jù)仍然保存在關(guān)系數(shù)據(jù)庫里,網(wǎng)頁信息等可以Key-Value的形式保存在NoSQL存儲(chǔ)系統(tǒng)中。大量小圖片、XML文件等可以保存在分布式存儲(chǔ)系統(tǒng)中。為了提高檢索效率,各種索引以特有的格式分散保存。計(jì)算層負(fù)責(zé)將存儲(chǔ)層中管理的數(shù)據(jù)轉(zhuǎn)化成上層應(yīng)用所需要的數(shù)據(jù)集。這些轉(zhuǎn)化包括基本的數(shù)據(jù)存取,如基于唯一性的關(guān)鍵字獲取屬性值或
47、內(nèi)容;通過關(guān)鍵字快速檢索某一應(yīng)用的數(shù)據(jù),或者整合多個(gè)系統(tǒng)的檢索結(jié)果呈現(xiàn)給用戶;使用Map-Reduce和并行查詢分別快速從大規(guī)模的文件數(shù)據(jù)或數(shù)據(jù)庫中分析出感興趣的信息。從技術(shù)選擇上來看,數(shù)據(jù)庫存儲(chǔ)可以選擇橫向擴(kuò)展、支持復(fù)雜并行處理模式的MPP數(shù)據(jù)庫系統(tǒng),NoSQL key-Value存儲(chǔ)可以選擇Hadoop-HBase系統(tǒng),分布式存儲(chǔ)可以選擇業(yè)界優(yōu)秀的集群存儲(chǔ)系統(tǒng),選擇支持可以插件形式擴(kuò)展各種應(yīng)用的檢索系統(tǒng)。 實(shí)現(xiàn)方式在數(shù)據(jù)分析平臺(tái)中,隨著業(yè)務(wù)的不斷擴(kuò)大,生產(chǎn)環(huán)境中的數(shù)據(jù)格式因版本更新而發(fā)生升級(jí)擴(kuò)展,這就需要處理平臺(tái)能夠高效地動(dòng)態(tài)建立索引。這就需要通過將內(nèi)容存放在HBase中來實(shí)現(xiàn)。通過在Hb
48、ase中索引信息,快速獲取滿足條件的文檔數(shù)據(jù)。在海量數(shù)據(jù)中,采用Hbase的key-value結(jié)構(gòu),根據(jù)生命周期、活動(dòng)、問題事件等不同維度,快速檢索對(duì)應(yīng)文檔數(shù)據(jù)并展現(xiàn)。只要提供類似Key-Value方式的創(chuàng)建索引和檢索算法,每個(gè)子系統(tǒng)都可以向公共的大數(shù)據(jù)平臺(tái)申請(qǐng)專有的檢索服務(wù)。例如圖片可以根據(jù)標(biāo)簽進(jìn)行檢索,而文本則根據(jù)內(nèi)容進(jìn)行模糊檢索。系統(tǒng)同時(shí)提供跨應(yīng)用的全局檢索,它將關(guān)鍵字按規(guī)則轉(zhuǎn)化成各應(yīng)用的搜索請(qǐng)求,并合并中間結(jié)果?;贖adoop技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)處理子系統(tǒng)還提供通過統(tǒng)計(jì)分析,不斷改進(jìn)業(yè)務(wù)水平的能力。通過用戶行為統(tǒng)計(jì)分析,可以得到用戶的使用喜好,向某些人群推送特定內(nèi)容,提高用戶粘性。另外
49、對(duì)系統(tǒng)負(fù)載、不同區(qū)域的特征分析,都可以改進(jìn)服務(wù)質(zhì)量,也可以對(duì)系統(tǒng)的升級(jí)、維護(hù)提出預(yù)警。這些分析一般是通過記錄用戶訪問的日志,以及系統(tǒng)運(yùn)行、維護(hù)過程中產(chǎn)生的日志。可以采用MPP數(shù)據(jù)庫的方式,也可以采用Hadoop-Hive,結(jié)合Mahout的分析功能實(shí)現(xiàn)信息的抽取。統(tǒng)一數(shù)據(jù)處理平臺(tái)系統(tǒng)架構(gòu)XData大數(shù)據(jù)一體機(jī),可以實(shí)現(xiàn)對(duì)結(jié)構(gòu)化數(shù)據(jù)XData-神通數(shù)據(jù)倉庫,非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和檢索XData-Parastor和以及離線數(shù)據(jù)分析的hadoop系統(tǒng)的統(tǒng)一訪問和管理,提供不同類型數(shù)據(jù)的統(tǒng)一處理平臺(tái)。XData系統(tǒng)將節(jié)點(diǎn)分為兩大類:存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)節(jié)點(diǎn)和提供并行數(shù)據(jù)管理功能的服務(wù)節(jié)點(diǎn)。后者根據(jù)不同的功能劃分
50、,包括:加載服務(wù)、查詢服務(wù)、數(shù)據(jù)復(fù)制和數(shù)據(jù)定義服務(wù)。所有類型的節(jié)點(diǎn)個(gè)數(shù)均必須支持根據(jù)容量和性能的需要而靈活配置。數(shù)據(jù)節(jié)點(diǎn)是帶獨(dú)立存儲(chǔ)系統(tǒng)的存儲(chǔ)服務(wù)器。每個(gè)節(jié)點(diǎn)上既可以安裝單機(jī)版的數(shù)據(jù)庫(如Oracle/Postgresql等數(shù)據(jù)庫)管理系統(tǒng),或者部署成分布式文件系統(tǒng)的數(shù)據(jù)節(jié)點(diǎn)(如Hadoop系統(tǒng)中的HDFS的DataNode),以及這些數(shù)據(jù)存儲(chǔ)和處理系統(tǒng)的復(fù)合。XData大數(shù)據(jù)一體機(jī)的中間件軟件服務(wù)按照其功能可以被分成加載、查詢、控制配置、數(shù)據(jù)定義等服務(wù),每種服務(wù)部署在單獨(dú)的物理節(jié)點(diǎn)或者單獨(dú)的虛擬機(jī)上,以達(dá)到每個(gè)服務(wù)程序的相互隔離性。任何一個(gè)服務(wù)節(jié)點(diǎn)均建立到所有的數(shù)據(jù)節(jié)點(diǎn)的連接。其中加載節(jié)點(diǎn)啟
51、動(dòng)若干個(gè)加載線程,線程將一批數(shù)據(jù)寫入某一數(shù)據(jù)庫節(jié)點(diǎn)。由于海量數(shù)據(jù)分布存儲(chǔ)在各數(shù)據(jù)節(jié)點(diǎn)上,查詢服務(wù)首先并行地在處理各數(shù)據(jù)節(jié)點(diǎn)上的局部數(shù)據(jù)得到中間結(jié)果,然后將中間結(jié)果匯總成最終結(jié)果。數(shù)據(jù)控制配置服務(wù)專用于對(duì)數(shù)據(jù)修改操作,保證集群環(huán)境下的數(shù)據(jù)修改的事務(wù)性。數(shù)據(jù)定義服務(wù)用于維護(hù)系統(tǒng)的元數(shù)據(jù),它主要負(fù)責(zé)整個(gè)系統(tǒng)的對(duì)象定義、存儲(chǔ)組織、增刪改操作和其它數(shù)據(jù)模式改變等元數(shù)據(jù)操作。采用這種服務(wù)分離的設(shè)計(jì),用戶可以靈活地配置各種服務(wù)的個(gè)數(shù),以達(dá)到整個(gè)體統(tǒng)資源的最佳利用。圖 系統(tǒng)整體架構(gòu)上圖給出了XData 大數(shù)據(jù)一體機(jī)系統(tǒng)的整體結(jié)構(gòu)設(shè)計(jì)。大數(shù)據(jù)處理系統(tǒng)在客戶與數(shù)據(jù)存儲(chǔ)之間構(gòu)架了一層中間件軟件,對(duì)上要提供統(tǒng)一的客戶
52、端程序的接口,對(duì)下要支持對(duì)多個(gè)不同數(shù)據(jù)存儲(chǔ)系統(tǒng)的數(shù)據(jù)加載、數(shù)據(jù)查詢、數(shù)據(jù)備份、數(shù)據(jù)統(tǒng)計(jì)和管理功能。底層的數(shù)據(jù)管理系統(tǒng)包括數(shù)據(jù)庫(結(jié)構(gòu)化數(shù)據(jù))和Hadoop(非結(jié)構(gòu)化數(shù)據(jù))系統(tǒng),本版本主要針對(duì)Hadoop的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理。大數(shù)據(jù)處理系統(tǒng)實(shí)現(xiàn)對(duì)數(shù)據(jù)的邏輯劃分功能,支持按照數(shù)據(jù)語義對(duì)數(shù)據(jù)進(jìn)行Hash,Range,List和Round-robing的劃分策略。針對(duì)結(jié)構(gòu)化數(shù)據(jù)處理的數(shù)據(jù)庫系統(tǒng),每個(gè)數(shù)據(jù)節(jié)點(diǎn)保存整個(gè)數(shù)據(jù)集的一部分。每個(gè)數(shù)據(jù)節(jié)點(diǎn)上數(shù)據(jù)均可使用成熟的數(shù)據(jù)庫的索引、分區(qū)等特性。針對(duì)非結(jié)構(gòu)化數(shù)據(jù)處理的Hadoop系統(tǒng),則可以將應(yīng)用數(shù)據(jù)劃分成不同的文件(或者文件夾),每個(gè)文件(或文件夾
53、)保存數(shù)據(jù)集的一部分,表示符合某個(gè)特定屬性的數(shù)據(jù)集合。關(guān)鍵技術(shù)XData大數(shù)據(jù)處理一體機(jī),是在神通結(jié)構(gòu)化數(shù)據(jù)處理系統(tǒng)的基礎(chǔ)上,增加對(duì)非結(jié)構(gòu)化數(shù)據(jù)的處理,實(shí)現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一處理。該系統(tǒng)的關(guān)鍵技術(shù)包括以下幾個(gè)方面:支持Hadoop/HBase/Hive和Database的柔性系統(tǒng)架構(gòu)XData支持對(duì)Hadoop/HBase/Hive的數(shù)據(jù)處理模式,同時(shí)也支持對(duì)Oracle/Postgresql的數(shù)據(jù)庫處理方式,對(duì)外提供統(tǒng)一的數(shù)據(jù)處理訪問接口,系統(tǒng)結(jié)構(gòu)可以隨著數(shù)據(jù)量進(jìn)行柔性配置,最大支持的節(jié)點(diǎn)數(shù)不低于256個(gè),總數(shù)據(jù)量不低于16PB。實(shí)時(shí)分析和離線分析的融合技術(shù)XData大數(shù)據(jù)一體機(jī)實(shí)現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一處理,采用統(tǒng)一的架構(gòu),存儲(chǔ)組織和劃分,以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年標(biāo)準(zhǔn)測(cè)量技術(shù)服務(wù)合同模板版B版
- 2024年度新能源汽車核心部件代加工與貼牌生產(chǎn)合作協(xié)議3篇
- 協(xié)議公證離婚協(xié)議書
- 廣州一模學(xué)生答題情況分析(古詩文閱讀)
- 點(diǎn)對(duì)點(diǎn)通信課程設(shè)計(jì)
- 機(jī)械課程設(shè)計(jì)指導(dǎo)記錄
- 混凝土課程設(shè)計(jì)剛度要求
- 快樂的中秋節(jié)日記15篇
- 拒絕校園欺凌倡議書(9篇)
- 智能小車課程設(shè)計(jì)物聯(lián)網(wǎng)
- 2023年全國職業(yè)院校技能大賽賽項(xiàng)-ZZ019 智能財(cái)稅基本技能賽題 - 模塊二
- 心理危機(jī)干預(yù)服務(wù)
- 天津市河北區(qū)2023年七年級(jí)上冊(cè)《生物》期末試卷與參考答案
- 江蘇省徐州市重點(diǎn)中學(xué)高三第四次模擬考試新高考英語試卷及答案解析
- 廣西壯族自治區(qū)桂林市2023-2024學(xué)年七年級(jí)下學(xué)期期末考試數(shù)學(xué)試題
- 2024年二級(jí)建造師繼續(xù)教育題庫及答案(500題)
- 2024國家安全員資格考試題庫(含答案)
- 《航空工程材料》教學(xué)大綱
- 物聯(lián)網(wǎng)綜合測(cè)試題和答案全
- MOOC 制造技術(shù)基礎(chǔ)訓(xùn)練-北京理工大學(xué) 中國大學(xué)慕課答案
- MOOC 英語話中華-山東大學(xué) 中國大學(xué)慕課答案
評(píng)論
0/150
提交評(píng)論