大數(shù)據(jù)平臺(tái)技術(shù)方案

上傳人：d*** IP屬地：天津上傳時(shí)間：2022-08-15 格式：DOCX 頁(yè)數(shù)：170 大?。?.87MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩165頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)平臺(tái)技術(shù)方案 TOC o 1-5 h z 大數(shù)據(jù)平臺(tái)技術(shù)方案 1 HYPERLINK l bookmark0 o Current Document 需求概述 5背景概述 5建設(shè)目標(biāo) 5需求理解 6面臨挑戰(zhàn) 7設(shè)計(jì)原則 8 HYPERLINK l bookmark2 o Current Document 總體技術(shù)方案 10軟件架構(gòu) 10總體技術(shù)架構(gòu)設(shè)計(jì) 11 HYPERLINK l bookmark4 o Current Document 功能組件完整性介紹 14架構(gòu)優(yōu)化設(shè)計(jì) 64功能優(yōu)勢(shì)說(shuō)明 68集群規(guī)劃 68 HYPERLINK l bookmark46 o Current Docum

2、ent 系統(tǒng)基本功能點(diǎn) 76的發(fā)展緊隨Apache 社區(qū) 76集群內(nèi)所有組件的管理節(jié)點(diǎn)均實(shí)現(xiàn)HA 77提供完全基于WEB圖形化的集群服務(wù)器角色，配置和狀態(tài)管理 77集群支持線(xiàn)性擴(kuò)展 77100%兼容標(biāo)準(zhǔn)SQL92 78支持分布式文件系統(tǒng)HDFS和 HBase等主流數(shù)據(jù)庫(kù) 80支持多種計(jì)算執(zhí)行引擎 81支持異構(gòu)數(shù)據(jù)庫(kù)關(guān)聯(lián)查詢(xún) 86支持大部分的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法 87支持圖形化ETL 87同時(shí)支持Solr和 ElasticSearch 88支持各種類(lèi)型的數(shù)據(jù) 89支持多租戶(hù) 89支持支持分布式存儲(chǔ)數(shù)據(jù)加密 90支持記錄操作日志留存 90支持自適應(yīng)壓縮算法 91SQL支持各類(lèi)函數(shù) 91具備可視化

3、分析能力 93支持建立OLAP Cube 94支持?jǐn)?shù)據(jù)預(yù)警功能 94支持多種數(shù)據(jù)類(lèi)型的文件加載到大數(shù)據(jù)平臺(tái) 94支持復(fù)雜模型建模 96 HYPERLINK l bookmark56 o Current Document 數(shù)據(jù)上載速度快 98SQL性能好 101樸素貝葉斯分類(lèi)性能好 102 HYPERLINK l bookmark58 o Current Document 數(shù)據(jù)庫(kù)功能支持 103 HYPERLINK l bookmark60 o Current Document 開(kāi)發(fā)及應(yīng)用接口 103SQL語(yǔ)法兼容性 104生命周期管理功能 106表分區(qū)功能 106表壓縮功能 107大表索引管理

4、 107數(shù)據(jù)導(dǎo)入與導(dǎo)出 107多級(jí)數(shù)據(jù)存儲(chǔ) 108半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)支持 108 HYPERLINK l bookmark62 o Current Document 安全可靠與運(yùn)維能力 109 HYPERLINK l bookmark64 o Current Document 資源管理 109 HYPERLINK l bookmark66 o Current Document 系統(tǒng)容錯(cuò)性 110 HYPERLINK l bookmark68 o Current Document 系統(tǒng)可靠性 111單點(diǎn)故障消除 111容災(zāi)與備份 112在線(xiàn)擴(kuò)容 112需求概述背景概述近年來(lái)，大數(shù)據(jù)相關(guān)技術(shù)發(fā)

5、展迅速，大數(shù)據(jù)技術(shù)越來(lái)越成熟，已經(jīng)有越來(lái)越多的企事業(yè)單位通過(guò)大數(shù)據(jù)技術(shù)為來(lái)創(chuàng)造更多的價(jià)值的同時(shí)，也為企事業(yè)單位帶來(lái)了更高的性?xún)r(jià)比、和更易于擴(kuò)展的超大規(guī)模數(shù)據(jù)處理能力?；诖髷?shù)據(jù)平臺(tái)技術(shù)，整合現(xiàn)有人口數(shù)據(jù)，接入公安的輿情數(shù)據(jù)，搭建處理能力更強(qiáng)，更易于擴(kuò)展，性能更高的統(tǒng)一數(shù)據(jù)平臺(tái)。不僅可以很好的滿(mǎn)足高計(jì)算、高存儲(chǔ)、高負(fù)載的要求，更能夠?qū)Ａ康臄?shù)據(jù)進(jìn)行數(shù)據(jù)存儲(chǔ)、清洗、加工、建模等，把先前無(wú)法利用的數(shù)據(jù)充分利用，提升對(duì)數(shù)據(jù)的認(rèn)識(shí)，抓住機(jī)遇為華西醫(yī)院平臺(tái)建設(shè)做好最基礎(chǔ)、最扎實(shí)的工作。建設(shè)目標(biāo)全市人口基礎(chǔ)數(shù)據(jù)庫(kù)大數(shù)據(jù)平臺(tái)系統(tǒng)需要建設(shè)成為一個(gè)是一個(gè)高可靠性、高安全性、高性能、高可擴(kuò)展性、高靈活性的先進(jìn)系統(tǒng)

6、，用來(lái)存儲(chǔ)、管理、檢索、分析、查詢(xún)等操作，系統(tǒng)能夠提供靈活應(yīng)用提供可靠、安全、高效的保障，并能夠?yàn)殪`活的建立多種應(yīng)用提供強(qiáng)大開(kāi)發(fā)支持。系統(tǒng)需要提供對(duì)數(shù)據(jù)倉(cāng)庫(kù)類(lèi)應(yīng)用的支持，提供對(duì)數(shù)據(jù)分析、數(shù)據(jù)挖掘類(lèi)應(yīng)用的支持，能夠存儲(chǔ)、查詢(xún)、分析海量全市公安局的歷史數(shù)據(jù)，提供實(shí)時(shí)數(shù)據(jù)計(jì)算模塊，提供并行分析算法包，可以替代傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)的大數(shù)據(jù)管理軟件系統(tǒng)、大規(guī)模并行數(shù)據(jù)挖掘軟件工具包、R語(yǔ)言業(yè)務(wù)建模可視化工具、流式計(jì)算軟件工具包、數(shù)據(jù)復(fù)制與資源管理等支持類(lèi)軟件工具包。全市人口建設(shè)的大數(shù)據(jù)應(yīng)用平臺(tái)項(xiàng)目，要實(shí)現(xiàn)的具體業(yè)務(wù)目標(biāo)為海量數(shù)據(jù)的低成本高效存儲(chǔ)、加工、使用。支持各類(lèi)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化海量數(shù)據(jù)的低成本存

7、儲(chǔ)，快速批處理加工，各應(yīng)用系統(tǒng)的在線(xiàn)數(shù)據(jù)查詢(xún)、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘等需求；為超長(zhǎng)時(shí)間的海量歷史數(shù)據(jù)存儲(chǔ)和使用提供技術(shù)基礎(chǔ)設(shè)施。支持將人口、環(huán)境、教育等數(shù)據(jù)導(dǎo)入導(dǎo)數(shù)據(jù)平臺(tái)。同時(shí)必須支持蒙古文相關(guān)數(shù)據(jù)的分析、處理。支持移動(dòng)互聯(lián)渠道場(chǎng)景的高并發(fā)低延時(shí)數(shù)據(jù)服務(wù)需求銀行在移動(dòng)互聯(lián)渠道提供的客戶(hù)服務(wù)逐漸豐富，客戶(hù)點(diǎn)擊流量增長(zhǎng)快速，客戶(hù)的體驗(yàn)要求也在提高。大數(shù)據(jù)基礎(chǔ)軟件應(yīng)能較好地支持移動(dòng)互聯(lián)業(yè)務(wù)場(chǎng)景高并發(fā)低延時(shí)的數(shù)據(jù)訪(fǎng)問(wèn)需求，包括通過(guò)流式計(jì)算框架對(duì)客戶(hù)個(gè)性化場(chǎng)景營(yíng)銷(xiāo)、實(shí)時(shí)風(fēng)險(xiǎn)監(jiān)測(cè)、銀行流動(dòng)性風(fēng)險(xiǎn)實(shí)時(shí)預(yù)警等需求實(shí)現(xiàn)提供技術(shù)平臺(tái)支持。支持業(yè)務(wù)數(shù)據(jù)分析團(tuán)隊(duì)自主數(shù)據(jù)探索和業(yè)務(wù)建模通過(guò)良好可視化支持的集成工具軟件，業(yè)

8、務(wù)數(shù)據(jù)分析團(tuán)隊(duì)可編寫(xiě)簡(jiǎn)易的R語(yǔ)言數(shù)據(jù)處理和可視化程序，自主探索分析業(yè)務(wù)數(shù)據(jù)，利用機(jī)器學(xué)習(xí)算法對(duì)業(yè)務(wù)數(shù)據(jù)建模和驗(yàn)證，利用成熟的量化模型算法支持更科學(xué)的經(jīng)營(yíng)決策。建立人口與環(huán)境、教育等社會(huì)資源的模型，進(jìn)行深度數(shù)據(jù)挖掘。軟件相關(guān)支持服務(wù)為更好發(fā)揮大數(shù)據(jù)平臺(tái)的技術(shù)優(yōu)勢(shì)，同時(shí)確保系統(tǒng)平穩(wěn)安全運(yùn)行，需要提供現(xiàn)場(chǎng)和非現(xiàn)場(chǎng)形式的產(chǎn)品業(yè)務(wù)培訓(xùn)和技術(shù)培訓(xùn)、運(yùn)維支持、產(chǎn)品缺陷修復(fù)和產(chǎn)品升級(jí)、大數(shù)據(jù)技術(shù)架構(gòu)咨詢(xún)、應(yīng)用開(kāi)發(fā)指導(dǎo)等關(guān)聯(lián)支持服務(wù)。將利用在行業(yè)內(nèi)積累的的豐富經(jīng)驗(yàn)，以及在大數(shù)據(jù)平臺(tái)技術(shù)的積累的深厚的實(shí)力，協(xié)助華西醫(yī)院建設(shè)以大數(shù)據(jù)技術(shù)為基礎(chǔ)，融合開(kāi)發(fā)、測(cè)試、生產(chǎn)的統(tǒng)一平臺(tái)，利用大數(shù)據(jù)技術(shù)解決現(xiàn)有傳統(tǒng)架構(gòu)下面臨的

9、的計(jì)算瓶頸、存儲(chǔ)壓力、擴(kuò)展問(wèn)題、以及應(yīng)用限制等問(wèn)題。需求理解通過(guò)對(duì)華西醫(yī)院基礎(chǔ)軟件及服務(wù)建設(shè)需求的分析，以及我們對(duì)數(shù)據(jù)應(yīng)用的理解，我們總結(jié)了如下數(shù)據(jù)應(yīng)用和相關(guān)流程：華西醫(yī)院基礎(chǔ)軟件及服務(wù)數(shù)據(jù)處理平臺(tái)是一個(gè)高可靠、高穩(wěn)定、高安全、高性能、高可擴(kuò)展、高易用性的基礎(chǔ)數(shù)據(jù)存儲(chǔ)、分析、管理、計(jì)算平臺(tái)。平臺(tái)將完成現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)類(lèi)業(yè)務(wù)，另外也將完成歷史數(shù)據(jù)存儲(chǔ)、查詢(xún)、分析類(lèi)的應(yīng)用。數(shù)據(jù)處理平臺(tái)需要定期、批量的接受公安局內(nèi)部和外部各類(lèi)系統(tǒng)所產(chǎn)生的數(shù)據(jù)，以批量的方式將數(shù)據(jù)插入至數(shù)據(jù)處理平臺(tái)，插入數(shù)據(jù)后進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)格式統(tǒng)一、數(shù)據(jù)入庫(kù)等操作。數(shù)據(jù)處理平臺(tái)也可能會(huì)定期從其他現(xiàn)有系統(tǒng)中抽取部分業(yè)務(wù)數(shù)據(jù)

10、至平臺(tái)中，為后期綜合分析準(zhǔn)備數(shù)據(jù)。數(shù)據(jù)處理平臺(tái)準(zhǔn)備好數(shù)據(jù)后，將通過(guò)SQL、 R 語(yǔ)言等方式對(duì)數(shù)據(jù)處理平臺(tái)中的數(shù)據(jù)進(jìn)行數(shù)學(xué)分析、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)，并將結(jié)果快速顯示出來(lái)，尤其是對(duì)人口與環(huán)境、教育等社會(huì)資源的模型進(jìn)行分析，進(jìn)行數(shù)據(jù)深度挖掘和分析。數(shù)據(jù)處理平臺(tái)對(duì)SQL支持的完整程度將是選擇平臺(tái)的重要考慮之一。對(duì)SQL 2003標(biāo)準(zhǔn)的完整支持，包括對(duì)各種數(shù)據(jù)類(lèi)型的支持，對(duì)各種復(fù)雜連接查詢(xún)的支持，對(duì)相關(guān)子查詢(xún)、嵌套子查詢(xún)的支持、對(duì)操作符、函數(shù)的完整支持，會(huì)使得后期在數(shù)據(jù)處理平臺(tái)的應(yīng)用開(kāi)發(fā)變得非常方便、并且平臺(tái)將方便的與現(xiàn)有平臺(tái)、現(xiàn)有應(yīng)用進(jìn)行對(duì)接，同時(shí)上層通過(guò)SQL完成的應(yīng)用，通過(guò)JDBC/ODBC接口連

11、接的應(yīng)用可以不用做任何修改，這是數(shù)據(jù)處理平臺(tái)對(duì)基礎(chǔ)應(yīng)用支撐。需要對(duì)數(shù)據(jù)處理平臺(tái)的數(shù)據(jù)進(jìn)行建模，以完成相關(guān)業(yè)務(wù)模型操作和計(jì)算。數(shù)據(jù)處理平臺(tái)需要支持?jǐn)?shù)據(jù)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)算法。平臺(tái)需要提供對(duì) R語(yǔ)言和 Python 的支持，能夠使用R語(yǔ)言所提供的5 千多種算法，可以通過(guò)算法靈活的對(duì)數(shù)據(jù)進(jìn)行分析和挖掘，提供對(duì)業(yè)務(wù)有價(jià)值的結(jié)果。數(shù)據(jù)處理平臺(tái)需要提供通用的應(yīng)用接口，以方便與現(xiàn)有應(yīng)用、現(xiàn)有系統(tǒng)進(jìn)行對(duì)接，完成系統(tǒng)集成。面臨挑戰(zhàn)華西醫(yī)院的數(shù)據(jù)增長(zhǎng)迅速，已經(jīng)達(dá)到TB 級(jí)別，如果加上非結(jié)構(gòu)化數(shù)據(jù)，未來(lái)幾年的數(shù)據(jù)存儲(chǔ)將達(dá)到幾十TB，甚至上百TB的數(shù)據(jù)量級(jí)別，如何對(duì)這些海量歷史數(shù)據(jù)資產(chǎn)進(jìn)行有效的存儲(chǔ)、管理、整

12、合，并在此基礎(chǔ)上進(jìn)行快速共享、計(jì)算、分析，最終達(dá)到對(duì)業(yè)務(wù)的有效知道是本系統(tǒng)的建設(shè)關(guān)鍵。在華西醫(yī)院項(xiàng)目基礎(chǔ)軟件及服務(wù)建設(shè)過(guò)程中，主要會(huì)面臨以下挑戰(zhàn)：擴(kuò)展性：當(dāng)數(shù)據(jù)量達(dá)到一定限度之后，無(wú)論是數(shù)據(jù)存儲(chǔ)、分析、查詢(xún)，都會(huì)受到極大的限制，系統(tǒng)的橫向擴(kuò)展性的能力將是系統(tǒng)建設(shè)的重要考量之一。價(jià)格 : 系統(tǒng)的橫向擴(kuò)展，必然會(huì)帶來(lái)軟件、硬件成本的增加，以及后期升級(jí)、維護(hù)、擴(kuò)展的成本的投入也是系統(tǒng)擴(kuò)展面臨的挑戰(zhàn)。性能：數(shù)據(jù)動(dòng)輒幾十TB、甚至上百TB，面對(duì)如此海量的數(shù)據(jù)，若要進(jìn)行高效的計(jì)算、分析，為業(yè)務(wù)提供有效的指導(dǎo)，必須要滿(mǎn)足業(yè)務(wù)允許的時(shí)間要求。平臺(tái)的易用性：華西醫(yī)院項(xiàng)目基礎(chǔ)軟件及服務(wù)的數(shù)據(jù)處理平臺(tái)易用性也是

13、系統(tǒng)建設(shè)的關(guān)鍵問(wèn)題，能否提供一個(gè)可簡(jiǎn)單、方便為上層應(yīng)用使用的平臺(tái)，或者可以將現(xiàn)有應(yīng)用方便遷移到新建設(shè)的華西醫(yī)院項(xiàng)目基礎(chǔ)軟件及服務(wù)數(shù)據(jù)處理平臺(tái)也是面臨的挑戰(zhàn)。平臺(tái)的易用性將直接影響到平臺(tái)的建設(shè)、應(yīng)用的建設(shè)，將直接影響工作成本。設(shè)計(jì)原則系統(tǒng)在設(shè)計(jì)過(guò)程中除考慮滿(mǎn)足當(dāng)前項(xiàng)目建設(shè)要求外，還應(yīng)當(dāng)滿(mǎn)足后續(xù)系統(tǒng)平滑擴(kuò)展升級(jí)要求，因此總方案設(shè)計(jì)遵循如下設(shè)計(jì)原則。開(kāi)放性引入業(yè)界開(kāi)放的、成熟的標(biāo)準(zhǔn)，從而保證系統(tǒng)成為符合標(biāo)準(zhǔn)又不失靈活性的開(kāi)放平臺(tái)，為未來(lái)的系統(tǒng)的靈活開(kāi)放奠定基礎(chǔ)。需要支持業(yè)界開(kāi)放的標(biāo)準(zhǔn)接口，如：SQL2003， PL/SQL等等，同時(shí)完全兼容開(kāi)源的標(biāo)準(zhǔn)。先進(jìn)性基于統(tǒng)一的整體架構(gòu)，采用先進(jìn)的、成熟的、可

14、靠的技術(shù)與軟硬件平臺(tái)，保證基礎(chǔ)數(shù)據(jù)平臺(tái)系統(tǒng)易擴(kuò)展、易升級(jí)、易操作、易維護(hù)等特性。基于業(yè)界熱門(mén)的，且領(lǐng)先的Spark技術(shù)，極速提高平臺(tái)的整體計(jì)算性能?？蓴U(kuò)展性隨著新的業(yè)務(wù)需求的不斷產(chǎn)生，支持基礎(chǔ)數(shù)據(jù)模型、應(yīng)用分析模型、前端應(yīng)用的擴(kuò)展性；支持在統(tǒng)一系統(tǒng)架構(gòu)中服務(wù)器、存儲(chǔ)、I/O 設(shè)備等的可擴(kuò)展性。可靠性制定并實(shí)施基礎(chǔ)數(shù)據(jù)平臺(tái)高可用性方案、運(yùn)行管理監(jiān)控制度、運(yùn)行維護(hù)制度、故障處理預(yù)案等，保證本期系統(tǒng)在多用戶(hù)、多節(jié)點(diǎn)等復(fù)雜環(huán)境下的可靠性。高效性高效性包含兩方面內(nèi)容，一方面系統(tǒng)需要在規(guī)定時(shí)間內(nèi)完成數(shù)據(jù)寫(xiě)入操作，并將數(shù)據(jù)寫(xiě)入對(duì)數(shù)據(jù)分析的影響降到最低；另一方面系統(tǒng)需要實(shí)現(xiàn)規(guī)劃要求的數(shù)據(jù)查詢(xún)和統(tǒng)計(jì)分析速度。正

15、確性數(shù)據(jù)質(zhì)量貫穿基礎(chǔ)數(shù)據(jù)平臺(tái)系統(tǒng)建設(shè)的每個(gè)環(huán)節(jié)，基礎(chǔ)數(shù)據(jù)平臺(tái)系統(tǒng)通過(guò)合理的數(shù)據(jù)質(zhì)量管理解決方案保證數(shù)據(jù)質(zhì)量。安全性按國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、安全規(guī)范等實(shí)現(xiàn)數(shù)據(jù)安全管理。可維護(hù)性系統(tǒng)要有統(tǒng)一的管理平臺(tái), 管理基礎(chǔ)數(shù)據(jù)平臺(tái)系統(tǒng)的各個(gè)環(huán)節(jié)，能對(duì)系統(tǒng)進(jìn)行相應(yīng)的性能管理和日志監(jiān)控。易用性有良好的人機(jī)接口不靈活多樣的展現(xiàn)方式，需要對(duì)最終用戶(hù)提供適當(dāng)?shù)呐嘤?xùn)就可以方便地使用新的分析工具，從而減少I(mǎi)T 人員的工作量，同時(shí)加強(qiáng)了集群監(jiān)管的時(shí)效性?？傮w技術(shù)方案通過(guò)對(duì)華西醫(yī)院基礎(chǔ)軟件及服務(wù)需求的理解，以及根據(jù)建設(shè)目標(biāo)、設(shè)計(jì)原則的考慮，建議華西醫(yī)院采用基于大數(shù)據(jù)基礎(chǔ)平臺(tái)的架構(gòu)方案，來(lái)滿(mǎn)足華西醫(yī)院基礎(chǔ)軟件及服務(wù)建設(shè)的要求

16、。軟件架構(gòu)Apache Hadoop 是針對(duì)大規(guī)模分布式數(shù)據(jù)而開(kāi)發(fā)的軟件框架，目前已經(jīng)成為企業(yè)管理大數(shù)據(jù)的基礎(chǔ)支撐技術(shù)。是解決企業(yè)數(shù)據(jù)中心大數(shù)據(jù)存儲(chǔ)、大規(guī)模數(shù)據(jù)計(jì)算、快速數(shù)據(jù)分析的優(yōu)秀基礎(chǔ)數(shù)據(jù)平臺(tái)。然而現(xiàn)有的Hadoop技術(shù)仍然面臨一些挑戰(zhàn)：性能上，盡管 Hadoop在 100TB以上的數(shù)據(jù)上遠(yuǎn)遠(yuǎn)領(lǐng)先于傳統(tǒng)數(shù)據(jù)處理技術(shù)，然而對(duì)GB到TB級(jí)數(shù)據(jù)的處理效率較低；其次，只有對(duì)海量的數(shù)據(jù)進(jìn)行高效的分析及利用才能將大數(shù)據(jù)中存在的巨大潛在價(jià)值轉(zhuǎn)換為實(shí)際的商業(yè)價(jià)值，這就需要完備的決策分析工具集運(yùn)行在Hadoop 架構(gòu)之上；最后，亟需完備的企業(yè)級(jí)解決方案來(lái)加速大數(shù)據(jù)應(yīng)用的廣泛部署。企業(yè)級(jí)大數(shù)據(jù)分析平臺(tái)是

17、業(yè)界領(lǐng)先的處理企業(yè)級(jí)大數(shù)據(jù)場(chǎng)景的高性能一站式分析平臺(tái)。它可以幫助企業(yè)快速建立一個(gè)統(tǒng)一的數(shù)據(jù)和計(jì)算平臺(tái)，快速支持企業(yè)內(nèi)部/外部數(shù)據(jù)的采集與集成、實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)、并提供極佳的數(shù)據(jù)計(jì)算與深度分析挖掘能力。在大數(shù)據(jù)平臺(tái)之上，用戶(hù)可以構(gòu)建相應(yīng)分析挖掘應(yīng)用，從而輔助企業(yè)及時(shí)洞察新的商機(jī)和潛在的風(fēng)險(xiǎn)，提升企業(yè)競(jìng)爭(zhēng)力。大數(shù)據(jù)產(chǎn)品具有業(yè)界完整的SQL on Hadoop支持，實(shí)現(xiàn)完整支持SQL標(biāo)準(zhǔn)，增強(qiáng)分布式事務(wù)處理能力，全面支持MPP 場(chǎng)景；突破實(shí)時(shí)處理計(jì)算框架，支持物聯(lián)網(wǎng)實(shí)時(shí)業(yè)務(wù)分析；最完整的并行數(shù)據(jù)挖掘算法庫(kù)，并原創(chuàng)前沿機(jī)器學(xué)習(xí)組件；一站式圖形化的數(shù)據(jù)開(kāi)發(fā)套件，可快速分析應(yīng)用；它是企業(yè)級(jí)大數(shù)據(jù)場(chǎng)景的高

18、性能一站式分析平臺(tái)的優(yōu)秀選擇。總體技術(shù)架構(gòu)設(shè)計(jì)基于企業(yè)內(nèi)部多年的大數(shù)據(jù)建設(shè)實(shí)踐經(jīng)驗(yàn)，針對(duì)開(kāi)源Apache Hadoop/Spark框架進(jìn)行了大量的修復(fù)完善及深度優(yōu)化工作，并自主創(chuàng)新的眾多功能和實(shí)用工具，易于使用者開(kāi)發(fā)和管理。華西醫(yī)院的數(shù)據(jù)來(lái)源自多個(gè)方面，包括內(nèi)部數(shù)據(jù)來(lái)源以及未來(lái)可能第三方數(shù)據(jù)接入。各類(lèi)數(shù)據(jù)的來(lái)源方式多樣化，包括關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)、文件數(shù)據(jù)、圖片數(shù)據(jù)等。面對(duì)于多種數(shù)據(jù)接入的需求，大數(shù)據(jù)平臺(tái)提供多種針對(duì)性的接入方式以及工具，通過(guò)分布式消息隊(duì)列Kafka 接入實(shí)時(shí)數(shù)據(jù)；通過(guò)Sqoop全量或定時(shí)增量抽取同步關(guān)系型數(shù)據(jù)庫(kù)；采用 Kettle 作為數(shù)據(jù)抽取管理工具，

19、Kettle 提供圖形化的界面定義數(shù)據(jù)抽取規(guī)則，并可與其他工具相結(jié)合，完成數(shù)據(jù)抽取的工作流；同時(shí)，分布式文件系統(tǒng)HDFS通過(guò)FTP Over HDFS提供文件通過(guò)FTP傳入 HDFS的通道；通過(guò)Flume 提供海量日志文件的聚匯到HDFS的功能。大數(shù)據(jù)分析平臺(tái)從功能架構(gòu)上分為數(shù)據(jù)集成套件、大數(shù)據(jù)計(jì)算平臺(tái)、算法與序號(hào)名稱(chēng)軟件說(shuō)明軟件來(lái) 源1數(shù)據(jù) 集成套件提供對(duì)多種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的靈活集成。支持不同系統(tǒng)和設(shè)備的開(kāi)發(fā)工具套件，能夠根據(jù)企業(yè)的需求方便地快速擴(kuò)展，為企業(yè)快速收集其信息系統(tǒng)之外的設(shè)備、用戶(hù)和社交數(shù)據(jù)。同時(shí)也提供網(wǎng)絡(luò)爬蟲(chóng)模塊，以方便企業(yè)獲取外部網(wǎng)絡(luò)數(shù)據(jù)。自有2大數(shù) 據(jù)計(jì)算平臺(tái)基于開(kāi)

20、源Hadoop Spark 生態(tài)系統(tǒng)，引入了多種核心功能和組件，對(duì)復(fù)雜開(kāi)源技術(shù)進(jìn)行高度集成和性能優(yōu)化，面向基礎(chǔ)設(shè)施層進(jìn)行深度調(diào)優(yōu)。在分布式存儲(chǔ)系統(tǒng)的基礎(chǔ)上，建立了統(tǒng)一資源調(diào)度管理，高效地支持大規(guī)模批處理、交互式查詢(xún)計(jì)算、流式計(jì)算等多種計(jì)算引擎。自有3算法提供挖掘算法工具、人工智能工具實(shí)現(xiàn)數(shù)自有序號(hào)名稱(chēng)軟件說(shuō)明軟件來(lái) 源與分析工具據(jù)深度挖掘能力；同時(shí)為各類(lèi)客戶(hù)查詢(xún)分析、應(yīng)用開(kāi)發(fā)等相關(guān)工具，方便人員使用。4系統(tǒng) 運(yùn)維管控系統(tǒng)運(yùn)維監(jiān)控中心可提供快速完成產(chǎn)品套件的安裝部署、節(jié)點(diǎn)監(jiān)控、訪(fǎng)問(wèn)權(quán)限管理、資源配額管理、系統(tǒng)告警分析、升級(jí)擴(kuò)容等計(jì)算平臺(tái)維護(hù)工作，通過(guò)統(tǒng)一的圖形化界面實(shí)現(xiàn)對(duì)大數(shù)據(jù)平臺(tái)及運(yùn)行服

21、務(wù)狀況的實(shí)時(shí)監(jiān)控和管理。自有數(shù)據(jù) 資產(chǎn)管理將數(shù)據(jù)對(duì)象作為一種全新的資產(chǎn)形態(tài)，圍繞數(shù)據(jù)資產(chǎn)本身建立一個(gè)可靠可信的管理機(jī) 制，提供數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)資產(chǎn)管理、元數(shù) 據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全等，以實(shí)現(xiàn)數(shù)據(jù)的可管、可控、可視，為實(shí)現(xiàn)數(shù)據(jù)價(jià)值增值奠定良好基礎(chǔ)。自有數(shù)據(jù) 可視化Vision 具有儀表盤(pán)(Dashboard) 、靈活查詢(xún) ( Query) 、電子表格(Spreadsheet) 、多維分析(Analysis) 、移動(dòng)應(yīng)用(Mobile) 、分析報(bào) 告插件 ( Office Addin) 、自助分析( xQuery) 、數(shù)據(jù)采集(dataIn) 、數(shù)據(jù)挖掘( Smart M

22、ining) 等豐富的功能，用戶(hù)可以更直觀(guān)便捷地獲取信息，并開(kāi)創(chuàng)性地把各種技術(shù)整合到一個(gè)集成環(huán)境中。自有基于企業(yè)內(nèi)部多年的大數(shù)據(jù)建設(shè)實(shí)踐經(jīng)驗(yàn)，針對(duì)開(kāi)源Apache Hadoop/Spark并自主創(chuàng)新的眾多功能和實(shí)用工具，框架進(jìn)行了大量的修復(fù)完善及深度優(yōu)化工作，易于使用者開(kāi)發(fā)和管理。功能組件完整性介紹基于企業(yè)內(nèi)部多年的大數(shù)據(jù)建設(shè)實(shí)踐經(jīng)驗(yàn)，針對(duì)開(kāi)源Apache Hadoop/Spark框架進(jìn)行了大量的修復(fù)完善及深度優(yōu)化工作，并自主創(chuàng)新的眾多功能和實(shí)用工具，易于使用者開(kāi)發(fā)和管理。產(chǎn)品功能說(shuō)明：功能內(nèi)容描述數(shù)據(jù)集成組件（Data Hub ）數(shù)據(jù)庫(kù)導(dǎo)入支持MySql、 Oracle 、 DB2等多種數(shù)

23、據(jù)庫(kù)到Hive 、 HDFS的數(shù)據(jù)導(dǎo)入；支持常見(jiàn)數(shù)據(jù)庫(kù)互導(dǎo)以及導(dǎo)入到HDFS和 Hive；本地文件導(dǎo)入支持本地文件、Excel 、 CSV到 Hive、 HDFS的導(dǎo)入；客戶(hù)端導(dǎo)本地路徑文件源、客戶(hù)端導(dǎo)數(shù)據(jù)庫(kù)數(shù)據(jù)源；Dump文件上傳到Hive、 HDFS、DB；公有云數(shù)據(jù)導(dǎo)入提供阿里云、亞馬遜云RDS到 HIVE、 HDFS、常見(jiàn)DB數(shù)據(jù)導(dǎo)入；大數(shù)據(jù)類(lèi)數(shù)據(jù)庫(kù)導(dǎo)入支持Redis 、 HBase、 Impala 、 MongoDB等數(shù)據(jù)導(dǎo)入Http 流式上傳提供http 流式上傳方式，開(kāi)放上傳接口，上傳到kafka消息隊(duì)列服務(wù)提供Kafka 消息隊(duì)列服務(wù)其他類(lèi)型導(dǎo)入支持SAP、網(wǎng)絡(luò)數(shù)據(jù)爬取等功能；

24、提供FTP上傳到HDFS遷移任務(wù)展示所創(chuàng)建的任務(wù)信息及任務(wù)運(yùn)行情況，并可對(duì)任務(wù)進(jìn)行管理查看所有數(shù)據(jù)遷移任務(wù)的執(zhí)行歷史和日志（比如某條任務(wù)是每小時(shí) 執(zhí)行一次，就會(huì)產(chǎn)生多條執(zhí)行歷史）資源庫(kù)創(chuàng)建資源庫(kù)連接信息并保存，在之后的上傳過(guò)程中，可以選擇已經(jīng)保存過(guò)的數(shù)據(jù)庫(kù)，自動(dòng)進(jìn)行連接選擇，不用再輸入信息，方便操作；對(duì)保存過(guò)的資源庫(kù)連接進(jìn)行列表展示，并可以對(duì)資源庫(kù)信息進(jìn)行管理操作；流程管理流程的新建、復(fù)制、刪除、修改、啟用、停止、查詢(xún)，定義任務(wù)調(diào) 度策略；大數(shù)據(jù)平臺(tái)組件（Hadoop Distribution ）分布式文件存儲(chǔ) -HDFS分布式文件存儲(chǔ)、多副本備份與同步機(jī)制，提供容錯(cuò)機(jī)制，可修改副本策略，

25、支持跨機(jī)房備份；大文件寫(xiě)入、流式數(shù)據(jù)訪(fǎng)問(wèn)、高吞吐量數(shù)據(jù)訪(fǎng)問(wèn)；支持?jǐn)?shù)據(jù)存儲(chǔ)分布策略，支持機(jī)架感知與負(fù)載均衡，支持高可用；NoSQL數(shù)據(jù)庫(kù)分布式、列存儲(chǔ)、多維結(jié)構(gòu)存儲(chǔ)，支持結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)量的高速讀寫(xiě)操作；面向列表（簇）的存儲(chǔ)和權(quán)限控制，列（簇）獨(dú)立檢索，以及二級(jí) 索引，支持?jǐn)?shù)據(jù)多版本；面向列的數(shù)據(jù)壓縮，高壓縮比，有效降低磁盤(pán)I/O ；數(shù)據(jù)倉(cāng)庫(kù)工具- Hive海量結(jié)構(gòu)數(shù)據(jù)批量離線(xiàn)分析；提供基于HQL的數(shù)據(jù)查詢(xún)機(jī)制，支持UDF，自定義存儲(chǔ)格式，擴(kuò)展數(shù)據(jù)類(lèi)型，函數(shù)和腳本；批量計(jì)算框架-MapReduce數(shù)據(jù)劃分和計(jì)算任務(wù)調(diào)度；內(nèi)存計(jì)算引框架- Spark分布式內(nèi)存計(jì)算引擎；流數(shù)據(jù)計(jì)算引擎基于S

26、torm 與 Spark Streaming 的流式計(jì)算引擎；分布式數(shù)據(jù)庫(kù)MPP支持基于Spark 的 MPP架構(gòu)數(shù)據(jù)庫(kù)，基于Spark 擴(kuò)展CRUD操作；多維分析引擎-Kylin提供OLAP分析能力，支持SQL查詢(xún)分布式消息隊(duì)列服務(wù)- Kafka支持消息隊(duì)列的負(fù)載均衡、分區(qū)存儲(chǔ)、數(shù)據(jù)壓縮等分布式協(xié)作服務(wù) -Zookeeper配置管理、配置更新通知、節(jié)點(diǎn)主備容災(zāi)、節(jié)點(diǎn)心跳管理等；統(tǒng)一資源調(diào)度- Yarn支持資源封裝、調(diào)度、隔離以及配額管理；支持Capacity（靜態(tài) ）、 FIFO（先進(jìn)先出）、 Fair（公平、動(dòng)態(tài)）等調(diào)度模式；交互式分析引擎 -Impala支持基于SQL的查詢(xún)分析；支持

27、基于JDBC/ODBC的數(shù)據(jù)庫(kù)連接，支持 BI 可視化工具連接數(shù)據(jù)導(dǎo)入導(dǎo)出-Sqoop支持傳統(tǒng)數(shù)據(jù)庫(kù)到Hadoop；支持Hadoop到傳統(tǒng)數(shù)據(jù)庫(kù)；全文搜索引擎- Solr基于Lucene 的全文搜索服務(wù)器；日志采集服務(wù)-Flume分布式、可靠的日志采集服務(wù)；日志分析服務(wù)- ELK提供一個(gè)分布式多用戶(hù)能力的全文搜索引擎；支持日志搜集處理框架、快速的日志綜合處理能力；支持日志搜索、可視化、分析能力緩存服務(wù)- Redis基于Key-value 的數(shù)據(jù)緩存庫(kù)，支持?jǐn)?shù)據(jù)同步；安全保障支持Kerberos 認(rèn)證和LDAP集成；任務(wù)調(diào)度( Task Scheduler )實(shí)例管理快速檢索查詢(xún)當(dāng)前平臺(tái)的所有

28、流程實(shí)例、流程執(zhí)行實(shí)例依賴(lài)關(guān)系圖形化、實(shí)例執(zhí)行流程圖查看；重跑、補(bǔ)跑、任務(wù)重試、終止；實(shí)例相關(guān)流程調(diào)度歷史時(shí)長(zhǎng)圖形化與列表兩種方式展示；配置管理數(shù)據(jù)庫(kù)等資源的連接配置；依賴(lài)的hadoop/hdfs 等相關(guān)的配置；支持短信/ 郵箱告警服務(wù)，如郵箱配置、SMS配置，告警短信配置；數(shù)據(jù)分析( SQL/R/Python Editor)數(shù)據(jù)源管理獲取數(shù)據(jù)庫(kù)元數(shù)據(jù)信息，可以展開(kāi)并快速檢索表信息；數(shù)據(jù)查詢(xún)提供SQL編輯器，支持語(yǔ)法補(bǔ)全、關(guān)鍵字補(bǔ)全、數(shù)據(jù)庫(kù)表提示、SQL格式化；支持SQL2 003 標(biāo)準(zhǔn)，兼容SqlServer/Oracle 語(yǔ)法，支持存儲(chǔ)過(guò)程、支持TPC-DS測(cè)試集99 個(gè) SQL語(yǔ)句；查

29、詢(xún)結(jié)果可以通過(guò)交叉表進(jìn)行進(jìn)過(guò)展示，默認(rèn)顯示前100 行；腳本開(kāi)發(fā)支持R、 Python 腳本運(yùn)行；定時(shí)任務(wù)展示當(dāng)前定時(shí)任務(wù)列表及執(zhí)行歷史；定時(shí)任務(wù)添加、修改、刪除、禁止，可以配置任務(wù)的調(diào)度周期多租戶(hù)管理( User Admin)用戶(hù)管理- 操作用戶(hù)用戶(hù)及賬戶(hù)的添加、修改、刪除，用戶(hù)啟停用；項(xiàng)目管理- 多租戶(hù)管理提供項(xiàng)目管理、人員分配、權(quán)限管理等功能費(fèi)用管理當(dāng)前計(jì)算、存儲(chǔ)資源消耗費(fèi)用計(jì)算，并可查看詳情；資源管理當(dāng)前租戶(hù)下各項(xiàng)目資源使用情況，對(duì)項(xiàng)目進(jìn)行資源池分配；個(gè)人中心密碼修改、用戶(hù)注銷(xiāo)；集群管理（ Manager）安裝部署安裝文件拷貝、環(huán)境檢測(cè)與主機(jī)環(huán)境配置、組件自動(dòng)化部署；集群監(jiān)控指標(biāo)監(jiān)控、

30、監(jiān)控?zé)釄D、歷史配置信息、版本信息；服務(wù)管理添加與刪除服務(wù)、服務(wù)啟停、部署與移動(dòng)；參數(shù)配置、配置組、歷史版本；HA配置，支持全組件的HA配置，包括Manager 管理節(jié)點(diǎn)；主機(jī)管理添加與刪除主機(jī)節(jié)點(diǎn)、主機(jī)監(jiān)控指標(biāo)、主機(jī)及相關(guān)組件的告警信息；告警管理報(bào)警歷史記錄；告警組、告警通知；版本管理平臺(tái)及各個(gè)組件版本管理、版本升級(jí)；平臺(tái)授權(quán)信息注冊(cè)；用戶(hù)管理- 運(yùn)維用戶(hù)用戶(hù)添加、修改、刪除；角色添加、修改、刪除；日志管理根據(jù)檢索內(nèi)容做簡(jiǎn)單的信息統(tǒng)計(jì)，統(tǒng)計(jì)不同類(lèi)型輸出信息數(shù)量；根據(jù)組件、關(guān)鍵字信息做信息搜索；元數(shù)據(jù)管理Metadata元數(shù)據(jù)采集JDBC數(shù)據(jù)庫(kù)連接采集、DDL文件上傳解析、Excel 模板上傳解

31、析、API 讀取系統(tǒng)數(shù)據(jù)元數(shù)據(jù)內(nèi)容展示支持?jǐn)?shù)據(jù)庫(kù)Oracle 、 MySQL 、 Postgresql 、 SqlSever 的數(shù)據(jù)結(jié)構(gòu)、樣本數(shù)據(jù)、變更詳情、基本信息、存儲(chǔ)信息、分區(qū)信息、索引信息；主外鍵信息采集、視圖信息采集、分區(qū)信息采集及數(shù)據(jù)庫(kù)、表大小的信息采集；支持分布式數(shù)據(jù)架構(gòu)Hive 、 HDFS 信息采集功能；支持內(nèi)部數(shù)據(jù)處理流程、Oozie 、 azkaban 的信息采集元數(shù)據(jù)查詢(xún)支持模糊查詢(xún)和精確查詢(xún)的全局搜索；Hive 和 HDFS 支持血緣分析功能，主要為表之間的關(guān)聯(lián)性；支持Ooize 和 Kettle 等常見(jiàn)ETL 開(kāi)發(fā)工具的血緣關(guān)系；元數(shù)據(jù)變更記錄可查看系統(tǒng)元數(shù)據(jù)新增、

32、修改、刪除的變更總數(shù)目；可查看系統(tǒng)元數(shù)據(jù)新增、修改、刪除的詳情；結(jié)構(gòu)化數(shù)據(jù)管理提供視圖目錄的新增、修改和刪除；元數(shù)據(jù)添加業(yè)務(wù)類(lèi)描述信息記錄查看表字段和分區(qū)的變更支持用戶(hù)對(duì)元數(shù)據(jù)添加：?jiǎn)栴}、描述、數(shù)據(jù)質(zhì)量等描述注釋問(wèn)題；用于團(tuán)隊(duì)分享協(xié)作使用數(shù)據(jù)；提供基于業(yè)務(wù)層級(jí)數(shù)據(jù)模型的管理非結(jié)構(gòu)化數(shù)據(jù)管理提供對(duì)象存儲(chǔ)系統(tǒng)，對(duì)文檔、圖片、音頻視頻存儲(chǔ)管理；提供對(duì)非結(jié)構(gòu)化數(shù)據(jù)自動(dòng)打標(biāo)管理；提供通過(guò)標(biāo)簽搜索查詢(xún)；數(shù)據(jù)生命周期管理數(shù)據(jù)生命周期判定原則定義生命周期查詢(xún)/ 更改數(shù)據(jù)生命周期監(jiān)控過(guò)期數(shù)據(jù)銷(xiāo)毀元數(shù)據(jù)權(quán)限管理實(shí)體數(shù)據(jù)使用的權(quán)限分配功能元數(shù)據(jù)訪(fǎng)問(wèn)的權(quán)限控制數(shù)據(jù)質(zhì)量( Data Quality )基礎(chǔ)檢查按用戶(hù)選

33、定模式統(tǒng)計(jì) 空白數(shù)量和占比；驗(yàn)證字段的唯一性，統(tǒng)計(jì)不唯一id 的占比，計(jì)算“孤值”；類(lèi)型檢查統(tǒng)計(jì)true/false(/null) 各自占比統(tǒng)計(jì)字符集統(tǒng)計(jì)各自數(shù)量按用戶(hù)勾選項(xiàng)統(tǒng)計(jì)結(jié)果日期檢查統(tǒng)計(jì)日期缺失數(shù)量和占比；統(tǒng)計(jì)各種時(shí)間關(guān)鍵數(shù)據(jù)；統(tǒng)計(jì)各部分時(shí)間分布；查找出當(dāng)中包含的工作日；其它檢查按用戶(hù)輸入統(tǒng)計(jì)各部分?jǐn)?shù)量和占比提取頂部( 底部 )top N 的值統(tǒng)計(jì)用戶(hù)指定參數(shù)不匹配的值及數(shù)量比例模式搜索采集具備批量、實(shí)時(shí)、結(jié)構(gòu)化、非結(jié)構(gòu)化等多樣化的采集功能?？商峁﹫D形化的操作配數(shù)據(jù)集成組件(Data Hub)置，統(tǒng)一的調(diào)度和監(jiān)控，結(jié)合其良好的分布式并行處理架構(gòu)，具備動(dòng)態(tài)的橫向擴(kuò)展能力。數(shù)據(jù)采集批量數(shù)

34、據(jù)采集作為大數(shù)據(jù)體系的核心功能組件，既可以基于SMP單機(jī)處理,也可以基于低成本的X86 分布式平臺(tái)展開(kāi)系統(tǒng)設(shè)計(jì)，支持庫(kù)外預(yù)處理，基于HADOOP組件實(shí)現(xiàn)批量數(shù)據(jù)的并行數(shù)據(jù)處理。其核心功能緊緊圍繞構(gòu)建大數(shù)據(jù)系統(tǒng)在數(shù)據(jù)處理層面上涉及到的數(shù)據(jù)采集、清洗、轉(zhuǎn)換、加載及交換的核心數(shù)據(jù)加工流程展開(kāi)。（ 1）數(shù)據(jù)抽取數(shù)據(jù)抽取功能具備從不同數(shù)據(jù)源（RDBM、S Hadoop、 MPP等）進(jìn)行指定規(guī)則的數(shù)據(jù)提取作業(yè)，抽取后的數(shù)據(jù)存儲(chǔ)支持落地與不落地兩大類(lèi)進(jìn)行，抽取后的數(shù)據(jù)可以為數(shù)據(jù)轉(zhuǎn)換環(huán)節(jié)進(jìn)行處理提供輸入，也可以直接進(jìn)行處理或者加載。支持 Oracle,DB2,Mysql,SQLserver,Teradat

35、a,Greenplum 等主流數(shù)據(jù)庫(kù)接口。數(shù)據(jù)采集采用多樣性的接口方式，除了支持傳統(tǒng)的JDBC/ODB接口、CFTP文件接口，還支持目前主流的流數(shù)據(jù)采集的Socket 接口及 Webservice 接口，同時(shí)擴(kuò)展支持了Hadoop生態(tài)圈的Flume日志系統(tǒng)采集接口等，提供完善的圖形化可拖拽的操作管理界面提供良好的用戶(hù)體驗(yàn)降低產(chǎn)品使用難度，可以根據(jù)實(shí)際業(yè)務(wù)需求選擇相應(yīng)的配置也可以統(tǒng)一使用。數(shù)據(jù)采集功能針對(duì)不同的使用場(chǎng)景訴求提供種類(lèi)豐富的方式支持，具體來(lái)講主要包括以下幾種方式支持：批量數(shù)據(jù)抽取運(yùn)用大規(guī)模并行計(jì)算特點(diǎn)來(lái)達(dá)到批量數(shù)據(jù)抽取目標(biāo)，主要應(yīng)對(duì)數(shù)據(jù)抽取數(shù)據(jù)源以較大文件形式對(duì)外提供數(shù)據(jù)時(shí)可采用

36、此種采集模式，批量數(shù)據(jù)采抽取具備如下功能與能力：多協(xié)議數(shù)據(jù)抽取提供了文件和數(shù)據(jù)庫(kù)等多種數(shù)據(jù)抽取方式包括支持：高性能關(guān)系型數(shù)據(jù)倉(cāng)庫(kù)、MPP分布式數(shù)據(jù)倉(cāng)庫(kù)、Hadoop等，接口協(xié)議可以根據(jù)需要隨時(shí)添加。多格式數(shù)據(jù)解析多種文件格式抽取（CVS、 XML、 Excel 、 ASN.1、自定義），支持不同格式、參數(shù)、編碼、分隔符、 Tag 的異構(gòu)文件解析。提供擴(kuò)展接口，方便支持其他格式。高效率與控制多個(gè)抽取任務(wù)發(fā)布到集群中并行處理，內(nèi)部運(yùn)算使用二進(jìn)制存儲(chǔ)，針對(duì)大批量零散文件優(yōu)化?？煽刂撇l(fā)數(shù)和任務(wù)優(yōu)先級(jí)。流式（實(shí)時(shí)）數(shù)據(jù)抽取流式數(shù)據(jù)采集主要應(yīng)對(duì)海量數(shù)據(jù)進(jìn)行高性能的實(shí)時(shí)數(shù)據(jù)采集處理，以實(shí)時(shí)、高效、低

37、延遲為核心驅(qū)動(dòng)點(diǎn)，具備毫秒級(jí)數(shù)據(jù)觸發(fā)能力，實(shí)現(xiàn)秒級(jí)單位時(shí)間窗口的數(shù)據(jù)統(tǒng)計(jì)分析能力。通過(guò)引入采用Hadoop生態(tài)圈的開(kāi)源技術(shù)Spark Streaming、Storm、 Flume 等，結(jié)合常用標(biāo)準(zhǔn)協(xié)議（Socket、 JMS、 HTTP、 HTTPS、 FTP、SFTP）封裝的組件，進(jìn)行實(shí)時(shí)數(shù)據(jù)進(jìn)行抽取和分析計(jì)算，并將計(jì)算結(jié)果進(jìn)行展示。根據(jù)流式技術(shù)特征，適合引入流式數(shù)據(jù)采集的場(chǎng)景應(yīng)具有如下特點(diǎn)：針對(duì)高頻度的事件流。每個(gè)獨(dú)立的事件都需要處理和分析。高聚合度，以至于數(shù)據(jù)的體積會(huì)大量的減少。通過(guò)可視化界面通過(guò)拖拽式操作實(shí)現(xiàn)對(duì)數(shù)據(jù)采集控件使用。數(shù)據(jù)采集內(nèi)置提供多種數(shù)據(jù)采集功能來(lái)滿(mǎn)足數(shù)據(jù)采集功能訴求，

38、包括但不限于以下HBASE抽取、HDFS抽取、Excel 抽取、XML抽取、TD數(shù)據(jù)庫(kù)抽取、GP數(shù)據(jù)庫(kù)抽取、MySQL抽取等組件。數(shù)據(jù)采集組件被統(tǒng)一歸納在抽取控件組件包中，支持用戶(hù)根據(jù)自身訴求動(dòng)態(tài)調(diào)整控件包控件內(nèi)容，同時(shí)控件支持根據(jù)自身需要進(jìn)行控件來(lái)擴(kuò)展系統(tǒng)計(jì)算能力。ETL產(chǎn)品在實(shí)現(xiàn)過(guò)程中通過(guò)批量數(shù)據(jù)采集與流式（實(shí)時(shí)）數(shù)據(jù)采集二種模式的數(shù)據(jù)采集能力進(jìn)行封裝形成獨(dú)立組件，并將其納入統(tǒng)一的作業(yè)調(diào)度系統(tǒng)進(jìn)行統(tǒng)一管控，從而滿(mǎn)足不同策略、不同形式、異構(gòu)數(shù)據(jù)源之間的數(shù)據(jù)采集需求。（ 2）數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換包括數(shù)據(jù)過(guò)濾、類(lèi)型轉(zhuǎn)換、文件拆分與合并、維度轉(zhuǎn)換等功能。數(shù)據(jù)轉(zhuǎn)換的任務(wù)主要是進(jìn)行不一致的數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)

39、粒度的轉(zhuǎn)換和一些轉(zhuǎn)換規(guī)則的計(jì)算。其中不一致轉(zhuǎn)換過(guò)程是數(shù)據(jù)整合的過(guò)程，側(cè)重于將來(lái)源于不同業(yè)務(wù)系統(tǒng)的相同類(lèi)型的數(shù)據(jù)進(jìn)行統(tǒng)一處理；數(shù)據(jù)粒度轉(zhuǎn)換需要按照數(shù)據(jù)倉(cāng)庫(kù)粒度對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一歸整；轉(zhuǎn)換規(guī)則計(jì)算按照設(shè)計(jì)的計(jì)算歸則對(duì)數(shù)據(jù)進(jìn)行重新計(jì)算。數(shù)據(jù)轉(zhuǎn)換功能說(shuō)明如下：序號(hào)功能功能描述1數(shù)據(jù)轉(zhuǎn)換規(guī)則配置提供圖形化的界面來(lái)實(shí)現(xiàn)靈活的數(shù)據(jù)處理規(guī)則配置，主要提供的數(shù)據(jù)轉(zhuǎn)換規(guī)則設(shè)置包括：對(duì)數(shù)據(jù)進(jìn)行計(jì)算、合并、拆分的規(guī)則配置、對(duì)空值替換規(guī)則的配置、對(duì)數(shù)據(jù)格式化規(guī)則的配置等；序號(hào)功能功能描述2數(shù)據(jù)處理過(guò)程記錄支持對(duì)數(shù)據(jù)處理過(guò)程的日志記錄，記錄的信息主要包括：元數(shù)據(jù)記錄、轉(zhuǎn)換后數(shù)據(jù)記錄、運(yùn)用的轉(zhuǎn)換規(guī)則、轉(zhuǎn)換的時(shí)間等內(nèi)容；

40、3內(nèi)置豐富的數(shù)據(jù)處理組件支持任意合理的數(shù)據(jù)格式轉(zhuǎn)換，包括但不限于：時(shí)間類(lèi)型的轉(zhuǎn)換、字符編碼轉(zhuǎn)換；支持任意合理的數(shù)據(jù)類(lèi)型轉(zhuǎn)換；支持?jǐn)?shù)據(jù)內(nèi)容轉(zhuǎn)換，如通過(guò)關(guān)聯(lián)關(guān)系，將 A數(shù)據(jù)源中的數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)源B 中的數(shù)據(jù)；支持多字段的混合運(yùn)算，運(yùn)算規(guī)則可靈活配置，包括但不限于：sum、 max、 min、 avg等；支持各種字符操作，包括但不限于：字符替換、字符截取、字符連接；支持記錄和字段的抽取，支持對(duì)抽取的數(shù)據(jù)進(jìn)行字段擴(kuò)展；支持?jǐn)?shù)據(jù)粒度的轉(zhuǎn)換：將業(yè)務(wù)系統(tǒng)數(shù)據(jù)按照數(shù)據(jù)倉(cāng)庫(kù)粒度進(jìn)行聚合。保證轉(zhuǎn)換后的誤差在規(guī)定的范圍內(nèi)；支持空值處理：捕獲空值，根據(jù)規(guī)則替換為對(duì)應(yīng)數(shù)據(jù)；支持?jǐn)?shù)據(jù)格式化：統(tǒng)一數(shù)據(jù)源中同類(lèi)數(shù)據(jù)的格式，具

41、體包括時(shí)間、數(shù)值、字符、計(jì)量單位等數(shù)據(jù)；支持?jǐn)?shù)據(jù)替換：根據(jù)規(guī)則用標(biāo)準(zhǔn)數(shù)據(jù)替換原來(lái)的數(shù)據(jù)，支持各種碼表映射，例如用標(biāo)準(zhǔn)編碼替換業(yè)務(wù)系統(tǒng)自定的編碼；支持復(fù)雜條件過(guò)濾，過(guò)濾條件可靈活配置；支持臟讀；支持環(huán)境變量動(dòng)態(tài)修改；支持?jǐn)?shù)據(jù)去重處理，可按照用戶(hù)定義的規(guī)則自動(dòng)判斷重復(fù)數(shù)據(jù)，并按照用戶(hù)定義的規(guī)則處理重復(fù)的數(shù)據(jù)；序號(hào)功能功能描述支持記錄間合并、支持將一條記錄按照可配置的規(guī)則拆分為多條記錄，支持行、列變換；支持一個(gè)數(shù)據(jù)表中多個(gè)列的合并；支持跨異構(gòu)數(shù)據(jù)庫(kù)的關(guān)聯(lián)；支持將多個(gè)異構(gòu)數(shù)據(jù)表合并為一個(gè)表；支持將一個(gè)數(shù)據(jù)表拆分為多個(gè)數(shù)據(jù)表；支持多種規(guī)則排序；支持多種統(tǒng)計(jì)方式；具備度量衡等常用的轉(zhuǎn)換函數(shù)；在轉(zhuǎn)換過(guò)程中

42、支持?jǐn)?shù)據(jù)比較的功能；支持?jǐn)?shù)據(jù)預(yù)覽；支持?jǐn)?shù)據(jù)清洗及標(biāo)準(zhǔn)化；支持按行、按列的分組聚合；具備良好的參數(shù)處理機(jī)制等；ETL處理過(guò)程支持各種字符集的轉(zhuǎn)換；支持樣品數(shù)據(jù)抽取4數(shù)據(jù)轉(zhuǎn)換異常處理支持校驗(yàn)點(diǎn)，當(dāng)外部數(shù)據(jù)記錄特別龐大時(shí)，如果因?yàn)槟撤N原因發(fā)生故障中斷后，可以從最近的校驗(yàn)點(diǎn)開(kāi)始恢復(fù)處理（ 3）數(shù)據(jù)加載數(shù)據(jù)加載功能包括文件加載、流加載、壓縮加載、不落地加載等。數(shù)據(jù)加載功能具備將采集、處理后的數(shù)據(jù)源文件保存到不同數(shù)據(jù)庫(kù)（RDBM、 SMPP、 HADOOP等）中。對(duì)于不同的數(shù)據(jù)庫(kù)加載、不同的方式加載，在數(shù)據(jù)加載過(guò)程的工作原理基本相同，僅在實(shí)現(xiàn)層面針對(duì)不同數(shù)據(jù)庫(kù)或者方式進(jìn)行個(gè)性化控件處理。在加載數(shù)據(jù)庫(kù)類(lèi)別上

43、支持DB2、 Greenplum、 HDFS、 HBase、 Teradata 、 Vertica 、MySql等多種數(shù)據(jù)庫(kù)。全量數(shù)據(jù)加載全量加載是將數(shù)據(jù)一次性加載到接口機(jī)上，是準(zhǔn)實(shí)時(shí)加載，主要應(yīng)對(duì)數(shù)據(jù)加載數(shù)據(jù)源以較大文件形式對(duì)外提供數(shù)據(jù)時(shí)可采用此種采集模式。流式（實(shí)時(shí)）數(shù)據(jù)加載流式數(shù)據(jù)加載主要應(yīng)對(duì)高頻數(shù)據(jù)，對(duì)實(shí)時(shí)性要求高的數(shù)據(jù)，采用流式計(jì)算方法進(jìn)行高性能的實(shí)時(shí)計(jì)算實(shí)時(shí)加載。數(shù)據(jù)采集管理（ 1）管理監(jiān)控提供圖形化統(tǒng)一配置和監(jiān)控界面，降低維護(hù)人員的使用難度，幫助運(yùn)維人員及時(shí)發(fā)現(xiàn)問(wèn)題、解決問(wèn)題，更直觀(guān)的管理ETL任務(wù)。完整全面的圖形化的監(jiān)控管理可顯示系統(tǒng)總體運(yùn)行匯總分析報(bào)表。具備直觀(guān)的監(jiān)控界面，對(duì)

44、ETL作業(yè)各個(gè)步驟的運(yùn)行情況等進(jìn)行監(jiān)控并顯示監(jiān)控信息；包括執(zhí)行起始時(shí)間、作業(yè)運(yùn)行時(shí)間、作業(yè)每個(gè)步驟的執(zhí)行時(shí)間、執(zhí)行結(jié)果、出現(xiàn)錯(cuò)誤的位置、錯(cuò)誤原因、出現(xiàn)錯(cuò)誤的時(shí)間等（必須）等內(nèi)容。提供圖形界面的性能分析，包括分析運(yùn)行的ETL任務(wù)的行為、圖形化展示 ETL任務(wù)整個(gè)運(yùn)行階段每個(gè)時(shí)間線(xiàn)上的記錄吞吐量、CPU使用率、任務(wù)內(nèi)存使用、物理機(jī)器資源占用等，及其平均值的計(jì)算。支持直觀(guān)展示錯(cuò)誤與異常信息。支持異常信息告警，告警級(jí)別、告警內(nèi)容、發(fā)生時(shí)間、告警處理建議等信息展示，并可配置短信或郵件等方式進(jìn)行提醒。（ 2）數(shù)據(jù)校驗(yàn)數(shù)據(jù)校驗(yàn)包括數(shù)據(jù)采集、數(shù)據(jù)加載、數(shù)據(jù)分發(fā)等過(guò)程中數(shù)據(jù)校驗(yàn)。在數(shù)據(jù)采集過(guò)程中通過(guò)對(duì)數(shù)據(jù)源

45、與目標(biāo)數(shù)據(jù)庫(kù)之間的數(shù)據(jù)進(jìn)行對(duì)比分析，從而進(jìn)一步來(lái)分析、發(fā)現(xiàn)與解決在數(shù)據(jù)抽取過(guò)程可能產(chǎn)生的異常錯(cuò)誤信息。數(shù)據(jù)校驗(yàn)從校驗(yàn)對(duì)象細(xì)粒度維度分析，支持文件級(jí)校驗(yàn)與記錄級(jí)校驗(yàn)二大類(lèi)。數(shù)據(jù)校驗(yàn)?zāi)K還內(nèi)置了部分的數(shù)據(jù)檢查功能，如數(shù)據(jù)唯一性檢查、外鍵完整性檢查。數(shù)據(jù)校驗(yàn)內(nèi)容有類(lèi)型，長(zhǎng)度，是否為空，精度，范圍，格式等信息。如果數(shù)據(jù)不符合，會(huì)進(jìn)行過(guò)濾，只有正確的數(shù)據(jù)才能繼續(xù)使用。對(duì)于錯(cuò)誤的數(shù)據(jù)，可以進(jìn)行輸出，包括錯(cuò)誤原因和錯(cuò)誤字段序號(hào)等信息。（ 3）調(diào)度策略時(shí)間調(diào)度時(shí)間調(diào)度是根據(jù)事先定義的執(zhí)行頻度, 計(jì)算下次執(zhí)行時(shí)間, 記錄執(zhí)行次數(shù), 并進(jìn)行流程調(diào)度。提供等間隔時(shí)間調(diào)度和定時(shí)調(diào)度，具備自動(dòng)運(yùn)行和手工執(zhí)行兩種啟動(dòng)方式

46、。等間隔時(shí)間調(diào)度指 “年，季度，月，旬，周，日，時(shí)，分，秒”周期性的調(diào)度定時(shí)調(diào)度是指確定在某個(gè)時(shí)間點(diǎn)觸發(fā)，如每個(gè)月的1 號(hào)和 10 號(hào)執(zhí)行，每天的 9 點(diǎn)和12點(diǎn)執(zhí)行。時(shí)間調(diào)度觸發(fā)分為定時(shí)一次性觸發(fā)和周期性時(shí)間觸發(fā)，定時(shí)一次性觸發(fā)是設(shè)定具體的job 調(diào)度時(shí)間執(zhí)行一次，周期性時(shí)間觸發(fā)是按設(shè)定的時(shí)間周期對(duì)job進(jìn)行執(zhí)行調(diào)度。手工調(diào)度提供臨時(shí)調(diào)度方式（用于測(cè)試、調(diào)優(yōu)、重新執(zhí)行），由用戶(hù)手工執(zhí)行。手工觸發(fā)是指需要維護(hù)人員在頁(yè)面上點(diǎn)擊觸發(fā)按鈕才能觸發(fā)。有些執(zhí)行任務(wù)節(jié)點(diǎn)在執(zhí)行的時(shí)候失敗了，并且此失敗是不能忽略的，這時(shí)候不會(huì)執(zhí)行后面的執(zhí)行任務(wù)節(jié)點(diǎn), 而是需要手工重新執(zhí)行。維護(hù)人員在JOB的執(zhí)行任務(wù)節(jié)點(diǎn)中設(shè)置

47、了起始斷點(diǎn)，并且起始斷點(diǎn)分別可以設(shè)置在多個(gè)執(zhí)行任務(wù)節(jié)點(diǎn)上面。這樣也是手工觸發(fā)，JOB執(zhí)行起始斷點(diǎn)間的執(zhí)行任務(wù)節(jié)點(diǎn)。消息接口調(diào)度通過(guò)消息機(jī)制實(shí)現(xiàn)流程處理過(guò)程、調(diào)度過(guò)程中異常信息的推送，方便產(chǎn)品使用人員實(shí)時(shí)掌握系統(tǒng)運(yùn)行情況。功能上支持郵件定制或短信定制，從業(yè)務(wù)上支持Job 流程類(lèi)定制、系統(tǒng)信息定制。Job 流程類(lèi)消息級(jí)別大致分為：提示，告警，錯(cuò)誤，延時(shí)。系統(tǒng)信息定制：系統(tǒng)信息通告類(lèi)信息。大數(shù)據(jù)計(jì)算存儲(chǔ)平臺(tái)(Hadoop Distribution)大數(shù)據(jù)計(jì)算平臺(tái)基于Hadoop、 Spark 等社區(qū)成熟的開(kāi)源組件為基礎(chǔ)，結(jié)合行業(yè)應(yīng)用的需求，進(jìn)行了深度的優(yōu)化和改造，顯著提升平臺(tái)運(yùn)行的穩(wěn)定性和可靠性。平

48、臺(tái)在提供海量結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)處理和線(xiàn)性擴(kuò)展能力外，還具備四方面的特性：統(tǒng)一的資源管理、海量數(shù)據(jù)集中存儲(chǔ)、高效數(shù)據(jù)處理、平臺(tái)高可用。大數(shù)據(jù)平臺(tái)提供一站式商用大數(shù)據(jù)分析處理平臺(tái)，集成Apache 開(kāi)源社區(qū)Hadoop 2.6 及以上版本，包含HDFS、 MapReduc、e Hive、 HBase、 Spark、 kafka 、Solr 、 Impala 、 Storm、 Flume、 Sqoop、 ELK、 Kylin 等常用組件，組件內(nèi)核與ApacheHadoop 開(kāi)源社區(qū)版本保持兼容性。并提供對(duì)以上組件的集中的可視化管理、配置和監(jiān)控界面。海量數(shù)據(jù)集中存儲(chǔ)通過(guò)基于改造后的分布式文件系統(tǒng)H

49、DFS作為存儲(chǔ)海量數(shù)據(jù)的分布式存儲(chǔ)軟件架構(gòu)。HDFS被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodity hardware) 上的分布式文件系統(tǒng)。HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng)，適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪(fǎng)問(wèn)，非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS放寬了一部分 POSIX約束，來(lái)實(shí)現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。HDFS采用master/slave 架構(gòu)。一個(gè)HDFS集群是由一個(gè)Namenode和一定數(shù)目的 Datanode 組成。Namenode是一個(gè)中心服務(wù)器，負(fù)責(zé)管理文件系統(tǒng)的名字空間 (namespace)以及客戶(hù)端對(duì)文件的訪(fǎng)問(wèn)。集群中的Datanode一般是一個(gè)節(jié)

50、點(diǎn)一個(gè)，負(fù)責(zé)管理它所在節(jié)點(diǎn)上的存儲(chǔ)。HDFS暴露了文件系統(tǒng)的名字空間，用戶(hù)能夠以文件的形式在上面存儲(chǔ)數(shù)據(jù)。從內(nèi)部看，一個(gè)文件其實(shí)被分成一個(gè)或多個(gè)數(shù)據(jù)塊，這些塊存儲(chǔ)在一組Datanode 上。Namenode執(zhí)行文件系統(tǒng)的名字空間操作，比如打開(kāi)、關(guān)閉、重命名文件或目錄。它也負(fù)責(zé)確定數(shù)據(jù)塊到具體Datanode 節(jié)點(diǎn)的映射。Datanode 負(fù)責(zé)處理文件系統(tǒng)客戶(hù)端的讀寫(xiě)請(qǐng)求。在Namenode的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制。同時(shí)，系統(tǒng)支持多存儲(chǔ)層級(jí)支持，能夠?qū)?yīng)用表建立在不同IO 讀寫(xiě)速度的不同介質(zhì)上，包括磁盤(pán)、SSD固態(tài)硬盤(pán)、高速閃存卡和內(nèi)存，其中建立的非易失存儲(chǔ)上的數(shù)據(jù)表在整個(gè)系統(tǒng)

51、重啟后能保證數(shù)據(jù)不丟失，能在SSD上提供與內(nèi)存相近的性能。高效數(shù)據(jù)處理（ 1）基于批量的分布式計(jì)算引擎通過(guò)對(duì)開(kāi)源MapReduce進(jìn)行改造，基于它寫(xiě)出來(lái)的應(yīng)用程序能夠運(yùn)行在由上千個(gè)商用機(jī)器組成的大型集群上，并以一種可靠容錯(cuò)的式并行處理上T 級(jí)別的數(shù)據(jù)集。一個(gè)MapReduce作業(yè)（job ）通常會(huì)把輸入的數(shù)據(jù)集切分為若干獨(dú)立的數(shù)據(jù)塊，由map任務(wù)（task ）以完全并行的方式處理它們?？蚣軙?huì)對(duì)map的輸出先進(jìn)行排序，然后把結(jié)果輸入給reduce 任務(wù)。通常作業(yè)的輸入和輸出都會(huì)被存儲(chǔ)在文件系統(tǒng)中。整個(gè)框架負(fù)責(zé)任務(wù)的調(diào)度和監(jiān)控，以及重新執(zhí)行已經(jīng)失敗的任務(wù)。通常，MapReduce框架和分布式文件系

52、統(tǒng)是運(yùn)行在一組相同的節(jié)點(diǎn)上的，也就是說(shuō)，計(jì)算節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn)通常在一起。這種配置允許框架在那些已經(jīng)存好數(shù)據(jù)的節(jié)點(diǎn)上高效地調(diào)度任務(wù)，這可以使整個(gè)集群的網(wǎng)絡(luò)帶寬被非常高效地利用。（ 2）分布式數(shù)據(jù)倉(cāng)庫(kù)引擎基于開(kāi)源的Hive 進(jìn)行改造優(yōu)化。可以將數(shù)據(jù)存放在分布式文件系統(tǒng)或分布式數(shù)據(jù)庫(kù)中，并使用類(lèi)SQL語(yǔ)言進(jìn)行海量數(shù)據(jù)統(tǒng)計(jì)、查詢(xún)和分析操作。Hive 提供了一種類(lèi)似SQL的查詢(xún)語(yǔ)言HiveQL，它支持在from 子句中嵌套 select, project, join, aggregate, union all和子查詢(xún)。HiveQL 支持?jǐn)?shù)據(jù)定義（DDL）語(yǔ)句來(lái)創(chuàng)建特定序列化格式的內(nèi)部表和分區(qū)，以及Bu

53、ckt 類(lèi)型的列。用戶(hù)可以從外部源加載數(shù)據(jù)，將查詢(xún)結(jié)果通過(guò)數(shù)據(jù)操作（DML）語(yǔ)句分別加載和插入到Hive 表中。 HiveQL目前還不支持更新和刪除現(xiàn)有表中的行。HiveQL支持多表插入操作，用戶(hù)可以通過(guò)使用一個(gè)HiveQL語(yǔ)句來(lái)執(zhí)行在一個(gè)相同輸入數(shù)據(jù)中的多個(gè)查詢(xún)。Hive 通過(guò)共享該輸入數(shù)據(jù)的掃描來(lái)優(yōu)化這些查詢(xún)。 HiveQL也是有很好擴(kuò)展性的。它支持 Java 實(shí)現(xiàn)的用戶(hù)定義的列變換（ UDF）和聚合（UDA）函數(shù)。F（ 3）基于內(nèi)存的分布式計(jì)算引擎基于開(kāi)源Spark 進(jìn)行深度改造，提供的基于內(nèi)存的分布式快速計(jì)算。擁有Hadoop MapReduce所具有的優(yōu)點(diǎn)，但不同于MapReduce

54、的是Job 中間輸出和結(jié)果可以保存在內(nèi)存中，從而不再需要讀寫(xiě)HDFS，因此Spark 能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的map reduce 的算法。與Hadoop相比，Spark 的中間數(shù)據(jù)放到內(nèi)存中，對(duì)于迭代運(yùn)算效率更高。Spark 更適合于迭代運(yùn)算比較多的 ML 和 DM運(yùn)算。提供的數(shù)據(jù)集操作類(lèi)型包括map、 filter 、 flatMap 、sample、groupByKey、reduceByKey、union 、 sort,partionBy 等多種Transformations 操作類(lèi)型。同時(shí)還提供Count, collect, reduce, lookup, save

55、等多種 actions操作。這些多種多樣的數(shù)據(jù)集操作類(lèi)型，給給開(kāi)發(fā)上層應(yīng)用的用戶(hù)提供了方便。各個(gè)處理節(jié)點(diǎn)之間的通信模型不再像Hadoop那樣就是唯一的Data Shuffle 一種模式。用戶(hù)可以命名，物化，控制中間結(jié)果的存儲(chǔ)、分區(qū)等?？梢哉f(shuō)編程模型比Hadoop更靈活。Spark 的適用場(chǎng)景：Spark是基于內(nèi)存的迭代計(jì)算框架，適用于需要多次操作特定數(shù)據(jù)集的應(yīng)用場(chǎng)合。需要反復(fù)操作的次數(shù)越多，所需讀取的數(shù)據(jù)量越大，受益越大，數(shù)據(jù)量小但是計(jì)算密集度較大的場(chǎng)合，受益就相對(duì)較小由于RDD的特性，Spark不適用那種異步細(xì)粒度更新?tīng)顟B(tài)的應(yīng)用，例如 web服務(wù)的存儲(chǔ)或者是增量的web爬蟲(chóng)和索引。就是對(duì)于

56、那種增量修改的應(yīng)用模型不適合。（ 4）實(shí)時(shí)數(shù)據(jù)處理對(duì)開(kāi)源 Spark streaming 進(jìn)行了改造，基本的原理是將流數(shù)據(jù)分成小的時(shí)間片斷（一般是秒級(jí)），以類(lèi)似batch 批量處理的方式來(lái)處理這小部分?jǐn)?shù)據(jù)。這里的批處理引擎是Spark，也就是把Spark Streaming 的輸入數(shù)據(jù)按照batch size（如 1 秒）分成一段一段的數(shù)據(jù)（Discretized Stream ），每一段數(shù)據(jù)都轉(zhuǎn)換成Spark 中的RDD（ Resilient Distributed Dataset ），然后將Spark Streaming中對(duì) DStream 的 Transformation 操作

57、變為針對(duì) Spark 中對(duì) RDD 的 Transformation 操作，將RDD經(jīng)過(guò)操作變成中間結(jié)果保存在內(nèi)存中。整個(gè)流式計(jì)算根據(jù)業(yè)務(wù)的需求可以對(duì)中間的結(jié)果進(jìn)行疊加，或者存儲(chǔ)到外部設(shè)備。（ 5） SQL解析器Spark SQL是一個(gè)基于Spark 的 SQL解析引擎，通過(guò)它實(shí)現(xiàn)執(zhí)行計(jì)劃的解析、生成、優(yōu)化、映射工作，使系統(tǒng)可以基于Spark 做類(lèi) sql 、標(biāo)準(zhǔn) sql 甚至其他查詢(xún)語(yǔ)言的查詢(xún)，Spark SQL復(fù)用了 Hive 的 meta store 數(shù)據(jù)、 hql 解析、UDFs、SerDes，在執(zhí)行DDL和某些簡(jiǎn)單命令的時(shí)候，調(diào)的是hive 客戶(hù)端。后續(xù)邏輯執(zhí)行優(yōu)化、物理

58、執(zhí)行計(jì)劃翻譯及執(zhí)行過(guò)程，都是使用的spark sql 組件提供的內(nèi)容，最終的執(zhí)行引擎是Spark。由于 spark sql 實(shí)現(xiàn)對(duì)標(biāo)準(zhǔn)SQL和 HQL的支持可以同時(shí)處理RDD和 HDFS上的數(shù)據(jù)，對(duì)與傳統(tǒng)平臺(tái)遷移到hadoop 無(wú)需大幅改造sql ，已經(jīng)實(shí)施的大數(shù)據(jù)項(xiàng)目也可以便捷的遷移到spark 上，并且可以很好的將批處理與流處理結(jié)合起來(lái)，因此成為one size first all 通用方案。具有以下特點(diǎn)：一，能在Scala 代碼里寫(xiě)SQL，支持SQL語(yǔ)法檢查，能把RDD指定為T(mén)able存儲(chǔ)起來(lái)。此外支持部分SQL語(yǔ)法的DSL。二，支持Parquet（ Parquet 是一種供Hadoo

59、p使用的列式存儲(chǔ)格式。Parquet為 Hadoop生態(tài)系統(tǒng)中的所有項(xiàng)目提供支持高效率壓縮的列式數(shù)據(jù)表達(dá)，而且與數(shù)據(jù)處理框架、數(shù)據(jù)模型或編程語(yǔ)言都沒(méi)有關(guān)系）文件的讀寫(xiě)，且保留Schema。三，能在 Scala 代碼里訪(fǎng)問(wèn)Hive 元數(shù)據(jù)，能執(zhí)行 Hive 語(yǔ)句，并且把結(jié)果取回作為RDD使用。Spark CRUD技術(shù)實(shí)現(xiàn)特點(diǎn)：CRUD支持：Spark SQL支持傳統(tǒng)DB的 insert , update , delete 操作；高性能保障：充分利用Spark 的高性能特性，支持大規(guī)模數(shù)據(jù)集下的數(shù)據(jù)更新操作；高性能優(yōu)化：優(yōu)化的數(shù)據(jù)讀寫(xiě)結(jié)構(gòu)，減少I(mǎi)O 操作；多版本數(shù)據(jù)控制；ACID支持：分布式

60、環(huán)境下的數(shù)據(jù)ACID支持分布式應(yīng)用協(xié)調(diào)基于 Zookeeper 系統(tǒng)進(jìn)行優(yōu)化，應(yīng)用于分布式應(yīng)用的協(xié)作服務(wù)。使得分布式應(yīng)用可以基于這些接口實(shí)現(xiàn)諸如同步、配置維護(hù)和分集群或者命名的服務(wù)。Zookeeper 很容易編程接入，它使用了一個(gè)和文件樹(shù)結(jié)構(gòu)相似的數(shù)據(jù)模型?？梢允褂?Java 或者 C 來(lái)進(jìn)行編程接入。Zookeeper 針對(duì)大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng)，提供的功能包括：配置維護(hù)、名字服務(wù)、分布式同步、組服務(wù)等。它可以維護(hù)系統(tǒng)配置、群組用戶(hù)和命名等信息。提供數(shù)據(jù)同步機(jī)制，數(shù)據(jù)嚴(yán)格按時(shí)間更新、查詢(xún)和發(fā)布，保證數(shù)據(jù)的一致性。提供高并發(fā)能力，保證集群的高性能，在以讀為主的應(yīng)用中, 可以提供數(shù)千臺(tái)客

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)平臺(tái)技術(shù)方案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)平臺(tái)技術(shù)方案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔