




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、大數(shù)據(jù)平臺(tái)技術(shù)方案 TOC o 1-5 h z 大數(shù)據(jù)平臺(tái)技術(shù)方案 1 HYPERLINK l bookmark0 o Current Document 需求概述 5背景概述 5建設(shè)目標(biāo) 5需求理解 6面臨挑戰(zhàn) 7設(shè)計(jì)原則 8 HYPERLINK l bookmark2 o Current Document 總體技術(shù)方案 10軟件架構(gòu) 10總體技術(shù)架構(gòu)設(shè)計(jì) 11 HYPERLINK l bookmark4 o Current Document 功能組件完整性介紹 14架構(gòu)優(yōu)化設(shè)計(jì) 64功能優(yōu)勢(shì)說(shuō)明 68集群規(guī)劃 68 HYPERLINK l bookmark46 o Current Docum
2、ent 系統(tǒng)基本功能點(diǎn) 76的發(fā)展緊隨Apache 社區(qū) 76集群內(nèi)所有組件的管理節(jié)點(diǎn)均實(shí)現(xiàn)HA 77提供完全基于WEB圖形化的集群服務(wù)器角色,配置和狀態(tài)管理 77集群支持線(xiàn)性擴(kuò)展 77100%兼容標(biāo)準(zhǔn)SQL92 78支持分布式文件系統(tǒng)HDFS和 HBase等主流數(shù)據(jù)庫(kù) 80支持多種計(jì)算執(zhí)行引擎 81支持異構(gòu)數(shù)據(jù)庫(kù)關(guān)聯(lián)查詢(xún) 86支持大部分的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法 87支持圖形化ETL 87同時(shí)支持Solr和 ElasticSearch 88支持各種類(lèi)型的數(shù)據(jù) 89支持多租戶(hù) 89支持支持分布式存儲(chǔ)數(shù)據(jù)加密 90支持記錄操作日志留存 90支持自適應(yīng)壓縮算法 91SQL支持各類(lèi)函數(shù) 91具備可視化
3、分析能力 93支持建立OLAP Cube 94支持?jǐn)?shù)據(jù)預(yù)警功能 94支持多種數(shù)據(jù)類(lèi)型的文件加載到大數(shù)據(jù)平臺(tái) 94支持復(fù)雜模型建模 96 HYPERLINK l bookmark56 o Current Document 數(shù)據(jù)上載速度快 98SQL性能好 101樸素貝葉斯分類(lèi)性能好 102 HYPERLINK l bookmark58 o Current Document 數(shù)據(jù)庫(kù)功能支持 103 HYPERLINK l bookmark60 o Current Document 開(kāi)發(fā)及應(yīng)用接口 103SQL語(yǔ)法兼容性 104生命周期管理功能 106表分區(qū)功能 106表壓縮功能 107大表索引管理
4、 107數(shù)據(jù)導(dǎo)入與導(dǎo)出 107多級(jí)數(shù)據(jù)存儲(chǔ) 108半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)支持 108 HYPERLINK l bookmark62 o Current Document 安全可靠與運(yùn)維能力 109 HYPERLINK l bookmark64 o Current Document 資源管理 109 HYPERLINK l bookmark66 o Current Document 系統(tǒng)容錯(cuò)性 110 HYPERLINK l bookmark68 o Current Document 系統(tǒng)可靠性 111單點(diǎn)故障消除 111容災(zāi)與備份 112在線(xiàn)擴(kuò)容 112需求概述背景概述近年來(lái),大數(shù)據(jù)相關(guān)技術(shù)發(fā)
5、展迅速,大數(shù)據(jù)技術(shù)越來(lái)越成熟,已經(jīng)有越來(lái)越多的企事業(yè)單位通過(guò)大數(shù)據(jù)技術(shù)為來(lái)創(chuàng)造更多的價(jià)值的同時(shí),也為企事業(yè)單位帶來(lái)了更高的性?xún)r(jià)比、和更易于擴(kuò)展的超大規(guī)模數(shù)據(jù)處理能力?;诖髷?shù)據(jù)平臺(tái)技術(shù),整合現(xiàn)有人口數(shù)據(jù),接入公安的輿情數(shù)據(jù),搭建處理能力更強(qiáng),更易于擴(kuò)展,性能更高的統(tǒng)一數(shù)據(jù)平臺(tái)。不僅可以很好的滿(mǎn)足高計(jì)算、高存儲(chǔ)、高負(fù)載的要求,更能夠?qū)A康臄?shù)據(jù)進(jìn)行數(shù)據(jù)存儲(chǔ)、清洗、加工、建模等, 把先前無(wú)法利用的數(shù)據(jù)充分利用,提升對(duì)數(shù)據(jù)的認(rèn)識(shí),抓住機(jī)遇為華西醫(yī)院平臺(tái)建設(shè)做好最基礎(chǔ)、最扎實(shí)的工作。建設(shè)目標(biāo)全市人口基礎(chǔ)數(shù)據(jù)庫(kù)大數(shù)據(jù)平臺(tái)系統(tǒng)需要建設(shè)成為一個(gè)是一個(gè)高可靠性、高安全性、高性能、高可擴(kuò)展性、高靈活性的先進(jìn)系統(tǒng)
6、,用來(lái)存儲(chǔ)、管理、檢索、分析、查詢(xún)等操作,系統(tǒng)能夠提供靈活應(yīng)用提供可靠、安全、高效的保障,并能夠?yàn)殪`活的建立多種應(yīng)用提供強(qiáng)大開(kāi)發(fā)支持。系統(tǒng)需要提供對(duì)數(shù)據(jù)倉(cāng)庫(kù)類(lèi)應(yīng)用的支持,提供對(duì)數(shù)據(jù)分析、數(shù)據(jù)挖掘類(lèi)應(yīng)用的支持,能夠存儲(chǔ)、查詢(xún)、分析海量全市公安局的歷史數(shù)據(jù),提供實(shí)時(shí)數(shù)據(jù)計(jì)算模塊,提供并行分析算法包,可以替代傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)的大數(shù)據(jù)管理軟件系統(tǒng)、大規(guī)模并行數(shù)據(jù)挖掘軟件工具包、R語(yǔ)言業(yè)務(wù)建模可視化工具、流式計(jì)算軟件工具包、數(shù)據(jù)復(fù)制與資源管理等支持類(lèi)軟件工具包。全市人口建設(shè)的大數(shù)據(jù)應(yīng)用平臺(tái)項(xiàng)目,要實(shí)現(xiàn)的具體業(yè)務(wù)目標(biāo)為海量數(shù)據(jù)的低成本高效存儲(chǔ)、加工、使用。支持各類(lèi)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化海量數(shù)據(jù)的低成本存
7、儲(chǔ),快速批處理加工,各應(yīng)用系統(tǒng)的在線(xiàn)數(shù)據(jù)查詢(xún)、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘等需求;為超長(zhǎng)時(shí)間的海量歷史數(shù)據(jù)存儲(chǔ)和使用提供技術(shù)基礎(chǔ)設(shè)施。支持將人口、環(huán)境、 教育等數(shù)據(jù)導(dǎo)入導(dǎo)數(shù)據(jù)平臺(tái)。同時(shí)必須支持蒙古文相關(guān)數(shù)據(jù)的分析、處理。支持移動(dòng)互聯(lián)渠道場(chǎng)景的高并發(fā)低延時(shí)數(shù)據(jù)服務(wù)需求銀行在移動(dòng)互聯(lián)渠道提供的客戶(hù)服務(wù)逐漸豐富,客戶(hù)點(diǎn)擊流量增長(zhǎng)快速,客戶(hù)的體驗(yàn)要求也在提高。大數(shù)據(jù)基礎(chǔ)軟件應(yīng)能較好地支持移動(dòng)互聯(lián)業(yè)務(wù)場(chǎng)景高并發(fā)低延時(shí)的數(shù)據(jù)訪(fǎng)問(wèn)需求,包括通過(guò)流式計(jì)算框架對(duì)客戶(hù)個(gè)性化場(chǎng)景營(yíng)銷(xiāo)、實(shí)時(shí)風(fēng)險(xiǎn)監(jiān)測(cè)、銀行流動(dòng)性風(fēng)險(xiǎn)實(shí)時(shí)預(yù)警等需求實(shí)現(xiàn)提供技術(shù)平臺(tái)支持。支持業(yè)務(wù)數(shù)據(jù)分析團(tuán)隊(duì)自主數(shù)據(jù)探索和業(yè)務(wù)建模通過(guò)良好可視化支持的集成工具軟件,業(yè)
8、務(wù)數(shù)據(jù)分析團(tuán)隊(duì)可編寫(xiě)簡(jiǎn)易的R語(yǔ)言數(shù)據(jù)處理和可視化程序,自主探索分析業(yè)務(wù)數(shù)據(jù),利用機(jī)器學(xué)習(xí)算法對(duì)業(yè)務(wù)數(shù)據(jù)建模和驗(yàn)證,利用成熟的量化模型算法支持更科學(xué)的經(jīng)營(yíng)決策。建立人口與環(huán)境、教育等社會(huì)資源的模型,進(jìn)行深度數(shù)據(jù)挖掘。軟件相關(guān)支持服務(wù)為更好發(fā)揮大數(shù)據(jù)平臺(tái)的技術(shù)優(yōu)勢(shì),同時(shí)確保系統(tǒng)平穩(wěn)安全運(yùn)行,需要提供現(xiàn)場(chǎng)和非現(xiàn)場(chǎng)形式的產(chǎn)品業(yè)務(wù)培訓(xùn)和技術(shù)培訓(xùn)、運(yùn)維支持、產(chǎn)品缺陷修復(fù)和產(chǎn)品升級(jí)、大數(shù)據(jù)技術(shù)架構(gòu)咨詢(xún)、應(yīng)用開(kāi)發(fā)指導(dǎo)等關(guān)聯(lián)支持服務(wù)。將利用在行業(yè)內(nèi)積累的的豐富經(jīng)驗(yàn),以及在大數(shù)據(jù)平臺(tái)技術(shù)的積累的深厚的實(shí)力,協(xié)助華西醫(yī)院建設(shè)以大數(shù)據(jù)技術(shù)為基礎(chǔ),融合開(kāi)發(fā)、測(cè)試、生產(chǎn)的統(tǒng)一平臺(tái), 利用大數(shù)據(jù)技術(shù)解決現(xiàn)有傳統(tǒng)架構(gòu)下面臨的
9、的計(jì)算瓶頸、存儲(chǔ)壓力、擴(kuò)展問(wèn)題、以及應(yīng)用限制等問(wèn)題。需求理解通過(guò)對(duì)華西醫(yī)院基礎(chǔ)軟件及服務(wù)建設(shè)需求的分析,以及我們對(duì)數(shù)據(jù)應(yīng)用的理解,我們總結(jié)了如下數(shù)據(jù)應(yīng)用和相關(guān)流程:華西醫(yī)院基礎(chǔ)軟件及服務(wù)數(shù)據(jù)處理平臺(tái)是一個(gè)高可靠、高穩(wěn)定、高安全、高性能、高可擴(kuò)展、高易用性的基礎(chǔ)數(shù)據(jù)存儲(chǔ)、分析、管理、計(jì)算平臺(tái)。平臺(tái)將完成現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)類(lèi)業(yè)務(wù),另外也將完成歷史數(shù)據(jù)存儲(chǔ)、查詢(xún)、 分析類(lèi)的應(yīng)用。數(shù)據(jù)處理平臺(tái)需要定期、批量的接受公安局內(nèi)部和外部各類(lèi)系統(tǒng)所產(chǎn)生的數(shù)據(jù), 以批量的方式將數(shù)據(jù)插入至數(shù)據(jù)處理平臺(tái),插入數(shù)據(jù)后進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)格式統(tǒng)一、數(shù)據(jù)入庫(kù)等操作。數(shù)據(jù)處理平臺(tái)也可能會(huì)定期從其他現(xiàn)有系統(tǒng)中抽取部分業(yè)務(wù)數(shù)據(jù)
10、至平臺(tái)中,為后期綜合分析準(zhǔn)備數(shù)據(jù)。數(shù)據(jù)處理平臺(tái)準(zhǔn)備好數(shù)據(jù)后,將通過(guò)SQL、 R 語(yǔ)言等方式對(duì)數(shù)據(jù)處理平臺(tái)中的數(shù)據(jù)進(jìn)行數(shù)學(xué)分析、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí),并將結(jié)果快速顯示出來(lái),尤其是對(duì)人口與環(huán)境、教育等社會(huì)資源的模型進(jìn)行分析,進(jìn)行數(shù)據(jù)深度挖掘和分析。數(shù)據(jù)處理平臺(tái)對(duì)SQL支持的完整程度將是選擇平臺(tái)的重要考慮之一。對(duì)SQL 2003標(biāo)準(zhǔn)的完整支持,包括對(duì)各種數(shù)據(jù)類(lèi)型的支持,對(duì)各種復(fù)雜連接查詢(xún)的支持,對(duì)相關(guān)子查詢(xún)、嵌套子查詢(xún)的支持、對(duì)操作符、函數(shù)的完整支持,會(huì)使得后期在數(shù)據(jù)處理平臺(tái)的應(yīng)用開(kāi)發(fā)變得非常方便、并且平臺(tái)將方便的與現(xiàn)有平臺(tái)、現(xiàn)有應(yīng)用進(jìn)行對(duì)接,同時(shí)上層通過(guò)SQL完成的應(yīng)用,通過(guò)JDBC/ODBC接口連
11、接的應(yīng)用可以不用做任何修改,這是數(shù)據(jù)處理平臺(tái)對(duì)基礎(chǔ)應(yīng)用支撐。需要對(duì)數(shù)據(jù)處理平臺(tái)的數(shù)據(jù)進(jìn)行建模,以完成相關(guān)業(yè)務(wù)模型操作和計(jì)算。數(shù)據(jù)處理平臺(tái)需要支持?jǐn)?shù)據(jù)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)算法。平臺(tái)需要提供對(duì) R語(yǔ)言和 Python 的支持,能夠使用R語(yǔ)言所提供的5 千多種算法,可以通過(guò)算法靈活的對(duì)數(shù)據(jù)進(jìn)行分析和挖掘,提供對(duì)業(yè)務(wù)有價(jià)值的結(jié)果。數(shù)據(jù)處理平臺(tái)需要提供通用的應(yīng)用接口,以方便與現(xiàn)有應(yīng)用、現(xiàn)有系統(tǒng)進(jìn)行對(duì)接,完成系統(tǒng)集成。面臨挑戰(zhàn)華西醫(yī)院的數(shù)據(jù)增長(zhǎng)迅速,已經(jīng)達(dá)到TB 級(jí)別,如果加上非結(jié)構(gòu)化數(shù)據(jù),未來(lái)幾年的數(shù)據(jù)存儲(chǔ)將達(dá)到幾十TB,甚至上百TB的數(shù)據(jù)量級(jí)別,如何對(duì)這些海量歷史數(shù)據(jù)資產(chǎn)進(jìn)行有效的存儲(chǔ)、管理、 整
12、合, 并在此基礎(chǔ)上進(jìn)行快速共享、計(jì)算、分析, 最終達(dá)到對(duì)業(yè)務(wù)的有效知道是本系統(tǒng)的建設(shè)關(guān)鍵。在華西醫(yī)院項(xiàng)目基礎(chǔ)軟件及服務(wù)建設(shè)過(guò)程中,主要會(huì)面臨以下挑戰(zhàn):擴(kuò)展性:當(dāng)數(shù)據(jù)量達(dá)到一定限度之后,無(wú)論是數(shù)據(jù)存儲(chǔ)、分析、查詢(xún),都會(huì)受到極大的限制,系統(tǒng)的橫向擴(kuò)展性的能力將是系統(tǒng)建設(shè)的重要考量之一。價(jià)格 : 系統(tǒng)的橫向擴(kuò)展,必然會(huì)帶來(lái)軟件、硬件成本的增加,以及后期升級(jí)、維護(hù)、擴(kuò)展的成本的投入也是系統(tǒng)擴(kuò)展面臨的挑戰(zhàn)。性能:數(shù)據(jù)動(dòng)輒幾十TB、甚至上百TB,面對(duì)如此海量的數(shù)據(jù),若要進(jìn)行高效的計(jì)算、分析,為業(yè)務(wù)提供有效的指導(dǎo),必須要滿(mǎn)足業(yè)務(wù)允許的時(shí)間要求。平臺(tái)的易用性:華西醫(yī)院項(xiàng)目基礎(chǔ)軟件及服務(wù)的數(shù)據(jù)處理平臺(tái)易用性也是
13、系統(tǒng)建設(shè)的關(guān)鍵問(wèn)題,能否提供一個(gè)可簡(jiǎn)單、方便為上層應(yīng)用使用的平臺(tái),或者可以將現(xiàn)有應(yīng)用方便遷移到新建設(shè)的華西醫(yī)院項(xiàng)目基礎(chǔ)軟件及服務(wù)數(shù)據(jù)處理平臺(tái)也是面臨的挑戰(zhàn)。平臺(tái)的易用性將直接影響到平臺(tái)的建設(shè)、應(yīng)用的建設(shè),將直接影響工作成本。設(shè)計(jì)原則系統(tǒng)在設(shè)計(jì)過(guò)程中除考慮滿(mǎn)足當(dāng)前項(xiàng)目建設(shè)要求外,還應(yīng)當(dāng)滿(mǎn)足后續(xù)系統(tǒng)平滑擴(kuò)展升級(jí)要求,因此總方案設(shè)計(jì)遵循如下設(shè)計(jì)原則。開(kāi)放性引入業(yè)界開(kāi)放的、成熟的標(biāo)準(zhǔn),從而保證系統(tǒng)成為符合標(biāo)準(zhǔn)又不失靈活性的開(kāi)放平臺(tái),為未來(lái)的系統(tǒng)的靈活開(kāi)放奠定基礎(chǔ)。需要支持業(yè)界開(kāi)放的標(biāo)準(zhǔn)接口,如:SQL2003, PL/SQL等等,同時(shí)完全兼容開(kāi)源的標(biāo)準(zhǔn)。先進(jìn)性基于統(tǒng)一的整體架構(gòu),采用先進(jìn)的、成熟的、可
14、靠的技術(shù)與軟硬件平臺(tái),保證基礎(chǔ)數(shù)據(jù)平臺(tái)系統(tǒng)易擴(kuò)展、易升級(jí)、易操作、易維護(hù)等特性。基于業(yè)界熱門(mén)的,且領(lǐng)先的Spark技術(shù),極速提高平臺(tái)的整體計(jì)算性能??蓴U(kuò)展性隨著新的業(yè)務(wù)需求的不斷產(chǎn)生,支持基礎(chǔ)數(shù)據(jù)模型、應(yīng)用分析模型、前端應(yīng)用的擴(kuò)展性;支持在統(tǒng)一系統(tǒng)架構(gòu)中服務(wù)器、存儲(chǔ)、I/O 設(shè)備等的可擴(kuò)展性。可靠性制定并實(shí)施基礎(chǔ)數(shù)據(jù)平臺(tái)高可用性方案、運(yùn)行管理監(jiān)控制度、運(yùn)行維護(hù)制度、故障處理預(yù)案等,保證本期系統(tǒng)在多用戶(hù)、多節(jié)點(diǎn)等復(fù)雜環(huán)境下的可靠性。高效性高效性包含兩方面內(nèi)容,一方面系統(tǒng)需要在規(guī)定時(shí)間內(nèi)完成數(shù)據(jù)寫(xiě)入操作,并將數(shù)據(jù)寫(xiě)入對(duì)數(shù)據(jù)分析的影響降到最低;另一方面系統(tǒng)需要實(shí)現(xiàn)規(guī)劃要求的數(shù)據(jù)查詢(xún)和統(tǒng)計(jì)分析速度。正
15、確性數(shù)據(jù)質(zhì)量貫穿基礎(chǔ)數(shù)據(jù)平臺(tái)系統(tǒng)建設(shè)的每個(gè)環(huán)節(jié),基礎(chǔ)數(shù)據(jù)平臺(tái)系統(tǒng)通過(guò)合理的數(shù)據(jù)質(zhì)量管理解決方案保證數(shù)據(jù)質(zhì)量。安全性 按國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、安全規(guī)范等實(shí)現(xiàn)數(shù)據(jù)安全管理。可維護(hù)性系統(tǒng)要有統(tǒng)一的管理平臺(tái), 管理基礎(chǔ)數(shù)據(jù)平臺(tái)系統(tǒng)的各個(gè)環(huán)節(jié),能對(duì)系統(tǒng)進(jìn)行相應(yīng)的性能管理和日志監(jiān)控。易用性有良好的人機(jī)接口不靈活多樣的展現(xiàn)方式,需要對(duì)最終用戶(hù)提供適當(dāng)?shù)呐嘤?xùn)就可以方便地使用新的分析工具,從而減少I(mǎi)T 人員的工作量,同時(shí)加強(qiáng)了集群監(jiān)管的時(shí)效性??傮w技術(shù)方案通過(guò)對(duì)華西醫(yī)院基礎(chǔ)軟件及服務(wù)需求的理解,以及根據(jù)建設(shè)目標(biāo)、設(shè)計(jì)原則的考慮, 建議華西醫(yī)院采用基于大數(shù)據(jù)基礎(chǔ)平臺(tái)的架構(gòu)方案,來(lái)滿(mǎn)足華西醫(yī)院基礎(chǔ)軟件及服務(wù)建設(shè)的要求
16、。軟件架構(gòu)Apache Hadoop 是針對(duì)大規(guī)模分布式數(shù)據(jù)而開(kāi)發(fā)的軟件框架,目前已經(jīng)成為企業(yè)管理大數(shù)據(jù)的基礎(chǔ)支撐技術(shù)。是解決企業(yè)數(shù)據(jù)中心大數(shù)據(jù)存儲(chǔ)、大規(guī)模數(shù)據(jù)計(jì)算、快速數(shù)據(jù)分析的優(yōu)秀基礎(chǔ)數(shù)據(jù)平臺(tái)。然而現(xiàn)有的Hadoop技術(shù)仍然面臨一些挑戰(zhàn):性能上, 盡管 Hadoop在 100TB以上的數(shù)據(jù)上遠(yuǎn)遠(yuǎn)領(lǐng)先于傳統(tǒng)數(shù)據(jù)處理技術(shù),然而對(duì)GB到TB級(jí)數(shù)據(jù)的處理效率較低; 其次, 只有對(duì)海量的數(shù)據(jù)進(jìn)行高效的分析及利用才能將大數(shù)據(jù)中存在的巨大潛在價(jià)值轉(zhuǎn)換為實(shí)際的商業(yè)價(jià)值,這就需要完備的決策分析工具集運(yùn)行在Hadoop 架構(gòu)之上;最后,亟需完備的企業(yè)級(jí)解決方案來(lái)加速大數(shù)據(jù)應(yīng)用的廣泛部署。企業(yè)級(jí)大數(shù)據(jù)分析平臺(tái)是
17、業(yè)界領(lǐng)先的處理企業(yè)級(jí)大數(shù)據(jù)場(chǎng)景的高性能一站式分析平臺(tái)。它可以幫助企業(yè)快速建立一個(gè)統(tǒng)一的數(shù)據(jù)和計(jì)算平臺(tái),快速支持企業(yè)內(nèi)部/外部數(shù)據(jù)的采集與集成、實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)、并提供極佳的數(shù)據(jù)計(jì)算與深度分析挖掘能力。在大數(shù)據(jù)平臺(tái)之上,用戶(hù)可以構(gòu)建相應(yīng)分析挖掘應(yīng)用,從而輔助企業(yè)及時(shí)洞察新的商機(jī)和潛在的風(fēng)險(xiǎn),提升企業(yè)競(jìng)爭(zhēng)力。大數(shù)據(jù)產(chǎn)品具有業(yè)界完整的SQL on Hadoop支持,實(shí)現(xiàn)完整支持SQL標(biāo)準(zhǔn),增強(qiáng)分布式事務(wù)處理能力,全面支持MPP 場(chǎng)景;突破實(shí)時(shí)處理計(jì)算框架,支持物聯(lián)網(wǎng)實(shí)時(shí)業(yè)務(wù)分析;最完整的并行數(shù)據(jù)挖掘算法庫(kù),并原創(chuàng)前沿機(jī)器學(xué)習(xí)組件;一站式圖形化的數(shù)據(jù)開(kāi)發(fā)套件,可快速分析應(yīng)用;它是企業(yè)級(jí)大數(shù)據(jù)場(chǎng)景的高
18、性 能一站式分析平臺(tái)的優(yōu)秀選擇。總體技術(shù)架構(gòu)設(shè)計(jì)基于企業(yè)內(nèi)部多年的大數(shù)據(jù)建設(shè)實(shí)踐經(jīng)驗(yàn),針對(duì)開(kāi)源Apache Hadoop/Spark框架進(jìn)行了大量的修復(fù)完善及深度優(yōu)化工作,并自主創(chuàng)新的眾多功能和實(shí)用工具,易于使用者開(kāi)發(fā)和管理。華西醫(yī)院的數(shù)據(jù)來(lái)源自多個(gè)方面,包括內(nèi)部數(shù)據(jù)來(lái)源以及未來(lái)可能第三方數(shù)據(jù)接入。各類(lèi)數(shù)據(jù)的來(lái)源方式多樣化,包括關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)、文件數(shù)據(jù)、圖片數(shù)據(jù)等。面對(duì)于多種數(shù)據(jù)接入的需求,大數(shù)據(jù)平臺(tái)提供多種針對(duì)性的接入方式以及工具,通過(guò)分布式消息隊(duì)列Kafka 接入實(shí)時(shí)數(shù)據(jù);通過(guò)Sqoop全量或定時(shí)增量抽取同步關(guān)系型數(shù)據(jù)庫(kù);采用 Kettle 作為數(shù)據(jù)抽取管理工具,
19、Kettle 提供圖形化的界面定義數(shù)據(jù)抽取規(guī)則,并可與其他工具相結(jié)合,完成數(shù)據(jù)抽取的工作流;同時(shí),分布式文件系統(tǒng)HDFS通過(guò)FTP Over HDFS提供文件通過(guò)FTP傳入 HDFS的通道;通過(guò)Flume 提供海量日志文件的聚匯到HDFS的功能。大數(shù)據(jù)分析平臺(tái)從功能架構(gòu)上分為數(shù)據(jù)集成套件、大數(shù)據(jù)計(jì)算平臺(tái)、算法與序 號(hào)名稱(chēng)軟件說(shuō)明軟件來(lái) 源1數(shù)據(jù) 集成套件提供對(duì)多種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的靈活集成。支持不同系統(tǒng)和設(shè)備的開(kāi)發(fā)工具套件,能夠根據(jù)企業(yè)的需求方便地快速擴(kuò)展,為企業(yè)快速收集其信息系統(tǒng)之外的設(shè)備、用戶(hù)和社交數(shù)據(jù)。同時(shí)也提供網(wǎng)絡(luò)爬蟲(chóng)模塊,以方便企業(yè)獲取外部網(wǎng)絡(luò)數(shù)據(jù)。自有2大數(shù) 據(jù)計(jì)算平 臺(tái)基于開(kāi)
20、源Hadoop Spark 生態(tài)系統(tǒng),引入了多種核心功能和組件,對(duì)復(fù)雜開(kāi)源技術(shù)進(jìn)行高度集成和性能優(yōu)化,面向基礎(chǔ)設(shè)施層進(jìn)行深度調(diào)優(yōu)。在分布式存儲(chǔ)系統(tǒng)的基礎(chǔ)上,建立了統(tǒng)一資源調(diào)度管理,高效地支持大規(guī)模批處理、交互式查詢(xún)計(jì)算、流式計(jì)算等多種計(jì)算引擎。自有3算法提供挖掘算法工具、人工智能工具實(shí)現(xiàn)數(shù)自有序 號(hào)名稱(chēng)軟件說(shuō)明軟件來(lái) 源與分析工 具據(jù)深度挖掘能力;同時(shí)為各類(lèi)客戶(hù)查詢(xún)分析、 應(yīng)用開(kāi)發(fā)等相關(guān)工具,方便人員使用。4系統(tǒng) 運(yùn)維管控系統(tǒng)運(yùn)維監(jiān)控中心可提供快速完成產(chǎn)品套件的安裝部署、節(jié)點(diǎn)監(jiān)控、訪(fǎng)問(wèn)權(quán)限管理、資源配額管理、系統(tǒng)告警分析、升級(jí)擴(kuò)容等計(jì)算平臺(tái)維護(hù)工作,通過(guò)統(tǒng)一的圖形化界面實(shí)現(xiàn)對(duì)大數(shù)據(jù)平臺(tái)及運(yùn)行服
21、務(wù)狀況的實(shí)時(shí)監(jiān)控和管理。自有數(shù)據(jù) 資產(chǎn)管理將數(shù)據(jù)對(duì)象作為一種全新的資產(chǎn)形態(tài),圍 繞數(shù)據(jù)資產(chǎn)本身建立一個(gè)可靠可信的管理機(jī) 制,提供數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)資產(chǎn)管理、元數(shù) 據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全等,以實(shí)現(xiàn)數(shù)據(jù)的可管、可控、可視,為實(shí)現(xiàn)數(shù)據(jù)價(jià)值增值奠定良好基礎(chǔ)。自有數(shù)據(jù) 可視化Vision 具有儀表盤(pán)(Dashboard) 、靈活查詢(xún) ( Query) 、電子表格(Spreadsheet) 、多維分析(Analysis) 、移動(dòng)應(yīng)用(Mobile) 、分析 報(bào) 告 插 件 ( Office Addin) 、 自 助 分 析( xQuery) 、數(shù)據(jù)采集(dataIn) 、數(shù)據(jù)挖掘( Smart M
22、ining) 等豐富的功能,用戶(hù)可以更直觀(guān)便捷地獲取信息,并開(kāi)創(chuàng)性地把各種技術(shù)整合到一個(gè)集成環(huán)境中。自有基于企業(yè)內(nèi)部多年的大數(shù)據(jù)建設(shè)實(shí)踐經(jīng)驗(yàn),針對(duì)開(kāi)源Apache Hadoop/Spark并自主創(chuàng)新的眾多功能和實(shí)用工具,框架進(jìn)行了大量的修復(fù)完善及深度優(yōu)化工作, 易于使用者開(kāi)發(fā)和管理。功能組件完整性介紹基于企業(yè)內(nèi)部多年的大數(shù)據(jù)建設(shè)實(shí)踐經(jīng)驗(yàn),針對(duì)開(kāi)源Apache Hadoop/Spark框架進(jìn)行了大量的修復(fù)完善及深度優(yōu)化工作,并自主創(chuàng)新的眾多功能和實(shí)用工具,易于使用者開(kāi)發(fā)和管理。產(chǎn)品功能說(shuō)明:功能內(nèi)容描述數(shù)據(jù)集成組件(Data Hub )數(shù)據(jù)庫(kù)導(dǎo)入支持MySql、 Oracle 、 DB2等多種數(shù)
23、據(jù)庫(kù)到Hive 、 HDFS的數(shù)據(jù)導(dǎo)入;支持常見(jiàn)數(shù)據(jù)庫(kù)互導(dǎo)以及導(dǎo)入到HDFS和 Hive;本地文件導(dǎo)入支持本地文件、Excel 、 CSV到 Hive、 HDFS的導(dǎo)入;客戶(hù)端導(dǎo)本地路徑文件源、客戶(hù)端導(dǎo)數(shù)據(jù)庫(kù)數(shù)據(jù)源;Dump文件上傳到Hive、 HDFS、DB;公有云數(shù)據(jù)導(dǎo)入提供阿里云、亞馬遜云RDS到 HIVE、 HDFS、常見(jiàn)DB數(shù)據(jù)導(dǎo)入;大數(shù)據(jù)類(lèi)數(shù)據(jù)庫(kù)導(dǎo)入支持Redis 、 HBase、 Impala 、 MongoDB等數(shù)據(jù)導(dǎo)入Http 流式上傳提供http 流式上傳方式,開(kāi)放上傳接口,上傳到kafka消息隊(duì)列服務(wù)提供Kafka 消息隊(duì)列服務(wù)其他類(lèi)型導(dǎo)入支持SAP、網(wǎng)絡(luò)數(shù)據(jù)爬取等功能;
24、提供FTP上傳到HDFS遷移任務(wù)展示所創(chuàng)建的任務(wù)信息及任務(wù)運(yùn)行情況,并可對(duì)任務(wù)進(jìn)行管理查看所有數(shù)據(jù)遷移任務(wù)的執(zhí)行歷史和日志(比如某條任務(wù)是每小時(shí) 執(zhí)行一次,就會(huì)產(chǎn)生多條執(zhí)行歷史)資源庫(kù)創(chuàng)建資源庫(kù)連接信息并保存,在之后的上傳過(guò)程中,可以選擇已經(jīng)保存過(guò)的數(shù)據(jù)庫(kù),自動(dòng)進(jìn)行連接選擇,不用再輸入信息,方便操作;對(duì)保存過(guò)的資源庫(kù)連接進(jìn)行列表展示,并可以對(duì)資源庫(kù)信息進(jìn)行管 理操作;流程管理流程的新建、復(fù)制、刪除、修改、啟用、停止、查詢(xún),定義任務(wù)調(diào) 度策略;大數(shù)據(jù)平臺(tái)組件(Hadoop Distribution )分布式文件存儲(chǔ) -HDFS分布式文件存儲(chǔ)、多副本備份與同步機(jī)制,提供容錯(cuò)機(jī)制,可修改 副本策略,
25、支持跨機(jī)房備份;大文件寫(xiě)入、流式數(shù)據(jù)訪(fǎng)問(wèn)、高吞吐量數(shù)據(jù)訪(fǎng)問(wèn);支持?jǐn)?shù)據(jù)存儲(chǔ)分布策略,支持機(jī)架感知與負(fù)載均衡,支持高可用;NoSQL數(shù)據(jù)庫(kù)分布式、列存儲(chǔ)、多維結(jié)構(gòu)存儲(chǔ),支持結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)量 的高速讀寫(xiě)操作;面向列表(簇)的存儲(chǔ)和權(quán)限控制,列(簇)獨(dú)立檢索,以及二級(jí) 索引,支持?jǐn)?shù)據(jù)多版本;面向列的數(shù)據(jù)壓縮,高壓縮比,有效降低磁盤(pán)I/O ;數(shù)據(jù)倉(cāng)庫(kù)工具- Hive海量結(jié)構(gòu)數(shù)據(jù)批量離線(xiàn)分析;提供基于HQL的數(shù)據(jù)查詢(xún)機(jī)制,支持UDF,自定義存儲(chǔ)格式,擴(kuò)展數(shù)據(jù)類(lèi)型,函數(shù)和腳本;批量計(jì)算框架-MapReduce數(shù)據(jù)劃分和計(jì)算任務(wù)調(diào)度;內(nèi)存計(jì)算引框架- Spark分布式內(nèi)存計(jì)算引擎;流數(shù)據(jù)計(jì)算引擎基于S
26、torm 與 Spark Streaming 的流式計(jì)算引擎;分布式數(shù)據(jù)庫(kù)MPP支持基于Spark 的 MPP架構(gòu)數(shù)據(jù)庫(kù),基于Spark 擴(kuò)展CRUD操作;多維分析引擎-Kylin提供OLAP分析能力,支持SQL查詢(xún)分布式消息隊(duì)列服務(wù)- Kafka支持消息隊(duì)列的負(fù)載均衡、分區(qū)存儲(chǔ)、數(shù)據(jù)壓縮等分布式協(xié)作服務(wù) -Zookeeper配置管理、配置更新通知、節(jié)點(diǎn)主備容災(zāi)、節(jié)點(diǎn)心跳管理等;統(tǒng)一資源調(diào)度- Yarn支持資源封裝、調(diào)度、隔離以及配額管理;支持Capacity( 靜態(tài) )、 FIFO(先進(jìn)先出)、 Fair( 公平、動(dòng)態(tài))等調(diào)度模式;交互式分析引擎 -Impala支持基于SQL的查詢(xún)分析;支持
27、基于JDBC/ODBC的數(shù)據(jù)庫(kù)連接,支持 BI 可視化工具連接數(shù)據(jù)導(dǎo)入導(dǎo)出-Sqoop支持傳統(tǒng)數(shù)據(jù)庫(kù)到Hadoop;支持Hadoop到傳統(tǒng)數(shù)據(jù)庫(kù);全文搜索引擎- Solr基于Lucene 的全文搜索服務(wù)器;日志采集服務(wù)-Flume分布式、可靠的日志采集服務(wù);日志分析服務(wù)- ELK提供一個(gè)分布式多用戶(hù)能力的全文搜索引擎;支持日志搜集處理框 架、快速的日志綜合處理能力;支持日志搜索、可視化、分析能力緩存服務(wù)- Redis基于Key-value 的數(shù)據(jù)緩存庫(kù),支持?jǐn)?shù)據(jù)同步;安全保障支持Kerberos 認(rèn)證和LDAP集成;任務(wù)調(diào)度( Task Scheduler )實(shí)例管理快速檢索查詢(xún)當(dāng)前平臺(tái)的所有
28、流程實(shí)例、流程執(zhí)行實(shí)例依賴(lài)關(guān)系圖 形化、實(shí)例執(zhí)行流程圖查看;重跑、補(bǔ)跑、任務(wù)重試、終止;實(shí)例相關(guān)流程調(diào)度歷史時(shí)長(zhǎng)圖形化與列表兩種方式展示;配置管理數(shù)據(jù)庫(kù)等資源的連接配置;依賴(lài)的hadoop/hdfs 等相關(guān)的配置;支持短信/ 郵箱告警服務(wù),如郵箱配置、SMS配置,告警短信配置;數(shù)據(jù)分析( SQL/R/Python Editor)數(shù)據(jù)源管理獲取數(shù)據(jù)庫(kù)元數(shù)據(jù)信息,可以展開(kāi)并快速檢索表信息;數(shù)據(jù)查詢(xún)提供SQL編輯器,支持語(yǔ)法補(bǔ)全、關(guān)鍵字補(bǔ)全、數(shù)據(jù)庫(kù)表提示、SQL格式化;支持SQL2 003 標(biāo)準(zhǔn),兼容SqlServer/Oracle 語(yǔ)法,支持存儲(chǔ)過(guò)程、支持TPC-DS測(cè)試集99 個(gè) SQL語(yǔ)句;查
29、詢(xún)結(jié)果可以通過(guò)交叉表進(jìn)行進(jìn)過(guò)展示,默認(rèn)顯示前100 行;腳本開(kāi)發(fā)支持R、 Python 腳本運(yùn)行;定時(shí)任務(wù)展示當(dāng)前定時(shí)任務(wù)列表及執(zhí)行歷史;定時(shí)任務(wù)添加、修改、刪除、禁止,可以配置任務(wù)的調(diào)度周期多租戶(hù)管理( User Admin)用戶(hù)管理- 操作用戶(hù)用戶(hù)及賬戶(hù)的添加、修改、刪除,用戶(hù)啟停用;項(xiàng)目管理- 多租戶(hù)管理提供項(xiàng)目管理、人員分配、權(quán)限管理等功能費(fèi)用管理當(dāng)前計(jì)算、存儲(chǔ)資源消耗費(fèi)用計(jì)算,并可查看詳情;資源管理當(dāng)前租戶(hù)下各項(xiàng)目資源使用情況,對(duì)項(xiàng)目進(jìn)行資源池分配;個(gè)人中心密碼修改、用戶(hù)注銷(xiāo);集群管理( Manager)安裝部署安裝文件拷貝、環(huán)境檢測(cè)與主機(jī)環(huán)境配置、組件自動(dòng)化部署;集群監(jiān)控指標(biāo)監(jiān)控、
30、監(jiān)控?zé)釄D、歷史配置信息、版本信息;服務(wù)管理添加與刪除服務(wù)、服務(wù)啟停、部署與移動(dòng);參數(shù)配置、配置組、歷史版本;HA配置,支持全組件的HA配置,包括Manager 管理節(jié)點(diǎn);主機(jī)管理添加與刪除主機(jī)節(jié)點(diǎn)、主機(jī)監(jiān)控指標(biāo)、主機(jī)及相關(guān)組件的告警信息;告警管理報(bào)警歷史記錄;告警組、告警通知;版本管理平臺(tái)及各個(gè)組件版本管理、版本升級(jí);平臺(tái)授權(quán)信息注冊(cè);用戶(hù)管理- 運(yùn)維用戶(hù)用戶(hù)添加、修改、刪除;角色添加、修改、刪除;日志管理根據(jù)檢索內(nèi)容做簡(jiǎn)單的信息統(tǒng)計(jì),統(tǒng)計(jì)不同類(lèi)型輸出信息數(shù)量;根據(jù)組件、關(guān)鍵字信息做信息搜索;元數(shù)據(jù)管理Metadata元數(shù)據(jù)采集JDBC數(shù)據(jù)庫(kù)連接采集、DDL文件上傳解析、Excel 模板上傳解
31、析、API 讀取系統(tǒng)數(shù)據(jù)元數(shù)據(jù)內(nèi)容展示支持?jǐn)?shù)據(jù)庫(kù)Oracle 、 MySQL 、 Postgresql 、 SqlSever 的數(shù)據(jù)結(jié)構(gòu)、樣本數(shù)據(jù)、變更詳情、基本信息、存儲(chǔ)信息、分區(qū)信息、索引信息;主外鍵信息采集、視圖信息采集、分區(qū)信息采集及數(shù)據(jù)庫(kù)、表大小的信息采集;支持分布式數(shù)據(jù)架構(gòu)Hive 、 HDFS 信息采集功能;支持內(nèi)部數(shù)據(jù)處理流程、Oozie 、 azkaban 的信息采集元數(shù)據(jù)查詢(xún)支持模糊查詢(xún)和精確查詢(xún)的全局搜索;Hive 和 HDFS 支持血緣分析功能,主要為表之間的關(guān)聯(lián)性;支持Ooize 和 Kettle 等常見(jiàn)ETL 開(kāi)發(fā)工具的血緣關(guān)系;元數(shù)據(jù)變更記錄可查看系統(tǒng)元數(shù)據(jù)新增、
32、修改、刪除的變更總數(shù)目;可查看系統(tǒng)元數(shù)據(jù)新增、修改、刪除的詳情;結(jié)構(gòu)化數(shù)據(jù)管理提供視圖目錄的新增、修改和刪除;元數(shù)據(jù)添加業(yè)務(wù)類(lèi)描述信息記錄查看表字段和分區(qū)的變更支持用戶(hù)對(duì)元數(shù)據(jù)添加:?jiǎn)栴}、描述、數(shù)據(jù)質(zhì)量等描述注釋問(wèn)題;用于團(tuán)隊(duì)分 享協(xié)作使用數(shù)據(jù);提供基于業(yè)務(wù)層級(jí)數(shù)據(jù)模型的管理非結(jié)構(gòu)化數(shù)據(jù)管理提供對(duì)象存儲(chǔ)系統(tǒng),對(duì)文檔、圖片、音頻視頻存儲(chǔ)管理;提供對(duì)非結(jié)構(gòu)化數(shù)據(jù)自動(dòng)打標(biāo)管理;提供通過(guò)標(biāo)簽搜索查詢(xún);數(shù)據(jù)生命周期管理數(shù)據(jù)生命周期判定原則定義生命周期查詢(xún)/ 更改數(shù)據(jù)生命周期監(jiān)控過(guò)期數(shù)據(jù)銷(xiāo)毀元數(shù)據(jù)權(quán)限管理實(shí)體數(shù)據(jù)使用的權(quán)限分配功能元數(shù)據(jù)訪(fǎng)問(wèn)的權(quán)限控制數(shù)據(jù)質(zhì)量( Data Quality )基礎(chǔ)檢查按用戶(hù)選
33、定模式統(tǒng)計(jì) 空白 數(shù)量和占比;驗(yàn)證字段的唯一性,統(tǒng)計(jì)不唯一id 的占比,計(jì)算“孤值”;類(lèi)型檢查統(tǒng)計(jì)true/false(/null) 各自占比統(tǒng)計(jì)字符集統(tǒng)計(jì)各自數(shù)量按用戶(hù)勾選項(xiàng)統(tǒng)計(jì)結(jié)果日期檢查統(tǒng)計(jì)日期缺失數(shù)量和占比;統(tǒng)計(jì)各種時(shí)間關(guān)鍵數(shù)據(jù);統(tǒng)計(jì)各部分時(shí)間分布;查找出當(dāng)中包含的工作日;其它檢查按用戶(hù)輸入統(tǒng)計(jì)各部分?jǐn)?shù)量和占比提取頂部( 底部 )top N 的值統(tǒng)計(jì)用戶(hù)指定參數(shù)不匹配的值及數(shù)量比例模式搜索采集具備批量、實(shí)時(shí)、結(jié)構(gòu)化、非結(jié)構(gòu)化等多樣化的采集功能??商峁﹫D形化的操作配數(shù)據(jù)集成組件(Data Hub)置,統(tǒng)一的調(diào)度和監(jiān)控,結(jié)合其良好的分布式并行處理架構(gòu),具備動(dòng)態(tài)的橫向擴(kuò)展能力。數(shù)據(jù)采集批量數(shù)
34、據(jù)采集作為大數(shù)據(jù)體系的核心功能組件,既可以基于SMP單機(jī)處理,也可以基于低成本的X86 分布式平臺(tái)展開(kāi)系統(tǒng)設(shè)計(jì),支持庫(kù)外預(yù)處理,基于HADOOP組件實(shí)現(xiàn)批量數(shù)據(jù)的并行數(shù)據(jù)處理。其核心功能緊緊圍繞構(gòu)建大數(shù)據(jù)系統(tǒng)在數(shù)據(jù)處理層面上涉及到的數(shù)據(jù)采集、清洗、 轉(zhuǎn)換、 加載及交換的核心數(shù)據(jù)加工流程展開(kāi)。( 1)數(shù)據(jù)抽取數(shù)據(jù)抽取功能具備從不同數(shù)據(jù)源(RDBM、S Hadoop、 MPP等)進(jìn)行指定規(guī)則的數(shù)據(jù)提取作業(yè),抽取后的數(shù)據(jù)存儲(chǔ)支持落地與不落地兩大類(lèi)進(jìn)行,抽取后的數(shù)據(jù)可以為數(shù)據(jù)轉(zhuǎn)換環(huán)節(jié)進(jìn)行處理提供輸入,也可以直接進(jìn)行處理或者加載。支持 Oracle,DB2,Mysql,SQLserver,Teradat
35、a,Greenplum 等主流數(shù)據(jù)庫(kù)接口。數(shù)據(jù)采集采用多樣性的接口方式,除了支持傳統(tǒng)的JDBC/ODB接口、CFTP文件接口, 還支持目前主流的流數(shù)據(jù)采集的Socket 接口及 Webservice 接口, 同時(shí)擴(kuò)展支持了Hadoop生態(tài)圈的Flume日志系統(tǒng)采集接口等,提供完善的圖形化可拖拽的操作管理界面提供良好的用戶(hù)體驗(yàn)降低產(chǎn)品使用難度,可以根據(jù)實(shí)際業(yè)務(wù)需求選擇相應(yīng)的配置也可以統(tǒng)一使用。數(shù)據(jù)采集功能針對(duì)不同的使用場(chǎng)景訴求提供種類(lèi)豐富的方式支持,具體來(lái)講主要包括以下幾種方式支持:批量數(shù)據(jù)抽取運(yùn)用大規(guī)模并行計(jì)算特點(diǎn)來(lái)達(dá)到批量數(shù)據(jù)抽取目標(biāo),主要應(yīng)對(duì)數(shù)據(jù)抽取數(shù)據(jù)源以較大文件形式對(duì)外提供數(shù)據(jù)時(shí)可采用
36、此種采集模式,批量數(shù)據(jù)采抽取具備如下功能與能力:多協(xié)議數(shù)據(jù)抽取提供了文件和數(shù)據(jù)庫(kù)等多種數(shù)據(jù)抽取方式包括支持:高性能關(guān)系型數(shù)據(jù)倉(cāng)庫(kù)、MPP分布式數(shù)據(jù)倉(cāng)庫(kù)、Hadoop等,接口協(xié)議可以根據(jù)需要隨時(shí)添加。多格式數(shù)據(jù)解析多種文件格式抽取(CVS、 XML、 Excel 、 ASN.1、自定義),支持不同格式、參數(shù)、 編碼、 分隔符、 Tag 的異構(gòu)文件解析。提供擴(kuò)展接口,方便支持其他格式。高效率與控制多個(gè)抽取任務(wù)發(fā)布到集群中并行處理,內(nèi)部運(yùn)算使用二進(jìn)制存儲(chǔ),針對(duì)大批量零散文件優(yōu)化??煽刂撇l(fā)數(shù)和任務(wù)優(yōu)先級(jí)。流式(實(shí)時(shí))數(shù)據(jù)抽取流式數(shù)據(jù)采集主要應(yīng)對(duì)海量數(shù)據(jù)進(jìn)行高性能的實(shí)時(shí)數(shù)據(jù)采集處理,以實(shí)時(shí)、高效、 低
37、延遲為核心驅(qū)動(dòng)點(diǎn),具備毫秒級(jí)數(shù)據(jù)觸發(fā)能力,實(shí)現(xiàn)秒級(jí)單位時(shí)間窗口的數(shù)據(jù)統(tǒng)計(jì)分析能力。通過(guò)引入采用Hadoop生態(tài)圈的開(kāi)源技術(shù)Spark Streaming、Storm、 Flume 等,結(jié)合常用標(biāo)準(zhǔn)協(xié)議(Socket、 JMS、 HTTP、 HTTPS、 FTP、SFTP)封裝的組件,進(jìn)行實(shí)時(shí)數(shù)據(jù)進(jìn)行抽取和分析計(jì)算,并將計(jì)算結(jié)果進(jìn)行展 示。根據(jù)流式技術(shù)特征,適合引入流式數(shù)據(jù)采集的場(chǎng)景應(yīng)具有如下特點(diǎn):針對(duì)高頻度的事件流。每個(gè)獨(dú)立的事件都需要處理和分析。高聚合度,以至于數(shù)據(jù)的體積會(huì)大量的減少。通過(guò)可視化界面通過(guò)拖拽式操作實(shí)現(xiàn)對(duì)數(shù)據(jù)采集控件使用。數(shù)據(jù)采集內(nèi)置提供多種數(shù)據(jù)采集功能來(lái)滿(mǎn)足數(shù)據(jù)采集功能訴求,
38、包括但不限于以下HBASE抽取、HDFS抽取、Excel 抽取、XML抽取、TD數(shù)據(jù)庫(kù)抽取、GP數(shù)據(jù)庫(kù)抽取、MySQL抽取等組件。數(shù)據(jù)采集組件被統(tǒng)一歸納在抽取控件組件包中,支持用戶(hù)根據(jù)自身訴求動(dòng)態(tài)調(diào)整控件包控件內(nèi)容,同時(shí)控件支持根據(jù)自身需要進(jìn)行控件來(lái)擴(kuò)展系統(tǒng)計(jì)算能力。ETL產(chǎn)品在實(shí)現(xiàn)過(guò)程中通過(guò)批量數(shù)據(jù)采集與流式(實(shí)時(shí))數(shù)據(jù)采集二種模式的數(shù)據(jù)采集能力進(jìn)行封裝形成獨(dú)立組件,并將其納入統(tǒng)一的作業(yè)調(diào)度系統(tǒng)進(jìn)行統(tǒng)一管控,從而滿(mǎn)足不同策略、不同形式、異構(gòu)數(shù)據(jù)源之間的數(shù)據(jù)采集需求。 ( 2)數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換包括數(shù)據(jù)過(guò)濾、類(lèi)型轉(zhuǎn)換、文件拆分與合并、維度轉(zhuǎn)換等功能。數(shù)據(jù)轉(zhuǎn)換的任務(wù)主要是進(jìn)行不一致的數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)
39、粒度的轉(zhuǎn)換和一些轉(zhuǎn)換規(guī)則的計(jì)算。 其中不一致轉(zhuǎn)換過(guò)程是數(shù)據(jù)整合的過(guò)程,側(cè)重于將來(lái)源于不同業(yè)務(wù)系統(tǒng)的相同類(lèi)型的數(shù)據(jù)進(jìn)行統(tǒng)一處理;數(shù)據(jù)粒度轉(zhuǎn)換需要按照數(shù)據(jù)倉(cāng)庫(kù)粒度對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一歸整;轉(zhuǎn)換規(guī)則計(jì)算按照設(shè)計(jì)的計(jì)算歸則對(duì)數(shù)據(jù)進(jìn)行重新計(jì)算。數(shù)據(jù)轉(zhuǎn)換功能說(shuō)明如下:序號(hào)功能功能描述1數(shù)據(jù)轉(zhuǎn)換規(guī)則配置提供圖形化的界面來(lái)實(shí)現(xiàn)靈活的數(shù)據(jù)處理規(guī)則配置,主要提供的數(shù)據(jù)轉(zhuǎn)換規(guī)則設(shè)置包括:對(duì)數(shù)據(jù)進(jìn)行計(jì)算、合并、 拆分的規(guī)則配置、對(duì)空值替換規(guī)則的配置、對(duì)數(shù)據(jù)格式化規(guī)則的配置等;序號(hào)功能功能描述2數(shù)據(jù)處理過(guò)程記錄支持對(duì)數(shù)據(jù)處理過(guò)程的日志記錄,記錄的信息主要包 括:元數(shù)據(jù)記錄、轉(zhuǎn)換后數(shù)據(jù)記錄、運(yùn)用的轉(zhuǎn)換規(guī)則、 轉(zhuǎn)換的時(shí)間等內(nèi)容;
40、3內(nèi)置豐富的數(shù)據(jù)處理組件支持任意合理的數(shù)據(jù)格式轉(zhuǎn)換,包括但不限于:時(shí)間類(lèi)型的轉(zhuǎn)換、字符編碼轉(zhuǎn)換;支持任意合理的數(shù)據(jù)類(lèi)型轉(zhuǎn)換;支持?jǐn)?shù)據(jù)內(nèi)容轉(zhuǎn)換,如通過(guò)關(guān)聯(lián)關(guān)系,將 A數(shù)據(jù)源中的數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)源B 中的數(shù)據(jù);支持多字段的混合運(yùn)算,運(yùn)算規(guī)則可靈活配置,包括但不限于:sum、 max、 min、 avg等;支持各種字符操作,包括但不限于:字符替換、字符截取、字符連接;支持記錄和字段的抽取,支持對(duì)抽取的數(shù)據(jù)進(jìn)行字段擴(kuò)展;支持?jǐn)?shù)據(jù)粒度的轉(zhuǎn)換:將業(yè)務(wù)系統(tǒng)數(shù)據(jù)按照數(shù)據(jù)倉(cāng)庫(kù)粒度進(jìn)行聚合。保證轉(zhuǎn)換后的誤差在規(guī)定的范圍內(nèi);支持空值處理:捕獲空值,根據(jù)規(guī)則替換為對(duì)應(yīng)數(shù)據(jù);支持?jǐn)?shù)據(jù)格式化:統(tǒng)一數(shù)據(jù)源中同類(lèi)數(shù)據(jù)的格式,具
41、體包括時(shí)間、數(shù)值、字符、計(jì)量單位等數(shù)據(jù);支持?jǐn)?shù)據(jù)替換:根據(jù)規(guī)則用標(biāo)準(zhǔn)數(shù)據(jù)替換原來(lái)的數(shù)據(jù), 支持各種碼表映射,例如用標(biāo)準(zhǔn)編碼替換業(yè)務(wù)系統(tǒng)自定的編碼;支持復(fù)雜條件過(guò)濾,過(guò)濾條件可靈活配置;支持臟讀;支持環(huán)境變量動(dòng)態(tài)修改;支持?jǐn)?shù)據(jù)去重處理,可按照用戶(hù)定義的規(guī)則自動(dòng)判斷重復(fù)數(shù)據(jù),并按照用戶(hù)定義的規(guī)則處理重復(fù)的數(shù)據(jù);序號(hào)功能功能描述支持記錄間合并、支持將一條記錄按照可配置的規(guī)則拆分為多條記錄,支持行、列變換;支持一個(gè)數(shù)據(jù)表中多個(gè)列的合并;支持跨異構(gòu)數(shù)據(jù)庫(kù)的關(guān)聯(lián);支持將多個(gè)異構(gòu)數(shù)據(jù)表合并為一個(gè)表;支持將一個(gè)數(shù)據(jù)表拆分為多個(gè)數(shù)據(jù)表;支持多種規(guī)則排序;支持多種統(tǒng)計(jì)方式;具備度量衡等常用的轉(zhuǎn)換函數(shù);在轉(zhuǎn)換過(guò)程中
42、支持?jǐn)?shù)據(jù)比較的功能;支持?jǐn)?shù)據(jù)預(yù)覽;支持?jǐn)?shù)據(jù)清洗及標(biāo)準(zhǔn)化;支持按行、按列的分組聚合;具備良好的參數(shù)處理機(jī)制等;ETL處理過(guò)程支持各種字符集的轉(zhuǎn)換;支持樣品數(shù)據(jù)抽取4數(shù)據(jù)轉(zhuǎn)換異常處理支持校驗(yàn)點(diǎn),當(dāng)外部數(shù)據(jù)記錄特別龐大時(shí),如果因?yàn)槟撤N原因發(fā)生故障中斷后,可以從最近的校驗(yàn)點(diǎn)開(kāi)始恢復(fù)處理( 3)數(shù)據(jù)加載數(shù)據(jù)加載功能包括文件加載、流加載、壓縮加載、不落地加載等。數(shù)據(jù)加載功能具備將采集、處理后的數(shù)據(jù)源文件保存到不同數(shù)據(jù)庫(kù)(RDBM、 SMPP、 HADOOP等)中。對(duì)于不同的數(shù)據(jù)庫(kù)加載、不同的方式加載,在數(shù)據(jù)加載過(guò)程的工作原理基本相同,僅在實(shí)現(xiàn)層面針對(duì)不同數(shù)據(jù)庫(kù)或者方式進(jìn)行個(gè)性化控件處理。在加載數(shù)據(jù)庫(kù)類(lèi)別上
43、支持DB2、 Greenplum、 HDFS、 HBase、 Teradata 、 Vertica 、MySql等多種數(shù)據(jù)庫(kù)。全量數(shù)據(jù)加載全量加載是將數(shù)據(jù)一次性加載到接口機(jī)上,是準(zhǔn)實(shí)時(shí)加載,主要應(yīng)對(duì)數(shù)據(jù)加載數(shù)據(jù)源以較大文件形式對(duì)外提供數(shù)據(jù)時(shí)可采用此種采集模式。流式(實(shí)時(shí))數(shù)據(jù)加載流式數(shù)據(jù)加載主要應(yīng)對(duì)高頻數(shù)據(jù),對(duì)實(shí)時(shí)性要求高的數(shù)據(jù),采用流式計(jì)算方法進(jìn)行高性能的實(shí)時(shí)計(jì)算實(shí)時(shí)加載。數(shù)據(jù)采集管理( 1)管理監(jiān)控提供圖形化統(tǒng)一配置和監(jiān)控界面,降低維護(hù)人員的使用難度,幫助運(yùn)維人員及時(shí)發(fā)現(xiàn)問(wèn)題、解決問(wèn)題,更直觀(guān)的管理ETL任務(wù)。完整全面的圖形化的監(jiān)控管理可顯示系統(tǒng)總體運(yùn)行匯總分析報(bào)表。具備直觀(guān)的監(jiān)控界面,對(duì)
44、ETL作業(yè)各個(gè)步驟的運(yùn)行情況等進(jìn)行監(jiān)控并顯示監(jiān)控信息;包括執(zhí)行起始時(shí)間、作業(yè)運(yùn)行時(shí)間、作業(yè)每個(gè)步驟的執(zhí)行時(shí)間、 執(zhí)行結(jié)果、出現(xiàn)錯(cuò)誤的位置、錯(cuò)誤原因、出現(xiàn)錯(cuò)誤的時(shí)間等( 必須)等內(nèi)容。提供圖形界面的性能分析,包括分析運(yùn)行的ETL任務(wù)的行為、圖形化展示 ETL任務(wù)整個(gè)運(yùn)行階段每個(gè)時(shí)間線(xiàn)上的記錄吞吐量、CPU使用率、任務(wù)內(nèi)存使用、物理機(jī)器資源占用等,及其平均值的計(jì)算。支持直觀(guān)展示錯(cuò)誤與異常信息。支持異常信息告警,告警級(jí)別、告警內(nèi)容、發(fā)生時(shí)間、告警處理建議等信息展示,并可配置短信或郵件等方式進(jìn)行提醒。( 2)數(shù)據(jù)校驗(yàn)數(shù)據(jù)校驗(yàn)包括數(shù)據(jù)采集、數(shù)據(jù)加載、數(shù)據(jù)分發(fā)等過(guò)程中數(shù)據(jù)校驗(yàn)。在數(shù)據(jù)采集過(guò)程中通過(guò)對(duì)數(shù)據(jù)源
45、與目標(biāo)數(shù)據(jù)庫(kù)之間的數(shù)據(jù)進(jìn)行對(duì)比分析,從而進(jìn)一步來(lái)分析、發(fā)現(xiàn)與解決在數(shù)據(jù)抽取過(guò)程可能產(chǎn)生的異常錯(cuò)誤信息。數(shù)據(jù)校驗(yàn)從校驗(yàn)對(duì)象細(xì)粒度維度分析,支持文件級(jí)校驗(yàn)與記錄級(jí)校驗(yàn)二大類(lèi)。數(shù)據(jù)校驗(yàn)?zāi)K還內(nèi)置了部分的數(shù)據(jù)檢查功能,如數(shù)據(jù)唯一性檢查、外鍵完整性檢查。數(shù)據(jù)校驗(yàn)內(nèi)容有類(lèi)型,長(zhǎng)度,是否為空,精度,范圍,格式等信息。如果數(shù)據(jù)不符合,會(huì)進(jìn)行過(guò)濾,只有正確的數(shù)據(jù)才能繼續(xù)使用。對(duì)于錯(cuò)誤的數(shù)據(jù),可以進(jìn)行輸出,包括錯(cuò)誤原因和錯(cuò)誤字段序號(hào)等信息。( 3)調(diào)度策略時(shí)間調(diào)度時(shí)間調(diào)度是根據(jù)事先定義的執(zhí)行頻度, 計(jì)算下次執(zhí)行時(shí)間, 記錄執(zhí)行次數(shù), 并進(jìn)行流程調(diào)度。提供等間隔時(shí)間調(diào)度和定時(shí)調(diào)度,具備自動(dòng)運(yùn)行和手工執(zhí)行兩種啟動(dòng)方式
46、。等間隔時(shí)間調(diào)度指 “年,季度,月,旬,周,日,時(shí),分,秒”周期性的調(diào)度定時(shí)調(diào)度是指確定在某個(gè)時(shí)間點(diǎn)觸發(fā),如每個(gè)月的1 號(hào)和 10 號(hào)執(zhí)行,每天的 9 點(diǎn)和12點(diǎn)執(zhí)行。時(shí)間調(diào)度觸發(fā)分為定時(shí)一次性觸發(fā)和周期性時(shí)間觸發(fā),定時(shí)一次性觸發(fā)是設(shè)定具體的job 調(diào)度時(shí)間執(zhí)行一次,周期性時(shí)間觸發(fā)是按設(shè)定的時(shí)間周期對(duì)job進(jìn)行執(zhí)行調(diào)度。手工調(diào)度提供臨時(shí)調(diào)度方式(用于測(cè)試、調(diào)優(yōu)、重新執(zhí)行),由用戶(hù)手工執(zhí)行。手工觸發(fā)是指需要維護(hù)人員在頁(yè)面上點(diǎn)擊觸發(fā)按鈕才能觸發(fā)。有些執(zhí)行任務(wù)節(jié)點(diǎn)在執(zhí)行的時(shí)候失敗了,并且此失敗是不能忽略的,這時(shí)候不會(huì)執(zhí)行后面的執(zhí)行任務(wù)節(jié)點(diǎn), 而是需要手工重新執(zhí)行。維護(hù)人員在JOB的執(zhí)行任務(wù)節(jié)點(diǎn)中設(shè)置
47、了起始斷點(diǎn),并且起始斷點(diǎn)分別可以設(shè)置在多個(gè)執(zhí)行任務(wù)節(jié)點(diǎn)上面。這樣也是手工觸發(fā),JOB執(zhí)行起始斷點(diǎn)間的執(zhí)行任務(wù)節(jié)點(diǎn)。消息接口調(diào)度通過(guò)消息機(jī)制實(shí)現(xiàn)流程處理過(guò)程、調(diào)度過(guò)程中異常信息的推送,方便產(chǎn)品使用人員實(shí)時(shí)掌握系統(tǒng)運(yùn)行情況。功能上支持郵件定制或短信定制,從業(yè)務(wù)上支持Job 流程類(lèi)定制、系統(tǒng)信息定制。Job 流程類(lèi)消息級(jí)別大致分為:提示,告警,錯(cuò)誤,延時(shí)。系統(tǒng)信息定制:系統(tǒng)信息通告類(lèi)信息。大數(shù)據(jù)計(jì)算存儲(chǔ)平臺(tái)(Hadoop Distribution)大數(shù)據(jù)計(jì)算平臺(tái)基于Hadoop、 Spark 等社區(qū)成熟的開(kāi)源組件為基礎(chǔ),結(jié)合行業(yè)應(yīng)用的需求,進(jìn)行了深度的優(yōu)化和改造,顯著提升平臺(tái)運(yùn)行的穩(wěn)定性和可靠性。平
48、臺(tái)在提供海量結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)處理和線(xiàn)性擴(kuò)展能力外,還具備四方面的特性:統(tǒng)一的資源管理、海量數(shù)據(jù)集中存儲(chǔ)、高效數(shù)據(jù)處理、平臺(tái)高可用。大數(shù)據(jù)平臺(tái)提供一站式商用大數(shù)據(jù)分析處理平臺(tái),集成Apache 開(kāi)源社區(qū)Hadoop 2.6 及以上版本,包含HDFS、 MapReduc、e Hive、 HBase、 Spark、 kafka 、Solr 、 Impala 、 Storm、 Flume、 Sqoop、 ELK、 Kylin 等常用組件,組件內(nèi)核與ApacheHadoop 開(kāi)源社區(qū)版本保持兼容性。并提供對(duì)以上組件的集中的可視化管理、配 置和監(jiān)控界面。海量數(shù)據(jù)集中存儲(chǔ)通過(guò)基于改造后的分布式文件系統(tǒng)H
49、DFS作為存儲(chǔ)海量數(shù)據(jù)的分布式存儲(chǔ)軟件架構(gòu)。HDFS被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodity hardware) 上的分布式文件系統(tǒng)。HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪(fǎng)問(wèn),非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS放寬了一部分 POSIX約束,來(lái)實(shí)現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。HDFS采用master/slave 架構(gòu)。 一個(gè)HDFS集群是由一個(gè)Namenode和一定數(shù)目的 Datanode 組成。Namenode是一個(gè)中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的名字空間 (namespace)以及客戶(hù)端對(duì)文件的訪(fǎng)問(wèn)。集群中的Datanode一般是一個(gè)節(jié)
50、點(diǎn)一個(gè),負(fù)責(zé)管理它所在節(jié)點(diǎn)上的存儲(chǔ)。HDFS暴露了文件系統(tǒng)的名字空間,用戶(hù)能夠以文件的形式在上面存儲(chǔ)數(shù)據(jù)。從內(nèi)部看,一個(gè)文件其實(shí)被分成一個(gè)或多個(gè)數(shù)據(jù)塊, 這些塊存儲(chǔ)在一組Datanode 上。Namenode執(zhí)行文件系統(tǒng)的名字空間操作,比如打開(kāi)、關(guān)閉、重命名文件或目錄。它也負(fù)責(zé)確定數(shù)據(jù)塊到具體Datanode 節(jié)點(diǎn)的映射。Datanode 負(fù)責(zé)處理文件系統(tǒng)客戶(hù)端的讀寫(xiě)請(qǐng)求。在Namenode的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制。同時(shí),系統(tǒng)支持多存儲(chǔ)層級(jí)支持,能夠?qū)?yīng)用表建立在不同IO 讀寫(xiě)速度的不同介質(zhì)上,包括磁盤(pán)、SSD固態(tài)硬盤(pán)、高速閃存卡和內(nèi)存,其中建立的非易失存儲(chǔ)上的數(shù)據(jù)表在整個(gè)系統(tǒng)
51、重啟后能保證數(shù)據(jù)不丟失,能在SSD上提供與內(nèi)存相近的性能。高效數(shù)據(jù)處理( 1)基于批量的分布式計(jì)算引擎通過(guò)對(duì)開(kāi)源MapReduce進(jìn)行改造,基于它寫(xiě)出來(lái)的應(yīng)用程序能夠運(yùn)行在由上千個(gè)商用機(jī)器組成的大型集群上,并以一種可靠容錯(cuò)的式并行處理上T 級(jí)別的數(shù)據(jù)集。一個(gè)MapReduce作業(yè)(job )通常會(huì)把輸入的數(shù)據(jù)集切分為若干獨(dú)立的數(shù)據(jù)塊,由map任務(wù)(task )以完全并行的方式處理它們??蚣軙?huì)對(duì)map的輸出先進(jìn)行排序,然后把結(jié)果輸入給reduce 任務(wù)。通常作業(yè)的輸入和輸出都會(huì)被存儲(chǔ)在文件系統(tǒng)中。整個(gè)框架負(fù)責(zé)任務(wù)的調(diào)度和監(jiān)控,以及重新執(zhí)行已經(jīng)失敗的任務(wù)。通常,MapReduce框架和分布式文件系
52、統(tǒng)是運(yùn)行在一組相同的節(jié)點(diǎn)上的,也就是說(shuō), 計(jì)算節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn)通常在一起。這種配置允許框架在那些已經(jīng)存好數(shù)據(jù)的節(jié)點(diǎn)上高效地調(diào)度任務(wù),這可以使整個(gè)集群的網(wǎng)絡(luò)帶寬被非常高效地利用。( 2)分布式數(shù)據(jù)倉(cāng)庫(kù)引擎基于開(kāi)源的Hive 進(jìn)行改造優(yōu)化。可以將數(shù)據(jù)存放在分布式文件系統(tǒng)或分布式數(shù)據(jù)庫(kù)中,并使用類(lèi)SQL語(yǔ)言進(jìn)行海量數(shù)據(jù)統(tǒng)計(jì)、查詢(xún)和分析操作。Hive 提供了一種類(lèi)似SQL的查詢(xún)語(yǔ)言HiveQL, 它支持在from 子句中嵌套 select, project, join, aggregate, union all和子查詢(xún)。HiveQL 支持?jǐn)?shù)據(jù)定義(DDL)語(yǔ)句來(lái)創(chuàng)建特定序列化格式的內(nèi)部表和分區(qū),以及Bu
53、ckt 類(lèi)型的列。用戶(hù)可以從外部源加載數(shù)據(jù),將查詢(xún)結(jié)果通過(guò)數(shù)據(jù)操作(DML)語(yǔ)句分別加載和插入到Hive 表中。 HiveQL目前還不支持更新和刪除現(xiàn)有表中的行。HiveQL支持多表插入操作,用戶(hù)可以通過(guò)使用一個(gè)HiveQL語(yǔ)句來(lái)執(zhí)行在一個(gè)相同輸入數(shù)據(jù)中的多個(gè)查詢(xún)。Hive 通過(guò)共享該輸入數(shù)據(jù)的掃描來(lái)優(yōu)化這些查詢(xún)。 HiveQL也是有很好擴(kuò)展性的。它支持 Java 實(shí)現(xiàn)的用戶(hù)定義的列變換( UDF)和聚合(UDA)函數(shù)。F( 3)基于內(nèi)存的分布式計(jì)算引擎基于開(kāi)源Spark 進(jìn)行深度改造,提供的基于內(nèi)存的分布式快速計(jì)算。擁有Hadoop MapReduce所具有的優(yōu)點(diǎn),但不同于MapReduce
54、的是Job 中間輸出和結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫(xiě)HDFS,因此Spark 能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的map reduce 的算法。與Hadoop相比,Spark 的中間數(shù)據(jù)放到內(nèi)存中,對(duì)于迭代運(yùn)算效率更高。Spark 更適合于迭代運(yùn)算比較多的 ML 和 DM運(yùn)算。提供的數(shù)據(jù)集操作類(lèi)型包括map、 filter 、 flatMap 、sample、groupByKey、reduceByKey、union 、 sort,partionBy 等多種Transformations 操作類(lèi)型。同時(shí)還提供Count, collect, reduce, lookup, save
55、 等多種 actions操作。這些多種多樣的數(shù)據(jù)集操作類(lèi)型,給給開(kāi)發(fā)上層應(yīng)用的用戶(hù)提供了方便。各個(gè)處理節(jié)點(diǎn)之間的通信模型不再像Hadoop那樣就是唯一的Data Shuffle 一種模式。用戶(hù)可以命名,物化,控制中間結(jié)果的存儲(chǔ)、分區(qū)等??梢哉f(shuō)編程模型比Hadoop更靈活。Spark 的適用場(chǎng)景:Spark是基于內(nèi)存的迭代計(jì)算框架,適用于需要多次操作特定數(shù)據(jù)集的應(yīng)用場(chǎng)合。需要反復(fù)操作的次數(shù)越多,所需讀取的數(shù)據(jù)量越大,受益越大,數(shù)據(jù)量小但是計(jì)算密集度較大的場(chǎng)合,受益就相對(duì)較小由于RDD的特性,Spark不適用那種異步細(xì)粒度更新?tīng)顟B(tài)的應(yīng)用,例如 web服務(wù)的存儲(chǔ)或者是增量的web爬蟲(chóng)和索引。就是對(duì)于
56、那種增量修改的應(yīng)用模型不適合。 ( 4)實(shí)時(shí)數(shù)據(jù)處理對(duì)開(kāi)源 Spark streaming 進(jìn)行了改造,基本的原理是將流數(shù)據(jù)分成小的時(shí)間片斷(一般是秒級(jí)),以類(lèi)似batch 批量處理的方式來(lái)處理這小部分?jǐn)?shù)據(jù)。這里的批處理引擎是Spark,也就是把Spark Streaming 的輸入數(shù)據(jù)按照batch size(如 1 秒)分成一段一段的數(shù)據(jù)(Discretized Stream ) ,每一段數(shù)據(jù)都轉(zhuǎn)換成Spark 中的RDD( Resilient Distributed Dataset ) ,然后將Spark Streaming中 對(duì) DStream 的 Transformation 操 作
57、 變 為 針 對(duì) Spark 中 對(duì) RDD 的 Transformation 操作,將RDD經(jīng)過(guò)操作變成中間結(jié)果保存在內(nèi)存中。整個(gè)流式計(jì)算根據(jù)業(yè)務(wù)的需求可以對(duì)中間的結(jié)果進(jìn)行疊加,或者存儲(chǔ)到外部設(shè)備。( 5) SQL解析器Spark SQL是一個(gè)基于Spark 的 SQL解析引擎,通過(guò)它實(shí)現(xiàn)執(zhí)行計(jì)劃的解析、生成、優(yōu)化、映射工作,使系統(tǒng)可以基于Spark 做類(lèi) sql 、標(biāo)準(zhǔn) sql 甚至其他查詢(xún)語(yǔ)言的查詢(xún),Spark SQL復(fù)用了 Hive 的 meta store 數(shù)據(jù)、 hql 解析、UDFs、SerDes,在執(zhí)行DDL和某些簡(jiǎn)單命令的時(shí)候,調(diào)的是hive 客戶(hù)端。后續(xù)邏輯執(zhí)行優(yōu)化、 物理
58、執(zhí)行計(jì)劃翻譯及執(zhí)行過(guò)程,都是使用的spark sql 組件提供的內(nèi)容,最終的執(zhí)行引擎是Spark。由于 spark sql 實(shí)現(xiàn)對(duì)標(biāo)準(zhǔn)SQL和 HQL的支持可以同時(shí)處理RDD和 HDFS上的數(shù)據(jù),對(duì)與傳統(tǒng)平臺(tái)遷移到hadoop 無(wú)需大幅改造sql ,已經(jīng)實(shí)施的大數(shù)據(jù)項(xiàng)目也可以便捷的遷移到spark 上,并且可以很好的將批處理與流處理結(jié)合起來(lái),因此成為one size first all 通用方案。具有以下特點(diǎn):一,能在Scala 代碼里寫(xiě)SQL,支持SQL語(yǔ)法檢查,能把RDD指定為T(mén)able存儲(chǔ)起來(lái)。此外支持部分SQL語(yǔ)法的DSL。二, 支持Parquet( Parquet 是一種供Hadoo
59、p使用的列式存儲(chǔ)格式。Parquet為 Hadoop生態(tài)系統(tǒng)中的所有項(xiàng)目提供支持高效率壓縮的列式數(shù)據(jù)表達(dá),而且與數(shù)據(jù)處理框架、數(shù)據(jù)模型或編程語(yǔ)言都沒(méi)有關(guān)系)文件的讀寫(xiě),且保留Schema。三, 能在 Scala 代碼里訪(fǎng)問(wèn)Hive 元數(shù)據(jù), 能執(zhí)行 Hive 語(yǔ)句, 并且把結(jié)果取回作為RDD使用。Spark CRUD技術(shù)實(shí)現(xiàn)特點(diǎn):CRUD支持:Spark SQL支持傳統(tǒng)DB的 insert , update , delete 操作;高性能保障:充分利用Spark 的高性能特性,支持大規(guī)模數(shù)據(jù)集下的數(shù)據(jù)更新操作;高性能優(yōu)化:優(yōu)化的數(shù)據(jù)讀寫(xiě)結(jié)構(gòu),減少I(mǎi)O 操作;多版本數(shù)據(jù)控制;ACID支持:分布式
60、環(huán)境下的數(shù)據(jù)ACID支持分布式應(yīng)用協(xié)調(diào)基于 Zookeeper 系統(tǒng)進(jìn)行優(yōu)化,應(yīng)用于分布式應(yīng)用的協(xié)作服務(wù)。使得分布式應(yīng)用可以基于這些接口實(shí)現(xiàn)諸如同步、配置維護(hù)和分集群或者命名的服務(wù)。Zookeeper 很容易編程接入,它使用了一個(gè)和文件樹(shù)結(jié)構(gòu)相似的數(shù)據(jù)模型??梢允褂?Java 或者 C 來(lái)進(jìn)行編程接入。Zookeeper 針對(duì)大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維護(hù)、名字服務(wù)、分布式同步、組服務(wù)等。它可以維護(hù)系統(tǒng)配置、群組用戶(hù)和命名等信息。提供數(shù)據(jù)同步機(jī)制,數(shù)據(jù)嚴(yán)格按時(shí)間更新、查詢(xún)和發(fā)布,保證數(shù)據(jù)的一 致性。提供高并發(fā)能力,保證集群的高性能,在以讀為主的應(yīng)用中, 可以提供數(shù)千臺(tái)客
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 制作維修合同范本
- 勞務(wù)協(xié)議受雇合同范本
- 住房家居采購(gòu)合同范本
- 交竣工檢測(cè)合同范本
- 單位聘用廚師勞務(wù)合同范本
- 單位臨時(shí)工轉(zhuǎn)包合同范例
- 農(nóng)副產(chǎn)品訂單銷(xiāo)售合同范本
- 醫(yī)院供應(yīng)藥品合同范本
- 京東物流客服合同范本
- ppp合同轉(zhuǎn)施工合同范本
- 2025年合肥職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)完整版
- 2025年湖南城建職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)新版
- 企業(yè)級(jí)軟件開(kāi)發(fā)作業(yè)指導(dǎo)書(shū)
- 《中國(guó)古代文學(xué)史及作品選II》教學(xué)大綱
- 代工生產(chǎn)合同范本
- 瑜伽課程合同轉(zhuǎn)讓協(xié)議書(shū)范本
- 個(gè)人經(jīng)營(yíng)性貸款合同模板
- 人教版英語(yǔ)2025七年級(jí)下冊(cè) Unit1Animal Friends教師版 語(yǔ)法講解+練習(xí)
- DeepSeek新手入門(mén)教程
- 課件:《教育強(qiáng)國(guó)建設(shè)規(guī)劃綱要(2024-2035年)》學(xué)習(xí)宣講
- 2025年山東化工職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試近5年??及鎱⒖碱}庫(kù)含答案解析
評(píng)論
0/150
提交評(píng)論