版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
華為FusionInsightHD價值特性
HCS-Pre-Sales-BigData
課程負責人:沙長波shachangbo@
部門:IT產(chǎn)品線大數(shù)據(jù)
發(fā)布時間:2016/07/30色彩構成該頁顏色由以下七色構成,主色調(diào)公司灰。當頁面中需要使用四種以上顏色時,建議一種色系顏色作為主色調(diào),其它顏色僅作為點綴色小面積使用。課程介紹內(nèi)容簡介:本課程主要介紹華為FusionInsight的產(chǎn)品知識,主要從FusionInsight產(chǎn)品的發(fā)展策略、產(chǎn)品規(guī)格和亮點、在開源基礎上增強特性等方面來進行講述面向?qū)ο螅喝A為IT大數(shù)據(jù)產(chǎn)品相關渠道合作伙伴售前人員課程目標:掌握華為FusionInsightHD產(chǎn)品規(guī)格和主要亮點掌握華為FusionInsightHD產(chǎn)品的關鍵增強特性了解并能熟練向客戶介紹華為FusionInsightHD產(chǎn)品的價值特性版本信息(含發(fā)布/修改時間):發(fā)布時間:2016-07-30本次修改時間:2016-07-30目錄FusionInsight演進策略及開放性14行業(yè)增強特性及其它5易用性增強可靠性增強2安全性增強3FusionInsight架構和策略:分層解耦開放敏捷-行業(yè)最優(yōu)化完全開放的架構,性能線性擴展強大的SQL能力,業(yè)務移植便捷豐富的工具支持,開發(fā)運維高效智慧-場景最優(yōu)化全量建模,深刻洞察自研算法,高效精準可信-企業(yè)級的質(zhì)量和體驗全組件HA、異地容災、金融等保
開放共贏,可信賴的合作伙伴運營商金融政府FusionInsight大數(shù)據(jù)平臺數(shù)據(jù)服務離/近線計算內(nèi)存計算并行數(shù)據(jù)庫MPPDB實時流計算征信推薦明細(影像)偽控數(shù)據(jù)集成數(shù)據(jù)挖掘數(shù)據(jù)消費數(shù)據(jù)分析大數(shù)據(jù)技術趨勢實時性/效率易用/易開發(fā)計算框架領域語言DSLIDEMRSparkEC算法加速TachyonSQLGoogleDataflowML框架挖掘平臺數(shù)據(jù)集成交互式分析數(shù)據(jù)挖掘?qū)崟r分析大模式/小狀態(tài)(CEP)Storm/Flink集成平臺大狀態(tài)/小模式(VoltDB)探索平臺請參考(大數(shù)據(jù)教父Micheal
Stonebraker告訴你大數(shù)據(jù)的秘密)/JieJueFangAn/28822.htmlHadoop生態(tài)技術發(fā)展—實時、DSLPage520122013-20152016-2019Page5大數(shù)據(jù)平臺3.0大數(shù)據(jù)平臺1.0大數(shù)據(jù)平臺2.0統(tǒng)一數(shù)據(jù)存儲層(HDFS/HBase/MPP)統(tǒng)一集群資源管理層(YARN)MR(批處理)Storm(流計算)Elk(交互式SQL)Spark(內(nèi)存計算)單一批處理負載融合大數(shù)據(jù)平臺(實現(xiàn)基礎設施層的復用)企業(yè)級數(shù)據(jù)智能統(tǒng)一數(shù)據(jù)存儲層/跨DC(HDFS/HBase/MPP)統(tǒng)一集群資源管理層/跨DC(YARN)融合數(shù)據(jù)處理平臺(Spark/Flink)數(shù)據(jù)存儲層(HDFS)MapReduce(批處理)融合數(shù)據(jù)分析平臺
(探索,發(fā)現(xiàn)和管理知識)用戶程序員DB工程師/數(shù)據(jù)挖掘工程師普通工程師技術批處理DataOS成型SQL接口機器學習搜索/NLP深度學習實時分析部署規(guī)模達到5000,多種形態(tài):獨立集群,云,一體機跨數(shù)據(jù)中心/混合云FI技術演進方向(時間維度)內(nèi)核維護強大的具有內(nèi)核能力的本地化服務團隊內(nèi)核演進專人參與社區(qū)貢獻,
特別是新技術Spark/Flink社區(qū),快速服務于業(yè)務創(chuàng)新。安全符合中國等保三級的安全要求;
符合行業(yè)特征的精細化隱私保護可靠性企業(yè)級可靠性,全系統(tǒng)無單點故障(包括OM)
借鑒高端存儲磁盤可靠性檢測經(jīng)驗(如硬盤熱拔插)易運維高效的分布式集群安裝部署和擴容可視化的統(tǒng)一管理平臺和單點登錄豐富的分布式集群健康狀態(tài)檢查行業(yè)優(yōu)化FTP,標準SQL/CQL,CTBASE,小文件多租戶,高性能調(diào)度,異構集群開放生態(tài)金融/電信市場大量合作方在FusionInsight上開發(fā)FusionInsightHD特點源于開源社區(qū)的版本,應用編程API遵循開源事實標準ApacheHadoop
ReleaseHuaweirelease,IncludingOM/security/HA/industryenhancePatchinfurtherversionselectedbyhuaweiPatchinfurtherversionselectedbyClouderaClouderarelease(includingmanager/Navigator/impala/kudu)HortonworksRelease開放的企業(yè)版,100%兼容社區(qū)API會使用Hadoop會定位周邊問題能夠獨立完成支撐關鍵業(yè)務特性的內(nèi)核級開發(fā)能夠帶領社區(qū),引領社區(qū)完成面向未來的內(nèi)核級特性開發(fā)能夠創(chuàng)建新的社區(qū)頂級項目,并且得到生態(tài)系統(tǒng)認可強大的Hadoop內(nèi)核團隊支持的開發(fā)與產(chǎn)品交付能力,電信級運營支撐能力Apache開源社區(qū)生態(tài)系統(tǒng)組件多,代碼量大組件更新塊特性無有效整合TheActivitiesofApacheHadoopCommunity2015(
)定位內(nèi)核級問題的團隊(依賴團隊而不是精英個人)強大內(nèi)核開發(fā)團體提供電信級的開源支撐能力會定位內(nèi)核級問題(拔尖的個人)UserTableRowKeyColumnFamilycolAcolBcolCa00001*****
a00002*****
a00003*****
a00004*****
a00005*****
a00006*****
UserTableRowKeyColumnFamilycolAcolBcolCA00001*****
A00002*****
A00003*****
A00004*****
A00005*****
A00006*****
UserTable_idxRowKeyCF
a00001coluA*****a00001
a00001coluA*****a00002
a00001coluA*****a00003
a00001coluAxxxxxa00004
a00001coluA*****a00005
a00001coluA*****a00006
目標行數(shù)據(jù)掃描區(qū)域無索引:“Scan+Filter”,掃描大量數(shù)據(jù)二級索引:兩次IO定位到數(shù)據(jù)HBase原生API接口幾乎無改動,對用戶友好基于Coprocessor機制插件化實現(xiàn),易升級索引Region與數(shù)據(jù)Region伴生,面向?qū)憙?yōu)化,支持實時寫入對外開源—HBase二級索引對外開源—Astro,SparkSQLonHBase增強Databricks的聯(lián)合創(chuàng)始人以及Spark的發(fā)布經(jīng)理PatrickWendell這樣評價華為:“我們很高興華為成為Spark的主要貢獻者。作為在新興市場和電信行業(yè)的領導者,華為一直在努力擴大Spark的影響力。華為從Spark項目初期就一直是堅定的貢獻者。我們期望華為繼續(xù)發(fā)展Spark,并推動其在全球市場的垂直應用?!盚BaseSparkAstroSpark
ApplicationSQLMLGraphStreamCommunity
PackageAstro主要特性
SQL
on
HBase,支持增刪改查基于SparkSQL實現(xiàn)查詢優(yōu)化基于HBaseFilter,Coprocessor實現(xiàn)
計算下壓與HBase分布式對接,支持Colocation與Spark生態(tài)無縫對接,支持查詢結(jié)果用于DataFrame,ML,GraphX等庫做深度分析/HuaweiBigData/astro/HuaweiBigData/StreamCQLStreamCQL語法CREATEINPUTSTREAMS1(...)SOURCEKafkaInputPROPERTIES(...);CREATEINPUTSTREAMS2...;CREATEINPUTSTREAMS3...;CREATEOUTPUTSTREAMRS(...)SINKkafkaOutputPROPERTIES(...)INSERT
INTOs4SELECT*,1FROMS1;INSERT
INTOS4SELECT*,2FROMS2;INSERT
INTOSTREAMrs
SELECT*FROMS4[ROWS10BATCH]INNER
JOINS3[RANGE3HOURSSLIDE]ONs4.id=s3.type
WHEREs4.id>5;StreamCQL(StreamContinuousQueryLanguage)是建立在分布式流處理平臺基礎上的查詢語言,架構支持構建在多種流處理引擎之上(目前主要適配ApacheStorm)。提供數(shù)據(jù)流的過濾、轉(zhuǎn)換、拆分、合并等功能,以及基于窗口的統(tǒng)計、關聯(lián),用戶采用類SQL腳本語言的方式開發(fā)業(yè)務,顯著降低開發(fā)復雜度。CQLIDEJoinWindowAggregateSplitMergePatternMatchingStorm其它流處理引擎Stream接口功能引擎對外開源—StreamCQLCarbon已經(jīng)成為社區(qū)孵化項目CarbonDataisopensourced&willbecomeApacheIncubatorprojectWelcomecontributiontoourGithub@:/HuaweiBigData/carbondataMainContributors:JihongMA,Vimal,Raghu,Ramana,Ravindra,Vishal,Aniket,LiangChenliang,JackyLikun,JarryQiuheng,DavidCaiqiang,EasonLinyixin,Ashok,Sujith,Manish,Manohar,Shahid,Ravikiran,Naresh,Krishna,Babu,Ayush,Santosh,Zhangshunyu,Liujunjie,Zhujing(Huawei)Jean-BaptisteOnofre(Talend,ASFmember),HenrySaputra(eBay,ASFmember),UmaMaheswaraRaoG(Intel,HadoopPMC)目錄FusionInsight演進策略及開放性14行業(yè)增強特性及其它5易用性增強可靠性增強2安全性增強3可信產(chǎn)品:完備的產(chǎn)品可靠性系統(tǒng)可靠性數(shù)據(jù)可靠性所有組件無單點故障跨數(shù)據(jù)中心容災所有管理節(jié)點HA軟硬件健康狀態(tài)監(jiān)控網(wǎng)絡平面隔離第三方備份系統(tǒng)集成關鍵數(shù)據(jù)掉電保護硬盤熱插拔電信級可靠性-系統(tǒng)可靠性系統(tǒng)可靠性:業(yè)務無單點:
OMS,HDFS,HBASE,YARN,HIVE,OOZIE,HUE,ZOOKEEPER,BOOKEEPER采用主備,負荷分擔方式實現(xiàn)服務無單點故障管理節(jié)點HA:OMS節(jié)點及所有業(yè)務組件中心管理節(jié)點實現(xiàn)HA跨DC容災/備份:HBase集群通過HLOG準實時復制,HDFS/Hive集群通過BackupAdmin異步復制實現(xiàn)跨數(shù)據(jù)中心災備第三方備份系統(tǒng)集成:數(shù)據(jù)可以靈活的備份在外部系統(tǒng)如NAS、磁帶庫,只是和NBU等備份軟件集成11111122331344電信級可靠性-數(shù)據(jù)可靠性數(shù)據(jù)可靠性:OS層可靠性加固:RAID/OS寫緩存保護實現(xiàn)掉電數(shù)據(jù)保護Raid策略:OS,OMS,NameNode,ZK及HDFS數(shù)據(jù)節(jié)點采用不同硬盤分區(qū)及Raid策略,兼顧性能情況下保證數(shù)據(jù)可靠性快速故障檢測:結(jié)合華為存儲產(chǎn)品經(jīng)驗,盡快發(fā)現(xiàn)故障硬盤,降低MTTR,提高數(shù)據(jù)可靠性硬盤熱插拔:支持在線集群硬盤更換不影響業(yè)務,降低MTTR.第三方備份系統(tǒng)集成:數(shù)據(jù)可以靈活的備份在外部系統(tǒng)如NAS、磁帶庫,只是和NBU等備份軟件集成跨數(shù)據(jù)中心數(shù)據(jù)備份:HBase集群通過HLOG準實時復制,HDFS/Hive集群通過BackupAdmin異步復制實現(xiàn)跨數(shù)據(jù)中心災備33346578665847故障無故障檢測機制,MTTR無保障掉電應用緩存、OS緩存、RAID卡緩存、硬盤緩存中的臟數(shù)據(jù)可能丟失。集群重啟導致業(yè)務數(shù)據(jù)丟失,系統(tǒng)不能啟動壞盤硬盤故障是常態(tài):1PB數(shù)據(jù)1200塊硬盤,每10天約有1塊硬盤損壞(年故障率按3%)節(jié)點退服->換硬盤->啟動,單次換盤操作>20分鐘,同時引發(fā)大量無效數(shù)據(jù)副本重建。掉電保護:對數(shù)據(jù)寫入全路徑進行優(yōu)化,確保系統(tǒng)異常掉電后,業(yè)務仍能可靠地啟動;有效保護業(yè)務組件的基本運行環(huán)境、程序文件、配置文件、元數(shù)據(jù)、事務日志、安全賬戶信息。故障檢測:系統(tǒng)實時監(jiān)控硬件、OS和業(yè)務進程的健康狀態(tài),縮短MTTR。系統(tǒng)數(shù)據(jù)持久度達99.999%:1PB數(shù)據(jù)(3副本,1200塊4TB硬盤,硬盤年故障率3%)雙容災集群的數(shù)據(jù)持久度更高(>7個9)。在線換盤:無需人工操作,熱替換故障硬盤,單次換盤操作<2分鐘;直接使用本地硬盤的業(yè)務組件(如HDFS),均支持硬盤熱插拔;不直接使用本地硬盤的業(yè)務組件(如HBase)通過HDFS支持硬盤熱插拔??煽窟\維關鍵技術網(wǎng)絡類別信任程度說明集群業(yè)務平面高Hadoop集群核心部件,業(yè)務數(shù)據(jù)在其中存儲、流轉(zhuǎn)。集群管理平面中僅具備集群管理功能,不接觸實際的業(yè)務數(shù)據(jù)。集群外維護網(wǎng)絡低僅能訪問OMSServer提供的Web服務,除非連續(xù)攻破OMSServer和APPServer,否則無法訪問業(yè)務數(shù)據(jù)。網(wǎng)絡平面隔離,避免管理與業(yè)務帶寬搶占,相互干擾管理平面、業(yè)務平面、對外維護網(wǎng)絡,三網(wǎng)相互隔離,安全可靠,SLA有保障避免業(yè)務平面的高負載阻塞集群管理通道阻止外部攻擊者通過管理通道入侵實際業(yè)務數(shù)據(jù)管理與業(yè)務雙平面組網(wǎng),安全可靠HadoopclusterNAS…異地災備表級別集群在線備份,用于在線業(yè)務故障災備數(shù)據(jù)恢復批量導出本地備份支持庫級別本地備份、批量導出和數(shù)據(jù)恢復,支持全量、增量兩種模式。用于集群故障、人為誤操作導致的數(shù)據(jù)丟失Hbase增強:備份與集群容災本地備份LdapServerHMHMHDFSRSRSRSHBaseLdapServerHMHMHDFSRSRSRSHBaseRSHLogSyncAuthenticationDataSync向?qū)絺浞?恢復任務配置靈活的調(diào)度策略任務進度實時監(jiān)控向?qū)絺浞莨芾硐驅(qū)絺浞?恢復管理,操作簡單可靠關鍵數(shù)據(jù)(如集群配置、用戶信息、和Hive/HDFS業(yè)務元數(shù)據(jù)等)自動備份,元數(shù)據(jù)的雙保險。社區(qū)版本就只能通過開發(fā)相關數(shù)據(jù)備份和定時調(diào)度的腳本來完成,操作復雜繁瑣。業(yè)務視角(數(shù)據(jù)庫、表級,包括元數(shù)據(jù)和數(shù)據(jù))的集群間備份,無需傳統(tǒng)存儲,多大都能備增量與全量備份相結(jié)合,性能與可靠性的平衡點備份/恢復任務實時監(jiān)控HDFS機房感知,保障跨機房數(shù)據(jù)可靠性只能保證文件的副本跨機架存放。文件1的所有副本都在機房A,當機房A整體故障(如斷電),文件1有數(shù)據(jù)塊丟失保證文件副本跨機房存放,即每個文件至少有一個副本存放于另一個機房中。當機房A整體故障,HDFS上所有文件不會丟失數(shù)據(jù)塊HDFS機房A機房B文件1的副本文件2的副本HDFS機房A機房B文件1的副本文件2的副本HDFS機架感知HDFS機房感知方案描述:配置服務器機房信息,HDFS第2副本選擇時優(yōu)先其他機房服務器,從而保證任何一個文件的多副本不會都落在同一機房,做到跨機房數(shù)據(jù)可靠性保障。應用場景:集群服務器分布到2個及以上機房中客戶價值:實現(xiàn)數(shù)據(jù)跨機房容災,即一個機房整體故障,HDFS數(shù)據(jù)不會丟目錄FusionInsight演進策略及開放性14行業(yè)增強特性及其它5易用性增強可靠性增強2安全性增強3可信產(chǎn)品:全面的產(chǎn)品安全性系統(tǒng)安全數(shù)據(jù)安全認證安全完全開源組件增強操作系統(tǒng)安全加固用戶組件權限控制用戶權限認證管理數(shù)據(jù)完整性校驗組件數(shù)據(jù)加密首家符合國家金融等級保護的大數(shù)據(jù)平臺MRHBaseHDFSHiveZkOozieKDC業(yè)務開發(fā)用戶運維用戶超級管理員3544LDAP防火墻OMSCAS企業(yè)外網(wǎng)企業(yè)內(nèi)網(wǎng)1224Kerberos認證Hadoop服務用戶鑒權管理用戶鑒權信息存儲HA3用戶/用戶組管理訪問FusionInsightHadoopManager用戶權限管理和審計Hadoop組件WEBUI服務支持單點登錄認證2數(shù)據(jù)加密Hive,MR和HBase在固化到HDFS中的數(shù)據(jù)均加密存儲細粒度的安全管理,可按照表/按列加密5數(shù)據(jù)分角色存儲Hive和HBase中數(shù)據(jù)分用戶,角色受控存儲,用戶間數(shù)據(jù)隔離細粒度的權限管理,可按照表/按列控制訪問權限456威脅類型安全風險仿冒——S1)非法用戶訪問;未授權訪問;篡改——T2)黑客攻擊植入惡意軟件;抵賴——R3)用戶惡意操作后抵賴信息泄露——I4)內(nèi)部用戶訪問他人數(shù)據(jù);網(wǎng)絡竊取信息DOS攻擊——D5)黑客攻擊越權——E6)管理員惡意行為;可運營的安全體系(STRIDE)可視化的集中用戶權限管理可視化的集中用戶權限管理,易用、靈活、精細可視化的多組件統(tǒng)一的集中用戶權限管理,易用基于角色的訪問控制(RBAC),預定義權限集(角色)可重復使用,靈活SQL引擎(HBase/Hive/SparkSQL)多層次(數(shù)據(jù)庫/表/列級)、細粒度(Select/Delete/Update/Insert/Grant)授權,精細安全:單點登錄OMUICASOMServer組件WebUI組件WebAppLDAP組件WebUI組件WebApp登錄1請求2認證4驗證7跳轉(zhuǎn)1請求驗證233重定向CAS請求2驗證3應用場景Hadoop集群原生組件的WEBUI可以直接登陸,并不需要用戶鑒權,沒有任何安全保障能力,需要增加用戶鑒權功能。同時,多個組件UI登陸時,如果不支持單點登陸,那么每登陸一次組件UI都需要輸入一次鑒權信息,非常麻煩。解決方案首次登陸UI,會重定向到CAS進行集中認證。認證通過后,返回票據(jù);UI使用票據(jù)重新請求server端,server端向CAS校驗票據(jù)。從而完成登陸認證校驗過程。二次登陸組件UI,組件Webapp直接向CAS校驗身份。如果該身份已經(jīng)登陸,則無需再次身份校驗。用戶價值提供安全、可靠的統(tǒng)一用戶身份校驗機制。提供多組件UI間單點登陸功能,操作方便易用。安全:Hive/HBase細粒度加密DBFiles外部數(shù)據(jù)源HiveHBase組件加密加密后的數(shù)據(jù)內(nèi)部數(shù)據(jù)應用場景在Hadoop中,數(shù)據(jù)缺省是明文存放,這樣會導致某些敏感數(shù)據(jù)存在泄密的安全隱患。解決方案Hive支持對表、列加密Hbase支持對表、列族和列加密支持AES、國密算法SM4、RC4等加密算法,同時允許使用用戶自定義的加密算法用戶價值用戶可將敏感數(shù)據(jù)存儲在大數(shù)據(jù)系統(tǒng)中表、列級別的細粒度控制支持算法的多樣性,系統(tǒng)更安全業(yè)務透明,加解密過程業(yè)務無感知Hive/HBaseHDFS敏感數(shù)據(jù)寫入加密/解密敏感數(shù)據(jù)讀取*(&@#$^%!%$#$!(*^&*^*5!$!@^%$^!$!%#$@%#!!$#@!非敏感數(shù)據(jù)非敏感數(shù)據(jù)可信開發(fā)流程:安全活動貫穿IPD開發(fā)流程安全活動DCP/TR檢查點IPD安全活動融入決策檢查點,合同和技術評審/其他評審或檢查點安全需求安全設計安全開發(fā)安全測試安全交付和維護安全需求分析安全威脅分析安全架構/特性設計開源及第三方軟件選型代碼安全檢視代碼安全掃描報告安全測試方案和用例安全測試報告(包括開源軟件)安全補?。ê_源軟件及第三方軟件)軟件外包(安全需求傳遞,設計評審,代碼安全審查,安全測試驗收)配置管理(代碼,文檔,研發(fā)工具,開源軟件)安全基線、規(guī)范、標準、指導書ConceptTR1PlanTR2TR3DevelopmentTR4TR4ATR5QualifyTR6LaunchGALifecycleCharterCDCPPDCPADCP部分Hadoop開源安全風險舉例序號安全風險華為安全紅線要求1不安全加密算法:包括加密算法和隨機數(shù)生成例如:zookeeper里面某些認證相關代碼使用了java.util.Random弱隨機函數(shù)禁止使用公司認定的不安全的密碼算法,出于行業(yè)標準遵從、與第三方對接、向下兼容的場景例外。不安全密碼算法:
1)分組密碼算法:Blowfish,DES,DESX,RC2,Skipjack,2TDEA,TEA
2)流密碼算法:SEAL,CYLINK_MEK,RC4(<128bits)
3)哈希算法:SHA0,MD2,MD4,MD5,RIPEMD,RIPEMD-128;SHA-1禁止用于數(shù)字簽名的場景
4)數(shù)字簽名算法:RSA(<1024bits)、DSA(<1024bits)、ECDSA(≤160bits)
5)密鑰交換算法:DH(<1024bits)2Web無需認證即可訪問
,例如:HDFS,Hbase等組件的Web服務可以直接訪問,不需要是集群的合法用戶。對于每一個需要授權訪問的請求,必須核實用戶的會話標識是否合法、用戶是否被授權執(zhí)行這個操作。3XSS注入保護不足
,例如:webhdfs頁面的路徑輸入框存在腳本注入問題在服務器端對所有來自不可信數(shù)據(jù)源的數(shù)據(jù)進行校驗,拒絕任何沒有通過校驗的數(shù)據(jù)。若輸出到客戶端的數(shù)據(jù)來自不可信的數(shù)據(jù)源,則須對該數(shù)據(jù)進行相應的編碼或轉(zhuǎn)義。4審計日志記錄不全
,例如:Hive的metastore,社區(qū)版本完全沒有審計日志管理面所有對系統(tǒng)產(chǎn)生影響的用戶活動、操作指令必須記錄日志,日志內(nèi)容要能支撐事后的審計,記錄包括用戶ID、時間、事件類型、被訪問資源的名稱、訪問發(fā)起端地址或標識、訪問結(jié)果等;日志要有訪問控制,只有管理員才能有刪除權限。5認證憑據(jù)等敏感信息打印
,例如:hbase、hdfs等的debug日志打印了TGT信息產(chǎn)品安全敏感數(shù)據(jù)(如:個人用戶使用的口令、操作維護用途的口令、用于網(wǎng)絡通信協(xié)議協(xié)商的身份認證Key等)不得在日志中明文記錄。目錄FusionInsight演進策略及開放性14行業(yè)增強特性及其它5易用性增強可靠性增強2安全性增強3可視化集群管理,運維便捷Step2:配置集群拓撲Step3:配置集群參數(shù)自動完成安裝配置可視化集群管理,一切盡在掌握向?qū)?一鍵式集群安裝部署和擴容,簡單快速服務組件配置項可視化全面的系統(tǒng)監(jiān)控與告警管理,服務狀態(tài)、節(jié)點狀態(tài)(CPU、內(nèi)存、硬盤、網(wǎng)絡等)一目了然,SNMP/FTP/SYSLOG標準接口與企業(yè)已有管理系統(tǒng)無縫對接集群節(jié)點狀態(tài)集群服務狀態(tài)HBaseRS狀態(tài)易安裝:向?qū)讲僮?,Stepbystep引導完成安裝;自動環(huán)境準備,內(nèi)置腳本完成操作系統(tǒng)配置分布式并行安裝,10分鐘完成集群安裝。Step2:配置集群拓撲Step3:配置集群參數(shù)自動完成安裝配置易運維:向?qū)桨惭b配置易配置:模板化配置:配置參數(shù)整合為模板,配置簡單明了關聯(lián)配置自動同步,避免配置修改引發(fā)的多處人工修改DashBoard:直觀監(jiān)控全局信息監(jiān)控對象、顯示指標可靈活定制可作為集群維護操作的統(tǒng)一入口狀態(tài)管理:全面掌控系統(tǒng)狀態(tài)全面管理監(jiān)控節(jié)點狀態(tài)和服務狀態(tài)面向?qū)ο蟮牟僮?,簡單直觀集中統(tǒng)一管理集群,方便快捷審計日志:詳盡記錄操作信息支持日志文件導出支持分類過濾、搜索集群節(jié)點狀態(tài)集群服務狀態(tài)HBaseRS狀態(tài)服務狀態(tài)管理節(jié)點狀態(tài)管理易運維:全系統(tǒng)可定制的實時運行監(jiān)控易使用:Loader,大數(shù)據(jù)全能搬運工RDBHadoop
HDFS
HBaseHiveSparkElkSFTPServerFTPServerOtherDataSourceLoader簡化數(shù)據(jù)集成,提升集成性能數(shù)據(jù)集成可視化(社區(qū)Sqoop僅支持JavaAPI和shell命令),簡單豐富的外部數(shù)據(jù)源(SFTP/FTP/RDB,社區(qū)Sqoop僅支持RDB),靈活直接導入HBASE表(HFile)/Hive表(ORCFile/RCFile),一步到位(社區(qū)Sqoop不支持),高效不落地記錄格式轉(zhuǎn)換,如拼接、分拆、過濾、替換、字符串轉(zhuǎn)換、枚舉值映射等(社區(qū)Sqoop不支持),全能RDB文件服務器MR/spark/Hive任務提交目標系統(tǒng)SQLHive/Elk/SparkSQLFTP/SFTPJDBCPorterLoaderHDFSHBase可視化拖拽式工作流編排靈活的定時調(diào)度計劃作業(yè)狀態(tài)實時監(jiān)控易使用:可視化作業(yè)編排與調(diào)度可視化作業(yè)編排管理,降低大數(shù)據(jù)作業(yè)開發(fā)門檻大數(shù)據(jù)作業(yè)編輯可視化,包括Hive、Spark、MR、Shell、DistCP、HadoopStreaming等大數(shù)據(jù)作業(yè),免除大數(shù)據(jù)作業(yè)開發(fā)的繁瑣的系統(tǒng)配置。工作流編排與調(diào)度可視化,將多個大數(shù)據(jù)作業(yè)按照特定邏輯調(diào)度,妥妥拽拽輕松搞定作業(yè)狀態(tài)監(jiān)控可視化,易運維Storm易開發(fā)DefInput:publicvoidopen(Mapconf,TopologyContextcontext,SpoutOutputCollectorcollector)
{…}publicvoidnextTuple()
{…}publicvoiddeclareOutputFields(OutputFieldsDeclarerdeclarer)
{…}Deflogic:publicvoidexecute(Tupletuple,BasicOutputCollectorcollector)
{…}publicvoiddeclareOutputFields(OutputFieldsDeclarerofd)
{…}DefOutput:publicvoidexecute(Tupletuple,BasicOutputCollectorcollector)
{…}publicvoiddeclareOutputFields(OutputFieldsDeclarerofd)
{…}DefTopology:publicstaticvoidmain(String[]args)throwsException
{…}
DefInput:CreateInputStreamkafkareader…Deflogic:Insertintofilterstrselect*fromkafkareaderwherename=“HUAWEI”;DefOutput:CreateOutputStreamkafkawriter…DefTopology:Submitapplicationtest;Storm原生API
HBaseCQL:
CQLSDKStormAPIFusionInsight基于Storm提供CQL語言,降低流處理業(yè)務的開發(fā)門檻RecoverableConnectionManagerSchemaDataEnhanceHbaseSDKHbase
Design
ToolsFusionInsight提供HBase的表設計工具,提供連接池管理以及增強的SDK,來簡化復雜數(shù)據(jù)表的業(yè)務開發(fā)try{table=newHTable(conf,TABLE);//1.GenerateRowKey.{}//2.CreatePutinstance.Putput=newPut(rowKey);//3.Convertcolumnsintoqualifiers(Needtoconsidermergingcoldcolumns).//3.1.Addhotcolumns.{}//3.2.Mergecoldcolumns.{}put.add(COLUMN_FAMILY,Bytes.toBytes("QA"),hotCol);//3.3.Addcoldcolumns.put.add(COLUMN_FAMILY,Bytes.toBytes("QB"),coldCols);//4.PutintoHBase.table.put(put);}catch(IOExceptione){//HandleIOE.Needtore-createconnectionsundersomescenarios.}try{table=newClusterTable(conf,CLUSTER_TABLE);//1.CreateCTRowinstance.CTRowrow=newCTRow();//2.Addcolumns.{}//3.PutintoHBase.table.put(TABLE,row);}catch(IOExceptione){//Doesnotcareconnectionre-creation.}HBase原生API
增強API
HBaseAPI數(shù)據(jù)集成工具Porter,提供數(shù)據(jù)采集、轉(zhuǎn)換、加載,并提供FTPclient,方便任何客戶端以FTP方式與Hadoop集群交換數(shù)據(jù)Porter全流程的產(chǎn)品資料目錄FusionInsight演進策略及開放性14行業(yè)增強特性及其它5易用性增強可靠性增強2安全性增強3可視化的多級租戶管理,與企業(yè)組織結(jié)構相匹配可視化的多級租戶管理,與企業(yè)組織結(jié)構相匹配,簡化系統(tǒng)資源分配與管理與企業(yè)組織結(jié)構相匹配的多級的租戶模型,不同部門對應不同的租戶,按需動態(tài)增刪租戶一站式管理租戶資源管理:計算資源(CPU/內(nèi)存/IO)、存儲資源(HDFS)、服務資源(HBase…)基于linuxcgroup容器機制的租戶資源隔離,為租戶SLA保駕護航租戶資源使用情況實時監(jiān)控一站式租戶管理多層級租戶管理公司租戶公司部門AYarnQueue(CPU/內(nèi)存/IO)計算資源HDFS(存儲空間/文件綜述)存儲資源HBase……服務資源部門B子部門B_1子部門B_2部門B租戶子部門B_2租戶子部門B_1租戶部門A租戶多服務實例,實例級資源隔離,提升業(yè)務SLAHBASE1HiveAHBASEX部門BQAQBHiveB應用AQCQD應用B部門A應用A應用BHBASE2Cgroup115%實時應用1實時應用2實時應用XCPU/內(nèi)存/存儲Cgroup210%Cgroup35%Cgroup415%Cgroup525%Cgroup615%Cgroup615%HBASEHiveQAQBQCQD部門B應用A應用B部門A應用A應用BCgroup115%實時應用1實時應用2實時應用XCPU/內(nèi)存/存儲Cgroup210%Cgroup35%Cgroup415%Cgroup525%多應用邏輯資源競爭多應用物理資源競爭一個應用一個HBase實例,彼此間物理資源隔離,互不影響方案描述:一個集群中支持部署多個服務實例(如HBase),不同業(yè)務/部門為了資源隔離,使用不同的服務實例。如不同部門分配不同的Hive實例,不同的實時應用分配不同的HBase實例。應用場景:多個部門或多個應用共享一個集群,且部門和應用間需資源隔離客戶價值:更好的保證組織或業(yè)務的SLA標簽存儲,應用級I/O隔離,提升業(yè)務SLAIO沖突影響在線業(yè)務在線應用的數(shù)據(jù)只存放在有“在線應用”標簽的節(jié)點上,與離線應用分開存儲,避免IO競爭,提升計算的數(shù)據(jù)本地命中。在線應用離線應用HDFS在線應用離線應用HDFS在線應用在線應用在線應用批處理批處理批處理方案描述:根據(jù)應用或物理特征為集群節(jié)點打上標簽,如”在線應用“
,應用數(shù)據(jù)存放時指定標簽存儲,即該應用的數(shù)據(jù)只存在含有指定標簽的節(jié)點上。應用場景:1.在線與離線應用共享一個集群2.特定業(yè)務(如在線應用),運行在特定節(jié)點上客戶價值:1.不同應用IO隔離,保障應用的SLA2.提升應用的數(shù)據(jù)命中,從而提升系統(tǒng)性能標簽存儲普通存儲標簽調(diào)度,應用感知的精細化調(diào)度所有Yarn應用都同等對待,可能導致把MR先分配到大內(nèi)存機器上,Spark由于申請不到大內(nèi)存時不能被及時調(diào)度,系統(tǒng)整體資源得不到充分利用。根據(jù)Spark應用對資源需求的特點(高內(nèi)存消耗型),MR只被調(diào)度到小內(nèi)存節(jié)點上,這樣Spark就可申請大內(nèi)存,執(zhí)行性能更高。Spark應用MR應用Spark應用MR應用YARN大內(nèi)存大內(nèi)存大內(nèi)存缺省缺省缺省YARN標簽調(diào)度普通調(diào)度應用感知的精細化調(diào)度,提升資源利用率不同類型應用(例如在線和批處理)只運行在各自標簽的節(jié)點上,實現(xiàn)不同應用的計算資源絕對隔離,提升業(yè)務SLA對節(jié)點硬件有特殊要求的應用,只運行在含有特殊硬件的節(jié)點上(如Spark應用需要跑在大內(nèi)存節(jié)點上),資源按需調(diào)度,提升資源利用率和系統(tǒng)性能。資源配置周期調(diào)整,資源錯峰共享HBASEHive/Spark/…QAQBQCQDCgroup140%實時應用CPU/內(nèi)存/存儲Cgroup260%批處理應用HBASEHive/Spark/…QAQBQCQDCgroup180%實時應用CPU/內(nèi)存/存儲Cgroup220%批處理應用7:0020:00時間方案描述:配置不同業(yè)務在不同時間段分得不同比例的資源,如7:00到20:00之間,實時業(yè)務的高峰且資源應優(yōu)先保障,則該實時業(yè)務分得60%資源,剩下給批處理;而20:00到7:00,實時業(yè)務波谷時,則分配更多資源給批處理(80%)應用場景:不同業(yè)務的波峰與波谷相互錯開客戶價值:不同業(yè)務在業(yè)務波峰時都能分得資源最大化,大幅提升系統(tǒng)資源平均利用率SparkSQL兼容標準TPC-DS/HiveBench,易移植同時兼容標準SQL和HQL,零成本業(yè)務遷移基于標準SQL的TPC-DS99個用例0修改100%通過基于HiveQL的HiveBench62個用例0修改100%通過PL/SQLSQL99SQL2003HQLElkHDFSHBaseSqlParserSql
Eexcutejdbc/odbc/…BIWebETLDataExplorerHiveMetadata采用通用的SQL標準接口,全面兼容傳統(tǒng)的數(shù)據(jù)庫SQL和Hadoop的HQL全面支持傳統(tǒng)應用的接口JDBC、ODBC,并提供豐富的擴展接口如PL/C,PL/Jaca,PL/Python交互式查詢性能達到或超越Impala靈活的存儲格式HDFS(ORC、Parquet),HBase(KV)Elk與Impala性能對比,TPC-H(單位:秒/查詢N)測試環(huán)境:4節(jié)點:2*8coreCPUs,96GBRAM,67200rpsSATA盤,10GE網(wǎng)卡,HDFS3副本.全面超越Impala,大部份指標是impala兩倍Elk:交互式SQLonHadoopPhoenix是構建在HBase之上的一個SQL中間層,可實現(xiàn)毫秒級SQL在線查詢。Phoenix查詢引擎會將SQL查詢轉(zhuǎn)換為一個或多個HBaseScan,并編排執(zhí)行以生成標準的JDBC結(jié)果集,適用于10M-100M行規(guī)模的簡單查詢。Phoenix特性:嵌入式的JDBC驅(qū)動,包括元數(shù)據(jù)API可以通過多個行鍵或是鍵/值單元對列進行建模DDL、DML支持遵循ANSISQL標準
支持簡單的HashJoin支持二級索引PhoenixHBaseAPI毫秒級的查詢響應HBaseSQLClientPheonix:輕量HBaseSQL引擎HiveSQLRDBMS(Oracle/DB2)HDFS/HBaseTableJDBC數(shù)據(jù)集成報表統(tǒng)計數(shù)據(jù)挖掘自助取數(shù)多維分析標準SQL不支持跨庫只能單庫訪問,要實現(xiàn)不同庫的數(shù)據(jù)融合,如跨庫查詢,需要不同庫的串行執(zhí)行、中間結(jié)果保存、遷移。導致執(zhí)行效率低、存儲計算資源浪費、開發(fā)繁瑣HiveSQL實現(xiàn)DB2、Oracle、HiveonHDFS/Hbase的數(shù)據(jù)庫互通訪問,一條HQL語句,同時訪問多個不同類型的數(shù)據(jù)庫,并進行匯總統(tǒng)一處理。實現(xiàn)不同數(shù)據(jù)源的數(shù)據(jù)融合,提升執(zhí)行效率,增強集群資源及數(shù)據(jù)利用率,同時降低開發(fā)難度和復雜度。HiveSQL跨表功能CTBase,預關聯(lián)HBase寬表,大大提升Join性能account_idamounttimeA0001$10012/12/201418:00:02A0001$102010/12/201415:30:05A0001$8909/12/201413:00:07A0002$10511/12/201420:15:00account_idaccount_nameaccount_balanceA0001Andy$100232A0002Lily$902323A0003Selina$90000A0001Andy$100232A0001$10012/12/201418:00:02A0001$102010/12/201415:30:05A0001$8909/12/201413:00:07A0002Lily$902323A0002$10511/12/201420:15:00A0002$12911/11/201418:15:00A0003Selina$90000Transaction表記錄AccountInfo表記錄Transaction表AccountInfo表CTBase表一個多表Join例子的實現(xiàn):selecta.account_id, a.amount,b.account_name,b.account_balancefromTransactionsaleftjoinAccountInfobona.account_id=b.account_idwherea.account_id=“xxxxxxx”;預關聯(lián)HBase寬表,大大提升Join性能,簡化HBase多表業(yè)務開發(fā)通過HBase內(nèi)部機制的運用實現(xiàn)一個對象下多個用戶表數(shù)據(jù)在物理上的相鄰存放。數(shù)據(jù)入庫前預計算關聯(lián),而不是在查詢時再關聯(lián),查詢時延相比傳統(tǒng)方法5~100倍提升.
提供表設計工具和封裝的API,讓用戶可以用傳統(tǒng)關系型數(shù)據(jù)庫開發(fā)方式在HBase上開發(fā)復雜多表業(yè)務.HBase可視化建模,降低HBase的使用門檻Column用戶表列:每一列代表業(yè)務數(shù)據(jù)某一個屬性QualifierHBase列每一列代表一個KeyValuemapingColumnFamily存在業(yè)務關聯(lián)的列集合reverse(Column1,4)Column2Column3ColumnFamily存在業(yè)務關聯(lián)的列集合問題:如何建表?如何拼湊和解析Rowkey?設計幾個列族合理?如何設計列?冷熱列如何處理?對開發(fā)人員提了較高的要求,業(yè)務代碼開發(fā)量大。HBase可視化建模,降低HBase的使用門檻可視化HBase建模設計工具,降低HBase的使用門檻實現(xiàn)人員分工:DBA關注數(shù)據(jù)表建模,Developer關注用戶表名和用到的列。支持應用透明的冷字段合并,提升存儲效率,不增加開發(fā)者難度HDFS
FTP接口,降低HDFS應用門檻▲兼容性支持標準FTP協(xié)議功能,如文件上傳、文件下載、目錄查看、目錄創(chuàng)建、目錄刪除、文件權限修改等?!踩耘c現(xiàn)有Hadoop的安全認證體系無縫集成。支持FTPS加密協(xié)議,防止信息泄露?!咝阅軉蜟PU核可提供數(shù)百MB/s的吞吐量。支持部署多個FTPServer,進一步提升文件上/下載性能。新增廣泛應用的標準協(xié)議訪問HDFS,降低使用HDFS門檻將HDFS作為一個大容量的FTPServer,應用通過標準FTP
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 經(jīng)營酒吧合同
- 股份制改革流程文書模板與指導
- 汽車美容店合作協(xié)議書年
- 委托培訓協(xié)議書
- 質(zhì)量管理體系培訓指導書
- 2025年青海貨運從業(yè)資證孝試模似題庫
- 小學三年級數(shù)學加減乘除混合口算
- 2025年黔東南道路貨運駕駛員從業(yè)資格證考試題庫
- 2025年上海貨車叢業(yè)資格證考試題
- 2025年汕頭貨運從業(yè)資格證怎么考試
- 中儲棉直屬企業(yè)招聘筆試真題2024
- 2024年長沙衛(wèi)生職業(yè)學院高職單招職業(yè)技能測驗歷年參考題庫(頻考版)含答案解析
- 2025屆高考數(shù)學一輪專題重組卷第一部分專題十四立體幾何綜合文含解析
- 福建省泉州市南安市2024-2025學年九年級上學期期末考試語文試題(無答案)
- 醫(yī)療器材申請物價流程
- 人教PEP版2025年春季小學英語三年級下冊教學計劃
- 華為研發(fā)部門績效考核制度及方案
- 2025年蛇年年度營銷日歷營銷建議【2025營銷日歷】
- 攝影入門課程-攝影基礎與技巧全面解析
- 冀少版小學二年級下冊音樂教案
- 【龍集鎮(zhèn)稻蝦綜合種養(yǎng)面臨的問題及優(yōu)化建議探析(論文)13000字】
評論
0/150
提交評論