大數(shù)據(jù)分析關(guān)鍵技術(shù)_第1頁(yè)
大數(shù)據(jù)分析關(guān)鍵技術(shù)_第2頁(yè)
大數(shù)據(jù)分析關(guān)鍵技術(shù)_第3頁(yè)
大數(shù)據(jù)分析關(guān)鍵技術(shù)_第4頁(yè)
大數(shù)據(jù)分析關(guān)鍵技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)分析關(guān)鍵技術(shù)目錄 概述 即席查詢 批量處理 流式計(jì)算大數(shù)據(jù)計(jì)算分析模式分類即席查詢Ad-Hoc Query批量處理Batch ProcessingMap/Reduce流式計(jì)算Stream Computing數(shù)據(jù)承載響應(yīng)時(shí)間適用場(chǎng)景磁盤(pán)秒級(jí)(準(zhǔn)實(shí)時(shí))自然人交互式經(jīng)營(yíng)分析磁盤(pán)分鐘級(jí)至小時(shí)級(jí)(準(zhǔn)實(shí)時(shí))事前/事后大批量數(shù)據(jù)處理內(nèi)存(事件窗口非全量數(shù)據(jù))秒級(jí)(實(shí)時(shí))實(shí)時(shí)事件分析實(shí)時(shí)風(fēng)險(xiǎn)干預(yù)針對(duì)不同的業(yè)務(wù)領(lǐng)域,需要采用不同的數(shù)據(jù)計(jì)算分析方式,快速發(fā)現(xiàn)數(shù)據(jù)價(jià)值。即席查詢即席查詢(Ad Hoc)是用戶根據(jù)自己的需求,靈活的選擇查詢條件,系統(tǒng)能夠根據(jù)用戶的選擇生成相應(yīng)的統(tǒng)計(jì)報(bào)表。即席查詢與普通應(yīng)用查詢最大

2、的不同是普通的應(yīng)用查詢是定制開(kāi)發(fā)的,而即席查詢是用戶自定義查詢條件。即席查詢StorageDistribute File SystemColumn DatabaseResource ManagementParallelCompute FrameworkSQL Syntax+ Compute FrameworkSQL SyntaxMetaDataBatch ProcessingAd-Hoc Query實(shí)時(shí)性:高批量處理StorageDistribute File SystemColumn DatabaseResource ManagementParallelCompute FrameworkSQ

3、L Syntax+ Compute FrameworkSQL SyntaxMetaDataBatch ProcessingAd-Hoc QueryMapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行批量計(jì)算。概念Map和Reduce當(dāng)前的主流實(shí)現(xiàn)是指定一個(gè)Map函數(shù),用來(lái)把一組鍵值對(duì)映射成一組新的鍵值對(duì),指定并發(fā)的Reduce函數(shù),用來(lái)保證所有映射的鍵值對(duì)中的每一個(gè)共享相同的鍵組。形成這種模型的原因是:數(shù)據(jù)的分布式存儲(chǔ)、計(jì)算資源的分布式、并行計(jì)算減少計(jì)算時(shí)長(zhǎng)。批量處理實(shí)時(shí)性:低流式計(jì)算流數(shù)據(jù)的實(shí)時(shí)計(jì)算注重對(duì)流數(shù)據(jù)的快速高效處理、計(jì)算和分析。其特點(diǎn)是計(jì)算過(guò)程數(shù)據(jù)不落地,所有數(shù)據(jù)在內(nèi)存中完成。

4、其計(jì)算模型是根據(jù)規(guī)則生成容器,當(dāng)數(shù)據(jù)流經(jīng)過(guò)容器時(shí),實(shí)時(shí)產(chǎn)生分析結(jié)果。流式計(jì)算InputAdapterOutputAdapterEngine ClusterClusterManagementRule RepositoryNoSQL實(shí)時(shí)性:高目錄 概述 即席查詢 批量處理 流式計(jì)算Impala NodeImpala架構(gòu)ImpaladQuery PlannerQuery CoordinatorQuery Exec EngineCommon HiveQL & InterfaceMetaDataSQLJDBCHive MetaStoreHDFS NNState StoreImpaladQuery Pla

5、nnerQuery CoordinatorQuery Exec EngineImpaladQuery PlannerQuery CoordinatorQuery Exec EngineDataHDFS DNHBaseDataHDFS DNHBaseDataHDFS DNHBaseImpala NodeImpala NodeLocal Direct ReadsThriftHive架構(gòu)DataHDFS DNTask TrackerJob TrackerName NodeHadoopHive (Over Hadoop 0.20.X)SQLJDBCWUIThrift ServerDriver(Comp

6、iler, Optimizer, Executor)Meta Store ThriftServer:JDBC通過(guò)ThriftServer連接到Hive。ThriftServer連接MetaStore來(lái)讀取hive的元數(shù)據(jù)信息。 MetaStore:在關(guān)系型數(shù)據(jù)庫(kù)中存放表/分區(qū)/列元數(shù)據(jù),可以低延遲的快速的訪問(wèn)到需要的元數(shù)據(jù)信息。 Driver/QueryCompiler/ExecutionEngine:客戶端提交的HiveSQL首先進(jìn)入Driver,然后Driver會(huì)為此次HiveSQL的執(zhí)行創(chuàng)建一個(gè)Session,Driver維護(hù)整個(gè)session的生命周期。Driver首先將HiveSQL

7、傳送給QueryCompiler,然后由QueryCompiler來(lái)對(duì)用戶提交的HiveSQL進(jìn)行編譯/檢查/優(yōu)化并最終生成MapReduce任務(wù)。 ExecutionEngine會(huì)與Hadoop進(jìn)行交互,將 MapReduce任務(wù)交給Hadoop來(lái)執(zhí)行,并從Hadoop取得最終的執(zhí)行結(jié)果,并返回給用戶。解析HiveSQL之后生成所MapReduce任務(wù),在運(yùn)行中訪問(wèn)元數(shù)據(jù)信息時(shí),將直接讀取生成的物理計(jì)劃時(shí)產(chǎn)生的plan.xml,此文件會(huì)被放入Hadoop的分布式緩存中,MapReduce任務(wù)可以從分布式緩存中獲得相應(yīng)的元數(shù)據(jù)。Impala相對(duì)于Hive的優(yōu)勢(shì)Impala不需要把中間結(jié)果寫(xiě)入磁

8、盤(pán),省掉了大量的I/O開(kāi)銷(xiāo)。省掉了MapReduce作業(yè)啟動(dòng)的開(kāi)銷(xiāo)。MapReduce啟動(dòng)task的速度很慢(默認(rèn)每個(gè)心跳間隔是3秒鐘),Impala直接通過(guò)相應(yīng)的服務(wù)進(jìn)程來(lái)進(jìn)行作業(yè)調(diào)度,速度快了很多。 Impala借鑒了MPP并行數(shù)據(jù)庫(kù)的思想,可以做更多的查詢優(yōu)化,從而省掉不必要的shuffle、sort等開(kāi)銷(xiāo)。使用了支持Data locality的I/O調(diào)度機(jī)制,盡可能地將數(shù)據(jù)和計(jì)算分配在同一臺(tái)機(jī)器上進(jìn)行,減少了網(wǎng)絡(luò)開(kāi)銷(xiāo)。用C+實(shí)現(xiàn),做了很多有針對(duì)性的硬件優(yōu)化。對(duì)外提供多語(yǔ)言API、多種訪問(wèn)協(xié)議。中間結(jié)果作業(yè)調(diào)度作業(yè)分發(fā)數(shù)據(jù)訪問(wèn)代碼實(shí)現(xiàn)目錄 概述 即席查詢 批量處理 流式計(jì)算MapRedu

9、ce v0.23.x (YARN)Node ManagerContainerApp MasterNode ManagerContainerApp MasterNode ManagerContainerResource ManagerClientClientJob SubmissionContainerMapReduce StatusResource RequestNode Status從 0.23.0 版本開(kāi)始,Hadoop 的 MapReduce 框架完全重構(gòu)。新的 Hadoop MapReduce 框架命名為 MapReduceV2YARN目錄 概述 即席查詢 批量處理 流式計(jì)算 Prim

10、eton CEP Storm流數(shù)據(jù)處理技術(shù) 對(duì)比 傳統(tǒng)規(guī)則引擎(概念)維度流數(shù)據(jù)處理技術(shù)傳統(tǒng)規(guī)則引擎處理方式“窗口模式”多維關(guān)聯(lián)分析基于對(duì)屬性的判斷處理模型富狀態(tài)無(wú)狀態(tài)異常處理內(nèi)存狀態(tài)數(shù)據(jù)的自動(dòng)化恢復(fù)服務(wù)無(wú)狀態(tài),數(shù)據(jù)重跑簡(jiǎn)單舉例每種硬幣各有多少個(gè)對(duì)硬幣進(jìn)行分類按時(shí)間區(qū)間、按長(zhǎng)度區(qū)間、按時(shí)間與長(zhǎng)度混合區(qū)間、按特有屬性值等規(guī)則所建立起的對(duì)象集合,存放在內(nèi)存中。若動(dòng)畫(huà)中,再對(duì)已分類的硬幣進(jìn)行自動(dòng)打包,有兩種方式:1. 判斷槽中的硬幣數(shù)量,觸發(fā)打包動(dòng)作;2. 判斷槽中的硬幣重量,觸發(fā)打包動(dòng)作;窗口模式如動(dòng)畫(huà)中對(duì)硬幣的分揀動(dòng)作:可以根據(jù)硬幣的物理屬性設(shè)計(jì)不同的判斷規(guī)則(軌道寬度,轉(zhuǎn)角等),完成分類。決策

11、判斷普元CEP平臺(tái)架構(gòu)事件采集層AgentAgentAgentAgent外部系統(tǒng)系統(tǒng)A系統(tǒng)B系統(tǒng)C系統(tǒng)D接入層Input Cluster 1n分析引擎平臺(tái)結(jié)果執(zhí)行層規(guī)則庫(kù)分析引擎OSGi Based分析引擎OSGi Based接入層Output Cluster 1n分析規(guī)則開(kāi)發(fā)(離線開(kāi)發(fā))規(guī)則開(kāi)發(fā)IDE(Eclipse Based)ActionActionActionAction應(yīng)用門(mén)戶(功能松耦合)管理門(mén)戶(規(guī)則模板生命周期管理)運(yùn)維門(mén)戶(引擎監(jiān)控、全局配置、自動(dòng)化部署)業(yè)務(wù)門(mén)戶(規(guī)則實(shí)例業(yè)務(wù)參數(shù)配置)分析集群運(yùn)行環(huán)境管理控制環(huán)境普元CEP平臺(tái)特色基于云計(jì)算PaaS架構(gòu)分布式集群管控框架系統(tǒng)

12、級(jí)物理主機(jī)/虛擬機(jī)管理進(jìn)程級(jí)服務(wù)實(shí)例管理集群配置分析規(guī)則熱更新/熱部署與虛擬機(jī)鏡像結(jié)合分析服務(wù)快速部署與規(guī)則庫(kù)結(jié)合規(guī)則插件快速部署集群通知渠道規(guī)則實(shí)例快速應(yīng)用自動(dòng)化、圖形化運(yùn)維事件分析平臺(tái)面向數(shù)據(jù)流基于內(nèi)存內(nèi)存狀態(tài)數(shù)據(jù)遷移冷熱數(shù)據(jù)分離與恢復(fù)集群規(guī)模水平伸縮事件動(dòng)態(tài)路由分析規(guī)則開(kāi)發(fā)、管理與應(yīng)用規(guī)則模板開(kāi)發(fā)IDE事件元數(shù)據(jù)類SQL規(guī)則語(yǔ)言Action元數(shù)據(jù)Web規(guī)則實(shí)例配置與熱部署Web規(guī)則模板管理分布式集群管控框架Any OS持久化集群AMQP MQ 集群ZooKeeper 集群Web 控制臺(tái) (無(wú)狀態(tài), 多實(shí)例)負(fù)載均衡 (Session Sticky)物理/邏輯拓?fù)湟?guī)則模板模板狀態(tài)規(guī)則實(shí)例監(jiān)

13、控業(yè)務(wù)進(jìn)程(過(guò)濾/聚合)(Support ZKClient)ZK ClientOS (Support NodeJS)監(jiān)控業(yè)務(wù)進(jìn)程(過(guò)濾/聚合)(unSupport ZKClient)Process Daemon(NodeJS+ZKClient)OS (unSupport NodeJS)監(jiān)控業(yè)務(wù)進(jìn)程(過(guò)濾/聚合)(unSupport ZKClient)Process Daemon(Java+ZKClient)OS Agent(NodeJS+ZKClient+MQClient)OS Agent(NodeJS+ZKClient+MQClient)OS Agent(Java+ZKClient+MQCl

14、ient)管控服務(wù)ZK客戶端DB客戶端MQ客戶端規(guī)則部署與配置場(chǎng)景運(yùn)維人員Repository業(yè)務(wù)Console業(yè)務(wù)人員DBCEPEngine1CEPEngine2CEPEngine3ZooKeeper3. 下載規(guī)則的表單頁(yè)面2. 保存規(guī)則到倉(cāng)庫(kù)運(yùn)維Console4. 規(guī)則參數(shù)配置5. 保存規(guī)則參數(shù)配置6. 保存規(guī)則參數(shù)配置到ZooKeeperengine1Rule1Rule2Rule3engine2Rule4engines7. 通知Engine1. 上傳規(guī)則部署包8. 下載規(guī)則2. 保存規(guī)則信息到DB接出層分析引擎接入層分析引擎A規(guī)則實(shí)例A1規(guī)則實(shí)例A2規(guī)則實(shí)例An規(guī)則實(shí)例A3分析引擎B事件

15、路由1事件路由p事件路由事件去重1事件去重q事件去重NoSQL負(fù)載均衡(可選)事件輸入事件輸出集群管理MQMQ事件分析規(guī)則1:n分析引擎實(shí)例n:1規(guī)則規(guī)則實(shí)例B1規(guī)則實(shí)例B2規(guī)則實(shí)例Bn規(guī)則實(shí)例B3普元CEP關(guān)鍵技術(shù)事件路由與去重多副本冗余增強(qiáng)可靠性分析引擎實(shí)例3實(shí)例4實(shí)例2普元CEP關(guān)鍵技術(shù)實(shí)例狀態(tài)復(fù)制接出層接入層實(shí)例1實(shí)例A1實(shí)例A2異常實(shí)例A3事件路由事件去重事件輸入事件輸出實(shí)例A4新增場(chǎng)景說(shuō)明實(shí)例A2異常實(shí)例A4新增ContextContextContextContext包括最終接收事件號(hào)狀態(tài)對(duì)象關(guān)鍵步驟1從A1或A3中選擇一個(gè)實(shí)例,如A3關(guān)鍵步驟2將A3工作暫停,獲得其Context

16、此時(shí)A1正常工作,A2已經(jīng)退出,A3暫停關(guān)鍵步驟3創(chuàng)建新的實(shí)例A4(未啟動(dòng)狀態(tài))將Context復(fù)制到A4中恢復(fù)A3的工作狀態(tài),啟動(dòng)A4關(guān)鍵點(diǎn)業(yè)務(wù)不中斷事件去重完成對(duì)重復(fù)事件的過(guò)濾可靠性取決于集群內(nèi)實(shí)例個(gè)數(shù)CCCD狀態(tài)數(shù)據(jù)遷移與備份JVM普元CEP關(guān)鍵技術(shù)規(guī)則實(shí)例水平遷移內(nèi)存規(guī)則數(shù)事件量JVM1分析引擎事件大小容量預(yù)估模型規(guī)則實(shí)例m事件*狀態(tài)*分布式集群管理框架規(guī)則實(shí)例n事件*狀態(tài)*規(guī)則實(shí)例x事件*狀態(tài)*NoSQL(MongoDB)JVM1規(guī)則實(shí)例m事件*狀態(tài)*規(guī)則實(shí)例x事件*狀態(tài)*JVM2規(guī)則實(shí)例x事件*狀態(tài)*運(yùn)行期實(shí)時(shí)監(jiān)控系統(tǒng)容量擴(kuò)展普元CEP關(guān)鍵技術(shù)基于OSGi的規(guī)則部署包規(guī)則庫(kù)目錄結(jié)構(gòu)

17、和導(dǎo)出規(guī)則部署包的目錄結(jié)構(gòu)一致,方便部署和下載CEP Engine規(guī)則庫(kù)的目錄結(jié)構(gòu)與console的規(guī)則庫(kù)目錄結(jié)構(gòu)區(qū)別在于web目錄。一個(gè)rule目錄作為一個(gè)OSGi的bundlerulesJava packageclassesrule1.ruleepseps1.epslib3rd1.jarAction1.classExtFunc.classrule1eventSourceevent1.eventevent2.eventwebform1.jsprule2Listener1.classMETA-INFMANIFEST.MFextextconfig1OSGi Bundle規(guī)則庫(kù)/部署包規(guī)則模板熱部

18、署普元CEP 1.5平臺(tái)(主機(jī)管理)普元CEP 1.5平臺(tái)(集群管理)普元CEP 1.5平臺(tái)(實(shí)例管理)普元CEP 1.5平臺(tái)(規(guī)則模板管理)普元CEP 1.5平臺(tái)(規(guī)則實(shí)例管理)普元CEP 1.5平臺(tái)(狀態(tài)監(jiān)控)普元CEP 1.5平臺(tái)(規(guī)則模板元數(shù)據(jù))普元CEP 1.5平臺(tái)(規(guī)則實(shí)例業(yè)務(wù)參數(shù)配置)普元CEP 1.5平臺(tái)(規(guī)則包)目錄 概述 即席查詢 批量處理 流式計(jì)算 Primeton CEP StormStorm基本概念StreamSpoutBoltStreaming GroupingTaskWork消息流,一個(gè)無(wú)盡的Tuple序列。Topology規(guī)則拓?fù)洌啥鄠€(gè)Spout和Bolt組成

19、。消息發(fā)送器,區(qū)分可靠與不可靠。消息處理器,業(yè)務(wù)邏輯載體,多入多出。消息分組方式,數(shù)據(jù)進(jìn)入Blot的策略。工作任務(wù),可以是Spout或Blot。工作進(jìn)程,當(dāng)JVM且執(zhí)行Topology的一部分。Storm集群組件主控節(jié)點(diǎn)運(yùn)行一個(gè)被稱為Nimbus的后臺(tái)程序,它負(fù)責(zé)在Storm集群內(nèi)分發(fā)代碼,分配任務(wù)給工作機(jī)器,并且負(fù)責(zé)監(jiān)控集群運(yùn)行狀態(tài)。工作節(jié)點(diǎn)運(yùn)行一個(gè)被稱為Supervisor的后臺(tái)程序。Supervisor負(fù)責(zé)監(jiān)聽(tīng)從Nimbus分配給它執(zhí)行的任務(wù),并啟動(dòng)或停止執(zhí)行任務(wù)的工作進(jìn)程(Worker)。每一個(gè)工作進(jìn)程(Worker)執(zhí)行一個(gè)Topology的子集。Nimbus和Supervisor節(jié)點(diǎn)之間所有的協(xié)調(diào)工作是通過(guò)Zookeeper集群來(lái)實(shí)現(xiàn)的。此外,Nimbus和Supervisor進(jìn)程都是無(wú)狀態(tài)的。節(jié)點(diǎn)間信令Zo

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論