版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、大數據分析關鍵技術TEST第1頁,共40頁。概述即席查詢批量處理流式計算第2頁,共40頁。大數據計算分析模式分類即席查詢Ad-Hoc Query批量處理Batch ProcessingMap/Reduce流式計算Stream Computing數據承載響應時間適用場景磁盤秒級(準實時)自然人交互式經營分析磁盤分鐘級至小時級(準實時)事前/事后大批量數據處理內存(事件窗口非全量數據)秒級(實時)實時事件分析實時風險干預針對不同的業(yè)務領域,需要采用不同的數據計算分析方式,快速發(fā)現數據價值。第3頁,共40頁。即席查詢即席查詢(Ad Hoc)是用戶根據自己的需求,靈活的選擇查詢條件,系統(tǒng)能夠根據用戶的
2、選擇生成相應的統(tǒng)計報表。即席查詢與普通應用查詢最大的不同是普通的應用查詢是定制開發(fā)的,而即席查詢是用戶自定義查詢條件。即席查詢StorageDistribute File SystemColumn DatabaseResource ManagementParallelCompute FrameworkSQL Syntax+ Compute FrameworkSQL SyntaxMetaDataBatch ProcessingAd-Hoc Query實時性:高第4頁,共40頁。批量處理StorageDistribute File SystemColumn DatabaseResource Man
3、agementParallelCompute FrameworkSQL Syntax+ Compute FrameworkSQL SyntaxMetaDataBatch ProcessingAd-Hoc QueryMapReduce是一種編程模型,用于大規(guī)模數據集的并行批量計算。概念Map和Reduce當前的主流實現是指定一個Map函數,用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce函數,用來保證所有映射的鍵值對中的每一個共享相同的鍵組。形成這種模型的原因是:數據的分布式存儲、計算資源的分布式、并行計算減少計算時長。批量處理實時性:低第5頁,共40頁。流式計算流數據的實時計算注重
4、對流數據的快速高效處理、計算和分析。其特點是計算過程數據不落地,所有數據在內存中完成。其計算模型是根據規(guī)則生成容器,當數據流經過容器時,實時產生分析結果。流式計算InputAdapterOutputAdapterEngine ClusterClusterManagementRule RepositoryNoSQL實時性:高第6頁,共40頁。概述即席查詢批量處理流式計算第7頁,共40頁。Impala NodeImpala架構ImpaladQuery PlannerQuery CoordinatorQuery Exec EngineCommon HiveQL & InterfaceMetaData
5、SQLJDBCHive MetaStoreHDFS NNState StoreImpaladQuery PlannerQuery CoordinatorQuery Exec EngineImpaladQuery PlannerQuery CoordinatorQuery Exec EngineDataHDFS DNHBaseDataHDFS DNHBaseDataHDFS DNHBaseImpala NodeImpala NodeLocal Direct ReadsThrift第8頁,共40頁。Hive架構DataHDFS DNTask TrackerJob TrackerName NodeH
6、adoopHive (Over Hadoop 0.20.X)SQLJDBCWUIThrift ServerDriver(Compiler, Optimizer, Executor)Meta StoreThriftServer:JDBC通過ThriftServer連接到Hive。ThriftServer連接MetaStore來讀取hive的元數據信息。MetaStore:在關系型數據庫中存放表/分區(qū)/列元數據,可以低延遲的快速的訪問到需要的元數據信息。Driver/QueryCompiler/ExecutionEngine:客戶端提交的HiveSQL首先進入Driver,然后Driver會為此次
7、HiveSQL的執(zhí)行創(chuàng)建一個Session,Driver維護整個session的生命周期。Driver首先將HiveSQL傳送給QueryCompiler,然后由QueryCompiler來對用戶提交的HiveSQL進行編譯/檢查/優(yōu)化并最終生成MapReduce任務。ExecutionEngine會與Hadoop進行交互,將 MapReduce任務交給Hadoop來執(zhí)行,并從Hadoop取得最終的執(zhí)行結果,并返回給用戶。解析HiveSQL之后生成所MapReduce任務,在運行中訪問元數據信息時,將直接讀取生成的物理計劃時產生的plan.xml,此文件會被放入Hadoop的分布式緩存中,Ma
8、pReduce任務可以從分布式緩存中獲得相應的元數據。第9頁,共40頁。Impala相對于Hive的優(yōu)勢Impala不需要把中間結果寫入磁盤,省掉了大量的I/O開銷。省掉了MapReduce作業(yè)啟動的開銷。MapReduce啟動task的速度很慢(默認每個心跳間隔是3秒鐘),Impala直接通過相應的服務進程來進行作業(yè)調度,速度快了很多。 Impala借鑒了MPP并行數據庫的思想,可以做更多的查詢優(yōu)化,從而省掉不必要的shuffle、sort等開銷。使用了支持Data locality的I/O調度機制,盡可能地將數據和計算分配在同一臺機器上進行,減少了網絡開銷。用C+實現,做了很多有針對性的硬
9、件優(yōu)化。對外提供多語言API、多種訪問協(xié)議。中間結果作業(yè)調度作業(yè)分發(fā)數據訪問代碼實現第10頁,共40頁。概述即席查詢批量處理流式計算第11頁,共40頁。MapReduce v0.23.x (YARN)Node ManagerContainerApp MasterNode ManagerContainerApp MasterNode ManagerContainerResource ManagerClientClientJob SubmissionContainerMapReduce StatusResource RequestNode Status從 0.23.0 版本開始,Hadoop 的
10、MapReduce 框架完全重構。新的 Hadoop MapReduce 框架命名為 MapReduceV2YARN第12頁,共40頁。概述即席查詢批量處理流式計算Primeton CEPStorm第13頁,共40頁。流數據處理技術 對比 傳統(tǒng)規(guī)則引擎(概念)維度流數據處理技術傳統(tǒng)規(guī)則引擎處理方式“窗口模式”多維關聯(lián)分析基于對屬性的判斷處理模型富狀態(tài)無狀態(tài)異常處理內存狀態(tài)數據的自動化恢復服務無狀態(tài),數據重跑簡單舉例每種硬幣各有多少個對硬幣進行分類按時間區(qū)間、按長度區(qū)間、按時間與長度混合區(qū)間、按特有屬性值等規(guī)則所建立起的對象集合,存放在內存中。若動畫中,再對已分類的硬幣進行自動打包,有兩種方式:
11、1. 判斷槽中的硬幣數量,觸發(fā)打包動作;2. 判斷槽中的硬幣重量,觸發(fā)打包動作;窗口模式如動畫中對硬幣的分揀動作:可以根據硬幣的物理屬性設計不同的判斷規(guī)則(軌道寬度,轉角等),完成分類。決策判斷第14頁,共40頁。普元CEP平臺架構事件采集層AgentAgentAgentAgent外部系統(tǒng)系統(tǒng)A系統(tǒng)B系統(tǒng)C系統(tǒng)D接入層Input Cluster 1n分析引擎平臺結果執(zhí)行層規(guī)則庫分析引擎OSGi Based分析引擎OSGi Based接入層Output Cluster 1n分析規(guī)則開發(fā)(離線開發(fā))規(guī)則開發(fā)IDE(Eclipse Based)ActionActionActionAction應用門戶
12、(功能松耦合)管理門戶(規(guī)則模板生命周期管理)運維門戶(引擎監(jiān)控、全局配置、自動化部署)業(yè)務門戶(規(guī)則實例業(yè)務參數配置)分析集群運行環(huán)境管理控制環(huán)境第15頁,共40頁。普元CEP平臺特色基于云計算PaaS架構分布式集群管控框架系統(tǒng)級物理主機/虛擬機管理進程級服務實例管理集群配置分析規(guī)則熱更新/熱部署與虛擬機鏡像結合分析服務快速部署與規(guī)則庫結合規(guī)則插件快速部署集群通知渠道規(guī)則實例快速應用自動化、圖形化運維事件分析平臺面向數據流基于內存內存狀態(tài)數據遷移冷熱數據分離與恢復集群規(guī)模水平伸縮事件動態(tài)路由分析規(guī)則開發(fā)、管理與應用規(guī)則模板開發(fā)IDE事件元數據類SQL規(guī)則語言Action元數據Web規(guī)則實例配
13、置與熱部署Web規(guī)則模板管理第16頁,共40頁。分布式集群管控框架Any OS持久化集群AMQP MQ 集群ZooKeeper 集群Web 控制臺 (無狀態(tài), 多實例)負載均衡 (Session Sticky)物理/邏輯拓撲規(guī)則模板模板狀態(tài)規(guī)則實例監(jiān)控業(yè)務進程(過濾/聚合)(Support ZKClient)ZK ClientOS (Support NodeJS)監(jiān)控業(yè)務進程(過濾/聚合)(unSupport ZKClient)Process Daemon(NodeJS+ZKClient)OS (unSupport NodeJS)監(jiān)控業(yè)務進程(過濾/聚合)(unSupport ZKClient
14、)Process Daemon(Java+ZKClient)OS Agent(NodeJS+ZKClient+MQClient)OS Agent(NodeJS+ZKClient+MQClient)OS Agent(Java+ZKClient+MQClient)管控服務ZK客戶端DB客戶端MQ客戶端第17頁,共40頁。規(guī)則部署與配置場景運維人員Repository業(yè)務Console業(yè)務人員DBCEPEngine1CEPEngine2CEPEngine3ZooKeeper3. 下載規(guī)則的表單頁面2. 保存規(guī)則到倉庫運維Console4. 規(guī)則參數配置5. 保存規(guī)則參數配置6. 保存規(guī)則參數配置到Z
15、ooKeeperengine1Rule1Rule2Rule3engine2Rule4engines7. 通知Engine1. 上傳規(guī)則部署包8. 下載規(guī)則2. 保存規(guī)則信息到DB第18頁,共40頁。接出層分析引擎接入層分析引擎A規(guī)則實例A1規(guī)則實例A2規(guī)則實例An規(guī)則實例A3分析引擎B事件路由1事件路由p事件路由事件去重1事件去重q事件去重NoSQL負載均衡(可選)事件輸入事件輸出集群管理MQMQ事件分析規(guī)則1:n分析引擎實例n:1規(guī)則規(guī)則實例B1規(guī)則實例B2規(guī)則實例Bn規(guī)則實例B3普元CEP關鍵技術事件路由與去重多副本冗余增強可靠性第19頁,共40頁。分析引擎實例3實例4實例2普元CEP關鍵
16、技術實例狀態(tài)復制接出層接入層實例1實例A1實例A2異常實例A3事件路由事件去重事件輸入事件輸出實例A4新增場景說明實例A2異常實例A4新增ContextContextContextContext包括最終接收事件號狀態(tài)對象關鍵步驟1從A1或A3中選擇一個實例,如A3關鍵步驟2將A3工作暫停,獲得其Context此時A1正常工作,A2已經退出,A3暫停關鍵步驟3創(chuàng)建新的實例A4(未啟動狀態(tài))將Context復制到A4中恢復A3的工作狀態(tài),啟動A4關鍵點業(yè)務不中斷事件去重完成對重復事件的過濾可靠性取決于集群內實例個數CCCD狀態(tài)數據遷移與備份第20頁,共40頁。JVM普元CEP關鍵技術規(guī)則實例水平遷
17、移內存規(guī)則數事件量JVM1分析引擎事件大小容量預估模型規(guī)則實例m事件*狀態(tài)*分布式集群管理框架規(guī)則實例n事件*狀態(tài)*規(guī)則實例x事件*狀態(tài)*NoSQL(MongoDB)JVM1規(guī)則實例m事件*狀態(tài)*規(guī)則實例x事件*狀態(tài)*JVM2規(guī)則實例x事件*狀態(tài)*運行期實時監(jiān)控系統(tǒng)容量擴展第21頁,共40頁。普元CEP關鍵技術基于OSGi的規(guī)則部署包規(guī)則庫目錄結構和導出規(guī)則部署包的目錄結構一致,方便部署和下載CEP Engine規(guī)則庫的目錄結構與console的規(guī)則庫目錄結構區(qū)別在于web目錄。一個rule目錄作為一個OSGi的bundlerulesJava packageclassesrule1.rulee
18、pseps1.epslib3rd1.jarAction1.classExtFunc.classrule1eventSourceevent1.eventevent2.eventwebform1.jsprule2Listener1.classMETA-INFMANIFEST.MFextextconfig1OSGi Bundle規(guī)則庫/部署包規(guī)則模板熱部署第22頁,共40頁。普元CEP 1.5平臺(主機管理)第23頁,共40頁。普元CEP 1.5平臺(集群管理)第24頁,共40頁。普元CEP 1.5平臺(實例管理)第25頁,共40頁。普元CEP 1.5平臺(規(guī)則模板管理)第26頁,共40頁。普元CE
19、P 1.5平臺(規(guī)則實例管理)第27頁,共40頁。普元CEP 1.5平臺(狀態(tài)監(jiān)控)第28頁,共40頁。普元CEP 1.5平臺(規(guī)則模板元數據)第29頁,共40頁。普元CEP 1.5平臺(規(guī)則實例業(yè)務參數配置)第30頁,共40頁。普元CEP 1.5平臺(規(guī)則包)第31頁,共40頁。概述即席查詢批量處理流式計算Primeton CEPStorm第32頁,共40頁。Storm基本概念StreamSpoutBoltStreaming GroupingTaskWork消息流,一個無盡的Tuple序列。Topology規(guī)則拓撲,由多個Spout和Bolt組成。消息發(fā)送器,區(qū)分可靠與不可靠。消息處理器,業(yè)
20、務邏輯載體,多入多出。消息分組方式,數據進入Blot的策略。工作任務,可以是Spout或Blot。工作進程,當JVM且執(zhí)行Topology的一部分。第33頁,共40頁。Storm集群組件主控節(jié)點運行一個被稱為Nimbus的后臺程序,它負責在Storm集群內分發(fā)代碼,分配任務給工作機器,并且負責監(jiān)控集群運行狀態(tài)。工作節(jié)點運行一個被稱為Supervisor的后臺程序。Supervisor負責監(jiān)聽從Nimbus分配給它執(zhí)行的任務,并啟動或停止執(zhí)行任務的工作進程(Worker)。每一個工作進程(Worker)執(zhí)行一個Topology的子集。Nimbus和Supervisor節(jié)點之間所有的協(xié)調工作是通過
21、Zookeeper集群來實現的。此外,Nimbus和Supervisor進程都是無狀態(tài)的。節(jié)點間信令ZooKeeper用ZeroMQ作為底層消息隊列, 使消息能快速被處理。數據傳遞ZeroMQ第34頁,共40頁。Storm可靠性原則保證每個Tuple被Topology完整執(zhí)行。每個Tuple經過Spout/Blot后,形成一個消息樹。消息樹Emit通知新Tuple生成, Ack通知Tuple處理完畢。生命周期超時每個Tuple都包含一個超時時間,超時后會進行重發(fā)。消息樹跟蹤對Topology中每個Tuple的唯一ID進行異或計算。每個Blot/Spout作為單獨進程,內部包含狀態(tài)數據。進程的異
22、常退出將導致數據丟失。問題第35頁,共40頁。Storm 對比 Hadoop MRHadoop MRStorm主控節(jié)點JobTrackerNimbus工作節(jié)點TaskTrackerSupervisor工作容器ChildWorker規(guī)則JobTopology原語Map/ReduceSpout/Blot開發(fā)方式Java, etc. CodingJava, etc. Coding面向領域事前/事后分析事中準實時分析第36頁,共40頁。Storm 對比 普元CEP普元CEPStorm開發(fā)語言與環(huán)境EPL/Java,Eclipse IDEJava工作模式單節(jié)點、多節(jié)點級聯(lián)分布式高可用方案多副本冗余+消息連續(xù)性保障消息樹跟蹤開發(fā)場景類SQL EPL開發(fā)數據源定義業(yè)務表單設計規(guī)則部署包導出精通Java開發(fā)人員的業(yè)務人員運維場景規(guī)則多版本管理OSGi代碼熱部署進程級、VM級資源池管理無業(yè)務參數配置Web圖形化表單熱更新命令行參數傳遞無
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 太陽風暴影響預測-洞察分析
- 微生物群落與呼吸系統(tǒng)疾病關聯(lián)-洞察分析
- 微生物發(fā)酵化妝品-洞察分析
- 物聯(lián)網在農業(yè)信息化中的應用-洞察分析
- 升旗儀式關于國慶的講話稿(7篇)
- 土地價值評估與可持續(xù)發(fā)展-洞察分析
- 應用心理研究方法比較研究-洞察分析
- 網絡直播營銷研究-洞察分析
- 醫(yī)生副高職稱評審個人工作總結范文(7篇)
- 用戶參與度與忠誠度提升-洞察分析
- 國開汽車學院《項目管理》形考作業(yè)1-4答案
- 2021-2022學年第二學期《大學生職業(yè)發(fā)展與就業(yè)指導2》學習通超星期末考試答案章節(jié)答案2024年
- 歌唱語音智慧樹知到期末考試答案章節(jié)答案2024年齊魯師范學院
- 健康膳食解碼智慧樹知到期末考試答案章節(jié)答案2024年佳木斯大學
- 《中國心力衰竭診斷和治療指南2024》解讀
- 2023年肝糖原的提取鑒定與定量實驗報告
- 土方碾壓試驗施工方案1
- 2_電壓降計算表(10kV及以下線路)
- 主要原材料價格趨勢分析圖
- 10kV無功補償裝置安裝施工技術措施要點
- 公共衛(wèi)生導論復習資料
評論
0/150
提交評論