分布式實(shí)時(shí)(流)計(jì)算框架_第1頁(yè)
分布式實(shí)時(shí)(流)計(jì)算框架_第2頁(yè)
分布式實(shí)時(shí)(流)計(jì)算框架_第3頁(yè)
分布式實(shí)時(shí)(流)計(jì)算框架_第4頁(yè)
分布式實(shí)時(shí)(流)計(jì)算框架_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

分布式實(shí)時(shí)(流)計(jì)算框架系統(tǒng)部(SE)--賀先智2014-01-15數(shù)據(jù)分析系統(tǒng)整體架構(gòu)引入實(shí)時(shí)計(jì)算的背景Hadoop的高吞吐,海量數(shù)據(jù)處理的能力使得人們可以方便地處理海量數(shù)據(jù)。但是,Hadoop的缺點(diǎn)也和它的優(yōu)點(diǎn)同樣鮮明-----延遲大,響應(yīng)緩慢,運(yùn)維復(fù)雜。hadoop主要的使用場(chǎng)景在于離線系統(tǒng),現(xiàn)實(shí)生活中,一些場(chǎng)景是不允許那么長(zhǎng)時(shí)間的延遲時(shí)間,都需要實(shí)時(shí)數(shù)據(jù)展示的,顯而易見(jiàn),hadoop是無(wú)法滿足這種場(chǎng)景下的要求的。Storm是實(shí)時(shí)計(jì)算(流)計(jì)算的典型代表,2011年,Twitter開(kāi)源了Storm,為上述問(wèn)題提供了良好的解決方案。Storm關(guān)注的是數(shù)據(jù)多次處理一次寫(xiě)入,而hadoop關(guān)注的是數(shù)據(jù)一次寫(xiě)入,多次處理使用(查詢)。Storm系統(tǒng)運(yùn)行起來(lái)后是持續(xù)不斷的,而hadoop往往只是在業(yè)務(wù)需要時(shí)調(diào)用數(shù)據(jù)。

兩者關(guān)注及應(yīng)用的方向不一樣。Storm架構(gòu)及組件Topology:storm中運(yùn)行的一個(gè)實(shí)時(shí)應(yīng)用程序.Nimbus:負(fù)責(zé)資源分配和任務(wù)調(diào)度.Supervisor:負(fù)責(zé)接受nimbus分配的任務(wù),啟動(dòng)和停止屬于自己管理的worker進(jìn)程.Worker:運(yùn)行具體處理組件邏輯的進(jìn)程.Task:worker中每一個(gè)spout/bolt的線程稱為一個(gè)task.Spout:在一個(gè)topology中產(chǎn)生源數(shù)據(jù)流的組件.Bolt:在一個(gè)topology中接受數(shù)據(jù)然后執(zhí)行處理的組件.Tuple:一次消息傳遞的基本單元.Streamgrouping:消息的分組方法Storm和Hadoop角色對(duì)比Storm和Hadoop角色對(duì)比Storm集群和Hadoop集群表面上看很類似。但是Hadoop上運(yùn)行的是MapReducejobs,而在Storm上運(yùn)行的是拓?fù)洌╰opology),這兩者之間是非常不一樣的。一個(gè)關(guān)鍵的區(qū)別是:一個(gè)MapReducejob最終會(huì)結(jié)束,而一個(gè)topology永遠(yuǎn)會(huì)運(yùn)行(除非你手動(dòng)kill掉)。在Storm的集群里面有兩種節(jié)點(diǎn):控制節(jié)點(diǎn)(masternode)和工作節(jié)點(diǎn)(workernode)??刂乒?jié)點(diǎn)上面運(yùn)行一個(gè)叫Nimbus后臺(tái)程序,它的作用類似Hadoop里面的JobTracker。Nimbus負(fù)責(zé)在集群里面分發(fā)代碼,分配計(jì)算任務(wù)給機(jī)器,并且監(jiān)控狀態(tài)。每一個(gè)工作節(jié)點(diǎn)上面運(yùn)行一個(gè)叫做Supervisor的節(jié)點(diǎn)。Supervisor會(huì)監(jiān)聽(tīng)分配給它那臺(tái)機(jī)器的工作,根據(jù)需要啟動(dòng)/關(guān)閉工作進(jìn)程。每一個(gè)工作進(jìn)程執(zhí)行一個(gè)topology的一個(gè)子集;一個(gè)運(yùn)行的topology由運(yùn)行在很多機(jī)器上的很多工作進(jìn)程組成。Storm實(shí)時(shí)計(jì)算系統(tǒng)架構(gòu)整個(gè)數(shù)據(jù)處理流程包括四部分:第一部分是數(shù)據(jù)接入層,該部分從前端業(yè)務(wù)系統(tǒng)獲取數(shù)據(jù);第二部分是最重要的storm實(shí)時(shí)處理部分,數(shù)據(jù)從接入層接入,經(jīng)過(guò)實(shí)時(shí)處理后傳入數(shù)據(jù)落地層;第三部分為數(shù)據(jù)落地層,該部分指定了數(shù)據(jù)的落地方式;第四部分元數(shù)據(jù)管理器。RDMSStorm實(shí)時(shí)計(jì)算業(yè)務(wù)接口將用戶的業(yè)務(wù)層需求轉(zhuǎn)換為實(shí)時(shí)處理的具體模式。例如模仿Hive提供一個(gè)類Sql的業(yè)務(wù)接口,我們將一類數(shù)據(jù)在元數(shù)據(jù)管理器中描述是一個(gè)表,不同字段是表中不同字段select----固定數(shù)據(jù)查詢(異?;蛘吲K數(shù)據(jù)處理),max/min/avg----最大最小值count/sum----求和或次數(shù)統(tǒng)計(jì)(比如pv等)count(distinct)----去重計(jì)數(shù)(典型的如UV)orderby----排序(取近訪問(wèn)的用戶)groupby----聚類函數(shù)orderby----聚類后排序(如訪問(wèn)次數(shù)最多的topN商品)這只是簡(jiǎn)單類比,我們可以將實(shí)時(shí)處理的業(yè)務(wù)需求轉(zhuǎn)化為Sql相關(guān)語(yǔ)句,上層執(zhí)行類Sql語(yǔ)句,底層將其翻譯成具體Topology組成及節(jié)點(diǎn)參數(shù)等。Storm實(shí)時(shí)計(jì)算具體業(yè)務(wù)需求(1)條件過(guò)濾這是Storm最基本的處理方式,對(duì)符合條件的數(shù)據(jù)進(jìn)行實(shí)時(shí)過(guò)濾,將符合條件的數(shù)據(jù)保存下來(lái),這種實(shí)時(shí)查詢的業(yè)務(wù)需求在實(shí)際應(yīng)用中是很常見(jiàn)的。(2)中間計(jì)算我們需要改變數(shù)據(jù)中某一個(gè)字段(例如是數(shù)值),我們需要利用一個(gè)中間值經(jīng)過(guò)計(jì)算(值比較、求和、求平均等等)后改變?cè)撝?,然后將?shù)據(jù)重新輸出。(3)求TopN相信大家對(duì)TopN類的業(yè)務(wù)需求也是比較熟悉的,在規(guī)定時(shí)間窗口內(nèi),統(tǒng)計(jì)數(shù)據(jù)出現(xiàn)的TopN,該類處理在購(gòu)物及電商業(yè)務(wù)需求中,比較常見(jiàn)。(4)推薦系統(tǒng)正如我架構(gòu)圖中畫(huà)的那樣,有時(shí)候在實(shí)時(shí)處理時(shí)會(huì)從mysql及hadoop中獲取數(shù)據(jù)庫(kù)中的信息,例如在電影推薦系統(tǒng)中,傳入數(shù)據(jù)為用戶當(dāng)前點(diǎn)播電影信息,從數(shù)據(jù)庫(kù)中獲取的是該用戶之前的一些點(diǎn)播電影信息統(tǒng)計(jì),例如點(diǎn)播最多的電影類型、最近點(diǎn)播的電影類型,及其社交關(guān)系中點(diǎn)播信息,結(jié)合本次點(diǎn)擊及從數(shù)據(jù)庫(kù)中獲取的信息,生成一條推薦數(shù)據(jù),推薦給該用戶。并且該次點(diǎn)擊記錄將會(huì)更新其數(shù)據(jù)庫(kù)中的參考信息,這樣就是實(shí)現(xiàn)了簡(jiǎn)單的智能推薦。Storm實(shí)時(shí)計(jì)算具體業(yè)務(wù)需求(5)分布式RPCStorm有對(duì)RPC進(jìn)行專門(mén)的設(shè)計(jì),分布式RPC用于對(duì)Storm上大量的函數(shù)調(diào)用進(jìn)行并行計(jì)算,最后將結(jié)果返回給客戶端。(這部分我也不是很懂)(6)批處理所謂批處理就是數(shù)據(jù)攢積到一定觸發(fā)條件,就批量輸出,所謂的觸發(fā)條件類似時(shí)間窗口到了,統(tǒng)計(jì)數(shù)量夠了及檢測(cè)到某種數(shù)據(jù)傳入等等。(7)熱度統(tǒng)計(jì)熱度統(tǒng)計(jì)實(shí)現(xiàn)依賴于TimeCacheMap數(shù)據(jù)結(jié)構(gòu),該結(jié)構(gòu)能夠在內(nèi)存中保存近期活躍的對(duì)象。我們可以使用它來(lái)實(shí)現(xiàn)例如論壇中的熱帖排行計(jì)算等。Storm只是實(shí)時(shí)計(jì)算的解決方案之一,后面我們介紹一款與實(shí)時(shí)計(jì)算相關(guān)的產(chǎn)品,并且NotOnly實(shí)時(shí)計(jì)算,那就是MediationZone。MediationZone系統(tǒng)架構(gòu)配置層包括每個(gè)服務(wù)供應(yīng)商的具體要求相關(guān)的所有配置。應(yīng)用層提供的所有功能,可用于工作流配置。這包括關(guān)閉的,現(xiàn)成的代理商,以及自定義應(yīng)用程序和使用的開(kāi)發(fā)工具包開(kāi)發(fā)的插件??刂茀^(qū)包含所有的核心服務(wù),為工作流提供運(yùn)行時(shí)環(huán)境。開(kāi)發(fā)工具包,包括一套標(biāo)準(zhǔn)化的API,可用于擴(kuò)展平臺(tái)。MZ100%在Java下環(huán)境下開(kāi)發(fā)和Java運(yùn)行時(shí)環(huán)境的要求。MZ可以部署在兩個(gè)數(shù)據(jù)庫(kù)架構(gòu),Oracle標(biāo)準(zhǔn)版或嵌入式替代。MZ可以部署在廣泛的硬件平臺(tái)和操作系統(tǒng),從高端服務(wù)器架構(gòu)到一般商品硬件。MediationZone--集中控制,分布執(zhí)行MZ采用集中控制邏輯和分布式執(zhí)行,這樣可以解決垂直(硬件插槽有限)和水平架構(gòu)(數(shù)據(jù)一致性)的兩個(gè)主要問(wèn)題領(lǐng)域所帶來(lái)的問(wèn)題。MediationZone--實(shí)時(shí)在線,主/備部署當(dāng)用戶協(xié)議支持失效備援時(shí),可以一起部署平均恢復(fù)時(shí)間和客戶設(shè)備失效備援時(shí)間一致對(duì)用戶體驗(yàn)的影響取決于傳輸層的處理能力MediationZone--集中控制,分布執(zhí)行通過(guò)負(fù)載均衡網(wǎng)絡(luò)硬件,或者大數(shù)據(jù)采集清分平臺(tái)的代理工作流方式實(shí)現(xiàn)負(fù)載均衡MediationZone—批處理工作流MZ工作流有三種不同的類型:批處理工作流程,實(shí)時(shí)工作流程,任務(wù)工作流程。批處理工作流程是用來(lái)收集處理和分發(fā)基于文件的數(shù)據(jù),也被稱為離線模式。這些工作流程可配置為多線程執(zhí)行先進(jìn)先出的處理順序和嚴(yán)格的交易邊界基于每個(gè)批處理MediationZone—實(shí)時(shí)工作流實(shí)時(shí)工作流使請(qǐng)求/回答與其他系統(tǒng)的在線處理。這些工作流程,能獨(dú)立執(zhí)行路徑,同時(shí)利用多線程執(zhí)行模型大量的執(zhí)行。MediationZone—任務(wù)工作流任務(wù)工作流用來(lái)執(zhí)行一般的活動(dòng),如清理(ETL)或維護(hù)任務(wù)。一些系統(tǒng)的任務(wù)是預(yù)先在MZ中,可補(bǔ)充任何用戶定義的活動(dòng)。shell腳本和SQL腳本可以通過(guò)工作流執(zhí)行計(jì)劃和任務(wù)。MediationZone—工作流開(kāi)發(fā)管理工作流開(kāi)發(fā)簡(jiǎn)單快捷,采用手工拖拽設(shè)計(jì)流程,二次開(kāi)發(fā)基于JAVA、SQL、Shell等環(huán)境。支持全流程的工作流管理、監(jiān)控及維護(hù)。同時(shí)支持工作流分組管理,根據(jù)時(shí)間模型設(shè)計(jì)出多個(gè)協(xié)同高效工種的工種流組。MZ案例介01—KPI計(jì)算從海量基站文件中,找出覆蓋高鐵的所有基站只對(duì)“高鐵小區(qū)”的記錄進(jìn)行處理,按照省、市、小區(qū)id的方式進(jìn)行匯總匯總完畢后計(jì)算KPI現(xiàn)有解決辦法,各省分別處理,然后將結(jié)果傳到總部再進(jìn)行處理使用MZ之后,直接放到總部進(jìn)行處理,效率提高非常大MZ案例介02—GN平臺(tái)采集從2個(gè)GN平臺(tái)采集Gn原始數(shù)據(jù),將原始數(shù)據(jù)的文檔合并,上限為50個(gè)文檔。每個(gè)文檔的大小約為200MB,合并后的文檔上限為10GB。合并后的文檔上傳至HDFS平臺(tái)。上傳的HDFS目錄分別是/tmp/gn/1和/tmp/gn/2,再根據(jù)上傳的時(shí)間點(diǎn)建立新的目錄.用戶利用MZ采集到HDFS上的數(shù)據(jù)庫(kù)進(jìn)行準(zhǔn)實(shí)時(shí)數(shù)據(jù)分析MZ案例介03—統(tǒng)計(jì)邊界漫游小區(qū)用戶需求:從大量的話單記錄中,統(tǒng)計(jì)出在邊界漫游小區(qū)使用的IMSI,為決策分析提供依據(jù)。數(shù)據(jù)量:每月處理一次,每次21億條記錄(7000萬(wàn)/天*30天)處理速度要求:每月10之前完成處理,對(duì)機(jī)器負(fù)載要求不能太高,處理時(shí)間可以長(zhǎng)一點(diǎn)。硬件配置:SunE4900,CPU:8核,內(nèi)存:32G每月1日,操作員手工將字典表數(shù)據(jù)以csv格式導(dǎo)出,存放在IF1指定的目錄中;每月1日,操作員手工將原始數(shù)據(jù)從informix數(shù)據(jù)庫(kù)中以csv格式導(dǎo)出,存放在IF1接口指定的目錄中;每月2日,工作流1自動(dòng)啟動(dòng),將字典表數(shù)據(jù)插入到一個(gè)臨時(shí)的Oracle數(shù)據(jù)庫(kù)中。然后再將Oracle數(shù)據(jù)庫(kù)讀入到內(nèi)存,生成一個(gè)內(nèi)存數(shù)據(jù)庫(kù)。同時(shí)將字典表原始數(shù)據(jù)保存在磁盤(pán)上(IF4接口);工作流1完成之后,工作流流2自動(dòng)啟動(dòng),讀取原始輸入數(shù)據(jù),從內(nèi)存數(shù)據(jù)庫(kù)中查詢,最后生成結(jié)果;最后結(jié)果從存放在IF3指定的目錄中,同時(shí)原始數(shù)據(jù)將通過(guò)IF4壓縮保存在磁盤(pán)上;字典表數(shù)據(jù)和原始輸入數(shù)據(jù)壓縮并按照時(shí)間操作員手工將其導(dǎo)入正式的informix數(shù)據(jù)庫(kù)(注:定期刪除IF4接口指定文件夾下的備份文件)MZ案例介04—GPRS數(shù)據(jù)采集、匯總分析用戶需求MZ案例介04—GPRS數(shù)據(jù)處理MZ環(huán)境MZ案例介04—GPRS數(shù)據(jù)處理GPRS文件解析劃分流程每秒處理的數(shù)據(jù)量MZ案例介04—GPRS數(shù)據(jù)處理GPRS和IMEI數(shù)據(jù)關(guān)聯(lián)匯總處理流程每秒處理的數(shù)據(jù)量MZ案例介04—GPRS數(shù)據(jù)處理MediationZone處理解析增加並發(fā)流程可提高數(shù)據(jù)處理性能GPRS文檔解析可達(dá)至每秒處理大約16萬(wàn)條數(shù)據(jù)的性能GPRS和IMEI數(shù)據(jù)關(guān)聯(lián),匯總處理可達(dá)至每秒處理大約7千條數(shù)據(jù)的性能無(wú)需高性能硬件(eg.IBMx3755M3),普通硬件也可達(dá)到高性能GPRS文檔解析GPRS和IMEI數(shù)據(jù)關(guān)聯(lián),匯總處理VMware-1路4核-

16GB每小時(shí)處理5.7億數(shù)據(jù)每小時(shí)處理2520萬(wàn)數(shù)據(jù)IBMx3755M3-2.1GHz4路12核-

128GB每小時(shí)處理19億數(shù)據(jù)每小時(shí)處理3600萬(wàn)數(shù)據(jù)MZ案例介04—GPRS數(shù)據(jù)處理MZ案例介04—GPRS數(shù)據(jù)處理MZ案例介04—GPRS數(shù)據(jù)處理MZ案例介04—GPRS數(shù)據(jù)處理負(fù)荷解析使用4核CPU,每個(gè)CPU的負(fù)荷量大致平均3個(gè)Java處理進(jìn)程+1個(gè)Java核心進(jìn)程共耗內(nèi)存13GB(虛擬機(jī)Vmware內(nèi)存為16GB)GPRS文檔解析處理的主要負(fù)荷在CPUGPRS和IMEI數(shù)據(jù)關(guān)聯(lián),匯總處理主要負(fù)荷在內(nèi)存MZ其他案例介MiddleEastAfricaEuropeAsiaPacificAmericasMZ與Storm的比較MZ為商業(yè)產(chǎn)品(需要購(gòu)買(mǎi))而后者為開(kāi)源產(chǎn)品(完全免費(fèi))我們不能對(duì)MZ自身產(chǎn)品進(jìn)行bug修復(fù)及新功能的開(kāi)發(fā),只能由原廠商進(jìn)行;而Storm可以根據(jù)自身需要進(jìn)行進(jìn)行bug修復(fù)及新功能的開(kāi)發(fā)。MZ集成電信設(shè)備廠商協(xié)議(支持InterfacedElementName—接口元素371種)和數(shù)據(jù)庫(kù)標(biāo)準(zhǔn),Storm需要進(jìn)行單獨(dú)開(kāi)發(fā)。MZ為商業(yè)化成熟產(chǎn)品,在很多大公司都有集成應(yīng)用,包括(IBM、SAP、諾西等);而Storm為開(kāi)源產(chǎn)品,互聯(lián)網(wǎng)公司(Twitter、淘寶(自己開(kāi)發(fā)的Jstorm))在使用,但電信級(jí)應(yīng)用還不夠廣泛。MZ提供商業(yè)化產(chǎn)品的服務(wù)體系,Storm需要自身建立強(qiáng)大的技術(shù)隊(duì)伍進(jìn)行應(yīng)用開(kāi)發(fā)、性能優(yōu)化、技術(shù)維護(hù)、技術(shù)整合。MZ穩(wěn)定性取決于產(chǎn)品的成熟度,MZ發(fā)展到現(xiàn)在10多年了,有著廣泛的電信級(jí)應(yīng)用;而Sto

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論