海量數(shù)據(jù)搬運(yùn)工-DataStream課件_第1頁
海量數(shù)據(jù)搬運(yùn)工-DataStream課件_第2頁
海量數(shù)據(jù)搬運(yùn)工-DataStream課件_第3頁
海量數(shù)據(jù)搬運(yùn)工-DataStream課件_第4頁
海量數(shù)據(jù)搬運(yùn)工-DataStream課件_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、海量數(shù)據(jù)搬運(yùn)工 Datastream大綱Datastream 產(chǎn)生的原因Datastream 的結(jié)構(gòu)和特征Datastream 關(guān)鍵技術(shù)點(diǎn)分享Datastream 應(yīng)用場景Datastream 未來展望場景 1 BI , xx 應(yīng)用想做下日志的統(tǒng)計(jì)分析,收集一下吧場景 2 線上的服務(wù)器日志做下分析吧,可能有DDOS場景 3 要拿數(shù)據(jù)庫增量數(shù)據(jù),建索引、反攻擊、做分析,寫點(diǎn)程序吧怎么辦呢 問題 : 每個產(chǎn)品數(shù)據(jù)都不相同,不同部門代碼復(fù)用率低 后果: BI 、反垃圾、搜索引擎的同學(xué)都要瘋了 解決方案:我們搞個統(tǒng)一的收集數(shù)據(jù)的平臺吧Datastream 應(yīng)運(yùn)而生 我們不生產(chǎn)數(shù)據(jù),我們是數(shù)據(jù)的搬運(yùn) 工

2、大綱Datastream 產(chǎn)生的原因Datastream 的結(jié)構(gòu)和特征Datastream 關(guān)鍵技術(shù)點(diǎn)分享Datastream 應(yīng)用場景Datastream 未來展望什么是 Datastream Datastream 是一個數(shù)據(jù)傳輸平臺,用于連通數(shù)據(jù)源和終端用戶的橋梁他最大的作用就是: 讓終端用戶對數(shù)據(jù)獲取方式透明 讓終端用戶對數(shù)據(jù)的格式透明系統(tǒng)框架特性說明搬運(yùn)節(jié)點(diǎn)線性擴(kuò)展集群中節(jié)點(diǎn)可動態(tài)增減,個別節(jié)點(diǎn)宕機(jī)不影響集群數(shù)據(jù)來源多樣化可支持多種數(shù)據(jù)源,新數(shù)據(jù)源支持簡單數(shù)據(jù)存儲終端多樣化可根據(jù)產(chǎn)品需要支持不同類型的數(shù)據(jù)存儲終端數(shù)據(jù)分流和復(fù)制根據(jù)產(chǎn)品需要對數(shù)據(jù)進(jìn)行分流和復(fù)制輸出數(shù)據(jù)格式統(tǒng)一統(tǒng)一采用結(jié)構(gòu)

3、化JSON的數(shù)據(jù)輸出格式,產(chǎn)品端提取數(shù)據(jù)簡單強(qiáng)大的管理平臺管理平臺有各種強(qiáng)大的向?qū)Чδ苓h(yuǎn)程控制所有的Datastream客戶端都通過管理平臺統(tǒng)一做遠(yuǎn)程控制,無需登錄服務(wù)器系統(tǒng)特征大綱Datastream 產(chǎn)生的原因Datastream 的結(jié)構(gòu)和特征Datastream 關(guān)鍵技術(shù)點(diǎn)分享Datastream 應(yīng)用場景Datastream 未來展望關(guān)鍵技術(shù)點(diǎn)一、異構(gòu)數(shù)據(jù)源解析二、數(shù)據(jù)分流三、數(shù)據(jù)可靠傳輸四、數(shù)據(jù)傳輸效率一、異構(gòu)數(shù)據(jù)源解析 Datastream 從擴(kuò)展性上來看能支持各種各樣的數(shù)據(jù)源,目前支持一下數(shù)據(jù)源: 文本文件 Syslog 日志 Mysql binlog文本日志來源 主要是應(yīng)用服務(wù)

4、器的日志文件通過一個輕量級的 agent 來 tail 服務(wù)器本地日志并發(fā)送到 datastream文本日志解析的特點(diǎn) 支持各種滾動方式的日志 支持?jǐn)帱c(diǎn)續(xù)傳 輕量級,占用系統(tǒng)資源少 對應(yīng)用無侵入 支持多行相關(guān)聯(lián)日志輸出為一行(例如 java 異常,結(jié)構(gòu)化的 JSON , xml 等)tailFile 多行解析的實(shí)例Syslog 日志來源 這是一個通用的日志協(xié)議,不受編程語言限制,來源有 服務(wù)器系統(tǒng)日志 應(yīng)用的重要日志 Apache,nginx 等代理日志Syslog 日志Syslog 日志解析特征 平臺無關(guān) 應(yīng)用侵入性低Mysql binlog 來源 Mysql binlog 是 mysql

5、增量數(shù)據(jù)的記錄,對于實(shí)時計(jì)算有相當(dāng)大的作用Mysql binlog 解析關(guān)鍵技術(shù) 全自動化用戶配置 Binlog 轉(zhuǎn)換 JSON 反向查詢 事務(wù)支持 強(qiáng)順序性保證全自動化用戶配置 全自動加載數(shù)據(jù)庫表結(jié)構(gòu),支持分布式數(shù)據(jù)庫二進(jìn)制 binlog 轉(zhuǎn)換為 JSON 可以根據(jù)用戶配置將數(shù)據(jù)庫中的增量數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化的 JSON ,供產(chǎn)品使用反向查詢 反向查詢有些應(yīng)用(比如實(shí)時索引),需要變化的數(shù)據(jù)關(guān)聯(lián)的其他數(shù)據(jù)構(gòu)成完整數(shù)據(jù)事務(wù)支持 支持 mysql 事務(wù),一個事務(wù)內(nèi)的操作會封裝為一個在一個 JSON 內(nèi),同時保持事務(wù)的執(zhí)行順序 過大的事務(wù)會進(jìn)行切割,避免內(nèi)存消耗過大強(qiáng)順序性保證 binlog 的順序如

6、果出錯,可能會導(dǎo)致后端產(chǎn)品最終數(shù)據(jù)狀態(tài)的錯誤,因此 datastream 在處理 Binlog 時采取了強(qiáng)順序性的保證 每個 mysql 節(jié)點(diǎn)的事務(wù)操作順序依次發(fā)送 事務(wù)內(nèi)操作保持順序 MQ 消費(fèi)客戶端的 ack 機(jī)制保證消費(fèi)的順序性和不遺漏消息 MQ 消費(fèi)客戶端異常退出會重新獲取上次未完成的消息二、數(shù)據(jù)分流 日志分流規(guī)則的基礎(chǔ)為數(shù)據(jù)標(biāo)簽 數(shù)據(jù)標(biāo)簽唯一標(biāo)志一類數(shù)據(jù)的分流方式數(shù)據(jù)分流隔離機(jī)制 不同數(shù)據(jù)標(biāo)簽之前數(shù)據(jù)傳輸隔離,保證不同流量的產(chǎn)品之間傳輸速度不會相互影響 不同分流方式之間隔離,保證某個數(shù)據(jù)終端宕機(jī)或傳輸速度慢不會影響其他分流方式三、數(shù)據(jù)可靠傳輸 持久化機(jī)制 收到消息先做持久化后發(fā)送 A

7、CK 機(jī)制 確保后端模塊已收到數(shù)據(jù),否則重發(fā) 異常數(shù)據(jù)處理 無法處理的異常數(shù)據(jù)保存在制定位置,可追溯來源數(shù)據(jù)可靠傳輸 全面覆蓋的監(jiān)控程序 監(jiān)控所有進(jìn)程的正確執(zhí)行 監(jiān)控系統(tǒng)有無異常日志 監(jiān)控系統(tǒng)吞吐量是否不足有延遲 監(jiān)控產(chǎn)品數(shù)據(jù)流量異常波動 監(jiān)控產(chǎn)品有無不符合協(xié)議的日志四、數(shù)據(jù)傳輸效率 分布式處理,可線性拓展 數(shù)據(jù)批量傳輸 , 批量 ACK 采用 thrift 序列化機(jī)制 采用 nio 優(yōu)化數(shù)據(jù)持久化效率 多線程處理日志并保證順序性(如日志過濾)大綱Datastream 產(chǎn)生的原因Datastream 的結(jié)構(gòu)和特征Datastream 關(guān)鍵技術(shù)點(diǎn)分享Datastream 應(yīng)用場景Datastream 未來展望Datastream 應(yīng)用場景 一般產(chǎn)品需要數(shù)據(jù)做哪些操作呢? 存儲備份 條件查詢 分析運(yùn)算 構(gòu)建索引Datastream 都能滿足Datastream 應(yīng)用場景 Datastream 目前可以支持以下應(yīng)用場景: 離線數(shù)據(jù)分析 實(shí)時數(shù)據(jù)分析 實(shí)時索引 日志歸檔 日志統(tǒng)計(jì)報(bào)表 日志報(bào)警監(jiān)控大綱Datastream 產(chǎn)生的原因Datastream 的結(jié)構(gòu)和特征Datastream 關(guān)鍵技術(shù)點(diǎn)分享Datastream 應(yīng)用場景Datastream 未來展望Datastream 未來

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論