知乎大數(shù)據(jù)平臺架構(gòu)實(shí)踐_第1頁
知乎大數(shù)據(jù)平臺架構(gòu)實(shí)踐_第2頁
知乎大數(shù)據(jù)平臺架構(gòu)實(shí)踐_第3頁
知乎大數(shù)據(jù)平臺架構(gòu)實(shí)踐_第4頁
知乎大數(shù)據(jù)平臺架構(gòu)實(shí)踐_第5頁
已閱讀5頁,還剩66頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、知乎大數(shù)據(jù)平臺架構(gòu)實(shí)踐技術(shù)創(chuàng)新,變革未來大綱1. 數(shù)據(jù)平臺架構(gòu)數(shù)據(jù)可視化 Demo更多實(shí)際應(yīng)用架構(gòu)數(shù)據(jù)平臺整體架構(gòu)平臺架構(gòu)App傳輸層計(jì)算層Web后端日志數(shù)據(jù)庫微信小程序接收層KafkaDruidSparkHadoopHiveLog Server存儲層HDFSRedisKuduMaxwell應(yīng)用層可視化分析平臺數(shù)據(jù)倉庫應(yīng)用監(jiān)控平臺A/B Testing業(yè)務(wù)系統(tǒng)依賴和調(diào)度元信息管理埋點(diǎn)發(fā)版流程 管理和測試權(quán)限管理數(shù)據(jù)源HBase渠道管理平臺埋點(diǎn)埋點(diǎn)埋點(diǎn)發(fā)版流程 管理和測試埋點(diǎn)流程產(chǎn)品經(jīng)理提出埋點(diǎn)需求數(shù)據(jù)分析師寫埋點(diǎn)文檔交付工程師開發(fā)埋點(diǎn)回歸測試客戶端發(fā)版埋點(diǎn)標(biāo)準(zhǔn)化規(guī)范使用 Protobuf 做埋

2、點(diǎn)標(biāo)準(zhǔn)化埋點(diǎn) SDK 與平臺Web WechatAppAndroidiOS后端服務(wù)JS SDKJava SDKObjective-C SDKPython/Java SDKProtobuf 的優(yōu)點(diǎn)1. 埋點(diǎn)工程師不容易寫錯2.修改提 Code Review3.統(tǒng)命名管理4.序列化數(shù)據(jù)的平臺無關(guān)性5.傳輸體積小,省流量6.支持多語言, 向后兼容埋點(diǎn)核心思想lDlnfoClientlnfoTimelnfoNetworklnfoActionUrlElementModuleNameExtralnfoWho & WhenWhereWhatWhat內(nèi)容由業(yè)務(wù)后端序列化好 PB,Base64 成 string

3、 后下發(fā)客戶端傳回后端下發(fā) string,數(shù)據(jù)平臺反序列化客戶端主動收集內(nèi)容上報,例如頁面加載時間等埋點(diǎn)框架 -Hybrid客戶端 Hybrid 框架埋點(diǎn)的核心要素Hybrid 框架埋點(diǎn)的核心要素前端 JS 庫通過 Native 提供的端能力進(jìn)行打點(diǎn)統(tǒng)計(jì)Hybrid 框架保證只發(fā)次頁面展現(xiàn)Hybrid 框架處理 Referrer埋點(diǎn) Schema 修改 Code Review2016.02.16 - 2017.07.28 共有 1187 次提交埋點(diǎn)日志格式文件行數(shù) 2568性能監(jiān)控埋點(diǎn) Demomessage MonitorInfo ./ App 頁面加載信息optional AppPerfo

4、rmancePageLoadInfo app_performance_load = 7;/ App 卡頓信息optional AppPerformanceBlockInfo app_performance_block = 8;接收層日志接收Log Server消息監(jiān)盺Maxwell日志接收接收 Protobuf、Json 和 String 類型格式數(shù)據(jù)數(shù)據(jù)寫入 Kafka寫入 Kafka 失敗時存入本地 Leveldb發(fā)送隊(duì)列健康時,發(fā)送 Leveldb 數(shù)據(jù)到 Kafka消息監(jiān)盺使用 Maxwell 接 Mysql Binlog 寫 Kafka計(jì)算層計(jì)算層數(shù)據(jù)流式圖KafkaSparkHDF

5、SDruidKafkaKuduMysqlSparkKafkaImpalaSqoopHive數(shù)據(jù)批處理批處理數(shù)據(jù)批處理自研批處理系統(tǒng),讀 Kafka 寫 HDFS讀 HDFS 寫 HDFSSqoop 批量導(dǎo)出 Mysql 數(shù)據(jù)到 Hive讀 HDFS 寫 Druid數(shù)據(jù)實(shí)時處理實(shí)時處理數(shù)據(jù)實(shí)時處理Spark Streaming ETL 寫 Kafka實(shí)時 ETLIP 地址解析UserAgent 解析業(yè)務(wù)數(shù)據(jù)分流數(shù)據(jù)實(shí)時導(dǎo)入 DruidTranquility 消費(fèi) Kafka 寫 Druid實(shí)時導(dǎo)入 KuduSpark Streaming 消費(fèi) Kafka 寫 Kudu查詢層查詢層重度使用 Dru

6、idDruidHiveImpala查詢緩存與數(shù)據(jù)版本對多維分析和留存分析 Query 按時間拆分Query 結(jié)果按時間拆分后寫入緩存數(shù)據(jù)源重導(dǎo)后對應(yīng)時間范圍的緩存自動失效檢查緩存版本,只有數(shù)據(jù)未變動的查緩存Mysql 數(shù)據(jù)實(shí)時 OLAPMysql 數(shù)據(jù)實(shí)時 OLAPMysql 數(shù)據(jù)實(shí)時 OLAP2016.08 - 2017.07 Impala + Kudu優(yōu)點(diǎn):查詢速度快,實(shí)時性高缺點(diǎn):表結(jié)構(gòu)變更后需要重導(dǎo)2017.08 - 未來 TiSpark7 月底 PingCAP 推出 TiSpark,開始測試 TiSpark 性能行業(yè)痛點(diǎn)大數(shù)據(jù)的實(shí)時 OLAP非固化需求自定義多維分析自定義留存分析數(shù)據(jù)

7、可視化 Demo數(shù)據(jù)可視化 Demo可視化分析平臺APMCon 2017 數(shù)據(jù)分析數(shù)據(jù)源導(dǎo)入自定義多維分析查詢自定義留存分析通用可視化分析平臺 DemoHive 數(shù)據(jù)導(dǎo)入平臺數(shù)據(jù)導(dǎo)入- hive demo數(shù)據(jù)源前置檢查導(dǎo)入數(shù)據(jù)源 Workflow 的前置檢查自定義指標(biāo)創(chuàng)建創(chuàng)建指標(biāo)導(dǎo)入后的數(shù)據(jù)源指標(biāo)列表創(chuàng)建更多指標(biāo)創(chuàng)建指標(biāo) Demo強(qiáng)大的過濾器創(chuàng)建多維分析報表創(chuàng)建多維分析報表創(chuàng)建留存報表創(chuàng)建留存報表通用可視化留存分析留存篩選8.10 盺過 CDN 的人在 8.11 又盺了知乎的有多少人?更多實(shí)際應(yīng)用更多實(shí)際應(yīng)用應(yīng)用監(jiān)控平臺應(yīng)用監(jiān)控平臺應(yīng)用監(jiān)控平臺-指標(biāo)與維度頁面加載時長App 啟動時長系統(tǒng)性能App 流量統(tǒng)計(jì)頁面卡頓信息平臺系統(tǒng)版本應(yīng)用版本機(jī)型運(yùn)營商網(wǎng)絡(luò)類型業(yè)務(wù)后端對接業(yè)務(wù)后端對接業(yè)務(wù)后端對接GrowthGrowth流量來源客戶端新增識別渠道管理后臺流量來源流量來源Web 端流量來源自然流量來源搜索引擎流量社交流量直接流量付費(fèi)流量來源使用人工 utm 標(biāo)記客戶端流量來源被 Scheme 或 Universal Link 喚醒的App,在啟動時上

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論