版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、滴滴出行平臺的高可用架構第1頁,共32頁。滴滴的出行業(yè)務架構高可用方法論異地多活一鍵降級防火放火第2頁,共32頁。滴滴業(yè)務簡介接單接駕開始行程結束行程發(fā)單等待接駕上車到達支付乘客司機登錄、鑒權 訂單、司機 分單計價、收銀、支付 反作弊、管控、運營服務交互服務交互交易狀態(tài)流轉平臺交易業(yè)務: 實時、多狀態(tài)、長鏈條第3頁,共32頁。業(yè)務架構演進MQ司機、訂單、計價 收銀、運營lvsnginxstorage分單系統(tǒng)lvsDFE核心業(yè)務apistorage分單引擎訂 單司 機計 價收 銀運 營DGWDFEstorage分單引 擎2.0訂 單司 機計 價收 銀運 營???api出租 車apiUbera p
2、i代駕 apistoragestoragestoragestorage登 錄 鑒 權收 銀 支 付運 營地 圖草創(chuàng)時代2012.9滴滴打車上線2013.8 1kw+用戶 紅包大戰(zhàn)2014.3 單量300萬單/天 乘客1億 司機100萬??燔嚿暇€2014.8 專車上線2015.5 快車上線2016.3 1000萬單/天Uber合并2016.8 收購Uber中國2016.10 2000萬單/天外包日訂單量: 15年幾百萬 - 目前2500w+(僅次于淘寶)第4頁,共32頁。高可用面臨的挑戰(zhàn)流量增 長迅猛業(yè)務增長迅速 節(jié)假日效應明顯業(yè)務復雜實時 多狀態(tài) 交易型 鏈路長新場景多 迭代快穩(wěn)定性 挑戰(zhàn)大高
3、速路上 換輪子業(yè)務調用鏈路接口調用鏈條示例第5頁,共32頁。滴滴出行的業(yè)務架構高可用方法論異地多活一鍵降級防火放火第6頁,共32頁。高可用的常見措施不可用因素典型case增大MTBF縮短MTTR程序、數(shù)據(jù)和配置 bug程序出core、配置格式出錯研發(fā)質量、測試質量、變更分級 解耦減少變更、監(jiān)控告警、快速回滾機器和網段級故障宕機、邊緣交換機板卡故障、 光纖抖動硬件冗余預警預遷移服務、切流到本機 房冗余、數(shù)據(jù)主從切換多網段和機房級故 障核心交換機故障、鏈路割接、 機房掉電硬件冗余(包括多機房)預警預遷移服務,切流到其他 機房流量大促、節(jié)假日和特殊天氣、外 部攻擊、上游重試雪崩上游容錯調度防雪崩容量
4、規(guī)劃、防攻擊、其他同容 量不足容量主流程服務容量不足容量規(guī)劃、容量預警限流、切流其他冗余、降級、 熔斷弱依賴、快速擴容依賴服務賬單依賴的到達時間預估故障 分單依賴的特征服務故障、遞歸使用前述方法提高該依賴的 可用性熔斷弱依賴,或遞歸使用前述 方法提高該依賴的可用性第7頁,共32頁。高可用的8大抓手、抓手典型做法業(yè)務平臺服務研發(fā)質量容錯設計、cr、單測、穩(wěn)定性 評審弱依賴化(主流程瘦身) 數(shù)據(jù)流治理、研發(fā)流程、scmpf流程平臺rpc框架、服務組 件測試質量線下仿真仿真環(huán)境建設、測試流程仿真環(huán)境解決方案、測試 框架支持引流、dump變更管理按機器或流量分級發(fā)布、多 維度質量檢測灰度發(fā)布、檢查和回
5、滾流程部署系統(tǒng)、分級發(fā)布系統(tǒng)服務發(fā)現(xiàn)、配置中 心監(jiān)控告警機器/進程/業(yè)務監(jiān)控及報警監(jiān)控大盤、多級報警監(jiān)控系統(tǒng)、告警系統(tǒng)metrics、trace故障預案定位和止損的預案預案建設異地多活、一鍵預案/降級中間件支持切流 限流、熔斷、降級容量規(guī)劃全鏈路壓測、子鏈路壓測、 哨兵壓測改造支持各壓測壓測平臺中間件支持壓測放火盲測弱依賴驗證、預案有效性和 完備性驗證請求級放火、資源放火放火盲測平臺中間件支持放火值班巡檢例行值班表、節(jié)假日值班例行值班、集中應急處理值班平臺第8頁,共32頁。高可用的5級演進目標4321021043手工5工具化平臺化自動化智能化43210召回占比演進x年x+1年未來第9頁,共32
6、頁。滴滴出行的業(yè)務架構高可用方法論異地多活一鍵降級防火放火第10頁,共32頁。異地多活一個腳本引發(fā)的“血案”?https:/data/attachment/forum/201508/19/155520wtajnigimiz3jqgk.jpg哪些服務多活?同城還是異地?第11頁,共32頁。如何實現(xiàn)多活?流量路由流量標記 分層路由 單元化數(shù)據(jù)同步中間件同步 業(yè)務雙寫降級預案單活降級 數(shù)據(jù)故障兜底第12頁,共32頁。業(yè)務層接入層短連接業(yè)務核心api分 單 系 統(tǒng)坐 標 系 統(tǒng)數(shù)據(jù)庫緩存列式特征消息隊列收 銀 支 付司 機 系 統(tǒng)訂 單 系 統(tǒng)登地錄圖鑒 權長連接Native AppWebApp用戶層
7、數(shù)據(jù)層業(yè)務層接入層短連接業(yè)務核心api分 單 系 統(tǒng)坐 標 系 統(tǒng)司 機 系 統(tǒng)訂 單 系 統(tǒng)地 圖登 錄 鑒 權長連接Native AppWebApp用戶層數(shù)據(jù)同步流量路由多活架構數(shù)據(jù)庫緩存列式特征消息隊列 數(shù)據(jù)層第13頁,共32頁。業(yè)務層接入層短連接業(yè)務核心api分 單 系 統(tǒng)坐 標 系 統(tǒng)收 銀 支 付司 機 系 統(tǒng)訂 單 系 統(tǒng)登地錄圖鑒 權長連接Native AppWebApp用戶層業(yè)務層接入層短連接業(yè)務核心api分 單 系 統(tǒng)坐 標 系 統(tǒng)司 機 系 統(tǒng)訂 單 系 統(tǒng)地 圖登 錄 鑒 權長連接Native AppWebApp用戶層流量路由單元內訪問、不要跨機房流量路由流量如何劃分?
8、 流量標識如何傳遞?路由如何決策? 單活如何訪問多活?跨城、漫游如何處理? 為什么分層切換?第14頁,共32頁。業(yè)務層業(yè)務核心api分 單 系 統(tǒng)坐 標 系 統(tǒng)數(shù)據(jù)庫緩存列式特征消息隊列收 銀 支 付司 機 系 統(tǒng)訂 單 系 統(tǒng)地 圖登 錄 鑒 權數(shù)據(jù)層業(yè)務層業(yè)務核心api分 單 系 統(tǒng)坐 標 系 統(tǒng)司 機 系 統(tǒng)訂 單 系 統(tǒng)地 圖登 錄 鑒 權數(shù)據(jù)同步數(shù)據(jù)同步數(shù)據(jù)庫緩存列式特征消息隊列 數(shù)據(jù)層一致性挑戰(zhàn):成功率、延遲、有序、不重業(yè)務層的挑戰(zhàn): 不同系統(tǒng)有不同的數(shù)據(jù)特性司機系統(tǒng):短時問題可容忍,但數(shù)據(jù)修復麻煩 訂單系統(tǒng):強一致性要求,但修復相對簡單 分單系統(tǒng):短時問題可容忍坐標流:獲取最近的
9、數(shù)據(jù),部分丟失無影響第15頁,共32頁。數(shù)據(jù)同步系統(tǒng)數(shù)據(jù)特征分析存儲一致性系統(tǒng)特性同步方案司機 系統(tǒng)身份信息靜態(tài)變化小數(shù)據(jù)庫、緩存無需考慮1、短時問題可容忍2、db出問題修復麻煩1、數(shù)據(jù)庫主從同步,寫主讀從2、緩存通過proxy互寫同步是否忙碌、是否出車、座位數(shù)關鍵因子數(shù)據(jù)庫、緩存、 列式特征中偏高策略數(shù)據(jù)(服務分、圍欄、新政) 非關鍵因子列式特征中偏低訂單 系統(tǒng)起始位置等信息靜態(tài)變化小數(shù)據(jù)庫、緩存無需考慮相對修復簡單1、乘客直接結束訂單再次發(fā)單2、客服通過接口強制關單1、數(shù)據(jù)庫主從同步,成交主流程寫主讀主2、緩存:有序不重雙集群校驗binlog反沖,最終一致訂單狀態(tài)6-7個(狀態(tài)機)狀態(tài)錯誤
10、,無法繼 續(xù)數(shù)據(jù)庫、緩存高分單 系統(tǒng)司機和乘客特征短時可接受列式特征中偏低特征出問題,可從數(shù)據(jù)庫回撈:1、手工,聽單檢測 收車出車2、服務端旁路檢測司機狀態(tài)在業(yè)務proxy層實現(xiàn)主從同步(類數(shù)據(jù)庫)坐標流司機乘客坐標信息內存低獲取最近產生的數(shù)據(jù),可容忍數(shù)據(jù) 丟失實現(xiàn)容易,在業(yè)務proxy層互寫mq消息隊列低異步數(shù)據(jù),一致性要求不高全量互同步第16頁,共32頁。降級預案多活: 切流單活: 熔斷故障特征庫數(shù)據(jù)異常: DB回撈DB掛了: 主從切換無狀態(tài)業(yè)務數(shù)據(jù)故障DB主從延遲計價、服務分有損: 善后補償網絡抖動: 短時限流 防雪崩、長時切流到主 機房抖動+主力機房掛:超 小概率、最小系統(tǒng)有損降級第1
11、7頁,共32頁。滴滴出行的業(yè)務架構高可用方法論異地多活一鍵降級防火放火第18頁,共32頁。What?限流:大促時限制入口流量頁面去掉非核心功能同步轉 異步切流:流量切到正常集群盡可能保住服務第19頁,共32頁。Why?業(yè)務出問題不可避免需要上線,止損慢預案有沖突、容易失效業(yè)務壓力大,精力有限要有降級預案快速生效止損預案管理降低接入成本第20頁,共32頁。How?場景預案,一鍵快速生效L1: 業(yè)務無損: 號碼保護、不作弊、導流、切流L2: 部分效果受損: 動調,計價(路面距離降級為直線距離)L3: 核心支付效果有損: 收銀熔斷、乘客未支付可以發(fā)單L4: 核心主流程效果受損: 發(fā)單限流、內部丟單移
12、動+pc雙端 隨時觸達生效率監(jiān)控、灰度發(fā)布、平臺雙活、互斥管理 安全生效切流、限流、熔斷、普通降級配置語義+中間件action實 現(xiàn)評分系統(tǒng)驅動接入和演練有效演練高效快速接入止損第21頁,共32頁。Detail第22頁,共32頁。切流實現(xiàn)路由表通路實時配送平臺動態(tài)配置路由 規(guī)則路由 算法流量標識目的機房輸入降級中間件服務 實例舉例:路由成環(huán)問題?第23頁,共32頁。限流實現(xiàn)限流配置通路實時配送平臺動態(tài)配置限流 規(guī)則令牌桶 算法caller、callee、 method是否限流輸入降級中間件服務 實例令牌桶:支持突發(fā)漏桶:強限固定的速度第24頁,共32頁。熔斷實現(xiàn)熔斷配置通路實時配送平臺端動態(tài)配
13、置熔斷 規(guī)則開關 語義 識別熔斷標記是否熔斷輸入降級中間件服務 實例第25頁,共32頁。滴滴出行的業(yè)務架構高可用套路異地多活一鍵降級防火放火第26頁,共32頁。防火滅火放火的重要項目防火降低不可用發(fā)生概率:線下仿真灰度發(fā)布滅火縮短止損時間:異地多活一鍵降級驗證滅火是否有效完 備:故障注入壓測放火第27頁,共32頁。防火-灰度發(fā)布上線過程idc-preidc-small人群灰度?X 開關維護成本高機器灰度?X 指標不聚焦不敏感So 人群灰度+機器灰度idc1-g1idc1-g2idc1-g2idc2預發(fā)城市 灰度10%40%100%第28頁,共32頁。放火-壓測全鏈路壓測仿真司乘行為透傳壓測標識
14、隔離壓測數(shù)據(jù)單鏈路壓測注重子系統(tǒng)壓測隔離壓測數(shù)據(jù)構造上游請求Mock下游結果哨兵系統(tǒng)小規(guī)模損失風險換取及時預警物理隔離流量大于正常集群動態(tài)調控第29頁,共32頁。放火-故障注入控制中心REQ LEVELCPUMEM NETI/OSYS LEVELINTERFACECITY PERCENT FLOW TAGLATENCY ERRCODETHRIFT HTTPHIGH USAGE PACK LOSSSLOW NET CONN REFUSE協(xié)議層故障類型故障類型command目標預案完備性檢查強弱依賴驗證提升異常分支覆蓋率層次線下環(huán)境線上測試賬號線上單個城市IPTABLES NGINX MODULE RPC MIDDLEWARE實現(xiàn)第30頁,共32頁。高可用落地組織結構支撐公正的第三方組織(星辰花):復盤、 定級追責、Trace 進展專項FT:虛線匯報、項目經
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 國家電網限公司大數(shù)據(jù)中心2025年第二批高校畢業(yè)生招聘高頻重點提升(共500題)附帶答案詳解
- 四川西昌市2025年下半年考聘事業(yè)單位工作人員(第52次)高頻重點提升(共500題)附帶答案詳解
- 四川省宜賓市財政票據(jù)監(jiān)管中心公開招聘臨時人員歷年高頻重點提升(共500題)附帶答案詳解
- 四川廣元青川縣教育和科學技術局考調專業(yè)技術人員8名歷年高頻重點提升(共500題)附帶答案詳解
- 商務部國際貿易經濟合作研究院公開招聘18人高頻重點提升(共500題)附帶答案詳解
- 吉林松原乾安縣招聘新時代文明實踐專職公益性崗位人員19人歷年高頻重點提升(共500題)附帶答案詳解
- 廈門市醫(yī)療衛(wèi)生事業(yè)單位2025年春季招聘歷年高頻重點提升(共500題)附帶答案詳解
- 南寧經濟技術開發(fā)區(qū)招考3名勞務派遣人員(那洪街道辦事處)高頻重點提升(共500題)附帶答案詳解
- 南京工業(yè)大學公開招聘11名人員高頻重點提升(共500題)附帶答案詳解
- 二零二五年度安全技術防范系統(tǒng)采購合同3篇
- 財務崗總結 財務工作者的個人總結
- 作文講評原來我也擁有這么多
- 2023年副主任醫(yī)師(副高)-普通外科學(副高)考試高頻試題(歷年真題)帶答案
- 發(fā)電機檢修作業(yè)指導書
- 薪酬與福利管理實務-習題答案 第五版
- 新華人壽保險管理信息系統(tǒng)案例分析
- 廢舊物資處置申請表
- GB/T 37234-2018文件鑒定通用規(guī)范
- GB/T 31888-2015中小學生校服
- PPT中國地圖素材(可修改顏色)
- 2023年深國交入學考試英語模擬試題
評論
0/150
提交評論