MySQL異地多活的數(shù)據(jù)雙向復制方案_第1頁
MySQL異地多活的數(shù)據(jù)雙向復制方案_第2頁
MySQL異地多活的數(shù)據(jù)雙向復制方案_第3頁
MySQL異地多活的數(shù)據(jù)雙向復制方案_第4頁
MySQL異地多活的數(shù)據(jù)雙向復制方案_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 MySQL異地多活的數(shù)據(jù)雙向復制方案異地多活背景在講DRC或者講數(shù)據(jù)復制之前,先跟大家回顧一下異地多活的背景。今天我主要分享餓了么多活的底層數(shù)據(jù)實施,介紹在整個多活的設計和實施過程中我們是怎么處理異地數(shù)據(jù)同步的,而這個數(shù)據(jù)同步組件在我們公司內(nèi)部稱之為DRC。去年我們在做多活調(diào)研的時候,整個公司所有的業(yè)務服務都是部署在北京機房,服務器大概有四千多臺,災備的機器是在云端,都是虛擬機,大概有三千多臺。當時我們峰值的業(yè)務訂單數(shù)量已經(jīng)接近了千萬級別,但是基本上北京機房(IDC)已經(jīng)無法再擴容了,也就是說我們沒有空余的機架,沒有辦法添加新的服務器了,必須要再建一個新的機房,于是我們在上海建一個新的機房,

2、上海機房要在今年的4月份才會投入使用,所以需要在上海機房建成之后,異地多活項目能具備在生產(chǎn)環(huán)境上進行灰度。異地多活的底層數(shù)據(jù)同步實施這是異地多活的底層數(shù)據(jù)同步實施的一個簡單的概要圖,大家可以看到,我們有兩個機房,一個是北京機房,一個是上海機房。在這個時候,我們期望目標是北方所有的用戶請求、用戶流量全部進入北京機房,南方所有的用戶請求、用戶流量進入上海機房。困難的地方是,這個用戶有可能今天在北方,明天在南方,因為他在出差,還有就是存在一些區(qū)域在我們劃分南北shard的時候,它是在邊界上面的,這種情況會加劇同一個用戶流量在南北機房來回漂移的發(fā)生。還有個情況,當我們某個機房出現(xiàn)故障,如核心交換機壞掉

3、導致整個機房服務不可用,我們希望可以把這個機房的所有流量快速切到另外的數(shù)據(jù)中心去,從而提高整個餓了么服務的高可用性。以上所有的因素,都需要底層數(shù)據(jù)庫的數(shù)據(jù)之間是打通的。而今天我所要分享的DRC項目就是餓了么異地MySQL數(shù)據(jù)庫雙向復制的組件服務,即上圖中紅色框標記的部分。異地多活對底層數(shù)據(jù)的要求我們在前期調(diào)研DRC實現(xiàn)的時候,主要總結(jié)了的三點,而在后續(xù)的設計和實施當中,基本上也是圍繞這三點來去解決問題。第一個我們覺得是延遲要低,當時給自己定的目標是秒級的,我們希望在北京機房或上海機房寫入的數(shù)據(jù),需要在1秒鐘之內(nèi)同步到上?;蛘弑本C房。整個延遲要小于1秒鐘。第二個就是我們要確保數(shù)據(jù)的一致性,數(shù)據(jù)

4、是不能丟也不能錯的,如果出現(xiàn)數(shù)據(jù)的不一致性,可能會給上層的業(yè)務服務、甚至給產(chǎn)品帶來災難性的問題。第三個就是保證整個復制組件具備高吞吐處理能力,指的是它可以面對各種復雜的環(huán)境,比方說業(yè)務正在進行數(shù)據(jù)的批量操作、數(shù)據(jù)的維護、數(shù)據(jù)字典的變更情況,這些會產(chǎn)生瞬間大量的變更數(shù)據(jù),DRC需要面對這種情況,需要具備高吞吐能力去扛住這些情況。數(shù)據(jù)低延遲和一致性之間,我們認為主要從數(shù)據(jù)的并發(fā)復制這個策略上去解決,安全、可靠、高效的并發(fā)策略,才能保證數(shù)據(jù)是低延遲的復制,在大量數(shù)據(jù)需要復制時,DRC并發(fā)處理才能快速在短時間內(nèi)解決。數(shù)據(jù)一致性,用戶的流量可能被路由到兩個機房的任何一個機房去,也就是說同樣一條記錄可能在

5、兩個機房中被同時更改,所以DRC需要做數(shù)據(jù)沖突處理,最終保持數(shù)據(jù)一致性,也就是數(shù)據(jù)不能出錯。如果出現(xiàn)沖突且DRC自身無法自動處理沖突,我們還提供了一套數(shù)據(jù)沖突訂正平臺,會要求業(yè)務方一道來制定數(shù)據(jù)訂正規(guī)則。高吞吐剛才已經(jīng)介紹了,正常情況用戶流量是平穩(wěn)的,DRC是能應對的,在1秒鐘之內(nèi)將數(shù)據(jù)快速復制到對端機房。當DBA對數(shù)據(jù)庫數(shù)據(jù)進行數(shù)據(jù)歸檔、大表DDL等操作時,這些操作會在短時間內(nèi)快速產(chǎn)生大量的變更數(shù)據(jù)需要我們復制,這些數(shù)據(jù)可能遠遠超出了DRC的最大處理能力,最終會導致DRC復制出現(xiàn)延遲,所以DRC與現(xiàn)有的DBA系統(tǒng)需要進行交互,提供一種彈性的數(shù)據(jù)歸檔機制,如當DRC出現(xiàn)大的復制延遲時,終止歸檔

6、JOB,控制每輪歸檔的數(shù)據(jù)規(guī)模。如DRC識別屬于大表DDL產(chǎn)生的binlog events,過濾掉這些events,避免這些數(shù)據(jù)被傳輸?shù)狡渌麢C房,占用機房間帶寬資源。以上是我們在實施異地多活的數(shù)據(jù)層雙向復制時對DRC項目提出的主要要求。數(shù)據(jù)集群規(guī)模(多活改造前)這是我們在做多活之前的北京數(shù)據(jù)中心的數(shù)據(jù)規(guī)模,這個數(shù)據(jù)中心當時有超過250套MySQL的集群,一千多臺MySQL的實例,Redis也超過四百個集群。DRC服務的目標對象就是這250套MySQL集群,因為在正在建設的第二個數(shù)據(jù)中心里未來也會有對應的250套MySQL集群,我們需要把兩個機房業(yè)務對等的集群進行數(shù)據(jù)打通。多活下MySQL的用途

7、分類我們按照業(yè)務的用途,給它劃分了多種DB服務類型。為什么要總結(jié)這個呢?因為有一些類型,我們是不需要復制的,所以要甄別出來,首先第一個多活DB,我們認為它的服務需要做多活的。比方說支付、訂單、下單,一個機房掛了,用戶流量切到另外新的機房,這些業(yè)務服務在新的機房是工作的。我們把這些多活服務依賴的DB稱為多活DB,我們優(yōu)先讓業(yè)務把DB改造成多活DB,DRC對多活DB進行數(shù)據(jù)雙向復制,保障數(shù)據(jù)一致性。多活DB的優(yōu)勢剛才已經(jīng)講了,如果機房出現(xiàn)故障、核心交換機出問題,整個機房垮了,運維人員登不進機房機器,那么我們可以在云端就把用戶流量切到其它的機房。有些業(yè)務對數(shù)據(jù)有強一致性要求,后面我會講到其實DRC是

8、沒有辦法做到數(shù)據(jù)的強一致性要求的,它是有數(shù)據(jù)沖突發(fā)生的,需要引入數(shù)據(jù)訂正措施。業(yè)務如果對數(shù)據(jù)有強一致性要求,比方說用戶注冊,要求用戶登錄名全局唯一(DB字段上可能加了唯一約束),兩個機房可能會在同一時間接收了相同用戶登錄名的注冊請求,這種情況下,DRC是無法自身解決掉這個沖突,而且業(yè)務方對這個結(jié)果也是無法接受的,這種DB我們會把它歸納到GlobalDB里面,它的特性是什么呢?它的特性是單機房可寫,多機房可讀,因為你要保證數(shù)據(jù)的強一致性的話,必須讓所有機房的請求處理結(jié)果,最終寫到固定的一個機房中。這種DB的上層業(yè)務服務,在機房掛掉之后是有損的。比方說機房掛了,用戶注冊功能可能就不能使用了。最后一

9、個非多活DB,它是很少的,主要集中于一些后端的管理平臺,這種項目本身基本上不是多活的,所以這種DB我們不動它,還是采用原生的主備方式。DRC總體架構(gòu)設計這是DRC復制組件的總體架構(gòu)設計。我們有一個組件叫Replicator,它會從MySQL集群的Master上把binlog日志記錄抽取出來,解析binlog記錄并轉(zhuǎn)換成我們自定義的數(shù)據(jù),存放到一個超大的event buffer里面,event buffer支持TB級別的容量。在目標機房里我們會部署一個Applier服務,這個服務啟一個TCP長連接到Replicator服務,Replicator會不斷的推送數(shù)據(jù)到Applier,Applier通過

10、JDBC最終把數(shù)據(jù)寫入到目標數(shù)據(jù)庫。我們會通過一個Console控制節(jié)點來進行配置管理、部署管理以及進行各個組件的HA協(xié)調(diào)工作。DRC Replicator Server這是DRC Replicator Server組件比較細的結(jié)構(gòu)描述,主要是包含了一個MetaDB模塊,MetaDB主要用來解決歷史的Binlog的解析問題。我們成功解析Binlog記錄之后,會把它轉(zhuǎn)換成我們自己定義的一種數(shù)據(jù)結(jié)構(gòu),這種結(jié)構(gòu)相對于原生的結(jié)構(gòu),Size更小,MySQL binlog event的定義在size角度上考慮事實上已經(jīng)很極致了,但是可以結(jié)合我們自己的特性,我們會把不需要的event全部過濾掉(如table

11、_map_event),把可以忽略的數(shù)據(jù)全部忽略掉。我們比對的結(jié)果是需要復制的event數(shù)據(jù)只有原始數(shù)據(jù)size的70%。DRC Applier Server往目標的MySQL集群復制寫的時候,由DRC Applier Server負責,它會建一個長連接到Replicator上去,Replicator PUSH數(shù)據(jù)給Applier。Applier把數(shù)據(jù)拿到之后做事務的還原,最后通過JDBC把事務重新寫到目標DB里面,寫的過程當中,我們應用了并發(fā)的策略。并發(fā)策略在提供復制吞吐能力,降低復制延遲起到?jīng)Q定的作用,還有冪等也是非常重要的,后面有很多運維操作,還有一些Failover回退操作,會導致發(fā)生

12、數(shù)據(jù)被重復處理的情況,冪等操作保障重復處理數(shù)據(jù)不會發(fā)生問題。DRC防止循環(huán)復制在做復制的時候,大家肯定會碰到解決循環(huán)復制的問題。我們在考慮這個問題的時候,查了很多資料,也問了很多一些做過類似項目的前輩,當時我們認為有兩大類辦法,第一大類辦法一開始否決了,因為我們對MySQL的內(nèi)核原碼不熟悉,而且時間上也來不及,雖然我們知道通過MySQL的核內(nèi)解決回路復制是最佳的、最優(yōu)的??緿RC自身解決這個問題,也有兩種辦法,一種辦法是我們在Apply數(shù)據(jù)到目標DB的時候把binlog關(guān)閉掉,另外一種辦法就是寫目標DB的時候在事物中額外增加checkpoint表的數(shù)據(jù),用于記錄源DB的server_id。后來

13、我們比較了一下,第一個辦法是比較簡單,實現(xiàn)容易,但是因為Binlog記錄沒有產(chǎn)生,導致不支持級聯(lián)復制,也對后續(xù)的運維帶來麻煩。所以我們最后選擇的是第二個辦法,通過把事務往目標DB復制的時候,在事務中hack一條checkpoint的數(shù)據(jù)來標識事務產(chǎn)生的原始server,DRC在解析MySQL binlog記錄時就能正確分辨出數(shù)據(jù)的真正來源。DRC數(shù)據(jù)一致性保障在剛開始研發(fā)、設計的時候,數(shù)據(jù)一致性保障是我們很頭疼的問題。并不是在一開始就把所有的點都想全了,是在做的過程當中出現(xiàn)了問題,一步步解決的,回顧一下,我們大概從三個方面去保證數(shù)據(jù)的一致性:首先,因為數(shù)據(jù)庫是多活的,我們必須從數(shù)據(jù)中心層面盡可

14、能把數(shù)據(jù)沖突發(fā)生的概率降到最低,避免沖突,怎么避免呢?就是合理的流量切分,你可以按照用戶的維度,按照地域的維度,對流量進行拆分。剛才我們講的,北方用戶的所有數(shù)據(jù)在北京機房,這些北方用戶的下單、支付等的所有操作數(shù)據(jù)都是在北方機房產(chǎn)生的,所以用戶在同一個機房中發(fā)生的數(shù)據(jù)變更操作絕對是安全的。我們最怕的是同一個數(shù)據(jù)同時或者是在相近的時間里同時在兩個機房被修改,我們怕的是這個問題,因為這種情況就會引發(fā)數(shù)據(jù)沖突。所以我們通過合理的流量切分,保證絕大部分時候數(shù)據(jù)是不會沖突的。第二個我們認為你要保障數(shù)據(jù)一致性,首先你要確保數(shù)據(jù)不丟,一旦發(fā)生可能數(shù)據(jù)丟失的情況,我們會做一個比較保險的策略,就是把數(shù)據(jù)復制的時間

15、位置回退,即使重復處理數(shù)據(jù),也避免丟數(shù)據(jù)的可能,但是這個時候會帶來數(shù)據(jù)重復處理的問題,所以數(shù)據(jù)的冪等操作特別重要。這些都是我們避免數(shù)據(jù)發(fā)生沖突的方法,那沖突實際上是不可避免的,沖突發(fā)生后,我們怎么解決?最終采用的辦法是在數(shù)據(jù)庫表上隱含地加一個時間字段(數(shù)據(jù)最后更新時間),這個字段對業(yè)務是透明的,主要用來輔助DRC復制,一旦數(shù)據(jù)發(fā)生沖突,DRC復制組件可以通過這個時間來判斷兩個機房或者三個機房中的哪條數(shù)據(jù)是最后被更新的,最新優(yōu)先的原則,誰最后的修改時間是最新的,就以它為準。DRC數(shù)據(jù)復制低延遲保障剛才我們講的是數(shù)據(jù)的一致性,還有一個點非常重要,就是數(shù)據(jù)復制的低延遲保障。我們現(xiàn)在延遲包括用戶高峰時

16、間也是小于1秒的,只有在凌晨之后,各種歸檔、批量數(shù)據(jù)處理、DDL變更等操作會導致DRC延遲出現(xiàn)毛刺和抖動。如果你的延遲很高的話,第一在做流量切換時,因為運維優(yōu)先保障產(chǎn)品服務的可用性,在不得以的情況會不考慮你的復制延遲,不會等數(shù)據(jù)復制追平之后再切流量,所以你的數(shù)據(jù)沖突的概率就變的很大。為了保證復制低延遲,我們認為主要策略、或者你在實施時主要的做法還是并發(fā),因為你只有用高效的安全的并發(fā)復制策略,服務才有足夠的吞吐處理能力,而不至于你的復制通道因為遇到“海量”數(shù)據(jù)而導致數(shù)據(jù)積壓,從而加劇了復制延遲的產(chǎn)生。我們一開始采用的基于表級別的并發(fā),但是表級別的并發(fā)在很多情況下,并發(fā)策略沒辦法被有效的利用,比方

17、說有的業(yè)務線的數(shù)據(jù)庫可能90%的數(shù)據(jù)集中在一張表或者是幾個表里面,而大部分表數(shù)據(jù)量很小,那基于表的并發(fā)策略就并發(fā)不起來了。我們現(xiàn)在跑的是基于行級別的并發(fā),這種并發(fā)它更能容忍和適應很多場景。DRC & MySQL Master切換這個是DRC復制組件與MySQL集群的關(guān)系關(guān)聯(lián)圖,一旦MySQL集群里面的Master發(fā)生了主備切換,原來的Master掛了,DRC怎么處理?目前的解決方案是DBA系統(tǒng)的MHA工具會通知DRC控制中心,DRC的控制中心會找到對應的復制鏈路,然后把復制鏈路從老的Master切到新的Master,但是關(guān)鍵點是MHA在通知之前先把老的Master設置為不可寫,阻斷DRC可能往

18、老的Master繼續(xù)寫數(shù)據(jù)。DRC線上運行狀況(規(guī)模)這個是我們DRC上線之后的運行狀況?,F(xiàn)在大概有有將近400多條復制鏈路。這個復制鏈路是指單向的鏈路。我們提供的消息訂閱大概有17個業(yè)務方接入,每天產(chǎn)生超過1億條的消息。DRC線上運行狀況(性能)這是DRC線上運行的一個性能監(jiān)控快照,我們可以看到,它是上午11點多到12點多的一個小時的性能,你會發(fā)現(xiàn)其實有一個DB是有毛刺的,有一個復制鏈路有毛刺,復制延遲最高達到4s,但是大部分的復制鏈路的延遲大概也是在1秒或1秒以下。我的分享到此結(jié)束了,謝謝大家。Q&AQ1:你好,想問一下餓了么是怎么避免各個機房中的PK沖突的?A1:主鍵自增的步長在各個機房中是固定相同的,但是每個機房的增長offset是不同的,所以不會出現(xiàn)PK沖突。Q2:DRC復制會不會對目標數(shù)據(jù)庫造成性能影響?A2:有影響。因為DRC會占用目標DB的IOPS。DRC Apply本身就是目標DB的上層服務。Q3:DRC Applier采用JDBC去寫目標DB,除了這個辦法還有其它途徑嗎?A3:目前我們分析binlog還原事務,然后通過JDBC把事務寫到目

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論