![zookeeper原理_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/2/37464517-7751-4172-8666-f8e9a983278e/37464517-7751-4172-8666-f8e9a983278e1.gif)
![zookeeper原理_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/2/37464517-7751-4172-8666-f8e9a983278e/37464517-7751-4172-8666-f8e9a983278e2.gif)
![zookeeper原理_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/2/37464517-7751-4172-8666-f8e9a983278e/37464517-7751-4172-8666-f8e9a983278e3.gif)
![zookeeper原理_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/2/37464517-7751-4172-8666-f8e9a983278e/37464517-7751-4172-8666-f8e9a983278e4.gif)
![zookeeper原理_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/2/37464517-7751-4172-8666-f8e9a983278e/37464517-7751-4172-8666-f8e9a983278e5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、zookeeper原理(轉)博客分類: hadoopZooKeeper是一個分布式的,開放源碼的分布式應用程序協(xié)調服務,它包含一個簡單的原語集,分布式應用程序可以基于它實現同步服務,配置維護和命名服務等。Zookeeper是hadoop的一個子項目,其發(fā)展歷程無需贅述。在分布式應用中,由于工程師不能很好地使用鎖機制,以及基于消息的協(xié)調機制不適合在某些應用中使用,因此需要有一種可靠的、可擴展的、分布式的、可配置的協(xié)調機制來統(tǒng)一系統(tǒng)的狀態(tài)。Zookeeper的目的就在于此。本文簡單分析zookeeper的工作原理,對于如何使用zookeeper不是本文討論的重點。1 Zookeeper的基本概念1
2、.1 角色Zookeeper中的角色主要有以下三類,如下表所示:系統(tǒng)模型如圖所示:1.2 設計目的1.最終一致性:client不論連接到哪個Server,展示給它都是同一個視圖,這是zookeeper最重要的性能。2 .可靠性:具有簡單、健壯、良好的性能,如果消息m被到一臺服務器接受,那么它將被所有的服務器接受。3 .實時性:Zookeeper保證客戶端將在一個時間間隔范圍內獲得服務器的更新信息,或者服務器失效的信息。但由于網絡延時等原因,Zookeeper不能保證兩個客戶端能同時得到剛更新的數據,如果需要最新數據,應該在讀數據之前調用sync()接口。4 .等待無關(wait-free):慢
3、的或者失效的client不得干預快速的client的請求,使得每個client都能有效的等待。5.原子性:更新只能成功或者失敗,沒有中間狀態(tài)。6 .順序性:包括全局有序和偏序兩種:全局有序是指如果在一臺服務器上消息a在消息b前發(fā)布,則在所有Server上消息a都將在消息b前被發(fā)布;偏序是指如果一個消息b在消息a后被同一個發(fā)送者發(fā)布,a必將排在b前面。2 ZooKeeper的工作原理Zookeeper的核心是原子廣播,這個機制保證了各個Server之間的同步。實現這個機制的協(xié)議叫做Zab協(xié)議。Zab協(xié)議有兩種模式,它們分別是恢復模式(選主)和廣播模式(同步)。當服務啟動或者在領導者崩潰后,Zab
4、就進入了恢復模式,當領導者被選舉出來,且大多數Server完成了和leader的狀態(tài)同步以后,恢復模式就結束了。狀態(tài)同步保證了leader和Server具有相同的系統(tǒng)狀態(tài)。為了保證事務的順序一致性,zookeeper采用了遞增的事務id號(zxid)來標識事務。所有的提議(proposal)都在被提出的時候加上了zxid。實現中zxid是一個64位的數字,它高32位是epoch用來標識leader關系是否改變,每次一個leader被選出來,它都會有一個新的epoch,標識當前屬于那個leader的統(tǒng)治時期。低32位用于遞增計數。每個Server在工作過程中有三種狀態(tài):LOOKING:當前Ser
5、ver不知道leader是誰,正在搜尋LEADING:當前Server即為選舉出來的leaderFOLLOWING:leader已經選舉出來,當前Server與之同步2.1 選主流程當leader崩潰或者leader失去大多數的follower,這時候zk進入恢復模式,恢復模式需要重新選舉出一個新的leader,讓所有的Server都恢復到一個正確的狀態(tài)。Zk的選舉算法有兩種:一種是基于basic paxos實現的,另外一種是基于fast paxos算法實現的。系統(tǒng)默認的選舉算法為fast paxos。先介紹basic paxos流程:1 .選舉線程由當前Server發(fā)起選舉的線程擔任,其主要
6、功能是對投票結果進行統(tǒng)計,并選出推薦的Server;2 .選舉線程首先向所有Server發(fā)起一次詢問(包括自己);3 .選舉線程收到回復后,驗證是否是自己發(fā)起的詢問(驗證zxid是否一致),然后獲取對方的id(myid),并存儲到當前詢問對象列表中,最后獲取對方提議的leader相關信息(id,zxid),并將這些信息存儲到當次選舉的投票記錄表中;4. 收到所有Server回復以后,就計算出zxid最大的那個Server,并將這個Server相關信息設置成下一次要投票的Server;5. 線程將當前zxid最大的Server設置為當前Server要推薦的Leader,如果此時獲勝的Server
7、獲得n/2 + 1的Server票數, 設置當前推薦的leader為獲勝的Server,將根據獲勝的Server相關信息設置自己的狀態(tài),否則,繼續(xù)這個過程,直到leader被選舉出來。通過流程分析我們可以得出:要使Leader獲得多數Server的支持,則Server總數必須是奇數2n+1,且存活的Server的數目不得少于n+1.每個Server啟動后都會重復以上流程。在恢復模式下,如果是剛從崩潰狀態(tài)恢復的或者剛啟動的server還會從磁盤快照中恢復數據和會話信息,zk會記錄事務日志并定期進行快照,方便在恢復時進行狀態(tài)恢復。選主的具體流程圖如下所示:fast paxos流程是在選舉過程中,某
8、Server首先向所有Server提議自己要成為leader,當其它Server收到提議以后,解決epoch和zxid的沖突,并接受對方的提議,然后向對方發(fā)送接受提議完成的消息,重復這個流程,最后一定能選舉出Leader。其流程圖如下所示:2.2 同步流程選完leader以后,zk就進入狀態(tài)同步過程。1. leader等待server連接;2 .Follower連接leader,將最大的zxid發(fā)送給leader;3 .Leader根據follower的zxid確定同步點;4 .完成同步后通知follower 已經成為uptodate狀態(tài);5 .Follower收到uptodate消息后,又可
9、以重新接受client的請求進行服務了。流程圖如下所示:2.3 工作流程2.3.1 Leader工作流程Leader主要有三個功能:1 .恢復數據;2 .維持與Learner的心跳,接收Learner請求并判斷Learner的請求消息類型;3 .Learner的消息類型主要有PING消息、REQUEST消息、ACK消息、REVALIDATE消息,根據不同的消息類型,進行不同的處理。PING消息是指Learner的心跳信息;REQUEST消息是Follower發(fā)送的提議信息,包括寫請求及同步請求;ACK消息是Follower的對提議的回復,超過半數的Follower通過,則commit該提議;R
10、EVALIDATE消息是用來延長SESSION有效時間。Leader的工作流程簡圖如下所示,在實際實現中,流程要比下圖復雜得多,啟動了三個線程來實現功能。2.3.2 Follower工作流程Follower主要有四個功能:1. 向Leader發(fā)送請求(PING消息、REQUEST消息、ACK消息、REVALIDATE消息);2 .接收Leader消息并進行處理;3 .接收Client的請求,如果為寫請求,發(fā)送給Leader進行投票;4 .返回Client結果。Follower的消息循環(huán)處理如下幾種來自Leader的消息:1 .PING消息: 心跳消息;2 .PROPOSAL消息:Leader發(fā)
11、起的提案,要求Follower投票;3 .COMMIT消息:服務器端最新一次提案的信息;4 .UPTODATE消息:表明同步完成;5 .REVALIDATE消息:根據Leader的REVALIDATE結果,關閉待revalidate的session還是允許其接受消息;6 .SYNC消息:返回SYNC結果到客戶端,這個消息最初由客戶端發(fā)起,用來強制得到最新的更新。Follower的工作流程簡圖如下所示,在實際實現中,Follower是通過5個線程來實現功能的。對于observer的流程不再敘述,observer流程和Follower的唯一不同的地方就是observer不會參加leader發(fā)起的投
12、票。主流應用場景:Zookeeper的主流應用場景實現思路(除去官方示例)(1) 配置管理集中式的配置管理在應用集群中是非常常見的,一般商業(yè)公司內部都會實現一套集中的配置管理中心,應對不同的應用集群對于共享各自配置的需求,并且在配置變更時能夠通知到集群中的每一個機器。Zookeeper很容易實現這種集中式的配置管理,比如將APP1的所有配置配置到/APP1 znode下,APP1所有機器一啟動就對/APP1這個節(jié)點進行監(jiān)控(zk.exist(/APP1,true),并且實現回調方法Watcher,那么在zookeeper上/APP1 znode節(jié)點下數據發(fā)生變化的時候,每個機器都會收到通知,W
13、atcher方法將會被執(zhí)行,那么應用再取下數據即可(zk.getData(/APP1,false,null);以上這個例子只是簡單的粗顆粒度配置監(jiān)控,細顆粒度的數據可以進行分層級監(jiān)控,這一切都是可以設計和控制的。(2) 集群管理應用集群中,我們常常需要讓每一個機器知道集群中(或依賴的其他某一個集群)哪些機器是活著的,并且在集群機器因為宕機,網絡斷鏈等原因能夠不在人工介入的情況下迅速通知到每一個機器。Zookeeper同樣很容易實現這個功能,比如我在zookeeper服務器端有一個znode叫/APP1SERVERS,那么集群中每一個機器啟動的時候都去這個節(jié)點下創(chuàng)建一個EPHEMERAL類型的節(jié)
14、點,比如server1創(chuàng)建/APP1SERVERS/SERVER1(可以使用ip,保證不重復),server2創(chuàng)建/APP1SERVERS/SERVER2,然后SERVER1和SERVER2都watch /APP1SERVERS這個父節(jié)點,那么也就是這個父節(jié)點下數據或者子節(jié)點變化都會通知對該節(jié)點進行watch的客戶端。因為EPHEMERAL類型節(jié)點有一個很重要的特性,就是客戶端和服務器端連接斷掉或者session過期就會使節(jié)點消失,那么在某一個機器掛掉或者斷鏈的時候,其對應的節(jié)點就會消失,然后集群中所有對/APP1SERVERS進行watch的客戶端都會收到通知,然后取得最新列表即可。另外有一
15、個應用場景就是集群選master,一旦master掛掉能夠馬上能從slave中選出一個master,實現步驟和前者一樣,只是機器在啟動的時候在APP1SERVERS創(chuàng)建的節(jié)點類型變?yōu)镋PHEMERAL_SEQUENTIAL類型,這樣每個節(jié)點會自動被編號我們默認規(guī)定編號最小的為master,所以當我們對/APP1SERVERS節(jié)點做監(jiān)控的時候,得到服務器列表,只要所有集群機器邏輯認為最小編號節(jié)點為master,那么master就被選出,而這個master宕機的時候,相應的znode會消失,然后新的服務器列表就被推送到客戶端,然后每個節(jié)點邏輯認為最小編號節(jié)點為master,這樣就做到動態(tài)maste
16、r選舉。Zookeeper 監(jiān)視(Watches) 簡介Zookeeper C API 的聲明和描述在 include/zookeeper.h 中可以找到,另外大部分的 Zookeeper C API 常量、結構體聲明也在 zookeeper.h 中,如果如果你在使用 C API 是遇到不明白的地方,最好看看 zookeeper.h,或者自己使用 doxygen 生成 Zookeeper C API 的幫助文檔。Zookeeper 中最有特色且最不容易理解的是監(jiān)視(Watches)。Zookeeper 所有的讀操作getData(),getChildren(), 和exists()都 可以設置
17、監(jiān)視(watch),監(jiān)視事件可以理解為一次性的觸發(fā)器, 官方定義如下: a watch event is one-time trigger, sent to the client that set the watch, which occurs when the data for which the watch was set changes。對此需要作出如下理解:(一次性觸發(fā))One-time trigger當設置監(jiān)視的數據發(fā)生改變時,該監(jiān)視事件會被發(fā)送到客戶端,例如,如果客戶端調用了 getData(/znode1, true) 并且稍后 /znode1 節(jié)點上的數據發(fā)生了改變或者被刪除了
18、,客戶端將會獲取到 /znode1 發(fā)生變化的監(jiān)視事件,而如果 /znode1 再一次發(fā)生了變化,除非客戶端再次對 /znode1 設置監(jiān)視,否則客戶端不會收到事件通知。(發(fā)送至客戶端)Sent to the clientZookeeper 客戶端和服務端是通過 socket 進行通信的,由于網絡存在故障,所以監(jiān)視事件很有可能不會成功地到達客戶端,監(jiān)視事件是異步發(fā)送至監(jiān)視者的,Zookeeper 本身提供了保序性(ordering guarantee):即客戶端只有首先看到了監(jiān)視事件后,才會感知到它所設置監(jiān)視的 znode 發(fā)生了變化(a client will never see a cha
19、nge for which it has set a watch until it first sees the watch event). 網絡延遲或者其他因素可能導致不同的客戶端在不同的時刻感知某一監(jiān)視事件,但是不同的客戶端所看到的一切具有一致的順序。(被設置 watch 的數據)The data for which the watch was set這意味著 znode 節(jié)點本身具有不同的改變方式。你也可以想象 Zookeeper 維護了兩條監(jiān)視鏈表:數據監(jiān)視和子節(jié)點監(jiān)視(data watches and child watches) getData() and exists() 設置數
20、據監(jiān)視,getChildren() 設置子節(jié)點監(jiān)視。 或者,你也可以想象 Zookeeper 設置的不同監(jiān)視返回不同的數據,getData() 和 exists() 返回 znode 節(jié)點的相關信息,而 getChildren() 返回子節(jié)點列表。因此, setData() 會觸發(fā)設置在某一節(jié)點上所設置的數據監(jiān)視(假定數據設置成功),而一次成功的 create() 操作則會出發(fā)當前節(jié)點上所設置的數據監(jiān)視以及父節(jié)點的子節(jié)點監(jiān)視。一次成功的 delete() 操作將會觸發(fā)當前節(jié)點的數據監(jiān)視和子節(jié)點監(jiān)視事件,同時也會觸發(fā)該節(jié)點父節(jié)點的child watch。Zookeeper 中的監(jiān)視是輕量級的,因
21、此容易設置、維護和分發(fā)。當客戶端與 Zookeeper 服務器端失去聯(lián)系時,客戶端并不會收到監(jiān)視事件的通知,只有當客戶端重新連接后,若在必要的情況下,以前注冊的監(jiān)視會重新被注冊并觸發(fā),對于開發(fā)人員來說 這通常是透明的。只有一種情況會導致監(jiān)視事件的丟失,即:通過 exists() 設置了某個 znode 節(jié)點的監(jiān)視,但是如果某個客戶端在此 znode 節(jié)點被創(chuàng)建和刪除的時間間隔內與 zookeeper 服務器失去了聯(lián)系,該客戶端即使稍后重新連接 zookeeper服務器后也得不到事件通知。Zookeeper C API 常量與部分結構(struct)介紹與 ACL 相關的結構與常量:struct
22、 Id 結構為:structIdchar*scheme;char*id;struct ACL 結構為:structACLint32_tperms;structIdid;struct ACL_vector 結構為:structACL_vectorint32_tcount;structACL*data;與 znode 訪問權限有關的常量constintZOO_PERM_READ; /允許客戶端讀取 znode 節(jié)點的值以及子節(jié)點列表。constintZOO_PERM_WRITE;/ 允許客戶端設置 znode 節(jié)點的值。constintZOO_PERM_CREATE; /允許客戶端在該 znode
23、 節(jié)點下創(chuàng)建子節(jié)點。constintZOO_PERM_DELETE;/允許客戶端刪除子節(jié)點。constintZOO_PERM_ADMIN; /允許客戶端執(zhí)行 set_acl()。constintZOO_PERM_ALL;/允許客戶端執(zhí)行所有操作,等價與上述所有標志的或(OR) 。與 ACL IDs 相關的常量structId ZOO_ANYONE_ID_UNSAFE; /(world,anyone)structId ZOO_AUTH_IDS;/ (auth,)三種標準的 ACL1、structACL_vector ZOO_OPEN_ACL_UNSAFE;/(ZOO_PERM_ALL,ZOO_A
24、NYONE_ID_UNSAFE)2、structACL_vector ZOO_READ_ACL_UNSAFE;/ (ZOO_PERM_READ, ZOO_ANYONE_ID_UNSAFE)3、structACL_vector ZOO_CREATOR_ALL_ACL; /(ZOO_PERM_ALL,ZOO_AUTH_IDS)與 Interest 相關的常量:ZOOKEEPER_WRITE,ZOOKEEPER_READ這 兩個常量用于標識感興趣的事件并通知 zookeeper 發(fā)生了哪些事件。Interest 常量可以進行組合或(OR)來標識多種興趣(multiple interests: wri
25、te, read),這兩個常量一般用于 zookeeper_interest() 和 zookeeper_process()兩個函數中。與節(jié)點創(chuàng)建相關的常量:ZOO_EPHEMERAL,ZOO_SEQUENCEzoo_create 函數標志,ZOO_EPHEMERAL用來標識創(chuàng)建臨時節(jié)點,ZOO_SEQUENCE用來標識節(jié)點命名具有遞增的后綴序號(一般是節(jié)點名稱后填充 10 位字符的序號,如 /xyz0000000000, /xyz0000000001, /xyz0000000002, .),同樣地,ZOO_EPHEMERAL,ZOO_SEQUENCE可以組合。與連接狀態(tài) Stat 相關的常量
26、以下常量均與 Zookeeper 連接狀態(tài)有關,他們通常用作監(jiān)視器回調函數的參數。ZOOAPI const intZOO_EXPIRED_SESSION_STATEZOOAPI const intZOO_AUTH_FAILED_STATEZOOAPI const intZOO_CONNECTING_STATEZOOAPI const intZOO_ASSOCIATING_STATEZOOAPI const intZOO_CONNECTED_STATE與監(jiān)視類型(Watch Types)相關的常量以下常量標識監(jiān)視事件的類型,他們通常用作監(jiān)視器回調函數的第一個參數。ZOO_CREATED_EVEN
27、T; / 節(jié)點被創(chuàng)建(此前該節(jié)點不存在),通過 zoo_exists() 設置監(jiān)視。ZOO_DELETED_EVENT; / 節(jié)點被刪除,通過 zoo_exists() 和 zoo_get() 設置監(jiān)視。ZOO_CHANGED_EVENT; / 節(jié)點發(fā)生變化,通過 zoo_exists() 和 zoo_get() 設置監(jiān)視。ZOO_CHILD_EVENT; / 子節(jié)點事件,通過zoo_get_children() 和 zoo_get_children2()設置監(jiān)視。ZOO_SESSION_EVENT; / 會話丟失ZOO_NOTWATCHING_EVENT; / 監(jiān)視被移除。Zookeeper
28、 C API 錯誤碼介紹ZOO_ERRORSZOK正常返回ZSYSTEMERROR系統(tǒng)或服務器端錯誤(System and server-side errors),服務器不會拋出該錯誤,該錯誤也只是用來標識錯誤范圍的,即大于該錯誤值,且小于 ZAPIERROR 都是系統(tǒng)錯誤。ZRUNTIMEINCONSISTENCY運行時非一致性錯誤。ZDATAINCONSISTENCY數據非一致性錯誤。ZCONNECTIONLOSSZookeeper 客戶端與服務器端失去連接ZMARSHALLINGERROR在marshalling和unmarshalling數據時出現錯誤(Error while mars
29、halling or unmarshalling data)ZUNIMPLEMENTED該操作未實現(Operation is unimplemented)ZOPERATIONTIMEOUT該操作超時(Operation timeout)ZBADARGUMENTS非法參數錯誤(Invalid arguments)ZINVALIDSTATE非法句柄狀態(tài)(Invliad zhandle state)ZAPIERRORAPI 錯誤(API errors),服務器不會拋出該錯誤,該錯誤也只是用來標識錯誤范圍的,錯誤值大于該值的標識 API 錯誤,而小于該值的標識 ZSYSTEMERROR。ZNONODE節(jié)點不存在(Node does not exist)ZNOAUTH沒有經過授權(Not authentic
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 未來電商模式探索與展望
- 現代企業(yè)財務管理的倫理與責任
- 生產管理策略與工藝優(yōu)化技術
- 災害預防教育學校防災減災的必由之路
- 環(huán)保節(jié)能建筑的設計與實施案例分享
- 2024年重陽節(jié)活動策劃方案-11
- 現代物流與科技融合的商業(yè)模式
- 國慶節(jié)房地產促銷方案
- 2024年五年級英語上冊 Unit 6 In a nature park Part A 第三課時說課稿 人教PEP
- 2024-2025學年新教材高中語文 第二單元 5 雷雨(節(jié)選)(1)說課稿 部編版必修下冊
- 2025年1月浙江省高考政治試卷(含答案)
- 教體局校車安全管理培訓
- 湖北省十堰市城區(qū)2024-2025學年九年級上學期期末質量檢測綜合物理試題(含答案)
- 導播理論知識培訓班課件
- 空氣能安裝合同
- 中國人婚戀狀況調查報告公布
- 早產兒視網膜病變
- GB 10665-1997碳化鈣(電石)
- 《中小學教育懲戒規(guī)則》重點內容學習PPT課件(帶內容)
- 板帶生產工藝5(熱連軋帶鋼生產)課件
- 2022年同等學力英語考試真題及詳解
評論
0/150
提交評論