版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Ceph RADOS簡(jiǎn)介 (Reliable, Autonomic Distributed Object Store) 京東虛擬化總監(jiān) 何雨 架構(gòu)簡(jiǎn)介 兩個(gè)部分組成: 由數(shù)目可變的大規(guī)模OSDs(Object Storage Devices)組成的集群,負(fù)責(zé)存儲(chǔ)所有的Objects數(shù)據(jù) 由少量Monitors組成的強(qiáng)耦合、小規(guī)模集群,負(fù)責(zé)管理Cluster Map,其中Cluster Map是整個(gè)RADOS系統(tǒng)的關(guān)鍵數(shù)據(jù)結(jié)構(gòu),管理集群中的所有成員、關(guān)系、屬性等信息以及數(shù)據(jù)的分發(fā)。Cluster Map 管理cluster的核心數(shù)據(jù)結(jié)構(gòu) 指定了OSDs和數(shù)據(jù)分布信息 monitor上存有最新副本
2、 依靠epoch增加來維護(hù)及時(shí)更新 增量信息Cluster Map 1.The Monitor Mapcluster fsid, the position, name address and port of each monitor 2.The OSD Mapcluster fsid,a list of pools, replica sizes, PG numbers, a list of OSDs and their status 3.The PG Map:PG version, its time stamp, the last OSD map epoch, the full ratios,
3、 and details on each placement group such as the PG ID,the Up Set, the Acting Set, the state of the PG (e.g., active + clean), and data usage statistics for each pool. 4.The CRUSH Mapa list of storage devices, the failure domain hierarchy (e.g., device, host, rack, row, room, etc.), and rules for tr
4、aversing the hierarchy when storing data 5.The MDS MapMDS map epoch,the pool for storing metadata, a list of metadata servers, and which metadata servers are up and in數(shù)據(jù)存放1Object到PG的映射。PG (Placement Group)是Objects的邏輯集合。相同PG里的Object會(huì)被系統(tǒng)分發(fā)到相同的OSDs集合中。由Object的名稱通過Hash算法得到的結(jié)果結(jié)合其他一些修正參數(shù)可以得到Object所對(duì)應(yīng)的PG。2
5、RADOS系統(tǒng)根據(jù)根據(jù)Cluster Map將PGs分配到相應(yīng)的OSDs。這組OSDs正是PG中的Objects數(shù)據(jù)的存儲(chǔ)位置。RADOS采用CRUSH算法實(shí)現(xiàn)了一種穩(wěn)定、偽隨機(jī)的hash算法。CRUSH實(shí)現(xiàn)了平衡的和與容量相關(guān)的數(shù)據(jù)分配策略。CRUSH得到的一組OSDs還不是最終的數(shù)據(jù)存儲(chǔ)目標(biāo),需要經(jīng)過初步的filter,因?yàn)閷?duì)于大規(guī)模的分布式機(jī)群,宕機(jī)等原因使得部分節(jié)點(diǎn)可能失效,filter就是為過濾這些節(jié)點(diǎn),如果過濾后存儲(chǔ)目標(biāo)不能滿足使用則阻塞當(dāng)前操作。關(guān)于pools 是一個(gè)存儲(chǔ)對(duì)象的邏輯分區(qū)概念 所有權(quán)/訪問對(duì)象 對(duì)象副本的數(shù)目 PG數(shù)目 CRUSH規(guī)則集的使用 以上后三項(xiàng)決定ceph
6、最后如何存儲(chǔ)數(shù)據(jù)計(jì)算PG的ID 1.Client輸入pool ID和對(duì)象ID(如pool=liverpool,object-id=john) 2.CRUSH獲得對(duì)象ID并對(duì)其hash 3.CRUSH計(jì)算OSD個(gè)數(shù)hash取模獲得PG的ID(如0 x58) 4.CRUSH獲得已命名pool的ID(如liverpool=4) 5.CRUSH預(yù)先考慮到pool ID相同的PG ID(如4.0 x58)Device Stateinoutassigned PGsnot assigned PGsuponline activeonline & idle& reachabledownunrea
7、chableunreachablefailed& not remappedpeer和set peer 屬于同一個(gè)PG 彼此檢查心跳 數(shù)據(jù)同步 set Acting set PG內(nèi)所有osd屬于Acting set Up set PG內(nèi)up&in的osdmap傳播 所有消息傳播都有一個(gè)epoch client端: 首次進(jìn)入去找monitor要最新副本 存取時(shí)找OSD對(duì)比epoch OSD端: peers之間保持心跳 只保證兩個(gè)OSD之間同步數(shù)據(jù)復(fù)制 讀文件通過一個(gè)OSD 主OSD 寫文件通過多個(gè)OSD復(fù)制 Client把對(duì)象寫進(jìn)一個(gè)確定的PG組中的主OSD 主OSD利用CRUSH map用來確定二級(jí)OSDs,復(fù)制的對(duì)象放入其中。 對(duì)象存儲(chǔ)成功后進(jìn)行響應(yīng)client。數(shù)據(jù)復(fù)制錯(cuò)誤檢測(cè)和恢復(fù) 錯(cuò)誤檢測(cè): 利用心跳 上報(bào)monitor 更新map 錯(cuò)誤恢復(fù) 主osd主持恢復(fù)工作 若主osd掛掉,二級(jí)osd選擇一個(gè)頂上數(shù)據(jù)條帶化 由于存儲(chǔ)設(shè)備吞吐量的限制,影響性能和可伸縮性。 跨多個(gè)存儲(chǔ)設(shè)備的連續(xù)塊條帶化存儲(chǔ)信息,以提高吞吐量和性能 Ceph條帶化相似于RAID0 注意:ceph條帶化屬于client端,不在RADOS范疇注意:條帶化是獨(dú)立于對(duì)象副本的。由于CRUSH副本對(duì)象跨越OSDs,所以條帶自動(dòng)的被復(fù)制。條帶化參數(shù) Object Size: 足夠大可以容納條帶單元,必
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 人教版九年級(jí)數(shù)學(xué)上冊(cè)《直線與圓的位置關(guān)系》教學(xué)設(shè)計(jì)
- 《國(guó)際商務(wù)英語》課程教學(xué)大綱
- 2024版電力配送協(xié)議電力配送協(xié)議范本3篇
- 2025年建筑材料研發(fā)與綠色制造技術(shù)合作合同3篇
- 2024游樂場(chǎng)場(chǎng)地租賃合同-包含兒童游樂設(shè)施安全檢測(cè)及維護(hù)3篇
- 2024年限量版環(huán)保保溫材料銷售協(xié)議版B版
- 2024年美團(tuán)戰(zhàn)略合作框架合同樣本版B版
- 2024版人才派遣協(xié)議
- 24 京劇趣談 說課稿-2024-2025學(xué)年統(tǒng)編版語文六年級(jí)上冊(cè)
- 2一次性付款2024年地產(chǎn)交易合同范本
- DJG330110-T 0101-2022 電動(dòng)自行車充換電站建設(shè)及運(yùn)營(yíng)管理規(guī)范
- 2023年中考語文二輪復(fù)習(xí):圖(表)文轉(zhuǎn)化之徽標(biāo)圖標(biāo) 練習(xí)題匯編(含答案解析)
- 健康產(chǎn)業(yè)園規(guī)劃方案
- 高考培優(yōu)方案
- 2023年中考語文二輪復(fù)習(xí):名著閱讀 真題練習(xí)題匯編(含答案解析)
- 《汽車驅(qū)動(dòng)橋》汽車標(biāo)準(zhǔn)
- 投資的本質(zhì):巴菲特的12個(gè)投資宗旨
- 護(hù)欄和扶手制作與安裝工程檢驗(yàn)批質(zhì)量驗(yàn)收記錄
- 食堂安全操作規(guī)范培訓(xùn)課件(48張)
- 水庫引調(diào)水工程項(xiàng)目可行性研究報(bào)告
- 乳頭混淆介紹演示培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論