分布式存儲基礎(chǔ)、Ceph、cinder及華為軟件定義的存儲方案_第1頁
分布式存儲基礎(chǔ)、Ceph、cinder及華為軟件定義的存儲方案_第2頁
分布式存儲基礎(chǔ)、Ceph、cinder及華為軟件定義的存儲方案_第3頁
分布式存儲基礎(chǔ)、Ceph、cinder及華為軟件定義的存儲方案_第4頁
分布式存儲基礎(chǔ)、Ceph、cinder及華為軟件定義的存儲方案_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

塊存儲與分布式存儲,在Linuxlsblk可以得到當(dāng)前主機上塊設(shè)備信息列表。本文包括了單機塊存儲介紹、分布式存儲技術(shù)Ceph介紹,云中的塊存儲Cinder,以及華為軟件定義的存儲解決方案。單機塊存儲一個硬盤是一個塊設(shè)備,內(nèi)核檢測到硬盤然后在/dev/下會看到/dev/sda/。由于需要利用一個硬盤來得到不同的分區(qū)來做不同的事,通過fdisk工具得到/dev/sda1,/dev/sda2等,這種方式通過直接寫入分區(qū)表來規(guī)定和切分硬盤,是最死板的分區(qū)方式。分布式塊存儲在面對極具彈性的存儲需求和性能要求下,單機或者獨立的SAN越來越不能滿足企業(yè)的需要。如同數(shù)據(jù)庫系統(tǒng)一樣,塊存儲在scaleupscaleout的需要。分布式塊存儲系統(tǒng)具有以下特性:分布式塊存儲可以為任何物理機或者虛擬機供給長久化的塊存儲設(shè)備;分布式塊存儲系統(tǒng)治理塊設(shè)備的創(chuàng)立、刪除和attach/detach;;IO性能要求的塊設(shè)備。Ceph、AMSESBsheepdog等。CephCeph概述Ceph目前是OpenStack支持的開源塊存儲實現(xiàn)系統(tǒng)(即Cinder工程backenddriver之一)。Ceph是一種統(tǒng)一的、分布式的存儲系統(tǒng)Ceph可以一套存儲系統(tǒng)化部署和運維Ceph系統(tǒng)中則意味著真正的無中心構(gòu)造和沒有理論上限的系統(tǒng)規(guī)??蓴U展性。Ceph具有很好的性能、牢靠性和可擴展性。其核心設(shè)計思想,概括為八個字—“無需Ceph系統(tǒng)的層次構(gòu)造Ceph系統(tǒng)分為四個層次:RADOS〔Reliable,Autonomic,DistributedObjectStore,即牢靠的、自動化的、分布式的對象存儲;LIBRADOS;SS、〔e〕和hhe。S〔eD和clustermapRADOS供給的特定算法相協(xié)作,便實現(xiàn)Ceph“無需查表,算算就好”的核心機制以及假設(shè)干優(yōu)秀特性。OSD〔OSDdeamon〕OSD的系統(tǒng)局部本質(zhì)上就是一臺安裝了操作系統(tǒng)和文件系統(tǒng)的計算機核的處理器、肯定數(shù)量的內(nèi)存、一塊硬盤以及一張網(wǎng)卡。在上述系統(tǒng)平臺上,每個OSD擁OSDdeamondeamonOSDmonitorOSD〔OSDdeamon〕OSD共同完client通信完成各種數(shù)據(jù)對象操作等等。Ceph中的數(shù)據(jù)尋址用戶存儲數(shù)據(jù)時的數(shù)據(jù)路由過程如以下圖所示:首先明確幾個概念:File——用戶需要存儲或者訪問的文件Ceph開發(fā)的對象存儲應(yīng)用而言,這個e也就對應(yīng)于應(yīng)用中的“對象Ojbect——RADOS所看到的“對象Objectfile的區(qū)分是,object的最大e由S限定〔通常為B或,以便實現(xiàn)底層存儲的組織治理。因此,當(dāng)上層RADOSsizefile時,需要將fileobject〔最終一個的大小可以不同〕進展存儲。PG〔PlacementGroup〕——顧名思義,PGobject的存儲進展組織和位置映G負責(zé)組織假設(shè)干個〔可以為數(shù)千個甚至更多t只PG中,即,PGobject之間是“一對多”映射關(guān)系。同時,一個PG會被nOSDOSDPG,即,PGOSD之間是“多對多”映射關(guān)系。在實踐當(dāng)中,n23OSDPG則可到達數(shù)百個。事實上,PG數(shù)量的設(shè)置牽扯到數(shù)據(jù)分布的均勻性問題。OSDobjectstoragedevice。數(shù)據(jù)路由的過程需要經(jīng)過幾次尋址:File->object映射。這次映射的目的是,將用戶要操作的fileRADOS能夠處理object。其映射格外簡潔,本質(zhì)上就是依據(jù)objectsizefile進展切分。這種切分filesizeRADOSobject;fileobject實施的并行化處理。Object->PGfileobjectobject獨立PGhash(oid)&mask->pgidRADOS的設(shè)計,給定PGm〔m2的整數(shù)冪maskm-1的整體結(jié)果事實上是從全部m個PGobjectPG時,RADOSobjectPG之間的近似均勻映射。PG->OSDobjectPG映射到數(shù)據(jù)的實OSD。如下圖,RADOSCRUSHpgid代入其中,然后得到一組共nOSD。這nOSDPGobject。前已述及,n的數(shù)值可以依據(jù)實際應(yīng)用中對于牢靠性的需求而配置,在生產(chǎn)環(huán)境下通常為3。具體OSDOSDdeamonobject在本地文件系統(tǒng)中“object->OSD”映射中承受的哈希算法不同,CRUSH算〔clustermap〕和存儲配置策略的影響。OSD狀態(tài)、數(shù)量發(fā)生變化時,Clustermap發(fā)生變化,映射的結(jié)果也就發(fā)生了變化。寫數(shù)據(jù)的流程clientCephfile時,首先需要在本地完成尋址流程,將fileobjectobjectOSD。OSD后,clientPrimaryOSD通信,發(fā)起寫入操作。PrimaryOSD收到懇求后,分別向SecondaryOSD和TertiaryOSD發(fā)起寫入操作。當(dāng)SecondaryOSDTertiaryOSD各自完成寫入操作后PrimaryOSD發(fā)送確認(rèn)信息;PrimaryOSDOSDclientobject寫入操作完成。集群維護monitorCephOSD狀態(tài)的覺察與記錄,并且共同clustermapmasterOSDclient。OSD使用clustermapclientclustermap進展數(shù)據(jù)的尋址。monitorOSD的當(dāng)前狀態(tài)。正相反,OSDmonitor上報狀態(tài)OSD被參加集群,二是某個OSD覺察自身或者其他Dr將更rp信息并加以集中。OSD時monitor通信,monitorclustermapupoutclustermapOSDmonitorclustermap之OSDPGPGOSD。然后與這些DG〔即承載該G的D個數(shù)少于正常值,OSDPGOSDOSD被upin狀態(tài),clustermap也更。自動化故障恢復(fù)OSDPGOSD將替換掉故障〔G內(nèi)將重選出yD,并擔(dān)當(dāng)其數(shù)據(jù)。在數(shù)據(jù)復(fù)制完成后,D被置為upinOSDPGclustermap內(nèi)容也將據(jù)此更。自動化的故障探測過程OSDPGOSD無法聯(lián)通,則會將這一狀況monitorOSDdeamon覺察自身工作狀態(tài)特別,也將把特別狀況主動monitor。此時,monitorOSDdownin。假設(shè)超過某一預(yù)定時間期限該OSDdown且out。假設(shè)該OSD能夠恢復(fù)正常,則其狀態(tài)會恢復(fù)成upin。OpenStackcephCephRADOSLIBRADOSRADOS的庫。hD、文件系統(tǒng)〔CEPHFS〕也就是基于這個庫完成的。在OpenStack中使用CephQEMU,libvirt和OpenStack描述了OpenStack和Ceph技術(shù)層次。libvirt配置了librbd的QEMU接口,通過它可以在OpenStack中使用CephOpenStack通過libvirt中的接口調(diào)用QEMU,QEMUCephlibRBDOpenStackCeph使用。OpenStack與Ceph有三個結(jié)合點:鏡像:OpenStackGlance治理虛擬機鏡像。鏡像是不變的。OpenStack把鏡像當(dāng)作二進制對象并以此格式下載。卷:卷是塊設(shè)備。OpenStack使用卷來啟動虛擬機,或者綁定卷到運行中的虛擬機。OpenStack使用Cinder效勞治理卷。統(tǒng)盤以文件的形式消滅在r系統(tǒng)上〔。在OpenStackHavana以前的版本,在Ceph中啟動虛擬機的唯一方式是使用Cinder的boot-from-volumeCeph中直接啟動虛擬機而不用依靠于Cinder,這是格外有利的,能夠很簡潔的進展虛擬機的熱遷移。除此之外,假設(shè)hypervisor掛掉還能夠便利地觸發(fā)novaevacute然后無縫得在其他的地方連續(xù)運行虛擬機。Ceph的一些問題Ceph作為塊存儲工程的幾個問題需要考慮:h在讀寫上不太穩(wěn)定〔有s的緣由,目前h官方推舉S作為底層文件系統(tǒng)CephCeph,需要較長時間Ceph的部署和集群不夠穩(wěn)定AMSEBSEBSAmazonEBSvolume和快照操作。AmazonEBSIAAS效勞商最引入注目的效勞之一,目前的OpenStack、CloudStackAmazonEBS對于的如此彈性和強大的效勞。SheepdogSheepdogCephhackSheepdogCephMulti-Disk,cluster-widesnapshot等。Sheepdog主要有兩局部,一個是集群治理,另一個是存儲效勞。集群治理目前使用CorosyncZookperclienthostCache的實現(xiàn)可以大大減小數(shù)據(jù)流量。SheepdogQEMUDrive,而缺少library支持,這是Sheepdog目前最主要的問題。云計算中的塊存儲OpenStackCinderNova利用主機的本地存儲為虛擬機供給“臨時存儲”,假設(shè)虛擬機被刪除了,掛在這個SANNAS等不同類型的存儲設(shè)備,OpenStackCinder,Swift存儲場地。CinderOpenStackEBSAPI框架,為虛擬機供給長久化的Cinder供給的RESTfulAPI針對規(guī)律存儲卷進展治理。其架構(gòu)如下:cinderclientRestful懇求,cinder-apicinder構(gòu)造。Cinder-volume運行在存儲節(jié)點上治理具體存儲設(shè)備的存儲空間,每個存儲節(jié)點上都會運行一個cinder-volume效勞,多個節(jié)點一起構(gòu)成了一個存儲資源池。Cinder-Scheduler依據(jù)預(yù)定的策略選擇適宜的cinder-volume節(jié)點來處理客戶懇求。Cinder-backup供給存儲卷備份功能。CinderCinderOpenStackDAS,NAS,SAN,對象存儲或者分布式文件系統(tǒng)如cephCinder的Cinder過其后段支持的driverOpenStackDB中。CinderLVM作為后端存儲。LVM將眾多不同的物理存儲器資源組成卷組,從卷組上創(chuàng)立規(guī)律卷,然后將文件系統(tǒng)安裝在規(guī)律卷上。其更為細化的架構(gòu)如以下圖所示:華為軟件定義的存儲方案軟件定義的存儲傳統(tǒng)的存儲當(dāng)中,存儲不感知VM,存儲擴展困難,LUNVMLUNIOblending的問題。為解決傳統(tǒng)存儲的問題,可得到軟件定義的存儲具有以下幾個特征:自助式的用戶接口SLA保障各種存儲資源統(tǒng)一池化,自動化治理兼容任意硬件,包括通用硬件和專用存儲硬件。華為軟件定義的存儲相關(guān)技術(shù)的華為塊存儲為解決傳統(tǒng)存儲中配置困難、兼容性不好等問題,華為承受了統(tǒng)一的、策略驅(qū)動的存儲掌握平面——OpenStackCinder。CinderAPI是統(tǒng)一的卷治理接口;CinderSchuduler是基于策略的存儲資源調(diào)度;CinderVolumedriver,如以下圖所示:Cinderdriver之間不能互通,數(shù)據(jù)面的力量照舊參差不齊;各產(chǎn)品之間特性會重疊;整個數(shù)據(jù)面還不夠開放。目標(biāo)架構(gòu)→左邊的圖是當(dāng)前的架構(gòu),右邊的圖為目標(biāo)架構(gòu)?!蓤D可以看出,目標(biāo)架構(gòu)中增加了一層以APP為中心的數(shù)據(jù)效勞,期望供給統(tǒng)一的以APP商。APPAPPQoSAPP為中心的緩存效勞,APPApp力度的策略治理,虛appQoS要求,如帶寬,IOPS,延遲;可配置Cache需求,如介質(zhì),容量,算法,牢靠性;可配置瘦安排需求,如總?cè)萘?,預(yù)留容量。QoS效勞通過分布式流控、分布式調(diào)度和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論