EMC存儲最佳實(shí)踐培訓(xùn)手冊_第1頁
EMC存儲最佳實(shí)踐培訓(xùn)手冊_第2頁
EMC存儲最佳實(shí)踐培訓(xùn)手冊_第3頁
EMC存儲最佳實(shí)踐培訓(xùn)手冊_第4頁
EMC存儲最佳實(shí)踐培訓(xùn)手冊_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、BestPracticeFrom DOIT WIKIJump to: navigation , search版權(quán)聲明:EMC存儲最佳實(shí)踐R22的版權(quán)歸美國EM(公司所有,感謝DOSTOR 網(wǎng)友/Arthas的全力翻譯。EMC存儲最佳實(shí)踐R22中文譯稿可以轉(zhuǎn)載,轉(zhuǎn)載時請 務(wù)必以超鏈接形式標(biāo)明文章原始出處 DOSTO存儲在線和作者與譯者信息及本聲 明。目錄隱藏1 一.關(guān)于性能的探討o 1.性能的定義o 2.應(yīng)用的設(shè)計為順序或者隨機(jī)I/O的優(yōu)化I/O 的大小暫時的模式和峰值的表現(xiàn)(temporal patterns and peak activities )o 3 .主機(jī)文件系統(tǒng)影響文件系統(tǒng)的緩沖和

2、組合(coalesce )最小化I/O的大?。何募到y(tǒng)的request size最大化的I/O大小文件系統(tǒng)的fragmentation校正對齊問題的 I/O fragementingo 4.卷管理器 Volume Managers Plaid應(yīng)該做的Plaid不應(yīng)該做的Plaid為高帶寬的設(shè)置Plaids and OLTPo 5. 主機(jī)HBA的影響HBA卡的限制Powerpatho 6. MetaLUNs對比metaLUN和卷管理器MetaLUN的使用說明和推薦MetaLUN的擴(kuò)充戰(zhàn)略o 7.存儲控制器的影響A . CLARiiON的存儲控制器B.磁盤的級別和性能o 引擎的緩存緩存的大小和速度

3、緩存的設(shè)定o 9.后端設(shè)備(磁盤的子系統(tǒng))LUN的分布C .系統(tǒng)和啟動硬盤的影響D .使用LUN和RAID組的編號方式E .最小化硬盤的競爭F . Stripe 和 Stripe element 的大小CLARiiON RAID 5 的 stripe 優(yōu)化每一個RAID組的硬盤的個數(shù)I .在一個存儲系統(tǒng)里應(yīng)該使用多少個硬盤 J. 硬盤的類型和大小2二.為可用性和冗余做考慮o 1.高可用性的配屬o 2. RAID-level 的考慮RAID 5RAID 1/0RAID 3熱備份(Hot spares )編輯o 3.把RAID組通過總線和DAE綁定A.跨DAE來綁定硬盤B.跨后端總線綁定硬盤C.通

4、過DPE磁盤綁定D.熱備份的策略o 4.數(shù)據(jù)復(fù)制的持續(xù)性關(guān)于性能的探討性能調(diào)優(yōu)有多重要呢在一個 Raid 5的陣列組中使用5-9塊硬盤和使用默認(rèn)的設(shè) 置,CLARiiON光纖儲系統(tǒng)能發(fā)揮極好的性能這是EM(在性能測試實(shí)驗室里 測試自己的CLARiiON系統(tǒng)得出來的。CLARiiON存儲系統(tǒng)默認(rèn)的設(shè)置是為實(shí)際環(huán)境中遇到的大部分工作情形所設(shè)計 的。但是,有一些工作情景還是需要調(diào)優(yōu)來實(shí)現(xiàn)存儲系統(tǒng)的最佳配置。為什么在陣列組里用5到9塊硬盤這個設(shè)置并沒有任何神奇的地方, 也不是因為 這個配置有什么特殊的優(yōu)化。然而,Raid 5使用這個數(shù)量的硬盤確實(shí)是最有效的利用了校驗,同時也能在合理的時間能重建數(shù)據(jù)。

5、更小的陣列組會有更高的校 驗開銷,而大的陣列組則會花更長的時間來重建數(shù)據(jù)。這份白皮書探討了在設(shè)計優(yōu)化系統(tǒng)方面的時設(shè)計到的許多要素。請注意這里提供的信息是非常有幫助的,尤其當(dāng)你充分理解了你的陣列的工作情形。因此, EMC 推薦你使用Navisphere Analyzer來分析你的陣列的工作情形,并且要定期的復(fù) 習(xí)和回顧相關(guān)文檔的基礎(chǔ)知識。同時,請記住在配置一個陣列的時候很少有顯而 易見的選擇,所以在有疑問的時候最好是按照默認(rèn)的配置和保守的評估。編輯1性能的定義以下的名詞在整個白皮書當(dāng)中都會用到。如果你對他們不熟悉,請回顧一下EMCCLARiiON Fibre Cha nnel Storage F

6、un dame ntals校驗讀取隨機(jī)響應(yīng)時間要求數(shù)據(jù)大小Request size順序條帶條帶元素 Stripe eleme nt 吞吐量Write-aside編輯應(yīng)用的設(shè)計 應(yīng)用的設(shè)計對系統(tǒng)的表現(xiàn)影響很大。提升性能的最佳方法的第一步就是應(yīng)用的優(yōu) 化。任何存儲系統(tǒng)的調(diào)優(yōu)都不可能建立一個非常差的應(yīng)用設(shè)計上面。編輯為順序或者隨機(jī)I/O的優(yōu)化非常典型的一個例子是,提升帶寬在順序訪問的調(diào)優(yōu)方面會起顯著作用,因為存 儲系統(tǒng)在順序I/O方面會更加有效率-尤其是在RAID5的時候。而為隨機(jī)訪問的 調(diào)優(yōu)則要改善吞吐量和更快的響應(yīng)時間,因為這樣會改善處理顧客響應(yīng)所花的時 間。讀和寫的對比寫比讀更加耗費(fèi)存儲系統(tǒng)的

7、資源,這是基于CLARiiO N對數(shù)據(jù)保護(hù)的機(jī)制的應(yīng)用。寫到write cache是鏡像到兩個存儲控制器的(SP。寫到帶校 驗的Raid Group會碰到校驗運(yùn)算的要求,而這也要求把冗余的信息寫到磁盤里 面。寫到鏡像的Raid Group會需要兩份數(shù)據(jù)的拷貝的寫入。讀的開銷相對會小一些,這是因為,從 CLARiiO N系統(tǒng)的讀的吞吐量會比寫的吞 吐量要大一些。但是,對大部分工作情形來看,數(shù)據(jù)往往是寫入write cache ,這樣會有更短的響應(yīng)時間。讀,在另一方面來說,可能命中cache,也可能不命中cache;而對大部分隨機(jī)的工作情形來說,讀比寫會有更高的相應(yīng)時間,因為 數(shù)據(jù)還是需要從磁盤里

8、面抓取。如果要達(dá)到高的隨機(jī)讀取吞吐量,需要更好的協(xié)作(concurrency )。編輯I/O 的大小每一個的I/O都有一個固定的開銷和一個變量的開銷,后者決定于其他的一些事 情,例如I/O的大小。大的I/O能提供更少的固定開銷因為有著更大的數(shù)據(jù)。因而,對CLARiiON而言大的I/O比小塊的I/O能提供更大的帶寬。如果有足夠的硬盤,在執(zhí)行大的I/O的時候后段總線的速度將會成為系統(tǒng)的性能瓶頸。小塊的隨機(jī)訪問應(yīng)用(例如 OLTP的瓶頸在于磁盤(的個數(shù)),而且很少達(dá)到后端總線速率。當(dāng)設(shè)計OLTP的時候,必須要使用基于磁盤(的個數(shù))的IOP來衡量,而不是使用基于總線的帶寬來衡量。然而,在一個CLARi

9、iON存儲系統(tǒng)里面,當(dāng)I/O到了某一個特定的大小的時候, 包括write caching 和prfetching 都會被bypass掉。是決定用一個大的I/O 請求還是把他分成幾個順序的請求,取決于應(yīng)用程序和它跟cache之間的相互作 用。這些相互作用在“The Raid engine Cache ”里會探討到。文件系統(tǒng)也可以影響到I/O的大小,這也在稍后的“ Host file-system impact ” 中描述到。編輯C.暫時的模式和峰值的表現(xiàn)(temporal patterns and peak activities)應(yīng)用的操作設(shè)計-如何去使用,什么時候去使用,什么時候需要去備份-都

10、會影 響到存儲系統(tǒng)的負(fù)載。例如,用作隨機(jī)訪問的應(yīng)用的存儲系統(tǒng),在備份和批量處 理的時候,需要好的順序性能。一般來說,對OLTP和消息應(yīng)用(任何跟大量隨機(jī)訪問I/O有關(guān)的),更高的并 發(fā)處理能力(concurrency )會更好。當(dāng)有更高的并發(fā)處理能力的時候,存儲系 統(tǒng)將會獲得更高的吞吐量。使用異步I/O是一種獲得更高的并發(fā)處理能力的通常 的手法。對帶寬而言,單線程的應(yīng)用幾乎不能有效地利用四塊硬盤以上帶來的好 處,除非request size 是非常大的(比2MB大)或者使用到volume manager. 當(dāng)最佳的順序性能達(dá)到的時候,而此時如果順序處理到磁盤的路徑是唯一的時 候,用戶還是可以從

11、有適度并發(fā)隨機(jī)訪問的光纖硬盤(每個硬盤的I/O在100以下)的設(shè)置中獲得一個可接受順序性能。編輯主機(jī)文件系統(tǒng)影響在主機(jī)層次,通過指定最小最大的I/O request size,文件系統(tǒng)也影響了應(yīng)用I/O的特性。編輯A.文件系統(tǒng)的緩沖和組合(coalesce )跟在存儲系統(tǒng)上的cache相似的是,緩沖是文件系統(tǒng)提高性能的一種主要方式。緩沖在大部分的情況下,文件系統(tǒng)的緩沖應(yīng)該最大化,因為這能減少存儲系統(tǒng)的負(fù)載。 然而,還是會有一些意外。一般來說,應(yīng)用自己來調(diào)配緩沖,能避免文件系統(tǒng)的緩沖或者在文件系統(tǒng)的緩沖 之外工作。這是基于應(yīng)用能更加有效的分配緩沖的假設(shè)之上。而且,通過避免文件系統(tǒng)的coalesc

12、e,應(yīng)用更能控制I/O的響應(yīng)時間。但是,正如在64位的服務(wù) 器里RAM勺容量將會提升到32GB或者更多,這也就有可能把這個文件系統(tǒng)都放 在緩沖里面。這就能使讀操作在緩沖下,性能會有非常顯著的提升。(寫操作應(yīng)該使用寫透(write-through )的方式來達(dá)到數(shù)據(jù)的持續(xù)性。結(jié)合 Coalescing文件系統(tǒng)的coalesce能幫助我們從存儲系統(tǒng)里獲得更高的帶寬。在大部分順序 訪問的操作里面,用最大鄰近和最大物理的文件系統(tǒng)設(shè)置來最大化文件系統(tǒng)的結(jié) 合Coalescing.例如,這種處理方式可以和備份程序一起把64KB的寫操作結(jié)合(coalesce ) 成一個完全 stripe 的寫操作,這樣在

13、write cache 被 bypass的 情況下,對于帶校驗的Raid會更加有效果。編輯B.最小化I/O的大小:文件系統(tǒng)的request size文件系統(tǒng)通常都被配置成一個最小的范圍大小,例如4KB, 8KB或者64KB,這是提供給陣列的最小的不可分割的請求。應(yīng)用使用的I/O在比這個范圍大小要小的 時候,會導(dǎo)致很多不必要的數(shù)據(jù)遷移和/或read-modify-write的情形出現(xiàn)。這也是考慮應(yīng)用和文件系統(tǒng)文件的最佳設(shè)置的最好辦法。(it is best to consult application and file system documentation for the optimal s

14、ettings)而request size 沒有被文件系統(tǒng)限制的 Raw partitio ns ,則沒有受到這個約束。編輯最大化的I/O大小如果想要快速的移動大量的數(shù)據(jù),那么一個大的I/O(64KB或更大)會更加有幫 助。在整合(coalescing )順序的寫操作成 Raid Group整個的stripe 的時候, 陣列將會更加有效率,正如預(yù)讀取大的順序讀操作一樣。大的I/O對從基于主機(jī) 的stipe獲得更好的帶寬而言也是很重要的,因為他們將會被基于srtipe的toplogy打散成更小的大小。編輯文件系統(tǒng)的fragmentation避免fragmentation 和 defragemen

15、tation 在一起,這是一個基礎(chǔ)的原貝U。注意 NTFS文件系統(tǒng)可能被分區(qū)成任何形式除了默認(rèn)的范圍大小,他們不能被大部分 的工具所defragement :這個API (程序的接口)并不能允許這樣做。執(zhí)行一個 文件級別的拷貝(到另一個LUN或者執(zhí)行一個文件系統(tǒng)的備份和恢復(fù))是defragement的一個有效的實(shí)現(xiàn)。跨越磁盤的小I/O在一些主機(jī)的類型里顯得更加重要,而我們接下來將會探討為 什么會導(dǎo)致這種狀況。當(dāng)以下情況發(fā)生的時候,跨越磁盤將會對響應(yīng)時間有一個顯而易見的影響:a)有大比例的block size 大于16KB的隨機(jī)I/Ob)Navisphere Analyzer 報告的硬盤的平均等

16、候隊列長度比 4大的時候?qū)R4KB 或者8KB邊界的時候(例如Exchange和Oracle ),工作負(fù)載將會從對齊中獲得 一些優(yōu)勢。但因為I/O當(dāng)中,小于6% (對于4KB或者12% (對于8KB的I/O 都會造成跨盤操作(碰巧的是他們可能會以并行的方式來完成)。這種額外的收 益可能很難在實(shí)踐中注意到。但如果當(dāng)一個特定的文件系統(tǒng)和/或應(yīng)用鼓勵使用對齊的地址空間并且位移(offset )被注明,EMC推薦使用操作系統(tǒng)的磁盤管理 來調(diào)整分區(qū)。Navisphere LUN的綁定位移(offset )工具應(yīng)該要小心的使用, 因為它可能反而會影響分層的應(yīng)用同步速度。在In tel架構(gòu)系統(tǒng)中的文件對齊I

17、n tel架構(gòu)的系統(tǒng),包括 win dows2000/wi ndows2003,都會受到在LUN上元數(shù)據(jù) 的位置的影響,這也會導(dǎo)致磁盤分區(qū)的不對齊。這是因為遺留的BIOS的代碼問題,BIOS里面用的是磁柱,磁頭和扇區(qū)地址來取代LBA地址。(這個問題一樣影響了使用in tel 架構(gòu)的linux 操作系統(tǒng),正如 wi ndowsNT 2000,和2003。這 個問題也一樣影響了運(yùn)行在in tel硬件上的VMWar系統(tǒng) fdisk 命令,正如 windows 的 Disk Manager,把 MBR( Master Boot Record)放 在每一個SCDI設(shè)備上。MBA各會占用設(shè)備上的63個扇區(qū)

18、。其余可訪問的地址是 緊接著這63個隱藏分區(qū)。這將會后續(xù)的數(shù)據(jù)結(jié)構(gòu)跟 CLARiiONRAID勺stripe變 得不對齊。在linux系統(tǒng)上,這個隱藏扇區(qū)的多少取決于 boot loader和/或磁盤管理軟件, 但63個扇區(qū)是一個最常遇到的情況。對于 VMware位移(offset )是63。在任何情況下,這個結(jié)果都為確定的比例的I/O而導(dǎo)致不對齊。大的I/O是最受 影響的。例如,假設(shè)使用 CLARiiON默認(rèn)的stripe element 64KB ,所有的64KB 的I/O都會導(dǎo)致跨盤操作。對于那些比這個 stripe element的小的I/O,會導(dǎo)致跨盤操作的I/O的比例,我們可以通過

19、以下公式來計算:Perce ntage of data cross in g=(I/O size)/(stripe eleme nt size)這個結(jié)果會給你一個大致的概念,在不對齊的時候的開銷狀況。當(dāng)cache慢慢被 填充的時候,這種開銷會變得更大。aa編輯F.校正對齊問題你可以選擇以下的方法之一來修正對齊的問題。記住,必須只是兩種方法之一:LUN的對齊位移(offset ) b.使用分區(qū)工具對任何特定的LUN只要使用其中一種,不是兩個。這個是我們經(jīng)常要強(qiáng)調(diào)的同時,當(dāng)設(shè)定一個 metaLUN只有那個base component需要分條的對齊(就是 那個被其他LUN掛靠上去的LUN 。如果使用

20、LUN的對齊位移,當(dāng)metaLUN建立 的時候,metaLUN的對齊位移也被設(shè)置了。當(dāng)擴(kuò)展一個metaLUN不需要再調(diào)整了。如果用了分區(qū)工具的方法,這個調(diào)整只需要在用戶第一次對 LUN分區(qū)的時候 來做。用什么方式來做當(dāng)沒有基于主機(jī)的程序在使用的時候,我們可以使用LUN對齊位移的方式。LUN對齊位移方法對一些復(fù)制的軟件操作,如 clo ne sync I/O , Snap View Copy On Write opertions , MirrowView sync I/O, SANCopy I/O 等,造成磁盤和 strip 跨盤的問題。如果可以,使用基于主機(jī)的分區(qū)工具方式。避免使用LUN對齊位

21、移方法,假如你在這個 LUN上使用了 SnapView, SANcopy,MirrorView。相反,應(yīng)該使用基于主機(jī)的分區(qū)工具方式。LUN的位移LUN的位移方法使用把LUN偏移,來達(dá)到對齊stripe分界的分區(qū)。LUN從第一個 RAID的stripe的末端開始。換一句話說,將 LUN的位移設(shè)置成RAID stripe的 大小,會讓(緊接著MBF開始的)文件系統(tǒng)對齊了,如下圖 2所示。LUN對齊位移的不足之處是它可能會造成任何要對 Raw LUN進(jìn)行操作的軟件的 I/O請求的不對齊。CLARiiON的復(fù)制會對raw LUN操作,如果LUN被位移了, 這也會產(chǎn)生跨磁盤的操作。Navisphere

22、中,當(dāng)LUN被bound的時候和block大小被設(shè)置成512byte的時候, 位移會被設(shè)置成特定的。例如,在一個 windows2003系統(tǒng),將會把63個block 設(shè)置為位移量。FLARE會調(diào)整stripe,因此用戶的數(shù)據(jù)就會從stripe的開頭來 開始。圖 2: Intel MBR with partition and LUN offset correction磁盤分區(qū)的對齊基于主機(jī)的分區(qū)程序使用增加可設(shè)定地址的區(qū)域的起始部分,來校正對齊的問 題;因此,可設(shè)定地址的空間在 RAID strip eleme nt的起始部分開始算起,或 者在整個strip的起始部分。因為LUN從正常的地方算起

23、,在RAID strip 的起 始部分,復(fù)制軟件操作也是對齊的。事實(shí)上,對于鏡像操作,當(dāng) secondary被寫 入的時候,primary的對齊是被保護(hù)了的,因為增加了的分區(qū)目錄被寫入了源LUN磁盤分區(qū)對齊和windows的系統(tǒng)在 WindowsNT, 2000, 2003 系統(tǒng)中,分區(qū)軟件,作為 WRKWindowsResource Kit) 的一部分,可以用來設(shè)定分區(qū)位移的開始。你必須要在數(shù)據(jù)寫入LUN之前做這件 事,因為diskpar會重新寫分區(qū)表:所有在LUN出現(xiàn)的數(shù)據(jù)都會丟失掉。對于隨機(jī)訪問操作或者是metaLUN在diskpart中設(shè)定起始位移的大小,跟對 被用來 Bi nd LU

24、N 的 stripe eleme nt size的大小一致(一般 128blocks )。對于高帶寬要求的應(yīng)用,設(shè)定起始位移的大小跟LUN stripe size 的大小一致。開始,用Disk Manager來獲得磁盤的數(shù)目。在命令行中,使用diskpar加上-i的選項:diskpar -i x ( 新的大小是磁盤個數(shù))來檢查已經(jīng)存在的位移:C:diskpar -i 0Drive 0 Geometry In formati on Drive Partition 0 Information Statri ngOffset = 32256 Partitio nLe ngth = 664 Hidde

25、 nSectors = 63。注意HiddenSectors的值。這就是分區(qū)的位移的數(shù)值1.假如磁盤X有數(shù)據(jù)你不想丟失,那么備份那個數(shù)據(jù)2.假如磁盤X是一個Raw Drive,跳到第四部。3.刪掉在磁盤X上所有的分區(qū),使之成為一個RawDisk。在命令行中使用diskpar -s X (X是磁盤個數(shù))5.輸入新的起始位移(單位sectors)和分區(qū)長度(單位MB)b這一步驟寫入為那個磁盤寫入新的 MBR和創(chuàng)建新的分區(qū)。在你輸入起始位移和分區(qū)大小,MBR就被修改了,而新的分區(qū)信息出現(xiàn)了。6.在comma nd prompt輸入diskpar -i x (x為磁盤個數(shù))來復(fù)查新近創(chuàng)立的分區(qū)上的信息

26、。64位windows系統(tǒng) 在64位的windows系統(tǒng)里面,如果按照默認(rèn)創(chuàng)建,MBR類型 的磁盤是對齊的;GPT分區(qū)也是按默認(rèn)對齊,盡管他們有一個小的保留區(qū)域(32MB是沒有對齊的。在linux系統(tǒng)中的磁盤分區(qū)調(diào)整 在linux中,在數(shù)據(jù)寫入LUN之前對齊分區(qū)表 (table),因為分區(qū)影射(map)會被重寫,所有在LUN上的數(shù)據(jù)都會毀壞。在接下 來的例子里,LUN被影射到 /dev/emcpowerah,而且 LUNstripe element size 是 128block。fdisk軟件工具的使用方式如下所示:fdisk /dev/emcpowerah x # expert mode

27、b # adjust starti ng block nu mber1 # choose partition 1 128 # set it to 128, our stripe element size w # write the new partition對于那些會使用snapshot,clone,MirrowView的鏡像構(gòu)成的LUN來說,這個方 法比LUN對齊位移方法更加適用。這對 SANCopy中的sources和targets 是一 樣適用的對于VMWar啲磁盤分區(qū)調(diào)整VMware會更加復(fù)雜,因為會有兩種情況存在。當(dāng)對齊raw disk 或者Raw Device Mapping(RD

28、M)卷,實(shí)在虛擬主機(jī)(VM)層次上 來實(shí)現(xiàn)對齊的。例如,在 windows的虛擬主機(jī)上使用diskpar來實(shí)現(xiàn)對齊。對于VMFS卷,會在ESXServer的層次上使用fdisk來實(shí)現(xiàn)對齊,正如 diskpar 在VM層次。這是因為不管是 ESX Server還是客戶端都會把 MBR放到LUN上面 去。ESX必須對齊VMFS,而客戶系統(tǒng)必需對其他們的虛擬磁盤。對齊 ESX Server: On service con sole, execute fdisk /dev/sd, where sd is the device on which you would like to create the

29、VMFS Type n to create a new partition Type p to create a primary partition Type n to create partiti on #1 Select the defaults to use the complete disk Type x to get into expert mode Type b to specify the starting block for partitions Type 1 to select partition #1 Type 128 to make partition #1 to ali

30、gn on 64KB boundary Type r to return to main menu Type t to change partition type Type fb to set type to fb (VMFS volume) Type w to write label and the partition information to disk通過把分區(qū)類型聲明為fb,ESX Server會將這個分區(qū)認(rèn)為一個沒有被格式化的 VMFS。你應(yīng)該能夠使用 MUI或者vmkfstools,把一個VMFSt件系統(tǒng)放上去。 對于Linux的虛擬主機(jī),按照上面列出的程序步驟來做。 對于win

31、dows的虛擬主 機(jī),也是按照上面的程序步驟來做。編輯的 I/O fragementing對于linux來說,避免對一個LUN的多個大文件的并發(fā)訪問是很重要的。否則, 這回造成來自不同的線程的許多個訪問,使用不同的虛假設(shè)備來訪問同一個潛在 的設(shè)備。這種沖突減少了寫操作的 coalescing。最好還是使用很多個小的LUN 每一個有一個單一的大的文件。動態(tài)LUN的融合和偏移如果你使用一個基于主機(jī)的分區(qū)工具來對齊數(shù)據(jù),在你融合幾個LUN的時候,這個對齊也會被保留。這是假設(shè)所有 LUN的LUN stripe size是一致的。假如Navisphere Bi nd Offset被融合的源LUN所使用,

32、那么目標(biāo) LUN在bou nd用來 調(diào)整stripe 對齊的時候,必須要使用 Bi nd Offset 。編輯卷管理器 Volume Managers對卷管理器的主要性能影響因素,是 CLARiiONLUN使用了 stripe的方式(我們 所說的 plaid 或者 stripe on stripe )。我們要避免使用基于主機(jī) RAID而且使用校驗(如Raid3,Raid5)的應(yīng)用。這會 消耗掉主機(jī)的資源來實(shí)現(xiàn)這一服務(wù)(校驗保護(hù)),而這其實(shí)讓存儲系統(tǒng)來實(shí)現(xiàn)這 個服務(wù)會更加好。圖三顯示了在以下章節(jié)中討論到的三種不同plaid技術(shù)對于所有的情形,都會遵從以下規(guī)則:Plaid 應(yīng)該做的把主機(jī)管理器的

33、stripe 深度(stripe element )設(shè)成 CLARiiON LUN的 stripe size。你可以使用整數(shù)倍的,但最好還是把stripe element 設(shè)定在512KB或者1MB簡而言之,從基本的CLARiiON LUN上來考慮建立逐級管理器的stripe。從分開的磁盤組來使用LUN;這個組應(yīng)該有相同的參數(shù)(stripe size ,disk count,RAID type,等等)。Plaid 不應(yīng)該做的千萬不要在同一個RAID group里把多個LUN stripe (譯者注:stripe和 con cate nate都是meteLUN的一種方式,下文中的英文部分的 st

34、ripe 都是特指 這個)在一起。這是因為會造成大量的磁盤尋道。如果你從一個磁盤組需要捆綁多個LUN使用con cate nate來實(shí)現(xiàn)-千萬不要使用stripi ng 的方式。不要使主機(jī)的 stripe element 比 CLARiiON的 RAID stripe size 小。不要對那些具有不同 RAID type和stripe size 的RAID Group,或者根本不同 磁盤組的LUN使用plaid的方式在一起。結(jié)果并不一定是災(zāi)難性的,但很可能 會出現(xiàn)未知的因素。編輯Plaid 為高帶寬的設(shè)置plaid在以下幾個原因使用在高帶寬的應(yīng)用里面:plaid可以增加存儲系統(tǒng)的協(xié) 作(并行訪

35、問)。plaid允許多于一個的主機(jī)HBA卡和CLARiiON的存儲運(yùn)算器(SP共同為一個volume所用。非常大的卷可以被分布到多于一個的CLARiiON系統(tǒng)之上。增加協(xié)作Plaid在應(yīng)用是單線程(也就是說,讀一個單一的大文件)的時候會比較有用。 如果應(yīng)用的I/O的大小正好跟卷管理器的條帶大小一致,那么卷管理器可以訪問 那些可以包裝成卷的并發(fā)的LUN 從多個存儲器分布式訪問跨越存儲系統(tǒng),正如在圖三的配置B里面所演示那樣,僅僅當(dāng)文件系統(tǒng)的大小和 帶寬要求需要這樣的一個設(shè)計的時候,才被建議使用。例如,一個30TB的地質(zhì)信息系統(tǒng)數(shù)據(jù)庫,要求的寫的帶寬超過了一個array所能達(dá)到的極限,將會是一 個多

36、系統(tǒng)plaid的候選者。必須注意的是,一個軟件的更新或者任何存儲系統(tǒng)的 出錯一-例如因為一個存儲系統(tǒng)上的一個組件的出錯而導(dǎo)致的寫緩存的停用一-將會影響到整個文件系統(tǒng)。編輯Plaids and OLTPOLTP應(yīng)用是難以去分析,也難以去忍受一些熱點(diǎn)。Plaids是一種有效的策略來 使I/O從多個軸來分布式訪問。一個可以讓很多個磁盤處于忙碌狀態(tài)的應(yīng)用,將 會從多個硬盤數(shù)中得益。注意一些卷的管理建議小的主機(jī) stripe (16KB到64KB。這對使用一種stripe 的Raid type的CLARiiON來說并不正確。對于OLTP卷管理器的stripe element 應(yīng)該跟 CLARiiON的

37、stripe size (典型來說是 128KB到 512KB。Plaid 對于 OLTP 主要的開銷,在于大部分的用戶以跨plaid的方式結(jié)束???plaid 磁盤一-連同磁盤組一-會變得更大;因此,用戶也常常會因為好幾個主機(jī)卷被同 一個CLARiiON的Raid groups所創(chuàng)立(一個跨plaid 看圖三中的配置 C)而結(jié) 束。這個設(shè)計的基本原理是在于以下的情況:對于任何一個卷組的隨機(jī)行為的爆發(fā), 將會分布到多個磁盤上去。這個的不足之處在于測定卷之間的相互作用,是相當(dāng) 困難的。但是,一個跨plaid也有可能是有效率的,當(dāng)以下情況存在的時候:.I/O sizes 比較?。?KB或更?。┖碗S

38、機(jī)的訪問.卷是受制于一天中不同時間的爆發(fā),而 不是同一時刻。編輯主機(jī)HBA的影響用來實(shí)現(xiàn)主機(jī)附加的拓?fù)洌Q于系統(tǒng)的目標(biāo)。高可用性要求雙HBA卡和到存儲 器的雙路徑。雙路徑對性能的影響,主要看管理者如何去從系統(tǒng)資源里得到負(fù)載 均衡的能力。在對存儲系統(tǒng)調(diào)優(yōu)的時候,必須牢記 HBA卡和驅(qū)動的作用。EMC勺E-Lab提供了 設(shè)置磁盤和固件的建議,而我們必須要按這些建議來操作。編輯HBA卡的限制HBA卡的固件,HBA卡使用的驅(qū)動的版本,和主機(jī)的操作系統(tǒng),都可以影響到在 存儲陣列中的最大量的I/O size和并發(fā)訪問的程度。編輯Powerpath如果操作系統(tǒng)可以使用,Powerpath這個軟件應(yīng)該總是要

39、使用的一-不管是對于 一個單一連接到一個交換機(jī)的系統(tǒng) (允許主機(jī)繼續(xù)訪問,當(dāng)軟件升級的時候)還 是在一個完全冗余的系統(tǒng)。除了基本的failover 之外,Powerpath還允許主機(jī)通過多個存儲處理器(SF) 的端口來連接到一個LUN上面一-一種我們通常稱之為多路徑的技術(shù)。Powerpath通過負(fù)載均衡算,來優(yōu)化多路徑訪問 LUN Powerpath提供了幾種負(fù) 載均衡的算法,默認(rèn)的那種ClarOpt 是我們所推薦的。ClarOpt可以調(diào) 整傳輸byte的數(shù)量,正如隊列的深度一樣。連接到所有目前的CLARiiON的型號的主機(jī),都可以從多路徑中獲益。直接連接 的多路徑需要至少兩張HBA卡;實(shí)際的

40、SAN多路徑需要兩張HBA卡,其中的每一 個都會被分配到多于一個SP端口的區(qū)域。多路徑的好處在于:在同一個SP中,可以從一個端口 failover 到另一個端口,修復(fù)一個事件的系統(tǒng)工作。 在SP的端口和主機(jī)HBA卡中的負(fù)載均衡 從主機(jī)到存儲系統(tǒng)中獲得更高的帶寬(假設(shè) 主機(jī)里,路徑能使用足夠多的 HBA卡)當(dāng)Powerpath提供了所有可行路徑的負(fù)載均衡,這會帶來一些附加的開銷:一些主機(jī)的CPL資源會被一般的操作所使用, 正如會被failover 的時候使用。在一些情形下,活躍的路徑會增加一些時間 來failover 。( Powerpath在嘗試幾條路徑 之后,才會trespass 一個LUN

41、從一個SP到 另一個SP)因為這些事實(shí),活躍的路徑應(yīng)該受到限制,通過 zoning,到兩個存儲系統(tǒng)的端 口對應(yīng)一個HBA卡來影射到一個被主機(jī)綁定的存儲系統(tǒng)。一個例外是,在從其它 共享存儲系統(tǒng)端口的主機(jī)所爆發(fā)的環(huán)境,是不可預(yù)知和嚴(yán)峻的。在這個情形下, 四個存儲系統(tǒng)的端口都有一個各自的 HBA卡,這是可以實(shí)現(xiàn)的。編輯MetaLUNsMetaLUN是一個所有CLARiiON系列存儲系統(tǒng)都特有的功能。我們從好幾個方面 來討論什么時候和怎么用 metaLUN編輯對比metaLUN和卷管理器在一個CLARiiON存儲系統(tǒng),metaLUN被當(dāng)作一個在RAID引擎之上的層,在功能 上來說相似于主機(jī)上的一個卷管

42、理器。但是,在metaLUN和卷管理器之間還是有 很多重要的明顯的區(qū)別。單一的SCSI目標(biāo) 對比 很多的SCSI目標(biāo)要創(chuàng)建一個卷管理器的stripe,所有構(gòu)成的LUN必須設(shè)定成可以訪問到主機(jī)的。 MetaLUN要求只有一個單一的SCSI LUN被影射到主機(jī);這個主機(jī)并不能看到組 成這個metaLUN的多個LUN這會讓管理員在以下幾個情形下得益:對于因為OS限制而有受限制的LUN可用的主 機(jī)對于那些增加LUN導(dǎo)致SCSI設(shè)備重編號的主 機(jī);經(jīng)常一個內(nèi)核需要重建,用來清除設(shè)備 的條目。在這些情形下,使用 metaLUN而不是卷管理器會簡化在主機(jī)上的管理。沒有卷管理器不是所有的操作系統(tǒng)都有卷管理器的

43、支持。MS的Server Win2000/2003集群使 用 Microsoft Cluster Services ( MSC)并不能使用動態(tài)磁盤。 MetaLUN是一個 可以為這些系統(tǒng)提供可擴(kuò)展的,stripe和con cate nated (連接的)卷的解決方 案。卷的復(fù)制如果卷是要被使用SnapView, MirrorView或者SANCopy的存儲系統(tǒng)所復(fù)制的話, 一個可用的鏡像會要求持續(xù)的處理分離的能力。采用metaLUN會簡化復(fù)制。卷訪問共享的介質(zhì)當(dāng)一個使用了 stripe 或者con cate nate的卷必須要允許在主機(jī)間共享訪問,一 個卷管理器不能許可共享訪問,而 metaL

44、UN可以使用并實(shí)現(xiàn)這個功能。MetaLUN 可以在兩個的主機(jī)存儲組之間應(yīng)用。存儲處理器(SP)的帶寬卷管理器的卷和metaLUN之間的一個重要的顯著區(qū)別是,metaLUN是可以被一個 CLARiiON存儲系統(tǒng)上的一個存儲處理器完全的訪問。如果一個單一的卷需要非 常高的帶寬,一個卷管理器仍然是最好的方式,因為卷可以從不同的SP上的LUN 上來建立。一個卷管理器允許用戶訪問存儲器,通過很多個SP的集合起來的帶寬。卷管理器和并發(fā)訪問正如在“ Plaids :為高帶寬設(shè)置”章節(jié)里指出的那樣,基于主機(jī)的stripe的卷的使用,對于有多線程的大的 request (那些有多于一個卷stripe segme

45、nt 組 成的request ),會有比較高的效果。這會增加存儲器的并發(fā)訪問能力。使用 metaLUN不會帶來多線程上好的效果,因為comp on e nt LUN上的多路復(fù)用是由存儲系統(tǒng)來實(shí)現(xiàn)的。編輯MetaLUN的使用說明和推薦MetaLUN包含了以下三種類型:條帶的(stripe),結(jié)和的(concatenate),和混 合的(hybrid)。這個章節(jié)會做出幾個通常的推薦。對那些想要更多細(xì)節(jié)的人來說, 接下來的章節(jié)中將會定位建立metaLUN和相關(guān)每種類型的優(yōu)點(diǎn)的策略和方法。什么時候使用metaLUN通過前面的卷管理器的討論,應(yīng)該在以下情形下使用metaLUN當(dāng)大量的存儲整合變得有必要的

46、時候(每 個卷都需要非常多的很多磁盤) 當(dāng)要求LUN的擴(kuò)展的時候當(dāng)你建立一個metaLUN的時候,你可以控制以下的要素:component LUN的類型, metaLUN的類型,和 stirpe multiplier (增加的)。Compo nent LUN 的類型 用來綁定在一個metaLUN上的LUN的類型應(yīng)該能反映metaLUN上要求的I/O的形 式。例如,使用在這份白皮書里面建議的各種不同的 Raid的類型(“ Raid的類 型和性能”提供了更多的信息),來匹配 I/O的形式。當(dāng)綁定component LUN的時候,使用以下規(guī)則:當(dāng)為metaLUN綁定LUN的時候,總是使用默 認(rèn)的 s

47、tripe element size(128 block) 總是激活讀緩存和寫緩存確保為 component LUN設(shè)置的 write-aside 的大小為 2048。( write-aside 在“ RAID引 擎緩存”里面會被提到)避免在RAID 5的磁盤組里使用少于4塊的硬 盤(或者說,至少是要3+1模式)使用RAID1/0磁盤組的時候,至少使用4塊 硬盤(新的1+1并不是對metaLUN的個好 的選擇)不要使用comp on e nt LUN位移來校正stripe 的對齊。MetaLUN有他們自己的位移值。MetaLUN的 類型一般來說,盡可能的使用stripe方式的metaLUN因為

48、他們能體現(xiàn)出我們能預(yù) 知的更好的性能。Con cate nat 個單獨(dú)的LUN給一個metaLUN會更加方便;這 可能在擴(kuò)展一個對性能并不敏感的卷會更加合適。Hybrid metaLUN使用stripe 的方式捆綁con cate nate的LUN這個方式被用來 克服stipe擴(kuò)展的成本(這樣會比較低)。一個采用 stripe方式的metaLUN可以通過 con cate nate 另一個 stripe comp onent的方式來擴(kuò)展。這樣保持了 stripe component可預(yù)計的性能,也允許用戶用來擴(kuò)展一個stripe 的metaLUNM不用隊已經(jīng)出線的數(shù)據(jù)的重組(性能將會受到影響,

49、當(dāng)重新條帶化操作進(jìn)行的時候) 圖四展示了這一點(diǎn)。圖四 hybrid-striped metaLUN在理想的情況下,在擴(kuò)展stripe設(shè)置的LUN將會分布在同樣RAID類型的不同的 RAID組里面,也會表現(xiàn)得更原始的 stripe compo nent致。大部分最直接的方 式是使用同一個RAID組作為基礎(chǔ)的component。這個RAID組是被最先擴(kuò)展的, 以便使空間變的可用。這個方式在“ metaLUN擴(kuò)展方法”里會演示。RAID組的擴(kuò)展是更加有效率的,對比metaLUN restripe (把這個重分條過程設(shè)置成中等優(yōu)先級別),也會對主機(jī)性能有更小的影響。MetaLUN stripe mul

50、tiplier stripe multiplier決定了 metaLUN的 stripeeleme nt size:Stripe multiplier * base LUN stripe size = metaLUN stripe segme nt sizeMetaLUN stripe segme nt size是任何 comp on e nt LUN 能收到的最大的 I/O。所有的高帶寬性能和隨機(jī)分布都要求 metaLUN stripe eleme nt 的大小為1MB左 右。而且,在下面的RAID組還可能被擴(kuò)充。我們需要確保metaLUNstripe element 是足夠大,大到跟寫的完

51、全的stripe 一樣,用來擴(kuò)展component LUN(圖表1)。使用以下規(guī)則來設(shè)置stripe multiplier :除非使用RAID 0,使用最少四個磁盤的磁盤組,來組成作為component LUN主機(jī)的RAID 組。為磁盤組的大小來測定選擇有效的磁盤個 數(shù)。例如,六個磁盤的RAID1/0是3(3+3)。五個磁盤的RAID5是4 (4+1)通過圖表1,為有效磁盤的個數(shù)而選擇 multiplier如果有疑問,使用4作為metaLUN的stripe multiplier。對大部分情形來說,這是一個默認(rèn)的,也是一個好的選擇。MetaLUN對齊的位移 如果你計劃通過 metaLUN來使用S

52、napView或者M(jìn)irrorView ,把metaLUNX寸齊位 移值設(shè)為0。使用磁盤分區(qū)工具來調(diào)整分區(qū)的位移。MetaLUN和 ATA磁盤在這個時候,ATA并不適合繁忙的隨機(jī)I/O訪問的方案。這個章節(jié)集中在使用ATA 磁盤作為高帶寬的應(yīng)用。保持RAID組的足夠小,是metaLUN策略的一部分。這會使 ATA硬盤更加合理, 因為小的磁盤組比大的會有更小的重組時間。但是,必須意識到的時,metaLUN會被一個單一的磁盤組的rebuild所影響,而ATA磁盤的rebulid時間是冗長的。 基于數(shù)據(jù)可用性的考量,在非常多的環(huán)境里,我們最好避免使用ATA硬盤來做metaLUN除非動態(tài)擴(kuò)展或者需要非常

53、大的一個容量。CLI例子:建立一個metaLUN在接下來的例子的代碼,我們建立一個stripe方式的使用base LUN30的metaLUN沒有建立 metaLUN的命令;你需要擴(kuò)展一個已經(jīng)出現(xiàn)的 FLARE LUF來 建立一個metaLUN在命令中設(shè)計而成的LUN都是相同RAID的類型和容量的 FLARE_UN LUN30會變成基本的一新的 metaLUN會把30作為他的identifier。Matalun - expand - base 30 - lus 31 32 33 - nameP1H00 - elszm 4 - type S擴(kuò)展的類型被設(shè)置成S,作為stripe方式,而選擇elem

54、ent size (4)是因為 LUN是建立在5塊硬盤的RAID5組里面。編輯MetaLUN的擴(kuò)充戰(zhàn)略對于有長期擴(kuò)展計劃的用戶來說,有好幾種使用策略。使用一種策略,你必須要確認(rèn)你的目標(biāo)。在接下來的章節(jié)會出現(xiàn)的一些可能的目標(biāo)如下:把本地的爆發(fā)的隨機(jī)數(shù)據(jù)分布到多個磁盤上去好的順序/帶寬的性能有效的利用容量靈活的擴(kuò)展設(shè)備這些都是使用metaLUN的用戶的主要的目的。擴(kuò)展模式的初始化配置初始化安裝的規(guī)則在圖5中闡明。這些規(guī)則是:為初始化容量部署,來部署所需要的磁盤 建立合適大小的磁盤陣列組:對于RAID 1/0,使用4或6個硬盤對于RAID5或者RAID3使用5個硬盤把磁盤組按照每一個set有4-8個

55、RAID組的 方法來組織。(如果要求高的隨機(jī)I/O,那么 需要更多的磁盤組)對于每一個metaLUN根據(jù)歸屬來確定Raid 組的set o對每一個計劃要做的 metaLUN通過用RAID 組在自己的RAID組set里面的數(shù)目來分 metaLUN的大小,來確定component LUN的大 小o從每一個在自己set里的RAID組里,為每一 個 metaLUN建立一個 component。建立metaLUN的時候,請讓組成這個metaLUN 的LUN跨越所有的的RAID組set里的RAID 組。圖5是一個set的metaLUN和他們的RAID組set的例子Figure5. metaLUN里面的存儲

56、的初始化分布注意到在圖5,每一個metaLUN由一個對應(yīng)一個 RAID組的LUNS成。因此,每 一個LUN的負(fù)載是分布在所有在那個 set里的RAID組。但是,這些metaLUN是 和對其他RAID組的set的數(shù)據(jù)訪問是分隔開的。為什么要使用RAID組的set如果我們不允許一個 metaLUN來擴(kuò)展到自己的set 以外,我們可以做出一定級別的隔離,將這種影響控制在磁盤的級別。例如,一 個RAID組的set可能為一大群文件服務(wù)器所設(shè)立,而另一個RAID組的set是為 RDBM的數(shù)據(jù)目錄這時一對普通的RAID1組可能被使用作為RDBM的日志設(shè) 備。圖6展示了這一點(diǎn)。圖6:用RAID組的set和me

57、taLUN來做數(shù)據(jù)分隔的例子在圖6里面顯示的例子,通過訪問到NFS的共享metaLUN并不會干涉到Oracle 服務(wù)器訪問他們自己的數(shù)據(jù)目錄或者日志。擴(kuò)展模式的的擴(kuò)展程序下一步是建立擴(kuò)展的策略。擴(kuò)展的目標(biāo):維持?jǐn)U越很多磁盤的分布更有效的利用容量達(dá)致這個目標(biāo)的途徑當(dāng)容量對metaLUN來說是可以預(yù)計的,把磁 盤增加到set已經(jīng)出現(xiàn)的RAID組里面。對metaLUN里的set里面的RAID組進(jìn)行擴(kuò)展 對metaLUN里增加擴(kuò)展的LUN作為一個新的 stripe 的 componentMetaLUN的擴(kuò)展例子這個例子里使用的途徑,和metaLUN配置的原始的目標(biāo)是緊密結(jié)合的I/O 分布在所有的磁盤上

58、 第一步,IS部門確定Meta A的容量使用率超過了他的警戒線一85%-同時也會 告知用戶要注意這個metaLUN在周末的時候,IS接受一個外加160GB請求。這 個系統(tǒng)的操作員增加2個磁盤,到metaLUN A所在的set里的每一個RAID組。 RAID組的擴(kuò)展被設(shè)置成中等優(yōu)先級別,這對性能影響會非常小。每一個組的存 儲增加了一個磁盤的容量(66GB,如圖7所示。圖7.對metaLUN的擴(kuò)展:第一步 下一步是對metaLUN set的每一個RAID組綁定一個LUN他們必須要擴(kuò)展的總 的容量是160GB而我們在這個metaLUNset里面有四個RAID組,所以160/4=40 一個40GB的L

59、UN必須限定在set里的每一個RAID組。最后一部是使用4個建立的LUN來擴(kuò)展metaLUN操作員指派要被增加的LUN 并且把擴(kuò)展設(shè)置為con cate nate的方式。因為擴(kuò)展的LUN都是一樣的大小,所以 n avisphere con cate nate 個新的 stripe 的 comp onent 至 U metaLUN 來組成這 些LUN (圖8)圖8: MetaLUN的擴(kuò)展:第二步接下來的是一個CLI方式(命令行)的命令的例子:通過con cate nate 個新的 stripe component來擴(kuò)展 metaLUN這個 metaLUN的 identifier是 30FLARE

60、LUN34,35,36,37都有一樣的RAID的類型和容量:metalun - expand - base 30 - lus 34 35 36 37- type c 擴(kuò)展的類型被設(shè)置成 C,代表con cate nate的方式。Navishpere會以stripe 方 式把LUN捆綁成一個新的component,然后加到已經(jīng)出現(xiàn)的 metaLUN metaLUN30 上面去。基于LUN堆疊的metaLun正如前面的例子那樣,當(dāng)從一個 set的RAID組里建立多個metaLUN掉轉(zhuǎn)你為 每一個metaLUN定位的base LUN里的RAID組。這可以把磁盤組里的數(shù)據(jù)庫,文 件系統(tǒng),甚至是一個備份

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論