EMC存儲最佳實(shí)踐培訓(xùn)手冊

上傳人：z*** IP屬地：天津上傳時間：2022-08-28 格式：DOCX 頁數(shù)：38 大小：83.43KB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩33頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、BestPracticeFrom DOIT WIKIJump to: navigation , search版權(quán)聲明：EMC存儲最佳實(shí)踐R22的版權(quán)歸美國EM(公司所有，感謝DOSTOR 網(wǎng)友/Arthas的全力翻譯。EMC存儲最佳實(shí)踐R22中文譯稿可以轉(zhuǎn)載，轉(zhuǎn)載時請務(wù)必以超鏈接形式標(biāo)明文章原始出處 DOSTO存儲在線和作者與譯者信息及本聲明。目錄隱藏1 一.關(guān)于性能的探討o 1.性能的定義o 2.應(yīng)用的設(shè)計為順序或者隨機(jī)I/O的優(yōu)化I/O 的大小暫時的模式和峰值的表現(xiàn)(temporal patterns and peak activities )o 3 .主機(jī)文件系統(tǒng)影響文件系統(tǒng)的緩沖和

2、組合(coalesce )最小化I/O的大?。何募到y(tǒng)的request size最大化的I/O大小文件系統(tǒng)的fragmentation校正對齊問題的 I/O fragementingo 4.卷管理器 Volume Managers Plaid應(yīng)該做的Plaid不應(yīng)該做的Plaid為高帶寬的設(shè)置Plaids and OLTPo 5. 主機(jī)HBA的影響HBA卡的限制Powerpatho 6. MetaLUNs對比metaLUN和卷管理器MetaLUN的使用說明和推薦MetaLUN的擴(kuò)充戰(zhàn)略o 7.存儲控制器的影響A . CLARiiON的存儲控制器B.磁盤的級別和性能o 引擎的緩存緩存的大小和速度

3、緩存的設(shè)定o 9.后端設(shè)備(磁盤的子系統(tǒng))LUN的分布C .系統(tǒng)和啟動硬盤的影響D .使用LUN和RAID組的編號方式E .最小化硬盤的競爭F . Stripe 和 Stripe element 的大小CLARiiON RAID 5 的 stripe 優(yōu)化每一個RAID組的硬盤的個數(shù)I .在一個存儲系統(tǒng)里應(yīng)該使用多少個硬盤 J. 硬盤的類型和大小2二.為可用性和冗余做考慮o 1.高可用性的配屬o 2. RAID-level 的考慮RAID 5RAID 1/0RAID 3熱備份(Hot spares )編輯o 3.把RAID組通過總線和DAE綁定A.跨DAE來綁定硬盤B.跨后端總線綁定硬盤C.通

4、過DPE磁盤綁定D.熱備份的策略o 4.數(shù)據(jù)復(fù)制的持續(xù)性關(guān)于性能的探討性能調(diào)優(yōu)有多重要呢在一個 Raid 5的陣列組中使用5-9塊硬盤和使用默認(rèn)的設(shè) 置，CLARiiON光纖儲系統(tǒng)能發(fā)揮極好的性能這是EM（在性能測試實(shí)驗室里測試自己的CLARiiON系統(tǒng)得出來的。CLARiiON存儲系統(tǒng)默認(rèn)的設(shè)置是為實(shí)際環(huán)境中遇到的大部分工作情形所設(shè)計的。但是，有一些工作情景還是需要調(diào)優(yōu)來實(shí)現(xiàn)存儲系統(tǒng)的最佳配置。為什么在陣列組里用5到9塊硬盤這個設(shè)置并沒有任何神奇的地方，也不是因為這個配置有什么特殊的優(yōu)化。然而，Raid 5使用這個數(shù)量的硬盤確實(shí)是最有效的利用了校驗，同時也能在合理的時間能重建數(shù)據(jù)。

5、更小的陣列組會有更高的校驗開銷，而大的陣列組則會花更長的時間來重建數(shù)據(jù)。這份白皮書探討了在設(shè)計優(yōu)化系統(tǒng)方面的時設(shè)計到的許多要素。請注意這里提供的信息是非常有幫助的，尤其當(dāng)你充分理解了你的陣列的工作情形。因此， EMC 推薦你使用Navisphere Analyzer來分析你的陣列的工作情形，并且要定期的復(fù) 習(xí)和回顧相關(guān)文檔的基礎(chǔ)知識。同時，請記住在配置一個陣列的時候很少有顯而易見的選擇，所以在有疑問的時候最好是按照默認(rèn)的配置和保守的評估。編輯1性能的定義以下的名詞在整個白皮書當(dāng)中都會用到。如果你對他們不熟悉，請回顧一下EMCCLARiiON Fibre Cha nnel Storage F

6、un dame ntals校驗讀取隨機(jī)響應(yīng)時間要求數(shù)據(jù)大小Request size順序條帶條帶元素 Stripe eleme nt 吞吐量Write-aside編輯應(yīng)用的設(shè)計應(yīng)用的設(shè)計對系統(tǒng)的表現(xiàn)影響很大。提升性能的最佳方法的第一步就是應(yīng)用的優(yōu) 化。任何存儲系統(tǒng)的調(diào)優(yōu)都不可能建立一個非常差的應(yīng)用設(shè)計上面。編輯為順序或者隨機(jī)I/O的優(yōu)化非常典型的一個例子是，提升帶寬在順序訪問的調(diào)優(yōu)方面會起顯著作用，因為存儲系統(tǒng)在順序I/O方面會更加有效率-尤其是在RAID5的時候。而為隨機(jī)訪問的調(diào)優(yōu)則要改善吞吐量和更快的響應(yīng)時間，因為這樣會改善處理顧客響應(yīng)所花的時間。讀和寫的對比寫比讀更加耗費(fèi)存儲系統(tǒng)的

7、資源，這是基于CLARiiO N對數(shù)據(jù)保護(hù)的機(jī)制的應(yīng)用。寫到write cache是鏡像到兩個存儲控制器的（SP。寫到帶校驗的Raid Group會碰到校驗運(yùn)算的要求，而這也要求把冗余的信息寫到磁盤里面。寫到鏡像的Raid Group會需要兩份數(shù)據(jù)的拷貝的寫入。讀的開銷相對會小一些，這是因為，從 CLARiiO N系統(tǒng)的讀的吞吐量會比寫的吞吐量要大一些。但是，對大部分工作情形來看，數(shù)據(jù)往往是寫入write cache ，這樣會有更短的響應(yīng)時間。讀，在另一方面來說，可能命中cache，也可能不命中cache;而對大部分隨機(jī)的工作情形來說，讀比寫會有更高的相應(yīng)時間，因為數(shù)據(jù)還是需要從磁盤里

8、面抓取。如果要達(dá)到高的隨機(jī)讀取吞吐量，需要更好的協(xié)作（concurrency ）。編輯I/O 的大小每一個的I/O都有一個固定的開銷和一個變量的開銷，后者決定于其他的一些事情，例如I/O的大小。大的I/O能提供更少的固定開銷因為有著更大的數(shù)據(jù)。因而，對CLARiiON而言大的I/O比小塊的I/O能提供更大的帶寬。如果有足夠的硬盤，在執(zhí)行大的I/O的時候后段總線的速度將會成為系統(tǒng)的性能瓶頸。小塊的隨機(jī)訪問應(yīng)用（例如 OLTP的瓶頸在于磁盤（的個數(shù)），而且很少達(dá)到后端總線速率。當(dāng)設(shè)計OLTP的時候，必須要使用基于磁盤（的個數(shù)）的IOP來衡量，而不是使用基于總線的帶寬來衡量。然而，在一個CLARi

9、iON存儲系統(tǒng)里面，當(dāng)I/O到了某一個特定的大小的時候，包括write caching 和prfetching 都會被bypass掉。是決定用一個大的I/O 請求還是把他分成幾個順序的請求，取決于應(yīng)用程序和它跟cache之間的相互作用。這些相互作用在“The Raid engine Cache ”里會探討到。文件系統(tǒng)也可以影響到I/O的大小，這也在稍后的“ Host file-system impact ” 中描述到。編輯C.暫時的模式和峰值的表現(xiàn)(temporal patterns and peak activities)應(yīng)用的操作設(shè)計-如何去使用，什么時候去使用，什么時候需要去備份-都

10、會影響到存儲系統(tǒng)的負(fù)載。例如，用作隨機(jī)訪問的應(yīng)用的存儲系統(tǒng)，在備份和批量處理的時候，需要好的順序性能。一般來說，對OLTP和消息應(yīng)用(任何跟大量隨機(jī)訪問I/O有關(guān)的)，更高的并發(fā)處理能力(concurrency )會更好。當(dāng)有更高的并發(fā)處理能力的時候，存儲系統(tǒng)將會獲得更高的吞吐量。使用異步I/O是一種獲得更高的并發(fā)處理能力的通常的手法。對帶寬而言，單線程的應(yīng)用幾乎不能有效地利用四塊硬盤以上帶來的好處，除非request size 是非常大的(比2MB大)或者使用到volume manager. 當(dāng)最佳的順序性能達(dá)到的時候，而此時如果順序處理到磁盤的路徑是唯一的時候，用戶還是可以從

11、有適度并發(fā)隨機(jī)訪問的光纖硬盤(每個硬盤的I/O在100以下)的設(shè)置中獲得一個可接受順序性能。編輯主機(jī)文件系統(tǒng)影響在主機(jī)層次，通過指定最小最大的I/O request size，文件系統(tǒng)也影響了應(yīng)用I/O的特性。編輯A.文件系統(tǒng)的緩沖和組合(coalesce )跟在存儲系統(tǒng)上的cache相似的是，緩沖是文件系統(tǒng)提高性能的一種主要方式。緩沖在大部分的情況下，文件系統(tǒng)的緩沖應(yīng)該最大化，因為這能減少存儲系統(tǒng)的負(fù)載。然而，還是會有一些意外。一般來說，應(yīng)用自己來調(diào)配緩沖，能避免文件系統(tǒng)的緩沖或者在文件系統(tǒng)的緩沖之外工作。這是基于應(yīng)用能更加有效的分配緩沖的假設(shè)之上。而且，通過避免文件系統(tǒng)的coalesc

12、e，應(yīng)用更能控制I/O的響應(yīng)時間。但是，正如在64位的服務(wù) 器里RAM勺容量將會提升到32GB或者更多，這也就有可能把這個文件系統(tǒng)都放在緩沖里面。這就能使讀操作在緩沖下，性能會有非常顯著的提升。(寫操作應(yīng)該使用寫透(write-through )的方式來達(dá)到數(shù)據(jù)的持續(xù)性。結(jié)合 Coalescing文件系統(tǒng)的coalesce能幫助我們從存儲系統(tǒng)里獲得更高的帶寬。在大部分順序訪問的操作里面，用最大鄰近和最大物理的文件系統(tǒng)設(shè)置來最大化文件系統(tǒng)的結(jié) 合Coalescing.例如，這種處理方式可以和備份程序一起把64KB的寫操作結(jié)合(coalesce ) 成一個完全 stripe 的寫操作，這樣在

13、write cache 被 bypass的情況下，對于帶校驗的Raid會更加有效果。編輯B.最小化I/O的大小：文件系統(tǒng)的request size文件系統(tǒng)通常都被配置成一個最小的范圍大小，例如4KB, 8KB或者64KB,這是提供給陣列的最小的不可分割的請求。應(yīng)用使用的I/O在比這個范圍大小要小的時候，會導(dǎo)致很多不必要的數(shù)據(jù)遷移和/或read-modify-write的情形出現(xiàn)。這也是考慮應(yīng)用和文件系統(tǒng)文件的最佳設(shè)置的最好辦法。(it is best to consult application and file system documentation for the optimal s

14、ettings)而request size 沒有被文件系統(tǒng)限制的 Raw partitio ns ，則沒有受到這個約束。編輯最大化的I/O大小如果想要快速的移動大量的數(shù)據(jù)，那么一個大的I/O(64KB或更大)會更加有幫助。在整合(coalescing )順序的寫操作成 Raid Group整個的stripe 的時候, 陣列將會更加有效率，正如預(yù)讀取大的順序讀操作一樣。大的I/O對從基于主機(jī) 的stipe獲得更好的帶寬而言也是很重要的，因為他們將會被基于srtipe的toplogy打散成更小的大小。編輯文件系統(tǒng)的fragmentation避免fragmentation 和 defragemen

15、tation 在一起，這是一個基礎(chǔ)的原貝U。注意 NTFS文件系統(tǒng)可能被分區(qū)成任何形式除了默認(rèn)的范圍大小，他們不能被大部分的工具所defragement :這個API (程序的接口)并不能允許這樣做。執(zhí)行一個文件級別的拷貝(到另一個LUN或者執(zhí)行一個文件系統(tǒng)的備份和恢復(fù))是defragement的一個有效的實(shí)現(xiàn)。跨越磁盤的小I/O在一些主機(jī)的類型里顯得更加重要，而我們接下來將會探討為什么會導(dǎo)致這種狀況。當(dāng)以下情況發(fā)生的時候，跨越磁盤將會對響應(yīng)時間有一個顯而易見的影響:a）有大比例的block size 大于16KB的隨機(jī)I/Ob）Navisphere Analyzer 報告的硬盤的平均等

16、候隊列長度比 4大的時候?qū)R4KB 或者8KB邊界的時候（例如Exchange和Oracle ），工作負(fù)載將會從對齊中獲得一些優(yōu)勢。但因為I/O當(dāng)中，小于6% （對于4KB或者12% （對于8KB的I/O 都會造成跨盤操作（碰巧的是他們可能會以并行的方式來完成）。這種額外的收益可能很難在實(shí)踐中注意到。但如果當(dāng)一個特定的文件系統(tǒng)和/或應(yīng)用鼓勵使用對齊的地址空間并且位移（offset ）被注明，EMC推薦使用操作系統(tǒng)的磁盤管理來調(diào)整分區(qū)。Navisphere LUN的綁定位移（offset ）工具應(yīng)該要小心的使用，因為它可能反而會影響分層的應(yīng)用同步速度。在In tel架構(gòu)系統(tǒng)中的文件對齊I

17、n tel架構(gòu)的系統(tǒng)，包括 win dows2000/wi ndows2003，都會受到在LUN上元數(shù)據(jù) 的位置的影響，這也會導(dǎo)致磁盤分區(qū)的不對齊。這是因為遺留的BIOS的代碼問題，BIOS里面用的是磁柱，磁頭和扇區(qū)地址來取代LBA地址。（這個問題一樣影響了使用in tel 架構(gòu)的linux 操作系統(tǒng)，正如 wi ndowsNT 2000，和2003。這個問題也一樣影響了運(yùn)行在in tel硬件上的VMWar系統(tǒng) fdisk 命令，正如 windows 的 Disk Manager,把 MBR（ Master Boot Record）放在每一個SCDI設(shè)備上。MBA各會占用設(shè)備上的63個扇區(qū)

18、。其余可訪問的地址是緊接著這63個隱藏分區(qū)。這將會后續(xù)的數(shù)據(jù)結(jié)構(gòu)跟 CLARiiONRAID勺stripe變得不對齊。在linux系統(tǒng)上，這個隱藏扇區(qū)的多少取決于 boot loader和/或磁盤管理軟件, 但63個扇區(qū)是一個最常遇到的情況。對于 VMware位移（offset ）是63。在任何情況下，這個結(jié)果都為確定的比例的I/O而導(dǎo)致不對齊。大的I/O是最受影響的。例如，假設(shè)使用 CLARiiON默認(rèn)的stripe element 64KB ，所有的64KB 的I/O都會導(dǎo)致跨盤操作。對于那些比這個 stripe element的小的I/O，會導(dǎo)致跨盤操作的I/O的比例，我們可以通過

19、以下公式來計算：Perce ntage of data cross in g=（I/O size）/（stripe eleme nt size）這個結(jié)果會給你一個大致的概念，在不對齊的時候的開銷狀況。當(dāng)cache慢慢被填充的時候，這種開銷會變得更大。aa編輯F.校正對齊問題你可以選擇以下的方法之一來修正對齊的問題。記住，必須只是兩種方法之一:LUN的對齊位移（offset ） b.使用分區(qū)工具對任何特定的LUN只要使用其中一種，不是兩個。這個是我們經(jīng)常要強(qiáng)調(diào)的同時，當(dāng)設(shè)定一個 metaLUN只有那個base component需要分條的對齊（就是那個被其他LUN掛靠上去的LUN 。如果使用

20、LUN的對齊位移，當(dāng)metaLUN建立的時候，metaLUN的對齊位移也被設(shè)置了。當(dāng)擴(kuò)展一個metaLUN不需要再調(diào)整了。如果用了分區(qū)工具的方法，這個調(diào)整只需要在用戶第一次對 LUN分區(qū)的時候來做。用什么方式來做當(dāng)沒有基于主機(jī)的程序在使用的時候，我們可以使用LUN對齊位移的方式。LUN對齊位移方法對一些復(fù)制的軟件操作，如 clo ne sync I/O ， Snap View Copy On Write opertions ， MirrowView sync I/O, SANCopy I/O 等，造成磁盤和 strip 跨盤的問題。如果可以，使用基于主機(jī)的分區(qū)工具方式。避免使用LUN對齊位

21、移方法，假如你在這個 LUN上使用了 SnapView, SANcopy,MirrorView。相反，應(yīng)該使用基于主機(jī)的分區(qū)工具方式。LUN的位移LUN的位移方法使用把LUN偏移，來達(dá)到對齊stripe分界的分區(qū)。LUN從第一個 RAID的stripe的末端開始。換一句話說，將 LUN的位移設(shè)置成RAID stripe的大小，會讓（緊接著MBF開始的）文件系統(tǒng)對齊了，如下圖 2所示。LUN對齊位移的不足之處是它可能會造成任何要對 Raw LUN進(jìn)行操作的軟件的 I/O請求的不對齊。CLARiiON的復(fù)制會對raw LUN操作，如果LUN被位移了，這也會產(chǎn)生跨磁盤的操作。Navisphere

22、中，當(dāng)LUN被bound的時候和block大小被設(shè)置成512byte的時候，位移會被設(shè)置成特定的。例如，在一個 windows2003系統(tǒng)，將會把63個block 設(shè)置為位移量。FLARE會調(diào)整stripe，因此用戶的數(shù)據(jù)就會從stripe的開頭來開始。圖 2： Intel MBR with partition and LUN offset correction磁盤分區(qū)的對齊基于主機(jī)的分區(qū)程序使用增加可設(shè)定地址的區(qū)域的起始部分，來校正對齊的問題；因此，可設(shè)定地址的空間在 RAID strip eleme nt的起始部分開始算起，或者在整個strip的起始部分。因為LUN從正常的地方算起

23、，在RAID strip 的起始部分，復(fù)制軟件操作也是對齊的。事實(shí)上，對于鏡像操作，當(dāng) secondary被寫入的時候，primary的對齊是被保護(hù)了的，因為增加了的分區(qū)目錄被寫入了源LUN磁盤分區(qū)對齊和windows的系統(tǒng)在 WindowsNT, 2000, 2003 系統(tǒng)中，分區(qū)軟件，作為 WRKWindowsResource Kit）的一部分，可以用來設(shè)定分區(qū)位移的開始。你必須要在數(shù)據(jù)寫入LUN之前做這件事，因為diskpar會重新寫分區(qū)表：所有在LUN出現(xiàn)的數(shù)據(jù)都會丟失掉。對于隨機(jī)訪問操作或者是metaLUN在diskpart中設(shè)定起始位移的大小，跟對被用來 Bi nd LU

24、N 的 stripe eleme nt size的大小一致（一般 128blocks ）。對于高帶寬要求的應(yīng)用，設(shè)定起始位移的大小跟LUN stripe size 的大小一致。開始，用Disk Manager來獲得磁盤的數(shù)目。在命令行中，使用diskpar加上-i的選項：diskpar -i x （新的大小是磁盤個數(shù)）來檢查已經(jīng)存在的位移：C:diskpar -i 0Drive 0 Geometry In formati on Drive Partition 0 Information Statri ngOffset = 32256 Partitio nLe ngth = 664 Hidde

25、 nSectors = 63。注意HiddenSectors的值。這就是分區(qū)的位移的數(shù)值1.假如磁盤X有數(shù)據(jù)你不想丟失，那么備份那個數(shù)據(jù)2.假如磁盤X是一個Raw Drive，跳到第四部。3.刪掉在磁盤X上所有的分區(qū)，使之成為一個RawDisk。在命令行中使用diskpar -s X （X是磁盤個數(shù)）5.輸入新的起始位移（單位sectors）和分區(qū)長度（單位MB）b這一步驟寫入為那個磁盤寫入新的 MBR和創(chuàng)建新的分區(qū)。在你輸入起始位移和分區(qū)大小，MBR就被修改了，而新的分區(qū)信息出現(xiàn)了。6.在comma nd prompt輸入diskpar -i x （x為磁盤個數(shù)）來復(fù)查新近創(chuàng)立的分區(qū)上的信息

26、。64位windows系統(tǒng) 在64位的windows系統(tǒng)里面，如果按照默認(rèn)創(chuàng)建，MBR類型的磁盤是對齊的；GPT分區(qū)也是按默認(rèn)對齊，盡管他們有一個小的保留區(qū)域（32MB是沒有對齊的。在linux系統(tǒng)中的磁盤分區(qū)調(diào)整在linux中，在數(shù)據(jù)寫入LUN之前對齊分區(qū)表 (table),因為分區(qū)影射(map)會被重寫，所有在LUN上的數(shù)據(jù)都會毀壞。在接下來的例子里，LUN被影射到 /dev/emcpowerah，而且 LUNstripe element size 是 128block。fdisk軟件工具的使用方式如下所示：fdisk /dev/emcpowerah x # expert mode

27、b # adjust starti ng block nu mber1 # choose partition 1 128 # set it to 128, our stripe element size w # write the new partition對于那些會使用snapshot，clone，MirrowView的鏡像構(gòu)成的LUN來說，這個方法比LUN對齊位移方法更加適用。這對 SANCopy中的sources和targets 是一樣適用的對于VMWar啲磁盤分區(qū)調(diào)整VMware會更加復(fù)雜，因為會有兩種情況存在。當(dāng)對齊raw disk 或者Raw Device Mapping(RD

28、M)卷，實(shí)在虛擬主機(jī)(VM)層次上來實(shí)現(xiàn)對齊的。例如，在 windows的虛擬主機(jī)上使用diskpar來實(shí)現(xiàn)對齊。對于VMFS卷，會在ESXServer的層次上使用fdisk來實(shí)現(xiàn)對齊，正如 diskpar 在VM層次。這是因為不管是 ESX Server還是客戶端都會把 MBR放到LUN上面去。ESX必須對齊VMFS,而客戶系統(tǒng)必需對其他們的虛擬磁盤。對齊 ESX Server: On service con sole, execute fdisk /dev/sd, where sd is the device on which you would like to create the

29、VMFS Type n to create a new partition Type p to create a primary partition Type n to create partiti on #1 Select the defaults to use the complete disk Type x to get into expert mode Type b to specify the starting block for partitions Type 1 to select partition #1 Type 128 to make partition #1 to ali

30、gn on 64KB boundary Type r to return to main menu Type t to change partition type Type fb to set type to fb (VMFS volume) Type w to write label and the partition information to disk通過把分區(qū)類型聲明為fb，ESX Server會將這個分區(qū)認(rèn)為一個沒有被格式化的 VMFS。你應(yīng)該能夠使用 MUI或者vmkfstools，把一個VMFSt件系統(tǒng)放上去。對于Linux的虛擬主機(jī)，按照上面列出的程序步驟來做。對于win

31、dows的虛擬主機(jī)，也是按照上面的程序步驟來做。編輯的 I/O fragementing對于linux來說，避免對一個LUN的多個大文件的并發(fā)訪問是很重要的。否則，這回造成來自不同的線程的許多個訪問，使用不同的虛假設(shè)備來訪問同一個潛在的設(shè)備。這種沖突減少了寫操作的 coalescing。最好還是使用很多個小的LUN 每一個有一個單一的大的文件。動態(tài)LUN的融合和偏移如果你使用一個基于主機(jī)的分區(qū)工具來對齊數(shù)據(jù)，在你融合幾個LUN的時候，這個對齊也會被保留。這是假設(shè)所有 LUN的LUN stripe size是一致的。假如Navisphere Bi nd Offset被融合的源LUN所使用，

32、那么目標(biāo) LUN在bou nd用來調(diào)整stripe 對齊的時候，必須要使用 Bi nd Offset 。編輯卷管理器 Volume Managers對卷管理器的主要性能影響因素，是 CLARiiONLUN使用了 stripe的方式（我們所說的 plaid 或者 stripe on stripe ）。我們要避免使用基于主機(jī) RAID而且使用校驗（如Raid3，Raid5）的應(yīng)用。這會消耗掉主機(jī)的資源來實(shí)現(xiàn)這一服務(wù)（校驗保護(hù)），而這其實(shí)讓存儲系統(tǒng)來實(shí)現(xiàn)這個服務(wù)會更加好。圖三顯示了在以下章節(jié)中討論到的三種不同plaid技術(shù)對于所有的情形，都會遵從以下規(guī)則:Plaid 應(yīng)該做的把主機(jī)管理器的

33、stripe 深度（stripe element ）設(shè)成 CLARiiON LUN的 stripe size。你可以使用整數(shù)倍的，但最好還是把stripe element 設(shè)定在512KB或者1MB簡而言之，從基本的CLARiiON LUN上來考慮建立逐級管理器的stripe。從分開的磁盤組來使用LUN；這個組應(yīng)該有相同的參數(shù)（stripe size ，disk count，RAID type，等等）。Plaid 不應(yīng)該做的千萬不要在同一個RAID group里把多個LUN stripe （譯者注：stripe和 con cate nate都是meteLUN的一種方式，下文中的英文部分的 st

34、ripe 都是特指這個）在一起。這是因為會造成大量的磁盤尋道。如果你從一個磁盤組需要捆綁多個LUN使用con cate nate來實(shí)現(xiàn)-千萬不要使用stripi ng 的方式。不要使主機(jī)的 stripe element 比 CLARiiON的 RAID stripe size 小。不要對那些具有不同 RAID type和stripe size 的RAID Group，或者根本不同磁盤組的LUN使用plaid的方式在一起。結(jié)果并不一定是災(zāi)難性的，但很可能會出現(xiàn)未知的因素。編輯Plaid 為高帶寬的設(shè)置plaid在以下幾個原因使用在高帶寬的應(yīng)用里面：plaid可以增加存儲系統(tǒng)的協(xié) 作（并行訪

35、問）。plaid允許多于一個的主機(jī)HBA卡和CLARiiON的存儲運(yùn)算器（SP共同為一個volume所用。非常大的卷可以被分布到多于一個的CLARiiON系統(tǒng)之上。增加協(xié)作Plaid在應(yīng)用是單線程（也就是說，讀一個單一的大文件）的時候會比較有用。如果應(yīng)用的I/O的大小正好跟卷管理器的條帶大小一致，那么卷管理器可以訪問那些可以包裝成卷的并發(fā)的LUN 從多個存儲器分布式訪問跨越存儲系統(tǒng)，正如在圖三的配置B里面所演示那樣，僅僅當(dāng)文件系統(tǒng)的大小和帶寬要求需要這樣的一個設(shè)計的時候，才被建議使用。例如，一個30TB的地質(zhì)信息系統(tǒng)數(shù)據(jù)庫，要求的寫的帶寬超過了一個array所能達(dá)到的極限，將會是一個多

36、系統(tǒng)plaid的候選者。必須注意的是，一個軟件的更新或者任何存儲系統(tǒng)的出錯一-例如因為一個存儲系統(tǒng)上的一個組件的出錯而導(dǎo)致的寫緩存的停用一-將會影響到整個文件系統(tǒng)。編輯Plaids and OLTPOLTP應(yīng)用是難以去分析，也難以去忍受一些熱點(diǎn)。Plaids是一種有效的策略來使I/O從多個軸來分布式訪問。一個可以讓很多個磁盤處于忙碌狀態(tài)的應(yīng)用，將會從多個硬盤數(shù)中得益。注意一些卷的管理建議小的主機(jī) stripe （16KB到64KB。這對使用一種stripe 的Raid type的CLARiiON來說并不正確。對于OLTP卷管理器的stripe element 應(yīng)該跟 CLARiiON的

37、stripe size （典型來說是 128KB到 512KB。Plaid 對于 OLTP 主要的開銷，在于大部分的用戶以跨plaid的方式結(jié)束?？?plaid 磁盤一-連同磁盤組一-會變得更大；因此，用戶也常常會因為好幾個主機(jī)卷被同一個CLARiiON的Raid groups所創(chuàng)立（一個跨plaid 看圖三中的配置 C）而結(jié) 束。這個設(shè)計的基本原理是在于以下的情況：對于任何一個卷組的隨機(jī)行為的爆發(fā)，將會分布到多個磁盤上去。這個的不足之處在于測定卷之間的相互作用，是相當(dāng) 困難的。但是，一個跨plaid也有可能是有效率的，當(dāng)以下情況存在的時候：.I/O sizes 比較?。?KB或更?。┖碗S

38、機(jī)的訪問.卷是受制于一天中不同時間的爆發(fā)，而不是同一時刻。編輯主機(jī)HBA的影響用來實(shí)現(xiàn)主機(jī)附加的拓?fù)洌Q于系統(tǒng)的目標(biāo)。高可用性要求雙HBA卡和到存儲器的雙路徑。雙路徑對性能的影響，主要看管理者如何去從系統(tǒng)資源里得到負(fù)載均衡的能力。在對存儲系統(tǒng)調(diào)優(yōu)的時候，必須牢記 HBA卡和驅(qū)動的作用。EMC勺E-Lab提供了設(shè)置磁盤和固件的建議，而我們必須要按這些建議來操作。編輯HBA卡的限制HBA卡的固件，HBA卡使用的驅(qū)動的版本，和主機(jī)的操作系統(tǒng)，都可以影響到在存儲陣列中的最大量的I/O size和并發(fā)訪問的程度。編輯Powerpath如果操作系統(tǒng)可以使用，Powerpath這個軟件應(yīng)該總是要

39、使用的一-不管是對于一個單一連接到一個交換機(jī)的系統(tǒng) （允許主機(jī)繼續(xù)訪問，當(dāng)軟件升級的時候）還是在一個完全冗余的系統(tǒng)。除了基本的failover 之外，Powerpath還允許主機(jī)通過多個存儲處理器（SF）的端口來連接到一個LUN上面一-一種我們通常稱之為多路徑的技術(shù)。Powerpath通過負(fù)載均衡算，來優(yōu)化多路徑訪問 LUN Powerpath提供了幾種負(fù) 載均衡的算法，默認(rèn)的那種ClarOpt 是我們所推薦的。ClarOpt可以調(diào) 整傳輸byte的數(shù)量，正如隊列的深度一樣。連接到所有目前的CLARiiON的型號的主機(jī)，都可以從多路徑中獲益。直接連接的多路徑需要至少兩張HBA卡；實(shí)際的

40、SAN多路徑需要兩張HBA卡，其中的每一個都會被分配到多于一個SP端口的區(qū)域。多路徑的好處在于：在同一個SP中，可以從一個端口 failover 到另一個端口，修復(fù)一個事件的系統(tǒng)工作。在SP的端口和主機(jī)HBA卡中的負(fù)載均衡從主機(jī)到存儲系統(tǒng)中獲得更高的帶寬（假設(shè) 主機(jī)里，路徑能使用足夠多的 HBA卡）當(dāng)Powerpath提供了所有可行路徑的負(fù)載均衡，這會帶來一些附加的開銷：一些主機(jī)的CPL資源會被一般的操作所使用，正如會被failover 的時候使用。在一些情形下，活躍的路徑會增加一些時間來failover 。（ Powerpath在嘗試幾條路徑之后，才會trespass 一個LUN

41、從一個SP到另一個SP）因為這些事實(shí)，活躍的路徑應(yīng)該受到限制，通過 zoning，到兩個存儲系統(tǒng)的端口對應(yīng)一個HBA卡來影射到一個被主機(jī)綁定的存儲系統(tǒng)。一個例外是，在從其它共享存儲系統(tǒng)端口的主機(jī)所爆發(fā)的環(huán)境，是不可預(yù)知和嚴(yán)峻的。在這個情形下，四個存儲系統(tǒng)的端口都有一個各自的 HBA卡，這是可以實(shí)現(xiàn)的。編輯MetaLUNsMetaLUN是一個所有CLARiiON系列存儲系統(tǒng)都特有的功能。我們從好幾個方面來討論什么時候和怎么用 metaLUN編輯對比metaLUN和卷管理器在一個CLARiiON存儲系統(tǒng)，metaLUN被當(dāng)作一個在RAID引擎之上的層，在功能上來說相似于主機(jī)上的一個卷管

42、理器。但是，在metaLUN和卷管理器之間還是有很多重要的明顯的區(qū)別。單一的SCSI目標(biāo) 對比很多的SCSI目標(biāo)要創(chuàng)建一個卷管理器的stripe，所有構(gòu)成的LUN必須設(shè)定成可以訪問到主機(jī)的。 MetaLUN要求只有一個單一的SCSI LUN被影射到主機(jī)；這個主機(jī)并不能看到組成這個metaLUN的多個LUN這會讓管理員在以下幾個情形下得益：對于因為OS限制而有受限制的LUN可用的主機(jī)對于那些增加LUN導(dǎo)致SCSI設(shè)備重編號的主機(jī)；經(jīng)常一個內(nèi)核需要重建，用來清除設(shè)備的條目。在這些情形下，使用 metaLUN而不是卷管理器會簡化在主機(jī)上的管理。沒有卷管理器不是所有的操作系統(tǒng)都有卷管理器的

43、支持。MS的Server Win2000/2003集群使用 Microsoft Cluster Services （ MSC）并不能使用動態(tài)磁盤。 MetaLUN是一個可以為這些系統(tǒng)提供可擴(kuò)展的，stripe和con cate nated （連接的）卷的解決方案。卷的復(fù)制如果卷是要被使用SnapView, MirrorView或者SANCopy的存儲系統(tǒng)所復(fù)制的話，一個可用的鏡像會要求持續(xù)的處理分離的能力。采用metaLUN會簡化復(fù)制。卷訪問共享的介質(zhì)當(dāng)一個使用了 stripe 或者con cate nate的卷必須要允許在主機(jī)間共享訪問，一個卷管理器不能許可共享訪問，而 metaL

44、UN可以使用并實(shí)現(xiàn)這個功能。MetaLUN 可以在兩個的主機(jī)存儲組之間應(yīng)用。存儲處理器（SP）的帶寬卷管理器的卷和metaLUN之間的一個重要的顯著區(qū)別是，metaLUN是可以被一個 CLARiiON存儲系統(tǒng)上的一個存儲處理器完全的訪問。如果一個單一的卷需要非常高的帶寬，一個卷管理器仍然是最好的方式，因為卷可以從不同的SP上的LUN 上來建立。一個卷管理器允許用戶訪問存儲器，通過很多個SP的集合起來的帶寬。卷管理器和并發(fā)訪問正如在“ Plaids :為高帶寬設(shè)置”章節(jié)里指出的那樣，基于主機(jī)的stripe的卷的使用，對于有多線程的大的 request （那些有多于一個卷stripe segme

45、nt 組成的request ），會有比較高的效果。這會增加存儲器的并發(fā)訪問能力。使用 metaLUN不會帶來多線程上好的效果，因為comp on e nt LUN上的多路復(fù)用是由存儲系統(tǒng)來實(shí)現(xiàn)的。編輯MetaLUN的使用說明和推薦MetaLUN包含了以下三種類型：條帶的（stripe），結(jié)和的（concatenate），和混合的（hybrid）。這個章節(jié)會做出幾個通常的推薦。對那些想要更多細(xì)節(jié)的人來說，接下來的章節(jié)中將會定位建立metaLUN和相關(guān)每種類型的優(yōu)點(diǎn)的策略和方法。什么時候使用metaLUN通過前面的卷管理器的討論，應(yīng)該在以下情形下使用metaLUN當(dāng)大量的存儲整合變得有必要的

46、時候（每個卷都需要非常多的很多磁盤）當(dāng)要求LUN的擴(kuò)展的時候當(dāng)你建立一個metaLUN的時候，你可以控制以下的要素：component LUN的類型, metaLUN的類型，和 stirpe multiplier （增加的）。Compo nent LUN 的類型用來綁定在一個metaLUN上的LUN的類型應(yīng)該能反映metaLUN上要求的I/O的形式。例如，使用在這份白皮書里面建議的各種不同的 Raid的類型（“ Raid的類型和性能”提供了更多的信息），來匹配 I/O的形式。當(dāng)綁定component LUN的時候，使用以下規(guī)則：當(dāng)為metaLUN綁定LUN的時候，總是使用默認(rèn)的 s

47、tripe element size（128 block）總是激活讀緩存和寫緩存確保為 component LUN設(shè)置的 write-aside 的大小為 2048。（ write-aside 在“ RAID引擎緩存”里面會被提到）避免在RAID 5的磁盤組里使用少于4塊的硬盤（或者說，至少是要3+1模式）使用RAID1/0磁盤組的時候，至少使用4塊硬盤（新的1+1并不是對metaLUN的個好的選擇）不要使用comp on e nt LUN位移來校正stripe 的對齊。MetaLUN有他們自己的位移值。MetaLUN的類型一般來說，盡可能的使用stripe方式的metaLUN因為

48、他們能體現(xiàn)出我們能預(yù) 知的更好的性能。Con cate nat 個單獨(dú)的LUN給一個metaLUN會更加方便；這可能在擴(kuò)展一個對性能并不敏感的卷會更加合適。Hybrid metaLUN使用stripe 的方式捆綁con cate nate的LUN這個方式被用來克服stipe擴(kuò)展的成本（這樣會比較低）。一個采用 stripe方式的metaLUN可以通過 con cate nate 另一個 stripe comp onent的方式來擴(kuò)展。這樣保持了 stripe component可預(yù)計的性能，也允許用戶用來擴(kuò)展一個stripe 的metaLUNM不用隊已經(jīng)出線的數(shù)據(jù)的重組（性能將會受到影響，

49、當(dāng)重新條帶化操作進(jìn)行的時候）圖四展示了這一點(diǎn)。圖四 hybrid-striped metaLUN在理想的情況下，在擴(kuò)展stripe設(shè)置的LUN將會分布在同樣RAID類型的不同的 RAID組里面，也會表現(xiàn)得更原始的 stripe compo nent致。大部分最直接的方式是使用同一個RAID組作為基礎(chǔ)的component。這個RAID組是被最先擴(kuò)展的，以便使空間變的可用。這個方式在“ metaLUN擴(kuò)展方法”里會演示。RAID組的擴(kuò)展是更加有效率的，對比metaLUN restripe （把這個重分條過程設(shè)置成中等優(yōu)先級別），也會對主機(jī)性能有更小的影響。MetaLUN stripe mul

50、tiplier stripe multiplier決定了 metaLUN的 stripeeleme nt size:Stripe multiplier * base LUN stripe size = metaLUN stripe segme nt sizeMetaLUN stripe segme nt size是任何 comp on e nt LUN 能收到的最大的 I/O。所有的高帶寬性能和隨機(jī)分布都要求 metaLUN stripe eleme nt 的大小為1MB左右。而且，在下面的RAID組還可能被擴(kuò)充。我們需要確保metaLUNstripe element 是足夠大，大到跟寫的完

51、全的stripe 一樣，用來擴(kuò)展component LUN（圖表1）。使用以下規(guī)則來設(shè)置stripe multiplier :除非使用RAID 0,使用最少四個磁盤的磁盤組，來組成作為component LUN主機(jī)的RAID 組。為磁盤組的大小來測定選擇有效的磁盤個數(shù)。例如，六個磁盤的RAID1/0是3（3+3）。五個磁盤的RAID5是4 （4+1）通過圖表1,為有效磁盤的個數(shù)而選擇 multiplier如果有疑問，使用4作為metaLUN的stripe multiplier。對大部分情形來說,這是一個默認(rèn)的，也是一個好的選擇。MetaLUN對齊的位移如果你計劃通過 metaLUN來使用S

52、napView或者M(jìn)irrorView ,把metaLUNX寸齊位移值設(shè)為0。使用磁盤分區(qū)工具來調(diào)整分區(qū)的位移。MetaLUN和 ATA磁盤在這個時候，ATA并不適合繁忙的隨機(jī)I/O訪問的方案。這個章節(jié)集中在使用ATA 磁盤作為高帶寬的應(yīng)用。保持RAID組的足夠小，是metaLUN策略的一部分。這會使 ATA硬盤更加合理，因為小的磁盤組比大的會有更小的重組時間。但是，必須意識到的時，metaLUN會被一個單一的磁盤組的rebuild所影響，而ATA磁盤的rebulid時間是冗長的。基于數(shù)據(jù)可用性的考量，在非常多的環(huán)境里，我們最好避免使用ATA硬盤來做metaLUN除非動態(tài)擴(kuò)展或者需要非常

53、大的一個容量。CLI例子：建立一個metaLUN在接下來的例子的代碼，我們建立一個stripe方式的使用base LUN30的metaLUN沒有建立 metaLUN的命令；你需要擴(kuò)展一個已經(jīng)出現(xiàn)的 FLARE LUF來建立一個metaLUN在命令中設(shè)計而成的LUN都是相同RAID的類型和容量的 FLARE_UN LUN30會變成基本的一新的 metaLUN會把30作為他的identifier。Matalun - expand - base 30 - lus 31 32 33 - nameP1H00 - elszm 4 - type S擴(kuò)展的類型被設(shè)置成S，作為stripe方式，而選擇elem

54、ent size (4)是因為 LUN是建立在5塊硬盤的RAID5組里面。編輯MetaLUN的擴(kuò)充戰(zhàn)略對于有長期擴(kuò)展計劃的用戶來說，有好幾種使用策略。使用一種策略，你必須要確認(rèn)你的目標(biāo)。在接下來的章節(jié)會出現(xiàn)的一些可能的目標(biāo)如下：把本地的爆發(fā)的隨機(jī)數(shù)據(jù)分布到多個磁盤上去好的順序/帶寬的性能有效的利用容量靈活的擴(kuò)展設(shè)備這些都是使用metaLUN的用戶的主要的目的。擴(kuò)展模式的初始化配置初始化安裝的規(guī)則在圖5中闡明。這些規(guī)則是：為初始化容量部署，來部署所需要的磁盤建立合適大小的磁盤陣列組：對于RAID 1/0，使用4或6個硬盤對于RAID5或者RAID3使用5個硬盤把磁盤組按照每一個set有4-8個

55、RAID組的方法來組織。（如果要求高的隨機(jī)I/O，那么需要更多的磁盤組）對于每一個metaLUN根據(jù)歸屬來確定Raid 組的set o對每一個計劃要做的 metaLUN通過用RAID 組在自己的RAID組set里面的數(shù)目來分 metaLUN的大小，來確定component LUN的大小o從每一個在自己set里的RAID組里，為每一個 metaLUN建立一個 component。建立metaLUN的時候，請讓組成這個metaLUN 的LUN跨越所有的的RAID組set里的RAID 組。圖5是一個set的metaLUN和他們的RAID組set的例子Figure5. metaLUN里面的存儲

56、的初始化分布注意到在圖5,每一個metaLUN由一個對應(yīng)一個 RAID組的LUNS成。因此，每一個LUN的負(fù)載是分布在所有在那個 set里的RAID組。但是，這些metaLUN是和對其他RAID組的set的數(shù)據(jù)訪問是分隔開的。為什么要使用RAID組的set如果我們不允許一個 metaLUN來擴(kuò)展到自己的set 以外，我們可以做出一定級別的隔離，將這種影響控制在磁盤的級別。例如，一個RAID組的set可能為一大群文件服務(wù)器所設(shè)立，而另一個RAID組的set是為 RDBM的數(shù)據(jù)目錄這時一對普通的RAID1組可能被使用作為RDBM的日志設(shè) 備。圖6展示了這一點(diǎn)。圖6:用RAID組的set和me

57、taLUN來做數(shù)據(jù)分隔的例子在圖6里面顯示的例子，通過訪問到NFS的共享metaLUN并不會干涉到Oracle 服務(wù)器訪問他們自己的數(shù)據(jù)目錄或者日志。擴(kuò)展模式的的擴(kuò)展程序下一步是建立擴(kuò)展的策略。擴(kuò)展的目標(biāo):維持?jǐn)U越很多磁盤的分布更有效的利用容量達(dá)致這個目標(biāo)的途徑當(dāng)容量對metaLUN來說是可以預(yù)計的，把磁盤增加到set已經(jīng)出現(xiàn)的RAID組里面。對metaLUN里的set里面的RAID組進(jìn)行擴(kuò)展對metaLUN里增加擴(kuò)展的LUN作為一個新的 stripe 的 componentMetaLUN的擴(kuò)展例子這個例子里使用的途徑,和metaLUN配置的原始的目標(biāo)是緊密結(jié)合的I/O 分布在所有的磁盤上

58、第一步，IS部門確定Meta A的容量使用率超過了他的警戒線一85%-同時也會告知用戶要注意這個metaLUN在周末的時候，IS接受一個外加160GB請求。這個系統(tǒng)的操作員增加2個磁盤，到metaLUN A所在的set里的每一個RAID組。 RAID組的擴(kuò)展被設(shè)置成中等優(yōu)先級別，這對性能影響會非常小。每一個組的存儲增加了一個磁盤的容量（66GB，如圖7所示。圖7.對metaLUN的擴(kuò)展：第一步下一步是對metaLUN set的每一個RAID組綁定一個LUN他們必須要擴(kuò)展的總的容量是160GB而我們在這個metaLUNset里面有四個RAID組，所以160/4=40 一個40GB的L

59、UN必須限定在set里的每一個RAID組。最后一部是使用4個建立的LUN來擴(kuò)展metaLUN操作員指派要被增加的LUN 并且把擴(kuò)展設(shè)置為con cate nate的方式。因為擴(kuò)展的LUN都是一樣的大小，所以 n avisphere con cate nate 個新的 stripe 的 comp onent 至 U metaLUN 來組成這些LUN （圖8）圖8: MetaLUN的擴(kuò)展：第二步接下來的是一個CLI方式（命令行）的命令的例子：通過con cate nate 個新的 stripe component來擴(kuò)展 metaLUN這個 metaLUN的 identifier是 30FLARE

60、LUN34，35，36，37都有一樣的RAID的類型和容量：metalun - expand - base 30 - lus 34 35 36 37- type c 擴(kuò)展的類型被設(shè)置成 C,代表con cate nate的方式。Navishpere會以stripe 方式把LUN捆綁成一個新的component,然后加到已經(jīng)出現(xiàn)的 metaLUN metaLUN30 上面去。基于LUN堆疊的metaLun正如前面的例子那樣，當(dāng)從一個 set的RAID組里建立多個metaLUN掉轉(zhuǎn)你為每一個metaLUN定位的base LUN里的RAID組。這可以把磁盤組里的數(shù)據(jù)庫，文件系統(tǒng)，甚至是一個備份

人人文庫> 全部分類> 行業(yè)資料 > 機(jī)電工程

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

EMC存儲最佳實(shí)踐培訓(xùn)手冊

文檔簡介

溫馨提示

最新文檔

評論