宏杉科技IDDC與CRAID技術_第1頁
宏杉科技IDDC與CRAID技術_第2頁
宏杉科技IDDC與CRAID技術_第3頁
宏杉科技IDDC與CRAID技術_第4頁
宏杉科技IDDC與CRAID技術_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

MacroSANIDDC與CRAID技術杭州宏杉科技有限公司典型案例某用戶配置了16塊1TB磁盤做RAID5,承載其在線關鍵業(yè)務。運行3年后,磁盤開始陸續(xù)損壞,發(fā)現(xiàn)其重建過程漫長。在其業(yè)務未中斷的情況下,完成一次重建所需時間長達5天,這種情況還不是最糟的。更糟的是,在某次重建過程中,重建進程完成到60%時,重建過程被異常中止,RAID組fail,整個數(shù)據(jù)卷損壞,數(shù)據(jù)丟失。經(jīng)檢查發(fā)現(xiàn),在重建過程中,該RAID組中的另一塊磁盤發(fā)生了讀錯誤,導致磁盤failed,被RAID組踢出。通過這個案例我們可以看出幾個問題:1、磁盤屬于消耗品,發(fā)生老化后,會產生潛在故障盤或假象故障盤;2、故障盤或假象故障盤都將導致RAID組重建;3、大容量磁盤RAID重建時間過長,重建過程風險巨大;4、潛在故障盤將導致RAID重建失??;什么是假象故障磁盤簡單的說,假象故障磁盤就是在使用中發(fā)生錯誤告警,但返廠后經(jīng)檢查發(fā)現(xiàn)該磁盤沒有任何物理損壞,檢測為正常的磁盤。為什么會有假象故障磁盤通常是與設備運行環(huán)境有關的,比如磁盤受到外力導致的振動達到一定程度,就會造成磁盤工作失靈,這種失靈往往在消除振動后可以恢復。磁頭在盤面的水平方面振動,會導致磁頭與磁道偏離,磁頭與目標磁道位置偏離過大,超過了伺服機構能響應的允許值,此時磁頭根本無法定位,造成工作失靈;磁頭在與盤面垂直方向的振動,導致磁盤盤面與磁頭距離的變化,磁頭和盤片的間隙過大,造成磁頭感應到的信號電壓不足,磁盤無法讀/寫;什么是潛在故障磁盤■Vi宏杉科技^macmsan簡單的說,潛在故障磁盤就是已經(jīng)存在損壞扇區(qū),但在設備運行狀態(tài)中卻顯示為正常的磁盤。為什么會有潛在故障磁盤由于磁盤本身屬于易耗品,存儲設備長期在線運行后,根據(jù)業(yè)務類型及機房環(huán)境不同,磁盤會出現(xiàn)不同程度的老化。這些老化磁盤中可能會存在不同程度的損壞扇區(qū),而損壞扇區(qū)在沒有io讀寫觸發(fā)的條件下,通常不會被存儲設備感知。這種未被感知,但又存在一定損壞扇區(qū)的磁盤,就是潛在故障磁盤。一般情況下,潛在故障磁盤在非RAID環(huán)境中可能會導致磁盤中的部份文件塤壞或丟失。若存在于配置了RAID組的存儲環(huán)境中,其危險性將及有可能會乘以N倍的數(shù)量放大。故障磁盤的危害冗余RAID組重建頻繁:存儲設備長期在網(wǎng)運行后,由于機械設備老化,磁盤假象故障發(fā)生的機率增加,并且會有越來越多的潛在故障磁盤轉化為故障磁盤,這些磁盤的陸續(xù)損壞導致了頻繁的RAID組重建。傳統(tǒng)存儲設備的RAID組重建過程中,會大量消耗讀寫性能,尤其對于大容量磁盤,重建時間過長。因而往往會影響到用戶業(yè)務的正常訪問,且易出現(xiàn)冗余RAID組重建失敗,發(fā)生數(shù)據(jù)丟失的事故。冗余RAID組重建失?。焊鶕?jù)冗余RAID組原理,特別是采用積偶效驗算法的RAID組,如RAID5、RAID6,在進行RAID組重建時,需要讀取該RAID組中其它成員成盤上的所有數(shù)據(jù),來計算被替換故障磁盤的數(shù)據(jù)。對于長期在網(wǎng)運行,磁盤老化較嚴重的設備,往往會隱藏著一定的潛在故障磁盤,一旦這些磁盤在重建過程中轉化為故障磁盤,該RAID組會立刻失效,重建失敗,導致該RAID組所有數(shù)據(jù)丟失。問題與挑戰(zhàn)隨著云時代的到來,數(shù)據(jù)量越來越多,磁盤容量越來越大,發(fā)生磁盤損壞的比率也越來越大,如何解決磁盤故障對存儲帶來的危害成為重要課題目。問題:1、磁盤屬于消耗品,一般3年左右,發(fā)生機械老化;2、發(fā)生老化后,會產生潛在故障盤或假象故障盤;3、故障盤或假象故障盤都將導致RAID組重建;4、大容量磁盤RAID重建時間過長,重建過程風險巨大;5、潛在故障盤易導致RAID重建失??;挑戰(zhàn):1、變被動重建為主動檢測;2、提高RAID容錯度;3、降低磁盤誤判;4、提高錯誤修復效率;5、減少數(shù)據(jù)丟失風險;磁盤維護新方式一IDDC主動式磁盤診斷中心基于多年存儲維護經(jīng)驗的深刻理解,MacroSAN開發(fā)了一套可以在不增加任何附加投資的條件下,最大化提高磁盤及RAID組安全性的,智能存儲磁盤維護檢測修復工具。IDDC:InitiativeDiskDiagnosisCenter,主動式磁盤診斷中心該診斷中心包含了4個模塊(磁盤檢測、快速修復、壞塊復位、磁盤診斷)它可以通過預先設置的策略定期對磁盤進行錯誤檢測,用于發(fā)現(xiàn)磁盤中是否存在錯誤碼。再根據(jù)錯誤碼叛斷磁盤錯誤類型,并進行相應的壞塊修復、磁盤遷移或磁盤修復等操作,以提早處理磁盤潛在故障隱患,降低RAID組重建損壞機率,提高設備穩(wěn)定性。磁盤檢測:對所有磁盤進行周期性全盤檢測,提前發(fā)現(xiàn)故障;支持磁盤檢測速率動態(tài)調整,不影響應用性能;發(fā)現(xiàn)問題的磁盤交由診斷中心統(tǒng)一處理;快速復位:結合CRAID的局部重建機制,可快速修復磁盤邏輯錯誤,降低全盤重建機率。

壞塊修復:經(jīng)過檢測的磁盤發(fā)現(xiàn)存在壞塊(扇區(qū))后,會觸發(fā)磁盤自身的remap機制,將壞塊的指針重定向到好的保留扇區(qū)中。然后調用RAID組的校驗功能,重建該數(shù)據(jù)塊,確保數(shù)據(jù)一致性。磁盤診斷:所有告警磁盤、故障磁盤會在診斷中心進行復診并嘗試修復,減少磁盤故障誤判。修復后的磁盤自動轉為全局熱備磁盤。3.1.磁盤檢測對所有磁盤進行周期性全盤檢測,提前發(fā)現(xiàn)錯誤并交由磁盤診斷中心統(tǒng)一處理。該功能可以通過以下幾個模塊實現(xiàn):?時間周期:可以預設每一輪磁盤檢測的起始時間和周期間隔?磁盤范圍:可根據(jù)業(yè)務需要設置某一組磁盤進行磁盤檢測?全盤讀檢測:對檢測盤進行全盤讀操作,以發(fā)現(xiàn)磁盤中的不正常扇區(qū)?逐盤檢測:預設的時間到達時,對滿足檢測要求的磁盤進行排隊,逐個啟動磁盤檢測?S.M.A.R.T.信息處理:如果磁盤S.M.A.R.T.檢測失敗,則將該磁盤直接轉到磁盤診斷中心,若S.M.A.R.T.信息未超過危險值,便啟動IDDC的全盤檢測處理過程"kb?進度管理:以圖形化的方式體現(xiàn)檢測法度能動態(tài)調整:檢測速率會根據(jù)磁盤10流量動態(tài)調整,保證該破盤所承載業(yè)務不受影響3.2.快速復位處理過程"kb磁盤子系統(tǒng)的核心功能之一就是磁盤錯誤處理,在收到磁盤返回的磁盤錯誤之后,根據(jù)不同的錯誤,可以采取不同的錯誤處理方案,包括:重試,即針對磁盤可恢復的臨時性故障(磁盤的假故障,比如震動引起的讀/寫錯誤),磁盤子系統(tǒng)對命令進行重試;對磁盤下電再上電,即從硬件上復位磁盤,嘗試修復磁盤錯誤,結合上面提到的RAID基于Cell的局部重建機制,復位磁盤過程中新寫入的數(shù)據(jù)可快速完成重建,恢復RAID的數(shù)據(jù)冗余性;磁盤錯誤透傳,由RAID進行處理。3.3.壞塊修復發(fā)現(xiàn)磁盤壞塊(扇區(qū)),根據(jù)RAID信息重建數(shù)據(jù),觸發(fā)磁盤自身的remap機制,實現(xiàn)壞塊替換磁盤在出廠前會留有一部份備用扇區(qū),當正常使用的扇區(qū)出現(xiàn)損壞的情況下,磁盤會啟用remap自動修復機制,將損壞扇區(qū)重定位到備用扇區(qū),這樣磁盤的整體容量和功能就不會受到影響,對于用戶來講,這個磁盤還是一個完整的好盤。采用remap機制把備用扇區(qū)替換到原始扇區(qū)后,雖然磁盤的功能得到恢復,但是原始扇區(qū)中的數(shù)據(jù)是已經(jīng)丟失的,IDDC的壞塊修復功能可以根據(jù)RAID組校驗信息,計算出損壞扇區(qū)中的數(shù)據(jù),并進行恢復,這個過程只是針對產生壞扇區(qū)的部份,而不需要對整個RAID進行重建,重建過程所耗性能幾乎可以忽略不計。3.4.磁盤診斷所有告警磁盤、故障磁盤會在診斷中心進行復診并嘗試修復,減少磁盤故障誤判。修復后的磁盤自動轉為全局熱備磁盤。磁盤檢測中心對磁盤進行掃描后,會根據(jù)發(fā)現(xiàn)的磁盤錯誤類型進行標記,如warning盤、fail盤等,并通過相應的功能模塊將這部分磁盤替換出來,轉移到磁盤診斷中心由于磁盤檢測時只能對磁盤進行全讀操作,對于一些邏輯錯誤無法進行準確的判斷。所以磁盤診斷中心會對磁盤進行全寫操作,并對邏輯錯誤嘗試進行修復。可以通過磁盤診斷中心修復的磁盤會被設置為熱備磁盤。不能通過的會被設為fail磁盤,并會通過通知模塊提醒用戶更換。4.RAID維護新方式一CRAID根據(jù)前面的統(tǒng)計分析,存儲系統(tǒng)的硬件故障90%以上是磁盤故障,而故障磁盤中,只有12%是完全的物理損壞,88%屬于部分/完全可用。如果磁盤發(fā)生錯誤后立即被踢出陣列,一方面客戶需要為100%的故障磁盤買單,另外一方面客戶還需要承擔故障磁盤被踢出陣列到被更換過程中其他磁

盤再次故障所導致的數(shù)據(jù)丟失風險。ODSP存儲軟件平臺在分層次、模塊化設計的基礎上,對多個層次上進行了磁盤錯誤處理,其目標是:“盡量嘗試修復,盡可能減少踢盤”,以提高用戶的投資回報率,提出基于Cell的RAID同步和重建技術。Cell,形象稱之為“細胞”,指帶“活性”的數(shù)據(jù)單元,是存儲資源管理的基本單位。引入Cell的概念后,資源管理層次如下圖所示,在具體的實現(xiàn)上,首先用物理磁盤創(chuàng)建RAID,然后把RAID的可用空間根據(jù)指定長度(默認1GB)劃分為多個Cell,創(chuàng)建LUN時,系統(tǒng)自動分配空閑Cell,破除了LUN與RAID、Disk之間的捆綁關系,使RAID的最小維護單位由原來的磁盤變成了更小更靈活的Cell,實現(xiàn)了完全的虛擬化存儲架構。4?1.CRAID基于Cell的重建功能RAID5組□□空數(shù)據(jù)塊校驗數(shù)據(jù)塊原數(shù)據(jù)塊替換數(shù)據(jù)塊壞數(shù)據(jù)塊10年3月cell9^的塊3損壞敦據(jù)盤3被熱備盤替RAID5組□□空數(shù)據(jù)塊校驗數(shù)據(jù)塊原數(shù)據(jù)塊替換數(shù)據(jù)塊壞數(shù)據(jù)塊10年3月cell9^的塊3損壞敦據(jù)盤3被熱備盤替09年12月Cell9替換Cell508年8月Cell7替換CelliLJ□109年7月Cell8替換Cell3Cell3Cell4Cell5Cell6Cell?按照Cell維護健康狀態(tài),突破了傳統(tǒng)RAID對可容忍的磁盤數(shù)目的限制。比如,傳統(tǒng)的RAID5支持1塊磁盤故障,第2塊磁盤故障時,RAID失效,不能繼續(xù)使用。在ODSP存儲軟件平臺的實現(xiàn)中,只要磁盤出錯區(qū)域不在同一個Cell內,RAID中的數(shù)據(jù)仍然可以訪問,即RAID可容忍非同一個Cell內多個磁盤發(fā)生介質錯誤,在極端的情況下,可能出現(xiàn)RAID中所有的成員磁盤上都存在介質錯誤,但是數(shù)據(jù)仍然可以訪問,提高了存儲產品對硬盤的容錯性以及業(yè)務連續(xù)性。同時,針對多個磁盤出錯區(qū)域在同一個Cell內的情況,ODSP存儲軟件平臺繼承了物理的處理方式,即這些磁盤錯誤僅影響當前的Cell,其他Cell仍然可以繼續(xù)訪問,使得錯誤的影響范圍降到最小。4.1.1.快速重建區(qū)別于傳統(tǒng)RAID先踢盤再重建的方式,CRAID的快速重建可只重建錯誤磁盤上的損壞數(shù)據(jù)塊,未發(fā)生錯誤的區(qū)域直接使用拷貝方式將數(shù)據(jù)塊復制到熱備盤,重建完成后,再將錯誤磁盤轉移至IDDC磁盤診斷中心處理,該方式可明顯降低重建過程對RAID組性能造成的影響。

快速重建:m::m!|m:m;:FW^;;FW^;FW^:FW^;:^E;;^E;:^S;;E*1無;E!^B::^B;Fn^iFW:快速重建11I1I耳版壞數(shù)據(jù)塊■核驗數(shù)據(jù)塊、亶整賣」'_棗整典4’|數(shù)據(jù)盤3耳版壞數(shù)據(jù)塊■核驗數(shù)據(jù)塊傳統(tǒng)RAID組重建時,最消耗性能和時間的原因是需要調用所有磁盤進行異或校驗。快速重建由于將全盤校驗改成了按Cell校驗+磁盤復制,其校驗任務只有傳統(tǒng)全盤重建的幾百分一或千分之一,校驗時間幾乎可以忽略不記,而磁盤復制的速度可以達到磁盤讀寫的最大值。以1TB的SATA磁盤為例,在15塊盤的RAID中,全盤重建時間約30小時,而快速重建的時間差最快可以達到6小時。4.1.2.局部重建類似于快速重建,但不是重建熱備盤,而是只對原盤的變化部分進行重建,使其同步。適用于磁盤未損壞,但發(fā)生過閃斷或人為誤操作,短時間內拔出又插回的情況。該方法可重建5分鐘內磁盤不在位過程中所丟失的數(shù)據(jù),重建時間短,極大降低RAID組受影響程度。磁盤拔出有數(shù)據(jù)寫入—HbH—.—???X.■=—'一■:WCTslSe;B]BiSHE:^D;:S1:I^I:EI;:^B;:^0:^B:(^3;■QD::$l:IS;l3i^_?MaiJsaftaJ、CRAID5磁盤插回后只重建差異部分4.1.3.優(yōu)化重建僅重建被LUN使用的Cell,未使用的Cell不重建,如下圖,僅重建Celli、2、3、4,Cell5、6不需重建;RAID5組j[*Cell2[;CCI3fcell5重建調度時,優(yōu)先重建存在介質錯誤的Cell,然后再使用拷貝的方式重建其他Cell,以盡可能的避免該Cell所處的其它磁盤發(fā)生故障導致的Cell損壞;r|CelllIjew先校驗再拷貝支持多重重建,可同時重建多個故障磁盤,如一個RAID組中的兩塊磁盤所處的不同Cell存在壞塊,可以兩個Cell并發(fā)重建,提高重建總體效率。4.1.4.全盤重建與傳統(tǒng)RAID組一樣,適用于磁盤被拔走或者磁盤嚴重故障不能繼續(xù)使用的情況使用。4.1.5.IDDC+CRAID處理流程示例IDDC磁盤診斷中心與CRAID優(yōu)化同步重建技術相互聯(lián)動,形成了一套對于磁盤的自動檢測、故障處理,以及RAID快速恢復的智能處理流程,在提高設備易用性和可維護性的同時,更是大大的提高了設備的安全性假象故障磁盤—快速復位+局部重建壞扇區(qū)?壞塊修復-yesno潛在故障磁盤?檢查S.M.A.R.T.-OK?全盤檢測^壞Cell^^^Cell重建壞Cell超出閾值-快速重建LFAIL>診斷中心磁盤被異常拔出-5分鐘內插回。局部重建5分鐘后插回■全盤重建?修復晶功修復失敗熱備盤通知更換假象故障磁盤—快速復位+局部重建壞扇區(qū)?壞塊修復-yesno潛在故障磁盤?檢查S.M.A.R.T.-OK?全盤檢測^壞Cell^^^Cell重建壞Cell超出閾值-快速重建LFAIL>診斷中心磁盤被異常拔出-5分鐘內插回。局部重建5分鐘后插回■全盤重建?修復晶功修復失敗熱備盤通知更換■Cell5RAID5組[ICel13IfcelM如上圖所示,如選擇按LUN同步,則只需同步圖中的Celli、2、3、4即可完成同步,余下的Cell可在創(chuàng)建其它LUN時再做同步。該方法可大幅縮短同步時間,對于隨機讀寫要求高,又急需使用的環(huán)境,該方法較為有效。4.2.2.快速同步(全0同步)校驗RAID組在初始同步時會計算每個條帶的校驗值,做過校驗的條帶會大大提高小數(shù)據(jù)的隨機寫的性能,采用所

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論