某公司數(shù)據(jù)恢復(fù)報告書_第1頁
某公司數(shù)據(jù)恢復(fù)報告書_第2頁
某公司數(shù)據(jù)恢復(fù)報告書_第3頁
某公司數(shù)據(jù)恢復(fù)報告書_第4頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、某公司數(shù)據(jù)恢復(fù)報告書一、故障描述1、設(shè)備清單設(shè)備名稱設(shè)備型號數(shù)量HP FC存儲HP MSA20001450G SAS硬盤82、故障描述整個存儲空間由 8 塊 450GBSAS的硬盤組成,其中 7 塊硬盤組成一個 RAID5 的陣列,剩余 1 塊做成熱備盤使用。由于 RAID5陣列中出現(xiàn) 2 塊硬盤損壞,而此時只有一塊熱備盤成功激活,因此導(dǎo)致 RAID5陣列癱瘓,上層 LUN無常使用。二、檢測磁盤由于存儲是因為 RAID陣列中某些磁盤掉線,從而導(dǎo)致整個存儲不可用。因此接收到磁盤后先對所有磁盤做物理檢測,檢測完后發(fā)現(xiàn)沒有物理故障。接著使用壞道檢測工具檢測磁盤壞道,發(fā)現(xiàn)也沒有壞道。磁盤壞道檢測日志如

2、下圖:三、備份數(shù)據(jù)考慮到數(shù)據(jù)的安全性以及可還原性,在做數(shù)據(jù)恢復(fù)之前需要對所有源數(shù)據(jù)做備份,以防其他原因?qū)е聰?shù)據(jù)無法再次恢復(fù)。使用 dd 命令或 winhex 工具將所有磁盤都鏡像成文件。備份完部分?jǐn)?shù)據(jù)如下圖:四、故障分析1、分析故障原因由于前兩個步驟并沒有檢測到磁盤有物理故障或者是壞道,由此推斷可能是由于某些磁盤讀寫不穩(wěn)定導(dǎo)致故障發(fā)生。因為HP MSA2000控制器檢查磁盤的策略很嚴(yán)格,一旦某些磁盤性能不穩(wěn)定,HPMSA2000控制器就認(rèn)為是壞盤,就將認(rèn)為是壞盤的磁盤踢出 RAID組。而一旦 RAID組中掉線的盤到達(dá)到 RAID級別允許掉盤的極限,那么這個 RAID組將變的不可用,上層基于 R

3、AID組的 LUN也將變的不可用。目前初步了解的情況為RAID組的 LUN有 6 個,均分配給 HP-Unix 小機使用,上層做的 LVM邏輯卷,重要數(shù)據(jù)為 Oracle 數(shù)據(jù)庫及 OA服務(wù)端。2、分析 RAID組結(jié)構(gòu)HP MSA2000存儲的 LUN都是基于 RAID組的,因此需要先分析底層RAID組的信息,然后根據(jù)分析的信息重構(gòu)原始的RAID組。分析每一塊數(shù)據(jù)盤,發(fā)現(xiàn) 4 號盤的數(shù)據(jù)同其它數(shù)據(jù)盤不太一樣,初步認(rèn)為可能是hot Spare盤。接著分析其他數(shù)據(jù)盤,分析Oracle 數(shù)據(jù)庫頁在每個磁盤中分布的情況,并根據(jù)數(shù)據(jù)分布的情況得出RAID組的條帶大小,磁盤順序及數(shù)據(jù)走向等RAID組的重要

4、信息。3、分析 RAID組掉線盤根據(jù)上述分析的 RAID信息,嘗試通過北亞自主開發(fā)的 RAID虛擬程序?qū)⒃嫉?RAID組虛擬出來。但由于整個 RAID組中一共掉線兩塊盤,因此需要分析這兩塊硬盤掉線的順序。仔細(xì)分析每一塊硬盤中的數(shù)據(jù),發(fā)現(xiàn)有一塊硬盤在同一個條帶上的數(shù)據(jù)和其他硬盤明顯不一樣, 因此初步判斷此硬盤可能是最先掉線的,通過北亞自主開發(fā)的 RAID校驗程序?qū)@個條帶做校驗,發(fā)現(xiàn)除掉剛才分析的那塊硬盤得出的數(shù)據(jù)是最好的, 因此可以明確最先掉線的硬盤了。4、分析 RAID組中的 LUN信息由于 LUN是基于 RAID組的,因此需要根據(jù)上述分析的信息將 RAID組最新的狀態(tài)虛擬出來。然后分析

5、LUN在 RAID組中的分配情況,以及 LUN分配的數(shù)據(jù)塊 MAP。底層有 6 個 LUN,因此只需要將每一個 LUN的數(shù)據(jù)塊分布 MAP 提取出來。然后針對這些信息編寫相應(yīng)的程序,對所有 LUN的數(shù)據(jù) MAP做解析,然后根據(jù)數(shù)據(jù) MAP并導(dǎo)出所有 LUN的數(shù)據(jù)。五、 LVM邏輯卷及VXFS文件系統(tǒng)修復(fù)1、解析 LVM邏輯卷分析生成出來的所有 LUN,發(fā)現(xiàn)所有 LUN中均包含 HP-Unix 的 LVM邏輯卷信息。嘗試解析每個 LUN中的 LVM信息,發(fā)現(xiàn)其中一共有三套 LVM,其中45G的 LVM中劃分了一個 LV,里面存放 OA服務(wù)器端的數(shù)據(jù), 190G的 LVM中劃分了一個 LV,里面存

6、放臨時備份數(shù)據(jù)。剩余 4 個 LUN組成一個 2.1T 左右的 LVM,也只劃分了一個 LV,里面存放 Oracle 數(shù)據(jù)庫文件。編寫解釋 LVM 的程序,嘗試將每套 LVM中的 LV 卷都解釋出來,但發(fā)現(xiàn)解釋程序出錯。2、修復(fù) LVM邏輯卷仔細(xì)分析程序報錯的原因,安排開發(fā)工程師 debug 程序出錯的位置,并同時安排高級文件系統(tǒng)工程師對恢復(fù)的 LUN做檢測,檢測 LVM信息是否會因存儲癱瘓導(dǎo)致 LVM邏輯卷的信息損壞。經(jīng)過仔細(xì)檢測,發(fā)現(xiàn)確實因為存儲癱瘓導(dǎo)致LVM信息損壞。嘗試人工對損壞的區(qū)域進行修復(fù),并同步修改程序,重新解析 LVM 邏輯卷。3、解析 VXFS文件系統(tǒng)搭建 HP-Unix 環(huán)

7、境,將解釋出來的 LV 卷映射到 HP-Unix,并嘗試 Mount 文件系統(tǒng)。結(jié)果 Mount 文件系統(tǒng)出錯,嘗試使用“ fsck F vxfs ” 命令修復(fù) vxfs 文件系統(tǒng),但修復(fù)結(jié)果還是不能掛載,懷疑底層 vxfs 文件系統(tǒng)的部分源數(shù)據(jù)可能被破壞,需要進行手工修復(fù)。4、修復(fù) VXFS文件系統(tǒng)仔細(xì)分析解析出來的 LV,并根據(jù) VXFS文件系統(tǒng)的底層結(jié)構(gòu)校驗此文件系統(tǒng)是否完整。分析發(fā)現(xiàn)底層 VXFS文件系統(tǒng)果然有問題,原來當(dāng)時存儲癱瘓的同時此文件在系統(tǒng)正在執(zhí)行 IO 操作,因此導(dǎo)致部分文件系統(tǒng)源文件沒有更新以及損壞。人工對這些損壞的源文件進行手工修復(fù), 保證 VXFS文件系統(tǒng)能夠正常解析

8、。再次將修復(fù)好的 LV 卷掛載到 HP-Unix 小機上,嘗試 Mount 文件系統(tǒng),文件系統(tǒng)沒有報錯,成功掛載。六、檢測Oracle 數(shù)據(jù)庫文件并啟動數(shù)據(jù)庫1、恢復(fù)所有用戶文件在 HP-Unix 機器上 mount 文件系統(tǒng)后,將所有用戶數(shù)據(jù)均備份至指定磁盤空間。所有用戶數(shù)據(jù)大小在 1.2TB 左右。部分文件目錄截圖如下:2、檢測數(shù)據(jù)庫文件是否完整使用 Oracle 數(shù)據(jù)庫文件檢測工具“ dbv”檢測每個數(shù)據(jù)庫文件是否完整, 發(fā)現(xiàn)并沒有錯誤。再使用北亞自主研發(fā)的 Oracle 數(shù)據(jù)庫檢測工具 (檢驗更嚴(yán)格) ,發(fā)現(xiàn)有部分?jǐn)?shù)據(jù)庫文件和日志文件校驗不一致, 安排高級數(shù)據(jù)庫工程師對此類文件進行修復(fù)

9、, 并再次校驗, 直到所有文件校驗均完全通過。3、啟動 Oracle 數(shù)據(jù)庫由于我們提供的HP-Unix 環(huán)境沒有此版本的Oracle 數(shù)據(jù),因此和用戶協(xié)調(diào)將原始生成環(huán)境帶至北亞數(shù)據(jù)恢復(fù)中心,然后將恢復(fù)的 Oracle 數(shù)據(jù)庫附加到原始生產(chǎn)環(huán)境的 HP-Unix 服務(wù)器中,嘗試啟動 Oracle 數(shù)據(jù)庫, Oracle 數(shù)據(jù)庫啟動成功。部分截圖如下:七、數(shù)據(jù)驗證由用戶方配合, 啟動 Oracle 數(shù)據(jù)庫,啟動 OA服務(wù)端,在本地筆記本安裝 OA 客戶端。通過 OA客戶端對最新的數(shù)據(jù)記錄以及歷史數(shù)據(jù)記錄進行驗證,并且有用戶安排遠(yuǎn)程不同部門人員進行遠(yuǎn)程驗證。 最終數(shù)據(jù)驗證無誤, 數(shù)據(jù)完整,數(shù)據(jù)恢復(fù)

10、成功。八、移交數(shù)據(jù)用戶方重新購買了 8 塊 HP-MSA2000原廠硬盤,由北亞工程師配合重新對HP-MSA2000存儲進行配置。創(chuàng)建和原始一樣的 Volume,并將恢復(fù)的數(shù)據(jù)全部復(fù)制到重新配置好的存儲中, 并驗證所有服務(wù)能夠正常啟動, 包括 Oracle 數(shù)據(jù)庫服務(wù), OA服務(wù)端等。九、數(shù)據(jù)恢復(fù)結(jié)論由于故障發(fā)生后保存現(xiàn)場環(huán)境良好,沒做相關(guān)危險的操作,對后期的數(shù)據(jù)恢復(fù)有很大的幫助。整個數(shù)據(jù)恢復(fù)過程中雖然遇到好多技術(shù)瓶頸,但也都一一解決。最終在預(yù)期的時間完成整個數(shù)據(jù)恢復(fù),恢復(fù)的數(shù)據(jù)用戶方也相當(dāng)滿意。十、項目成員列表工程師商務(wù)曉娜185,1528,3863zxn#frombyte.項目主管鄧奇185,1528,3878dq#frombyte.存儲工程師鄧奇185,1528,3878dq#frombyte.RAID工程宋國建185,1528,3861songguojia

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論