下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、解析IBM服務(wù)器內(nèi)存技術(shù)IBM作為全球服務(wù)器行業(yè)的領(lǐng)導(dǎo)廠商,不完全是依靠它幾十年建立起來的品牌優(yōu)勢,更重要是它在服務(wù)器領(lǐng)域長期處于領(lǐng)先地位的各項服務(wù)器技術(shù)。雖然它的服務(wù)器內(nèi)存技術(shù)并不是IBM的一項關(guān)鍵優(yōu)勢,但這也不是隨便那個廠商都具備的,同時它卻對整個服務(wù)器穩(wěn)定性的保障起著至關(guān)重要的作用。正因如此,IBM的服務(wù)器除了具備更高的性能外,另一個重要賣點就是具有非常高的穩(wěn)定性,可以在各種非常復(fù)雜的運算環(huán)境下永久保持高度的穩(wěn)定性,這其中本文所要介紹的IBM三大內(nèi)存技術(shù)功不可沒。IBM的服務(wù)器三大內(nèi)存技術(shù)包括:Chipkill內(nèi)存、Memory ProteXion(內(nèi)存保護)和Memory Mirror
2、ing(內(nèi)存鏡像)。下面分別予以介紹。一、Chipkill內(nèi)存技術(shù)在服務(wù)嚦嚦領(lǐng)域,ECC幾乎是內(nèi)存技術(shù)的代名詞,基本上所有品牌服務(wù)器都支持ECC技術(shù),但要說明的是,ECC并不是最先進的內(nèi)存技術(shù)。本文所要介紹的IBM三大內(nèi)存技術(shù)就是三種更先進的內(nèi)存技術(shù)。Chipkill內(nèi)存最初是由20年前的IBM大型機發(fā)展過來的,ChipKill最初是為美國航空航天局(NASA)的“探路者”探測器赴火星探險而研制。它是IBM公司為了解決通用服務(wù)器ECC內(nèi)存技術(shù)的不足而開發(fā)的,是一種新的ECC內(nèi)存保護技術(shù)(HP也有更新的ECC內(nèi)存技術(shù))。要注意,Chipkill內(nèi)存只是一種內(nèi)存技術(shù),并不是一種特殊的內(nèi)存類型,所采
3、用的只需普通的內(nèi)存即可,如原來的SD內(nèi)存,現(xiàn)在的DDR內(nèi)存均可。這樣就可大大節(jié)省用戶的投資,適應(yīng)范圍更廣。要正確理解IBM的Chipkill內(nèi)存技術(shù)優(yōu)勢,先要對通用的ECC內(nèi)存技術(shù)有一個全面的了解。因為IBM的Chipkill內(nèi)存技術(shù)是在ECC技術(shù)基礎(chǔ)上的改進。ECC的英文全稱是“ Error Checking and Correcting”(錯誤檢查和糾正),從這個名稱就可以看出它的主要功能就是“發(fā)現(xiàn)并糾正錯誤”。奇偶校驗技術(shù)一樣,ECC糾錯技術(shù)也需要額外的空間來儲存校正碼,但其占用的位數(shù)跟數(shù)據(jù)的長度并非成線性關(guān)系。具體來說,它是以8位數(shù)據(jù)、5位ECC碼為基準(zhǔn),隨后每增加一個8位數(shù)據(jù)只需另增
4、加一位ECC碼即可。通俗地講就是,一個8位的數(shù)據(jù)產(chǎn)生的ECC碼要占用5位的空間,而一個16位數(shù)據(jù)ECC碼只需在原來基礎(chǔ)上再增加一位,也就是6位;而32位的數(shù)據(jù)則只需再在原來基礎(chǔ)增加一位,即7位的ECC碼即可,如此類推。ECC碼將信息進行8比特位的編碼,采用這種方式可以恢復(fù)1比特的錯誤。每一次數(shù)據(jù)寫入內(nèi)存的時候,ECC碼使用一種特殊的算法對數(shù)據(jù)進行計算,其結(jié)果稱為校驗位(check bits)。然后將所有校驗位加在一起的和是“校驗和”(checksum),校驗和與數(shù)據(jù)一起存放。當(dāng)這些數(shù)據(jù)從內(nèi)存中讀出時,采用同一算法再次計算校驗和,并和前面的計算結(jié)果相比較,如果結(jié)果相同,說明數(shù)據(jù)是正確的,反之說明
5、有錯誤,ECC可以從邏輯上分離錯誤并通知系統(tǒng)。當(dāng)只出現(xiàn)單比特錯誤的時候,ECC可以把錯誤改正過來不影響系統(tǒng)運行。工作原理見圖1。圖1除了能夠檢查到并改正單比特錯誤之外,ECC碼還能檢查到(但不改正)單DRAM芯片上發(fā)生的任意2個隨機錯誤,并最多可以檢查到4比特的錯誤。當(dāng)有多比特錯誤發(fā)生的時候,ECC內(nèi)存會生成一個不可隱藏(non-maskable interrupt)的中斷(NMI),會中止系統(tǒng)運行,以避免出現(xiàn)數(shù)據(jù)惡化。顯然ECC碼的長度跟數(shù)據(jù)的長度是成對數(shù)關(guān)系,當(dāng)數(shù)據(jù)長度在64位以上的時候,ECC碼在空間占用上就會凸現(xiàn)優(yōu)勢。此外,ECC校驗最大的優(yōu)點是如果數(shù)據(jù)中有一位錯誤,它不但能發(fā)現(xiàn)而且可
6、以對其更正,ECC校驗還可以發(fā)現(xiàn)24位錯誤(不能更正),當(dāng)然這樣的情況出現(xiàn)的幾率是非常低的。但ECC碼的校驗算法比奇偶校驗復(fù)雜不少,需要專門的芯片來支持,所以普通的電腦主板不一定支持。而且因為系統(tǒng)需要時間來等待校驗的結(jié)果,所以ECC校驗會降低系統(tǒng)速度2%-3%左右,但這小小的代價換來系統(tǒng)穩(wěn)定性的大大提高可以說事非常值得的。注意:ECC不是一種內(nèi)存類型,只是一種內(nèi)存技術(shù),不僅以前的EDO內(nèi)存可以有、SD內(nèi)存也可有,現(xiàn)在主流的DDR內(nèi)存同樣可以有,所以在現(xiàn)在服務(wù)器配置中我們都可見到“512MB ECC DDR-400內(nèi)存”之類的字樣。那是因為它并不是一種影響內(nèi)存結(jié)構(gòu)和存儲速度的技術(shù),可以應(yīng)用到不同
7、的內(nèi)存類型之中,就象我們經(jīng)常到的“奇遇校正”內(nèi)存技術(shù)一樣。ECC內(nèi)存技術(shù)雖然可以同時檢測和糾正單一比特錯誤,但如果同時檢測出兩個以上比特的數(shù)據(jù)有錯誤,則無能為力。但隨著基于Intel處理器架構(gòu)服務(wù)器的CPU性能呈幾何級的倍數(shù)提高,而硬盤驅(qū)動器的性能同期只提高了5倍。因此為了獲得足夠的性能,服務(wù)器需要大量的內(nèi)存來臨時保存在CPU上讀取的數(shù)據(jù)。這樣大的數(shù)據(jù)訪問量就導(dǎo)致單一內(nèi)存芯片上每次訪問時通常要提供4(32位)或8(64位)比特以上的數(shù)據(jù)。一次性讀取這么多數(shù)據(jù),出現(xiàn)多位數(shù)據(jù)錯誤的可能性會大大地提高,而ECC又不能糾正雙比特以上的錯誤,這樣就很可能造成全部比特數(shù)據(jù)的丟失,系統(tǒng)就很快崩潰了。IBM的
8、Chipkill技術(shù)是利用內(nèi)存的子結(jié)構(gòu)方法來解決這一難題。Chipkill內(nèi)存子系統(tǒng)的設(shè)計原理是這樣的:在Chipkill技術(shù)支持下,單一內(nèi)存芯片,無論數(shù)據(jù)寬度是多少,只有一個給定的ECC識別碼,它的影響最多為一比特。舉個例子來說明的就是,如果使用4比特寬的SDRAM,4比特中的每一位奇偶性將分別組成不同的ECC識別碼,每個ECC單元可單獨用一個數(shù)據(jù)位來保存的,也就是說這些識別碼分別保存在不同的內(nèi)存空間中。因此,即使整個內(nèi)存芯片出了故障,每個ECC單元也將最多出現(xiàn)一比特壞數(shù)據(jù)。這種情況完全可以通過ECC邏輯修復(fù),從而保證內(nèi)存子系統(tǒng)的容錯性,保證了服務(wù)器在出現(xiàn)故障時,有強大的自我恢復(fù)能力。Chi
9、pkill內(nèi)存控制器所提供的存儲保護在概念上和具有校驗功能的磁盤陣列類似,在寫數(shù)據(jù)的時候,把數(shù)據(jù)寫到多個DIMM內(nèi)存芯片上。這樣,每個DIMM所起的作用和存儲陣列相同。如果其中任何一個芯片失效了,它只影響到一個數(shù)據(jù)字節(jié)的某一比特,因為其他比特存儲在另外的芯片上。出現(xiàn)錯誤后,內(nèi)存控制器能夠從失效的芯片重新構(gòu)造“失去”的數(shù)據(jù),使得服務(wù)器可以繼續(xù)正常工作。采用這種Chipkill內(nèi)存技術(shù)的內(nèi)存可以同時檢查并修復(fù)4個錯誤數(shù)據(jù)位,進一步提高服務(wù)器的實用性。新型的第三代Chipkill內(nèi)存技術(shù)已經(jīng)集成到了IBM的X架構(gòu)芯片組中,不必另外定制。與ECC技術(shù)相比,Chipkill內(nèi)存技術(shù)更加有效,它提供對每個
10、DIMM內(nèi)存芯片糾正4比特錯誤的能力。如果內(nèi)存發(fā)生錯誤,Chipkill內(nèi)存將自動和平穩(wěn)地讓出錯的內(nèi)存芯片離線,而服務(wù)器繼續(xù)保持正常工作。 由于Chipkill內(nèi)存技術(shù)是通過內(nèi)存控制器提供的,所以可以在標(biāo)準(zhǔn)的ECC DIMM內(nèi)存上實現(xiàn),并且對于操作系統(tǒng)是透明的。目前Chipkill內(nèi)存技術(shù)不僅在IBM的x系列服務(wù)器廣泛采用,而且通過授權(quán)許多國內(nèi)外品牌服務(wù)器中使用,如寶德公司的64位新至強機架式服務(wù)器PR2520(該公司還有許多其它服務(wù)器也支持這一內(nèi)存技術(shù),如PT4050R和PR2520等)、方正公司的方正圓明MT500等。二、內(nèi)存保護(Memory ProteXion)技術(shù)Memory Pro
11、teXion技術(shù)最初是為IBM的主機開發(fā)的,在IBM公司的z系列和i系列服務(wù)器中應(yīng)用了多年。它相對前面介紹的Chipkill內(nèi)存技術(shù)在保護能力上更強些。它的工作原理與硬盤的熱備份類似,為了確保當(dāng)某個DIMM存儲芯片失效的時候,內(nèi)存保護技術(shù)能夠自動利用備用的比特位自動找回數(shù)據(jù),從而保證服務(wù)器的平穩(wěn)運行。該技術(shù)可以糾正發(fā)生在每對DIMM內(nèi)存中多達4個連續(xù)比特位的錯誤。當(dāng)出現(xiàn)隨機性的軟內(nèi)存錯誤,可以通過使用熱備份的比特位來解決;如果出現(xiàn)永久性的硬件錯誤,也將利用熱備份的比特位使得DIMM內(nèi)存芯片繼續(xù)工作,直到被替換為止。 在存儲器糾錯方面,Memory ProteXion技術(shù)比ECC技術(shù)更加有效,同
12、時它使用的是標(biāo)準(zhǔn)的ECC 168內(nèi)存。它的工作方式有點像在Windows NT的NTFS文件系統(tǒng)下的在線備份磁盤扇區(qū)一樣:當(dāng)操作系統(tǒng)在磁盤上檢測到壞的磁盤扇區(qū)時,它將在另外的扇區(qū)中寫下這些數(shù)據(jù)留作備用。我們可以認(rèn)為內(nèi)存保護技術(shù)就是提供在線備份數(shù)據(jù)位。在一個2路交叉存取的內(nèi)存系統(tǒng)中,每片168線ECC內(nèi)存包含72位,但其實只有700位是用于數(shù)據(jù)存取和校驗的,余下的2位是備用的,如圖2所示。 圖2因為IBM的內(nèi)存鏡像技術(shù)對內(nèi)存錯誤的糾正是通過內(nèi)存控制器來完成的,所以不會增加操作系統(tǒng)的工作量,也不需要操作系統(tǒng)來提供支持,完全與操作系統(tǒng)無關(guān)。另因為只需采用標(biāo)準(zhǔn)的ECC 168線內(nèi)存,所以也無
13、需另外購買定制的內(nèi)存,也就無需為這種保護增加另外的開支。標(biāo)準(zhǔn)的ECC內(nèi)存雖然可以檢測出2位的數(shù)據(jù)錯誤,但它只能糾正一位錯誤。如果同時在內(nèi)存上有多位出錯,僅采用ECC技術(shù)的整塊內(nèi)存讀取就失敗了,此時唯有使系統(tǒng)臨時掛起來,以盡量減少內(nèi)存容量的需求,直到這個節(jié)點被更換。如果采用內(nèi)存保護技術(shù),那么就可以立即隔離這個失效的內(nèi)存,重寫數(shù)據(jù)在空余的數(shù)據(jù)位。通過這種方法可以在每4對168線內(nèi)存中修復(fù)4個4位連續(xù)的內(nèi)存錯誤,是前面介紹的Chipkill內(nèi)存技術(shù)保護能力的兩倍。而且它還還無需添加另外的硬件、無需增加額外的費用,獨立操作系統(tǒng)工作,也不會給系統(tǒng)增加任何額外負(fù)擔(dān)。當(dāng)服務(wù)器下次重啟就會重新檢查內(nèi)存的狀態(tài),
14、如果是內(nèi)存軟錯誤(臨時的),系統(tǒng)重啟后內(nèi)存的這些用于在線數(shù)據(jù)備份的數(shù)據(jù)位就重新釋放了,恢復(fù)空的狀態(tài)。如果是屬于硬故障,這些在線備份數(shù)據(jù)位還會繼續(xù)用來備份,直到更換為止。這種先進技術(shù)可以使減少停機時間,使服務(wù)器持續(xù)保持高效的計算平臺。這對于大型的數(shù)據(jù)庫系統(tǒng)中尤其重要。三、內(nèi)存鏡像(Memory Mirroring)技術(shù)IBM的另一種更高級內(nèi)存技術(shù)就是內(nèi)存鏡像技術(shù),它又相對前面的內(nèi)存保護技術(shù),在內(nèi)存保護能力上更強。當(dāng)服務(wù)器遇到了前面介紹的Chipkill修復(fù)技術(shù)和內(nèi)存保護技校術(shù)都不能完全修復(fù)時,內(nèi)存鏡像技術(shù)可以得到更高級的內(nèi)存保護。內(nèi)存鏡像技術(shù)很像磁盤鏡像技術(shù),就是將數(shù)據(jù)同時寫入到兩個獨立的內(nèi)存卡中(每個內(nèi)存卡的配置者是一樣的)。正常工作情況下,內(nèi)存數(shù)據(jù)讀取只從活動內(nèi)存卡中進行,只是當(dāng)活動內(nèi)存出現(xiàn)故障時,才會從鏡像內(nèi)存中讀取數(shù)據(jù)。如圖3所示的是CPU同時把數(shù)據(jù)寫入到兩片內(nèi)存
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 重要物資采購合同
- 江西省萬載縣高中生物 專題2 細胞工程 2.2.2 動物細胞融合與單克隆抗體(練習(xí)課)教案 新人教版選修3
- 2024年三年級品社下冊《濃濃鄉(xiāng)土情》教案 山東版
- 高考化學(xué) 專題二 第8講 有機物的結(jié)構(gòu)、性質(zhì)和應(yīng)用教案(含解析)
- 2024秋九年級歷史上冊 第七單元 工業(yè)革命和工人運動的興起 第20課 第一次工業(yè)革命教案 新人教版
- 2023一年級數(shù)學(xué)上冊 二 比一比第1課時 比長短 比高矮教案 蘇教版
- 2024年春九年級化學(xué)下冊 第12單元 化學(xué)與生活 課題2 化學(xué)元素與人體健康教案 (新版)新人教版
- 文書模板-委托研發(fā)合同補充協(xié)議
- 年度部門評分表
- 混凝土澆筑課件
- 高考英語高頻短語按字母排序
- 世界各國國家代號、區(qū)號、時差
- 小學(xué)科學(xué)一年級下冊教材分析(共3頁)
- 優(yōu)秀校長的政治素養(yǎng)與養(yǎng)成講述
- 河北省灤平縣東北部冶金礦產(chǎn)工業(yè)區(qū)發(fā)展規(guī)劃
- 藍牙測試項及其標(biāo)準(zhǔn)
- 第二章接待禮儀拜訪禮儀饋贈禮儀
- 鋼結(jié)構(gòu)拆除的施工協(xié)議書
- 旅游列車開行管理辦法
- 園區(qū)網(wǎng)絡(luò)規(guī)劃與設(shè)計管理 畢業(yè)設(shè)計
- 最新原創(chuàng)企業(yè)安全生產(chǎn)設(shè)備維修記錄表.doc
評論
0/150
提交評論