版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
計算機容錯技術魏贇計算機容錯技術魏贇1第一章概述容錯和可靠性容錯技術的發(fā)展概況容錯技術的主要內(nèi)容容錯技術應用第一章概述容錯和可靠性2一、容錯和可靠性故障、失效和錯誤的概念可靠性的概念容錯的概念可靠性和容錯的關系一、容錯和可靠性故障、失效和錯誤的概念3(一)故障、失效和錯誤的概念失效(failure)是指硬件物理特性異變,或軟件不能完成規(guī)定功能的能力。故障(fault)是指硬件或軟件的錯誤狀態(tài),是失效在邏輯上的等效。一個故障可以用種類、值、影響范圍和發(fā)生時間來描述。錯誤(error)是指程序或數(shù)據(jù)結(jié)構中的故障表現(xiàn)形式,是故障和失效所造成的后果。容錯設計的軟件可以有某些規(guī)定數(shù)目的故障但不導致失效,但對無容錯的軟件而言,故障即失效。(一)故障、失效和錯誤的概念失效(failure)是指硬件物4故障的分類若按邏輯性來分邏輯故障:造成邏輯值發(fā)生變化的故障非邏輯故障:造成象時鐘(clock)或電源出錯等錯誤的故障按時間劃分:永久性故障:調(diào)用診斷程序進行故障定位,然后采取糾錯措施間隔性故障:可以通過更換硬件或軟件等途徑來達到修復的目的偶然性故障:只能靠改善環(huán)境條件等努力來減少這類故障故障的分類若按邏輯性來分5錯誤的根源錯誤的根源6(二)可靠性概念實現(xiàn)系統(tǒng)可靠性的方法系統(tǒng)可靠性的指標(二)可靠性概念71、概念可靠性的含義廣義:一切旨在避免、減少、處理、度量軟件/硬件故障(錯誤、缺陷、失效)的分析、設計、測試等方法、技術和實踐活動。狹義:指軟件/硬件無效運行的定量度量。可靠度:在規(guī)定的運行環(huán)境中和規(guī)定的時間內(nèi)軟件無失效運行的機會。1、概念可靠性的含義82、實現(xiàn)系統(tǒng)的可靠性排錯容錯2、實現(xiàn)系統(tǒng)的可靠性排錯9排錯避免故障,通過對組成系統(tǒng)的部件進行嚴格的篩選、對系統(tǒng)進行嚴格的測試、對系統(tǒng)進行屏蔽以減少外界的干擾等方法來提高系統(tǒng)的可靠性。排錯避免故障,通過對組成系統(tǒng)的部件進行嚴10容錯即使采用了排錯技術,一個計算機系統(tǒng)還是遲早會發(fā)生故障的。因此在設計計算機系統(tǒng)時應考慮一旦發(fā)生故障能自動檢測出故障并使系統(tǒng)自動恢復正常運行。這樣設計出來的計算機系統(tǒng)在發(fā)生故障后仍能正確運行。容錯技術是從系統(tǒng)結(jié)構方面來提高計算機系統(tǒng)的可靠性容錯技術與排錯技術并不是相互對立的,它們可以相互補充,構成高可信的計算機系統(tǒng)容錯即使采用了排錯技術,一個計算機系統(tǒng)還是遲早會發(fā)生故障的。113、系統(tǒng)可靠性的指標可靠性可維性可用性3、系統(tǒng)可靠性的指標可靠性12可靠性計算機機的可靠性指:計算機在規(guī)定的條件和規(guī)定的時間內(nèi)完成規(guī)定的功能的概率規(guī)定的條件:環(huán)境條件,使用條件,維修條件,操作技術失效:產(chǎn)品在規(guī)定的條件下和規(guī)定的時間內(nèi)喪失了規(guī)定的功能。失效率:指計算機在某一瞬間元件失效數(shù)與元件總數(shù)的比率??煽啃杂嬎銠C機的可靠性指:計算機在規(guī)定的條件和規(guī)定的時間內(nèi)完13可維性可維性(Serviceability)是指在規(guī)定的時間內(nèi),按照規(guī)定的程序和方法進行維修時,保持或恢復到能完成規(guī)定的功能的能力通常指從判定故障到排除故障所需要的時間,包括故障診斷、故障定位、系統(tǒng)校正和恢復等時間。可保持性(Maintainability)是指系統(tǒng)在給定的時間內(nèi)可隔離故障或修復的概率。它表征了系統(tǒng)可以正常運行的效率??删S性可維性(Serviceability)是指在規(guī)定的時間14可用性可用性(Availability)稱有效率或利用率,是可維修部件在某時間具有維持規(guī)定功能的能力,即計算機系統(tǒng)的利用效率,也是系統(tǒng)在執(zhí)行任務的任意時刻能正常工作的概率。可用性可用性(Availability)稱有效率或利用15(三)容錯技術概念容錯(Fault-tolerance):容忍故障,考慮故障一旦發(fā)生時能夠自動檢測出來并使系統(tǒng)能夠自動恢復正常運行。當出現(xiàn)某些指定的硬件故障或軟件錯誤時,系統(tǒng)仍能執(zhí)行規(guī)定的一組程序,或者說程序不會因系統(tǒng)中的故障而中止或被修改,并且執(zhí)行結(jié)果也不包含系統(tǒng)中故障所引起的差錯。(三)容錯技術概念容錯(Fault-tolerance):容16容錯計算機系統(tǒng):在發(fā)生故障或存在軟件錯誤的情況下仍能繼續(xù)正確完成指定任務的計算機系統(tǒng)。設計與分析容錯計算機系統(tǒng)的各種技術稱為容錯技術容錯技術從系統(tǒng)結(jié)構出發(fā)來提高系統(tǒng)的可靠性,與排錯技術相互補充,構成高可信度的系統(tǒng)容錯計算機系統(tǒng):在發(fā)生故障或存在軟件錯誤的情況下仍能繼續(xù)正確17實現(xiàn)容錯計算的四個方面(1)不希望事件的檢測。不希望事件是指失效、故障、差錯等等。為容忍系統(tǒng)中的不希望事件,應首先對其進行檢測。(2)損壞估價。由于一個故障的出現(xiàn)和它的失效結(jié)果之間可能存在延遲,故障可能已經(jīng)傳播到該系統(tǒng)的其他地方,導致故障的擴大。因此,在作出一個被檢測的故障有關的決定之前,有必要判定系統(tǒng)已被破壞的程度,這依賴于系統(tǒng)設計者的策略和已有的探測技術。實現(xiàn)容錯計算的四個方面(1)不希望事件的檢測。不希望事件是指18(3)不希望事件的恢復。在不希望事件檢測和損壞估價之后,應采用不希望事件恢復技術,把目前的錯誤系統(tǒng)狀態(tài)轉(zhuǎn)換成一個正確的系統(tǒng)狀態(tài)。(4)不希望事件處理和繼續(xù)服務。確保已被恢復的不希望事件效應不會立即再現(xiàn),以使系統(tǒng)繼續(xù)提供規(guī)定的服務。(3)不希望事件的恢復。在不希望事件檢測和損壞估價之后,應采19容錯系統(tǒng)的一般階段故障限制:當故障出現(xiàn)時,希望限制其影響范圍。故障限制是把故障效應的傳播限制到一個區(qū)域內(nèi),從而防止污染其他區(qū)域。故障檢測:大多數(shù)失效最終導致產(chǎn)生邏輯故障。有許多方法可用來檢測邏輯故障,如奇偶校驗、一致性校驗都可用來檢測故障。故障檢測技術有兩個主要的類別,即脫機檢測和聯(lián)機檢測,在脫機檢測情況下,進行測試時設備不能進行有用的工作;聯(lián)機檢測提供了實時檢測能力,因為聯(lián)機檢測與有用的工作同時執(zhí)行。聯(lián)機檢測技術包括奇偶校驗和二模冗余校驗。故障屏蔽:故障屏蔽技術把失效效應掩蓋了起來,從某種意義上說,是冗余信息戰(zhàn)勝了錯誤信息,多數(shù)表決冗余設計就是故障屏蔽的一個例子。重試:在許多場合,對一個操作的第二次試驗可能是成功的,對不引起物理破壞的瞬間故障尤其是這樣。診斷如果故障檢測技術沒有提供有關故障位置和/或性質(zhì)的信息,那么就需要一個診斷。容錯系統(tǒng)的一般階段故障限制:當故障出現(xiàn)時,希望限制其影響范圍20重組:當檢測出一個故障并判明是一個永久性故障時,這時重組系統(tǒng)的器件以便替代失效的器件或把失效的器件與系統(tǒng)的其他部分隔離開來,也可使用冗余系統(tǒng),系統(tǒng)能力不降低?;謴停簷z測和重組(若必要的話)之后,必須消除錯誤效應。通常,系統(tǒng)會回到故障檢測前處理過程的某一點,并從這一點重新開始操作。這種恢復形式(一般叫卷回)通常需要后備文件、校驗點和應用記錄方法。重啟動:如果一個錯誤破壞的信息太多,或者系統(tǒng)沒有設計恢復功能,那么恢復功能也許就不可能。僅當系統(tǒng)未受任何破壞時,才能進行“熱”重啟(從故障檢測點恢復所有操作的)?!皽亍敝貑⒅竷H有某些過程可以毫無損失的重新啟動,“冷”重啟相當于系統(tǒng)需要完全重新加載。修復:把診斷為故障的器件換下來,與故障檢測一樣,修復也可以是聯(lián)機進行的或者脫機進行的。重構:對元件進行物理替換之后,把修復的模塊重新加入到該系統(tǒng)中去。對聯(lián)機修復來說,實現(xiàn)重構不中斷系統(tǒng)的工作。重組:當檢測出一個故障并判明是一個永久性故障時,這時重組系統(tǒng)21二、容錯技術的發(fā)展概況第一代計算機(1946-1957)第二代計算機(1957-1964)第三代計算機(1964-1970)第四代計算機(1970-)現(xiàn)在二、容錯技術的發(fā)展概況第一代計算機(1946-1957)22第一代計算機(1946-1957)元件:電子管、繼電器及延遲線存儲器問題:元件的失效率相當高,并易受瞬時故障的影響措施:特別設置的硬件故障檢測和人工恢復第一代計算機(1946-1957)元件:電子管、繼電器及延遲231956,SAPO,捷克,三個CPU同時工作,對運算結(jié)果進行表決,存儲器采用奇偶校驗,具有單條指令重復執(zhí)行的功能SAGE,,用于防空系統(tǒng),采用雙機比較以檢測故障,并配合以恢復技術1956,SAPO,捷克,三個CPU同時工作,對運算結(jié)果進行24第二代計算機(1957-1964)元件:晶體管及磁芯存儲器問題:失效率比第一代計算機元件大為降低措施:避錯技術占統(tǒng)治地位,對故障一般采用診斷程序進行脫機檢測第二代計算機(1957-1964)元件:晶體管及磁芯存儲器25第三代計算機(1964-1970)元件:集成電路問題:元件的失效率繼續(xù)降低,但計算機應用范圍擴大,對計算機系統(tǒng)的可信性要求更高措施:容錯技術重新提出,并得到了較快的發(fā)展,并出現(xiàn)了許多容錯計算機第三代計算機(1964-1970)元件:集成電路26實例1964土星V號運載火箭導航計算機研制成功,該機采用三模冗余及奇偶校驗來實現(xiàn)容錯1969,噴射推進實驗室的STAR計算機,其處理機采用三重表決加備份的混合冗余方式,并用算術檢錯碼及雙機比較檢測故障。1965,貝爾實驗室研制成功1號ESS處理機,是用于交換的計算機系統(tǒng),采用了雙機比較技術,是專用的硬件及軟件進行故障的檢測、定位及識別。實例1964土星V號運載火箭導航計算機研制成功,該機采用27第四代計算機(1970-)元件:大規(guī)模和超大規(guī)模集成電路問題:硬件可靠性大大提高而價格卻大幅度降低,使采用各種容錯技術在經(jīng)濟上更易接受。需求:容錯技術應用范圍擴展于事務處理及各種實時控制系統(tǒng),甚至許多通用計算機系統(tǒng)也采用了容錯技術第四代計算機(1970-)元件:大規(guī)模和超大規(guī)模集成電路28實例1975,貝爾實現(xiàn)室的3A號ESS處理1975,TANDEM16容錯事務處理系統(tǒng)1976,AMDAHL470V/6容錯通用計算機1978,容錯空間計算機FTSC1979,IBM推出容錯的4300通用計算機系列1980,容錯多處理機FTMP及軟件實現(xiàn)的容錯計算機SIFT研制成功實例1975,貝爾實現(xiàn)室的3A號ESS處理2980年代以來出現(xiàn)了商用容錯計算機市場分布式容錯計算機系統(tǒng)的出現(xiàn)容錯的VLSI技術人工智能在容錯技術上的應用—計算機故障診斷專家系統(tǒng)80年代以來出現(xiàn)了商用容錯計算機市場30容錯計算方面的理論工作1952,馮·諾依曼作了一系列關于用重復邏輯模塊改善系統(tǒng)可靠性的報告1956,他發(fā)表論文《概率邏輯及用不可靠元件設計可靠的結(jié)構》1971年以來,IEEE計算機學會容錯技術委員會每年召開一次國際容錯計算學術會議1987年中國計算機學會成為了容錯計算專業(yè)委員會容錯計算方面的理論工作1952,馮·諾依曼作了一系列關于用重31三、容錯技術的主要內(nèi)容故障檢測與診斷技術故障屏蔽技術動態(tài)冗余技術軟件容錯技術信息保護技術三、容錯技術的主要內(nèi)容故障檢測與診斷技術321、故障檢測和診斷技術容錯技術的主要組成部分,又是微電子技術的支撐技術故障檢測(FaultDetection):判斷系統(tǒng)是否存在故障的過程故障定位(FaultLocation):判斷系統(tǒng)在哪里發(fā)生故障的過程故障測試(FaultTesting):又稱故障診斷(FaultDiagnosis),故障檢測和故障定位,主要包括:測試集生成技術,功能測試技術,系統(tǒng)診斷技術1、故障檢測和診斷技術容錯技術的主要組成部分,又是微電子技術33故障檢測的作用是確認系統(tǒng)是否發(fā)生了故障,指示故障的狀態(tài),即查找故障源和故障性質(zhì)。一般來說,故障檢測只能找到錯誤點(錯誤單元),不能準確找到故障點。故障診斷的作用是給出故障定位?;跈z錯糾錯碼的編碼技術。在數(shù)據(jù)的傳輸、存儲、處理過程中,根據(jù)信息位和校驗位之間的相關性進行檢查,判定信息是否出錯、錯在哪里,并進行糾正。常用的檢錯碼編碼技術有奇偶校驗碼、循環(huán)碼、海明碼等。其他故障檢測與診斷技術故障檢測的作用是確認系統(tǒng)是否發(fā)生了故障,指示故障的狀態(tài),即查342、故障屏蔽技術故障屏蔽技術是防止系統(tǒng)中的故障在該系統(tǒng)的信息結(jié)構中產(chǎn)生差錯的各種措施的總稱,其實質(zhì)是在故障效應達到模塊的輸出以前,利用冗余資源將故障影響掩蓋起來,達到容錯目的。特點:不改變系統(tǒng)的結(jié)構,即系統(tǒng)部件之間的邏輯關系相互固定,又稱靜態(tài)冗余技術2、故障屏蔽技術故障屏蔽技術是防止系統(tǒng)中的故障在該系統(tǒng)的信息35故障屏蔽技術元件級故障屏蔽技術邏輯級故障屏蔽技術主要用于設計一些高可靠性的容錯專用集成電路芯片和不宜放在功能模塊一級上進行容錯設計的關鍵硬核模塊級故障屏蔽技術系統(tǒng)級故障屏蔽技術由兩個以上的相同系統(tǒng)合成一個系統(tǒng),冗余系統(tǒng)間通過相互校驗來保持正常運行。故障屏蔽技術元件級故障屏蔽技術363、冗余技術硬件冗余:在常規(guī)設計的硬件之外附加備份硬件,包括靜態(tài)冗余、動態(tài)冗余時間冗余:重復地執(zhí)行指令或一段程序而附加額外的時間信息冗余:增加信息的多余度,使其具有檢錯和糾錯能力軟件冗余:用于測試、檢錯的外加程序3、冗余技術硬件冗余:在常規(guī)設計的硬件之外附加備份硬件,包括374、軟件容錯技術軟件容錯是指在出現(xiàn)有限數(shù)目的軟件故障的情況下,系統(tǒng)仍可提供連續(xù)正確執(zhí)行的內(nèi)在能力。其目的是屏蔽軟件故障,恢復因出故障而影響的運行進程。軟件容錯技術主要包括N版本程序設計和恢復塊技術4、軟件容錯技術軟件容錯是指在出現(xiàn)有限數(shù)目的軟件故障的情況下385、信息保護技術信息保護技術,是指為了防止信息被不正當?shù)卮嫒』蚱茐亩扇〉拇胧??;镜男畔⒈Wo技術分為以下四種:編碼化與密碼化、資格檢查、內(nèi)存保護、外存保護。5、信息保護技術信息保護技術,是指為了防止信息被不正當?shù)卮嫒?9四、容錯技術的發(fā)展和應用容錯技術的應用是網(wǎng)絡時代電子商務的客觀需求軟件容錯技術將有較大進展硬件容錯、操作系統(tǒng)容錯相結(jié)合的容錯設計方法將備受重視VLSI的容錯設計技術將發(fā)揮巨大作用系統(tǒng)容錯設計的應用目標明確四、容錯技術的發(fā)展和應用容錯技術的應用是網(wǎng)絡時代電子商務的客40容錯技術應用向PC發(fā)展容錯技術向智能化發(fā)展容錯技術應用和應用服務技術相結(jié)合容錯技術將走向開放化、標準化容錯技術應用向PC發(fā)展41第二章故障自檢測與自診斷技術2.1聯(lián)機檢測和脫機檢測2.2邏輯網(wǎng)絡的故障安全與自校驗特性2.3自校驗網(wǎng)絡的基本結(jié)構第二章故障自檢測與自診斷技術2.1聯(lián)機檢測和脫機檢測422.1聯(lián)機檢測和脫機檢測聯(lián)機檢測與診斷:在系統(tǒng)運行期間實現(xiàn)自我檢測與診斷的過程,也叫自檢測與自診斷,是提高系統(tǒng)可靠性的重要環(huán)節(jié)。脫機檢測與診斷:在系統(tǒng)非運行期間進行檢測與診斷,是提高系統(tǒng)可用度、可維性的重要環(huán)節(jié)。2.1聯(lián)機檢測和脫機檢測聯(lián)機檢測與診斷:在系統(tǒng)運行期間實現(xiàn)43聯(lián)機檢測與診斷的方法在系統(tǒng)中投入一定的冗余資源(指超過系統(tǒng)額定功能所需的資源),使系統(tǒng)在運行中不僅能輸出功能所要求的信息,而且能輸出一些額外的信息。實質(zhì)是可靠性編碼技術在系統(tǒng)設計中的應用,是一種以硬件冗余為主的檢測與診斷技術聯(lián)機檢測與診斷的方法在系統(tǒng)中投入一定的冗余資源(指超過系統(tǒng)額44一個自檢測的系統(tǒng),其所有可能的輸出值的集合為U(輸出空間),由S和U-S兩部分組成S:系統(tǒng)的輸出碼,系統(tǒng)無故障時的輸出U-S:系統(tǒng)出現(xiàn)故障時候的輸出,若能指示系統(tǒng)是否發(fā)生故障,則稱之為檢錯碼;若能指示系統(tǒng)中哪個部件發(fā)生的故障,則稱之為診錯碼一個自檢測的系統(tǒng),其所有可能的輸出值的集合為U(輸出空間),45脫機檢測與診斷的方法應用軟件診斷程序,先優(yōu)化生成并輸入一組測試向量給系統(tǒng),然后觀測并分析系統(tǒng)的測試響應,以確定系統(tǒng)是否發(fā)生故障或哪個部件發(fā)生的故障。脫機檢測與診斷的方法應用軟件診斷程序,先優(yōu)化生成并輸入一組測462.2邏輯網(wǎng)絡的故障安全與自校驗特性1、故障安全特性2、自校驗特性2.2邏輯網(wǎng)絡的故障安全與自校驗特性1、故障安全特性471、故障安全特性一個數(shù)字邏輯網(wǎng)絡,對給定故障集F,如果在任何有效輸入碼激勵下,都不會因為故障而輸出錯誤的有效輸出碼,則稱它對故障集F是故障安全(Fault-Secure,F(xiàn)SE)的。若該網(wǎng)絡在任意輸入碼激勵下,對給定故障集F都不會輸出錯誤的有效輸出碼,則稱它對故障集F是強故障安全的。1、故障安全特性一個數(shù)字邏輯網(wǎng)絡,對給定故障集F,如果在任何48輸入是正確的,則輸出為正確的有效碼或無效碼,而不會輸出錯誤的有效碼這樣的系統(tǒng)不會因為故障存在而造成錯誤的有效輸出,稱之為故障安全的系統(tǒng)輸入是正確的,則輸出為正確的有效碼或無效碼,而不會輸出錯誤的49若輸出是無效碼,則該系統(tǒng)必有故障存在若輸出的是有效碼,則不能斷定該系統(tǒng)是否有故障,但可斷定它的輸出是正確的系統(tǒng)可能存在不可測故障若輸出是無效碼,則該系統(tǒng)必有故障存在502、自校驗特性如果一個數(shù)字邏輯網(wǎng)絡對于給定故障集F內(nèi)的每一個故障,至少存在一個有效的輸入碼能使它的輸出產(chǎn)生一個無效輸出碼字,則稱該網(wǎng)絡對于故障集F是可自校驗(Self-Testing,ST)的。凡可自校驗的系統(tǒng),可從觀測輸出碼字是否為有效碼字來判別其是否有故障,而且一定有一個校驗碼就包含在有效的輸出碼字集合中。2、自校驗特性如果一個數(shù)字邏輯網(wǎng)絡對于給定故障集F內(nèi)的每一個51故障安全特性和自校驗特性所有故障的集合:可自校驗的故障集Ft,安全故障集Fs;所有輸入向量的集合:正常輸入集N,故障安全輸入集I;所有輸出向量的集合:輸出碼空間Sλ表示沿未引起錯誤的故障或表示系統(tǒng)無故障,Z(Xi,λ)表示系統(tǒng)無故障時的輸出Z(Xi,fi)表示在Xi輸入時,系統(tǒng)對故障fi的輸出故障安全特性和自校驗特性所有故障的集合:可自校驗的故障集Ft52所有故障FtFsf1f2f3所有輸入向量NX1IX2X3所有輸出向量SZ(X1,f1)Z(X1,f3)Z(X1,f2)Z(X1,λ)Z(X2,λ)Z(X2,f2)Z(X2,f3)Z(X2,f1)Z(X3,f2)Z(X3,λ)自校驗性故障安全性所有故障FtFsf1f2f3所有輸入向量NX1IX2X3所有53結(jié)論自校驗系統(tǒng)的性質(zhì)由系統(tǒng)結(jié)構和運行環(huán)境所決定。給定的N(由環(huán)境決定),F(xiàn)t由N能檢測到的所有故障組成。相反,I不是由環(huán)境決定的(N的子集),而是由Fs決定。Fs是人為選擇的一個非空故障集。結(jié)論自校驗系統(tǒng)的性質(zhì)由系統(tǒng)結(jié)構和運行環(huán)境所決定。54根據(jù)I包含輸入的多少(N中的全部、部分或零),可將自檢驗系統(tǒng)分為:完全自校驗系統(tǒng):如果一個系統(tǒng)對正常輸入集N和故障集Ft是自校驗的,并且對于N和故障集Fs是故障安全的,則稱該系統(tǒng)為完全自校驗系統(tǒng)(TSC:TotallySelf-Checking)。部分自校驗系統(tǒng):如果一個系統(tǒng)對于正常輸入集N和故障集Ft是自校驗的,并且對于N的一個非空真子集I和故障集Fs是故障安全的,則稱該系統(tǒng)為部分自校驗系統(tǒng)(PSC,PartiallySelf-Checking)。僅自校驗系統(tǒng):如果一個系統(tǒng)對正常輸入集N和故障集Ft是自校驗的,但對于N的任何非空子集和故障集Fs都不具有故障安全性,則稱該系統(tǒng)為僅自校驗系統(tǒng)。根據(jù)I包含輸入的多少(N中的全部、部分或零),可將自檢驗系統(tǒng)552.3自校驗網(wǎng)絡的基本結(jié)構自校驗網(wǎng)絡:無需施加特定的測試輸入碼來判定是否存在故障,而是在正常工作的過程中,由一個稱為校驗器的電路通過監(jiān)視自校驗功能模塊的輸出狀態(tài)而自動指示有無錯誤。2.3自校驗網(wǎng)絡的基本結(jié)構自校驗網(wǎng)絡:無需施加特定的測試輸入56自校驗功能模塊輸入X?N檢測器/校正器檢錯/糾錯編碼輸出Z(X,λ)?SZ(X,f)?S錯誤指示自校驗輸入檢測器檢錯/糾錯編碼輸出Z(X,λ)?S錯誤指示57檢測器:當出現(xiàn)無效碼時,指示錯誤狀態(tài),可構成自檢測網(wǎng)絡。校正器:當出現(xiàn)無效碼時,指示出錯位置,并予以糾正,可構成自診斷網(wǎng)絡或故障屏蔽網(wǎng)絡。檢測器:當出現(xiàn)無效碼時,指示錯誤狀態(tài),可構成自檢測網(wǎng)絡。58第三章故障屏蔽技術概述元件級故障屏蔽技術邏輯級故障屏蔽技術模塊級故障屏蔽技術系統(tǒng)級故障屏蔽技術第三章故障屏蔽技術概述591、概述故障屏蔽技術(FaultMaskingTechnology)防止系統(tǒng)中的故障在該系統(tǒng)的信息結(jié)構中產(chǎn)生差錯的各種措施的總稱,其實質(zhì)是在故障效應達到模塊的輸出以前,利用冗余資源將故障影響掩蓋起來,達到容錯目的。1、概述故障屏蔽技術(FaultMaskingTechn602、元件級故障屏蔽技術二倍冗余四倍冗余橋接冗余2、元件級故障屏蔽技術二倍冗余61(1)二倍冗余IO單個元件IO并聯(lián)結(jié)構I串聯(lián)結(jié)構OCCCCC(1)二倍冗余IO單個元件IO并聯(lián)結(jié)構I串聯(lián)結(jié)構OCCCCC62設三級管發(fā)生開路故障的概率為q0,發(fā)生短路故障的概率為qs,正常工作的概率為p:對于單個元件:p=1-q0–qs對于并聯(lián)結(jié)構:p=1-q02-2qs+qs2發(fā)生開路故障的概率為:q02發(fā)生短路故障的概率為:1-(1-qs)2對于串聯(lián)結(jié)構:p=1-2q0+q02-qs2發(fā)生開路故障的概率為:1-(1-q0)2發(fā)生短路故障的概率為:qs2設三級管發(fā)生開路故障的概率為q0,發(fā)生短路故障的概率為qs,63(1)四倍冗余IO并串聯(lián)結(jié)構I串并聯(lián)結(jié)構OCCCCCCCC(1)四倍冗余IO并串聯(lián)結(jié)構I串并聯(lián)結(jié)構OCCCCCCCC64設三級管發(fā)生開路故障的概率為q0,發(fā)生短路故障的概率為qs,正常工作的概率為p:對于并串聯(lián)結(jié)構:p=1-2q02+q04-4qs2+4qs3-qs4發(fā)生開路故障的概率為:1-(1-q0
2)2發(fā)生短路故障的概率為:[1-(1-qs)2]
2對于串并聯(lián)結(jié)構:p=1-4q02+4q03-q04-2qs2+qs4發(fā)生開路故障的概率為:[1-(1-q0)2]
2發(fā)生短路故障的概率為:1-(1-qs2)2設三級管發(fā)生開路故障的概率為q0,發(fā)生短路故障的概率為qs,65晶體三極管四倍冗余結(jié)構在下列故障之一時,仍能正常工作:任一晶體管開路或短路不是同一支路的兩個三極管短路(對串并聯(lián))或是不是同一回路的兩個三極管開路(對并串聯(lián)),或者每一支路都有一個三極管短路(對串并聯(lián))或每一回路都有一個三極管開路(對并串聯(lián))晶體三極管四倍冗余結(jié)構在下列故障之一時,仍能正常工作:任一晶66四倍冗余結(jié)構的優(yōu)點可以用在元件級構成獨立自足冗余,即不必增添邏輯線路來檢測故障與恢復信息能滿足實時與連續(xù)可用條件四倍冗余結(jié)構的優(yōu)點可以用在元件級67四倍冗余結(jié)構的缺點功耗大對元件適應條件要求較高昂貴結(jié)構不能變,無靈活性四倍冗余結(jié)構的缺點功耗大683、邏輯級故障屏蔽技術主要用于VLSI的設計中主要用于設計一些高可靠性的容錯專用集成電路芯片和不宜放在功能模塊一級上進行容錯設計的關鍵硬核多采用四倍冗余方案3、邏輯級故障屏蔽技術主要用于VLSI的設計中69子部件1子部件k子部件k+1子部件n1P1P1P1PK個功能輸出N-K個校驗輸出輸入1m子部件1子部件k子部件k+1子部件n1P1P1P1PK個功能704、模塊極故障屏蔽技術是以N倍冗余碼為基礎,通為構成N模冗余(NMR,N-ModularRedundancy)系統(tǒng)來實現(xiàn)故障屏蔽4、模塊極故障屏蔽技術是以N倍冗余碼為基礎,通為構成N模冗余71模塊1模塊2模塊n系統(tǒng)輸出差錯指示輸入校正器模塊1模塊2模塊n系統(tǒng)輸出差錯指示輸入校正器725、系統(tǒng)級故障屏蔽技術采用多個計算機系統(tǒng)來實現(xiàn)系統(tǒng)的功能。也可稱為多處理機或多計算機系統(tǒng)常用的結(jié)構有:均分負載系統(tǒng)結(jié)構主備用系統(tǒng)結(jié)構雙機協(xié)同系統(tǒng)結(jié)構緊耦合多處理機系統(tǒng)結(jié)構分布式系統(tǒng)結(jié)構網(wǎng)絡結(jié)構5、系統(tǒng)級故障屏蔽技術采用多個計算機系統(tǒng)來實現(xiàn)系統(tǒng)的功能。也73第四章冗余容錯技術硬件冗余軟件冗余數(shù)據(jù)冗余動態(tài)冗余技術第四章冗余容錯技術硬件冗余74冗余容錯技術在系統(tǒng)結(jié)構上通過增加冗余資源的方法來掩蓋故障造成的影響,使得即使出錯或發(fā)生故障,系統(tǒng)的功能仍不受影響,仍能夠正常執(zhí)行預定任務的技術。分為硬件冗余、軟件冗余與數(shù)據(jù)冗余從系統(tǒng)功能上講,三者都是增加“多余的設備”(硬件、軟件或數(shù)據(jù))為代價的冗余容錯技術在系統(tǒng)結(jié)構上通過增加冗余資源的方法來掩蓋故障造成75(一)硬件冗余靜態(tài)冗余動態(tài)冗余主要方法(一)硬件冗余靜態(tài)冗余761、靜態(tài)冗余利用邏輯重疊技術有效地掩蔽硬件故障,又稱掩蔽冗余。典型代表是N取r系統(tǒng)(三取二的冗余)原理:采用并聯(lián)結(jié)構,從輸入端輸入相同的信息,并執(zhí)行同樣的程序,完成同樣的任務,得到的結(jié)果送入表決器,以多數(shù)的結(jié)果作為最后的輸出。1、靜態(tài)冗余利用邏輯重疊技術有效地掩蔽硬件故障,又稱掩蔽冗余77三取二系統(tǒng)模型三取二系統(tǒng)模型78優(yōu)點:系統(tǒng)可不進行故障檢測、定位和系統(tǒng)的恢復工作,省掉了大量的軟件工作,簡單易行缺點:增加了硬件設備,提高了系統(tǒng)的費用優(yōu)點:系統(tǒng)可不進行故障檢測、定位和系統(tǒng)的恢復工作,省掉了大量792、動態(tài)冗余技術采用輔助系統(tǒng)作為主系統(tǒng)的熱備份,正常狀態(tài)下主系統(tǒng)工作,并對主系統(tǒng)進行故障檢測和定位,一旦診斷出故障發(fā)生的位置,系統(tǒng)能進行自動修復。2、動態(tài)冗余技術采用輔助系統(tǒng)作為主系統(tǒng)的熱備份,正常803、硬件冗余的方法可采用多級硬件冗余方法,通過多種設備的冗余,提高系統(tǒng)的可靠性。并聯(lián)冗余,備份冗余和表決系統(tǒng)冷備份,熱備份3、硬件冗余的方法可采用多級硬件冗余方法,通過多種設備的冗余81優(yōu)缺點優(yōu)點:不可間斷系統(tǒng)采用了計算機局域網(wǎng)絡或分布式計算機系統(tǒng),各子系統(tǒng)無需或少許增加硬件設備,就可以起到互為冗余的作用。即不增加系統(tǒng)的體積、重量、功能和成功,設備充分共享,提高了利用率,弱化了故障缺點:雖然不增加硬件設備卻增加了大量軟件工作,系統(tǒng)研制的難度、周期和費用增加了;用戶的應用程序在系統(tǒng)中運行,經(jīng)常被診斷程序中斷,遇到故障時自動定位和恢復過程較慢;不適合實時性很強的系統(tǒng)優(yōu)缺點優(yōu)點:不可間斷系統(tǒng)采用了計算機局域網(wǎng)絡或分布式計算機系82(二)軟件冗余指針對軟件本身的故障,采用何種方法去防止由于軟件的錯誤而導致的系統(tǒng)失效。分為動態(tài)冗余和靜態(tài)冗余(二)軟件冗余指針對軟件本身的故障,采用何種方法去防止由于軟831、動態(tài)冗余程序回卷(ProgramRollback)多道程序表決法模塊恢復法1、動態(tài)冗余程序回卷(ProgramRollback)84程序回卷法在執(zhí)行的程序中設置若干測試點,在每個測試點上檢查輸出結(jié)果。當測試程序檢測出錯誤時,就認為正在執(zhí)行的程序是一個錯誤的系統(tǒng)中運行的,這段程序要被重新執(zhí)行,即程序的卷回。程序回卷法在執(zhí)行的程序中設置若干測試點,在每個測試點上檢查輸85優(yōu)點:不增加硬件設備,軟件也不復雜缺點:系統(tǒng)的反映時間和精度要受損失,對偶發(fā)性錯誤有效,對固定的故障無能為力優(yōu)點:不增加硬件設備,軟件也不復雜86多道程序表決法對同一個問題按不同的算法編多個程序,對執(zhí)行的結(jié)果進行表決。串行執(zhí)行:費時,過多地占用主存空間,不符合實時性和實用性的要求并行執(zhí)行:需要硬件支持多道程序表決法對同一個問題按不同的算法編多個程序,對執(zhí)行的結(jié)87模塊恢復法程序按照模塊執(zhí)行,每執(zhí)行完一塊,接著執(zhí)行一個測試程序,對剛執(zhí)行的程序進行測試,通過后再執(zhí)行下一個模塊,通不過則重新執(zhí)行無法適應實時系統(tǒng)的要求模塊恢復法程序按照模塊執(zhí)行,每執(zhí)行完一塊,接著執(zhí)行一個測試程882、靜態(tài)冗余又稱軟件存儲冗余,是把關鍵的系統(tǒng)程序和應用程序在系統(tǒng)中多點存儲在主存或高速輔助存儲器中。在正常狀態(tài)下,只執(zhí)行一處或幾處的程序,其它做備份,一旦程序遭破壞,則快速調(diào)入備用程序,使系統(tǒng)仍能正常工作。系統(tǒng)程序和應用程序可采取分布式存儲,或集中式存儲方式,或兩者結(jié)合2、靜態(tài)冗余又稱軟件存儲冗余,是把關鍵的系統(tǒng)程序和應用程序在89硬件容錯與軟件容錯的比較軟件的拷貝不能作為軟件的備份,這與硬件容錯顯然不同。軟件的替換是暫時性的,被替換的軟件部件仍可以重新使用,硬件部件則需重新修復才可使用。軟件容錯在實現(xiàn)技術上比硬件容錯要復雜得多硬件容錯與軟件容錯的比較軟件的拷貝不能作為軟件的備份,這與硬90(三)數(shù)據(jù)冗余主要應用于數(shù)據(jù)庫系統(tǒng)中。若某種故障使數(shù)據(jù)庫中當前狀態(tài)不正確或可疑,就必須把數(shù)據(jù)庫恢復到某一正確的狀態(tài)根據(jù)數(shù)據(jù)庫存儲的位置和方式,分為集中式的數(shù)據(jù)冗余和分布式的數(shù)據(jù)冗余(三)數(shù)據(jù)冗余主要應用于數(shù)據(jù)庫系統(tǒng)中。91(四)動態(tài)冗余技術概述重組可重組的動態(tài)N模冗余技術恢復多處理機系統(tǒng)的動態(tài)冗余結(jié)構與容錯處理模擬部件的冗余容錯動態(tài)冗余設計的綜合考慮(四)動態(tài)冗余技術概述921、概述關鍵技術:故障檢測與診斷選擇系統(tǒng)冗余結(jié)構,實現(xiàn)靜態(tài)冗余設計重組:故障處理技術恢復1、概述關鍵技術:93定義:綜合運用以上幾種技術來達到更強容錯能力的一種綜合性容錯技術動態(tài):體現(xiàn)在作為系統(tǒng)正常資源的冗余模塊數(shù)隨著檢測到的故障數(shù)多少而變化基本步驟:故障檢測故障處理(重組)系統(tǒng)恢復定義:綜合運用以上幾種技術來達到更強容錯能力的一種綜合性容錯94動態(tài)冗余技術與靜態(tài)冗余技術相比的優(yōu)點有更大的隔離災難性故障的能力直到所有的后備單元都耗盡了,系統(tǒng)才失效利用程序卷回等手段可消除由瞬時故障引起的錯誤易于調(diào)節(jié)后備單元的數(shù)量與類型可利用后備單元的不加電元件的潛在低失效率特點避免了靜態(tài)冗余的電路圖相關、故障相依問題可用標準診斷程序檢查后備單元可增加系統(tǒng)平均壽命動態(tài)冗余技術與靜態(tài)冗余技術相比的優(yōu)點有更大的隔離災難性故障的952、重組重組的概念后緩備份重組緩慢降低重組2、重組重組的概念96(1)重組的概念重組的主要功能是防止失效影響到系統(tǒng)的正常工作。當檢測出系統(tǒng)有故障并實現(xiàn)了故障定位后,系統(tǒng)便通過更換或切除故障模塊的方法來重新組合,達到排除或隔離故障的目的。重組的基礎是結(jié)構的冗余和基于冗余結(jié)構的故障檢測與診斷。實際中,往往在檢出故障后通過中斷來觸發(fā)重組。(1)重組的概念重組的主要功能是防止失效影響到系統(tǒng)的正常工作97重組可有兩種不同類型后援備份重組緩慢降級重組重組可有兩種不同類型后援備份重組98(2)后援備份重組后援備份:系統(tǒng)配置一組平時不工作的模塊作為工作模塊組中失效模塊的備份。在故障發(fā)生后,通過故障檢測觸發(fā)后備模塊取代失效模塊兩種備份方式“冷”備份:平時備份模塊不通電“熱”備份:平時備份模塊通電,處于工作狀態(tài)(2)后援備份重組后援備份:系統(tǒng)配置一組平時不工作的模塊作為99(3)緩慢降級重組緩慢降級是指當系統(tǒng)的工作模塊出現(xiàn)故障模塊后,進行無替換的切換,每檢出一個切除一個,從而使系統(tǒng)的功能和性能逐步降級兩種設計指導思想1、按要求的性能設計系統(tǒng)資源,當出現(xiàn)失效模塊后系統(tǒng)降級繼續(xù)運行,直至失效累積到系統(tǒng)無法正常工作。主要用于一般用途的計算機2、系統(tǒng)最初設計成以超額資源、超級性能運行,當系統(tǒng)出現(xiàn)失效時,仍能維持一個基本要求的性能等級。主要用于許多關鍵應用應用的實時控制處理器中(3)緩慢降級重組緩慢降級是指當系統(tǒng)的工作模塊出現(xiàn)故障模塊后1003、可重組的動態(tài)N模冗余技術待命儲備式N模冗余可重組二模冗余3、可重組的動態(tài)N模冗余技術待命儲備式N模冗余101(1)待命儲備式N模冗余單模替換結(jié)構成對替換結(jié)構(1)待命儲備式N模冗余單模替換結(jié)構102單模替換結(jié)構N個相同的模塊中,只有一個為主用模塊處理于運行狀態(tài),用以產(chǎn)生系統(tǒng)輸出,其余模塊都作為備份片于待命狀態(tài)。自檢測系統(tǒng),也可用軟件周期性或定期性地進行故障檢測單模替換結(jié)構N個相同的模塊中,只有一個為主用模塊處理于運行狀103成對替換結(jié)構N個模塊中總有兩個組成主用模塊對,它們并行工作并進行比較;一旦比較結(jié)果不致便啟動重組,將該對模塊切除,而換上另外兩個備用模塊作為主模塊對。成對替換結(jié)構N個模塊中總有兩個組成主用模塊對,它104(2)可重組二模冗余在靜態(tài)二模冗余的基礎上增加故障檢測和模塊切換裝置而構成的有兩種常見的冗余模式:主備用冗余模式和二模協(xié)同冗余模式(2)可重組二模冗余在靜態(tài)二模冗余的基礎上增加故障檢測和模塊105主備用冗余模式實質(zhì)上是待命儲備式N模冗余系統(tǒng)的一個特例兩個相同的模塊通過一定的接口電路(包括檢測和切換裝置)連接起來,一個主用,一個備用。主備用冗余模式實質(zhì)上是待命儲備式N模冗余系統(tǒng)的一個特例106二模協(xié)同冗余模式二模協(xié)同:指兩個模塊同時執(zhí)行相同的指令,處理相同的數(shù)據(jù),完成相同的任務。如果二模均正常,則任取其中一個的輸出作為系統(tǒng)輸出;如果一個失效,則它的輸出封鎖,而將正常的輸出作為系統(tǒng)輸出。二模協(xié)同冗余模式二模協(xié)同:指兩個模塊同時執(zhí)行相同的指令,處理107故障定位方法自診斷方法:聯(lián)機模塊運行自診斷程序每個模塊設置自校驗器利用監(jiān)視定時器判別故障模塊,觸發(fā)重組利用外部仲裁控制配置:強迫二模塊運行同一“已知結(jié)果的測試程序”故障定位方法自診斷方法:聯(lián)機模塊運行自診斷程序108模塊同步的方法微周期級同步總線周期級同步任務級同步模塊同步的方法微周期級同步1094、恢復恢復的概念恢復技術的方法向前錯誤恢復、向后錯誤恢復(3)常用恢復算法(4)計算機系統(tǒng)基本部分的恢復技術(5)文件恢復技術(6)通信系統(tǒng)的恢復技術4、恢復恢復的概念110(1)恢復恢復是系統(tǒng)利用重組處理了永久故障等不可恢復硬件故障后,實現(xiàn)動態(tài)冗余和容錯的必不可少的環(huán)節(jié)。其作用是消除錯誤造成的影響,使系統(tǒng)自動恢復到正常工作狀態(tài)重新運行下去。(1)恢復恢復是系統(tǒng)利用重組處理了永久故障等不111(2)恢復技術的方法向前錯誤恢復向后錯誤恢復(2)恢復技術的方法向前錯誤恢復112向前錯誤恢復概念:根據(jù)系統(tǒng)的故障特征,校正出錯的系統(tǒng)狀態(tài),使系統(tǒng)進程正確運行下去。這種恢復技術不需要保存系統(tǒng)出錯前的狀態(tài)和信息,不需要卷回重運行。優(yōu)點:系統(tǒng)開銷小,無需保存恢復點信息的時間和空間;可避免多米諾效應。多米諾效應:伴隨“卷回”操作而產(chǎn)生的一種連鎖倒退、直至退回到任務起點的反應現(xiàn)象。在多進程計算機系統(tǒng)中極易產(chǎn)生多米諾現(xiàn)象。向前錯誤恢復概念:根據(jù)系統(tǒng)的故障特征,校正出錯的系統(tǒng)狀態(tài),使113向前錯誤恢復缺點:(1)恢復算法復雜,必須基于對故障特征和錯誤性質(zhì)的深刻而全面的認識。(2)不能采取措施來消除錯誤或掩蓋故障。向前錯誤恢復缺點:114向后錯誤恢復向后錯誤恢復技術是把出錯的系統(tǒng)進程從當前錯誤狀態(tài)卷回到以前的某一正確狀態(tài),然后從這一狀態(tài)開始繼續(xù)系統(tǒng)的運行。這種恢復方式是以事先建立恢復點為基礎的向后錯誤恢復向后錯誤恢復技術是把出錯的系統(tǒng)進程從115向后錯誤恢復協(xié)議(1)保證為每個任務或進程的程序模塊設置一組恢復點,并將系統(tǒng)正常運行到各恢復點時的狀態(tài)和必要信息予以保存,以便程序一旦返回到該點時可以糾正故障影響。(2)避免因多模塊間通信而產(chǎn)生的多米諾效應,關鍵在于選擇恢復點。(3)盡量保持各模塊原有的并行性。向后錯誤恢復協(xié)議(1)保證為每個任務或進程的程序模塊設置一116向后錯誤恢復協(xié)議(4)使各模塊保持獨立性,并使恢復過程對設計者具有透明性。(5)避免因恢復造成多模塊的死鎖。(6)使恢復操作盡量少增加系統(tǒng)開銷。(7)具有完整性和一致性向后錯誤恢復協(xié)議(4)使各模塊保持獨立性,并使恢復過程對設117向后恢復的三種實現(xiàn)方法靜態(tài)規(guī)劃法無規(guī)劃法動態(tài)規(guī)劃法向后恢復的三種實現(xiàn)方法靜態(tài)規(guī)劃法118優(yōu)點:實現(xiàn)簡單、恢復可靠缺點:系統(tǒng)的時間、空間開銷大,易引起多米諾效應優(yōu)點:實現(xiàn)簡單、恢復可靠119(3)常用恢復算法程序卷回記日志恢復塊原子操作預設陷阱糾錯編碼多數(shù)表決(3)常用恢復算法程序卷回120程序卷回向后錯誤恢復方法適用于瞬時錯誤和永久錯誤檢測系統(tǒng)在運行過程中一經(jīng)發(fā)現(xiàn)錯誤,便進行程序卷回,返回到起始點或離出錯點最近的預設恢復點重試。微指令重試替換數(shù)據(jù)重試程序卷回向后錯誤恢復方法121注意問題恢復點的數(shù)目和位置選擇問題各恢復點需要保存的狀態(tài)和信息量的確定問題恢復點的功能設置問題程序卷回級別的選擇問題注意問題恢復點的數(shù)目和位置選擇問題122程序在恢復點的功能同步功能存檔功能存檔內(nèi)容的更新功能報告功能程序在恢復點的功能同步功能123記日志向后錯誤恢復方法在進程開始時,保存初始數(shù)據(jù)的副本作為后備數(shù)據(jù),并在進程執(zhí)行中,記下影響這些數(shù)據(jù)的全部業(yè)務。記日志向后錯誤恢復方法124恢復塊向后恢復方法,以錯誤檢測、向后冗余和多份軟件模塊為基礎由恢復點、替換算法和驗收測試三部分組成恢復點:保存在恢復塊內(nèi)會發(fā)生變化的全局變量替換算法:一個或多個不同版本、但功能相同的備用程序模塊驗收測試:一組邏輯表達式模塊,設置在每個替換算法的出口,用于檢測計算結(jié)果的正確性、合理性恢復塊向后恢復方法,以錯誤檢測、向后冗余和多份軟件模塊為基礎125驗收測試的設計問題滿足要求測試:算法執(zhí)行后完成必定滿足要求合理性測試審計測試運行時間測試驗收測試的設計問題滿足要求測試:算法執(zhí)行后完成必定滿足要求126原子操作特性:一個原子操作可以只屬于一個進程,也可以由多個進程共享原子操作是可嵌套的一種錯誤檢測的方法,還是一種確定一個故障的可能結(jié)果的界限的方法可用于向前和向后錯誤恢復原子操作特性:127預設陷阱向前錯誤恢復方法根據(jù)系統(tǒng)可能出現(xiàn)的異常情況,設計一組處理程序,建立一個異常處理程序庫,當系統(tǒng)因故障而出現(xiàn)某種預料中的異常情況時,便從庫中調(diào)用相應的異常處理程序進行處理,實現(xiàn)錯誤恢復預設陷阱向前錯誤恢復方法128糾錯編碼通過在信息位的基礎上增加校驗位,可以準確地檢測出傳輸、存儲的信息中出現(xiàn)的差錯和差錯的位置,并能以正確的值校正差錯值,使信息恢復到原來正確狀態(tài)。可用于故障診斷、屏蔽,差錯恢復糾錯編碼通過在信息位的基礎上增加校驗位,可以準確地檢測出傳輸129多數(shù)表決向前錯誤恢復,可以屏蔽錯誤,并診斷出錯位置在多處理機系統(tǒng)中,多個處理機獨立運行同一任務,并同步完成相同的功能,按“擇多原則”得出正確的結(jié)果值多數(shù)表決向前錯誤恢復,可以屏蔽錯誤,并診斷出錯位置130(4)計算機系統(tǒng)基本部分的恢復技術中央處理機的故障排除與恢復存儲器故障排除與恢復外設的故障排除與恢復(4)計算機系統(tǒng)基本部分的恢復技術中央處理機的故障排除與恢131中央處理機的故障排除與恢復常見故障:內(nèi)部硬件故障:由模塊或裝置內(nèi)的各種硬件校驗和接口校驗驗出程序錯誤:可作為程序執(zhí)行時的軟件異常狀態(tài)和例外狀態(tài)由硬件檢驗機構檢出中央處理機的故障排除與恢復常見故障:132中央處理機的故障排除與恢復流程圖CPU1硬件故障硬件重試成功保存現(xiàn)場運行信息多處理機?CPU1永久故障停機,并保存現(xiàn)場運行信息中斷CPUi(i=1)OS的功能恢復例行程序應用軟件恢復例行程序有關處理任務異常終結(jié)繼續(xù)工作能恢復?CPU執(zhí)行OSNNYNYYN中央處理機的故障排除與恢復流程圖CPU1硬件故障硬件重試成功133軟件故障排除與恢復硬件檢測機構一旦檢出程序異常,立即發(fā)出程序錯誤中斷(如非法操作碼中斷、指令使用錯誤中斷等)報告給操作系統(tǒng)對于操作系統(tǒng)中發(fā)生的程序錯誤,通常采用“預設陷阱”恢復算法,針對不同的程序錯誤中斷,啟動不同的“異常處理”程序。對于用戶處理程序中發(fā)生的程序錯誤恢復塊技術預設陷阱恢復方法軟件故障排除與恢復硬件檢測機構一旦檢出程序異常,立即發(fā)出程序134存儲器故障排除與恢復檢測:奇偶校驗電路、靜態(tài)測試、動態(tài)測試等軟件檢測手法、海明碼一旦檢測出有錯,檢測機構向CPU發(fā)出中斷,啟動運行存儲器排除故障與恢復的中斷處理程序處理方法:先了解發(fā)生誤操作的存儲器地址或芯片等故障信息,然后重新從外部存儲器調(diào)入出錯的程序,從斷點處開始重試,看能否恢復;若重試不成功,進行硬件重組和重組后的恢復重新調(diào)入執(zhí)行的程序,可重入(Reenterable)且可再生(Refreshable)的程序存儲器故障排除與恢復檢測:奇偶校驗電路、靜態(tài)測試、動態(tài)測試等135外設的故障排除與恢復外設:與CPU控制輸入/輸出設備工作相關的硬件組成部分:并行或串行I/O通道、設備驅(qū)動器、I/O設備和數(shù)據(jù)存取路徑外設故障對策外設故障的處理步驟外設的故障排除與恢復外設:與CPU控制輸入/輸出設備工作相關136外設故障對策存取路徑多重化設備的物理多重化:將信息同時寫入若干相同的設備設備的邏輯多重化:為同一功能安排兩個以上的實體設備復制件,而且設置幾種不同的設備外設故障對策存取路徑多重化137外設故障的處理步驟用硬件或軟件重試硬件重試:由I/O通道、設備驅(qū)動器對指令自動重試軟件重試:先在發(fā)生I/O操作錯的同一存取路徑上進行;若失敗,再改用另一路徑重試故障的區(qū)分診斷故障設備的重組定時監(jiān)視外設故障的處理步驟用硬件或軟件重試138處理外設故障的一般步驟用硬件/軟件重試成功?故障的區(qū)分診斷故障設備重組定時監(jiān)視超時?YNYN繼續(xù)運行處理外設故障的一般步驟用硬件/軟件重試成功?故障的區(qū)分診斷故139外設故障的區(qū)分診斷通道1驅(qū)動器1通道2驅(qū)動器2TDDP11P12P2212外存外設故障的區(qū)分診斷通道1驅(qū)動器1通道2驅(qū)動器2TDDP11P140故障設備的重組將故障設備和故障單元在邏輯上與系統(tǒng)切斷,禁止存取,通知操作員切除維修故障設備修復后,在實際投入系統(tǒng)應用前以診斷工作方式讀寫檢驗其是否正常和可靠,稱為故障修復后的驗收診斷故障設備的重組將故障設備和故障單元在邏輯上與系統(tǒng)切斷,禁止存141(5)文件恢復技術文件:計算機系統(tǒng)中具有邏輯關系的信息/數(shù)據(jù)的集合文件恢復的故障前處理文件恢復的故障后處理(5)文件恢復技術文件:計算機系統(tǒng)中具有邏輯關系的信息/數(shù)142文件的恢復階段故障前處理:在系統(tǒng)運行過程中、故障發(fā)生前,將文件恢復所必需的信息記錄下來故障后處理:系統(tǒng)因故障發(fā)生而中斷運行時,利用故障前記錄的信息使剛剛發(fā)生故障的文件及系統(tǒng)的其他狀態(tài)得到恢復,使系統(tǒng)重新運行文件的恢復階段故障前處理:在系統(tǒng)運行過程中、故障發(fā)生前,將文143故障前處理二重化方式虛擬空間方式恢復點方式報文記錄方式全轉(zhuǎn)儲方式ID轉(zhuǎn)儲/狀態(tài)轉(zhuǎn)儲方式故障前處理二重化方式144二重化方式將重要信息二重化二重化方式將重要信息二重化145虛擬空間方式更新文件時,將文件復制到別的文件空間后再更新虛擬空間:用于更新別的文件空間虛擬空間方式更新文件時,將文件復制到別的文件空間后再更新146恢復點方式聯(lián)機系統(tǒng)使用分類周期轉(zhuǎn)儲:按一定時間周期,定期轉(zhuǎn)儲系統(tǒng)恢復所需的基本信息增量轉(zhuǎn)儲:在文件每次更新前保存下文件的內(nèi)容、識別號、處理時間等信息恢復點方式聯(lián)機系統(tǒng)使用147報文記錄方式常用于小型報文交換系統(tǒng)在形成輸入、輸出報文記錄時都附加上一定的識別號碼,然后系統(tǒng)恢復時通過檢驗識別號碼來確定具體的恢復策略報文記錄方式常用于小型報文交換系統(tǒng)148全轉(zhuǎn)儲方式每過一定時間,將系統(tǒng)運行所必需的重要文件和需要長期保存的信息全部從硬盤上轉(zhuǎn)儲到磁帶、光盤等后援存儲器上去。全轉(zhuǎn)儲方式每過一定時間,將系統(tǒng)運行所必需的重要文件和需要長期149ID轉(zhuǎn)儲/狀態(tài)轉(zhuǎn)儲方式轉(zhuǎn)儲系統(tǒng)的運行狀態(tài)記錄,將記錄結(jié)合恢復點方式和報文記錄方式獲得的有關文件識別號碼、事務處理識別號碼、文件內(nèi)容等信息,恢復系統(tǒng)正常運行狀態(tài)ID轉(zhuǎn)儲/狀態(tài)轉(zhuǎn)儲方式轉(zhuǎn)儲系統(tǒng)的運行狀態(tài)記錄,將記錄結(jié)合恢復150文件操作的四種狀態(tài)狀態(tài)S0:接收完終端送來的報文時狀態(tài)S1:在恢復點轉(zhuǎn)儲完文件更新信息,但尚未更新文件時狀態(tài)S2:用戶文件更新完成時狀態(tài)S3:向終端發(fā)送輸出報文時文件操作的四種狀態(tài)狀態(tài)S0:接收完終端送來的報文時151故障后處理應急恢復文件恢復系統(tǒng)恢復的優(yōu)先次序故障后處理應急恢復152應急恢復利用ID轉(zhuǎn)儲/狀態(tài)轉(zhuǎn)儲信息和恢復點信息等,盡快使對用戶的服務重新開始的恢復針對兩種故障狀態(tài):終端處于完全不能訪問系統(tǒng)中心的狀態(tài)終端送來的報文已輸入到系統(tǒng)中心,報文正在處理中或已處理完正等待輸出時發(fā)生故障的狀態(tài)應急恢復利用ID轉(zhuǎn)儲/狀態(tài)轉(zhuǎn)儲信息和恢復點信息等,盡快使對用153文件恢復讀出的文件發(fā)生故障時,利用前一天的全轉(zhuǎn)儲信息和當天的恢復點信息來恢復文件文件恢復讀出的文件發(fā)生故障時,利用前一天的全154(6)通信系統(tǒng)的恢復技術終端控制程序的恢復處理報文控制程序的恢復處理(6)通信系統(tǒng)的恢復技術終端控制程序的恢復處理155通信系統(tǒng):由各機所屬的通信控制器和機間的通信線路網(wǎng)組成通信控制器:故障檢測:通過特設的回折試驗線路和多重化通信的模擬輸入/輸出功能進行檢測故障定位:終端控制程序的故障區(qū)分例行程序通信線路網(wǎng):交換線路網(wǎng)和專用線路網(wǎng)通信系統(tǒng):由各機所屬的通信控制器和機間的通信線路網(wǎng)組成156通信系統(tǒng)的信息處理終端控制程序:以終端、通信線路網(wǎng)的控制為中心,使數(shù)據(jù)正確而有效地傳送報文控制程序:以一份報文為單位確保數(shù)據(jù)處理的正確性業(yè)務控制程序:對接收的報文信息按應用要求進行綜合通信系統(tǒng)的信息處理終端控制程序:以終端、通信線路網(wǎng)的控制為中157終端控制程序的恢復處理檢測報文錯誤或傳送控制錯誤重試終端代理接收試驗呼叫終端控制程序的恢復處理檢測報文錯誤或傳送控制錯誤158報文控制程序的恢復處理用來校驗報文格式和輸入/輸出流水號等錯誤,并負責出錯情況下的恢復處理工作報文格式錯:將該份報文作廢并通知發(fā)送端重發(fā)輸入流水號和輸出流水號錯重號:在接收端刪除重復報文漏號:通知發(fā)送端重發(fā)通信系統(tǒng)錯誤恢復后,對中斷交換的報文處理重發(fā)脫發(fā):系統(tǒng)恢復工作總從下一份報文開始發(fā)送報文控制程序的恢復處理用來校驗報文格式和輸入/輸出流水號等錯1595、多機處理系統(tǒng)的動態(tài)冗余結(jié)構常用的多處理機冗余結(jié)構(1)均分負載系統(tǒng)結(jié)構(2)主備用系統(tǒng)結(jié)構(3)緊耦合系統(tǒng)結(jié)構(4)分布式系統(tǒng)結(jié)構(5)網(wǎng)絡結(jié)構5、多機處理系統(tǒng)的動態(tài)冗余結(jié)構常用的多處理機冗余結(jié)構160均分負載系統(tǒng)結(jié)構均分負載:把系統(tǒng)的負載基本均衡地分配給多個互相獨立的處理機來承擔均分負載系統(tǒng)結(jié)構均分負載:把系統(tǒng)的負載基本均衡地分配161緊耦合系統(tǒng)結(jié)構特點:有兩個或兩個以上的處理機有各處理機共享的主存儲器有各處理機共享的I/O子系統(tǒng)有統(tǒng)一的多機并發(fā)操作系統(tǒng)進行控制緊耦合系統(tǒng)結(jié)構特點:162分布式系統(tǒng)結(jié)構松耦合多處理機系統(tǒng)相互通信的多個自治計算機節(jié)點的集合,各計算機即相互獨立,又是一個整體的組成部分,相互協(xié)作完成一個共同的任務分布式系統(tǒng)結(jié)構松耦合多處理機系統(tǒng)163結(jié)構特點所有資源均可冗余良好的可擴性使得系統(tǒng)的冗余程度可隨應用要求和環(huán)境的變化而作動態(tài)調(diào)整系統(tǒng)中資源在物理上是分散的,避免了由于局部故障而導致整個系統(tǒng)崩潰的現(xiàn)象高速可靠的通信子網(wǎng)絡和資源的分散控制消除了單處理機和緊耦合多處理機系統(tǒng)中存在的競爭、數(shù)據(jù)流瓶頸和控制上的關鍵點結(jié)構特點所有資源均可冗余164幾種常見的分布式系統(tǒng)結(jié)構雙環(huán)結(jié)構C1,t環(huán)路結(jié)構(n:節(jié)點數(shù),t:節(jié)點跳躍間隔)多總線結(jié)構容錯環(huán)總線結(jié)構n幾種常見的分布式系統(tǒng)結(jié)構雙環(huán)結(jié)構n165多總線結(jié)構每個節(jié)點并不連接到所有的總線上,而是按一定規(guī)律連接在部分總線上特點:總線數(shù)增多時,節(jié)點的端口數(shù)不必隨之增加每條總線的負載不會隨著節(jié)點的增加而明顯增大多總線結(jié)構每個節(jié)點并不連接到所有的總線上,而是按一定規(guī)律連接166(5)網(wǎng)絡結(jié)構網(wǎng)絡冗余性的表現(xiàn):終端設備與線路的多重冗余存取路徑的多重冗余引入集配器裝置網(wǎng)絡結(jié)構的基本形式:集中式網(wǎng)絡分布式網(wǎng)絡(5)網(wǎng)絡結(jié)構網(wǎng)絡冗余性的表現(xiàn):167第五章軟件可靠性技術軟件可靠性概述軟件容錯技術信息保護技術第五章軟件可靠性技術軟件可靠性概述1685.1軟件可靠性概述軟件可靠性和硬件可靠性的聯(lián)系和區(qū)別軟件可靠性技術的內(nèi)涵軟件可靠性定義軟件可靠性指標5.1軟件可靠性概述軟件可靠性和硬件可靠性的聯(lián)系和區(qū)別169軟件可靠性和硬件可靠性的聯(lián)系軟件可靠性和硬件可靠性的區(qū)別軟、硬件故障機理軟件故障的特性軟件可靠性和硬件可靠性的聯(lián)系1701、軟件可靠性和硬件可靠性的聯(lián)系指系統(tǒng)(或產(chǎn)品、模塊)在一定的條件下和一定時間內(nèi)能完成預定功能的性質(zhì)兩者都是復雜性的函數(shù)都可利用可靠性增長來提高它們的可靠性1、軟件可靠性和硬件可靠性的聯(lián)系指系統(tǒng)(或產(chǎn)品、模塊)在一定1712、軟件可靠性和硬件可靠性的區(qū)別概念內(nèi)涵指標選擇設計分析手段提高可靠性的方法途徑2、軟件可靠性和硬件可靠性的區(qū)別概念內(nèi)涵1723、軟、硬件故障機理硬件故障來源于元部件的失效,“后生”的故障軟件故障來源于人的失誤和水平、能力的局限性,“先天”的故障3、軟、硬件故障機理硬件故障來源于元部件的失效,“后生”的故1734、軟件故障的特性固有性環(huán)境敏感性運行環(huán)境:硬件平臺、硬件配置、支撐軟件輸入環(huán)境:應用對象,用戶要求,輸入數(shù)據(jù)等故障影響的傳染性:任一軟件故障,只要未被除,始終存在于該軟件中,一旦引起錯誤,是可以傳染給其他軟件的。4、軟件故障的特性固有性174可靠性設計:為了獲得高可靠性的軟件避錯排錯設計容錯設計信息保護可靠性分析:通過建立一定的可靠性模型,為軟件可靠性設計和軟件維護提供必要的依據(jù)可靠性設計:為了獲得高可靠性的軟件175軟件可靠性技術設計技術分析技術避錯排錯技術容錯技術信息保護技術可靠性模型管理技術設計方法學驗證技術多版本技術恢復塊技術替換技術混合技術基本信息保護技術網(wǎng)絡信息保護技術時間技術計數(shù)技術播種技術數(shù)據(jù)技術軟件可靠性技術設計技術分析技術避錯排錯技術容錯技術信息保護技176計算機軟件:與計算機系統(tǒng)的操作有關的程序、規(guī)程、規(guī)則以及與之有關的文件和數(shù)據(jù)軟件質(zhì)量軟件可靠性計算機軟件:與計算機系統(tǒng)的操作有關的程序、規(guī)程、規(guī)則以及與之177RAID4的特點和RAID3也挺象,不過在失敗恢復時,它的難度可要比RAID3大得多了,控制器的設計難度也要大許多,而且訪問數(shù)據(jù)的效率不怎么好。自校驗系統(tǒng)的性質(zhì)由系統(tǒng)結(jié)構和運行環(huán)境所決定。3自校驗網(wǎng)絡的基本結(jié)構效率(時間性、資源性)缺點:雖然不增加硬件設備卻增加了大量軟件工作,系統(tǒng)研制的難度、周期和費用增加了;可利用后備單元的不加電元件的潛在低失效率特點統(tǒng)進行屏蔽以減少外界的干擾等方法來提容錯軟件設計的先進技術1969,噴射推進實驗室的STAR計算機,其處理機采用三重表決加備份的混合冗余方式,并用算術檢錯碼及雙機比較檢測故障。機器的內(nèi)部總線,也包括像SCSI的外部總線更換新盤后原有數(shù)據(jù)會需要很長時間同步鏡像,外界對數(shù)據(jù)的訪問不會受到影響,只是這時整個系統(tǒng)的性能有所下降。軟件質(zhì)量指軟件產(chǎn)品滿足規(guī)定需求或隱含能力所有的特征和特征之和軟件質(zhì)量指標功能性(實用性、準確性、互操作性、一致性和安全性)可靠性(成熟性、容錯性、可恢復性)易使用性(易學性、易理解性、易操作性)效率(時間性、資源性)維護性(可分析性、易修改性、穩(wěn)定性和易測試性)可移植性(適應性、可安裝性、規(guī)范性和可換性)RAID4的特點和RAID3也挺象,不過在失敗恢復時,它的難178軟件可靠性在規(guī)定的條件下和規(guī)定的時間內(nèi),軟件成功地完成功能的能力或不引起系統(tǒng)故障的能力,稱為軟件可靠性特點:與軟件開發(fā)方法有關與驗證方法有關與使用的程序設計語言、軟件的運行環(huán)境條件、操作人員的素質(zhì)有關軟件可靠性在規(guī)定的條件下和規(guī)定的時間內(nèi),軟件成功地完成功能的179軟件可靠性指標應根據(jù)實際系統(tǒng)的可靠性指標分析確定,并遵循以下原則:與系統(tǒng)可靠性表示方法相協(xié)調(diào)用戶概念以使用過程中易觀測的參數(shù)來表示針對具體的任務,對不同的功能應用不同的指標和要求軟件可靠性指標應根據(jù)實際系統(tǒng)的可靠性1801、沿襲硬件可靠性的軟件可靠性指標軟件可靠度:軟件系統(tǒng)在特定的環(huán)境下,在規(guī)定的時間內(nèi)不發(fā)生故障地運行的概率(Rs(t)))故障率:軟件工作到某時刻t尚未失效,在時間t后單位時間內(nèi)發(fā)生故障的概率(λs(t))平均故障間隔時間:是軟件在交付用戶使用的操作期間,軟件各次故障的間隔時間的期望值(MTBF)平均故障前時間:是軟件經(jīng)測試過程中,軟件各次故障之間的間隔時間的期望值(MTTF)平均修復時間:軟件系統(tǒng)在特定的環(huán)境下,在規(guī)定的時間內(nèi),在規(guī)定的維修級別上,維修時間的平均值(MTTR)1、沿襲硬件可靠性的軟件可靠性指標軟件可靠度:軟件系統(tǒng)在特定1812、表征軟件特殊性的軟件可靠性指標平均不工作時間:軟件系統(tǒng)平均不工作時的時間平均操作錯誤時間:軟件操作錯誤的平均間隔時間軟件系統(tǒng)不工作時間均值:因軟件故障,系統(tǒng)不工作時間的平均值可用性:軟件在規(guī)定的開始時刻t0運行正常的條件下,在規(guī)定的未來時間t正常運行的概率初始錯誤個數(shù)和剩余錯誤個數(shù)使用方誤用率:使用方在使用軟件的總次數(shù)中,誤用次數(shù)所占的百分率2、表征軟件特殊性的軟件可靠性指標平均不工作時間:軟件系統(tǒng)平1825.2軟件容錯技術容錯軟件的基本概述及原理容錯軟件設計的基本技術容錯軟件設計的先進技術5.2軟件容錯技術容錯軟件的基本概述及原理183容錯軟件的定義實現(xiàn)軟件容錯的基本原理實現(xiàn)容錯軟件的有關技術容錯軟件的定義1841、容錯軟件的定義規(guī)定功能的軟件,如果在一定程序上對自身故障的作用具有屏蔽能力,那么,稱此軟件為具有容錯功能的軟件,即容錯軟件規(guī)定功能的軟件,如果在一定程度上能從故障狀態(tài)自動恢復到正常狀態(tài),則稱為容錯軟件規(guī)定功能的軟件,在因缺陷而出故障時,仍然能在一定程度上完成預期的功能,則稱為容錯軟件規(guī)定功能的軟件,如果能在一定程序上具有容錯能力,則稱為容錯軟件1、容錯軟件的定義規(guī)定功能的軟件,如果在一定程序上對自身故障185特點容錯的對象是一個規(guī)定功能的軟件,這些功能是由需求規(guī)范定義的容錯的能力總是有一定限度的當軟件由于自身存在缺陷而在運行中出故障時,若其為容錯軟件,應能屏蔽這一故障,對其進行處理以避免失效(通過故障檢測算法、故障恢復算法、軟件冗余備份來實現(xiàn))特點容錯的對象是一個規(guī)定功能的軟件,這些功能是由需求規(guī)范定義186排錯并不能解決所有問題缺陷與因其而引起的故障間的關系十分復雜,依據(jù)對故障的觀測來確定缺陷難度是很大的設計中的殘存缺陷大多已經(jīng)和軟件總體以及各階段中形成的文檔、資料等建立了密切的聯(lián)系,難以一舉排除在研制時間上,不允許作曠日持久的檢驗和修改排錯并不能解決所有問題缺陷與因其而引起的故障間的關系十分復雜1872、實現(xiàn)軟件容錯的基本原理將若干個根據(jù)同一規(guī)范編寫的不同程序(或程序塊),在不同空間同時運行或在同一空間依次運行,然后在每一個預定的檢測點上或最終通過表決或接收測試進行裁決。在判明其正確或一致后接收這個結(jié)果,否則便加以拒絕,并作出報警。2、實現(xiàn)軟件容錯的基本原理將若干個根據(jù)同一規(guī)范編寫的不同程序188容錯基本結(jié)構
結(jié)果報警正確執(zhí)行可診斷的故障不可診斷的故障版本裁決器容錯基本結(jié)構結(jié)果報警正確執(zhí)行可診斷的故障不可診斷的故障189容錯系統(tǒng)的結(jié)果裁決器判斷正確,軟件正確無誤地實現(xiàn)了需求規(guī)范所載的功能裁決器判斷正確,發(fā)現(xiàn)故障,發(fā)出的報警,能制止系統(tǒng)失效導致嚴重的后果裁決器判斷錯誤或軟件存在不可診斷的故障,使系統(tǒng)最終失效容錯系統(tǒng)的結(jié)果裁決器判斷正確,軟件正確無誤地實現(xiàn)了需求規(guī)范所190容錯軟件的兩種結(jié)構方案多(N)版本程序設計(N-VersionProgramming,NVP)結(jié)構恢復塊(RecoveryBlock,RB)技術容錯軟件的兩種結(jié)構方案多(N)版本程序設計(N-Versio1913、實現(xiàn)容錯軟件的有關技術版本冗余故障檢測技術故障恢復技術破壞估計故障隔離技術繼續(xù)服務3、實現(xiàn)容錯軟件的有關技術版本冗余192(1)故障檢測技術軟件斷言(SoftwareAssertions)軟件的自測試(1)故障檢測技術軟件斷言(SoftwareAsserti193軟件斷言(SoftwareAssertions)軟件在宿主系統(tǒng)中運行時,能對其進程或功能的正確與否作出判斷的條件稱為軟件斷言。斷言提供三個結(jié)論:正確,不正確,不能判別軟件斷言(SoftwareAssertions)軟件在宿主194軟件的自測試正面校驗(PositiveCheck)原則:測試軟件將輸入轉(zhuǎn)化為輸出的功能是否正確反面校驗(NegativeCheck)原則:將軟件輸出逆轉(zhuǎn)化為輸入,檢查是否正確軟件的自測試正面校驗(PositiveCheck)原則:測195(2)故障恢復技術向前恢復向后恢復(2)故障恢復技術向前恢復196故障恢復技術故障檢測狀態(tài)恢復方案狀態(tài)恢復重構重試繼續(xù)服務向前向后故障恢復技術故障檢測狀態(tài)恢復方案狀態(tài)恢復重構重試繼續(xù)服務向前197(3)破壞估計、故障隔離和繼續(xù)服務破壞估計判定故障被檢測出來之前已經(jīng)引起的破壞發(fā)生故障后,在處理的延滯或恢復實施過程中,無效信息在系統(tǒng)中傳播的可能性故障可能導致的其他未被檢測到的后續(xù)故障故障隔離繼續(xù)服務(3)破壞估計、故障隔離和繼續(xù)服務破壞估計198故障隔離主動地采取措施,防止故障的破壞性蔓延的技術稱為故障隔離權限最小化原則:對過程的數(shù)據(jù)加以嚴格的定義和限制,令過程不能提供任何超過事先規(guī)定限度的功能,也無權接受來自限定數(shù)據(jù)庫之外的數(shù)據(jù)故障隔離主動地采取措施,防止故障的破壞性蔓延的技術稱為故障隔199繼續(xù)服務確保向前恢復后的輸出序列中所失去的部分不致于影響軟件的基本功能確保向后恢復后輸出序列中重復多余的部分和差錯狀態(tài)不致影響輸出的正確執(zhí)行繼續(xù)服務確保向前恢復后的輸出序列中所失去的部分不致于影響軟件200N版本程序設計(NVP)恢復塊(RecoveryBlock)技術N版本程序設計(NVP)2011、N版本程序設計(NVP)NVP的思想來自硬件NMR(N-ModularRedundant)結(jié)構,是一種靜態(tài)冗余技術NVP要求由N個實現(xiàn)相同功能的不同程序同時(或幾乎同時)在松耦合計算機上運行,然后比較運行結(jié)果,在出現(xiàn)不一致的情況下,利用多數(shù)表決決定一個最優(yōu)先的結(jié)果1、N版本程序設計(NVP)NVP的思想來自硬件NMR(N202NVP的基本結(jié)構版本1版本2版本N表決器結(jié)果告警多數(shù)少數(shù)NVP的基本結(jié)構版本1版本2版本N表結(jié)果告警多數(shù)少數(shù)203優(yōu)缺點優(yōu)點:結(jié)構簡單,不設計檢測程序來確定運行結(jié)果的正確與否缺點:處理時間是單版本的N倍設計所花的力量是單版本的N倍表決程序設計較困難當該程序需要與外部事件同步時,或在并行處理中在交互過程時,難于處理優(yōu)缺點優(yōu)點:結(jié)構簡單,不設計檢測程序來確定運行結(jié)果的正確與否2042、恢復塊(RecoveryBlock)技術思想來源于硬件的待機(Standby)冗余的動態(tài)結(jié)構恢復塊的基本結(jié)構接收測試設計替換塊的設計2、恢復塊(RecoveryBlock)技術思想來源于硬件205恢復塊的基本結(jié)構版本1接收測試版本2接收測試版本1接收測試結(jié)果告警接收接收恢復塊的基本結(jié)構版本1接收測試版本2接收測試版本1接收測試結(jié)206接收測試設計逆向檢查:接收測試利用模塊中的結(jié)果,計算本應采用的輸入值,并與真實輸入值比較以決定結(jié)果是否可接受編碼校驗:利用糾、檢錯碼的原理建立接收測試合理性測試:根據(jù)可能的變化范圍,以便檢查變量是否越出范圍或狀態(tài)變化違反允許的序列結(jié)構校驗:比如利用數(shù)據(jù)結(jié)構鏈表的鏈接特性來進行校驗帳目校驗:在事務處理中,帳目校驗是用帳目平衡來作接收測試最方便的基準運行時間校驗:接收測試設計逆向檢查:接收測試利用模塊中的結(jié)果,計算本應采用207(3)替換塊的設計相同加權,獨立設計優(yōu)先的、全功能設計功能降級設計(3)替換塊的設計相同加權,獨立設計208一致性恢復塊接收表決N自檢程序設計一致性恢復塊2091、一致性恢復塊(CRB)按順序結(jié)合NVP和RB的混合系統(tǒng)稱為一致性恢復塊(CRB)。如果NVP失效,系統(tǒng)將恢復到RB。只有當NVP和RB都失效時系統(tǒng)才發(fā)生故障。1、一致性恢復塊(CRB)按順序結(jié)合NVP和RB的混合系統(tǒng)稱2102、接收表決(AcceptanceVoting)與CRB混合方向反向,多個模塊并行執(zhí)行,模塊輸出先經(jīng)過接收測試,接收測試接受輸出后,結(jié)果再經(jīng)表決器表決。表決器是動態(tài)的,因為接收測試的輸出結(jié)果數(shù)目每次各不相同只有兩個或多個輸出正確時,表決器才產(chǎn)生一個決定2、接收表決(AcceptanceVoting)與CRB混2113、N自檢程序設計N個模塊成對執(zhí)行(N取偶數(shù))采用比較模塊輸出或其他方法來判斷系統(tǒng)正確與否比較模塊輸出:如果每一對的輸出之間不相同,則放棄輸出3、N自檢程序設計N個模塊成對執(zhí)行(N取偶數(shù))212各冗余軟件由相互獨立的不同人員進行開發(fā)各冗余軟件以不同的形式說明各冗余軟件的設計評審的參與人員不重復各冗余軟件的最終規(guī)范及最終設計、最終編程由不重復的審核人員對照軟件需求、軟件規(guī)范、軟件設計進行審核各冗余軟件由相互獨立的不同人員進行開發(fā)213如果開發(fā)采用了CAD工具,則各冗余軟件應采用不同的CAD工具各冗余軟件析測試程序的規(guī)范、測試方式、測試程序,盡可能由不重復的互相獨立的人員組開發(fā)各冗余軟件應在算法上相異各冗余軟件應在邏輯結(jié)構上相異如有可能,各冗余軟件最好由不同開發(fā)單位設計,開發(fā)單位之間是相互獨立的各冗余軟件用不同的程序設計語言設計各冗余軟件用不同的編譯程序或匯編程序翻譯成目標碼如果開發(fā)采用了CAD工具,則各冗余軟件應采用不同的CAD工具2145.3信息保護技術概述基本信息保護技術先進的計算機網(wǎng)絡信息保護技術網(wǎng)絡備份系統(tǒng)5.3信息保護技術概述215信息保護技術:為防止信息被不正當?shù)卮嫒』蚱茐亩扇〉拇胧┬畔⒈Wo技術:216編碼化與密碼化資格檢查內(nèi)存保護外存保護編碼化與密碼化2171、編碼化與密碼化編碼化:在信息上附加冗余信息,防止硬件故障、程序錯誤以及人為差錯等原因引起的信息破壞密碼化:防止信息泄漏(明文、密文、密鑰)1、編碼化與密碼化編碼化:在信息上附加冗余信息,防止硬件故障2182、資格檢查設置“允許存取的口令”設置“程序權限等級”設置“用戶權限等級”2、資格檢查設置“允許存取的口令”2193、內(nèi)存保護區(qū)域寄存器方式保護鍵方式環(huán)狀保護方式虛擬存儲方式殘存信息的清除3、內(nèi)存保護區(qū)域寄存器方式220“冷”備份:平時備份模塊不通電虛擬空間:用于更新別的文件空間更新文件時,將文件復制到別的文件空間后再更新(1)保
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度數(shù)據(jù)中心服務器租賃合同
- 2024醫(yī)院病房清潔服務合同
- 2024年展覽保險服務協(xié)議
- 2024年度0kv線路工程建設的合作開發(fā)合同
- 2024年度婚禮主持委托合同
- 2024年定制版太陽能系統(tǒng)維護合同
- 2024年度太陽能熱水系統(tǒng)安裝合同
- 2024年度城市供水供電供氣合同
- 2024年三人股東責任承擔協(xié)議
- 04版建筑工程合同
- 網(wǎng)上競價響應文件【模板】
- QC七大手法與新QC七大手法
- 照明路燈工程 投標文件(技術方案)
- 數(shù)控車削編程試卷及答案
- 大學思政課價值觀課件
- 2024年教師普通話培訓心得體會范文3篇
- 車寨礦井及選煤廠1.5Mt-a新建工程環(huán)評
- 2024年T8聯(lián)考高三第二次學業(yè)質(zhì)量語文試題答案講評課件
- 【川教版】一年級上冊 《生命 生態(tài) 安全》第一課 我和我的布娃娃 課件
- 設備管理的標準化與規(guī)范化
- 公司組織架構圖
評論
0/150
提交評論