




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、回卷恢復(fù)容錯(cuò)技術(shù)簡(jiǎn)介湖南大學(xué)dx.yutian.cc3 4 /bjdxb 5 ? 39. 1內(nèi)容 回卷恢復(fù)技術(shù)介紹 回卷恢復(fù)中的基本概念 進(jìn)程檢查點(diǎn) 通信模式 度量指標(biāo) 研究方向及其代表性論文dxb.qnw.cc 3 /bjdxb 39. /2回卷恢復(fù)容錯(cuò)技術(shù)介紹單進(jìn)程應(yīng)用的檢查點(diǎn)和事件日志系統(tǒng)內(nèi)部系統(tǒng)外部輸入事件1輸出事件1輸入事件2檢查點(diǎn)1檢查點(diǎn)2故障點(diǎn)時(shí)間回卷前滾3回卷恢復(fù)容錯(cuò)技術(shù)介紹(cont.)分布式應(yīng)用的檢查點(diǎn)和消息日志外部輸入事件輸出事件系統(tǒng)內(nèi)部系統(tǒng)外部進(jìn)程1進(jìn)程2進(jìn)程3進(jìn)程間消息全局檢查點(diǎn)全局檢查點(diǎn)4回卷恢復(fù)容錯(cuò)技術(shù)回卷恢復(fù)技術(shù)是實(shí)現(xiàn)容錯(cuò)計(jì)算,提高系統(tǒng)可靠性的一種常用方法。它的
2、應(yīng)用范圍已越來(lái)越廣。除了容錯(cuò)計(jì)算之外,在并行軟件和長(zhǎng)時(shí)間運(yùn)行軟件調(diào)試、負(fù)載平衡、移動(dòng)計(jì)算、系統(tǒng)安全、云計(jì)算領(lǐng)域得到了廣泛應(yīng)用。是這些領(lǐng)域的一項(xiàng)重要支撐技術(shù)?;鼐砘謴?fù)技術(shù)是一項(xiàng)實(shí)用性很強(qiáng)的技術(shù)。與其它容錯(cuò)技術(shù)相比,它具有成本低,開(kāi)銷小,簡(jiǎn)單實(shí)用的特點(diǎn)。5并行計(jì)算編程接口MPI并行計(jì)算編程接口MPI,及支持庫(kù):在Unix /Linux平臺(tái)上: MPICH2 library: 在Windows平臺(tái)上, MPICH1.2 library: MPICH: A Portable Implementation of MPI. 容錯(cuò)的MPI:MPI_V: FT_MPI: Open MPI : 6MPI 消息傳
3、遞函數(shù) 同步消息傳遞函數(shù):int MPI_Send( void *buf, int count, MPI_Datatype datatype, int dest, int tag, MPI_Comm comm);int MPI_Recv(void *buf, int count, MPI_Datatype datatype,int source, int tag, MPI_Comm comm, MPI_Status *status) ;異步消息傳遞函數(shù):MPI_Isend() and MPI_Irecv(). 多了一個(gè)變量mpi_Request *request 隨后可使用MPI_Test (
4、mpi_Request *request, int *flag, MPI_Status *status) 探詢操作是否完成;反應(yīng)在status變量中; MPI_Wait (mpi_Request *request, int *flag, MPI_Status *status);7非確定性例子 for (i = 0; i nb_recv; i+) MPI_Irecv (Ti, ., ANY_SOURCE, ANY_TAG,.);For (i=0; nb_recv; i+) MPI_Waitany(.);這個(gè)代碼的好處是提高資源利用率,只要有請(qǐng)求到達(dá),不管來(lái)自哪個(gè)進(jìn)程,就處理,避免等待;可能導(dǎo)致問(wèn)
5、題:同一個(gè)應(yīng)用程序的多次執(zhí)行,每次消息到達(dá)的先后順序可能不相同,導(dǎo)致處理的先后順序不同,導(dǎo)致處理后的進(jìn)程狀態(tài)不同;8回卷恢復(fù)實(shí)現(xiàn)技術(shù)檢查點(diǎn)系統(tǒng):在Unix /Linux平臺(tái)上: libckpt, BLCR等.在Windows平臺(tái)上: Winckp ,NT-SwiFT,ChaRM-NT,Intel-NT, NT-MPCKPT等。分布式系統(tǒng)的回卷恢復(fù)系統(tǒng):在Unix /Linux平臺(tái)上:FT-MPI, MPI-V, LAM-MPI, OPEN MPI等在Windows平臺(tái)上: NT-SwiFT ,ChaRM-NT, WINDAR等。 9回卷恢復(fù)容錯(cuò)技術(shù)應(yīng)用實(shí)例 Bell 實(shí)驗(yàn)室的NT-SwiFT,
6、用于應(yīng)用軟件運(yùn)行監(jiān)控和故障恢復(fù)。 Intel公司使用檢查點(diǎn)系統(tǒng)用于電路設(shè)計(jì)仿真軟件的容錯(cuò)和故障恢復(fù)。 Bell 實(shí)驗(yàn)室的libft,用于電信應(yīng)用系統(tǒng)的快速故障恢復(fù)。 清華大學(xué)的的ChaRM-NT,群機(jī)系統(tǒng)的可靠性和和故障恢復(fù);分布式軟件的軟件調(diào)試。微軟公司的SPIDER, 用于Windows系統(tǒng)配置故障(注冊(cè)表)的定位和排除。Illonis大學(xué)的Chameleon,用于系統(tǒng)可靠性性能指標(biāo)測(cè)量和系統(tǒng)可靠性性能評(píng)估;入侵后的系統(tǒng)恢復(fù)。10分布式回卷恢復(fù)中的基本概念基本概念:全局一致?tīng)顟B(tài);全局不一致?tīng)顟B(tài),中途消息Before happen relation: ei ej全局檢查點(diǎn)p1p2p3進(jìn)程間消
7、息m8m9m12m7m10m11GC1GC2GC3GC4m6m1m0m2m3m4m511分布式系統(tǒng)的回卷恢復(fù)孤兒消息全局檢查點(diǎn)p1p2p3進(jìn)程間消息m8m9m12m7m10m11GC1GC2GC3GC4m6m1m0m2m3m4m512分布式系統(tǒng)的回卷恢復(fù)丟失消息:不僅要有消息內(nèi)容,還要提交順序;全局檢查點(diǎn)p1p2p3進(jìn)程間消息m8m9m12m7m10m11GC1GC2GC3GC4m6m1m0m2m3m4m513分布式系統(tǒng)的回卷恢復(fù)重復(fù)消息:假定m10, m11的內(nèi)容和提交順序都保存了全局檢查點(diǎn)p1p2p3進(jìn)程間消息m8m9m12m7m10m11GC1GC2GC3GC4m6m1m0m2m3m4m
8、514分布式系統(tǒng)的回卷恢復(fù)檢查點(diǎn)全局檢查點(diǎn)p1p2p3進(jìn)程間消息m8m9m12m7m10m11GC1GC2GC3GC4m6m1m0m2m3m4m515分布式系統(tǒng)的回卷恢復(fù)協(xié)同檢查點(diǎn): 同步/異步全局檢查點(diǎn)p1p2p3進(jìn)程間消息m8m9m12m7m10m11GC1GC2GC3GC4m6m1m0m2m3m4m516分布式系統(tǒng)的回卷恢復(fù)消息日志,基于發(fā)送者/接受者, 悲觀/樂(lè)觀,因果全局檢查點(diǎn)p1p2p3進(jìn)程間消息m8m9m12m7m10m11GC1GC2GC3GC4m6m1m0m2m3m4m517進(jìn)程檢查點(diǎn)時(shí)間t抽象簡(jiǎn)單容易應(yīng)用層支持庫(kù)層內(nèi)核層復(fù)雜細(xì)節(jié)文件數(shù)據(jù)表磁盤(pán)數(shù)據(jù)代碼數(shù)據(jù)存儲(chǔ)寄存器內(nèi)存外存A
9、PI層與層之間數(shù)據(jù)的相互關(guān)聯(lián)性代碼與數(shù)據(jù)分開(kāi)嗎?代碼為只讀內(nèi)容,數(shù)據(jù)才是變化的18通信通道應(yīng)用層MPI層TCP層應(yīng)用層MPI層TCP層假定機(jī)器無(wú)故障有故障時(shí),即使接收者已經(jīng)處理了該消息,但是后面故障時(shí)恢復(fù)時(shí)還需要該消息19進(jìn)程狀態(tài)stackheapModuleImage棧幀對(duì)象全局變量代碼靜態(tài)變量寄存器:EAX, ECXESP, EBPEIP把支持庫(kù)和操作系統(tǒng)做無(wú)狀態(tài)化處理,簡(jiǎn)化其檢查點(diǎn)/重啟如何識(shí)別應(yīng)用層數(shù)據(jù)?20回卷恢復(fù)的開(kāi)銷正常執(zhí)行時(shí)開(kāi)銷(防備開(kāi)銷):檢查點(diǎn)開(kāi)銷Tc: 協(xié)同(同步開(kāi)銷),檢查點(diǎn)數(shù)據(jù)量;消息日志開(kāi)銷Tm:協(xié)同(同步開(kāi)銷),通信開(kāi)銷,故障恢復(fù)開(kāi)銷:回卷開(kāi)銷Ts ;前滾至故障點(diǎn)
10、開(kāi)銷Tr;防備開(kāi)銷和恢復(fù)開(kāi)銷彼此關(guān)聯(lián),互為矛盾。21研究的方向 對(duì)應(yīng)用的源程序進(jìn)行分析,找出通信模式,分析不確定性,特點(diǎn)1)減少消息依賴跟蹤;減少消息日志;2)實(shí)現(xiàn)故障恢復(fù)時(shí)的快速前滾:并發(fā)前滾,跳越前滾減少檢查點(diǎn)數(shù)據(jù)量; 區(qū)分有狀態(tài)的功能模塊;和無(wú)狀態(tài)的功能模塊;區(qū)分對(duì)待;無(wú)檢查點(diǎn)技術(shù)與檢查點(diǎn)技術(shù)的結(jié)合:編碼技術(shù);22研究方向的代表性論文 對(duì)MPI源程序的分析,找出通信模式,分析不確定性,特點(diǎn)On communication determinism in parallel HPC applications HydEE: Failure Containment without Event Logging for Large Scale Send-Deterministic MPI Applications減少檢查點(diǎn)數(shù)據(jù)量; The design and implementation of Berkeley Labs linux checkpoint/restartUser-level Checkpointing for LinuxThreads Programs.Libckpt: Transparent Checkpointing Under UNIX.無(wú)檢查點(diǎn)技術(shù)與檢查點(diǎn)技術(shù)的結(jié)合:編
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 交易合同履行情況統(tǒng)計(jì)表
- 消防施工方案怎么寫(xiě)
- 鞋店設(shè)計(jì)施工方案
- 企業(yè)股權(quán)激勵(lì)方案及效果研究的國(guó)內(nèi)外文獻(xiàn)綜述6100字
- 亳州輕型木屋施工方案
- 玻璃展館設(shè)計(jì)施工方案
- 法院旁聽(tīng)審警示教育活動(dòng)方案
- 菱形吊頂快速施工方案
- DB3707T 136-2025 無(wú)籽西瓜秋延遲栽培技術(shù)規(guī)程
- 預(yù)制板墻保溫墻施工方案
- 上海鐵路局入職合同范例
- Profinet(S523-FANUC)發(fā)那科通訊設(shè)置
- 航空器自動(dòng)駕駛
- 《公路橋涵施工技術(shù)規(guī)范》JTG-T3650-2020培訓(xùn)
- 2024年大學(xué)試題(教育學(xué))-課程與教學(xué)論考試近5年真題集錦(頻考類試題)帶答案
- 四年級(jí)數(shù)學(xué)下冊(cè)簡(jiǎn)便運(yùn)算100題及答案
- 緊密型醫(yī)療衛(wèi)生共同體慢性病雙向轉(zhuǎn)診流程圖
- DB34T 1591-2012 茶樹(shù)凍害氣象指標(biāo)
- 盤(pán)盤(pán)轉(zhuǎn)轉(zhuǎn)制作國(guó)風(fēng)標(biāo)簽(課件)六年級(jí)下冊(cè)勞動(dòng)
- 02S515排水檢查井圖集
- 項(xiàng)目班子組成資歷情況
評(píng)論
0/150
提交評(píng)論