




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、精品文檔關(guān)于系統(tǒng)穩(wěn)定性策略的探討1.前言系統(tǒng)作為業(yè)務(wù)系統(tǒng)的核心,其運(yùn)行穩(wěn)定性和高可用性至關(guān)重要。因此,需要通過(guò)高可用性設(shè)計(jì)來(lái)盡量減少系統(tǒng)的計(jì)劃內(nèi)和計(jì)劃外停機(jī),并在系統(tǒng)出現(xiàn)故障時(shí)及時(shí)響應(yīng)、快速恢復(fù),以保障關(guān)鍵數(shù)據(jù)和業(yè)務(wù)系統(tǒng)的運(yùn)行穩(wěn)定性和可持續(xù)訪問(wèn)性。其中:1. 計(jì)劃內(nèi)停機(jī)是指管理員有組織、有計(jì)劃安排的停機(jī),比如升級(jí)硬件微碼、升級(jí)軟件版本、調(diào)整數(shù)據(jù)庫(kù)庫(kù)表、更換硬件設(shè)備、測(cè)試系統(tǒng)新功能等時(shí),可能需要的停止系統(tǒng)運(yùn)行。2. 計(jì)劃外停機(jī)是指非人為安排的、意外的停機(jī),比如當(dāng)硬件出現(xiàn)重大故障、應(yīng)用程序停止運(yùn)行、機(jī)房環(huán)境遭到災(zāi)難性的破壞時(shí)所引起的業(yè)務(wù)系統(tǒng)停止運(yùn)行。目前,對(duì)于計(jì)劃內(nèi)和計(jì)劃外停機(jī),可通過(guò)消除系統(tǒng)中的
2、單點(diǎn)失效來(lái)盡量減少停機(jī)時(shí)間。同時(shí),通過(guò)采用可在線維護(hù)(固件升級(jí)、在線擴(kuò)充、故障部件更換)的設(shè)備,并通過(guò)負(fù)載均衡機(jī)制實(shí)現(xiàn)應(yīng)用系統(tǒng)的在線升級(jí)、維護(hù),將有效消除計(jì)劃內(nèi)停機(jī)對(duì)業(yè)務(wù)系統(tǒng)的影響。此外,由于系統(tǒng)中采用了全面的負(fù)載均衡設(shè)計(jì),并針對(duì)系統(tǒng)失效提供了可靠的數(shù)據(jù)備份恢復(fù)和多點(diǎn)容災(zāi)保護(hù),因而能夠有效減少系統(tǒng)計(jì)劃外停機(jī)的恢復(fù)時(shí)間。在造成系統(tǒng)宕機(jī)的原因方面,有統(tǒng)計(jì)中表明并非都是硬件問(wèn)題。其中,硬件問(wèn)題只占40,軟件問(wèn)題占30,人為因素占20,環(huán)境因素占10。因此,高可用性設(shè)計(jì)應(yīng)盡可能地考慮到上述所有因素。對(duì)于系統(tǒng)而言,其整體的可用性將取決于內(nèi)部的應(yīng)用系統(tǒng)、主機(jī)、數(shù)據(jù)庫(kù)等多種因素;同時(shí),訓(xùn)練有素的系統(tǒng)維護(hù)人員
3、和良好的服務(wù)保障也是確保系統(tǒng)穩(wěn)定運(yùn)行和故障快速恢復(fù)的關(guān)鍵。3. 應(yīng)用系統(tǒng)系統(tǒng)在應(yīng)用軟件架構(gòu)設(shè)計(jì)中應(yīng)從渠道層、渠道管理層、業(yè)務(wù)處理層等不同層面通過(guò)多種措施和策略的綜合設(shè)計(jì)來(lái)提高應(yīng)用系統(tǒng)的高可用性和穩(wěn)定性。在渠道管理層和業(yè)務(wù)處理層的設(shè)計(jì)中,要考慮設(shè)置應(yīng)用負(fù)載均衡、應(yīng)用軟件失效備援、vip服務(wù)通道、流量控制、故障隔離等機(jī)制。1. 應(yīng)用負(fù)載均衡應(yīng)用軟件負(fù)載均衡通過(guò)多個(gè)層次上不同的負(fù)載均衡策略一起實(shí)現(xiàn)整體的負(fù)載均衡,應(yīng)用負(fù)載均衡的設(shè)計(jì)思路是將大量的并發(fā)訪問(wèn)或數(shù)據(jù)流量分擔(dān)到多臺(tái)節(jié)點(diǎn)設(shè)備上分別處理和將單個(gè)重負(fù)載的運(yùn)算分擔(dān)到多臺(tái)節(jié)點(diǎn)設(shè)備上做并行處理來(lái)達(dá)到負(fù)載均衡的效果,從而提高服務(wù)響應(yīng)速度,提高服務(wù)器及其他資
4、源的利用效率,避免服務(wù)請(qǐng)求集中于單一節(jié)點(diǎn)導(dǎo)致?lián)砣?. 應(yīng)用軟件失效備援應(yīng)用軟件構(gòu)建在面向服務(wù)的架構(gòu)、設(shè)計(jì)思想上,應(yīng)用服務(wù)具有較高的可靈活部署性。通過(guò)這種靈活性,結(jié)合系統(tǒng)基礎(chǔ)設(shè)施的規(guī)劃、部署可以實(shí)現(xiàn)應(yīng)用軟件的失效備援。系統(tǒng)可以考慮實(shí)現(xiàn)基于應(yīng)用服務(wù)和基于應(yīng)用服務(wù)管理框架的多種應(yīng)用軟件失效備援機(jī)制?;趹?yīng)用服務(wù)的失效備援是在應(yīng)用服務(wù)管理框架中可以實(shí)現(xiàn)應(yīng)用服務(wù)的冗余部署,利用硬件負(fù)載均衡設(shè)備或應(yīng)用軟件負(fù)載均衡可以在需要時(shí)將服務(wù)請(qǐng)求切換到相應(yīng)的冗余服務(wù)?;趹?yīng)用服務(wù)管理框架的失效備是將應(yīng)用服務(wù)框架在系統(tǒng)中冗余部署,利用硬件負(fù)載均衡設(shè)備或應(yīng)用軟件負(fù)載均衡可以在需要時(shí)將服務(wù)請(qǐng)求切換到相應(yīng)的冗余的應(yīng)用服務(wù)管
5、理框架。3. vip服務(wù)通道在系統(tǒng)中,從系統(tǒng)運(yùn)行穩(wěn)定性、持續(xù)性及處理性能的角度,配合物理設(shè)備、系統(tǒng)支撐軟件(數(shù)據(jù)庫(kù)系統(tǒng)、操作系統(tǒng))的相關(guān)措施,應(yīng)用軟件可通過(guò)構(gòu)建VIP服務(wù)通道的方式降低應(yīng)用服務(wù)運(yùn)行期間的相互影響。服務(wù)通道可以基于不同業(yè)務(wù)產(chǎn)品或不同應(yīng)用服務(wù)管理框架的不同粒度來(lái)設(shè)置,從而滿足部分應(yīng)用處理資源只響應(yīng)特定的服務(wù)請(qǐng)求或不同的服務(wù)監(jiān)聽(tīng)響應(yīng)不同的通道傳遞過(guò)來(lái)的服務(wù)申請(qǐng)的功能。4. 流量控制在系統(tǒng)中,從系統(tǒng)運(yùn)行穩(wěn)定性、持續(xù)性角度,配合物理設(shè)備、系統(tǒng)支撐軟件(數(shù)據(jù)庫(kù)系統(tǒng)、操作系統(tǒng))的相關(guān)措施,應(yīng)用軟件可以通過(guò)對(duì)服務(wù)請(qǐng)求的流量控制機(jī)制,在系統(tǒng)性能波動(dòng)較大時(shí)間段,對(duì)少部分影響程度高的交易進(jìn)行流量控制
6、,保障系統(tǒng)運(yùn)行平穩(wěn)運(yùn)行。流量控制是大集中系統(tǒng)體系結(jié)構(gòu)中提供的通過(guò)應(yīng)用軟件對(duì)系統(tǒng)實(shí)施控制的功能。流量控制基于大集中系統(tǒng)邏輯架構(gòu),依據(jù)系統(tǒng)、子系統(tǒng)、渠道等不同層面的交易流量、交易狀態(tài)和確定的控制策略、控制規(guī)則,對(duì)系統(tǒng)實(shí)施控制。應(yīng)用系統(tǒng)具有如下功能:a) 流量數(shù)據(jù)采集:支持流量數(shù)據(jù)的采集功能。b) 流量值計(jì)算:完成對(duì)采集的流量數(shù)據(jù)進(jìn)行計(jì)算,檢索出有流量超過(guò)額定量的服務(wù)或交易,為后續(xù)的流量控制提供依據(jù)。c) 交易流量控制:支持針對(duì)特定交易進(jìn)行流量控制。如:針對(duì)網(wǎng)絡(luò)流量大的交易做控制,如報(bào)表文件傳輸;交易高峰期對(duì)批量業(yè)務(wù)進(jìn)行流量控制。d) 渠道流量控制:支持按照渠道進(jìn)行流量控制;e) 控制策略及規(guī)則管理
7、:支持控制策略及規(guī)則的配置,修改等功能。5. 故障隔離在系統(tǒng)中將考慮實(shí)現(xiàn)故障隔離機(jī)制,在應(yīng)用軟件系統(tǒng)發(fā)生故障的時(shí)候,通過(guò)故障隔離把故障造成的危害限制在最小范圍內(nèi),提高系統(tǒng)提供對(duì)外服務(wù)的整體能力水平。故障隔離是大集中系統(tǒng)體系結(jié)構(gòu)中提供的通過(guò)應(yīng)用軟件對(duì)系統(tǒng)實(shí)施控制的功能,應(yīng)用軟件設(shè)計(jì)可考慮應(yīng)用服務(wù)、應(yīng)用服務(wù)框架的靈活部署,支持多角度,多層次的故障隔離。應(yīng)用系統(tǒng)具有如下功能:a) 支持按渠道的故障隔離,例如:當(dāng)POS渠道交易響應(yīng)慢,可停止POS渠道的對(duì)外服務(wù)功能。b) 支持按子系統(tǒng)的故障隔離,例如:當(dāng)查詢(xún)子系統(tǒng)出現(xiàn)異常時(shí),可停止查詢(xún)子系統(tǒng)的對(duì)外服務(wù)功能。c) 支持異常服務(wù)的故障隔離,例如:若某服務(wù)出
8、現(xiàn)異常(如服務(wù)COREDOWN),可停止此服務(wù)的對(duì)外服務(wù)功能。d) 支持按交易的故障隔離,例如:若某查詢(xún)交易出現(xiàn)服務(wù)堵塞,可停止此交易的對(duì)外服務(wù)功能。在渠道層的設(shè)計(jì)中,可考慮采用網(wǎng)絡(luò)負(fù)載均衡、vip服務(wù)通道等機(jī)制。6. 網(wǎng)絡(luò)負(fù)載均衡在柜面網(wǎng)點(diǎn)前置系統(tǒng)側(cè),可以考慮采用硬件負(fù)載均衡器對(duì)網(wǎng)點(diǎn)終端連接到網(wǎng)點(diǎn)前置的負(fù)載均衡,利用負(fù)載均衡器的連接狀態(tài)檢查和負(fù)載均衡策略可以靈活地調(diào)整終端的連接指向,屏蔽因網(wǎng)點(diǎn)前置機(jī)故障導(dǎo)致的終端操作異常,提高網(wǎng)點(diǎn)前置系統(tǒng)的可用性。7. VIP服務(wù)通道渠道層的VIP服務(wù)通道與業(yè)務(wù)處理層的VIP服務(wù)通道均針對(duì)提高系統(tǒng)的可用性,但是在建設(shè)方式上有所區(qū)別。渠道層的VIP服務(wù)通道不僅
9、可以通過(guò)渠道層相關(guān)應(yīng)用軟件的服務(wù)通道設(shè)立來(lái)實(shí)現(xiàn),還可以考慮通過(guò)設(shè)置物理上相互隔離的不同渠道通路來(lái)實(shí)現(xiàn)。3.主機(jī)系統(tǒng)主機(jī)系統(tǒng)作為各應(yīng)用系統(tǒng)的運(yùn)行平臺(tái),其可用性和穩(wěn)定性是業(yè)務(wù)系統(tǒng)能夠持續(xù)、穩(wěn)定運(yùn)行的前提。根據(jù)應(yīng)用軟件架構(gòu)設(shè)計(jì),每個(gè)子系統(tǒng)的功能通過(guò)硬件負(fù)載均衡機(jī)制部署于多套主機(jī)設(shè)備上,從而消除單臺(tái)主機(jī)所引入的單點(diǎn)故障。對(duì)于單臺(tái)主機(jī)系統(tǒng)而言,其高可用性和運(yùn)行穩(wěn)定性可從以下幾方面加以保障:1. 主機(jī)自身的高可靠性主機(jī)采用高度冗余設(shè)計(jì),可充分保障自身的運(yùn)行可靠性,如:多處理器架構(gòu)、冗余電源、冗余風(fēng)扇、冗余時(shí)鐘、冗余IO等;同時(shí),主機(jī)采用多種容錯(cuò)技術(shù),可有效提升自身的可靠性,如:內(nèi)存與高速緩存上的檢錯(cuò)與糾錯(cuò)
10、(ECC)、內(nèi)存雙芯片備用、內(nèi)存和處理器自動(dòng)解除配置、用于監(jiān)控系統(tǒng)狀態(tài)的獨(dú)立的服務(wù)處理器等。2. 主機(jī)關(guān)鍵部件全冗余配置為確保主機(jī)運(yùn)行的可靠性和穩(wěn)定性,系統(tǒng)主機(jī)的所有關(guān)鍵部件均采用了冗余配置,以消除主機(jī)自身的單點(diǎn)故障,其中包括:a) 配置熱插拔N+1或N+N冗余電源、風(fēng)扇,避免電源或風(fēng)扇失效造成的硬件故障或宕機(jī)。b) 配置冗余系統(tǒng)盤(pán),并通過(guò)操作系統(tǒng)進(jìn)行系統(tǒng)盤(pán)的RAID1鏡像保護(hù);或采用SANBOOT系統(tǒng)盤(pán),在實(shí)現(xiàn)存儲(chǔ)網(wǎng)絡(luò)連接全冗余的同時(shí),通過(guò)在SANBOOT磁盤(pán)組中采用高可靠級(jí)別的RAID技術(shù)(如RAID10+熱備盤(pán))、不同存儲(chǔ)設(shè)備中的啟動(dòng)盤(pán)映像副本選擇啟動(dòng)、磁盤(pán)陣列鏡像(即“雙陣列啟動(dòng)”)等
11、技術(shù),切實(shí)保證SANBOOT的可用性。c)配置冗余網(wǎng)卡,并根據(jù)實(shí)際需求采用多網(wǎng)卡綁定技術(shù),實(shí)現(xiàn)多網(wǎng)卡間的自動(dòng)冗余和流量的負(fù)載均衡,以提供更高的數(shù)據(jù)帶寬和鏈路的高可用性。d) 配置冗余光纖通道HBA卡和InfinibandHCA卡,并通過(guò)多路徑軟件(操作系統(tǒng)或第三方軟件支持)來(lái)實(shí)現(xiàn)多HBA/HCA卡的自動(dòng)冗余與IO負(fù)載均衡。e) 配置冗余的主機(jī)管理處理器,能夠在線配置、管理主機(jī)并監(jiān)控主機(jī)狀態(tài),同時(shí)支持透明接管和在線更換管理處理器。3. 主機(jī)自身的高可維護(hù)性主機(jī)的高可維護(hù)性對(duì)于消除計(jì)劃內(nèi)停機(jī)的影響至關(guān)重要,主機(jī)通過(guò)其在線維護(hù)功能來(lái)確保其計(jì)劃維護(hù)期間的高可用性。其中:a) 主機(jī)支持固件的在線升級(jí),避
12、免了因固件升級(jí)造成的計(jì)劃內(nèi)停機(jī)。b) 在主機(jī)上采用高可用操作系統(tǒng),通過(guò)支持在線處理單元板增加與刪除、動(dòng)態(tài)內(nèi)核調(diào)試、動(dòng)態(tài)可加載內(nèi)核模塊框架(支持在線IO驅(qū)動(dòng)加載與補(bǔ)丁升級(jí))、PCI錯(cuò)誤自動(dòng)修復(fù)、動(dòng)態(tài)錯(cuò)誤管理與安全隔離、動(dòng)態(tài)根盤(pán)(支持軟件在線補(bǔ)丁升級(jí))等高可維護(hù)特性來(lái)實(shí)現(xiàn)不停機(jī)的IO驅(qū)動(dòng)、操作系統(tǒng)和應(yīng)用軟件的版本、補(bǔ)丁升級(jí),從而避免了因軟件版本或補(bǔ)丁升級(jí)造成的計(jì)劃內(nèi)停機(jī)。c) 主機(jī)的處理單元板、電源、風(fēng)扇、磁盤(pán)、IO等關(guān)鍵部件均支持在線增加與刪除,同時(shí)其硬件支持熱插拔,可實(shí)現(xiàn)故障部件的在線更換,避免了因部件更換造成的計(jì)劃內(nèi)停機(jī)。4. 主機(jī)系統(tǒng)的高可用性設(shè)計(jì)在主機(jī)上設(shè)計(jì)采用了電氣隔離的動(dòng)態(tài)硬件分區(qū)技
13、術(shù),同時(shí)各分區(qū)采用相互獨(dú)立、冗余的IO配置以實(shí)現(xiàn)自身的高可靠性。硬件分區(qū)技術(shù)在優(yōu)化主機(jī)資源利用的同時(shí),可在同一主機(jī)硬件內(nèi)全面隔離分區(qū)故障。如果一個(gè)分區(qū)中的操作系統(tǒng)、軟件或甚至是硬件出現(xiàn)問(wèn)題,運(yùn)行在其他分區(qū)中的操作系統(tǒng)和軟件均不受影響。在主機(jī)硬件分區(qū)的基礎(chǔ)上,系統(tǒng)設(shè)計(jì)采用多個(gè)主機(jī)分區(qū)形成集群來(lái)為各業(yè)務(wù)應(yīng)用提供運(yùn)行支撐,同時(shí)各主機(jī)集群通過(guò)OracleRAC或網(wǎng)絡(luò)負(fù)載均衡機(jī)制實(shí)現(xiàn)主機(jī)間的負(fù)載均衡和自動(dòng)冗余。為保證最大的可用性,應(yīng)將同一集群內(nèi)的不同分區(qū)分別部署在相互獨(dú)立的主機(jī)硬件上,并通過(guò)各分區(qū)相互獨(dú)立的IO接入數(shù)據(jù)網(wǎng)絡(luò)、心跳網(wǎng)絡(luò)和存儲(chǔ)網(wǎng)絡(luò),從而確保了主機(jī)系統(tǒng)整體的高可用性。5. 主機(jī)系統(tǒng)的高可恢復(fù)性
14、設(shè)計(jì)可恢復(fù)性定義了系統(tǒng)修復(fù)故障和恢復(fù)正常運(yùn)行的能力。主機(jī)系統(tǒng)的可恢復(fù)性從一定程度決定了系統(tǒng)出現(xiàn)故障時(shí)是否能夠自動(dòng)修復(fù)和快速恢復(fù),應(yīng)通過(guò)主機(jī)系統(tǒng)的備份與容災(zāi)設(shè)計(jì)來(lái)確保其高可恢復(fù)性。其中:a) 對(duì)主機(jī)系統(tǒng)盤(pán)定期進(jìn)行自動(dòng)化克隆備份,以便于版本管理和系統(tǒng)盤(pán)的失效恢復(fù),同時(shí)其備份的系統(tǒng)盤(pán)映像副本可用于主機(jī)在線軟件、補(bǔ)丁升級(jí)維護(hù)(通過(guò)動(dòng)態(tài)根盤(pán)技術(shù)實(shí)現(xiàn))。b) 目前,系統(tǒng)中采用了兩地三中心+同址備援的容災(zāi)體系設(shè)計(jì)。在上述容災(zāi)體系中,通過(guò)以下方式實(shí)現(xiàn)主機(jī)系統(tǒng)的災(zāi)難恢復(fù):?同城容災(zāi):現(xiàn)階段基于存儲(chǔ)同步復(fù)制實(shí)現(xiàn)數(shù)據(jù)級(jí)容災(zāi),今后可考慮通過(guò)主機(jī)的城際集群實(shí)現(xiàn)同城災(zāi)備中心與主中心間的主機(jī)系統(tǒng)自動(dòng)災(zāi)難接管。?異地容災(zāi):可
15、基于存儲(chǔ)異步復(fù)制、OracleDataGuard等技術(shù)實(shí)現(xiàn)應(yīng)用級(jí)容災(zāi),今后可考慮通過(guò)主機(jī)的洲際集群實(shí)現(xiàn)異地災(zāi)備中心與主中心間的主機(jī)系統(tǒng)自動(dòng)災(zāi)難接管。?同址備援:可通過(guò)存儲(chǔ)陣列的異步復(fù)制和OracleDataGuard等技術(shù)來(lái)減少Oracle數(shù)據(jù)庫(kù)邏輯數(shù)據(jù)塊損壞故障對(duì)業(yè)務(wù)系統(tǒng)造成的影響,相關(guān)系統(tǒng)主機(jī)可按策略實(shí)現(xiàn)故障接管。通過(guò)上述高可用性設(shè)計(jì),主機(jī)系統(tǒng)中將不再存在單點(diǎn)故障隱患,這充分保證了主機(jī)系統(tǒng)的可靠性;同時(shí),主機(jī)的高可維護(hù)性設(shè)計(jì)保證了主機(jī)能夠在線進(jìn)行故障硬件更換、在線擴(kuò)充、不停機(jī)進(jìn)行軟件和補(bǔ)丁升級(jí),從而有效避免了主機(jī)的計(jì)劃內(nèi)停機(jī),提高了主機(jī)系統(tǒng)的可用性和穩(wěn)定性;此外,通過(guò)備份、容災(zāi)設(shè)計(jì),在一定
16、程度上保證了主機(jī)系統(tǒng)在發(fā)生故障或遭到災(zāi)難時(shí)能夠快速恢復(fù)服務(wù),從而確保了系統(tǒng)的業(yè)務(wù)連續(xù)性。4.數(shù)據(jù)庫(kù)為了避免數(shù)據(jù)庫(kù)主機(jī)、數(shù)據(jù)庫(kù)存儲(chǔ)或者數(shù)據(jù)庫(kù)邏輯錯(cuò)誤等引起的數(shù)據(jù)庫(kù)故障,盡最大可能保障數(shù)據(jù)庫(kù)提供7*24小時(shí)的對(duì)外服務(wù),Oracle提供了一個(gè)高可用性、高可靠性和高可擴(kuò)展性的數(shù)據(jù)庫(kù)環(huán)境。Oracle數(shù)據(jù)庫(kù)提供數(shù)據(jù)庫(kù)集群RAC(RealApplicationCluster)、DataGuard、自動(dòng)存儲(chǔ)管理ASM(AutomaicStorageManagemenJ故障組鏡像、閃回技術(shù)Flashback、Stream、RMANft速備份和恢復(fù)等技術(shù)來(lái)保障數(shù)據(jù)庫(kù)的高可用性和穩(wěn)定性等功能。在系統(tǒng)中,采用如下O
17、racle數(shù)據(jù)庫(kù)技術(shù)提供其高可用性和穩(wěn)定性:1. RAC數(shù)據(jù)庫(kù)中如某個(gè)節(jié)點(diǎn)發(fā)生故障,集群中剩余節(jié)點(diǎn)可繼續(xù)提供服務(wù),同時(shí)這些節(jié)點(diǎn)可自動(dòng)對(duì)失效實(shí)例進(jìn)行實(shí)例恢復(fù),以保證數(shù)據(jù)的一致性;崩潰節(jié)點(diǎn)的相關(guān)虛擬IP可飄移到某個(gè)存活節(jié)點(diǎn)以繼續(xù)響應(yīng)連接請(qǐng)求;這樣可有效解決數(shù)據(jù)庫(kù)服務(wù)器的單點(diǎn)故障;2. RAC數(shù)據(jù)庫(kù)是共享存儲(chǔ)的集群數(shù)據(jù)庫(kù),在Oracle10g之前,如果數(shù)據(jù)文件所在陣列發(fā)生故障,數(shù)據(jù)庫(kù)依然無(wú)法提供服務(wù)。而進(jìn)入10g之后,可利用ASM故障組特性,將數(shù)據(jù)文件存放在兩個(gè)不同的存儲(chǔ)陣列上,來(lái)自同個(gè)存儲(chǔ)陣列的磁盤(pán)置于同一個(gè)故障組中,這樣即使單個(gè)存儲(chǔ)陣列失效數(shù)據(jù)庫(kù)依然可對(duì)外提供服務(wù),有效解決了介質(zhì)的單點(diǎn)故障;3.
18、 在高可用性的人為錯(cuò)誤方面,Oracle數(shù)據(jù)庫(kù)提供了多種特性來(lái)加以解決:a)閃回(Flashback)功能可解決刪除記錄(delete操作)的誤操作問(wèn)題;b) 如果打開(kāi)回收站功能,閃回特性也可解決刪除對(duì)象的誤操作(Drop操作);c) 閃回特性需要額外的存儲(chǔ)空間;d) 如果無(wú)法做閃回操作,可使用“表空間基于時(shí)間點(diǎn)的恢復(fù)”(TSPITR)將誤操作對(duì)象所在的某些表空間進(jìn)行不完全恢復(fù),以恢復(fù)誤操作數(shù)據(jù);一般情況下,此類(lèi)操作需要額外的服務(wù)器資源;4. Oracle本身提供了Dataguard容災(zāi)技術(shù),Dataguard將數(shù)據(jù)量相對(duì)較小的重做日志從生產(chǎn)系統(tǒng)傳輸?shù)綖?zāi)備系統(tǒng),并重新應(yīng)用相關(guān)日志,使備庫(kù)與生產(chǎn)
19、庫(kù)保持一致;進(jìn)入Oracle11g后,DataGuard還支持日志的壓縮傳輸,減少了日志傳輸所需的網(wǎng)絡(luò)帶寬;Dataguard除可實(shí)現(xiàn)災(zāi)備,也可分流生產(chǎn)庫(kù)的部分工作負(fù)荷,如:生產(chǎn)庫(kù)的數(shù)據(jù)庫(kù)備份、報(bào)表生成等;DataGuard也有如下一些缺點(diǎn):a) 主備庫(kù)間耦合度較高,會(huì)加重生產(chǎn)庫(kù)的工作負(fù)荷。在Oracle9i中,如主備庫(kù)間歸檔日志差異過(guò)大,可能所有歸檔進(jìn)程均用于向備庫(kù)傳送歸檔,造成生產(chǎn)庫(kù)因無(wú)歸檔進(jìn)程可用而掛起的嚴(yán)重后果;新版本中有無(wú)此類(lèi)Bug尚需測(cè)試加以確認(rèn);b) 日志傳輸效率低下。Oracle的DataGuard體系結(jié)構(gòu)中,一個(gè)歸檔日志文件只能使用一個(gè)歸檔進(jìn)程傳輸,即使使用了日志壓縮技術(shù),其
20、效率也較低;c) Oracle只是判斷歸檔日志的檢驗(yàn)和來(lái)驗(yàn)證日志的完整性,在原災(zāi)備中心建設(shè)時(shí)已經(jīng)過(guò)測(cè)試驗(yàn)證此種方式可造成備庫(kù)錯(cuò)誤;因此,如果需要使用Dataguard實(shí)現(xiàn)容災(zāi),建議仍然采用原災(zāi)備中心的工作方式,使用第三方編寫(xiě)的傳輸軟件進(jìn)行歸檔日志的傳輸,并使用類(lèi)似MD般驗(yàn)等方式保證日志文件的完整性,這樣既實(shí)現(xiàn)了容災(zāi)目的,又降低了主備庫(kù)之間的耦合度;5. 在高可用性中的計(jì)劃宕機(jī)及維護(hù)方面,Oracle也提供了一系列的特性加以支持:a) 支持索引的在線重建;b) 可在線重定義表,此功能可實(shí)現(xiàn)諸如:添加/刪除分區(qū)、添加/刪除列、移動(dòng)表空間、堆表與分區(qū)表的相互轉(zhuǎn)換、改變存儲(chǔ)參數(shù)等操作;c)新的“熱”升
21、級(jí)(Out-of-Place)方式將補(bǔ)丁安裝到新的軟件目錄中,以減少安裝軟件所需宕機(jī)時(shí)間;在實(shí)際生產(chǎn)環(huán)境中,除了介質(zhì)損壞、用戶(hù)誤操作等造成的損壞之外,還有一種由于OracleBug導(dǎo)致的異常,如內(nèi)存混亂、數(shù)據(jù)塊邏輯損壞等。針對(duì)于此類(lèi)錯(cuò)誤,雖然無(wú)法全面規(guī)避,但可通過(guò)以下兩種途徑降低系統(tǒng)級(jí)風(fēng)險(xiǎn)。a)緊密關(guān)注Oracle公司定期發(fā)布的補(bǔ)丁,并根據(jù)實(shí)際情況完成補(bǔ)丁的評(píng)估、驗(yàn)證及生產(chǎn)庫(kù)的安裝使用,以降低系統(tǒng)潛在風(fēng)險(xiǎn);b)c)采用同址備援方案,通過(guò)異步數(shù)據(jù)庫(kù)備份模式,以豐富處理Oracle生產(chǎn)庫(kù)數(shù)據(jù)塊部分邏輯錯(cuò)誤處理試,加快系統(tǒng)恢復(fù)速度。5.服務(wù)保障根據(jù)IT系統(tǒng)運(yùn)維的多年經(jīng)驗(yàn),系統(tǒng)的穩(wěn)定運(yùn)行離不開(kāi)堅(jiān)實(shí)可靠
22、的售后服務(wù)體系、高水平的專(zhuān)業(yè)服務(wù)團(tuán)隊(duì)和高質(zhì)量的運(yùn)維管理流程的支撐,同時(shí)訓(xùn)練有素的系統(tǒng)維護(hù)人員和良好的服務(wù)保障也是確保系統(tǒng)故障能夠快速恢復(fù)的關(guān)鍵。結(jié)合系統(tǒng)建設(shè)的實(shí)際情況,需要從以下幾個(gè)層面來(lái)保障系統(tǒng)的運(yùn)行穩(wěn)定性和高可用性。1. 運(yùn)維管理層面在數(shù)據(jù)中心,通過(guò)對(duì)所有硬件設(shè)備和應(yīng)用軟件運(yùn)行狀態(tài)的實(shí)時(shí)監(jiān)控和統(tǒng)一展現(xiàn),可以實(shí)現(xiàn)對(duì)設(shè)備、應(yīng)用軟件異常的預(yù)警,同時(shí)在系統(tǒng)故障發(fā)生時(shí)及時(shí)報(bào)警。為減少人工運(yùn)維操作所需的時(shí)間,提高管理人員的工作效率,降低運(yùn)維管理工作量并消除人為錯(cuò)誤導(dǎo)致的故障隱患,可考慮逐漸在數(shù)據(jù)中心運(yùn)維工作中推廣標(biāo)準(zhǔn)化運(yùn)維操作的自動(dòng)化運(yùn)行,通過(guò)基于配置管理數(shù)據(jù)庫(kù)的流程化運(yùn)維管理工具來(lái)實(shí)現(xiàn)自動(dòng)化日常巡檢(自動(dòng)化、流程化的系統(tǒng)健康檢查)、軟件(操作系統(tǒng)、補(bǔ)丁、應(yīng)用等)的自動(dòng)化安裝、部署和變更監(jiān)控、審計(jì)、以及自動(dòng)化的系統(tǒng)合規(guī)審計(jì)和數(shù)據(jù)的自動(dòng)化備份等運(yùn)維工作。2. 售后服務(wù)層面全面、及時(shí)、高質(zhì)量的售后服務(wù)是關(guān)鍵業(yè)務(wù)系統(tǒng)運(yùn)維的基礎(chǔ)支撐。對(duì)于系統(tǒng)而言,其售后服務(wù)體系需要從以下幾方面加以保證:a)b) 通過(guò)廠商7*2
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 主管工作計(jì)劃的團(tuán)隊(duì)管理
- 班級(jí)自我管理提升計(jì)劃
- 急診安全文化建設(shè)實(shí)踐計(jì)劃
- 實(shí)驗(yàn)室安全規(guī)范與培訓(xùn)計(jì)劃
- 學(xué)校教學(xué)活動(dòng)安排計(jì)劃
- 秘書(shū)在團(tuán)隊(duì)溝通中的角色計(jì)劃
- 小班三維課程與教育理念實(shí)踐計(jì)劃
- 2025年美司那項(xiàng)目建議書(shū)
- 2025年中國(guó)異構(gòu)計(jì)算行業(yè)市場(chǎng)運(yùn)行態(tài)勢(shì)及發(fā)展趨勢(shì)預(yù)測(cè)報(bào)告-智研咨詢(xún)發(fā)布
- 2025年多通道腦電圖機(jī)項(xiàng)目建議書(shū)
- 2025高考數(shù)學(xué)一輪復(fù)習(xí)-第8章-第3節(jié) 圓的方程【課件】
- DB3301T 1088-2018 杭州龍井茶栽培技術(shù)規(guī)范
- 安徽省部分省示范中學(xué)2025屆高三第一次模擬考試英語(yǔ)試卷含解析
- 環(huán)保行業(yè)深度研究報(bào)告
- 工程機(jī)械租賃服務(wù)方案及保障措施 (二)
- 部編版初中語(yǔ)文7-9年級(jí)教材必背古詩(shī)詞、古文99篇詳細(xì)解析及欣賞
- 保障性住房補(bǔ)貼委托書(shū)范本
- DB36T 1393-2021 生產(chǎn)安全風(fēng)險(xiǎn)分級(jí)管控體系建設(shè)通則
- 公益捐助活動(dòng)影響力評(píng)估方法
- 國(guó)家電網(wǎng)安全培訓(xùn)
- Unit 1 I go to school by bus. Period 4(說(shuō)課稿)-2023-2024學(xué)年教科版(廣州)英語(yǔ)二年級(jí)下冊(cè)
評(píng)論
0/150
提交評(píng)論