核心系統(tǒng)高可用性設(shè)計(jì)只是分享_第1頁
核心系統(tǒng)高可用性設(shè)計(jì)只是分享_第2頁
核心系統(tǒng)高可用性設(shè)計(jì)只是分享_第3頁
核心系統(tǒng)高可用性設(shè)計(jì)只是分享_第4頁
核心系統(tǒng)高可用性設(shè)計(jì)只是分享_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、精品文檔關(guān)于系統(tǒng)穩(wěn)定性策略的探討1.前言系統(tǒng)作為業(yè)務(wù)系統(tǒng)的核心,其運(yùn)行穩(wěn)定性和高可用性至關(guān)重要。因此,需要通過高可用性設(shè)計(jì)來盡量減少系統(tǒng)的計(jì)劃內(nèi)和計(jì)劃外停機(jī),并在系統(tǒng)出現(xiàn)故障時及時響應(yīng)、快速恢復(fù),以保障關(guān)鍵數(shù)據(jù)和業(yè)務(wù)系統(tǒng)的運(yùn)行穩(wěn)定性和可持續(xù)訪問性。其中:1. 計(jì)劃內(nèi)停機(jī)是指管理員有組織、有計(jì)劃安排的停機(jī),比如升級硬件微碼、升級軟件版本、調(diào)整數(shù)據(jù)庫庫表、更換硬件設(shè)備、測試系統(tǒng)新功能等時,可能需要的停止系統(tǒng)運(yùn)行。2. 計(jì)劃外停機(jī)是指非人為安排的、意外的停機(jī),比如當(dāng)硬件出現(xiàn)重大故障、應(yīng)用程序停止運(yùn)行、機(jī)房環(huán)境遭到災(zāi)難性的破壞時所引起的業(yè)務(wù)系統(tǒng)停止運(yùn)行。目前,對于計(jì)劃內(nèi)和計(jì)劃外停機(jī),可通過消除系統(tǒng)中的

2、單點(diǎn)失效來盡量減少停機(jī)時間。同時,通過采用可在線維護(hù)(固件升級、在線擴(kuò)充、故障部件更換)的設(shè)備,并通過負(fù)載均衡機(jī)制實(shí)現(xiàn)應(yīng)用系統(tǒng)的在線升級、維護(hù),將有效消除計(jì)劃內(nèi)停機(jī)對業(yè)務(wù)系統(tǒng)的影響。此外,由于系統(tǒng)中采用了全面的負(fù)載均衡設(shè)計(jì),并針對系統(tǒng)失效提供了可靠的數(shù)據(jù)備份恢復(fù)和多點(diǎn)容災(zāi)保護(hù),因而能夠有效減少系統(tǒng)計(jì)劃外停機(jī)的恢復(fù)時間。在造成系統(tǒng)宕機(jī)的原因方面,有統(tǒng)計(jì)中表明并非都是硬件問題。其中,硬件問題只占40,軟件問題占30,人為因素占20,環(huán)境因素占10。因此,高可用性設(shè)計(jì)應(yīng)盡可能地考慮到上述所有因素。對于系統(tǒng)而言,其整體的可用性將取決于內(nèi)部的應(yīng)用系統(tǒng)、主機(jī)、數(shù)據(jù)庫等多種因素;同時,訓(xùn)練有素的系統(tǒng)維護(hù)人員

3、和良好的服務(wù)保障也是確保系統(tǒng)穩(wěn)定運(yùn)行和故障快速恢復(fù)的關(guān)鍵。3. 應(yīng)用系統(tǒng)系統(tǒng)在應(yīng)用軟件架構(gòu)設(shè)計(jì)中應(yīng)從渠道層、渠道管理層、業(yè)務(wù)處理層等不同層面通過多種措施和策略的綜合設(shè)計(jì)來提高應(yīng)用系統(tǒng)的高可用性和穩(wěn)定性。在渠道管理層和業(yè)務(wù)處理層的設(shè)計(jì)中,要考慮設(shè)置應(yīng)用負(fù)載均衡、應(yīng)用軟件失效備援、vip服務(wù)通道、流量控制、故障隔離等機(jī)制。1. 應(yīng)用負(fù)載均衡應(yīng)用軟件負(fù)載均衡通過多個層次上不同的負(fù)載均衡策略一起實(shí)現(xiàn)整體的負(fù)載均衡,應(yīng)用負(fù)載均衡的設(shè)計(jì)思路是將大量的并發(fā)訪問或數(shù)據(jù)流量分擔(dān)到多臺節(jié)點(diǎn)設(shè)備上分別處理和將單個重負(fù)載的運(yùn)算分擔(dān)到多臺節(jié)點(diǎn)設(shè)備上做并行處理來達(dá)到負(fù)載均衡的效果,從而提高服務(wù)響應(yīng)速度,提高服務(wù)器及其他資

4、源的利用效率,避免服務(wù)請求集中于單一節(jié)點(diǎn)導(dǎo)致?lián)砣?. 應(yīng)用軟件失效備援應(yīng)用軟件構(gòu)建在面向服務(wù)的架構(gòu)、設(shè)計(jì)思想上,應(yīng)用服務(wù)具有較高的可靈活部署性。通過這種靈活性,結(jié)合系統(tǒng)基礎(chǔ)設(shè)施的規(guī)劃、部署可以實(shí)現(xiàn)應(yīng)用軟件的失效備援。系統(tǒng)可以考慮實(shí)現(xiàn)基于應(yīng)用服務(wù)和基于應(yīng)用服務(wù)管理框架的多種應(yīng)用軟件失效備援機(jī)制?;趹?yīng)用服務(wù)的失效備援是在應(yīng)用服務(wù)管理框架中可以實(shí)現(xiàn)應(yīng)用服務(wù)的冗余部署,利用硬件負(fù)載均衡設(shè)備或應(yīng)用軟件負(fù)載均衡可以在需要時將服務(wù)請求切換到相應(yīng)的冗余服務(wù)?;趹?yīng)用服務(wù)管理框架的失效備是將應(yīng)用服務(wù)框架在系統(tǒng)中冗余部署,利用硬件負(fù)載均衡設(shè)備或應(yīng)用軟件負(fù)載均衡可以在需要時將服務(wù)請求切換到相應(yīng)的冗余的應(yīng)用服務(wù)管

5、理框架。3. vip服務(wù)通道在系統(tǒng)中,從系統(tǒng)運(yùn)行穩(wěn)定性、持續(xù)性及處理性能的角度,配合物理設(shè)備、系統(tǒng)支撐軟件(數(shù)據(jù)庫系統(tǒng)、操作系統(tǒng))的相關(guān)措施,應(yīng)用軟件可通過構(gòu)建VIP服務(wù)通道的方式降低應(yīng)用服務(wù)運(yùn)行期間的相互影響。服務(wù)通道可以基于不同業(yè)務(wù)產(chǎn)品或不同應(yīng)用服務(wù)管理框架的不同粒度來設(shè)置,從而滿足部分應(yīng)用處理資源只響應(yīng)特定的服務(wù)請求或不同的服務(wù)監(jiān)聽響應(yīng)不同的通道傳遞過來的服務(wù)申請的功能。4. 流量控制在系統(tǒng)中,從系統(tǒng)運(yùn)行穩(wěn)定性、持續(xù)性角度,配合物理設(shè)備、系統(tǒng)支撐軟件(數(shù)據(jù)庫系統(tǒng)、操作系統(tǒng))的相關(guān)措施,應(yīng)用軟件可以通過對服務(wù)請求的流量控制機(jī)制,在系統(tǒng)性能波動較大時間段,對少部分影響程度高的交易進(jìn)行流量控制

6、,保障系統(tǒng)運(yùn)行平穩(wěn)運(yùn)行。流量控制是大集中系統(tǒng)體系結(jié)構(gòu)中提供的通過應(yīng)用軟件對系統(tǒng)實(shí)施控制的功能。流量控制基于大集中系統(tǒng)邏輯架構(gòu),依據(jù)系統(tǒng)、子系統(tǒng)、渠道等不同層面的交易流量、交易狀態(tài)和確定的控制策略、控制規(guī)則,對系統(tǒng)實(shí)施控制。應(yīng)用系統(tǒng)具有如下功能:a) 流量數(shù)據(jù)采集:支持流量數(shù)據(jù)的采集功能。b) 流量值計(jì)算:完成對采集的流量數(shù)據(jù)進(jìn)行計(jì)算,檢索出有流量超過額定量的服務(wù)或交易,為后續(xù)的流量控制提供依據(jù)。c) 交易流量控制:支持針對特定交易進(jìn)行流量控制。如:針對網(wǎng)絡(luò)流量大的交易做控制,如報表文件傳輸;交易高峰期對批量業(yè)務(wù)進(jìn)行流量控制。d) 渠道流量控制:支持按照渠道進(jìn)行流量控制;e) 控制策略及規(guī)則管理

7、:支持控制策略及規(guī)則的配置,修改等功能。5. 故障隔離在系統(tǒng)中將考慮實(shí)現(xiàn)故障隔離機(jī)制,在應(yīng)用軟件系統(tǒng)發(fā)生故障的時候,通過故障隔離把故障造成的危害限制在最小范圍內(nèi),提高系統(tǒng)提供對外服務(wù)的整體能力水平。故障隔離是大集中系統(tǒng)體系結(jié)構(gòu)中提供的通過應(yīng)用軟件對系統(tǒng)實(shí)施控制的功能,應(yīng)用軟件設(shè)計(jì)可考慮應(yīng)用服務(wù)、應(yīng)用服務(wù)框架的靈活部署,支持多角度,多層次的故障隔離。應(yīng)用系統(tǒng)具有如下功能:a) 支持按渠道的故障隔離,例如:當(dāng)POS渠道交易響應(yīng)慢,可停止POS渠道的對外服務(wù)功能。b) 支持按子系統(tǒng)的故障隔離,例如:當(dāng)查詢子系統(tǒng)出現(xiàn)異常時,可停止查詢子系統(tǒng)的對外服務(wù)功能。c) 支持異常服務(wù)的故障隔離,例如:若某服務(wù)出

8、現(xiàn)異常(如服務(wù)COREDOWN),可停止此服務(wù)的對外服務(wù)功能。d) 支持按交易的故障隔離,例如:若某查詢交易出現(xiàn)服務(wù)堵塞,可停止此交易的對外服務(wù)功能。在渠道層的設(shè)計(jì)中,可考慮采用網(wǎng)絡(luò)負(fù)載均衡、vip服務(wù)通道等機(jī)制。6. 網(wǎng)絡(luò)負(fù)載均衡在柜面網(wǎng)點(diǎn)前置系統(tǒng)側(cè),可以考慮采用硬件負(fù)載均衡器對網(wǎng)點(diǎn)終端連接到網(wǎng)點(diǎn)前置的負(fù)載均衡,利用負(fù)載均衡器的連接狀態(tài)檢查和負(fù)載均衡策略可以靈活地調(diào)整終端的連接指向,屏蔽因網(wǎng)點(diǎn)前置機(jī)故障導(dǎo)致的終端操作異常,提高網(wǎng)點(diǎn)前置系統(tǒng)的可用性。7. VIP服務(wù)通道渠道層的VIP服務(wù)通道與業(yè)務(wù)處理層的VIP服務(wù)通道均針對提高系統(tǒng)的可用性,但是在建設(shè)方式上有所區(qū)別。渠道層的VIP服務(wù)通道不僅

9、可以通過渠道層相關(guān)應(yīng)用軟件的服務(wù)通道設(shè)立來實(shí)現(xiàn),還可以考慮通過設(shè)置物理上相互隔離的不同渠道通路來實(shí)現(xiàn)。3.主機(jī)系統(tǒng)主機(jī)系統(tǒng)作為各應(yīng)用系統(tǒng)的運(yùn)行平臺,其可用性和穩(wěn)定性是業(yè)務(wù)系統(tǒng)能夠持續(xù)、穩(wěn)定運(yùn)行的前提。根據(jù)應(yīng)用軟件架構(gòu)設(shè)計(jì),每個子系統(tǒng)的功能通過硬件負(fù)載均衡機(jī)制部署于多套主機(jī)設(shè)備上,從而消除單臺主機(jī)所引入的單點(diǎn)故障。對于單臺主機(jī)系統(tǒng)而言,其高可用性和運(yùn)行穩(wěn)定性可從以下幾方面加以保障:1. 主機(jī)自身的高可靠性主機(jī)采用高度冗余設(shè)計(jì),可充分保障自身的運(yùn)行可靠性,如:多處理器架構(gòu)、冗余電源、冗余風(fēng)扇、冗余時鐘、冗余IO等;同時,主機(jī)采用多種容錯技術(shù),可有效提升自身的可靠性,如:內(nèi)存與高速緩存上的檢錯與糾錯

10、(ECC)、內(nèi)存雙芯片備用、內(nèi)存和處理器自動解除配置、用于監(jiān)控系統(tǒng)狀態(tài)的獨(dú)立的服務(wù)處理器等。2. 主機(jī)關(guān)鍵部件全冗余配置為確保主機(jī)運(yùn)行的可靠性和穩(wěn)定性,系統(tǒng)主機(jī)的所有關(guān)鍵部件均采用了冗余配置,以消除主機(jī)自身的單點(diǎn)故障,其中包括:a) 配置熱插拔N+1或N+N冗余電源、風(fēng)扇,避免電源或風(fēng)扇失效造成的硬件故障或宕機(jī)。b) 配置冗余系統(tǒng)盤,并通過操作系統(tǒng)進(jìn)行系統(tǒng)盤的RAID1鏡像保護(hù);或采用SANBOOT系統(tǒng)盤,在實(shí)現(xiàn)存儲網(wǎng)絡(luò)連接全冗余的同時,通過在SANBOOT磁盤組中采用高可靠級別的RAID技術(shù)(如RAID10+熱備盤)、不同存儲設(shè)備中的啟動盤映像副本選擇啟動、磁盤陣列鏡像(即“雙陣列啟動”)等

11、技術(shù),切實(shí)保證SANBOOT的可用性。c)配置冗余網(wǎng)卡,并根據(jù)實(shí)際需求采用多網(wǎng)卡綁定技術(shù),實(shí)現(xiàn)多網(wǎng)卡間的自動冗余和流量的負(fù)載均衡,以提供更高的數(shù)據(jù)帶寬和鏈路的高可用性。d) 配置冗余光纖通道HBA卡和InfinibandHCA卡,并通過多路徑軟件(操作系統(tǒng)或第三方軟件支持)來實(shí)現(xiàn)多HBA/HCA卡的自動冗余與IO負(fù)載均衡。e) 配置冗余的主機(jī)管理處理器,能夠在線配置、管理主機(jī)并監(jiān)控主機(jī)狀態(tài),同時支持透明接管和在線更換管理處理器。3. 主機(jī)自身的高可維護(hù)性主機(jī)的高可維護(hù)性對于消除計(jì)劃內(nèi)停機(jī)的影響至關(guān)重要,主機(jī)通過其在線維護(hù)功能來確保其計(jì)劃維護(hù)期間的高可用性。其中:a) 主機(jī)支持固件的在線升級,避

12、免了因固件升級造成的計(jì)劃內(nèi)停機(jī)。b) 在主機(jī)上采用高可用操作系統(tǒng),通過支持在線處理單元板增加與刪除、動態(tài)內(nèi)核調(diào)試、動態(tài)可加載內(nèi)核模塊框架(支持在線IO驅(qū)動加載與補(bǔ)丁升級)、PCI錯誤自動修復(fù)、動態(tài)錯誤管理與安全隔離、動態(tài)根盤(支持軟件在線補(bǔ)丁升級)等高可維護(hù)特性來實(shí)現(xiàn)不停機(jī)的IO驅(qū)動、操作系統(tǒng)和應(yīng)用軟件的版本、補(bǔ)丁升級,從而避免了因軟件版本或補(bǔ)丁升級造成的計(jì)劃內(nèi)停機(jī)。c) 主機(jī)的處理單元板、電源、風(fēng)扇、磁盤、IO等關(guān)鍵部件均支持在線增加與刪除,同時其硬件支持熱插拔,可實(shí)現(xiàn)故障部件的在線更換,避免了因部件更換造成的計(jì)劃內(nèi)停機(jī)。4. 主機(jī)系統(tǒng)的高可用性設(shè)計(jì)在主機(jī)上設(shè)計(jì)采用了電氣隔離的動態(tài)硬件分區(qū)技

13、術(shù),同時各分區(qū)采用相互獨(dú)立、冗余的IO配置以實(shí)現(xiàn)自身的高可靠性。硬件分區(qū)技術(shù)在優(yōu)化主機(jī)資源利用的同時,可在同一主機(jī)硬件內(nèi)全面隔離分區(qū)故障。如果一個分區(qū)中的操作系統(tǒng)、軟件或甚至是硬件出現(xiàn)問題,運(yùn)行在其他分區(qū)中的操作系統(tǒng)和軟件均不受影響。在主機(jī)硬件分區(qū)的基礎(chǔ)上,系統(tǒng)設(shè)計(jì)采用多個主機(jī)分區(qū)形成集群來為各業(yè)務(wù)應(yīng)用提供運(yùn)行支撐,同時各主機(jī)集群通過OracleRAC或網(wǎng)絡(luò)負(fù)載均衡機(jī)制實(shí)現(xiàn)主機(jī)間的負(fù)載均衡和自動冗余。為保證最大的可用性,應(yīng)將同一集群內(nèi)的不同分區(qū)分別部署在相互獨(dú)立的主機(jī)硬件上,并通過各分區(qū)相互獨(dú)立的IO接入數(shù)據(jù)網(wǎng)絡(luò)、心跳網(wǎng)絡(luò)和存儲網(wǎng)絡(luò),從而確保了主機(jī)系統(tǒng)整體的高可用性。5. 主機(jī)系統(tǒng)的高可恢復(fù)性

14、設(shè)計(jì)可恢復(fù)性定義了系統(tǒng)修復(fù)故障和恢復(fù)正常運(yùn)行的能力。主機(jī)系統(tǒng)的可恢復(fù)性從一定程度決定了系統(tǒng)出現(xiàn)故障時是否能夠自動修復(fù)和快速恢復(fù),應(yīng)通過主機(jī)系統(tǒng)的備份與容災(zāi)設(shè)計(jì)來確保其高可恢復(fù)性。其中:a) 對主機(jī)系統(tǒng)盤定期進(jìn)行自動化克隆備份,以便于版本管理和系統(tǒng)盤的失效恢復(fù),同時其備份的系統(tǒng)盤映像副本可用于主機(jī)在線軟件、補(bǔ)丁升級維護(hù)(通過動態(tài)根盤技術(shù)實(shí)現(xiàn))。b) 目前,系統(tǒng)中采用了兩地三中心+同址備援的容災(zāi)體系設(shè)計(jì)。在上述容災(zāi)體系中,通過以下方式實(shí)現(xiàn)主機(jī)系統(tǒng)的災(zāi)難恢復(fù):?同城容災(zāi):現(xiàn)階段基于存儲同步復(fù)制實(shí)現(xiàn)數(shù)據(jù)級容災(zāi),今后可考慮通過主機(jī)的城際集群實(shí)現(xiàn)同城災(zāi)備中心與主中心間的主機(jī)系統(tǒng)自動災(zāi)難接管。?異地容災(zāi):可

15、基于存儲異步復(fù)制、OracleDataGuard等技術(shù)實(shí)現(xiàn)應(yīng)用級容災(zāi),今后可考慮通過主機(jī)的洲際集群實(shí)現(xiàn)異地災(zāi)備中心與主中心間的主機(jī)系統(tǒng)自動災(zāi)難接管。?同址備援:可通過存儲陣列的異步復(fù)制和OracleDataGuard等技術(shù)來減少Oracle數(shù)據(jù)庫邏輯數(shù)據(jù)塊損壞故障對業(yè)務(wù)系統(tǒng)造成的影響,相關(guān)系統(tǒng)主機(jī)可按策略實(shí)現(xiàn)故障接管。通過上述高可用性設(shè)計(jì),主機(jī)系統(tǒng)中將不再存在單點(diǎn)故障隱患,這充分保證了主機(jī)系統(tǒng)的可靠性;同時,主機(jī)的高可維護(hù)性設(shè)計(jì)保證了主機(jī)能夠在線進(jìn)行故障硬件更換、在線擴(kuò)充、不停機(jī)進(jìn)行軟件和補(bǔ)丁升級,從而有效避免了主機(jī)的計(jì)劃內(nèi)停機(jī),提高了主機(jī)系統(tǒng)的可用性和穩(wěn)定性;此外,通過備份、容災(zāi)設(shè)計(jì),在一定

16、程度上保證了主機(jī)系統(tǒng)在發(fā)生故障或遭到災(zāi)難時能夠快速恢復(fù)服務(wù),從而確保了系統(tǒng)的業(yè)務(wù)連續(xù)性。4.數(shù)據(jù)庫為了避免數(shù)據(jù)庫主機(jī)、數(shù)據(jù)庫存儲或者數(shù)據(jù)庫邏輯錯誤等引起的數(shù)據(jù)庫故障,盡最大可能保障數(shù)據(jù)庫提供7*24小時的對外服務(wù),Oracle提供了一個高可用性、高可靠性和高可擴(kuò)展性的數(shù)據(jù)庫環(huán)境。Oracle數(shù)據(jù)庫提供數(shù)據(jù)庫集群RAC(RealApplicationCluster)、DataGuard、自動存儲管理ASM(AutomaicStorageManagemenJ故障組鏡像、閃回技術(shù)Flashback、Stream、RMANft速備份和恢復(fù)等技術(shù)來保障數(shù)據(jù)庫的高可用性和穩(wěn)定性等功能。在系統(tǒng)中,采用如下O

17、racle數(shù)據(jù)庫技術(shù)提供其高可用性和穩(wěn)定性:1. RAC數(shù)據(jù)庫中如某個節(jié)點(diǎn)發(fā)生故障,集群中剩余節(jié)點(diǎn)可繼續(xù)提供服務(wù),同時這些節(jié)點(diǎn)可自動對失效實(shí)例進(jìn)行實(shí)例恢復(fù),以保證數(shù)據(jù)的一致性;崩潰節(jié)點(diǎn)的相關(guān)虛擬IP可飄移到某個存活節(jié)點(diǎn)以繼續(xù)響應(yīng)連接請求;這樣可有效解決數(shù)據(jù)庫服務(wù)器的單點(diǎn)故障;2. RAC數(shù)據(jù)庫是共享存儲的集群數(shù)據(jù)庫,在Oracle10g之前,如果數(shù)據(jù)文件所在陣列發(fā)生故障,數(shù)據(jù)庫依然無法提供服務(wù)。而進(jìn)入10g之后,可利用ASM故障組特性,將數(shù)據(jù)文件存放在兩個不同的存儲陣列上,來自同個存儲陣列的磁盤置于同一個故障組中,這樣即使單個存儲陣列失效數(shù)據(jù)庫依然可對外提供服務(wù),有效解決了介質(zhì)的單點(diǎn)故障;3.

18、 在高可用性的人為錯誤方面,Oracle數(shù)據(jù)庫提供了多種特性來加以解決:a)閃回(Flashback)功能可解決刪除記錄(delete操作)的誤操作問題;b) 如果打開回收站功能,閃回特性也可解決刪除對象的誤操作(Drop操作);c) 閃回特性需要額外的存儲空間;d) 如果無法做閃回操作,可使用“表空間基于時間點(diǎn)的恢復(fù)”(TSPITR)將誤操作對象所在的某些表空間進(jìn)行不完全恢復(fù),以恢復(fù)誤操作數(shù)據(jù);一般情況下,此類操作需要額外的服務(wù)器資源;4. Oracle本身提供了Dataguard容災(zāi)技術(shù),Dataguard將數(shù)據(jù)量相對較小的重做日志從生產(chǎn)系統(tǒng)傳輸?shù)綖?zāi)備系統(tǒng),并重新應(yīng)用相關(guān)日志,使備庫與生產(chǎn)

19、庫保持一致;進(jìn)入Oracle11g后,DataGuard還支持日志的壓縮傳輸,減少了日志傳輸所需的網(wǎng)絡(luò)帶寬;Dataguard除可實(shí)現(xiàn)災(zāi)備,也可分流生產(chǎn)庫的部分工作負(fù)荷,如:生產(chǎn)庫的數(shù)據(jù)庫備份、報表生成等;DataGuard也有如下一些缺點(diǎn):a) 主備庫間耦合度較高,會加重生產(chǎn)庫的工作負(fù)荷。在Oracle9i中,如主備庫間歸檔日志差異過大,可能所有歸檔進(jìn)程均用于向備庫傳送歸檔,造成生產(chǎn)庫因無歸檔進(jìn)程可用而掛起的嚴(yán)重后果;新版本中有無此類Bug尚需測試加以確認(rèn);b) 日志傳輸效率低下。Oracle的DataGuard體系結(jié)構(gòu)中,一個歸檔日志文件只能使用一個歸檔進(jìn)程傳輸,即使使用了日志壓縮技術(shù),其

20、效率也較低;c) Oracle只是判斷歸檔日志的檢驗(yàn)和來驗(yàn)證日志的完整性,在原災(zāi)備中心建設(shè)時已經(jīng)過測試驗(yàn)證此種方式可造成備庫錯誤;因此,如果需要使用Dataguard實(shí)現(xiàn)容災(zāi),建議仍然采用原災(zāi)備中心的工作方式,使用第三方編寫的傳輸軟件進(jìn)行歸檔日志的傳輸,并使用類似MD般驗(yàn)等方式保證日志文件的完整性,這樣既實(shí)現(xiàn)了容災(zāi)目的,又降低了主備庫之間的耦合度;5. 在高可用性中的計(jì)劃宕機(jī)及維護(hù)方面,Oracle也提供了一系列的特性加以支持:a) 支持索引的在線重建;b) 可在線重定義表,此功能可實(shí)現(xiàn)諸如:添加/刪除分區(qū)、添加/刪除列、移動表空間、堆表與分區(qū)表的相互轉(zhuǎn)換、改變存儲參數(shù)等操作;c)新的“熱”升

21、級(Out-of-Place)方式將補(bǔ)丁安裝到新的軟件目錄中,以減少安裝軟件所需宕機(jī)時間;在實(shí)際生產(chǎn)環(huán)境中,除了介質(zhì)損壞、用戶誤操作等造成的損壞之外,還有一種由于OracleBug導(dǎo)致的異常,如內(nèi)存混亂、數(shù)據(jù)塊邏輯損壞等。針對于此類錯誤,雖然無法全面規(guī)避,但可通過以下兩種途徑降低系統(tǒng)級風(fēng)險。a)緊密關(guān)注Oracle公司定期發(fā)布的補(bǔ)丁,并根據(jù)實(shí)際情況完成補(bǔ)丁的評估、驗(yàn)證及生產(chǎn)庫的安裝使用,以降低系統(tǒng)潛在風(fēng)險;b)c)采用同址備援方案,通過異步數(shù)據(jù)庫備份模式,以豐富處理Oracle生產(chǎn)庫數(shù)據(jù)塊部分邏輯錯誤處理試,加快系統(tǒng)恢復(fù)速度。5.服務(wù)保障根據(jù)IT系統(tǒng)運(yùn)維的多年經(jīng)驗(yàn),系統(tǒng)的穩(wěn)定運(yùn)行離不開堅(jiān)實(shí)可靠

22、的售后服務(wù)體系、高水平的專業(yè)服務(wù)團(tuán)隊(duì)和高質(zhì)量的運(yùn)維管理流程的支撐,同時訓(xùn)練有素的系統(tǒng)維護(hù)人員和良好的服務(wù)保障也是確保系統(tǒng)故障能夠快速恢復(fù)的關(guān)鍵。結(jié)合系統(tǒng)建設(shè)的實(shí)際情況,需要從以下幾個層面來保障系統(tǒng)的運(yùn)行穩(wěn)定性和高可用性。1. 運(yùn)維管理層面在數(shù)據(jù)中心,通過對所有硬件設(shè)備和應(yīng)用軟件運(yùn)行狀態(tài)的實(shí)時監(jiān)控和統(tǒng)一展現(xiàn),可以實(shí)現(xiàn)對設(shè)備、應(yīng)用軟件異常的預(yù)警,同時在系統(tǒng)故障發(fā)生時及時報警。為減少人工運(yùn)維操作所需的時間,提高管理人員的工作效率,降低運(yùn)維管理工作量并消除人為錯誤導(dǎo)致的故障隱患,可考慮逐漸在數(shù)據(jù)中心運(yùn)維工作中推廣標(biāo)準(zhǔn)化運(yùn)維操作的自動化運(yùn)行,通過基于配置管理數(shù)據(jù)庫的流程化運(yùn)維管理工具來實(shí)現(xiàn)自動化日常巡檢(自動化、流程化的系統(tǒng)健康檢查)、軟件(操作系統(tǒng)、補(bǔ)丁、應(yīng)用等)的自動化安裝、部署和變更監(jiān)控、審計(jì)、以及自動化的系統(tǒng)合規(guī)審計(jì)和數(shù)據(jù)的自動化備份等運(yùn)維工作。2. 售后服務(wù)層面全面、及時、高質(zhì)量的售后服務(wù)是關(guān)鍵業(yè)務(wù)系統(tǒng)運(yùn)維的基礎(chǔ)支撐。對于系統(tǒng)而言,其售后服務(wù)體系需要從以下幾方面加以保證:a)b) 通過廠商7*2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論