


版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、關(guān)于系統(tǒng)穩(wěn)定性策略的探討1. 前言系統(tǒng)作為業(yè)務(wù)系統(tǒng)的核心,其運(yùn)行穩(wěn)定性和高可用性至關(guān)重要。因 此,需要通過高可用性設(shè)計來盡量減少系統(tǒng)的計劃內(nèi)和計劃外停機(jī),并 在系統(tǒng)出現(xiàn)故障時與時響應(yīng)、快速恢復(fù),以保障關(guān)鍵數(shù)據(jù)和業(yè)務(wù)系統(tǒng)的 運(yùn)行穩(wěn)定性和可持續(xù)訪問性。其中:1. 計劃內(nèi)停機(jī)是指管理員有組織、有計劃安排的停機(jī),比如升級硬件微碼、升級軟件版本、調(diào)整數(shù)據(jù)庫庫表、更換硬件設(shè)備、測試系統(tǒng)新功 能等時,可能需要的停止系統(tǒng)運(yùn)行。2. 計劃外停機(jī)是指非人為安排的、意外的停機(jī),比如當(dāng)硬件出現(xiàn)重大故障、應(yīng)用程序停止運(yùn)行、機(jī)房環(huán)境遭到災(zāi)難性的破壞時所引起的業(yè)務(wù) 系統(tǒng)停止運(yùn)行。目前,對于計劃內(nèi)和計劃外停機(jī),可通過消除系統(tǒng)
2、中的單點(diǎn)失效來盡 量減少停機(jī)時間。同時,通過采用可在線維護(hù)(固件升級、在線擴(kuò)充、故 障部件更換)的設(shè)備,并通過負(fù)載均衡機(jī)制實(shí)現(xiàn)應(yīng)用系統(tǒng)的在線升級、維 護(hù),將有效消除計劃內(nèi)停機(jī)對業(yè)務(wù)系統(tǒng)的影響。此外,由于系統(tǒng)中采用 了全面的負(fù)載均衡設(shè)計,并針對系統(tǒng)失效提供了可靠的數(shù)據(jù)備份恢復(fù)和 多點(diǎn)容災(zāi)保護(hù),因而能夠有效減少系統(tǒng)計劃外停機(jī)的恢復(fù)時間。在造成系統(tǒng)宕機(jī)的原因方面,有統(tǒng)計中表明并非都是硬件問題。其 中,硬件問題只占 40 ,軟件問題占 30 ,人為因素占 20 ,環(huán)境因素 占 10 。因此,高可用性設(shè)計應(yīng)盡可能地考慮到上述所有因素。對于系統(tǒng)而言,其整體的可用性將取決于內(nèi)部的應(yīng)用系統(tǒng)、主機(jī)、數(shù)據(jù)庫等多
3、種因素;同時,訓(xùn)練有素的系統(tǒng)維護(hù)人員和良好的服務(wù)保障也是確保系 統(tǒng)穩(wěn)定運(yùn)行和故障快速恢復(fù)的關(guān)鍵。2. 應(yīng)用系統(tǒng)系統(tǒng)在應(yīng)用軟件架構(gòu)設(shè)計中應(yīng)從渠道層、渠道管理層、業(yè)務(wù)處理層等 不同層面通過多種措施和策略的綜合設(shè)計來提高應(yīng)用系統(tǒng)的高可用性和 穩(wěn)定性。在渠道管理層和業(yè)務(wù)處理層的設(shè)計中,要考慮設(shè)置應(yīng)用負(fù)載均衡、應(yīng) 用軟件失效備援、 vip 服務(wù)通道、流量控制、故障隔離等機(jī)制。1. 應(yīng)用負(fù)載均衡應(yīng)用軟件負(fù)載均衡通過多個層次上不同的負(fù)載均衡策略一起實(shí)現(xiàn)整體 的負(fù)載均衡,應(yīng)用負(fù)載均衡的設(shè)計思路是將大量的并發(fā)訪問或數(shù)據(jù)流量 分擔(dān)到多臺節(jié)點(diǎn)設(shè)備上分別處理和將單個重負(fù)載的運(yùn)算分擔(dān)到多臺節(jié)點(diǎn) 設(shè)備上做并行處理來達(dá)到負(fù)
4、載均衡的效果,從而提高服務(wù)響應(yīng)速度,提 高服務(wù)器與其他資源的利用效率,避免服務(wù)請求集中于單一節(jié)點(diǎn)導(dǎo)致?lián)?塞。2. 應(yīng)用軟件失效備援應(yīng)用軟件構(gòu)建在面向服務(wù)的架構(gòu)、設(shè)計思想上,應(yīng)用服務(wù)具有較高的 可靈活部署性。通過這種靈活性,結(jié)合系統(tǒng)基礎(chǔ)設(shè)施的規(guī)劃、部署可以 實(shí)現(xiàn)應(yīng)用軟件的失效備援。系統(tǒng)可以考慮實(shí)現(xiàn)基于應(yīng)用服務(wù)和基于應(yīng)用 服務(wù)管理框架的多種應(yīng)用軟件失效備援機(jī)制?;趹?yīng)用服務(wù)的失效備援是在應(yīng)用服務(wù)管理框架中可以實(shí)現(xiàn)應(yīng)用服務(wù) 的冗余部署,利用硬件負(fù)載均衡設(shè)備或應(yīng)用軟件負(fù)載均衡可以在需要時 將服務(wù)請求切換到相應(yīng)的冗余服務(wù)?;趹?yīng)用服務(wù)管理框架的失效備是將應(yīng)用服務(wù)框架在系統(tǒng)中冗余部 署,利用硬件負(fù)載均衡設(shè)
5、備或應(yīng)用軟件負(fù)載均衡可以在需要時將服務(wù)請 求切換到相應(yīng)的冗余的應(yīng)用服務(wù)管理框架。3. vip 服務(wù)通道在系統(tǒng)中,從系統(tǒng)運(yùn)行穩(wěn)定性、持續(xù)性與處理性能的角度,配合物理 設(shè)備、系統(tǒng)支撐軟件(數(shù)據(jù)庫系統(tǒng)、操作系統(tǒng))的相關(guān)措施,應(yīng)用軟件可 通過構(gòu)建 VIP 服務(wù)通道的方式降低應(yīng)用服務(wù)運(yùn)行期間的相互影響。服務(wù)通 道可以基于不同業(yè)務(wù)產(chǎn)品或不同應(yīng)用服務(wù)管理框架的不同粒度來設(shè)置, 從而滿足部分應(yīng)用處理資源只響應(yīng)特定的服務(wù)請求或不同的服務(wù)監(jiān)聽響 應(yīng)不同的通道傳遞過來的服務(wù)申請的功能。4. 流量控制在系統(tǒng)中,從系統(tǒng)運(yùn)行穩(wěn)定性、持續(xù)性角度,配合物理設(shè)備、系統(tǒng)支 撐軟件(數(shù)據(jù)庫系統(tǒng)、操作系統(tǒng))的相關(guān)措施,應(yīng)用軟件可以通
6、過對服務(wù) 請求的流量控制機(jī)制,在系統(tǒng)性能波動較大時間段,對少部分影響程度 高的交易進(jìn)行流量控制,保障系統(tǒng)運(yùn)行平穩(wěn)運(yùn)行。流量控制是大集中系統(tǒng)體系結(jié)構(gòu)中提供的通過應(yīng)用軟件對系統(tǒng)實(shí)施控 制的功能。流量控制基于大集中系統(tǒng)邏輯架構(gòu),依據(jù)系統(tǒng)、子系統(tǒng)、渠 道等不同層面的交易流量、交易狀態(tài)和確定的控制策略、控制規(guī)則,對 系統(tǒng)實(shí)施控制。應(yīng)用系統(tǒng)具有如下功能:a) 流量數(shù)據(jù)采集:支持流量數(shù)據(jù)的采集功能。b) 流量值計算: 完成對采集的流量數(shù)據(jù)進(jìn)行計算, 檢索出有流量超過 額定量的服務(wù)或交易,為后續(xù)的流量控制提供依據(jù)。c) 交易流量控制:支持針對特定交易進(jìn)行流量控制。如:針對網(wǎng)絡(luò)流 量大的交易做控制, 如報表文件
7、傳輸; 交易高峰期對批量業(yè)務(wù)進(jìn)行 流量控制。d) 渠道流量控制:支持按照渠道進(jìn)行流量控制;e) 控制策略與規(guī)則管理:支持控制策略與規(guī)則的配置,修改等功能。5. 故障隔離在系統(tǒng)中將考慮實(shí)現(xiàn)故障隔離機(jī)制,在應(yīng)用軟件系統(tǒng)發(fā)生故障的時 候,通過故障隔離把故障造成的危害限制在最小范圍內(nèi),提高系統(tǒng)提供 對外服務(wù)的整體能力水平。故障隔離是大集中系統(tǒng)體系結(jié)構(gòu)中提供的通過應(yīng)用軟件對系統(tǒng)實(shí)施控 制的功能,應(yīng)用軟件設(shè)計可考慮應(yīng)用服務(wù)、應(yīng)用服務(wù)框架的靈活部署, 支持多角度,多層次的故障隔離。應(yīng)用系統(tǒng)具有如下功能:a) 支持按渠道的故障隔離,例如:當(dāng) POS 渠道交易響應(yīng)慢,可停止 POS 渠道的對外服務(wù)功能。b) 支
8、持按子系統(tǒng)的故障隔離,例如:當(dāng)查詢子系統(tǒng)出現(xiàn)異常時,可停 止查詢子系統(tǒng)的對外服務(wù)功能。c) 支持異常服務(wù)的故障隔離, 例如:若某服務(wù)出現(xiàn)異常 (如服務(wù) CORE DOWN ),可停止此服務(wù)的對外服務(wù)功能。d) 支持按交易的故障隔離,例如:若某查詢交易出現(xiàn)服務(wù)堵塞,可停止此交易的對外服務(wù)功能。在渠道層的設(shè)計中,可考慮采用網(wǎng)絡(luò)負(fù)載均衡、 vip 服務(wù)通道等機(jī) 制。6. 網(wǎng)絡(luò)負(fù)載均衡在柜面網(wǎng)點(diǎn)前置系統(tǒng)側(cè),可以考慮采用硬件負(fù)載均衡器對網(wǎng)點(diǎn)終端連 接到網(wǎng)點(diǎn)前置的負(fù)載均衡,利用負(fù)載均衡器的連接狀態(tài)檢查和負(fù)載均衡 策略可以靈活地調(diào)整終端的連接指向,屏蔽因網(wǎng)點(diǎn)前置機(jī)故障導(dǎo)致的終 端操作異常,提高網(wǎng)點(diǎn)前置系統(tǒng)的
9、可用性。7. VIP 服務(wù)通道渠道層的 VIP 服務(wù)通道與業(yè)務(wù)處理層的 VIP 服務(wù)通道均針對提高系統(tǒng) 的可用性,但是在建設(shè)方式上有所區(qū)別。渠道層的 VIP 服務(wù)通道不僅可以 通過渠道層相關(guān)應(yīng)用軟件的服務(wù)通道設(shè)立來實(shí)現(xiàn),還可以考慮通過設(shè)置 物理上相互隔離的不同渠道通路來實(shí)現(xiàn)。3. 主機(jī)系統(tǒng)主機(jī)系統(tǒng)作為各應(yīng)用系統(tǒng)的運(yùn)行平臺,其可用性和穩(wěn)定性是業(yè)務(wù)系統(tǒng) 能夠持續(xù)、穩(wěn)定運(yùn)行的前提。根據(jù)應(yīng)用軟件架構(gòu)設(shè)計,每個子系統(tǒng)的功 能通過硬件負(fù)載均衡機(jī)制部署于多套主機(jī)設(shè)備上,從而消除單臺主機(jī)所 引入的單點(diǎn)故障。對于單臺主機(jī)系統(tǒng)而言,其高可用性和運(yùn)行穩(wěn)定性可從以下幾方面加以保障:1. 主機(jī)自身的高可靠性主機(jī)采用高度
10、冗余設(shè)計,可充分保障自身的運(yùn)行可靠性,如:多處理 器架構(gòu)、冗余電源、冗余風(fēng)扇、冗余時鐘、冗余 IO 等;同時,主機(jī)采用 多種容錯技術(shù),可有效提升自身的可靠性,如:內(nèi)存與高速緩存上的檢 錯與糾錯(ECC)、內(nèi)存雙芯片備用、內(nèi)存和處理器自動解除配置、用于 監(jiān)控系統(tǒng)狀態(tài)的獨(dú)立的服務(wù)處理器等。2. 主機(jī)關(guān)鍵部件全冗余配置 為確保主機(jī)運(yùn)行的可靠性和穩(wěn)定性,系統(tǒng)主機(jī)的所有關(guān)鍵部件均采用 了冗余配置,以消除主機(jī)自身的單點(diǎn)故障,其中包括:a)配置熱插拔 N+1 或 N+N 冗余電源、風(fēng)扇,避免電源或風(fēng)扇失效 造成的硬件故障或宕機(jī)。b)配置冗余系統(tǒng)盤,并通過操作系統(tǒng)進(jìn)行系統(tǒng)盤的 RAID 1 鏡像保護(hù); 或采用
11、 SAN BOOT 系統(tǒng)盤,在實(shí)現(xiàn)存儲網(wǎng)絡(luò)連接全冗余的同時, 通過在 SAN BOOT 磁盤組中采用高可靠級別的 RAID 技術(shù)(如 RAID10+ 熱備盤)、不同存儲設(shè)備中的啟動盤映像副本選擇啟動、 磁盤陣列鏡像(即“雙陣列啟動” )等技術(shù),切實(shí)保證 SAN BOOT 的可用性。c)配置冗余網(wǎng)卡, 并根據(jù)實(shí)際需求采用多網(wǎng)卡綁定技術(shù), 實(shí)現(xiàn)多網(wǎng)卡 間的自動冗余和流量的負(fù)載均衡, 以提供更高的數(shù)據(jù)帶寬和鏈路的 高可用性。d)配置冗余光纖通道 HBA 卡和 InfinibandHCA 卡,并通過多路徑軟 件(操作系統(tǒng)或第三方軟件支持) 來實(shí)現(xiàn)多 HBA/HCA 卡的自動冗 余與 IO 負(fù)載均衡e)
12、 配置冗余的主機(jī)管理處理器, 能夠在線配置、 管理主機(jī)并監(jiān)控主機(jī) 狀態(tài),同時支持透明接管和在線更換管理處理器。3. 主機(jī)自身的高可維護(hù)性 主機(jī)的高可維護(hù)性對于消除計劃內(nèi)停機(jī)的影響至關(guān)重要,主機(jī)通過其 在線維護(hù)功能來確保其計劃維護(hù)期間的高可用性。其中:a) 主機(jī)支持固件的在線升級,避免了因固件升級造成的計劃內(nèi)停機(jī)。b) 在主機(jī)上采用高可用操作系統(tǒng), 通過支持在線處理單元板增加與刪 除、動態(tài)內(nèi)核調(diào)試、動態(tài)可加載內(nèi)核模塊框架(支持在線 IO 驅(qū)動 加載與補(bǔ)丁升級) 、PCI 錯誤自動修復(fù)、動態(tài)錯誤管理與安全隔離、 動態(tài)根盤 (支持軟件在線補(bǔ)丁升級) 等高可維護(hù)特性來實(shí)現(xiàn)不停機(jī) 的 IO 驅(qū)動、操作系
13、統(tǒng)和應(yīng)用軟件的版本、補(bǔ)丁升級,從而避免了 因軟件版本或補(bǔ)丁升級造成的計劃內(nèi)停機(jī)。c) 主機(jī)的處理單元板、電源、風(fēng)扇、磁盤、 IO 等關(guān)鍵部件均支持在 線增加與刪除, 同時其硬件支持熱插拔, 可實(shí)現(xiàn)故障部件的在線更 換,避免了因部件更換造成的計劃內(nèi)停機(jī)。4. 主機(jī)系統(tǒng)的高可用性設(shè)計 在主機(jī)上設(shè)計采用了電氣隔離的動態(tài)硬件分區(qū)技術(shù),同時各分區(qū)采用 相互獨(dú)立、冗余的 IO 配置以實(shí)現(xiàn)自身的高可靠性。硬件分區(qū)技術(shù)在優(yōu)化 主機(jī)資源利用的同時,可在同一主機(jī)硬件內(nèi)全面隔離分區(qū)故障。如果一 個分區(qū)中的操作系統(tǒng)、軟件或甚至是硬件出現(xiàn)問題,運(yùn)行在其他分區(qū)中 的操作系統(tǒng)和軟件均不受影響。在主機(jī)硬件分區(qū)的基礎(chǔ)上,系統(tǒng)設(shè)
14、計采用多個主機(jī)分區(qū)形成集群來為各業(yè)務(wù)應(yīng)用提供運(yùn)行支撐,同時各主機(jī)集群通過 Oracle RAC 或網(wǎng)絡(luò)負(fù)載 均衡機(jī)制實(shí)現(xiàn)主機(jī)間的負(fù)載均衡和自動冗余。為保證最大的可用性,應(yīng)將同一集群內(nèi)的不同分區(qū)分別部署在相互獨(dú)立的主機(jī)硬件上,并通過各 分區(qū)相互獨(dú)立的 IO 接入數(shù)據(jù)網(wǎng)絡(luò)、心跳網(wǎng)絡(luò)和存儲網(wǎng)絡(luò),從而確保了主 機(jī)系統(tǒng)整體的高可用性。5. 主機(jī)系統(tǒng)的高可恢復(fù)性設(shè)計可恢復(fù)性定義了系統(tǒng)修復(fù)故障和恢復(fù)正常運(yùn)行的能力。主機(jī)系統(tǒng)的可恢復(fù)性從一定程度決定了系統(tǒng)出現(xiàn)故障時是否能夠自動修復(fù)和快速恢復(fù),應(yīng)通過主機(jī)系統(tǒng)的備份與容災(zāi)設(shè)計來確保其高可恢復(fù)性。其中:a) 對主機(jī)系統(tǒng)盤定期進(jìn)行自動化克隆備份, 以便于版本管理和系統(tǒng)
15、盤 的失效恢復(fù),同時其備份的系統(tǒng)盤映像副本可用于主機(jī)在線軟件、 補(bǔ)丁升級維護(hù)(通過動態(tài)根盤技術(shù)實(shí)現(xiàn)) 。b) 目前,系統(tǒng)中采用了兩地三中心 + 同址備援的容災(zāi)體系設(shè)計。在上 述容災(zāi)體系中,通過以下方式實(shí)現(xiàn)主機(jī)系統(tǒng)的災(zāi)難恢復(fù):? 同城容災(zāi):現(xiàn)階段基于存儲同步復(fù)制實(shí)現(xiàn)數(shù)據(jù)級容災(zāi),今后可考慮通 過主機(jī)的城際集群實(shí)現(xiàn)同城災(zāi)備中心與主中心間的主機(jī)系統(tǒng)自動災(zāi)難 接管。? 異地容災(zāi): 可基于存儲異步復(fù)制、 Oracle DataGuard 等技術(shù)實(shí)現(xiàn)應(yīng)用 級容災(zāi),今后可考慮通過主機(jī)的洲際集群實(shí)現(xiàn)異地災(zāi)備中心與主中心 間的主機(jī)系統(tǒng)自動災(zāi)難接管。? 同址備援:可通過存儲陣列的異步復(fù)制和 Oracle DataG
16、uard 等技術(shù)來減少 Oracle 數(shù)據(jù)庫邏輯數(shù)據(jù)塊損壞故障對業(yè)務(wù)系統(tǒng)造成的影響, 相關(guān)系統(tǒng)主機(jī)可按策略實(shí)現(xiàn)故障接管。通過上述高可用性設(shè)計,主機(jī)系統(tǒng)中將不再存在單點(diǎn)故障隱患,這充 分保證了主機(jī)系統(tǒng)的可靠性;同時,主機(jī)的高可維護(hù)性設(shè)計保證了主機(jī) 能夠在線進(jìn)行故障硬件更換、在線擴(kuò)充、不停機(jī)進(jìn)行軟件和補(bǔ)丁升級, 從而有效避免了主機(jī)的計劃內(nèi)停機(jī),提高了主機(jī)系統(tǒng)的可用性和穩(wěn)定 性;此外,通過備份、容災(zāi)設(shè)計,在一定程度上保證了主機(jī)系統(tǒng)在發(fā)生 故障或遭到災(zāi)難時能夠快速恢復(fù)服務(wù),從而確保了系統(tǒng)的業(yè)務(wù)連續(xù)性。4. 數(shù)據(jù)庫為了避免數(shù)據(jù)庫主機(jī)、數(shù)據(jù)庫存儲或者數(shù)據(jù)庫邏輯錯誤等引起的數(shù)據(jù) 庫故障,盡最大可能保障數(shù)據(jù)庫
17、提供 7*24 小時的對外服務(wù), Oracle 提供 了一個高可用性、 高可靠性和高可擴(kuò)展性的數(shù)據(jù)庫環(huán)境。 Oracle 數(shù)據(jù)庫提 供數(shù)據(jù)庫集群 RAC ( Real Application Cluster)、 Data Guard 、自動存儲管理 ASM ( Automaic Storage Management)故障組鏡像、閃回技術(shù) Flashback 、 Stream 、 RMAN 快速備份和恢復(fù)等技術(shù)來保障數(shù)據(jù)庫的 高可用性和穩(wěn)定性等功能。在系統(tǒng)中,采用如下 Oracle 數(shù)據(jù)庫技術(shù)提供其高可用性和穩(wěn)定性:1. RAC 數(shù)據(jù)庫中如某個節(jié)點(diǎn)發(fā)生故障, 集群中剩余節(jié)點(diǎn)可繼續(xù)提供服務(wù), 同時
18、這些節(jié)點(diǎn)可自動對失效實(shí)例進(jìn)行實(shí)例恢復(fù), 以保證數(shù)據(jù)的一致性; 崩潰節(jié)點(diǎn)的相關(guān)虛擬 IP 可飄移到某個存活節(jié)點(diǎn)以繼續(xù)響應(yīng)連接請求; 這樣可有效解決數(shù)據(jù)庫服務(wù)器的單點(diǎn)故障;2. RAC 數(shù)據(jù)庫是共享存儲的集群數(shù)據(jù)庫,在 Oracle 10g 之前,如果數(shù)據(jù)文件所在陣列發(fā)生故障,數(shù)據(jù)庫依然無法提供服務(wù)。而進(jìn)入 10g 之后,可利用 ASM 故障組特性, 將數(shù)據(jù)文件存放在兩個不同的存儲陣列 上,來自同個存儲陣列的磁盤置于同一個故障組中,這樣即使單個存 儲陣列失效數(shù)據(jù)庫依然可對外提供服務(wù), 有效解決了介質(zhì)的單點(diǎn)故障;3. 在高可用性的人為錯誤方面, Oracle 數(shù)據(jù)庫提供了多種特性來加以解 決:a)
19、閃回( Flashback )功能可解決刪除記錄( delete 操作)的誤操作 問題;b) 如果打開回收站功能, 閃回特性也可解決刪除對象的誤操作 ( Drop 操作);c) 閃回特性需要額外的存儲空間;d) 如果 無 法做 閃回 操 作, 可使用“表 空間 基 于時 間點(diǎn) 的 恢復(fù) ”(TSPITR)將誤操作對象所在的某些表空間進(jìn)行不完全恢復(fù),以恢復(fù)誤操作數(shù)據(jù);一般情況下,此類操作需要額外的服務(wù)器資源;4. Oracle 本身提供了 Dataguard 容災(zāi)技術(shù), Dataguard 將數(shù)據(jù)量相對 較小的重做日志從生產(chǎn)系統(tǒng)傳輸?shù)綖?zāi)備系統(tǒng),并重新應(yīng)用相關(guān)日志, 使備庫與生產(chǎn)庫保持一致;進(jìn)入
20、Oracle 11g 后, DataGuard 還支持 日志的壓縮傳輸,減少了日志傳輸所需的網(wǎng)絡(luò)帶寬; Dataguard 除可 實(shí)現(xiàn)災(zāi)備,也可分流生產(chǎn)庫的部分工作負(fù)荷,如:生產(chǎn)庫的數(shù)據(jù)庫備 份、報表生成等; DataGuard 也有如下一些缺點(diǎn):a) 主備庫間耦合度較高, 會加重生產(chǎn)庫的工作負(fù)荷。 在 Oracle 9i 中, 如主備庫間歸檔日志差異過大, 可能所有歸檔進(jìn)程均用于向備庫傳 送歸檔, 造成生產(chǎn)庫因無歸檔進(jìn)程可用而掛起的嚴(yán)重后果; 新版本 中有無此類 Bug 尚需測試加以確認(rèn);b) 日志傳輸效率低下。 Oracle 的 DataGuard 體系結(jié)構(gòu)中, 一個歸檔 日志文件只能使用
21、一個歸檔進(jìn)程傳輸,即使使用了日志壓縮技術(shù), 其效率也較低;c) Oracle 只是判斷歸檔日志的檢驗和來驗證日志的完整性,在原災(zāi) 備中心建設(shè)時已經(jīng)過測試驗證此種方式可造成備庫錯誤; 因此,如果需要使用 Dataguard 實(shí)現(xiàn)容災(zāi), 建議仍然采用原災(zāi)備中心 的工作方式,使用第三方編寫的傳輸軟件進(jìn)行歸檔日志的傳輸,并使用類 似 MD5 校驗等方式保證日志文件的完整性,這樣既實(shí)現(xiàn)了容災(zāi)目的,又 降低了主備庫之間的耦合度;5. 在高可用性中的計劃宕機(jī)與維護(hù)方面, Oracle 也提供了一系列的特性加以支持:a) 支持索引的在線重建;b) 可在線重定義表,此功能可實(shí)現(xiàn)諸如:添加 /刪除分區(qū)、添加 /
22、刪除 列、移動表空間、 堆表與分區(qū)表的相互轉(zhuǎn)換、 改變存儲參數(shù)等操作;c) 新的“熱”升級( Out-of-Place )方式將補(bǔ)丁安裝到新的軟件目錄 中,以減少安裝軟件所需宕機(jī)時間;在實(shí)際生產(chǎn)環(huán)境中,除了介質(zhì)損壞、用戶誤操作等造成的損壞之外, 還有一種由于 Oracle Bug 導(dǎo)致的異常, 如內(nèi)存混亂、 數(shù)據(jù)塊邏輯損壞等。 針對于此類錯誤,雖然無法全面規(guī)避,但可通過以下兩種途徑降低系統(tǒng)級 風(fēng)險。a) 緊密關(guān)注 Oracle 公司定期發(fā)布的補(bǔ)丁,并根據(jù)實(shí)際情況完成補(bǔ)丁的評估、驗證與生產(chǎn)庫的安裝使用,以降低系統(tǒng)潛在風(fēng)險;b) 采用同址備援方案, 通過異步數(shù)據(jù)庫備份模式, 以豐富處理 Oracl
23、e生產(chǎn)庫數(shù)據(jù)塊部分邏輯錯誤處理試,加快系統(tǒng)恢復(fù)速度。5. 服務(wù)保障根據(jù) IT 系統(tǒng)運(yùn)維的多年經(jīng)驗, 系統(tǒng)的穩(wěn)定運(yùn)行離不開堅實(shí)可靠的售后 服務(wù)體系、高水平的專業(yè)服務(wù)團(tuán)隊和高質(zhì)量的運(yùn)維管理流程的支撐,同時 訓(xùn)練有素的系統(tǒng)維護(hù)人員和良好的服務(wù)保障也是確保系統(tǒng)故障能夠快速 恢復(fù)的關(guān)鍵。結(jié)合系統(tǒng)建設(shè)的實(shí)際情況,需要從以下幾個層面來保障系統(tǒng)的運(yùn)行穩(wěn) 定性和高可用性。1. 運(yùn)維管理層面在數(shù)據(jù)中心,通過對所有硬件設(shè)備和應(yīng)用軟件運(yùn)行狀態(tài)的實(shí)時監(jiān)控和 統(tǒng)一展現(xiàn),可以實(shí)現(xiàn)對設(shè)備、應(yīng)用軟件異常的預(yù)警,同時在系統(tǒng)故障發(fā)生 時與時報警。為減少人工運(yùn)維操作所需的時間,提高管理人員的工作效率,降低運(yùn) 維管理工作量并消除人為錯誤導(dǎo)致的故障隱患,可考慮逐漸在數(shù)據(jù)中心運(yùn) 維工作中推廣標(biāo)準(zhǔn)化運(yùn)維操作的自動化運(yùn)行,通過基于配置管理數(shù)據(jù)庫的 流程化運(yùn)維管理工具來實(shí)現(xiàn)自動化日常巡檢(自動化、流程化的系統(tǒng)健康 檢查)、軟件(操作系統(tǒng)、補(bǔ)丁、應(yīng)用等)的自動化安裝、部署和變更監(jiān) 控、審計、以與自動化的系統(tǒng)合規(guī)審計和數(shù)據(jù)的自動化備份等運(yùn)維工作。2. 售后服務(wù)層面全面、與時、高質(zhì)量的售后服務(wù)是關(guān)鍵業(yè)務(wù)系統(tǒng)運(yùn)維的基礎(chǔ)支撐。對 于系統(tǒng)而言,其售后服
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 暖通工程中央空調(diào)系統(tǒng)運(yùn)行與管理考核試卷
- 嬰兒家具批發(fā)考核試卷
- 獸用藥品的學(xué)術(shù)推廣與醫(yī)學(xué)教育考核試卷
- 機(jī)器視覺檢測在半導(dǎo)體品質(zhì)控制中的應(yīng)用考核試卷
- 敏感元件的表面修飾技術(shù)考核試卷
- 數(shù)字出版項目策劃與管理考核試卷
- 剪刀安全教育課件
- 變壓器絕緣檢測培訓(xùn)課件
- 買賣小產(chǎn)權(quán)合同范本
- 政府供電合同范本
- 高中主題班會 悟哪吒精神做英雄少年-下學(xué)期開學(xué)第一課主題班會課件-高中主題班會課件
- 起重機(jī)械質(zhì)量安全風(fēng)險管控清單(起重機(jī)械制造、安裝、修理、改造單位)
- 建筑工地三級安全教育卡
- ID5S606B 600V高低側(cè)柵極驅(qū)動芯片兼容PN7103-驪微電子
- 大學(xué)生人文知識競賽報名表
- 小升初閱讀理解專題課件
- 人教部編版九年級下冊歷史第四單元 經(jīng)濟(jì)大危機(jī)和第二次世界大戰(zhàn)單元測試題
- 個人理財實(shí)務(wù)教學(xué)課件
- (完整版)新版PEP小學(xué)英語五年級下冊教材分析
- 研發(fā)經(jīng)費(fèi)填報指標(biāo)說明及核算方法
- 一年級思維訓(xùn)練(課堂PPT)
評論
0/150
提交評論