HacmpforAIX原理、設(shè)計(jì)及實(shí)現(xiàn)_第1頁
HacmpforAIX原理、設(shè)計(jì)及實(shí)現(xiàn)_第2頁
HacmpforAIX原理、設(shè)計(jì)及實(shí)現(xiàn)_第3頁
HacmpforAIX原理、設(shè)計(jì)及實(shí)現(xiàn)_第4頁
HacmpforAIX原理、設(shè)計(jì)及實(shí)現(xiàn)_第5頁
已閱讀5頁,還剩85頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、聯(lián)想集成系統(tǒng)有限公司HACMP for AIX原理、設(shè)計(jì)及實(shí)現(xiàn)聯(lián)想集成系統(tǒng)有限公司目錄聯(lián)想集成系統(tǒng)有限公司目錄前 言1目錄前 言2前 言4第一章HACMP的概念和原理5§1.1 HACMP簡介6§1.2 HACMP中術(shù)語的定義7§1.3 HACMP群集的硬件組成8§1.4 AIX與HACMP11§1.5 HACMP群集的軟件結(jié)構(gòu)12§1.6 HACMP群集資源13§1.7 建立高可用系統(tǒng)避免單點(diǎn)故障16第二章HACMP群集的設(shè)計(jì)22§2.1 高可用性設(shè)計(jì)要點(diǎn)22§2.2 存儲系統(tǒng)設(shè)計(jì)22§2.3

2、 LVM組件設(shè)計(jì)31§2.4 HACMP for AIX的網(wǎng)絡(luò)設(shè)計(jì)32§2.5 群集結(jié)構(gòu)的設(shè)計(jì)37§2.6 應(yīng)用的設(shè)計(jì)44第三章HACMP群集的實(shí)現(xiàn)45§3.1 準(zhǔn)備AIX46§3.2 安裝HACMP53§3.3 配置HACMP54第四章HACMP群集的管理59§4.1 群集的啟動59§4.2 群集的停止60§4.3 群集的監(jiān)視61§4.4 群集的測試62附錄A HACMP和數(shù)據(jù)庫63附錄B HACMP與同類產(chǎn)品的比較66前 言傳統(tǒng)概念里,關(guān)鍵性任務(wù)的計(jì)算一直是大型主機(jī)的專有領(lǐng)域。主機(jī)能夠提供關(guān)

3、鍵性任務(wù)所必須的很高的交易速度、非常好的系統(tǒng)可用性和魯棒的系統(tǒng)管理功能。隨著UNIX系統(tǒng)的發(fā)展和普及,關(guān)鍵性任務(wù)對主機(jī)的依賴程度也在逐漸減弱,越來越多的企業(yè)將他們的關(guān)鍵性任務(wù)應(yīng)用從專有的主機(jī)系統(tǒng)遷移至基于UNIX平臺上來。這種轉(zhuǎn)變主要基于以下一些因素:Client/Server模式的高效率和擴(kuò)展性、開放標(biāo)準(zhǔn)的出現(xiàn)、UNIX平臺上交易處理能力的增強(qiáng)和基于RISC技術(shù)的處理器的性能/價格比的提高。IBM公司的HACMP for AIX軟件是業(yè)界領(lǐng)先的,建立UNIX平臺上關(guān)鍵性任務(wù)計(jì)算環(huán)境的工具軟件。HACMP for AIX軟件能夠保證關(guān)鍵性資源的高可用性。本文主要討論HACMP for AIX的

4、原理、規(guī)劃、配置、管理和其它一些相關(guān)內(nèi)容,并根據(jù)自己的實(shí)踐提出了在規(guī)劃和配置HACMP時的一些經(jīng)驗(yàn)和建議,希望能夠?qū)Υ蠹矣兴鶐椭?。本文的第一章主要介紹HACMP的基本概念和工作原理,第二章主要介紹HACMP高可用群集的設(shè)計(jì),第三章介紹HACMP群集的配置和實(shí)現(xiàn),第四章主要介紹HACMP群集的管理。本文的附錄A介紹了HACMP和主要數(shù)據(jù)庫產(chǎn)品配合時的各種配置。附錄B介紹UNIX平臺主流高可用產(chǎn)品的比較。文中用到的命令用加黑的斜體字表示,如:fsck文中用到的SMIT路徑用黑體字表示,如:smit devices帶下劃線的正文文字代表應(yīng)引起注意的事項(xiàng)。因本人水平所限,文中難免會有錯誤或介紹不詳之處

5、,希望大家批評指正,并多提寶貴意見。第一章 HACMP的概念和原理在今天競爭激烈的全球市場中,從金融、電信、醫(yī)療到零售、運(yùn)輸、制造的各個企業(yè)都必須保證關(guān)鍵性業(yè)務(wù)的信息和數(shù)據(jù)的可用性,而且通常是一天24小時,一年365天。各個企業(yè)必須始終如一地、正確地根據(jù)用戶的要求提供銀行往來金額、投資資金、醫(yī)療記錄、測試結(jié)果和其它許多關(guān)鍵服務(wù),而成功提供這些服務(wù)的關(guān)鍵是依靠信息技術(shù)的可用性。由Contingency Planning Research提供的最新研究結(jié)果表明,平均每小時的宕機(jī)時間會導(dǎo)致上百萬美元的損失。更重要的是,當(dāng)因?yàn)橐饬现獾南到y(tǒng)故障而丟失他們的數(shù)據(jù)之后,50%的公司沒有再重新開門,90%的

6、公司則歇業(yè)兩年。因此,要保證業(yè)務(wù)的連續(xù)性,就必須盡可能減少會導(dǎo)致信息和應(yīng)用不可用的系統(tǒng)宕機(jī)時間,從而減小對用戶服務(wù)的影響。關(guān)鍵業(yè)務(wù)的連續(xù)性可以通過以下三個層次的方法實(shí)現(xiàn):磁帶備份磁帶備份是實(shí)現(xiàn)基本的業(yè)務(wù)連續(xù)的通用方法。信息先備份到磁帶上,然后送到另外的地點(diǎn)保存。這種方法的問題在于磁帶備份往往需要較長的時間來記錄數(shù)據(jù)。另外,在數(shù)據(jù)備份過程中或者做數(shù)據(jù)備份前的系統(tǒng)或環(huán)境故障很可能造成數(shù)據(jù)丟失。而且,從備份磁帶上恢復(fù)數(shù)據(jù)也需要很長的時間,數(shù)據(jù)存儲得越多,恢復(fù)的時間越長。高可用系統(tǒng)高可用系統(tǒng)一般是在一個地點(diǎn),通過高可用軟件將一組服務(wù)器連接在一起,組成一個群集。IBM的HACMP for AIX和HP的

7、MC/ServiceGuard就是這樣的群集產(chǎn)品,通過快速地將用戶、應(yīng)用和數(shù)據(jù)從發(fā)生硬件或軟件故障的機(jī)器切換至其它機(jī)器來提供高可用計(jì)算環(huán)境。容錯系統(tǒng)容錯系統(tǒng)依賴于冗余的硬件設(shè)備和軟件來實(shí)現(xiàn)關(guān)鍵業(yè)務(wù)的連續(xù)性。雖然容錯系統(tǒng)是避免宕機(jī)和數(shù)據(jù)丟失的有效方法,但是購買、操作和維護(hù)容錯系統(tǒng)都是非常昂貴的。另外,系統(tǒng)的升級也需要很大的代價。用戶可以根據(jù)自己的應(yīng)用情況選擇適合自己的方法實(shí)現(xiàn)關(guān)鍵業(yè)務(wù)的連續(xù)性。§1.1 HACMP簡介IBM公司的HACMP for AIX軟件是基于AIX平臺的,在高可用系統(tǒng)層次實(shí)現(xiàn)關(guān)鍵性任務(wù)計(jì)算環(huán)境的工具軟件。HACMP應(yīng)用于RS/6000系列的單處理器機(jī)型、對稱多處理

8、器機(jī)型或SP的節(jié)點(diǎn),可以檢測系統(tǒng)故障并快速恢復(fù)服務(wù),使最終用戶只感受到很小的中斷時間。HACMP(High Availability Cluster Multi-Processing)有兩個主要的組成部分:高可用技術(shù)(HA)和群集多處理技術(shù)(CMP)。高可用技術(shù)在HA產(chǎn)品出現(xiàn)之前,在UNIX領(lǐng)域?qū)崿F(xiàn)高可用性的最有效途徑是通過容錯技術(shù)。容錯技術(shù)依靠專門的硬件設(shè)備檢測到硬件的故障,然后立即切換至冗余的硬件設(shè)備上,不管故障設(shè)備是處理器、內(nèi)存板、電源、I/O子系統(tǒng)還是存儲子系統(tǒng)。盡管這種切換能夠無縫地提供不間斷的服務(wù),但卻在硬件費(fèi)用和性能上付出了很高的代價,因?yàn)槿哂嗟脑O(shè)備不能處理事務(wù)。更重要的是,容錯

9、系統(tǒng)不能處理軟件故障,而這卻是宕機(jī)的最常見的原因。高可用技術(shù)并不是通過將可用性當(dāng)作一系列重復(fù)的物理設(shè)備來實(shí)現(xiàn)高可用性,它將高可用性看作是一個全系統(tǒng)范圍的、共享的資源的集合,這些資源相互協(xié)作來保證關(guān)鍵的服務(wù)。高可用技術(shù)將軟件和工業(yè)標(biāo)準(zhǔn)的硬件結(jié)合起來,在系統(tǒng)、設(shè)備或應(yīng)用發(fā)生故障時通過快速恢復(fù)關(guān)鍵服務(wù)來使宕機(jī)時間減至最小。盡管不能立即切換,恢復(fù)服務(wù)也是很快的,通常在1分鐘之內(nèi)。容錯技術(shù)和高可用技術(shù)的區(qū)別在于服務(wù)中斷的時間。當(dāng)硬件發(fā)生故障時,容錯環(huán)境沒有宕機(jī)時間,而高可用環(huán)境有很小的宕機(jī)時間。但是,在容錯環(huán)境中,由于軟件故障無法被檢測,有可能造成系統(tǒng)的嚴(yán)重破壞。而在高可用環(huán)境中,軟件故障只會造成很小的

10、宕機(jī)時間?,F(xiàn)在,大多數(shù)的公司都愿意忍受一小段的宕機(jī)時間,采用高可用技術(shù),而不愿意花費(fèi)高得多的代價采用只能檢測硬件故障的容錯技術(shù)。另外,在高可用配置中,備份機(jī)還可承擔(dān)其他應(yīng)用。群集多處理技術(shù)群集多處理技術(shù)是指一組松散耦合的機(jī)器,通過網(wǎng)絡(luò)連接在一起,共享磁盤資源。在群集中,多個服務(wù)器協(xié)同工作,為用戶提供一組服務(wù)或資源。將兩個或多個服務(wù)器組成群集來備份關(guān)鍵應(yīng)用是一個劃算的高可用性解決方案。用戶可以使用更多的技術(shù)能力,同時確保關(guān)鍵應(yīng)用在硬件或軟件故障后能夠快速恢復(fù)正常工作。群集多處理技術(shù)還為客戶提供了靈活的擴(kuò)展途徑。客戶可以很容易地在群集中增加處理器以分擔(dān)不斷增加的工作量,還可以對群集中的處理器進(jìn)行升

11、級。而在容錯環(huán)境中,則必須同時增加兩個處理器,其中一個作為冗余備份,在正常工作時不進(jìn)行任何處理。§1.2 HACMP中術(shù)語的定義群集(Cluster):多個服務(wù)器節(jié)點(diǎn)一起工作,使用TCP/IP進(jìn)行通訊,每個節(jié)點(diǎn)上運(yùn)行Cluster Manager進(jìn)程。節(jié)點(diǎn)(Node):群集中的每個運(yùn)行Cluster Manager進(jìn)程的獨(dú)立的機(jī)器。節(jié)點(diǎn)是HACMP的核心部分,節(jié)點(diǎn)上運(yùn)行AIX操作系統(tǒng)和HACMP for AIX軟件。在HACMP群集中,每個節(jié)點(diǎn)有一個唯一的節(jié)點(diǎn)名。一個節(jié)點(diǎn)可能擁有一組資源磁盤、卷組、文件系統(tǒng)、網(wǎng)絡(luò)、網(wǎng)絡(luò)地址和應(yīng)用。節(jié)點(diǎn)上一般運(yùn)行著訪問共享磁盤上數(shù)據(jù)的“后臺”應(yīng)用。資源

12、(Resources):由一個節(jié)點(diǎn)控制的實(shí)體,當(dāng)節(jié)點(diǎn)發(fā)生故障時能夠被其它節(jié)點(diǎn)接管??梢员划?dāng)作資源的實(shí)體有: 磁盤、卷組、文件系統(tǒng) NFS輸出的文件系統(tǒng) IP地址 應(yīng)用程序關(guān)鍵應(yīng)用(Critical Application):由HACMP控制其啟動和停止的應(yīng)用程序,例如數(shù)據(jù)庫的后臺進(jìn)程。事件(Event):群集中發(fā)生的一些事情,即群集狀態(tài)的改變,包括節(jié)點(diǎn)up/down,網(wǎng)絡(luò)up/down,網(wǎng)卡故障等等。行為(Behavior):事件發(fā)生時群集的響應(yīng)動作。事件是由shell腳本控制的。重聚(Reintegration):將故障節(jié)點(diǎn)、網(wǎng)絡(luò)、網(wǎng)卡重新帶回群集的過程。下圖是HACMP群集的一個例子。在實(shí)

13、際的群集中,由于節(jié)點(diǎn)數(shù)目、網(wǎng)絡(luò)拓?fù)洹⒋疟P類型等具體配置的區(qū)別,群集的形狀可能會不同。 圖1:HACMP群集§1.3 HACMP群集的硬件組成從上圖中可以看出,HACMP群集的硬件由以下硬件組成: 節(jié)點(diǎn) 共享磁盤設(shè)備 網(wǎng)絡(luò)和網(wǎng)卡 客戶機(jī)1.3.1 節(jié)點(diǎn)機(jī)型HACMP for AIX軟件支持RS/6000單處理器和SMP機(jī)型作為群集的節(jié)點(diǎn)。在HACMP中,SMP系統(tǒng)和單處理器機(jī)型一樣,都被當(dāng)作單一節(jié)點(diǎn)。采用SMP系統(tǒng)是提高整個群集吞吐量的有效途徑。群集中的每個節(jié)點(diǎn)都可以是一個大的SMP系統(tǒng),使得群集系統(tǒng)遠(yuǎn)遠(yuǎn)超過單個系統(tǒng)的處理能力,可以支持成千上萬個客戶機(jī)連接到單一的數(shù)據(jù)庫系統(tǒng)。1.3.2

14、 共享磁盤設(shè)備群集中的每個節(jié)點(diǎn)都需要配置內(nèi)置硬盤來存儲AIX操作系統(tǒng)、HACMP軟件和應(yīng)用程序。另外,每個節(jié)點(diǎn)都應(yīng)連接到一個或多個外置的共享磁盤上。共享磁盤是指物理上連接到多個節(jié)點(diǎn)的磁盤設(shè)備,共享磁盤上存放著關(guān)鍵任務(wù)的數(shù)據(jù),通常采用鏡像或RAID技術(shù)來提供數(shù)據(jù)的冗余保護(hù)。HACMP的共享磁盤設(shè)備支持SCSI-2 Differential磁盤、SCSI-2 Differential磁盤陣列和串行磁盤。HACMP支持兩種對共享磁盤的訪問方式:非并發(fā)訪問和并發(fā)訪問。在非并發(fā)訪問環(huán)境中,每個時間點(diǎn)上只能有一條活動的連接,保持活動連接的節(jié)點(diǎn)擁有磁盤,當(dāng)此節(jié)點(diǎn)離開群集時,它擁有的磁盤被其他節(jié)點(diǎn)接管。在并發(fā)

15、訪問環(huán)境中,共享磁盤同時與多個節(jié)點(diǎn)保持活動連接,因此當(dāng)節(jié)點(diǎn)故障時,不需要接管磁盤。并發(fā)訪問要求SSA或RAID作為外置共享磁盤。共享硬盤應(yīng)該單獨(dú)放在一個機(jī)柜中,不應(yīng)和機(jī)器混放。1.3.3 網(wǎng)卡一個節(jié)點(diǎn)至少應(yīng)有兩塊網(wǎng)卡連接每個網(wǎng)絡(luò):一塊服務(wù)網(wǎng)卡(service adapter)和一塊備份網(wǎng)卡(standby adapter)。如果配置IP地址接管,還應(yīng)配置啟動網(wǎng)卡(boot adapter)。啟動網(wǎng)卡并不需要單獨(dú)的物理網(wǎng)卡,而是配置在服務(wù)網(wǎng)卡上的不同的IP地址。HACMP for AIX采用網(wǎng)卡標(biāo)識(adapter label)來識別網(wǎng)卡。對于TCP/IP網(wǎng)絡(luò),網(wǎng)卡標(biāo)識是在文件/etc/host

16、s中關(guān)聯(lián)某一IP地址的名字。一個節(jié)點(diǎn)可以定義多個網(wǎng)卡標(biāo)識和IP地址。1.3.4 網(wǎng)絡(luò)HACMP使用LAN來監(jiān)視網(wǎng)絡(luò),網(wǎng)卡和其它節(jié)點(diǎn)的狀態(tài),HACMP支持AIX支持的大多數(shù)基于TCP/IP 的網(wǎng)絡(luò),如 Ethernet、Token-Ring、FDDI、ATM等等。HACMP中定義了三種類型的網(wǎng)絡(luò):公用網(wǎng)絡(luò)(public network)、私用網(wǎng)絡(luò)(private network)和串行網(wǎng)絡(luò)(serial network)。公用網(wǎng)絡(luò)在HACMP環(huán)境中,公用網(wǎng)絡(luò)連接多個節(jié)點(diǎn)并允許客戶機(jī)服務(wù)群集節(jié)點(diǎn)。Ethernet、Token-Ring、FDDI、ATM等網(wǎng)絡(luò)可以被定義為公用網(wǎng)絡(luò)。私用網(wǎng)絡(luò)HACMP

17、群集中的節(jié)點(diǎn)必須相互通訊以實(shí)現(xiàn)對數(shù)據(jù)的連續(xù)訪問。私用網(wǎng)絡(luò)提供兩個節(jié)點(diǎn)之間的點(diǎn)到點(diǎn)通訊,但不允許客戶機(jī)訪問。HACMP使用私用網(wǎng)絡(luò)來傳輸鎖的信息,只有在沒有定義私用網(wǎng)絡(luò)時才使用公用網(wǎng)絡(luò)來傳輸鎖的信息。私用網(wǎng)絡(luò)一般用于并發(fā)訪問磁盤的情況。Ethernet、Token-Ring、FDDI、ATM等網(wǎng)絡(luò)可以被定義為私用網(wǎng)絡(luò)。串行網(wǎng)絡(luò)串行網(wǎng)絡(luò)是兩個節(jié)點(diǎn)之間的點(diǎn)到點(diǎn)連接。HACMP在TCP/IP子系統(tǒng)發(fā)生故障時,使用串行網(wǎng)絡(luò)來傳輸控制信息和心跳信息。串行網(wǎng)絡(luò)可以是一條SCSI-2 Differential總線或一條RS232串行線。網(wǎng)絡(luò)名稱網(wǎng)絡(luò)名稱用于標(biāo)識HACMP群集中的網(wǎng)絡(luò),群集進(jìn)程使用網(wǎng)絡(luò)名稱信息來

18、確定哪些網(wǎng)卡連接在同一物理網(wǎng)絡(luò)上。網(wǎng)絡(luò)的命名是任意的,但必須保持一致。如果多個網(wǎng)卡連接在同一物理網(wǎng)絡(luò)上,定義這些網(wǎng)卡時必須使用相同的網(wǎng)絡(luò)名稱。1.3.5 客戶機(jī)客戶機(jī)是指能夠訪問群集中節(jié)點(diǎn)的機(jī)器??蛻魴C(jī)通過公用局域網(wǎng)絡(luò)與節(jié)點(diǎn)通訊,其上運(yùn)行“前端”程序或客戶機(jī)應(yīng)用來訪問群集節(jié)點(diǎn)上的服務(wù)器應(yīng)用。HACMP for AIX為群集節(jié)點(diǎn)上的關(guān)鍵性的數(shù)據(jù)和應(yīng)用提供高可用性環(huán)境,但不負(fù)責(zé)客戶機(jī)的高可用性。§1.4 AIX與HACMPAIX是第一個,也是最為成熟的第二代UNIX操作系統(tǒng),具有很多先進(jìn)的特征,保證UNIX系統(tǒng)的可靠性和高性能,IBM公司引入到UNIX中的LVM邏輯卷管理和JFS日志文件

19、系統(tǒng),使AIX更容易使用和管理。AIX滿足幾乎所有的工業(yè)標(biāo)準(zhǔn)和事實(shí)標(biāo)準(zhǔn),是真正的開放系統(tǒng)。AIX包含許多承襲IBM大主機(jī)等級的優(yōu)異特性,諸如系統(tǒng)集成性、系統(tǒng)管理及系統(tǒng)可用性。除了具有當(dāng)系統(tǒng)損毀時可以快速修復(fù)的文件系統(tǒng)外,IBM運(yùn)用自身在計(jì)算機(jī)領(lǐng)域45年的經(jīng)驗(yàn),增加了邏輯卷管理和日志文件系統(tǒng)等功能,支持三份能夠同步寫入及錯誤區(qū)塊重新配置的系統(tǒng)鏡像功能,用以確保您高價值的數(shù)據(jù)。IBM在設(shè)計(jì)RISC/6000的AIX操作系統(tǒng)時,針對UNIX系統(tǒng)的弱點(diǎn),重新改寫了UNIX的內(nèi)核,清除200個編程缺陷。在系統(tǒng)功能穩(wěn)定性、可靠性和可管理性方面做了極大的改進(jìn),使UNIX從一個主要面向科技市場的操作系統(tǒng),發(fā)展

20、成為能夠承擔(dān)關(guān)鍵任務(wù)的成熟的操作系統(tǒng)。AIX具有動態(tài)可擴(kuò)展內(nèi)核,用戶裝卸設(shè)備時可聯(lián)機(jī)動態(tài)配置,無須關(guān)機(jī)和重新啟動,具有實(shí)時的擴(kuò)展功能。所有硬件設(shè)備均可隨時動態(tài)增加、更換而不影響文件系統(tǒng)及其數(shù)據(jù)。AIX中的許多功能和HACMP緊密配合,為用戶提供更高的可用性。以下介紹AIX中與HACMP相關(guān)的幾項(xiàng)功能:LVM、JFS、ODM、SMIT和SRC。邏輯卷管理器LVM(Logical Volume Manager)LVM邏輯上將多個硬盤當(dāng)作單一實(shí)體進(jìn)行管理。使用LVM可將存儲空間分區(qū)為“邏輯卷”,可以指定其存放位置,以獲得優(yōu)化的性能和可用性。邏輯卷(文件系統(tǒng))可以動態(tài)擴(kuò)展而不需重新配置整個邏輯硬盤子系

21、統(tǒng)。邏輯卷可以鏡像,避免磁盤的單點(diǎn)故障。LVM使磁盤資源很容易被其他節(jié)點(diǎn)接管。日志文件系統(tǒng)JFS(Journaled File System)在傳統(tǒng)Unix中,文件系統(tǒng)恢復(fù)需要很長時間且文件系統(tǒng)的完整性不能得到保證。AIX使用日志文件系統(tǒng),所有對文件系統(tǒng)的更新在寫到文件系統(tǒng)之前先記入一個日志之中,當(dāng)系統(tǒng)故障后JFS日志可以被重新執(zhí)行,文件系統(tǒng)的更新可以根據(jù)日志前滾或回滾(roll forward/back)。AIX很少用到fsck命令進(jìn)行整個文件系統(tǒng)的恢復(fù),所以故障后恢復(fù)文件系統(tǒng)的時間大大減少,也就大大減少了文件系統(tǒng)接管的時間。ODM(Object Data Manager)ODM是一個面向?qū)?/p>

22、象的數(shù)據(jù)庫,其中存放著系統(tǒng)的配置信息。采用ODM管理使配置信息更加安全,可以免受偶然的或故意的損壞。ODM庫一般通過SMIT、高級命令或應(yīng)用程序進(jìn)行訪問。所有的HACMP配置信息都存放于ODM庫中。HACMP for AIX使用“Global ODM”,可以在一個節(jié)點(diǎn)上做配置,然后傳到群集內(nèi)的所有節(jié)點(diǎn)。這樣可以減少配置的工作量,并保證各個節(jié)點(diǎn)上配置信息的一致性。SMIT(System Management Interface Tool)AIX中絕大部分系統(tǒng)管理功能都可以通過SMIT完成(95%以上)。使用SMIT減少了偶然使用錯誤命令或錯誤選項(xiàng)的可能性,增加了系統(tǒng)的可用性。HACMP全部用SM

23、IT管理,快捷路徑是smit hacmpSRC(System Resource Controller)SRC是一個AIX進(jìn)程,用來管理其它的進(jìn)程。使用startsrc和stopsrc命令來啟動、停止由SRC控制的一組進(jìn)程。如果SRC控制的一個進(jìn)程非正常終止,SRC會自動執(zhí)行一個特定的程序來響應(yīng)。HACMP的進(jìn)程都是由SRC控制和監(jiān)視的。§1.5 HACMP群集的軟件結(jié)構(gòu)HACMP for AIX軟件由以下部分組成: Cluster Manager Event Scripts Cluster Lock Manager Clinfo ClsmuxpdCluster ManagerClus

24、ter Manager運(yùn)行在群集中的所有節(jié)點(diǎn)上。它的主要任務(wù)是監(jiān)視和響應(yīng)群集狀態(tài)的變化,包括:節(jié)點(diǎn)故障和恢復(fù)、網(wǎng)絡(luò)故障和恢復(fù)、網(wǎng)卡故障和恢復(fù)。它負(fù)責(zé)同步和協(xié)調(diào)群集內(nèi)部的動作,發(fā)現(xiàn)錯誤征兆,診斷問題,并做出適當(dāng)?shù)姆磻?yīng)。它還負(fù)責(zé)執(zhí)行Event Scripts(事件腳本)來影響群集狀態(tài)的變化 。Event ScriptsEvent Scripts 定義了為響應(yīng)群集事件所需執(zhí)行的動作。HACMP包括了大多數(shù)情況下的Event Scripts,這些Event Scripts是用標(biāo)準(zhǔn)shell編寫的,使用標(biāo)準(zhǔn)AIX命令和HACMP功能,且可以客戶化。Cluster Lock Manager用于并發(fā)訪問環(huán)境

25、,使多個節(jié)點(diǎn)可以同時訪問相同的數(shù)據(jù)。應(yīng)用程序必須用Cluster Lock Manager API來登記、申請、釋放鎖。Lock Manager協(xié)調(diào)和排序?qū)蚕頂?shù)據(jù)的訪問,防止數(shù)據(jù)的不一致和錯誤。Clinfo & ClsmuxpdClinfo是Cluster Information進(jìn)程。Clinfo API允許應(yīng)用程序來確定群集現(xiàn)在的狀態(tài)和釋放動作響應(yīng)變化,每當(dāng)群集內(nèi)有事件發(fā)生時Clinfo發(fā)布信息。Clinfo的通訊基于SNMP依靠SNMP的代理(clsmuxpd)接收群集狀態(tài)的改變。Clinfo是可選的。§1.6 HACMP群集資源1.6.1資源HACMP for AIX

26、軟件通過以下途徑提供高可用性環(huán)境: 定義一組必須的群集資源,資源可以是硬件,也可以是軟件。 定義群集節(jié)點(diǎn)訪問這些資源的關(guān)系。這些關(guān)系確定哪個節(jié)點(diǎn)控制資源以及當(dāng)該節(jié)點(diǎn)放棄資源的控制權(quán)后哪個節(jié)點(diǎn)接管資源。當(dāng)一個節(jié)點(diǎn)離開群集時,Cluster Manager能夠?qū)⑦@個節(jié)點(diǎn)的資源轉(zhuǎn)移到群集中的其它節(jié)點(diǎn)上。資源的類型高可用資源可以是以下幾種實(shí)體: 應(yīng)用 磁盤 卷組 文件系統(tǒng) NFS文件系統(tǒng) IP地址資源怎樣做到高可用應(yīng)用:由HACMP啟動,如果節(jié)點(diǎn)發(fā)生故障,則在另一節(jié)點(diǎn)重新啟動。磁盤、卷組、文件系統(tǒng):磁盤物理上與多個節(jié)點(diǎn)相連。在非并發(fā)環(huán)境中,一個節(jié)點(diǎn)控制磁盤資源,如果該節(jié)點(diǎn)發(fā)生故障,它控制的磁盤資源由其

27、它節(jié)點(diǎn)接管。在并發(fā)環(huán)境中,多個節(jié)點(diǎn)同時控制磁盤資源,一個節(jié)點(diǎn)發(fā)生故障并不影響其它節(jié)點(diǎn)。IP地址:如果服務(wù)網(wǎng)卡發(fā)生故障,由本機(jī)的備份網(wǎng)卡接管其地址,稱為“網(wǎng)卡切換”。如果整個節(jié)點(diǎn)故障,由另一個群集節(jié)點(diǎn)的備份網(wǎng)卡接管其地址,稱為“IP地址接管”。1.6.2 資源組每個HACMP的高可用資源都必須被分配在某個資源組中。資源組允許您將相關(guān)的資源結(jié)合成一個單一的實(shí)體,便于配置和管理。HACMP共有三種類型的資源組,分別是Cascading資源組、Rotating資源組和Concurrent資源組。在一個群集中可以有多個不同類型的資源組。定義資源組的類型實(shí)際上就是定義了群集的故障恢復(fù)策略。Cascadin

28、g資源組Cascading資源組可以被一個或多個節(jié)點(diǎn)接管。所有被指定參與接管一個資源組的節(jié)點(diǎn)都是該資源組的資源鏈的一部分,每個參與的節(jié)點(diǎn)都被指定了接管優(yōu)先級,優(yōu)先級代表了接管可用資源的順序。當(dāng)接管發(fā)生時,具有最高優(yōu)先級的活動節(jié)點(diǎn)將獲得資源組。如果該節(jié)點(diǎn)不可用,則由具有次高優(yōu)先級的節(jié)點(diǎn)獲得資源組,依此類推。當(dāng)對該資源組具有更高優(yōu)先級的節(jié)點(diǎn)重新回到群集后,它將取回它的資源組。Rotating 資源組一個Rotating 資源組和一組節(jié)點(diǎn)相關(guān)聯(lián)。資源組在所有被定義的節(jié)點(diǎn)之間輪轉(zhuǎn)。每個節(jié)點(diǎn)可以擁有一個資源組。開始時,第一個加入群集的節(jié)點(diǎn)獲得第一個資源組,第二個加入群集的節(jié)點(diǎn)獲得第二個資源組,依此類推,

29、直到所有的資源組都被節(jié)點(diǎn)獲得。剩余的節(jié)點(diǎn)作為備份節(jié)點(diǎn)。當(dāng)一個控制資源的節(jié)點(diǎn)故障時,可用節(jié)點(diǎn)中對資源組具有最高優(yōu)先級的節(jié)點(diǎn)將接管資源組。當(dāng)故障節(jié)點(diǎn)重新加入群集后,成為備份節(jié)點(diǎn),不再取回資源組。Concurrent 資源組Concurrent 資源組由多個節(jié)點(diǎn)共享。所有并發(fā)訪問資源組的節(jié)點(diǎn)在加入群集后都獲得該資源組。節(jié)點(diǎn)之間沒有優(yōu)先級的區(qū)別。由于AIX JFS 不支持并發(fā)訪問,應(yīng)用就必須用生設(shè)備(邏輯卷)。因此Concurrent 資源組的資源只能有應(yīng)用、磁盤和卷組。Concurrent 資源組的共享磁盤必須是SSA盤或RAID盤。資源鏈每個能訪問資源組的節(jié)點(diǎn)都必須被列為參與節(jié)點(diǎn),參與節(jié)點(diǎn)的列表就

30、建立了資源組的資源鏈。這樣,這幾個節(jié)點(diǎn)都可以參與維護(hù)資源組的可用性。對于Cascading資源組或Rotating 資源組來說,這也就建立了資源鏈中各節(jié)點(diǎn)的優(yōu)先級。對于Cascading資源組,當(dāng)前在資源鏈中具有最高優(yōu)先級的活動節(jié)點(diǎn)將從故障節(jié)點(diǎn)處獲得資源組。對于Rotating資源組,當(dāng)前在資源鏈中具有最高優(yōu)先級且具有可用連接(網(wǎng)絡(luò)、網(wǎng)卡、IP地址)的節(jié)點(diǎn)將從故障節(jié)點(diǎn)處獲得資源組。接管節(jié)點(diǎn)可能是已經(jīng)擁有資源的節(jié)點(diǎn),也可能是備份節(jié)點(diǎn)。HACMP對資源組的位置有如下假定:Cascading具有最高優(yōu)先級的活動節(jié)點(diǎn)控制資源組。Rotating具有與Rotating資源組相關(guān)的服務(wù)地址的節(jié)點(diǎn)控制資源組

31、。Concurrent所有活動節(jié)點(diǎn)都擁有資源組。§1.7 建立高可用系統(tǒng)避免單點(diǎn)故障高可用系統(tǒng)的主要特點(diǎn)是具有檢測和響應(yīng)可能影響到關(guān)鍵服務(wù)的事件的能力。HACMP for AIX軟件使群集在遇到系統(tǒng)的關(guān)鍵組件(例如網(wǎng)卡)發(fā)生故障的情況下仍能繼續(xù)對外提供服務(wù)。HACMP for AIX軟件通過避免單點(diǎn)故障的方式建立高可用的和可擴(kuò)展的群集。單點(diǎn)故障點(diǎn)是指一個關(guān)鍵的群集功能只由單一的組件提供,當(dāng)這個組件故障時,群集沒有其它的途徑提供關(guān)鍵的服務(wù)。在群集中,有可能出現(xiàn)單點(diǎn)故障的群集組件是: 節(jié)點(diǎn) 網(wǎng)絡(luò)和網(wǎng)卡 磁盤和磁盤控制卡 應(yīng)用HACMP可以檢測和響應(yīng)三種類型的故障:節(jié)點(diǎn)故障、網(wǎng)卡故障和網(wǎng)絡(luò)

32、故障。1.7.1 節(jié)點(diǎn)故障節(jié)點(diǎn)故障指處理器硬件或操作系統(tǒng)故障。當(dāng)發(fā)生節(jié)點(diǎn)故障上,其它節(jié)點(diǎn)可以配置為: 接管共享磁盤 Vary-on卷組 Mount文件系統(tǒng) Export NFS文件系統(tǒng) 接管IP地址 重啟應(yīng)用磁盤接管 圖2:節(jié)點(diǎn)故障時的磁盤接管磁盤物理上與多個節(jié)點(diǎn)相連。在非并發(fā)環(huán)境中,一個節(jié)點(diǎn)控制磁盤資源,如果該節(jié)點(diǎn)發(fā)生故障,它控制的磁盤資源(包括卷組、文件系統(tǒng)等)由其它節(jié)點(diǎn)接管。在并發(fā)環(huán)境中,多個節(jié)點(diǎn)同時控制磁盤資源,因此不需要磁盤接管。圖2表示了非并發(fā)環(huán)境磁盤接管的過程。IP地址接管 圖3:節(jié)點(diǎn)故障時的IP地址接管IP地址接管使另一節(jié)點(diǎn)可以獲得故障節(jié)點(diǎn)的網(wǎng)絡(luò)地址。當(dāng)提供給客戶機(jī)的服務(wù)綁定到

33、一個特定的IP地址時,必須配置IP地址接管。如果只接管磁盤,客戶機(jī)將無法訪問服務(wù)器的IP地址。IP地址接管過程如圖3所示。應(yīng)用接管當(dāng)以下關(guān)鍵應(yīng)用的節(jié)點(diǎn)離開群集時,接管節(jié)點(diǎn)重新啟動這個關(guān)鍵應(yīng)用,使服務(wù)得以繼續(xù)。1.7.2 網(wǎng)卡故障HACMP軟件能夠處理服務(wù)網(wǎng)卡和備份網(wǎng)卡的故障。當(dāng)服務(wù)網(wǎng)卡故障時,Cluster Manager將同一節(jié)點(diǎn)的服務(wù)網(wǎng)卡和備份網(wǎng)卡進(jìn)行切換,服務(wù)網(wǎng)卡的故障是透明的。Cluster Manager檢測到備份網(wǎng)卡故障時只是記入日志,并不進(jìn)行其它操作。圖4是網(wǎng)卡切換的過程。 圖4:網(wǎng)卡切換1.7.3 網(wǎng)絡(luò)故障當(dāng)群集中連接所有節(jié)點(diǎn)的網(wǎng)絡(luò)故障時,由于網(wǎng)絡(luò)配置各不相同,所以HACMP無

34、法定義響應(yīng)動作。此時系統(tǒng)在主控臺上顯示信息,事件被記入日志。用戶可以根據(jù)實(shí)際情況自己編寫腳本程序來響應(yīng)網(wǎng)絡(luò)故障。在大多數(shù)配置中,網(wǎng)絡(luò)都是單點(diǎn)故障點(diǎn)。為避免發(fā)生網(wǎng)絡(luò)單點(diǎn)故障,建議在配置HACMP時配置雙網(wǎng)絡(luò)。1.7.4 其它類型的故障磁盤和磁盤控制卡故障HACMP自己不能直接處理磁盤和磁盤控制卡故障。但是數(shù)據(jù)可通過AIX的LVM 鏡像或磁盤陣列的RAID功能處理。如果共享磁盤使用SCSI-2 Differential磁盤或SSA磁盤,磁盤故障可通過AIX的LVM 鏡像處理。此時需要跨磁盤進(jìn)行LVM鏡像。單一磁盤故障就不會影響數(shù)據(jù)的可用性。如果磁盤配置卡發(fā)生故障,數(shù)據(jù)可通過跨總線的LVM鏡像來復(fù)制

35、。如果共享磁盤使用磁盤陣列,磁盤陣列自己負(fù)責(zé)數(shù)據(jù)的冗余保護(hù)。在連接RAID磁盤陣列時應(yīng)采用多總線,避免磁盤配置卡的單點(diǎn)故障。其他硬件故障在HACMP中沒有直接支持,但可通過AIX Error Notification功能來捕獲特定錯誤并執(zhí)行響應(yīng)命令,例如:當(dāng)發(fā)生關(guān)鍵硬件故障時可以shutdown,由另一個節(jié)點(diǎn)接管。應(yīng)用程序錯誤可以自己編寫應(yīng)用監(jiān)視程序監(jiān)視應(yīng)用程序的錯誤信息或進(jìn)程狀態(tài),也可以通過AIX的SRC功能進(jìn)行管理。HACMP錯誤HACMP的主進(jìn)程發(fā)生錯誤時,可升級為節(jié)點(diǎn)故障進(jìn)行處理。電源故障不要將同一設(shè)備的電源連接到一個電源上,最好使用UPS。1.7.5 哪些情況下不適合使用HACMPH

36、ACMP并不是萬能的,以下應(yīng)用環(huán)境不適于采用HACMP來實(shí)現(xiàn)高可用性: 應(yīng)用程序不在檢查點(diǎn)(Check-Point)時將數(shù)據(jù)寫入磁盤。這樣會造成節(jié)點(diǎn)故障時,無法保證數(shù)據(jù)的完整性。 系統(tǒng)崩潰后,應(yīng)用程序不能自動恢復(fù)其數(shù)據(jù)。 哪怕幾秒鐘的巖機(jī)時間都是不可接受的。 內(nèi)存里的內(nèi)容不能丟失對于最后兩種情況,建議采用容錯系統(tǒng)。第二章 HACMP群集的設(shè)計(jì)HACMP for AIX只是IBM公司的提供高可用性的一個工具,實(shí)際應(yīng)用環(huán)境中的高可用性并不能僅僅依靠HACMP來實(shí)現(xiàn)。設(shè)計(jì)高可用的應(yīng)用環(huán)境,必須全面考慮RS/6000硬件平臺、AIX操作系統(tǒng)、HACMP群集結(jié)構(gòu)和應(yīng)用等各個方面。§2.1 高可

37、用性設(shè)計(jì)要點(diǎn)努力做到“沒有單點(diǎn)故障”:這是設(shè)計(jì)的前提,應(yīng)貫穿設(shè)計(jì)的始終自動故障恢復(fù):故障恢復(fù)應(yīng)無需人工干預(yù)權(quán)衡投資、性能和可用性的關(guān)系:在保證可用性和性能的條件下,使硬件投資最大程度地發(fā)揮效力考慮應(yīng)用軟件: 認(rèn)真編寫啟動和停止腳本,使應(yīng)用在故障時能自動恢復(fù)設(shè)計(jì)高可用網(wǎng)絡(luò)考慮客戶機(jī):使客戶機(jī)受群集故障影響最小其它需要考慮的問題:各節(jié)點(diǎn)的用戶帳號和用戶目錄,批處理、打印隊(duì)列、郵件、備份等其他應(yīng)用和服務(wù)§2.2 存儲系統(tǒng)設(shè)計(jì)設(shè)計(jì)高可用的配置的主要部分之一是共享的磁盤存儲設(shè)備。RS/6000具有全系列的磁盤存儲設(shè)備可用于HACMP,這些設(shè)備可分成以下三類: 常規(guī)SCSI磁盤,包括SCSI-2

38、 Differential和SCSI-2 Differential Fast/Wide磁盤。 RAID磁盤陣列 SSA磁盤子系統(tǒng)選擇存儲子系統(tǒng)要考慮其自身可用性、性能以及價格等因素,以下討論在使用這幾種存儲設(shè)備時的一些考慮。2.2.1 SCSI磁盤的原理和在HACMP環(huán)境中的考慮SCSI(Small Computer System Interface)是一種工業(yè)標(biāo)準(zhǔn),也是ANSI標(biāo)準(zhǔn)。它的硬件設(shè)備比較可靠,容易理解和實(shí)現(xiàn),而且相對便宜。SCSI磁盤是最通用的磁盤設(shè)備。SCSI總線上支持多個設(shè)備,允許多個磁盤“并發(fā)”工作。實(shí)際上,在一個時間點(diǎn)上只允許有一個設(shè)備使用總線,但當(dāng)一個硬盤/磁帶在從介質(zhì)

39、上讀寫數(shù)據(jù)時,總線空出,這時其它設(shè)備可以使用總線。SCSI技術(shù)適合于多任務(wù)操作系統(tǒng)。由于SCSI磁盤本身并沒有數(shù)據(jù)的冗余性考慮,而且性能也不如SSA磁盤,所以在現(xiàn)在的HACMP共享磁盤配置中,已經(jīng)很少采用SCSI磁盤了。但是討論SCSI技術(shù)的一些概念對于采用SCSI總線連接的RAID磁盤陣列還是有幫助的。SCSI的初始者和目標(biāo)SCSI總線的通訊在初始者和目標(biāo)這兩個實(shí)體之間進(jìn)行。初始者(Initiator):負(fù)責(zé)選擇目標(biāo),發(fā)出命令和數(shù)據(jù),通常為SCSI卡目標(biāo)(Target):采取正確的行動來響應(yīng)Initiator的命令,通常為磁盤或磁帶機(jī),也可以是SCSI卡。SCSI的保留(Reserve)和釋

40、放(Release)結(jié)構(gòu)在SCSI總線上,任何Initiator可以將一個目標(biāo)置于Reserve狀態(tài)以獨(dú)占使用。而處于Reserve狀態(tài)下的磁盤,只有這個Initiator才可以釋放它。AIX中通過varyonvg 命令實(shí)現(xiàn)SCSI的保留,通過varyoffvg 命令實(shí)現(xiàn)SCSI的釋放。SCSI總線的終結(jié)所有的SCSI總線必須在兩端都要終結(jié)。終結(jié)器一般是一端在SCSI卡上,另一端在最后一個設(shè)備上。在HACMP環(huán)境下,終結(jié)器不能放在SCSI卡上,而在放在總線上。這樣配置使得當(dāng)節(jié)點(diǎn)發(fā)生故障時,總線仍然是完整的,仍能正常終結(jié),故障節(jié)點(diǎn)可以離開SCSI總線。SCSI IDSCSI總線上的每塊卡和每個設(shè)

41、備必須有一個唯一的SCSI ID。同一條總線上的ID一定不能重復(fù)。SCSI總線上設(shè)備的優(yōu)先級取決于SCSI ID,SCSI ID高的設(shè)備優(yōu)先級高,具體順序是7 6 5 4 3 2 1 0 15 14 13 12 11 10 9 8。HACMP環(huán)境中SCSI卡的SCSI ID在SCSI總線上,SCSI卡應(yīng)該有最高的ID號,因此所有的SCSI卡的缺省ID為7。在HACMP環(huán)境中,由于一條總線上有多塊SCSI卡,這樣就會會發(fā)生沖突。因此必須修改SCSI卡的SCSI ID。可能的話,所有SCSI卡的ID都不要配置為7,因?yàn)閺木S護(hù)狀態(tài)重啟系統(tǒng)時,SCSI 卡的ID回到7,有可能發(fā)生沖突。在HACMP環(huán)境

42、中,SCSI卡的ID一般用6 或5。使用SCSI磁盤的一般考慮 不要熱插拔SCSI總線 SCSI總線長度有限制 SCSI ID不能沖突 總線兩端要有終結(jié)器 在HACMP環(huán)境中,要從SCSI卡上拔下終結(jié)電阻 在HACMP環(huán)境中,維護(hù)SCSI設(shè)備時要確保其它機(jī)器沒有使用SCSI總線2.2.2 RAID磁盤陣列和HACMP什么是RAID設(shè)備RAID(Redundant Array of Independent Disks),是通過跨磁盤保存數(shù)據(jù)的校驗(yàn)信息在硬件級保護(hù)數(shù)據(jù)的技術(shù)。當(dāng)一個硬盤故障時,它上面的數(shù)據(jù)可以通過其它盤上的校驗(yàn)數(shù)據(jù)重建。RAID技術(shù)有一些特點(diǎn): RAID技術(shù)(RAID 5)比AIX

43、的LVM鏡像便宜,且利用率高。 冗余的子系統(tǒng)組件(電源、風(fēng)扇、陣列控制器)減少了單點(diǎn)故障。 磁盤可熱插拔,易于維護(hù),但總線不可熱插拔。 適用于HACMP環(huán)境IBM公司的RAID設(shè)備主要有7135磁盤陣列和7137磁盤陣列。RAID級別RAID 級別(0-5)定義了跨磁盤存放數(shù)據(jù)的方式。常用的有RAID0,1,5。RAID特點(diǎn)數(shù)據(jù)冗余優(yōu)點(diǎn)0數(shù)據(jù)跨磁盤分條存放無性能好1磁盤間鏡像鏡像保護(hù)數(shù)據(jù),但利用率低(50%)5數(shù)據(jù)和校驗(yàn)信息跨磁盤分條存放校驗(yàn)信息分條存放于各個磁盤同時可以有多個I/O,適用于交易處理應(yīng)用IBM 7135 RAID子系統(tǒng)IBM 7135 RAID子系統(tǒng)是IBM的主打RAID產(chǎn)品。

44、7135具有雙陣列控制器,可防止單點(diǎn)故障,并增加總體吞吐量。RS/6000可通過兩條獨(dú)立的SCSI總線連接7135,每條總線連接在一個陣列控制器上。7135軟件可以在一條總線故障時將應(yīng)用切換至另一條總線上。7135的磁盤、風(fēng)扇/電源模塊,陣列控制器和冷卻系統(tǒng)都可熱插拔。7135可配置成多邏輯單元(LUN),使用靈活。為避免單點(diǎn)故障,每臺RS/6000一定要配置兩塊SCSI卡。另外7135有三個電源模塊,建議將三個電源模塊分別連在不同的電源上。7135設(shè)備在AIX中的定義在一條總線上,整個7135磁盤陣列的所有磁盤只有一個SCSI ID,但7135的陣列控制器各有一個SCSI ID。7135是通

45、過邏輯單元(LUN)管理的,每個LUN在AIX中被當(dāng)作一個普通物理磁盤(hdisk),只不過這種磁盤本身具有數(shù)據(jù)冗余性。7135的雙總線結(jié)構(gòu)可以增加可用性,而且同時使用時可提高性能。每個LUN可以被分配到一條總線上,LUN也可以在使用過程中切換至另一條總線。管理7135的SMIT快捷路徑是smit raidiant。7135的主菜單如圖5所示。在AIX查看7135設(shè)備用以下命令:lsdev C | grep Array 圖5 7135主菜單2.2.3 SSA磁盤子系統(tǒng)和HACMPSSA(Serial Storage Architecture)是指IBM倡導(dǎo)的串行存儲結(jié)構(gòu)。SSA設(shè)備之間通過一個

46、高速的雙向環(huán)進(jìn)行通訊。SSA的特點(diǎn)如下: 全雙工、幀復(fù)用I/O,允許在任一指定的通道上進(jìn)行多個并發(fā)通訊 每個設(shè)備之間單向最大數(shù)據(jù)傳輸速度為20MB/S 每個連接的最大電纜長度為25M 熱插拔硬盤和電纜 自動配置和尋找替代路徑的能力 沒有設(shè)備地址,總線終結(jié)和電纜長度的限制SSA的拓?fù)浣Y(jié)構(gòu)如圖6所示。IBM公司的主要SSA設(shè)備是7133-020和7133-600,其中7133-020是機(jī)柜設(shè)備,而7133-600是桌邊型設(shè)備,兩種設(shè)備都能支持16塊磁盤。和7135相比,7133具有很多明顯的優(yōu)勢。無論從性能、靈活性、可用性、技術(shù)的先進(jìn)性以及產(chǎn)品本身的可靠性來說,7133都優(yōu)于7135。 圖6 SS

47、A拓?fù)浣Y(jié)構(gòu)SSA增加了可用性SSA設(shè)備之間采用順序點(diǎn)到點(diǎn)的菊花鏈方式連接,每個設(shè)備都負(fù)責(zé)錯誤檢測和糾正。連接SSA設(shè)備的電纜是屏蔽的四芯銅線,分成兩對,每對線負(fù)責(zé)一個方向的傳輸。這樣在同一電纜上將讀寫通道分開,可以實(shí)現(xiàn)多個并發(fā)的、全雙工的I/O操作。當(dāng)硬盤或電纜故障時,SSA有自動loopback功能,可以維持通訊。SSA鏈路的故障對應(yīng)用來說通常是透明的,正在用這條路徑通訊的設(shè)備會自動用這個環(huán)上的反向路徑繼續(xù)通訊。SSA設(shè)備的旁路功能 圖7 7133-020的內(nèi)部結(jié)構(gòu)圖圖7是7133-020的內(nèi)部結(jié)構(gòu)圖。在7133-020/600中有一種自動旁路(Bypass)功能:如果成對相鄰的兩個端口(4

48、,5、8,9、12,13)都沒有連接7133電纜,則在7133內(nèi)部將兩個端口自動連接。這種設(shè)計(jì)簡化了連接難度,減少了連線。7133與RS/6000的連接為避免單點(diǎn)故障,建議在配置RS/6000應(yīng)配置兩塊SSA磁盤控制卡。在連接7133時,應(yīng)將磁盤分成兩個環(huán)路,分別連在兩塊SSA卡上。圖8是一個沒有單點(diǎn)故障的7133連接圖。 圖8 7133連接圖SSA設(shè)備的管理SSA設(shè)備的管理在診斷程序中進(jìn)行。按以下路徑進(jìn)入SSA設(shè)備的管理菜單:diagTask Selection(Diagnostics, Advanced Diagnostics, Service Aids, etc.)SSA Service

49、 Aids。圖9是SSA管理的主菜單。 圖9 SSA管理主菜單2.2.4 HACMP環(huán)境下物理盤的注意事項(xiàng)Hdisk號和PVID在AIX中,cfgmgr檢測和配置磁盤時為每個磁盤分配一個hdisk號,hdisk號是從0開始指定的,順序由cfgmgr檢測的順序決定。當(dāng)磁盤被配置到卷組中后,在ODM庫中會得到一個唯一的標(biāo)識,這個標(biāo)識同時保存在硬盤上,叫做PVID。PVID和hdisk的關(guān)系由ODM維護(hù),系統(tǒng)每次啟動時保持一致。當(dāng)兩個以上節(jié)點(diǎn)訪問同一組磁盤時,每個節(jié)點(diǎn)單獨(dú)檢測配置磁盤并指定hdisk號,所以每個節(jié)點(diǎn)上對應(yīng)同一磁盤的hdisk號可能不一致。導(dǎo)致hdisk號不一致的原因有兩個:內(nèi)置磁盤數(shù)

50、目不同或磁盤卡插的位置不同。hdisk號不一致對于HACMP來說并不是一個問題。因?yàn)镠ACMP的磁盤資源是配置是在卷組級,所以HACMP并不關(guān)心hdisk號。但是如果hdisk號一致,HACMP管理起來會容易些。因此最好在配置HACMP之前將各個節(jié)點(diǎn)上的共享磁盤配置成相同的hdisk號。對于內(nèi)置磁盤數(shù)目不同的情況,可以在內(nèi)置磁盤較少的節(jié)點(diǎn)上配置一個不存在的硬盤。對于磁盤卡位置不同的情況,可以移動磁盤卡,使得cfgmgr按相同順序檢測和配置硬盤?!坝撵`”磁盤(Ghost Disks)在對共享磁盤非并發(fā)訪問的情況下,當(dāng)一個節(jié)點(diǎn)放棄磁盤時,它先umount 共享文件系統(tǒng),然后Vary-off共享卷組

51、。另一個節(jié)點(diǎn)接管磁盤時,先Vary-on共享卷組,再mount共享文件系統(tǒng)。這些都是AIX的功能。但是,由于varyonvg命令將卷組中的所有磁盤置為RESERVE狀態(tài),以獨(dú)占方式使用,所以當(dāng)一個節(jié)點(diǎn)出現(xiàn)故障時,它不能自動放棄它的資源。備份節(jié)點(diǎn)要想取得資源,必須發(fā)出SCSI RESET命令來解除RESERVE狀態(tài),然后再Vary-on共享卷組。當(dāng)故障節(jié)點(diǎn)修好后返回群集,系統(tǒng)啟動時運(yùn)行cfgmgr命令檢測到共享磁盤,但由于備份節(jié)點(diǎn)正在Vary-on共享磁盤,磁盤處于RESERVE狀態(tài),所以cfgmgr不能讀取PVID,也就不能確定檢測到的共享磁盤和ODM庫中的磁盤是同一個盤。此時系統(tǒng)為新檢測到的

52、共享磁盤指定一些“幽靈”盤號,而實(shí)際上這些磁盤還是不存在的。如何處理“幽靈”磁盤對于“幽靈”磁盤,我們的建議是:什么也不做。HACMP事件腳本會在需要重新獲得磁盤資源時清理“幽靈”磁盤,步驟如下: Reset磁盤以清除RESERVE狀態(tài) 刪除新配置的(不存在的)盤(rmdev dl hdiskx) 配置真正的盤,由defined狀態(tài)變成available狀態(tài)(mkdev l hdiskx)當(dāng)看到“幽靈”磁盤時,只需明白“幽靈”磁盤為什么會存在,但不需要做任何工作,HACMP會自動清理“幽靈”磁盤。但是清理“幽靈”磁盤增加了重配置時間。2.2.5共享磁盤的維護(hù)對雙尾(Twin-Tailed)SC

53、SI總線的維護(hù)會影響總線上所有的設(shè)備,此時應(yīng)注意: 不需要熱插拔磁盤、卡和電纜 先停止總線的活動 最好Vary-off共享卷組在群集中運(yùn)行診斷程序時,應(yīng)注意: 從診斷方式或“mksysb”磁帶啟動令導(dǎo)致系統(tǒng)內(nèi)所有SCSI卡的ID回到缺省值“7”,這時有可能會引起ID沖突,所以SCSI卡的ID最好都不設(shè)成7 如果必要,啟動時先斷開SCSI總線 從診斷方式啟動時,hdisk號可能和正常啟動時不一樣 磁盤正在另一節(jié)點(diǎn)訪問時,不要運(yùn)行診斷程序§2.3 LVM組件設(shè)計(jì)2.3.1 LVM組件的設(shè)計(jì)目標(biāo)沒有單點(diǎn)故障, 所有邏輯卷,包括JFS日志,均使用LVM鏡像 將鏡像放在不同的物理卷上 使用多塊

54、磁盤卡 使用多個電源2.3.2 LVM配置要點(diǎn)畫出草圖首先應(yīng)該畫出整個群集的設(shè)計(jì)草圖,在圖中為VG和LV指定有意義的且唯一的名字。如果VG包含輸出的NFS文件系統(tǒng),那么在所有節(jié)點(diǎn)上VG的major number要一致。在一個節(jié)點(diǎn)上建立所有的LVM實(shí)體 共享VG只能使用外置磁盤 建文件系統(tǒng)之前,先建立JFS日志 將VG配置為系統(tǒng)啟動時非自動Vary-on狀態(tài) 配置文件系統(tǒng)為系統(tǒng)啟動時非自動mount狀態(tài) VG、LV、FS都建立好后,執(zhí)行命令varyoffvg在其它節(jié)點(diǎn)上建立LVM實(shí)體 用SMIT導(dǎo)入VG的配置信息,SMIT路徑是smit vgImport a Volume Group 用chvg

55、 a n命令禁止VG自動Vary-on Mount 文件系統(tǒng),確認(rèn)操作成功配置鏡像的JFS日志通常,當(dāng)?shù)谝粋€文件系統(tǒng)添加到卷組時,系統(tǒng)自動建立JFS日志。在HACMP環(huán)境中,為確保JFS日志邏輯卷的名字唯一且邏輯卷鏡像,應(yīng)按如下方式建立JFS日志: 用smit mkvg來建立VG,指定唯一名字如“sharedvg” 建立一個邏輯卷,類型為“jfslog”,大小為1個LP,每個LP指定2-3個拷貝 指定唯一名字如“sharevglog” 用命令logform /dev/sharevglog將邏輯卷格式化為日志邏輯卷 建立另外的邏輯卷,指定唯一的名字 在LV上建文件系統(tǒng)維護(hù)HACMP LVM組件卷

56、組的定義信息保存在以下位置:磁盤上的VGDA、ODM、/etc/vg/vg*和內(nèi)存中,在維護(hù)LVM時,要保證共享此VG的所有節(jié)點(diǎn)上,此信息必須一致。如果LVM實(shí)體需要改變,包括增加/刪除PV、增加/刪除LV、擴(kuò)展LV或FS、為LV或FS重命名等操作,應(yīng)遵循以下步驟進(jìn)行: 在一個節(jié)點(diǎn)上進(jìn)行配置,然后測試 在所有其它節(jié)點(diǎn)上輸出舊的VG定義:exportvg sharedvg 重新導(dǎo)入VG定義:impoitvg v (major number) y (VG name) f (hdisk#) 修改VG的屬性:chvg a n (VG name) 檢查、修改LV的屬主和權(quán)限§2.4 HACMP for AIX的網(wǎng)絡(luò)設(shè)計(jì)2.4.1 服務(wù)(Sevice)網(wǎng)卡和備份(Standby)網(wǎng)卡在HACMP cluster中,每個節(jié)點(diǎn)在每個網(wǎng)絡(luò)上通常配置兩塊網(wǎng)卡:服務(wù)網(wǎng)卡和備份網(wǎng)卡。服務(wù)網(wǎng)卡服務(wù)網(wǎng)卡是節(jié)點(diǎn)和客戶機(jī)之間的基本路徑,節(jié)點(diǎn)在它連接的每個物理網(wǎng)絡(luò)上都應(yīng)有一塊服務(wù)網(wǎng)卡。服務(wù)網(wǎng)卡承擔(dān)標(biāo)準(zhǔn)的client/server業(yè)務(wù),它的IP地址能夠被網(wǎng)上的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論