由于IBM的AIX小型機(jī)往往在信息系統(tǒng)中作為最核心的服務(wù)器被采用,一旦出現(xiàn)故障如不能及時(shí)處理、恢復(fù),其后果可能就是災(zāi)難性的。本文在民航空管大數(shù)據(jù)存儲(chǔ)背景下,就AIX數(shù)據(jù)庫(kù)服務(wù)器的快速恢復(fù)方法展開(kāi)討論。針對(duì)硬件、系統(tǒng)、數(shù)據(jù)三個(gè)故障層面,結(jié)合傳統(tǒng)的故障定位方法,尋求出一套無(wú)需準(zhǔn)確定位就能進(jìn)行AIX小型機(jī)快速恢復(fù)的高效解決方案。
【關(guān)鍵詞】小型機(jī) AIX系統(tǒng) 快速恢復(fù)
IBM的AIX小型機(jī)對(duì)于集群有著良好的支持,以其高可靠性、安全性在民航空管重要信息系統(tǒng)中有著較多應(yīng)用。由于IBM的AIX小型機(jī)往往在信息系統(tǒng)中作為最核心的服務(wù)器被采用,如核心應(yīng)用服務(wù)器、核心數(shù)據(jù)交換服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器等。因此,一旦出現(xiàn)故障如不能及時(shí)處理、恢復(fù),其后果可能就是災(zāi)難性的。
近年來(lái),民航空管技術(shù)不斷發(fā)展,目前正大力推進(jìn)基于海量數(shù)據(jù)的協(xié)同決策管理系統(tǒng)、智能化管制指揮系統(tǒng)的研究與實(shí)現(xiàn),這些新型綜合信息管理應(yīng)用系統(tǒng)接收的數(shù)據(jù)源包括一次雷達(dá)信號(hào)、二次雷達(dá)信號(hào)、廣播式自動(dòng)相關(guān)監(jiān)視信號(hào)(ADS-B),具有數(shù)據(jù)量大,實(shí)時(shí)性強(qiáng)等特點(diǎn)。因此,此類(lèi)信息系統(tǒng)對(duì)于其核心數(shù)據(jù)庫(kù)的快速恢復(fù)有著非常高的要求。本文就AIX小型機(jī)的快速恢復(fù)方法展開(kāi)討論,研究了多種的應(yīng)急恢復(fù)方法。第一類(lèi)是故障定位后進(jìn)行恢復(fù)的方法,即故障定位后,根據(jù)故障原因進(jìn)行恢復(fù)。第二類(lèi)是無(wú)需故障定位(或故障無(wú)法定位)的方法,包括基于磁帶的備機(jī)整機(jī)替換方法,基于硬盤(pán)的備機(jī)整機(jī)替換方法以及備機(jī)作為RAC新節(jié)點(diǎn)的方法等。最后,本文對(duì)這些方法進(jìn)行了比較分析,并提出了高效的解決方案。
1 故障定位恢復(fù)方法研究
1.1 故障定位
當(dāng)故障發(fā)生,AIX系統(tǒng)所承載的業(yè)務(wù)不可用時(shí),首先需要進(jìn)行故障設(shè)備定位。故障可能在于小型機(jī)本生,也可能是與小型機(jī)相關(guān)的其他設(shè)備,如磁盤(pán)陣列、光纖交換機(jī)、光纖線、光纖模塊等。如果故障存在于小型機(jī),一般需要判斷故障是屬于硬件故障,還是系統(tǒng)故障、數(shù)據(jù)故障,或是其上運(yùn)行的軟件故障??梢酝ㄟ^(guò)指示燈狀態(tài)、errpt故障信息、控制面板上的LED代碼、系統(tǒng)管理服務(wù)故障記錄、MAIL、運(yùn)行故障診斷程序、各種系統(tǒng)日志等方法來(lái)收集小型機(jī)故障定位信息。
1.2 硬件級(jí)故障恢復(fù)
當(dāng)故障定位判斷結(jié)果確定故障為硬件故障后,要確定具體的硬件部件,需要相應(yīng)備件及時(shí)到場(chǎng),對(duì)該故障部件進(jìn)行更換。AIX系統(tǒng)故障部件可以分為主板、電源、硬盤(pán)、內(nèi)存和PCI卡。PCI卡一般包括網(wǎng)卡和光纖卡。各部件更換的具體操作步驟如表1所示。
1.3 系統(tǒng)級(jí)故障恢復(fù)
當(dāng)故障定位發(fā)現(xiàn)硬件完全正常,而是由于操作系統(tǒng)故障導(dǎo)致AIX系統(tǒng)不可用時(shí),可以通過(guò)AIX系統(tǒng)rootvg恢復(fù)來(lái)修復(fù)故障。rootvg恢復(fù)以及其他卷組的恢復(fù)都需要在系統(tǒng)正常時(shí)事先進(jìn)行備份,在放入磁帶完成倒帶后,可以通過(guò)smit進(jìn)行備份。若rootvg卷組出現(xiàn)某種問(wèn)題,且系統(tǒng)當(dāng)前還在運(yùn)行,不可立即重新啟動(dòng)系統(tǒng)環(huán)境,因?yàn)橐坏╆P(guān)閉,可能系統(tǒng)就無(wú)法再次啟動(dòng)。
1.4 數(shù)據(jù)級(jí)故障恢復(fù)
數(shù)據(jù)故障恢復(fù),是指針對(duì)非操作系統(tǒng)文件丟失或損壞的備份及恢復(fù)方法。對(duì)于非操作系統(tǒng)數(shù)據(jù),只要在實(shí)現(xiàn)備份相應(yīng)卷組或相應(yīng)文件的情況下都可以進(jìn)行恢復(fù)。一般情況下可以通過(guò)savevg命令實(shí)現(xiàn)數(shù)據(jù)卷組的備份,該命令將查找并備份屬于指定卷組的所有文件。在備份之前須要確認(rèn)的是備份的卷組必須啟用,且卷組中要參與備份的文件系統(tǒng)必須已被掛載。恢復(fù)時(shí)進(jìn)入到smit環(huán)境的卷組重構(gòu)界面,選擇卷組備份文件,選擇重構(gòu)卷組所需要的磁盤(pán),開(kāi)始恢復(fù)卷組。恢復(fù)完成后,卷組被完整的恢復(fù)到ODM數(shù)據(jù)庫(kù)中,并且自動(dòng)激活,文件系統(tǒng)被自動(dòng)掛載,文件得以恢復(fù)。
2 無(wú)需故障定位快速恢復(fù)方法研究
本文對(duì)故障無(wú)法定位情況下的AIX小型機(jī)快速恢復(fù)方法進(jìn)行了研究,試圖找到一種快速、高效、安全的解決方案。
2.1 基于磁帶的整機(jī)替換方法
需要事先做好兩臺(tái)小型機(jī)rootvg的磁帶備份,并為備機(jī)準(zhǔn)備好用于網(wǎng)絡(luò)連接和存儲(chǔ)連接的網(wǎng)線、光纖。故障時(shí),進(jìn)行如下操作:
將故障機(jī)、備用機(jī)分別關(guān)機(jī)后,將故障機(jī)替換為備用小型機(jī)(主要是網(wǎng)線、光纖、電源線等的連接);
用串口線連接備用小型機(jī),開(kāi)機(jī),選擇從terminal啟動(dòng)。
選擇3,從SM(維護(hù)模式)進(jìn)入;
選擇6,Install from a System Backup;
選擇1, "/dev/rmt0"并插入故障機(jī)事先備份好的rootvg備份磁帶后回車(chē)。這時(shí)候, 系統(tǒng)自動(dòng)恢復(fù)操作系統(tǒng)。
在ds4700磁盤(pán)陣列管理軟件中增加對(duì)應(yīng)的maping。
2.2 備機(jī)作為RAC新節(jié)點(diǎn)的方法
該方法把備用小型機(jī)現(xiàn)有備機(jī)作為一個(gè)RAC的新節(jié)點(diǎn)加入現(xiàn)用的RAC環(huán)境,步驟為:
操作系統(tǒng)安裝:將備用機(jī)上安裝AIX操作系統(tǒng),補(bǔ)丁至現(xiàn)用機(jī)的版本。
IP網(wǎng)絡(luò)配置:將備用機(jī)接入網(wǎng)絡(luò)環(huán)境,連接網(wǎng)線、光纖、電源線等。在交換機(jī)上配置對(duì)應(yīng)端口。
SAN環(huán)境配置:在光纖交換機(jī)上配置zone,在ds4700管理軟件中增加對(duì)應(yīng)的maping。
集群安裝配置:更改IP地址、主機(jī)名等配置參數(shù);安裝HACMP環(huán)境并配置。
Oracle安裝配置:安裝Oracle clusterware并配置,將新節(jié)點(diǎn)命名并加入,安裝Oracle database并配置。
測(cè)試:測(cè)試某一個(gè)原結(jié)點(diǎn)下線后運(yùn)行是否正常。將該備用節(jié)點(diǎn)下線后再開(kāi)啟,測(cè)試其能否夠進(jìn)入RAC環(huán)境。
備機(jī)作為新節(jié)點(diǎn)被加入后,RAC環(huán)境中擁有三個(gè)節(jié)點(diǎn),在有任意一個(gè)節(jié)點(diǎn)故障的情況下依然有兩臺(tái)小型機(jī)對(duì)外提供服務(wù)。
3 結(jié)果與分析
故障定位后進(jìn)行恢復(fù)的解決方法是普遍采用的解決方案,該方案是故障恢復(fù)的基礎(chǔ)。因?yàn)槟承┕收峡赡苁怯捎诜浅:?jiǎn)單、易判斷的原因?qū)е碌?,能夠快速恢?fù)。但由于AIX系統(tǒng)的專(zhuān)業(yè)性較強(qiáng),維護(hù)人員很難在第一時(shí)間分析得出AIX的具體故障原因,因此往往無(wú)法采取故障定位后進(jìn)行恢復(fù)的方法進(jìn)行快速恢復(fù)?;诖艓У恼麢C(jī)替換方法,由于需要從磁帶機(jī)恢復(fù),即使做了線纜等的事先部署,恢復(fù)速度依然需要以小時(shí)計(jì)(大致修復(fù)時(shí)間見(jiàn)表2)。備機(jī)作為RAC新節(jié)點(diǎn)的方法雖然恢復(fù)速度快,但是部署復(fù)雜,且經(jīng)驗(yàn)證,三個(gè)節(jié)點(diǎn)的RAC環(huán)境性能由于存在的緩存融合問(wèn)題,性能并不理想,因此也不能作為可選方案。各方法的對(duì)比如表2所示。
4 結(jié)語(yǔ)
本文就AIX數(shù)據(jù)庫(kù)服務(wù)器的快速恢復(fù)方法展開(kāi)討論,研究了多種快速恢復(fù)方法,最后提出了一套涵蓋硬件、系統(tǒng)、數(shù)據(jù)三個(gè)故障層面的AIX小型機(jī)快速恢復(fù)流程方案。對(duì)于信息系統(tǒng)AIX小型機(jī)的故障處理、快速恢復(fù)有一定的參考價(jià)值。
參考文獻(xiàn)
[1]Christian Pruett、Kristian Strickland、Soctt Vetter編著.IBM eServer Certification Study Guide - pSeries AIX System Administration。http://www.ibm.com/redbooks,December 2001。
[2]HyunGoo Kim、John Harrison等編著.Problem Solving and Troubleshooting in AIX 5L。http://www.ibm.com/redbooks,January 2002。
[3]Tim Dasgupta、Stephen Sommer編著。IBM eServer Certification Study Guide - AIX 5L Problem Determination Tools and Techniques。http://www.ibm.com/redbooks,January 2003。
[4]Tim Dasgupta、Stephen Sommer編著.IBM eServer Certification Study Guide - AIX 5L Installation and System Recovery。http://www.ibm.com/redbooks,December 2002。
[5]Jose Eduardo Martinez Cordero、Shiv Dutta、LiviuRosca等編著.IBM Certification Study Guide eServer p5 and pSeries Administration and Support for AIX 5L Version 5.3。http://www.ibm.com/redbooks,April 2006。
[6]張曉明編著.大話Oracle RAC——集群 高可用性 備份與恢復(fù)[M].北京:人民郵電出版社,2009.
作者簡(jiǎn)介
裘禛宇,現(xiàn)為中國(guó)民用航空華東地區(qū)空中交通管理局工程師。
曹燁琇,現(xiàn)為中國(guó)民用航空華東地區(qū)空中交通管理局工程師。
作者單位
中國(guó)民用航空華東地區(qū)空中交通管理局 上海市 200335