楊浩
摘 要:民航氣象數(shù)據(jù)庫系統(tǒng)是民航氣象業(yè)務(wù)的核心信息系統(tǒng),其24小時(shí)不間斷的運(yùn)轉(zhuǎn)保證了氣象業(yè)務(wù)的正常開展,本文重點(diǎn)闡述了數(shù)據(jù)庫系統(tǒng)的一次硬盤自身驅(qū)動(dòng)器監(jiān)控報(bào)錯(cuò)故障處理。
關(guān)鍵詞:民航氣象數(shù)據(jù)庫系統(tǒng);AIX;故障處理
0引言
本文是基于民航氣象數(shù)據(jù)庫系統(tǒng)疑似故障處理的探析,針對(duì)的是民航氣象第三級(jí)數(shù)據(jù)庫系統(tǒng)。民航數(shù)據(jù)庫系統(tǒng)是民航氣象業(yè)務(wù)的核心信息系統(tǒng),它采用一套分級(jí)的,包含發(fā)送、請(qǐng)求、響應(yīng)、回復(fù)、轉(zhuǎn)發(fā)等多種功能的,復(fù)雜的數(shù)據(jù)交換模式,實(shí)現(xiàn)了實(shí)時(shí)收集、處理、儲(chǔ)存、交換民航國內(nèi)、國際飛行所需的綜合航空氣象情報(bào)信息的功能,提供給用戶氣象資料自動(dòng)分析和制作等功能,為航空氣象用戶提供航空氣象產(chǎn)品[1]。
1民航氣象數(shù)據(jù)庫系統(tǒng)架構(gòu)分析
民航氣象數(shù)據(jù)庫系統(tǒng)分為三級(jí)體系架構(gòu),每一級(jí)根據(jù)業(yè)務(wù)處理能力的實(shí)際需求進(jìn)行不同的配置,同級(jí)間則采用了相同的配置。本場(chǎng)屬于民航氣象第三級(jí)數(shù)據(jù)庫系統(tǒng),系統(tǒng)由一臺(tái)ibm system p520 作為數(shù)據(jù)庫服務(wù)器,一臺(tái)ibm system p520 作為應(yīng)用服務(wù)器,一臺(tái)DELL OPTIPLEX 745作為通信服務(wù)器,采用cisco2960 交換機(jī)作為本地網(wǎng)絡(luò)的核心交換機(jī),通過cisco2851 路由器與所在地區(qū)氣象中心數(shù)據(jù)庫相連,利用cisco pix 515e 作為安全隔離。在數(shù)據(jù)庫服務(wù)器和應(yīng)用服務(wù)器上,均安裝了AIX操作系統(tǒng)并搭配目前功能最強(qiáng)大的ORACLE數(shù)據(jù)庫,而通信服務(wù)器則安裝了Linux操作系統(tǒng)[2]。
通過本場(chǎng)一次氣象數(shù)據(jù)庫系統(tǒng)硬盤自身驅(qū)動(dòng)器監(jiān)控報(bào)錯(cuò)故障處理分析,結(jié)合AIX系統(tǒng)管理技術(shù)學(xué)習(xí),總結(jié)出了民航氣象數(shù)據(jù)庫系統(tǒng)在維護(hù)時(shí)對(duì)主機(jī)系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)、數(shù)據(jù)庫進(jìn)行故障檢查的方法及命令總結(jié),以便發(fā)現(xiàn)問題及時(shí)處理。
針對(duì)濟(jì)南本場(chǎng)的情況,數(shù)據(jù)庫系統(tǒng)主機(jī)系統(tǒng)包括了數(shù)據(jù)庫服務(wù)器DB00、數(shù)據(jù)庫服務(wù)器DB01、通信服務(wù)器,其中數(shù)據(jù)庫服務(wù)器安裝的是AIX操作系統(tǒng),通信服務(wù)器安裝的是Linux操作系統(tǒng)。
2疑似故障處理
在民航氣象第三級(jí)數(shù)據(jù)庫系統(tǒng)中數(shù)據(jù)庫服務(wù)器為ibm system p520q,當(dāng)系統(tǒng)出現(xiàn)告警時(shí),主機(jī)面板上的黃燈會(huì)亮起,濟(jì)南本場(chǎng)在黃燈告警亮起時(shí)對(duì)系統(tǒng)進(jìn)行巡檢,發(fā)現(xiàn)數(shù)據(jù)庫hdisk0硬盤驅(qū)動(dòng)器顯示硬盤自身驅(qū)動(dòng)器監(jiān)控功能有問題,報(bào)錯(cuò)代碼為具體報(bào)錯(cuò)內(nèi)容為:
LABEL:DISK_ERR2
Location:U787F.001.DPM27Y2-P1-T10-L3-L0
Type:PERM
Resource Name:hdisk0
進(jìn)一步查看日志信息,發(fā)現(xiàn)文件系統(tǒng)無壞塊,rootvg讀寫正常,為了防止hdisk0的讀寫損壞,決定執(zhí)行更換硬盤操作。
Hdisk0和hdisk1互為鏡像,內(nèi)含操作系統(tǒng),故在更換時(shí)需要更加謹(jǐn)慎,首先將更換硬盤的整體思路整理出來:準(zhǔn)備階段(停止業(yè)務(wù)和服務(wù)、更改硬盤啟動(dòng)順序)、更換階段(確定hdisk0位置、拆除hdisk0鏡像、更換hdisk0并做鏡像)和檢查階段。
3.1準(zhǔn)備階段
首選需要停止數(shù)據(jù)庫服務(wù)器DB00的業(yè)務(wù)和服務(wù),使用命令bootlist –m normal –o查看當(dāng)前引導(dǎo)順序,然后為hdisk1添加引導(dǎo)信息,使用命令bosboot –ad/dev/hdisk1,重新設(shè)置引導(dǎo)順序,將hdisk1設(shè)置為最優(yōu)先,使用命令bootlist –m normal hdisk1 hdisk0,再次檢查引導(dǎo)順序后重啟系統(tǒng)。
重啟系統(tǒng)后需要檢查rootvg是否有stale塊,確保更換引導(dǎo)順序后系統(tǒng)無問題,使用命令lsvg –M rootvg。
3.2更換硬盤階段
通過命令diag進(jìn)入選項(xiàng),依次選擇Task Selection-RAID Array Manager-PCI-X SCSI Disk Array Manager-Diagnostics and Recovery Options-SCSI and SCSC RAID Hot Plug Manager-Identify a Device Attached to an SCSI Hot Swap Enclosure Device來確認(rèn)hdisk0的位置,并且點(diǎn)亮它,記住hdisk0的位置。然后使用命令unmirrorvg rootvg hdisk0拆除鏡像,若lg_dumplv系統(tǒng)診斷卷在hdisk0上則需要遷移至hdisk1,然后去掉hdisk0的rootvg,reducevg rootvg hdisk0,去除hdisk0的引導(dǎo)信息chpv –c hdisk0.
然后在系統(tǒng)中刪除hdisk0,使用命令rmdev –dl hdisk0,此時(shí)可以拔出hdisk0,插入新硬盤,在更換過程中必須確保預(yù)防靜電,執(zhí)行命令cfgmgr進(jìn)行掃描,然后查看新硬盤狀態(tài)執(zhí)行l(wèi)spv,若顯示為pdisk需要設(shè)置為hdisk后繼續(xù)操作。
確認(rèn)新硬盤狀態(tài)為hdisk后,清除其物理卷組,chdev –l hdisk0 –a pv=clear,重新分配卷組信息chdev –l hdisk0 –a pv=yes,將hdisk0加入rootvg,extendvg –f rootvg hdisk0,此時(shí)到達(dá)做鏡像的步驟,然后才可以把hdisk0加入啟動(dòng)引導(dǎo),設(shè)置其啟動(dòng)順序?yàn)樽顑?yōu)先,更改啟動(dòng)順序的不在贅述。做鏡像需要等待一個(gè)小時(shí)左右時(shí)間,命令為mirrorvg –S rootvg hdisk0。
驗(yàn)證做鏡像是否成功需要使用lsvg –l rootvg命令,若PPS是LPS的兩倍,則鏡像制作成功。更換硬盤操作到此結(jié)束。
3.3檢查階段
檢查errpt和系統(tǒng)信息,執(zhí)行巡檢腳本再次檢查系統(tǒng),確認(rèn)完畢后啟動(dòng)數(shù)據(jù)庫業(yè)務(wù)和服務(wù)。
參考文獻(xiàn):
[1]梁帆. 民航氣象第三級(jí)數(shù)據(jù)庫系統(tǒng)管理維護(hù)和典型故障處理.硅谷.2011,24:124-125.
[2]張迪馨. 民航二期氣象數(shù)據(jù)庫系統(tǒng)主機(jī)維護(hù)經(jīng)驗(yàn)總結(jié).空中交通管理.2007,08:45-46.