孫永強(qiáng)
摘 要:航管信息自動(dòng)化處理系統(tǒng)(AIMS)的故障處理涵蓋多方面因素,包括物理鏈路、服務(wù)器、數(shù)據(jù)庫(kù)、系統(tǒng)進(jìn)程等幾方面,本文介紹的是由于系統(tǒng)日志積壓過(guò)多,windows服務(wù)器某一進(jìn)程占用兩種情況共同導(dǎo)致的故障,通過(guò)對(duì)加入腳本,對(duì)數(shù)據(jù)庫(kù)日志自動(dòng)清理可以避免該問(wèn)題的再次發(fā)生。
關(guān)鍵詞:AIMS;數(shù)據(jù)庫(kù);日志
航管信息自動(dòng)化處理系統(tǒng)是由北京航管科技有限公司研發(fā)的航行計(jì)劃動(dòng)態(tài)處理系統(tǒng),我分局于2013年啟用,本套系統(tǒng)投入運(yùn)行之后,極大地提高管制數(shù)據(jù)自動(dòng)化處理的能力,程序化、標(biāo)準(zhǔn)化管制員的日常操作,降低人為差錯(cuò)的可能性,及時(shí)準(zhǔn)確的在部門(mén)、管制單位甚至區(qū)域間傳遞信息,并且可以實(shí)時(shí)為流量管理、協(xié)同決策、起飛前放行以及自動(dòng)化等系統(tǒng)提供有力的數(shù)據(jù)支持。涵蓋了報(bào)文收發(fā)分解、計(jì)劃維護(hù)、SSR管理、進(jìn)程單打印、數(shù)據(jù)統(tǒng)計(jì)分析、數(shù)據(jù)發(fā)布等功能。
我分局AIMS系統(tǒng)架構(gòu)采用兩臺(tái)服務(wù)器互為熱備,另有一臺(tái)windows服務(wù)器作為數(shù)據(jù)同步服務(wù)器,通過(guò)路由器與交換機(jī)接入塔臺(tái)、進(jìn)近、站調(diào)等終端用戶,通過(guò)ATM線路與東北局相連,接入民航局ATM網(wǎng)絡(luò)已達(dá)到數(shù)據(jù)交互(如圖1所示)。
今年九月份AIMS系統(tǒng)出現(xiàn)異?,F(xiàn)象:出港航班正常發(fā)報(bào)后再FMD界面報(bào)文不消失,依舊在界面上存在;站調(diào)客戶端出現(xiàn)報(bào)文異常,無(wú)法接受部分報(bào)文。
此次故障導(dǎo)致管制部門(mén)不能夠準(zhǔn)確獲知航班飛行計(jì)劃,航行動(dòng)態(tài),對(duì)管制工作造成重要影響。
接到故障報(bào)告之后,立即開(kāi)展故障排查工作。首先查看前臺(tái)監(jiān)控終端,發(fā)現(xiàn)進(jìn)出港航班信息均不刷新,無(wú)新報(bào)文顯示;通過(guò)telnet鏈接AIMS的服務(wù)器,均出現(xiàn)了無(wú)響應(yīng)的情況;監(jiān)控平臺(tái)顯示AIMS服務(wù)器出現(xiàn)告警信息,數(shù)據(jù)庫(kù)出現(xiàn)異常(如圖2所示)。
后直接通過(guò)KVM查看服務(wù)器運(yùn)行狀態(tài),經(jīng)排查發(fā)現(xiàn)遠(yuǎn)程維護(hù)的聯(lián)網(wǎng)Windows服務(wù)器自身出現(xiàn)了socket占用滿的情況(windows系統(tǒng)自身回收socket存在的bug).由于聯(lián)網(wǎng)windows服務(wù)器的這個(gè)bug會(huì)導(dǎo)致此聯(lián)網(wǎng)windows系統(tǒng)無(wú)法遠(yuǎn)程登錄各個(gè)linux服務(wù)器和終端,故重啟此聯(lián)網(wǎng)windows服務(wù)器.聯(lián)網(wǎng)Windows服務(wù)器重啟后,登錄linux系統(tǒng)數(shù)據(jù)庫(kù),發(fā)現(xiàn)數(shù)據(jù)庫(kù)響應(yīng)過(guò)慢并且有大量?jī)?nèi)存和文件占用情況,后在主備數(shù)據(jù)庫(kù)服務(wù)器上執(zhí)行了日志清理和數(shù)據(jù)庫(kù)備份工作. 清理日志后,AIMS系統(tǒng)恢復(fù)正常.正常后對(duì)塔臺(tái)和站調(diào)用戶進(jìn)行了電話詢問(wèn),站調(diào)用戶反映入值班的數(shù)據(jù)與經(jīng)驗(yàn)值過(guò)少,經(jīng)對(duì)比歷史數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)一致.后續(xù)請(qǐng)站調(diào)部門(mén)幫忙繼續(xù)觀察,如有問(wèn)題,及時(shí)電話聯(lián)系,后續(xù)沒(méi)有收到任何異常反饋. 系統(tǒng)正常后,在linux服務(wù)器上加入了定期清理數(shù)據(jù)庫(kù)日志的腳本.后續(xù)系統(tǒng)會(huì)每天自動(dòng)清理過(guò)期的日志,過(guò)期失效的時(shí)間為60天.
經(jīng)過(guò)對(duì)AIMS服務(wù)器端的查看分析,此次故障主要有以下兩方面原因引起:1.服務(wù)器數(shù)據(jù)庫(kù)的系統(tǒng)日志過(guò)多,導(dǎo)致服務(wù)器內(nèi)部程序響應(yīng)時(shí)間超時(shí);2.windows系統(tǒng)socket占用慢的情況,給具體的linux系統(tǒng)的異常排查帶來(lái)障礙。
結(jié)合此次故障排查的經(jīng)過(guò)以及廠家工程師方面的具體建議,此類故障具體的應(yīng)對(duì)措施可以采用下列步驟:在AIMS兩臺(tái)服務(wù)器中加入數(shù)據(jù)庫(kù)日志自動(dòng)清理腳本,后續(xù)的數(shù)據(jù)庫(kù)日志會(huì)每天自動(dòng)清理,并將日志記錄保留。這樣可以最大限度的釋放系統(tǒng)內(nèi)存空間,防止由于日志過(guò)多的原因?qū)е履骋贿M(jìn)程卡死;其次對(duì)于windows服務(wù)器系統(tǒng)socket占用滿的情況,在現(xiàn)有server08系統(tǒng)上修改配置也無(wú)法解決,需要定期進(jìn)行操作系統(tǒng)的維護(hù)工作.建議定期系統(tǒng)維護(hù)時(shí),對(duì)聯(lián)網(wǎng)windows服務(wù)器系統(tǒng)進(jìn)行維護(hù)工作。
參考文獻(xiàn)
[1]《航管信息自動(dòng)化處理系統(tǒng)運(yùn)行維護(hù)手冊(cè)》.