李麗
摘要:DMHS系統(tǒng)是由北京航管科技有限公司研制開發(fā)的用于AFTN/SITA格式電報(bào)存儲交換的通信系統(tǒng)。大連空管站使用的是DMHS-H96路自動(dòng)轉(zhuǎn)報(bào)系統(tǒng),于2014年7月引進(jìn),2015年8月,在該系統(tǒng)試運(yùn)行期間日常巡檢過程中,值班員發(fā)現(xiàn)雙服務(wù)器互聯(lián)網(wǎng)線出現(xiàn)了告警提示,針對此問題對兩臺服務(wù)器鏈路進(jìn)行進(jìn)一步的檢查工作,找到產(chǎn)生告警的原因,并根據(jù)實(shí)際情況提交了解決方案,最終排除安全隱患。
關(guān)鍵詞:DMHS;物理結(jié)構(gòu);網(wǎng)卡
一、背景描述
1、DMHS-H系統(tǒng)物理結(jié)構(gòu)
96路H型轉(zhuǎn)報(bào)系統(tǒng)由兩臺HP DL580 G7服務(wù)器,兩臺同步單元,兩臺CISCO交換機(jī)及6臺異步單元組成。兩臺服務(wù)器之間通過COM口使用一條DB9交叉線連接,這條串口交叉線用來做雙機(jī)檢測;一塊集成網(wǎng)卡使用網(wǎng)線分別與兩臺交換機(jī)相連,承擔(dān)同步報(bào)文數(shù)據(jù)、配置參數(shù)等信息以及服務(wù)器對外的通訊工作。
其中,每臺服務(wù)器有一塊網(wǎng)卡,包含兩個(gè)網(wǎng)口, eth0口連接交換機(jī)1、eth1口連接交換機(jī)2,交換機(jī)1與交換機(jī)2互聯(lián),實(shí)現(xiàn)了雙網(wǎng)運(yùn)行模式。但是當(dāng)網(wǎng)卡硬件故障時(shí),該通信方式便會無效。
具體結(jié)構(gòu)圖如圖1所示:
2014年1月引進(jìn)的DMHS-H96路自動(dòng)轉(zhuǎn)報(bào)系統(tǒng)服務(wù)器間的拓?fù)浣Y(jié)構(gòu)如上面所述,在試運(yùn)行期間基本穩(wěn)定,值班員每日對該系統(tǒng)進(jìn)行兩小時(shí)定時(shí)巡檢,并詳細(xì)記錄運(yùn)行信息。
二、事件描述
1、事件起因:
2015年8月,在設(shè)備巡檢的過程中,值班員發(fā)現(xiàn)DMHS-H系統(tǒng)服務(wù)器監(jiān)控軟件顯示兩臺服務(wù)器通信異常,無法進(jìn)行數(shù)據(jù)同步工作,主機(jī)與備機(jī)中均顯示網(wǎng)絡(luò)狀態(tài)為:“?”,表示系統(tǒng)通信故障,需進(jìn)一步檢查故障原因。
此時(shí)檢查主備機(jī)數(shù)據(jù)同步信息發(fā)現(xiàn),主備機(jī)中的數(shù)據(jù)及修改信息不能進(jìn)行同步,同步指針中顯示未同步信息在逐漸增加,此現(xiàn)象同樣說明通信故障。
通信線路故障情況下,可以采取應(yīng)急切換操作,在主機(jī)上執(zhí)行雙機(jī)切換,執(zhí)行后主機(jī)提示信息為“無法進(jìn)行切換,由于通信異常造成”,應(yīng)急切換操作失敗,需進(jìn)一步處理查找切換失敗原因,經(jīng)排查發(fā)現(xiàn)主機(jī)找不到對等機(jī)。
對綜上結(jié)果進(jìn)行分析,均可以判斷兩臺服務(wù)器間通信發(fā)生了異常,但仍需要進(jìn)一步檢查測試,確定造成該異?,F(xiàn)象的原因并加以解決。
2、排查過程
根據(jù)MNG工具中提示的告警信息,需要對兩臺服務(wù)器的通信進(jìn)行檢查,首先檢查系統(tǒng)中對于雙機(jī)信息的配置是否有誤,如果配置信息出錯(cuò),可能會造成通信中斷,檢查命令為:#cat dmhs_afs.ini,返回結(jié)果顯示雙機(jī)的配置信息均完整有效,沒有出現(xiàn)丟失或者錯(cuò)誤的情況,可以排除雙機(jī)參數(shù)的配置問題。
第二步:檢查網(wǎng)卡狀態(tài),查看是否可以找到網(wǎng)卡,以及網(wǎng)卡的配置參數(shù)是否有效,檢查命令為:#ifconfig,執(zhí)行后結(jié)果顯示找不到網(wǎng)卡端口,沒有相應(yīng)的配置參數(shù),需要進(jìn)一步檢查網(wǎng)卡配置是否存在,分別檢查ETH0和ETH1的網(wǎng)卡配置情況,結(jié)果顯示網(wǎng)卡配置參數(shù)正常有效,那么根據(jù)目前情況,可以采用重新啟動(dòng)網(wǎng)卡的方式,看是否可以排除故障,命令為#service networkrestart,重啟網(wǎng)卡結(jié)果顯示,網(wǎng)卡端口不存在,重啟失效,此時(shí)網(wǎng)卡狀態(tài)顯示停止工作。
通過上述的網(wǎng)卡檢查工作,顯示找不到網(wǎng)卡硬件信息,通過命令重新加載網(wǎng)卡驅(qū)動(dòng),仍然無法重啟網(wǎng)卡,遂初步判斷是網(wǎng)卡板卡故障造成。需要聯(lián)系HP售后服務(wù)人員,進(jìn)行檢測并更換網(wǎng)卡硬件。HP服務(wù)人員到達(dá)現(xiàn)場后,更換一塊新網(wǎng)卡,重新啟動(dòng)服務(wù)器加載網(wǎng)卡信息,由廠家工程師遠(yuǎn)程維護(hù)網(wǎng)卡配置參數(shù),并進(jìn)行存儲后,服務(wù)器的通信狀態(tài)均顯示正常,雙機(jī)數(shù)據(jù)同步以及切換測試也恢復(fù)正常。至此,該通信狀態(tài)異常的故障徹底排除,恢復(fù)通信。
三、解決方案
單塊網(wǎng)卡的運(yùn)行模式下,一旦網(wǎng)卡硬件故障,則該服務(wù)器的通信將會徹底中斷,所以解決單塊網(wǎng)卡獨(dú)立,真正實(shí)現(xiàn)雙網(wǎng)狀態(tài)運(yùn)行是必要的。
通過研討決定每臺服務(wù)器增加一塊外置網(wǎng)卡,每一塊網(wǎng)卡中的一個(gè)端口連接一臺交換機(jī),運(yùn)行過程中,一旦一塊網(wǎng)卡出現(xiàn)故障則另一塊網(wǎng)卡仍會在網(wǎng)絡(luò)中承擔(dān)通信業(yè)務(wù),不會造成服務(wù)器的中斷,真正實(shí)現(xiàn)了一主、二備的工作模式。
四、過程實(shí)施
在系統(tǒng)的結(jié)構(gòu)建設(shè)中,96路DMHS-H自動(dòng)轉(zhuǎn)報(bào)系統(tǒng)原配置一塊網(wǎng)卡,現(xiàn)在按照單網(wǎng)卡故障的解決方案,在以后的系統(tǒng)建設(shè)中,每臺服務(wù)器均可以配置兩塊外置網(wǎng)卡,實(shí)現(xiàn)網(wǎng)絡(luò)信號的一主、二備的傳輸模式,兩塊網(wǎng)卡分別加入兩臺交換機(jī)環(huán)境,形成雙環(huán)保障。
1、每臺服務(wù)器均配置兩塊網(wǎng)卡,分別為系統(tǒng)集成網(wǎng)卡一塊,使用網(wǎng)口ETH0、ETH2,外置網(wǎng)卡一塊,使用網(wǎng)口為ETH4,將ETH0連接交換機(jī)1,ETH2作為雙機(jī)互聯(lián)網(wǎng)口,ETH4連接交換機(jī)2,這樣實(shí)現(xiàn)了通信的雙環(huán)路,將ETH1網(wǎng)口設(shè)置為備用網(wǎng)口,如果雙機(jī)互聯(lián)網(wǎng)口ETH2出現(xiàn)故障,可以使用ETH1作為備用網(wǎng)口工作,如此,節(jié)點(diǎn)中任意的網(wǎng)口或者網(wǎng)卡故障,均不會影響通信業(yè)務(wù)的傳輸,保證了信號安全穩(wěn)定的傳遞工作。
2、參數(shù)設(shè)置
在etc/sysconfig/network-scripts/route-eth0添加192.168.11.1/2
在etc/sysconfig/network-scripts/route-eth1添加192.168.44.1/2
在etc/sysconfig/network-scripts/route-eth2添加192.168.33.1/2
在etc/sysconfig/network-scripts/route-eth4添加192.168.22.1/2
重新啟動(dòng)網(wǎng)卡:/etc/int.d/network restart
至此,雙網(wǎng)卡設(shè)置成功,系統(tǒng)恢復(fù)正常,保證了服務(wù)器的雙網(wǎng)雙待功能。
五、總結(jié)
通過此次的故障排查和維護(hù),目前DMHS-H轉(zhuǎn)報(bào)系統(tǒng)已經(jīng)可以穩(wěn)定安全的運(yùn)行,成功的解決了單網(wǎng)模式下的薄弱環(huán)節(jié),實(shí)現(xiàn)了網(wǎng)絡(luò)狀態(tài)的雙網(wǎng)模式,在整體的硬件結(jié)構(gòu)拓?fù)渲芯鶎?shí)現(xiàn)了一主、二備的運(yùn)行模式。大大提高了96路DMHS-H自動(dòng)轉(zhuǎn)報(bào)系統(tǒng)的安全運(yùn)運(yùn)行系數(shù)。在今后的運(yùn)行過程中,技術(shù)人員會更加細(xì)致的對設(shè)備進(jìn)行巡檢和維護(hù)工作,詳細(xì)記錄認(rèn)真分析,為設(shè)備的穩(wěn)定運(yùn)行提供有效的維護(hù)工作。
參考文獻(xiàn):
[1]DMHS-H系統(tǒng)部署手冊
[2]DMHS-H系統(tǒng)硬件手冊
[3]DMHS-H日常軟件基本維護(hù)手冊endprint