劉家瑞 肖玉
摘要:本文簡單的介紹了CDM系統(tǒng)的功能及硬件構(gòu)成,然后重點分析了CDM系統(tǒng)上線后發(fā)生的故障,從軟件故障、硬件故障、系統(tǒng)兼容性故障三個典型案例分析入手,提出了系統(tǒng)的改進方案。
關(guān)鍵字:CDM系統(tǒng) 故障分析 改進方案
1?CDM系統(tǒng)簡介
協(xié)同決策系統(tǒng)(Collaborative Decision Making,以下簡稱CDM系統(tǒng))是一種基于資源共享和信息交互的多主體(空管、機場、公司等)聯(lián)合協(xié)作運行理念而設(shè)計的系統(tǒng),用于創(chuàng)造透明、高效的空管運行環(huán)境。
CDM系統(tǒng)通過提高事件可預(yù)測性、優(yōu)化資源利用效率等手段,能夠提升各參與方的整體運行效率。
1.1 軟件功能簡介
通過建立CDM系統(tǒng),用技術(shù)手段改善航班延誤相關(guān)問題。
建立航班排序系統(tǒng),計算航班起飛時間和預(yù)計撤輪擋時間。
建立航班放行協(xié)同平臺,收集運行信息,提供放行協(xié)同工具。
1.2 CDM系統(tǒng)硬件結(jié)構(gòu)
CDM系統(tǒng)硬件由虛擬化數(shù)據(jù)中心、交換網(wǎng)絡(luò)、虛擬化運行程序服務(wù)器構(gòu)成(見圖1)。
1.3 CDM系統(tǒng)重要用戶及其需求
管制部門:塔臺:進近航班放行排序
區(qū)調(diào):區(qū)域航班放行排序
航空公司:南航 深航
機場:AOC 機坪塔臺
2?CDM系統(tǒng)常見故障分析
2.1 CDM系統(tǒng)典型故障分析
2.1.1 CDM系統(tǒng)硬盤故障案例分析
故障現(xiàn)象:2019年1月12日,巡檢時發(fā)現(xiàn)服務(wù)器及存儲黃燈告警。
故障原因分析: 進一步通過IBM服務(wù)器的光路診斷卡查看告警類型為DAS、HDD,以上告警燈應(yīng)該為直連存儲(硬盤)告警,并且在硬盤的指示燈上會顯示黃色。存儲設(shè)備的故障硬盤同樣顯示黃色。告警可以通過服務(wù)器的指示燈反映出來,故障時為黃色,通過光路診斷卡可以明確故障準(zhǔn)確信息,DAS及HDD代表硬盤。,故障的同時,業(yè)務(wù)不受影響,因為服務(wù)器的2塊硬盤組建了RADI-1,2個硬盤互為備份,存儲的多數(shù)采用RAID5+1全局熱備的方式,RAID5的一個硬盤故障,全局熱備盤頂替,故障硬盤被剝離,這時存儲正常運行,不受影響。
處理方法:及時發(fā)現(xiàn)并更換故障硬盤,避免因更多的故障硬盤導(dǎo)致業(yè)務(wù)宕機。巡檢時重點關(guān)注黃色、紅色指示燈,備好硬盤備件,硬盤是服務(wù)器常見的故障件
2.1.2 電子進程單收不到PDC請求
故障現(xiàn)象:2018年5月11日開始,CDM系統(tǒng)電子進程單收不到機組發(fā)送的PDC請求的故障,管制員對無PDC請求的航班進行語音管制。
故障原因分析:PDC請求先送給數(shù)字放行系統(tǒng),數(shù)字放行系統(tǒng)將請求再送給CDM系統(tǒng)電子進程單模塊。數(shù)字放行系統(tǒng)默認(rèn)飛行計劃的時效性為6小時,當(dāng)航班延誤后且其航空公司未發(fā)送DEL報或CHG報,6小時后系統(tǒng)將自動刪除延誤的飛行計劃,CDM系統(tǒng)無法收到機組的PDC請求。
處理方法:聯(lián)系工程師修改后臺程序,對時效性的限定時間改為24小時。
2.1.3 CDM系統(tǒng)應(yīng)答機編碼失效
故障現(xiàn)象:塔臺用戶反映電子進程單終端的航班應(yīng)答機編碼為0000,無法顯示正確編碼,在自動化系統(tǒng)中查看的應(yīng)答機編碼是正常。
故障原因分析:通過監(jiān)控終端排查NPORT端口入方向的數(shù)據(jù)正常,接收服務(wù)器也可以接收到自動化系統(tǒng)送來的報文數(shù)據(jù)。由于是部分航班缺少應(yīng)答機編碼,分析是可能部分IFPL報文處理不完整,部分內(nèi)容丟失導(dǎo)致。深圳CDM電子進程單 的應(yīng)答機編碼是深圳CDM服務(wù)器接收來自區(qū)管自動化系統(tǒng)的IFPL報文解析出來(IPFL報文是通過區(qū)管至桃仙的NPORT傳輸),深圳cdm服務(wù)器接收到NPORT設(shè)備封裝的UDP報文,經(jīng)過對傳輸流程進行分析,NPORT中封裝的UDP報文最大長度為1024字節(jié),并且UDP報文沒有包含序列信息的字段,由于IFPL報文的單個長度會有超過1024字節(jié)的情況,深圳cdm服務(wù)器接收這些UDP報文的時候可能無法完全正確的處理IFPL的報文信息,導(dǎo)致應(yīng)答機編碼無法解析,導(dǎo)致電子進程單的部分應(yīng)答機編碼為空(四個0),調(diào)整NPORT傳輸模式,接收服務(wù)器采用TCP方式進程接收IFPL報文
UDP連接適用于字符流小于1024字節(jié)長度的報文,并且報文中有規(guī)律的起始結(jié)束字符,更改為TCP后,額外再增加一路備份TCP連接,服務(wù)器接收2路數(shù)據(jù)進行備份。
處理方法:在區(qū)管NPORT上增加一路TCP數(shù)據(jù)報文,并且深圳cdm系統(tǒng)接收報文的方式由UDP調(diào)整為TCP方式,調(diào)整后正常。
3?CDM系統(tǒng)改進方案
3.1 添加備份盤陣
CDM系統(tǒng)虛擬數(shù)據(jù)中心由一臺盤陣組成,盡管盤鎮(zhèn)做成了高安全性的RADI5+1模式,可以在2塊硬盤同時故障。但是如果盤陣服務(wù)器整體故障,則放行系統(tǒng)數(shù)據(jù)將會丟失,影響管制部門正工作。建議購買新盤陣服務(wù)器,與原有盤陣組成1:1備份模式,極大加強數(shù)據(jù)服務(wù)器的可靠性和安全性。
3.2 增加應(yīng)急服務(wù)器
3.3 建議廠家優(yōu)化數(shù)據(jù)接口
CDM系統(tǒng)將會引接越來越多的信號,不同信號來自于不同系統(tǒng)。信號數(shù)據(jù)需要解析后才能被CDM系統(tǒng)使用,所以數(shù)據(jù)接口的兼容性就非常的重要。建議廠家優(yōu)化數(shù)據(jù)接口,能夠兼容更多的信號格式。
4總結(jié)
本文簡單的介紹了CDM系統(tǒng)的功能及硬件構(gòu)成,然后重點分析了CDM系統(tǒng)上線后發(fā)生的故障,從軟件故障、硬件故障、系統(tǒng)兼容性故障三個典型案例分析入手,提出了系統(tǒng)的改進方案。見圖2。
希望本文能在在CDM系統(tǒng)日常運維中提供一些幫助。