王嬌嬌,王 瑞,包 云,李亞群
(中國鐵道科學研究院集團有限公司 電子計算技術(shù)研究所 100081)
截止2017年底,我國高速鐵路運營里程已超過2.5萬km,為保障列車安全運行,已開通的高速鐵路均同步建設(shè)了高速鐵路自然災(zāi)害及異物侵限監(jiān)測系統(tǒng)(簡稱“災(zāi)害監(jiān)測系統(tǒng)”),實現(xiàn)對鐵路沿線風、雨、雪、地震及異物侵限的實時監(jiān)測,同時具備報警、預警及聯(lián)動觸發(fā)功能[1-2]。系統(tǒng)為列車的安全運行發(fā)揮了重要的安全技術(shù)保障作用,但是,系統(tǒng)在長期運用過程中也逐漸暴露了一些問題,其中現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控便是其中的一個主要問題。針對災(zāi)害監(jiān)測設(shè)備的可靠性問題,業(yè)內(nèi)專家學者也展開了一系列研究工作。張翠兵[3]分析了導致異物侵限監(jiān)測子系統(tǒng)運用失效的故障類型,并統(tǒng)計出各類設(shè)備故障對系統(tǒng)的影響程度;李曉宇等[4]從設(shè)計、建設(shè)、運用及維護等角度調(diào)研了災(zāi)害監(jiān)測系統(tǒng)存在的問題,并給出優(yōu)化措施及建議;李亞群等[5]提出了災(zāi)害監(jiān)測系統(tǒng)關(guān)鍵設(shè)備監(jiān)控單元的可靠性檢驗方法,完善系統(tǒng)的可靠性管理;除此之外,其他學者也對如何全方位完善災(zāi)害監(jiān)測系統(tǒng)進行了探索工作[6-7]。本文在對全路災(zāi)害系統(tǒng)現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控情況調(diào)研的基礎(chǔ)上,開展系統(tǒng)現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控故障的相關(guān)分析。
現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控是指終端查詢不到當前災(zāi)害監(jiān)測信息和設(shè)備狀態(tài)信息的一種狀況,包括監(jiān)控終端監(jiān)測到現(xiàn)場采集設(shè)備、監(jiān)控單元及附屬設(shè)備狀態(tài)顯示灰色,監(jiān)測終端黑屏、死機,軟、硬件故障導致的災(zāi)害監(jiān)測系統(tǒng)無采集數(shù)據(jù)或數(shù)據(jù)不更新,通信中斷、異常等現(xiàn)象?,F(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控會導致災(zāi)害監(jiān)測系統(tǒng)無法反映現(xiàn)場情況、終端灰屏無法使用,甚至造成列車晚點或停運,是災(zāi)害監(jiān)測系統(tǒng)故障中影響范圍較大、故障排查較復雜的系統(tǒng)故障之一。
根據(jù)對全路災(zāi)害監(jiān)測系統(tǒng)設(shè)備故障情況的統(tǒng)計分析,2013年1月至2017年5月,全路共發(fā)生現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控情況238次,具體故障原因如圖1所示。從圖中可以看出,傳感器故障和網(wǎng)絡(luò)故障是造成災(zāi)害監(jiān)測系統(tǒng)現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控的主要原因,兩者占總故障原因的38%,其次是電源故障、防雷模塊故障等。
在此,按照設(shè)備脫離監(jiān)控的影響范圍將設(shè)備脫離監(jiān)控分為兩種情況:(1)大范圍現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控,該情況影響范圍大,如一處或多處監(jiān)測終端灰屏、多監(jiān)測點通信中斷等;(2)局部監(jiān)測點現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控,如單監(jiān)測點無采集數(shù)據(jù)或監(jiān)控數(shù)據(jù)不更新等。
圖1 現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控原因統(tǒng)計
2013年1 月~2017年5月,全路共發(fā)生54次大范圍現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控情況,對列車運行造成了不同程度的不良影響。系統(tǒng)大范圍脫離監(jiān)控的原因如圖2所示,可以看出,網(wǎng)絡(luò)故障和電源故障是主要原因,系統(tǒng)的具體故障原因如圖3所示。
(1) 網(wǎng)絡(luò)故障
圖2 大范圍現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控總體原因統(tǒng)計
圖3 大范圍現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控具體原因統(tǒng)計
網(wǎng)絡(luò)故障包括網(wǎng)絡(luò)風暴、網(wǎng)線故障、路由器故障、終端網(wǎng)絡(luò)傳輸故障、交換機故障、通信電纜被挖斷等多種情況,是災(zāi)害監(jiān)測系統(tǒng)較難排查的故障之一,如圖4所示。網(wǎng)絡(luò)出現(xiàn)故障時,不易分析和定位[8]。
圖4 網(wǎng)絡(luò)故障分類
其中,網(wǎng)絡(luò)風暴是網(wǎng)絡(luò)廣播風暴(Network Broadcast Storm)的簡稱。當主機系統(tǒng)響應(yīng)一個在網(wǎng)上不斷循環(huán)的報文分組或者試圖響應(yīng)一個沒有應(yīng)答的系統(tǒng)時就會發(fā)生網(wǎng)絡(luò)廣播風暴[9]。導致網(wǎng)絡(luò)風暴的可能因素有網(wǎng)絡(luò)設(shè)備不符合要求、網(wǎng)卡損壞、網(wǎng)絡(luò)環(huán)路故障及網(wǎng)絡(luò)病毒入侵等。2016年1月某客運專線發(fā)生3次網(wǎng)絡(luò)風暴問題,致使災(zāi)害監(jiān)測系統(tǒng)監(jiān)控終端灰屏、全線報警、無數(shù)據(jù)顯示,系統(tǒng)分別于1 min、18 min、 1 h11 min后自動恢復,故障導致的不良影響十分嚴重。
(2) 電源故障
電源故障會導致監(jiān)測點通信中斷、監(jiān)測終端無法正常顯示等問題,故障原因通常包括施工斷電、機房斷電、UPS故障和電源線松動等。其中,施工斷電導致的電源故障次數(shù)最多,經(jīng)調(diào)研得知,主要由于相關(guān)單位檢修作業(yè)前沒有做好有效的溝通,如:需停電作業(yè)的情況下,供電段切斷了供給配電箱的供電通道,而設(shè)備管理單位相關(guān)人員未對配電箱及時進行手動切換,最終電源電量耗盡,影響系統(tǒng)正常運行。
(3) 軟件故障
導致軟件故障原因有災(zāi)害
監(jiān)測軟件不穩(wěn)定、未及時升級、缺乏定期維護等。
(4) 監(jiān)控數(shù)據(jù)處理設(shè)備故障監(jiān)控數(shù)據(jù)處理設(shè)備故障包括服務(wù)器故障、硬盤損壞、工控機死機和小型機故障。其中,服務(wù)器故障導致的監(jiān)控數(shù)據(jù)處理設(shè)備故障次數(shù)最多,主要表現(xiàn)為服務(wù)
器宕機等。此外,機房環(huán)境差,服務(wù)器未進行定期重啟、維護等會大大增加此類問題發(fā)生的概率。
(5) 終端故障
終端故障主要有主機故障和顯示器故障,主機故障表現(xiàn)為主機死機或損壞兩種情況:主機死機時,經(jīng)重啟后一般可以恢復正常;遇主機受損時,經(jīng)現(xiàn)場修復或更換備用機可恢復正常。顯示器故障時,需及時更換新的顯示器。
相比于大范圍現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控,局部監(jiān)測點現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控對系統(tǒng)造成的不良影響相對較小,但故障類型多樣,排查工作復雜,同樣要給以足夠的重視。
2013年1 月~2017年5月,全路共發(fā)生184次局部監(jiān)測點現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控的情況,原因統(tǒng)計如圖5、圖6所示。由圖可知,傳感器故障是導致局部監(jiān)測點現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控最主要的原因,其次為網(wǎng)絡(luò)故障、防雷模塊故障、電源故障、監(jiān)控單元主機故障等。
圖5 局部監(jiān)測點現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控總體原因統(tǒng)計
圖6 局部監(jiān)測點現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控具體原因統(tǒng)計
(1) 傳感器故障
災(zāi)害監(jiān)測系統(tǒng)現(xiàn)場傳感器主要包括風、雨、風雨、異物侵限和地震傳感器5種類型,故障分類統(tǒng)計如圖7所示。傳感器故障通常有設(shè)備本身損壞、傳感器接線脫落兩種表現(xiàn)。因此,初期選用合格的產(chǎn)品和后期及時的故障排查尤為重要。
圖7 傳感器故障分類
(2) 網(wǎng)絡(luò)故障
導致網(wǎng)絡(luò)故障的問題中,通信元件故障占比最多,約58%,其次還有傳輸通道故障、通信模塊故障等。由圖8可知,造成局部監(jiān)測點現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控的網(wǎng)絡(luò)故障主要成因是硬件設(shè)備的損壞,所以需要準備充足的備品備件。
圖8 網(wǎng)絡(luò)故障分類
(3) 防雷模塊故障
防雷模塊故障會直接影響雷電天氣下設(shè)備的正常使用,需引起高度重視,以便及時發(fā)現(xiàn)問題,排除隱患。
(4) 電源故障
電源故障包括UPS故障、變壓器故障和逆變電源故障。UPS故障是導致局部監(jiān)測點現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控的主要電源故障。表現(xiàn)為UPS數(shù)據(jù)采集串口共享器故障、UPS電源空開跳閘等,日常維護工作中應(yīng)進一步加強對UPS的故障排查。
(5) 監(jiān)控單元主機故障
監(jiān)控單元主機故障分為主機死機及主板老化、損壞等情況,需要重啟主機或更換備用機、備用主板才能恢復正常運行。
(6) 其他故障
此外,數(shù)據(jù)傳輸單元、數(shù)據(jù)采集模塊、軟件故障等同樣會導致局部監(jiān)測點現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控。其中,數(shù)據(jù)傳輸單元故障分為數(shù)據(jù)采集箱故障和配電箱故障兩類,配電箱故障居多,表現(xiàn)為自動切換模塊故障、箱內(nèi)空開跳閘等;數(shù)據(jù)采集模塊故障包括氣象板故障、CMM數(shù)據(jù)采集模塊故障等;軟件故障包括版本未及時更新、軟件不穩(wěn)定、互聯(lián)互通程序接口服務(wù)器上軟件故障等;長線收發(fā)器故障時,需要及時更換新設(shè)備;監(jiān)控數(shù)據(jù)處理設(shè)備故障為2次服務(wù)器故障,對服務(wù)器進行重啟即可恢復正常。
以上描述的設(shè)備故障中,惡劣天氣是導致系統(tǒng)故障的間接原因之一。如雷雨天氣會使得傳感器或者基站內(nèi)設(shè)備被雷擊損壞,寒冷天氣下設(shè)備故障的頻率增大等。資料顯示,某客運專線某公司管段1年內(nèi)發(fā)生了10余次因環(huán)境溫度過低導致傳感器表面被凍住引起監(jiān)測點閃灰的故障。因此,需將如何應(yīng)對特殊氣候環(huán)境下的設(shè)備維管問題納入下一步工作范疇。
綜合以上分析,提出以下幾條改進措施和建議:
(1)加強結(jié)合部管理。災(zāi)害監(jiān)測作為一個綜合的專業(yè),涉及到工務(wù)、電務(wù)、供電、信息等部門和站段,由鐵路局工務(wù)處負責災(zāi)害監(jiān)測系統(tǒng)的統(tǒng)一管理[10],各設(shè)備管理單位進行維修作業(yè)時應(yīng)加強聯(lián)系,共同確認影響范圍及配合方式后方能作業(yè),停電作業(yè)需要提前通知工務(wù)做好應(yīng)急準備。
(2)加強設(shè)備日常巡檢。各設(shè)備管理單位應(yīng)根據(jù)實際情況定期對各自管轄設(shè)備進行檢修,并做好檢查記錄,確保災(zāi)害監(jiān)測系統(tǒng)各部位處于良好工作狀態(tài),保證良好的機房環(huán)境,備品備件充足,降低系統(tǒng)的故障風險,提高服務(wù)器系統(tǒng)穩(wěn)定性和效能。
(3)加強網(wǎng)絡(luò)故障的排查,提高網(wǎng)絡(luò)安全保障能力。特別是傳輸通道、通信元件等易出現(xiàn)問題的部位需定期檢查、維護。通過從技術(shù)、管理和運維等方面綜合加強網(wǎng)絡(luò)安全保障。在技術(shù)上,通過認證授權(quán)、數(shù)據(jù)加密、訪問控制、邊界防護等技術(shù),確保系統(tǒng)網(wǎng)絡(luò)安全;在管理上,建立網(wǎng)絡(luò)安全全員培訓機制,覆蓋網(wǎng)絡(luò)安全管理人員、技術(shù)人員和應(yīng)用系統(tǒng)操作人員。另外,進行檢查考核,包括政策法規(guī)和標準執(zhí)行情況、重大網(wǎng)絡(luò)安全事件及整改情況、網(wǎng)絡(luò)安全技術(shù)防護要求完成情況等內(nèi)容。
(4)完善災(zāi)害監(jiān)測軟件,增強軟件容錯能力與健壯性。定期(1個月、3個月等)對磁盤進行清理,刪除無效日志,釋放磁盤空間;每半年對服務(wù)器進行重啟維護,使服務(wù)器操作系統(tǒng)重新初始化;至少每一年備份一次數(shù)據(jù)庫,積累監(jiān)測數(shù)據(jù),便于開展大數(shù)據(jù)分析研究。
(5)對故障頻發(fā)的設(shè)備進行監(jiān)測,研究可替代的設(shè)備和技術(shù)。針對監(jiān)控單元電源故障頻發(fā)的問題,對其進行實時監(jiān)控,并研發(fā)可靠性高的電源設(shè)備;針對異物侵限雙電網(wǎng)故障多的問題,研發(fā)基于雷達和綜合視頻智能分析相結(jié)合的非接觸式異物侵限監(jiān)測設(shè)備,提高異物侵限監(jiān)測的可靠性和適用范圍。
(6)做好惡劣天氣下設(shè)備的防護工作,如雷電天氣下應(yīng)安排人員及時做好防雷模塊的故障排查,研發(fā)鐵路沿線雷電預警產(chǎn)品,提前做好防范和應(yīng)急處置工作;嚴寒天氣下應(yīng)有針對性的對相關(guān)線路上的傳感器啟用加熱功能,防止設(shè)備由于覆冰或溫度過低而無法發(fā)揮作用。
(7)開展災(zāi)害監(jiān)測設(shè)備狀態(tài)大數(shù)據(jù)分析。對災(zāi)害監(jiān)測系統(tǒng)收集的設(shè)備狀態(tài)數(shù)據(jù)開展大數(shù)據(jù)分析,及時掌握設(shè)備特性變化趨勢,有針對性地進行維修和處理,預防設(shè)備故障發(fā)生,充分發(fā)揮數(shù)據(jù)對系統(tǒng)運用、維護的支撐作用。
(8)強化應(yīng)急管理。建立路局災(zāi)害監(jiān)測設(shè)備故障知識庫,結(jié)合災(zāi)害監(jiān)測系統(tǒng)設(shè)備故障出現(xiàn)頻率及檢查要求,編寫相關(guān)故障應(yīng)急處置預案,發(fā)生設(shè)備故障時,應(yīng)按險情等級和影響程度及時啟動應(yīng)急預案。同時加強對員工的故障應(yīng)急處置方面的培訓,并且就培訓內(nèi)容對人員進行考核,定期組織應(yīng)急演練,提高干部職工的應(yīng)急處置能力。
本文通過對全路災(zāi)害監(jiān)測系統(tǒng)現(xiàn)場監(jiān)測設(shè)備脫離監(jiān)控情況的調(diào)研,分析了系統(tǒng)現(xiàn)場監(jiān)測設(shè)備的故障原因,并針對網(wǎng)絡(luò)故障、電源故障、傳感器故障等 具體問題,挖掘成因,提出改進建議,旨在降低災(zāi)害監(jiān)測系統(tǒng)的故障率、提高可靠性,為高速鐵路災(zāi)害監(jiān)測系統(tǒng)的運用和維護提供參考。
[1] 中國鐵路總公司. 高速鐵路自然災(zāi)害及異物侵限監(jiān)測系統(tǒng)總體技術(shù)方案:鐵總科技[2013] 35號[Z]. 北京:中國鐵道出版社,2013,2.
[2] 王 楠. 高速鐵路防災(zāi)安全監(jiān)控系統(tǒng)[J]. 鐵路計算機應(yīng)用,2012,21(7):56-56.
[3] 張翠兵. 異物侵限監(jiān)測子系統(tǒng)運用失效的故障樹分析[J]. 鐵路計算機應(yīng)用,2016,25(1):4-7.
[4] 李曉宇,張 鵬,戴賢春,等. 高速鐵路自然災(zāi)害及異物侵限監(jiān)測系統(tǒng)運用及管理優(yōu)化研究[J]. 中國鐵路,2013(10):21-25.
[5] 李亞群,姜 勇,雷 震,等. 高速鐵路自然災(zāi)害及異物侵限監(jiān)測系統(tǒng)監(jiān)控單元設(shè)備可靠性驗證試驗方法研究[J]. 鐵路計算機應(yīng)用,2013,22(12):25-27.
[6] 武明生,秦成文,徐成偉. 高速鐵路風監(jiān)測設(shè)備比對試驗方法的研究[J].鐵路計算機應(yīng)用,2013,22(2):5-8.
[7] Tao Wu, Yusong Yan, Xi Chen. Reduction of Power Consumption in Wireless Sensor Networks for Railway Disaster Prevention and Safety Monitoring System [C]//In:International Conference on Energy and Environmental Science (ICEES),2011:983-991.
[8] 姚鯤鵬,周 宇. 高速鐵路自然災(zāi)害及異物侵限監(jiān)測系統(tǒng)網(wǎng)絡(luò)優(yōu)化方案[J]. 電腦知識與技術(shù),2016,12(34):64-67.
[9] 龔仁樹. 基于CBTC的DCS通信系統(tǒng)介紹與網(wǎng)絡(luò)風暴成因及其處理方式[J]. 鐵路通信信號工程技術(shù),2015,12(6):69-74.
[10] 中國鐵路總公司.高速鐵路自然災(zāi)害及異物侵限監(jiān)測系統(tǒng)維護試行辦法: 鐵總運[2013] 142號[Z]. 北京:中國鐵道出版社,2013,11.