沈 豐
(上海地鐵維護保障有限公司通號分公司,200235,上海 ∥ 助理工程師)
上海軌道交通2號線(以下簡為“2號線”)DTS(信號數(shù)據(jù)傳輸系統(tǒng)),在整個信號系統(tǒng)中負責集中站與集中站間的數(shù)據(jù)轉(zhuǎn)發(fā)、校驗和控制,猶如人體中的大動脈一般,起著至關(guān)重要的作用。2016年,2號線東延伸段(張江高科站—浦東國際機場站)的東環(huán)網(wǎng)DTS發(fā)生了數(shù)次故障。這些故障影響范圍大、面積廣,處理時間長,嚴重影響了運營秩序,并造成了不良的社會影響。
通過不斷改造、升級及優(yōu)化,目前的環(huán)網(wǎng)系統(tǒng)速度快、容量大、性能相對穩(wěn)定,信號傳輸?shù)目煽啃砸灿懈纳?,但仍會發(fā)生故障。本文基于對DTS故障的分析,制定出合理、有效的預防維護措施及方法,以確保DTS的穩(wěn)定與安全。
2號線信號系統(tǒng)通信線路由2個獨立工作的環(huán)網(wǎng)組成:徐涇東站至龍陽路站為西環(huán)網(wǎng)范圍,龍陽路站至浦東國際機場站為東環(huán)網(wǎng)范圍。
環(huán)網(wǎng)各節(jié)點(交換機)通過光纖直接串連在1條首尾相連的閉合環(huán)型通信線路中,只要任何1個節(jié)點發(fā)生故障,就有可能造成該環(huán)網(wǎng)的中斷或癱瘓。而在主備熱冗余環(huán)網(wǎng)(見圖1)中,即使其中1個環(huán)網(wǎng)發(fā)生了故障,信號系統(tǒng)也能迅速切換至正常環(huán)網(wǎng)繼續(xù)工作。為保證通信的穩(wěn)定,2號線DTS采用主備熱冗余環(huán)網(wǎng)結(jié)構(gòu)。其中,主環(huán)網(wǎng)為LAN A(局域網(wǎng)A),備環(huán)網(wǎng)為LAN B(局域網(wǎng)B),各站MOXA Switch交換機為中繼節(jié)點。
圖1 主備熱冗余環(huán)網(wǎng)結(jié)構(gòu)示意圖
各站點中的NVLE(非安全邏輯仿真控制器)、SCW(人機對話工作站)、Rugged TerminalServer(終端服務器)及AP(無線訪問接入點)等設備,均通過交換機進行數(shù)據(jù)傳輸與轉(zhuǎn)換協(xié)議的處理(見圖2)。
圖2 2號線站點聯(lián)鎖設備通信連接示意圖
2號線DTS故障類型主要有:交換機閾值過高,造成交換機宕機;終端服務器串口數(shù)據(jù)異常,影響聯(lián)鎖通信等。
2.1.1 故障現(xiàn)象
在浦東機場站、創(chuàng)新中路站及川沙站等多個集中站,ATS(列車自動監(jiān)控)面板顯示比實際滯后,控制中心調(diào)度員及車站值班員無法通過人工操作來干預。
2.1.2 故障分析
利用Wireshark抓包軟件對交換機通信數(shù)據(jù)進行長時間檢測發(fā)現(xiàn),當交換機CPU(中央處理器)閾值≥90%時,通道內(nèi)存在大量的RSTP(快速生成樹協(xié)議)廣播數(shù)據(jù)包。
使用FLUKE網(wǎng)絡分析儀長時間監(jiān)測全網(wǎng)通信狀態(tài),并匯總數(shù)據(jù)進行分析發(fā)現(xiàn),大量的RSTP廣播數(shù)據(jù)包是造成交換機閾值過高的主要原因。這些數(shù)據(jù)包主要流經(jīng)LAN A或LAN B交換機的1-8端口(連接屏蔽門終端服務器的端口)、4-1及4-2端口(連接環(huán)網(wǎng)主干道的端口)。
進一步分析發(fā)現(xiàn):如MOXA PT7828交換機CPU閾值≥50%,則說明交換機處理的網(wǎng)絡數(shù)據(jù)量極大;當長時間閾值≥90%時,容易發(fā)生交換機宕機,從而使所有連接交換機的終端都無法通信;屏蔽門終端服務器發(fā)生異常,是交換機閾值過高的原因之一。
2.1.3 故障處理
當交換機閾值異常時,可開啟MOXA交換機的廣播風暴抑制功能。這一處理措施可抑制環(huán)網(wǎng)中廣播幀數(shù)量的急劇增加,從而有效緩解交換機閾值過高的現(xiàn)象。
環(huán)網(wǎng)中的屏蔽門終端服務器數(shù)量較多,其故障數(shù)也居高不下。由于屏蔽門終端服務器跨接LAN A與LAN B,并分布在全網(wǎng)的每個節(jié)點上,因此,屏蔽門終端服務器一旦發(fā)生故障,就會有較高的概率導致雙網(wǎng)同時發(fā)生故障,進而使信號系統(tǒng)癱瘓,形成極大安全隱患。對此提出割接屏蔽門終端服務器及AP至單網(wǎng)的解決方案:將廣蘭路站、創(chuàng)新中路站、川沙站、徐涇東站和虹橋2號航站樓站的屏蔽門終端服務器及AP割接至LAN A,將張江高科站、凌空路站、遠東大道站、海天三路站和浦東國際機場站的屏蔽門終端服務器及AP割接至LAN B。
長時間的運營效果顯示:通過開啟MOXA交換機網(wǎng)絡風暴抑制功能,優(yōu)化網(wǎng)絡結(jié)構(gòu)并將屏蔽門終端服務器與AP割接至單網(wǎng)后,再未發(fā)生過類似故障。
2.2.1 故障現(xiàn)象
2016年6月,2號線的多個集中站上行進路無法正常排列,聯(lián)鎖失去通信;創(chuàng)新中路集中站控制線切斷,相關(guān)聯(lián)鎖區(qū)域大范圍列車無速度碼,且人工無法干預操作等。經(jīng)檢查,確診為創(chuàng)新中路60終端服務器串口數(shù)據(jù)異常故障。重置相關(guān)端口后,設備恢復正常運行。該故障造成列車晚點15 min。
2.2.2 故障分析
利用telnet遠程虛擬終端服務和要登入的終端服務器IP(互聯(lián)網(wǎng)協(xié)議)地址,觀察串口通信數(shù)據(jù),發(fā)現(xiàn)聯(lián)鎖通信數(shù)據(jù)中斷。檢查聯(lián)鎖 CPU板的相應通信通道發(fā)現(xiàn),聯(lián)鎖系統(tǒng)正常將數(shù)據(jù)轉(zhuǎn)發(fā)至聯(lián)鎖終端服務器,而終端服務器并未正常轉(zhuǎn)發(fā),導致鄰站間聯(lián)鎖數(shù)據(jù)中斷,無法正常排列進路,區(qū)間內(nèi)列車均收不到正常速度碼。
使用FLUKE網(wǎng)絡分析儀長時間監(jiān)測聯(lián)鎖通信終端服務器。分析監(jiān)測數(shù)據(jù)發(fā)現(xiàn),聯(lián)鎖終端服務器發(fā)生了數(shù)據(jù)環(huán)繞現(xiàn)象。鄰站聯(lián)鎖系統(tǒng)通信數(shù)據(jù)通過RS 910終端服務器后,先進行協(xié)議轉(zhuǎn)換(RS 232串口通訊協(xié)議轉(zhuǎn)RJ 45網(wǎng)線TCP/IP協(xié)議),再基于安全型TCP/IP協(xié)議傳輸??梢姡盘枖?shù)據(jù)在傳輸前需經(jīng)過TCP/IP三次握手。簡單來說,TCP/IP三次握手過程為:設備A先產(chǎn)生1個隨機序列號(Seq Number),并發(fā)送給設備B;設備B在序列號數(shù)值上加1形成確認號(ACK Number),并發(fā)給設備A,表示設備B已經(jīng)收到設備A的發(fā)送請求,且允許通信;設備A收到正確的ACK Number后,再加1,并發(fā)送給設備B,完成TCP/IP三次握手。其中Seq Number是隨機產(chǎn)生的二進制數(shù)。Seq Number在達到上限后,如再加1,就歸位成0,進而形成數(shù)據(jù)環(huán)繞,無法完成TCP/IP三次握手,使通信中斷。
由上述分析可知,聯(lián)鎖通信終端服務器RS 910本身存在固件缺陷。這是導致鄰站聯(lián)鎖通信中斷的主要原因。
2.2.3 故障處理
將該故障現(xiàn)象及相應的大量數(shù)據(jù)報告遞送至供應商后,由供應商對固件升級補丁。該故障得以修復。
2.3.1 故障現(xiàn)象
2016年1月26日,2號線東環(huán)網(wǎng)DTS通信中斷故障,凌空路站61網(wǎng)段交換機宕機。此次故障造成凌空路站、遠東大道站和浦東國際機場站61網(wǎng)段的交換機、NVLE和終端服務器通信中斷。重啟凌空路61網(wǎng)段交換機后,設備恢復正常運行。
2.3.2 故障分析
2號線東環(huán)網(wǎng)60網(wǎng)段交換機邏輯連接示意圖如圖3所示。圖3中,張江高科站為master交換機,4-1端口為邏輯斷點(防止環(huán)網(wǎng)形成環(huán)路)。
圖3 2號線東環(huán)網(wǎng)60網(wǎng)段邏輯連接示意圖
2號線東環(huán)網(wǎng)61網(wǎng)段的交換機邏輯連接示意圖如圖4所示。圖4中,浦東機場站為 master交換機,4-1端口為邏輯斷點。
圖4 2號線東環(huán)網(wǎng)61網(wǎng)段邏輯連接示意圖
2號線DTS系統(tǒng)環(huán)網(wǎng)交換機所用的MOXA PT-7828系列交換機,采用自主研發(fā)的Turbo Ring專用協(xié)議,其主交換機會通過監(jiān)測物理層信號來主動偵測環(huán)網(wǎng)中的各交換機是否發(fā)生斷電或線路斷開等故障。如有交換機發(fā)生故障,則啟用備用線路隔開故障點。在2號線東環(huán)網(wǎng)60網(wǎng)段中,張江高科站為邏輯主交換機,張江高科站的4-1端口與創(chuàng)新中路站的4-2端口之間為邏輯斷點。如果廣蘭路站的交換機發(fā)生斷電或線路斷開等故障,則Turbo Ring協(xié)議會啟用張江高科站的4-1端口與創(chuàng)新中路站的4-2端口之間的物理線路,使環(huán)網(wǎng)中只有廣蘭路站這1個站點受影響。然而,在日常運營中,交換機宕機時有發(fā)生,且宕機時交換機在物理層仍有連通,故Turbo Ring協(xié)議不會啟用備用線路。在此情況下,只要廣蘭路站發(fā)生宕機,就會造成控制中心與廣蘭路站至川沙站都沒有通信。
2.3.3 故障處理
鑒于故障起因分析,安排搶修人員到機房查看交換機、NVLE和終端服務器的通信狀態(tài)和燈位。
當搶修人員配有筆記本電腦時:搶修人員將故障范圍內(nèi)及鄰站每個機房的RS 530 A/B切換器切換到正常網(wǎng)段;人工配置筆記本電腦的IP地址(IP地址不得與網(wǎng)內(nèi)其它信號設備相同)后,將筆記本電腦插入交換機插口連接交換機;打開MOXA PT-7828專用軟件,點擊Boardcast Search按鈕,以查看界面中的信息;若環(huán)內(nèi)1個或多個交換機并未在顯示菜單中,則初步判斷離本站最近的邏輯站點交換機可能存在故障;對故障網(wǎng)段交換機進行重啟。
當搶修人員未配有筆記本電腦時:可通過信號機房內(nèi)的NVLE進行操作;按照DTS交換機邏輯連接結(jié)構(gòu)使用ping命令來排查大致故障點;如離本站最近的邏輯站點交換機無法ping通,基本可以判斷該站交換機發(fā)生故障;重啟故障交換機,確認其重啟成功、無告警,且各連接端口通信正常,則故障排除。
本文基于2號線DTS典型故障的故障處理辦法和預防經(jīng)驗,總結(jié)了常規(guī)的維護措施。
措施1:定期查看控制中心的H3C網(wǎng)絡管理系統(tǒng)。增加中央網(wǎng)絡管理系統(tǒng)的巡檢頻次及內(nèi)容,通過控制中心H3C網(wǎng)絡管理系統(tǒng)的SNMP(簡單網(wǎng)絡管理協(xié)議)功能來監(jiān)測全網(wǎng)中間設備是否正常。監(jiān)測內(nèi)容包括:網(wǎng)絡管理系統(tǒng)有無設備不可達、離線狀態(tài)等告警;查看各站點交換機閾值是否≤50%,利用ping命令測試各網(wǎng)絡節(jié)點間通道是否正常等。
措施2:定期查看終端服務器通信狀態(tài)。每日必須通過“Telnet +電腦 IP地址” 命令遠程登入各終端服務器以查看通信狀態(tài)。登入終端服務器后,在Serial Port串行端口菜單中查看數(shù)據(jù)統(tǒng)計,正常的字節(jié)傳輸速度應為15bit/s, 正常的packet數(shù)據(jù)包傳輸速度應為1packet/s;若數(shù)據(jù)包傳輸量之和為0,則串口通信已經(jīng)中斷,需立即處理。
措施3:定期查看AP是否正常。每日必須通過“Telnet +電腦 IP地址” 命令來遠程登入AC無線管理交換機,獲取AP登入權(quán)限,以查看AP工作狀態(tài)。
措施4:下載分析交換機系統(tǒng)數(shù)據(jù)及日志。在每次中央H3C網(wǎng)管系統(tǒng)告警后,需要下載MOXA交換機系統(tǒng)數(shù)據(jù)及日志并進行分析。交換機系統(tǒng)數(shù)據(jù)及日志可通過Edscfgui專用軟件和虛擬終端(VTY)等多種方式下載。其中,使用Edscfgui專用軟件最為方便,使用RJ 45網(wǎng)線連接筆記本電腦與交換機空閑端口,并將該端口VLAN ID(虛擬局域網(wǎng)賬號)改成VLAN 1(管理ID)。打開專用軟件Edscfgui.exe后,輸入交換機IP地址與密碼登入交換機管理模式,選擇Configuration配置菜單中的Export Configuration輸出系統(tǒng)配置文件命令進行下載。
措施5:下載分析終端服務器系統(tǒng)日志。當終端服務器發(fā)生串口通信數(shù)據(jù)異常時,及時下載RS 910終端服務器系統(tǒng)日志數(shù)據(jù),以便分析查找故障原因。
本文分析了2號線DTS設備發(fā)生故障的原因,總結(jié)了相關(guān)的維護經(jīng)驗。主要的故障處理措施及維護措施為:開啟MOXA交換機網(wǎng)絡風暴抑制功能,并優(yōu)化網(wǎng)絡配置結(jié)構(gòu);升級終端服務器固件;加強對中央H3C網(wǎng)絡管理系統(tǒng)的巡視,定期查看終端服務器通信狀態(tài),查看AP是否正常。
這些經(jīng)驗也總結(jié)在《2號線設備排故手冊》和《2號線信號DTS傳輸系統(tǒng)維規(guī)》中。實踐結(jié)果表明,這些故障預防措施做到了事前控制,能有效降低DTS設備故障發(fā)生率,保證了設備的穩(wěn)定運行。