龔仁樹
(上海地鐵維護(hù)保障有限公司通號(hào)分公司,上海 200235)
基于CBTC的DCS通信系統(tǒng)介紹與網(wǎng)絡(luò)風(fēng)暴成因及其處理方式
龔仁樹
(上海地鐵維護(hù)保障有限公司通號(hào)分公司,上海 200235)
隨著計(jì)算機(jī)技術(shù)、控制技術(shù)和現(xiàn)代通信技術(shù)的飛速發(fā)展,地鐵信號(hào)系統(tǒng)的發(fā)展突飛猛進(jìn),從基于軌道電路的列車控制系統(tǒng)(TBTC),到基于通信的列車控制系統(tǒng)(CBTC),其突出的特點(diǎn)之一就是車—地之間數(shù)據(jù)傳輸通道的變革,即從軌道電路變?yōu)闊o(wú)線信道。介紹上海地鐵11號(hào)線CBTC信號(hào)DCS系統(tǒng)設(shè)備及其構(gòu)成的原理,并對(duì)網(wǎng)絡(luò)風(fēng)暴的成因與排故進(jìn)行分析和探討。
CBTC;DCS;網(wǎng)絡(luò)風(fēng)暴
地鐵信號(hào)系統(tǒng)作為一個(gè)列車控制系統(tǒng),是涉及到乘客安全的系統(tǒng)。系統(tǒng)中的硬件、軟件都必須具有高度的可靠性、可用性、可維護(hù)性、安全性。因此,這個(gè)系統(tǒng)的發(fā)展往往比較緩慢。
基于 CBTC(Communication Based Train Control)的地鐵信號(hào)系統(tǒng)使用開放的通信協(xié)議,在隧道、高架中構(gòu)建整個(gè)無(wú)線通信局域網(wǎng)絡(luò),通過(guò)無(wú)線信號(hào)傳輸控制中心發(fā)布的各種控制命令,確保持續(xù)跟蹤列車位置、速度和運(yùn)行方向等信息,實(shí)現(xiàn)車—地之間的數(shù)據(jù)雙向通信。該系統(tǒng)通過(guò)加密允許與其他系統(tǒng)互聯(lián)互通,確保在高無(wú)線流量和電磁噪音的不利環(huán)境下仍提供強(qiáng)勁的系統(tǒng)性能,保證列車安全高效的運(yùn)營(yíng)。這種先進(jìn)的信號(hào)系統(tǒng)與以往的信號(hào)系統(tǒng)不同。以往基于軌道電路的信號(hào)系統(tǒng)中,車—地通信采用的是軌道電路和通信環(huán)線,以FSK、PSK調(diào)制方式的通信為主,列車和軌旁傳輸?shù)臄?shù)據(jù)量比較小,軌旁對(duì)列車的控制能力比較低。而基于CBTC的信號(hào)系統(tǒng)中,車—地通信采用無(wú)線局域網(wǎng)(WLAN),協(xié)議是IEEE 802.11,列車和軌旁傳輸?shù)臄?shù)據(jù)量比較大,軌旁對(duì)列車的控制能力明顯加強(qiáng)。
DCS(Data Communication System)即數(shù)據(jù)通信系統(tǒng)。DCS網(wǎng)絡(luò)通過(guò)使用IEEE802.3標(biāo)準(zhǔn)協(xié)議和擴(kuò)展的無(wú)線IEEE802.11標(biāo)準(zhǔn)協(xié)議為列車自動(dòng)控制(ATC)應(yīng)用提供通信手段。ATC子系統(tǒng)的各個(gè)實(shí)體之間可以通過(guò)IEEE802.3標(biāo)準(zhǔn)信息格式的路由進(jìn)行直接通信。它的主要作用是在各個(gè)子系統(tǒng)之間傳輸ATC報(bào)文,而這些子系統(tǒng)大部分都是移動(dòng)的。DCS是一個(gè)單獨(dú)的網(wǎng)絡(luò),對(duì)于ATC系統(tǒng)的報(bào)文傳送來(lái)說(shuō)是完全透明的。ATC系統(tǒng)的應(yīng)用程序不需要知道任何DCS的工作情況。反之,DCS也不需要知道ATC系統(tǒng)應(yīng)用程序的工作情況。雖然DCS系統(tǒng)所傳輸?shù)氖前踩偷牧熊嚳刂菩畔?,但其本身并不是一個(gè)安全型系統(tǒng),只是一個(gè)可靠的數(shù)據(jù)傳輸系統(tǒng)。
上海軌道交通11號(hào)線采用的是法國(guó)泰雷茲的CBTC系統(tǒng),該系統(tǒng)正是基于無(wú)線通信的移動(dòng)閉塞制式對(duì)列車實(shí)現(xiàn)自動(dòng)控制。本文將以11號(hào)線為例,介紹基于CBTC的DCS系統(tǒng)。
2.1 網(wǎng)絡(luò)架構(gòu)
上海地鐵11號(hào)線DCS系統(tǒng)由骨干網(wǎng)和站間環(huán)網(wǎng)支持,由多重車地?zé)o線鏈接所組成的無(wú)線網(wǎng)絡(luò)組成,有線和無(wú)線設(shè)備共同構(gòu)成一個(gè)無(wú)縫網(wǎng)絡(luò),其網(wǎng)絡(luò)架構(gòu)如圖1所示。
圖1 基于CBTC系統(tǒng)的DCS通信網(wǎng)絡(luò)架構(gòu)
2.1.1 骨干網(wǎng)
骨干網(wǎng)主要是由高速交換機(jī)和單模光纖構(gòu)成的環(huán)形結(jié)構(gòu)。這是基于IEEE 802.3以太網(wǎng)標(biāo)準(zhǔn)的有線通信網(wǎng)絡(luò)。在控制中心、各個(gè)設(shè)備集中站、聯(lián)鎖車站、試車線、停車場(chǎng)和車輛段設(shè)置兩個(gè)冗余的骨干網(wǎng)交換機(jī),考慮到線路長(zhǎng)度過(guò)長(zhǎng),在部分非集中站也設(shè)置了兩個(gè)冗余的骨干網(wǎng)交換機(jī)。
2.1.2 站間環(huán)網(wǎng)
站間環(huán)網(wǎng)是由高速交換機(jī)和多模光纖構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu),由軌旁無(wú)線單元、倒計(jì)時(shí)發(fā)車表示器和其他連在這個(gè)冗余的骨干網(wǎng)絡(luò)上的設(shè)備構(gòu)成。
2.1.3 無(wú)線局域網(wǎng)
車載無(wú)線單元(OBRU)、車載控制器(VOBC)與軌旁無(wú)線單元(WRU)通過(guò)車地?zé)o線局域網(wǎng)相互通信,它是基于IEEE 802.11標(biāo)準(zhǔn)的無(wú)線網(wǎng)絡(luò)。
DCS網(wǎng)絡(luò)鏈接了信號(hào)系統(tǒng)的所有關(guān)鍵設(shè)備,如區(qū)域控制器(ZC)、列車自動(dòng)監(jiān)控(ATS)、接入點(diǎn)(AP)、保密器件(SD)、軌旁無(wú)線單元(WRU)、車載無(wú)線接入點(diǎn)(SA)等,軌旁端數(shù)據(jù)與車載端數(shù)據(jù)的傳輸鏈路如圖2所示。
圖2 ZC和VOBC之間的端到端數(shù)據(jù)傳輸鏈路
2.2 網(wǎng)絡(luò)冗余和可用性分析
基于CBTC信號(hào)的DCS系統(tǒng)采用冗余的機(jī)制保證網(wǎng)絡(luò)的高可用性。
2.2.1 網(wǎng)絡(luò)拓?fù)淙哂?/p>
DCS的骨干網(wǎng)采用雙向自愈的環(huán)形拓?fù)浣Y(jié)構(gòu),當(dāng)單個(gè)設(shè)備故障時(shí),不會(huì)導(dǎo)致與任何網(wǎng)絡(luò)設(shè)備的通信丟失。系統(tǒng)采用自愈協(xié)議,即在一個(gè)交換機(jī)失效后的很短時(shí)間內(nèi)(在多達(dá)50個(gè)節(jié)點(diǎn)的環(huán)網(wǎng)中,小于500 ms)將重新配置網(wǎng)絡(luò)。在如此短時(shí)間內(nèi)的通信丟失,不會(huì)導(dǎo)致ATC的服務(wù)中斷。實(shí)際上,任何原因造成的列車和控制中心之間小于3 s的通信丟失,都不會(huì)影響ATC運(yùn)行。圖3是一個(gè)完全冗余的無(wú)線覆蓋。
2.2.2 設(shè)備冗余
控制中心交換機(jī)設(shè)備是冗余的,為了防止控制中心通信中斷,安裝兩個(gè)交換機(jī)。每個(gè)交換機(jī)可以連接到骨干環(huán)網(wǎng)的不同側(cè)。冗余的設(shè)備和到交換機(jī)的冗余連接,改善了系統(tǒng)的可用性。通過(guò)分/插交換機(jī)把本地交換機(jī)和遠(yuǎn)端交換機(jī)連接起來(lái),保證所有到交換機(jī)的連接都是冗余的。
車載無(wú)線中的冗余體現(xiàn)在列車的兩端都安裝有車載無(wú)線單元OBRU,在任何一端的無(wú)線失效或是到AP的無(wú)線信號(hào)丟失,都可以保持通信。
冗余的AP覆蓋,AP沿線路以一定的間距布置,并確保即便是在每隔一處AP有一個(gè)AP失效的情況下,仍然可以保證信號(hào)的完整覆蓋。
圖3 冗余無(wú)線覆蓋
3.1 網(wǎng)絡(luò)管理系統(tǒng)NMS
對(duì)于DCS系統(tǒng)而言,必要的監(jiān)控手段是必不可少的,11號(hào)線采用的是運(yùn)行于網(wǎng)絡(luò)管理工作站上的NMS(Network Management System)軟件來(lái)監(jiān)督、配置和維護(hù)所有網(wǎng)絡(luò)設(shè)備,該軟件也用于DCS的故障檢測(cè)。NMS利用SNMP協(xié)議與DCS網(wǎng)絡(luò)上的所有管理節(jié)點(diǎn)進(jìn)行通信,并且維護(hù)數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)拓?fù)鋱D顯示節(jié)點(diǎn)和鏈接狀況。鏈接狀況監(jiān)視的是SD相連的第一個(gè)裝置,即網(wǎng)絡(luò)交換機(jī)。
NMS使用標(biāo)準(zhǔn)的SNMP協(xié)議。由含有SNMP MIB(管理信息庫(kù))的SNMP代理組成。DCS網(wǎng)絡(luò)支持SNMP控制(裝有MIB)的網(wǎng)絡(luò)節(jié)點(diǎn),包括:DCS骨干交換機(jī);軌旁無(wú)線單元;車載無(wú)線單元。
網(wǎng)絡(luò)管理工作站安裝SNMPc網(wǎng)絡(luò)管理軟件,該軟件通過(guò)屏幕顯示網(wǎng)絡(luò)界面上設(shè)備的不同顏色來(lái)區(qū)分網(wǎng)絡(luò)設(shè)備的狀態(tài)。顏色分為紅、黃、綠、紫、藍(lán)、灰色,分別表示設(shè)備故障、設(shè)備輪詢、設(shè)備正常、設(shè)備發(fā)生過(guò)的事件(如AP和列車上的SA(車載無(wú)線接入點(diǎn))發(fā)生過(guò)通信等)、設(shè)備重啟過(guò)、設(shè)備未啟用。該軟件還可以查閱歷史告警或事件信息。
3.2 保密器件SD
SD PC位于中央和集中站信號(hào)機(jī)房和車載。SD(Security Device)是保密器件,它的作用有兩個(gè):一是加密、解密的作用,二是實(shí)現(xiàn)路由。在整個(gè)網(wǎng)絡(luò)中起到一個(gè)邊緣網(wǎng)關(guān)的作用,決定網(wǎng)絡(luò)的“內(nèi)部”和“外部”。內(nèi)部總是被保護(hù)的部分,即客戶端子系統(tǒng)(可能是VOBC,ZC或另外所有需要通過(guò)DCS進(jìn)行通信的設(shè)備)。外部是要防備的部分,即DCS。這不是安全相關(guān)的部分:安全相關(guān)的數(shù)據(jù)核對(duì)仍然由被保護(hù)設(shè)備來(lái)完成。SD同時(shí)是個(gè)過(guò)濾器,對(duì)所有用戶數(shù)據(jù)包協(xié)議(UDP)包進(jìn)行鑒權(quán),留取所有支持相關(guān)協(xié)議(因特網(wǎng)組管理協(xié)議(IGMP),地址解析協(xié)議(ARP)等)的包,舍棄所有不符合這兩個(gè)選取標(biāo)準(zhǔn)的數(shù)據(jù)。影響軌旁與車載(SD)通信的兩個(gè)關(guān)鍵因素:證書加上證書吊銷列表(Crl)文件,其中證書更新頻率為3個(gè)月有效期加上1個(gè)月緩沖期,Crl更新頻率為5周有效期加上5周緩沖期。
SD PC的日常維護(hù)主要查看網(wǎng)卡狀態(tài)、主備機(jī)狀況、時(shí)間同步性、日志的下載、證書有效性、更換證書情況等。
3.3 軌旁無(wú)線單元WRU
WRU(Wayside Radio Unit)位于軌旁,包括AP、天線(包含安裝支架)、同軸電纜、放大器、功分器、電源和其他附件。其中AP的日常維護(hù)主要是測(cè)試AP天線的發(fā)射功率。維護(hù)時(shí)利用電腦和配置AP的串口編程電纜登錄疑似故障AP,進(jìn)入診斷模式選擇任一固定頻點(diǎn)(2 410/2 420/2 430/ 2 440/2 450/2 460 MHz等),使AP連續(xù)發(fā)射射頻信號(hào)(注意時(shí)間不能太長(zhǎng),否則將破壞AP箱中的放大器),隨后將掃柄天線和頻譜分析儀正確連接,將掃柄天線的天線面緊貼AP天線,觀察頻譜分析儀測(cè)試出的天線輸出功率是否符合標(biāo)準(zhǔn)。安裝在不同位置的AP對(duì)輸出功率有不同標(biāo)準(zhǔn),具體如下:
1個(gè)AP帶1個(gè)天線(高架)≥7.0 dBm
1個(gè)AP帶2個(gè)天線(高架)≥4.5 dBm
1個(gè)AP帶3個(gè)天線(高架)≥3.5 dBm
1個(gè)AP帶4個(gè)天線(高架站臺(tái)附近)≥2.5 dBm
1個(gè)AP帶1個(gè)天線(隧道)≥7.0 dBm
1個(gè)AP帶2個(gè)天線(隧道)≥4.5 dBm
1個(gè)AP帶3個(gè)天線(隧道)≥3.5 dBm
1個(gè)AP帶4個(gè)天線(隧道站臺(tái)附近)≥2.5 dBm。
3.4 環(huán)間交換機(jī)
DCS交換機(jī)位于中央和集中站信號(hào)機(jī)房。以太網(wǎng)交換機(jī)使用私有協(xié)議耦合兩個(gè)環(huán)上的其他以太網(wǎng)交換機(jī)。正常情況下,一對(duì)環(huán)間交換機(jī)(Inter-Ring Switch)一起工作。其中一個(gè)處于激活狀態(tài),另一個(gè)處于空閑狀態(tài)。一旦主用交換機(jī)發(fā)生故障,另一臺(tái)將在可允許的延遲內(nèi)自動(dòng)激活。
3.5 車載無(wú)線接入點(diǎn)(SA)
車載使用的設(shè)備,該設(shè)備通過(guò)無(wú)線通信鏈路和AP關(guān)聯(lián)起來(lái)。
網(wǎng)絡(luò)風(fēng)暴可以說(shuō)是11號(hào)線運(yùn)營(yíng)到現(xiàn)在對(duì)運(yùn)營(yíng)影響比較大的故障,雖然網(wǎng)絡(luò)風(fēng)暴的發(fā)生對(duì)整個(gè)DCS系統(tǒng)包括ATS有很大的影響,但如果處理得當(dāng),可以在短時(shí)間內(nèi)將故障排除。
4.1 網(wǎng)絡(luò)風(fēng)暴概念
網(wǎng)絡(luò)風(fēng)暴是網(wǎng)絡(luò)廣播風(fēng)暴(Network Broadcast Storm)的簡(jiǎn)稱。當(dāng)主機(jī)系統(tǒng)響應(yīng)一個(gè)在網(wǎng)上不斷循環(huán)的報(bào)文分組或者試圖響應(yīng)一個(gè)沒(méi)有應(yīng)答的系統(tǒng)時(shí)就會(huì)發(fā)生網(wǎng)絡(luò)廣播風(fēng)暴。一般為了改變這種狀態(tài),請(qǐng)求或者響應(yīng)分組源源不斷地產(chǎn)生出來(lái),常使情況變得更糕。隨著網(wǎng)絡(luò)上分組數(shù)目的增加,擁塞會(huì)隨之出現(xiàn),從而降低網(wǎng)絡(luò)的性能以至于使之陷入癱瘓。
網(wǎng)絡(luò)中數(shù)據(jù)幀的傳輸方式一般分為3種:即單播幀(Unicast Frame)、多播幀(Multicast Frame)和廣播幀(Broadcast Frame)。
a、單播幀,也稱“點(diǎn)對(duì)點(diǎn)”通信。此時(shí)幀的接收和傳遞只在兩個(gè)節(jié)點(diǎn)之間進(jìn)行,幀的目的MAC地址就是對(duì)方的MAC地址,網(wǎng)絡(luò)設(shè)備(指交換機(jī)和路由器)根據(jù)幀中的目的MAC地址,將幀轉(zhuǎn)發(fā)出去。
b、多播幀,可以理解為一個(gè)人向多個(gè)人(但不是在場(chǎng)的所有人)說(shuō)話,這樣能夠提高通話的效率。多播占網(wǎng)絡(luò)的比重并不多,主要應(yīng)用于網(wǎng)絡(luò)設(shè)備內(nèi)部通信、網(wǎng)上視頻會(huì)議、網(wǎng)上視頻點(diǎn)播等。
c、廣播幀,可以理解為一個(gè)人對(duì)在場(chǎng)的所有人說(shuō)話,這樣做的好處是通話效率高,信息一下子就可以傳遞到全體。在廣播幀中,幀頭中的目的MAC地址是“FF.FF.FF.FF.FF.FF”,代表網(wǎng)絡(luò)上所有主機(jī)網(wǎng)卡的MAC地址。廣播幀在網(wǎng)絡(luò)中是必不可少的,比如客戶機(jī)通過(guò)DHCP自動(dòng)獲得IP地址的過(guò)程就是通過(guò)廣播幀來(lái)實(shí)現(xiàn)的。而且,由于設(shè)備之間也需要相互通信,因此在網(wǎng)絡(luò)中即使沒(méi)有用戶人為地發(fā)送廣播幀,網(wǎng)絡(luò)上也會(huì)出現(xiàn)一定數(shù)量的廣播幀。同單播和多播相比,廣播幾乎占用子網(wǎng)內(nèi)網(wǎng)絡(luò)的所有帶寬。網(wǎng)絡(luò)中不能長(zhǎng)時(shí)間出現(xiàn)大量的廣播幀,否則就會(huì)出現(xiàn)所謂的“網(wǎng)絡(luò)廣播風(fēng)暴”(每秒的廣播幀數(shù)在1 000以上),也就是所說(shuō)的網(wǎng)絡(luò)風(fēng)暴。
網(wǎng)絡(luò)風(fēng)暴就是網(wǎng)絡(luò)長(zhǎng)時(shí)間被大量的廣播數(shù)據(jù)包所占用,使正常的點(diǎn)對(duì)點(diǎn)通信無(wú)法正常進(jìn)行,其外在表現(xiàn)為網(wǎng)絡(luò)速度奇慢無(wú)比,甚至出現(xiàn)通信中斷。
4.2 網(wǎng)絡(luò)風(fēng)暴成因
一般情況下,產(chǎn)生網(wǎng)絡(luò)風(fēng)暴的原因,主要有以下幾種:
1)網(wǎng)絡(luò)設(shè)備原因:由于網(wǎng)絡(luò)設(shè)備如交換機(jī)故障導(dǎo)致數(shù)據(jù)不斷堆積形成網(wǎng)絡(luò)風(fēng)暴。
2)網(wǎng)絡(luò)節(jié)點(diǎn)損壞或故障:如果網(wǎng)絡(luò)節(jié)點(diǎn)損壞或故障,會(huì)產(chǎn)生網(wǎng)絡(luò)風(fēng)暴。損壞的網(wǎng)絡(luò)節(jié)點(diǎn),會(huì)不停向交換機(jī)發(fā)送大量的數(shù)據(jù)包,產(chǎn)生大量無(wú)用的數(shù)據(jù)包,形成網(wǎng)絡(luò)風(fēng)暴。此類故障比較難排除,由于損壞的網(wǎng)卡一般還能上網(wǎng),可以借用網(wǎng)絡(luò)管理軟件,查看網(wǎng)絡(luò)數(shù)據(jù)流量,來(lái)判斷故障點(diǎn)的位置。
3)網(wǎng)絡(luò)環(huán)路:網(wǎng)絡(luò)環(huán)路的產(chǎn)生,一般是由于一條物理網(wǎng)絡(luò)線路的兩端同時(shí)接在一臺(tái)網(wǎng)絡(luò)設(shè)備中,導(dǎo)致網(wǎng)絡(luò)性能驟下降。現(xiàn)在的交換機(jī)一般都帶有環(huán)路檢測(cè)功能。
4)網(wǎng)絡(luò)病毒:網(wǎng)絡(luò)病毒如Funlove、震蕩波、RPC等病毒,一旦有機(jī)器中毒后,會(huì)立即通過(guò)網(wǎng)絡(luò)進(jìn)行傳播。網(wǎng)絡(luò)病毒的傳播,會(huì)損耗大量的網(wǎng)絡(luò)帶寬,引起網(wǎng)絡(luò)堵塞,形成網(wǎng)絡(luò)風(fēng)暴。地鐵的信號(hào)系統(tǒng)作為獨(dú)立的子網(wǎng)一般很難接觸到網(wǎng)絡(luò)上的病毒,此類狀態(tài)在地鐵系統(tǒng)中較難出現(xiàn)。
4.3 網(wǎng)絡(luò)風(fēng)暴的判斷
隨著通信技術(shù)在信號(hào)系統(tǒng)中的應(yīng)用不斷深入,尤其是隨著CBTC信號(hào)技術(shù)的不斷發(fā)展,各種各樣的網(wǎng)絡(luò)故障也隨之而來(lái)。這些網(wǎng)絡(luò)故障的表現(xiàn)形式多種多樣,如何對(duì)其進(jìn)行合理的判斷,是迅速定位、排故的前提條件。這就要求信號(hào)維護(hù)人員在掌握傳統(tǒng)信號(hào)技術(shù)的基礎(chǔ)上,進(jìn)一步拓展、學(xué)習(xí)現(xiàn)代通信技術(shù)與網(wǎng)絡(luò)技術(shù),成為一名復(fù)合型的技術(shù)人才。
接下來(lái)就幾個(gè)案例進(jìn)行簡(jiǎn)單討論,看看哪些故障屬于網(wǎng)絡(luò)風(fēng)暴。
1)2008年,上海地鐵8號(hào)線開通一年左右,故障發(fā)生時(shí)各集中站均無(wú)法與中央進(jìn)行通信。通過(guò)對(duì)網(wǎng)絡(luò)設(shè)備的抓包分析,發(fā)現(xiàn)時(shí)鐘專業(yè)連接信號(hào)系統(tǒng)的一臺(tái)交換機(jī)存在故障,不停地進(jìn)行重啟。該節(jié)點(diǎn)位于整個(gè)網(wǎng)絡(luò)的根部,其在線狀態(tài)的變化引起整個(gè)網(wǎng)絡(luò)樹型結(jié)構(gòu)的改變,樹型結(jié)構(gòu)的重新生成,會(huì)耗費(fèi)交換機(jī)大量的運(yùn)算資源,不斷地重新生成樹,使得交換機(jī)的運(yùn)算資源被耗盡,從而導(dǎo)致網(wǎng)絡(luò)癱瘓。
該故障的表象與網(wǎng)絡(luò)風(fēng)暴非常類似,但究其根本原因卻并非網(wǎng)絡(luò)風(fēng)暴。
2)2009年,11號(hào)線在開通初期發(fā)生過(guò)一次全網(wǎng)癱瘓故障,在對(duì)故障排查中,發(fā)現(xiàn)故障是由于一起違規(guī)施工導(dǎo)致在運(yùn)營(yíng)時(shí)段試車線的骨干網(wǎng)光纖的尾纖插錯(cuò),兩端插在同一個(gè)交換機(jī)的不同端口上,導(dǎo)致骨干網(wǎng)網(wǎng)絡(luò)成環(huán),整個(gè)骨干網(wǎng)中充斥著大量的廣播包,從而導(dǎo)致了骨干網(wǎng)的徹底癱瘓。
這起故障,是典型的網(wǎng)絡(luò)環(huán)路引起的網(wǎng)絡(luò)風(fēng)暴。
3)2011年,6號(hào)線中央與車控室的ATS工作站均出現(xiàn)運(yùn)行緩慢,命令下發(fā)需要較長(zhǎng)時(shí)間才能生效的問(wèn)題,初步懷疑可能是網(wǎng)絡(luò)風(fēng)暴引起網(wǎng)絡(luò)堵塞。但通過(guò)排查,并未在網(wǎng)絡(luò)上檢測(cè)到大量的廣播包。最后通過(guò)日志分析,發(fā)現(xiàn)是庫(kù)內(nèi)調(diào)試列車的一塊板卡發(fā)生故障,車載控制器不斷向ATS發(fā)送大量告警信息,導(dǎo)致ATS工作站處理不過(guò)來(lái)(CPU占用率過(guò)高),從而使其運(yùn)行變緩。
這起故障也不是網(wǎng)絡(luò)風(fēng)暴。
從以上幾起例子的分析,我們可以看到,類似網(wǎng)絡(luò)風(fēng)暴的現(xiàn)象未必網(wǎng)絡(luò)風(fēng)暴,真正是否網(wǎng)絡(luò)風(fēng)暴,關(guān)鍵還是要看(子)網(wǎng)絡(luò)中是否存在大量的廣播包。
4.4網(wǎng)絡(luò)風(fēng)暴的應(yīng)對(duì)及處理方法
使用路由器或三層交換機(jī)能夠?qū)崿F(xiàn)在不同子網(wǎng)間隔離廣播風(fēng)暴的作用。當(dāng)路由器或三層交換機(jī)收到廣播幀時(shí)并不處理它,使它無(wú)法再傳遞到其他子網(wǎng)中,從而達(dá)到隔離網(wǎng)絡(luò)風(fēng)暴的目的。因此在由幾百臺(tái)甚至上千臺(tái)電腦構(gòu)成的大中型局域網(wǎng)中,為了隔離網(wǎng)絡(luò)風(fēng)暴,都要進(jìn)行子網(wǎng)劃分。11號(hào)線的DCS子系統(tǒng)采用二層交換機(jī),因此在這一層面無(wú)法隔離網(wǎng)絡(luò)風(fēng)暴,不過(guò)可以通過(guò)VLAN的劃分來(lái)隔離廣播風(fēng)暴,11號(hào)線的DCS系統(tǒng)也正是這么設(shè)計(jì)的。但是當(dāng)重要的子網(wǎng)出現(xiàn)網(wǎng)絡(luò)風(fēng)暴時(shí),仍然會(huì)對(duì)信號(hào)系統(tǒng)的正常運(yùn)行產(chǎn)生重大影響。
在信號(hào)系統(tǒng)中,由于網(wǎng)絡(luò)相對(duì)獨(dú)立,病毒導(dǎo)致的網(wǎng)絡(luò)風(fēng)暴現(xiàn)象基本沒(méi)有發(fā)生過(guò),因此系統(tǒng)發(fā)生網(wǎng)絡(luò)風(fēng)暴時(shí)往往是由于其他3種原因引起的。
DCS系統(tǒng)作為一個(gè)CBTC信號(hào)系統(tǒng)中最重要的子系統(tǒng),如果發(fā)生故障對(duì)地鐵安全運(yùn)營(yíng)帶來(lái)的影響極其巨大,因此為確保地鐵安全運(yùn)營(yíng),如何快速找到網(wǎng)絡(luò)風(fēng)暴的故障點(diǎn)相當(dāng)重要。就此,筆者根據(jù)這幾年中的工作經(jīng)驗(yàn)提出幾點(diǎn)操作建議。當(dāng)突發(fā)網(wǎng)絡(luò)風(fēng)暴時(shí),建議按照如下步驟操作。
1)迅速確認(rèn)各集中站是否啟動(dòng)緊急站控,確保運(yùn)營(yíng)不中斷,同時(shí)對(duì)網(wǎng)絡(luò)進(jìn)行抓包分析,確認(rèn)是否發(fā)生了網(wǎng)絡(luò)廣播風(fēng)暴;
2)若DCS網(wǎng)絡(luò)突發(fā)網(wǎng)絡(luò)風(fēng)暴,往往是網(wǎng)絡(luò)中存在突發(fā)的環(huán)路,有如下兩種可能:
a.單模骨干網(wǎng)絡(luò)形成環(huán)路,即RM(冗余管理)功能失效;
b.多模子環(huán)網(wǎng)絡(luò)形成環(huán)路,即RM(冗余管理)功能失效。
3)由于發(fā)生風(fēng)暴時(shí),已經(jīng)無(wú)法及時(shí)判斷故障原因,所以首先需斷開單模骨干環(huán)網(wǎng):可以將任意站內(nèi)ATC Rack中的任意一對(duì)光纖尾纖斷開(一般選擇控制中心信號(hào)機(jī)房的機(jī)架),確保網(wǎng)絡(luò)不再構(gòu)成環(huán)狀拓?fù)洌?/p>
4)若網(wǎng)絡(luò)風(fēng)暴仍未消失,則說(shuō)明形成環(huán)網(wǎng)的地點(diǎn)不在單模骨干網(wǎng)內(nèi),所以針對(duì)b,需要將所有軌旁子環(huán)也斷開成線性拓?fù)?,即針?duì)一個(gè)子環(huán),斷開一個(gè)MS20-0800交換機(jī)上的任意一對(duì)光纖尾纖;
5)依次做如上操作,直至網(wǎng)絡(luò)風(fēng)暴現(xiàn)象消除,優(yōu)先確保運(yùn)營(yíng)所受的影響最??;
6)當(dāng)斷開某個(gè)環(huán)網(wǎng)后,網(wǎng)絡(luò)風(fēng)暴消除,即說(shuō)明網(wǎng)絡(luò)風(fēng)暴形成的原因是該骨干環(huán)/子環(huán)內(nèi)的RM交換機(jī)有故障(交換機(jī)故障或者RM功能失效),待運(yùn)營(yíng)結(jié)束后去現(xiàn)場(chǎng)做更換處理。
本文主要描述了基于CBTC的上海地鐵11號(hào)線信號(hào)系統(tǒng)中DCS子系統(tǒng)的實(shí)現(xiàn)、組成以及該系統(tǒng)下網(wǎng)絡(luò)風(fēng)暴發(fā)生后的處置方式。
基于CBTC的地鐵信號(hào)系統(tǒng)的通信網(wǎng)絡(luò)是一個(gè)極其龐大復(fù)雜的分布式網(wǎng)絡(luò),隨著一條線路的延伸,對(duì)于其通信子系統(tǒng)的深入了解和掌握,更好地提高設(shè)施設(shè)備的使用水平與維護(hù)水平是不可或缺的,本文對(duì)此所進(jìn)行的探討,仍可以進(jìn)一步深入挖掘,如何提高DCS子系統(tǒng)的可靠性與可用性,是今后必須研究的目標(biāo)。
[1] IEEE IEEE 1474.1 IEEE Standard for Communication Based Train Control (CBTC) Performance and Functional Requirements[S].New York,US:IEEE Vehicular Technology Society,2004.
[2]段綦,孫章,徐金祥,等.基于無(wú)線通信的列車控制技術(shù)與互聯(lián)互通[J].城市軌道交通研究,2004(1):10-12.
[3]朱翔.實(shí)現(xiàn)基于通信的列車控制互聯(lián)互通的若干思考[J].城市軌道交通研究,2006(9):6-8.
[4]魏京璇,王文松.淺談網(wǎng)絡(luò)廣播風(fēng)暴及解決方法[J].計(jì)算機(jī)與網(wǎng)絡(luò), 2005 (16):60-61.
With rapid development of computer technology, control technology and modern communication technology, metro signal systems are going ahead by leaps and bounds from track circuit based train control system (TBTC) to communication based train control system (CBTC). One outstanding feature is the evolution of train-ground data transmission channels, namely, from track circuit to wireless channel. The paper introduces DCS system equipment and structure principles of CBTC system for Shanghai metro line 11,and gives the analysis and discussion on the causes of network storm and troubleshooting.
CBTC; DCS; network storm
10.3969/j.issn.1673-4440.2015.06.018
2015-10-27)