趙 強,馬志瑜,劉亞飛,李 鋒
(中車長春軌道客車股份有限公司,吉林 長春 130062)
列車通信網(wǎng)絡(luò)作為面向列車牽引、制動等安全相關(guān)系統(tǒng)執(zhí)行數(shù)據(jù)采集、狀態(tài)監(jiān)視、運行控制、故障診斷及信息傳輸?shù)娜蝿?wù)中樞神經(jīng),其分布式控制系統(tǒng)組成設(shè)備應(yīng)用嵌入式軟件通過列車及車輛總線與各子系統(tǒng)緊密連接成交錯的復(fù)雜信息傳輸網(wǎng)。列車網(wǎng)絡(luò)節(jié)點之間相互關(guān)聯(lián),邏輯關(guān)系復(fù)雜,任何一個節(jié)點局部的故障都可能導(dǎo)致在采集周期內(nèi)的數(shù)據(jù)錯誤或者缺失,直接降低被采集數(shù)據(jù)的準確性,致使故障通過網(wǎng)絡(luò)進行傳播,從而影響整列車的安全可靠運營。
智能化和大數(shù)據(jù)帶來的技術(shù)變革使列車通信網(wǎng)絡(luò)的規(guī)模不斷擴大,數(shù)據(jù)傳輸任務(wù)不斷加重,系統(tǒng)設(shè)備性能隨服役時間逐步退化,網(wǎng)絡(luò)故障和失效的概率也逐漸增加。列車通信網(wǎng)絡(luò)在執(zhí)行故障診斷與定位故障管理功能的同時,必須加強對網(wǎng)絡(luò)自身狀態(tài)的監(jiān)視和健康評估,實時掌握通信網(wǎng)絡(luò)的運行狀況,及時預(yù)測網(wǎng)絡(luò)故障傳播狀態(tài)及其影響,捕捉對網(wǎng)絡(luò)故障有影響力節(jié)點的傳播信息,降低由于單點故障引起全網(wǎng)故障的風(fēng)險,這對于提高列車運營的安全性和可靠性尤為重要。
網(wǎng)絡(luò)故障的傳播行為研究就是研究網(wǎng)絡(luò)中最初一個局部小的故障、小的擾動如何在網(wǎng)絡(luò)上傳播并如何最終影響整個網(wǎng)絡(luò)的行為[1]。
為研究確定適用于列車通信網(wǎng)絡(luò)的故障特性分析方法,本文對現(xiàn)有的故障傳播研究方法及其應(yīng)用特點進行了對比分析。其中,基于圖論的方法是通過分析系統(tǒng)結(jié)構(gòu)、功能及邏輯原理,結(jié)合一定的推理策略對復(fù)雜系統(tǒng)進行故障傳播分析,該方法能直觀描述故障傳播關(guān)系,但對于復(fù)雜系統(tǒng)建立模型工作量大且繁瑣;Petri分析法將研究對象輸出與實際輸出進行比較,通過分析產(chǎn)生的殘差,并結(jié)合實際系統(tǒng)特性研究故障傳播過程和定位,此方法能夠準確描述事件狀態(tài)關(guān)系,但當研究對象節(jié)點多、故障傳播狀態(tài)復(fù)雜時,建模復(fù)雜;數(shù)據(jù)驅(qū)動法采用數(shù)學(xué)方法對歷史數(shù)據(jù)進行處理,提煉數(shù)據(jù)中隱含的關(guān)鍵信息,構(gòu)造近似實際系統(tǒng)新模型,通過模型的計算與真實的數(shù)據(jù)對比來進行故障診斷和分析,此方法過于依賴過程數(shù)據(jù);基于復(fù)雜網(wǎng)絡(luò)的分析法能夠從網(wǎng)絡(luò)拓撲結(jié)構(gòu)的角度研究故障傳播網(wǎng)絡(luò)的特性,描述節(jié)點故障產(chǎn)生的網(wǎng)絡(luò)級聯(lián)失效過程[2]。
本文在比較眾多故障傳播研究方法的基礎(chǔ)上,從復(fù)雜網(wǎng)絡(luò)故障傳播分析方法角度出發(fā),以北京地鐵6號線列車通信網(wǎng)絡(luò)為研究分析實例,從網(wǎng)絡(luò)系統(tǒng)功能結(jié)構(gòu)分析、多Agent軟件體系網(wǎng)絡(luò)架構(gòu)構(gòu)建、SIR模型應(yīng)用轉(zhuǎn)化和NetLogo仿真分析等方面進行故障傳播影響特性分析。
北京地鐵6號線列車網(wǎng)絡(luò)控制采用龐巴迪公司依據(jù)TRDP協(xié)議開發(fā)的MITRAC TCMS系統(tǒng),列車通信網(wǎng)絡(luò)采用實時以太網(wǎng)與多功能列車現(xiàn)場總線網(wǎng)絡(luò)相結(jié)合的策略,網(wǎng)絡(luò)拓撲結(jié)構(gòu)如圖1所示,人機接口通過MVB總線和以太網(wǎng)總線與中央控制單元接口,實時性要求高的控制指令、狀態(tài)數(shù)據(jù)通過MVB總線進行傳輸,其他狀態(tài)和診斷數(shù)據(jù)通過以太網(wǎng)進行傳輸。
ATC.列車自動控制系統(tǒng);ACU.輔助控制單元;BCU.制動控制單元;CCU.中央控制單元;DCU.門控單元;ERM.列車數(shù)據(jù)記錄儀;EMD.電氣中距離;FAS.煙火報警系統(tǒng);HMI.人機接口單元;HUB.集線器;HVAC.空調(diào)系統(tǒng);PA.列車廣播系統(tǒng);RPT.中繼器;RIOM.遠程輸入/輸出模塊;TCU.牽引控制單元。
通信網(wǎng)絡(luò)系統(tǒng)硬件主要由CCU、RPT、RIOM等構(gòu)成,節(jié)點信息傳輸用軟件系統(tǒng)主要包括操作系統(tǒng)、應(yīng)用、控制、監(jiān)視軟件等。其中,RPT根據(jù)通信功能需求編寫的應(yīng)用層軟件將網(wǎng)絡(luò)分為列車總線與車輛總線;RIOM主要用于實現(xiàn)網(wǎng)絡(luò)節(jié)點設(shè)備及車載信號系統(tǒng)數(shù)據(jù)的交互;HMI通過監(jiān)視軟件顯示車輛和子系統(tǒng)的狀態(tài)及提供人機交互的接口;ERM應(yīng)用診斷和維護軟件實現(xiàn)對列車主要設(shè)備的運行狀態(tài)、故障的自動信息采集并記錄;CCU作為網(wǎng)絡(luò)信息傳輸?shù)暮诵脑O(shè)備,列車各關(guān)鍵系統(tǒng)狀態(tài)均由CCU進行邏輯判斷后發(fā)出控制指令,實現(xiàn)全列車的控制監(jiān)控功能,由此即構(gòu)建起基于CCU通信安全功能信息核心網(wǎng)。鑒于此,本文以CCU與列車各子系統(tǒng)控制監(jiān)視信息傳輸構(gòu)建的核心通信網(wǎng)為研究切入點,例證說明如何進行列車通信網(wǎng)絡(luò)故障傳播影響分析。
多Agent網(wǎng)絡(luò)結(jié)構(gòu)建模方法是基于復(fù)雜網(wǎng)絡(luò)中軟件體系結(jié)構(gòu)概念進行系統(tǒng)建模的方法[3],軟件體系結(jié)構(gòu)作為軟件系統(tǒng)的高層抽象用以描述整個系統(tǒng)的結(jié)構(gòu)和行為,主要由構(gòu)件、連接件及其相關(guān)約束條件構(gòu)成。將多Agent技術(shù)應(yīng)用于列車通信故障傳播結(jié)構(gòu)網(wǎng)分析,用節(jié)點表示構(gòu)件,用數(shù)字等信息表示構(gòu)件的名稱,把列車通信網(wǎng)絡(luò)牽引、制動等軟件子系統(tǒng)抽象成圖中的節(jié)點,把故障傳播關(guān)系(即子系統(tǒng)間信息傳輸邏輯關(guān)系)抽象為連接節(jié)點的有向邊,即將列車網(wǎng)絡(luò)通信信息傳輸模型轉(zhuǎn)化為故障傳播結(jié)構(gòu)的圖形式展開故障傳播特性問題的研究?;诒本┑罔F6號線列車通信網(wǎng)絡(luò)系統(tǒng)功能結(jié)構(gòu)和多Agent應(yīng)用技術(shù)分析建立的CCU通信網(wǎng)絡(luò)軟件系統(tǒng)故障傳播結(jié)構(gòu)網(wǎng)如圖2所示。
圖2 CCU通信網(wǎng)絡(luò)軟件系統(tǒng)故障傳播結(jié)構(gòu)圖
SIR模型是一種用于描述抽象信息傳播的過程模型(圖3),是在傳染病動力學(xué)中沿用Kermack與McKendrick用動力學(xué)方法建立的傳染病模型中最經(jīng)典的模型[4]。
β.節(jié)點故障傳播概率;γ.節(jié)點故障移除概率。
SIR模型應(yīng)用于列車通信網(wǎng)絡(luò)故障傳播的研究時可以理解為:列車通信網(wǎng)絡(luò)結(jié)構(gòu)轉(zhuǎn)化為列車通信故障傳播結(jié)構(gòu)網(wǎng);初始狀態(tài)下,故障結(jié)構(gòu)網(wǎng)絡(luò)中所有節(jié)點對應(yīng)于故障易感狀態(tài);網(wǎng)絡(luò)中節(jié)點發(fā)生故障后,即轉(zhuǎn)變?yōu)楣收细腥緺顟B(tài);節(jié)點故障解決處理后且不再會導(dǎo)致其他節(jié)點故障的發(fā)生,即進入故障移除狀態(tài)。
由此,為了應(yīng)用SIR模型進行列車通信網(wǎng)絡(luò)故障傳播分析,結(jié)合列車通信網(wǎng)絡(luò)結(jié)構(gòu)功能及其信息傳輸固有特性進行分析,針對故障傳播路徑、故障傳播概率和故障傳播強度的研究要求,確定基于SIR 的列車通信網(wǎng)絡(luò)故障傳播模型應(yīng)用前提條件假設(shè):
(1) 通信網(wǎng)絡(luò)故障節(jié)點的個體通過它們之間的連邊感染與其相鄰的節(jié)點;
(2) 假設(shè)故障傳播的時間尺度遠遠小于各個節(jié)點的生命周期以及系統(tǒng)的運行周期,從而不考慮節(jié)點個體的故障產(chǎn)生率與死亡率,即網(wǎng)絡(luò)的節(jié)點總數(shù)保持不變;
(3) 均勻混合假設(shè),即處于各個狀態(tài)的節(jié)點均勻混合,故障密度與故障節(jié)點的密度成正比。
與此同時,為建立SIR列車通信網(wǎng)絡(luò)故障傳播演化方程并分析求解,進行網(wǎng)絡(luò)故障傳播的狀態(tài)轉(zhuǎn)移過程假設(shè):
假設(shè)t時刻通信網(wǎng)絡(luò)系統(tǒng)中的節(jié)點處于故障易感狀態(tài)、故障感染狀態(tài)和故障移除狀態(tài)的個體的密度分別為Φ(t)、ρ(t)和χ(t)。當t趨于無窮大時,故障易感個體、故障感染個體和故障移除個體的密度分別為Φ、ρ和χ。在每個時間步,如果網(wǎng)絡(luò)中故障易感個體至少和一個故障感染個體相連,則它被故障感染的概率為β;同時,故障感染個體被修復(fù)并具有容錯機制,變?yōu)楣收弦瞥齻€體的概率為γ。
由此將SIR模型轉(zhuǎn)化為列車通信網(wǎng)絡(luò)故障傳播分析的演化方程為:
(1)
(2)
(3)
λ——故障有效傳播率。
為簡便計算,假設(shè)γ= 1,即由故障感染狀態(tài)到故障移除狀態(tài)的概率為1,指對于存在故障的節(jié)點,不考慮時間尺度的影響,最后故障都會被移除,成為故障移除狀態(tài)。同時,對SIR模型進行穩(wěn)定性分析,可得故障有效傳播率的臨界值為:
當λ>λc時,故障將在CCU軟件系統(tǒng)中傳播,并最終達到一個穩(wěn)定的狀態(tài),系統(tǒng)中所有個體處于故障移除狀態(tài),而故障感染個體的數(shù)目為0。
NetLogo仿真平臺適合對隨時間演化的復(fù)雜系統(tǒng)進行建模仿真[5],同樣適用于列車通信網(wǎng)絡(luò)故障傳播影響仿真試驗分析。本文的研究思路是通過應(yīng)用多Agent技術(shù)構(gòu)建列車通信故障傳播結(jié)構(gòu)網(wǎng),結(jié)合SIR故障狀態(tài)轉(zhuǎn)移演化方程算法求解過程分析,利用 NetLogo仿真工具進行列車通信網(wǎng)絡(luò)CCU軟件系統(tǒng)的故障數(shù)值仿真,從而達到統(tǒng)計分析通信網(wǎng)絡(luò)各節(jié)點處于故障易感狀態(tài)、故障感染狀態(tài)和故障移除狀態(tài)的個體的密度以及分析整個網(wǎng)絡(luò)的故障傳播狀態(tài)的目的。
2.4.1 仿真參數(shù)定義
根據(jù)建立的CCU故障傳播結(jié)構(gòu)圖進行仿真參數(shù)定義設(shè)置:
(2) 仿真輸出曲線圖中,定義藍色曲線為節(jié)點處于故障易感狀態(tài)個體密度Φ(t),紅色曲線為故障感染狀態(tài)個體密度ρ(t),灰色曲線為故障移除狀態(tài)個體密度χ(t)。
(3) 節(jié)點故障傳播概率β表示節(jié)點的故障傳播能力,β=100%為最大,是指具有100%的故障傳播能力;β=0 為最小,是指發(fā)生故障的節(jié)點不會將故障以任何形式傳播下去,即不會對其他節(jié)點產(chǎn)生影響。
(4) 節(jié)點故障移除概率γ表示故障的維修能力,γ=100%為最大,是指對于故障節(jié)點具有100%的修復(fù)好的能力;γ=0為最小,是指發(fā)生故障的節(jié)點無法修復(fù)好。
(5) 初始故障數(shù)目為n,表示通信網(wǎng)絡(luò)系統(tǒng)中開始的軟件故障節(jié)點數(shù)目。
(6) 修復(fù)時間為M(t),表示對于故障的維修所需要的單位時間。
2.4.2 仿真數(shù)據(jù)輸出
對列車通信網(wǎng)絡(luò)不同條件下的故障傳播狀態(tài)進行數(shù)值仿真,得到不同條件下仿真列車通信網(wǎng)絡(luò)狀態(tài)輸出數(shù)值。
(1)β=100% ,γ=100% ,M(t)=2,n=1(單個故障), 在CCU故障和CCU非故障情況下,模擬仿真列車通信網(wǎng)絡(luò)故障傳播狀態(tài)數(shù)值如圖4所示。
圖4 節(jié)點故障傳播概率和移除概率均較高條件下列車通信網(wǎng)絡(luò)故障傳播仿真數(shù)值圖
(2)γ=50% ,n=1,M(t)=2,在CCU故障和CCU非故障情況下,模擬仿真β=100%和β=80%條件下的列車通信網(wǎng)絡(luò)故障傳播狀態(tài)數(shù)值如圖5所示。
圖5 節(jié)點故障移除概率低條件下的列車通信網(wǎng)絡(luò)故障傳播仿真數(shù)值圖
(3)n=1,M(t)=2,在CCU非故障情況下,模擬仿真β=80%、γ=50% 和β=30%、γ=30%條件下的列車通信網(wǎng)絡(luò)故障傳播狀態(tài)數(shù)值如圖6所示。
(4)β=100%,γ=20%,n=4(多個初始故障),M(t)=2,CCU非故障和2個CCU故障狀態(tài)下的列車通信網(wǎng)絡(luò)故障傳播狀態(tài)數(shù)值如圖7所示。
(5)β=100%,γ=20%,M(t)=16,在非CCU故障情況下,模擬仿真單故障(n=1)及多故障(n=4)情況下的列車通信網(wǎng)絡(luò)故障傳播狀態(tài)數(shù)值如圖8所示。
圖6 節(jié)點故障傳播概率和移除概率均較低條件下的列車通信網(wǎng)絡(luò)故障傳播仿真數(shù)值圖
圖7 多故障、節(jié)點故障移除概率低條件下的列車通信網(wǎng)絡(luò)故障傳播仿真數(shù)值圖
(6)β=100%,γ=20%,M(t)=16,n=4,且其中2個為CCU故障,模擬仿真列車通信網(wǎng)絡(luò)故障傳播狀態(tài)數(shù)值如圖9所示。
2.4.3 仿真結(jié)果分析
由上述多個仿真數(shù)值分析圖可以得出如下結(jié)論:
(1) 初始故障n=1時,不論CCU故障與否,其故障易感狀態(tài)節(jié)點密度、故障感染狀態(tài)節(jié)點密度和故障移除狀態(tài)節(jié)點密度的變化趨勢類似,但由于CCU軟件連接的其他軟件較多,因此其故障感染狀態(tài)節(jié)點密度較大。
圖8 節(jié)點故障移除概率較低、故障修復(fù)時間長條件下的列車通信網(wǎng)絡(luò)故障傳播仿真數(shù)值圖
圖9 多CCU故障、節(jié)點故障移除概率較低、故障修復(fù)時間長條件下的列車通信網(wǎng)絡(luò)故障傳播仿真數(shù)值圖
(2) 對故障節(jié)點的修復(fù)時間長短直接關(guān)系著網(wǎng)絡(luò)中故障的傳播程度。故障修復(fù)時間越短,對整個網(wǎng)絡(luò)的故障傳播影響越小;故障修復(fù)時間越長,對整個網(wǎng)絡(luò)的故障傳播影響越大。
(3) 故障節(jié)點移除概率的大小直接關(guān)系著3種密度的變化趨勢。隨著時間的增加,故障易感狀態(tài)節(jié)點密度先是逐漸減小,然后又逐漸增大,最后趨于穩(wěn)定;故障感染狀態(tài)節(jié)點密度先是逐漸增大,然后逐步減小,最后趨于0;故障移除狀態(tài)節(jié)點密度逐漸增大,最后趨于穩(wěn)定。
(4) 在初始故障數(shù)目和修復(fù)時間一定的條件下,節(jié)點故障傳播概率和節(jié)點故障移除概率的變化對3種密度的變化趨勢影響不大,即3種曲線的走勢類似。
(5) 初始故障數(shù)目較多時,故障感染狀態(tài)節(jié)點密度初始值較大,故障易感狀態(tài)節(jié)點密度初始值較小,但3種密度的變化趨勢與初始故障數(shù)目較少時的變化趨勢相類似。
(6) 在初始故障數(shù)目較多的情況下,CCU節(jié)點是否存在故障對3種密度的變化趨勢影響不大。
實例仿真分析表明,降低故障傳播概率、提高修復(fù)能力可以有效降低故障傳播的發(fā)生,同時降低關(guān)鍵節(jié)點的密度以及關(guān)鍵節(jié)點之間的連接數(shù)目,提高軟件系統(tǒng)的可靠性。
根據(jù)北京地鐵6號線列車實際運營現(xiàn)場數(shù)據(jù),針對列車通信網(wǎng)絡(luò)節(jié)點設(shè)備在10萬km內(nèi)發(fā)生的主要故障的頻次分布及故障傳播影響情況統(tǒng)計如表1所示。從表1中可以看出:故障頻次和百分比最高的節(jié)點設(shè)備是RIOM,高達31.38%;故障百分比次之的是HAVC、ACU、PA,主要表現(xiàn)為在線檢測軟件故障居多;DCU、TCU、BCU、CCU由于其設(shè)計過程中考慮了安全性和可靠性,故障頻次較低,故障百分比在10%以內(nèi);HMI、ATC主要故障模式為觸摸屏不靈敏和黑屏,故障百分比為1.6%;FAS、ERM運營過程應(yīng)用程度低,故其故障發(fā)生率最低。
表1 列車通信網(wǎng)絡(luò)節(jié)點設(shè)備運營期間故障數(shù)據(jù)統(tǒng)計
故障傳播影響范圍分為列車、車輛、系統(tǒng)、部件4個層次,從網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計上看,CCU、RPT和HUB都是影響列車級關(guān)鍵節(jié)點設(shè)備。而實際運營中,僅CCU和HMI分別造成1次列車級運營故障;RPT和HUB由于預(yù)先設(shè)置了冗余功能,有效防止了故障傳播,未發(fā)生影響列車運營的故障;TCU和BCU作為列車牽引和制動的主要動力源,故障傳播直接影響車輛級動力單元,由于安全性設(shè)計和日檢過程中重點專檢,未造成影響列車級運營的故障。DCU、HVAC、PA故障多為本地系統(tǒng)級故障,僅當系統(tǒng)多主機同時級聯(lián)故障時影響車輛級功能。
通過列車通信網(wǎng)絡(luò)故障傳播影響仿真并結(jié)合實際運營數(shù)據(jù)的研究分析,可以得到以下結(jié)論和建議:
(1) 列車通信網(wǎng)絡(luò)故障傳播影響列車級運營關(guān)鍵節(jié)點設(shè)備如CCU、RPT和HUB,這些關(guān)鍵節(jié)點故障傳播影響范圍最大,在考慮關(guān)鍵節(jié)點硬件冗余設(shè)計的同時,采用軟件邏輯控制及時隔離故障節(jié)點可以避免傳播影響擴大。
(2) 故障移除時間直接關(guān)系網(wǎng)絡(luò)中故障的傳播程度,提升通信網(wǎng)絡(luò)系統(tǒng)軟件可靠性和網(wǎng)絡(luò)故障診斷預(yù)警能力,逐步實現(xiàn)列車全方位故障的在線狀態(tài)評估、識別、診斷、定位是避免故障擴散的有效方式。
(3) 提高網(wǎng)絡(luò)維護的效率,實現(xiàn)維修模式轉(zhuǎn)變,由傳統(tǒng)時間驅(qū)動的維修方式(計劃檢修)和事件驅(qū)動的維修方式(計劃檢修)和事件驅(qū)動的維修方式(故障后檢修)向以可靠性為中心的動態(tài)維修方式轉(zhuǎn)變,建立列車通信網(wǎng)絡(luò)系統(tǒng)故障預(yù)測與健康管理體系是保證列車運營安全性、避免重大事故發(fā)生的有效途徑。
有效的故障管理方法是保證網(wǎng)絡(luò)可靠運行的基礎(chǔ)[6],多角度、分層次、系統(tǒng)化地進行故障傳播特性研究是進行列車通信網(wǎng)絡(luò)故障預(yù)警、健康狀態(tài)綜合評估、全壽命周期可靠性分析和風(fēng)險評估以及維修策略的決策與優(yōu)化的必經(jīng)之路。
本文應(yīng)用復(fù)雜網(wǎng)絡(luò)、多Agent、信息論SIR模型、軟件可靠性分析、NetLogo仿真及數(shù)據(jù)對比驅(qū)動多種技術(shù)相結(jié)合的方式對列車通信網(wǎng)絡(luò)故障傳播特性進行了研究,提出了網(wǎng)絡(luò)設(shè)計及運營維護的整改措施和建議,這些有針對性的措施和建議對于加強檢修過程故障傳播關(guān)鍵節(jié)點維護、控制運營期間網(wǎng)絡(luò)故障傳播擴散、避免故障大密度感染造成連鎖反應(yīng)、提高列車的運營安全性和可靠性水平具有切實的理論分析和實踐借鑒意義。