李松峰,宋震,侯玨,肇北,王江濤,劉書浩,宋曉敏
(1.交通運(yùn)輸部科學(xué)研究院,北京 100029;2.城市軌道交通運(yùn)營(yíng)安全管理技術(shù)及裝備交通運(yùn)輸行業(yè)研發(fā)中心,北京 100029;3.京東數(shù)智工業(yè)科技有限公司,北京 100176;4.北京京港地鐵有限公司,北京 100068)
隨著各地地鐵運(yùn)營(yíng)里程持續(xù)快速增長(zhǎng),因系統(tǒng)設(shè)備故障影響路網(wǎng)運(yùn)行秩序、服務(wù)質(zhì)量甚至運(yùn)營(yíng)安全的事件時(shí)有發(fā)生[1]。目前,設(shè)備故障診斷高度依賴檢修人員經(jīng)驗(yàn),無(wú)法適應(yīng)地鐵智能化、智慧化的發(fā)展需求[2]。同時(shí),當(dāng)前地鐵設(shè)備呈現(xiàn)出復(fù)雜化和多樣化特征,不同設(shè)備的故障診斷方法不同,僅依靠檢修人員經(jīng)驗(yàn)已無(wú)法有效應(yīng)對(duì)。因此,行業(yè)迫切需要智能化的故障分析診斷手段,有效進(jìn)行故障和系統(tǒng)可靠性分析,提升地鐵運(yùn)營(yíng)安全保障能力。
既有的國(guó)內(nèi)外研究大多是對(duì)可能造成故障的因素進(jìn)行分析,然后通過(guò)測(cè)算其相關(guān)概率來(lái)進(jìn)行故障排查,如趙奕等[3]基于故障樹(shù)原理,對(duì)故障影響因素進(jìn)行了定性和定量分析。故障樹(shù)分析法是地鐵故障常用的分析方法,但其僅適用于故障分類較簡(jiǎn)單且依賴關(guān)系較明確情況下的故障分析,同時(shí)不能進(jìn)行逆向故障診斷。為了讓故障分析更貼近實(shí)際,一般在因素之間增加概率描述。王宇等[4]引入主元分析法對(duì)檢修數(shù)據(jù)進(jìn)行預(yù)處理,在此基礎(chǔ)上建立概率神經(jīng)網(wǎng)絡(luò)模型,將主元分析與概率神經(jīng)網(wǎng)絡(luò)相結(jié)合進(jìn)行故障診斷。但該方法在進(jìn)行數(shù)據(jù)預(yù)處理時(shí),可能會(huì)失去原來(lái)有效的數(shù)據(jù)信息,影響模型精度。針對(duì)故障間邏輯關(guān)系相對(duì)明確或故障分類相對(duì)清晰的情況,可采用故障樹(shù)轉(zhuǎn)貝葉斯網(wǎng)絡(luò)的方法來(lái)識(shí)別系統(tǒng)中的薄弱環(huán)節(jié),進(jìn)而診斷故障,這種方法在眾多領(lǐng)域得到了應(yīng)用。Zhang等[5]采用貝葉斯網(wǎng)絡(luò)評(píng)估了核電廠的運(yùn)營(yíng)狀態(tài),對(duì)多個(gè)影響操作者狀態(tài)的因素進(jìn)行綜合分析,擴(kuò)展了貝葉斯網(wǎng)絡(luò)的應(yīng)用維度。周巧蓮等[6]基于地鐵車門系統(tǒng)的故障樹(shù),利用貝葉斯網(wǎng)絡(luò)進(jìn)行了可靠性分析并獲得了系統(tǒng)的關(guān)鍵環(huán)節(jié),該方法可為維修策略提供技術(shù)支持,但可靠性分析指標(biāo)較單一,未能全面反映系統(tǒng)的可靠性。崔袁丁等[7]通過(guò)貝葉斯網(wǎng)絡(luò)特有的概率計(jì)算方法,對(duì)鐵路旅客服務(wù)質(zhì)量評(píng)價(jià)體系進(jìn)行逐級(jí)計(jì)算,使得評(píng)價(jià)過(guò)程更具條理。Zhang等[8]將模糊理論引入貝葉斯網(wǎng)絡(luò)模型,以地鐵隧道滲漏事故為例,驗(yàn)證了該方法可有效克服現(xiàn)有概率估計(jì)方法的局限。李興運(yùn)等[9]將模糊貝葉斯網(wǎng)絡(luò)結(jié)合證據(jù)理論分析法,對(duì)多態(tài)受電弓系統(tǒng)進(jìn)行可靠性分析,增強(qiáng)了貝葉斯網(wǎng)絡(luò)處理不確定認(rèn)知的能力。Zarei等[10]用故障模式影響分析法分析了城市天然氣管道運(yùn)輸風(fēng)險(xiǎn),用貝葉斯網(wǎng)絡(luò)進(jìn)行建模并評(píng)估,成功解析出故障主要影響因素,使風(fēng)險(xiǎn)分析更全面。
以上研究均基于貝葉斯網(wǎng)絡(luò)模型,從概率角度解決了故障分析無(wú)法高效定位故障原因的難點(diǎn)問(wèn)題,對(duì)故障關(guān)鍵因素進(jìn)行了有效辨識(shí)和逆向診斷,但對(duì)貝葉斯網(wǎng)絡(luò)的應(yīng)用局限于基于故障概率的診斷過(guò)程,忽視了故障診斷需要的時(shí)間成本,也缺少在實(shí)際場(chǎng)景下對(duì)比人工分析和貝葉斯網(wǎng)絡(luò)分析效率的研究。鑒于此,本文基于故障發(fā)生概率和排查時(shí)間提出“預(yù)期時(shí)間”測(cè)度指標(biāo),并以地鐵客室門設(shè)備故障診斷為例,對(duì)比基于貝葉斯網(wǎng)絡(luò)的機(jī)器算法與人工故障排查的效率差異,以期為提高地鐵設(shè)備故障維修效率提供理論支撐。
地鐵系統(tǒng)發(fā)生故障將直接影響系統(tǒng)可用性,而地鐵的可用性通常與系統(tǒng)條件、運(yùn)行條件和維修條件密切相關(guān)[11]。故障分析的價(jià)值在于支撐設(shè)備發(fā)生故障時(shí)的快速診斷和處置,以恢復(fù)設(shè)備的可用性。
故障樹(shù)分析的基本思想是:將系統(tǒng)最不期望的故障現(xiàn)象作為頂事件,利用演繹推理的方式逐級(jí)向下分解,直至所有輸入原因事件無(wú)法分解為止。但是,該方法無(wú)法對(duì)系統(tǒng)發(fā)生多個(gè)相互關(guān)聯(lián)或數(shù)量不確定的故障進(jìn)行快速有效排查。
貝葉斯網(wǎng)絡(luò)(Bayesian Networks,BN)是基于概率推理的圖形化分析方法,一般用于決策分析。貝葉斯網(wǎng)絡(luò)由貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)和條件概率兩部分組成[12-13]。設(shè)一個(gè)貝葉斯網(wǎng)絡(luò)由節(jié)點(diǎn){X1,X2,…,Xn}構(gòu)成,其中Xn為第n個(gè)節(jié)點(diǎn)。該貝葉斯網(wǎng)絡(luò)可表示為BN=<G,P>。G表示貝葉斯網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)圖,它是一個(gè)有向無(wú)環(huán)圖,圖中包含兩個(gè)要素:節(jié)點(diǎn)和有向弧。節(jié)點(diǎn)表示系統(tǒng)的隨機(jī)變量或事件;有向弧是具有映射方向的弧線,它連接節(jié)點(diǎn),從原因事件指向結(jié)果事件,表示隨機(jī)變量或事件間的依賴性或因果關(guān)系。P是貝葉斯網(wǎng)絡(luò)的二維條件概率表(Conditional Probability Table,CPT),它定義節(jié)點(diǎn)之間的概率關(guān)系,表征不同節(jié)點(diǎn)之間的連接關(guān)系,根節(jié)點(diǎn)(沒(méi)有任何父節(jié)點(diǎn)的節(jié)點(diǎn))概率為其先驗(yàn)概率[14]。
圖1 是一個(gè)簡(jiǎn)單的貝葉斯網(wǎng)絡(luò)示意圖,圖形中每個(gè)節(jié)點(diǎn)代表的是相應(yīng)問(wèn)題的一個(gè)隨機(jī)變量,節(jié)點(diǎn)變量可以是任何變量的抽象。貝葉斯網(wǎng)絡(luò)能提供更為豐富的關(guān)系類型,讓決策分析更完善和準(zhǔn)確。
本文所指的故障是無(wú)法由監(jiān)測(cè)設(shè)備提供的信息直接得出的源頭故障,而現(xiàn)象是指可直觀得到或由監(jiān)測(cè)設(shè)備提供的現(xiàn)象。
故障樹(shù)模型通過(guò)邏輯門連接各事件,而貝葉斯網(wǎng)絡(luò)通過(guò)有向邊與對(duì)應(yīng)的條件概率分布實(shí)現(xiàn)建模,鑒于這種相似性,可將故障樹(shù)模型轉(zhuǎn)化為貝葉斯網(wǎng)絡(luò)模型,實(shí)現(xiàn)貝葉斯網(wǎng)絡(luò)建模。轉(zhuǎn)化算法如下[15-16]:
(1)將故障樹(shù)的每個(gè)底事件對(duì)應(yīng)到貝葉斯網(wǎng)絡(luò)的根節(jié)點(diǎn);
(2)將故障樹(shù)中各基本事件的先驗(yàn)概率值作為貝葉斯網(wǎng)絡(luò)中對(duì)應(yīng)根節(jié)點(diǎn)的先驗(yàn)概率進(jìn)行賦值;
(3)將故障樹(shù)的中間事件和邏輯門分別對(duì)應(yīng)表達(dá)為貝葉斯網(wǎng)絡(luò)中的節(jié)點(diǎn)和聯(lián)系強(qiáng)度,依照故障樹(shù)模型中各事件間的邏輯關(guān)系連接貝葉斯網(wǎng)絡(luò)的各節(jié)點(diǎn),對(duì)相應(yīng)的節(jié)點(diǎn)附加等價(jià)的條件概率分布表。
圖2 所示為故障樹(shù)模型中基本邏輯門——“或”門和“與”門——對(duì)應(yīng)貝葉斯網(wǎng)絡(luò)模型的表達(dá)形式。右側(cè)每行的條件概率對(duì)應(yīng)CPT 表格中間的一行。
1.3.1 設(shè)備故障概率分析
基于貝葉斯網(wǎng)絡(luò)可以由故障的先驗(yàn)概率和條件概率進(jìn)行預(yù)測(cè)推理,最終確定設(shè)備故障發(fā)生的原因及相應(yīng)的概率。因故障樹(shù)中各底事件相互獨(dú)立且均為“與”“或”的關(guān)系,故也可以確定條件概率[17]。在確定各概率后,基于獨(dú)立性假設(shè)定義,如果事件A1,A2,…,An互不相容,P(B) >0時(shí)的貝葉斯公式為[18]:
式(1)中:P(Aj)為第j個(gè)事件A的先驗(yàn)概率;P(Aj|B)為第j個(gè)事件A的后驗(yàn)概率;P(B|Aj)為條件概率。
由貝葉斯公式進(jìn)行故障診斷,可得出各子節(jié)點(diǎn)造成系統(tǒng)故障的概率,然后按照概率大小順序依次排查不同故障發(fā)生的原因,最大限度減少故障導(dǎo)致的損失。貝葉斯網(wǎng)絡(luò)模型可根據(jù)最新的先驗(yàn)概率(如P(A),P(B))和條件概率(如P(A|B))進(jìn)行迭代,不斷改進(jìn)診斷效果。
1.3.2 基于預(yù)期時(shí)間的故障診斷分析
基于貝葉斯網(wǎng)絡(luò)的故障診斷通常用于研究系統(tǒng)或設(shè)備的可靠性,但一般不對(duì)故障排查成本進(jìn)行分析。而在實(shí)際應(yīng)用中,應(yīng)優(yōu)先對(duì)故障概率高且排查時(shí)間短的故障進(jìn)行排查,提高故障診斷和解除效能。因此,本文引入預(yù)期時(shí)間Te。預(yù)期時(shí)間指排查故障所用時(shí)間的數(shù)學(xué)期望,計(jì)算公式如下:
式(2)中:Pf為故障發(fā)生的概率,經(jīng)由貝葉斯網(wǎng)絡(luò)計(jì)算所得;T為故障平均排查時(shí)間,由設(shè)備特性及維修經(jīng)驗(yàn)得到。
當(dāng)故障排查時(shí)間相同時(shí),應(yīng)優(yōu)先考慮故障概率。當(dāng)故障概率相同時(shí),應(yīng)優(yōu)先考慮排查時(shí)間短的故障。本文基于預(yù)期時(shí)間指標(biāo)Te,利用Python及PyAgrum框架實(shí)現(xiàn)貝葉斯故障排查功能。
在地鐵車輛系統(tǒng)中,客室門設(shè)備是機(jī)械與電氣相結(jié)合的復(fù)合型裝置,是保障行車安全的關(guān)鍵設(shè)備。因此,本文以地鐵車輛客室門設(shè)備為研究對(duì)象,對(duì)國(guó)內(nèi)17 家地鐵運(yùn)營(yíng)企業(yè)共計(jì)190 條車輛客室門設(shè)備故障數(shù)據(jù)進(jìn)行分析,驗(yàn)證前述模型的有效性。
將客室門設(shè)備故障作為頂事件,結(jié)合各故障現(xiàn)象及對(duì)正線運(yùn)營(yíng)場(chǎng)景的影響情況建立故障樹(shù)模型,根據(jù)開(kāi)門控制邏輯,利用故障樹(shù)模型對(duì)各故障模式進(jìn)行分析,其各層事件描述和標(biāo)號(hào)見(jiàn)表1,故障樹(shù)模型圖如圖3所示。
表1 故障樹(shù)各層事件的描述和標(biāo)號(hào)
根據(jù)1.2 節(jié)提出的轉(zhuǎn)化原則,可將客室門設(shè)備故障的故障樹(shù)模型轉(zhuǎn)化為貝葉斯網(wǎng)絡(luò)模型,如圖4所示。
同時(shí),根據(jù)全國(guó)17家地鐵公司故障調(diào)研數(shù)據(jù)得到客室門設(shè)備各故障模式的先驗(yàn)概率如表2 所示。假設(shè)根節(jié)點(diǎn)相互獨(dú)立,由圖3 可知各中間事件的條件概率分布只有1(發(fā)生故障)和0(無(wú)故障)兩種。表中排查時(shí)間為歷史數(shù)據(jù)的均值。需注意的是,“先驗(yàn)概率”和“排查時(shí)間”在現(xiàn)有的維護(hù)手冊(cè)里找不到,但對(duì)工人的維修效率有重要影響。
表2 客室門設(shè)備各故障模式先驗(yàn)概率表
表2 (續(xù))
基于表2 數(shù)據(jù),利用式(1),通過(guò)貝葉斯網(wǎng)絡(luò)模型可對(duì)客室門設(shè)備故障概率進(jìn)行分析。根據(jù)式(2)可以得到各故障此時(shí)排查的預(yù)期時(shí)間Te。因此計(jì)算得到客室門設(shè)備故障時(shí)各根節(jié)點(diǎn)故障概率及所需要的排查預(yù)期時(shí)間如表3所示。
表3 客室門設(shè)備故障時(shí)各根節(jié)點(diǎn)故障概率
從表3 中可看出,當(dāng)客室門故障時(shí),對(duì)比X13“門全關(guān)閉指示燈不亮”和X14“客室門無(wú)法集控打開(kāi)或關(guān)閉”,X14發(fā)生概率更大,不考慮其他因素時(shí),應(yīng)優(yōu)先排查X14。但根據(jù)式(2),易得Te13<Te14,在診斷時(shí)間最優(yōu)原則下,此時(shí)應(yīng)先排查X13。因此,當(dāng)概率和時(shí)間都不相同時(shí),預(yù)期時(shí)間對(duì)故障排查的順序更有指導(dǎo)意義。
采用基于3D數(shù)字孿生的蒙特卡洛仿真系統(tǒng)進(jìn)行效果驗(yàn)證,先在14個(gè)故障點(diǎn)中隨機(jī)生成一個(gè)故障點(diǎn),假設(shè)人工故障診斷時(shí)沒(méi)有任何參考信息,診斷過(guò)程完全隨機(jī)進(jìn)行,用戶點(diǎn)擊任意點(diǎn)代表對(duì)該故障進(jìn)行檢查,如果點(diǎn)擊到有故障的點(diǎn),則代表故障排除。在基于預(yù)期時(shí)間的貝葉斯網(wǎng)絡(luò)故障診斷模式下,用戶每次選擇算法推薦的第1個(gè)故障點(diǎn),即預(yù)期時(shí)間指標(biāo)最小的那個(gè)故障,以此類推直到選擇到真正的故障點(diǎn)。
表4為人工隨機(jī)排查故障和應(yīng)用本文算法(以下稱為“機(jī)器算法”)進(jìn)行故障診斷的過(guò)程對(duì)比。測(cè)試中,人工排查共歷經(jīng)10 步發(fā)現(xiàn)了故障點(diǎn)X13,耗時(shí)188min;而基于預(yù)期時(shí)間的貝葉斯網(wǎng)絡(luò)故障診斷算法僅歷經(jīng)2 步,僅耗時(shí)19min 就發(fā)現(xiàn)了故障點(diǎn)X13,較人工排查節(jié)省了169min。圖5所示為兩種方法診斷用時(shí)結(jié)果對(duì)比。
在上例中,利用機(jī)器算法進(jìn)行故障診斷所用的時(shí)間只是人工隨機(jī)排查的1/10,連續(xù)利用算法進(jìn)行1 000次蒙特卡洛仿真計(jì)算,其結(jié)果如圖6所示。從直方圖圖6(c)和圖6(d)可以看出,隨機(jī)排查的用時(shí)在250min以上的占比最多,其余比較平均分布在0~250min,而在基于預(yù)期時(shí)間的貝葉斯網(wǎng)絡(luò)算法模式下,診斷的時(shí)間大多小于150min,大于200min的只占很少一部分。
在實(shí)際生產(chǎn)場(chǎng)景中,維修工人一般能憑借經(jīng)驗(yàn)根據(jù)故障現(xiàn)象進(jìn)行故障原因的初步判斷。因此,人工故障診斷的過(guò)程并不是完全隨機(jī)的,而是通過(guò)制定策略進(jìn)行有序的排查,這里涉及兩種不同的排查策略:第一種是嚴(yán)格按照排查時(shí)間長(zhǎng)短順序進(jìn)行排查,由排查時(shí)間最短的故障開(kāi)始直至找到故障,本文稱之為時(shí)間排序策略排查;第二種是按照故障樹(shù)自上而下,對(duì)造成頂事件的各中間事件依排查時(shí)間順序進(jìn)行排除,對(duì)每個(gè)中間事件中的底事件也依時(shí)間順序進(jìn)行排查,一個(gè)中間事件的底事件全部排查完再進(jìn)行下一個(gè)中間事件的排查,本文稱之為綜合排序策略排查。對(duì)兩種人工排查策略下的故障診斷分別進(jìn)行1 000 次迭代仿真,輸出結(jié)果的對(duì)比如圖7和圖8所示。
從圖7、圖8 可以看出,兩種策略排查方法的用時(shí)都分布在0~250min,時(shí)間排序手動(dòng)排查用時(shí)集中在150min左右,而綜合排序手動(dòng)排查用時(shí)較多分布在250min左右。
綜上,3 種人工排查方法與本文所提算法的故障診斷結(jié)果對(duì)比如表5 所示,機(jī)器算法診斷的平均用時(shí)分別是3 種人工排查方法平均用時(shí)的48.49%,46.48%和43.72%。雖然機(jī)器算法的用時(shí)不總是小于人工排查的用時(shí),但是機(jī)器算法用時(shí)的平均值、中位值及標(biāo)準(zhǔn)差都遠(yuǎn)小于人工隨機(jī)排查。在仿真中模仿有經(jīng)驗(yàn)的維修工人,綜合考慮概率和平均排查用時(shí)進(jìn)行故障排查(即有策略的人工排查),相較于此,利用本算法可節(jié)省15%~30%的時(shí)間。在日常故障維修工作中,設(shè)備故障的修復(fù)時(shí)長(zhǎng)在故障處置總時(shí)長(zhǎng)中占比較小,而故障診斷耗時(shí)較長(zhǎng),應(yīng)用基于貝葉斯網(wǎng)絡(luò)模型機(jī)器算法能快速分析出系統(tǒng)中的薄弱環(huán)節(jié),提高地鐵設(shè)備系統(tǒng)的維修效率。
本文將故障樹(shù)轉(zhuǎn)化為貝葉斯網(wǎng)絡(luò)模型應(yīng)用到地鐵設(shè)備故障分析中,通過(guò)引入預(yù)期時(shí)間指標(biāo),基于貝葉斯網(wǎng)絡(luò)構(gòu)建了一種新的設(shè)備故障診斷算法,并以地鐵車輛客室門設(shè)備故障為例,通過(guò)仿真測(cè)試對(duì)比人工隨機(jī)故障排查和基于本文算法的故障診斷用時(shí)。根據(jù)模型輸出結(jié)果,基于本文算法進(jìn)行故障診斷所消耗的時(shí)間是人工隨機(jī)排查時(shí)間的43%~48%,相比于有策略的人工排查,機(jī)器算法估算可節(jié)約15%~30%的時(shí)間。由于本文中用于對(duì)比的3 種人工故障排查方法均設(shè)定了一定的原則,導(dǎo)致故障排查過(guò)程存在一定程度的機(jī)械性,也沒(méi)有考慮不同經(jīng)驗(yàn)、知識(shí)背景的維修人員在診斷故障邏輯方面存在的差異,后續(xù)研究中可予以加強(qiáng),以更真實(shí)地還原實(shí)際生產(chǎn)場(chǎng)景。