楊 晨
(中國鐵道科學研究院集團有限公司 電子計算技術研究所,北京100081)
故障管理是動車組運維檢修的重要環(huán)節(jié),隨著動車組數(shù)量的不斷增加,如何對故障數(shù)據(jù)進行有效運用,描述動車組及其部件的安全規(guī)律和服役狀態(tài)已成為重要的研究課題。同時,動車組健康管理、動車組修程修制優(yōu)化和動車組數(shù)字化精準維修等業(yè)務的開展,要求故障管理系統(tǒng)能夠快速、準確、及時地完成故障發(fā)生時相關信息的采集、處理和傳遞,全面提高故障分析水平[1]。
目前,運行于鐵路單位的故障管理系統(tǒng)包括動車組管理信息系統(tǒng)(EMIS,EMU Management Information System)、動車組車載信息無線傳輸系統(tǒng)(WTDS,Wireless Transmit Device System)、動車組運行故障動態(tài)圖像檢測系統(tǒng)(TEDS,Trouble of moving EMU Detection System)、動車組滾動軸承故障軌邊聲學診斷系統(tǒng)(TADS,Trackside Acoustic Detection System)及各單位自建的故障管理系統(tǒng)等[2-5]。其中,EMIS已基本實現(xiàn)了對多源故障的匯集,并對故障進行了有效地閉環(huán)管理,但其更側重于對故障處理結果的記錄,并未對故障相關數(shù)據(jù)進行全面運用,也無法對動車組及其部件的安全規(guī)律分析提供行之有效的決策支持。
隨著互聯(lián)網(wǎng)技術的發(fā)展,尤其是大數(shù)據(jù)、人工智能和機器學習方面的發(fā)展,為積累的歷史故障數(shù)據(jù)帶來了新的利用價值[6-7]。可利用數(shù)據(jù)挖掘和分析技術,為動車組健康管理及動車組修程修制優(yōu)化提
供切實可行的實施方向?;诖?,本文依托動車組安全大數(shù)據(jù)平臺,以動車組故障管理為核心,對動車組運用檢修相關數(shù)據(jù)進行采集和存儲,設計了動車組安全規(guī)律分析系統(tǒng)的架構和功能,提出了系統(tǒng)中采用的關鍵技術。系統(tǒng)的建設可以為動車組運維管理人員提供有效的管理工具和輔助決策支持。
本文從動車組海量運用、監(jiān)測及故障數(shù)據(jù)出發(fā),研究多源數(shù)據(jù)的傳輸、存儲、處理和分析技術。通過動車組安全規(guī)律分析系統(tǒng)的建設,準確地描述動車組運行過程中各種因素對動車組及其部件的失效規(guī)律和服役狀態(tài)的影響,輔助動車組的運行、維護和費用控制等決策的制定,提高動車組數(shù)字化精準維修水平,促進動車組設計、制造和維修技術的改進。
動車組安全規(guī)律分析系統(tǒng)依托動車組安全大數(shù)據(jù)平臺,系統(tǒng)整體架構分為數(shù)據(jù)源、平臺層、應用層和用戶層,如圖1所示。
圖1 系統(tǒng)總體架構
(1)數(shù)據(jù)源:負責提供動車組及其部件的故障信息。
(2)平臺層:主要完成對數(shù)據(jù)源產(chǎn)生的動車組故障、動態(tài)履歷、線路工務和檢測監(jiān)測等數(shù)據(jù)進行自動抽取、存儲和匯集,并利用大數(shù)據(jù)技術提供的即時檢索服務、實時數(shù)據(jù)分發(fā)和共享服務,提升跨業(yè)務領域的數(shù)據(jù)挖掘能力,對海量的故障相關數(shù)據(jù)開展分析,為系統(tǒng)應用提供數(shù)據(jù)支持。
(3)應用層:對相關數(shù)據(jù)進行分析,為用戶層提供動車組安全規(guī)律,發(fā)現(xiàn)動車組運行中的薄弱環(huán)節(jié)。
(4)用戶層:通過動車組安全規(guī)律指導動車組安全生產(chǎn),提高動車組故障分析能力和安全管理水平。
系統(tǒng)綜合利用分布式存儲、分布式計算、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘等技術,滿足多用戶、高并發(fā)和高可用的需求,集“易用性、伸縮性、開放性”于一體,同時,采用統(tǒng)一的應用開發(fā)框架,定義標準的軟件開發(fā)測試規(guī)范、安全管理規(guī)范和運維規(guī)范,實現(xiàn)基于云化、分布式和服務化的技術架構,如圖2所示。
圖2 系統(tǒng)技術架構
系統(tǒng)技術架構自底向上劃分為基礎設施層、平臺層、接口層和前端展示層。
1.3.1基礎設施層
基礎設施層通過虛擬化資源池,對基礎計算、存儲、網(wǎng)絡資源進行池化和虛擬化,為上層應用與服務提供統(tǒng)一硬件資源調度和監(jiān)控管理,支持按需分配與彈性擴展,并通過標準化接口向上層提供計算、存儲等基礎服務,提高信息技術(IT,Information Technology)資源的易用性、敏捷性。通過服務器集群,實現(xiàn)海量數(shù)據(jù)的存儲與計算,緩解資源壓力,提升服務器整體性能。通過高穩(wěn)定、高帶寬的網(wǎng)絡鏈路,實現(xiàn)網(wǎng)絡資源的高吞吐、高可用、低延時。
1.3.2平臺層
(1)數(shù)據(jù)平臺層面向數(shù)據(jù)處理關鍵技術,通過數(shù)據(jù)采集工具、分布式消息隊列、分布式文件系統(tǒng)、資源調度和平臺管理工具等多種手段,實現(xiàn)數(shù)據(jù)采集、數(shù)據(jù)抽取、數(shù)據(jù)存儲和數(shù)據(jù)分析挖掘;通過分布式協(xié)調調度服務實現(xiàn)數(shù)據(jù)平臺的高效、穩(wěn)定運行;通過可視化管理界面,為數(shù)據(jù)平臺核心組件及整體環(huán)境提供性能展示、配置和預警功能。
(2)集成平臺層通過關系型數(shù)據(jù)庫、內存數(shù)據(jù)庫、安全認證及報表組件等,提供服務運行環(huán)境與模型管理,實現(xiàn)中間件服務,面向應用開發(fā),提供安全可靠的平臺支撐。通過基于內存鍵值對的分布式內存數(shù)據(jù)庫查詢方法,實現(xiàn)對大規(guī)模并發(fā)、高速數(shù)據(jù)訪問計算、實時數(shù)據(jù)處理等方面的高性能快速響應;通過身份認證確認操作者身份和資源訪問權限;采用不同的數(shù)據(jù)加密策略實現(xiàn)數(shù)據(jù)安全保障;通過報表組件實現(xiàn)動車組故障統(tǒng)計分析功能。
1.3.3服務層
服務層通過統(tǒng)一認證、統(tǒng)一接口服務及數(shù)據(jù)集成服務等,實現(xiàn)前端應用的服務集成。通過統(tǒng)一認證為用戶提供不同強度的安全認證手段和單點登錄門戶;通過統(tǒng)一接口服務實現(xiàn)負載均衡、緩存、日志、限流限額功能;通過數(shù)據(jù)集成服務對外提供標準、統(tǒng)一、規(guī)范的業(yè)務接口,實現(xiàn)應用功能。
1.3.4前端展示層
前端采用基于HTML、CSS和JavaScript的Bootstrap框架,提供HTML與CSS規(guī)范,結合各類前端JS控件、報表控件,實現(xiàn)Web前端的簡潔、快速、高效開發(fā),面向用戶實際需要,提供可視化分析結果。
(1)動車組總體安全規(guī)律分析
以動車組運行故障數(shù)據(jù)為主,根據(jù)車型(批次)、走行公里、配屬、檢修歷史、故障發(fā)生時車組的高級修程、輪次、交路和區(qū)段等多個維度,建立不同維度動車組安全規(guī)律演化模型,對不同車型(批次)及系統(tǒng)進行基礎性安全規(guī)律分析。
(2)動車組慣性故障分析
慣性故障指動車組經(jīng)常性發(fā)生的故障,慣性故障的分析能夠發(fā)現(xiàn)故障頻發(fā)事件,通過更深入的分析,幫助查找設計、運用檢修過程中的缺陷和問題,有利于動車組技術的不斷優(yōu)化迭代。不同車型慣性故障字典不完全相同,但有“血緣關系”的動車組故障字典高度相似,針對動車組的慣性故障,描述并展示動車組慣性故障發(fā)生規(guī)律。
標志性事件指對動車組運用檢修產(chǎn)生較大影響的事件,如動車組提速、修程修制改革等,分別提取標志性事件發(fā)生前后的動車組故障數(shù)據(jù),從單位、車型(批次)等維度,對動車組發(fā)生標志性事件的前后進行安全規(guī)律的綜合對比分析,從數(shù)據(jù)分析結果反映該事件對動車組安全的影響。
高速鐵路具有地域跨度大、速度快、里程長和始末時間短等特點,不同線路條件、不同天氣均會對動車組故障產(chǎn)生影響。提取動車組開行、交路和天氣信息建立站站氣象信息庫,基于站站氣象信息庫對不同交路、不同城市、不同天氣環(huán)境因素對動車組各安全規(guī)律進行分析,主要包括基于線路的動車組安全規(guī)律分析、基于天氣(溫濕度、晴雨雪等)及多維環(huán)境因素的動車組安全規(guī)律分析。
針對故障數(shù)據(jù)及安全規(guī)律模型,對動車組及部件的運用檢修提出視情維修和預防性維修策略,達到降低維修成本的目的。
(1)動車組運用建議
針對運行數(shù)據(jù)、部件故障數(shù)據(jù)和部件更換數(shù)據(jù)等,分析動車組運用檢修內容和運用開行需求,構建運用方案優(yōu)化模型,輔助提升動車組運營品質,提出動車組運用建議。
(2)動車組精準維修建議
匯總全路動車組及部件的故障歷史、檢修歷史情況,以車型、部件和檢修項目等為維度,考慮動車組維修時機、維修間隔及維修成本等要素,在保障車輛可靠性的同時降低維修費用,提高檢修效率,給出精準維修建議。
(3)動車組設計制造建議
發(fā)現(xiàn)批次、部件等設計和產(chǎn)品優(yōu)化改進功能點,及時反饋給動車組及零部件造修企業(yè)進行深入研究,從設計制造角度實現(xiàn)動車組的改進和創(chuàng)新,提升乘客體驗和動車組運營效率。
動車組安全規(guī)律分析需要采集大量故障數(shù)據(jù),包含圖片、聲音資源,而這些圖片和聲音的存儲多數(shù)是小文件,且大多數(shù)文件大小在幾十KB以內。如果使用以GFS、HDFS為代表的適用于流式訪問大文件的分布式存儲系統(tǒng)存儲圖片,在元數(shù)據(jù)膨脹的情況下擴展性和性能方面均存在嚴重問題[8]。系統(tǒng)采用基于HDFS的Hbase作為簡單結構化數(shù)據(jù)分布式存儲方式,用于存儲海量圖片小文件,并具有系統(tǒng)層小文件合并、全局命名空間等多種優(yōu)勢。
將各系統(tǒng)數(shù)據(jù)采集至大數(shù)據(jù)平臺后,需要將原始數(shù)據(jù)進行清洗、轉換,采用除噪、補缺失值和除冗余值的方法對數(shù)據(jù)進行預處理,并按照主題域存放各類數(shù)據(jù),形成可供分析的數(shù)據(jù)集。在動車組制造運用領域,需要針對設計、工藝、制造和維修等不同維度的需求對數(shù)據(jù)進行拆解。在動車組運維業(yè)務領域,主要包括基于功能分類的結構和基于部件裝配的結構,兩者相互對應,可互相轉化。為便于數(shù)據(jù)使用,在數(shù)據(jù)處理過程中,應為各類數(shù)據(jù)創(chuàng)建便于統(tǒng)計分析的各類索引。
在安全規(guī)律分析過程中,需要使用大數(shù)據(jù)機器學習技術對安全規(guī)律模型進行訓練與驗證,動車組安全大數(shù)據(jù)平臺為各類算法、模型的開發(fā)和運行、海量數(shù)據(jù)的分析存儲提供環(huán)境支撐。在模型中采用了各種機器學習算法,如差分整合移動平均自回歸模型、決策樹、支持向量機和隨機森林等,并采用準確率、精確度和召回率等統(tǒng)計指標對模型結果進行驗證。
目前,動車組故障規(guī)律分析系統(tǒng)已經(jīng)研發(fā)完成,并以CRH380系列動車組為例,對CRH380系列動車組開行以來的數(shù)據(jù)進行特征提取與選擇、時間序列預測、關聯(lián)分析等,用可視化應用功能實現(xiàn)、驗證、固化了各類安全規(guī)律分析成果,全方位地描述了CRH380動車組上線以來的安全服役狀態(tài)。CRH380系列動車組作為當前應用最廣泛、運行地域最廣、涉及用戶單位最多、線路最多的動車組,其安全規(guī)律分析對于保證中國高鐵運營安全、降低運用維修成本、提高運用檢修效率等都具有重要意義。
本文依托動車組安全大數(shù)據(jù)平臺建立動車組安全規(guī)律分析系統(tǒng),并介紹了系統(tǒng)架構、功能組成、關鍵技術,同時以CRH380動車組為例開展驗證,取得了良好的效果。下一步,系統(tǒng)將擴大數(shù)據(jù)范圍,對動車組安全規(guī)律分析方法和預測模型在其他型號動車組和典型線路開展驗證和應用工作,全面提升動車組安全管理水平。