李新琴,劉承亮,代明睿,李國華,史維峰
(中國鐵道科學研究院集團有限公司 電子計算技術研究所,北京 100081)
鐵路運輸設備狀態(tài)是鐵路安全運輸的根本,良好的設備狀態(tài)既是運輸生產的物質基礎,又是運輸安全的重要保證[1]。隨著鐵路運營里程的積累和鐵路設備的更新迭代,積累了大量的鐵路運輸設備故障數據。這些故障數據記錄了故障發(fā)生的詳細信息,包括故障的基礎信息和對故障的人工分析數據,蘊含了鐵路運輸設備的重要價值信息??茖W分析設備故障數據是將故障從消極轉變?yōu)榉e極的有效途徑,但由于這些故障數據存在存儲分散、數據格式不同、存儲形式各異的情況,給數據分析帶來了困難[2]。知識圖譜能夠有效地將多源異構數據轉化為基于深層語義的知識服務,基于知識圖譜技術實現設備故障的深度挖掘和智能應用,是分析鐵路運輸設備故障數據的有效途徑[3-6]。
知識圖譜技術在各行業(yè)事故故障智能化服務中已得到了廣泛的研究和應用。在電力行業(yè),李新鵬等人[7]通過構建調度自動化系統(tǒng)的知識圖譜,實現系統(tǒng)故障的智能診斷和分析;郭榕等人[8]針對電網故障處置預案數據,構建電網故障處置知識圖譜,提升了電網故障處置能力和智能化水平;在中石油領域,陳傳剛等人[9]構建基于知識圖譜的站場故障預警模型,實現現場事故預警;在鐵路領域,楊連報等人[10]通過構建鐵路設備事故故障部位知識圖譜,實現了設備故障關聯分析和原因推薦?;诟餍袠I(yè)對知識圖譜構建方法及應用模式的研究,本文在研究鐵路運輸設備安全保障體系的基礎上,提出了鐵路運輸設備故障知識圖譜構建與應用架構,以及設備故障知識圖譜應用場景。
為保障鐵路運輸安全,面向鐵路運輸系統(tǒng)構建了健全的鐵路運輸設備安全保障體系。在該體系下,可對運輸設備的基礎信息、運行維護(簡稱:運維)信息及故障數據進行有效管理。鐵路運輸設備安全保障體系包含針對鐵路基礎設施設備構建的鐵路運輸設備監(jiān)測檢測系統(tǒng)、鐵路運輸設備信息管理系統(tǒng)及鐵路運營集成化平臺,可實現鐵路運輸設備的全生命周期管理、設備故障信息管理,以及設備故障數據一體化分析。鐵路運輸安全保障體系架構如圖1 所示。
圖1 鐵路運輸設備安全保障體系
鐵路運輸基礎設備設施主要指鐵路橋梁、道岔、信號機、接觸網、動車組等固定設備和移動設備。鐵路運輸設備故障數據管理和設備全生命周期管理主要是圍繞鐵路運輸基礎設備設施開展安全監(jiān)控和信息化建設。
鐵路運輸設備故障數據管理可實現設備基礎信息、維修維護、故障信息的全面管理。鐵路運輸設備信息管理系統(tǒng)中存儲了大量的設備故障數據,這些數據記載了設備故障發(fā)生的詳細情況,包括故障發(fā)生的時間、線別、鐵路局集團公司、車間、故障部位、原因分析等數據。根據數據來源和價值,可將其分為客觀記實、主觀選項及主觀描述等數據。
(1)客觀記實數據
客觀記實數據主要包括故障發(fā)生的時間、線別、鐵路局集團公司、車間等數據,這些數據可根據故障的具體情況直接通過鐵路運輸設備信息管理系統(tǒng)的選項進行選擇??陀^記實數據是不可更改的事實,具有真實性,通常以結構化形式存儲。
(2)主觀選項數據
主觀選項數據主要包括故障發(fā)生的部位、故障原因分類等數據。這些數據是相關人員通過對故障的分析,根據信息系統(tǒng)的選項進行選擇,通常以結構化形式存儲。由于人員對故障數據認知經驗不同,通常,故障原因分類數據存在隨意性。
(3)主觀描述數據
主觀描述數據主要是指故障原因分析數據。此類數據以大段的文本形式記錄了故障發(fā)生的現象、原因分析、處理結果、原因定性等內容,是人員根據自身經驗對故障的詳細分析描述,蘊含重要價值。主觀描述數據以非結構化文本的形式進行存儲。
鐵路運輸設備的全生命周期管理包括對設備的狀態(tài)巡檢、維護維修、計劃保養(yǎng)、檔案管理和決策分析。通過構建工務、電務、供電等專業(yè)的檢測監(jiān)測系統(tǒng),實現設備狀態(tài)的實時采集和監(jiān)控,有效輔助設備信息管理,進行設備故障檢測、故障數據管理和故障數據分析。
設備故障一體化分析主要基于鐵路運營集成化平臺實現鐵路各專業(yè)的設備信息匯集,打破設備信息傳遞阻隔,實現設備的跨專業(yè)分析。通過對鐵路運輸設備故障數據的類別分析可知,設備故障數據包括結構化數據和非結構化數據,且蘊含價值豐富,知識圖譜能夠有效的組織和表達結構化和非結構化數據,并將其進行充分的關聯,實現數據的分析與挖掘。因此,基于知識圖譜技術實現故障知識的構建和故障數據的科學分析,是分析鐵路設備故障數據的有效方法。
鐵路運輸設備故障知識圖譜的構建過程主要包括設備故障本體結構定義、知識抽取及知識對齊。
本體結構定義是構建鐵路運輸設備故障知識圖譜的首要環(huán)節(jié),通過對鐵路運輸設備故障結構化與非結構化數據的全面分析,定義設備故障的知識單元、知識單元關系和知識層次結構,將設備故障數據有序地組織為知識圖譜結構,如圖2 所示。
圖2 鐵路運輸設備故障本體結構
針對存儲于設備故障主觀描述數據中的設備故障非結構化文本數據,定義設備現象、設備現象采取的措施、設備故障的處理結果等為命名實體,將實體之間的引起、發(fā)生、結果等關系作為實體關系,采用命名實體識別和實體關系抽取的方法獲取文本中的知識。
由于設備故障主觀描述數據的隨意性,對同一設備、故障現象、處理措施等內容的描述不同,可導致抽取的知識存在大量知識重復現象,例如“道岔失去表示”和“道岔無表示”實際為同一設備故障現象,采用知識對齊技術解決設備故障知識冗余問題,知識對齊過程能夠有效地將設備故障知識圖譜精細化。
鐵路運輸設備故障知識圖譜構建與應用涉及的技術眾多,需要設計完整的架構支持。鐵路運輸設備故障知識圖譜構建與應用架構如圖3 所示。
圖3 鐵路運輸設備故障知識圖譜構建與應用架構
通過對鐵路運輸設備故障的本體結構構建,匯集鐵路各專業(yè)設備故障數據,包括設備故障的結構化和非結構化數據。在進行數據分析前需要對數據進行預處理,包括非結構化數據的正文抽取和結構化數據的ETL(Extract、Transform、Load)處理。
知識圖譜構建技術主要包括知識獲取、知識對齊及知識存儲。知識獲取技術包括命名實體識別、關系抽取、文本分類等,通過對設備故障主觀描述文本數據的上下文語義學習,有效地從非結構化文本數據中抽取出與故障密切的關鍵數據;知識對齊技術是整合故障結構化數據的有效方法,通過實體對齊、實體去重、實體鏈接計算等技術將相同的、有關聯關系的、有歧義的知識單元進行整合;知識存儲是將設備故障知識以“圖”的形式存儲在數據庫中,通常存儲在Neo4j、OrientDB 等圖數據庫中。
知識圖譜應用基于鐵路運輸設備故障知識圖譜,通過對知識單元的計算和推理,實現設備故障知識的智能應用。通過路徑計算、規(guī)則推理等方法實現設備故障的知識搜索,采用本體推理、相似圖計算等方法實現設備故障單元間的關聯關系推理,并將這種關聯關系連接,對設備故障知識圖譜進行擴展和豐富,實現設備故障知識補全。同時,通過知識圖譜不一致檢測技術發(fā)現設備故障知識圖譜中錯誤或冗余的數據,實現設備故障準確的知識體系和推理。知識圖譜應用可支持鐵路運輸設備故障應用場景的構建。
鐵路運輸設備故障知識圖譜具有海量的知識單元,在模型訓練過程中,需采用分布式計算實現模型的高效訓練。在知識圖譜應用過程中,為保障知識圖譜的快速檢索與較高的推理性能,需要借助Spark、Hadoop 等大數據技術支持知識快速的運算與推理,所以在整個設備故障知識圖譜的構建與應用過程中,都需要大數據技術的支撐。
基于鐵路運輸設備故障知識圖譜,推理實現設備故障的智能診斷與處理、智能問答、風險管理等應用場景,高效利用設備故障相關知識,幫助鐵路運輸設備運維人員快速查找故障致因鏈、定位故障原因、確定故障維修措施,達到減少故障處理時間、提高故障處理效率的目的。
鐵路運輸設備故障知識圖譜蘊含了設備、故障部位、故障現象、故障原因、維修措施等本體間的隱含關系,通過對關系的多級匹配和知識推理技術,可使鐵路運維人員了解故障背后的隱含知識,實現故障原因推理、故障鏈條分析、故障結果推理和故障處理建議等功能,可應用于鐵路各專業(yè)智能運維系統(tǒng)中,有效提升運維系統(tǒng)智能化程度。
鐵路運輸設備故障知識圖譜通過對設備故障數據的知識化,可從復雜的設備故障中分析出每個設備發(fā)生故障的數量、原因,以及與之關聯的設備狀況,通過知識圖譜對設備故障的分析,可有效輔助人員對相關設備進行重點關注,協(xié)助鐵路日常設備風險管理工作,可應用于鐵路安全大數據系統(tǒng),實現設備的風險研判和風險管理。
鐵路運輸設備故障種類復雜,查詢設備故障數據往往需要多次查詢或展開多級查詢目錄。設備故障智能問答通過語音或手動輸入對故障的簡單描述,即可得到多級、深層次的關系,快速準確地找到所需要的設備故障知識,提高工作效率和知識共享能力,輔助鐵路工作人員對設備知識進行快速學習和實時查詢。設備故障智能問答可應用于鐵路各專業(yè)智能運維系統(tǒng)中,實現設備故障知識的有效應用。
本文針對鐵路運輸設備安全保障體系內產生的設備故障數據,闡述針對鐵路運輸設備故障數據的知識圖譜構建過程,提出設備故障知識圖譜構建和應用架構及設備故障知識圖譜的應用場景,為鐵路領域學者基于知識圖譜技術進行設備故障數據分析提供參考。鐵路運輸安全問題風險庫、隱患庫等也存儲了非結構化文本形式的蘊含重要價值的數據,本文的研究方法也可為該類數據的分析提供參考。