郭劍峰, 柯在田, 王衛(wèi)東, 張文軒, 劉金朝,王婧, 汪海瑛, 楊志鵬
(中國鐵道科學(xué)研究院集團有限公司,北京 100081)
安全評估是工程領(lǐng)域重點關(guān)注的問題之一,故障是指系統(tǒng)不能執(zhí)行規(guī)定功能的狀態(tài),因此,對故障進行量化描述是安全評估中的重要環(huán)節(jié)。通常而言,故障定義為系統(tǒng)中部分元器件功能失效而導(dǎo)致整個系統(tǒng)功能惡化的事件。設(shè)備的故障一般具有5個基本特征:層次性、傳播性、放射性、延時性、不確定性。安全評估是指對一個具有特定功能的工作系統(tǒng)中固有或潛在的危險及其嚴重程度進行的分析與評估工作,并以既定指數(shù)、等級或概率值做出定量的表示,最后根據(jù)定量值的大小決定采取預(yù)防或防護對策。通常利用系統(tǒng)工程或數(shù)據(jù)建模的原理和方法對擬建或已有工程、系統(tǒng)可能存在的故障及其可能產(chǎn)生的后果進行綜合量化評估,并根據(jù)可能導(dǎo)致的故障指數(shù)大小,提出相應(yīng)的安全對策和措施,以達到工程或系統(tǒng)安全的目的。
近年來,國內(nèi)外諸多學(xué)者研究了基于數(shù)據(jù)建模的故障指數(shù)計算方法。2003年,大連大學(xué)的王紅[1]提出一種根據(jù)大規(guī)模傳感器檢測數(shù)據(jù)計算故障指數(shù)的方法,通過傳感器檢測數(shù)據(jù)計算出系統(tǒng)的故障率、穩(wěn)定性、可維護性等指標(biāo),進而構(gòu)造了故障指數(shù)評估糧食測溫系統(tǒng)的優(yōu)劣。2007 年,荷蘭半導(dǎo)體公司的Gils 等[2]引入一種基于區(qū)域釋放能量的新型故障指數(shù),可以對半導(dǎo)體制造過程中不同的后端結(jié)構(gòu)故障進行快速定性比較。2008 年,美國密蘇里大學(xué)的Lee 等[3]引入節(jié)點故障指數(shù)用于確定地下水系統(tǒng)修復(fù)成功概率低于設(shè)計要求的節(jié)點位置和數(shù)目,節(jié)點故障指數(shù)計算方法的優(yōu)勢在于可以對感興趣的特定區(qū)域進行分析,并為該目標(biāo)區(qū)域確定最佳的補救設(shè)計方法。應(yīng)用實例表明,在地下水修復(fù)設(shè)計中,可靠性和故障指數(shù)的空間分布可以輔助維修支持系統(tǒng)的決策。2011 年,同濟大學(xué)的朱海宏等[4]提出基于貝葉斯網(wǎng)絡(luò)的高鐵系統(tǒng)概率安全評估方法,引入貝葉斯網(wǎng)絡(luò)技術(shù),充分利用傳統(tǒng)事件樹、故障樹的分析優(yōu)勢,將事件樹中各安全環(huán)節(jié)的故障分別轉(zhuǎn)化為貝葉斯網(wǎng)絡(luò),并按照邏輯關(guān)系最終融合成為一張完整的貝葉斯網(wǎng)絡(luò)。通過整合的貝葉斯網(wǎng)絡(luò)不僅可以分析系統(tǒng)的安全性,同時還能得到其他有用的概率推理信息。2011年,西南交通大學(xué)的王亞飛等[5]提出基于線性參照模型的鐵路空間數(shù)據(jù)建模方法,使用地理信息數(shù)據(jù)對鐵路空間進行建模試驗。2012 年,中鐵第四勘察設(shè)計院集團有限公司的戚廣楓[6]從可靠性角度論述高速鐵路牽引供電安全技術(shù)發(fā)展,并對提高供電系統(tǒng)安全性的方法進行了展望。2015 年,中國科學(xué)院的趙陽等[7]提出一種基于文本數(shù)據(jù)挖掘的高鐵信號系統(tǒng)車載設(shè)備故障評估方法,針對故障追蹤表中記錄數(shù)據(jù)的非規(guī)范性和隨意性,采用主題模型對故障追蹤表進行分析和特征提取;在此基礎(chǔ)上,對高鐵信號系統(tǒng)車載設(shè)備故障評估的不確定性,采用貝葉斯網(wǎng)絡(luò)構(gòu)造了分類器作為故障分類的方法。2015 年,西南交通大學(xué)的杜靜等[8]提出一種融合規(guī)則的多準(zhǔn)則特征評估算法,通過不同標(biāo)準(zhǔn)集合對特征進行綜合評估并去除冗余特征,提高了分類的準(zhǔn)確性,采用多準(zhǔn)則特征評估算法對高速列車的故障數(shù)據(jù)進行了評估,可對各速度級下的特征做出有效評估,具有較強的適用性和較高的準(zhǔn)確率。2016 年,羅馬尼亞布加勒斯特大學(xué)的P?un Andrei 等[9]在對有已知可靠性問題的高性能計算應(yīng)用程序的日志文件進行檢查過程中,提出定義高性能計算可靠性的一種故障指數(shù),可以揭示出在一系列高性能計算平臺上運行的應(yīng)用程序的故障率與平均故障間隔時間隨各種運行條件和時間的波動規(guī)律。2016 年,北京交通大學(xué)的王克楠[10]提出基于關(guān)聯(lián)特性分析的鐵路事故數(shù)據(jù)挖掘及預(yù)測、預(yù)警方法?;谡鎸崝?shù)據(jù),首先對影響鐵路安全的各因素進行歸納統(tǒng)計得到可供深入分析的數(shù)據(jù)樣本,結(jié)合數(shù)據(jù)挖掘技術(shù)把關(guān)聯(lián)規(guī)則分析用于實際數(shù)據(jù)的研究中,對運輸過程的事故影響因素及其相互關(guān)系進行量化研究,形成以安全隱患為切入點的安全預(yù)警應(yīng)用。2018 年,國際鐵路聯(lián)盟發(fā)布歐洲鐵路安全報告[11],該報告是基于2001 年建立的鐵路安全數(shù)據(jù)庫而形成的,數(shù)據(jù)庫涵蓋了歐洲以及中東地區(qū)24 個成員國提供的事故和故障等信息,包括安全事故統(tǒng)計數(shù)據(jù),根據(jù)歐盟法律規(guī)定提供的事故原因、后續(xù)情況調(diào)查以及事故影響等分析?;谏鲜鰯?shù)據(jù)構(gòu)造模型并計算出鐵路安全指數(shù),不僅統(tǒng)計了事故數(shù)量,還考慮了每件事故的類型、原因、受害者人數(shù)和事故類別,能綜合評估安全狀況。結(jié)果表明,近年來歐洲地區(qū)鐵路安全指數(shù)持續(xù)下降,反映出歐洲地區(qū)鐵路的安全管理水平正在穩(wěn)步提升。為此,如何基于我國高速鐵路運營10年來各專業(yè)的故障數(shù)據(jù),構(gòu)造出我國高速鐵路各專業(yè)的故障指數(shù),是安全評估中有待通過研究解決的問題之一。
為保證高速鐵路安全高效運營,保持其供電系統(tǒng)的穩(wěn)定可靠十分重要。近年來,伴隨著電氣化技術(shù)的快速發(fā)展,我國高速鐵路牽引供電技術(shù)也在不斷進步,與此同時,牽引供電系統(tǒng)的復(fù)雜性也隨之提高。牽引供電系統(tǒng)的正常運轉(zhuǎn)是高速鐵路重要的行車保障,牽引供電系統(tǒng)一旦發(fā)生故障,可能會造成供電中斷直接影響行車,干擾正常的運輸秩序,因此應(yīng)當(dāng)盡量減少高速鐵路牽引供電系統(tǒng)故障的發(fā)生。
結(jié)合對我國高速鐵路牽引供電專業(yè)故障數(shù)據(jù)的初步統(tǒng)計分析及相關(guān)調(diào)查研究[12],高速鐵路牽引供電故障主要包括牽引變電所故障、接觸懸掛及接觸網(wǎng)相關(guān)故障、隔離開關(guān)相關(guān)故障、分段絕緣器相關(guān)故障、避雷器相關(guān)故障和弓網(wǎng)接觸相關(guān)故障六大類。例如,由于外界環(huán)境、過負荷或機車車輛引起的牽引變電所跳閘屬于牽引變電所故障;由于季節(jié)性變化或施工等操作引起的承力索、接觸線、彈性吊索、吊弦及接觸懸掛設(shè)備故障屬于接觸懸掛及接觸網(wǎng)相關(guān)故障;由于隔離開關(guān)電機部件損壞、刀閘開合角不到位、螺栓力矩不夠等機械故障造成虛接和電氣燒傷屬于隔離開關(guān)相關(guān)故障;分段絕緣器被電弧灼傷或銷弧角斷裂等屬于分段絕緣器相關(guān)故障;避雷器爆裂、計數(shù)器或脫離器損壞屬于避雷器相關(guān)故障;各類線夾以及在特殊區(qū)段的弓網(wǎng)作用故障屬于弓網(wǎng)接觸相關(guān)故障。
通常,在這些故障發(fā)生后,會給部分區(qū)段造成一定時間的停電影響,有時還將影響車輛、電務(wù)、工務(wù)、機務(wù)等其他相關(guān)專業(yè)。因此,需要對高速鐵路牽引供電故障數(shù)據(jù)進行多維度的統(tǒng)計分析和數(shù)據(jù)挖掘后,建立數(shù)據(jù)模型計算故障指數(shù),才能評估故障影響及發(fā)生趨勢。
高速鐵路牽引供電故障分析以我國2009—2018 年的高速鐵路供電設(shè)備故障分析報表作為數(shù)據(jù)樣本,報表中的大量數(shù)據(jù)為以文本形式記錄和描述的非結(jié)構(gòu)化數(shù)據(jù)。由于高速鐵路牽引供電系統(tǒng)在日常運行過程中發(fā)生的任何故障情況都可以通過文本描述的方式記錄,因此近年來文本記錄是故障信息的主要載體。在高速鐵路牽引供電故障非結(jié)構(gòu)化文本數(shù)據(jù)中,主要包含故障發(fā)生的時間、地點、故障情況的詳細描述、影響范圍等信息,大多以Word和Excel等形式存儲,由于受到傳統(tǒng)技術(shù)的限制,難以有效分析和挖掘蘊藏在文本數(shù)據(jù)中的巨大價值。因此,使用文本分析和數(shù)據(jù)挖掘技術(shù)對上述故障文本數(shù)據(jù)進行預(yù)處理和特征提取,利用提取后的特征數(shù)據(jù)建立數(shù)據(jù)模型以計算高速鐵路供電故障指數(shù)(CRHFI供電),探索數(shù)據(jù)分析技術(shù)在鐵路安全分析領(lǐng)域的應(yīng)用方法。
高速鐵路供電故障指數(shù)是中國高速鐵路故障指數(shù)(CRHFI)的重要組成部分之一,可以通過數(shù)據(jù)建模的方法計算得出。首先在數(shù)據(jù)挖掘平臺上對故障數(shù)據(jù)原始記錄進行人工文本標(biāo)注等預(yù)處理和自動的文本特征提取,之后使用分類挖掘、聚類分析等技術(shù)獲得中間結(jié)果參數(shù),利用這些中間結(jié)果參數(shù)可以建立數(shù)據(jù)模型計算出故障指數(shù),通過參數(shù)調(diào)整和模型調(diào)優(yōu)等方法進行指數(shù)更新,最終對指數(shù)進行分析和可視化展示,研究其中的安全規(guī)律或進行安全管理評估。高速鐵路供電故障指數(shù)總體技術(shù)路線見圖1。
3.2.1 數(shù)據(jù)模型與建模流程
高速鐵路供電故障指數(shù)計算模型可用以下公式表述:
式中:N定義為歸一化系數(shù),視樣本計算結(jié)果數(shù)量級和每年高速鐵路運營里程共同確定,可以將計算結(jié)果歸一化至指定的范圍之內(nèi);Ft定義為故障時間系數(shù),取值范圍從0(發(fā)生故障未造成停電時間)至n1(待通過文本數(shù)據(jù)聚類分析后確定)。其數(shù)值含義如下:0 代表發(fā)生故障但未造成停電時間,1代表時間聚類結(jié)果1,2代表時間聚類結(jié)果2,……,n1代表時間聚類結(jié)果n1;Fs定義為故障空間系數(shù),取值范圍從0(發(fā)生故障未造成停電區(qū)段)至n2(待通過文本數(shù)據(jù)聚類分析后確定),其數(shù)值含義如下:0 代表發(fā)生故障但未造成停電區(qū)段,1 代表空間聚類結(jié)果1,2 代表空間聚類結(jié)果2,……,n2 代表空間聚類結(jié)果n2;Fi定義為故障影響系數(shù),取值范圍從1(發(fā)生故障未涉及其他專業(yè))至4(發(fā)生故障涉及4 個專業(yè)),其各數(shù)值含義如下:1 代表未涉及其他專業(yè),2 代表涉及2 個專業(yè),3 代表涉及3 個專業(yè),4 代表涉及4 個專業(yè);Fr定義為故障責(zé)任系數(shù),取值范圍從1(發(fā)生故障由于外因?qū)е拢┲?(發(fā)生故障由于內(nèi)因?qū)е拢?/p>
上述各參數(shù)可以通過對故障數(shù)據(jù)的原始文本記錄進行特征提取、分析挖掘、聚類分類分析等方式計算得出,基于數(shù)據(jù)建模的高速鐵路供電故障指數(shù)計算流程見圖2。
圖2 基于數(shù)據(jù)建模的高速鐵路供電故障指數(shù)計算流程
3.2.2 數(shù)據(jù)建模過程與技術(shù)
按照上述計算流程,數(shù)據(jù)建模具體過程主要包括對故障數(shù)據(jù)進行預(yù)處理、特征提取、時空聚類分析、故障影響分析和故障原因分析5個過程,其中涉及文本數(shù)據(jù)預(yù)處理、特征提取、聚類分析等數(shù)據(jù)挖掘技術(shù)。
(1)數(shù)據(jù)預(yù)處理。由于故障原始數(shù)據(jù)在記錄過程中存在缺失值、不同的異構(gòu)格式、計算錯誤、標(biāo)注錯誤、輸入錯誤等問題,因此首先需要對采集的故障原始記錄數(shù)據(jù)進行預(yù)處理。這些問題大多發(fā)生在故障引起的停電時間字段中。例如,發(fā)生故障后若未造成停電,則部分停電時間記錄為空(見圖3)。此外,不同記錄人員記錄的數(shù)據(jù)格式也不同(見圖4)。
對于上述2種問題,首先進行缺失值填補和異構(gòu)記錄格式自動轉(zhuǎn)換。在缺失值填補和異構(gòu)格式轉(zhuǎn)換后,需要對數(shù)據(jù)的正確性即總計停電時間進行自動校驗。在校驗過程中發(fā)現(xiàn)原始故障記錄數(shù)據(jù)中主要包含計算錯誤、未累加求和、標(biāo)注錯誤、輸入錯誤等問題(見圖5)。
圖3 故障后若未造成停電存在缺失值
圖4 異構(gòu)格式記錄的數(shù)據(jù)有待轉(zhuǎn)換
圖5 故障數(shù)據(jù)預(yù)處理修復(fù)結(jié)果與原始記錄對比
(2)數(shù)據(jù)特征提取。通過數(shù)據(jù)預(yù)處理得到正確數(shù)據(jù)后,可以對數(shù)據(jù)進行特征提取。對故障數(shù)據(jù)特征提取使用中國鐵道科學(xué)研究院集團有限公司楊濤存和楊連報等提出的基于有限狀態(tài)機的快速非結(jié)構(gòu)化數(shù)據(jù)特征提取方法和鐵路故障文本特征提取模型[13]。對于鐵路非結(jié)構(gòu)化故障文本數(shù)據(jù),應(yīng)用文本數(shù)據(jù)分析技術(shù)實現(xiàn)非結(jié)構(gòu)化故障文本分析,基于模式匹配法從大量故障情況的文字描述記錄數(shù)據(jù)中提取出線別、起始站、終點站、區(qū)間倍數(shù)等重要特征,以便從線路車站里程表中查詢里程后計算故障發(fā)生時的停電區(qū)間里程,為后續(xù)時空聚類分析工作提供有效數(shù)據(jù)。
(3)時空聚類分析。對故障原始數(shù)據(jù)進行預(yù)處理和特征提取分別得到準(zhǔn)確且有效的故障停電時間和故障停電區(qū)間長度后,采用時空聚類分析方法求取式(1)中的故障時間系數(shù)和故障空間系數(shù)。時空聚類分析方法基于K 均值聚類算法(K-means)[14],通過迭代求解實現(xiàn)聚類分析。操作時首先隨機選取K個對象作為初始聚類中心,然后計算每個對象與各種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表1 個聚類。每分配1個樣本,聚類的中心會根據(jù)聚類中現(xiàn)有對象被重新計算。這個過程將不斷重復(fù)直到滿足某個終止條件。終止條件可以是沒有(或最小數(shù)目)對象被重新分配給不同的聚類、沒有(或最小數(shù)目)聚類中心再發(fā)生變化、誤差平方和局部最小。
對故障發(fā)生后的停電時間和停電區(qū)段數(shù)據(jù)使用K-means進行時空聚類的結(jié)果見圖6。
圖6 故障數(shù)據(jù)K-means時空聚類結(jié)果
從圖6的聚類可視化結(jié)果可以看出,對故障發(fā)生后的停電時間和停電區(qū)段數(shù)據(jù)進行時空聚類的結(jié)果分為6類,各聚類中心和樣本數(shù)量見表1、表2。
表1 時間聚類結(jié)果
表2 空間聚類結(jié)果
表中,時空聚類結(jié)果所屬類別分別為式(1)中的故障時間系數(shù)Ft和故障空間系數(shù)Fs的取值。若發(fā)生故障未造成停電時間或停電區(qū)段,則Ft和Fs取值為0,定義為第0類,不屬于上述6類聚類分析結(jié)果。
(4)故障影響分析。在故障原始記錄數(shù)據(jù)中,發(fā)生故障時影響車輛、機務(wù)、電務(wù)、工務(wù)4個專業(yè),故障發(fā)生時可能涉及其中的1項或者多項。因此,此處按影響專業(yè)數(shù)量定義故障影響系數(shù)Fi。
(5)故障原因分析。故障原因分為內(nèi)因和外因2類。若故障由于外因?qū)е?,故障?zé)任系數(shù)Fr取值為1;若故障由于內(nèi)因?qū)е?,故障?zé)任系數(shù)Fr取值為2。其中外因主要包括自然環(huán)境因素和人為因素兩大類;內(nèi)因主要包括變電設(shè)備、電力設(shè)備、動車組、接觸網(wǎng)設(shè)備引起的故障。
3.2.3 計算結(jié)果
通過上述數(shù)據(jù)建模過程對數(shù)據(jù)進行預(yù)處理、特征提取、時空聚類分析、故障影響分析和故障原因分析5 個步驟后,得到每條故障記錄數(shù)據(jù)的故障時間系數(shù)Ft、故障空間系數(shù)Fs、故障影響系數(shù)Fi和故障責(zé)任系數(shù)Fr,帶入式(1)中計算高速鐵路供電故障指數(shù)。由于我國近10 年中高速鐵路的運營里程不斷增長,因此,歸一化系數(shù)N按每年的高速鐵路運營里程數(shù)確定,并歸一化至個位數(shù)量級,計算結(jié)果見圖7。
圖7 2009—2018年CRHFI供電計算結(jié)果
基于我國高速鐵路供電專業(yè)近10 年積累的大量故障數(shù)據(jù),采用文本分析、特征提取、時空聚類分析、影響分析和原因分析等手段對數(shù)據(jù)進行挖掘分析與處理。通過分析得到故障發(fā)生的時間和空間類別、影響因素和故障原因,并用分析結(jié)果作為輸入數(shù)據(jù),基于數(shù)據(jù)建模技術(shù)提出一種高速鐵路供電專業(yè)故障指數(shù)的計算方法,計算結(jié)果定量描述了故障發(fā)生的總體情況。結(jié)果表明,過去10 年我國高速鐵路處于飛速發(fā)展和建設(shè)期,每年開通了大量新建線路,伴隨著供電專業(yè)維護管理的投入,供電專業(yè)故障指數(shù)呈現(xiàn)總體下降和平穩(wěn)波動的趨勢。
隨著我國高速鐵路的長期運營,故障指數(shù)可作為研究我國高速鐵路故障長期發(fā)展規(guī)律的重要手段。此外,還可在故障指數(shù)研究基礎(chǔ)上建立安全狀態(tài)分析預(yù)測模型,探索基于故障指數(shù)的安全控制策略,也是未來的發(fā)展方向之一。提出的供電故障指數(shù)計算方法尚需使用更多的故障數(shù)據(jù)進行模擬計算,從而對現(xiàn)有計算模型進行驗證、訓(xùn)練、調(diào)整和完善,使之更加科學(xué)有效地反映現(xiàn)實的故障情況與安全規(guī)律。