牛太冬
摘 要:道岔的正常運(yùn)轉(zhuǎn)是保證列車正常運(yùn)行的必備條件,傳統(tǒng)的道岔故障檢測方法主要來源于人的工作經(jīng)驗(yàn),根據(jù)電流的非正常變化來判別道岔是否發(fā)生故障,消耗較多的人力資源與物力資源。為了提升資源的有效利用率,本文運(yùn)用概率主成分分析法提取數(shù)據(jù)的主要特征,分別采用支持向量機(jī)模型和[k]近鄰模型作為道岔故障分類器,然后使用十折交叉驗(yàn)證法作為模型的評價(jià)標(biāo)準(zhǔn),以達(dá)到智能識別鐵路道岔故障的目的。
關(guān)鍵詞:概率主成分分析;支持向量機(jī);故障識別;[k]近鄰法
中圖分類號:U284.92 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-5168(2021)06-0033-03
Railway Turnout Fault Recognition Based on Machine Learning
NIU Taidong
(Tianjin University of Science & Technology,Tianjin 300457)
Abstract: The normal operation of the switch is a necessary condition to ensure the normal operation of the train, traditional turnout fault detection methods are mainly derived from human work experience, it judges whether the turnout is malfunctioning according to the abnormal change of the current, which consumes more human resources and material resources. In order to improve the effective utilization of resources, this paper used the probabilistic principal component analysis method to extract the main characteristics of the data, respectively used the support vector machine model and the [k]-nearest neighbor model as the turnout fault classifier, and then used the ten-fold cross validation method as the evaluation standard of the model to achieve the purpose of intelligently identifying the railway turnout fault.
Keywords: probabilistic principal component analysis;support vector machine; fault identification;[k]-nearest neighbor method
目前,大部分地區(qū)通過微機(jī)監(jiān)控系統(tǒng)采集道岔開閉時(shí)的電流值來判斷鐵路道岔是否發(fā)生故障。轉(zhuǎn)轍機(jī)正常動作時(shí)的電流曲線如圖1所示,發(fā)生故障時(shí)的轉(zhuǎn)轍機(jī)動作電流曲線如圖2至圖6所示。由圖像可以看出,除了故障時(shí)轉(zhuǎn)轍機(jī)動作電流與正常時(shí)轉(zhuǎn)轍機(jī)動作電流不同外,不同情形下的故障電流也不相同。
隨著人工智能行業(yè)的發(fā)展和完善,人們可以使用機(jī)器學(xué)習(xí)算法進(jìn)行鐵路道岔故障識別,減少人力和物力的浪費(fèi),提高鐵路道岔故障識別的準(zhǔn)確性,減少故障識別的時(shí)間成本。唐維華[1]等利用LSTM(Long-Short Term Memory)電流數(shù)據(jù)的特征,將神經(jīng)網(wǎng)絡(luò)算法應(yīng)用到道岔動作電流曲線分類器中。程宇佳[2]以核方法為基礎(chǔ),研究高速鐵路道岔故障診斷方法。可婷等[3]利用主成分法提取道岔工作電流特征的主成分,并利用查準(zhǔn)率和查全率構(gòu)造道岔識別性能指標(biāo)。楊菊花等[4]利用基于密度的聚類方法提取電流曲線數(shù)據(jù)的故障敏感特征,并利用PSO-SOM算法作為故障分類器。
1 道岔電流數(shù)據(jù)特征的提取
1.1 概率主成分分析法
利用高維度的數(shù)據(jù)來訓(xùn)練道岔故障識別模型時(shí),模型的時(shí)間復(fù)雜度會較大,同時(shí)冗余信息也會影響模型分類的準(zhǔn)確性。因此,人們可以通過特征提取技術(shù)將數(shù)據(jù)的主成分提取出來,減少數(shù)據(jù)特征相關(guān)性帶來的影響。主成分分析(Principal Component Analysis)是最常用的降維技術(shù),這一技術(shù)利用線性變換把高維度的線性相關(guān)的向量轉(zhuǎn)化為低維度的線性無關(guān)的向量。
概率主成分分析法將概率框架引入主成分分析中,并引入非主成分因子,相較于主成分分析法,概率主成分分析法可以提取同樣個(gè)數(shù)的特征數(shù),其累計(jì)貢獻(xiàn)率高于經(jīng)典的主成分分析法[5]。
設(shè)[s1,s2,…,sd]為[d]維觀測數(shù)據(jù),樣本數(shù)為[N],對于單個(gè)樣本,人們可以通過隱變量模型得到觀測數(shù)據(jù)[s]與隱變量[x]的關(guān)系,即
[s=wx+μ+ε]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)
式中,[w]為[d×q]因子載荷矩陣;[x]為[q]維隱變量;[μ]為非零均值;[ε]為誤差。
設(shè)[x?N0,1],[ε?N0,σ2I],人們可以建立模型,表示隱變量[x]條件下觀測數(shù)據(jù)[s]的概率分布情況,即
[p(s|x)=(2πσ2)-d2e-12σ2∥s-Wx-μ∥2]? ? ? ? ? ? ? ? (2)
式中,[W]為變量[x]的系數(shù)。
若隱變量模型[x]的先驗(yàn)概率分布為標(biāo)準(zhǔn)的高斯分布[見式(3)],則觀測數(shù)據(jù)[s]的概率分布可以用式(4)表示。
[p(x)=(2π)-q2e-12xTx]? ? ? ? ? ? ? ? ? ? ? ? ? (3)
[p(s)=(2π)-d2|C|-12e-12(s-μ)TC-1(s-μ)]? ? ? ? ? ? ? ? (4)
式中,[T]為變量[x]的指數(shù);[C=WWT+σ2I],維數(shù)為[d×d]。
基于貝葉斯公式,人們可以計(jì)算出隱變量[x]關(guān)于觀察值[s]的后驗(yàn)概率分布,即
[p(x|s)=(2π)-q2σ2M-12e-12(s-μ)TC-1(s-μ)]? ? ? ? ? ?(5)
式中,[M=WTW+σ2I],維數(shù)為[q×q]。
在此模型下,對數(shù)似然函數(shù)為:
[Ls=-N2dln2π+lnC+trC-1U]? ? ? (6)
式中,[U]為觀測樣本的協(xié)方差矩陣。
參數(shù)[U]用公式可以表示為:
[U=1Nn=1N(sn-μ)(sn-μ)T]? ? ? ? ? ? ? ? ? ?(7)
對參數(shù)[μ]和[W]求解后,人們就可以對高維空間中的樣本[見式(8)]進(jìn)行降維,降維后數(shù)據(jù)的重構(gòu)形式如式(9)所示。
[xn=WTsn-μ]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (8)
[sn=W(WTW)-1xn+μ]? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(9)
1.2 主成分分析法和概率主成分分析法的實(shí)踐比較
在Matlab軟件中,本研究利用主成分分析法提取鐵路道岔電流的主成分,原樣本數(shù)據(jù)維數(shù)為960×371,樣本數(shù)據(jù)的協(xié)方差矩陣前9個(gè)特征值的累計(jì)貢獻(xiàn)率為0.952 933。利用概率主成分分析法后,人們?nèi)蕴崛?個(gè)主成分,累計(jì)貢獻(xiàn)率達(dá)到0.953 001。
2 道岔故障識別模型的建立
2.1 支持向量機(jī)故障識別模型
支持向量機(jī)(Support Vector Machines,SVM)是一種二分類模型。由圖1可以看出,道岔故障有5種不同的情況,將所有道岔故障類的標(biāo)簽記為[yi=-1],將正常狀況標(biāo)簽記為[yi=+1],[yi∈+1,-1],然后建立支持向量機(jī)模型,即
[? ? ?minw,b,η12|a|2+Cs.t.? ?yiaxi+b≥1-ηi, i=1,2,…,p ηi≥0,? i=1,2,…,p]? ? ? ? (10)
式中,[a]為超平面的法向量;[ηii=1,2,…,p]為松弛變量;[C]為懲罰參數(shù)。
通過求解上述優(yōu)化模型的解[a*]和[b*],人們可以得到相應(yīng)的分類決策函數(shù),即
[fx=signa*x+b*]? ? ? ? ? ? ? ? ? ?(11)
2.2 KNN算法識別模型
[k]近鄰法(k-Nearest Neighbor)是一種基本分類與回歸的方法,本文利用Matlab中的Statistics and Machine Learning Toolbox,基于概率主成分分析法降維后的數(shù)據(jù)訓(xùn)練[k]近鄰法分類器,距離度量為曼哈頓距離,[k]值取5。
3 模型評價(jià)與比較
3.1 10次10折交叉驗(yàn)證法
本試驗(yàn)中,數(shù)據(jù)量一共有960例,數(shù)據(jù)量較小,為了充分利用所有數(shù)據(jù),其采用十折交叉驗(yàn)證(10-Fold Cross Validation)法。該方法能夠在較少數(shù)據(jù)的情況下充分利用數(shù)據(jù)訓(xùn)練模型,并且可以得到可靠的模型評價(jià)。
3.2 模型比較
如表1所示,SVM模型10折交叉驗(yàn)證的錯(cuò)誤率為0.001 2,KNN模型10折交叉驗(yàn)證的錯(cuò)誤率為0.004 9,雖然將[k]近鄰算法做二分類降低了錯(cuò)誤率,但是其仍然不如支持向量機(jī)方法。KNN算法能夠判斷道岔故障類型,減少維修的時(shí)間成本。
表1 SVM和KNN模型交叉驗(yàn)證錯(cuò)誤率
[序號 模型 錯(cuò)誤率 1 SVM 0.001 2 2 KNN 0.004 9 ]
4 結(jié)論
本文首先對不同故障類別電流數(shù)據(jù)進(jìn)行可視化處理,然后利用概率主成分分析法提取轉(zhuǎn)轍機(jī)動作電流的數(shù)據(jù)特征,在371維的電流數(shù)據(jù)中提取9個(gè)主成分,方差累計(jì)貢獻(xiàn)率達(dá)到95.3%,高于主成分分析法提取9個(gè)主成分的方差累計(jì)貢獻(xiàn)率,支持向量機(jī)分類模型的準(zhǔn)確率為99.88%,[k]近鄰法分類模型的準(zhǔn)確率為99.51%,因此支持向量機(jī)模型在準(zhǔn)確性方面優(yōu)于[k]近鄰法模型。在實(shí)踐中,訓(xùn)練好的模型對道岔故障做出判別的響應(yīng)速度優(yōu)于工作人員實(shí)時(shí)觀察轉(zhuǎn)轍機(jī)工作電流進(jìn)行故障識別的速度,故障識別的準(zhǔn)確率接近100%,不僅節(jié)約人力資源,而且降低了錯(cuò)誤識別的風(fēng)險(xiǎn)。
參考文獻(xiàn):
[1]唐維華,李德敏.鐵路道岔故障診斷及顯示系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2019(9):37-40.
[2]程宇佳.基于核方法的高速鐵路道岔故障診斷[D].北京:北京交通大學(xué),2016:12-13.
[3]可婷,葛雪純,張立東,等.鐵路道岔故障的智能診斷[J].電子技術(shù)應(yīng)用,2020(4):29-33.
[4]楊菊花,李旭彤,邢東峰,等.基于DBSCAN/SOM的道岔故障診斷[J].計(jì)量科學(xué)與技術(shù),2020(12):5-7.
[5]高兵,孫琳,謝彪,等.權(quán)重概率主成分分析模型的建立及應(yīng)用研究[J].中國衛(wèi)生統(tǒng)計(jì),2018(6):802-805.