程朝陽 王昊 侯智雄 李穎 楊勁松 韓志 郝晉斐
中國鐵道科學(xué)研究院集團(tuán)有限公司 基礎(chǔ)設(shè)施檢測研究所, 北京 100081
軌道幾何狀態(tài)檢測是及時(shí)掌握軌道幾何形位、指導(dǎo)鐵路局現(xiàn)場工務(wù)養(yǎng)護(hù)、保證鐵路安全運(yùn)行的重要保障。軌道檢查車[1]被世界各國廣泛用于檢測軌道幾何形位與標(biāo)準(zhǔn)值的差異,包括高低、軌向、曲率、軌距、水平、三角坑等軌道幾何參數(shù)。
雨雪、大霧、草害、電子干擾等外界因素,以及數(shù)據(jù)遠(yuǎn)距離傳輸、設(shè)備標(biāo)定誤差、慣性組件自身漂移等內(nèi)部因素,使得軌道幾何檢測系統(tǒng)產(chǎn)生異常檢測數(shù)據(jù)。異常數(shù)據(jù)會產(chǎn)生無效的單點(diǎn)大值超限,同時(shí)影響200 m區(qū)段的軌道質(zhì)量指數(shù)統(tǒng)計(jì)[2]。因此,須要進(jìn)行異常檢測數(shù)據(jù)識別,剔除無效單點(diǎn)大值超限,提高現(xiàn)場檢測效率,減少異常數(shù)據(jù)對軌道質(zhì)量指數(shù)的影響。
軌道幾何狀態(tài)檢測數(shù)據(jù)為時(shí)序數(shù)據(jù)。關(guān)于時(shí)序數(shù)據(jù)的異常識別,相關(guān)學(xué)者已開展大量研究,主要內(nèi)容集中于信號的特征構(gòu)造和選用以及信號分類模型的設(shè)計(jì)。文獻(xiàn)[3]通過小波包分形理論對傳感器的輸出信號進(jìn)行故障特征提取,再利用支持向量機(jī)進(jìn)行信號分類。文獻(xiàn)[4]提出了一種輕量級卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建方法,將深度學(xué)習(xí)算法與遷移學(xué)習(xí)方法相結(jié)合,解決了領(lǐng)域間分布差異的問題。文獻(xiàn)[5]提出了一種面向無標(biāo)簽數(shù)據(jù)的無監(jiān)督、參數(shù)自適應(yīng)化的故障診斷算法(Sm-DLLOF-AFCM),可以對沒有任何先驗(yàn)信息的樣本集自適應(yīng)地完成故障診斷。文獻(xiàn)[6]充分利用深度學(xué)習(xí)的深層次自動挖掘信號特征信息的能力,結(jié)合高效分類器,在區(qū)分度高的特征下實(shí)現(xiàn)信號的自動化特征提取和高精確度檢測。文獻(xiàn)[7]直接利用帶通濾波后的時(shí)域心音信號進(jìn)行心音分類,使用滑動窗將信號分割成一定長度的信號子模塊,利用一維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。
軌道幾何狀態(tài)檢測異常數(shù)據(jù)樣本較少,構(gòu)建標(biāo)注數(shù)據(jù)集需要耗費(fèi)大量時(shí)間精力,且神經(jīng)網(wǎng)絡(luò)分類器的設(shè)計(jì)訓(xùn)練及實(shí)際性能受參數(shù)影響較大,難以部署在目前算力較低的工控機(jī)上。因此,本文基于文獻(xiàn)[8]的特征提取方法,提出一種能夠進(jìn)行多維特征提取的支持向量機(jī)智能分類方法。該方法模型訓(xùn)練時(shí)無需進(jìn)行樣本標(biāo)注,訓(xùn)練集均為正常樣本數(shù)據(jù)。通過對算法進(jìn)行性能優(yōu)化,降低算法對硬件性能的依賴,同時(shí)對算法完成結(jié)構(gòu)性封裝,形成模塊化算法庫,使之易于部署。最后,基于激光攝像組件的現(xiàn)場實(shí)測數(shù)據(jù),對該智能分類方法進(jìn)行驗(yàn)證。
軌道幾何狀態(tài)檢測異常數(shù)據(jù)實(shí)時(shí)智能識別算法分為訓(xùn)練階段和在線檢測階段,流程見圖1。
圖1 異常數(shù)據(jù)實(shí)時(shí)智能識別算法流程
訓(xùn)練階段:收集軌道幾何檢測系統(tǒng)各傳感器正常狀態(tài)下的時(shí)序數(shù)據(jù),組成訓(xùn)練集,然后對訓(xùn)練集進(jìn)行數(shù)據(jù)預(yù)處理操作,提取趨勢項(xiàng)[9];對消除趨勢項(xiàng)后的訓(xùn)練集進(jìn)行高維特征提取,用于訓(xùn)練單分類支持向量機(jī)分類器,構(gòu)建異常檢測模型。
在線檢測階段:對軌道幾何檢測系統(tǒng)各傳感器時(shí)序數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理及特征提取,基于訓(xùn)練階段構(gòu)建的異常檢測模型進(jìn)行時(shí)序數(shù)據(jù)分類,將時(shí)序數(shù)據(jù)分為正常、異常兩類,完成檢測數(shù)據(jù)智能識別。
數(shù)據(jù)預(yù)處理階段的任務(wù)是完成趨勢項(xiàng)提取,常見的方法包括移動平均法、高通濾波法等。本文采用Hodrick-Prescott(HP)過濾器[10],將時(shí)序序列分為趨勢和周期性分量,完成趨勢項(xiàng)提取,如圖2所示。傳感器原始數(shù)據(jù)采用HP過濾器消除趨勢項(xiàng)后,可以去除基線移動,在特征提取中減小基線幅值對數(shù)據(jù)時(shí)域、頻域、能量域等特征的影響,提高智能識別的準(zhǔn)確性。
圖2 數(shù)據(jù)趨勢項(xiàng)提取
軌道幾何狀態(tài)檢測數(shù)據(jù)為一維時(shí)序數(shù)據(jù),在進(jìn)行訓(xùn)練單分類器模型時(shí),須進(jìn)行多維特征提取。為了提高模型的魯棒性,提取了空間域、歸一化振幅、頻域、頻譜比值、能量域、高階統(tǒng)計(jì)六個(gè)大域特征,共計(jì)20個(gè)小域特征,見圖3。
圖3 數(shù)據(jù)特征
軌道幾何狀態(tài)數(shù)據(jù)的空間采樣距離為0.25 m,以20個(gè)點(diǎn)即空間長度為5 m的特征隊(duì)列對一維傳感器數(shù)據(jù)進(jìn)行步長為1的滑窗截取,然后對滑窗內(nèi)的數(shù)據(jù)進(jìn)行特征提取。
1.2.1 空間域特征
計(jì)算特征隊(duì)列滑動窗口內(nèi)的絕對值、一階差分、二階差分作為空間域特征,見圖4。
圖4 空間域特征
1.2.2 歸一化振幅特征
傳感器信號的異常與幅值有較強(qiáng)的相關(guān)性,從一維信號中提取幅值特征是合理的。同時(shí),為了提高幅值特征的泛化性,消除傳感器之間的系統(tǒng)差異,歸一化振幅特征中不考慮絕對振幅,僅提取狀態(tài)間振幅的相對比值,見圖5。
圖5 歸一化振幅特征
采用傳感器幅值之間的比值(Adiv),同時(shí)考慮幅值比值序列的一階差分(Adivfd),構(gòu)成歸一化振幅特征。表達(dá)式為
式中:Ap為傳感器幅值,p表示傳感器空間采樣幅值的索引;Amax為傳感器幅值最大值,一般采用統(tǒng)計(jì)學(xué)意義上的最大值。
1.2.3 頻域及頻譜比值特征
傳感器的信號異常與信號頻率以及不同頻段的信號分布相關(guān)。為減小直接分割數(shù)據(jù)等價(jià)近矩形窗產(chǎn)生的影響,減小頻譜泄露,將原數(shù)據(jù)通過漢明窗,并對分幀加窗后的時(shí)域離散信號進(jìn)行Welch法[11]自功率譜估計(jì),得到自功率譜[P(f)],見圖6。
圖6 頻域及頻譜比值特征
選取P(f)的中心頻率作為第一頻率特征f1,平均頻率作為第二頻率特征f2,頻率均方根作為第三頻率特征f3,頻率方差作為第四頻率特征f4,表達(dá)式分別為
1.2.4 能量域特征
能量域特征是滑窗內(nèi)數(shù)據(jù)的帶通濾波后的信號與原信號的能量比值。令初始值為0,增量帶寬1 Hz,考慮4個(gè)頻帶,分別為(0,1]、(1,2]、(2,3]、(3,4] Hz。依據(jù)采樣定理,傳感器的空間頻率不會高于4 Hz,因此采用五階巴特沃斯濾波器(filter)設(shè)計(jì)4個(gè)帶通濾波器,第k個(gè)濾波器的輸出是yk,表達(dá)式為
式中:bk、ak為巴特沃斯濾波器的系數(shù)向量;x為滑窗內(nèi)原信號。
1.2.5 高階統(tǒng)計(jì)特征
在概率論和統(tǒng)計(jì)學(xué)中,偏度是對實(shí)值隨機(jī)數(shù)概率分布不對稱性的度量,是三階統(tǒng)計(jì)量;峰度是對實(shí)值隨機(jī)數(shù)概率分布尾度的度量,為四階統(tǒng)計(jì)量。選用偏度(K3)和峰度(K4)作為傳感器數(shù)據(jù)的高階統(tǒng)計(jì)特征,表達(dá)式分別為
式中:X為滑窗內(nèi)空間采樣數(shù)據(jù);μ為滑窗內(nèi)空間采樣數(shù)據(jù)的均值;σ為滑窗內(nèi)空間采樣數(shù)據(jù)的標(biāo)準(zhǔn)差。
特征提取是異常識別模型的輸入,所構(gòu)成的數(shù)據(jù)集決定了分類模型的訓(xùn)練結(jié)果。本文將空間域特征、歸一化振幅特征、頻域及頻譜比值特征、能量域特征、高階統(tǒng)計(jì)特征作為識別模型的輸入。高維特征在幅值范圍上存在較大差距,容易影響后期模型訓(xùn)練,因此,將各個(gè)維度的數(shù)值均歸一化到0 ~ 1。將歸一化后的數(shù)據(jù)輸入智能識別模型,訓(xùn)練擬合智能識別模型。
傳感器異常識別問題可以抽象為單分類問題。單分類問題的目的并不是將不同類別的數(shù)據(jù)區(qū)分開來,而是對某個(gè)類別的數(shù)據(jù)形成一個(gè)描述??梢岳斫鉃闃颖究臻g中的一個(gè)區(qū)域,當(dāng)維度較高時(shí)為超球面。某個(gè)樣本落在超球體外,則認(rèn)為該樣本不屬于這個(gè)類別。單分類方法常用于類別極度不平衡的分類任務(wù)中,符合軌道幾何檢測系統(tǒng)異常樣本較少的特性。
首先構(gòu)建目標(biāo)函數(shù)。假設(shè)有m個(gè)樣本點(diǎn),分別為x1,x2,…,xm,假設(shè)樣本點(diǎn)分布在一個(gè)球心為A,半徑為R的超球體中,那么樣本xi滿足
引入松弛變量(ξ),ξi≥0,允許部分樣本不在這個(gè)球中,那么
目標(biāo)是最小球的半徑和松弛變量的值,因此目標(biāo)函數(shù)(g)的表達(dá)式為
式中:C為懲罰參數(shù)。
使用拉格朗日乘數(shù)法,可將原問題表述為L(R,A,ξ,α,γ),αi、γi為拉格朗日乘子,將αi看作xi的權(quán)重,αi≥0,γi≥0。
對參數(shù)R、A、ξ求偏導(dǎo),得
化簡可得
則將原問題中求L(R,A,ξ,α,γ)的最小值轉(zhuǎn)化為求其對偶問題θ(αi,γi)的最大值,即
使用SMO(Sequential Minmal Optimization)算法求解上述凸優(yōu)化問題,同時(shí)依據(jù)可以求取超球體的中心,R為球心和支持向量積之間的距離,zTz為樣本點(diǎn)距超球體球心的距離。由此可得,樣本是否為異常點(diǎn)的判別函數(shù)表達(dá)式為
單分類支持向量機(jī)的實(shí)質(zhì)是通過正常數(shù)據(jù)集訓(xùn)練出一個(gè)超球體模型,預(yù)測的數(shù)據(jù)位于超球體中即為正常數(shù)據(jù),否則為異常數(shù)據(jù)。單分類支持向量機(jī)是一個(gè)無監(jiān)督算法,訓(xùn)練集數(shù)據(jù)僅需正常數(shù)據(jù),規(guī)避了異常樣本數(shù)據(jù)樣本數(shù)量少的問題。
以某地鐵實(shí)際檢測數(shù)據(jù)為例,基于左單邊位移、右單邊位移數(shù)據(jù),對智能識別模型進(jìn)行在線檢測。單邊位移異常識別效果見圖7。進(jìn)行數(shù)值試驗(yàn)時(shí),以傳感器單點(diǎn)異常值檢測為例,基于傳感器工作狀態(tài)具有時(shí)間持續(xù)性的特點(diǎn),對傳感器區(qū)段異常采用單點(diǎn)異常值統(tǒng)計(jì)的方式進(jìn)行檢測。
圖7 單邊位移異常識別效果
根據(jù)試驗(yàn)結(jié)果可知,本文提出的軌道幾何狀態(tài)檢測異常數(shù)據(jù)實(shí)時(shí)智能識別算法的識別效果較為理想,準(zhǔn)確性較高,魯棒性高。結(jié)合軌道幾何實(shí)際工況的判別條件,可基于該算法實(shí)現(xiàn)軌道幾何檢測系統(tǒng)的傳感器異常識別。
軌道幾何狀態(tài)檢測異常數(shù)據(jù)實(shí)時(shí)智能識別是檢測系統(tǒng)智能化的前提,同時(shí)也是應(yīng)對大交路(長時(shí)間)檢測、無人等特殊情況在線檢測以及實(shí)現(xiàn)自動化防錯(cuò)漏的重要手段。本文提出的異常數(shù)據(jù)智能識別算法準(zhǔn)確率較高,可滿足實(shí)際運(yùn)用需求,提高現(xiàn)場檢測人員的工作效率。該異常數(shù)據(jù)智能識別算法采用了輕量化設(shè)計(jì),可快速部署,對硬件資源依賴性較低,可滿足軌道幾何檢測系統(tǒng)傳感器異常數(shù)據(jù)實(shí)時(shí)檢測要求。