秦哲 杜馨瑜 李穎 王昊
1.中國鐵道科學研究院研究生部,北京 100081;2.中國鐵道科學研究院集團有限公司基礎設施檢測研究所,北京 100081
鐵路軌道的平面線形一般分為直線、緩和曲線、圓曲線三種。在列車動力作用下,曲線軌道的變形不斷累積,容易出現(xiàn)方向錯亂。為確保行車安全平穩(wěn),須定期檢查曲線方向,必要時進行曲線整正,使其恢復到原設計位置。軌道平面曲線的穩(wěn)定性、平順度和正確的幾何形位直接影響到列車的運行速度和運行安全[1-2]。
現(xiàn)有軌道平面線形判別參數(shù)可以識別出半徑在150~8 000 m的曲線,但對于半徑8 000 m以上的曲線須要更換軌道平面線形判別參數(shù)[3]。余寧等[4]提出的基于卷積神經(jīng)網(wǎng)絡的鐵路曲線特征點檢測算法可以進行離線軌道平面線形判別,但無法嵌入到目前實際使用的實時軌道幾何參數(shù)檢測系統(tǒng)GJ?6中,不具備現(xiàn)場檢測實用性。
本文利用軌道平面線形判別參數(shù)與曲線半徑之間的關(guān)系,針對性地設計多維特征,并設計在線隨機森林分類算法嵌入到軌道幾何參數(shù)實時檢測系統(tǒng)GJ?6 中,以實現(xiàn)自動切換軌道平面線形判別參數(shù),提高軌道平面線形判別的準確率。
最新研制的數(shù)字式軌道檢測系統(tǒng)將多個分立式的慣性傳感器集成為整體組件,安裝于檢測梁上,如圖1 所示。該系統(tǒng)結(jié)構(gòu)簡單,全部采用數(shù)字信號進行傳輸,有效避免了模擬信號在較長傳輸路徑上的電磁干擾,且信號的分辨率顯著提高,同時檢測精度有所提升[5-6]。
圖1 數(shù)字式軌道檢測系統(tǒng)檢測梁及懸掛裝置
用于軌道平面線形判別的輸入?yún)?shù)為曲率和曲率變化率。數(shù)字式軌道檢測系統(tǒng)搖頭陀螺位于檢測梁中心,其輸出信號經(jīng)過抗混疊濾波器后進行0.25 m間隔的空間采樣,再經(jīng)過數(shù)字補償濾波器消除速度對信號的影響,最后計算得到曲率和曲率變化率,計算公式為
式中:ρ為曲率;dρ為曲率變化率;ω為搖頭角速率;T為采樣時間間隔;Δx為采樣空間間隔。
數(shù)字式軌道檢測系統(tǒng)的軌道平面線形判別方法和關(guān)鍵參數(shù)與文獻[3]基本一致,其中關(guān)鍵參數(shù)為曲率變化跟蹤量調(diào)整值、曲率變化跟蹤量閾值、范圍外曲率變化率閾值、范圍內(nèi)曲率變化率閾值。為判別半徑R>8 000 m 的軌道平面曲線,須手動切換上述關(guān)鍵參數(shù)。為了提高軌道平面曲線判別的準確性與簡易性,本文提出使用隨機森林算法根據(jù)平面曲線半徑分類結(jié)果對關(guān)鍵參數(shù)進行實時切換的方法。
隨機森林算法是以決策樹為基學習器的集成監(jiān)督學習算法,其具有一定的抗噪聲能力,可以處理非線性數(shù)據(jù)和高維數(shù)據(jù),對數(shù)據(jù)集的適應能力強,訓練速度快,實現(xiàn)簡單,精度高[7-8]?;谠撍惴ǖ那€半徑判別主要包含三個步驟:數(shù)據(jù)預處理、特征提取、模型訓練和測試。
根據(jù)設備臺賬和軌道幾何檢測數(shù)據(jù)匹配曲線的起點和終點里程,生成曲線半徑識別標準數(shù)據(jù)庫,流程如圖2所示。
圖2 生成曲線半徑識別標準數(shù)據(jù)庫流程
按150個采樣點的長度對每條曲線的檢測數(shù)據(jù)進行分段,對分段后的數(shù)據(jù)進行特征提取。在不同的曲線半徑下,現(xiàn)有平面曲線分段數(shù)據(jù)(曲率A1和曲率變化率A2)的特征包括:①典型連續(xù)數(shù)據(jù)特征Ac——均值、方差;②典型離散數(shù)據(jù)特征Ad——上四分位數(shù)、下四分位數(shù)、中位數(shù)、眾數(shù)、最大值、最小值;③其他特征Ao——熵、偏度系數(shù)、峰度系數(shù)、線性回歸系數(shù)。由于這些特征都有顯著的差別,故一列特征有12 個特征值,可表示為Ai=[AcAdAo]T。根據(jù)經(jīng)驗,設計并引入曲率一階差分A3、曲率變化率一階差分A4、曲率+曲率變化率A5三列特征,共計五列特征60 個特征值,可表示為A=[A1A2A3A4A5]。
按分段數(shù)據(jù)所屬半徑類別對其進行標注,從0 開始,依次遞增。三類平面曲線(R≤3 000、3 000 <R≤8 000、R>8 000)的類別標簽分別是0、1、2;六類平面曲線(R≤1 000、1 000 <R≤3 000、3 000 <R≤5 000、5 000 <R≤8 000、8 000 <R≤15 000、R>15 000)的標簽分別是0、1、2、3、4、5。
對數(shù)據(jù)特征進行隨機劃分,70%做模型訓練,剩余30%做測試。模型訓練和參數(shù)尋優(yōu)實現(xiàn)過程如下。
1)從原始訓練集中使用自助法(Bootstrapping)有放回地隨機取出m個樣本[9],共進行Ntree次采樣,生成Ntree個訓練集,對應隨機森林中Ntree顆決策樹;
2)對Ntree個訓練集分別訓練決策樹模型;
3)對于單顆決策樹,假設訓練樣本特征的個數(shù)為n,那么每次分裂時根據(jù)信息增益、信息增益比或Gini指數(shù)[10]選擇最好的特征進行分裂;
4)對于每棵樹都要依次分裂下去,直到該節(jié)點的所有訓練樣本都屬于某一類;
5)將生成的多顆決策樹組成隨機森林。
最終隨機森林的分類實際上是多棵樹分類器投票決定的分類結(jié)果。隨機森林構(gòu)建過程中須設置幾個關(guān)鍵參數(shù),主要包括決策樹個數(shù)、最大樹深度、葉節(jié)點最少樣本數(shù)、分裂時最大特征數(shù)等。這些參數(shù)的選取對進一步提升分類性能具有重要作用,選取順序如下。
1)調(diào)整既不會增加模型復雜度又對模型影響最大的參數(shù)Ntree,通過學習曲線尋找最佳參數(shù);
2)調(diào)整最大樹深度,通過網(wǎng)格搜索或?qū)W習曲線判斷;
3)依次對其他參數(shù)進行尋優(yōu)。
為增加模型的魯棒性(robustness),設計并實現(xiàn)了增量訓練[11]?;谀硞€訓練好的模型,讓模型在原有結(jié)構(gòu)不變的基礎上新增對新軌道數(shù)據(jù)的特征表達。增量訓練過程的實施步驟如下。
1)選擇一個基于不同軌道數(shù)據(jù)訓練好的模型;
2)對新增軌道數(shù)據(jù)進行分段和特征提取;
3)把新增軌道的特征作為訓練集,在已有模型的結(jié)構(gòu)上進行再訓練,讓模型添加對新增數(shù)據(jù)的表達;
4)保存增量訓練后的模型。
用離線測試來驗證模型分類的準確率?;谕痪€路數(shù)據(jù)的內(nèi)部測試結(jié)果見表1。其中,Z160、K120、G250、K160、G200 分別代表所選取的160 km∕h鐵路干線、120 km∕h 鐵路線路、250 km∕h 客運專線、160 km∕h 客運專線、某200 km∕h 客運專線;準確率是200 次隨機測試的平均值。由于K120 在三分類中都屬于第一類,故不做三分類測試。
表1 同一線路數(shù)據(jù)內(nèi)部測試結(jié)果
融合不同線路進行增量訓練測試,內(nèi)部測試結(jié)果見表2。其中準確率是200 次隨機測試的平均值??梢钥闯?,三分類的準確率較高,均大于90%。
表2 多線路數(shù)據(jù)融合內(nèi)部測試結(jié)果
由于離線測試結(jié)果顯示三分類的準確率較高,將訓練好的三分類模型嵌入到軌道檢測系統(tǒng)軌道幾何參數(shù)實時處理軟件中,使系統(tǒng)在運行過程中每150 個采樣點輸出一次曲線半徑分類結(jié)果,并根據(jù)分類結(jié)果自動改變軌道平面線形判別關(guān)鍵參數(shù)。每個分類結(jié)果對應的關(guān)鍵參數(shù)見表3。
表3 分類結(jié)果對應的關(guān)鍵參數(shù)
選取某200 km∕h 客運專線K8—K80 區(qū)段的檢測數(shù)據(jù),利用基于隨機森林算法的軌道平面線形判別方法在GJ?6 型軌道幾何參數(shù)實時檢測處理軟件中進行測試,并與按照現(xiàn)有軌道平面線形判別方法得出的檢測結(jié)果進行對比,結(jié)果見圖3??梢钥闯觯焊鶕?jù)設備臺賬數(shù)據(jù),該區(qū)段線路中軌道平面曲線半徑在1 200 ~12 000 m,共12 條;現(xiàn)有軌道平面線形判別方法僅能識別5條曲線,難以判別出R>6 000 m的曲線;基于隨機森林算法的軌道平面線形判別方法能夠判別出全部12條曲線。
圖3 基于隨機森林算法的在線軌道平面曲線判別結(jié)果
本文提出了基于隨機森林算法的在線軌道平面線形判別方法,其在方法上的創(chuàng)新主要體現(xiàn)在設計并提取針對性的特征,離線識別準確率提升至90%以上;在應用上的創(chuàng)新主要體現(xiàn)在該算法可以嵌入目前的實時軌檢系統(tǒng)GJ?6中,實現(xiàn)了軌道平面線形判別關(guān)鍵參數(shù)的自動切換,能夠判別出所有曲線。在測試過程中發(fā)現(xiàn)原算法與新算法都存在軌道平面曲線半徑大小計算不準確的問題,下一步應結(jié)合軌道檢測系統(tǒng)超限判斷算法進行深入研究。