李 擎,劉仍奎,白 磊, ,王福田,陳云峰
(1. 北京交通大學(xué) 交通運(yùn)輸學(xué)院,北京 100044;2. 北京易華錄信息技術(shù)股份有限公司,北京 100043;3. 北京交通大學(xué) 軌道交通控制與安全國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100044;4. 蘭州鐵路局 工務(wù)處,甘肅 蘭州 730000)
軌道[1]是多種設(shè)備的集合體,是鐵路行車(chē)的基礎(chǔ),其作用是引導(dǎo)機(jī)車(chē)車(chē)輛運(yùn)行。如有砟軌道由鋼軌、軌枕、道床、聯(lián)結(jié)零件及防爬設(shè)備構(gòu)成。全面直觀地把握鐵路軌道健康狀態(tài)是科學(xué)編制養(yǎng)護(hù)維修計(jì)劃的基礎(chǔ),對(duì)確保鐵路行車(chē)安全具有重要意義。鐵路現(xiàn)場(chǎng)主要以病害等級(jí)、病害數(shù)量、病害扣分及軌道質(zhì)量指數(shù) TQI等指標(biāo)評(píng)定軌道設(shè)備狀態(tài)[2?6]。Sadeghi等[7?11]提出利用軌道結(jié)構(gòu)指數(shù) TSI、軌道質(zhì)量等級(jí)TQR、軌道不平順功率譜、病害重復(fù)度、失效率等評(píng)定軌道設(shè)備狀態(tài)。隨著鐵路工務(wù)信息化工作的不斷推進(jìn),以及更多檢查檢測(cè)方式的廣泛使用,軌道狀態(tài)數(shù)據(jù)日益豐富。但是,目前鐵路管理者主要利用折線圖、柱狀圖等簡(jiǎn)單圖形對(duì)分析結(jié)果進(jìn)行直觀化展示,難以深度挖掘數(shù)據(jù)中潛在的規(guī)律,無(wú)法直觀、清晰地展示海量數(shù)據(jù)中的相關(guān)信息。數(shù)據(jù)可視化分析是大數(shù)據(jù)分析的一類(lèi)重要研究方向。數(shù)據(jù)可視化分析的基本思想是,借助計(jì)算機(jī)圖形學(xué)以及圖像處理技術(shù),對(duì)數(shù)據(jù)進(jìn)行組織融合,從不同的維度觀察數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行更深入的分析,實(shí)現(xiàn)對(duì) 3類(lèi)知識(shí)的獲取[12?13]:1) 異常:判斷數(shù)據(jù)集中是否存在“問(wèn)題”數(shù)據(jù);2) 關(guān)系:分析不同數(shù)據(jù)間的相關(guān)性;3) 模式:分析數(shù)據(jù)中存在的某種規(guī)律。本文研究提出一種基于網(wǎng)格的鐵路軌道狀態(tài)大數(shù)據(jù)可視化模型(Grid-based Visualization Model for Big Data of Railway Track Condition,GVM-BDRTC),直觀展現(xiàn)不同軌道設(shè)備健康狀態(tài)的相似性或差異性,讓管理者可以在較小的空間范圍內(nèi)全面直觀把握軌道設(shè)備健康狀態(tài)分布,為軌道養(yǎng)護(hù)維修管理提供決策支持。
基于鐵路基礎(chǔ)設(shè)施設(shè)備網(wǎng)格化管理理論[14],作者把線性、連續(xù)的鐵路軌道按照200 m的長(zhǎng)度,劃分成若干相鄰等長(zhǎng)的“小區(qū)段”?!靶^(qū)段”是鋼軌、軌枕、道床、聯(lián)結(jié)零件等設(shè)備組成的綜合體。每個(gè)“小區(qū)段”稱為一個(gè)軌道網(wǎng)格。軌道網(wǎng)格的長(zhǎng)度理論上應(yīng)充分小,便于管理者更精確地把握軌道健康狀態(tài),但應(yīng)與鐵路現(xiàn)有的管理水平與能力相匹配。
某一軌道網(wǎng)格狀態(tài)是由該網(wǎng)格里程范圍內(nèi)各設(shè)備狀態(tài)共同確定的,其狀態(tài)評(píng)定指標(biāo)包括高低、軌向、軌距、水平、三角坑等軌道局部不平順性指標(biāo),軌道質(zhì)量指數(shù)TQI,病害數(shù)量,病害扣分,平均病害率,病害變化率,平均維修時(shí)間等。因此,管理者難以直接利用上述多維狀態(tài)指標(biāo)把握軌道網(wǎng)格健康。
本文提出的基于網(wǎng)格的鐵路軌道狀態(tài)大數(shù)據(jù)可視化模型(GVM-BDRTC),可在較好地保持軌道網(wǎng)格在原高維狀態(tài)空間中健康狀態(tài)相似關(guān)系的前提下,可視化展現(xiàn)軌道網(wǎng)格健康狀態(tài)特征的相似性或差異性。模型GVM-BDRTC由3部分構(gòu)成,其計(jì)算流程見(jiàn)圖1。
圖1 模型GVM-BDRTC計(jì)算流程圖Fig.1 Algorithm flowchart of the GVM-BDRTC model
1) 以鐵路軌道網(wǎng)格作為研究對(duì)象,使軌道健康狀態(tài)在較小的空間范圍內(nèi)被管理者掌握;
2) 軌道網(wǎng)格多狀態(tài)評(píng)定指標(biāo)降維。在由多狀態(tài)評(píng)定指標(biāo)構(gòu)成的多維空間中,采用各軌道網(wǎng)格的相互距離,定義各軌道網(wǎng)格健康狀態(tài)的相似程度,利用多維尺度分析算法(Multidimensional Scaling,簡(jiǎn)稱MDS)[15],在較好地保持各軌道網(wǎng)格健康狀態(tài)相似程度的前提下,對(duì)軌道網(wǎng)格多維狀態(tài)評(píng)定指標(biāo)進(jìn)行降維;
3) 軌道網(wǎng)格健康特征聚類(lèi)。利用混合層次 K均值聚類(lèi)算法(Hybrid Hierarchical K-means Clustering,HHKMC),在第2) 步計(jì)算結(jié)果基礎(chǔ)上,對(duì)軌道網(wǎng)格的健康狀態(tài)特征進(jìn)行聚類(lèi)分析。同時(shí),在低維狀態(tài)空間可視化地展現(xiàn)軌道網(wǎng)格狀態(tài)的空間分布,分析原高維狀態(tài)空間各軌道網(wǎng)格狀態(tài)的相似性或差異性。
假設(shè) Δ =[δij] 表示軌道網(wǎng)格在由原多狀態(tài)評(píng)定指標(biāo)構(gòu)成的多維空間內(nèi)的距離矩陣,空間維度用m表示,依據(jù)狀態(tài)評(píng)定指標(biāo)個(gè)數(shù)確定。矩陣Δ中的元素δij表示軌道網(wǎng)格Gi與軌道網(wǎng)格Gj的空間距離,用于表示健康狀態(tài)的相似度,采用歐式距離定義。δij越小表明軌道網(wǎng)格樣本間的健康特征越相似。D = [ dij]表示軌道網(wǎng)格在新生成的低維狀態(tài)空間內(nèi)的距離矩陣,空間維度用n表示,n<m。矩陣D中的元素dij表示軌道網(wǎng)格軌道網(wǎng)格Gi與軌道網(wǎng)格Gj在低維狀態(tài)空間的距離,采用歐式距離定義。dij反映了上述2個(gè)軌道網(wǎng)格在低維空間上健康狀態(tài)的相似度。
多維尺度分析MDS算法的目的是使軌道網(wǎng)格在低維空間內(nèi)的距離 dij盡可能與軌道網(wǎng)格健康相似度δij接近,見(jiàn)式(1)。用軌道網(wǎng)格在低維狀態(tài)空間內(nèi)的距離dij,近似表示各軌道網(wǎng)格健康狀態(tài)的相似度。通過(guò)分析dij即可研究軌道網(wǎng)格健康狀態(tài)間的相似性與差異性。
采用Shepard-Kruskal[16?17]算法,求解上述最優(yōu)化問(wèn)題,其算法流程如下。
Step 1:任意選取低維狀態(tài)空間中軌道網(wǎng)格Gp的初始坐標(biāo),
Step 2:依據(jù)軌道網(wǎng)格在低維狀態(tài)空間坐標(biāo),計(jì)算對(duì)應(yīng)的距離矩陣,k=0。
Step 4:更新軌道網(wǎng)格 Gp在低維空間的坐標(biāo)),見(jiàn)式(2)。其中,n表示軌道網(wǎng)格數(shù),θ表示迭代的步長(zhǎng)。
Step 5:根據(jù)步驟4計(jì)算的結(jié)果,更新軌道網(wǎng)格點(diǎn)的距離矩陣。
Step 6:計(jì)算壓力系數(shù) S,見(jiàn)式(3)。若壓力系數(shù) s小于預(yù)先設(shè)定殘差ε,計(jì)算結(jié)束;否則,返回步驟3。
假設(shè)軌道網(wǎng)格樣本有U個(gè),聚類(lèi)的簇?cái)?shù)有S個(gè)。論文利用第 1.2節(jié) MDS算法輸出的軌道網(wǎng)格 z1,z2,…,zn狀態(tài)數(shù)據(jù),采用混合層次 K均值聚類(lèi)算法HHKMC對(duì)U個(gè)軌道網(wǎng)格樣本進(jìn)行聚類(lèi)分析,劃分為S個(gè)簇,屬于同一簇的軌道網(wǎng)格樣本的健康狀態(tài)具有極大的相似性,屬于不同的簇的軌道網(wǎng)格樣本的健康狀態(tài)差異較大,具體算法如下。
Step 1:在屬性變量z1, z2,…,zn構(gòu)成的多維空間中,U個(gè)軌道網(wǎng)格樣本各自作為一簇(或類(lèi)),即假定 U個(gè)軌道網(wǎng)格的健康特征各不相同。
Step 2:計(jì)算所有軌道網(wǎng)格簇兩兩之間的距離,判斷兩兩軌道網(wǎng)格簇健康特征相似性。采用歐式距離定義軌道網(wǎng)格樣本Gi與Gj之間的距離dij,見(jiàn)式(4)。軌道網(wǎng)格樣本間的距離 dij用于衡量軌道網(wǎng)格樣本間健康特征的相似性。其中,Zi是軌道網(wǎng)格Gi的狀態(tài)屬性變量, Zi= ( zi1,zi2,…,zin)T。Zj是Gj的狀態(tài)屬性變量,。
采用Average Linkage策略定義軌道網(wǎng)格簇Cv與Ce的距離Dve,見(jiàn)式(5),即軌道網(wǎng)格簇間的距離是簇中所有樣本對(duì)之間的平均距離。軌道網(wǎng)格簇間的距離Dve用于衡量軌道網(wǎng)格簇間健康特征的相似性,Dve越小表明軌道網(wǎng)格簇間的健康特征越相似。其中,tv表示軌道網(wǎng)格簇Cv中的樣本個(gè)數(shù)。te表示簇Ce中的樣本個(gè)數(shù)。
Step 3:將距離最短的2個(gè)簇合并為1個(gè)新的簇,即將健康特征最相似的2個(gè)軌道網(wǎng)格簇合為1個(gè)新的簇。
Step 4:重復(fù)步驟2,3,直到將U個(gè)軌道網(wǎng)格分為S個(gè)簇。
Step 6:分別計(jì)算每個(gè)軌道網(wǎng)格樣本Gi與S個(gè)簇中心的距離,將這些軌道網(wǎng)格樣本分別劃歸到距離最小的簇,即將軌道網(wǎng)格樣本分別劃歸到與其健康狀態(tài)最相似的軌道網(wǎng)格簇,如式(7)所示。
Step 7:根據(jù)聚類(lèi)的結(jié)果,更新S個(gè)簇各自的中心,同步驟5。
Step 8:重復(fù)步驟6、7,直到S個(gè)簇中心不發(fā)生改變,得到軌道網(wǎng)格健康特征聚類(lèi)的最終結(jié)果。
蘭新鐵路是東起蘭州西至烏魯木齊的有砟軌道鐵路。本節(jié)以蘭新線上下行K548+000~K985+600里程范圍內(nèi)的1 447個(gè)軌道網(wǎng)格為研究對(duì)象,選用這些軌道網(wǎng)格2016年3月份的10 129條狀態(tài)評(píng)定指標(biāo)數(shù)據(jù),驗(yàn)證論文提出模型 GVM-BDRTC的有效性。作者利用R編程語(yǔ)言[19?20]實(shí)現(xiàn)對(duì)模型GVMBDRTC的構(gòu)建和求解。基于實(shí)際收集到的數(shù)據(jù)情況,本實(shí)例選用7個(gè)狀態(tài)評(píng)定指標(biāo)(見(jiàn)表1)衡量軌道網(wǎng)格狀態(tài),記為。表2為蘭新線2016年3月份部分軌道網(wǎng)格的狀態(tài)評(píng)定指標(biāo)數(shù)據(jù)。
表1 選取的軌道網(wǎng)格狀態(tài)評(píng)定指標(biāo)Table1 Selected condition indexes of tracks grids
表 1中的“軌道質(zhì)量等級(jí) TQR”是依據(jù)軌道TQI及各類(lèi)軌道幾何局部超限病害個(gè)數(shù)確定的,該指標(biāo)目前用于在蘭州鐵路局評(píng)定軌道線路健康狀態(tài)。TQR劃分為4個(gè)狀態(tài)等級(jí),TQR等級(jí)越高,軌道網(wǎng)格質(zhì)量越差,表3是蘭新線TQR的判定依據(jù)。
作者采用模型GVM-BDRTC中的MDS算法,把軌道網(wǎng)格的多狀態(tài)評(píng)定指標(biāo)維度由 7維降到 2維。經(jīng)過(guò)迭代23次后,Stress的改變量小于1×10?6,停止迭代。Stress=0.109 8<0.2,這說(shuō)明模型GVMBDRTC的降維效果良好,新構(gòu)造出的軌道網(wǎng)格 2維狀態(tài)空間,能較好地保持軌道網(wǎng)格在原7維狀態(tài)空間中健康狀態(tài)的相似關(guān)系。降維得到的2維狀態(tài)指標(biāo),沒(méi)有明確的物理含義,采用其計(jì)算出的歐式距離,衡量軌道網(wǎng)格間健康狀態(tài)的相似程度。這些軌道網(wǎng)格新構(gòu)造出的 2維狀態(tài)指標(biāo)值(部分)如表 4所示。
表2 蘭新線2016年3月份軌道網(wǎng)格狀態(tài)評(píng)定指標(biāo)數(shù)據(jù)(部分)Table2 Condition indexes data of tracks grids in the Lanzhou-Xinjiang railway (partial)
表3 蘭新線TQR判定依據(jù)Table3 Standards and definitions for TQR in the Lanxin Railway
表4 蘭新線2016年3月份軌道網(wǎng)格新構(gòu)造出的狀態(tài)評(píng)定指標(biāo)數(shù)據(jù)(部分)Table4 Reconstructed condition indexes data of tracks grids in the Lanzhou-Xinjiang railway (partial)
144 7個(gè)軌道網(wǎng)格在2維狀態(tài)空間的狀態(tài)分布圖,見(jiàn)圖2。圖中的橫坐標(biāo)表示模型GVM-BDRTC新構(gòu)造出的狀態(tài)屬性變量y1,縱坐標(biāo)表示新構(gòu)造出的狀態(tài)屬性變量y2。圖中的圓點(diǎn)表示軌道網(wǎng)格。圖中兩個(gè)軌道網(wǎng)格的空間距離越近,說(shuō)明這2個(gè)軌道網(wǎng)格健康狀態(tài)越類(lèi)似。從圖2可明顯看出大部分軌道網(wǎng)格處于圖中左下角。
作者采用模型GVM-BDRTC中的HHKMC算法,對(duì)1 447個(gè)軌道網(wǎng)格的健康狀態(tài)特征進(jìn)行了聚類(lèi)分析。這些軌道網(wǎng)格健康狀態(tài)特征劃分為了三大類(lèi)(或簇),如圖 3所示。屬于不同簇的軌道網(wǎng)格用不用顏色和形狀的點(diǎn)表示。紅色圓點(diǎn)表示屬于第一簇(用Cluster=1表示)的軌道網(wǎng)格,綠色三角點(diǎn)表示屬于第二簇(用Cluster=2表示)的軌道網(wǎng)格,藍(lán)色方框點(diǎn)表示屬于第三簇(用 Cluster=3表示)的軌道網(wǎng)格。通過(guò)分析圖3可知,這些軌道網(wǎng)格分布在圖中的3個(gè)區(qū)域:1) Cluster=1的軌道網(wǎng)格處于圖中左下角,其y1,y2值較小;2) Cluster=2的軌道網(wǎng)格處于圖中右上角,其 y1的值較小、y2的值較大;3) Cluster=3的軌道網(wǎng)格處于圖中右下角,其y1的值較大、y2的值較小。
圖2 軌道網(wǎng)格2維狀態(tài)空間分布圖Fig.2 2-dimensional spatial distribution map for track grids condition
圖3 軌道網(wǎng)格健康狀態(tài)聚類(lèi)結(jié)果圖Fig.3 Clustering map for health features of track grids
作者將模型 GVM-BDRTC分析結(jié)果與軌道質(zhì)量等級(jí)TQR進(jìn)行了疊合分析,見(jiàn)圖4。屬于不同簇的軌道網(wǎng)格用不同的顏色表示,紅色表示Cluster=1的軌道網(wǎng)格,綠色表示 Cluster=2軌道網(wǎng)格,藍(lán)色表示Cluster=3的軌道網(wǎng)格。不同等級(jí)的TQR用不同的數(shù)字表示,TQR=1的軌道網(wǎng)格用“1”表示,TQR=2的軌道網(wǎng)格用“2”表示,TQR=3的軌道網(wǎng)格用“3”表示,TQR=4的軌道網(wǎng)格用“4”表示。
從圖4可分析出,1) Cluster=3的軌道網(wǎng)格,主要對(duì)應(yīng) TQR=4、TQR=3的軌道網(wǎng)格,這些軌道網(wǎng)格的健康狀態(tài)較差;2) Cluster=1軌道網(wǎng)格,主要對(duì)應(yīng) TQR=1的軌道網(wǎng)格,這些軌道網(wǎng)格的健康狀態(tài)較好;3) Cluster=2的網(wǎng)格,主要對(duì)應(yīng)TQR=2,TQR=1的軌道網(wǎng)格。由此可知,軌道網(wǎng)格的模型 GVMBDRTC分析結(jié)果與相應(yīng)軌道質(zhì)量等級(jí)TQR評(píng)定結(jié)果基本一致,這反映了模型 GVM-BDRTC的有效性。但上述分析結(jié)果也存在一定的差異性,部分健康狀態(tài)相似的軌道網(wǎng)格卻對(duì)應(yīng)不同的 TQR值,這說(shuō)明了模型GVM-BDRTC分析結(jié)果與TQR判定方法相比更科學(xué)。
圖4 模型GVM-BDRTC分析結(jié)果與TQR疊合分析Fig.4 Overlaying results of GVM-BDRTC and TQR
綜上分析,模型 GVM-BDRTC能實(shí)現(xiàn)對(duì)狀態(tài)差異較大的軌道網(wǎng)格進(jìn)行不同程度的區(qū)分,對(duì)狀態(tài)類(lèi)似的軌道網(wǎng)格進(jìn)行很好的聚類(lèi)分辨,同時(shí)對(duì)軌道網(wǎng)格健康狀態(tài)分布進(jìn)行直觀清晰的展現(xiàn)。
1) 基于鐵路基礎(chǔ)設(shè)施設(shè)備網(wǎng)格化管理理論,將鐵路線路劃分為連續(xù)的200 m的軌道網(wǎng)格,以軌道網(wǎng)格為基本單元,提出了基于網(wǎng)格的鐵路軌道狀態(tài)大數(shù)據(jù)可視化模型GVM-BDRTC,直觀展現(xiàn)了各軌道網(wǎng)格健康狀態(tài)的相似性或差異性,提升了管理者對(duì)數(shù)據(jù)的分析挖掘能力,提高了管理者對(duì)軌道網(wǎng)格健康狀態(tài)分布的整體把握。作者采用蘭新線的實(shí)際數(shù)據(jù)驗(yàn)證了模型 GVM-BDRTC的有效性,并將模型的計(jì)算結(jié)果與蘭州鐵路局現(xiàn)場(chǎng)常用的指標(biāo) TQR進(jìn)行了疊合分析。
2) 如何將本文提出的可視化模型與 GIS技術(shù)相結(jié)合,實(shí)現(xiàn)更豐富的軌道狀態(tài)數(shù)據(jù)可視化效果,是下一步研究的重點(diǎn)。