王 超
(中國鐵道科學(xué)研究院通信信號研究所,100081,北京//助理研究員)
列車仿真技術(shù)中基于屬性矩陣圖的故障分析決策樹算法
王 超
(中國鐵道科學(xué)研究院通信信號研究所,100081,北京//助理研究員)
根據(jù)數(shù)據(jù)挖掘技術(shù)分析列車運行大數(shù)據(jù)的特點,提出了基于屬性矩陣圖的決策樹算法。結(jié)合某列車仿真數(shù)據(jù),詳細(xì)闡述了計算屬性度量、構(gòu)建屬性矩陣圖模型及構(gòu)造決策樹的具體過程。由該決策樹算法的故障分析結(jié)果可見,基于屬性矩陣圖決策樹算法能準(zhǔn)確地對故障問題進(jìn)行分類歸納,為故障預(yù)測提供可靠依據(jù)。
屬性矩陣圖;決策樹算法;列車仿真;故障分析
列車運行時,其車載設(shè)備每時每刻都要產(chǎn)生大量的數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)處理方法是先由車載設(shè)備存儲日記,再由人工對文本格式的日志進(jìn)行下載,這即便耗費了大量的時間和精力,也只是分析了部分?jǐn)?shù)據(jù)。因此有必要引入數(shù)據(jù)挖掘技術(shù),通過決策樹模型在線分析處理列車運行數(shù)據(jù),發(fā)現(xiàn)其中的關(guān)聯(lián)規(guī)則。這不僅能盡早發(fā)現(xiàn)列車存在的故障隱患,提高列車的運行效率,也能節(jié)省人工核對數(shù)據(jù)的成本,具有非常高的現(xiàn)實意義。為此,提出了基于列車仿真技術(shù)的數(shù)據(jù)挖掘系統(tǒng)方案。
列車仿真系統(tǒng)的工作原理如圖1所示。
圖1 列車仿真系統(tǒng)原理圖
由圖1可見,數(shù)據(jù)挖掘系統(tǒng)是列車仿真系統(tǒng)的核心部分之一,主要負(fù)責(zé)處理來自于其他子系統(tǒng)的數(shù)據(jù)信息。通過反饋調(diào)整信息,并傳輸給各個子系統(tǒng)模塊,可有效地減少故障發(fā)生的概率,提高列車運行的效率。數(shù)據(jù)挖掘系統(tǒng)解決了傳統(tǒng)應(yīng)用中對列車日志分析存在的重復(fù)耗時低效的問題,是一種自適應(yīng)的智能學(xué)習(xí)系統(tǒng)。數(shù)據(jù)挖掘系統(tǒng)采用的決策樹算法決定了其處理能力的強(qiáng)弱。
ID3算法是經(jīng)典的決策樹算法,其核心是采用信息熵和信息增益的方法來劃分最佳決策樹分裂點。該算法也存在著問題:首先,ID3算法需要通過重復(fù)遍歷數(shù)據(jù)集來計算每個屬性的信息增益,故當(dāng)數(shù)據(jù)集很大時,計算耗時會呈幾何級數(shù)量增長;其次,ID3算法不能對決策樹進(jìn)行動態(tài)更新,處理實時數(shù)據(jù)時易造成預(yù)測信息增益的偏差;最后,ID3算法只能用來處理屬性元素為離散變量的問題。
本文提出一種基于屬性矩陣圖決策樹算法,改進(jìn)了ID3算法存在的問題。利用屬性矩陣圖決策樹算法能找出故障模式的規(guī)律,可發(fā)現(xiàn)列車運行過程中存在的隱患,能有效提高列車運行的安全性;通過動態(tài)構(gòu)造決策樹算法,可實時處理列車運行的數(shù)據(jù),能對可能遇到的故障模式進(jìn)行預(yù)判。
2.2.1 構(gòu)建屬性矩陣圖
對屬性節(jié)點的劃分決定了數(shù)據(jù)集的分裂方式。故基于屬性矩陣圖的決策樹算法只有實現(xiàn)對屬性節(jié)點合理劃分,才能對數(shù)據(jù)規(guī)則進(jìn)行挖掘和預(yù)測。
劃分屬性節(jié)點時,以屬性度量來表示給予每個屬性的評價,只有獲得最好屬性度量的屬性才可作為分裂屬性。根據(jù)信息論,期望信息越小,信息增益就越大,相應(yīng)的分裂屬性對確定整個系統(tǒng)劃分的作用就越大,所以采用熵值和信息增益來進(jìn)行屬性度量。此處的熵值為整個數(shù)據(jù)集中屬性的不確定性。令x表示對數(shù)據(jù)集劃分的屬性不確定性集合,則x的熵值定義為
對于第i類屬性xi有:
式中:
E(x|x)i——屬性對整個系統(tǒng)的條件熵值;
f(x)——數(shù)據(jù)集中的平均信息量;
則屬性xi對整個數(shù)據(jù)集的信息增益為:
g(xi)=E(x)-E(x|xi),i∈(1,2,…,m)
現(xiàn)截取部分列車仿真平臺處理的車載數(shù)據(jù),如表1所示。決策樹算法的核心問題就是分析故障數(shù)據(jù),發(fā)現(xiàn)其中的規(guī)律,并對故障進(jìn)行分析和預(yù)測。
由表1,經(jīng)計算可得E(x)=0.880。表1中列車保護(hù)速度及列車實際速度為連續(xù)型數(shù)據(jù),其他均為離散型數(shù)據(jù)。
由表 1,列車 ID(標(biāo)識)屬性 Xi按 0x01、0x02、0x03 分別取 x1、x2、x3,則相應(yīng)的條件熵值為:E(x1)=0.845,E(x2)=0.811,E(x3)=0.971;故有 E(x1|x2)=0.860。列車ID屬性對數(shù)據(jù)集的信息增益 g(列車ID)=E(x)-E(x|xi)=0.020。
同理,可分別算出其他離散型數(shù)據(jù)屬性(控制、駕駛、信標(biāo)ID、SRP及BTM)的信息增益分別為:g(控制)=0.000 5;g(駕駛)=0.030 0;g(信標(biāo) ID)=0.019 5;g(SRP)=0.016 0;g(BTM)=0.001 8。
列車運行速度為連續(xù)型數(shù)據(jù)。本文采用一種基于速度窗口的方法來計算連續(xù)型數(shù)據(jù)屬性的信息增益。根據(jù)相關(guān)行業(yè)規(guī)范,根據(jù)不同的列車運行等級和運行模式,可將列車的運行速度劃分成不同等級。列車在不同運行速度等級下發(fā)生的故障往往具有類型一致性。根據(jù)這種特性,把列車的保護(hù)速度值和實際速度值分為3個速度窗口(速度單位為km/h)。在相應(yīng)的速度窗口內(nèi),速度具有相同的屬性類別。由此計算可得 g(保護(hù)速度)=0.016 5 km/h,g(實際速度)=0.040 0 km/h。
表1 部分列車車載設(shè)備仿真數(shù)據(jù)
根據(jù)上述計算結(jié)果可見,列車實際速度的信息增益最大,因此,選取實際速度作為數(shù)據(jù)集的分裂點。為便于計算屬性的信息增益,需建立屬性矩陣圖模型以快速確定屬性類別的狀態(tài)和數(shù)量。根據(jù)表1數(shù)據(jù),以列車實際速度作為數(shù)據(jù)集分裂點,構(gòu)建屬性矩陣圖模型如圖2所示。
根據(jù)屬性矩陣的對應(yīng)關(guān)系,可繼續(xù)計算下層節(jié)點分裂屬性的信息增益。現(xiàn)以列車實際速度在[0,25]區(qū)間的數(shù)據(jù)集為例進(jìn)行計算。根據(jù)動態(tài)信息圖,可以快速計算得出列車實際速度∈[0,25]數(shù)據(jù)集的熵值 E(實際速度[0,25])=0.720。
通過快速定位屬性矩陣圖中元素的統(tǒng)計值,可計算出在[0,25]內(nèi)各屬性的條件熵值為E(0x1a)=0.65,E(0x1b)=0.91,E(信標(biāo) ID)=0.663,信標(biāo) ID 的信息增益 g(信標(biāo) ID)=E(實際速度∈[0,25])-E(信標(biāo) ID)=0.057;
以此類推,其余屬性的信息增益分別為:g(駕駛等級)=0.020,g(信標(biāo) ID)=0.057,g(列車 ID)=0.071,g(控制等級)=0;所以列車實際速度[0,25]的分裂屬性為列車ID。
圖2 根據(jù)案例數(shù)據(jù)建立的屬性矩陣圖
2.2.2 構(gòu)造決策樹,進(jìn)行故障分析
根據(jù)此方法依次計算信息增益判斷新的分裂點,構(gòu)造決策樹如圖3所示。
圖3 根據(jù)仿真數(shù)據(jù)構(gòu)建的決策樹
根據(jù)數(shù)據(jù)集構(gòu)造的決策樹,可以得到4類故障分析結(jié)果:
(1)列車實際速度在[0,25]的范圍內(nèi),駕駛等級為PM模式,SRP未激活。
(2)列車實際速度在[0,25]的范圍內(nèi),駕駛等級為AM模式。
(3)列車實際速度在(25,60]的范圍內(nèi),列車保護(hù)速度為25。
(4)列車實際速度在(60,80]的范圍內(nèi),信標(biāo)ID為0x1c。
可見,基于屬性矩陣圖決策樹算法能準(zhǔn)確地對故障問題進(jìn)行分類歸納,為故障預(yù)測提供可靠依據(jù)。
數(shù)據(jù)挖掘技術(shù)現(xiàn)已廣泛應(yīng)用在多個領(lǐng)域。城市軌道交通行業(yè)也在探索數(shù)據(jù)挖掘技術(shù)的應(yīng)用方向。本文首次以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),針對城市軌道交通列車運行中的大數(shù)據(jù)問題,提出了屬性矩陣圖決策樹算法,能準(zhǔn)確地對故障問題進(jìn)行分類歸納,為故障預(yù)測提供可靠依據(jù)。
[1] 王威.基于決策樹的數(shù)據(jù)挖掘算法優(yōu)化研究[J].現(xiàn)代計算機(jī),2012,(19):11.
[2] 王大玲,于戈,王國仁.基于概念層次樹的數(shù)據(jù)挖掘算法的研究與實現(xiàn)[J].計算機(jī)科學(xué),2001,28(6):88.
[3] 胡笑蕾,胡華平,宋世杰.數(shù)據(jù)挖掘算法在入侵檢測系統(tǒng)中的應(yīng)用[J].計算機(jī)應(yīng)用研究,2004,21(7):88.
[4] 李良俊,張斌,楊明.一種基于模糊神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法[J].計算機(jī)工程,2007,33(12):63.
[5] 孫亞,錢洪波,葉亮.數(shù)據(jù)挖掘算法在交通狀態(tài)量化及識別的應(yīng)用[J].計算機(jī)應(yīng)用,2008,28(3):738.
Application of Decision Tree Optimization Algorithm in Train Simulation Technology
WANG Chao
The data mining technology is used to analyze the large data generated during train operation,the decision tree algorithm isproposed based on attribute matrix graph.Combined with the simulation date of a train,the computing attribute matrix and the structure design of the decision tree optimization algorithm are elaborated.According to fault analysis result of the decision tree algorithm,this algorithm could classify the faults accurately and provide reliable basis for the prediction of metro faults.
attribute matrix graph;decision tree algorithm;train simulation;fault analysis
Author′saddress Signal& Communication Research Institute, ChinaAcademy ofRailway Sciences,100081,Beijing,China
N945.25;U391.99∶U27
10.16037/j.1007-869x.2017.12.025
2016-05-25)