李鑫,史天運,常寶,馬小寧,劉軍
(1.中國鐵道科學研究院,研究生部,北京100081;2.中國鐵道科學研究院集團有限公司,北京100081;3.中國鐵道科學研究院集團有限公司,電子計算技術研究所,北京100081)
機車是鐵路客貨運輸?shù)闹匾a工具[1],能否全面、準確地掌握機車的質量狀態(tài)將直接影響鐵路運輸生產效率和安全管理水平。隨著各類監(jiān)測檢測設備和信息管理系統(tǒng)的不斷投入,鐵路已積累了海量的機車數(shù)據(jù)[2]。如何將這些數(shù)據(jù)轉化為形象直觀,易于生產人員理解和使用的日常生產知識,發(fā)揮數(shù)據(jù)的潛在價值,已成為機務大數(shù)據(jù)應用的重要課題。
機車設備畫像作為鐵路機務安全大數(shù)據(jù)應用的重要研究內容,致力于將分散、龐雜、難懂的數(shù)據(jù)轉變?yōu)橐撰@得、易理解、易分析的標簽體系,從而客觀、精準、形象地刻畫出機車質量及安全狀態(tài)。借助機車標簽體系開展機車事故故障精準分析和診斷,有助于防止“設備不穩(wěn)定狀態(tài)”導致的事故故障,提升機車安全預警能力。在此基礎上,通過對機車檢修方案實施個性化設計,將支撐機車從“計劃檢修”向“差異化檢修”轉變,提高機車運輸生產效率。同時,機車標簽體系可以輔助日常安全管理決策,提高機車質量及安全管控水平。
目前,機車設備畫像研究尚處于起步階段,在實際應用中仍面臨一些困難。一是大量數(shù)據(jù)仍堆積在各自的信息系統(tǒng)中,數(shù)據(jù)的深層價值利用不足;二是大量數(shù)據(jù)需要結合專業(yè)的數(shù)據(jù)處理知識才能被深入理解,無法被生產管理人員充分使用;三是數(shù)據(jù)挖掘算法的應用較少,尚未構建可行的機車標簽體系,無法形成真實完整的機車畫像。
因此,本文運用畫像及標簽技術,提出基于設備畫像的機車標簽體系技術框架,形成完整的機車標簽體系,并運用改進的K-means聚類算法等標簽獲取手段,在某鐵路局開展實際應用研究,取得了良好的應用效果。
畫像研究是通過“打標簽”的形式[3],將研究對象的基本屬性、行為特征等信息抽象成一個標簽化的模型[4],易于人們理解且方便計算機處理分析。
設備畫像是借鑒用戶畫像[5]的概念,采集目標設備的基本信息和在運行過程中留下的各類數(shù)據(jù),并將其轉換為畫像標簽。通過構造精準、細粒度和結構化的標簽體系[6],形成設備的抽象畫像模型,進而利用數(shù)據(jù)挖掘等方法,對設備狀態(tài)進行有針對性的分析和研究。
鐵路機車設備畫像是設備畫像在鐵路機務專業(yè)的具體應用,是將機車運用、整備、檢修、專項整治等多個維度的海量數(shù)據(jù),按照一定的結構精煉成機車的畫像標簽,使機車數(shù)據(jù)表述更加規(guī)范化、形象化和可讀化,從而對機車的健康狀態(tài)實現(xiàn)精準、科學、直觀地把控,降低機車數(shù)據(jù)的分析難度,推動大數(shù)據(jù)技術與機車運輸生產管理的深入結合。
標簽是基于人為定義的規(guī)則,結合實際應用而高度精煉的簡潔、具體、形象化的特征標識[7]。標簽具有“人為定義”“語義化”“短文本”這3 個特點[8],即通過人為的概括或定義,以唯一性的語義說明對應標簽的具體含義。設備的標簽與設備畫像之間的關系如圖1所示。
圖1 設備標簽與設備畫像關系結構標簽評價Fig.1 Relationship between equipment labels and equipment portrait
設備標簽可分為“基本屬性類標簽”“動態(tài)行為類標簽”“綜合評價類標簽”這3 類[9]?;緦傩灶悩撕灻枋鲈O備固有的、靜態(tài)的屬性,取值通常比較容易。動態(tài)行為類標簽反映設備的運轉狀態(tài)、養(yǎng)護情況、事故故障等動態(tài)信息,體現(xiàn)設備的實時狀態(tài)。綜合評價類標簽則是根據(jù)設備的生產特點及制度規(guī)范總結歸納的具有評價性質的信息。
機車標簽體系的技術架構以單臺機車為研究主體,由“數(shù)據(jù)采集層”“標簽庫層”“標簽應用層”構成,如圖2所示。
圖2 機車標簽體系技術架構Fig.2 Technical framework of locomotive label system
技術架構以數(shù)據(jù)匯集為基礎,以標簽生成、優(yōu)化及管理為核心,以標簽應用為目標,利用大數(shù)據(jù)挖掘算法,整合機車各類生產數(shù)據(jù),開展機車標簽體系的全生命周期管理,滿足機務專業(yè)相關的業(yè)務需求。
(1)數(shù)據(jù)采集層
數(shù)據(jù)采集層是以系統(tǒng)對接,數(shù)據(jù)錄入,批量導入等方式,采集機車相關的各類數(shù)據(jù),為標簽形成和優(yōu)化提供基礎數(shù)據(jù)來源?;九_賬信息以靜態(tài)信息為主,數(shù)據(jù)內容保持時間較長,數(shù)據(jù)采集比較容易。運用信息、整備信息、檢修信息、專項整治信息和事故故障信息等數(shù)據(jù)為動態(tài)生產信息,基本涵蓋了機務系統(tǒng)日常運輸生產中的所有環(huán)節(jié),這些數(shù)據(jù)大多存儲于相應的信息管理系統(tǒng)中,可以采用系統(tǒng)對接、人工轉儲等方式獲取。安全分析信息和質量評價信息屬于綜合評價類數(shù)據(jù),主要依據(jù)各項規(guī)章及行業(yè)專家意見獲得??珙I域信息則是與機車有關的其他專業(yè)領域的數(shù)據(jù),如天氣信息、地理信息、線路信息、供電信息等。
(2)標簽庫層
標簽庫層是利用數(shù)據(jù)采集層所提供的各類數(shù)據(jù),按照標簽體系結構,生成能夠刻畫機車特征的各個標簽。標簽庫層包含“標簽管理”“標簽生成”“標簽分析”“標簽優(yōu)化”4個子層。
標簽管理子層通過設計、審核、展示等多個標簽管理環(huán)節(jié),全過程服務于標簽的生成、存儲、評估、優(yōu)化和調整。標簽生成子層通過數(shù)據(jù)提取、統(tǒng)計和挖掘等手段,利用數(shù)據(jù)采集層提供的各類數(shù)據(jù),形成能夠反映機車真實狀態(tài)的特征標識,構建機車設備畫像的3 級標簽體系。標簽分析子層是相關數(shù)據(jù)挖掘算法的集成,為標簽生成、優(yōu)化和分析過程等提供算法支持。標簽優(yōu)化子層是隨著數(shù)據(jù)的積累、業(yè)務的調整和生產制度的革新,通過與標簽管理子層的實時聯(lián)動,運用標簽分析子層提供的相關分析算法,對標簽體系進行優(yōu)化和升級。
(3)標簽應用層
標簽應用層利用機車標簽體系開展機車畫像分析及應用。首先,通過單臺機車畫像的實現(xiàn),全面、客觀、形象地刻畫機車的運維特征和健康狀態(tài)。進而,按照機車類型、所屬站段、擔當線路等,實現(xiàn)機車類群的整體質量把控。此外,還可以對機破、運用故障、碎修、5 項專檢等關鍵標簽進行挖掘分析,以滿足故障處理、整備排班、更新改造等業(yè)務需要。
在有效地把握機車健康狀態(tài)的基礎上,還可以有針對性地調整機車的整備及檢修計劃,為機車由計劃性檢修向差異化檢修轉變,最終為實現(xiàn)狀態(tài)修提供必要的數(shù)據(jù)支撐和參考依據(jù)。同時,易于理解的畫像標簽及相關分析還可以支撐機車運輸組織管理和安全輔助決策等需求,實現(xiàn)機車數(shù)據(jù)應用與生產管理之間的良性閉環(huán)。
機車標簽體系以單臺機車為基本單元,按照3級標簽體系結構,綜合利用機車各類生產數(shù)據(jù),產生完整的機車畫像標簽。
(1)一級標簽
機車的一級標簽體現(xiàn)機車設備畫像的基本刻畫維度,是機車的共有特征,數(shù)量固定,形式統(tǒng)一,可以梳理為基本信息、運用質量、整備質量、檢修質量和質量評價等維度,如表1所示。
表1 機車標簽體系的一級標簽Table 1 First class labels of locomotive label system
(2)二級標簽
機車的二級標簽是對一級標簽的細化,體現(xiàn)機車標簽體系的管理及分析維度,數(shù)量及形式基本固定,涵蓋基本特征、運用特征、運行故障、整備重點、檢修重點、專項整治、運維停時、質量評價、安全分析等多個方面。機車標簽體系的二級標簽如表2所示。
表2 機車標簽體系的二級標簽詳情Table 2 Second class labels of locomotive label system
(3)三級標簽
三級標簽是反映機車具體狀態(tài)的個性化特征,是對二級標簽具體內容的明確,兼具使用價值和統(tǒng)計分析價值,不同機車的三級標簽具體內容不盡相同。
機車的三級標簽主要有以下幾種獲取方式:
一是直接獲取。這類標簽主要用來描述機車的固有屬性和基本特征,不需要過多的計算和處理便可以從數(shù)據(jù)庫中直接提取,如配屬時間、生產廠家、擔當線別等。
二是統(tǒng)計計算。這類標簽通過簡單的數(shù)量統(tǒng)計和邏輯運算即可獲得,如故障類別及對應數(shù)量等,多存在于動態(tài)行為類標簽中,體現(xiàn)機車質量的實時狀態(tài)。
三是挖掘分析。這類標簽不能通過簡單的計算獲得,需要運用聚類、分類、預測、關聯(lián)分析等多種數(shù)據(jù)挖掘算法,綜合分析機車產生的各類數(shù)據(jù),從而形成能夠抽象描述機車某一維度的標簽信息。其中,聚類分析方法應用較多,在尚無法獲知標簽具體內容的類別劃分時,可以通過聚類算法挖掘分析機車相應數(shù)據(jù),得到準確的標簽類別。
如上所述,機車的3級標簽大多通過聚類方法獲得,而經典的K-means聚類算法存在聚類效果過于依賴初始化中心的問題。通過改進初始質心的選取方式,可以改善聚類效果,提高聚類效率。
K-means 算法是基于距離的聚類算法[10],采用距離作為相似性的評價指標,以最小化誤差函數(shù)為基礎將數(shù)據(jù)劃分為預先設定的K個類別,每個類別由距離靠近的對象組成,算法把得到緊湊且獨立的簇作為最終目標。K-means算法的基本流程如下:
Step 1 對于共有n個樣本的數(shù)據(jù)集U={x1,x2,…,xn} ,隨機選取K個樣本作為初始的聚類質心,表示為μi,其中,K≤n,i≤n,聚類類別表示為C={C1,C2,…,Ck} 。
Step 2 分別計算數(shù)據(jù)集中的每個樣本xi距離K個聚類質心的距離,并將該樣本劃分到距離最小的聚類中心所對應的類中。
Step 3 當遍歷所有樣本點后,重新計算每個類別的聚類質心,作為下一次聚類過程中所在類別的新的中心點,i≤K。
Step 4 重復Step 2 和Step 3,直到各個類別的聚類質心不再變化。
對于歐式空間的樣本數(shù)據(jù),以平方誤差和eSSE作為聚類的目標函數(shù),并作為衡量不同聚類效果的指標[11],表示為樣本點x到所在聚類類別Ci的聚類質心μi間距離的平方和。當eSSE值越小,表明聚類類別內部的樣本越相似,最優(yōu)的聚類結果應使得eSSE達到最小值。
K-means 算法具有快速、高效的計算優(yōu)點,但是,其聚類效果容易受到初始質心的影響陷入局部最優(yōu)??梢酝ㄟ^優(yōu)化初始質心解決這一問題。
為避免K-means 算法的聚類效果陷入局部最優(yōu),選取初始質心時,質心間的距離要盡可能的遠。質心優(yōu)化選取的基本思路為:
Step 1 從數(shù)據(jù)集U={x1,x2,…,xn} 中隨機選取一個樣本xi作為第1個聚類質心μ1。
Step 2 計算每個樣本與當前選定的聚類質心的最短距離D(x),并作為樣本被選取為下一個聚類質心的權重值。某個樣本xi的D(xi)值越大,表示樣本xi被選取作為下一個聚類中心的概率越大;選擇D(xi)最大的樣本點成為下一個聚類質心。
Step 3 重復Step 2直到選擇出K個聚類質心。
當選取出K個初始質心后,則轉入K-means算法中Step 2~Step 3。
盡可能最大化地增大初始質心點之間的距離,能顯著地改善最終結果的誤差。雖然選取初始質心時會多花費一些時間,卻能提高聚類過程的收斂速度和算法的穩(wěn)定性。
采用經典的鳶尾花卉數(shù)據(jù)集(Iris Dataset),分析比較上述兩種算法的聚類效果。K-means 算法的聚類效果如表3所示,改進初始質心選取方式后的聚類效果如表4所示。
表3 K-means算法對Iris數(shù)據(jù)集的聚類效果Table 3 Clustering effect of K-means algorithm on Iris data set
表4 改進的聚類算法對Iris數(shù)據(jù)集的聚類效果Table 4 Clustering effect of improved K-means algorithm on Iris data set
通過比較可知,改進初始質心的選取方式,聚類的平均準確率由62.67%提升到89.33%,準確率和穩(wěn)定性均有較大幅度提升。
基于機車設備畫像標簽體系和標簽獲取方式,利用某鐵路局2019年全年積累的機車生產數(shù)據(jù),產生完整的機車畫像3級標簽。
以該鐵路局2019年1月-12月共計59112條“機車整備時長”數(shù)據(jù)為例,應用K-means改進算法,對機車“整備質量”(一級標簽)下的“整備時長”(二級標簽)進行聚類分析,形成相應的3級標簽類別。
在進行聚類分析時,首先需要確定聚類類別K的值。在尚不明確數(shù)據(jù)分布的情況下,往往較難確定某個3級標簽的實際類別數(shù)。因此,需要根據(jù)業(yè)務實際和歷史數(shù)據(jù),比較不同K值下的聚類效果,選取適合的K值。
聚類樣本總的eSSE值會隨著K值的增大而逐漸減小。當K的取值偏小時,eSSE值會隨著K的增大而快速降低;當K的取值較大時,eSSE值會隨著K的增大轉為緩慢下降的趨勢?!罢麄鋾r長”的eSSE值與K值的關系如圖3所示。
圖3 某鐵路局機車整備時長eSSE 值與K 值的關系Fig.3 Relationship between eSSE and K of clustering of locomotive maintenance time in a railway bureau
由圖3可知,當K=4 時,eSSE值開始變?yōu)榫徛陆第厔?,因此,可以根?jù)業(yè)務需要,將機車“整備時長”下分為4 個3 級標簽。具體聚類結果如表5所示。
表5 某鐵路局機車整備時長在K=4 時的聚類結果Table 5 Clustering result of locomotive maintenance time of a railway bureau when K=4
根據(jù)聚類結果,同時結合生產實際,可將標簽1 記為“整備時長正常”,表示整備作業(yè)時間符合作業(yè)規(guī)范要求;標簽2 的數(shù)據(jù)量占比59.45%,可將這一特征記為“整備時長略長”,表示機車的整備時間基本符合作業(yè)需要,稍有耗時;標簽3則記為“整備時長較長”,表示整備作業(yè)時間已超出正常作業(yè)的時間規(guī)范;標簽4 按照聚類情況記為“整備時長過長”,表示整備作業(yè)時間過長,已影響到機車整備效率。
按照此方法,對全局的機車在“機車日走行”“機破件數(shù)”“碎修件數(shù)”“整備時長”“性能試驗問題件數(shù)”等多個標簽維度進行聚類分析,并對相應的3級標簽賦予具體內容。
隨機選擇該局的1 臺機車,通過直接提取、統(tǒng)計分類、聚類分析等方法,產生該臺機車具體的3級標簽,形成完整的機車設備畫像標簽體系,如圖4所示,其中出于數(shù)據(jù)安全考慮已對部分數(shù)據(jù)做脫敏處理。
圖4 某鐵路局某臺機車的標簽體系Fig.4 Label cluster of a locomotive in a railway bureau
結合該局的實際生產管理情況,以月度為時間單位,對機車的3 級標簽進行更新,得到機車不同月份的畫像標簽。只需將更新數(shù)據(jù)與不同類別的數(shù)據(jù)區(qū)間進行比較,得到相應的新的3級標簽。此外,為保證聚類結果的準確有效,還應該結合行業(yè)專家意見、業(yè)務應用需要、數(shù)據(jù)積累情況、服務器處理能力等因素,及時調整機車3級標簽的類別劃分和含義描述,實現(xiàn)機車標簽體系的全生命周期管理和動態(tài)優(yōu)化。
本文針對鐵路機務專業(yè)在大數(shù)據(jù)應用中的現(xiàn)實需要,提出運用畫像及標簽技術,構造客觀、全面的機車標簽體系,通過機車設備畫像實現(xiàn)精準的質量分析及高效的安全管控。運用機車設備畫像的概念及與標簽的理論關系,針對機車質量管理、差異化檢修、安全輔助決策等應用場景,設計機車設備畫像標簽體系技術架構,闡述技術架構由數(shù)據(jù)采集到標簽生成再到標簽應用的內在邏輯和流程,以及標簽體系的管理、分析及優(yōu)化方式;具體介紹機車標簽體系的3 級結構、標簽類型、標簽內容和獲取方法。特別針對聚類標簽的獲取方式,通過改進K-means算法初始質心的選取方法,將聚類的準確度由62.67%提升到89.33%。
在某鐵路局開展機車設備畫像理論的實際應用,獲得多個標簽維度下具體的3 級標簽內容,形成完整的機車標簽體系,實現(xiàn)為機車精準畫像的目的,為開展機車類群畫像、指標分析、運維優(yōu)化和安全管控打下基礎。