喻冰春
(中國鐵道科學(xué)研究院集團(tuán)有限公司 電子計(jì)算技術(shù)研究所,北京 100081)
大數(shù)據(jù)是新資源、新技術(shù)、新理念的混合體[1]。從資源角度,大數(shù)據(jù)已經(jīng)成為了一種基礎(chǔ)性戰(zhàn)略資源;從技術(shù)角度,大數(shù)據(jù)代表了新一代數(shù)據(jù)管理與分析技術(shù);從理念角度,大數(shù)據(jù)采用數(shù)據(jù)驅(qū)動和數(shù)據(jù)閉環(huán)的理念,利用數(shù)據(jù)進(jìn)行決策、實(shí)現(xiàn)自我升級[2-3]。
大數(shù)據(jù)技術(shù)在鐵路的應(yīng)用,有利于促進(jìn)數(shù)據(jù)資源共享,以數(shù)據(jù)驅(qū)動業(yè)務(wù)創(chuàng)新,更有助于保障鐵路行車安全,增加鐵路企業(yè)的經(jīng)濟(jì)效益。近年來的相關(guān)鐵路大數(shù)據(jù)研究已經(jīng)提出了鐵路大數(shù)據(jù)應(yīng)用頂層設(shè)計(jì)[4]、鐵路大數(shù)據(jù)平臺總體方案及關(guān)鍵技術(shù)[5]和鐵路大數(shù)據(jù)應(yīng)用體系架構(gòu)[6]。本文旨在結(jié)合鐵路貨車數(shù)據(jù)資源情況,開展鐵路貨車大數(shù)據(jù)平臺總體設(shè)計(jì),為鐵路貨車大數(shù)據(jù)平臺的搭建提供設(shè)計(jì)依據(jù),推進(jìn)大數(shù)據(jù)技術(shù)在鐵路貨車領(lǐng)域的應(yīng)用。
鐵路貨車大數(shù)據(jù)包括了貨車及關(guān)鍵零部件從設(shè)計(jì)、制造、運(yùn)用、檢修到報(bào)廢的全生命周期各個(gè)環(huán)節(jié)所產(chǎn)生的各類數(shù)據(jù)。鐵路貨車大數(shù)據(jù)的數(shù)據(jù)來源主要有3類。
(1)鐵路貨車運(yùn)用維修數(shù)據(jù)
運(yùn)用維修數(shù)據(jù)主要來源于鐵路貨車技術(shù)管理信息系統(tǒng),數(shù)據(jù)資源分別存放在中國國家鐵路集團(tuán)有限公司(簡稱:國鐵集團(tuán))、鐵路局集團(tuán)公司(簡稱:鐵路局)、車輛段、作業(yè)場以及貨車造修工廠中,各級系統(tǒng)存儲了系統(tǒng)應(yīng)用至今的全部數(shù)據(jù),每日新增數(shù)據(jù)量約2 G。
(2)鐵路貨車運(yùn)行安全監(jiān)控?cái)?shù)據(jù)
安全監(jiān)控?cái)?shù)據(jù)主要來源于鐵路車輛運(yùn)行安全監(jiān)控系統(tǒng)[7],數(shù)據(jù)資源存放在國鐵集團(tuán)、鐵路局、車輛段中,系統(tǒng)利用紅外軸溫探測、力學(xué)檢測、高速攝像、聲學(xué)診斷等軌邊安全監(jiān)測設(shè)備對運(yùn)行中的貨車車輛進(jìn)行動態(tài)監(jiān)測與管理,每日監(jiān)控車輛約1 000余萬輛次,每日新增數(shù)據(jù)量約120 G,目前系統(tǒng)存儲了近3個(gè)月的圖像、實(shí)時(shí)車載數(shù)據(jù)和近2年的非圖像數(shù)據(jù)。
(3)相關(guān)外部數(shù)據(jù)
相關(guān)外部數(shù)據(jù)主要來源于與鐵路貨車運(yùn)用維修管理相關(guān)的外專業(yè)信息系統(tǒng),包括鐵路貨物列車編組、裝載及運(yùn)輸調(diào)度信息等,數(shù)據(jù)資源主要存放在國鐵集團(tuán)和鐵路局。
鐵路貨車大數(shù)據(jù)具有5大特征:
(1)數(shù)據(jù)體量巨大,隨著物聯(lián)網(wǎng)在車輛制造維修各領(lǐng)域的廣泛應(yīng)用,接入的信息量持續(xù)增大;
(2)數(shù)據(jù)分布廣泛,分布于全路范圍內(nèi)的眾多機(jī)器設(shè)備、各級信息系統(tǒng)等各個(gè)環(huán)節(jié);
(3)結(jié)構(gòu)復(fù)雜,既有結(jié)構(gòu)化、半結(jié)構(gòu)化的傳感數(shù)據(jù),也有圖片、音頻、視頻、日志等非結(jié)構(gòu)化數(shù)據(jù);
(4)數(shù)據(jù)處理速度需求多樣化,生產(chǎn)現(xiàn)場要求實(shí)時(shí)數(shù)據(jù)分析,管理與決策應(yīng)用需要交互式或批量數(shù)據(jù)分析;
(5)對數(shù)據(jù)分析的置信度要求較高,相關(guān)關(guān)系分析不足以支撐故障診斷、預(yù)測預(yù)警等應(yīng)用,需要將物理模型與數(shù)據(jù)模型結(jié)合,追蹤挖掘因果關(guān)系。
結(jié)合鐵路貨車大數(shù)據(jù)資源現(xiàn)狀及業(yè)務(wù)應(yīng)用需要,鐵路貨車大數(shù)據(jù)平臺的總體架構(gòu)由現(xiàn)場數(shù)據(jù)采集傳輸層、平臺及設(shè)施層和應(yīng)用層3部分構(gòu)成,如圖1所示。
現(xiàn)場數(shù)據(jù)采集傳輸層以實(shí)現(xiàn)鐵路貨車及關(guān)鍵零部件全壽命周期數(shù)據(jù)資源采集和傳輸為核心,在車輛段、貨車造修工廠、軌旁監(jiān)測設(shè)備等基層數(shù)據(jù)采集地點(diǎn)進(jìn)一步完善數(shù)據(jù)采集內(nèi)容、強(qiáng)化數(shù)據(jù)采集質(zhì)量,實(shí)現(xiàn)數(shù)據(jù)匯集及本地應(yīng)用,并且通過貨車技術(shù)管理信息系統(tǒng)、車輛運(yùn)行安全監(jiān)控系統(tǒng)等將全過程數(shù)據(jù)上傳至國鐵集團(tuán)。
圖1 鐵路貨車大數(shù)據(jù)平臺總體架構(gòu)圖
平臺及設(shè)施層在國鐵集團(tuán)構(gòu)建基礎(chǔ)設(shè)施虛擬運(yùn)行環(huán)境,對數(shù)據(jù)資源進(jìn)行采集與集成、數(shù)據(jù)存儲與管理、數(shù)據(jù)計(jì)算與分析和數(shù)據(jù)可視化展示,通過數(shù)據(jù)統(tǒng)一規(guī)劃、數(shù)據(jù)集成與綜合治理等大數(shù)據(jù)技術(shù),提高貨車數(shù)據(jù)資產(chǎn)價(jià)值。
應(yīng)用層實(shí)現(xiàn)現(xiàn)有軟件的優(yōu)化和應(yīng)用服務(wù)創(chuàng)新。利用大數(shù)據(jù)計(jì)算分析結(jié)果支持貨車技術(shù)管理信息系統(tǒng)、車輛運(yùn)行安全監(jiān)控系統(tǒng)等現(xiàn)有系統(tǒng)的功能優(yōu)化,同時(shí),為實(shí)現(xiàn)貨車故障預(yù)測與健康管理(PHM,Prognostic and Health Management)[8]、大數(shù)據(jù)質(zhì)量評價(jià)及管理決策等應(yīng)用創(chuàng)新提供支撐。
鐵路貨車大數(shù)據(jù)平臺技術(shù)架構(gòu)以整合、集成成熟的Hadoop生態(tài)圈開源技術(shù)為主,主要由數(shù)據(jù)源、數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)計(jì)算分析、數(shù)據(jù)應(yīng)用5部分組成,如圖2所示。
(1) 數(shù)據(jù)源:包括與鐵路貨車大數(shù)據(jù)分析有關(guān)的數(shù)據(jù),主要來源于貨車技術(shù)管理信息系統(tǒng)、車輛運(yùn)行安全監(jiān)控系統(tǒng)等相關(guān)信息系統(tǒng),數(shù)據(jù)類型可分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
(2) 數(shù)據(jù)采集:通過數(shù)據(jù)抽取轉(zhuǎn)換加載(ETL,Extract Transform Load)工具將原始采集數(shù)據(jù)進(jìn)行抽取、清洗、轉(zhuǎn)換、加載,將各關(guān)系數(shù)據(jù)庫利用Sqoop進(jìn)行關(guān)系數(shù)據(jù)抽取和轉(zhuǎn)換,對于系統(tǒng)日志、操作日志等非結(jié)構(gòu)化數(shù)據(jù)利用Flume進(jìn)行文件轉(zhuǎn)換存儲,對于圖片、視頻等以數(shù)據(jù)流的方式通過Kafka進(jìn)行采集。
(3) 數(shù)據(jù)存儲:利用HDFS、HBase、Hive進(jìn)行數(shù)據(jù)存儲,實(shí)現(xiàn)貨車數(shù)據(jù)資源的統(tǒng)一規(guī)劃和分布式存儲與管理。
圖2 鐵路貨車大數(shù)據(jù)平臺技術(shù)架構(gòu)
(4) 數(shù)據(jù)計(jì)算分析:利用MapReduce進(jìn)行批量數(shù)據(jù)并行計(jì)算,利用Hive進(jìn)行數(shù)據(jù)查詢計(jì)算,利用Spark進(jìn)行內(nèi)存化實(shí)時(shí)分析,利用Storm進(jìn)行數(shù)據(jù)流實(shí)時(shí)分析。
(5) 數(shù)據(jù)應(yīng)用:根據(jù)業(yè)務(wù)需求和數(shù)據(jù)分析結(jié)果,提供數(shù)據(jù)目錄服務(wù)、數(shù)據(jù)共享服務(wù)、數(shù)據(jù)可視化等多種數(shù)據(jù)應(yīng)用。
(6) 元數(shù)據(jù)管理、主數(shù)據(jù)管理、配置管理、安全管理:提供各類基礎(chǔ)數(shù)據(jù)管理及服務(wù)。
3.1.1 大數(shù)據(jù)采集與存儲技術(shù)
鐵路貨車大數(shù)據(jù)平臺主要利用數(shù)據(jù)ETL、分布式存儲等技術(shù),進(jìn)行關(guān)系數(shù)據(jù)庫數(shù)據(jù)抽取、文件數(shù)據(jù)采集、實(shí)時(shí)流數(shù)據(jù)采集等多個(gè)功能的封裝,實(shí)現(xiàn)鐵路貨車海量、多樣化的數(shù)據(jù)采集與轉(zhuǎn)換。結(jié)合不同的數(shù)據(jù)處理需求,采用數(shù)據(jù)倉庫和分布式文件系統(tǒng)、分布式數(shù)據(jù)庫等技術(shù),實(shí)現(xiàn)對鐵路貨車大數(shù)據(jù)資源的統(tǒng)一規(guī)劃和存儲管理。
3.1.2 大數(shù)據(jù)治理技術(shù)
為確保鐵路貨車大數(shù)據(jù)完整、準(zhǔn)確、唯一,鐵路貨車大數(shù)據(jù)平臺采用以下數(shù)據(jù)治理技術(shù):
(1)對鐵路貨車基礎(chǔ)數(shù)據(jù)進(jìn)行統(tǒng)一管理、及時(shí)更新、動態(tài)發(fā)布、全路共享;
(2)建立貨車基礎(chǔ)技術(shù)、新造、運(yùn)用、檢修等關(guān)鍵數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn),明確各級采集、維護(hù)、管理對象及機(jī)制,實(shí)現(xiàn)統(tǒng)一來源、統(tǒng)一使用;
(3)對歷史數(shù)據(jù)進(jìn)行重新審查和校驗(yàn),剔除無效、不符合規(guī)范的數(shù)據(jù);
(4)加強(qiáng)系統(tǒng)間數(shù)據(jù)共享和校驗(yàn),對關(guān)鍵數(shù)據(jù)的質(zhì)量問題進(jìn)行分析、識別、監(jiān)控、預(yù)警等,提升數(shù)據(jù)質(zhì)量。
3.1.3 算法和模型
鐵路貨車大數(shù)據(jù)分析算法包括分類、回歸、聚類、決策樹、貝葉斯、支持向量機(jī)、深度學(xué)習(xí)等核心機(jī)器學(xué)習(xí)算法。鐵路貨車大數(shù)據(jù)專業(yè)模型主要用于評價(jià)分析和狀態(tài)預(yù)測,針對具體的業(yè)務(wù)應(yīng)用場景建立貨車及零部件實(shí)時(shí)技術(shù)狀態(tài)評價(jià)及故障預(yù)測、貨車運(yùn)用質(zhì)量評價(jià)、貨車檢修質(zhì)量評價(jià)、貨車源頭質(zhì)量評價(jià)等專業(yè)模型。
3.1.4 大數(shù)據(jù)計(jì)算分析
(1)對于鐵路貨車運(yùn)行安全監(jiān)控產(chǎn)生的順序、快速、連續(xù)、大量的數(shù)據(jù),采用流計(jì)算分析方法,實(shí)現(xiàn)實(shí)時(shí)在線統(tǒng)計(jì)和預(yù)警;
(2)對于貨車運(yùn)用維修生產(chǎn)支持,采用內(nèi)存計(jì)算分析方法,提供在線數(shù)據(jù)查詢和分析;
(3)對于貨車經(jīng)營及管理決策支持,采用批量計(jì)算分析方法,滿足大批量、綜合數(shù)據(jù)的離線分析。
在數(shù)據(jù)計(jì)算分析的基礎(chǔ)上結(jié)合專業(yè)模型,滿足實(shí)時(shí)、離線的大數(shù)據(jù)分析應(yīng)用需求。
鐵路貨車大數(shù)據(jù)應(yīng)用主要包括貨車全壽命周期管理、貨車PHM、貨車產(chǎn)品質(zhì)量反饋、維修生產(chǎn)過程優(yōu)化、生產(chǎn)質(zhì)量管控、設(shè)備預(yù)測性維修、供應(yīng)鏈管理優(yōu)化、智能決策管理等8大應(yīng)用場景。
(1)貨車全壽命周期管理
對鐵路貨車及關(guān)鍵零部件的設(shè)計(jì)、制造、運(yùn)用、維修、報(bào)廢數(shù)據(jù)進(jìn)行全面集成,形成完整準(zhǔn)確的電子履歷檔案,實(shí)現(xiàn)全壽命周期的可追溯管理。
(2)貨車PHM
將鐵路貨車及關(guān)鍵零部件的實(shí)時(shí)運(yùn)行數(shù)據(jù)與其設(shè)計(jì)、制造和歷史維修數(shù)據(jù)進(jìn)行融合,提供技術(shù)狀態(tài)評價(jià)、壽命預(yù)測和運(yùn)行維護(hù)建議,實(shí)現(xiàn)維修管理決策等健康管理應(yīng)用。
(3)貨車產(chǎn)品質(zhì)量反饋
將鐵路貨車及關(guān)鍵零部件運(yùn)行情況和運(yùn)用維修數(shù)據(jù)反饋到設(shè)計(jì)和制造階段,從而促進(jìn)貨車造修工廠改進(jìn)設(shè)計(jì)和制造方案,加速創(chuàng)新迭代。
(4)維修生產(chǎn)過程優(yōu)化
通過鐵路貨車大數(shù)據(jù)平臺對生產(chǎn)進(jìn)度、物料管理、經(jīng)營管理等數(shù)據(jù)進(jìn)行分析,提升貨車制造、維修、排產(chǎn)、進(jìn)度、物料、人員等方面管理的準(zhǔn)確性。
(5)生產(chǎn)質(zhì)量管控
基于鐵路貨車及關(guān)鍵零部件生產(chǎn)和維修的檢查檢驗(yàn)數(shù)據(jù)和“人機(jī)料法環(huán)”等過程數(shù)據(jù)進(jìn)行關(guān)聯(lián)性分析,實(shí)現(xiàn)在線質(zhì)量監(jiān)測和異常分析,強(qiáng)化生產(chǎn)及維修質(zhì)量管控。
(6)設(shè)備預(yù)測性維護(hù)
針對貨車大型在線檢修、監(jiān)測設(shè)備,平臺結(jié)合設(shè)備歷史數(shù)據(jù)與實(shí)時(shí)運(yùn)行數(shù)據(jù),監(jiān)控設(shè)備運(yùn)行狀態(tài),實(shí)現(xiàn)設(shè)備預(yù)測性維護(hù),保障設(shè)備穩(wěn)定運(yùn)用。
(7)供應(yīng)鏈管理優(yōu)化
鐵路貨車大數(shù)據(jù)平臺可實(shí)時(shí)跟蹤現(xiàn)場物料消耗,結(jié)合庫存情況安排相關(guān)供應(yīng)商進(jìn)行精準(zhǔn)配貨,推進(jìn)零庫存管理,有效降低庫存成本。
(8)智能決策管理
借助鐵路貨車大數(shù)據(jù)平臺整合生產(chǎn)現(xiàn)場數(shù)據(jù)、技術(shù)管理數(shù)據(jù)和供應(yīng)鏈數(shù)據(jù),提升經(jīng)營管理及維修管理決策效率,實(shí)現(xiàn)更加精準(zhǔn)與透明的分析評價(jià)與決策管理。
應(yīng)用大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)采集、存儲、分析并挖掘出有價(jià)值的信息,是將數(shù)據(jù)轉(zhuǎn)化為生產(chǎn)力的必然選擇[9-10]。本文結(jié)合鐵路貨車數(shù)據(jù)資源情況,基于大數(shù)據(jù)采集與存儲技術(shù)、大數(shù)據(jù)治理技術(shù)、大數(shù)據(jù)算法和模型、大數(shù)據(jù)計(jì)算分析技術(shù),提出了鐵路貨車大數(shù)據(jù)平臺的總體設(shè)計(jì)及應(yīng)用場景,為鐵路貨車大數(shù)據(jù)平臺的搭建提供設(shè)計(jì)依據(jù)。
基于本文提出的鐵路貨車大數(shù)據(jù)平臺總體設(shè)計(jì)方案,已經(jīng)在國鐵集團(tuán)開展了鐵路貨車大數(shù)據(jù)平臺搭建,后續(xù)需進(jìn)一步針對貨車大數(shù)據(jù)應(yīng)用場景,建立貨車及零部件實(shí)時(shí)技術(shù)狀態(tài)評價(jià)及故障預(yù)測、貨車質(zhì)量評價(jià)及風(fēng)險(xiǎn)預(yù)警等專業(yè)模型,推進(jìn)大數(shù)據(jù)技術(shù)在鐵路貨車領(lǐng)域深入應(yīng)用。