武明生,楊禮,熊偉
(中國鐵道科學(xué)研究院集團(tuán)有限公司?電子計(jì)算技術(shù)研究所,北京???100081)
自2008年京津城際開展聯(lián)調(diào)聯(lián)試工作以來,我國高速鐵路災(zāi)害監(jiān)測系統(tǒng)積累了京滬、武廣、哈大、杭長、蘭新二線等141條/段線路聯(lián)調(diào)聯(lián)試數(shù)據(jù)。隨著大數(shù)據(jù)應(yīng)用技術(shù)的發(fā)展,如何對(duì)災(zāi)害監(jiān)測系統(tǒng)聯(lián)調(diào)聯(lián)試數(shù)據(jù)進(jìn)行分析及展示,從中挖掘潛在價(jià)值、隱藏規(guī)律和發(fā)展趨勢已十分迫切。
大數(shù)據(jù)技術(shù)是繼云計(jì)算、物聯(lián)網(wǎng)等技術(shù)之后又一重大技術(shù)革命,是人工智能、機(jī)器學(xué)習(xí)、模式學(xué)習(xí)、統(tǒng)計(jì)學(xué)等捕獲數(shù)據(jù)的技術(shù)[1],具有體量大(Volume)、類型多(Variety)、速度快(Velocity)、價(jià)值密度低(Value)等特點(diǎn)。結(jié)合大數(shù)據(jù)技術(shù),通過對(duì)災(zāi)害監(jiān)測系統(tǒng)聯(lián)調(diào)聯(lián)試過程中產(chǎn)生的大量不規(guī)則數(shù)據(jù)進(jìn)行研究,對(duì)文檔結(jié)構(gòu)化、技術(shù)架構(gòu)、分析方法、采用算法等進(jìn)行選擇,提出數(shù)據(jù)挖掘流程和期望目標(biāo),并對(duì)成果應(yīng)用進(jìn)行分析,為災(zāi)害監(jiān)測系統(tǒng)優(yōu)化及聯(lián)調(diào)聯(lián)試改進(jìn)提供參考[2]。
災(zāi)害監(jiān)測系統(tǒng)主要實(shí)現(xiàn)對(duì)鐵路沿線風(fēng)、雨量、雪深及異物侵限的實(shí)時(shí)監(jiān)測[3],保障列車運(yùn)行安全。災(zāi)害監(jiān)測系統(tǒng)聯(lián)調(diào)聯(lián)試項(xiàng)目包括風(fēng)監(jiān)測、雨量監(jiān)測、雪深監(jiān)測、異物侵限監(jiān)測、設(shè)備冗余、狀態(tài)監(jiān)測及輔助功能[4],累計(jì)5個(gè)場景、42個(gè)檢測項(xiàng),設(shè)計(jì)監(jiān)測點(diǎn)6?881個(gè),2008—2018年共檢測2?417個(gè)監(jiān)測點(diǎn)(見圖1)。
圖1 聯(lián)調(diào)聯(lián)試現(xiàn)場監(jiān)測點(diǎn)數(shù)量
災(zāi)害監(jiān)測系統(tǒng)聯(lián)調(diào)聯(lián)試過程中形成的原始數(shù)據(jù)以紙質(zhì)文檔存儲(chǔ),后期整理為電子文檔。電子文檔主要為非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),共256?G,電子文檔存儲(chǔ)格式見表1。
表1 聯(lián)調(diào)聯(lián)試數(shù)據(jù)電子文檔存儲(chǔ)格式
當(dāng)前災(zāi)害監(jiān)測系統(tǒng)聯(lián)調(diào)聯(lián)試數(shù)據(jù)主要以文檔形式存儲(chǔ),給數(shù)據(jù)利用帶來很多不便。本研究基于大數(shù)據(jù)技術(shù),通過讀取Word、PDF、Excel等文檔中的數(shù)據(jù),按照一定規(guī)則整理后,存儲(chǔ)到創(chuàng)建好數(shù)據(jù)表的MySQL數(shù)據(jù)庫中,實(shí)現(xiàn)聯(lián)調(diào)聯(lián)試文檔的結(jié)構(gòu)化[5]。數(shù)據(jù)庫設(shè)計(jì)見圖2。
圖2 聯(lián)調(diào)聯(lián)試數(shù)據(jù)庫設(shè)計(jì)
為提高數(shù)據(jù)的分析效率以及未來同其他業(yè)務(wù)數(shù)據(jù)進(jìn)行融合分析,依托中國國家鐵路集團(tuán)有限公司數(shù)據(jù)服務(wù)平臺(tái),開展災(zāi)害監(jiān)測系統(tǒng)聯(lián)調(diào)聯(lián)試數(shù)據(jù)的分析和展示。鐵路數(shù)據(jù)服務(wù)平臺(tái)由中國國家鐵路集團(tuán)有限公司統(tǒng)一建設(shè)部署,是集數(shù)據(jù)分析、計(jì)算、存儲(chǔ)、整合等功能為一體的大數(shù)據(jù)分析平臺(tái)[6],平臺(tái)技術(shù)架構(gòu)見圖3。
圖3 鐵路數(shù)據(jù)服務(wù)平臺(tái)技術(shù)架構(gòu)
根據(jù)災(zāi)害監(jiān)測系統(tǒng)聯(lián)調(diào)聯(lián)試數(shù)據(jù)的種類、特征,采用多維數(shù)據(jù)分析方法[7],對(duì)數(shù)據(jù)從多個(gè)角度即多個(gè)維度進(jìn)行觀察和分析。通過對(duì)多維形式組織起來的數(shù)據(jù)進(jìn)行切片、切塊、聚合、鉆取、旋轉(zhuǎn)等操作,展開數(shù)據(jù)剖析,從多種維度、多個(gè)側(cè)面、多種數(shù)據(jù)綜合度分析數(shù)據(jù),從而深入掌握基礎(chǔ)數(shù)據(jù)的信息和內(nèi)涵。
災(zāi)害監(jiān)測系統(tǒng)聯(lián)調(diào)聯(lián)試數(shù)據(jù)包含災(zāi)害監(jiān)測、災(zāi)害報(bào)警、設(shè)備類型、故障類型、線路類型、設(shè)備廠家等維度,通過多維數(shù)據(jù)的切片、切塊、聚合等分析操作,從聯(lián)調(diào)聯(lián)試數(shù)據(jù)中提取各種維度的數(shù)據(jù),可為管理、運(yùn)維、檢測、科研等不同的用戶統(tǒng)計(jì)分析不同維度關(guān)聯(lián)信息。多維數(shù)據(jù)分析方法邏輯架構(gòu)見圖4。
圖4 多維數(shù)據(jù)分析方法邏輯架構(gòu)
大數(shù)據(jù)挖掘常用的算法有分類、線性回歸、聚類、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)方法、Web數(shù)據(jù)挖掘等,災(zāi)害監(jiān)測系統(tǒng)聯(lián)調(diào)聯(lián)試數(shù)據(jù)分析、挖掘算法主要采用線性回歸法[8]。
線性回歸是確定2種或2種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法,其表達(dá)形式為y=w’x+e,式中:y為因變量;w’為方程參數(shù);x為自變量;e為誤差,服從均值為0的正態(tài)分布?;貧w分析可反映數(shù)據(jù)庫中數(shù)據(jù)屬性值的特性,通過函數(shù)表達(dá)數(shù)據(jù)的映射關(guān)系,從而發(fā)現(xiàn)屬性值之間的依賴關(guān)系,主要應(yīng)用于對(duì)數(shù)據(jù)序列的預(yù)測及相關(guān)關(guān)系的分析。利用線性回歸法,可以從災(zāi)害監(jiān)測、災(zāi)害報(bào)警、設(shè)備狀態(tài)監(jiān)測及性能檢測數(shù)據(jù)中有效地分析各種數(shù)據(jù)的相關(guān)性,輸出期望目標(biāo)。
基于大數(shù)據(jù)技術(shù)優(yōu)勢,結(jié)合災(zāi)害監(jiān)測系統(tǒng)兩級(jí)架構(gòu)及功能、性能檢測項(xiàng)目,實(shí)現(xiàn)紙質(zhì)、電子數(shù)據(jù)的采集,非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)經(jīng)過清洗形成結(jié)構(gòu)化數(shù)據(jù)并存儲(chǔ)[9]。對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,形成風(fēng)、雨、雪、異物侵限監(jiān)測、報(bào)警及設(shè)備類型、故障類型等多維度數(shù)據(jù),通過多維度數(shù)據(jù)的挖掘,實(shí)現(xiàn)災(zāi)害監(jiān)測系統(tǒng)聯(lián)調(diào)聯(lián)試數(shù)據(jù)期望目標(biāo)可視化展示。聯(lián)調(diào)聯(lián)試數(shù)據(jù)挖掘流程見圖5。
圖5 聯(lián)調(diào)聯(lián)試數(shù)據(jù)挖掘流程
通過對(duì)災(zāi)害監(jiān)測系統(tǒng)聯(lián)調(diào)聯(lián)試數(shù)據(jù)進(jìn)行清洗、分析、挖掘,從中識(shí)別出有效的、潛在的、有價(jià)值的數(shù)據(jù),為輔助決策、運(yùn)維管理、測點(diǎn)優(yōu)化、科學(xué)研究、廠家評(píng)價(jià)等提供數(shù)據(jù)支撐[10]。
(1)輔助決策。統(tǒng)計(jì)分析全路風(fēng)速風(fēng)向、雨量、雪深及異物侵限監(jiān)測現(xiàn)場采集設(shè)備的種類、品牌、數(shù)量、年限;統(tǒng)計(jì)分析全路服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備的種類、品牌、數(shù)量、年限及CPU、內(nèi)存、硬盤配置信息;統(tǒng)計(jì)分析全路應(yīng)用系統(tǒng)、操作系統(tǒng)、數(shù)據(jù)庫種類、版本信息,為相關(guān)決策人員提供設(shè)備選型、系統(tǒng)優(yōu)化、設(shè)備檢定等參考數(shù)據(jù)。
(2)運(yùn)維管理。統(tǒng)計(jì)分析不同線路風(fēng)速風(fēng)向、雨量、雪深及異物侵限監(jiān)測現(xiàn)場采集設(shè)備的種類、品牌、數(shù)量、年限;統(tǒng)計(jì)分析不同線路服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備的種類、品牌、數(shù)量、年限及CPU、內(nèi)存、硬盤配置信息,為鐵路局集團(tuán)公司工務(wù)、通信、信息相關(guān)部門設(shè)備更換、檢定、檢查提供參考數(shù)據(jù)。
(3)測點(diǎn)優(yōu)化。統(tǒng)計(jì)分析全路各測試場景、測試項(xiàng)目出現(xiàn)問題的數(shù)量和頻率;統(tǒng)計(jì)分析不同線路、不同廠家、不同版本系統(tǒng)出現(xiàn)問題的規(guī)律、趨勢,為聯(lián)調(diào)聯(lián)試檢測項(xiàng)目的細(xì)化、增減及測試設(shè)備研制提供參考數(shù)據(jù)。
(4)科學(xué)研究。統(tǒng)計(jì)分析全路不同線路風(fēng)速風(fēng)向、雨量、雪深、異物侵限監(jiān)測點(diǎn)的數(shù)量和現(xiàn)場采集設(shè)備的種類、品牌、數(shù)量、年限;統(tǒng)計(jì)分析全路服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備的種類、品牌、數(shù)量、年限及CPU、內(nèi)存、硬盤配置信息;統(tǒng)計(jì)分析不同地區(qū)、不同線路相關(guān)監(jiān)測點(diǎn)設(shè)置情況,為科研人員課題研究提供參考數(shù)據(jù)。
(5)廠家評(píng)價(jià)。統(tǒng)計(jì)分析同年度相同數(shù)量的線路不同廠家出現(xiàn)問題的數(shù)量;統(tǒng)計(jì)分析同一廠家不同版本系統(tǒng)、同一廠家不同線路出現(xiàn)問題的趨勢;統(tǒng)計(jì)分析同一廠家不同測試場景、不同測試項(xiàng)目發(fā)生問題的頻率,為設(shè)備廠家系統(tǒng)研發(fā)提供評(píng)價(jià)參考數(shù)據(jù)。
(1)輔助決策方面,通過對(duì)災(zāi)害監(jiān)測系統(tǒng)聯(lián)調(diào)聯(lián)試數(shù)據(jù)的分析、挖掘,可對(duì)全路現(xiàn)場采集設(shè)備的種類、型號(hào)、年限,服務(wù)器、網(wǎng)絡(luò)設(shè)備主要配置信息,災(zāi)害監(jiān)測系統(tǒng)的功能、性能實(shí)現(xiàn)及存在問題等進(jìn)行統(tǒng)計(jì)、分析和展示。決策管理層可根據(jù)設(shè)備類型、故障類型、問題數(shù)量等系統(tǒng)整體信息,指導(dǎo)新建鐵路災(zāi)害監(jiān)測系統(tǒng),并在運(yùn)營維護(hù)方面完善管理辦法。2008—2017年全路災(zāi)害監(jiān)測系統(tǒng)現(xiàn)場采集設(shè)備類型、品牌、型號(hào)及異物侵限監(jiān)測設(shè)備類型的統(tǒng)計(jì)分析見圖6。
圖6 2008—2017年全路災(zāi)害監(jiān)測系統(tǒng)相關(guān)設(shè)備統(tǒng)計(jì)
(2)運(yùn)維管理方面,針對(duì)已開通線路,可按照不同鐵路局集團(tuán)公司、不同年限,對(duì)傳感器類型、型號(hào)、品牌,異物監(jiān)測電網(wǎng)安裝類型,監(jiān)控?cái)?shù)據(jù)處理設(shè)備,設(shè)備使用年限等進(jìn)行統(tǒng)計(jì)分析。鐵路局集團(tuán)公司通過掌握本局管轄線路設(shè)備類型、使用年限、故障類型等信息,可明確運(yùn)維管理工作重點(diǎn),從而制定更加合理的運(yùn)行維護(hù)、設(shè)備更換、系統(tǒng)升級(jí)等實(shí)施計(jì)劃。中國鐵路廣州局集團(tuán)有限公司監(jiān)控?cái)?shù)據(jù)處理設(shè)備類型、服務(wù)器品牌、數(shù)據(jù)庫軟件等統(tǒng)計(jì)見圖7。
圖7 中國鐵路廣州局集團(tuán)有限公司監(jiān)控?cái)?shù)據(jù)處理設(shè)備信息統(tǒng)計(jì)
(3)測點(diǎn)優(yōu)化方面,通過對(duì)檢測問題的挖掘,輸出不同年限、鐵路局集團(tuán)公司、設(shè)備廠家及具體檢測場景、檢測項(xiàng)目、問題類型統(tǒng)計(jì)結(jié)果。檢測單位可依據(jù)故障類型、發(fā)現(xiàn)問題等統(tǒng)計(jì)信息,優(yōu)化、改進(jìn)聯(lián)調(diào)聯(lián)試檢測項(xiàng)目,并為測試手段、方法的完善提供參考。不同年限、項(xiàng)目在聯(lián)調(diào)聯(lián)試過程中發(fā)現(xiàn)問題的統(tǒng)計(jì)見圖8。
圖8 聯(lián)調(diào)聯(lián)試發(fā)現(xiàn)問題統(tǒng)計(jì)
(4)科學(xué)研究方面,災(zāi)害監(jiān)測系統(tǒng)相關(guān)設(shè)備類型、品牌、型號(hào)、數(shù)量、檢測問題及不同鐵路局集團(tuán)公司、不同地區(qū)現(xiàn)場采集設(shè)備應(yīng)用情況等數(shù)據(jù)的統(tǒng)計(jì)分析成果,可為科研課題提供有效數(shù)據(jù)支撐。科研單位利用災(zāi)害監(jiān)測、災(zāi)害報(bào)警、狀態(tài)監(jiān)測等統(tǒng)計(jì)數(shù)據(jù),可開展災(zāi)害監(jiān)測系統(tǒng)優(yōu)化研究工作,并為相關(guān)標(biāo)準(zhǔn)的制定及完善提供參考。風(fēng)、雨量、雪深、異物侵限監(jiān)測等現(xiàn)場采集設(shè)備相關(guān)信息統(tǒng)計(jì)見圖9。
(5)廠家評(píng)價(jià)方面,災(zāi)害監(jiān)測系統(tǒng)設(shè)備廠家較多,利用設(shè)備廠家檢測問題總數(shù)及每年、每條線檢測問題數(shù)量,實(shí)現(xiàn)對(duì)設(shè)備廠家的排序及評(píng)價(jià)(見圖10)。設(shè)備廠家可根據(jù)災(zāi)害監(jiān)測、報(bào)警及設(shè)備狀態(tài)監(jiān)測等方面問題變化趨勢的統(tǒng)計(jì)信息,掌握設(shè)備的短板,制定更好的產(chǎn)品研發(fā)、優(yōu)化方向。
圖9 現(xiàn)場采集設(shè)備相關(guān)信息統(tǒng)計(jì)
圖10 設(shè)備廠家檢測問題統(tǒng)計(jì)及評(píng)價(jià)
高速鐵路災(zāi)害監(jiān)測系統(tǒng)積累了大量聯(lián)調(diào)聯(lián)試數(shù)據(jù),是鐵路寶貴的數(shù)據(jù)資源。大數(shù)據(jù)技術(shù)在聯(lián)調(diào)聯(lián)試數(shù)據(jù)中的應(yīng)用,對(duì)于災(zāi)害監(jiān)測系統(tǒng)發(fā)展及聯(lián)調(diào)聯(lián)試工作持續(xù)改進(jìn)至關(guān)重要?;诖髷?shù)據(jù)技術(shù),對(duì)災(zāi)害監(jiān)測系統(tǒng)聯(lián)調(diào)聯(lián)試數(shù)據(jù)進(jìn)行挖掘研究,可為高速鐵路其他專業(yè)聯(lián)調(diào)聯(lián)試提供參考,使大數(shù)據(jù)技術(shù)更好地為高速鐵路發(fā)展服務(wù)。