胡 波 李 冰 陳莉莉 周映江
(1.南瑞集團(tuán)(國網(wǎng)電力科學(xué)研究院)有限公司,210003,南京;2.國電南瑞科技股份有限公司,210061,南京;3.南京郵電大學(xué)自動(dòng)化學(xué)院,210023,南京//第一作者,高級(jí)工程師)
隨著各個(gè)城市軌道交通線路由單一化逐漸向網(wǎng)絡(luò)化發(fā)展,軌道交通運(yùn)營中產(chǎn)生并積累了大量的數(shù)據(jù)。如何有效地處理和分析這些結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),挖掘其中有價(jià)值的信息,通過海量數(shù)據(jù)的采集、整理和分析,提高軌道交通的運(yùn)營水平,提升科學(xué)決策能力,日益成為業(yè)界關(guān)注的重點(diǎn)及研究方向。
目前,地鐵線網(wǎng)中心運(yùn)營指揮系統(tǒng)(TCC)通常采用數(shù)據(jù)倉儲(chǔ)MPP(massively parallel processing)進(jìn)行數(shù)據(jù)分析及管理,對于地鐵運(yùn)營海量的數(shù)據(jù),其在客流分析、能效管理、運(yùn)營指標(biāo)分析等方面尚異常薄弱,沒有達(dá)到提升運(yùn)營水平的目的[1-3]。本文提出一種基于大數(shù)據(jù)平臺(tái)的運(yùn)營指標(biāo)分析的方法,通過研究數(shù)據(jù)挖掘技術(shù),完成對TCC海量數(shù)據(jù)的分析。通過合理的數(shù)據(jù)模型設(shè)計(jì)搭建大數(shù)據(jù)平臺(tái),進(jìn)行數(shù)據(jù)統(tǒng)計(jì)和建模,挖掘數(shù)據(jù)的深層價(jià)值,從而提升軌道交通信息服務(wù)能力及運(yùn)營水平,提升效益,降低成本。
軌道交通運(yùn)營中每時(shí)每刻都產(chǎn)生并積累大量的數(shù)據(jù),特別是非結(jié)構(gòu)化數(shù)據(jù),更是呈指數(shù)級(jí)增長。TCC的數(shù)據(jù)來源包括:各線路的綜合監(jiān)控系統(tǒng)(ISCS,含電力監(jiān)控與數(shù)據(jù)采集(PSCADA)、環(huán)境與設(shè)備監(jiān)控系統(tǒng)(BAS)、火災(zāi)報(bào)警系統(tǒng)(FAS)、站臺(tái)屏蔽門(PSD)、自動(dòng)售檢票(AFC)等專業(yè)),以及信號(hào)(SIG)、閉路電視(CCTV)數(shù)據(jù);自動(dòng)售檢票清分中心(ACC)的客流數(shù)據(jù);主變電所的PSCADA數(shù)據(jù);來自能源管理系統(tǒng)的能效數(shù)據(jù);視頻文檔等文件。根據(jù)數(shù)據(jù)的類型,分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),具體說明如下:
結(jié)構(gòu)化數(shù)據(jù):主要包括ISCS(PSCADA、BAS、FAS、PSD、AFC等)、列車自動(dòng)監(jiān)控(ATS)、ACC、能源管理系統(tǒng)等。ACC系統(tǒng)提供客流數(shù)據(jù)和清分清算類數(shù)據(jù),各線路ISCS和主變電所提供設(shè)備狀態(tài)類數(shù)據(jù),ATS提供行車數(shù)據(jù),能源管理系統(tǒng)提供能耗數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù):主要包括CCTV視頻資料、圖紙、檔案文件、文檔,以及系統(tǒng)運(yùn)行過程中生成的日志、視頻、音頻、圖片文件等,如應(yīng)急指揮系統(tǒng)執(zhí)行過程中的歸檔記錄、歷史報(bào)表等。
半結(jié)構(gòu)化數(shù)據(jù):主要指系統(tǒng)中的XML、HTML文檔。
對TCC數(shù)據(jù)進(jìn)行分析可知,TCC數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性主要表現(xiàn)為:
大規(guī)模:數(shù)據(jù)容量巨大,每年增量在幾十TB;
異構(gòu)性:數(shù)據(jù)來源于各個(gè)系統(tǒng),數(shù)據(jù)結(jié)構(gòu)及類型千差萬別;
分布性:數(shù)據(jù)源的多樣性及跨地域性造就了數(shù)據(jù)的分布性;
動(dòng)態(tài)性:每時(shí)每刻的實(shí)時(shí)數(shù)據(jù)。
大數(shù)據(jù),指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。其不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理[4]。
借助大數(shù)據(jù)平臺(tái),整合SCADA、FAS、BAS、ATC、AFC、ACC等專業(yè)數(shù)據(jù),實(shí)現(xiàn)客流、 行車、設(shè)備數(shù)據(jù)的集中統(tǒng)一,形成企業(yè)級(jí)數(shù)據(jù)統(tǒng)一視圖,實(shí)現(xiàn)企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)化,再通過平臺(tái)強(qiáng)大的數(shù)據(jù)分析和數(shù)據(jù)挖掘能力,可幫助地鐵企業(yè)充分發(fā)掘潛在的數(shù)據(jù)價(jià)值,全面提升運(yùn)營管理能力、科學(xué)規(guī)劃能力、應(yīng)急輔助決策能力及公眾信息服務(wù)能力。
進(jìn)行數(shù)據(jù)分析首先需要選擇一種合適的數(shù)據(jù)平臺(tái)。本文采用處理效率及性能更佳的基于Hadoop的大數(shù)據(jù)平臺(tái)代替數(shù)據(jù)倉庫的MPP進(jìn)行數(shù)據(jù)分析及存儲(chǔ)。大數(shù)據(jù)平臺(tái)的數(shù)據(jù)處理包括元數(shù)據(jù)處理、ETL(數(shù)據(jù)抽取、轉(zhuǎn)換及裝載)數(shù)據(jù)處理、數(shù)據(jù)挖掘等部分,本文主要涉及的是數(shù)據(jù)挖掘部分。大數(shù)據(jù)平臺(tái)的架構(gòu)見圖1。
TCC中的數(shù)據(jù)除了結(jié)構(gòu)化數(shù)據(jù),還包括照片、視頻、音頻、文檔、日志等非結(jié)構(gòu)化數(shù)據(jù),并且需要支持?jǐn)?shù)十TB到PB級(jí)的數(shù)據(jù)存儲(chǔ)需求。采用分布式架構(gòu)的大數(shù)據(jù)平臺(tái),將數(shù)據(jù)倉庫部署在不同的服務(wù)器上,并將來自各個(gè)源的數(shù)據(jù)規(guī)整,以統(tǒng)一格式存儲(chǔ)在大數(shù)據(jù)平臺(tái)中。
首先要對數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行格式規(guī)整處理,再用清理、集成、變換、規(guī)約等預(yù)處理技術(shù)改善數(shù)據(jù)質(zhì)量,從而提高數(shù)據(jù)分析的效率與質(zhì)量。
所謂數(shù)據(jù)挖掘和數(shù)據(jù)分析,就是以業(yè)務(wù)為驅(qū)動(dòng),利用數(shù)據(jù)分析算法,從海量數(shù)據(jù)中發(fā)掘出其中隱含的模式。
數(shù)據(jù)分析方法一般包括估計(jì)、預(yù)測、關(guān)聯(lián)、聚類、分類等。分析的過程就是模型構(gòu)建的過程。模型構(gòu)建通常包括模型建立、模型訓(xùn)練、模型驗(yàn)證和模型預(yù)測四個(gè)步驟。模型的建立是一個(gè)反復(fù)的過程,需要仔細(xì)考察不同的模型以判斷優(yōu)選。常見的數(shù)據(jù)分析方法見圖2。
在TCC數(shù)據(jù)中挑選出客流信息,通過對客流數(shù)據(jù)進(jìn)行建模分析,預(yù)測短期日??土鳌?shí)時(shí)客流及預(yù)估大客流。從ACC得來的客流數(shù)據(jù)和起點(diǎn)/終點(diǎn)(OD)數(shù)據(jù)信息,可通過客流和換乘的統(tǒng)計(jì)分析,進(jìn)行路徑規(guī)劃和能效控制;可以監(jiān)視客流數(shù)據(jù)進(jìn)行客流預(yù)測;可分析實(shí)時(shí)斷面客流量和三色圖展示,協(xié)助進(jìn)行客流引導(dǎo)。常用的分析方法為時(shí)間序列法和回歸分析法。
圖1 大數(shù)據(jù)平臺(tái)架構(gòu)
圖2 常見的數(shù)據(jù)分析方法
3.3.1 短期日??土黝A(yù)測輸入
客流預(yù)測條件導(dǎo)入模塊通過指定日期條件(某天或者一段時(shí)間范圍內(nèi)),從統(tǒng)計(jì)分析平臺(tái)加載AFC歷史客流數(shù)據(jù)作為預(yù)測參考數(shù)據(jù),實(shí)現(xiàn)短期客流預(yù)測輸入功能。其數(shù)據(jù)流如圖3所示。
圖3 短期日??土黝A(yù)測數(shù)據(jù)流圖
客流預(yù)測條件導(dǎo)入模塊從統(tǒng)計(jì)分析平臺(tái)加載歷史客流數(shù)據(jù),界面可設(shè)置客流影響因素,包括大型活動(dòng)車站等。
3.3.2 實(shí)時(shí)客流預(yù)測輸入
客流預(yù)測條件導(dǎo)入模塊通過指定日期條件(某天或者一段時(shí)間范圍內(nèi)),從統(tǒng)計(jì)分析平臺(tái)加載AFC實(shí)時(shí)客流數(shù)據(jù)作為預(yù)測參考數(shù)據(jù),實(shí)現(xiàn)實(shí)時(shí)客流預(yù)測輸入功能。其數(shù)據(jù)流如圖4所示。
圖4 實(shí)時(shí)客流預(yù)測數(shù)據(jù)流圖
客流預(yù)測條件導(dǎo)入模塊從統(tǒng)計(jì)分析平臺(tái)加載AFC實(shí)時(shí)客流數(shù)據(jù),經(jīng)過實(shí)時(shí)客流預(yù)測數(shù)據(jù)輸入功能對數(shù)據(jù)清洗/變換,保存為預(yù)測用的客流數(shù)據(jù);客流預(yù)測模型管理模塊在正常情況下實(shí)時(shí)客流預(yù)測、中斷行車情況下客流預(yù)測、大客流情況下客流預(yù)測中讀取此數(shù)據(jù),執(zhí)行客流預(yù)測。
3.3.3 預(yù)知大客流預(yù)測輸入
客流預(yù)測條件導(dǎo)入模塊通過指定大客流事件的時(shí)間、車站,從統(tǒng)計(jì)分析平臺(tái)加載同類型的歷史客流數(shù)據(jù)作為預(yù)測參考數(shù)據(jù),實(shí)現(xiàn)預(yù)知大客流預(yù)測輸入功能。其數(shù)據(jù)流如圖5所示。
圖5 預(yù)知大客流預(yù)測數(shù)據(jù)流圖
客流預(yù)測條件導(dǎo)入模塊從統(tǒng)計(jì)分析平臺(tái)加載歷史客流數(shù)據(jù),經(jīng)過預(yù)知大客流預(yù)測數(shù)據(jù)輸入功能對數(shù)據(jù)清洗/變換,保存為預(yù)測用的客流數(shù)據(jù);客流預(yù)測模型管理模塊在預(yù)知大客流情況下客流預(yù)測中讀取此數(shù)據(jù),執(zhí)行客流預(yù)測。
目前軌道交通行業(yè)常用的指標(biāo)體系是國際地鐵聯(lián)盟CoMET指標(biāo)體系和中國城市軌道交通MOPES指標(biāo)體系。
CoMET的核心是建立衡量地鐵運(yùn)營效率的關(guān)鍵績效指數(shù)系統(tǒng),并建立有針對性的基準(zhǔn)化分析方法。CoMET指標(biāo)數(shù)據(jù)僅在聯(lián)盟內(nèi)使用,對外有保密公約,所以不具有公開使用價(jià)值。
MOPES是為了加強(qiáng)軌道交通行業(yè)內(nèi)部的密切聯(lián)系,統(tǒng)一運(yùn)營績效評(píng)估指標(biāo)和統(tǒng)計(jì)方式,樹立績效參照標(biāo)桿,建立經(jīng)驗(yàn)交流平臺(tái)和組織開展專題攻關(guān)等。整個(gè)評(píng)價(jià)體系含基礎(chǔ)指標(biāo)2類8個(gè),績效指標(biāo)6類75個(gè)?;A(chǔ)指標(biāo)包括線網(wǎng)指標(biāo)和車站指標(biāo),是基礎(chǔ)設(shè)施的評(píng)價(jià)數(shù)據(jù)。績效指標(biāo)包括客流指標(biāo)、運(yùn)行指標(biāo)、服務(wù)指標(biāo)、安全指標(biāo)、能耗指標(biāo)和成本指標(biāo),是在一定基礎(chǔ)設(shè)施條件下反映運(yùn)營效率的主要指標(biāo)[5]。
目前,通過大數(shù)據(jù)平臺(tái)可采集到以下數(shù)據(jù):
(1) 從線路實(shí)時(shí)采集的數(shù)據(jù),包括列車運(yùn)行信息、電扶梯運(yùn)營狀況、AFC閘機(jī)/售票機(jī)運(yùn)營狀況、車站站廳站臺(tái)溫/濕度、火災(zāi)報(bào)警等。
(2) 從線路定時(shí)采集的歷史數(shù)據(jù),包括AFC閘機(jī)/售票機(jī)歷史運(yùn)營狀況等。
目前TCC中的運(yùn)營指標(biāo)分析模塊,僅能對上述數(shù)據(jù)進(jìn)行簡單的加工,做一些簡單的運(yùn)營指標(biāo)統(tǒng)計(jì)分析。這些分析主要集中在單一指標(biāo),并沒有深度挖掘不同數(shù)據(jù)之間的關(guān)系。
表1是TCC中核心統(tǒng)計(jì)的運(yùn)營指標(biāo),可以看出,此三種指標(biāo)目前互相孤立,之間沒有聯(lián)系。其實(shí)從能效管理的角度,通過閘機(jī)的通過率、電扶梯的使用率等判斷出人流量的大小,提前預(yù)測站內(nèi)合適的溫濕度,可力保乘客乘車候車的舒適度,也能在一定程度上進(jìn)行節(jié)能。
表1 現(xiàn)系統(tǒng)常用運(yùn)營統(tǒng)計(jì)指標(biāo)
溫濕度預(yù)測將所有的溫濕度預(yù)測業(yè)務(wù)按照預(yù)測方案組織起來,首先需創(chuàng)建溫濕度預(yù)測方案。在預(yù)測方案中設(shè)置預(yù)測的目標(biāo)和具體的時(shí)間維度、空間維度條件,選擇預(yù)測的類型及應(yīng)用的預(yù)測模型,并錄入與溫濕度預(yù)測方案相關(guān)的描述性信息,根據(jù)不同預(yù)測類型和預(yù)測模型的需要設(shè)置溫濕度預(yù)測的相關(guān)參數(shù),完成預(yù)測方案的創(chuàng)建。客流預(yù)測流程各步驟如圖6所示。
通過大數(shù)據(jù)平臺(tái),選擇相關(guān)的關(guān)聯(lián)算法,對車站進(jìn)站量數(shù)據(jù)及站內(nèi)溫濕度數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、訓(xùn)練,通過計(jì)算機(jī)擬合出車站進(jìn)站量與溫濕度之間的曲線,找出他們之間的內(nèi)在關(guān)系。
目前的地鐵TCC在運(yùn)營指標(biāo)分析及應(yīng)急指揮方面功能薄弱,不能滿足實(shí)際運(yùn)營的需求。本文研究了基于大數(shù)據(jù)平臺(tái)的城市軌道交通網(wǎng)絡(luò)化運(yùn)營指揮中心的關(guān)鍵技術(shù),利用大數(shù)據(jù)平臺(tái)對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、挖掘,通過算法尋找相關(guān)聯(lián)的運(yùn)營指標(biāo)。通過對運(yùn)營指標(biāo)的綜合分析,可提升地鐵運(yùn)營管理能力和應(yīng)對突發(fā)應(yīng)急事件的能力。
圖6 溫度預(yù)測系統(tǒng)流程