石莊彬 陸文學(xué) 張 寧
(1. 東南大學(xué)ITS研究中心 南京 210018; 2. 蘇州軌道交通集團(tuán)公司 蘇州 215006)
?
數(shù)據(jù)挖掘技術(shù)在軌道交通AFC系統(tǒng)中的應(yīng)用
石莊彬1陸文學(xué)2張寧1
(1. 東南大學(xué)ITS研究中心南京210018; 2. 蘇州軌道交通集團(tuán)公司蘇州215006)
為改善城市軌道交通運(yùn)營(yíng)管理水平,提升軌道交通帶來的企業(yè)經(jīng)濟(jì)效益和社會(huì)效益,主要探討將數(shù)據(jù)挖掘技術(shù)應(yīng)用于軌道交通領(lǐng)域的潛力及其價(jià)值。首先,分析目前AFC系統(tǒng)對(duì)于數(shù)據(jù)利用的不足;其次,總結(jié)數(shù)據(jù)挖掘的任務(wù)類型、處理過程以及數(shù)據(jù)挖掘過程中常用的方法,闡述數(shù)據(jù)挖掘的基本原理;最終,從運(yùn)營(yíng)管理的統(tǒng)計(jì)和預(yù)測(cè)兩方面需求的角度,深入探討數(shù)據(jù)挖掘技術(shù)在軌道交通客流、票務(wù)、收益、設(shè)備等管理內(nèi)容中的應(yīng)用前景,并通過實(shí)例論證實(shí)際運(yùn)用過程中的可行性。
軌道交通;數(shù)據(jù)挖掘; 運(yùn)營(yíng)管理;統(tǒng)計(jì);預(yù)測(cè);客流; 票卡
在這個(gè)信息爆炸的時(shí)代,數(shù)據(jù)挖掘在許多行業(yè)中正逐漸上升為一個(gè)研究熱點(diǎn)。數(shù)據(jù)挖掘技術(shù),是針對(duì)當(dāng)今數(shù)據(jù)豐富而知識(shí)貧乏這一現(xiàn)象,在數(shù)據(jù)庫管理系統(tǒng)基礎(chǔ)上發(fā)展起來的一門新技術(shù)。通過不斷地與統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)庫技術(shù)、計(jì)算機(jī)技術(shù)等學(xué)科交叉融合,大大推動(dòng)了數(shù)據(jù)挖掘技術(shù)的發(fā)展和繁榮,使得數(shù)據(jù)挖掘用于大數(shù)據(jù)的事務(wù)管理、信息提取和數(shù)據(jù)分析。這里的大數(shù)據(jù)不僅指數(shù)據(jù)儲(chǔ)存空間巨大,還涉及數(shù)據(jù)的多樣性、復(fù)雜性等特征[1-2]。
隨著軌道交通客運(yùn)量迅速增加,軌道交通網(wǎng)絡(luò)日趨形成,對(duì)軌道交通運(yùn)營(yíng)管理的智能化、自動(dòng)化、信息全面化的要求越來越高,而傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)面對(duì)海量數(shù)據(jù)時(shí)處理效率低下,難以完成城市軌道交通運(yùn)營(yíng)管理對(duì)于知識(shí)信息日益增長(zhǎng)的業(yè)務(wù)需求[3]。目前,國(guó)內(nèi)各大城市軌道交通對(duì)于自動(dòng)售檢票系統(tǒng)(automatic fare collection system,AFC)數(shù)據(jù)的處理比較粗糙,大多局限于對(duì)原始數(shù)據(jù)的簡(jiǎn)單統(tǒng)計(jì),深層次分析不足,我國(guó)城市軌道發(fā)展階段還處于初始期,對(duì)于軌道交通運(yùn)行機(jī)制和管理方案了解還不太成熟;同時(shí),AFC系統(tǒng)開發(fā)商主要注重于系統(tǒng)的集成,缺乏對(duì)用戶需求的深入理解,各地對(duì)于軌道交通的管理需求也不一樣,最終導(dǎo)致運(yùn)營(yíng)管理者通過現(xiàn)有清分中心(AFC clearing center,ACC)數(shù)據(jù)處理結(jié)果,只能對(duì)整個(gè)軌道交通系統(tǒng)的運(yùn)行狀態(tài)有個(gè)粗略的認(rèn)識(shí),難以達(dá)到對(duì)細(xì)節(jié)的監(jiān)視,無法對(duì)線網(wǎng)的運(yùn)行狀況進(jìn)行實(shí)時(shí)估計(jì)和分析,不能滿足軌道交通網(wǎng)絡(luò)化運(yùn)營(yíng)和提高軌道交通系統(tǒng)服務(wù)質(zhì)量的要求。
因此,針對(duì)城市軌道交通網(wǎng)絡(luò)化運(yùn)營(yíng)的特點(diǎn),結(jié)合數(shù)據(jù)挖掘技術(shù)和計(jì)算機(jī)處理技術(shù),深度挖掘城市軌道自動(dòng)售檢票系統(tǒng)數(shù)據(jù)中的潛在有用的信息,將成為軌道交通運(yùn)營(yíng)管理未來的發(fā)展和研究方向。它可以幫助運(yùn)營(yíng)管理人員從單調(diào)繁復(fù)的勞動(dòng)中解脫出來,高速、有效、全面地處理大量的數(shù)據(jù),發(fā)現(xiàn)軌道交通運(yùn)行潛在的本質(zhì)和規(guī)律,幫助企業(yè)全面細(xì)致地監(jiān)視軌道交通系統(tǒng)的運(yùn)行狀態(tài),實(shí)現(xiàn)智能化和自動(dòng)化的輔助決策,為運(yùn)營(yíng)企業(yè)帶來巨大的信息價(jià)值和社會(huì)、經(jīng)濟(jì)效益,為城市未來的軌道交通發(fā)展規(guī)劃、建設(shè)和運(yùn)營(yíng)提供有利的指導(dǎo)。
數(shù)據(jù)挖掘的任務(wù)是從大量的數(shù)據(jù)中發(fā)現(xiàn)用戶需要的知識(shí),主要包括廣義知識(shí)、關(guān)聯(lián)知識(shí)、分類知識(shí)、預(yù)測(cè)型知識(shí)、偏差型知識(shí)。從高層次來說,數(shù)據(jù)挖掘任務(wù)的目標(biāo)一般可以分為兩類:描述和預(yù)測(cè)。前者指刻畫數(shù)據(jù)的一般特性;后者基于當(dāng)前數(shù)據(jù)進(jìn)行推算,實(shí)現(xiàn)對(duì)將來的情況推演[4]。數(shù)據(jù)挖掘的功能主要有概念描述、關(guān)聯(lián)分析、聚類分析、分類分析、孤立點(diǎn)分析、演變分析。
1.1數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘通常被當(dāng)作是知識(shí)發(fā)現(xiàn)的一個(gè)同義詞,而隨著研究者對(duì)知識(shí)發(fā)現(xiàn)認(rèn)識(shí)的加深,逐漸形成數(shù)據(jù)挖掘的一種狹義概念,即認(rèn)為數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)流程中負(fù)責(zé)尋找知識(shí)的核心環(huán)節(jié)。知識(shí)發(fā)現(xiàn)流程是一個(gè)交互式、循環(huán)反復(fù)的整體過程,除了數(shù)據(jù)挖掘還包括很多處理階段,知識(shí)發(fā)現(xiàn)流程一般包括3個(gè)主要階段:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果的解釋和評(píng)價(jià)。其中數(shù)據(jù)預(yù)處理又細(xì)分為數(shù)據(jù)清洗、數(shù)據(jù)推測(cè)、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)精簡(jiǎn)等步驟[5]。
1.2數(shù)據(jù)挖掘的方法
數(shù)據(jù)挖掘的核心是數(shù)據(jù)挖掘過程中使用的技術(shù)和方法,主要來自于機(jī)器學(xué)習(xí)、人工智能、統(tǒng)計(jì)學(xué)等相關(guān)學(xué)科和技術(shù)領(lǐng)域,數(shù)據(jù)挖掘從一個(gè)新的角度將這些領(lǐng)域與數(shù)據(jù)庫技術(shù)相結(jié)合,可以發(fā)現(xiàn)繁雜的數(shù)據(jù)中隱藏的有用信息。一般來說,數(shù)據(jù)挖掘技術(shù)采用的方法大致有以下幾類[6-7]:統(tǒng)計(jì)方法、基于信息論的決策樹方法、基于集論的方法(模糊集和粗糙集)、基于仿生學(xué)的方法(神經(jīng)網(wǎng)絡(luò)方法和遺傳算法)。除了這幾類主要的方法外,還有一些其他的方法也常常被應(yīng)用于數(shù)據(jù)挖掘過程。例如:支持向量機(jī)、范例推理、公式發(fā)現(xiàn)、可視化等。
城市軌道交通AFC系統(tǒng)所涉及的數(shù)據(jù)主要包括票卡交易類數(shù)據(jù)、票卡信息數(shù)據(jù)、收益類數(shù)據(jù)、設(shè)備狀態(tài)數(shù)據(jù)、審計(jì)類數(shù)據(jù)等[8]。AFC數(shù)據(jù)信息是支撐軌道交通企業(yè)運(yùn)營(yíng)管理的重要基礎(chǔ),同時(shí)也是企業(yè)最寶貴的財(cái)富。軌道交通企業(yè)需要從這些繁雜的數(shù)據(jù)中獲取信息和知識(shí),以滿足軌道交通的運(yùn)營(yíng)、票務(wù)、收益、維修等管理要求,其中獲取信息和知識(shí)的過程正是基于數(shù)據(jù)挖掘技術(shù)。
根據(jù)數(shù)據(jù)挖掘技術(shù)的知識(shí)類型和任務(wù)目標(biāo),將數(shù)據(jù)挖掘技術(shù)應(yīng)用于AFC系統(tǒng),主要可實(shí)現(xiàn)兩大功能:數(shù)據(jù)統(tǒng)計(jì)和信息預(yù)測(cè)分析。二者在運(yùn)營(yíng)管理中的應(yīng)用范圍方面有所差異,數(shù)據(jù)統(tǒng)計(jì)可以反映城市軌道交通本質(zhì)的規(guī)律,能夠指導(dǎo)企業(yè)制訂科學(xué)的管理方針,如收費(fèi)策略、運(yùn)行圖編制、客運(yùn)組織方案、線路規(guī)劃、車站布局設(shè)計(jì)等;信息預(yù)測(cè)分析是通過合適的方法和指標(biāo),使管理者能實(shí)時(shí)地了解軌道交通運(yùn)行狀態(tài)信息并進(jìn)行評(píng)估和預(yù)測(cè),為指揮決策提供合理的依據(jù)。
2.1數(shù)據(jù)統(tǒng)計(jì)
AFC系統(tǒng)收集的原始數(shù)據(jù)不僅規(guī)模龐大且格式種類具有復(fù)雜多樣性,一般的原始數(shù)據(jù)對(duì)用戶而言是難以理解的,用戶也很難直接從原始數(shù)據(jù)中讀取有用信息。事實(shí)上,絕大部分?jǐn)?shù)據(jù)都是不重要的,有些信息只具有臨時(shí)的價(jià)值,數(shù)據(jù)統(tǒng)計(jì)就是提取出對(duì)軌道交通企業(yè)有用的那部分信息。數(shù)據(jù)統(tǒng)計(jì)可以實(shí)現(xiàn)對(duì)軌道交通全線網(wǎng)的客流、票務(wù)、收益、設(shè)備等,數(shù)據(jù)的收集、存儲(chǔ)、統(tǒng)計(jì)、分析、數(shù)據(jù)服務(wù),通過數(shù)據(jù)圖表、綜合報(bào)告、乘客出行行為模擬等多種途徑,將管理者所關(guān)心的知識(shí)以高度概括且易于理解的形式展現(xiàn)出來,AFC系統(tǒng)中的數(shù)據(jù)統(tǒng)計(jì)一般包括以下幾方面內(nèi)容。
2.1.1客運(yùn)量統(tǒng)計(jì)
通過對(duì)乘客進(jìn)/出站閘機(jī)的交易記錄數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,能夠反映軌道交通客流的特征和規(guī)律,幫助實(shí)現(xiàn)軌道交通的行車組織優(yōu)化、客運(yùn)組織優(yōu)化、票務(wù)組織優(yōu)化、設(shè)施布局優(yōu)化等,科學(xué)指導(dǎo)軌道交通交通規(guī)劃和運(yùn)營(yíng)管理。軌道交通專用通信網(wǎng)絡(luò)能支持大容量數(shù)據(jù)的快速傳輸,在這個(gè)條件下軌道交通AFC數(shù)據(jù)中心能夠?qū)崟r(shí)地統(tǒng)計(jì)客流流量,識(shí)別當(dāng)前的客流模式(如異常客流、高峰客流),以此作為判斷依據(jù),實(shí)施應(yīng)急預(yù)案,降低對(duì)軌道交通系統(tǒng)平穩(wěn)運(yùn)行的沖擊。根據(jù)分析的角度不同,一般將城市軌道交通客流流量分為站點(diǎn)客流、斷面客流、站間OD(origin-destination)客流3類。
站點(diǎn)客流常用的統(tǒng)計(jì)量有進(jìn)站量、出站量、換乘量、客運(yùn)量等??梢詮臅r(shí)間維度(分、時(shí),日,周、月、年等)和空間維度(車站、線路、線網(wǎng))兩個(gè)層面來統(tǒng)計(jì)分析客流的流量、流向等特征。例如,從時(shí)間維度統(tǒng)計(jì)交易數(shù)據(jù),可以分析全日進(jìn)站客流的分布規(guī)律,典型日客流分布類型可歸納為單向峰型、雙向峰型、全峰型、突峰型、無峰型等5類[9]。圖1為某市兩個(gè)車站進(jìn)站客流的日分布圖,其中圖1(a)顯示該車站周邊用地功能比較單一,客流具有明顯的潮汐現(xiàn)象;圖1(b)顯示該車站位于綜合功能用地區(qū)域,呈現(xiàn)成對(duì)的早晚高峰。進(jìn)站客流日分布的統(tǒng)計(jì)結(jié)果是客運(yùn)組織人員安排調(diào)派的實(shí)施基礎(chǔ),也可以作為模版對(duì)新規(guī)劃線路沿線的客流模式進(jìn)行匹配估計(jì)。
圖1 車站日客流分布[10]
斷面客流指線路上任意區(qū)間中某斷面位置在統(tǒng)計(jì)時(shí)段內(nèi)通過的乘客數(shù)量,在數(shù)量上等于在該統(tǒng)計(jì)時(shí)段內(nèi)通過的所有列車的載客量之和。斷面客流能夠準(zhǔn)確地反映在某個(gè)時(shí)間段內(nèi)線路對(duì)開行列車數(shù)量的實(shí)際需求。站間OD客流指在某一時(shí)間片段內(nèi),以乘客進(jìn)站的站點(diǎn)作為起點(diǎn),以乘客出站的站點(diǎn)作為終點(diǎn),起終點(diǎn)間的乘客交通出行量分布。站間OD分布與沿線區(qū)段空間分布結(jié)果可以很好地反映出軌道沿線各站點(diǎn)及各區(qū)段人口出行的特性。在軌道交通線網(wǎng)比較簡(jiǎn)單時(shí),斷面客流和站間OD客流的統(tǒng)計(jì)計(jì)算比較容易,但當(dāng)線路形成網(wǎng)絡(luò)化后,往往會(huì)存在二義性路徑,此時(shí)單純依靠統(tǒng)計(jì)已不能得到預(yù)期的結(jié)果,還需要先進(jìn)行線網(wǎng)換乘客流的路徑選擇分析,關(guān)于這一點(diǎn)將在后面進(jìn)行說明。
2.1.2乘客特征統(tǒng)計(jì)
乘客信息包括乘客持票種類(學(xué)生票、優(yōu)惠票等)、換乘次數(shù)、乘距、乘車站數(shù)、乘車時(shí)間、換乘方式(站點(diǎn))等內(nèi)容。這些信息可以全面反映網(wǎng)絡(luò)客流的個(gè)人屬性以及出行路徑、出行距離、旅行時(shí)間、換乘效率等乘客出行特征,是運(yùn)輸企業(yè)優(yōu)化運(yùn)輸組織方案、優(yōu)化清分模型、優(yōu)化線網(wǎng)結(jié)構(gòu)、提升運(yùn)輸效率和服務(wù)水平的關(guān)鍵因素。相比于客運(yùn)量統(tǒng)計(jì),乘客特征統(tǒng)計(jì)是從微觀上挖掘軌道交通客流的潛在規(guī)律,分析乘客行為的原理,可以幫助提升軌道交通的服務(wù)質(zhì)量,滿足當(dāng)下社會(huì)愈來愈高的人性化要求。
一個(gè)有效的例子就是軌道交通管理者會(huì)根據(jù)不同客流類型(如乘距分布、通勤乘客比例、游客數(shù)量等)的客流量統(tǒng)計(jì)結(jié)果(見圖2),分析客流的偏好分布。可以結(jié)合聚類分析的方法合理區(qū)分出不同的乘客群體,總結(jié)概括每一類乘客群體的出行模式,針對(duì)不同的乘客群體制定相應(yīng)的個(gè)性化服務(wù)(如通勤月票、旅游計(jì)次票等),以增強(qiáng)軌道交通對(duì)乘客的吸引力。更進(jìn)一步,可以利用現(xiàn)代商品營(yíng)銷中的關(guān)聯(lián)規(guī)則,發(fā)現(xiàn)乘客各種特征屬性之間隱蔽的聯(lián)系,深入研究乘客的出行行為,這是常識(shí)分析和數(shù)據(jù)庫邏輯操作不能獲得的知識(shí),也許會(huì)給交通研究者帶來出乎預(yù)料的結(jié)果。
圖2 某市軌道交通客流乘距分布
2.1.3清算信息統(tǒng)計(jì)
清算信息統(tǒng)計(jì)是對(duì)軌道交通運(yùn)營(yíng)企業(yè)的財(cái)務(wù)收益情況進(jìn)行統(tǒng)計(jì),包含對(duì)賬類和結(jié)算類兩大類,結(jié)算類信息又可細(xì)分為售票類、消費(fèi)類、服務(wù)類、申訴及調(diào)整類等。清算信息能夠反映企業(yè)的利潤(rùn)盈虧,幫助軌道交通運(yùn)營(yíng)管理者了解企業(yè)的運(yùn)行狀態(tài),為企業(yè)制訂方案措施提供參考意見和評(píng)估標(biāo)準(zhǔn)。
對(duì)賬指清結(jié)算中心ACC與線路中心和一卡通公司的日常對(duì)賬,核查缺失、錯(cuò)誤、異常數(shù)據(jù)并將結(jié)果進(jìn)行匯總。在具體的工作中,對(duì)于缺失的數(shù)據(jù)一般通過使用相似的數(shù)據(jù)序列推測(cè)補(bǔ)齊數(shù)據(jù),而對(duì)于錯(cuò)誤、異常數(shù)據(jù)可以通過孤立點(diǎn)分析,查找數(shù)據(jù)中的噪聲,分析原因以改進(jìn)系統(tǒng)性能。結(jié)算信息指軌道交通企業(yè)各種資金收入渠道的匯總統(tǒng)計(jì),是企業(yè)經(jīng)濟(jì)效益的直接體現(xiàn)。將結(jié)算信息與軌道交通運(yùn)營(yíng)環(huán)境的改變(如票價(jià)變更、大小交路變更等)進(jìn)行關(guān)聯(lián)分析,能以量化的形式評(píng)價(jià)這種改變對(duì)企業(yè)效益的影響程度。
2.1.4票務(wù)信息統(tǒng)計(jì)
票務(wù)信息包括票卡流動(dòng)、票卡使用次數(shù)、票卡流失、庫存類、調(diào)配類、密鑰、票務(wù)綜合類等信息內(nèi)容。票務(wù)信息反映了軌道交通網(wǎng)絡(luò)上各級(jí)管理中心庫存狀態(tài)的變化和對(duì)票卡的需求,是軌道交通票務(wù)管理實(shí)施的基礎(chǔ)。
票卡的統(tǒng)計(jì)信息還能用于對(duì)AFC服務(wù)設(shè)施的分析。例如,統(tǒng)計(jì)不同類型票卡的客流量可以獲得在軌道交通出行中乘客選擇回收類票卡、非回收類票卡的數(shù)量和使用比例,軌道交通企業(yè)可以根據(jù)各種票卡的利用率信息判斷回收類票卡、售票機(jī)、充值窗口的數(shù)量是否滿足需求。
2.1.5設(shè)備狀況信息統(tǒng)計(jì)
設(shè)備狀況信息是對(duì)設(shè)備上傳的工作狀態(tài)日志進(jìn)行分析統(tǒng)計(jì),主要內(nèi)容包括設(shè)備故障信息和設(shè)備完好率。對(duì)于設(shè)備故障信息的統(tǒng)計(jì)一般從可靠度方面著手,通常是通過設(shè)備故障記錄得到設(shè)備的故障率、平均無故障工作時(shí)間、平均故障修復(fù)時(shí)間等指標(biāo)。城市軌道交通企業(yè)依據(jù)這些指標(biāo)可以優(yōu)化設(shè)備管理、合理配置維修人員以及為新添設(shè)備選擇廠家、型號(hào)提供參考意見??梢栽谠O(shè)備管理中心為每一臺(tái)設(shè)備分別建立工作檔案,更精確地監(jiān)視設(shè)備的工作狀態(tài),例如通過統(tǒng)計(jì)每次維修之間的無故障工作時(shí)間,觀察設(shè)備處于使用壽命周期的哪個(gè)階段,若一臺(tái)設(shè)備的無故障工作時(shí)間衰減得很快,則應(yīng)該考慮更換新設(shè)備。
2.2信息預(yù)測(cè)分析
相比單線運(yùn)營(yíng)模式,網(wǎng)絡(luò)化運(yùn)營(yíng)在客流與車流兩方面都更加復(fù)雜,配置協(xié)調(diào)的難度將大大增加。單純的數(shù)據(jù)統(tǒng)計(jì)只是從更高的層次反映軌道交通系統(tǒng)過去和當(dāng)前的運(yùn)營(yíng)狀態(tài),方便地鐵公司進(jìn)行信息搜索、閱讀,并不能提供其他更多的消息。而現(xiàn)代交通要實(shí)現(xiàn)智能化、自動(dòng)化的目標(biāo),對(duì)信息的全面性、實(shí)時(shí)性、動(dòng)態(tài)性、預(yù)測(cè)準(zhǔn)確性的要求較高,因此需要針對(duì)軌道交通網(wǎng)絡(luò)化運(yùn)營(yíng)特點(diǎn),運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)AFC原始數(shù)據(jù)和統(tǒng)計(jì)信息進(jìn)行深度挖掘,為城市軌道交通運(yùn)營(yíng)管理提供決策支持,以達(dá)到降低運(yùn)營(yíng)成本、提高城市軌道交通服務(wù)水平的目的。一般可以從以下幾方面進(jìn)行更深度的預(yù)測(cè)分析。
2.2.1客流預(yù)測(cè)分析
客流預(yù)測(cè)是根據(jù)AFC數(shù)據(jù)庫數(shù)據(jù)、客流統(tǒng)計(jì)數(shù)據(jù)、乘客特征數(shù)據(jù)和通過客流調(diào)查等得到的客流影響因素信息,比較選擇適當(dāng)?shù)念A(yù)測(cè)方法對(duì)客流進(jìn)行預(yù)測(cè),發(fā)掘客流的內(nèi)在規(guī)律性,做出有價(jià)值的發(fā)展趨勢(shì)分析,并對(duì)預(yù)測(cè)結(jié)果進(jìn)行分析評(píng)價(jià),最終為運(yùn)營(yíng)評(píng)估、應(yīng)急處置以及其他信息系統(tǒng)提供支持,為運(yùn)營(yíng)管理部門和政府決策部門日常運(yùn)輸組織提供決策參考。
軌道交通客流預(yù)測(cè)的具體內(nèi)容有很多,從預(yù)測(cè)的時(shí)間長(zhǎng)度上來講有短時(shí)預(yù)測(cè)、短期預(yù)測(cè)和長(zhǎng)期預(yù)測(cè)。短時(shí)預(yù)測(cè)(15min以內(nèi))能夠?yàn)檐壍澜煌ㄆ髽I(yè)提供比較實(shí)時(shí)的客流變化信息,幫助企業(yè)準(zhǔn)確把握客流變化規(guī)律;短期預(yù)測(cè)還有日、周、季節(jié)流量變化預(yù)測(cè),能夠幫助企業(yè)準(zhǔn)確編制運(yùn)輸計(jì)劃;長(zhǎng)期預(yù)測(cè)一般是對(duì)軌道交通線路或者線網(wǎng),未來以年為計(jì)量單位的客流量進(jìn)行預(yù)測(cè),為城市軌道交通線網(wǎng)和城市發(fā)展的規(guī)劃提供決策支持。另外,從預(yù)測(cè)客流的形式可分為站點(diǎn)客流預(yù)測(cè)、斷面客流預(yù)測(cè)和站間OD客流預(yù)測(cè),從預(yù)測(cè)方法的輸入數(shù)據(jù)實(shí)時(shí)性可將流量預(yù)測(cè)分為靜態(tài)預(yù)測(cè)和動(dòng)態(tài)預(yù)測(cè),從客流的規(guī)律性可分為常態(tài)客流預(yù)測(cè)和非常態(tài)客流預(yù)測(cè),而按照預(yù)測(cè)方法的不同則可分為線性預(yù)測(cè)、非線性預(yù)測(cè)和組合預(yù)測(cè),需要從預(yù)測(cè)的目標(biāo)出發(fā)選擇合適的輸入數(shù)據(jù)模式、預(yù)測(cè)方法,從而得到預(yù)期的結(jié)果。
以進(jìn)站客流的短時(shí)預(yù)測(cè)為例,闡述客流預(yù)測(cè)數(shù)據(jù)挖掘應(yīng)用。一種簡(jiǎn)單方法是運(yùn)用分類分析的原理,按照是否為節(jié)假日、一周內(nèi)的第幾天、是否下雨等特征進(jìn)行分類,確定分類界限,然后選取足夠的歷史數(shù)據(jù)樣本進(jìn)行訓(xùn)練,通過有效性檢驗(yàn)后就可對(duì)未來的短時(shí)客流進(jìn)行預(yù)測(cè)。分類的方法操作簡(jiǎn)單、便于理解,同時(shí)也具有一定的預(yù)測(cè)準(zhǔn)確度,但在軌道交通發(fā)展成熟之前,客流量隨時(shí)間會(huì)有增長(zhǎng)的趨勢(shì)并伴隨不確定性,因此可以運(yùn)用時(shí)間序列法(例如SARIMA模型)進(jìn)行預(yù)測(cè),這種方法是從時(shí)間角度對(duì)客流的特性進(jìn)行分析,在按設(shè)定的時(shí)間間隔統(tǒng)計(jì)歷史數(shù)據(jù)的基礎(chǔ)上,建立SARIMA模型發(fā)現(xiàn)預(yù)測(cè)值與歷史數(shù)據(jù)的線性關(guān)系來進(jìn)行預(yù)測(cè)。為了得到更優(yōu)的預(yù)測(cè)結(jié)果,還可根據(jù)SARIMA模型提取歷史數(shù)據(jù)中與預(yù)測(cè)值相關(guān)的特征,再運(yùn)用支持向量機(jī)(SVM)方法預(yù)測(cè),以提高預(yù)測(cè)精度(見圖3)。
圖3 SARIMA與SARIMA+OLSVM兩種模型的進(jìn)站客流短時(shí)預(yù)測(cè)[10]
在客流預(yù)測(cè)的基礎(chǔ)上,還可以做更多的挖掘工作,例如分析客流不確定性有助于提高軌道交通客流預(yù)測(cè)的可靠性和可信度,以及對(duì)高峰客流持續(xù)時(shí)間進(jìn)行預(yù)測(cè)可以實(shí)現(xiàn)優(yōu)化列車行車計(jì)劃、提高運(yùn)營(yíng)服務(wù)質(zhì)量等方面的效果。
2.2.2線網(wǎng)客流分布估計(jì)
軌道交通采用的無縫換乘方式方便了出行者的換乘,同時(shí)也增加了精確分析乘客出行路徑的難度。線網(wǎng)客流分布估計(jì)依托列車運(yùn)行數(shù)據(jù)、AFC系統(tǒng)的客流數(shù)據(jù)和客流調(diào)查相關(guān)數(shù)據(jù)等,模擬乘客出行路徑選擇行為,實(shí)現(xiàn)對(duì)換乘客流線網(wǎng)時(shí)空分布規(guī)律的描述。
發(fā)達(dá)的軌道交通線網(wǎng)可能具有多個(gè)運(yùn)營(yíng)主體,為公平、合理地保障合作運(yùn)營(yíng)模式下各運(yùn)營(yíng)商的利益,就要采用合理的票務(wù)清分規(guī)則,而票務(wù)清分的核心內(nèi)容是較為準(zhǔn)確地估計(jì)線網(wǎng)上客流的分布。軌道交通票務(wù)清分的挖掘可以分為兩個(gè)主要部分內(nèi)容,確定網(wǎng)絡(luò)上OD對(duì)間可選路徑和建立客流出行路徑選擇概率模型[11]。前者一般是基于圖論的原理,選擇OD對(duì)間最短的數(shù)條路徑作為備選有效路徑,后者多是綜合路徑長(zhǎng)度、行程時(shí)間、換乘次數(shù)等因素建立路阻函數(shù),在此基礎(chǔ)上建立數(shù)學(xué)模型,模擬乘客的選擇行為,得到各路徑的選擇概率,建模的方法不一而足,一般采用的有概率選擇模型、Logit模型、博弈論模型等。最終,可以從線網(wǎng)上客流的分布規(guī)律中提取出線網(wǎng)客流清分比例表,據(jù)此實(shí)現(xiàn)票務(wù)收益的合理清分,根據(jù)線網(wǎng)客流分布還可以實(shí)時(shí)推算復(fù)雜線網(wǎng)的斷面客流和進(jìn)行站間OD矩陣的動(dòng)態(tài)預(yù)測(cè)。
2.2.3票務(wù)管理支持
票務(wù)管理支持是在票務(wù)統(tǒng)計(jì)信息之上進(jìn)行綜合分析和預(yù)測(cè),從而科學(xué)地管理票卡,主要包括各類票卡使用量預(yù)測(cè)、回收率票卡流失預(yù)測(cè)、票卡跟蹤信息分析等。與客流預(yù)測(cè)類似,票卡的預(yù)測(cè)也可以基于歷史票務(wù)統(tǒng)計(jì)數(shù)據(jù)使用時(shí)間序列模型進(jìn)行預(yù)測(cè),或者與其他的方法相結(jié)合以提高預(yù)測(cè)的精度(見圖4)。準(zhǔn)確的預(yù)測(cè)結(jié)果能讓票卡庫存、調(diào)配、采購(gòu)的數(shù)量更加符合軌道交通企業(yè)運(yùn)營(yíng)的需求,合理地節(jié)省企業(yè)的開支。票卡跟蹤信息分析是對(duì)票卡的流通、交易、充值等信息進(jìn)行挖掘分析,及時(shí)提醒銷毀無效票卡,以及跟蹤異常使用票卡等,保證票卡的安全性。
圖4 回收類/非回收類票卡比例預(yù)測(cè)
數(shù)據(jù)挖掘從20世紀(jì)90年代正式被提出,到現(xiàn)在不過短短20多年的歷史,如今正方興未艾,其巨大的應(yīng)用價(jià)值及潛力吸引了眾多研究者和管理者的關(guān)注。在大力建設(shè)智慧交通潮流的影響下,城市軌道交通近些年也開始將數(shù)據(jù)挖掘技術(shù)引入到運(yùn)營(yíng)管理中來,以提高軌道交通的管理水平和智能化程度。
本文從整體上簡(jiǎn)要闡述數(shù)據(jù)挖掘的原理,包括數(shù)據(jù)挖掘的任務(wù)、數(shù)據(jù)挖掘處理的過程以及一些數(shù)據(jù)挖掘技術(shù)常用到的方法。在此基礎(chǔ)上,從統(tǒng)計(jì)分析和信息預(yù)測(cè)分析兩個(gè)層面探討了數(shù)據(jù)挖掘技術(shù)在城市軌道交通中的應(yīng)用途徑,并通過列舉實(shí)例說明了數(shù)據(jù)挖掘在軌道交通中應(yīng)用的可行性,旨在為軌道交通運(yùn)營(yíng)企業(yè)提供參考。
[1] Han J, Kamber M.Data mining:concepts and techniques[M].2nd ed.San Francisco C.A:Morgan Kaufmann,2006.
[2] 劉君強(qiáng).海量數(shù)據(jù)挖掘技術(shù)研究[D].杭州:浙江大學(xué),2003.
[3] 董焰,單連龍.中國(guó)城市軌道交通未來十年發(fā)展趨勢(shì)及政策導(dǎo)向[J].城市軌道交通研究,2004,7(3):6-9.
[4] 夏幼明,解敏,周雯.?dāng)?shù)據(jù)挖掘方法分析與評(píng)價(jià)[J]. 云南師范大學(xué)學(xué)報(bào),2003,23(2):8-16.
[5] 何彬彬,方濤,郭達(dá). 不確定性空間數(shù)據(jù)挖掘算法模型[J].中國(guó)礦業(yè)大學(xué)學(xué)報(bào),2007,36(1):121-125.
[6] 王愛平,王占鳳,陶嗣干,等.?dāng)?shù)據(jù)挖掘中常用關(guān)聯(lián)規(guī)則挖掘算法[J] .計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(4):105-108.
[7] 譚立云,高學(xué)東,武森.?dāng)?shù)據(jù)挖掘方法與應(yīng)用[J]. 華北科技學(xué)院學(xué)報(bào),2004,1(2):52-55.
[8] 姚國(guó)華,陳瑩,張寧.城市軌道交通AFC系統(tǒng)總體業(yè)務(wù)規(guī)劃[J].都市快軌交通,2011,24(4):61-64.
[9] 陳瑩.城市軌道交通運(yùn)行狀況評(píng)估研究[D].南京:東南大學(xué),2011.
[10] 王雪梅.城市軌道交通常態(tài)與非常態(tài)短時(shí)客流預(yù)測(cè)[D].南京:東南大學(xué),2013.
[11] 戴潔.基于博弈論及離散概率選擇的軌道交通清分算法研究[D].南京:東南大學(xué),2013.
(編輯:郝京紅)
Application of Data Mining for Urban Rail Transit Automatic Fare Collection
Shi Zhuangbin1Lu Wenxue2Zhang Ning2
(1. ITS Institute of Ministry of Education, Southeast University, Nanjing 210018; 2. Suzhou Railway Co., Ltd., Suzhou Jiangsu 215006)
In order to improve the operation and management level of urban rail transit and to bring economic benefits and social benefits of rail transit enterprises, this article mainly discusses the potential and the value of applying data mining in rail transit automatic fare collection. This paper firstly analyzes the lack of data utilization in current AFC system. Secondly, it roughly introduces the basic principles of data mining through the analysis of the categories, processes and common methods of data mining. Finally, from the perspective of the demands in both statistics and forecasting in operational management, the prospect of applying data mining technology in passenger flow, ticketing, revenue, equipment, etc. of urban rail transit was discussed in depth and its feasibility is verified through of practical application cases.
rail transit; data mining; operations management; statistical; forecasting of passenger flow; ticket
10.3969/j.issn.1672-6073.2015.01.007
2014-04-02
2014-06-03
石莊彬,男,碩士研究生,研究方向?yàn)檐壍澜煌üこ?,shizhuangbin@gmail.com
蘇州市科技計(jì)劃項(xiàng)目(ZXJ0801)
U29-39;U293.22
A
1672-6073(2015)01-0023-05