張素潔
摘要:通過對杭州地鐵2019年1月1日到2019年1月25日的地鐵刷卡數(shù)據(jù)進行分析,根據(jù)進出站高峰小時系數(shù)和站點位置將80個站點分為居住、工作、交通場站和混合類型四類。不同類型的車站早高峰晚高峰進出站高峰小時系數(shù)均不相同。對不同地鐵線路的換乘量進行分析發(fā)現(xiàn)3號線換乘量比例最高,占其出站人數(shù)的77.7%。使用機器學(xué)習(xí)方法(隨機森林和lightgbm)對不同站點每小時的進出站人數(shù)進行預(yù)測,平均相對誤差均值為9.0%。表現(xiàn)出較強的可預(yù)測性。
Abstract: Based on subway card data of Hangzhou metro on January 1, 2019 to January 25, 2019, according to the inbound and outbound of the station peak hour coefficient and site location, 80 stations can be divided into living, working, traffic hub and the mixed type four categories. Different types of station morning peak and evening peak inbound and outbound of the station peak hour coefficient are not the same. By analyzing the transfer volume of different subway lines, it is found that the transfer volume of line 3 is the highest, accounting for 77.7% of the number of people leaving the station. The machine learning method (Randomforest and Lightgbm) is used to predict the number of people entering and leaving the station at different stations per hour. The average mean absolute percentage error(MAPE) is 9.0%, showing strong predictability.
關(guān)鍵詞:客流預(yù)測;機器學(xué)習(xí);隨機森林;lightgbm
Key words: passenger flow prediction;machine learning;randomforest;lightgbm
0? 引言
地鐵因在綠色、環(huán)保和運量等方面領(lǐng)先于其他城市公共交通方式,成為各大城市優(yōu)先發(fā)展的交通方式。隨著新建成線路的投入運營.線網(wǎng)規(guī)模的日益擴大和運輸組織形式的日益復(fù)雜,地鐵客流的安全形勢日益嚴(yán)峻、根據(jù)客流量的變化并及時采取相應(yīng)措施對地鐵的客流進行有效疏通,這對運營組織提出了更高的要求[1]。
分析地鐵客流的特征,尋找主要特征,建立模型預(yù)測客流量變化,并啟動相應(yīng)的預(yù)案,提高地鐵運營組織的靈活性和多樣性,充分發(fā)揮設(shè)施設(shè)備能力,確保運營安全。國內(nèi)外的研究人員已經(jīng)提出了諸多理論和方法,以實現(xiàn)連續(xù)交通流狀態(tài)的實時預(yù)測,主要包括基于歷史平均、基于序列方法(例如SARIMA模型)[2]、基于機器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)方法[3]、K-近鄰方法[1]、支持向量機方法[4]等,其中每一類預(yù)測方法又包含若干種預(yù)測模型。
由于地鐵客流具有很大的隨機性,基于機器學(xué)習(xí)的方法擅長處理此類數(shù)據(jù),因此本文采用天池提供的杭州市地鐵2019年1月1日到2019年1月26日的地鐵刷卡數(shù)據(jù),進行以小時為單位對總進出站客流量的統(tǒng)計、分析與研究,利用Python語言和隨機森林模型、Lightgbm模型對進出站客流量進行預(yù)測。
1? 方法與數(shù)據(jù)
1.1 模型介紹
隨機森林是一種集成算法(Ensemble Learning),它屬于Bagging類型,通過組合多個弱分類器,最終結(jié)果通過投票或取均值,使得整體模型的結(jié)果具有較高的精確度和泛化性能。
Bagging也叫自舉匯聚法(bootstrap aggregating),是一種在原始數(shù)據(jù)集上通過有放回抽樣重新選出k個新數(shù)據(jù)集來訓(xùn)練分類器的集成技術(shù)。隨機森林的弱分類器使用的是CART樹,CART決策樹又稱分類回歸樹。當(dāng)數(shù)據(jù)集的因變量為連續(xù)性數(shù)值時,該樹算法就是一個回歸樹,可以用葉節(jié)點觀察的均值作為預(yù)測值;當(dāng)數(shù)據(jù)集的因變量為離散型數(shù)值時,該樹算法就是一個分類樹,可以很好的解決分類問題。CART樹選擇使子節(jié)點的GINI值或者回歸方差最小的屬性作為分裂的方案。
Lightgbm是基于GBDT的樹回歸,通過迭代多棵樹來共同決策其核心就在于,每一棵樹學(xué)的是之前所有樹結(jié)論和的殘差,這個殘差就是一個加預(yù)測值后能得真實值的累加量。Lightgbm模型在運行速度、內(nèi)存使用、準(zhǔn)確率和并行學(xué)習(xí)等多方面進行了優(yōu)化。其計算速度快,結(jié)果優(yōu)異。模型采用絕對平均誤差(MAE)和絕對相對誤差(MAPE)進行評價。
1.2 數(shù)據(jù)介紹
數(shù)據(jù)來源于天池大賽,包含20190101至20190125共25天地鐵刷卡數(shù)據(jù)記錄,共涉及3條線路80個地鐵站約7000萬條數(shù)據(jù)。數(shù)據(jù)字段包括刷卡時間、線路ID、站點ID、刷卡設(shè)備號ID、用戶ID、進出站狀態(tài)和刷卡類型。
2? 結(jié)果
2.1 客流特征分析
全網(wǎng)進站早高峰高峰小時系數(shù)出現(xiàn)在上午8:00-9:00,占全天進站量的11.1%,晚高峰高峰小時系數(shù)出現(xiàn)在17:00-18:00占全天進站量的9.3%。全網(wǎng)出站早高峰高峰小時系數(shù)出現(xiàn)在上午8:00-9:00,占全天進站量的11.4%,晚高峰高峰小時系數(shù)出現(xiàn)在18:00-19:00占全天進站量的9.4%(圖1)。早高峰的出行量比晚高峰的出行量大。上午7:00-9:00,下午17:00-19:00的出行量占全天出行量的52.4%左右,需要重點關(guān)注。分析換乘客流發(fā)現(xiàn)發(fā)現(xiàn)3號線出站流量換乘比例最高,占其出站人數(shù)的77.7%(圖2)。
所有線路進站量的時間分布呈現(xiàn)駝峰型,全網(wǎng)客流高峰較為集中。所有線路的早高峰出站人數(shù)均大于晚高峰,但晚高峰的持續(xù)時間長于早高峰(圖3)。分析每個車站的進站人數(shù),發(fā)現(xiàn)不同車站間的變化很大。依據(jù)高峰小時系數(shù)和站點周圍信息將站點分為4類。將工作日晚高峰入站人數(shù)小時系數(shù)形成當(dāng)日峰值的站點定義為工作類站點,將工作日早高峰入站人數(shù)小時系數(shù)形成當(dāng)日峰值的站點定義為居住類站點,將站點位于火車站或醫(yī)院附近的站點定義為交通場站類。不同類別間進站量的時間分布如(圖4)。圖中編號15和9的為杭州火車站和杭州火車東站。
綜合以上信息在建模預(yù)測中,主要考慮歷史客流特征,預(yù)測日的前一日和上周的同星期的時間段的數(shù)據(jù),站點的類別特征和時間特征包括是否是工作日等。另外短時客流預(yù)測受前一日數(shù)據(jù)影響最大。所以采用將模型預(yù)測結(jié)果與前一日數(shù)據(jù)進行線性融合,進一步提高預(yù)測準(zhǔn)確度。
2.2 模型預(yù)測結(jié)果
選取2019年1月24(周四)、2019年1月25(周五)和1月20(周日)數(shù)據(jù)作為測試集,其中2019年1月24(周四)作為線性融合的測試集,其余數(shù)據(jù)作為訓(xùn)練集,對原始數(shù)據(jù)按小時進行匯整,特征包括前一日進出站人數(shù)和前一周同星期進出站人數(shù),分工作日和周末,使用Lightgbm和隨機森林分別建模。預(yù)測站點的進出站人數(shù),然后利用前一日數(shù)據(jù)和預(yù)測結(jié)果進行線性融合。結(jié)果如圖(圖5,表1)。測試結(jié)果顯示工作日和休息日客流預(yù)測值的平均絕對誤差均值為71.2人,平均相對誤差均值為9.0%。最大平均相對誤差均小于12.5%,保持在較小的水平。因此說明,擬合得到的模型能夠較好地預(yù)測客流的波動。Lightgbm模型結(jié)果優(yōu)于隨機森林。同時線性融合能提高模型的準(zhǔn)確度,說明前一日數(shù)據(jù)對預(yù)測日短時客流影響最大。
3? 結(jié)論
①經(jīng)過對個站點客流量的分析發(fā)現(xiàn)不同的站點客流量差異較大,同一站點不同時段差異也很明顯,可根據(jù)這些數(shù)據(jù)靈活的制定應(yīng)對措施,保證地鐵安全運營。
②Lightgbm模型和隨機森林模型可以很好的預(yù)測客流量的隨機變化,能較準(zhǔn)確的預(yù)測客流量的短時變化,值得的在應(yīng)用中推廣。
參考文獻:
[1]林培群,陳麗甜,雷永巍.基于K近鄰模式匹配的地鐵客流量短時預(yù)測[J].華南理工大學(xué)學(xué)報(自然科學(xué)版),2018,46(01):50-57.
[2]王瑩,韓寶明,張琦,李得偉.基于SARIMA模型的北京地鐵進站客流量預(yù)測[J].交通運輸系統(tǒng)工程與信息,2015,15(06):205-211.
[3]李梅,李靜,魏子健,王思達,陳賴謹(jǐn).基于深度學(xué)習(xí)長短期記憶網(wǎng)絡(luò)結(jié)構(gòu)的地鐵站短時客流量預(yù)測[J].城市軌道交通研究,2018,21(11):42-46,77.
[4]謝俏,葉紅霞.基于支持向量機的節(jié)假日進出站客流預(yù)測方法[J].城市軌道交通研究,2018,21(08):26-29,35.