錢(qián)慧敏,徐海輝,翁劍成,李 靜,王亞朝
(1.北京市交通運(yùn)行監(jiān)測(cè)調(diào)度中心,北京 100161;2.綜合交通運(yùn)行監(jiān)測(cè)與服務(wù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100161;3.北京工業(yè)大學(xué)交通工程重點(diǎn)實(shí)驗(yàn)室,北京 100024)
隨著人們對(duì)豐富精神生活追求的需求日益突出,以文藝活動(dòng)、體育賽事、展覽展銷(xiāo)為代表的大型活動(dòng)在各大城市頻繁舉辦,滿(mǎn)足人們對(duì)豐富精神生活追求的同時(shí)也帶來(lái)了一系列問(wèn)題.活動(dòng)的舉辦需要參與者在短時(shí)間內(nèi)完成集散,因此活動(dòng)前后將對(duì)周邊公共交通、路網(wǎng)、出租車(chē)及慢行交通的正常運(yùn)行造成極大壓力,并且極易引發(fā)大客流擁堵.與此同時(shí),地鐵作為目前城市交通出行的重要工具之一,活動(dòng)開(kāi)展會(huì)導(dǎo)致周邊受影響的地鐵站客流出現(xiàn)巨幅增長(zhǎng),極易引發(fā)大客流對(duì)沖而導(dǎo)致?lián)砣?,造成安全隱患.因此,地鐵運(yùn)營(yíng)部門(mén)和公安機(jī)關(guān)亟須通過(guò)流量預(yù)測(cè)技術(shù)了解大客流發(fā)生的時(shí)段、規(guī)模,提前部署相應(yīng)運(yùn)力及安保策略,保障市民安全出行.
現(xiàn)階段關(guān)于軌道客流預(yù)測(cè)相關(guān)的研究,主流仍是采用四階段法為基礎(chǔ)的需求預(yù)測(cè)模型或者是基于行為分析的概率模型[1].20世紀(jì)60年代,文獻(xiàn)[2-3]首先進(jìn)行了嘗試,提出了交通分布和交通分配的組合模型,并給出了求解算法.熊杰等[4]提出了基于歷史數(shù)據(jù),然后基于Kalman濾波、灰色關(guān)聯(lián)分析方法預(yù)測(cè)客流量.而現(xiàn)階段關(guān)于大型活動(dòng)相關(guān)的研究更多的是針對(duì)奧運(yùn)會(huì)、世園會(huì)等級(jí)別高、影響大的大型活動(dòng).Karlaftis等[5]建立了針對(duì)大型活動(dòng)的交通決策支持系統(tǒng)和輔助公交優(yōu)化模型,并在2004年雅典奧運(yùn)會(huì)中成功應(yīng)用.王田田[6]從政策、票務(wù)、區(qū)位等方面分析青島世園會(huì)影響客流規(guī)模的因素,并從月分布特征、高峰小時(shí)客流等指標(biāo)對(duì)入園客流特征進(jìn)行刻畫(huà).劉淼[7]主要從時(shí)間、空間分布特征入手,結(jié)合天氣、票務(wù)政策、游客心理等因素進(jìn)行分析,對(duì)比總結(jié)上海世博會(huì)的入園月變、周變、時(shí)變客流特征.林文聞[8]以上海世博會(huì)為例,利用基本數(shù)理統(tǒng)計(jì)工具和方法,對(duì)入口進(jìn)行單獨(dú)分析,從而總結(jié)了世博客流在各個(gè)入口的分布特征.錢(qián)慧敏等[9]分析了北京園博會(huì)客流特征,并定量化闡述了氣溫、降雨、日期屬性等因素對(duì)活動(dòng)客流的影響.
現(xiàn)階段關(guān)于大型活動(dòng)的研究更多是關(guān)注世界及國(guó)家層面的活動(dòng),而針對(duì)頻繁在城市內(nèi)舉辦的體育賽事活動(dòng)、文藝演出等大型活動(dòng)的研究較少.本研究將以城市內(nèi)舉辦的體育賽事活動(dòng)為切入點(diǎn),通過(guò)AFC數(shù)據(jù)鑒別活動(dòng)影響范圍,利用數(shù)據(jù)驅(qū)動(dòng),發(fā)現(xiàn)活動(dòng)前后軌道站點(diǎn)進(jìn)出站客流的時(shí)變特征,進(jìn)一步剖析類(lèi)型、天氣、節(jié)假日、時(shí)段等諸多因素對(duì)客流的影響,并構(gòu)建基于梯度下降決策樹(shù)的大型活動(dòng)周邊軌道站點(diǎn)影響時(shí)段內(nèi)客流預(yù)測(cè)模型.
收集2016—2018年北京市共計(jì)109場(chǎng)體育賽事活動(dòng)信息,涉及工人體育場(chǎng)及凱迪拉克中心兩大場(chǎng)館,包括中超聯(lián)賽(CSL)及中國(guó)男籃聯(lián)賽(CBA).其中超聯(lián)賽44場(chǎng),中國(guó)男籃聯(lián)賽65場(chǎng).大型活動(dòng)數(shù)據(jù)主要包含大型活動(dòng)舉辦日期、星期、天氣、活動(dòng)名稱(chēng)、主場(chǎng)隊(duì)伍、客場(chǎng)隊(duì)伍、舉辦場(chǎng)館及活動(dòng)時(shí)間,如表1所示.提取活動(dòng)開(kāi)展當(dāng)日、前一日及上周同期的AFC刷卡數(shù)據(jù),刷卡數(shù)據(jù)主要包含進(jìn)站線(xiàn)路編號(hào)、進(jìn)站站點(diǎn)編號(hào)、出站線(xiàn)路編號(hào)、出站站點(diǎn)編號(hào)、進(jìn)站時(shí)間、出站時(shí)間等共15個(gè)字段,字段說(shuō)明見(jiàn)表2.
表1 體育賽事大型活動(dòng)樣例數(shù)據(jù)
表2 AFC刷卡數(shù)據(jù)字段說(shuō)明
活動(dòng)期間周邊軌道站點(diǎn)客流主要由兩部分組成:背景客流和誘增客流.背景客流[10]可通過(guò)分析吸引范圍內(nèi)的土地利用、社會(huì)經(jīng)濟(jì)、公交服務(wù)等因素,直接估計(jì)站點(diǎn)和分析進(jìn)出站客流量,也可基于時(shí)間序列、小波分析等相關(guān)模型進(jìn)行預(yù)測(cè).本文的研究對(duì)象是體育賽事類(lèi)大型活動(dòng),活動(dòng)時(shí)間和舉辦場(chǎng)所相對(duì)固定,因此需要明確受其影響的軌道站點(diǎn)及時(shí)段.
對(duì)比活動(dòng)期間周邊軌道站點(diǎn)客流數(shù)據(jù)與同時(shí)期無(wú)大型活動(dòng)軌道站點(diǎn)客流發(fā)現(xiàn),凱迪拉克場(chǎng)館影響到地鐵五棵松站,工人體育場(chǎng)周邊受影響軌道站點(diǎn)較多,分別為東四十條、團(tuán)結(jié)湖及東大橋.由此可發(fā)現(xiàn),受影響站點(diǎn)均為場(chǎng)館周邊不同軌道線(xiàn)路距離場(chǎng)館最近的站點(diǎn),如圖1所示.
圖1 場(chǎng)館周邊受影響軌道站點(diǎn)分布圖
從工人體育場(chǎng)舉辦的中超聯(lián)賽對(duì)周邊軌道站點(diǎn)客流的影響究中發(fā)現(xiàn),站點(diǎn)出站客流在活動(dòng)開(kāi)始前2.5 h出現(xiàn)增長(zhǎng),進(jìn)站客流在活動(dòng)結(jié)束后1 h內(nèi)客流有明顯增長(zhǎng).出站客流峰值一般出現(xiàn)在活動(dòng)開(kāi)始前1 h,15 min出站客流較無(wú)大型活動(dòng)增幅300%,達(dá)1 726人次圖2(a);進(jìn)站客流峰值出現(xiàn)在活動(dòng)結(jié)束后0.5 h,15 min出站客流可達(dá)2 395人次圖2(b).
圖2 場(chǎng)館周邊軌道站點(diǎn)客流受影響時(shí)段分析圖
活動(dòng)客流受諸多因素影響,總體可分為活動(dòng)屬性因素(內(nèi)因)與客觀(guān)因素(外因)兩大類(lèi).其中活動(dòng)內(nèi)因主要有活動(dòng)類(lèi)型、主客場(chǎng)隊(duì)伍等;活動(dòng)外因有活動(dòng)舉辦期間的氣候、日期屬性等因素.它們都會(huì)對(duì)活動(dòng)客流水平造成影響.
3.3.1 軌道站點(diǎn)
當(dāng)場(chǎng)館周邊受影響站點(diǎn)為多個(gè)站點(diǎn)時(shí),因各線(xiàn)路走勢(shì)、影響范圍及站點(diǎn)距離場(chǎng)館的距離均不相同,可發(fā)現(xiàn)各軌道站點(diǎn)客流特征并不相同.如工體周邊受影響3個(gè)站點(diǎn)就存在差異,受影響最大的站點(diǎn)為東大橋,其次為東四十條,影響最小的為團(tuán)結(jié)湖站(圖3).
圖3 不同受影響軌道站點(diǎn)客流分布
3.3.2 天氣狀況
天氣狀況對(duì)室外活動(dòng)開(kāi)展有顯著影響,當(dāng)出現(xiàn)大降水時(shí),客流將明顯減少,并且降雨越大對(duì)客流的減少越明顯[9].對(duì)于預(yù)約購(gòu)票的大型活動(dòng),特殊天氣不會(huì)對(duì)客流水平造成過(guò)多影響,因此對(duì)特殊天氣下的交通系統(tǒng)應(yīng)急保障提出更高要求.基于最小顯著性差異分析方法發(fā)現(xiàn),多云和小雨天氣情況下客流是沒(méi)有顯著差異的;小雨和多云、中雨、晴天及雷陣雨均不存在差異;多云、晴天及雷陣雨三者間客流則均存在顯著差異(表3).
表3 站點(diǎn)客流量根據(jù)天氣情況多重比較結(jié)果
3.3.3 日期屬性
對(duì)于大型活動(dòng)而言,雙休日和法定節(jié)假日通常會(huì)出現(xiàn)較大幅度的客流增長(zhǎng)(表4).不同日期屬性條件下,即工作日、雙休日、節(jié)假日條件下,大型活動(dòng)客流特征及規(guī)律呈現(xiàn)不同的特點(diǎn).基于最小顯著性差異分析方法發(fā)現(xiàn),工作日、節(jié)假日、雙休日活動(dòng)客流存在顯著性差異,而雙休日和節(jié)假日間并沒(méi)有顯著性差異.
表4 站點(diǎn)客流量根據(jù)日期屬性多重比較結(jié)果
3.3.4 活動(dòng)類(lèi)型
體育賽事活動(dòng)包含足球、籃球、排球、網(wǎng)球等多種類(lèi)型,各類(lèi)型活動(dòng)在各國(guó)受歡迎程度均不同.本文獲得了在北京舉辦的中超聯(lián)賽及CBA聯(lián)賽.通過(guò)分析發(fā)現(xiàn),盡管?chē)?guó)內(nèi)觀(guān)眾對(duì)國(guó)足在國(guó)際賽場(chǎng)的表現(xiàn)失望,但其受歡迎程度仍高于CBA聯(lián)賽.
3.3.5 主、客場(chǎng)隊(duì)伍
主、客場(chǎng)隊(duì)伍均有各自的粉絲,其擁有的粉絲越多則觀(guān)眾會(huì)越多.廣州恒大、上海上崗及山東魯能是大家熟知的國(guó)內(nèi)中超聯(lián)賽的強(qiáng)隊(duì),對(duì)比發(fā)現(xiàn)其吸引的客流明顯高于其他隊(duì)伍,不同知名度及實(shí)力客隊(duì)伍的誘增客流有顯著的差異(圖4).本文僅獲取了北京賽事數(shù)據(jù),主場(chǎng)隊(duì)伍均為國(guó)安,但由客場(chǎng)隊(duì)伍的差異推斷,不同主場(chǎng)隊(duì)伍所吸引的客流也將存在明顯差異.
圖4 不同客場(chǎng)隊(duì)伍情況下誘增客流
3.3.6 距離活動(dòng)開(kāi)始、結(jié)束時(shí)間
由圖2、圖3可發(fā)現(xiàn),觀(guān)眾于活動(dòng)開(kāi)始前2.5 h抵達(dá),于活動(dòng)結(jié)束后1 h內(nèi)離場(chǎng),在這兩個(gè)時(shí)間段內(nèi),將產(chǎn)生極高的交通需求.在這2個(gè)時(shí)間內(nèi)客流分布也是不同的,活動(dòng)開(kāi)始前2 h至活動(dòng)開(kāi)始前30 min出站客流在不斷增加,隨后衰減,結(jié)束后客流也有相似特征.而本文的預(yù)測(cè)最小單位為15 min,因此其在預(yù)測(cè)模型中也是極其重要的一個(gè)參數(shù)指標(biāo).
GBDT(gradient boosting decision tree)又叫MAR是一種迭代的決策樹(shù)算法,其學(xué)習(xí)機(jī)制是共迭代構(gòu)建M個(gè)不同的個(gè)體決策樹(shù),h(x,a1),…,h(x,aM),其中第n個(gè)決策樹(shù)可表示為:
fn(x)=fn-1(x)+βnh(x;an)
(1)
式中:fn-1(x)為從第1個(gè)決策樹(shù)到第(n-1)個(gè)決策樹(shù);βn為第n棵樹(shù)的節(jié)點(diǎn)權(quán)重.假設(shè)第n-1輪迭代得到的學(xué)習(xí)器為fn-1(x),損失函數(shù)為L(zhǎng)(x,fn-1(x)),那么第n輪迭代的目標(biāo)就是找到一個(gè)βnh(x;an),使本輪的損失函數(shù)L(x,fn-1(x))最小.
梯度提升決策樹(shù)的回歸算法如下:
輸入訓(xùn)練樣本集
T={(x,y1),(x,y2),…,(xm,ym)}.
1)初始化弱學(xué)習(xí)器
(2)
2)對(duì)迭代輪數(shù)i=1,2,…,T有:
a)對(duì)樣本i=1,2,…,m,計(jì)算負(fù)梯度
(3)
b)利用(xi,τit)(i=1,2,…,m),擬合一棵CART回歸樹(shù),得到第t棵回歸樹(shù),其對(duì)應(yīng)的葉子節(jié)點(diǎn)區(qū)域?yàn)閖,j=1,2,…,J.其中J為回歸樹(shù)t的葉子節(jié)點(diǎn)個(gè)數(shù).
c)對(duì)葉子區(qū)域j=1,2,…,J,計(jì)算最佳擬合值
(4)
d)更新學(xué)習(xí)器
(5)
得到強(qiáng)學(xué)習(xí)器f(x)的表達(dá)式
(6)
收集2016—2018年北京市共計(jì)109場(chǎng)中超聯(lián)賽和CBA聯(lián)賽體育賽事活動(dòng)信息,為了提高模型泛化程度,防止過(guò)擬合現(xiàn)象,將前70%日期的數(shù)據(jù)作為訓(xùn)練集,后30%作為測(cè)試集進(jìn)行模型訓(xùn)練.
在具體預(yù)測(cè)中需要將訓(xùn)練集的影響因素進(jìn)行標(biāo)準(zhǔn)化處理,以表5為標(biāo)準(zhǔn)化處理規(guī)則.標(biāo)準(zhǔn)化處理后形成標(biāo)準(zhǔn)的訓(xùn)練集.
表5 影響因素標(biāo)準(zhǔn)化處理對(duì)照表
在實(shí)際預(yù)測(cè)中嘗試不同參數(shù)組合下模型預(yù)測(cè)效率和精度,對(duì)于模型參數(shù)優(yōu)化.嘗試了不同組合,最終選取{max_depth=7,learning_rate=0.1,n_estimators=750,max_features=10,min_samples_split=6}參數(shù)組合作為優(yōu)選組合.其中,max_depth為決策樹(shù)的最大深度;learning_rate為學(xué)習(xí)率;n_estimators為基學(xué)習(xí)器數(shù)目,max_features為最大特征值,min_samples_split每個(gè)葉子結(jié)點(diǎn)內(nèi)所包含樣本量.
以2018-11-07北京中赫國(guó)安與上海申花在工人體育場(chǎng)的比賽進(jìn)行驗(yàn)證,周邊受影響的軌道站點(diǎn)分別為東大橋、東四十條、團(tuán)結(jié)湖3個(gè)站點(diǎn),預(yù)測(cè)時(shí)段內(nèi)平均精度分別為93.67%、90.76%、89.61%,總體預(yù)測(cè)精度較高圖5~圖7.團(tuán)結(jié)湖站點(diǎn)客流受大型活動(dòng)影響程度較小,受背景客流影響較大且波動(dòng)性大導(dǎo)致預(yù)測(cè)精度相對(duì)較低.
圖5 東大橋出站客流預(yù)測(cè)
圖6 東四十條出站客流預(yù)測(cè)
圖7 團(tuán)結(jié)湖出站客流預(yù)測(cè)
利用現(xiàn)階段獲取的海量刷卡數(shù)據(jù)、3年的體育賽事活動(dòng)數(shù)據(jù),分析發(fā)現(xiàn),活動(dòng)對(duì)周邊軌道站點(diǎn)的正常運(yùn)行產(chǎn)生巨大壓力,受影響的站點(diǎn)為各軌道線(xiàn)路中離場(chǎng)館距離最近的站點(diǎn);受影響時(shí)段上,出站誘增客流出現(xiàn)在活動(dòng)開(kāi)始前2.5 h,在活動(dòng)開(kāi)始前1 h達(dá)到峰值;離場(chǎng)客流于活動(dòng)結(jié)束后1 h內(nèi)離場(chǎng)完畢.不同站點(diǎn)、日期屬性、活動(dòng)類(lèi)型、天氣、主客場(chǎng)隊(duì)伍情況下受影響軌道站點(diǎn)誘增客流有明顯差異.基于此構(gòu)建梯度提升決策樹(shù)預(yù)測(cè)模型,驗(yàn)證發(fā)現(xiàn)東大橋、東四十條及團(tuán)結(jié)湖3個(gè)站點(diǎn)出站客流,預(yù)測(cè)平均精度分別為93.67%、90.76%、89.61%,可為相關(guān)政府部門(mén)、運(yùn)營(yíng)企業(yè)的決策提供支撐.