張文勝 盧 夢 朱冀軍 閆 濤 段釗寧
1(石家莊鐵道大學(xué)交通運(yùn)輸學(xué)院 河北 石家莊 050043) 2(河北省交通規(guī)劃設(shè)計院 河北 石家莊 050011) 3(交通運(yùn)輸行業(yè)公路建設(shè)與養(yǎng)護(hù)技術(shù)材料及裝備研發(fā)中心 河北 石家莊 050011) 4(上海市政工程設(shè)計研究總院(集團(tuán))有限公司 上海 200002)
公交大數(shù)據(jù)作為交通大數(shù)據(jù)的重要組成部分之一,具有多元化、結(jié)構(gòu)化的特點(diǎn),蘊(yùn)含了豐富的交通流特征,完整的公交客流起止站點(diǎn)(Origin-Destination,OD)數(shù)據(jù)是交通流特征分析的數(shù)據(jù)基礎(chǔ)。大部分城市在公交運(yùn)營系統(tǒng)中均采用上車一票制,乘客通過上車刷IC卡而下車不再刷卡的方式完成公交乘坐流程[1],因此在公交原始數(shù)據(jù)中存在上車站點(diǎn)未記錄、下車站點(diǎn)未知的問題。公交客流OD推算方法的研究具有重要的科研價值與社會意義。
近年來,眾多學(xué)者在乘客下車站點(diǎn)推算方面進(jìn)行了大量的研究。Farzin[2]基于出行鏈方法,通過公交車輛GPS數(shù)據(jù)與乘客IC卡刷卡數(shù)據(jù)的關(guān)聯(lián)匹配實現(xiàn)了客流OD推導(dǎo)。文獻(xiàn)[3-4]綜合考慮了影響乘客公交出行的其他因素如時間、客流量等,分別提出了不同的公交客流OD推算方法。文獻(xiàn)[5-8]基于出行鏈的思想進(jìn)行了延伸與改進(jìn),利用公交線路運(yùn)營數(shù)據(jù)、GPS自動定位數(shù)據(jù)等信息,實現(xiàn)了乘客下車站點(diǎn)的推導(dǎo)。費(fèi)曄[9]基于交通IC卡在POS機(jī)上的刷卡交易數(shù)據(jù)與公交GPS車載數(shù)據(jù),分析得出公交出行OD分布。徐文遠(yuǎn)等[10]基于公交站點(diǎn)客流量服從泊松分布的特點(diǎn),通過參數(shù)標(biāo)定建立了下車站點(diǎn)概率矩陣,實現(xiàn)了下車站點(diǎn)的推算。柳伍生等[11]基于區(qū)間不確定理論提出了客流OD推算方法,結(jié)合乘客多日出行特征和下車站點(diǎn)概率,通過區(qū)間數(shù)值處理方法得到了下車站點(diǎn)客流區(qū)間值。
現(xiàn)有方法分別從公交站點(diǎn)下車概率、多日出行模式、區(qū)間不確定性理論等多個方面分析了乘客下車站點(diǎn)的可能性,但在時間與空間綜合作用下乘客下車站點(diǎn)推算方法的研究較少。本文從乘客出行時空特性出發(fā),分析了乘客在不同出行距離、不同出行時間下的出行特征,研究了公交站點(diǎn)吸引強(qiáng)度的變化特點(diǎn),提出公交站點(diǎn)吸引強(qiáng)度與公交出行鏈結(jié)合的乘客下車站點(diǎn)推算方法。
公交站點(diǎn)數(shù)據(jù)、IC刷卡數(shù)據(jù)和車輛自動定位(Automatic Vehicle Location,AVL)系統(tǒng)數(shù)據(jù)是城市公交客流OD推算的數(shù)據(jù)基礎(chǔ),公交站點(diǎn)數(shù)據(jù)包含公交站點(diǎn)的地理位置與站點(diǎn)的歸屬信息,IC刷卡數(shù)據(jù)是乘客公共出行的實際體現(xiàn),AVL數(shù)據(jù)是公交自動定位系統(tǒng)傳回服務(wù)器的數(shù)據(jù),包含公交車的進(jìn)站、出站時間和站點(diǎn)信息。
在公交??空军c(diǎn)時,AVL設(shè)備把公交??繑?shù)據(jù)傳輸至服務(wù)器往往需要消耗一定的時間。同時,在公交離站后,不可避免會發(fā)生站后刷卡的情況。因此,針對站前站后刷卡的情況,設(shè)立彈性時間因子Δt以實現(xiàn)乘客上車過程的準(zhǔn)確描述。將公交進(jìn)站時間設(shè)為t進(jìn),公交出站時間設(shè)為t出,乘客刷卡時間為ti,乘客上車情況描述如圖1所示。
圖1 乘客上車情況描述
彈性時間因子Δt的影響因素包含公交站間距、公交運(yùn)行速度,在不同出行日期,公交站間距是一定的,但公交運(yùn)行速度是變化的,因此選取公交線路相鄰站間距與每日的線路平均運(yùn)行速度比值確定Δt,Δt的修正系數(shù)設(shè)定為1/2,實現(xiàn)延遲數(shù)據(jù)的全時間區(qū)間覆蓋,由于始發(fā)站與終點(diǎn)站只涉及一個相鄰站點(diǎn),所以不需要設(shè)定修正系數(shù)。計算如下:
(1)
式中:N為公交線路的公交站點(diǎn);總數(shù)dj,j+1為公交第j至j+1站點(diǎn)的距離;dk,k+1為公交第k站點(diǎn)至k+1站的距離;Th,h+1為公交第h站點(diǎn)至h+1站的運(yùn)行時間;Δt前為前區(qū)間彈性因子;Δt后為后區(qū)間彈性因子。
對公交到發(fā)站時間進(jìn)行彈性改進(jìn)后,時間匹配過程如下:
t進(jìn)-Δt前≤ti≤t出+Δt后
(2)
乘客上車識別體現(xiàn)為IC刷卡數(shù)據(jù)與AVL數(shù)據(jù)的融合過程,兩者的融合以公交站點(diǎn)數(shù)據(jù)為基礎(chǔ)。通過提取IC刷卡數(shù)據(jù)、AVL數(shù)據(jù)的線路關(guān)聯(lián)信息,基于線路數(shù)據(jù)與站點(diǎn)數(shù)據(jù),循環(huán)匹配IC刷卡時間與公交車進(jìn)站、出站時間,實現(xiàn)乘客上車站點(diǎn)的識別。上車站點(diǎn)識別流程如圖2所示。
圖2 上車站點(diǎn)識別流程
乘客出行鏈?zhǔn)浅丝蛦稳諒某鲂行袨榘l(fā)生至結(jié)束的所有出行行為按照時間排序所形成的一個鏈狀結(jié)構(gòu),由于出行方式的多樣性,部分乘客出行鏈中往往存在公交車以外的出行方式。以出行鏈中出行方式的單一性、出行鏈的閉合性為主要因素進(jìn)行乘客出行鏈分析,將乘客出行行為分為以下四種情況,如圖3所示,其中:(a)為乘客單日出行只存在單次公交出行;(b)為乘客單日出行不存在除公交外的其他出行方式,且往返構(gòu)成環(huán)形出行鏈;(c)為乘客單日出行存在除公交外的其他出行方式,但構(gòu)成環(huán)形出行鏈;(d)為乘客單日出行存在除公交外的其他出行方式,且不構(gòu)成環(huán)形出行鏈。
圖3 乘客出行分析
閉合的乘客出行鏈如圖3(b)、(c)所示,雖然兩種出行模式的發(fā)生過程不盡相同,但是乘客最終回歸到原始的出發(fā)站點(diǎn),形成了環(huán)狀的閉合出行鏈,滿足應(yīng)用乘客出行鏈方法求解的要求。開放的乘客出行鏈如圖3(a)、(d)所示,兩種情況分別表達(dá)了乘客單次公交出行與多次公交出行,基于乘客個體多日出行特征,可分別通過提取高頻出行站點(diǎn)、公交站點(diǎn)吸引強(qiáng)度等參數(shù)推算乘客下車站點(diǎn)。
當(dāng)乘客出行鏈為環(huán)形閉合鏈時,利用公交出行鏈法推算下車站點(diǎn)效率與準(zhǔn)確性較高,而當(dāng)乘客單日出行只存在單次公交出行情況時,利用乘客出行鏈法無法進(jìn)行邏輯計算。并且在乘客單日多次出行的情況中,往往存在非公交出行與公交出行相交叉的形式,乘客出行鏈的表現(xiàn)形式是非固定的,因此提出公交站點(diǎn)吸引強(qiáng)度與公交出行鏈結(jié)合的方式推算乘客下車站點(diǎn)。
在出行線路l中乘客m在i站點(diǎn)上車,基于公交線路上下行參數(shù)和乘客上車站點(diǎn)數(shù)據(jù),將乘客在公交線路中的下游站點(diǎn)集合定義為Km。集合Km表達(dá)為乘客m具有下車可能性的站點(diǎn)集合,統(tǒng)計乘客m的多日出行數(shù)據(jù),定義乘客m的高頻出行站點(diǎn)集合Q。
針對閉環(huán)出行鏈,判斷是否滿足采用乘客出行鏈方法的條件。定義乘客單日公交出行次數(shù)為c,若c>1,定義匹配項公交出行線路編號為ln,當(dāng)次出行線路l與ln相同時即l=ln,匹配項乘客站點(diǎn)j站點(diǎn)包含于線路l的下游站點(diǎn)集合K,則認(rèn)為該乘客在線路l上從i站點(diǎn)至j站點(diǎn)完成了公交出行行為,j站點(diǎn)即為該乘客當(dāng)次出行的下車站點(diǎn)。
(3)
式中:Pmlij1為乘客m在l線路從i站點(diǎn)上車至j站點(diǎn)下車的概率;j為匹配項上車站點(diǎn);Km為乘客m在l線路中的下游站點(diǎn)集合;c為乘客m單日公交出行次數(shù)。
若乘客m出行次數(shù)滿足c>1,當(dāng)次出行線路編號l與匹配項出行線路編號ln不同時即l≠ln,若下游站點(diǎn)集合K中存在站點(diǎn)j與匹配項公交出行的上車站點(diǎn)之間的距離d小于公交線路平均站間距D,則j站點(diǎn)即為該乘客當(dāng)次出行的下車站點(diǎn)。
(4)
若乘客出行鏈法無法推算下車站點(diǎn),由于公交出行具有往返性的特點(diǎn),高頻站點(diǎn)集合可以同時表達(dá)乘客在公交站點(diǎn)上下車的頻率。假設(shè)當(dāng)乘客m在線路li中的下游站點(diǎn)中存在高頻站點(diǎn)時,分別計算各站點(diǎn)高頻比重集合W,選擇W中的最大值ωj作為乘客下車站點(diǎn)概率,計算如下:
ωj=max{ω1,ω2,…,ωn}ωj∈W
(5)
(6)
式中:Pmlij3為乘客m在l線路上從i站點(diǎn)上車至j站點(diǎn)下車的概率;ωj為高頻比重集合W中的最大值。
若乘客m在線路li的下游站點(diǎn)中不存在高頻站點(diǎn),采用以公交站點(diǎn)吸引強(qiáng)度為主導(dǎo)因子進(jìn)行下車站點(diǎn)推算,從時空角度考慮,乘客出行距離與乘客出行時間是影響公交站點(diǎn)吸引強(qiáng)度的關(guān)鍵因素。由于公交線路的固定性,乘客出行距離可以通過站點(diǎn)分布距離直接得以體現(xiàn)?;诔丝偷膫€體出行特征,乘客出行站數(shù)服從泊松分布[12]。
(7)
式中:P(k)、Pmlij4為乘客從i站上車至j下車的過程中乘坐k站的概率;k為乘客完成單次公交出行行為所經(jīng)過的站點(diǎn)個數(shù);λ為乘客平均出行區(qū)間站點(diǎn)數(shù)。
目前,公交出行鏈法在現(xiàn)有公交客流OD推算研究中,已得到了廣泛的應(yīng)用,基于公交出行鏈法推算得到的公交OD數(shù)據(jù)準(zhǔn)確率可達(dá)90%[13],因此基于公交出行鏈法計算平均公交區(qū)間站點(diǎn)數(shù)λ。
乘客出行區(qū)間站點(diǎn)數(shù)λ是公交線路、出行時間等多個因素共同作用的結(jié)果。本文選取了石家莊市區(qū)內(nèi)較有代表性的東西向公交線路6路、南北向公交線路5路、跨越市區(qū)的公交線路13路和23路共四條公交線路分別計算λ值,提取了石家莊市2017年9月4日至9月8日的公交出行數(shù)據(jù),各線路λ值分布如圖4所示,各線路λ值不同,表現(xiàn)出在多條線路中乘客出行距離的差異性,因此,不同公交線路的λ值需要分別求取。
圖4 多日期多線路λ值分布
針對不同的乘客出行時間,本文選取了有代表性的從二環(huán)外至市區(qū)中心跨越多個商業(yè)圈及居民區(qū)的23路公交數(shù)據(jù),將乘客出行時間分為工作日與非工作日兩種情況進(jìn)行分析。選擇連續(xù)四周共20個工作日的客流數(shù)據(jù),經(jīng)過統(tǒng)計分析,線路客流量的時間變化區(qū)間表現(xiàn)為早高峰、晚高峰、正常時間段,客流分布如圖5所示,根據(jù)客流波峰數(shù)據(jù),將乘客的出行時間分為7點(diǎn)至9點(diǎn)、17點(diǎn)至19點(diǎn)及其他時間共3個時間段分別計算λ值。
圖5 工作日客流量分布
針對基于公交出行鏈法推算得到的23路乘客公交出行數(shù)據(jù),分別對三個時間段進(jìn)行λ值計算,得到早高峰均值λ為15.2、晚高峰均值λ為14.35、正常時間段均值λ為14.15,可知晚高峰、正常時間段的λ均值均在14左右,而早高峰的λ均值在15左右,反映出城市居民早高峰出行距離比晚高峰、正常時間段要長。在計算公交站點(diǎn)吸引強(qiáng)度時,需要根據(jù)出行時間分別計算公交站點(diǎn)吸引強(qiáng)度,因此早高峰λ取值為15,晚高峰和正常時間段λ取值為14,從而體現(xiàn)乘客出行距離隨時間變化的特征。
針對非工作日出行行為,選擇了連續(xù)四周共8天的客流數(shù)據(jù)進(jìn)行分析,線路客流量如圖6所示。非工作日的客流量分布曲線較為平緩,在大部分時間內(nèi)客流量波動不大,表現(xiàn)出非工日下乘客出行距離不再受時間影響,因此不再對非工作日分時間段,計算得均值λ為15。
圖6 非工作日客流量分布
基于公交出行鏈思想,假設(shè)城市居民均采用公交出行的方式,各個站點(diǎn)的公交出行產(chǎn)生量與吸引量應(yīng)基本相等。由于公交客流OD推算的目的是為公交群體客流特征研究提供數(shù)據(jù)基礎(chǔ),單個乘客的精確度并不影響集計層面的斷面客流、滿載率和方向不均勻系數(shù)等指標(biāo),因此在集計層面上通過公交出行產(chǎn)生量與吸引量檢驗公交客流OD推算模型。
采用回歸分析的方法進(jìn)行模型有效性檢驗:
Y=b+a·X
(8)
采用最小二乘法對回歸系數(shù)進(jìn)行估計:
(9)
采用R2檢驗方法檢驗回歸系數(shù)的擬合程度:
(10)
以2017年9月4日23路公交數(shù)據(jù)為例,當(dāng)未設(shè)置彈性時間因子Δt時,匹配得到乘客上車站點(diǎn)信息340 020條,匹配成功率為62.85%,通過設(shè)立彈性時間因子Δt為69.96 s,匹配乘客上車站點(diǎn)信息423 874條,匹配成功率為78.36%,提高了15.51百分點(diǎn)。部分上車站點(diǎn)識別數(shù)據(jù)如表1所示,2017年9月4日各公交站點(diǎn)客流量分布如圖7所示。
表1 部分乘客上車數(shù)據(jù)
圖7 23號線路公交站點(diǎn)上車人數(shù)分布
以石家莊市23路公交線路為例,通過提出的公交站點(diǎn)吸引強(qiáng)度與公交出行鏈結(jié)合的方法,得到了2017年9月5日至7日的乘客OD出行數(shù)據(jù)。針對單體乘客,以CARD_ID為201410200117704476的乘客為例,該乘客公交出行OD數(shù)據(jù)如表2所示,可知該乘客居住在棉六附近,在省二院附近區(qū)域工作,該乘客平時乘坐101路與23路公交車完成公交出行過程。
表2 乘客OD數(shù)據(jù)
表3 回歸參數(shù)分布表
結(jié)果表明,推算得到公交站點(diǎn)的客流產(chǎn)生量與客流吸引量在集計層面上是較為穩(wěn)定的,可以較好地表達(dá)公交客流時空分布規(guī)律。
本文針對公交數(shù)據(jù)中乘客上下車站點(diǎn)未知的問題,在上車站點(diǎn)匹配方法中加入彈性時間因子,有效提高了乘客上車站點(diǎn)的識別率;在下車站點(diǎn)識別過程中,提取乘客下游站點(diǎn)集合與高頻站點(diǎn)集合,以泊松分布理論為基礎(chǔ),從時間、空間角度研究了公交站點(diǎn)吸引強(qiáng)度的變化規(guī)律,提出公交站點(diǎn)吸引強(qiáng)度與公交出行鏈結(jié)合的下車站點(diǎn)推算方法。以石家莊市公交數(shù)據(jù)為例,對客流OD推算模型進(jìn)行了有效性驗證,結(jié)果表明:推算得到的公交站點(diǎn)客流產(chǎn)生量與客流吸引量在集計層面上表現(xiàn)較為穩(wěn)定,所提出的OD推算方法有效可靠。