周 航,陳學(xué)武
(1.杭州市規(guī)劃設(shè)計(jì)研究院,杭州 310020;2.東南大學(xué),a.江蘇省城市智能交通重點(diǎn)實(shí)驗(yàn)室,b.現(xiàn)代城市交通技術(shù)江蘇高校協(xié)同創(chuàng)新中心,c.交通學(xué)院,南京 211189)
通勤出行在城市出行總量中仍占據(jù)絕對多數(shù),同時(shí)存在明顯的時(shí)空規(guī)律性,較為適合公共交通方式通過線路布設(shè)、班線運(yùn)營等方面的高效組織來提升城市交通資源的使用效率。公共交通通勤者識(shí)別作為后續(xù)此類群體出行特征分析的基礎(chǔ)工作,在公共交通規(guī)劃與管理研究中至關(guān)重要。
早期由于技術(shù)限制,國內(nèi)外文獻(xiàn)多通過傳統(tǒng)通勤調(diào)查或居民出行調(diào)查研究公共交通通勤特征[1],直接從被調(diào)查的通勤乘客來分析使用公共交通工具出行的乘客特征;后期隨著信息技術(shù)的發(fā)展,學(xué)者大多基于公共交通刷卡數(shù)據(jù),輔以其他數(shù)據(jù)或者機(jī)器學(xué)習(xí)等新技術(shù)手段,來開展公共交通通勤人群的識(shí)別研究。目前較為常見的依托公共交通刷卡數(shù)據(jù)的通勤者識(shí)別方法大致分為三種:一是利用刷卡數(shù)據(jù)中的“卡類型”字段來識(shí)別,部分國家如日本會(huì)發(fā)行針對通勤(學(xué))人群的“通勤票”[2];二是融合公共交通刷卡數(shù)據(jù)、空間數(shù)據(jù)、出行調(diào)查數(shù)據(jù)等數(shù)據(jù)來識(shí)別,如識(shí)別職住地后再提取公交通勤者出行信息[3];三是僅使用公共交通刷卡數(shù)據(jù),從時(shí)間的重復(fù)性和穩(wěn)定性角度設(shè)置識(shí)別規(guī)則,包括一周首次刷卡總次數(shù)和首次刷卡時(shí)間差[4]、高頻OD 對的出行頻次[5]和出發(fā)時(shí)間標(biāo)準(zhǔn)差[6]等指標(biāo),或是利用聚類[7-9]、分類[10]、神經(jīng)網(wǎng)絡(luò)[11]等機(jī)器學(xué)習(xí)算法進(jìn)行判別。
目前研究多為直接對指標(biāo)設(shè)定篩選規(guī)則來識(shí)別公共交通通勤者,選取指標(biāo)時(shí)主觀性較強(qiáng),閾值設(shè)定單一,無法較完整和準(zhǔn)確地表征通勤者出行規(guī)律;當(dāng)僅使用機(jī)器學(xué)習(xí)算法識(shí)別時(shí),仍存在指標(biāo)計(jì)算復(fù)雜、對通勤者表征程度不足的問題;同時(shí),識(shí)別方法較少考慮實(shí)際數(shù)據(jù)質(zhì)量,實(shí)用性較弱。因此,本文基于南京市公共交通系統(tǒng)刷卡和設(shè)施數(shù)據(jù),提出一種集時(shí)空聚類和指標(biāo)篩選的公共交通通勤者識(shí)別方法,以時(shí)空密度聚類算法(Densitybased Spatial Clustering of Applications with Noise,ST-DBSCAN)為基礎(chǔ)算法,根據(jù)數(shù)據(jù)條件提出兩步聚類法和線路相似性整合法,為基于職住地與指標(biāo)識(shí)別的篩選操作縮小了識(shí)別范圍,可操作性和通用性強(qiáng),能夠?yàn)楣步煌ㄍㄇ诔丝偷南嚓P(guān)分析提供數(shù)據(jù)基礎(chǔ),同時(shí)對公共交通設(shè)施與服務(wù)優(yōu)化提供一定的參考依據(jù)。
本文以南京為例,研究的公共交通系統(tǒng)數(shù)據(jù)分為刷卡和設(shè)施數(shù)據(jù)兩類,時(shí)間為2019 年3 月,如表1所示。刷卡數(shù)據(jù)包括公交、軌道交通和公共自行車刷卡數(shù)據(jù),包括乘客個(gè)人和乘車時(shí)空信息(其中公交刷卡數(shù)據(jù)受一票制計(jì)費(fèi)和設(shè)備記錄影響,下車均無位置信息,部分上車無位置信息),匿名乘客編號項(xiàng)為公共交通系統(tǒng)乘客的唯一標(biāo)識(shí)。設(shè)施數(shù)據(jù)為這三類公共交通方式的線路和站點(diǎn)信息,包括站點(diǎn)線路編號和空間信息。
表1 公共交通系統(tǒng)基礎(chǔ)數(shù)據(jù)示意
通勤者的通勤出行具有時(shí)空和模式上的穩(wěn)定性,可以作為通勤者識(shí)別的依據(jù)。乘客每次公共交通出行(如圖1所示)的信息提取是基礎(chǔ),需要對數(shù)據(jù)進(jìn)行預(yù)處理、換乘識(shí)別和出行信息整合操作。
圖1 一次公共交通出行示意
數(shù)據(jù)處理具體步驟為:
Step1 數(shù)據(jù)清洗。剔除錯(cuò)誤和重復(fù)數(shù)據(jù),統(tǒng)一字段格式,并將刷卡表整合為一份公共交通系統(tǒng)刷卡數(shù)據(jù),共2 239 532條數(shù)據(jù)。
Step2 換乘識(shí)別。由于存在同一次出行對應(yīng)多條數(shù)據(jù)的情況,故需要識(shí)別乘客的換乘行為,將不同出行階段的記錄整合為一條出行記錄(見圖1)。本文采用經(jīng)緯度空間距離計(jì)算與公交線路可換乘站點(diǎn)提取并行的方法,判別空間層面方式間換乘的可行性,閾值設(shè)為500 m[12]。將相鄰出行階段記錄的時(shí)間差與95%分位時(shí)間閾值比較[13],得出最終的換乘行為識(shí)別記錄。
Step3 出行信息整合。將每位乘客每日每次出行的第一階段出發(fā)地信息作為該次出行的出發(fā)地信息,最后一階段的到達(dá)地信息作為該次出行的到達(dá)地信息(見圖1),整理后得到1 562 668條公共交通出行數(shù)據(jù)。
本文基于出行時(shí)空規(guī)律性來識(shí)別通勤者,故需要提取出部分關(guān)鍵的出行字段(如表2所示),包括乘客編號USERID、出發(fā)時(shí)間ONTIME、出發(fā)地經(jīng)度ON_LNG、出發(fā)地緯度ON_LAT、到達(dá)地經(jīng)度OFF_LNG、到達(dá)地緯度OFF_LAT以及乘坐線路名稱TRIPROUTE。
表2 通勤者識(shí)別所需出行字段示意
本文所提識(shí)別方法分為相似性出行整合和兩步篩選兩個(gè)步驟:首先,依據(jù)乘客在研究周期的出行集合中是否存在相似性出行,對乘客進(jìn)行初步篩選,以獲得具有規(guī)律性出行特征的候選通勤者;然后,通過識(shí)別候選通勤者的職住地并完成對應(yīng)的通勤出行初步提取操作,再利用識(shí)別指標(biāo)進(jìn)行篩選,以得到最終的通勤者識(shí)別結(jié)果。方法流程如圖2所示。
圖2 城市公共交通通勤者識(shí)別流程
本文中的相似性出行是指具有相似起訖點(diǎn)位置和出發(fā)時(shí)間的出行集合,每位乘客在研究周期內(nèi)的出行都將被分為不同的組別,同一組別的出行即為同一類出行。類似地,時(shí)空聚類指的是根據(jù)一定的相似性準(zhǔn)則將時(shí)空實(shí)體劃分成一系列較為均勻的子類(即時(shí)空簇)[8],其中相似性的判定依據(jù)為時(shí)空聚類中的聚類參數(shù),時(shí)空實(shí)體在本研究中即為公共交通出行,聚類結(jié)果即為相似性出行,每次出行記錄均被賦予對應(yīng)的組別號??紤]到公交刷卡記錄存在信息缺失問題,故將相似性出行整合法分為兩類:數(shù)據(jù)完備時(shí),采用基于ST-DBSCAN 算法的兩步聚類法;數(shù)據(jù)不完備時(shí),對缺失數(shù)據(jù)采用線路相似性整合法,與完整數(shù)據(jù)的兩步聚類結(jié)果進(jìn)行整合。
2.2.1 基于密度的時(shí)空聚類算法(ST-DBSCAN)
本文將ST-DBSCAN 算法作為基礎(chǔ)算法的原因在于:(1)該算法考慮時(shí)間和空間雙重要素、可識(shí)別高密度的簇和低密度的噪聲、無需確定初始核和簇?cái)?shù)量等優(yōu)勢,常被用于出行模式劃分領(lǐng)域[9];(2)本文所獲取的出行數(shù)據(jù)位置為經(jīng)緯度信息,相比其他算法研究使用的站點(diǎn)編號[10]更為精確,適用于空間聚類算法。算法是將時(shí)空實(shí)體STi的時(shí)空鄰近域的空間形狀定義為一個(gè)圓柱體,底面半徑為R,高為2ΔT,該鄰近域內(nèi)的實(shí)體數(shù)目即為STi的密度,當(dāng)密度大于等于設(shè)定的最小密度值MinPts時(shí),該實(shí)體STi即為核心對象。若STi+1位于核心對象STi的時(shí)空鄰近域,則STi+1從STi直接密度可達(dá)。密度可達(dá)是直接密度可達(dá)的傳遞閉包,密度相連是密度可達(dá)的傳遞,且為對稱關(guān)系,水平視角下時(shí)空密度連接示意如圖3 所示。時(shí)空鄰近域的劃定和最小密度的取值為算法關(guān)鍵參數(shù),即空間半徑R、時(shí)間窗口ΔT和密度閾值MinPts。
圖3 水平視角下的時(shí)空密度連接示意[14]
本文基于一整月的研究數(shù)據(jù)進(jìn)行聚類操作,通過多參數(shù)組合比選,將輪廓系數(shù)和CH值作為聚類效果評價(jià)指標(biāo),并依據(jù)肘部法則,最終選定參數(shù)R=1 200 m,ΔT=30 min,MinPts=5。R和ΔT分別代表本研究中位置和出發(fā)時(shí)間相似的判定范圍,即相似出發(fā)時(shí)間差距應(yīng)≤60min(2ΔT),相似位置差距應(yīng)≤1 200 m(R);而MinPts=5 則代表位于相似判定范圍的出行記錄數(shù)應(yīng)≥5 個(gè),即同類時(shí)空出行的次數(shù)不小于5次/月。
2.2.2 數(shù)據(jù)完備條件下的兩步聚類法
當(dāng)每次出行的出發(fā)地經(jīng)緯度、到達(dá)地經(jīng)緯度和出發(fā)時(shí)間3個(gè)要素齊全時(shí),經(jīng)以下步驟可完成對每位乘客多次出行的聚類操作(流程見圖4虛線框內(nèi)部分)。
圖4 兩步聚類法(虛線框內(nèi))與線路相似性整合法(整體)流程
Step1 對每次出行的出發(fā)地經(jīng)度、緯度和出發(fā)時(shí)間進(jìn)行ST-DBSCAN 算法聚類,得到Cluster1。以USERID=42 的乘客出行為例,此步聚類結(jié)果如圖5(a)所示,分為噪聲點(diǎn)、Cluster1=1 和Cluster1=2三類。噪聲點(diǎn)(圓圈)的位置和出發(fā)時(shí)間較分散,而Cluster1=1(三角)和Cluster1=2(方塊)的位置和出發(fā)時(shí)間相對集中。
Step2 對每次出行的到達(dá)地經(jīng)度和緯度進(jìn)行DBSCAN 算法聚類,得到Cluster2。乘客42 在此步的聚類結(jié)果如圖5(b)所示,分為噪聲點(diǎn)、Cluster2=1和Cluster2=2三類。
Step3 對每次出行,將對應(yīng)的Cluster1 和Cluster2 直接組合為最終聚類結(jié)果Cluster3(如Cluster1=1 且Cluster2=1 時(shí),Cluster3=1)。只有Cluster1 和Cluster2 取值均非噪聲時(shí),Cluster3 按類別順序取值。乘客42 的最終聚類結(jié)果如圖5(c)所示,分為噪聲點(diǎn)、Cluster3=1和Cluster3=2三類。噪聲點(diǎn)(細(xì)實(shí)線)代表無規(guī)律的出行;Cluster3=1(粗實(shí)線)的出發(fā)地、到達(dá)地位置和出發(fā)時(shí)間均集中,代表一類具有時(shí)空相似性的出行集合;Cluste3=2(粗虛線)代表另一類相似出行集合。
圖5 兩步聚類法各步驟聚類結(jié)果示意(USERID=42)
2.2.3 數(shù)據(jù)不完備條件下的線路相似性整合法
當(dāng)部分出行的起終點(diǎn)位置存在缺失時(shí),無法按上述數(shù)據(jù)完備條件下的方法完成聚類,因此將出發(fā)時(shí)間和乘坐線路名稱兩個(gè)字段作為判別屬性,即考慮出行時(shí)間和線路選擇的穩(wěn)定性,將符合要求的出行加入到數(shù)據(jù)完備條件下的聚類結(jié)果中,得到最終整合結(jié)果(流程如圖4所示)。
整合步驟如下:
Step1 對出行數(shù)據(jù)按乘坐線路名稱字段分組為Class1,提取頻次≥2 的Class1,并對每個(gè)Class1分組進(jìn)行出發(fā)時(shí)間的聚類,提取其中頻次≥2 的子類為Class2。
Step2 將每個(gè)Class2 子類中出行數(shù)據(jù)的出發(fā)時(shí)間與數(shù)據(jù)完備條件下聚類結(jié)果的各分組Cluster3 出發(fā)時(shí)間均值相比較,若低于30 min 則將此Class2 子類的類別號更新為Cluster3 分組的類別號,另外若Class2 子類中超過60%的出行未加入Cluster3分組,該子類自成一類。
Step3 將處理后的Cluster3 和自成一類的Class2 進(jìn)行整合,得到最終的聚類結(jié)果CLUSTER_FINAL。
以USERID=9 的乘客出行為例,該乘客一月內(nèi)共56 次公共交通出行,其中信息完整和不完整的出行均為28 次。對信息完整的28 次出行進(jìn)行兩步聚類法,得到聚類結(jié)果如圖6 所示,得到噪聲和Cluster3=1兩組(圖中未標(biāo)注噪聲數(shù)據(jù))。然后,對信息不完整的28 次出行進(jìn)行操作,得到的13 條非噪聲數(shù)據(jù)結(jié)果如表3 所示。其中Class2=1 分組的出發(fā)時(shí)間與Cluster3=1的出發(fā)時(shí)間相近,故將其加入Cluster3=1 分組,而Class2=2 分組自成一類。經(jīng)過兩步聚類法和線路相似性整合法操作后,得到最終聚類結(jié)果為噪聲、CLUSTER_FINAL=1 和CLUSTER_FINAL=2三組。
表3 不完備出行數(shù)據(jù)的線路相似性整合結(jié)果
圖6 完備出行數(shù)據(jù)的兩步聚類結(jié)果
2.3.1 基于職住地識(shí)別的通勤出行標(biāo)識(shí)
在提取通勤出行前,需要先對每位乘客的職住地進(jìn)行判別。一般假設(shè)乘客每日首次出行的出發(fā)地是居住地[8],通過對乘客的長期出行數(shù)據(jù)進(jìn)行空間密度聚類可較易得到,點(diǎn)數(shù)最多的簇的空間位置即為居住地所在區(qū)域。而工作活動(dòng)僅為日?;顒?dòng)中的一類,難以直接識(shí)別工作地??紤]到通勤出行的規(guī)律性特征,統(tǒng)計(jì)處理乘客的相似性出行可識(shí)別出工作地,步驟如下:
Step1 基于上文得出的相似性出行數(shù)據(jù),分別對從居住地出發(fā)前往的到達(dá)地和回到居住地的出發(fā)地進(jìn)行空間密度聚類,空間閾值R仍取1 200 m,密度閾值為5個(gè);
Step2 統(tǒng)計(jì)聚類結(jié)果中各簇的點(diǎn)數(shù),點(diǎn)數(shù)最多的簇所在空間位置即為工作地所在區(qū)域。
將從居住地出發(fā)和到達(dá)工作地頻次最高的組別內(nèi)出行標(biāo)記為上班,反之為下班。對于公交出行記錄位置缺失導(dǎo)致的部分出行起訖點(diǎn)所屬類別無法識(shí)別問題,可根據(jù)同類別相似性出行的標(biāo)識(shí)結(jié)果或根據(jù)出發(fā)時(shí)間來確定。
2.3.2 通勤識(shí)別指標(biāo)提取與閾值設(shè)定
城市公共交通通勤者出行的規(guī)律性強(qiáng),在時(shí)間和空間上較為固定,采用的線路方案具有多樣性,使用的出行方式較為穩(wěn)定。高峰出行次數(shù)、出行天數(shù)、首次刷卡時(shí)間差、出發(fā)時(shí)間標(biāo)準(zhǔn)差、出行鏈重復(fù)次數(shù)、出行往返次數(shù)、相似出發(fā)站點(diǎn)頻次等指標(biāo)[3,5,6]常被用于進(jìn)行通勤識(shí)別研究。
上文的相似性出行整合操作,已將時(shí)間和空間的相似性以及線路方案的多樣性等考慮在內(nèi),并且經(jīng)過候選通勤者篩選和通勤出行標(biāo)識(shí)后,出行信息已融合職住信息。由于密度聚類算法中密度連接特性可能導(dǎo)致出發(fā)時(shí)間域的擴(kuò)展,出發(fā)時(shí)間差仍需進(jìn)一步考慮。由于居民活動(dòng)多樣、個(gè)人習(xí)慣差異、可選方式多樣等原因,出行往返次數(shù)較難表征通勤者的特性。因此,在對候選通勤者進(jìn)行二次篩選時(shí),選擇出行天數(shù)、單次出發(fā)時(shí)間差和工作往返出發(fā)時(shí)間差作為識(shí)別指標(biāo)。單次出發(fā)時(shí)間差是指研究周期內(nèi)多次特定類型出行的出發(fā)時(shí)間標(biāo)準(zhǔn)差,需對去程(出發(fā)至工作地)和返程(從工作地返回)兩類出行分別計(jì)算;工作往返時(shí)間差是指去程出發(fā)時(shí)間與返程出發(fā)時(shí)間的差值。若部分通勤者只有單程(即去程或返程),則無需計(jì)算工作往返出發(fā)時(shí)間差。
在出行天數(shù)指標(biāo)的閾值設(shè)定方面,大多數(shù)通勤者識(shí)別研究采用類似指標(biāo)頻次的閾值一般為2~4 次/周(約8~16 次/月)[5,6,15],Ma[8]等人通過TOPSIS評價(jià)方法和ISODATA 算法完成人群分類后,統(tǒng)計(jì)發(fā)現(xiàn)通勤者與非通勤者的月出行天數(shù)分布曲線交點(diǎn)為11,故本文將出行天數(shù)閾值定為11。在單次出發(fā)時(shí)間差指標(biāo)的閾值設(shè)定方面,研究多將其設(shè)定為1 小時(shí)[6],然而考慮到工作去程與返程出行的出發(fā)時(shí)間特征存在差異性,下班回家的出發(fā)時(shí)間往往較為不穩(wěn)定,故此處將上班去程以及返程單程的出發(fā)時(shí)間差閾值分別定為1 小時(shí)和3 小時(shí)。在工作往返出發(fā)時(shí)間差指標(biāo)的閾值設(shè)定方面,大部分研究均采用6 小時(shí)作為類似指標(biāo)停留時(shí)長的閾值[3],此處也定為6小時(shí)。
通勤者識(shí)別過程中的相似性出行整合和指標(biāo)篩選操作需要確定多項(xiàng)閾值,其對識(shí)別效果具有重要影響??紤]到數(shù)據(jù)獲取滯后性及匿名性,本文結(jié)合參數(shù)驗(yàn)證和方法有效性比較驗(yàn)證結(jié)果。通過問卷調(diào)查獲取公共交通通勤者在通勤出行頻次、時(shí)間等方面的真實(shí)特征,以驗(yàn)證本文所提方法中的指標(biāo)取值合理性,問題設(shè)置如表4 所示。
表4 驗(yàn)證指標(biāo)與調(diào)查問題設(shè)置
調(diào)查采用網(wǎng)絡(luò)問卷形式,獲得有效樣本152份。調(diào)查中通勤者上班出發(fā)時(shí)間差均低于1h,下班出發(fā)時(shí)間差低于3 h的人數(shù)占比為96.4%(見圖7(a)),即處于單次出發(fā)時(shí)間差(工作去程和返程的閾值分別為1 h 和3 h)和算法時(shí)間閾值(ΔT為30 min(2ΔT=1 h))設(shè)定范圍的比例較高。站點(diǎn)步行距離是實(shí)際居住地與公共交通出行出發(fā)站點(diǎn)間的距離,與算法空間閾值的物理意義相近,低于空間閾值(1 200 m)的人數(shù)占比≥82.2%(見圖7(b))。調(diào)查中公共交通通勤與非通勤人群平均一周采用公共交通上班或下班的天數(shù)分別為4.7和0.7,通勤人群相應(yīng)值均高于出行天數(shù)指標(biāo)閾值(11 天/月)。被調(diào)查者的工作往返出發(fā)時(shí)間差均超過工作往返出發(fā)時(shí)間差指標(biāo)閾值(6 h)。本文中相似性出行整合和指標(biāo)篩選步驟中的閾值設(shè)定較合理。
圖7 樣本通勤出行出發(fā)時(shí)間差和站點(diǎn)步行距離分布
本文采用與已有方法對比的方式驗(yàn)證結(jié)果是否有效,選取的是根據(jù)一周內(nèi)早、晚高峰出行頻率來判斷通勤乘客的方法,早高峰(6:30~9:30)首次乘車次數(shù)=2,晚高峰(16:30~19:30)首次乘車次數(shù)=2 和早晚高峰首次乘車總次數(shù)=6 時(shí),準(zhǔn)確率達(dá)98.34%[15]。基于研究數(shù)據(jù),本文方法共識(shí)別6 787人,對比方法共識(shí)別5 982 人,識(shí)別重合率僅37.0%。其余35.8% 的人數(shù)被對比方法排除,27.2%的人數(shù)被本文方法排除。本文識(shí)別結(jié)果在滿足對比方法要求的基礎(chǔ)上,在非早晚高峰時(shí)段和職住地出行空間規(guī)律的通勤者判別上表現(xiàn)出色,兩者識(shí)別結(jié)果滿足指標(biāo)要求的比例如表4 所示。由于評判通勤乘客的量化標(biāo)準(zhǔn)暫未統(tǒng)一,此處僅能通過與其他方法結(jié)果的對比,來分析本文方法的應(yīng)用優(yōu)勢。
表5 本文方法與純指標(biāo)篩選方法[15]識(shí)別結(jié)果滿足指標(biāo)要求的比例
本文以南京為例,利用Python3.6編程環(huán)境,實(shí)現(xiàn)相似性出行整合操作,并通過Oracle11g 數(shù)據(jù)庫軟件統(tǒng)計(jì)篩選結(jié)果。操作全過程所處的硬件環(huán)境為3.8 GHz八核CPU、64 GB 內(nèi)存和8 TB 硬盤?;? 239 532 條公共交通出行數(shù)據(jù),對46 418 位公共交通乘客分別完成相似性出行整合操作,統(tǒng)計(jì)發(fā)現(xiàn)大部分乘客的出行是無規(guī)律的(無相似性出行),其人數(shù)占比為樣本總?cè)藬?shù)的55.6%。
最終識(shí)別出的通勤者出行天數(shù)均值在16.78天/月,單次出行出發(fā)時(shí)間差均值低于40min,同時(shí)標(biāo)準(zhǔn)差的均值低于15min,即出發(fā)時(shí)間較穩(wěn)定,工作往返出發(fā)時(shí)間差均值為10.16 h。通勤者的人均出行頻次明顯比非通勤者要高,分別為55 次/月和30 次/月。相比非通勤者,通勤者2019 年3 月的日出行量呈現(xiàn)工作日穩(wěn)定在較高水平,周末明顯下降的變化趨勢(見圖8(a))。同時(shí),以2019 年3 月13 日(周三)為例,通勤者與非通勤者的出行時(shí)段分布如圖8(b)所示。通勤者的出行時(shí)段明顯集中于6:00~9:00 和16:00~19:00 兩個(gè)高峰時(shí)段,其他時(shí)段的出行量明顯較低,但樣本中66.7%的通勤者不完全在傳統(tǒng)早晚高峰時(shí)段進(jìn)行通勤。通勤者的6:00~19:00間的出行量變化相對平緩,波峰與波谷的差距不大??梢钥闯觯R(shí)別出的通勤者出行日和出行時(shí)段變化規(guī)律與城市人口通勤或通學(xué)習(xí)慣一致,同時(shí)更貼合實(shí)際通勤者的多樣化特征。
圖8 通勤者與非通勤者出行量月變化與日變化分布
本文融合時(shí)空聚類和指標(biāo)篩選思路進(jìn)行公共交通通勤者識(shí)別,以時(shí)空聚類算法中的ST-DBSCAN 算法為基礎(chǔ)算法,進(jìn)行具有相似出行OD 和出發(fā)時(shí)間的出行整合操作,并選取出行天數(shù)、單次出發(fā)時(shí)間差和工作往返出發(fā)時(shí)間差3 項(xiàng)指標(biāo)作為通勤識(shí)別指標(biāo)完成二次篩選?;谀暇┦袛?shù)據(jù),經(jīng)時(shí)空聚類,發(fā)現(xiàn)樣本中55.6%的乘客不滿足本文設(shè)定的出行時(shí)空規(guī)律;經(jīng)指標(biāo)篩選后得到的公共交通通勤者人均出行頻次為55 次/月,工作日出行明顯集中于6:00~9:00 和16:00~19:00 時(shí)段,符合傳統(tǒng)對通勤者特征的認(rèn)知,但樣本中66.7%的通勤者不完全在傳統(tǒng)早晚高峰時(shí)段進(jìn)行通勤,本文識(shí)別結(jié)果較貼合實(shí)際通勤者更加多樣化的通勤特征。
區(qū)別于傳統(tǒng)研究的指標(biāo)篩選思路,本文所提的通勤識(shí)別方法存在四點(diǎn)優(yōu)勢:(1)不局限于傳統(tǒng)早晚高峰時(shí)段,注重出行的時(shí)空規(guī)律性;(2)基于出行起終點(diǎn)的經(jīng)緯度位置進(jìn)行聚類,相比站點(diǎn)聚類更為精準(zhǔn);(3)針對數(shù)據(jù)完備與不完備條件提出不同的處理方法,更符合實(shí)際數(shù)據(jù)狀況;(4)基于相似性整合結(jié)果利用指標(biāo)二次篩選,補(bǔ)充通勤者其他特征的判別條件。識(shí)別結(jié)果可為公共交通通勤者的特征分析以及相應(yīng)設(shè)施布局和服務(wù)優(yōu)化提供研究基礎(chǔ),如多層次通勤公共交通服務(wù)體系的構(gòu)建。由于ST-DBSCAN 算法在時(shí)空域上具有一定的延展性,以及參數(shù)設(shè)置對識(shí)別結(jié)果存在影響,后續(xù)研究可考慮增加簇中時(shí)空閾值的限制,同時(shí)結(jié)合實(shí)際數(shù)據(jù)擬合識(shí)別指標(biāo),分析取值不同時(shí)通勤者與非通勤者的特征差異性以改進(jìn)方法并進(jìn)一步論證,使結(jié)果更為符合通勤者出行特征規(guī)律。