馬新露,雷小詩,馬筱櫟,樊 博
(重慶交通大學(xué)交通運(yùn)輸學(xué)院,重慶 400074)
近年來,隨著我國(guó)汽車保有量的不斷攀升,高速公路交通擁堵時(shí)常發(fā)生、“非法營(yíng)運(yùn)”屢禁不止。高速公路出行效率下降使管理人員必須應(yīng)用更有針對(duì)性的、精細(xì)化的交通管控方法[1],提升交通管控效率及服務(wù)水平,以滿足車輛正常出行需求。出行群體分類是基于出行者出行相似性和規(guī)律性,提取特征將出行者劃分為不同類別的方法,分類結(jié)果能為交通精細(xì)化管理及服務(wù)水平提升提供依據(jù)。
隨著交通大數(shù)據(jù)獲取設(shè)施不斷完備以及大數(shù)據(jù)技術(shù)的快速發(fā)展,研究人員可基于交通大數(shù)據(jù)進(jìn)行出行群體分類辨識(shí)模型研究,以解決傳統(tǒng)群體分類方法樣本量少、結(jié)論不準(zhǔn)確等問題[2]。國(guó)內(nèi)外部分研究人員基于自動(dòng)售檢票(Automatic Fare Collection,AFC)數(shù)據(jù)對(duì)出行個(gè)體進(jìn)行分類研究。如劉家瑋[3]利用AFC 數(shù)據(jù),從出行強(qiáng)度、時(shí)間維度、空間維度及卡類型4 方面構(gòu)建指標(biāo),運(yùn)用兩步聚類法將乘客分為4 類,基于分類結(jié)果測(cè)算優(yōu)惠票價(jià)對(duì)每類乘客的轉(zhuǎn)移效果;席洋[4]利用AFC 數(shù)據(jù)提取出行時(shí)間及空間特征,引入基于語義分析的主題模型,識(shí)別出10個(gè)出行主題,并在此基礎(chǔ)上利用K均值(K-means)聚類算法將乘客分為6類;Kieu 等[5]利用AFC 數(shù)據(jù),以出行起訖點(diǎn)和出發(fā)時(shí)間為指標(biāo),應(yīng)用具有噪聲的基于密度的聚類(Density-Based Spatial Clustering of Ap?plications with Noise,DBSCAN)算法將乘客分為通勤乘客、出行起訖點(diǎn)穩(wěn)定型等4 類;Briand 等[6]通過分析法國(guó)城市雷恩2014年4月的公共交通刷卡數(shù)據(jù),提出了一種主題模型結(jié)合高斯混合模型的方法,將乘客按照出行時(shí)間及出行模式聚類,并從智能卡的類型分析聚類成分,證明了聚類結(jié)果與出行者社會(huì)經(jīng)濟(jì)屬性的關(guān)聯(lián)性。另外,有研究者基于高鐵客票數(shù)據(jù)進(jìn)行鐵路旅客分類研究,如呂紅霞等[7]采集旅客出行數(shù)據(jù),用凝聚法合并相關(guān)性較強(qiáng)的特征變量,并用近鄰傳播算法對(duì)旅客進(jìn)行樣本聚類,將旅客分為6 類。同時(shí),也有研究者以出行車輛為研究對(duì)象進(jìn)行出行群體分類研究,如暢玉皎等[8]基于上??焖俾放普兆R(shí)別系統(tǒng)采集的數(shù)據(jù),通過K-means 聚類進(jìn)行數(shù)據(jù)挖掘,提取路網(wǎng)中具有通勤特征的車輛,并分析了通勤車輛在路網(wǎng)中的出行時(shí)空分布。
已有出行群體分類研究多以城市內(nèi)部出行大數(shù)據(jù)為基礎(chǔ),以在城市內(nèi)部出行的人群為研究對(duì)象。而高速公路聯(lián)網(wǎng)收費(fèi)數(shù)據(jù)作為典型的交通大數(shù)據(jù),記錄了車輛經(jīng)過高速公路收費(fèi)站的詳細(xì)信息,如進(jìn)出口收費(fèi)站點(diǎn)編號(hào)、車輛進(jìn)出收費(fèi)站時(shí)間、車型、車牌等數(shù)據(jù),是研究高速公路出行的良好數(shù)據(jù)源。部分學(xué)者基于高速公路聯(lián)網(wǎng)收費(fèi)數(shù)據(jù)進(jìn)行了研究,但集中于旅行時(shí)間預(yù)測(cè)、交通流特征分析、短時(shí)流量預(yù)測(cè)等[9-11],僅有少量學(xué)者基于收費(fèi)數(shù)據(jù)進(jìn)行高速公路出行群體的識(shí)別,如錢超等[12]利用ETC 收費(fèi)數(shù)據(jù)提取客戶細(xì)分指標(biāo),基于大型應(yīng)用中的聚類(Clustering Large Applica?tions,CLARA)算法實(shí)現(xiàn)ETC 客戶的聚類分析,并采用分類與回歸樹(Classification and Regres?sion Tree,CART)算法提取ETC 客戶細(xì)分規(guī)則,最終將ETC 客戶細(xì)分為5 類;魏廣奇等[13]基于高速公路收費(fèi)數(shù)據(jù),利用聚類方法只進(jìn)行通勤車輛識(shí)別,并分析通勤車輛的出行時(shí)空分布特征。
因此本文針對(duì)高速公路車輛群體分類研究較少且多只進(jìn)行部分類別辨識(shí)的情況,基于高速公路收費(fèi)數(shù)據(jù),分析車輛出行特征并建立車輛出行指標(biāo),利用K-means++無監(jiān)督學(xué)習(xí)算法,對(duì)高速公路出行車輛進(jìn)行群體分類辨識(shí),將具有相似出行特征的車輛劃分到同一類別,并分析各類別的差異,以期為交管人員進(jìn)行精細(xì)化的、更有針對(duì)性的高速公路交通管控提供依據(jù)。
本文數(shù)據(jù)來源于重慶市某高速公路特定通道2018年7月2日—2018年7月29日小型客車(7座及以下)收費(fèi)數(shù)據(jù),數(shù)據(jù)表設(shè)計(jì)見表1。2018年7月2 日—2018 年7 月29 日包含4 個(gè)完整周,其中工作日20d、周末8d。特定通道共包含5 個(gè)互通和8 個(gè)收費(fèi)站,左起南環(huán)互通,屬主城巴南區(qū)管轄,右至雙河口互通,屬南川區(qū)管轄,全長(zhǎng)約92.4km。為方便研究,將南環(huán)互通至雙河口互通方向定義為“出城方向”,反之為“進(jìn)城方向”。
表1 高速公路收費(fèi)數(shù)據(jù)主要字段
由于設(shè)備問題或人工操作失誤等原因,收費(fèi)數(shù)據(jù)可能包含個(gè)別錯(cuò)誤數(shù)據(jù)。為提高研究精度,降低錯(cuò)誤干擾,將存在缺失字段、車牌號(hào)錯(cuò)誤、進(jìn)站時(shí)間晚于出站時(shí)間、進(jìn)出站時(shí)間差大于24h等情況的錯(cuò)誤數(shù)據(jù)刪除,最終保留有效數(shù)據(jù)134.6萬條,對(duì)應(yīng)小型客車43.6萬輛。
基于收費(fèi)數(shù)據(jù),統(tǒng)計(jì)每周“進(jìn)出城方向”各小時(shí)交通量變化情況,結(jié)果顯示:周五下午、周六及周日上午出城方向車流量大,而周六及周日下午進(jìn)城方向車流量較大。經(jīng)分析認(rèn)為,周末出城走親訪友的車輛增多,且受該地存在景區(qū)的影響,7 月后兩周的周末有大量游客前往通道附近景區(qū)游玩避暑。另外,統(tǒng)計(jì)車輛出行次數(shù)后發(fā)現(xiàn):出行1 次的車輛占車輛總數(shù)的30.95%,無法對(duì)該部分車輛進(jìn)行個(gè)體出行規(guī)律分析。
若直接進(jìn)行聚類,出行總次數(shù)較少而占比較大的車輛會(huì)降低分類精確度。為提高車輛分類準(zhǔn)確性,本文采取“先定義后聚類”的方式,具體分類流程(見圖1)為:
(1)清洗原始數(shù)據(jù);
(2)將出行1 次的車輛定義為“單次出行車輛群體”;
(3)出游或走親訪友車輛群體主要在周末出行而工作日基本無出行,因此篩選出周末有出行但工作日出行為零的車輛,定義為“出游或走親訪友車輛群體”;
(4)對(duì)剩余車輛構(gòu)建時(shí)空出行指標(biāo),并將指標(biāo)作為聚類算法的輸入,將剩余車輛分類。
圖1 車輛分類流程
K-means 作為經(jīng)典的劃分聚類算法,通過計(jì)算各數(shù)據(jù)點(diǎn)與質(zhì)心間的歐式距離,將其劃分到最近的質(zhì)心所在的簇,從而將數(shù)據(jù)點(diǎn)分為具有相似特征的k個(gè)簇。K-means 具有計(jì)算簡(jiǎn)單、處理大數(shù)據(jù)效率較高和伸縮性較強(qiáng)等特點(diǎn),因此廣泛應(yīng)用于各個(gè)領(lǐng)域。但因其k個(gè)初始質(zhì)心是隨機(jī)抓取的,算法對(duì)初始質(zhì)心的選擇異常敏感。2007 年,Arthur 等[14]在K-means 的基礎(chǔ)上提出了Kmeans++聚類算法,該算法對(duì)初始質(zhì)心的選擇進(jìn)行了優(yōu)化,使得各初始質(zhì)心分布盡可能遠(yuǎn),以消除K-means 因生成較近的初始質(zhì)心而產(chǎn)生的局部最優(yōu)解。本文將應(yīng)用K-means++聚類算法對(duì)車輛時(shí)空出行指標(biāo)進(jìn)行聚類,將車輛劃分到不同類別。K-means++算法步驟如下:
(1)選取數(shù)據(jù)集X中任一點(diǎn)作為第1 個(gè)聚類中心點(diǎn)c1。
(2)首先計(jì)算數(shù)據(jù)點(diǎn)x與已有聚類中心之間的最短距離dx,然后計(jì)算其他數(shù)據(jù)點(diǎn)被選為下一個(gè)聚類中心點(diǎn)的概率px[14],最后按照輪盤法選擇下一個(gè)聚類中心,即:
式(1)~式(2)中:x為數(shù)據(jù)集X中的數(shù)據(jù)點(diǎn);c為聚類中心點(diǎn)集C中的中心點(diǎn)。
(3)重復(fù)步驟(2),直至選出所需的k個(gè)聚類中心點(diǎn)。
(4)選出k個(gè)所需的聚類中心點(diǎn)后,逐一計(jì)算數(shù)據(jù)集中每一個(gè)x與k個(gè)中心點(diǎn)的距離d(x),并將其劃分至距離最小的聚類中心。
(5)針對(duì)每個(gè)聚類中心,重新計(jì)算質(zhì)心作為新的聚類中心。
(6)重復(fù)步驟(4)和步驟(5),直至聚類中心不再變化或迭代次數(shù)達(dá)到預(yù)設(shè)值為止。
K-means++聚類算法需先確定最優(yōu)的聚類數(shù)k,使聚類產(chǎn)生高的簇內(nèi)相似度及低的簇間相似度。本文將分別在不同k值下計(jì)算兩個(gè)內(nèi)部質(zhì)量評(píng)價(jià)指標(biāo):Calinski-Harabasz(CH)指標(biāo)及Da?vies-Bouldin(DB)指標(biāo),以保證選擇最優(yōu)的k值。
將出行特征較明顯的車輛劃分到相應(yīng)群體后,對(duì)剩余車輛的出行時(shí)空分布進(jìn)行量化,作為K-means++聚類算法輸入。由于高速公路出行車輛中,通勤車輛及營(yíng)運(yùn)車輛具有明顯的時(shí)空穩(wěn)定性,出行強(qiáng)度、時(shí)間維度及空間維度特征能較好地描述車輛出行分布規(guī)律[15]。但因生產(chǎn)生活需要,高速公路出行車輛在工作日的出行較穩(wěn)定,而周末較分散。因此本文在“工作日”下,結(jié)合車輛出行數(shù)據(jù),改進(jìn)RFM(最近一次交易(Recency),交易頻率(Frequency),交易金額(Monetary))指標(biāo)體系,分別從出行強(qiáng)度、時(shí)間維度及空間維度3 方面構(gòu)建出行指標(biāo)(見表2),以滿足表征不同類型車輛出行特征的基本原則,而“周末”的出行特征僅用于群體分類結(jié)果的進(jìn)一步驗(yàn)證。
表2 車輛分類指標(biāo)匯總
(1)出行強(qiáng)度
出行強(qiáng)度表征車輛出行的整體情況,包括工作日出行強(qiáng)度、工作日平均出行天數(shù)及其方差3個(gè)指標(biāo)。工作日出行強(qiáng)度是工作日出行總次數(shù)與工作日出行總天數(shù)的比值,代表著車輛日均出行的頻繁程度,如營(yíng)運(yùn)車輛工作日出行強(qiáng)度明顯高于通勤群體車輛。工作日平均出行天數(shù)及其方差則表征車輛在工作日出行天數(shù)的分布情況及穩(wěn)定性。
(2)時(shí)間維度
高速公路通勤車輛受限于工作時(shí)間要求,在時(shí)間維度上與城市通勤人群存在相似的早晚高峰出行特征,但高速公路通勤車輛晚高峰時(shí)段出行更為分散[13]。因此,本文統(tǒng)計(jì)車輛在工作日首次出行時(shí)間屬于早高峰時(shí)段(07:00—10:00)的周均天數(shù)和車輛在工作日午平峰(10:00—15:00)出行的周均天數(shù)兩個(gè)指標(biāo),作為車輛的時(shí)間維度出行指標(biāo)。
(3)空間維度
出行OD 表征車輛在高速公路出行的空間分布,不同車輛群體的出行OD 穩(wěn)定性存在差異,如通勤車輛的往返OD 對(duì)較其他車輛更為固定。本文分別統(tǒng)計(jì)車輛進(jìn)城及出城方向OD 最大出行次數(shù),并計(jì)算其與該車輛工作日出行總次數(shù)的比值,設(shè)定為工作日最大進(jìn)出城OD 出行占比指標(biāo),描述車輛出行OD的穩(wěn)定性。
基于重慶某高速公路特定通道2018 年7 月收費(fèi)數(shù)據(jù),提取“單次出行”及“出游或走親訪友”的車輛,剩余24.1 萬輛車。計(jì)算剩余車輛的7 個(gè)出行指標(biāo)并進(jìn)行聚類。為提高聚類準(zhǔn)確性,避免各指標(biāo)數(shù)量級(jí)不同對(duì)聚類結(jié)果造成影響,首先利用Z 分?jǐn)?shù)(Z-score)算法將指標(biāo)標(biāo)準(zhǔn)化;然后根據(jù)CH 指標(biāo)及DB 指標(biāo)的計(jì)算結(jié)果,確定k為6 時(shí)獲得最優(yōu)聚類效果;最后將7 個(gè)指標(biāo)放入Kmeans++聚類算法模型中,并將聚類k值設(shè)為6,獲取最終聚類結(jié)果(見表3)。
表3 K-means++聚類結(jié)果
基于聚類結(jié)果,結(jié)合已定義的“單次出行”及“出游或走親訪友”兩類車輛群體,分析不同車輛類別的指標(biāo)分布情況(見圖2~圖4),并結(jié)合實(shí)際對(duì)各類群體進(jìn)行定義。
(1)類別1 出行特征明顯。周均出行天數(shù)多(3.34d),擁有穩(wěn)定的出行OD 對(duì),出行強(qiáng)度較小(1.69 次/d),小時(shí)交通量呈明顯的早晚高峰分布(見圖3)。結(jié)合實(shí)際將類別1定義為“通勤車輛群體”,其在所有出行車輛中占比為0.43%。
(2)類別4 與類別1 有相似的周均出行天數(shù),日均出行次數(shù)更多(2.54 次/d),但出行OD 對(duì)較分散,小時(shí)交通量在7:00—17:00 間無峰值,所以定義類別4為“營(yíng)運(yùn)車輛群體”,其在所有出行車輛中占比為0.39%。
圖2 出行總次數(shù)對(duì)應(yīng)車輛數(shù)占比
圖3 類別1、類別3、類別4的小時(shí)交通量對(duì)比
圖4 其余4類別的小時(shí)交通量對(duì)比
(3)類別3 的出行強(qiáng)度與類別1 相似,但周均出行天數(shù)較少,出行OD 較分散。車輛出行總次數(shù)較少,但每周工作日均有出行,該類別車輛出行規(guī)律與遠(yuǎn)距離出行進(jìn)行商務(wù)洽談的人群(如因工作需要頻繁出差的人群)出行規(guī)律相似,因此將其定義為“商務(wù)車輛群體”,在所有出行車輛中占比為5.53%。
(4)類別2 及類別6 的指標(biāo)中心點(diǎn)差距較小,雖然出行天數(shù)及出行強(qiáng)度分布存在一定區(qū)別,但兩類別90%以上的車輛在統(tǒng)計(jì)周期(4 周)內(nèi)出行總次數(shù)均小于6 次,小時(shí)交通量分布也基本重合(見圖4)。因此,將類別2 及類別6 合并為同一類別,并定義為“零星出行車輛群體”,其在所有出行車輛中占比為39.34%。
(5)類別5 的周均出行天數(shù)及出行強(qiáng)度是所有類別中最小的,其最大進(jìn)出城OD 出行占比呈兩極分化,表明該類別車輛大多在工作日僅出行一次且為出城出行。類別5 小時(shí)交通量呈現(xiàn)出工作日交通量極小,但周五下午及周六、周日突增的變化趨勢(shì)(見圖4)。該類別車輛出行特征與“出游或走親訪友車輛”的特征類似,因此將兩類別合并,共同定義為“出游或走親訪友車輛群體”,其在所有出行車輛中占比為23.37%。
本文最終將車輛劃分為6 類,并分別定義為“單次出行”“通勤”“營(yíng)運(yùn)”“商務(wù)”“零星出行”及“出游或走親訪友”車輛群體。進(jìn)一步分析各類別的出行特征,高速公路交管人員可基于此針對(duì)不同類別車輛進(jìn)行精細(xì)化管理。
(1)高速公路存在具有出行強(qiáng)度高、特定線路出行占比大等特征的“非法營(yíng)運(yùn)車輛”[16],這會(huì)嚴(yán)重危害路網(wǎng)行車安全。因此交管人員可基于本文提出的方法對(duì)歷史出行車輛進(jìn)行“營(yíng)運(yùn)車輛”識(shí)別,針對(duì)識(shí)別出的“營(yíng)運(yùn)車輛”,重點(diǎn)檢查其是否具備營(yíng)運(yùn)資格,可為打擊高速公路“非法營(yíng)運(yùn)”活動(dòng)提供依據(jù),提高管控效率。
(2)進(jìn)一步分析“通勤車輛群體”的出行OD,發(fā)現(xiàn)車輛多集中在“南川收費(fèi)站—大觀收費(fèi)站”“南彭收費(fèi)站—G65巴南收費(fèi)站”及“南川收費(fèi)站—水江收費(fèi)站”等距離小于20km 的OD 對(duì)上出行。因此可考慮在“通勤車輛”出行較多的OD 對(duì)間增加早晚班車,而其余時(shí)段和路段適當(dāng)縮減班車車次,這樣既能緩解早晚高峰道路擁堵又能減少資源浪費(fèi)。
(3)88.12%的“出游或走親訪友”車輛為渝籍車輛,可知該特定通道內(nèi)景區(qū)多吸引重慶主城區(qū)人群游玩,景區(qū)可加大宣傳,提高對(duì)外地出游人群的吸引力,還可為出游車輛制定更為詳細(xì)的自駕游出行計(jì)劃及產(chǎn)品推送,提升車輛“復(fù)出游”率。細(xì)化分析該類別車輛出行時(shí)空偏好發(fā)現(xiàn),78.45%的車輛在以“G65 巴南收費(fèi)站”為起點(diǎn),景區(qū)附近收費(fèi)站為終點(diǎn)的OD 對(duì)上出行,且多集中在周五的14:00—19:00 及周六、周日早晚高峰時(shí)段。基于此,交管部門可在景區(qū)到達(dá)車輛過飽和時(shí)段對(duì)該類車輛進(jìn)行特定消息推送,引導(dǎo)車輛改變出游計(jì)劃,達(dá)到緩解周五下午及周六、周日交通擁堵的目的。
本文應(yīng)用“先定義,后聚類”的方法,建立了一套較完整的高速公路小客車分類模型。首先定義了“單次出行”及“出游或走親訪友”出行群體,然后從出行強(qiáng)度、時(shí)間維度及空間維度3方面構(gòu)建指標(biāo),利用K-means++算法進(jìn)行聚類,最后結(jié)合實(shí)際將出行車輛劃分為最佳的6類群體,分別為“單次出行”“通勤”“營(yíng)運(yùn)”“商務(wù)”“零星出行”及“出游或走親訪友”車輛群體。基于分類結(jié)果,交管部門可進(jìn)行“非法營(yíng)運(yùn)”車輛識(shí)別、班車頻次優(yōu)化、特定消息推送引導(dǎo)車輛錯(cuò)峰出行等工作,以提升高速公路管控效率和精細(xì)化服務(wù)水平。
本文只基于出行車輛群體分類辨識(shí)結(jié)果對(duì)各類別出行特征進(jìn)行描述,未來可進(jìn)一步研究車輛群體出行與高速公路各站點(diǎn)間流量分布的關(guān)聯(lián)性,并探析多類型客流分配。