周思源++劉佳雨++陳佳宜++任越++竇萬峰
摘 要公共交通已成為市民出行的重要交通工具,分析研究公共交通客流數(shù)據(jù)并對相關(guān)規(guī)律進(jìn)行分析,有助于掌握市民出行規(guī)律,并依此優(yōu)化城市公交網(wǎng)絡(luò)。在已有聚類分析方法的基礎(chǔ)上,本文基于公交IC卡刷卡數(shù)據(jù)的多個類聚點,提出一種通過GPS定位、乘客“閉環(huán)”出行、以及出行規(guī)律等條件,對已聚類點進(jìn)行上車站點的匹配和下車站點判斷方法。利用公交IC卡數(shù)據(jù)可得到滿意地匹配和推斷上、下車站點,為研究大規(guī)模出行規(guī)律提供基礎(chǔ)。
【關(guān)鍵詞】公交IC卡 聚類分析 站點匹配
1 K-means聚類方法的局限與改進(jìn)
K-means聚類算法是目前聚類算法中十分普遍常用的算法。K-means算法高效便捷、簡單快速,但是在實際的操作中我們不難發(fā)現(xiàn),K-means算法在確定初始K值、初始凝聚點確定等問題上仍存在很大的不確定性。加之K-means算法采用歐幾里得距離最為相似性度量的依據(jù),而歐幾里得距離僅適用于分布均勻且呈類球形的數(shù)據(jù),實際使用過程中會出現(xiàn)很多問題,為此,我們對K-means聚類算法提出了改進(jìn)。
該算法對兩個數(shù)據(jù)之間的距離進(jìn)行測量。當(dāng)兩個數(shù)據(jù)之間的距離較遠(yuǎn)時,結(jié)果值較大;完全一致時結(jié)果值為0。m作為不同簇的生成值中心點,n作為等待劃分點。當(dāng)?shù)却齽澐贮c與中心點距離接近時,兩個值的差距較小,即K-means值越??;當(dāng)?shù)却齽澐贮c與中心點一致時,K-means值則為0。作為K-means聚類方法的改進(jìn),該算法也可用于其他類型的數(shù)據(jù)。其公式可表示為:
其中,mj代表第j類的生成值中心點,ni代表第i個等待劃分點。該公式的使用條件是mj和ni為非負(fù)數(shù)。當(dāng)和中不全為正數(shù)時,令
。當(dāng)mj與ni距離越大時,的值越大。
2 上車站點匹配
已知研究的公交線路有m個站點,利用上述方法可將實驗數(shù)據(jù)聚類成n個點。通過比較n與m之間的關(guān)系,可以將已類聚的點與對應(yīng)車站進(jìn)行匹配。在聚類方法正確的情況下,將不會出現(xiàn)m
2.1 利用GPS數(shù)據(jù)匹配上車站點的方法
該方法將GPS數(shù)據(jù)與公交IC卡數(shù)據(jù)進(jìn)行混合處理,通過公交車輛在不同站點的行駛時間與乘客的刷卡時間進(jìn)行比對,從而將地理信息位置和乘客的上車站點進(jìn)行匹配。在基于GPS技術(shù)的公交站點匹配上由于GPS數(shù)據(jù)存在延時性,即非實時數(shù)據(jù),因此與公交車輛的實時地理位置存在一定偏差,需要量化兩者的時間偏差,由于不同的公交系統(tǒng)GPS數(shù)據(jù)延時不同,本文對該偏差不予以考慮。
匹配步驟如下:
步驟1:獲取同一聚類點下乘客刷卡的交易時間,依據(jù)不同乘客的刷卡時間,確定一個可以代表此批次乘客刷卡時間的特征時間點。
步驟2:將步驟一中獲得的特征時間點與對應(yīng)線路、車輛的記錄時間進(jìn)行匹配,獲取該時刻下的經(jīng)度與緯度。
步驟3:將步驟二中獲得的坐標(biāo)與對應(yīng)公交線路的坐標(biāo)進(jìn)行匹配,求得對應(yīng)公交線路中直線距離最小的公交站點。
步驟四 求得直線距離最小的車站,即為該聚類點匹配的上車點。
2.2 不利用GPS數(shù)據(jù)匹配上車站點的方法
由于日常生活中存在交通擁堵或者某站點沒有乘客上下車等問題,因此根據(jù)居民的出行規(guī)律將公交線路在不同站點的時間間隔進(jìn)行劃分。根據(jù)實際調(diào)研及相關(guān)數(shù)據(jù)處理,以南京市棲霞區(qū)為例,獲得該區(qū)域內(nèi)交通高峰調(diào)查結(jié)果如表1所示。
同時,將大量實際調(diào)研數(shù)據(jù)進(jìn)行分析,可以推斷出公交車相鄰兩站運行時間間隔的閾值,部分調(diào)查結(jié)果如表2所示。
主要處理步驟如下:
步驟1:依次將聚類得到點按時間順序與已有站點匹配,并依據(jù)表1中信息判斷時間是否屬于高峰時段。
步驟2:在表2中尋找其相鄰兩站運行時間閾值。若小于閾值,則代表兩站相鄰;若大于閾值,則代表“跳站”行駛。
步驟3:以此類推,完成所有站點的匹配。
2.3 “閉合”公交出行線路下的下車站點推算
所謂的“閉合”出行線路,是指某乘客某次出行經(jīng)過多次公交換乘后的起止點均為同一地點,且換乘過程中連續(xù)。圖1表示該乘客某次出行乘坐公交的過程為從A點連續(xù)換乘5次公交依次到達(dá)B點、C點、D點、E點并返回至A點的過程。
在這種情況下我們可以發(fā)現(xiàn),每次乘坐公交的上車點與上次乘坐的下車點距離極近甚至重合。由此,我們可以在推算下車站點時,可以通過下一次乘坐記錄的上車點位置得出結(jié)論。從數(shù)據(jù)需求的角度,一方面,我們需要前期收集某城市的公交站點位置、車輛線路(來與回的同路公交線路標(biāo)注不同的線路號,包含??空军c及相應(yīng)方向的上下游位置)等信息;另一方面,我們需要通過IC卡號查詢出某乘客當(dāng)日的所有上車信息,包括站點位置、上車時間、車輛線路號等。
“閉合”線路判斷條件:對某乘客當(dāng)日的所有上車站點根據(jù)時間排序后,對于每一次上車信息,都滿足下一次上車站點在此次上車線路號包含的某一個下游站點附近。
根據(jù)單次“閉合”線路的推算并推廣到多次,我們可以進(jìn)一步分析出此種出行線路是否具有長期性規(guī)律。
2.4 非“閉合”公交出行線路下的下車站點推算
所謂的非“閉合”線路,是指某乘客某次出行乘坐的公交線路不滿足上一部分中“閉合”線路的要求,如圖2。該圖表示該乘客某次出行從A點換乘4次公交依次到達(dá)B點、C點、D點、E點,最后采用其他交通方式,返回至A點的過程。
在這種情況下,我們很難用上一節(jié)中的方法進(jìn)行推算。由于居民長期的公交出行線路較為穩(wěn)定,因此我們可以進(jìn)一步分析該乘客多日的出行線路,嘗試得出規(guī)律。
通過對比相鄰幾次的出行數(shù)據(jù),我們可以在非“閉合”線路的斷點(如圖2中的E點)前找到同一上車站點信息(如圖2中的D點),并尋找不同線路中是否存在下一個上車站點能滿足閉合線路中的判斷條件。若能找到,則此乘客在這條線路上有規(guī)律性的長期出行,可將非閉合線路轉(zhuǎn)化為閉合線路進(jìn)行進(jìn)一步研究。若不能找到,則此乘客在這條線路上的出行不具有規(guī)律性,則丟棄此次出行的相應(yīng)數(shù)據(jù)。
3 結(jié)論與展望
在基于公交IC卡大數(shù)據(jù)分析的居民出行行為研究中,我們在前人研究出的關(guān)于站點K-means聚類算法的基礎(chǔ)上,對居民上下車時間進(jìn)行了聚類運算,并對如何進(jìn)行上下車站點的匹配做了更完備透徹的解釋。我們將上車站點的推算分成了2種情況進(jìn)行討論,而推算出了上車站點后,我們可以借此對下車站點進(jìn)行進(jìn)一步推測,分為了閉環(huán)出行和非閉環(huán)出行以及規(guī)律出行和非規(guī)律出行相互交錯的4種情況進(jìn)行了討論。
隨著大數(shù)據(jù)時代的到來和發(fā)展,如何正確處理種類繁多、數(shù)量龐大的數(shù)據(jù)信息,并從這些信息中篩選出有用的信息從而更好地為社會發(fā)展提供堅實的基礎(chǔ)成為了目前亟待解決的話題和任務(wù)。而目前,公共交通事業(yè)飛速發(fā)展,智能交通的概念愈發(fā)深入人心。在這樣的發(fā)展趨勢下,我們不能只停留在公共交通事業(yè)蓬勃發(fā)展的表面現(xiàn)象上,而是應(yīng)該推測和總結(jié)出大量的公共交通數(shù)據(jù)背后的信息,推斷居民出行規(guī)律,并結(jié)合城市的經(jīng)濟狀況、城市規(guī)劃、地質(zhì)特點、氣候特征等因素合理優(yōu)化公共交通線路,同時應(yīng)用于公共交通車輛調(diào)度的過程中,改善城市出行狀況,改善公共交通管理制度,提升公共事業(yè)管理水平,為建設(shè)智能城市做出貢獻(xiàn)。
參考文獻(xiàn)
[1]沈吟東,張仝輝,徐甲.基于K-means聚類算法的公交運營時段分析[J].交通運輸系統(tǒng)工程與信息,2014,14(02):87-93.
[2]陳紹輝,陳艷艷,尹長勇.基于特征站點的公交IC卡數(shù)據(jù)站點匹配方法研究[J].北京工業(yè)大學(xué)學(xué)報,2012,38(06):885-889.
[3]陳紹輝,陳艷艷,賴見輝.基于GPS與IC卡數(shù)據(jù)的公交站點匹配方法[J].公路交通科技,2012,29(05):102-108.
[4]叢曉潔.基于IC卡和GPS大數(shù)據(jù)的公交客流分析[C].2015年中國城市交通規(guī)劃年會暨第28次學(xué)術(shù)研討會,2015.
[5]陳孟柯.基于公交IC卡數(shù)據(jù)的公共交通客流分析——以南京為例[J].科技視界,2016(22):157-158.
作者簡介
周思源(1995-),男,河北省滄州市人。南京師范大學(xué)計算機科學(xué)與技術(shù)學(xué)院2014級本科生,信息管理與信息系統(tǒng)專業(yè)。
劉佳雨(1996-),女,江蘇省鎮(zhèn)江市人。南京師范大學(xué)計算機科學(xué)與技術(shù)學(xué)院2014級本科生,信息管理與信息系統(tǒng)專業(yè)。
陳佳宜(1996-),女,山東省東營市人。南京師范大學(xué)計算機科學(xué)與技術(shù)學(xué)院2014級本科生,信息管理與信息系統(tǒng)專業(yè)。
任越(1996- ),女,天津市人。南京師范大學(xué)計算機學(xué)院2014級本科生,信息管理與信息系統(tǒng)專業(yè)。
竇萬峰(1968-),男,陜西省永壽縣人。南京師范大學(xué)計算機科學(xué)與技術(shù)學(xué)院管理科學(xué)與工程系教授,博士研究生導(dǎo)師。
作者單位
南京師范大學(xué)計算機學(xué)院 江蘇省南京市210023