張朝陽,李學(xué)明
(重慶大學(xué)計(jì)算機(jī)學(xué)院,重慶 400044)
基于乘客行為的上車站點(diǎn)識(shí)別
張朝陽,李學(xué)明
(重慶大學(xué)計(jì)算機(jī)學(xué)院,重慶 400044)
利用換乘信息識(shí)別乘客上車站點(diǎn)的算法,當(dāng)乘客前后兩次乘坐的公交線路不止一個(gè)交點(diǎn)時(shí),可識(shí)別站點(diǎn)數(shù)量少,導(dǎo)致乘客上車站點(diǎn)識(shí)別準(zhǔn)確率低。針對(duì)這一問題,提出基于乘客行為的上車站點(diǎn)識(shí)別:對(duì)IC刷卡數(shù)據(jù)進(jìn)行分組,然后基于地鐵換乘,確定部分乘客的上車站點(diǎn),并將數(shù)據(jù)切分為多個(gè)子段,再通過公交換乘,確定部分?jǐn)?shù)據(jù)組的上車站點(diǎn)。最后通過比例關(guān)系,得到所有IC刷卡數(shù)據(jù)組的上車站點(diǎn)。試驗(yàn)表明,該算法具有較高的準(zhǔn)確率。
公交IC刷卡數(shù)據(jù);上車站點(diǎn)識(shí)別;數(shù)據(jù)挖掘
在科技高速發(fā)展的今天,越來越多的城市的公共交通系統(tǒng)也進(jìn)入了智能化與數(shù)字化的時(shí)代。如一些公共交通的繳費(fèi)過程采用IC卡刷卡收費(fèi)的方式來代替?zhèn)鹘y(tǒng)的人工收費(fèi)或者現(xiàn)金投幣等方式。這種繳費(fèi)方式為公民出行提供了方便,使付費(fèi)過程變得簡(jiǎn)單而流暢[1]。在日常生活中,公交IC卡與公民存在一一對(duì)應(yīng)的關(guān)系,公民的出行行為記錄在IC刷卡數(shù)據(jù)中。隨著IC卡使用的普及,公民IC刷卡數(shù)據(jù)大量積累,公共交通系統(tǒng)數(shù)據(jù)庫(kù)中存儲(chǔ)下了大量的公民IC刷卡時(shí)產(chǎn)生的出行記錄等數(shù)據(jù)。IC刷卡數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)可靠、實(shí)時(shí)性強(qiáng)、獲得途徑方便簡(jiǎn)單等優(yōu)點(diǎn)。利用IC刷卡數(shù)據(jù)對(duì)公民出行進(jìn)行研究,可以得到更為可靠、客觀的公民出行規(guī)律。但是,IC刷卡數(shù)據(jù)中往往只記錄了IC卡號(hào)、上車刷卡時(shí)間等信息,信息較為殘缺。乘客上車站點(diǎn)需要通過一些算法進(jìn)行識(shí)別。
目前,國(guó)內(nèi)外上車站點(diǎn)識(shí)別算法主要分為兩類,基于公交運(yùn)營(yíng)數(shù)據(jù)的上車站點(diǎn)識(shí)別,以及基于GPS數(shù)據(jù)的乘客上車站點(diǎn)識(shí)別?;诠贿\(yùn)營(yíng)數(shù)據(jù)識(shí)別上車站點(diǎn)時(shí),需要結(jié)合公交IC刷卡數(shù)據(jù)、線路站點(diǎn)信息表、公交運(yùn)營(yíng)數(shù)據(jù)這三類數(shù)據(jù)。戴霄[2]、余勇[3]、舒國(guó)輝[4]、尹長(zhǎng)勇[5]等通過聚類IC刷卡數(shù)據(jù),對(duì)其進(jìn)行分組,然后根據(jù)線路站點(diǎn)信息表、公交運(yùn)營(yíng)數(shù)據(jù)計(jì)算車輛到站時(shí)間,最后對(duì)IC刷卡數(shù)據(jù)組和到站時(shí)間進(jìn)行匹配,得到乘客上車站點(diǎn)?;贕PS數(shù)據(jù)識(shí)別上車站點(diǎn)時(shí),需要結(jié)合公交IC刷卡數(shù)據(jù)、線路站點(diǎn)信息、車載GPS數(shù)據(jù)這三類數(shù)據(jù)。Barry[6]、Zhao[7]、Martin[8]、戴維[9]、陳君[10]、李海波[11]等利用IC刷卡數(shù)據(jù)和GPS數(shù)據(jù)融合,得到乘客刷卡位置,進(jìn)而得到乘客上車站點(diǎn)。
但是,由于成本高等原因,很多城市沒有為車輛配備GPS等系統(tǒng)。此外,公交運(yùn)營(yíng)數(shù)據(jù)多為紙質(zhì)數(shù)據(jù),容易丟失。在缺少GPS數(shù)據(jù)和公交運(yùn)營(yíng)數(shù)據(jù)的前提下識(shí)別乘客上車站點(diǎn),目前,較少專家學(xué)者對(duì)于這個(gè)問題展開研究。張頌[12]、趙鵬[13]、宋曉晴[14]根據(jù)換乘計(jì)算乘客上車站點(diǎn)。利用換乘判斷乘客的上車站點(diǎn),當(dāng)乘客先后乘坐的兩條公交線路有且僅有一個(gè)交點(diǎn)時(shí),根據(jù)乘客就近換乘的特點(diǎn),可以判斷出兩條線路的交點(diǎn)就是乘客乘坐第二條線路公交車時(shí)的上車站點(diǎn)。但是,當(dāng)乘客先后乘坐的兩條公交線路有多個(gè)交點(diǎn)時(shí),通過查找該分組其他公交換乘乘客的換乘站點(diǎn)情況,若兩個(gè)乘客的換乘站點(diǎn)中只有一個(gè)共同站點(diǎn),就將這個(gè)站點(diǎn)作為該組的上車站點(diǎn)。這種方面能部分解決公交線路多交點(diǎn)的問題,但是仍有局限性。例如當(dāng)乘客間有多個(gè)相同的換乘站點(diǎn)時(shí),這個(gè)方法就失效了。
針對(duì)以上這些問題,在缺少公交運(yùn)營(yíng)數(shù)據(jù)和GPS數(shù)據(jù)的情況下,本文結(jié)合乘客的乘車習(xí)慣和特征,提出基于乘客行為的上車站點(diǎn)識(shí)別算法。
利用公交換乘判斷乘客的上車站點(diǎn),算法主要步驟為:①劃分單程;②判斷行車方向;③分組IC刷卡數(shù)據(jù);④識(shí)別匹配組;⑤匹配待定組。本文提出的算法,在沿用上述算法的第①、②步計(jì)算出單程和行車方向后,主要改進(jìn)IC刷卡數(shù)據(jù)的分組、匹配組的識(shí)別。
算法流程如圖1所示。
圖1 算法流程
2.1 分組IC刷卡數(shù)據(jù)
公交IC刷卡數(shù)據(jù)具有周期性時(shí)間聚集性,根據(jù)這一特性,可以將IC刷卡數(shù)據(jù)進(jìn)行分組。在以往的研究中,專家學(xué)者主要使用層次聚類法進(jìn)行分組。該過程描述起來比較簡(jiǎn)單,但時(shí)間復(fù)雜度與空間復(fù)雜度較高。針對(duì)這一問題,本文提出順序標(biāo)記法,分組IC刷卡數(shù)據(jù)。根據(jù)目標(biāo)線路的總長(zhǎng)度和單程平均行駛時(shí)間,計(jì)算車輛的平均行駛速度v。從線路站點(diǎn)信息中找出目標(biāo)線路最短的站間距min(Dk,k+1),根據(jù)公式(1),計(jì)算時(shí)間閾值Tmin。
令ti表示第i個(gè)刷卡記錄的刷卡時(shí)間,為了方便計(jì)算,設(shè)t0=t1。令T(ti,ti-1)表示第i個(gè)刷卡記錄與第i-1個(gè)刷卡記錄之間的時(shí)差,令x表示分組序號(hào),則計(jì)算步驟如下:
(1)取出單程中所有刷卡記錄,并按刷卡時(shí)間的先后順序排序;
(2)令x=1,i=1;
(3)若T(ti-ti-1)〈Tmin,則用分組序號(hào)x標(biāo)記第i個(gè)刷卡記錄;
(4)若T(ti-ti-1)>Tmin,則令x=x+1,用分組序號(hào)x標(biāo)記第i個(gè)刷卡記錄;
(5)令i=i+1,重復(fù)(3)、(4)步,直到單程中所有刷卡記錄都被標(biāo)記完畢。
將分組序號(hào)相同的IC刷卡記錄作為一個(gè)IC刷卡數(shù)據(jù)組。
2.2 確定匹配組
匹配組的確定分為兩個(gè)步驟。首先,根據(jù)地鐵換乘信息確定匹配組和匹配站。根據(jù)匹配組和匹配站,將IC刷卡數(shù)據(jù)組與目標(biāo)線路的公交站點(diǎn)進(jìn)行切分,切為多個(gè)子段。再通過公交換乘,在各個(gè)子段中確定匹配組和匹配站,并將子段切分為更小的子段。主要步驟如下所示。
(1)地鐵換乘的利用
乘客由地鐵換乘公交時(shí),通常會(huì)選擇公交線路上離地鐵站最近的站點(diǎn)作為換乘站點(diǎn)。針對(duì)這個(gè)特點(diǎn),本文通過限制地鐵換乘時(shí)間和換乘距離,計(jì)算換乘乘客上車站點(diǎn)。
算法過程:對(duì)單程中所有乘客,從第一個(gè)乘客的全天刷卡記錄開始判斷。若目標(biāo)線路刷卡記錄的前一條記錄為地鐵刷卡記錄,并且兩條刷卡記錄的刷卡時(shí)間差小于20分鐘,并且地鐵刷卡記錄中出站站點(diǎn)與目標(biāo)線路有小于500米的相鄰站點(diǎn),則目標(biāo)線路中離該地鐵站點(diǎn)最近的站點(diǎn),即為乘客換乘站點(diǎn)。
遍歷完所有乘客的全天刷卡記錄,得到了一個(gè)單程中所有滿足地鐵換乘條件的乘客的上車站點(diǎn),那么這些乘客的上車站點(diǎn)即為乘客所在IC刷卡數(shù)據(jù)組的上車站點(diǎn)。
已識(shí)別出上車站點(diǎn)的IC刷卡數(shù)據(jù)組稱為匹配組,對(duì)應(yīng)站點(diǎn)稱為匹配站。未識(shí)別出上車站點(diǎn)的IC刷卡數(shù)據(jù)組稱為待定組,公交站點(diǎn)中除去匹配站的站點(diǎn),稱為待定站。
根據(jù)得到的匹配組和匹配站,可以將剩余IC刷卡數(shù)據(jù)組和未匹配公交站點(diǎn)切分為多個(gè)子段。如圖2所示。圖中,兩個(gè)匹配關(guān)系將數(shù)據(jù)組和站點(diǎn)切分為3個(gè)子段。
圖2 匹配模型
(2)公交換乘的利用
本文將公交換乘限定為:①乘客前后兩次刷卡的時(shí)間差小于60分鐘;②乘客前后兩次乘坐的公交線路有交點(diǎn)。兩條公交線路相交,可能只有1個(gè)交點(diǎn),也可能有多個(gè)交點(diǎn)。本文引入候選站點(diǎn)集、候選站點(diǎn)權(quán)重集的概念,通過地鐵換乘對(duì)候選站點(diǎn)進(jìn)行篩選,并計(jì)算站點(diǎn)權(quán)重,得到部分IC刷卡數(shù)據(jù)組的上車站點(diǎn)。
由于一個(gè)單程中刷卡記錄之間的刷卡時(shí)間是個(gè)時(shí)序關(guān)系,所以有:如果待定組A的刷卡時(shí)間在匹配組B之前,則待定組A中乘客可能的上車站點(diǎn)必然在匹配組B對(duì)應(yīng)的上車站點(diǎn)之前;如果待定組A的刷卡時(shí)間在匹配組B之后,則待定組A中乘客可能的上車站點(diǎn)必然在匹配組B對(duì)應(yīng)的上車站點(diǎn)之后。基于以上規(guī)則,在地鐵換乘切分的子段中,根據(jù)乘客j所在的待定組與切分出這個(gè)子段的匹配組之間刷卡時(shí)間的先后關(guān)系,可以將乘客j的候選站點(diǎn)集中的站點(diǎn)進(jìn)行篩選,剔除掉不合理的候選站點(diǎn)。此時(shí),乘客j的候選站點(diǎn)集為
式中,m表示篩選后乘客j的候選站點(diǎn)集中站點(diǎn)的個(gè)數(shù),候選站點(diǎn)集中存儲(chǔ)候選站點(diǎn)的站點(diǎn)序號(hào)。
由于乘客在各個(gè)候選站點(diǎn)發(fā)生換乘行為的概率相同,所以令各候選站點(diǎn)的權(quán)重相同。經(jīng)過篩選后,乘客j的候選站點(diǎn)權(quán)重集:
各個(gè)候選站點(diǎn)的權(quán)重值為:
若每個(gè)待定組中有s個(gè)乘客,其中有t(0≤t≤s)個(gè)乘客是公交換乘乘客。則該待定組的候選站點(diǎn)集為t個(gè)公交換乘乘客的候選站點(diǎn)集的并集。
待定組候選站點(diǎn)集:
待定組的候選站點(diǎn)權(quán)重集為:
各個(gè)候選站點(diǎn)的權(quán)重值為:
式中,wij表示站點(diǎn)i在換乘乘客j的候選站點(diǎn)集中的權(quán)重值。若換乘乘客j的候選站點(diǎn)集不含站點(diǎn)i,則=0。
通過上述步驟,可以得到待定組的候選站點(diǎn)集和候選站點(diǎn)權(quán)重集,在候選站點(diǎn)權(quán)重集中找到最大的權(quán)重值,將權(quán)重值對(duì)應(yīng)的候選站點(diǎn)記為待定組的上車站點(diǎn),并將該待定組標(biāo)記為匹配組,上車站點(diǎn)標(biāo)記為匹配站。
根據(jù)新得到的匹配組和匹配站,可以將剩余IC刷卡數(shù)據(jù)組和未匹配公交站點(diǎn)切分為更小的子段。
則待定組的候選站點(diǎn)權(quán)重集W={wd,we,wf,wh}={5/ 6,4/3,1/2,1/3}。
所以站點(diǎn)d為該IC刷卡數(shù)據(jù)組對(duì)應(yīng)的上車站點(diǎn)。
2.3 匹配待定組
待定組的匹配過程沿用張頌[12]提出的利用最大相似性原理,在各個(gè)子段中比較待定組之間的刷卡時(shí)間間隔與待定站間公家車行駛時(shí)間的偏差,完成匹配。子段切分得越小,匹配正確率越高。
本文以重慶市某路公交線路為例,以該線路工作日中所有刷卡記錄為實(shí)驗(yàn)數(shù)據(jù)。該工作日共有13436條刷卡記錄,有10243個(gè)乘客乘坐該線路,計(jì)算乘客行為所涉及刷卡記錄近30000條,涉及公交線路近100條。
本文的驗(yàn)證數(shù)據(jù)是用車載GPS數(shù)據(jù)計(jì)算出的IC刷卡記錄的上車站點(diǎn)數(shù)據(jù)。用這一數(shù)據(jù)驗(yàn)證本文所提算法的正確率。
對(duì)試驗(yàn)數(shù)據(jù)分別采用時(shí)間匹配法(該算法是指在IC刷卡數(shù)據(jù)分組后,直接根據(jù)相似性原理識(shí)別上車站點(diǎn))、換乘識(shí)別法、本文算法進(jìn)行站點(diǎn)識(shí)別。乘客上車站點(diǎn)識(shí)別算法的評(píng)估指標(biāo)為識(shí)別的準(zhǔn)確率。令NR表示正確識(shí)別上車站點(diǎn)的IC刷卡記錄的數(shù)量,令N表示目標(biāo)線路全天IC刷卡量。準(zhǔn)確率的計(jì)算方式為:
三個(gè)算法的準(zhǔn)確率比較如表1所示。
表1 不同算法的準(zhǔn)確率比較
時(shí)間匹配法由于假設(shè)第一個(gè)刷卡記錄產(chǎn)生于公交線路的第一站,而實(shí)際中第一站可能沒有乘客刷卡上車,因而導(dǎo)致后面的站點(diǎn)匹配錯(cuò)位,所以誤差較大。換乘識(shí)別法和本文算法在確定部分匹配組后,以匹配組為基準(zhǔn)進(jìn)行相似性匹配,準(zhǔn)確率大幅提高。本文算法相較于換乘識(shí)別法,能識(shí)別出更多匹配組,上車站點(diǎn)準(zhǔn)確率更高。
本文提出了基于乘客行為的上車站點(diǎn)識(shí)別算法,該算法通過地鐵換乘,確定部分IC刷卡數(shù)據(jù)的上車站點(diǎn),并切分子段,在各個(gè)子段上計(jì)算IC刷卡數(shù)據(jù)組的公交換乘候選上車站點(diǎn)的權(quán)重,根據(jù)權(quán)重確定數(shù)據(jù)組的上車站點(diǎn),進(jìn)而切分出更小的子段,最后將子段中的IC刷卡數(shù)據(jù)組和站點(diǎn)匹配,得到所有IC刷卡數(shù)據(jù)的上車站點(diǎn)。試驗(yàn)結(jié)果表明,本算法提高了上車站點(diǎn)識(shí)別的準(zhǔn)確率。
[1]婁琰琰,董傲霜,劉麗瑤.非接觸IC卡在公交自動(dòng)收費(fèi)系統(tǒng)中的應(yīng)用[J].沈陽工業(yè)大學(xué)學(xué)報(bào),2002,24(5):443-446.
[2]戴霄,陳學(xué)武.單條公交線路的IC卡數(shù)據(jù)分析處理方法[J].城市交通,2005,3(4):73-76.
[3]于勇,鄧天民,肖裕民.一種新的公交乘客上車站點(diǎn)確定方法[J].重慶交通大學(xué)學(xué)報(bào)自然科學(xué)版,2009,28(1):121-125.
[4]舒國(guó)輝.基于數(shù)據(jù)挖掘的公交客流規(guī)律研究[D].北京交通大學(xué),2009.
[5]尹長(zhǎng)勇,陳艷艷,陳紹輝.基于聚類分析方法的公交站點(diǎn)客流匹配方法研究[J].交通信息與安全,2010,28(3):21-24.
[6]Barry J J,Freimer R,Slavin H L.Use of Entry-Only Automatic Fare Collection Data to Estimate Linked Transit Trips in New York City[J].Transportation Research Record Journal of the Transportation Research Board,2009,2112(2112):53-61.
[7]Zhao J,Rahbee A,Wilson N H M.Estimating a Rail Passenger Trip Origin-Destination Matrix Using Automatic Data Collection Systems[J].Computer-Aided Civil and Infrastructure Engineering,2007,22(5):376-387.
[8]Martin Trépanier,Nicolas Tranchant,Robert Chapleau.Individual Trip Destination Estimation in a Transit Smart Card Automated Fare Collection System[J].Journal of Intelligent Transportation Systems Technology Planning&Operations,2007,11(1):1-14.
[9]戴維.基于IC卡數(shù)據(jù)和公交車GPS信息的公交OD矩陣推算[D].華中科技大學(xué),2009.
[10]陳君,楊東援.基于智能調(diào)度數(shù)據(jù)的公交IC卡乘客上車站點(diǎn)判斷方法[J].交通運(yùn)輸系統(tǒng)工程與信息,2013,13(1):76-80.
[11]李海波,陳學(xué)武,陳崢嶸.基于公交IC卡和AVL數(shù)據(jù)的客流OD推導(dǎo)方法[J].交通信息與安全,2015(6):33-39.
[12]張頌,陳學(xué)武,陳崢嶸.基于公交IC卡數(shù)據(jù)的公交站點(diǎn)OD矩陣推導(dǎo)方法[J].武漢理工大學(xué)學(xué)報(bào)交通科學(xué)與工程版,2014(2):333-337.
[13]趙鵬.基于成都公交IC卡數(shù)據(jù)的乘客上下車站點(diǎn)推算方法研究[D].西南交通大學(xué),2015.
[14]宋曉晴,方志祥,尹凌,等.基于IC卡綜合換乘信息的公交乘客上車站點(diǎn)推算[J].地球信息科學(xué)學(xué)報(bào),2016,18(8):1060-1068.
Identification of Boarding Station Based on Passenger Behavior
ZHANG Chao-yang,LI Xue-ming
(College of Computer Science,Chongqing University,Chongqing 400044)
Utilizes transfer to identify the boarding station of passengers,when there is more than one intersection of the two bus lines,the number of station can be identified less,resulting in the lower accuracy in identified boarding station of passengers.In order to solve this problem, proposes an algorithm for boarding station identification based on passenger behavior.First,the IC card data are grouped.Then,based on the metro transfer,the boarding stations of passengers are determined and the data is divided into multiple sub-segments.In addition, uses bus transfer to determine the boarding stations of some group.Finally,through the proportional relationship,gets all the boarding stations corresponding to IC card data group.The experimental results show that this method has a high accuracy.
IC Card Riding Data;Identification of Boarding Station;Data Mining
1007-1423(2017)11-0047-05
10.3969/j.issn.1007-1423.2017.11.009
張朝陽(1991-),女,河南洛陽人,碩士研究生,學(xué)生,研究方向?yàn)閿?shù)據(jù)挖掘
2017-03-21
2017-04-10
李學(xué)明(1967-),男,重慶人,博士,教授,研究方向?yàn)閿?shù)據(jù)挖掘、大數(shù)據(jù)處理