康科
摘要:出租車(chē)的供需矛盾影響著整個(gè)城市的交通。通過(guò)挖掘出租車(chē)GPS軌跡中的信息,可以預(yù)測(cè)乘客的目的地位置,提高出租車(chē)調(diào)度中心的效率,幫助緩解城市的壓力,減少城市污染。同時(shí)預(yù)測(cè)乘客的目的地還可以用于商業(yè)廣告推廣,提高導(dǎo)航效率等。本文主要介紹出租車(chē)乘客目的地預(yù)測(cè)的原理和方法。
關(guān)鍵詞:出租車(chē);GPS軌跡分析;目的地預(yù)測(cè);乘客
0前言
出租車(chē)公司為每輛出租車(chē)都安裝了GPS儀器,方便出租車(chē)公司的監(jiān)控和調(diào)動(dòng),同時(shí)能夠保證出租車(chē)司機(jī)的安全。當(dāng)前,城市的交通壓力空前巨大,交通擁堵和空氣污染問(wèn)題嚴(yán)重。出租車(chē)是緩解城市壓力的一種重要的交通工具。但是,由于出租車(chē)的數(shù)量有限,在交通高峰期很多乘客很難找到一輛出租車(chē)。而出租車(chē)在某些時(shí)段需要形勢(shì)很長(zhǎng)的距離才能找到乘客。因此,出租車(chē)調(diào)度中心需要提高調(diào)度效率,保證出租車(chē)的使用率,是一個(gè)亟待解決的問(wèn)題。但是,由于出租車(chē)的流動(dòng)性較強(qiáng),在不知道乘客目的地的情況下很難對(duì)其進(jìn)行調(diào)度。在出租車(chē)GPS軌跡信息中,蘊(yùn)含了大量的乘客信息。從這些信息中,可以挖掘出乘客的流動(dòng)模式,以及城市中不同乘客的乘車(chē)習(xí)慣。使用這些信息,可以幫助我們預(yù)測(cè)出租車(chē)的目的地,緩解城市的交通壓力。
1出租車(chē)GPS數(shù)據(jù)分析
為了保證數(shù)據(jù)能夠真實(shí)的反應(yīng)城市的交通規(guī)律以及乘客的乘車(chē)習(xí)慣,本文中使用了葡萄牙波爾圖市的出租車(chē)數(shù)據(jù)。在該數(shù)據(jù)中包含了442輛出租車(chē)的GPS數(shù)據(jù)。數(shù)據(jù)包含了9個(gè)特征,包括:每條軌跡的唯一編號(hào),乘客是否使用電話呼叫出租車(chē)的方式,乘客的電話,上車(chē)的出租車(chē)站臺(tái),出租車(chē)的編號(hào),時(shí)間,是否為節(jié)假日,數(shù)據(jù)是否完整,出租車(chē)GPS軌跡點(diǎn)。數(shù)據(jù)的跨度從2013年的7月到2014年6月。出租車(chē)的軌跡數(shù)據(jù)幾乎遍布城市路網(wǎng)的各個(gè)角落。越往城市市中心,出租車(chē)的軌跡就越密集,乘客的搭載活動(dòng)越多。在城市中間河流的北岸乘客活動(dòng)最密集。
2乘客目的地聚類(lèi)方法
由于乘客目的地遍布城市的各個(gè)角落,增加了城市目的地預(yù)測(cè)的難度。為了方便預(yù)測(cè),在建立預(yù)測(cè)模型之前,將乘客的目的地進(jìn)行聚類(lèi),方便可以降低預(yù)測(cè)模型的復(fù)雜性,提高預(yù)測(cè)效率。在常用的聚類(lèi)方法當(dāng)中使用DBSCAN方法和mean-shift聚類(lèi)方法最多。本文中采用了mean-shift聚類(lèi)方法。在聚類(lèi)之前,本文選擇了出租車(chē)的軌跡的最后一個(gè)點(diǎn)作為乘客的下車(chē)地點(diǎn),然后使用聚類(lèi)算法對(duì)其聚類(lèi)。聚類(lèi)結(jié)果為3356個(gè)點(diǎn),這些點(diǎn)幾乎涵蓋了城市的所有角落。圖1為對(duì)GPS軌跡中所有點(diǎn)的可視化。可以看出幾乎在每個(gè)地點(diǎn)都有乘客下車(chē)。同時(shí)可以看出和全部的數(shù)據(jù)可視化一樣,在市中心的下車(chē)遠(yuǎn)遠(yuǎn)高于其它地區(qū)。
3乘客目的地預(yù)測(cè)常用方法及應(yīng)用
在出租車(chē)預(yù)測(cè)的常用算法中,最常見(jiàn)的有兩類(lèi)算法:基于概率論的目的地預(yù)測(cè)和基于神經(jīng)網(wǎng)絡(luò)的目的地預(yù)測(cè)。其中基于概率論的算法計(jì)算GPS軌跡數(shù)據(jù)中的先驗(yàn)概率,通過(guò)計(jì)算不同位置之間的轉(zhuǎn)換概率,獲得最大概率的目的地作為乘客目的地。其優(yōu)點(diǎn)是計(jì)算簡(jiǎn)單,算法復(fù)雜度低,同時(shí)能夠充分利用數(shù)據(jù)中的信息。但是對(duì)數(shù)據(jù)的噪聲并不能很好的處理。要求數(shù)據(jù)量足夠大。由于GPS軌跡自身具有稀疏性,在城市兩個(gè)不同地點(diǎn)之間很難具有足夠的GPS數(shù)據(jù),所以此類(lèi)模型很難提供高精度的運(yùn)算。
深度神經(jīng)網(wǎng)絡(luò)技術(shù)是當(dāng)前最流行的算法之一。該算法在圖像識(shí)別、語(yǔ)音識(shí)別等領(lǐng)域獲得了巨大成功?;谏窠?jīng)網(wǎng)絡(luò)的模型使用該算法,將原始的GPS軌跡數(shù)據(jù)進(jìn)行特征提取以后使用該模型進(jìn)行預(yù)測(cè)。在當(dāng)前的算法當(dāng)中,該模型在出租車(chē)目的地預(yù)測(cè)當(dāng)中保持了最高的準(zhǔn)確度。
基于出租車(chē)GPS目的地的預(yù)測(cè)有很多應(yīng)用,其中如上文提到的是最重要的應(yīng)用之一。除此之外還有很多其它應(yīng)用。例如,每年商業(yè)公司都要花費(fèi)巨額資金投入到廣告行業(yè)進(jìn)行商業(yè)推廣。但是,精準(zhǔn)的廣告投放需要具有豐富的工作經(jīng)驗(yàn)。如果能夠分析出租車(chē)的目的地,分析目的地乘客的類(lèi)型和消費(fèi)習(xí)慣,就可以對(duì)乘客進(jìn)行更加的精準(zhǔn)的分析。這樣對(duì)其進(jìn)行商業(yè)廣告的推廣就更加有效。此外,目的地預(yù)測(cè)還可以提高導(dǎo)航系統(tǒng)的功能,自動(dòng)駕駛等方面有廣闊的前景。
4結(jié)語(yǔ)
出租車(chē)是緩解城市交通壓力的重要手段之一,只有充分利用才能最好的緩解乘客與出租車(chē)之間的供需矛盾。同時(shí),能夠提高出租車(chē)司機(jī)的收入,也可以減少城市污染。通過(guò)分析出租車(chē)GPS軌跡信息中的乘客規(guī)律,可以幫助調(diào)度中心更好的預(yù)測(cè)出租車(chē)的形勢(shì)方向和區(qū)域。這樣就可以進(jìn)一步提高出租車(chē)調(diào)度中心的調(diào)度效率。幫助出租車(chē)更快的響應(yīng)需要乘車(chē)的乘客。