陳偉亮,杜久升
(河南理工大學 測繪與國土信息工程學院,河南 焦作 454000)
近年來,隨著移動定位技術在手持和車載等移動終端設備上得到廣泛應用,越來越多的軌跡數(shù)據(jù)被保存并上傳至網(wǎng)絡空間,人們也越來越熱衷于記錄和分享他們的旅游或者出行的軌跡日志.如國外的雅虎網(wǎng)絡相冊旅游日志分享平臺(Flickr)、推特(Twitter)和國內的微博、微信、滴滴打車平臺等,這些數(shù)據(jù)通過泛在傳感器的使用被完整系統(tǒng)地記錄下來,為研究人類的行為模式提供了前所未有的機遇與挑戰(zhàn)[1].有學者通過對軌跡數(shù)據(jù)的分析識別出了城市的結構和功能單元,為城市的管理和規(guī)劃提出了建設性的指導意見[2-8].還有學者通過對軌跡數(shù)據(jù)的分析及預測識別出了異常的軌跡移動模式[9-10],為阻止犯罪和保障居民的安全提供有價值的信息.除了對人類行為模式的研究,利用軌跡數(shù)據(jù)預測居民的出行路線并提供智能推薦服務也是一個重要的研究熱點[11-14].在軌跡數(shù)據(jù)的研究進程中,國內外眾多專家學者都在積極探索軌跡數(shù)據(jù)的挖掘與應用,為進一步提高時空大數(shù)據(jù)的利用價值提供了寶貴的參考經(jīng)驗.
上述研究在不同程度上對城市居民的出行活動和城市空間結構進行了關注,但對于利用出租車上下客事件提取城市的熱點區(qū)域并發(fā)現(xiàn)其與不同城市功能區(qū)之間聯(lián)系的研究還較少.本文擬在前人研究軌跡數(shù)據(jù)的基礎上,利用提取的出租車上下客分布點識別出城市的熱點區(qū)域,挖掘城市居民出行的時空分布特征及其與城市不同功能區(qū)之間的潛在聯(lián)系.
具體技術路線如圖1 所示.
圖1 技術路線圖
總體分為四個階段:第一階段,完成數(shù)據(jù)庫建立、數(shù)據(jù)清洗及乘客上下車點提取的工作,同時對偏離道路的軌跡數(shù)據(jù)進行地圖匹配;第二階段,以小時為粒度單位對乘客上下車點進行統(tǒng)計,得出工作日與休息日杭州市區(qū)居民不同時段出行活動軌跡的分布特征;第三階段,對篩選出來的乘客上下車點分別使用基于密度的聚類算法(DBSCAN)和核密度估計(KDE)的方法進行分析,提取出居民出行活動的熱點區(qū)域;第四階段,根據(jù)第三階段的分析結果篩選乘客上下車點數(shù)量排名前十的區(qū)域并將其與爬取到的高德地圖興趣點(POI)數(shù)據(jù)相匹配,得到相應的城市功能區(qū)域并以雷達圖的形式展示各指標.
實驗數(shù)據(jù)選取自杭州市2014 年9 月的某個工作日與休息日兩天約9 000 輛出租車的軌跡數(shù)據(jù),數(shù)據(jù)的屬性描述如表1 所示.
表1 杭州市出租車軌跡數(shù)據(jù)字段描述
從現(xiàn)實世界中獲取到的數(shù)據(jù)不可避免的存在一些問題,如數(shù)據(jù)的缺失、異常等,出租車軌跡數(shù)據(jù)也不例外,根據(jù)實驗分析的需要,從3 個方面對出租車軌跡數(shù)據(jù)進行預處理,分別是越界值的刪除、異常值的過濾和地圖匹配.
1)經(jīng)緯度越界.將在研究區(qū)域之外的軌跡數(shù)據(jù)點剔除.
2)異常值的過濾.對于某些存在缺省值和異常值的軌跡點,作刪除處理.
3)地圖匹配.一般情況下,正常運行的車輛,其軌跡點應是在相應的道路上,但是由于GPS 定位誤差等因素影響,車輛位置存在一定量的偏移,需要對位置進行地圖匹配,該處參考文獻[15]的方法進行修正.
出租車軌跡數(shù)據(jù)中隱藏著豐富的城市信息,運用適當?shù)姆椒梢蕴崛〕鼍用竦某鲂谢顒右?guī)律,其主要原理為:出租車在運營過程中存在著上客和下客行為,而出租車的乘客上下車點作為某次行程的起迄點,某種程度上也代表了本次行程所產(chǎn)生交通需求的發(fā)生與吸引[16].故采用提取出租車乘客上下車點的方法挖掘居民出行的熱點區(qū)域.
實驗數(shù)據(jù)記錄出租車載客狀態(tài)的字段為“Sta”,當載客狀態(tài)為空載時,其數(shù)據(jù)記錄為0,當載客狀態(tài)為載客時,其數(shù)據(jù)記錄為1.同一編號的出租車完成一次載客狀態(tài)的變更時,即發(fā)生了一次上客或下客行為,具體可以概括為以下內容:
1)運營開始,出租車在p1點發(fā)生上客事件;
2)行駛一段距離后到達目的地,出租車在p2點發(fā)生下客事件;
3)空載狀態(tài)下行駛一段時間后,在p3點又發(fā)生上客事件;
4)載客狀態(tài)下繼續(xù)行駛一段時間,在p4點再次發(fā)生下客事件;
5)循環(huán)以上過程,直至當日該車運營結束.
圖2 從出租車司機的角度抽象地概括了車輛行車軌跡片段,圖3(a)、(b)分別為部分乘客上車點和下車點在電子地圖上的展示.
圖2 出租車行車軌跡片段
圖3 部分出租車乘客上下車點可視化
工作日期間,由于上下班通勤,居民乘車的目的性都較強,時空彈性也較小,而休息日期間,因為沒有工作的限制,居民出行的隨機性更強.考慮到凌晨24:00 至次日06:00 時段車流量較少,研究價值亦不高,故只選取早晨06:00 以后的乘車數(shù)據(jù)作為實驗樣本.為了更直觀的顯示差別,以小時為粒度單位對工作日和休息日兩天居民乘車的乘客上下車點數(shù)據(jù)進行量化分析,得到不同時段居民出行乘客上下車點流量變化的特征曲線,結果如圖4~5 所示.
圖4 不同時段上車流量統(tǒng)計
由折線圖可以看出,工作日全天居民乘客上下車點流量波動幅度都較大而休息日則相對較為平緩,兩天的流量變化趨勢總體保持一致,峰值分別出現(xiàn)在07:00—09:00 的早高峰、12:00—14:00 的午高峰、以及20:00—23:00 的晚高峰三個時段.
1)工作日期間,從早晨06:00 開始乘客上下車點流量開始陡然攀升,一直到上午08:00 左右達到峰值;午間12:00—14:00 出現(xiàn)了一個小波峰,考慮午間時段有部分乘客選擇外出就餐或者去距離工作地點較近的娛樂場所休閑放松;傍晚16:00—18:00 出現(xiàn)了一個驟減的波谷,由于正處于下班高峰時段,居民的出行需求劇增,交通流也隨之攀升,造成道路擁堵狀況的發(fā)生,乘客上車和下車的頻率也大大降低;晚間20:00—22:00 乘客上下車點流量達到頂點,23:00 之后才逐漸呈現(xiàn)降低的態(tài)勢,符合正常工作日居民通勤出行的基本特征.
圖5 不同時段下車流量統(tǒng)計
2)休息日期間,除了早間時段的巨大波谷之外,其他時間段的乘客上下車點流量分布相較于工作日而言都比較均衡.非工作日居民的出行活動大多屬于個體行為,在出行時間上表現(xiàn)出隨機性,如購物、休閑、娛樂等,符合休息日居民出行的基本特征.
KDE 算法是一種常用的非參數(shù)估計方法[17-18],通常用于計算點、線要素測量值在指定鄰域范圍內的單位密度,它能夠直觀地反映出離散測量值在連續(xù)區(qū)域內的分布狀況[19].同時,KDE 算法還遵循地理學的第一定律,即事物之間距離越近,對應聯(lián)系就越密切,距核心要素越近則獲得相應的密度擴張值也越大[20].
設x1,x2,···,xn為單元變量x的獨立同分布樣本點,則KDE 算法公式為
式中:h為距離衰減閾值,也就是輸出帶寬;n表示距x處直線距離小于或等于h的所有空間對象的數(shù)目;k0為核函數(shù);xi表示第i個核心對象所在位置.在參考文獻[21]方法的基礎上,經(jīng)過反復調校和實驗對比,確定以350 m 作為理想的搜索半徑.
DBSCAN 聚類算法是一種較為典型的基于密度的聚類算法,在模式識別、圖像處理、生命科學等領域被廣泛應用,與k均值聚類算法(k-means)等基于劃分的算法不同,DBSCAN 算法不需要預先規(guī)定所需分割的類數(shù),而且可以識別任意形狀的聚類簇.算法中有兩個重要參數(shù):定義密度時的鄰域半徑(Eps)和定義核心點時的閾值(Minpts).為了方便描述,將Eps 和Minpts 分別標記為 ε 和M,設數(shù)據(jù)集合X={x1,···,xn},引入以下概念:
1)ε 鄰域:設xi∈X,稱
為xi的 ε 鄰域,其中D為距離函數(shù).顯然也有xi∈Nε(xi).
2)核心點、邊界點、噪音點:若樣本xi的 ε 領域內至少包含有M個樣本,即
則稱樣本點xi為核心點,反之,假如樣本數(shù)目小于M,但是他在其他的核心點的領域內,樣本點xi即為邊界點.倘若既不是核心點也不是邊界點,那么xi就是噪音點,如圖6 所示.
圖6 核心點、邊界點、噪音點示意圖
3)密度直達:如果xi位于xj的 ε 鄰域中,且xj是核心對象,則稱xi由xj密度直達.
4)密度可達:設樣本序列p1,p2,···,pT∈X,其中T≥2.若該樣本序列滿足pi+1可從pi直接密度可達的,其中i=1,2,···,T-1,則稱pT是可以從p1密度可達.密度可達具有傳遞性.
5)密度相連:對于xi,xj,xk∈X,若xj和xk均可從xi密度可達的,則稱xj和xk是密度相連的.密度相連滿足對稱性.
對于參數(shù)ε 和M,根據(jù)經(jīng)驗得出,當ε 取值固定不變時,M取值過小,則會產(chǎn)生過多的類簇,還會將一些噪音點也納入進來對結果產(chǎn)生影響.反之,如果M取值過大,則會產(chǎn)生較少的類簇,還會將大量的非噪音點排除出去,包含對象較少的類簇就會被忽略.本文利用選取多組參數(shù)進行敏感度測試的方法,經(jīng)過多次實驗取值對比最終確定樣本數(shù)據(jù)聚類的鄰域半徑 ε=300 m,閾值M=185.
根據(jù)第3 節(jié)對居民出行時間分布特征的統(tǒng)計結果,選取07:00—09:00、12:00—14:00、20:00—23:00三個最具代表性的時段進行居民出行熱點區(qū)域的識別和時空分布特征的挖掘.考慮到休息日居民在出行時間上比較自由,活動區(qū)間隨機性也比較強,故只取工作日的數(shù)據(jù)作本節(jié)的分析.根據(jù)4.1 和4.2 節(jié)介紹的方法,針對篩選好的乘客上下車點數(shù)據(jù),首先使用DBSCAN 算法提取居民出行熱點區(qū)域乘客上下車分布點,再利用核密度分析的方法得出居民出行乘客上下車熱點的熱力狀況.
07:00—09:00 時段,如圖7(a)~(b)所示,上車熱點大都散布在各個交通樞紐、居民住宅區(qū)、以及一些商圈酒店附近,各區(qū)域的熱度值較為均勻;而下車熱點則多集聚在城市的商務辦公區(qū)、政務區(qū)以及醫(yī)院商超等服務集聚區(qū)附近,如拱墅區(qū)-慶春路、西湖國貿中心板塊;上城區(qū)-清泰街、第三人民醫(yī)院板塊等.總體來看,早高峰上車熱點位置分布相對松散,而下車熱點分布更為集聚,主要原因是商務區(qū)和辦公區(qū)在分布上比居民住宅區(qū)等要更集中,基本符合早高峰時段居民的出行活動特征.
12:00—14:00 時段,如圖8(a)~(b)所示,居民出行的上車熱點分布相對集聚且熱度值也較高,部分區(qū)域已形成一定的規(guī)模,這些熱點主要集中在各商務中心區(qū)、政務辦公區(qū)以及交通樞紐等附近.以中河高架路和中河中路為例,周邊分布有大量的商務大廈、政府機構、寫字樓、醫(yī)院、火車站、旅游景點等,商務辦公人群密集,以辦公、就醫(yī)以及休閑出行為主的出租車需求相對較高.該路段還與杭州市的地鐵一號線相交,一定程度上承接了部分乘客的短距離出行需求.
圖8 午高峰居民出行乘客上下車點熱力圖
與上車熱點相比,下車熱點的分布變化不大,考慮到工作日午休時間大部分乘客只是短暫離開公司去午餐或者去就近的休閑場所放松,并不會遠距離出行,因此核心熱點區(qū)域與上車熱點相比并沒有太大的變動.
20:00—23:00 時段,如圖9(a)~(b)所示,該時段也是居民全天出租車需求量最高的一個時間段,相較于其他時段較為單一的出行目的,該時段居民的出行因素更為多樣化,這是由杭城豐富的夜生活、個別企業(yè)晚間加班以及城市公交系統(tǒng)班次的減少或停運等多重因素共同導致.整體上看,上車熱點多集中在商務中心區(qū)和辦公區(qū)等場所,而下車熱點主要集中在一些休閑娛樂場所以及住宅小區(qū)附近,分布上相較上車熱點更為分散,集聚性也更弱.
圖9 晚高峰居民出行乘客上下車點熱力圖
由第4 節(jié)的分析結果可知,晚高峰是一天中出租車需求量最大、需求因素最多樣的一個時段,通過對晚高峰時段居民出行活動規(guī)律的分析可以挖掘出隱藏的城市空間信息.選取晚高峰時段乘客上下車點流量排名前十的區(qū)域的數(shù)據(jù)繪制統(tǒng)計圖,經(jīng)過篩選后十個區(qū)域分別為:杭州武林廣場、龍翔橋、城西銀泰城、嘉里中心、黃龍體育中心、西湖文化廣場、萬塘路、翠苑、鳳起苑、三塘,統(tǒng)計結果如圖10~11 所示.
圖10 晚高峰上車流量排名前十的區(qū)域
圖11 晚高峰下車流量排名前十的區(qū)域
由圖10~11 可知,上車點在21:00—22:00 開始出現(xiàn)集聚現(xiàn)象,22:00—23:00 達到高峰.其中武林廣場、龍翔橋、黃龍體育中心板塊尤為明顯.下車點分布則是20:00—21:00 以及22:00—23:00 較多,除了上述區(qū)域外,鳳起苑、三塘等住宅區(qū)板塊也較為活躍,但其在21:00—22:00 時段對出租車的需求相對較低.
為進一步探究出租車上下客客流在該十個區(qū)域重點集聚的原因,選取風景名勝、餐飲服務、購物娛樂、公司企業(yè)、生活服務、住宅小區(qū)六個維度指標,利用從高德地圖上爬取的各類POI 數(shù)據(jù),以雷達圖的形式刻畫區(qū)域的城市功能,最終得到三種類別的城市功能區(qū)分類:
第一類:以購物娛樂為主的商圈,該類別地塊購物娛樂和餐飲服務發(fā)達,風景名勝的數(shù)量也相對豐富.典型的代表區(qū)域有:杭州武林廣場、龍翔橋、嘉里中心、城西銀泰城,如圖12 所示.
圖12 商圈雷達圖
第二類:以企業(yè)辦公為主的商務辦公地塊,該類別公司企業(yè)數(shù)量較多.主要代表地區(qū)有:西湖文化廣場、黃龍體育中心、萬塘路,如圖13 所示.
圖13 辦公用地雷達圖
第三類:以生活居住為主的居民住宅地塊,該類別地塊住宅小區(qū)數(shù)量走高,生活服務和餐飲服務指標也表現(xiàn)良好.主要代表區(qū)域有:三塘、翠苑、鳳起苑,如圖14 所示.
圖14 住宅用地雷達圖
結合晚高峰時段的乘客上下車點客流可知,武林廣場和龍翔橋等板塊主要承擔居民購物、娛樂、休閑等城市功能,上車和下車熱力狀況一直保持高漲狀態(tài),說明杭城市民下班后去購物休閑是常態(tài),側面也反映了杭城居民豐富的夜生活;下車點數(shù)量在21:00—22:00 驟減,達到一個相對波谷狀態(tài),主要是由于加班工作及娛樂消費人群在該時段對出租車需求較低;22:00 以后出租車的下車流量有小幅回升,部分是由晚間結束工作以及購物消費的人群返回私人住處引起,而居民住宅區(qū)的分布又較為分散,從而導致晚高峰下車客流集聚效應的減弱.
實驗基于海量的出租車軌跡數(shù)據(jù),從時間和空間兩個維度剖析了杭州市居民工作日與休息日兩天出行活動的軌跡特征,給出了一種融合核密度估計與POI 分類的密度聚類算法,實現(xiàn)了對居民出行熱點區(qū)域挖掘和不同城市功能區(qū)的發(fā)現(xiàn).研究表明:城市居民的出行特征除了工作日和休息日之間的區(qū)別外,同日不同時段之間也表現(xiàn)出巨大的差異性,并且這種差異性還受到不同城市功能區(qū)的影響.本文的研究成果除了可以用來預測居民的出行需求以外,同時也可以為城市規(guī)劃和交通管理等提供參考意見.