吳文昊 沈梟麒
1武漢大學(xué)遙感信息工程學(xué)院,湖北 武漢,430079
2中國礦業(yè)大學(xué)環(huán)境與測繪學(xué)院,江蘇 徐州,221116
感知是智慧城市的基礎(chǔ)[1],居民作為城市生活中的主體,研究其時(shí)空行為模式是智慧城市發(fā)展中重要的科學(xué)問題。近年來以人為核心的智慧城市理念備受重視,隨著可獲取的時(shí)空大數(shù)據(jù)類型越來越豐富,充分利用時(shí)空大數(shù)據(jù)進(jìn)行居民的時(shí)空行為模式分析顯得愈發(fā)重要。地鐵刷卡數(shù)據(jù)是一種重要的時(shí)空大數(shù)據(jù),目前國內(nèi)外利用地鐵刷卡數(shù)據(jù)開展的居民行為模式研究主要集中在兩個(gè)方面:第一,研究公共交通的運(yùn)營與管理[2,3];第二,居民行為模式挖掘與規(guī)律分析。
本文的研究屬于第二類。在該類研究中,如郭文露等[4]基于出行時(shí)間對居民進(jìn)行分類,研究居民時(shí)空動態(tài)特征;Chen等[5]根據(jù)城市密度、雇員密度、出行人數(shù)等數(shù)據(jù),對地鐵站臺進(jìn)行K-means聚類,挖掘了各站臺呈現(xiàn)出的居民行為特點(diǎn);孟斌等[6]通過出行彈性測度理論,對居民在不同時(shí)段的出行彈性特征進(jìn)行分析,并進(jìn)一步對出行彈性空間熱點(diǎn)和出行彈性影響因素進(jìn)行分析;翁小雄等[7]基于GBDT算法構(gòu)建分類模型,對地鐵通勤人群進(jìn)行識別;Zhao等[8]通過研究居民出行的常規(guī)典型模式,對異常行為模式進(jìn)行檢測。
目前對居民行為模式的研究大多對行為的時(shí)間持續(xù)性考慮有所欠缺[9]。因此本文基于深圳市連續(xù)34 d的地鐵刷卡數(shù)據(jù),結(jié)合時(shí)間興趣區(qū)域挖掘居民行為模式,分析了各類顯著模式在長時(shí)間段內(nèi)的變化規(guī)律,以探究居民各類行為模式在起止時(shí)間和持續(xù)時(shí)長上的特征。
本文研究區(qū)域?yàn)樯钲谑小=刂?017年3月,深圳市地鐵共有8條線路開通運(yùn)營,共計(jì)166個(gè)站臺。全市地鐵運(yùn)營線路總長約為300 km,覆蓋深圳市羅湖區(qū)、福田區(qū)、南山區(qū)、寶安區(qū)、龍華區(qū)、龍崗區(qū)6個(gè)市轄行政區(qū)。
深圳市地鐵主要使用深圳市公共交通智能卡進(jìn)行支付。本研究使用2017-01-14—2017-02-16共計(jì)34 d的深圳市地鐵刷卡數(shù)據(jù)進(jìn)行分析。原始刷卡數(shù)據(jù)為流水?dāng)?shù)據(jù),包含的主要字段有:卡ID、流水號、交易類型(進(jìn)站或出站)、交易時(shí)間、地鐵線路、站臺名稱等。研究時(shí)段內(nèi)的深圳市地鐵刷卡數(shù)據(jù)共有116 321 352條,不同的ID卡號共有6 677 575個(gè)。日均刷卡次數(shù)3 421 216條,每張卡的日均刷卡次數(shù)為1.95次。
對原始的地鐵刷卡數(shù)據(jù)的數(shù)據(jù)預(yù)處理主要包含3個(gè)部分:數(shù)據(jù)缺失值處理、出行數(shù)據(jù)匹配、行為數(shù)據(jù)匹配。
1)數(shù)據(jù)缺失值處理。對于屬性缺失的數(shù)據(jù),在統(tǒng)計(jì)觀察數(shù)據(jù)的整體特性后發(fā)現(xiàn)主要是刷卡站臺缺失,于是利用屬性間的潛在關(guān)系對缺失值進(jìn)行填補(bǔ)。填補(bǔ)的方法為利用所有非缺失數(shù)據(jù)的刷卡站臺得出每個(gè)站臺對應(yīng)的后端編號,再利用缺失數(shù)據(jù)的后端編號匹配對應(yīng)的刷卡站臺。
2)出行數(shù)據(jù)匹配。對于流水?dāng)?shù)據(jù),需要將進(jìn)站數(shù)據(jù)與對應(yīng)的出站數(shù)據(jù)進(jìn)行匹配,形成一條完整的地鐵出行數(shù)據(jù)。匹配方法為提取當(dāng)天每個(gè)ID卡號的數(shù)據(jù),按照刷卡時(shí)間和交易類型等屬性進(jìn)行匹配。
3)行為數(shù)據(jù)匹配。為研究居民的行為模式,本文采用了如下假設(shè):若居民當(dāng)日存在多次地鐵出行行為,則其從某站臺出站之后和再次從同站臺進(jìn)站乘車的時(shí)間間隔內(nèi),該居民在該站臺范圍內(nèi)進(jìn)行了某種行為[10]。因此,需要對居民的地鐵出行記錄再次匹配形成居民的行為記錄。匹配方法為提取當(dāng)天每個(gè)ID卡號的地鐵出行數(shù)據(jù),按照出行時(shí)間和站臺等屬性進(jìn)行匹配。
興趣點(diǎn)(points of interests)表示引起人群興趣的地理位置,興趣區(qū)域(area of inte-rests)表示引起人群興趣的一個(gè)區(qū)域范圍。將這個(gè)概念引申至?xí)r間屬性,就是時(shí)間興趣區(qū)域[9]。以居民行為的開始時(shí)間為x軸,居民行為的結(jié)束時(shí)間為y軸,建立二維坐標(biāo)系。借鑒興趣區(qū)域的概念,在這個(gè)坐標(biāo)系中行為密集的區(qū)域便是人群在時(shí)間上感興趣的一個(gè)區(qū)域,即時(shí)間興趣區(qū)域。
如圖1所示,由于行為的開始時(shí)間必然早于行為的結(jié)束時(shí)間,故該坐標(biāo)系中的點(diǎn)都在y=x的上方。對于行為點(diǎn)a,其開始時(shí)間為x a,結(jié)束時(shí)間為y a,行為的持續(xù)時(shí)間為(y a-x a)。而對于密集的時(shí)間興趣區(qū)域A和B,顯然行為模式A的開始時(shí)間早于B而結(jié)束時(shí)間晚于B,且A具有較長的行為持續(xù)時(shí)間,B具有較短的行為持續(xù)時(shí)間。
圖1 時(shí)間興趣區(qū)域Fig.1 Time Area of Interests
因此,通過時(shí)間興趣區(qū)域能夠直觀的展示行為在開始時(shí)間、結(jié)束時(shí)間和持續(xù)時(shí)間上的特點(diǎn)。
CLIQUE算法是一種基于密度和網(wǎng)格的聚類算法,也是最經(jīng)典的高維子空間聚類算法之一[11]。其基本思想是將數(shù)據(jù)空間按照一定規(guī)則進(jìn)行網(wǎng)格劃分,將落入網(wǎng)格單元的樣本數(shù)目作為網(wǎng)格單元的密度,若一個(gè)網(wǎng)格單元的密度超過事先設(shè)定好的閾值,則認(rèn)為該網(wǎng)格單元是稠密的。CLIQUE算法的最終目標(biāo)是找出所有連通稠密網(wǎng)格單元的最大單元集。其具體步驟為:
1)設(shè)定網(wǎng)格長度d和密度閾值s,對數(shù)據(jù)空間的每一維進(jìn)行等長的網(wǎng)格劃分,并記錄每個(gè)網(wǎng)格單元的密度,找出當(dāng)前維度子空間中密度大于預(yù)設(shè)閾值的網(wǎng)格單元,將其標(biāo)記為候選稠密網(wǎng)格單元。
2)使用最小描述長度(minimal description length,MDL)剪枝技術(shù)修剪子空間,控制候選稠密網(wǎng)格單元的增長速度。
3)遍歷所有候選稠密網(wǎng)格單元,基于貪心算法找出最大連通網(wǎng)格單元集,得到最終的聚集簇類。
針對缺失數(shù)據(jù)進(jìn)行缺失值填補(bǔ)后,原始流水?dāng)?shù)據(jù)的有效率從67.82%提升至99.99%,僅有一條數(shù)據(jù)無法找到相對應(yīng)的站臺。出行數(shù)據(jù)匹配剔除了無法匹配成出行記錄的流水?dāng)?shù)據(jù)。行為數(shù)據(jù)匹配后,最終得到的行為數(shù)據(jù)共有20 070 388條,卡號共4 242 836個(gè),數(shù)據(jù)利用率為69.0%,卡號占原始數(shù)據(jù)的63.5%。深圳市2017年常住人口為1 252.9萬,該數(shù)據(jù)集的用戶數(shù)占常住人口的33.9%,因此基于該數(shù)據(jù)的分析結(jié)果具有一定說服力。表1為居民2017-01-27的部分行為數(shù)據(jù)。
表1 部分居民行為數(shù)據(jù)展示Tab.1 Parts of Residents’Activity Data
對深圳市34 d的居民行為數(shù)據(jù)進(jìn)行CLIQUE聚類。其中,CLIQUE算法的兩個(gè)參數(shù)分別設(shè)置如下。
1)網(wǎng)格長度d=108,其含義為將深圳地鐵的運(yùn)營時(shí)間6:00—24:00時(shí)劃分為108份,每個(gè)網(wǎng)格長度所涵蓋的時(shí)間范圍為10 min。
由于每日的數(shù)據(jù)較多,故隱藏了非聚類點(diǎn)以便更清晰的看出聚類結(jié)果。圖2展示了1月17日(工作日)和1月27日(節(jié)假日)的聚類結(jié)果,圖2中的橫軸為行為開始時(shí)間,縱軸為行為結(jié)束時(shí)間。從聚類結(jié)果可以看出大致有4類時(shí)間興趣區(qū)域,每類時(shí)間興趣區(qū)域代表一種顯著行為模式,故對每種時(shí)間興趣區(qū)域進(jìn)行標(biāo)識以便分析。
圖2 CLIQUE聚類結(jié)果展示Fig.2 Result of CLIQUE Clustering
對34 d的聚類結(jié)果進(jìn)行分析后發(fā)現(xiàn):
模式1時(shí)間興趣區(qū)域的開始時(shí)間集中于7:00—11:00時(shí),結(jié)束時(shí)間集中于17:00—22:00時(shí),在工作日表現(xiàn)為一種長持續(xù)時(shí)長行為模式,在節(jié)假日時(shí)表現(xiàn)為中短持續(xù)時(shí)長行為模式,故推測其為工作行為模式;
模式2在節(jié)假日出現(xiàn)頻率較高,在工作日較少出現(xiàn),其時(shí)間興趣區(qū)域的開始時(shí)間在8:00—12:00時(shí),結(jié)束時(shí)間在10:00—13:00時(shí),是一種晨午間的中持續(xù)時(shí)長行為模式;
模式3時(shí)間興趣區(qū)域的開始時(shí)間分布于12:00—18:00時(shí),結(jié)束時(shí)間分布于12:00—19:00時(shí),在工作日時(shí)表現(xiàn)為短持續(xù)時(shí)長行為模式,在節(jié)假日表現(xiàn)為中長持續(xù)時(shí)長行為模式,因此推測其為下午娛樂行為模式;
模式4時(shí)間興趣區(qū)域的開始時(shí)間集中在17:00—22:00時(shí),結(jié)束時(shí)間集中在19:00—23:00時(shí),在工作日和節(jié)假日均表現(xiàn)為中短持續(xù)時(shí)長行為模式,推測其為晚間娛樂行為模式。
4類時(shí)間興趣區(qū)域在每天均有不同的表現(xiàn),但每類行為模式的行為開始時(shí)間范圍較為固定?;诖?,將行為開始時(shí)間分為6:00—12:00時(shí)(早間行為模式,對應(yīng)模式1和模式2),12:00—18:00時(shí)(午間行為模式,對應(yīng)模式3),18:00—24:00時(shí)(晚間行為模式,對應(yīng)模式4)3個(gè)時(shí)段,對其時(shí)間興趣區(qū)域的變化規(guī)律進(jìn)行分析,從而進(jìn)一步探究居民行為模式在起止時(shí)間和持續(xù)時(shí)長上的特點(diǎn)。
提取CLIQUE聚類結(jié)果中的每一類時(shí)間興趣區(qū)域的重心,從而得到該類時(shí)間興趣區(qū)域所代表的行為模式的平均行為開始時(shí)間和平均行為結(jié)束時(shí)間,如圖3~圖5所示。其中點(diǎn)的大小表示該聚類簇內(nèi)點(diǎn)數(shù)的多少,即時(shí)間興趣區(qū)域內(nèi)包含行為數(shù)的多少。點(diǎn)越大表明該行為模式在當(dāng)天越顯著。
圖3 早間行為模式變化規(guī)律分析Fig.3 Analysis of the Change of Residents’Morning Activity Pattern
1)早間行為模式變化分析。圖3展示了早間模式的行為開始時(shí)間與行為結(jié)束時(shí)間。由圖3可以發(fā)現(xiàn)早間行為模式中有一串顯著的點(diǎn),其開始時(shí)間集中于8:00—9:00時(shí),結(jié)束時(shí)間集中于18:00—20:00時(shí),這進(jìn)一步驗(yàn)證了聚類結(jié)果分析中對模式1為工作模式的推測。工作模式在正常周末、春節(jié)前一天和非法定假日的元宵節(jié)有略微減少,在春節(jié)期間的前4天消失,后3天略微出現(xiàn)。工作模式的開始時(shí)間十分穩(wěn)定的集中于8:00—9:00時(shí),表明了深圳市公司員工的上班時(shí)間較為固定;結(jié)束時(shí)間在正常工作日集中于19:00時(shí)前后,但在正常周末、法定調(diào)休上班的周末、春節(jié)前幾天和元宵節(jié)情人節(jié)均有半小時(shí)左右的提前,表明了深圳市絕大多數(shù)公司除春節(jié)放假4 d外幾乎無休加班,但在加班日及節(jié)日的下班時(shí)間略微提前,日均上班時(shí)間約為10 h。在周末、元宵節(jié)和春節(jié)及其前一周時(shí),檢測到一類顯著異于工作模式的新模式,其開始時(shí)間集中于9:00—12:00時(shí),結(jié)束時(shí)間則分布于9:00—17:00時(shí),對應(yīng)于聚類結(jié)果分析中的模式2。從春節(jié)前一周的行為可以發(fā)現(xiàn),模式2與模式1并非一類人群的行為。模式1是工作模式,代表上班族的行為,而進(jìn)行模式2所代表行為的人群提前一周開始進(jìn)行與春節(jié)相似的行為,因此代表了提前放假人群的行為(如學(xué)生、工作強(qiáng)度較低的上班族、退休人群等),故模式2是一種早間的零散娛樂行為模式,該行為的持續(xù)時(shí)長為0.25~4 h不等。
2)午間行為模式變化分析。如圖4所示,午間行為模式的開始時(shí)間廣泛分布于12:00—18:00時(shí),結(jié)束時(shí)間相對集中于14:00—19:00時(shí),在圖4中表現(xiàn)為一天中一連串相對集中的點(diǎn),對應(yīng)于聚類結(jié)果分析中的模式3??梢园l(fā)現(xiàn)該模式在正常工作日時(shí)均無顯著點(diǎn);在周末、春節(jié)前一周、春節(jié)期間和元宵節(jié)時(shí)有顯著點(diǎn),顯著點(diǎn)開始時(shí)間集中于15:00時(shí)前后,結(jié)束時(shí)間集中于17:00時(shí)前后,在春節(jié)前3天 該模式的開始時(shí)間有所提前。且該模式的行為持續(xù)時(shí)間普遍在2 h左右,驗(yàn)證了其是午間短期娛樂行為模式的推測,并進(jìn)一步可以推測該類娛樂行為模式是一種晚飯及晚飯后的休息娛樂行為。注意到從1月31日(新年初三)開始,春節(jié)期間出現(xiàn)了一種結(jié)束時(shí)間在22:00時(shí)以后的模式,而春節(jié)的前3天沒有。由此推測居民在春節(jié)前期偏好午間的中短娛樂行為,或在家中與家人共度,直到初三才開始與親朋好友相約聚會。
圖4 午間行為模式變化規(guī)律分析Fig.4 Analysis of the Change of Residents’Afternoon Activity Pattern
3)晚間行為模式變化分析。如圖5所示,晚間行為模式的開始時(shí)間集中于18:00—19:00時(shí),結(jié)束時(shí)間則分布于18:00—22:00時(shí),對應(yīng)于聚類結(jié)果分析中的模式4,是一種開始時(shí)間較為固定,結(jié)束時(shí)間分布較廣的行為模式。該模式的顯著點(diǎn)較多出現(xiàn)于周末,在元宵節(jié)、情人節(jié)和春節(jié)前一周的工作日也有出現(xiàn),驗(yàn)證了該模式是晚間娛樂行為模式的推測。而在春節(jié)期間尤其是大年初一前后,該類模式卻驟減至幾乎消失,說明春節(jié)期間晚間出行的人較少。
圖5 晚間行為模式變化規(guī)律分析Fig.5 Analysis of the Change of Residents’Evening Activity Pattern
本文提出了一種基于地鐵刷卡數(shù)據(jù)探究居民行為模式及其在起止時(shí)間和持續(xù)時(shí)長上特點(diǎn)的方法。該方法利用時(shí)間興趣區(qū)域和CLIQUE聚類挖掘出4類顯著的居民行為模,通過對每類行為模式在長時(shí)間段內(nèi)的變化進(jìn)行分析,驗(yàn)證了之前對每類行為模式類型的推測,揭示了深圳市居民的固定行為模式,為理解居民行為模式提供了一種思路。該方法理論上可拓展應(yīng)用于揭示不同功能區(qū)域之間居民行為模式的常態(tài)和變化,實(shí)現(xiàn)對異常行為模式的檢測。