王長碩 蒲英霞,2,3*
1(南京大學(xué)地理與海洋科學(xué)學(xué)院 江蘇 南京 210023)2(南京大學(xué)江蘇省地理信息技術(shù)重點實驗室 江蘇 南京 210023)3(南京大學(xué)江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心 江蘇 南京 210023)
城市是人類聚居的主要形式之一,是經(jīng)濟社會發(fā)展和文化交流的主要載體[1]。城市居民通過在城市不同區(qū)域、不同場所間的通勤和遷移,滿足居家、上班、購物、娛樂等生產(chǎn)和生活需求,實現(xiàn)生存發(fā)展和價值追求[2]。城市居民的出行行為包括出行目的、出行方式、出行時間等,與其包括社會角色在內(nèi)的群體標(biāo)簽之間相輔相成、互相約束。例如,當(dāng)“學(xué)生”群體的出行目的地為“電影院”等娛樂場所時,其出行行為將受到一定時間限制,大多選擇工作日晚間或周末;而若在工作日上午出門,前往“學(xué)?!睂W(xué)習(xí)這一出行行為則具有更高的概率。通過城市居民群體分類和出行特征分析,有助于發(fā)現(xiàn)城市居民的出行行為模式及變化規(guī)律,理解居民在城市中的時空參與性,從而更好地服務(wù)于人類生活需要[3]。
自19世紀(jì)起,地理學(xué)家、交通學(xué)家和社會學(xué)家從個體行為理論[4-5]、居民出行目的[6]、出行方式[7-9]、出行特征[10-11]等不同方向?qū)Τ鞘芯用癯鲂行袨檫M行了研究。傳統(tǒng)城市居民出行特征研究一般是以交通小區(qū)為單位分析居民出行交通活動(集計模型),進而獲取一個時段內(nèi)(一般是一個晝夜)的全體城市居民的宏觀出行特征信息,主要包括出行頻率、出行目的、出行時間分布等。在此基礎(chǔ)上,建立回歸分析模型等探索居民出行規(guī)律。隨著城市的發(fā)展和人們生活水平的提高,居民出行方式越來越多元化和復(fù)雜化,居民出行調(diào)查數(shù)據(jù)的獲取周期長、成本高,傳統(tǒng)方法逐漸顯現(xiàn)出其局限性。全球定位系統(tǒng)(GPS)、遙感技術(shù)(RS)和地理信息系統(tǒng)(GIS)的發(fā)展使得新的數(shù)據(jù)采集方法和分析手段不斷涌現(xiàn),國內(nèi)外學(xué)者基于手機信令數(shù)據(jù)[12]、公交車刷卡數(shù)據(jù)[13]、GPS軌跡數(shù)據(jù)[14-17]和社交媒體數(shù)據(jù)[18],開展了人類出行行為[13,16-17]、土地利用分類[12,14-15,18]等研究。例如,鄭林江等[17]基于出租車軌跡數(shù)據(jù),提出一種基于網(wǎng)格密度的GScan聚類算法,以重慶市為例分析居民出行熱點區(qū)域。
由Blei等[19]提出的潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型在探究城市居民時空行為方面具有較好的潛力。作為一種概率生成模型,LDA具有潛在語義挖掘和主題提取能力,已被廣泛應(yīng)用于自然語言處理、文本分類、場景分類等領(lǐng)域[20-21]。該模型包含“詞匯-主題-文檔”三個層次,其中隱含主題由詞匯的多項分布表示,而文檔則用隱含主題的多項分布表示,通過模型求解確定每一篇文檔所隱含主題的概率分布,進而對未知文檔完成文本分類。基于城市居民出行行為的特征分類和文本分類研究具有一定的相似性,城市居民在不同時空間扮演社會角色的不同,導(dǎo)致同一居民存在多種對應(yīng)的群體類別,因此可以根據(jù)居民的出行行為構(gòu)建語料庫,利用LDA模型將居民劃分為具有不同出行特征的群體。
LDA模型是貝葉斯方法的具體應(yīng)用。貝葉斯方法的優(yōu)勢在于將定性或定量的先驗信息與樣本信息結(jié)合,通過學(xué)習(xí)機制,共同得出模型和變量的后驗概率分布,它不僅可以避免僅使用先驗信息可能帶來的主觀偏見,還可避免缺乏樣本信息時的大量盲目搜索與計算[22-23]。然而傳統(tǒng)的LDA模型并沒有借助樣本信息外的其他信息作為先驗,導(dǎo)致了其非監(jiān)督特性。Labeled-LDA模型通過附加類別標(biāo)簽,將類別先驗信息融入LDA模型,克服了傳統(tǒng)LDA強制分配隱含主題的缺陷,有效提高了分類的準(zhǔn)確性和結(jié)果的可解釋性[24-25]。因此,基于Labeled-LDA模型挖掘城市居民出行行為,可以得到具有現(xiàn)實意義、易于解釋的群體類別。
憑借著用戶參與的廣泛性與即時性、信息擴散模式與速度等方面的優(yōu)勢,移動社交媒體數(shù)據(jù)在表達城市居民日常出行行為方面具有明顯優(yōu)勢。2016年末的統(tǒng)計顯示,Twitter的月活躍用戶量已超過3億,平均每位用戶擁有208位直接社交朋友[26]。據(jù)此,本文利用2014年波士頓海量Twitter簽到數(shù)據(jù),構(gòu)建居民出行活動模式模型和Labeled-LDA模型,將社會角色標(biāo)簽作為附加先驗信息,在群體和個體尺度上分析城市居民的日常出行行為,探究居民出行時空特征,為居民在不同時空間表現(xiàn)出的不同出行行為特征提供概率解釋。
為探究城市居民日常出行規(guī)律,分析不同群體時空出行特征,本文建立表征城市居民出行行為的定量模型,現(xiàn)給出如下定義:
定義1移動軌跡。處于活動A1的城市居民在TL時間離開某地RO,在TA時間到達另一地點RD,目的為活動A2,則包含出行目的的居民出行移動軌跡可表示為如下的一個六元組M:
M=
(1)
定義2活動模式。當(dāng)優(yōu)先考慮居民出行活動的目的,探究群體或個體出行目的規(guī)律時,忽略居民出行的地理位置差異,則移動軌跡可表示為如下的一個四元組M+:
M+=
(2)
現(xiàn)實生活中,居民日常的出行狀態(tài):“離開”或“到達”常影響其出行目的和起訖地理位置,并呈現(xiàn)較強的規(guī)律性,例如學(xué)生群體工作日的“離開”常常指離開“家”到達“學(xué)?!?。
將每一個居民個體作為一篇文檔,居民的群體類別作為主題,居民出行活動模式作為詞匯,可以運用Labeled-LDA模型對城市居民進行群體分類,如圖1所示。
城市居民的所有出行行為信息→語料庫城市居民→文檔具有不同出行特征的人群→文檔的主題居民出行活動模式→詞匯
圖1 Labeled-LDA用于居民群體分類的思想類比
為分析城市居民的出行行為特征,探究居民扮演的社會角色作為先驗信息與居民出行行為模式之間的潛在規(guī)律,研究從以下三個階段展開:居民出行活動模式構(gòu)建,基于LDA模型提取社會角色先驗信息,基于Labeled-LDA模型完成群體分類和出行特征分析。首先使用Twitter簽到數(shù)據(jù)提取城市居民出行活動類型和時間等信息,生成居民出行活動模式;其次建立LDA模型處理活動模式,得到典型群體的出行活動分布,并作為先驗信息;最后建立Labeled-LDA模型,完成城市居民群體分類,于群體尺度和個體尺度分析居民出行特征。
圖2 Labeled-LDA模型圖解[24]
算法1Labeled-LDA模入:語料庫D={d1,d2,…,dm…,dM},Dirichlet超參數(shù)α、β,主題數(shù)量K,先驗標(biāo)簽Φ,先驗標(biāo)簽集Λ(d)。
輸出:文檔-主題多項分布θ(d),主題-詞匯多項分布φk。
步驟1對于每一個主題變量k∈{1,2,…,K}:
產(chǎn)生φk=(φk,1,φk,2,…,φk,V)~Dir(·|β);
步驟2對于每一篇文檔d:
步驟2.1對于其中的每一個主題變量:
步驟2.2產(chǎn)生α(d)=L(d)×α;
步驟2.3產(chǎn)生θ(d)=(θl1,θl2,…,θld)~Dir(·|α(d));
步驟2.4遍歷對于該文檔中的每一個詞匯:
產(chǎn)生詞匯wi∈{1,2,…,V}~Mult(·|φzi)。
模型可以得到居民群體類別的后驗概率(對應(yīng)文檔-主題后驗概率分布)、居民出行活動模式對群體類別的解釋強度(對應(yīng)主題-詞匯后驗概率分布),結(jié)合兩者能夠?qū)Τ鞘芯用竦某鲂行袨橐?guī)律做出定量解釋和歸納。
在標(biāo)簽集Λ(d)的設(shè)置過程中,本文使用傳統(tǒng)LDA模型對城市居民的出行行為進行探索性分類,得到典型的居民群體,提取其出行活動分布作為先驗信息。具體過程如下:
算法2Labeled-LDA標(biāo)簽集設(shè)入:基于簽到數(shù)據(jù)的波士頓城市居民出行活動模式(樣本信息D),基于LDA模型的探索性分類結(jié)果(先驗信息)。
輸出:波士頓城市居民先驗標(biāo)簽集Λ(d)。
步驟1分析傳統(tǒng)LDA模型探索性分類結(jié)果,得到具有典型出行行為特征的群體,提取其出行活動分布向量作為先驗分布曲線。
步驟2對于每一位波士頓居民:
步驟2.1遍歷該居民的所有出行活動模式:M+=
步驟2.2基于歐氏距離比較該居民的出行活動分布曲線與步驟1中的先驗曲線,計算曲線相似度。
步驟2.3選擇最大曲線相似度對應(yīng)的群體類別(社會角色)作為該居民的先驗標(biāo)簽。
步驟3完成先驗標(biāo)簽集設(shè)置,繼續(xù)Labeled-LDA建模。
求解含有隱含變量的概率主題模型非常困難,無法通過常用的最大似然函數(shù)方法對模型進行推導(dǎo),目前比較常用的方法包括期望最大化算法(Expectation Maximization,EM)以及馬爾可夫鏈蒙特卡洛算法(Markov Chain Monte Carlo,MCMC)等。Labeled-LDA模型的似然函數(shù)為非凸函數(shù),采用EM算法容易得到局部最優(yōu)解,而由于多項分布和狄利克雷分布具有共軛特性,基于MCMC的吉布斯抽樣可以極大簡化抽樣復(fù)雜度,因此我們使用吉布斯方法對參數(shù)進行抽樣,獲得參數(shù)的后驗分布[21]。
本文利用美國波士頓2014年Twitter簽到數(shù)據(jù)展開實驗。源簽到數(shù)據(jù)時間跨度自美國東部時間2013年12月31日至2014年12月31日,記錄了用戶經(jīng)去隱私化處理的ID、簽到時間、活動類型、簽到時所在地的建筑物ID、所在地的重要性、家庭住址等信息。
如表1所示,源簽到數(shù)據(jù)中各用戶的不同簽到記錄由“,”鏈接,同一簽到記錄下,各數(shù)據(jù)項由“&”鏈接。每位用戶的第一個簽到記錄為補充的家庭地址信息,以活動類型為“0”作為標(biāo)記,除家庭地址的經(jīng)緯度外其他信息無實際意義。從第二個簽到記錄開始為用戶的實際簽到數(shù)據(jù),依次包括地址重要性、建筑物ID、簽到時間、輔助簽到時間(位于一年中的第幾天)、活動類型五個信息。其中,活動類型共有12種,活動類型代碼與實際意義的聯(lián)系見表2。
表1 美國波士頓簽到數(shù)據(jù)示例
表2 活動類型的實際含義及其映射
根據(jù)活動模式模型,本文將Twitter簽到數(shù)據(jù)一一映射為居民出行活動模式,并生成對應(yīng)的活動模式詞匯。由于城市居民出行的活動周期通常為一天,因此以一個小時為時間間隔離散化時間,得到值為0~23的時間序列。為避免時間與活動類型混淆,本文將活動類型映射為“A-L”(表2)。例如,某波士頓居民于2014年5月1日0時在“家”簽到,然后于當(dāng)日9時在“學(xué)校”簽到,則其對應(yīng)的活動模式詞匯為A_0_D及A_D_9。
本文對由簽到數(shù)據(jù)生成的活動模式進行了統(tǒng)計。源數(shù)據(jù)中總用戶數(shù)量為14 177人,可生成3 879 072條活動模式??紤]到數(shù)據(jù)量不能過小,本文最終選定年簽到數(shù)據(jù)量高于1 500條的588位用戶及其1 705 568條活動模式,作為后續(xù)研究的數(shù)據(jù)源。
使用JAVA語言搭建LDA模型,對城市居民活動模式詞匯進行處理,生成居民群體類別的后驗概率(文檔-主題后驗概率分布)及居民出行活動模式對群體類別的解釋強度(主題-詞匯后驗概率分布)。本文將LDA模型類別數(shù)量(K)設(shè)置為10,模型迭代次數(shù)設(shè)為3 000。對于文檔和主題先驗Dirichlet分布超參數(shù)(α和β),本文根據(jù)文獻[27-28]的研究,取α=50/K,β=0.01,此時模型性能較好。
LDA模型可得到10種群體類別。表3為居民出行活動模式詞匯從屬于各群體類別的后驗概率分布,取排名前十的結(jié)果。概率越大,排名越靠前,越能解釋其相對應(yīng)的群體類別。
表3 居民出行活動模式對群體類別的解釋強度
通過分析各活動模式對群體類別的解釋性,我們可以總結(jié)和歸納出群體類別的現(xiàn)實意義。其中,群體類別1、5、6、7、8具有典型的出行行為模式,分別與居家人員、夜間活動族、大學(xué)生、上班族、中小學(xué)生的出行行為相接近,因此提取這5個群體的出行活動分布作為先驗信息(表4及圖3),為每一位居民設(shè)置先驗標(biāo)簽。
表4 典型居民群體的出行活動分布向量
圖3 典型居民群體的出行活動分布曲線
Labeled-LDA模型主題數(shù)量設(shè)為5,其余參數(shù)同傳統(tǒng)LDA模型。模型可以得到波士頓各居民屬于5個群體類別的后驗概率分布,如表5所示,編號為1934319254的波士頓居民屬于居家人員、夜間活動族、大學(xué)生、上班族和中小學(xué)生的后驗概率分別為0.015、0.407、0.172、0.086和0.320。其中,屬于夜間活動族的概率最大,說明該居民通過Twitter簽到所反映出來的日常出行行為更符合夜間活動族群體。
表5 Labeled-LDA建模結(jié)果
為分析各群體出行行為時空特征,本文設(shè)置后驗概率最大的類別作為該居民的群體類別,提取波士頓居民在2014年任意30天內(nèi)的出行行為,結(jié)果如圖4所示,橫軸代表以一小時計的30天(共720小時),縱軸代表各群體類別的波士頓居民。同時,本文統(tǒng)計了Labeled-LDA主題-詞匯后驗概率分布,表6所示為排名前十的居民出行活動模式詞匯。
圖4 波士頓居民群體的出行行為分布
表6 Labeled-LDA建模結(jié)果:主題-詞匯分布
居家人員的出行行為以“家”與“購物場所”、“家”與“家”、“娛樂場所”之間的通勤為主。更為具體地,早上9點或10點,居家人員從“家”出發(fā)前往“購物場所”,于9點或10點到達(由活動模式A_9_I、A_I_9、I_I_10、A_I_10反映,下類似);上午10點,居家人員在“購物場所”采購家用生活物品、食物時,在不同“購物場所”區(qū)域內(nèi)移動,居民可能一邊購物一邊悠閑玩手機(I_I_10、I_10_I);下午,居家人員可能于13點左右前往“娛樂場所”娛樂和休閑;而到了21點,居家人員或返回“家”中,或由“家”中出發(fā)前往其他區(qū)域休閑后再度返“家”(A_21_A、A_A_21)。
夜間活動族的出行行為以“家”與“家”、“家”與“辦公場所”、“購物場所”之間的通勤為主。更為具體地,夜間活動族于早上8點離開“辦公場所”(F_A_10、F_F_8),在10點到達“家”中;在“家”中,他們或休息到12點后再度出門,或不休息直接出門前往其他活動類型區(qū)域,或者休憩結(jié)束后居家玩手機,期間多次使用Twitter簽到(A_A_10、A_10_A、A_A_12及A_A_12);夜間活動族在15點左右會前往“購物場所”采購生活物品,他們在“購物場所”的行為方式與居家人員一樣,一邊購物一邊悠閑玩手機,然后他們于15點左右返回家中;最后,在17點夜間活動族會返回“辦公場所”上班,如果沒有排班的話,他們則在19點或返回“家”中,或由“家”中出發(fā)前往其他區(qū)域休閑后再度返“家”。
大學(xué)生的出行行為以“大學(xué)”與“大學(xué)”、“大學(xué)”與“家”、“家”與“家”之間的通勤為主。更為具體地,早上8點或9點,大學(xué)生到達“大學(xué)”并在“大學(xué)”內(nèi)部通勤,可能是在不同教室上課或?qū)W習(xí),但他們時常使用Twitter簽到;下午大學(xué)生的出行行為也是如此,在“大學(xué)”內(nèi)部通勤;直到17點或更晚,家在波士頓的大學(xué)生陸續(xù)返回“大學(xué)”;從17點開始至21點,部分大學(xué)生或返回“家”中,或由“家”中出發(fā)前往其他區(qū)域休閑后再度返“家”。
上班族的出行行為以“家”與“辦公場所”之間的通勤為主。更為具體地,早上8點或9點,他們于“家”出發(fā)前往“辦公場所”,并于9點或10點到達;中午11點至12點,上班族在“辦公場所”內(nèi)通勤,可能是在公司內(nèi)部或附近吃完午飯,然后回到公司繼續(xù)上班;17點左右工作結(jié)束,上班族開始返“家”;到了19點至21點,他們則在家中休閑刷手機,使用Twitter簽到,或由“家”中出發(fā)前往其他區(qū)域休閑后再度返“家”。
中小學(xué)生群體的出行行為以“家”與“學(xué)?!?、“學(xué)?!迸c“學(xué)校”、“家”與“家”之間的通勤為主。更為具體地,早上7點至9點,學(xué)生從“家”出發(fā)前往“學(xué)校”開啟一天的學(xué)習(xí)歷程;中午12點,部分學(xué)生會離開“學(xué)校”到達“家”中,也有部分學(xué)生一直在“學(xué)?!?;到了16、17點左右,學(xué)生們結(jié)束了一天的學(xué)習(xí)開始返回“家”中,或已經(jīng)到“家”,而他們在到達“家”后,有可能前往其他區(qū)域休閑,并于更晚時候再度返“家”。
為進一步探究引入先驗信息對模型結(jié)果的影響,本文統(tǒng)計了各群體居民的活動類型占比(后驗分布),對比傳統(tǒng)LDA模型得到的居民活動類型占比(先驗分布),分析在使用先驗信息后,Labeled-LDA模型得到的居民出行行為變化情況。
如表7所示,居家人員群體于“購物場所”、“學(xué)?!被顒拥暮篁灨怕氏啾认闰炗幸欢ǚ鹊奶嵘?,而于“娛樂場所”活動的后驗概率則下降,說明Labeled-LDA在有效加入先驗信息進行分類的同時,沒有忽略樣本數(shù)據(jù)自身的信息特征。夜間活動族于“辦公場所”的后驗概率與先驗概率相比,提高了0.058,這一方面說明該群體在“辦公場所”出行行為與他們的日常生活聯(lián)系緊密,另一方面給出了該群體在現(xiàn)實生活中所對應(yīng)的實際人群的可能性解釋,例如夜間工作的藍領(lǐng)員工、從事夜間基礎(chǔ)設(shè)施服務(wù)的服務(wù)類型人員等。大學(xué)生群體于地點“大學(xué)”有關(guān)的出行活動概率達到了20.5%,即他們在日常生活中有五分之一的出行行為,其出發(fā)地或目的地為“大學(xué)”,遠高于相應(yīng)的樣本頻率和先驗概率,說明Labeled-LDA模型有效提取了該群體于“大學(xué)”的出行行為模式。上班族群體于“辦公場所”的通勤行為中,后驗概率為17.6%,相比先驗有所升高,說明出行行為模式更集中于“辦公場所”的居民被歸類為上班族群體。
表7 波士頓居民群體的活動類型分布
續(xù)表7
在實際生活中,“人”常常扮演著多個角色,比如工作日在“學(xué)校”時,居民扮演“學(xué)生”角色,而放假期間在“家”時,居民則扮演“居家人員”的角色,城市居民的出行行為隨著不同時空間扮演社會角色的不同而發(fā)生著巨大的變化。Labeled-LDA模型將先驗信息(標(biāo)簽)和樣本信息(波士頓居民出行活動模式)相結(jié)合,基于吉布斯抽樣通過不斷迭代采樣而得到波士頓居民屬于各群體類別的后驗概率分布,這一貝葉斯過程所產(chǎn)生的模型結(jié)果,在一定程度上反映了個體出行行為的不確定性。
例如,Labeled-LDA得到ID號35793087的波士頓居民屬于居家人員、夜間活動族、大學(xué)生、上班族和中小學(xué)生的后驗概率分別為0.445、0.470、0.050、0.023和0.012,屬于夜間活動族的后驗概率最大,因此被分為夜間活動族(表5)。然而,這并不意味著該居民在任一時刻的出行行為都反映了夜間活動族群體的出行行為特征。如圖5所示,本文提取了該居民于某工作日(3天,不連續(xù))和某周末(2天,不連續(xù))的活動模式,可以發(fā)現(xiàn)工作日該居民的出行行為十分符合3.3節(jié)對夜間活動族群體出行行為的總結(jié)規(guī)律,然而,他/她于周末的出行行為卻更貼近居家人員群體。
圖5 波士頓某居民工作日/周末活動模式展示
由于個體自身的不確定性,導(dǎo)致個體出行行為所表征的出行規(guī)律在不同時間周期的表現(xiàn)均有所不同。Labeled-LDA模型能基于先驗信息和樣本信息,得到城市居民屬于不同群體類別的后驗概率分布,對個體出行行為的不確定性起到了一定的解釋作用,能在一定程度上反映城市居民出行行為的復(fù)雜性。
本文提出一種基于Labeled-LDA的城市居民群體分類和出行特征分析框架。首先利用城市居民的海量Twitter簽到數(shù)據(jù),構(gòu)建居民出行活動模式模型定量表征城市居民的日常出行行為;其次構(gòu)建潛在狄利克雷分布模型LDA對城市居民進行探索性分類,針對分類結(jié)果提取典型城市居民群體的出行活動分布作為先驗信息;最后,構(gòu)建標(biāo)簽狄利克雷分布模型Labeled-LDA,將城市居民劃分為居家人員、夜間活動族、大學(xué)生、上班族及中小學(xué)生五個群體,于群體維度分析城市居民的出行行為特征,并討論個體出行行為的不確定性。
通過引入先驗信息,Labeled-LDA模型能夠有效完成城市居民在群體維度的出行行為特征分類,并定量解釋居民群體的出行行為規(guī)律。以后驗概率分布形式給出的Labeled-LDA模型群體分類結(jié)果,有效體現(xiàn)了個體出行行為的復(fù)雜性與不確定性,為城市居民在不同時間和地點表現(xiàn)出不同群體的出行行為特征提供了定量的數(shù)據(jù)支撐。