Cuauhtemoc Anda,Alexander Erath,Pieter Jacobus Fourie 著,宗 晶 譯
(1.蘇黎世聯(lián)邦理工大學(xué)未來城市實(shí)驗(yàn)室,新加坡ETH中心,新加坡 138602,新加坡;2.中國(guó)城市規(guī)劃設(shè)計(jì)研究院,北京 100037)
在人們通過移動(dòng)電話、公共交通智能卡或者全球定位系統(tǒng)支持的設(shè)備獲取出行數(shù)據(jù)之前,構(gòu)建交通需求模型生成大規(guī)模甚至全民樣本困難且昂貴。這些模型的目的不僅是為了復(fù)制相關(guān)精度的實(shí)際交通流,還包括應(yīng)用假設(shè)場(chǎng)景來評(píng)估不同基礎(chǔ)設(shè)施開發(fā)決策的影響。
盡管有新的大數(shù)據(jù)來源,但在規(guī)劃實(shí)踐中使用的交通需求模型,幾乎完全是基于交通調(diào)查和人口普查等傳統(tǒng)數(shù)據(jù)。在過去幾十年里,隨著計(jì)算能力的成倍增長(zhǎng),所應(yīng)用的統(tǒng)計(jì)模型變得更加復(fù)雜,最重要的變化是從基于出行的模型到基于活動(dòng)的模型的進(jìn)化:基本模型構(gòu)架保持不變,用覆蓋一個(gè)小樣本人群的出行調(diào)查推算實(shí)際人口的出行情況。
通過新的大數(shù)據(jù)源,如手機(jī)通話記錄、智能卡數(shù)據(jù)和社交媒體記錄的地理編碼,觀察和理解前所未有的交通行為的細(xì)節(jié)。但是簡(jiǎn)單的觀察對(duì)于規(guī)劃目標(biāo)沒有特別的幫助??紤]到是在假設(shè)情景中進(jìn)行預(yù)測(cè),我們需要將大數(shù)據(jù)中包含的信息置于假設(shè)背景中理解,以使大數(shù)據(jù)信息能適合于交通需求建??蚣?,并預(yù)測(cè)交通需求模型。
本文回顧了近年來利用大數(shù)據(jù)分析交通行為領(lǐng)域的最新進(jìn)展①,并介紹了可以預(yù)測(cè)假設(shè)情況的交通需求模型。為此,首先介紹最新的交通需求模型的基礎(chǔ),包括最新的基于個(gè)體的方法。
本文聚焦于利用相關(guān)大數(shù)據(jù)的研究,重點(diǎn)研究與交通需求模型直接相關(guān)的方法和工具包,因此不包括那些從大數(shù)據(jù)源獲得實(shí)時(shí)分析的方法。本文的目的是從方法論角度全面梳理大數(shù)據(jù)如何提高對(duì)出行的理解以及如何應(yīng)用于交通需求模型。基于此,確定了各種方法的優(yōu)點(diǎn)和缺點(diǎn)及其在交通預(yù)測(cè)模型中的適用性。本文得出的結(jié)論不僅包括對(duì)應(yīng)用大數(shù)據(jù)建模的描述,還提出了彌補(bǔ)研究不足的技術(shù)要求。
交通需求模型通過預(yù)測(cè)不同交通和土地利用方案的影響情況[1]為決策制定提供支持。有兩種交通需求預(yù)測(cè)方法:1)集計(jì)模型,將交通需求定義為小區(qū)間的集計(jì)交通流;2)基于個(gè)體的模型(agent-based model),在整個(gè)模型中保留個(gè)體層面的出行需求。
1.1.1 經(jīng)典的四階段法
20世紀(jì)60年代引入四階段法需求模型[2]。最初被描述為基于出行的模型,其目的是預(yù)測(cè)不同交通方式、交通線路在任意兩個(gè)OD小區(qū)之間的出行次數(shù)。第一步出行生成是每個(gè)小區(qū)產(chǎn)生和吸引的出行估計(jì)次數(shù)。第二步出行分布是連接起點(diǎn)和訖點(diǎn)之間的出行量,以及它們被吸引到哪里。第三步方式劃分決定了每次出行的交通方式,如汽車或公共交通。第四步是預(yù)測(cè)每次出行會(huì)選擇的路線,并模擬擁堵引起的交通延誤。由于這種延誤不僅影響交通方式和路徑的選擇,還影響區(qū)域選擇行為,通常包括步驟二、三和四的反饋與循環(huán)。四階段法的建模數(shù)據(jù)要求包括家庭出行調(diào)查信息、人口普查信息和交通網(wǎng)絡(luò)信息。
1.1.2 基于活動(dòng)的模型
20 世紀(jì)90年代初以來,基于活動(dòng)的模型被認(rèn)為是優(yōu)于四階段法的選擇,避免了四階段法的固有局限性。為了解基于活動(dòng)的模型的重要性,文獻(xiàn)[3]強(qiáng)調(diào)四階段法在本質(zhì)上是集計(jì)的,即測(cè)量單位不是個(gè)體,而是來自任何特定小區(qū)的出行。此外,四階段法在如何使用不同子模型的行為參數(shù)上缺乏穩(wěn)定性和一致性。而且,當(dāng)涉及交通需求管理政策,如出行定價(jià)政策的評(píng)估時(shí),四階段法的獨(dú)立性假設(shè)經(jīng)常被視為致命缺點(diǎn)。
基于活動(dòng)的模型的基本原理是理解出行需求源于參與活動(dòng)的必要性。基于活動(dòng)的模型的目標(biāo)是預(yù)測(cè)每個(gè)個(gè)體在受到時(shí)間和資源制約的前提下,一定時(shí)間周期內(nèi)的活動(dòng)次數(shù)、順序和類型。然而,基于活動(dòng)的模型允許在空間上對(duì)交通需求進(jìn)行分解描述,通過路徑選擇和交通仿真,這種交通需求通常會(huì)再次集計(jì)成所謂的OD 矩陣,以描述在任意兩個(gè)起訖點(diǎn)之間的出行次數(shù)。這種限制起初是由于模型缺乏模擬交通的相關(guān)空間范圍,即全天時(shí)段整個(gè)城市或區(qū)域,但是如今仍舊適用于基于交通仿真的計(jì)算要求。
除了與四階段法相同的數(shù)據(jù)要求外,基于活動(dòng)的模型還需要一種額外的輸入數(shù)據(jù),即在單個(gè)家庭和個(gè)人層面的“虛擬人口”以及代表地區(qū)利益的實(shí)際人口數(shù)據(jù)。這種虛擬人口包括一系列社會(huì)人口屬性,可被用于交通需求建模過程中。此外,對(duì)于虛擬人口中的每一個(gè)個(gè)體,都有一個(gè)完全描述性的日?;顒?dòng)計(jì)劃,包括工作或教育等日常活動(dòng)的地點(diǎn)。
用于交通戰(zhàn)略規(guī)劃的基于個(gè)體的模型通常從基于活動(dòng)的建模方法中獲得交通需求,基于受到交通網(wǎng)絡(luò)及其屬性約束的系統(tǒng)[4],采用微觀和完全動(dòng)態(tài)的交通仿真模擬個(gè)體的個(gè)性化需求。
最初,TRANSIMS[5]發(fā)展成為第一個(gè)大規(guī)模用于基于個(gè)體的交通模型的建模工具,專注于取代集計(jì)的交通分配方法,之后基于個(gè)體模型的實(shí)現(xiàn)和最新的發(fā)展,如MARSim[6],SimMobility[7], SimAGENT[8]按 照 出 行 方式、時(shí)間、目的地和活動(dòng)調(diào)度進(jìn)行不同程度的整合,形成了一致性的建模框架。這一綜合框架使得在整個(gè)建模過程中可以非集計(jì)的形式模擬交通需求。除了增強(qiáng)行為一致性外,還允許對(duì)現(xiàn)代交通需求的管理工具進(jìn)行建模和分析,如基于時(shí)間或需求定價(jià),以及共享汽車和自動(dòng)駕駛等新的交通形式。
多元個(gè)體建模(multi-agent-based modelling)建立在大規(guī)模獨(dú)立個(gè)體的基礎(chǔ)上,他們執(zhí)行自己的決策,并與其他個(gè)體、環(huán)境相互作用。對(duì)于個(gè)體,一個(gè)初始的日常活動(dòng)計(jì)劃需要用活動(dòng)的位置、時(shí)間、開始和結(jié)束時(shí)間以及兩個(gè)活動(dòng)間行程,包括交通方式和交通線路精確描述。
在正在發(fā)展的幾個(gè)基于個(gè)體的交通模型中,MATSim以一個(gè)特殊的作用被認(rèn)為是目前應(yīng)用最為廣泛的模型。MATSim可以在一個(gè)協(xié)同進(jìn)化的學(xué)習(xí)循環(huán)中集成廣泛的決策維度,但是受限于模塊化框架,它也只能用于交通仿真,并與其他基于活動(dòng)的出行需求模型結(jié)合使用。
隨著移動(dòng)設(shè)備和定位傳感技術(shù)的普及,精確的地理位置數(shù)據(jù)代表著巨大且不斷增長(zhǎng)的大數(shù)據(jù)集。以交通規(guī)劃為目的,基于非集計(jì)的活動(dòng)模型,本文僅局限于從個(gè)體獲取出行數(shù)據(jù)的相關(guān)研究。對(duì)個(gè)體數(shù)據(jù)軌跡感興趣是因?yàn)樗梢蕴峁╆P(guān)于交通方式更準(zhǔn)確、更有趣的視角。除此之外還包括由基礎(chǔ)設(shè)施檢測(cè)器記錄的出行信息,這些檢測(cè)器記錄了某些交叉口的交通量(如線圈檢測(cè)器、視頻車輛檢測(cè)系統(tǒng)和ERP系統(tǒng))。
智能卡自動(dòng)收費(fèi)(Smart Card Automated Fare Collection, SC-AFC)系統(tǒng)和移動(dòng)電話網(wǎng)絡(luò)在城市中的設(shè)置覆蓋面廣,是本文研究的重點(diǎn)。兩者可歸類于大規(guī)模隨機(jī)出行檢測(cè)器,能以前所未有的規(guī)模和詳細(xì)程度提供對(duì)城市動(dòng)態(tài)和人們活動(dòng)的觀察。此外,兩者還擁有一個(gè)優(yōu)勢(shì),即無須額外的基礎(chǔ)設(shè)施收集出行信息,因?yàn)槠浔旧砭褪菫榱耸占步煌ㄙM(fèi)用并允許移動(dòng)通信網(wǎng)絡(luò)使用。
其他的數(shù)據(jù)集可作為補(bǔ)充數(shù)據(jù),如GPS數(shù)據(jù)、特征點(diǎn)(Points of Interest, POI)、土地利用、人口普查和交通調(diào)查數(shù)據(jù)。正如文獻(xiàn)[9]提到的,補(bǔ)充數(shù)據(jù)集有三個(gè)目的:1)驗(yàn)證基于大規(guī)模出行檢測(cè)器數(shù)據(jù)的分析結(jié)果;2)明確縮放因子,將結(jié)果擴(kuò)樣至總體樣本;3)增加城市空間信息以獲取更深層次的結(jié)果。
SC-AFC系統(tǒng)應(yīng)用于世界各地的許多公共交通系統(tǒng)中,并持續(xù)被公共交通運(yùn)營(yíng)商使用。公共交通系統(tǒng)引入智能卡的主要目的是利用其靈活性和安全性進(jìn)行收費(fèi)。任何(時(shí)空)轉(zhuǎn)換產(chǎn)生的信息很快就成為交通和城市規(guī)劃的豐富數(shù)據(jù)源。從公共交通客流分析到OD矩陣創(chuàng)建,智能卡數(shù)據(jù)(為城市動(dòng)態(tài)和出行方式)提供了城市公共交通的洞察視角。下文將介紹從重建個(gè)體出行到OD 矩陣預(yù)測(cè),如何利用智能卡數(shù)據(jù)及使用基于個(gè)體的建模方法進(jìn)行交通規(guī)劃。
SC-AFC 系統(tǒng)的實(shí)施取決于城市及其票價(jià)政策。阿姆斯特丹、悉尼和新加坡等城市根據(jù)公共交通出行的總里程收取車費(fèi),而不管是使用公共汽車還是火車。這就要求乘客上車、下車或者換乘時(shí)刷卡。然而,倫敦、舊金山等城市則實(shí)行非階梯票價(jià),即無論在哪里上下車,全線票價(jià)相同,因此乘客上下車只需要刷一次卡。在任何情況下,為進(jìn)一步分析人們的出行活動(dòng),挖掘智能卡數(shù)據(jù)的主要挑戰(zhàn)在于重建個(gè)體出行。
2.1.1 預(yù)測(cè)下車站
由于SC-AFC 系統(tǒng)只要求驗(yàn)證上車站,因此第一步是預(yù)測(cè)下車站。一般來說,可以基于兩個(gè)明確假設(shè)使用出行鏈(Trip-Chaining)算法推斷下車站[10]。第一個(gè)假設(shè)是在出行結(jié)束后,出行者將回到之前下車站;第二個(gè)假設(shè)是在一天結(jié)束時(shí),出行者將返回當(dāng)天第一次出行的上車站。
針對(duì)文獻(xiàn)[10]提出的初始概念,一些研究對(duì)其進(jìn)行了改進(jìn)。文獻(xiàn)[11]將這一概念擴(kuò)展至軌道交通和公共汽車的換乘線路中。文獻(xiàn)[12]嘗試整合第二天甚至一周的出行方式,以補(bǔ)充魁北克市(Quebec)加蒂諾(Gatineau)公共交通系統(tǒng)的信息缺失。文獻(xiàn)[13]提出了一種利用時(shí)間約束而非距離約束的多方式公共交通的預(yù)測(cè)方法。在這些研究中,個(gè)體出行重建的成功率從66%提升至80%。
此外,文獻(xiàn)[14]提出了基于概率無向圖模型(undirected graphical probabilistic model)通過智能卡數(shù)據(jù)重建個(gè)體出行的方法。該文獻(xiàn)提出了一種集成學(xué)習(xí)方法,將費(fèi)用、地理空間和時(shí)間空間(geospatial and temporal spaces)結(jié)合起來,從而推斷出一系列關(guān)鍵領(lǐng)域特定的約束因子。通過使用在這些約束條件下的半監(jiān)督隨機(jī)算法,可推斷出確切的上下車站,即使存在未知信息的交通記錄。只有10%的出行有明確上下車站數(shù)據(jù),超過78%的出行存在上下車站信息缺失的情況。這項(xiàng)工作的實(shí)用性不僅僅是重建僅有出行起點(diǎn)的出行過程,而且是一個(gè)通過智能卡刷卡記錄恢復(fù)個(gè)體出行歷史的系統(tǒng)方式。這個(gè)預(yù)處理階段可以有效地支撐后期交通需求模型的構(gòu)建和分析。
3.1.2 階段、行程和OD
確定下車站后,個(gè)體出行重建的第二步是推斷這個(gè)下車站是否是最終目的地(即行程結(jié)束),或只是一個(gè)多階段行程的一個(gè)階段(即換乘)。常見的識(shí)別方法是利用時(shí)間法則。例如,文獻(xiàn)[13]使用30 min 的時(shí)間法則。如果一個(gè)人在某一個(gè)特定地點(diǎn)停留超過30 min,即可認(rèn)為該地點(diǎn)是目的地。在倫敦的案例中,時(shí)間閾值取決于交通方式,即地鐵換乘公共汽車為20 min,公共汽車換乘地鐵為35 min,公共汽車間換乘為45 min[15]。
只有智能卡數(shù)據(jù)才能獲取時(shí)空維度上的個(gè)體活動(dòng),這就限制了識(shí)別個(gè)體活動(dòng)的渠道,因?yàn)橐惶斓男谐滩蝗际鞘褂霉步煌?。文獻(xiàn)[16]描述了公共交通出行一致性概念的局限性,一致性意味著同一個(gè)人通過公共交通到達(dá)活動(dòng)地點(diǎn),那么就必須通過公共交通結(jié)束此次行程。然而智能卡數(shù)據(jù)不能記錄公共交通以外的其他交通方式,通過分析最后一段行程的下車點(diǎn)和接下來一段行程的上車點(diǎn)能明確識(shí)別是否為統(tǒng)一的交通方式。這就可以確定在兩段行程之間是否還采用其他交通方式,如出租汽車、小汽車或者步行。
以新加坡的一個(gè)典型工作日為例,文獻(xiàn)[16]發(fā)現(xiàn)在智能卡數(shù)據(jù)中記錄的不只有一次行程的人群,90%的出行開始于上一次下車點(diǎn)1 km范圍內(nèi)。這說明:1)大多數(shù)公共交通出行者在多次公共交通出行之間并不會(huì)使用其他交通方式,因此他們的出行鏈較連貫;2)有可能一個(gè)區(qū)域只存在特定種類的活動(dòng)。
一旦個(gè)體出行被重新構(gòu)建到已知的起訖點(diǎn)上,應(yīng)用程序就可能把這次行程加入公共交通OD 矩陣。針對(duì)那些無法重建的行程,建立擴(kuò)展因子是典型的解決方案。文獻(xiàn)[13]顯示了如何在沒有目的地的前提下為智能卡數(shù)據(jù)構(gòu)建擴(kuò)展因子,以及推測(cè)沒有起點(diǎn)或者刷卡記錄的數(shù)據(jù)分布規(guī)律。對(duì)于前者,假定行程的分布與其他相同起點(diǎn)的行程一樣,而對(duì)于后一種情況,假定行程的分布只與他們的時(shí)間分配有關(guān)。
2.1.3 初級(jí)活動(dòng)鑒定
通過進(jìn)一步研究公共交通穩(wěn)定出行可以增強(qiáng)對(duì)可能的活動(dòng)地點(diǎn)的解釋。文獻(xiàn)[17]提出了一種基于規(guī)則的直接分類方法,包括卡片類型信息和行程的時(shí)間屬性。工作目的對(duì)應(yīng)成人卡,指活動(dòng)時(shí)間超過2 h 且活動(dòng)前的出行不是當(dāng)天的最后一項(xiàng)行程。上學(xué)目的對(duì)應(yīng)學(xué)生或者未成年人的卡片,指活動(dòng)時(shí)間超過5 h 且該活動(dòng)也不是當(dāng)天最后一項(xiàng)活動(dòng)。最后,回家目的指活動(dòng)結(jié)束后的出行是當(dāng)天的最后一項(xiàng)行程,其他的行程將被分配到其他活動(dòng)目的。
文獻(xiàn)[18]是最新的基于規(guī)則的研究。該研究包括一項(xiàng)空間規(guī)則,通過預(yù)先識(shí)別用戶家庭所在車站判斷基于家的出行頻率和出行距離?;诖耍芯繑U(kuò)展了文獻(xiàn)[10]的假設(shè):1)一天中,最后一段行程的終點(diǎn)站通常與第一段行程的起點(diǎn)站一致;2)第一段行程的起點(diǎn)站通常與前一日最后一段行程的終點(diǎn)站相同;3)對(duì)于大多數(shù)乘客來說,第一段行程的開始和最后一段行程的結(jié)束都在家附近。通過這些假設(shè),研究構(gòu)建了一個(gè)運(yùn)行平均算法,稱之為基于中心點(diǎn)的檢測(cè)算法(center-point based detection algorithm)。該算法的主要優(yōu)點(diǎn)是操作簡(jiǎn)單且方法穩(wěn)定,從某種意義上說,它可以識(shí)別一天出行一次的用戶的家庭所在車站(例如不穩(wěn)定出行)。
盡管被認(rèn)為是一個(gè)簡(jiǎn)單的操作,但是當(dāng)試圖擴(kuò)展約束條件時(shí),基于規(guī)則的活動(dòng)計(jì)算效率變得低下,更不用說在詳細(xì)規(guī)則中需要手動(dòng)操作時(shí)的效率。此外,結(jié)果的準(zhǔn)確性可能會(huì)受影響,特別是在識(shí)別其他如工作和次要活動(dòng)等更為靈活的活動(dòng)模式的情況下。通過引入概率(選擇)模型,可以改進(jìn)這種嚴(yán)格分類的缺點(diǎn)。
文獻(xiàn)[16]提出了一個(gè)以活動(dòng)持續(xù)時(shí)間、活動(dòng)開始時(shí)間和土地利用作為效用變量的多因子Logit 模型,以匹配離散選擇空間,包括工作活動(dòng)、家庭活動(dòng)和其他活動(dòng)等目標(biāo)。分段線性函數(shù)是構(gòu)建模型的實(shí)用工具。對(duì)于活動(dòng)持續(xù)時(shí)間和啟動(dòng)時(shí)間,利用當(dāng)?shù)亟煌ㄕ{(diào)查信息對(duì)效用函數(shù)進(jìn)行校準(zhǔn),而對(duì)于土地利用,校準(zhǔn)信息依靠來自城市規(guī)劃部門的總體規(guī)劃。
文獻(xiàn)[19]提出了另一種概率模型方法,建立一個(gè)連續(xù)空間模型來確定家庭和工作地點(diǎn)。研究引入了一個(gè)得分函數(shù),通過對(duì)一組受過訓(xùn)練的使用者進(jìn)行邏輯回歸和標(biāo)定得出。與文獻(xiàn)[16]類似,家庭和工作地點(diǎn)標(biāo)簽主要是由與事件相關(guān)的時(shí)間因素確定。然而,兩種概率模型方法之間的主要區(qū)別不在于他們是否選擇離散或連續(xù)空間,而是標(biāo)定過程中遷移學(xué)習(xí)方案(transfer learning scheme)[16]使用多源數(shù)據(jù)(居民出行調(diào)查),傳統(tǒng)學(xué)習(xí)方案使用單一來源被標(biāo)記的數(shù)據(jù)子集[19]。
最后,文獻(xiàn)[20]呈現(xiàn)了概率模型在無監(jiān)督模式下接受訓(xùn)練(即沒有標(biāo)記的例子)的情況,以識(shí)別智能卡記錄的活動(dòng)模式。文獻(xiàn)通過提出一個(gè)連續(xù)的隱藏馬爾科夫模型(Hidden Markov Model, HMM),發(fā)現(xiàn) 8 個(gè)集群被按照家庭活動(dòng)和家以外活動(dòng)描述為不同的模式,其內(nèi)部結(jié)構(gòu)的釋放概率是一個(gè)混合高斯模型。這個(gè)模型的優(yōu)點(diǎn)在于不僅能找到新的觀測(cè)對(duì)象在集群中的成員關(guān)系,還能生成活動(dòng)鏈來構(gòu)建虛擬人口。雖然該模型展示了在出行數(shù)據(jù)中發(fā)現(xiàn)活動(dòng)模式的方法,但是如果只想獲得基本活動(dòng),那么就不清楚其基于規(guī)則方法的區(qū)別(如文獻(xiàn)[8]的實(shí)際優(yōu)勢(shì))。
對(duì)活動(dòng)預(yù)測(cè)結(jié)果進(jìn)行完全驗(yàn)證幾乎無法做到,因?yàn)樵谥悄芸ㄓ涗浛偭恐?,這需要個(gè)體擁有完整的行程信息。由于這個(gè)原因,用部分驗(yàn)證來確定模型的準(zhǔn)確性。例如,一種常見的方法是將識(shí)別的熱點(diǎn)區(qū)域數(shù)據(jù)得到的結(jié)果,直觀對(duì)比家庭出行調(diào)查和人口普查[14]。
智能卡數(shù)據(jù)的非集計(jì)特點(diǎn)體現(xiàn)為基于多元個(gè)體的交通模型的適當(dāng)輸入。假設(shè)每個(gè)獨(dú)特的智能卡信息代表一個(gè)個(gè)體,交通需求可以直接從智能卡數(shù)據(jù)中獲取。
文獻(xiàn)[21]在阿姆斯特丹和鹿特丹第一次嘗試實(shí)施基于個(gè)體的公共交通微觀仿真。僅僅基于智能卡數(shù)據(jù),工作的主要挑戰(zhàn)是個(gè)體活動(dòng)計(jì)劃的生成。研究聚焦于同一個(gè)通勤者連續(xù)幾天基于家的出行模式。工作和家庭所在車站被認(rèn)為是工作日期間使用最多的兩個(gè)車站,周末期間家庭所在車站客流量最大。智能卡身份信息并不與這一模式完全吻合,但通過在出行中間站引入虛擬活動(dòng)來重建某個(gè)特殊日的活動(dòng)鏈,以描述當(dāng)天的交通需求。最后,對(duì)于高度不規(guī)則的交通模式,每一次出行都會(huì)單獨(dú)生成。
生成虛擬人口的過程受到各種制約,主要是建模過程中的各種假設(shè)。未來研究的機(jī)遇在于通過更準(zhǔn)確、更有效的實(shí)際交通需求來確定出行目的和社會(huì)人口特征。為此,可將對(duì)智能卡數(shù)據(jù)的長(zhǎng)期觀察看作是應(yīng)用現(xiàn)代數(shù)據(jù)挖掘技術(shù)來推斷額外信息的機(jī)會(huì)。沿著這個(gè)思路,文獻(xiàn)[22]探索了如何將特征行為(eigenbehaviours)的概念[23]應(yīng)用于推導(dǎo)時(shí)空模式。
使用智能卡數(shù)據(jù)進(jìn)行仿真的另一個(gè)挑戰(zhàn)是將公共交通工具與其他交通方式(如小汽車)之間潛在的相互作用進(jìn)行建模。最近,文獻(xiàn)[24]的一項(xiàng)研究為新加坡公共交通開發(fā)了一種簡(jiǎn)化的基于個(gè)體的交通仿真。不同于文獻(xiàn)[21],在連續(xù)兩個(gè)車站間,通過一個(gè)隨機(jī)公共汽車速度模型(stochastic bus speed model)取代MATSim 隊(duì)列模型來解釋與私人小汽車的相互影響。該模型根據(jù)一個(gè)多項(xiàng)式回歸模型擬合,假設(shè)車站到車站的運(yùn)行速度遵循正態(tài)分布[25]。正如文獻(xiàn)[26]指出的,在交通網(wǎng)絡(luò)中決定小汽車速度的各項(xiàng)參數(shù)不僅與(從智能卡數(shù)據(jù)中獲取的)需求有關(guān),還與網(wǎng)絡(luò)描述中的地理信息有關(guān)。為說明仿真框架中存在的停留時(shí)間的易變性,他們考慮了文獻(xiàn)[27]研究的模型。
以簡(jiǎn)化的交通仿真方案為例,說明機(jī)器學(xué)習(xí)如何替代MATSim模型。智能卡記錄的統(tǒng)計(jì)數(shù)據(jù)是用來訓(xùn)練模型的,而不是從多元個(gè)體仿真中獲得公共汽車出行時(shí)間。結(jié)果不僅大大提高了仿真時(shí)間,而且使仿真系統(tǒng)網(wǎng)絡(luò)的重新設(shè)計(jì)成為可能。盡管如此,仍有一些限制因素需要解決,例如軌道交通軌跡的重建,對(duì)步行、等待和換乘活動(dòng)更好的表達(dá),這些活動(dòng)并不能直接從智能卡數(shù)據(jù)中獲取。
無論GSM,CDMA 還是LTE,移動(dòng)網(wǎng)絡(luò)需要手機(jī)和蜂窩網(wǎng)絡(luò)之間進(jìn)行定期和頻繁的交互信息(例如脈沖信號(hào))。為了給用戶提供服務(wù),移動(dòng)網(wǎng)絡(luò)需要頻繁的對(duì)手機(jī)進(jìn)行定位,即使手機(jī)處于待機(jī)狀態(tài)。通過附近的基站計(jì)算用戶的位置,這一結(jié)果的精度相當(dāng)于在市區(qū)幾百米范圍內(nèi)的基站覆蓋的大小。通過網(wǎng)絡(luò)觸發(fā)和事件觸發(fā)更新手機(jī)定位信息。
網(wǎng)絡(luò)觸發(fā)定位更新發(fā)生在:
1)手機(jī)連接到蜂窩網(wǎng)絡(luò);
2)在兩個(gè)不同區(qū)域之間進(jìn)行呼叫和移動(dòng)(例如切換);
3)待機(jī)并移動(dòng)到屬于新位置區(qū)域(Location Area,LA)的網(wǎng)格;
4)當(dāng)相關(guān)計(jì)時(shí)器已經(jīng)結(jié)束,則網(wǎng)絡(luò)進(jìn)行調(diào)查(例如定期位置更新,通常每2 h更新一次)。
時(shí)間觸發(fā)定位更新發(fā)生在下列情況:
1)撥打或接聽電話時(shí);
2)使用短信服務(wù)(發(fā)送和接收);
3)用戶連接到互聯(lián)網(wǎng)(如瀏覽網(wǎng)頁(yè)或發(fā)送電子郵件)。
由此,從移動(dòng)網(wǎng)絡(luò)中獲取的位置更新數(shù)據(jù)構(gòu)成了日?;顒?dòng)和交通模型的潛在信息來源。與家庭調(diào)查相比,手機(jī)數(shù)據(jù)提供了大樣本量和長(zhǎng)時(shí)間的觀察周期,而成本可以忽略不計(jì)。然而,人們必須克服處理移動(dòng)電話軌跡以應(yīng)對(duì)出行重建的挑戰(zhàn),因?yàn)檫@類數(shù)據(jù)流中包含的信息的空間分辨率和時(shí)間分辨率都很低。具體而言,位置估計(jì)值的精度取決于給定區(qū)域內(nèi)的基站的分布,而位置更新的頻率則取決于用戶的使用情況。因此,普遍的挑戰(zhàn)是如何從稀疏和雜亂的監(jiān)測(cè)數(shù)據(jù)中提取人們出行的豐富語(yǔ)義(例如出行目的)[28]。
文獻(xiàn)中出現(xiàn)的第一個(gè)方法是根據(jù)話單數(shù)據(jù)(Call Detail Records, CDRs)生成基于出行流的OD矩陣[29-31]。由于OD矩陣是通過捕捉來自不同交通分析小區(qū)的突發(fā)流產(chǎn)生的,而不是個(gè)體出行重建過程,這些方法不符合個(gè)人活動(dòng)的需求。此外,文獻(xiàn)[32]討論如果手機(jī)數(shù)據(jù)的空間分辨率低,前面的方法會(huì)存在偏差。另外,它們并非用于處理移動(dòng)電話原始記錄的偏差,如所謂的超音速跳躍(supersonic jumps)或信號(hào)跳躍(signal jumps)(即離群值)。這些事件都是短時(shí)間內(nèi)突發(fā)的事件。雖然這種跳躍通常是系統(tǒng)固有的數(shù)據(jù)偏差,但一些跳躍可能是由外部機(jī)制觸發(fā)的,目的是保護(hù)用戶的隱私[33]。
由于上述原因,需要一條數(shù)據(jù)挖掘管道,從移動(dòng)電話位置更新中提取確切的個(gè)人行程。首先,需要一個(gè)預(yù)處理階段去處理偏差測(cè)量和基站間信號(hào)跳躍。其次,個(gè)人行程提取階段,可以分割停留位置(即活動(dòng)片段),由此估計(jì)行程的開始和結(jié)束時(shí)間。第三,活動(dòng)或出行目的地推測(cè)階段,用于估算家庭、工作、學(xué)校等主要活動(dòng)地點(diǎn)以及餐飲、購(gòu)物等次要活動(dòng)地點(diǎn)。
對(duì)于第一個(gè)目標(biāo),文獻(xiàn)[33]對(duì)三種不同類型的濾波器進(jìn)行評(píng)估,以檢測(cè)移動(dòng)電話軌跡數(shù)據(jù)的異常值:遞歸原生濾波器(Recursive Naive Filter)、遞歸超前濾波器(Recursive Look-Ahead Filter)和卡爾曼濾波器(Kalman Filter)。一方面,前兩種主要表現(xiàn)為低通濾波器[28,34]。它們通過引入出行速度的上限約束來消除較大的定位誤差。因此,可以通過每一對(duì)連續(xù)的點(diǎn)(遞歸原生濾波器)或者每一個(gè)三合點(diǎn)(遞歸超前濾波器)計(jì)算速度,并與特定閾值相比較。另一方面,卡爾曼濾波器是重建軌跡的概率方法。結(jié)果表明,在排除異常點(diǎn)的情況下,遞歸超前濾波器的效果更好,并保持了軌跡的準(zhǔn)確性。雖然卡爾曼濾波器也消除了異常點(diǎn),但軌跡失去了準(zhǔn)確性。然而,文獻(xiàn)[35]通過使用高斯混合模型來擴(kuò)展現(xiàn)實(shí)挖掘數(shù)據(jù)庫(kù)[36]的空間分辨率,考慮到話單數(shù)據(jù)的低分辨率,需要更復(fù)雜的概率濾波器來替代原生濾波器。
文獻(xiàn)[36]提出了另一種專為處理手機(jī)數(shù)據(jù)偏差開發(fā)的預(yù)處理技術(shù)。首先利用基于密度空間維度的聚類方法解決基站間跳躍的問題,以確定可能的停留點(diǎn),包括來自基站間跳躍數(shù)據(jù)的虛構(gòu)停留點(diǎn)。然后,通過幾乎相同的時(shí)間戳識(shí)別出波動(dòng)圖。最后,通過選取個(gè)人花費(fèi)更多時(shí)間的集群,過濾掉震蕩點(diǎn)(例如虛構(gòu)的集群)。這種方法可作為移動(dòng)通信數(shù)據(jù)的時(shí)間解決方案。
基于時(shí)間規(guī)則(temporal-based rules)的研究層面:文獻(xiàn)[37]研究德國(guó)西南部一個(gè)地區(qū)的位置區(qū)域更新情況。該算法提出的原則是,如果用戶在位置區(qū)域停留的時(shí)間比直接穿過該區(qū)域所需的時(shí)間更長(zhǎng),那么用戶在該位置區(qū)域可能會(huì)開始或結(jié)束一段行程。為此,研究提出了60 min原則,如果第一次登入信息和最后一次登出信息的時(shí)間間隔大于60 min,則認(rèn)為該位置區(qū)域是一個(gè)停留點(diǎn)。當(dāng)然,由于提取的行程信息在一個(gè)大的位置區(qū)域?qū)用?,而不是在基站區(qū)域?qū)用妫试摲椒ㄊ艿揭恍┫拗啤?/p>
基于距離聚類(distance-based clustering)的研究層面:文獻(xiàn)[34]提出一種基于從電話、短信和互聯(lián)網(wǎng)使用中生成的話單數(shù)據(jù)來識(shí)別基站塔層面的出行的方法。在預(yù)處理階段,應(yīng)用一個(gè)低通濾波器,以10 min一次的采樣率來解釋信號(hào)的跳躍;應(yīng)用一個(gè)低級(jí)別的距離聚類技術(shù),識(shí)別一個(gè)共同位置附近的小波動(dòng),并理順移動(dòng)電話追蹤軌跡。為了提取停留點(diǎn),對(duì)1 km 范圍內(nèi)的融合點(diǎn)進(jìn)行基于距離的聚類分析。集群的質(zhì)心被定義為一個(gè)虛擬位置,在最后一步中,通過將標(biāo)識(shí)的虛擬位置連接起來重建個(gè)人路徑。然而,由于一個(gè)虛擬位置可在一個(gè)臨時(shí)事件中創(chuàng)建,因此該方法缺乏對(duì)事件的可靠過濾。
基于頻率聚類(frequency-based clustering)的研究層面:文獻(xiàn)[19]提出從時(shí)間分布稀疏、空間低分辨率分布的話單數(shù)據(jù)中識(shí)別停留位置的方法,認(rèn)為被訪問最多的基站是一個(gè)人生活中的重要場(chǎng)所。文獻(xiàn)沒有使用時(shí)間或空間聚類算法來獲取這些位置,而是使用手機(jī)基站訪問數(shù)據(jù)。該方法包括應(yīng)用集群引導(dǎo)算法(cluster leader algorithm),根據(jù)聯(lián)系手機(jī)基站的總天數(shù)對(duì)其進(jìn)行排序。這種方法適用于低分辨率的跟蹤和長(zhǎng)時(shí)間的觀測(cè)。然而,只有主要活動(dòng)和一些次要活動(dòng)地點(diǎn)可以被識(shí)別。
時(shí)空聚類(spatio-temporal clustering)層面:文獻(xiàn)[32,38-40]利用時(shí)間和距離聚類技術(shù)過濾經(jīng)過基站的數(shù)據(jù)。首先,通過測(cè)量?jī)蓚€(gè)相鄰點(diǎn)之間的距離,并與距離閾值進(jìn)行比較(例如漫游300 m),從而在空間上進(jìn)行分組。其次,如果第一次和最后一次觀察之間的時(shí)間間隔大于時(shí)間閾值(例如10 min),則認(rèn)為可能存在停留。然后,潛在的停留點(diǎn)被設(shè)置為集群中的質(zhì)心。由于位置上的偏差,在不同的觀測(cè)日和不同的地理坐標(biāo)下可能會(huì)有多個(gè)潛在的相同位置??紤]到這一點(diǎn),最后不考慮記錄的時(shí)間順序利用聚類算法確定停留區(qū)域。
同樣,文獻(xiàn)[41]使用了基于密度的聚類算法(即漫游距離),其ε參數(shù)取值為100 m,時(shí)間閾值為5 min,以此過濾出通過點(diǎn)。與基于頻率的聚類算法相比,只要基于密度聚類算法的時(shí)間分辨率不稀疏(例如數(shù)據(jù)集包含網(wǎng)絡(luò)更新數(shù)據(jù)),時(shí)空聚類算法就能檢測(cè)到任何活動(dòng)的位置。
行程驗(yàn)證(trip validation)層面:因?yàn)橛懈嗍謾C(jī)用戶在出行行為中沒有系統(tǒng)差異,所以有必要對(duì)算法進(jìn)行驗(yàn)證。例如,檢測(cè)到的地點(diǎn)數(shù)量與手機(jī)使用之間不存在相關(guān)性。文獻(xiàn)[32]根據(jù)手機(jī)使用頻率將用戶分為五組,檢查各組每天的日常出行情況,包括出行次數(shù)、不同目的地的數(shù)量。通過比較上述數(shù)據(jù)的頻率分布,得出這些數(shù)據(jù)有相似模式的結(jié)論。
活動(dòng)開始時(shí)間和持續(xù)時(shí)間(activity start times and durations)層面:確定停留位置后,文獻(xiàn)[28]接下來將預(yù)測(cè)到達(dá)時(shí)間,方法是計(jì)算到達(dá)活動(dòng)記錄的最早值(即到達(dá)時(shí)間的上限)與下限值的平均值,對(duì)上一個(gè)位置的最后記錄時(shí)間以及上一個(gè)位置與當(dāng)前位置之間的出行時(shí)間求和可預(yù)測(cè)時(shí)間下限。行程時(shí)間被確定為連續(xù)的中心點(diǎn)之間的距離除以假設(shè)的旅行速度。在預(yù)期的出發(fā)時(shí)間內(nèi)執(zhí)行相同的過程,活動(dòng)持續(xù)時(shí)間通過減去估算時(shí)間計(jì)算得到。
文獻(xiàn)[40]用另一種方法推斷出活動(dòng)的到達(dá)、離開時(shí)間。文獻(xiàn)建議使用從全國(guó)家庭出行調(diào)查中得出的出行持續(xù)時(shí)間概率函數(shù)。為工作日和周末構(gòu)建6 h 出行分布和對(duì)應(yīng)的出行目的:基于家的工作出行(home-based work, HBW)、基于家的其他出行(homebased other, HBO)和非基于家的出行(nonhome-based,NHB)。然后,在觀察的時(shí)間窗口中隨機(jī)生成離開時(shí)間,得到對(duì)應(yīng)的時(shí)間(工作日、周末)和出行目的(HBW、HBO 和NHB)分布。
在傳統(tǒng)的調(diào)查數(shù)據(jù)中,活動(dòng)目的由被調(diào)查者提供,而在手機(jī)數(shù)據(jù)中,活動(dòng)類型是設(shè)定好的。此外,沒有任何數(shù)據(jù)來源(交通調(diào)查或者手機(jī)數(shù)據(jù))能準(zhǔn)確地確定出行目的地的確切位置,但是這些精確的位置在一片區(qū)域內(nèi)。一般來說,我們可以在文獻(xiàn)中找到分布預(yù)測(cè)的兩種不同的方法,即時(shí)間頻率模型和概率模型。
3.4.1 基于時(shí)間-頻率規(guī)則的活動(dòng)推測(cè)
推斷背景信息例如位置函數(shù)或訪問目的,其直接方法之一是通過時(shí)間-頻率規(guī)則來推斷。文獻(xiàn)[32,39-40]改進(jìn)了文獻(xiàn)[30-31]在使用訪問頻率和時(shí)間數(shù)據(jù)識(shí)別工作、家庭和其他地點(diǎn)的總體思路。一個(gè)用戶的家庭位置被定義為在工作日和周末20:00 至次日7:00之間最常觀察到的停留點(diǎn)。然而,工作地點(diǎn)被定義為在工作日7:00—20:00 停留最多的地點(diǎn)。由于有些人不工作,如果一些位置每周訪問不超過1 次,或者地點(diǎn)離家不超過500 m(為了避免通過信號(hào)偏差識(shí)別出錯(cuò)誤的工作位置),工作地點(diǎn)就會(huì)留下空白。另一種變化[40]是工作地點(diǎn)被確定為用戶從家庭移動(dòng)的最大距離的停留點(diǎn),以此來識(shí)別夜班工作。
3.4.2 基于概率模型的活動(dòng)推理
用于推斷活動(dòng)(出行)目的的時(shí)間-頻率規(guī)則是一種直接的方法,但是對(duì)某些群體可能不適用。此外,它們僅限于在主要活動(dòng)位置的某些模式。通過概率模型推理是更可靠的方法。概率方法用于處理觀察中的不確定性,并捕獲模型解釋變量之間的相互依賴關(guān)系。這使其他相關(guān)數(shù)據(jù)集在模型中集成,例如語(yǔ)義豐富的地理信息數(shù)據(jù),以提高結(jié)果的準(zhǔn)確性,并允許對(duì)更廣泛的活動(dòng)類別進(jìn)行分類。
推導(dǎo)概率模型的一個(gè)有力工具是概率圖模型(Probabilistic Graphical Models, PGM)。PGM 是概率分布的圖形表示,其中一個(gè)節(jié)點(diǎn)代表一個(gè)隨機(jī)變量,而連接階段的邊緣顯示它們之間的因果關(guān)系。通常以圖中編碼獨(dú)立和條件獨(dú)立假設(shè)描述因子形式的隨機(jī)變量之間的聯(lián)合概率。兩個(gè)典型的概率圖模型是貝葉斯網(wǎng)絡(luò)(Bayesian Networks,即有向的非循環(huán)圖)和馬爾科夫隨機(jī)場(chǎng)(Markov Random Field,即無向圖)。前者將聯(lián)合概率分解為條件概率分布,后者根據(jù)吉布斯分布(Gibbs distribution)和圖中點(diǎn)集(the cliques in the graph)分解。在定義模型表達(dá)之后,下一步是找到模型參數(shù)??梢酝ㄟ^以下算法得到:最大似然估計(jì)(Maximum Likelihood Estimation, MLE)、最大后驗(yàn)概率(Maximum a Posteriori, MAP)或者貝葉斯推斷(Bayesian Learning)。例如,期望最大化(Expectation-Maximization,EM)算法是一種迭代方法,當(dāng)模型依賴于潛在變量(即未被觀察變量)時(shí),可以找到MLE 或MAP。最后,在推理步驟中,我們?cè)噲D查詢完整的聯(lián)合概率,例如根據(jù)觀察所得的活動(dòng)概率對(duì)新觀測(cè)信息進(jìn)行分類。推理算法可以分為精確推理算法(如置信傳播、MAP 推理)和近似推理算法(如變分法)。
1)生成模型(generative models)。文獻(xiàn)[42]通過建立貝葉斯網(wǎng)絡(luò)將出行分為五種不同活動(dòng)類別:家庭、工作、休閑、購(gòu)物和其他。模型中的解釋變量包括:開始時(shí)間、持續(xù)時(shí)間、每個(gè)停留位置以及當(dāng)前和上一次活動(dòng)之間的轉(zhuǎn)換概率。通過家庭出行調(diào)查對(duì)模型進(jìn)行標(biāo)定,并進(jìn)行逐步分類。首先區(qū)分家庭、工作和其他出行;其次進(jìn)一步將其他活動(dòng)分為休閑、購(gòu)物或其他。該方法分類成功率達(dá)到79.4%。
文獻(xiàn)[41]采用輸入-輸出隱藏馬爾科夫模型(Input-Output Hidden Markov Model,IOHMM),解釋了話單數(shù)據(jù)的活動(dòng)模式。IOHMM 不僅允許潛在變量(即不同的輸出變量)中包含多個(gè)觀察值,而且還允許潛在變量的識(shí)別不僅基于之前的活動(dòng)還要基于一些環(huán)境信息變化(即不同的輸入變量)。為達(dá)到這一目標(biāo),首先用3.4.1 節(jié)中定義的一組相似的時(shí)間頻率規(guī)則確定主要活動(dòng)地點(diǎn)(家和工作),然后用IO-HMM 推斷次要活動(dòng)。模型輸入的信息代表向一個(gè)新活動(dòng)轉(zhuǎn)移的起始點(diǎn)信息;因此,這些數(shù)據(jù)被定義為一天中的某一時(shí)間、一周中的某一天以及工作時(shí)間的累積變量。與此相反,模型的輸出信息包括向新活動(dòng)轉(zhuǎn)移時(shí)未能獲取的信息:與家的距離、與工作地點(diǎn)的距離、活動(dòng)持續(xù)時(shí)間和該地點(diǎn)以往是否被訪問過。與文獻(xiàn)[42]相反,模型在無監(jiān)督的情況下采用EM算法(例如不用標(biāo)簽的案例)進(jìn)行調(diào)試。確定8個(gè)不同的活動(dòng)集群:家庭、遠(yuǎn)距離出行、中等距離出行、娛樂、買咖啡或等車(coffee/transport)、個(gè)人事務(wù)、就餐或購(gòu)物以及工作。
這兩種方法[41-42]可以進(jìn)一步被歸類為生成模型,因?yàn)樗鼈冇秒S機(jī)變量建立聯(lián)合概率模型。生成模型的一個(gè)重要好處是,它們不僅可以用來對(duì)新的觀察進(jìn)行分類,還可以生成樣本和創(chuàng)建虛擬人口,從而進(jìn)一步作為基于活動(dòng)的模型的需求輸入信息。
2)判別模型(discriminative models)。判別模型是無方向圖,而不是模擬聯(lián)合概率,直接將p()
Y/X的條件概率建模。當(dāng)我們只關(guān)注觀察到的特征的目標(biāo)變量(例如活動(dòng)),則有適用的模型。由于判別模型并不對(duì)特征之間的關(guān)系進(jìn)行模擬,這些模型允許包含更多重疊特征來完善分類任務(wù)。文獻(xiàn)[28]提出馬爾科夫邏輯網(wǎng)絡(luò)(Relational Markov Network),揭示手機(jī)數(shù)據(jù)中的活動(dòng)時(shí)空結(jié)構(gòu)。MRN 是馬爾科夫隨機(jī)場(chǎng)的擴(kuò)展,它是為關(guān)系數(shù)據(jù)庫(kù)中的集體分類而設(shè)計(jì)的。值得注意的是,文獻(xiàn)[28]根據(jù)土地利用類型、活動(dòng)持續(xù)時(shí)間、開始時(shí)間的分布概率進(jìn)行模擬,求得這些活動(dòng)之前是否被訪問,活動(dòng)是否有一個(gè)特定位置,以及在檢測(cè)位置只顯現(xiàn)出一個(gè)活動(dòng)情況下的離散變量。該模型采用無監(jiān)督的方法進(jìn)行測(cè)試,采用EM 和拒絕抽樣(Rejection Sampling)方法進(jìn)行推理,計(jì)算土地利用和活動(dòng)類型的后驗(yàn)分布。
文獻(xiàn)[28]的結(jié)論是,由此產(chǎn)生的集群反映了與傳統(tǒng)調(diào)查數(shù)據(jù)吻合的出行鏈和活動(dòng)調(diào)度模式。此外,對(duì)比研究城市(波士頓和維也納)顯示集群具有相似性。盡管如此,還是有一些改進(jìn)建議。首先,研究傳統(tǒng)調(diào)查中發(fā)現(xiàn)的活動(dòng)集群與傳統(tǒng)活動(dòng)類型之間的關(guān)系。其次,引入POI 數(shù)據(jù)庫(kù)進(jìn)一步驗(yàn)證結(jié)果。第三,將模型(例如基于個(gè)體的模型)預(yù)測(cè)的交通量與實(shí)際交通量進(jìn)行對(duì)比作為驗(yàn)證步驟。
從無處不在的計(jì)算設(shè)備推演交通方式是不同研究面臨的共同挑戰(zhàn)。然而,多數(shù)建議的方法都是基于手機(jī)的傳感器,如GPS、加速度計(jì)和陀螺儀,因?yàn)檫@些傳感器可以進(jìn)行細(xì)微取樣。不過,更廣泛的分類只能基于話單數(shù)據(jù)(細(xì)節(jié)調(diào)用記錄)。這些方法通過預(yù)測(cè)移動(dòng)電話的速度并將其與交通方式相關(guān)聯(lián)來推斷出行方式。例如,文獻(xiàn)[43]使用出行起訖點(diǎn)信息和旅行時(shí)間,將出行方式分成三組:小汽車、公共交通和步行。首先,研究過濾了數(shù)據(jù)集,只保留超過3 km 的出行和更新位置頻率超過1 次·h-1的用戶。然后,按照起訖點(diǎn)進(jìn)行分組,再通過k 均值算法聚類來劃分出行方式。最后,用谷歌地圖的出行時(shí)間信息對(duì)結(jié)果進(jìn)行驗(yàn)證。
雖然學(xué)術(shù)界對(duì)話單數(shù)據(jù)的關(guān)注主要集中于活動(dòng)(出行)目的估計(jì)過程,但是,隨著智能手機(jī)普及率的增長(zhǎng)和更多細(xì)節(jié)信息可供使用(即上網(wǎng)使用痕跡),將出現(xiàn)能通過話單數(shù)據(jù)找到特定出行方式或可以融合智能卡刷卡數(shù)據(jù)等其他數(shù)據(jù)集的更可靠的算法。這種算法將有助于理解影響方式選擇的行為參數(shù)。
使用手機(jī)數(shù)據(jù)滿足基于活動(dòng)的模型的數(shù)據(jù)需求是交通規(guī)劃中的一大希望。然而,目前存在的挑戰(zhàn)之一是發(fā)現(xiàn)充分利用移動(dòng)數(shù)據(jù)的真正益處,以更好的數(shù)據(jù)挖掘方法獲取手機(jī)數(shù)據(jù)和利用機(jī)器學(xué)習(xí)算法開發(fā)大數(shù)據(jù)驅(qū)動(dòng)的基于個(gè)體的仿真。文獻(xiàn)[44-45]展示了一項(xiàng)初步研究,該研究?jī)H基于手機(jī)數(shù)據(jù)仿真MATSim模型得到虛擬人口。然而,這一虛擬方法存在缺陷,即研究中使用的話單數(shù)據(jù)不足以代表真實(shí)的話單數(shù)據(jù)。
最新的智慧港灣(SmartBay)項(xiàng)目,嘗試基于個(gè)體的模型開展交通規(guī)劃[46]。利用去除隱私的話單數(shù)據(jù)構(gòu)建舊金山灣區(qū)MATSim模型。包括直接從話單數(shù)據(jù)派生出需求模型,以及在個(gè)體模型人群中賦予特定的社交結(jié)構(gòu)從而模擬不同的出行目的地與方式選擇。類似于文獻(xiàn)[19]提出的方法,以基于活動(dòng)頻率的插補(bǔ)法來確定主要位置。基于人口調(diào)查數(shù)據(jù)可估算調(diào)節(jié)過程中的修正系數(shù),其中涉及綜合區(qū)點(diǎn)插值方法[47]和一種優(yōu)化的迭代比例擬合結(jié)果。與原有灣區(qū)都市區(qū)交通需求模型比較發(fā)現(xiàn),城市的發(fā)展變化十分明顯,尤其是硅谷IT部門的快速成長(zhǎng)導(dǎo)致城市就業(yè)分配的巨大變化。
智慧港灣項(xiàng)目目前正在推進(jìn),未來計(jì)劃包括文獻(xiàn)[41]提到的為推演次要活動(dòng)設(shè)計(jì)的生成模型,結(jié)合機(jī)器學(xué)習(xí)工具對(duì)同一次活動(dòng)的目的地選擇建立擴(kuò)展模型,并在方式選擇中引入社會(huì)影響。
傳統(tǒng)的交通預(yù)測(cè)數(shù)據(jù)來源于家庭出行調(diào)查,該調(diào)查具有不可否認(rèn)的價(jià)值。它們不僅包括個(gè)人和家庭成員出行模式的詳細(xì)數(shù)據(jù),還包括出行方式和出行目的等相關(guān)信息。然而,它們不能完全反映基于個(gè)體的交通建模的優(yōu)勢(shì)。這里存在兩個(gè)主要的限制:1)家庭出行調(diào)查僅代表了一小部分人群(通常約1%);2)家庭出行調(diào)查通常每5~10年更新一次②。
便攜式移動(dòng)傳感器克服了這些弊端,并成為繼續(xù)開發(fā)基于個(gè)體的交通規(guī)劃模型的有效途徑。其弊端是這種廣泛收集的隨機(jī)信息是未經(jīng)處理的原始數(shù)據(jù),需要進(jìn)行額外的分析工作才能確定出行和出行目的,以便在基于個(gè)體的仿真中進(jìn)行整合。因此,關(guān)鍵的挑戰(zhàn)是開發(fā)魯棒性算法和設(shè)計(jì)一種數(shù)據(jù)挖掘方法,從稀疏的出行跟蹤數(shù)據(jù)中提取個(gè)人每日行程安排。
當(dāng)使用稀疏的話單數(shù)據(jù)來提取活動(dòng)時(shí),其中一個(gè)方向是采用最初為GPS數(shù)據(jù)開發(fā)的方法。例如,文獻(xiàn)[28]將基于話單數(shù)據(jù)的活動(dòng)推理用在文獻(xiàn)[48]提出的馬爾科夫邏輯網(wǎng)絡(luò)中,最初用于GPS 追蹤;而文獻(xiàn)[14]和文獻(xiàn)[41]應(yīng)用隨機(jī)場(chǎng)條件模型(Conditional Random Fields)[49]處理智能卡數(shù)據(jù),應(yīng)用隱藏馬爾科夫模型[50]處理話單數(shù)據(jù)。其中一個(gè)原因是,在不考慮活動(dòng)識(shí)別的前提下,GPS軌跡已經(jīng)成為眾多研究中的主要研究對(duì)象[51-53]。因此,一個(gè)重要的研究問題是,這些模型多大程度上適用于低分辨率的出行軌跡,例如手機(jī)話單和智能卡提供的數(shù)據(jù)。此外,除了出行軌跡在粒度級(jí)別上的差異外,基于GPS的研究通常有一個(gè)帶有活動(dòng)標(biāo)簽的受控樣本;因此,通常情況下模型以監(jiān)督的形式接受訓(xùn)練。對(duì)于話單數(shù)據(jù),這樣的訓(xùn)練樣本不易獲得。
因此,這些模型應(yīng)該依賴于無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法。最后,另一個(gè)需要注意的重要問題是,基于GPS的活動(dòng)推理模型通常在小樣本范圍內(nèi)被訓(xùn)練和驗(yàn)證(例如文獻(xiàn)[49]中的4 個(gè)人)。這無疑加重了對(duì)模型表現(xiàn)的質(zhì)疑,當(dāng)擴(kuò)展到城市尺度時(shí),我們不禁會(huì)想將這些模型擴(kuò)展到大規(guī)模低分辨率出行軌跡的可能性。
為GPS開發(fā)的活動(dòng)推理模型由概率機(jī)器學(xué)習(xí)衍生而來,是人工智能(AI)的一個(gè)分支。人工智能和機(jī)器學(xué)習(xí)是大數(shù)據(jù)時(shí)代交通建模的高相關(guān)性學(xué)科。為了解它們的重要性以及適應(yīng)交通運(yùn)輸工程的方式,我們來看一個(gè)簡(jiǎn)單的例子。想象一下自己如何理解什么是“貓”,我們會(huì)回想起一些圖片以及在幼兒園里被教會(huì)“貓”的概念。盡管一開始可能無法區(qū)分貓和老虎,但在觀察了幾個(gè)貓的實(shí)際例子以后,我們對(duì)于什么是“貓”變得更加清晰。一般來說,得到的數(shù)據(jù)越多,我們的觀念就越堅(jiān)定,不確定性也越少。
在人工智能中,概率被用作計(jì)算人們對(duì)這些觀念的確定程度。在城市大數(shù)據(jù)背景下,我們對(duì)一種現(xiàn)象及其周圍環(huán)境擁有大量的觀察結(jié)果。例如,線圈檢測(cè)器數(shù)據(jù)、出租汽車GPS數(shù)據(jù)、公共交通智能卡數(shù)據(jù)和手機(jī)數(shù)據(jù)。所有這些信息都可以代表交通運(yùn)輸網(wǎng)絡(luò)的現(xiàn)狀?;谶@些觀察,通過概率機(jī)器學(xué)習(xí)來計(jì)算和提高我們對(duì)交通網(wǎng)絡(luò)的認(rèn)識(shí)。
另一個(gè)重要的問題是人們?nèi)绾问褂脤?shí)用的機(jī)器學(xué)習(xí)和概率模型。通常,人們?cè)噲D將感興趣的問題映射到一個(gè)標(biāo)準(zhǔn)的算法上,例如線性回歸。模型本身限制了我們考慮非相關(guān)的解釋變量(例如條件獨(dú)立)。然而,感興趣的問題可能會(huì)更好建模,包括更豐富的解釋變量和其他類型的假設(shè)。因此,我們更希望有一個(gè)框架可以構(gòu)建最能代表問題的模型。概率圖模型即是通過基于模型的機(jī)器學(xué)習(xí)研發(fā)的一款面向開發(fā)人員的模型框架,目前已提供摘要版[54]。
在大規(guī)模人類移動(dòng)傳感器(如手機(jī)話單數(shù)據(jù)、智能卡刷卡數(shù)據(jù))中,低時(shí)空分辨率可以得到較長(zhǎng)的觀察周期或額外的數(shù)據(jù)集補(bǔ)償。此外,在大數(shù)據(jù)時(shí)代,人們的愿望是從多個(gè)不同但存在潛在聯(lián)系的數(shù)據(jù)集中獲取知識(shí)[55]。例如,從稀疏的話單數(shù)據(jù)中推斷出行目的,其中一個(gè)直觀的方法是通過包括POIs數(shù)據(jù)集的模型來豐富空間特征,它可以提供有關(guān)某一區(qū)域發(fā)生的活動(dòng)類型的信息。該模型支持來自概率圖模型框架的跨區(qū)域數(shù)據(jù)融合[55]。
另一個(gè)重要的方面是在城市出行環(huán)境中應(yīng)用機(jī)器學(xué)習(xí)的獨(dú)特挑戰(zhàn)。在計(jì)算機(jī)視覺、自然語(yǔ)言處理等機(jī)器學(xué)習(xí)的領(lǐng)域中,訓(xùn)練集和測(cè)試集通常來自相同的集合。例如,一個(gè)識(shí)別手寫數(shù)字的模型采用具備相同特征空間的圖片進(jìn)行訓(xùn)練和測(cè)試。然而,在城市出行數(shù)據(jù)的例子中,用不同來源、不同類型的觀察來解釋相同的現(xiàn)象,我們所需要的能力就是利用所有這些信息生成模型。因此,特別有趣的方法包括轉(zhuǎn)移學(xué)習(xí)法(從相關(guān)領(lǐng)域中提取有趣的知識(shí)以幫助學(xué)習(xí)目標(biāo)領(lǐng)域)、多視圖學(xué)習(xí)法(通過多個(gè)不同的特征集學(xué)習(xí))、半監(jiān)督學(xué)習(xí)法(使用標(biāo)記和偽標(biāo)記的數(shù)據(jù)來訓(xùn)練模型)。
由于智能卡和手機(jī)數(shù)據(jù)在記錄個(gè)人出行模式方面的普遍化和細(xì)節(jié)化,數(shù)據(jù)的隱私性越來越受到關(guān)注。例如,盡管話單數(shù)據(jù)去除了隱私數(shù)據(jù),文獻(xiàn)[56]指出即使只有4 個(gè)時(shí)空點(diǎn),通過手機(jī)天線獲取的空間分辨率足以識(shí)別95%的個(gè)體。
人們?cè)谖恢没煜荒軌蛑匦伦R(shí)別用戶身份時(shí),采取了一些措施以便能提取有用的出行模式。這些保護(hù)隱私的算法目前由新興的差分隱私(Differential Privacy, DP)主導(dǎo)。DP是一種數(shù)學(xué)保障,通過在序列中引入受控的偏差[57]隱藏?cái)?shù)據(jù)庫(kù)中的參與用戶。預(yù)算參數(shù)(ε)表示隱私程度和精度之間的權(quán)衡。文獻(xiàn)[58]擴(kuò)展了DP位置數(shù)據(jù)保護(hù)的概念。雖然已經(jīng)證明DP關(guān)于某些基于位置和集聚位置信息的服務(wù)是有效的[57-58],但當(dāng)應(yīng)用于個(gè)人出行軌跡時(shí),DP 看起來是對(duì)隱私和精度之間的一種折中,且未能達(dá)到最先進(jìn)的技術(shù)水準(zhǔn)[59-60]。
對(duì)于特定的大尺度、多個(gè)體交通規(guī)劃仿真實(shí)例,在構(gòu)建仿真過程的不同階段都可能出現(xiàn)保護(hù)隱私的機(jī)制。然而,最終不應(yīng)期望通過追蹤任意個(gè)體來仿真還原真實(shí)個(gè)體的情況。出于這一原因,首要的原則是不能使用真實(shí)的總體數(shù)據(jù)和日程信息,因此需要在集計(jì)層面設(shè)計(jì)行為模式類似真實(shí)情況的虛擬人口。來自概率圖的生成模型(如貝葉斯網(wǎng)絡(luò)、隱藏馬爾科夫模型)是必不可少的基本工作,因?yàn)榭梢詮穆?lián)合概率分布中提取出樣本,從而使創(chuàng)建虛擬人口成為可能。
最后,公眾參與對(duì)進(jìn)一步發(fā)展智慧規(guī)劃解決方案至關(guān)重要。一方面,隨著技術(shù)越來越普及,人們需要加強(qiáng)對(duì)自身數(shù)據(jù)價(jià)值的認(rèn)識(shí)。另一方面,研究組織應(yīng)繼續(xù)改進(jìn)安全和隱私保護(hù)機(jī)制,以維護(hù)數(shù)據(jù)挖掘生態(tài)系統(tǒng)。這種生態(tài)系統(tǒng)應(yīng)該通過數(shù)據(jù)共享協(xié)議和參與感鼓勵(lì)公眾積極參與進(jìn)來。作為回報(bào),應(yīng)開發(fā)更好的數(shù)據(jù)驅(qū)動(dòng)應(yīng)用程序以體現(xiàn)使用匿名數(shù)據(jù)的社會(huì)效益。我們希望用一種令人信服的方式解決這些問題,這對(duì)于數(shù)據(jù)驅(qū)動(dòng)、基于個(gè)體的交通規(guī)劃模型的開發(fā)和實(shí)際應(yīng)用至關(guān)重要。
引言部分對(duì)交通需求建模的最新進(jìn)展進(jìn)行了介紹。我們認(rèn)識(shí)到基于出行的模型和基于個(gè)體的模型與記錄人們移動(dòng)的大數(shù)據(jù)源密切相關(guān),因?yàn)檫@兩者都直接源于個(gè)體出行模式的概念,而不是集計(jì)交通流的概念。為了充分利用基于個(gè)體的模型能力,不僅使用傳統(tǒng)的數(shù)據(jù)輸入(例如交通調(diào)查、人口普查),還包括公共交通智能卡和手機(jī)數(shù)據(jù)隨機(jī)收集的出行軌跡,這些數(shù)據(jù)記錄了前所未有的規(guī)模和精細(xì)水平的交通行為。然而,為了識(shí)別出行活動(dòng)和出行目的,必須進(jìn)行額外的分析工作,以便將其整合到基于活動(dòng)的交通需求框架中。
第一章對(duì)大數(shù)據(jù)源中提取出行行為所需要的方法論進(jìn)行文獻(xiàn)綜述。從出行識(shí)別到活動(dòng)推演,及文獻(xiàn)在交通需求模型中的應(yīng)用,對(duì)公共交通智能卡和手機(jī)數(shù)據(jù)逐步進(jìn)行了述評(píng)。
最后,本文討論了文獻(xiàn)回顧的結(jié)果,并針對(duì)概率機(jī)器學(xué)習(xí)和交通模型明確了未來的挑戰(zhàn)。
本文將大數(shù)據(jù)與機(jī)器學(xué)習(xí)(例如概率圖模型)相結(jié)合將成為繼續(xù)發(fā)展交通模型的最大潛力,具體來說,是為了改進(jìn)基于個(gè)體的交通規(guī)劃模型。為此,未來的研究方向包括:
1)改進(jìn)更具代表性的虛擬人口生成模型的設(shè)計(jì)。為此,需要確定給定的特定數(shù)據(jù)集,這些數(shù)據(jù)是最優(yōu)的特征工程(featureengineering)策略和隨機(jī)變量之間的最佳關(guān)聯(lián)。此外,創(chuàng)建虛擬人口的過程(社會(huì)經(jīng)濟(jì)方面)和分配活動(dòng)計(jì)劃的過程可以與更健康的生成模型設(shè)計(jì)聯(lián)系起來。
2)從學(xué)習(xí)的角度看,由于不同的數(shù)據(jù)源能夠解釋城市出行現(xiàn)象的某些部分,最有前景和挑戰(zhàn)性的方法將從遷移學(xué)習(xí)、多視圖學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的模式中產(chǎn)生。
3)對(duì)于活動(dòng)推理的具體工作,本文回顧了生成模型[41]和判別模型[28]。然后將兩種模型結(jié)合起來,通過一組更豐富的特征集(判別模型)在活動(dòng)推理中獲得更好的結(jié)果,并從聯(lián)合分布(生成模型)中取樣。
4)通過尋找基站的信號(hào)特定模式和智能卡刷卡等額外數(shù)據(jù)源,重新審視交通方式推理。
5)基于個(gè)體仿真行為參數(shù)的超參數(shù)優(yōu)化。例如,通過貝葉斯函數(shù)優(yōu)化。
6)在基于個(gè)體的仿真選擇模型中考慮社會(huì)效應(yīng)。
7)進(jìn)一步探索預(yù)處理階段的概率濾波器。
8)針對(duì)面向大型數(shù)據(jù)驅(qū)動(dòng)的基于個(gè)體仿真的交通規(guī)劃,探討隱私指標(biāo)的具體定義。
總之,我們認(rèn)識(shí)到復(fù)雜的建模知識(shí)已經(jīng)在交通規(guī)劃領(lǐng)域發(fā)展起來,因此強(qiáng)烈建議在交通規(guī)劃中應(yīng)用數(shù)據(jù)驅(qū)動(dòng)的方法時(shí),需建立相應(yīng)領(lǐng)域?qū)I(yè)知識(shí)的基礎(chǔ)。這些新的挑戰(zhàn)需要交通模型專家和數(shù)據(jù)處理專家之間進(jìn)行跨學(xué)科的合作。
注釋:
Notes:
①主要工作從2010年至2016年第二季度。
②一些權(quán)威機(jī)構(gòu)已經(jīng)開始使用智能手機(jī)進(jìn)行連續(xù)調(diào)查,以降低相應(yīng)負(fù)擔(dān)并提高數(shù)據(jù)質(zhì)量,特別是在捕捉短時(shí)間活動(dòng)方面。
致謝:
Acknowledgement:
感謝Seungjae Lee 在首爾大學(xué)組織舉辦的2016年首爾大城市論壇,本文初稿發(fā)表于該會(huì)議。
公開聲明:
Disclosure Statement:
本文作者不存在潛在的利益沖突。
基金:
Funding:
本研究成果隸屬于由蘇黎世ETH和新加坡國(guó)家研究基金會(huì)(FI370074016)聯(lián)合成立的新加坡ETH中心未來城市實(shí)驗(yàn)室,得到“研究人才和科技企業(yè)”項(xiàng)目(Campus for Research Excellence and Technological Enterprise)的資助。