周 濤,趙必成,俞 博
(重慶市交通規(guī)劃研究院,重慶400020)
基于CRISP-DM的交通大數(shù)據(jù)分析方法及實(shí)踐
——以重慶市手機(jī)信令數(shù)據(jù)和RFID數(shù)據(jù)為例
周 濤,趙必成,俞 博
(重慶市交通規(guī)劃研究院,重慶400020)
隨著交通大數(shù)據(jù)研究及應(yīng)用日益廣泛,其中存在的問題也越來越明顯。很多分析結(jié)論存在概念模糊、數(shù)據(jù)質(zhì)量不確定、分析方法不清晰等問題,導(dǎo)致分析結(jié)果經(jīng)不起推敲,也缺乏可比性。究其主要原因是未能形成科學(xué)的大數(shù)據(jù)分析方法和統(tǒng)一的分析標(biāo)準(zhǔn)。提出基于CRISP-DM的交通大數(shù)據(jù)分析方法,包括目標(biāo)要求、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)建模、模型驗(yàn)證、工程化應(yīng)用(部署)6個(gè)階段。結(jié)合重慶市交通大數(shù)據(jù)平臺建設(shè)實(shí)踐,以手機(jī)信令數(shù)據(jù)和車輛RFID數(shù)據(jù)為例,詳細(xì)闡述數(shù)據(jù)理解、數(shù)據(jù)建模和模型驗(yàn)證三個(gè)重要步驟的具體做法,探索如何實(shí)現(xiàn)交通大數(shù)據(jù)分析的標(biāo)準(zhǔn)化、指標(biāo)化和透明化。
交通大數(shù)據(jù);大數(shù)據(jù)分析方法;數(shù)據(jù)理解;數(shù)據(jù)建模;模型驗(yàn)證;重慶市
隨著信息技術(shù)的迅猛發(fā)展和移動互聯(lián)網(wǎng)技術(shù)的大規(guī)模普及,席卷全球的大數(shù)據(jù)時(shí)代已經(jīng)到來。通過海量數(shù)據(jù)的挖掘與分析輔助決策,交通大數(shù)據(jù)已成為國內(nèi)外交通行業(yè)研究與應(yīng)用的熱點(diǎn),但隨之而來的問題也日益明顯。日前,高德軟件有限公司、滴滴出行科技有限公司、荷蘭交通導(dǎo)航服務(wù)商TomTom相繼發(fā)布2016年中國城市擁堵排名。雖然幾家機(jī)構(gòu)均采用擁堵延時(shí)指數(shù)作為唯一的排名依據(jù),但結(jié)果差異很大。例如,重慶市在三個(gè)榜單中分別排名第四、第二、第一。造成排名結(jié)果巨大差異的原因可能來自以下幾個(gè)方面:
1)分析范圍不同。例如,高德對重慶市的評價(jià)選擇的是內(nèi)環(huán)路以內(nèi)(約280 km2)區(qū)域。如果采用主城區(qū)(約780 km2)作為統(tǒng)計(jì)范圍,擁堵程度會變得小很多。
2)分析時(shí)段不同。高德為早晚高峰各2 h,滴滴為早晚高峰各3 h,TomTom為晚高峰。分析時(shí)段拉長,指標(biāo)值可能降低。
3)參數(shù)取值不同。擁堵延時(shí)指數(shù)定義為高峰時(shí)段出行時(shí)間與暢通狀態(tài)出行時(shí)間的比值。因此,路段暢通狀態(tài)車速是影響指標(biāo)最重要的參數(shù)。而重慶市由于干路上立體交叉口較多,導(dǎo)致綠波狀態(tài)下的行程車速顯著高于非綠波狀態(tài),造成不同統(tǒng)計(jì)機(jī)構(gòu)的暢通車速不同。
4)指標(biāo)單一。僅采用擁堵延時(shí)指數(shù),無法準(zhǔn)確描述城市交通擁堵狀態(tài),擁堵持續(xù)時(shí)間長短也應(yīng)作為重要指標(biāo)。除此而外,分析時(shí)長選取、指標(biāo)加權(quán)方法、道路計(jì)算范圍等,均會影響指標(biāo)計(jì)算結(jié)果。
由此可見,大數(shù)據(jù)分析中,由于缺乏對一些概念的準(zhǔn)確定義以及科學(xué)的分析方法,使得各家機(jī)構(gòu)發(fā)布的結(jié)論差異很大、眾說紛紜、莫衷一是。長遠(yuǎn)來看,這對交通大數(shù)據(jù)的應(yīng)用十分有害。
跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(Cross-Industry Standard Process for Data Mining,CRISP-DM)提供了一個(gè)數(shù)據(jù)挖掘生命周期的全面評述,包括項(xiàng)目的各個(gè)階段、不同階段各自的任務(wù)以及這些任務(wù)之間的關(guān)系;關(guān)系存在于任何數(shù)據(jù)挖掘任務(wù)之間,這些任務(wù)依賴于最終目的、背景、用戶的興趣,但最重要的是數(shù)據(jù)[1]。
數(shù)據(jù)挖掘項(xiàng)目的生命周期由6個(gè)階段組成(見圖1)。階段順序不是嚴(yán)格不變的,經(jīng)常會在不同階段之間移動,這取決于每一階段或其中一個(gè)階段某一特定任務(wù)的結(jié)果,因?yàn)槊總€(gè)階段的結(jié)果均對下一階段起關(guān)鍵作用,箭頭指出了階段之間最重要和頻繁的關(guān)聯(lián)依賴。其中黃色代表數(shù)據(jù)挖掘過程中最為重要的部分。
圖1中的外圈形象地表達(dá)了數(shù)據(jù)挖掘本身的循環(huán)特性,數(shù)據(jù)挖掘不是一次部署完就結(jié)束的活動。在項(xiàng)目進(jìn)程期間和方案部署過程中獲得的經(jīng)驗(yàn)教訓(xùn)可能觸發(fā)新的、通常更值得關(guān)注的問題。涉及的階段包括:
1)目標(biāo)要求。最開始的階段從應(yīng)用角度理解項(xiàng)目目標(biāo)和要求,接著把這些理解轉(zhuǎn)換成數(shù)據(jù)挖掘問題的定義和實(shí)現(xiàn)目標(biāo)的最初規(guī)劃。
2)數(shù)據(jù)理解。本階段開始于收集原始數(shù)據(jù),對數(shù)據(jù)進(jìn)行裝載,描繪數(shù)據(jù),并且探索數(shù)據(jù)特征,進(jìn)行簡單的特征統(tǒng)計(jì)。接下來是熟悉數(shù)據(jù)、了解數(shù)據(jù),例如,檢測數(shù)據(jù)的量,對數(shù)據(jù)有初步的理解,探測數(shù)據(jù)中比較有趣的數(shù)據(jù)子集,進(jìn)而形成對潛在信息的假設(shè);檢驗(yàn)數(shù)據(jù)的質(zhì)量,包括數(shù)據(jù)的完整性和正確性,缺失值的填補(bǔ)等。這些活動的目的是熟悉數(shù)據(jù)、理解數(shù)據(jù)、甄別數(shù)據(jù)質(zhì)量、發(fā)現(xiàn)數(shù)據(jù)的各種應(yīng)用可能和適用范圍。
3)數(shù)據(jù)準(zhǔn)備。本階段包括從最初原始數(shù)據(jù)構(gòu)建到最終數(shù)據(jù)集(作為建模工具的輸入)的全部活動。數(shù)據(jù)準(zhǔn)備很可能被執(zhí)行多次并且不以任何既定的秩序進(jìn)行。其任務(wù)既包括表、記錄和屬性的選擇,也包括為建模工具準(zhǔn)備數(shù)據(jù)的轉(zhuǎn)換和清洗。
4)數(shù)據(jù)建模。在這一階段,會選擇和使用各種建模技術(shù),并對其參數(shù)進(jìn)行調(diào)整優(yōu)化。一般地,相同數(shù)據(jù)挖掘問題類型會有幾種技術(shù)手段。某些技術(shù)對于數(shù)據(jù)形式有特殊規(guī)定,這通常需要重新返回到數(shù)據(jù)準(zhǔn)備階段。
5)模型驗(yàn)證。這一階段已經(jīng)構(gòu)建了一個(gè)(或多個(gè))從數(shù)據(jù)分析角度看似高質(zhì)量的模型。在最終部署模型之前,要對模型進(jìn)行較為全面的驗(yàn)證,重審構(gòu)建模型的步驟以確認(rèn)能達(dá)到目標(biāo)要求。另一關(guān)鍵目標(biāo)是判斷是否存在某些重要問題未被充分考慮。
圖1 基于CRISP-DM的數(shù)據(jù)挖掘流程Fig.1 Data mining process based on CRISP-DM
6)部署。模型的建立通常并不意味著項(xiàng)目的結(jié)束,數(shù)據(jù)需要在部署之后,才能實(shí)時(shí)不間斷的輸出,從而達(dá)到大數(shù)據(jù)的工程化應(yīng)用。
交通大數(shù)據(jù)往往是海量原始的時(shí)空數(shù)據(jù),并不能直接得到應(yīng)用于城市規(guī)劃及交通規(guī)劃的相關(guān)結(jié)論。必須采用正確的數(shù)據(jù)挖掘技術(shù)體系,得到科學(xué)合理的評價(jià)指標(biāo)和分析結(jié)論,以支持交通規(guī)劃及研究工作。下文分別以手機(jī)信令數(shù)據(jù)和車輛RFID數(shù)據(jù)為例,重點(diǎn)針對數(shù)據(jù)理解、數(shù)據(jù)建模和模型驗(yàn)證三個(gè)階段,闡述基于CRISP-DM的交通大數(shù)據(jù)分析方法和應(yīng)用實(shí)踐。
圖2 手機(jī)信令數(shù)據(jù)中的信號漂移Fig.2 Signal drifting in the cellular signaling data
圖3 手機(jī)信令監(jiān)測人口與統(tǒng)計(jì)人口對比Fig.3 Population estimated by cellular signaling data vs.the population estimated by statistical method
手機(jī)信令數(shù)據(jù)是一組非等時(shí)、等距回傳,定位頻繁跳躍且具有時(shí)間順序的時(shí)空數(shù)據(jù)。與傳統(tǒng)的GPS定位數(shù)據(jù)不同,手機(jī)信令數(shù)據(jù)采集包括主動和被動機(jī)制,并且通過基站定位實(shí)現(xiàn)位置追蹤[2]。圖2為某一志愿者用戶在2016年5月12日15:50至13日07:59時(shí)間段真實(shí)的停留位置。通過追蹤該用戶的手機(jī)信令數(shù)據(jù)發(fā)現(xiàn),數(shù)據(jù)并不是由同一基站服務(wù),而是包含了在12個(gè)不同基站間來回250次的定位切換。因此,在構(gòu)建信令分析模型(例如停留點(diǎn)模型、職住識別模型)時(shí)必須考慮這一特點(diǎn),區(qū)分用戶真實(shí)的出行發(fā)生和信號漂移現(xiàn)象。
通過手機(jī)信令監(jiān)測得到的人口分布并不直接對應(yīng)于真實(shí)人口分布,運(yùn)營商采集得到的用戶信令包含了流量卡、物聯(lián)卡、移動座機(jī)、非活躍用戶和一人多機(jī)等干擾數(shù)據(jù)。其中前三者可以通過運(yùn)營商協(xié)調(diào)相應(yīng)的登記信息在數(shù)據(jù)源頭做數(shù)據(jù)過濾。非活躍用戶則可以通過后期數(shù)據(jù)處理模型,識別出長期靜止不動及不產(chǎn)生通信行為的用戶。而一人多機(jī)則沒有很好的辦法實(shí)現(xiàn)數(shù)據(jù)清洗,因?yàn)槭褂孟嗤怯浶畔⒆缘脑O(shè)備并不能保證真實(shí)是一人使用,一人同時(shí)使用的設(shè)備也并不產(chǎn)生相同的軌跡信息,而且同一人同時(shí)使用不同運(yùn)營商的設(shè)備更無法識別。
通過數(shù)據(jù)分析得到2016年中國聯(lián)通、中國移動在重慶市主城區(qū)常住人口用戶分別是134萬人和719萬人(通過連續(xù)跟蹤用戶每日出現(xiàn)情況,并未做用戶類型篩選)。由于并未開展基于中國電信數(shù)據(jù)的職住分析,但按照大致的運(yùn)營商市場份額推算通過三家運(yùn)營商的手機(jī)信令數(shù)據(jù)監(jiān)測出的常住人口約1 000萬人。而根據(jù)重慶市統(tǒng)計(jì)局公布的2016年統(tǒng)計(jì)年鑒人口約為851萬人(見圖3)。兩組數(shù)據(jù)存在較大差距,也正說明在使用手機(jī)信令數(shù)據(jù)開展職住模型設(shè)計(jì)時(shí)建立相應(yīng)的干擾用戶清洗機(jī)制的必要性。
傳統(tǒng)的手機(jī)信令數(shù)據(jù)主要是通過采集2G,3G用戶的手機(jī)通話、短信、開關(guān)機(jī)以及周期性位置更新和位置區(qū)切換等行為產(chǎn)生的控制指令[3]。隨著移動通信網(wǎng)絡(luò)的不斷發(fā)展,如今更高速、更穩(wěn)定的網(wǎng)絡(luò)以及信令采集技術(shù)的提升,讓人們在享受更優(yōu)質(zhì)便捷的移動通信網(wǎng)絡(luò)服務(wù)的同時(shí),也讓基于手機(jī)信令的各種數(shù)據(jù)挖掘分析有了新的生命力,未來基于手機(jī)信令的居民活動規(guī)律分析將不再局限于職住分布的分析監(jiān)測,必將延伸至更多更精細(xì)的分析方向中,如軌跡分析中的出行路徑分析、出行方式分析,出行活動性質(zhì)分析,出行鏈分析,活動空間分析。
1)4G采集頻率大幅提升。
以重慶市中國移動、中國聯(lián)通的2G,3G信令為例,用戶的日均信令記錄數(shù)約為30條,而4G上網(wǎng)信令的采集用戶單日記錄可達(dá)上百條,甚至超過1 000條,是傳統(tǒng)2G信令數(shù)據(jù)量的10~20倍。圖4為多名志愿者用戶的日均記錄數(shù)分布對比,可以看出綠色框內(nèi)的4G用戶記錄數(shù)比紅色框內(nèi)的2G,3G用戶記錄數(shù)有顯著提高。
從用戶的信令平均采樣間隔對比來看,4G上網(wǎng)信令的采樣間隔顯著降低,如表1中重慶市移動2G,3G間隔小于10 min信令占比約為46%,而4G上網(wǎng)信令的采集讓這一比例提升至89%,說明4G用戶的信令采集變得越來越密集。
2)4G基站定位精度提高。
手機(jī)基站定位主要是借助信令中的基站編號來確定手機(jī)用戶所處的空間位置。該定位精度取決于基站小區(qū)服務(wù)半徑大?。涸诔菂^(qū)基站布局較密,基站小區(qū)服務(wù)半徑較小,定位精度可達(dá)幾百米;在郊區(qū)或農(nóng)村,基站布局稀疏,基站小區(qū)服務(wù)半徑很大,定位精度從幾百米至幾萬米不等[4]。4G基站的服務(wù)半徑較2G基站明顯降低,76.8%的4G基站服務(wù)半徑在600 m以內(nèi)(見圖5)。隨著4G網(wǎng)絡(luò)的建設(shè),4G基站布設(shè)更密集,服務(wù)半徑更小,定位會變得更準(zhǔn)確。
在有了明確的目標(biāo)需求和深入的數(shù)據(jù)理解后,針對數(shù)據(jù)的質(zhì)量、精度和特點(diǎn)設(shè)計(jì)算法模型和建立模型所用的數(shù)據(jù)集。在模型的建立過程中應(yīng)根據(jù)整體數(shù)據(jù)分析流程,分層建模,高效利用各階段中間成果。圖6以手機(jī)信令的職住模型為例,說明職住識別分析流程,包含各子模型的設(shè)計(jì),每個(gè)子模型都有中間成果的輸出,這些中間成果的疊加、融合能產(chǎn)生更豐富的結(jié)果。
1)停留點(diǎn)識別模型:根據(jù)用戶原始的軌跡識別出停留位置,形成用戶每日出行OD,識別用戶的停留位置、停留起止時(shí)間。
圖4 2015年5月某周用戶單日手機(jī)信令記錄數(shù)分布Fig.4 Distribution of daily cellular signaling records of a user during one week in May 2015
表1 信令采樣間隔對比Tab.1 Comparison on signaling sampling intervals %
圖5 2G,4G基站服務(wù)半徑對比Fig.5 Service radius of 2G and 4G base stations
2)多日穩(wěn)定點(diǎn)訓(xùn)練模型:疊加用戶多日的出行OD,識別出用戶規(guī)律性出行OD,包括規(guī)律性出行的停留位置、起止時(shí)間。
3)居住地與就業(yè)崗位識別模型:在多日穩(wěn)定點(diǎn)中識別出用戶的居住地和工作地。
4)通勤時(shí)間訓(xùn)練模型:根據(jù)用戶的居住地和工作地結(jié)果以及用戶每日出行OD,識別出用戶每日的通勤出行,綜合用戶多日的通勤出行起止時(shí)間計(jì)算平均通勤時(shí)間。
5)統(tǒng)計(jì)擴(kuò)樣模型:根據(jù)每年統(tǒng)計(jì)局發(fā)布的統(tǒng)計(jì)年鑒人口和每月手機(jī)信令監(jiān)測人口,得到各類型區(qū)域?qū)ο竺吭碌娜丝诮^對量。
6)職住平衡評價(jià)指標(biāo)體系:利用各階段成果實(shí)現(xiàn)職住平衡評價(jià)指標(biāo)的計(jì)算。
圖6 基于手機(jī)信令的職住模型設(shè)計(jì)Fig.6 Job-housing model based on cellular signaling data
在模型的整體設(shè)計(jì)中應(yīng)實(shí)現(xiàn)各子模型的分級處理、結(jié)果分層管控。以基于中國聯(lián)通手機(jī)信令數(shù)據(jù)的職住模型數(shù)據(jù)管控方案為例,在數(shù)據(jù)類型上劃分為原始數(shù)據(jù)、臨時(shí)數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)、中間數(shù)據(jù)和結(jié)果數(shù)據(jù)(見表2)。根據(jù)每一類型的用途、數(shù)據(jù)格式、更新頻率和數(shù)據(jù)大小設(shè)計(jì)不同的存儲方式及存儲周期。
完成數(shù)據(jù)建模以后需要綜合多種數(shù)據(jù)進(jìn)行驗(yàn)證,判斷模型是否達(dá)到要求。在基于手機(jī)信令的職住模型驗(yàn)證中主要采用兩種驗(yàn)證方式,一種是通過志愿者信令數(shù)據(jù)計(jì)算得到的結(jié)果與志愿者真實(shí)情況做個(gè)體驗(yàn)證,一種是通過其他相關(guān)的調(diào)查數(shù)據(jù)做匯總級驗(yàn)證。
圖7為某一志愿者結(jié)果數(shù)據(jù)與真實(shí)位置數(shù)據(jù)對比,紅色點(diǎn)表示職住模型最終計(jì)算得到的用戶居住地位置,藍(lán)色點(diǎn)是用戶家的真實(shí)位置,兩者相距約300 m。通過對多名志愿者數(shù)據(jù)的對比說明模型結(jié)果合理,并沒有出現(xiàn)較大誤差。
圖8紅色的柱狀圖為通過職住模型得到的各組團(tuán)居住人口占手機(jī)信令總?cè)丝诘姆植急壤?,藍(lán)色的柱狀圖為人口普查得到的各組團(tuán)人口占普查總?cè)丝诘姆植急壤?。兩者具有相似的分布?guī)律,只在部分城市新區(qū)所在的區(qū)域存在明顯差距,該結(jié)果也很好地說明了模型的準(zhǔn)確性。
表2 職住模型數(shù)據(jù)管控設(shè)計(jì)Tab.2 Data design of job-housing model
將通過職住模型得到的各組團(tuán)通勤OD結(jié)果與居民出行調(diào)查OD結(jié)果對比(見圖9),在420對跨組團(tuán)OD中,369對(占88%)絕對誤差不超過4%,兩者吻合度較好。
大數(shù)據(jù)監(jiān)測的指標(biāo)含義并不完全等同于傳統(tǒng)的指標(biāo)含義,需要一套適用于大數(shù)據(jù)分析的指標(biāo)體系。以基于手機(jī)信令的居住人口、就業(yè)人口識別為例:
1)居住人口識別模型。
當(dāng)前通過手機(jī)信令識別居住人口主要是通過連續(xù)多日的信令數(shù)據(jù),發(fā)現(xiàn)用戶在夜間時(shí)段具有規(guī)律性出現(xiàn)的用戶,并識別出這些用戶夜間的停留位置。基于此邏輯得到的居住人口分布無法保證用戶是否離開原戶口登記地所在的鄉(xiāng)鎮(zhèn)街道半年以上,也不包含外出不滿半年或在境外工作學(xué)習(xí)的人,并不等同于常住人口的概念,該指標(biāo)更接近于短期內(nèi)的常住人口分布。
2)就業(yè)人口識別模型。
基于手機(jī)信令的就業(yè)人口識別,需要先通過類似居住人口獲取的方法得到白天人口分布。由于白天人口分布包含大量非通勤用戶,這部分用戶往往與短距離通勤用戶混合在一起,很難通過數(shù)據(jù)分析直接獲取。目前主要通過經(jīng)驗(yàn)參數(shù)和調(diào)查獲取參數(shù)輔助計(jì)算:1)篩選出行距離大于一定距離閾值α的用戶得到通勤出行用戶,進(jìn)而得到就業(yè)人口及人口分布;2)根據(jù)居民出行調(diào)查等途徑得到就業(yè)人口比例β,通過這一閾值得到通勤出行用戶,進(jìn)而得到就業(yè)人口數(shù)量及其分布。
所以,基于大數(shù)據(jù)分析得到的監(jiān)測指標(biāo),需要了解指標(biāo)真實(shí)的含義才能理解數(shù)據(jù)表達(dá)的規(guī)律特點(diǎn)。同時(shí)需構(gòu)建統(tǒng)一的指標(biāo)計(jì)算方法和參數(shù)選擇方法,才能讓不同區(qū)域、不同機(jī)構(gòu)產(chǎn)生的大數(shù)據(jù)指標(biāo)具有更高的準(zhǔn)確性和可比性。
圖7 某志愿者職住模型結(jié)果驗(yàn)證Fig.7 Validation of job-housing model by a volunteer
圖8 各組團(tuán)職住模型結(jié)果與人口普查結(jié)果對比Fig.8 Job-housing model results and census results by different groups
圖9 各組團(tuán)職住模型通勤OD結(jié)果與居民出行調(diào)查結(jié)果對比Fig.9 Commuting OD results of job-housing model and results of resident travel survey by different groups
以基于手機(jī)信令數(shù)據(jù)的職住分布監(jiān)測為例,城市規(guī)劃需要掌握城市形態(tài)演變規(guī)律、內(nèi)外部聯(lián)系規(guī)律、職住分布特征、居民出行流動特征等,以便科學(xué)合理地制定發(fā)展策略、布局基礎(chǔ)設(shè)施、提供支撐服務(wù)。傳統(tǒng)獲取數(shù)據(jù)的手段主要包括人口普查(每10年一次)、經(jīng)濟(jì)普查(每5年一次)、人口抽樣調(diào)查、居民出行抽樣調(diào)查等。傳統(tǒng)抽樣調(diào)查耗費(fèi)大量人力與物力、抽樣率低、精度不高、數(shù)據(jù)更新周期長且只能獲取特定時(shí)間片段的數(shù)據(jù),越來越難以適應(yīng)新時(shí)期的規(guī)劃管理需求。手機(jī)的廣泛普及與海量手機(jī)信令數(shù)據(jù)分析技術(shù)為城市規(guī)劃提供了一種高效便捷的數(shù)據(jù)獲取手段。
職住分布監(jiān)測指標(biāo)用來描述不同大小區(qū)域的職住分布特征及平衡情況(見圖10)。其中,需要從區(qū)域居住人口中剝離出就業(yè)人口和非就業(yè)人口,從區(qū)域內(nèi)部就業(yè)人口和外來就業(yè)人口獲得區(qū)域就業(yè)崗位,進(jìn)而派生出如職住比、獨(dú)立指數(shù)、外出就業(yè)比例、外來就業(yè)比例、對外通勤交換強(qiáng)度等職住評價(jià)指標(biāo)。
圖10 職住分布監(jiān)測指標(biāo)體系Fig.10 Monitoring indicator system of job-housing distribution
圖11 RFID系統(tǒng)的工作原理Fig.11 Operating principle of RFID system
無線射頻識別(RadioFrequency Identification,RFID)是一種非接觸式識別技術(shù),通過射頻信號自動識別目標(biāo)對象并獲取相關(guān)數(shù)據(jù),識別工作無須人工干預(yù)。RFID系統(tǒng)主要組成部件包括RFID電子車牌、天線、讀寫器、數(shù)據(jù)中心計(jì)算機(jī)。當(dāng)安裝RFID電子車牌的車輛通過采集點(diǎn)時(shí),采集點(diǎn)的固定天線會檢測到相關(guān)信息,并傳輸給讀寫器。由讀寫器讀取電子車牌信息,最后傳輸給數(shù)據(jù)中心。數(shù)據(jù)中心結(jié)合“卡號—車輛”對應(yīng)關(guān)系生成車輛通過相關(guān)信息,包括車輛ID、通過時(shí)間和位置信息等。從數(shù)據(jù)采集到車輛對應(yīng)信息的輸出總時(shí)耗不超過10 s(見圖11)。
由于具有非接觸、多目標(biāo)及移動目標(biāo)識別等優(yōu)勢,RFID技術(shù)已經(jīng)逐漸成為交通智能化管理和物流供應(yīng)鏈管理領(lǐng)域的重要信息技術(shù)手段,廣泛應(yīng)用于車輛自動識別、公交優(yōu)先、集裝箱管理、不停車收費(fèi)等多個(gè)方面[5-8]。近年來基于RFID數(shù)據(jù)或其他類似車輛識別數(shù)據(jù),開展車輛OD估計(jì)的研究越來越多。文獻(xiàn)[9-10]提出基于車牌識別數(shù)據(jù)的OD矩陣估計(jì)模型,該模型利用車牌識別技術(shù)獲得車輛的運(yùn)動軌跡,分析車輛的出行特征,得到實(shí)時(shí)的OD出行信息,并在高速公路上進(jìn)行實(shí)驗(yàn),取得了滿意的效果。文獻(xiàn)[11]提出基于視頻牌照檢測的OD矩陣獲取方法,并通過VISSIM交通仿真軟件的COM接口構(gòu)建了視頻牌照檢測獲取OD矩陣的仿真實(shí)驗(yàn)平臺,最后對其獲取的OD矩陣數(shù)據(jù)進(jìn)行精度分析。文獻(xiàn)[12-13]提出利用車牌檢測信息進(jìn)行動態(tài)OD矩陣估計(jì)的新方法。該方法以粒子濾波算法思想為基礎(chǔ),通過車牌檢測技術(shù)獲取路徑信息、動態(tài)行程時(shí)間數(shù)據(jù)等,獲得基于車牌檢測技術(shù)的初始OD矩陣;最后運(yùn)用路段流量信息校正初始OD矩陣,得到最終的OD矩陣估計(jì)值。
為提高檢測精度,RFID檢測器會對同一輛車進(jìn)行連續(xù)多次采集,因此會產(chǎn)生同一輛車的重復(fù)檢測記錄。如表3所示,該車輛相隔1 s通過同一RFID檢測點(diǎn)。在充分分析數(shù)據(jù)重檢特征的基礎(chǔ)上,建立了數(shù)據(jù)清洗算法。該流程包括:1)計(jì)算同一輛車相鄰兩次RFID檢測記錄數(shù)據(jù)的時(shí)間間隔;2)如果滿足時(shí)間差小于1 min,且相鄰RFID檢測記錄的檢測設(shè)備相同則為重檢數(shù)據(jù),刪除后面一條(見圖12)。
盡管RFID檢測器有連續(xù)檢測的設(shè)置,但仍然存在漏檢的情況。為了解重慶市主城區(qū)現(xiàn)階段RFID檢測點(diǎn)的漏檢率,針對2016年11月52個(gè)檢測點(diǎn)早晚高峰時(shí)段流量進(jìn)行調(diào)查發(fā)現(xiàn):其中34個(gè)檢測點(diǎn)漏檢率在10%以內(nèi),18個(gè)檢測點(diǎn)漏檢率為10%~30%。為進(jìn)一步了解數(shù)據(jù)特征,通過對比不同漏檢率的RFID檢測點(diǎn),發(fā)現(xiàn)現(xiàn)階段的漏檢原因包括:1)車輛RFID標(biāo)簽卡損壞,導(dǎo)致車輛通過時(shí)無法檢測;2)天線安裝角度不規(guī)范,無法檢測特定位置的車輛;3)網(wǎng)絡(luò)故障、電源故障,檢測到的數(shù)據(jù)無法傳輸回?cái)?shù)據(jù)中心;4)渝籍以外車輛不能檢測(主城早晚高峰時(shí)段外省車比例約6.2%)。因此,在應(yīng)用RFID數(shù)據(jù)時(shí),應(yīng)將檢測結(jié)果與調(diào)查結(jié)果相互驗(yàn)證分析,獲取更為準(zhǔn)確的結(jié)果。
RFID通行記錄數(shù)據(jù)是一種典型的時(shí)空數(shù)據(jù)。當(dāng)帶有RFID電子車牌的車輛通過RFID采集點(diǎn)時(shí),系統(tǒng)會產(chǎn)生一條與該車輛相關(guān)的通行記錄數(shù)據(jù),可以實(shí)時(shí)獲取車輛的行駛特征和運(yùn)行狀態(tài)。目前,重慶市的RFID通行記錄數(shù)據(jù)包括七個(gè)屬性:RFID檢測點(diǎn)名稱、RFID檢測點(diǎn)方向、車輛ID、車輛通過時(shí)刻、車型代碼、號牌種類和使用性質(zhì)(見表4)。利用這些屬性字段可以確定車輛的類型和使用性質(zhì),類型代碼涵蓋不同型號的客貨車,包括大客車、中客車、小客車、大貨車、中貨車、小貨車等;使用性質(zhì)主要分為營運(yùn)、非營運(yùn)、公共交通和貨運(yùn)四大類。
為了將RFID通行記錄數(shù)據(jù)更好地應(yīng)用于城市規(guī)劃和城市交通規(guī)劃所需的數(shù)據(jù)指標(biāo),利用現(xiàn)階段的數(shù)據(jù)特征,構(gòu)建基于流式處理的模型體系(見圖13)。模型體系包括:1)車輛軌跡修復(fù)模型,實(shí)現(xiàn)車輛在不同RFID檢測點(diǎn)之間的軌跡修復(fù);2)車輛OD切分模型,根據(jù)點(diǎn)位之間的時(shí)間間隔和距離,實(shí)現(xiàn)對連續(xù)的車輛軌跡的切分,獲取車輛多次出行OD及軌跡;3)車輛行為畫像模型,利用車輛OD計(jì)算出的出行時(shí)間、出行距離、出行次數(shù)和出行軌跡,對車輛進(jìn)行分類識別,全面掌握每輛車的出行行為。
在通過模型構(gòu)建實(shí)現(xiàn)對數(shù)據(jù)處理的基礎(chǔ)上,根據(jù)RFID數(shù)據(jù)不同層次結(jié)果的用途進(jìn)行分層管控??梢栽诒WC數(shù)據(jù)應(yīng)用的基礎(chǔ)上,最大限度地節(jié)約存儲資源和提高計(jì)算效率?;赗FID數(shù)據(jù)的分層管控包括五個(gè)階段(見圖13):1)原始數(shù)據(jù),包括RFID點(diǎn)位信息和RFID原始記錄數(shù)據(jù);2)中間數(shù)據(jù),即基于OD切分模型獲取的出行停留點(diǎn),該數(shù)據(jù)不是最終結(jié)果,但可以用于多類結(jié)果的生成,因此應(yīng)保留為中間數(shù)據(jù);3)結(jié)果數(shù)據(jù),利用原始數(shù)據(jù)和中間數(shù)據(jù)計(jì)算多種結(jié)果,包括車輛OD切分?jǐn)?shù)據(jù)結(jié)果、車輛運(yùn)行指標(biāo)結(jié)果和路段流量流向結(jié)果。
表3 RFID重復(fù)通行記錄數(shù)據(jù)Tab.3 RFID repeated record
圖12 RFID清洗數(shù)據(jù)流程Fig.12 Procedure of RFID data cleansing
表4 RFID數(shù)據(jù)屬性Tab.4 RFID data attribute
不同模型在不同環(huán)境下會有各自適合的參數(shù)閾值取值,傳統(tǒng)RFID數(shù)據(jù)的OD切分一般采用時(shí)間間隔或者速度值,但其分析結(jié)果存在較大誤差。RFID數(shù)據(jù)模型引入時(shí)空評價(jià)指標(biāo)(Time and Distance Match Index,TDMI)。利用居民出行調(diào)查數(shù)據(jù)進(jìn)行比對,得到TDMI的參數(shù)取值(見表5)。當(dāng)TDMI=2.5時(shí),模型結(jié)果與居民出行調(diào)查數(shù)據(jù)最為接近。
圖13 RFID模型體系Fig.13 RFID model system
圖14 基于RFID數(shù)據(jù)的分層管控體系Fig.14 Hierarchical control system based on RFID data
表5 參數(shù)閾值Tab.5 Parameter threshold
表6 組團(tuán)的RFID點(diǎn)位分布Tab.6 Distribution of RFID points in different groups
模型驗(yàn)證是大數(shù)據(jù)分析方法最為重要且容易被忽略的部分,缺乏驗(yàn)證的模型無法應(yīng)用于實(shí)際數(shù)據(jù)分析。為了有針對性地對重慶市主城區(qū)分片規(guī)劃,將主城區(qū)建設(shè)用地范圍劃分成21個(gè)組團(tuán)。以21個(gè)組團(tuán)為對象統(tǒng)計(jì)跨組團(tuán)OD矩陣。根據(jù)RFID點(diǎn)位的分布特征,針對RFID覆蓋較廣的6個(gè)組團(tuán)進(jìn)行機(jī)動車OD統(tǒng)計(jì),包括大楊石、南坪、觀音橋、沙坪壩、人和、渝中組團(tuán)(見表6)。
居民出行調(diào)查的數(shù)據(jù)是機(jī)動車出行人次,而基于RFID的機(jī)動車OD是車輛數(shù),根據(jù)2014年重慶市主城區(qū)居民出行調(diào)查得到小汽車單次載客人數(shù)為1.3人。30對跨組團(tuán)OD中24對絕對誤差不超過4%,兩者吻合度較好(見圖15)。
基于重慶市主城區(qū)的RFID數(shù)據(jù)和車載診斷系統(tǒng)(On-Board Diagnostic,OBD)數(shù)據(jù),構(gòu)建重慶市主城區(qū)機(jī)動車使用特征監(jiān)測指標(biāo)體系。結(jié)合RFID數(shù)據(jù)的結(jié)構(gòu)特征,從五個(gè)機(jī)動車使用特征進(jìn)行分析:
1)車輛分布特征指通勤和非通勤出行車輛使用者的分布特征;
2)通勤出行特征指具有通勤特征的車輛出行指標(biāo);
3)區(qū)域車輛活動特征指在一定區(qū)域內(nèi)車輛的活躍程度、時(shí)空分布和出行強(qiáng)度;
4)車輛行為特征指車輛在運(yùn)行過程中產(chǎn)生的其他方面特征;
圖15 跨組團(tuán)OD出行量誤差分布Fig.15 Distribution of OD errors between different groups
5)非通勤出行特征指除通勤出行外的其他類型出行,如購物、公務(wù)出行等。非通勤出行特征包括非通勤OD、非通勤出行時(shí)間和非通勤出行距離。
隨著大數(shù)據(jù)分析應(yīng)用的不斷擴(kuò)大和深入,應(yīng)更加重視大數(shù)據(jù)分析方法的科學(xué)性、分析標(biāo)準(zhǔn)的一致性和分析結(jié)論的可比性?;贑RISP-DM的交通大數(shù)據(jù)分析方法中,數(shù)據(jù)理解、數(shù)據(jù)建模和模型驗(yàn)證是特別重要的三個(gè)階段,應(yīng)盡快實(shí)現(xiàn)交通大數(shù)據(jù)分析的標(biāo)準(zhǔn)化、指標(biāo)化和透明化。標(biāo)準(zhǔn)化即建立普遍適用的城市交通領(lǐng)域大數(shù)據(jù)分析方法,實(shí)現(xiàn)從簡單的數(shù)據(jù)分析到工程化應(yīng)用的過渡;指標(biāo)化即建立適用于城市交通戰(zhàn)略、交通政策、交通規(guī)劃方案、交通管理措施等制定的指標(biāo)體系;透明化即建立大數(shù)據(jù)交流平臺,加強(qiáng)不同機(jī)構(gòu)之間在大數(shù)據(jù)的算法、指標(biāo)、模型等方面的技術(shù)交流,使交通大數(shù)據(jù)分析盡快步入健康、快速、可持續(xù)的發(fā)展軌道。
[1]Inmon W H.數(shù)據(jù)倉庫[M].北京:機(jī)械工業(yè)出版社,2000.Inmon W H.Building the Data Warehouse[M].Beijing:China Machien Press,2000.
[2]王西點(diǎn).基于手機(jī)位置的實(shí)時(shí)交通信息采集技術(shù)[J].中國交通信息產(chǎn)業(yè),2009(1):128-130.
[3]李金明.GSM移動通信系統(tǒng)綜述[J].蘭州石化職業(yè)技術(shù)學(xué)院學(xué)報(bào),2001,1(1):21-24.Li Jinming.The Composite Explanation of GSM Mobile Communication System[J].Journal of Lanzhou Petrochemical Vocational College of Technology,2001,1(1):21-24.
[4]楊濤.基于基站切換的交通信息采集技術(shù)應(yīng)用研究[J].現(xiàn)代電子技術(shù),2012,35(15):145-147.Yang Tao.Application of Traffic Information Collection Technology Based on Base Station Handover[J].Modern Electronics Technique,2012,35(15):145-147.
[5]楊濤.RFID在智能交通領(lǐng)域的應(yīng)用[J].物流科技,2006,29(3):24-26.Yang Tao.The Application of RFID Technology in the Field of ITS[J].Logistics Sci-Tech,2006,29(3):24-26.
[6]曾繁景,劉瑞東,李紅波.基于RFID車輛網(wǎng)絡(luò)信息管理平臺的設(shè)計(jì)[J].通信技術(shù),2009,42(8):132-134.Zeng Fanjing,Liu Ruidong,Li Hongbo.Design of Vehicles Network Information Management Platform System Based on RFID[J].CommunicationsTechnology,2009,42(8):132-134.
[7]王少飛,關(guān)可,伍慶文.射頻識別(RFID)技術(shù)在智能公交系統(tǒng)中的應(yīng)用研究[J].公路交通科技(應(yīng)用技術(shù)版),2008(3):141-143.
[8]郭穩(wěn)濤,何怡剛.基于RFID的智能停車場管理系統(tǒng)的研究與設(shè)計(jì)[J].自動化技術(shù)與應(yīng)用,2010,29(6):60-64.Guo Wentao,He Yigang.The Research and Design of Management System of Intelligent Parking Based on RFID[J].Techniques of Automation and Applications,2010,29(6):60-64.
[9]Dixon M P.Incorporation of Automatic Vehicle Identification Data into Synthetic OD Estimation Process[D].College Station:Texas A&M University,2000.
[10]Dixon M P,Rilett L R.Real-time OD Estimation Using Automatic Vehicle Identification and Traffic Count Data[J].Journal of Computer-Aided Civil and Infrastructure Engineering,2002,17(l):7-21.
[11]魏靜.基于視頻牌照檢測的動態(tài)OD矩陣獲取方法研究[D].上海:同濟(jì)大學(xué),2008.
[12]孫劍,馮羽.自動識別環(huán)境下車輛的出行矩陣估計(jì)新方法[J].同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,39(12):1800-1804.Sun Jian,Feng Yu.A New Method of OD Estimation Based on Automatic Vehicle Identification Data[J].Journal of Tongji University(Natural Science),2011,39(12):1800-1804.
[13]孫劍,馮羽.基于車輛自動識別技術(shù)的動態(tài)OD矩陣估計(jì)新方法.同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,41(9):1366-1371.Sun Jian,Feng Yu.A Novel Dynamic OD Estimation Approach Based on Automatic Vehicle Identification Data[J].Journal of Tongji University(Natural Science),2013,41(9):1366-1371.
Transportation Big Data Analysis Methodology Based on CRISP-DM:An Example of Cellular Signaling and RFID Data in Chongqing
Zhou Tao,Zhao Bicheng,Yu Bo
(Chongqing Transport Planning Institute,Chongqing 400020,China)
As the transportation big data analysis becomes a popular research tool,the problems emerge in the data quality and ambiguous analysis method,which leads to unverifiable study conclusions and incomparable results.The lack of a scientifically mature data analysis method and a unified analysis evaluation standard are the problems.This paper proposes transportation big data analysis methodology based on CRISP-DM,which includes six steps:clarifying objectives and requirements,understanding nature of the data,data processing,developing models,model validation and application.Based on the practice of big data platform development in Chongqing,the paper elaborates the procedures of three important steps:data understanding,modeling and model validation using cellular signaling and vehicle RFID data.Based on the application experience,the paper explores how to achieve the standardization,indexation and transparency of transportation big data analysis.
transportation big data;big data analysis methodology;data understanding;data modeling;model validation;Chongqing
1672-5328(2017)05-0042-10
U491.1+2
A
10.13813/j.cn11-5141/u.2017.0507
2017-08-08
周濤(1968—),男,四川內(nèi)江人,教授級高級工程師,副院長,主要研究方向:交通規(guī)劃、城市規(guī)劃。E-mail:taozhoucq@qq.com