江蘇省規(guī)劃2018年至2020年間新建9座過(guò)江通道,然而,自2007年開(kāi)展“江蘇省主要公路機(jī)動(dòng)車(chē)OD調(diào)查”以來(lái),近十年全省性交通調(diào)查數(shù)據(jù)未更新,因此開(kāi)展了本次江蘇省過(guò)江OD調(diào)查。隨著交通和信息化的快速發(fā)展,傳統(tǒng)的路邊攔車(chē)調(diào)查難以適用高速機(jī)動(dòng)車(chē)調(diào)查,越來(lái)越多的城市采用大數(shù)據(jù)技術(shù)開(kāi)展調(diào)查工作。
本研究結(jié)合大數(shù)據(jù)技術(shù),充分利用行業(yè)數(shù)據(jù)、手機(jī)數(shù)據(jù)和微信問(wèn)卷進(jìn)行OD調(diào)查,極大提高了調(diào)查效率,降低了調(diào)查成本。后期在數(shù)據(jù)處理時(shí),采用多源數(shù)據(jù)融合技術(shù),汲取各種調(diào)查手段的長(zhǎng)處,結(jié)合各數(shù)據(jù)特點(diǎn)全面詳實(shí)的調(diào)查乘客過(guò)江出行行為,全面掌握過(guò)江出行的交通量、車(chē)型、客貨比、OD和出行時(shí)耗、載客人數(shù),出行目的、載貨貨重和貨種類(lèi)型等。
本次調(diào)查在調(diào)研國(guó)內(nèi)外學(xué)者對(duì)調(diào)查技術(shù)的研究基礎(chǔ)上,結(jié)合江蘇省實(shí)際數(shù)據(jù)存儲(chǔ)情況,共獲得高速公路聯(lián)網(wǎng)數(shù)據(jù)、汽渡票根數(shù)據(jù)、行業(yè)統(tǒng)計(jì)數(shù)據(jù)、調(diào)查問(wèn)卷數(shù)據(jù)和電信手機(jī)信令5種數(shù)據(jù)。
傳統(tǒng)的人工問(wèn)卷調(diào)查和微信調(diào)查能獲得較完整的交通出行特征信息,但費(fèi)時(shí)費(fèi)力,并且成本太大而覆蓋率較小,不能完全滿(mǎn)足本次要求。交通行業(yè)數(shù)據(jù)全面,準(zhǔn)確度高,但行業(yè)數(shù)據(jù)對(duì)乘客行程路徑、出行目的等特征信息了解不夠。隨著大數(shù)據(jù)技術(shù)的興起,越來(lái)越多的學(xué)者采用手機(jī)信令數(shù)據(jù)和百度LBS數(shù)據(jù)等做交通調(diào)查。不同的調(diào)查手段獲取的數(shù)據(jù)質(zhì)量好壞不一,本次調(diào)查綜合各種調(diào)查方法的優(yōu)勢(shì),采用取長(zhǎng)補(bǔ)短,針對(duì)全省23處過(guò)江調(diào)查采取不同調(diào)查方法,如表1所示。
表1 各調(diào)查方式與內(nèi)容匯總
從江蘇省高速公路聯(lián)網(wǎng)營(yíng)運(yùn)管理中心搜集聯(lián)網(wǎng)收費(fèi)站數(shù)據(jù),調(diào)用了調(diào)查期間約1個(gè)月的3000萬(wàn)余條數(shù)據(jù),該數(shù)據(jù)可以獲得OD出行,車(chē)型、出行頻次、出行時(shí)間等信息,但無(wú)法獲取實(shí)載率、貨物種類(lèi)、出行目的、收費(fèi)敏感性等信息;本次采用Oricle進(jìn)行數(shù)據(jù)存儲(chǔ)和處理。通過(guò)各汽渡管理處搜集獲得13處汽渡過(guò)江車(chē)輛收費(fèi)數(shù)據(jù)及對(duì)應(yīng)的數(shù)據(jù)字典;通過(guò)過(guò)江隧道監(jiān)控?cái)?shù)據(jù)可獲得不同車(chē)型(主要以客車(chē)為主)的每日流量數(shù)據(jù)。
在高速公路過(guò)江通道和南京、揚(yáng)州、泰州航段汽渡,當(dāng)車(chē)輛停車(chē)取卡時(shí),調(diào)查員站在自助刷卡站臺(tái)前向司機(jī)發(fā)放二維碼卡片,司機(jī)在得空時(shí)填寫(xiě)問(wèn)卷,問(wèn)卷信息回傳問(wèn)卷星。本次問(wèn)卷調(diào)查共出動(dòng)調(diào)查員500余名,調(diào)查進(jìn)行三天三夜,共發(fā)放問(wèn)卷約16萬(wàn)份,回收約8萬(wàn)余份,有效問(wèn)卷約4萬(wàn)余份,圓滿(mǎn)完成了本次調(diào)查任務(wù)。
手機(jī)信令數(shù)據(jù)覆蓋范圍廣,數(shù)據(jù)量大,是進(jìn)行數(shù)據(jù)補(bǔ)充調(diào)查的重要手段。本次利用調(diào)查期間全省電信公司的手機(jī)信令數(shù)據(jù),在Hadoop環(huán)境下完成手機(jī)數(shù)據(jù)清洗、過(guò)江行為識(shí)別、OD目的地識(shí)別,并形成OD矩陣。
圖1 過(guò)江通道大橋客流量調(diào)查一覽表
圖2 區(qū)域OD出行特征無(wú)限細(xì)分畫(huà)像
5種不同類(lèi)型的數(shù)據(jù)均從特定的角度反應(yīng)了真實(shí)的過(guò)江特征,本次調(diào)查需對(duì)獲得的多源異構(gòu)數(shù)據(jù)進(jìn)行整合,形成具有完整的出行特征參數(shù)。
多源數(shù)據(jù)融合主要分為三類(lèi):數(shù)據(jù)層融合、特征層融合和決策層融合。本研究主要在特征層和決策層進(jìn)行融合,采用集中式分布體系,通過(guò)對(duì)比分析不同數(shù)據(jù)源的出行特征、OD結(jié)果進(jìn)行融合擴(kuò)樣,構(gòu)建居民過(guò)江出行完整的出行屬性表。
本次獲得的交通行業(yè)數(shù)據(jù)較全,基本滿(mǎn)足過(guò)江OD出行分析及主要的出行頻次、出行時(shí)間、載重等參數(shù)分析,因此本次數(shù)據(jù)融合采用對(duì)比擴(kuò)樣法,以交通行業(yè)數(shù)據(jù)為主,以微信調(diào)查數(shù)據(jù)和手機(jī)信令數(shù)據(jù)為擴(kuò)樣對(duì)象,以每個(gè)過(guò)江通道的OD對(duì)小區(qū)為擴(kuò)充對(duì)象,按照不同OD小區(qū)對(duì)交通量的差值進(jìn)行出行特征擴(kuò)樣,并形成完整的出行特征表(包含OD出行對(duì))。
無(wú)效數(shù)據(jù)剔除方法:微信調(diào)查問(wèn)卷填寫(xiě)者的素質(zhì)參差不齊,在實(shí)際調(diào)查中還存在盜刷問(wèn)卷紅包的現(xiàn)象,無(wú)效問(wèn)卷較多,對(duì)微信問(wèn)卷無(wú)效數(shù)據(jù)剔除主要規(guī)則如下:一是根據(jù)填寫(xiě)用戶(hù)的IP地址批量查詢(xún),與車(chē)籍信息匹配,不匹配用戶(hù)數(shù)值剔除;根據(jù)起點(diǎn)地址判斷位于長(zhǎng)江南岸或北岸,根據(jù)終點(diǎn)地址判斷位于長(zhǎng)江南岸或北岸,根據(jù)起終點(diǎn)判斷是否具備過(guò)江行為,不具備過(guò)江行為的剔除;根據(jù)起終點(diǎn)給出可能的過(guò)江通道,對(duì)明顯不符合邏輯選擇的用戶(hù)進(jìn)行剔除等。二是根據(jù)用戶(hù)編碼、問(wèn)卷填寫(xiě)時(shí)間,答題時(shí)長(zhǎng)、人數(shù)等,利用箱型圖提取出異常值。三是對(duì)開(kāi)放性問(wèn)題,如車(chē)型、載客人數(shù)、載貨重量進(jìn)行匹配判斷,對(duì)載客人數(shù)過(guò)大,載貨重量過(guò)大等明顯不符合邏輯的問(wèn)卷進(jìn)行剔除。
在自校核中,可很據(jù)每個(gè)過(guò)江通道(大橋和汽渡)形成的出行特征進(jìn)行校核,例如對(duì)比區(qū)縣間OD對(duì)之間誤差是否大于20%,出行頻次、出行目的、載客人數(shù)、載貨和貨種等信息是否合理,以此來(lái)判斷各通道的數(shù)據(jù)結(jié)構(gòu)是否正確。同時(shí),在同一個(gè)數(shù)據(jù)源下,對(duì)比相同區(qū)縣OD對(duì)的出行特征在不同過(guò)江通道的結(jié)構(gòu)差異性,對(duì)差異較大的OD對(duì)進(jìn)行進(jìn)一步審查,分析其原因。
對(duì)于同一數(shù)據(jù)源形成出行特征自校后,需要對(duì)不同數(shù)據(jù)源形成的出行特征進(jìn)行對(duì)比和融合。本次數(shù)據(jù)源中,交通行業(yè)數(shù)據(jù)最全面、最權(quán)威,獲得區(qū)縣OD出行對(duì)、出行頻次、車(chē)型結(jié)構(gòu)及載重是本次對(duì)比參照的依據(jù)。本次數(shù)據(jù)對(duì)比融合主要對(duì)問(wèn)卷數(shù)據(jù)和手機(jī)信令數(shù)據(jù)而言,通過(guò)將區(qū)縣OD對(duì)和特征與交通行業(yè)獲得的特征對(duì)比,確保數(shù)據(jù)結(jié)構(gòu)偏差不大,為后續(xù)數(shù)據(jù)擴(kuò)樣提供基礎(chǔ)。本次調(diào)查對(duì)歷史調(diào)查數(shù)據(jù)和本次調(diào)查數(shù)據(jù)進(jìn)行對(duì)比分析,各已建大橋工可預(yù)測(cè)數(shù)據(jù)和實(shí)際調(diào)查數(shù)據(jù)進(jìn)行對(duì)比分析,同時(shí)還對(duì)政策、新建過(guò)江通道對(duì)過(guò)江運(yùn)輸量的影響進(jìn)行分析。
表2 長(zhǎng)江二橋客運(yùn)出行屬性表(整理后)
在完成數(shù)據(jù)清洗、校核之后,即可對(duì)不同數(shù)據(jù)源進(jìn)行融合與擴(kuò)樣。本次融合與擴(kuò)樣均以各通道的區(qū)縣OD對(duì)為基礎(chǔ),首先,將客運(yùn)單位統(tǒng)一歸并到人,貨運(yùn)單位統(tǒng)一歸并到噸,完成單位歸一化處理;其次,依據(jù)各通道各區(qū)縣OD對(duì)的比例,對(duì)非全樣本數(shù)據(jù)(微信問(wèn)卷數(shù)據(jù)和手機(jī)信令數(shù)據(jù))進(jìn)行擴(kuò)樣,對(duì)應(yīng)的其他出行特征相應(yīng)進(jìn)行擴(kuò)樣;然后,以各通道區(qū)縣OD對(duì)為唯一標(biāo)示碼,用Python語(yǔ)句的Join功能將不同數(shù)據(jù)源進(jìn)行連接,將問(wèn)卷數(shù)據(jù)中出行目的、載貨貨種、載客人數(shù)、出發(fā)時(shí)間等信息鏈接到OD數(shù)據(jù)對(duì)后;最后按照通道、區(qū)段和全省三個(gè)維度進(jìn)行數(shù)據(jù)合并。對(duì)隧道過(guò)江數(shù)據(jù)而言,按照南京市內(nèi)過(guò)江出行形成OD屬性表,并形成OD屬性對(duì)、出行時(shí)間和出行人數(shù)一一對(duì)應(yīng)的屬性表。
出行屬性表的擴(kuò)充及結(jié)論。為了深入分析過(guò)江出行規(guī)律,更好的建立過(guò)江出行模型,本次在完整的出行屬性表之后,加入了時(shí)間、距離和費(fèi)用參數(shù)。本次通過(guò)Python語(yǔ)句,調(diào)用高德地圖的API接口,按照Driving模式,最短時(shí)間模式提取任何兩個(gè)區(qū)縣OD對(duì)之間的出行時(shí)間、距離和費(fèi)用;并且,通過(guò)各區(qū)縣的統(tǒng)計(jì)局統(tǒng)計(jì)各自的經(jīng)濟(jì)GDP數(shù)據(jù),并將二者GDP鏈接到OD對(duì)屬性表后面,建立了OD交通量、出行特征、時(shí)間費(fèi)用及經(jīng)濟(jì)參數(shù)一一對(duì)應(yīng)的屬性表。
從出行屬性表各參數(shù)的相關(guān)關(guān)系,可以得出以下結(jié)論:客運(yùn)交通量、載客人數(shù)、經(jīng)濟(jì)之間有明顯的正比關(guān)系,而且兩城市間經(jīng)濟(jì)差越大,其客流量越大;出行時(shí)間越短,其交通占比越大,出行頻次也越高,上班上學(xué)等通勤出行特征更明顯;貨運(yùn)量運(yùn)輸對(duì)出行費(fèi)用更加敏感,客運(yùn)出行對(duì)出行時(shí)間更加敏感;以上班上學(xué)為目的的車(chē)輛載客人數(shù)明顯大于商務(wù)出行,載運(yùn)糧食、快遞等貨物的貨運(yùn)的出行頻次相對(duì)較高,載重較小。
對(duì)手機(jī)信令處理后的數(shù)據(jù),按照實(shí)際坐標(biāo)導(dǎo)入GIS平臺(tái)中,按照南京市街道行政區(qū)劃劃分小區(qū),對(duì)融合匯總的客貨運(yùn)OD數(shù)據(jù)按照江蘇省各市區(qū)縣行政區(qū)顯示交通量。
結(jié)合實(shí)際地理區(qū)劃信息、經(jīng)濟(jì)、產(chǎn)業(yè)及交通網(wǎng)絡(luò)信息,區(qū)域過(guò)江出行主要表現(xiàn)為南北方向過(guò)江出行,城市內(nèi)部過(guò)江出行主要表現(xiàn)為東西向出行。江蘇省過(guò)江呈現(xiàn)兩頭重中間輕的空間格局,主要客流沿江分布,沿江城市連綿化特征明顯。從過(guò)境出行來(lái)看,省內(nèi)出行占比78%以上,過(guò)境出行以蘇中到上海、山東到浙江的交通量為主。
本次基于多源數(shù)據(jù)融合調(diào)查方法成功應(yīng)用于區(qū)域OD調(diào)查實(shí)踐中,按照交通特征層融合制定了詳細(xì)的融合擴(kuò)樣規(guī)則,以區(qū)縣OD對(duì)為標(biāo)識(shí)碼的出行屬性表更加科學(xué)高效,便于存入數(shù)據(jù)庫(kù)中;加入出行時(shí)間、經(jīng)濟(jì)和費(fèi)用等參數(shù)后,方便利用機(jī)器學(xué)習(xí)深入分析各出行特征與交通量的關(guān)系,便于后期利用分布式算法進(jìn)行運(yùn)算和數(shù)據(jù)更新;而且從數(shù)據(jù)收集、處理、融合、分析到可視化均提供了技術(shù)方法,可供其他調(diào)查者參考。
本研究未涉及機(jī)器學(xué)習(xí)部分,需要其他學(xué)者進(jìn)行深入的研究;雖然本研究發(fā)現(xiàn)手機(jī)信令數(shù)據(jù)得出結(jié)論與實(shí)際數(shù)據(jù)有較大差距,但仍難以找到適當(dāng)?shù)恼{(diào)查方法能對(duì)隧道出行車(chē)輛OD進(jìn)行準(zhǔn)確分析,期待其他學(xué)者進(jìn)一步研究。