夏 晶,于丹陽(yáng),鄭鑫臻,崔藝馨,朱 靜
(1.交通運(yùn)輸部科學(xué)研究院,北京 100029;2.中咨數(shù)據(jù)有限公司,北京 100097)
隨著公路旅客出行方式的多樣化,傳統(tǒng)公路客運(yùn)量統(tǒng)計(jì)因主要以營(yíng)業(yè)性客運(yùn)班線為基礎(chǔ),存在統(tǒng)計(jì)口徑小、覆蓋范圍不全等問(wèn)題,而難以全面反映當(dāng)前公路旅客出行實(shí)際情況,無(wú)法為行業(yè)發(fā)展提供科學(xué)的數(shù)據(jù)支撐。相比而言,手機(jī)信令數(shù)據(jù)具有樣本量大、覆蓋面廣的特點(diǎn),基于手機(jī)信令數(shù)據(jù)研究全社會(huì)公路旅客出行量測(cè)算方法,對(duì)完善公路旅客出行量統(tǒng)計(jì)方法,提高相關(guān)統(tǒng)計(jì)的準(zhǔn)確性和全面性具有重要意義。
在交通運(yùn)輸領(lǐng)域,國(guó)外基于手機(jī)信令數(shù)據(jù)的研究重點(diǎn)關(guān)注OD 出行量推算、出行速度計(jì)算、出行路徑規(guī)劃及出行方式識(shí)別等方面。如Caceres等[1]通過(guò)GSM 通信系統(tǒng)和手機(jī)定位數(shù)據(jù)提取用戶(hù)出行OD 數(shù)據(jù);Rorije[2]將手機(jī)定位數(shù)據(jù)作為傳統(tǒng)OD 調(diào)查的輔助手段之一,并用獲取的OD 矩陣進(jìn)行校核;González 等[3]通過(guò)統(tǒng)計(jì)100 000 人連續(xù)6個(gè)月的手機(jī)定位數(shù)據(jù),對(duì)人們的出行目的和軌跡進(jìn)行了研究;Yehuda 等[4]基于手機(jī)定位數(shù)據(jù)構(gòu)建了城際交通規(guī)劃模型,并將手機(jī)定位數(shù)據(jù)分析結(jié)果用于居民出行表的建立;Bloch 等[5]通過(guò)提取手機(jī)信令數(shù)據(jù)中的位置數(shù)據(jù)和傳感器中的平均速度、平均加速度等數(shù)據(jù),構(gòu)建了基于神經(jīng)網(wǎng)絡(luò)和決策樹(shù)的居民出行方式識(shí)別模型;Calabrese 等[6]通過(guò)識(shí)別次級(jí)出行鏈并根據(jù)用戶(hù)定義時(shí)間、空間閾值,來(lái)識(shí)別手機(jī)用戶(hù)的停留位置;Schlaich等[7]基于手機(jī)定位數(shù)據(jù)推導(dǎo)出用戶(hù)出行位置區(qū)域序列,并將其與高速公路路線進(jìn)行比較,生成高速公路出行軌跡;Tettamanti 等[8]以手機(jī)信令數(shù)據(jù)為基礎(chǔ),利用路由分配技術(shù),預(yù)測(cè)用戶(hù)出行路徑。
國(guó)內(nèi)相關(guān)研究重點(diǎn)關(guān)注出行OD 出行量推算、交通流量計(jì)算、出行路徑規(guī)劃、出行方式識(shí)別、出行特征分析等方面。如冉斌[9]詳細(xì)分析了從手機(jī)話單數(shù)據(jù)和信令數(shù)據(jù)中提取天津市居民出行特征的過(guò)程;賈會(huì)林等[10]詳細(xì)介紹了基于手機(jī)信令數(shù)據(jù)處理平臺(tái)的北京人口分布調(diào)查統(tǒng)計(jì)方法;胡斌杰等[11]利用手機(jī)信令數(shù)據(jù)對(duì)保定市的道路交通流量狀態(tài)進(jìn)行了識(shí)別和預(yù)測(cè);Yuan 等[12]利用手機(jī)切換定位技術(shù)獲取北京用戶(hù)手機(jī)定位數(shù)據(jù),并對(duì)其交通運(yùn)行速度進(jìn)行估算;倪玲霖等[13]基于手機(jī)信令數(shù)據(jù)構(gòu)建了影響杭州居民OD 出行量的空間自相關(guān)模型;Duan 等[14]根據(jù)手機(jī)信令數(shù)據(jù)對(duì)上海市通勤出行OD 矩陣進(jìn)行了估算;賴(lài)見(jiàn)輝等[15]利用手機(jī)信令數(shù)據(jù)分析了北京用戶(hù)的地鐵出行路徑;毛曉汶[16]基于手機(jī)信令數(shù)據(jù)對(duì)重慶市出行OD分布、出行目的地分布和出行時(shí)間分布等出行特征進(jìn)行了研究;李佳[17]通過(guò)對(duì)手機(jī)定位點(diǎn)的時(shí)空信息挖掘,構(gòu)建了昆明用戶(hù)出行識(shí)別模型,用于識(shí)別用戶(hù)停留點(diǎn)和停留時(shí)間,最終獲得用戶(hù)出行信息;李祖芬等[18]基于手機(jī)信令定位數(shù)據(jù)設(shè)計(jì)了北京居民出行時(shí)空分布特征提取方法。
總體來(lái)看,國(guó)內(nèi)外現(xiàn)有關(guān)于手機(jī)信令數(shù)據(jù)在交通領(lǐng)域的應(yīng)用研究多以某個(gè)城市為研究對(duì)象,以O(shè)D 出行量推算、出行軌跡識(shí)別、出行特征分析等為研究重點(diǎn),缺少對(duì)省級(jí)以上區(qū)域間公路旅客出行量統(tǒng)計(jì)方法的研究。本文將以京津冀地區(qū)為試點(diǎn)區(qū)域,運(yùn)用手機(jī)信令數(shù)據(jù)搭建“一次出行”模型,對(duì)京津冀全社會(huì)公路旅客出行量進(jìn)行測(cè)算,以提高相關(guān)統(tǒng)計(jì)數(shù)據(jù)的全面性和準(zhǔn)確性,為決策提供數(shù)據(jù)支撐。
手機(jī)終端會(huì)主動(dòng)或被動(dòng)地、定期或不定期地和移動(dòng)通信網(wǎng)絡(luò)保持聯(lián)系,而移動(dòng)通信網(wǎng)絡(luò)將這些聯(lián)系識(shí)別為一系列的控制指令,即為手機(jī)信令。一條完整的手機(jī)信令數(shù)據(jù)包括諸多數(shù)據(jù)字段信息。字段具體含義如表1所示,其中MSID是移動(dòng)運(yùn)營(yíng)商對(duì)每個(gè)手機(jī)用戶(hù)的編號(hào),加密且唯一;位置區(qū)(LA)以往通常以一個(gè)縣或區(qū)的行政范圍進(jìn)行劃分,現(xiàn)在以尋呼量進(jìn)行劃分;小區(qū)編號(hào)(Cell-ID),即移動(dòng)臺(tái)所在的基站(Cell)編號(hào);事件類(lèi)型(Event-ID)是信令產(chǎn)生的類(lèi)型。
表1 手機(jī)信令數(shù)據(jù)各字段的名稱(chēng)及含義
手機(jī)信令數(shù)據(jù)因具有以下優(yōu)勢(shì)而適用于交通運(yùn)輸出行量統(tǒng)計(jì):
(1)顆粒度適中。手機(jī)信令數(shù)據(jù)定位精度與移動(dòng)通信基站覆蓋范圍相關(guān),在人口密集的城區(qū)可達(dá)250m,在人口稀疏的郊區(qū)一般為2000~3000m,能有效反映旅客跨城市出行特征。
(2)客觀性強(qiáng)。手機(jī)信令數(shù)據(jù)伴隨用戶(hù)使用手機(jī)時(shí)產(chǎn)生,不受用戶(hù)主觀意愿干擾,能客觀反映用戶(hù)所在位置信息,可視為簡(jiǎn)單隨機(jī)抽樣。
(3)樣本量大。截至2020 年6 月底,中國(guó)三大基礎(chǔ)電信企業(yè)的移動(dòng)電話用戶(hù)總數(shù)達(dá)15.95 億。海量的移動(dòng)電話用戶(hù)群體,能反映全社會(huì)旅客的出行規(guī)律。
(4)覆蓋面廣。手機(jī)信令數(shù)據(jù)能反映用戶(hù)的客觀位置時(shí)空變化,既包括采用鐵路、公路、水路、民航等各種交通運(yùn)輸方式的出行,又包括營(yíng)業(yè)性和非營(yíng)業(yè)性出行,能更全面地反映全社會(huì)出行規(guī)律與出行總量。
(5)綜合效益高。與傳統(tǒng)的出行問(wèn)卷調(diào)查相比,基于手機(jī)信令數(shù)據(jù)的出行統(tǒng)計(jì)具有成本更低、耗時(shí)更短、無(wú)需外業(yè)、可隨時(shí)更新、綜合效益更高等優(yōu)點(diǎn)。
我國(guó)手機(jī)信令數(shù)據(jù)由基礎(chǔ)電信企業(yè)運(yùn)營(yíng)管理(見(jiàn)表2)。當(dāng)前中國(guó)移動(dòng)、中國(guó)聯(lián)通、中國(guó)電信提供的數(shù)據(jù)服務(wù)模式包括數(shù)據(jù)定制處理服務(wù)和數(shù)據(jù)開(kāi)放共享服務(wù)。數(shù)據(jù)定制處理服務(wù)是運(yùn)營(yíng)商根據(jù)客戶(hù)需求,進(jìn)行數(shù)據(jù)加密處理,向客戶(hù)提供處理后的數(shù)據(jù),按照數(shù)據(jù)量、城市大小、城市數(shù)量、處理難度等進(jìn)行定價(jià)銷(xiāo)售,在用于單指標(biāo)、低維度、小時(shí)間尺度分析時(shí)具有價(jià)格優(yōu)勢(shì);數(shù)據(jù)開(kāi)放共享服務(wù)是運(yùn)營(yíng)商對(duì)數(shù)據(jù)進(jìn)行脫敏處理后,向用戶(hù)限時(shí)開(kāi)放數(shù)據(jù)使用權(quán)限,用戶(hù)可以將算法部署于運(yùn)營(yíng)商服務(wù)器中,自主進(jìn)行算法設(shè)計(jì)、數(shù)據(jù)處理、成果輸出,按照數(shù)據(jù)量、數(shù)據(jù)使用權(quán)限開(kāi)放月數(shù)、城市大小、城市數(shù)量等進(jìn)行定價(jià)銷(xiāo)售,在用于多指標(biāo)、多維度、大時(shí)間尺度分析時(shí)具有價(jià)格優(yōu)勢(shì)。
表2 中國(guó)三大基礎(chǔ)電信企業(yè)對(duì)比(更新至2020年10月)
由表2 可知,在市場(chǎng)占比方面,中國(guó)移動(dòng)遙遙領(lǐng)先,但其沒(méi)有統(tǒng)一的全國(guó)數(shù)據(jù)中心,手機(jī)信令數(shù)據(jù)歸屬于各省分公司,若想獲取跨省范圍的手機(jī)信令數(shù)據(jù)需與各省分公司協(xié)調(diào)購(gòu)買(mǎi),溝通成本高,且需對(duì)不同公司數(shù)據(jù)格式進(jìn)行統(tǒng)一處理。中國(guó)聯(lián)通與中國(guó)電信都具有全國(guó)數(shù)據(jù)中心,若想獲取跨省范圍的手機(jī)信令數(shù)據(jù)只需與全國(guó)數(shù)據(jù)中心協(xié)調(diào)購(gòu)買(mǎi),溝通成本低,數(shù)據(jù)格式統(tǒng)一。中國(guó)電信雖然在市場(chǎng)占比方面不如中國(guó)聯(lián)通,但其用戶(hù)同樣遍及全國(guó),覆蓋每個(gè)年齡段,足夠支撐相關(guān)研究工作,同時(shí)價(jià)格遠(yuǎn)低于中國(guó)聯(lián)通。綜合考慮上述因素,本文選擇購(gòu)買(mǎi)中國(guó)電信2017 年11月京津冀地區(qū)的手機(jī)信令數(shù)據(jù)3 個(gè)月使用權(quán)限,用于全社會(huì)公路旅客出行量測(cè)算方法研究。
使用手機(jī)信令數(shù)據(jù)進(jìn)行計(jì)算前,要對(duì)手機(jī)信令數(shù)據(jù)質(zhì)量加以評(píng)估并進(jìn)行預(yù)處理。
1.4.1 手機(jī)信令數(shù)據(jù)質(zhì)量評(píng)估
在對(duì)手機(jī)信令數(shù)據(jù)預(yù)處理時(shí),首先要對(duì)數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估,防止因存儲(chǔ)、傳輸?shù)仍驅(qū)е碌臄?shù)據(jù)總量缺失而影響出行量測(cè)算精準(zhǔn)度。手機(jī)信令數(shù)據(jù)質(zhì)量評(píng)估主要根據(jù)手機(jī)信令數(shù)據(jù),按日和城市統(tǒng)計(jì)手機(jī)識(shí)別號(hào)MSID,結(jié)合各省統(tǒng)計(jì)局發(fā)布的城市常住人口數(shù)、運(yùn)營(yíng)商在該城市的市場(chǎng)占有率,評(píng)估每日手機(jī)信令數(shù)據(jù)量的合理性。
1.4.2 數(shù)據(jù)清洗
手機(jī)信令數(shù)據(jù)經(jīng)過(guò)質(zhì)量評(píng)估后,要對(duì)存在缺失、重復(fù)、潛在定位錯(cuò)誤及產(chǎn)生“乒乓切換”現(xiàn)象等的數(shù)據(jù)進(jìn)行清洗,即按照一定的清洗原則,對(duì)可能影響后續(xù)數(shù)據(jù)分析準(zhǔn)確性的數(shù)據(jù)進(jìn)行刪除或修復(fù)等處理。
(1)缺失數(shù)據(jù)過(guò)濾
將手機(jī)識(shí)別號(hào)MSID、時(shí)間戳TimeStamp 和蜂窩小區(qū)編號(hào)Cell-ID 定義為3 個(gè)關(guān)鍵字段,對(duì)信令數(shù)據(jù)表進(jìn)行輪巡,將字段為空值的記錄視為缺失數(shù)據(jù),直接予以刪除。
(2)重復(fù)數(shù)據(jù)過(guò)濾
將手機(jī)識(shí)別號(hào)MSID、時(shí)間戳TimeStamp 和蜂窩小區(qū)編號(hào)Cell-ID 這3 個(gè)關(guān)鍵字段都相同的記錄定義為重復(fù)數(shù)據(jù),僅保留其中1 條記錄,而將其他重復(fù)數(shù)據(jù)直接刪除。
(3)失敗數(shù)據(jù)過(guò)濾
事件類(lèi)型Event-ID 字段主要記錄手機(jī)信令數(shù)據(jù)的類(lèi)型[19],其中可能存在失敗類(lèi)型的數(shù)據(jù)(見(jiàn)表3)。這種情況下,手機(jī)信令數(shù)據(jù)不一定能反映用戶(hù)的真實(shí)位置,需要將其剔除。
表3 手機(jī)信令數(shù)據(jù)的事件類(lèi)型Event-ID字段及其含義(部分)
(4)“乒乓數(shù)據(jù)”清洗
在2 個(gè)或2 個(gè)以上基站小區(qū)的交界處,往往會(huì)被多個(gè)基站信號(hào)覆蓋,且不同基站信號(hào)強(qiáng)度差異并不明顯,使得手機(jī)信號(hào)在不同基站之間來(lái)回切換,但實(shí)際上手機(jī)用戶(hù)并未移動(dòng)。這種現(xiàn)象稱(chēng)為“乒乓切換”現(xiàn)象,由此產(chǎn)生的數(shù)據(jù)稱(chēng)為“乒乓數(shù)據(jù)”。“乒乓切換”現(xiàn)象會(huì)導(dǎo)致出現(xiàn)大量失真且冗余的數(shù)據(jù),對(duì)此可通過(guò)設(shè)計(jì)識(shí)別與過(guò)濾算法將其過(guò)濾。
基于移動(dòng)通信網(wǎng)絡(luò)有多種定位技術(shù),其中應(yīng)用廣泛、成本較低、精度較高的主要有基于蜂窩小區(qū)標(biāo)號(hào)Cell-ID 定位技術(shù)、基于Cell-ID 和TA定位技術(shù)、基于AOA 定位技術(shù)及基于TOA 定位技術(shù)[20]?;贑ell-ID 定位技術(shù)起源于蜂窩小區(qū)(Cell of Origin,COO)定位技術(shù),要求每個(gè)小區(qū)都有1 個(gè)特定的識(shí)別號(hào)(Cell-ID)。該技術(shù)的定位原理如圖1 所示,當(dāng)移動(dòng)終端進(jìn)入小區(qū)時(shí)要在當(dāng)前小區(qū)注冊(cè),然后系統(tǒng)會(huì)自動(dòng)記錄小區(qū)ID標(biāo)識(shí)數(shù)據(jù),并通過(guò)小區(qū)識(shí)別號(hào)的位置信息來(lái)確定移動(dòng)終端的位置。該技術(shù)精度取決于蜂窩小區(qū)的半徑大小,通常從幾百米到幾千米不等。在農(nóng)村,小區(qū)覆蓋范圍很大,定位精度很低;在城市,小區(qū)覆蓋范圍小,精度為幾百米量級(jí)。
圖1 Cell-ID定位技術(shù)原理圖
基于Cell-ID 的定位技術(shù)實(shí)現(xiàn)方法簡(jiǎn)單,不需要手機(jī)終端提供任何信息,也無(wú)需對(duì)網(wǎng)絡(luò)改造,只需在網(wǎng)絡(luò)側(cè)加裝定位流程處理即可。與其他技術(shù)相比,基于Cell-ID的定位技術(shù)精度最低,投資也較低,目前在移動(dòng)網(wǎng)絡(luò)中被廣泛應(yīng)用。本研究中旅客出行類(lèi)型為跨區(qū)縣出行,對(duì)定位精度要求不高,無(wú)需特別精確,且由于研究范圍為京津冀地區(qū),數(shù)據(jù)量較大,為了減少計(jì)算量,本文采用基于蜂窩小區(qū)標(biāo)號(hào)Cell-ID定位技術(shù),將信令數(shù)據(jù)中的移動(dòng)通信基站信息轉(zhuǎn)換成經(jīng)緯度信息,實(shí)現(xiàn)用戶(hù)位置識(shí)別,獲得具有時(shí)空信息的用戶(hù)出行數(shù)據(jù)。
將用戶(hù)出行數(shù)據(jù)按手機(jī)識(shí)別號(hào)MSID 進(jìn)行分組,每組按信令發(fā)生時(shí)間升序排列,即可生成每位用戶(hù)的定位軌跡鏈。在用戶(hù)定位軌跡鏈中,某些地點(diǎn)駐留時(shí)間較長(zhǎng),如工作單位、家、商場(chǎng)、學(xué)校等,此類(lèi)點(diǎn)即視為駐留點(diǎn)。當(dāng)相鄰兩個(gè)駐留點(diǎn)間距超過(guò)設(shè)定的駐留距離閾值δ(本文取δ為500m,即考慮公路出行的距離下限為500m)時(shí),將這兩個(gè)駐留點(diǎn)定義為旅客出行的起終點(diǎn),兩次駐留點(diǎn)之間的出行,即為一次旅客出行,如圖2中的R1→R2。
圖2 用戶(hù)定位軌跡圖
2.2.1 駐留點(diǎn)類(lèi)型
駐留點(diǎn)可分為兩種類(lèi)型:
(1)旅客定位軌跡中的某個(gè)點(diǎn)。旅客在某點(diǎn)長(zhǎng)時(shí)間未產(chǎn)生位置移動(dòng),且在該點(diǎn)的停留時(shí)間超過(guò)設(shè)定的駐留時(shí)間閾值,則將該點(diǎn)既視為定位點(diǎn),又視為駐留點(diǎn),如圖2中的P2(R1)。
(2)旅客定位軌跡中某幾個(gè)點(diǎn)的幾何中心。如果某兩個(gè)相鄰定位點(diǎn)之間距離較小、移動(dòng)時(shí)間較短(如圖2 中的P4→P5,P5→P6),則可認(rèn)為用戶(hù)在這個(gè)區(qū)域內(nèi)小范圍移動(dòng),或因定位誤差產(chǎn)生類(lèi)似用戶(hù)位置移動(dòng)的效果,此類(lèi)定位點(diǎn)形成區(qū)域稱(chēng)為駐留區(qū)域。當(dāng)用戶(hù)在該駐留區(qū)域的停留時(shí)間超過(guò)設(shè)定的駐留時(shí)間閾值時(shí),將該區(qū)域的幾何中心點(diǎn)定為駐留點(diǎn),如圖2中的R2。
2.2.2 駐留點(diǎn)識(shí)別算法
駐留點(diǎn)識(shí)別算法分為以下步驟:
(1)對(duì)于經(jīng)過(guò)預(yù)處理后用戶(hù)數(shù)為N的手機(jī)信令數(shù)據(jù),按照手機(jī)識(shí)別號(hào)MSID 進(jìn)行排序,得到排序后每位用戶(hù)產(chǎn)生的信令數(shù)據(jù)Di(i=1,2,…,N)(i為用戶(hù)序號(hào)),接著提取用戶(hù)i在1d內(nèi)的所有數(shù)據(jù),按照時(shí)間升序排列,排列后的數(shù)據(jù)為(i=1,2,…,N;j=1,2,…,Mi)(j為定位數(shù)據(jù)序號(hào);Mi為用戶(hù)i的數(shù)據(jù)記錄數(shù);i意義同前)。
(2)順序選取中相鄰兩條數(shù)據(jù)(i=1,2,…,N;k=1,2,…,Mi-1),計(jì)算二者的時(shí)間差(i=1,2,…,N;k=1,2,…,Mi-1)和距離(i=1,2,…,N;k=1,2,…,Mi-1),若≥τ(τ為駐留時(shí)間閾值),則保留兩條數(shù)據(jù);若<τ且≤δ,則將兩條數(shù)據(jù)合并;若<τ且>δ,則進(jìn)入下一步驟。
(3)計(jì)算用戶(hù)從到的速度=,若>vmax(取vmax=800km/h,參考民航最大飛行速度),則刪除數(shù)據(jù);若,則保留兩條數(shù)據(jù)。
(4)對(duì)(i=1,2,…,N;j=1,2,…,Mi)中 的數(shù)據(jù)重復(fù)進(jìn)行步驟(2)和步驟(3),直到剩下的記錄全部無(wú)法刪除,則剩余記錄的位置即為駐留點(diǎn)。
本文研究對(duì)象為公路出行,因此需構(gòu)建旅客出行方式判別方法以區(qū)分鐵路、公路、水路、民航等出行方式,剔除非公路出行數(shù)據(jù)。通過(guò)歸納分析,不同出行方式的特征如表4所示。
表4 不同交通方式出行特征
根據(jù)表4所示,旅客出行方式特征總結(jié)如下:
(1)鐵路:存在百人以上同向同線形移動(dòng),平均速度超過(guò)60km/h,最高速度不超過(guò)350km/h。
(2)公路:不存在百人以上同向同線形移動(dòng),平均速度小于120km/h。
(3)水路:水域上移動(dòng),平均速度小于30km/h。
(4)民航:信令數(shù)據(jù)中存在開(kāi)機(jī)、關(guān)機(jī)事件信令,且開(kāi)關(guān)機(jī)時(shí)位置發(fā)生大區(qū)域移動(dòng),平均速度超過(guò)400km/h。
根據(jù)以上不同交通方式出行特征,同時(shí)結(jié)合手機(jī)信令數(shù)據(jù)的特點(diǎn),可得旅客出行方式判別流程如圖3所示。
圖3 旅客出行方式判別流程
本研究主要針對(duì)公路出行,不包括城市道路出行,故有必要將研究區(qū)域劃分為城區(qū)和非城區(qū)。在進(jìn)行手機(jī)信令數(shù)據(jù)統(tǒng)計(jì)時(shí),將城區(qū)到非城區(qū)、非城區(qū)到非城區(qū)、跨城市、跨省出行視為公路出行,納入統(tǒng)計(jì)范圍;將城區(qū)范圍內(nèi)出行視為城市道路出行,不納入統(tǒng)計(jì)范圍。
國(guó)家統(tǒng)計(jì)局自2009 年11 月25 日印發(fā)《統(tǒng)計(jì)用區(qū)劃代碼和城鄉(xiāng)劃分代碼編制規(guī)則》(國(guó)統(tǒng)字〔2009〕91 號(hào))后,每年發(fā)布精確到村級(jí)行政單元的城鄉(xiāng)統(tǒng)計(jì)代碼。該代碼分為17 位,第15~17位為城鄉(xiāng)分類(lèi)代碼,111表示主城區(qū),112表示城鄉(xiāng)結(jié)合區(qū),121表示鎮(zhèn)中心區(qū),122表示鎮(zhèn)鄉(xiāng)結(jié)合區(qū),123 表示特殊區(qū)域,210 表示鄉(xiāng)中心區(qū),220表示村莊。本文判斷城區(qū)范圍的方法是,在一個(gè)區(qū)縣內(nèi),當(dāng)主城區(qū)和城鄉(xiāng)結(jié)合區(qū)的比例超過(guò)村級(jí)行政單元總數(shù)的70%時(shí),視為城區(qū)。凡是起終點(diǎn)均落在城區(qū)范圍的出行量將被剔除,從而得到城區(qū)外公路旅客出行量。
手機(jī)信令數(shù)據(jù)可直觀反映手機(jī)的位置信息,單一通信運(yùn)營(yíng)商的手機(jī)信令數(shù)據(jù)無(wú)法直接代表所有公路出行旅客,需要通過(guò)多層數(shù)據(jù)擴(kuò)樣[21],才能反映全社會(huì)旅客出行信息,具體維度包括:從手機(jī)到手機(jī)用戶(hù)的擴(kuò)樣、從單一運(yùn)營(yíng)商到全體運(yùn)營(yíng)商的擴(kuò)樣、從手機(jī)用戶(hù)到全社會(huì)的擴(kuò)樣。從手機(jī)到手機(jī)用戶(hù)的擴(kuò)樣是對(duì)我國(guó)手機(jī)現(xiàn)狀進(jìn)行分析,在數(shù)據(jù)處理時(shí)排除一人擁有多部手機(jī)和閑置手機(jī)產(chǎn)生的數(shù)據(jù)干擾。從單一運(yùn)營(yíng)商到全體運(yùn)營(yíng)商的擴(kuò)樣是根據(jù)各城市運(yùn)營(yíng)商的市場(chǎng)占有率、用戶(hù)覆蓋率、手機(jī)識(shí)別率等數(shù)據(jù),從單一運(yùn)營(yíng)商擴(kuò)樣至全體運(yùn)營(yíng)商。從手機(jī)用戶(hù)到全社會(huì)的擴(kuò)樣是針對(duì)無(wú)手機(jī)用戶(hù)(如部分老人、小孩等)的擴(kuò)樣,該部分人群的出行無(wú)法通過(guò)手機(jī)信令數(shù)據(jù)直接反映,需要根據(jù)城市常住人口、年齡結(jié)構(gòu)、出行調(diào)查等信息,擴(kuò)樣補(bǔ)全該部分人群出行量。
本研究所用數(shù)據(jù)擴(kuò)樣方法是將統(tǒng)計(jì)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、人工智能話單數(shù)據(jù)相結(jié)合,以電信手機(jī)用戶(hù)為源頭,首先識(shí)別用戶(hù)所在位置,然后通過(guò)卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí),將用戶(hù)位置、通話時(shí)間、通話時(shí)長(zhǎng)等因素與通話對(duì)象位置(包括移動(dòng)、電信、聯(lián)通用戶(hù))建立聯(lián)系以估計(jì)區(qū)域三網(wǎng)占比,最后以工信部公布的區(qū)縣三網(wǎng)實(shí)際占比對(duì)估計(jì)值進(jìn)行誤差校驗(yàn)。
按照統(tǒng)計(jì)范圍和城鄉(xiāng)劃分原則,本文基于中國(guó)電信2017 年11 月手機(jī)信令數(shù)據(jù),將京津冀全社會(huì)公路出行劃分為市級(jí)以?xún)?nèi)出行(不含城區(qū)內(nèi)部出行)、省級(jí)以?xún)?nèi)跨市出行及跨省出行,分別對(duì)其進(jìn)行出行量測(cè)算與統(tǒng)計(jì),結(jié)果如表5所示。由該表可知,利用該方法的測(cè)算結(jié)果為:2017 年11 月,京津冀全社會(huì)公路旅客出行量為5.3 億人次。
表5 基于手機(jī)信令數(shù)據(jù)的2017年11月京津冀全社會(huì)公路旅客出行量
(1)自校核
在對(duì)數(shù)據(jù)質(zhì)量評(píng)估時(shí),本文對(duì)數(shù)據(jù)中間成果進(jìn)行了驗(yàn)證評(píng)估,具體方法包括出行人群性別結(jié)構(gòu)評(píng)估法和出行人群年齡結(jié)構(gòu)評(píng)估法。
采用出行人群性別結(jié)構(gòu)評(píng)估法對(duì)北京市、天津市、河北省出行人群性別結(jié)構(gòu)進(jìn)行分析評(píng)估。分析結(jié)果顯示,在數(shù)據(jù)時(shí)間范圍內(nèi),出行人群性別結(jié)構(gòu)基本穩(wěn)定(以北京市為例,如圖4所示),沒(méi)有發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題。
圖4 基于手機(jī)信令數(shù)據(jù)的2017年11月北京市公路出行人群性別結(jié)構(gòu)
采用出行人群年齡結(jié)構(gòu)評(píng)估法對(duì)北京市、天津市、河北省出行人群年齡結(jié)構(gòu)進(jìn)行分析評(píng)估。分析結(jié)果顯示,在數(shù)據(jù)時(shí)間范圍內(nèi),出行人群年齡結(jié)構(gòu)同樣保持穩(wěn)定(以北京市為例,如圖5 所示),沒(méi)有發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題。
圖5 基于手機(jī)信令數(shù)據(jù)的2017年11月北京市公路出行人群年齡結(jié)構(gòu)
(2)外部校核
將本次測(cè)算結(jié)果與官方發(fā)布的2017 年11 月公路旅客運(yùn)輸量統(tǒng)計(jì)數(shù)據(jù)進(jìn)行對(duì)比,如表6所示。
表6 基于手機(jī)信令數(shù)據(jù)的公路旅客出行量與官方發(fā)布的公路營(yíng)業(yè)性客運(yùn)量對(duì)比
對(duì)比發(fā)現(xiàn),基于手機(jī)信令數(shù)據(jù)測(cè)算的京津冀公路出行量是官方發(fā)布的公路營(yíng)業(yè)性客運(yùn)量的6.68 倍,即手機(jī)信令公路出行量中非營(yíng)業(yè)性客運(yùn)量與營(yíng)業(yè)性客運(yùn)量之比為5.68∶1。手機(jī)信令測(cè)算數(shù)據(jù)大于營(yíng)運(yùn)性數(shù)據(jù)的原因在于手機(jī)信令數(shù)據(jù)包含營(yíng)業(yè)性與非營(yíng)業(yè)性車(chē)輛,傳統(tǒng)公路客運(yùn)量統(tǒng)計(jì)更多基于班線客車(chē)、城鄉(xiāng)巴士等營(yíng)業(yè)性客運(yùn)量測(cè)算,缺乏以私家車(chē)為主的公路非營(yíng)業(yè)性客運(yùn);手機(jī)信令測(cè)算的出行量包括私家車(chē)、網(wǎng)約車(chē)、摩托車(chē)、電動(dòng)車(chē)、貨車(chē)及城市以外運(yùn)營(yíng)的城市公交、出租車(chē)等各種行駛速度相近的交通工具旅客出行量,故導(dǎo)致測(cè)算結(jié)果較大。
基于手機(jī)信令數(shù)據(jù)的全社會(huì)公路旅客出行量測(cè)算方法能直觀反映“人-出行”的交通運(yùn)輸機(jī)理,避免了“車(chē)-出行”的實(shí)載率估計(jì)、道路重復(fù)選擇等固有系統(tǒng)誤差,擴(kuò)大了現(xiàn)有交通運(yùn)輸公路客運(yùn)行業(yè)統(tǒng)計(jì)體系的覆蓋范圍,可全面反映全社會(huì)公路旅客出行情況,也客觀反映出我國(guó)公路網(wǎng)在綜合交通運(yùn)輸中的突出貢獻(xiàn),在跨城市出行統(tǒng)計(jì)方面比傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)更具優(yōu)勢(shì)。
本文以京津冀地區(qū)為例,采用2017 年11 月的中國(guó)電信手機(jī)信令數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)預(yù)處理、用戶(hù)位置識(shí)別、旅客出行判斷、出行方式判別、城區(qū)范圍劃分、多層數(shù)據(jù)擴(kuò)樣,建立了基于手機(jī)信令數(shù)據(jù)的全社會(huì)旅客出行量測(cè)算方法,最后對(duì)測(cè)算結(jié)果進(jìn)行校核。結(jié)果表明,本文的測(cè)算方法合理可行,在擴(kuò)展公路旅客出行量統(tǒng)計(jì)方法方面發(fā)揮了積極作用,可為下一步全面開(kāi)展全國(guó)范圍內(nèi)的公路旅客出行量測(cè)算提供參考。
因手機(jī)信令數(shù)據(jù)使用權(quán)限時(shí)長(zhǎng)和計(jì)算機(jī)算力限制,本研究在駐留閾值設(shè)置、用戶(hù)出行方式判別、測(cè)算結(jié)果校核方面尚有不足。未來(lái),移動(dòng)通信將進(jìn)入5G 時(shí)代,信令定位將更精確,通信小區(qū)切換將更頻繁,信令數(shù)據(jù)量更大,在條件許可的情況下,考慮設(shè)計(jì)基于城市規(guī)模、人口等因素的駐留距離閾值,探索更加精確的出行方式識(shí)別方法,并加強(qiáng)測(cè)算成果校核的輔助手段補(bǔ)充與校核,以提高測(cè)算的準(zhǔn)確性,為行業(yè)治理與發(fā)展提供更有力的統(tǒng)計(jì)數(shù)據(jù)支撐。