張 政,陳艷艷*,梁天聞
(1.北京工業(yè)大學城市交通學院,北京100124;2.交通運輸部公路科學研究院,北京100088)
城市用地類型決定交通出行形態(tài),影響人們的生活方式,并隨著城市發(fā)展變化而變化[1].城市用地規(guī)劃圖不僅難以獲取城市交通小區(qū)內(nèi)各用地類型占比,也難以支撐實時交通需求分析.公交IC卡、網(wǎng)約車等時空出行數(shù)據(jù),使根據(jù)出行特征采用機器學習方法研究城市區(qū)域用地成為可能.根據(jù)時空數(shù)據(jù)集的不同,城市用地特征分布推測方法可分為有監(jiān)督和無監(jiān)督兩種方法.無監(jiān)督方法利用無標簽數(shù)據(jù),采用數(shù)據(jù)挖掘方法得到區(qū)域出行特征,賦予該區(qū)域用地特征含義.LIU Y.[2]根據(jù)區(qū)域內(nèi)巡游車供需差不同水平反映不同用地關(guān)系,構(gòu)建上下車平衡向量判斷城市內(nèi)的用地類型.PAN G.[3]采用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚類方法對巡游車軌跡信息進行聚類,根據(jù)聚類的區(qū)域出行特征賦予不同區(qū)域居住、辦公等土地利用特征.有監(jiān)督方法主要根據(jù)標簽數(shù)據(jù)利用機器學習方法對均分的網(wǎng)格化城市區(qū)域用地類型推測.TOOLE J.[4]根據(jù)手機話單數(shù)據(jù)統(tǒng)計得到城市網(wǎng)格內(nèi)人群特征,利用隨機森林算法,推測城市網(wǎng)格化空間內(nèi)的土地利用特征.ZHAN X.[5]利用社交網(wǎng)絡(luò)簽到數(shù)據(jù)比較有監(jiān)督和無監(jiān)督兩種方法,基于有標簽數(shù)據(jù)的隨機森林方法對用地類型的推測能夠取得較好效果. 人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)因處理高維復雜數(shù)據(jù)方面的優(yōu)勢,逐漸被用來推測城市用地特征.ZHAO J.[6]利用ANN方法對公共自行車站點周邊各種用地特征分布進行預測.人工神經(jīng)網(wǎng)絡(luò)方法對用地類型預測精度有較大提升,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是神經(jīng)網(wǎng)絡(luò)的擴展,處理交通時空數(shù)據(jù)時,能夠捕獲空間依賴性對推測結(jié)果的影響.MA X.[7]將路網(wǎng)速度看作圖像,構(gòu)建CNN 網(wǎng)絡(luò)提取路網(wǎng)速度時空特征,對路網(wǎng)交通速度進行預測.城市相鄰區(qū)域內(nèi)土地利用特征具有相似性,現(xiàn)有機器學習方法較難考慮相鄰區(qū)域用地類型特征對結(jié)果的影響,缺乏對交通小區(qū)內(nèi)多種混合用地類型分布同時推測.
本文采用常規(guī)公交和軌道交通組成的公交出行數(shù)據(jù)集和網(wǎng)約車出行數(shù)據(jù)集,構(gòu)建基于CNN 的深度學習模型,對城市交通小區(qū)內(nèi)居住、工作和休閑用地類型占比進行推斷.按照某一時間間隔將公交出行數(shù)據(jù)集和網(wǎng)約車出行數(shù)據(jù)集聚集到交通小區(qū),選取交通小區(qū)產(chǎn)生強度、吸引強度和產(chǎn)吸強度差組成時空特征矩陣,并用興趣點數(shù)據(jù)對小區(qū)內(nèi)用地類型進行標注,將時空特征矩陣和標注數(shù)據(jù)作為CNN 模型輸入;確定CNN 結(jié)構(gòu)后,利用構(gòu)建模型對北京市六環(huán)以內(nèi)交通小區(qū)內(nèi)各用地類型進行推斷.
交通小區(qū)單位時間內(nèi)乘客產(chǎn)生量和吸引量能夠反映該小區(qū)內(nèi)用地特征[3],利用公交IC卡數(shù)據(jù)和網(wǎng)約車訂單數(shù)據(jù),提取交通小區(qū)層面的出行特征,用于CNN模型輸入.公交IC卡數(shù)據(jù)包括地面公交和軌道交通用戶刷卡數(shù)據(jù),記錄出行者匿名ID,出行起終點經(jīng)緯度,線路及站點編號和時間戳.將個體在公交系統(tǒng)中完整出行鏈路信息融合,得到個體公交出行鏈[8],但公交站點在城市區(qū)域內(nèi)位置固定,不能反映所有交通小區(qū)出行特征.網(wǎng)約車上下車位置不受限,故利用網(wǎng)約車訂單數(shù)據(jù)為輔助數(shù)據(jù)作為模型輸入.網(wǎng)約車訂單數(shù)據(jù)記錄出行者匿名ID,起終點經(jīng)緯度和時間戳等.將公交出行鏈和網(wǎng)約車訂單起終點坐標數(shù)據(jù)與城市交通小區(qū)進行空間匹配,得到表1所示樣例數(shù)據(jù)集.
表1 出行特征樣例數(shù)據(jù)Table 1 Sample of bus-chain and car-hailing dataset
按照1 h間隔,將出行OD數(shù)據(jù)集聚,選取交通小區(qū)層面需求發(fā)生強度,吸引強度,以及發(fā)生和吸引強度差作為CNN模型輸入特征.
特征計算方法如下:對于任一小區(qū)zi,i={1 ,2,…,m} ,在第j個時間間隔內(nèi)的交通吸引量為,交通發(fā)生量為則交通小區(qū)吸引強度,產(chǎn)生強度,發(fā)生和吸引強度差為
式中:m為研究范圍內(nèi)交通小區(qū)數(shù)量;si為交通小區(qū)zi的面積;T為研究時段n天內(nèi)不同日期編號,分別為在T日交通小區(qū)i在第j個時間間隔內(nèi)的吸引強度、發(fā)生強度;為在T日交通小區(qū)i在第j個時間間隔內(nèi)發(fā)生強度和吸引強度之差.
公交出行數(shù)據(jù)集和網(wǎng)約出行數(shù)據(jù)集出行總量不同,分別按照式(1)~式(3)計算得到各自出行特征時空矩陣,并對同一時刻不同小區(qū)間的強度數(shù)據(jù)按照標準差歸一化處理.然后按照對應小區(qū)和時間段相加,得到輸入時空特征矩陣.以小區(qū)吸引強度時空矩陣為例,計算輸入時空特征矩陣,過程如圖1所示.
圖1 輸入出行特征計算過程(以小區(qū)吸引強度為例)Fig.1 Schematic of traffic analysis zone-based travel characteristic process(take as an example)
交通小區(qū)內(nèi)用地類型信息在缺乏用地規(guī)劃圖或獲取各種用地類型占比困難時,可用POI 數(shù)據(jù)根據(jù)TF-IDF(Term Frequency-Inverse Document Frequency)方法估計區(qū)域內(nèi)用地類型[9].POI 數(shù)據(jù)可通過百度地圖API (Application Programming Interface)獲得.獲取得到POI 數(shù)據(jù)包括居住、工作、休閑娛樂、公共服務(wù)、公交站點等18個類別,具體來說,每條POI 數(shù)據(jù)包含POI 所屬類別,經(jīng)緯度坐標和具體詳細名稱.相關(guān)研究表明,居住、工作和休閑娛樂用地與交通小區(qū)內(nèi)居民出行特征有密切聯(lián)系[4],因此,本文提取居住(R)、工作(W)和休閑娛樂(L)這3種POI類別,利用TF-IDF方法對3 種類別POI 在各交通小區(qū)內(nèi)的分布進行分析.TF-IDF計算過程為
式中:pc為c類POI,c={R ,W,L} ;fpc,zi為pc在小區(qū)zi中出現(xiàn)的頻次;Z為所有交通小區(qū)zi集合,有Z={z1,…,zi,…,zm} .
TF-IDF是衡量某詞語在一篇文檔中重要程度的方法,當某一詞語在一篇文檔中出現(xiàn)頻率較高且在文檔集合中出現(xiàn)次數(shù)較少時,該詞語在此文檔中較重要.近年來,隨著交通大數(shù)據(jù)的涌現(xiàn),該方法被廣泛應用到交通小區(qū)功能屬性特征分析等領(lǐng)域[10].TF-IDF計算包括TF和IDF兩部分,TF表示某一詞語在文檔中出現(xiàn)的相對頻次,IDF表示這篇文檔中詞語的分布在所有文集中的重要程度.將交通小區(qū)zi類比為文檔,研究范圍內(nèi)所有交通小區(qū)構(gòu)成文集Z,交通小區(qū)內(nèi)pc點類比為不同類別單詞.式(4)為TF計算方法,式(5)為衡量該pc在所有小區(qū)中的重要程度,分母表示出現(xiàn)該pc類別的交通小區(qū)的個數(shù).故每個交通小區(qū)內(nèi)用地類型特征可以通過計算該交通小區(qū)內(nèi)各類POI的TF-IDF值獲得.
基于CNN深度學習模型,對區(qū)域內(nèi)居住、工作和休閑3種用地類型同時進行推斷,模型整體架構(gòu)如圖2所示.包括輸入層、卷積層、池化層、平坦層、全連接層和輸出層,各層設(shè)置具體如下.
(1)輸入層.
將處理得到的輸入特征矩陣和基于POI 的交通小區(qū)標注數(shù)據(jù)作為模型輸入數(shù)據(jù).
(2)卷積層.
卷積核表示為wj,j為卷積核編號,j={1 ,2,…,J},共有J個卷積核.對于輸入矩陣x,卷積操作后得到的特征矩陣為
式中:f為非線性激活函數(shù);?為矩陣點乘;w為權(quán)重矩陣;b為偏差量;yConv為卷積操作后的輸出矩陣.采用修正線性單元作為激活函數(shù),卷積核尺寸大小會影響模型精度.
圖2 用地類型推斷模型架構(gòu)Fig.2 CNN architecture for land use characteristics inferences
(3)池化層.
對輸入卷積層的結(jié)果進行池化,即提取卷積層中關(guān)鍵信息.池化層作用于卷積層感受區(qū)域,采用最大值方法對感受區(qū)域進行池化操作,即
式中:x(p,q)為作用于上層輸入矩陣的感受區(qū)域;yPool為池化操作后的輸出矩陣.
(4)全連接層.
經(jīng)過卷積和池化操作,網(wǎng)格化數(shù)據(jù)被平坦化處理為一維向量數(shù)據(jù).為防止模型過擬合,減少稀疏數(shù)據(jù)集對模型的影響,全連接層設(shè)置丟棄率以增強模型泛化能力,即
式中:w為權(quán)重矩陣;為平坦化處理的數(shù)據(jù)矩陣;為最終模型輸出結(jié)果.
(5)輸出層.
輸出交通小區(qū)內(nèi)居住、工作和休閑用地類型分布.
為評價搭建CNN網(wǎng)絡(luò)模型推斷用地類型的精度,損失函數(shù)選用均方誤差(Mean Square Error,MSE),即
式中:N為樣本總量;分別表示第k個樣本的估計值和真實值.
CNN 優(yōu)化算法主要包括隨機梯度下降(Stochastic Gradient Descent), RMSProp(Root Mean Square Prop)和 Adam(Adaptive Moment Estimation),其中,Adam 算法使用最廣,故采用Adam優(yōu)化算法對損失函數(shù)進行優(yōu)化.
選取2017年7月15~24日北京市六環(huán)以內(nèi)的公交出行數(shù)據(jù)和網(wǎng)約車出行數(shù)據(jù),基于出行特征對交通小區(qū)內(nèi)用地類型推斷.并獲取同時期的POI數(shù)據(jù)集,提取居住、工作和休閑娛樂3 種類別的POI 數(shù)據(jù)計算小區(qū)內(nèi)各用地類型占比.按照1 h 間隔對出行數(shù)據(jù)進行聚合,得到公交出行數(shù)據(jù)集和網(wǎng)約車出行數(shù)據(jù)集,按式(1)~式(3)進行特征提取.將原始數(shù)據(jù)集按75%/25%劃分為訓練數(shù)據(jù)集和檢測數(shù)據(jù)集,對于訓練數(shù)據(jù)集,采用10重交叉驗證的方法防止模型過擬合,增加模型泛化能力.
采用網(wǎng)格搜索方法確定最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu),即網(wǎng)絡(luò)深度,卷積層卷積核大小,卷積核個數(shù).模型精度評價指標選取MSE,MAPE和R2.網(wǎng)絡(luò)結(jié)構(gòu)中損失函數(shù)采用MSE,并采用Adam 優(yōu)化算法,設(shè)置優(yōu)化算法學習率為0.001,全連接層丟棄率為0.3,卷積核移動步長為1 步,激活函數(shù)為修正線性單元.得到不同網(wǎng)絡(luò)結(jié)構(gòu)模型精度如表2所示.由表2可得:隨網(wǎng)絡(luò)結(jié)構(gòu)深度加深,對區(qū)域內(nèi)用地類型推斷結(jié)果精度越高;網(wǎng)絡(luò)層數(shù)越深,產(chǎn)生過擬合的風險越大,如網(wǎng)絡(luò)結(jié)構(gòu)“卷積層(4)→卷積層(16)→卷積層(16)→卷積層(8)→全連接層”結(jié)構(gòu)下產(chǎn)生了過擬合現(xiàn)象.同時,比較同一網(wǎng)絡(luò)結(jié)構(gòu)下卷積核尺寸大小發(fā)現(xiàn),卷積核尺寸越小,模型推測效果越好,表明出行數(shù)據(jù)集在相鄰短時間間隔內(nèi)出行特征較為類似,時間間隔越長,出行特征波動越大,不利于信息提取.
最終,用于交通小區(qū)用地類型特征推斷的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置如下:卷積層(4)→卷積層(16)→卷積層(8)→全連接層,卷積核尺寸大小為2.為驗證構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)模型對用地類型推測效果,采用本文方法與機器學習模型分別對3 種用地類型推測結(jié)果對比分析,結(jié)果如表3 所示.由表3 可得,Random Forest 和SVR方法結(jié)果的R2與CNN 相近,但MSE和MAPE指標與CNN模型差別較大.
表2 不同網(wǎng)絡(luò)結(jié)構(gòu)下的精度分布Table 2 Performance of different hidden layers and algorithms
表3 不同模型推測結(jié)果比較Table 3 Comparison analysis on land use inference using different models
CNN網(wǎng)絡(luò)模型對區(qū)域用地類型推測結(jié)果空間分布如圖3所示.圖3(a)為模型推測的交通小區(qū)內(nèi)3種用地類型占比分布,圖3(b)為推測誤差.由圖3和表3 可得,構(gòu)建CNN 網(wǎng)絡(luò)模型對區(qū)域內(nèi)用地類型推測可以取得較好結(jié)果.可利用公共交通系統(tǒng)出行數(shù)據(jù)集,網(wǎng)約出行數(shù)據(jù)集和所構(gòu)建的網(wǎng)絡(luò)模型對城市其他區(qū)域內(nèi)用地類型進行推測.
六環(huán)內(nèi)大部分交通小區(qū)內(nèi)主要用地成分為居住用地類型,樣本多反映了居住用地類型出行特征,故對居住用地類型推測結(jié)果比其他兩種用地類型準確;以工作用地類型為主導的交通小區(qū)呈現(xiàn)集中分布趨勢,主要集中分布在上地,亦莊,望京,CBD;休閑用地類型為主的交通小區(qū)主要為城市公園,樣本數(shù)量較少,誤差較其他兩種用地類型大.對比用地類型占比分布和與其對應的誤差分布可得,當交通小區(qū)內(nèi)某種用地類型組分占比超過60%,推測結(jié)果誤差較小,即如果區(qū)域內(nèi)存在某種用地類型特征明顯高于其他兩種,則其誤差較??;相反,如果區(qū)域內(nèi)各用地類型占比沒有明顯差別時,往往導致利用CNN 模型對區(qū)域內(nèi)用地類型的推測結(jié)果較差;當用地組分占比小于30%時,誤差較大.
圖3 推測及誤差分析結(jié)果Fig.3 Inferring result and error analysis in study area
本文構(gòu)建基于CNN深度學習模型對交通小區(qū)內(nèi)幾種用地類型同時推斷的方法.基于用地類型推測結(jié)果,可用于交通規(guī)劃用地類型合理性評估,研究交通需求特征與用地類型的相關(guān)關(guān)系等,對于面向區(qū)域需求管理的交通政策制定具有重要意義.主要結(jié)論如下:選取交通小區(qū)發(fā)生強度,吸引強度和發(fā)生吸引強度差作為用于推斷用地類型的特征;將公交和網(wǎng)約車出行數(shù)據(jù)集融合引入CNN深度學習模型,采用網(wǎng)格尋優(yōu)方法確定網(wǎng)絡(luò)結(jié)構(gòu),可對交通小區(qū)內(nèi)居住,工作和休閑用地類型同時進行推測;深度學習對用地類型推測效果優(yōu)于機器學習算法.實例分析結(jié)果表明:交通小區(qū)內(nèi)用地類型分布會影響推測結(jié)果,各種用地類型分布失衡將損失占比較小用地類型的推測結(jié)果;同時,各種用地類型平衡分布情況推測結(jié)果誤差較大.后續(xù)研究將討論不同深度學習模型對推測結(jié)果的影響,應考慮不同用地類型標簽分布對推測結(jié)果的影響程度.