武可心
(西安交通工程學(xué)院, 交通運(yùn)輸學(xué)院, 陜西, 西安 710300)
公交線路的周轉(zhuǎn)時(shí)間對(duì)公交運(yùn)行網(wǎng)絡(luò)的管理效率具有重要影響,直接影響公交線路的服務(wù)質(zhì)量和乘客搭乘體驗(yàn)。周轉(zhuǎn)時(shí)間是指公交車輛運(yùn)行整條公交線路所需時(shí)間,主要包括車輛上行時(shí)間、下行時(shí)間和站點(diǎn)停靠時(shí)間。若能夠?qū)痪€路的周轉(zhuǎn)時(shí)間進(jìn)行準(zhǔn)確預(yù)測(cè),則可為公交智能調(diào)度提供關(guān)鍵參考數(shù)據(jù),對(duì)提升公交網(wǎng)絡(luò)智能管理水平具有重要意義[1-2]。
目前,公交線路周轉(zhuǎn)時(shí)間的預(yù)測(cè)模型主要包括回歸模型、支持向量機(jī)模型、時(shí)間序列模型、神經(jīng)網(wǎng)絡(luò)模型等。張麗莉等[3]采用RBF神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)公交行駛周期,并對(duì)預(yù)測(cè)誤差進(jìn)行實(shí)時(shí)修正。周敏等[4]將廣義回歸模型應(yīng)用于公交運(yùn)行周期預(yù)測(cè),將影響公交線路運(yùn)行的多種因素融入預(yù)測(cè)模型。胡華等[5]結(jié)合BP神經(jīng)網(wǎng)絡(luò)和指數(shù)平滑方法,預(yù)測(cè)公交停靠時(shí)間和路段運(yùn)行時(shí)間。影響公交運(yùn)行時(shí)間周期的因素眾多,且不同因素之間存在交錯(cuò)影響的關(guān)系,導(dǎo)致預(yù)測(cè)模型的輸入因素關(guān)系復(fù)雜,使得模型輸出的預(yù)測(cè)精度偏低。BP神經(jīng)網(wǎng)絡(luò)具有任意復(fù)雜的模式分類能力和優(yōu)良的多維函數(shù)映射能力:從結(jié)構(gòu)上講,BP網(wǎng)絡(luò)包含輸入層、隱藏層和輸出層;從本質(zhì)上講,BP算法就是以網(wǎng)絡(luò)誤差平方為目標(biāo)函數(shù)、采用梯度下降法來計(jì)算目標(biāo)函數(shù)的最小值。BP神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的非線性映射能力和柔性的網(wǎng)絡(luò)結(jié)構(gòu),是在工程中應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)之一,但同時(shí)其也存在學(xué)習(xí)速度慢,容易陷入局部極小值等問題。
為提升模型的預(yù)測(cè)精度和實(shí)用性,本文將公交運(yùn)行過程中產(chǎn)生的GPS數(shù)據(jù)作為研究對(duì)象,將短時(shí)間內(nèi)變動(dòng)較小的影響因素作為常量考慮,例如路線長(zhǎng)度、??空九_(tái)布局等,重點(diǎn)研究時(shí)變因素對(duì)運(yùn)行周期的影響,例如日期、天氣、節(jié)假日等動(dòng)態(tài)因素。首先通過運(yùn)行周期的分布特征分析,提取影響運(yùn)行周期的關(guān)鍵影響因素,然后將關(guān)鍵影響因素作為輸入,利用改進(jìn)型卷積神經(jīng)網(wǎng)絡(luò)對(duì)公交運(yùn)行數(shù)據(jù)進(jìn)行訓(xùn)練,以獲取更為準(zhǔn)確的預(yù)測(cè)模型。
利用公交車配置的GPS設(shè)備,獲取公交車運(yùn)行的GPS數(shù)據(jù),主要包含了車輛運(yùn)行的時(shí)間、位置、速度、駕駛方向等動(dòng)態(tài)數(shù)據(jù)。將公交車GPS數(shù)據(jù)作為研究對(duì)象,利用有序樣本聚類方法對(duì)公交運(yùn)行時(shí)間進(jìn)行劃分,然后對(duì)公交運(yùn)行時(shí)間周期進(jìn)行分布特征分析。在不同的時(shí)間段內(nèi)公交運(yùn)行時(shí)間周期是不同的,通過大量的運(yùn)行數(shù)據(jù)統(tǒng)計(jì),重點(diǎn)分析不同時(shí)間窗內(nèi)公交運(yùn)行時(shí)間周期的分布情況,從而提煉出影響公交運(yùn)行時(shí)間周期的關(guān)鍵因素。圖1為某路公交2個(gè)月的運(yùn)行時(shí)間周期統(tǒng)計(jì)結(jié)果,通過運(yùn)行周期分布曲線圖可看出,運(yùn)行時(shí)間周期隨全日工作時(shí)間呈現(xiàn)出一致性的規(guī)律變化,在單個(gè)時(shí)間窗口內(nèi),運(yùn)行時(shí)間周期呈現(xiàn)一定的噪聲波動(dòng),波動(dòng)規(guī)律趨近于正態(tài)分布。單個(gè)時(shí)間窗口內(nèi)運(yùn)行時(shí)間周期的近似正態(tài)分布圖[6]如圖2所示。
圖2 單時(shí)間窗內(nèi)運(yùn)行時(shí)間周期分布圖
對(duì)于單條公交線路,線路距離、站臺(tái)數(shù)量可看作不變量,影響公交運(yùn)行時(shí)間周期的動(dòng)態(tài)因素主要為天氣、客流量、節(jié)假日、氣候等,而動(dòng)態(tài)影響因素之間相互關(guān)聯(lián),呈現(xiàn)出復(fù)雜的非線性特性,由上述統(tǒng)計(jì)曲線可知,單個(gè)時(shí)間窗口內(nèi)運(yùn)行時(shí)間周期呈現(xiàn)正態(tài)分布特性[7]。根據(jù)公交周轉(zhuǎn)時(shí)間分布特征,將影響運(yùn)行時(shí)間周期的主要?jiǎng)討B(tài)因素進(jìn)行統(tǒng)計(jì),并將主要影響因素作為輸入量,利用改進(jìn)型卷積神經(jīng)網(wǎng)絡(luò)對(duì)樣本數(shù)據(jù)進(jìn)行訓(xùn)練,經(jīng)過反復(fù)學(xué)習(xí)迭代,獲取公交運(yùn)行時(shí)間周期預(yù)測(cè)模型。
卷積神經(jīng)網(wǎng)絡(luò)的多隱層有利于提取數(shù)據(jù)特征,但過度增加網(wǎng)絡(luò)卷積層數(shù)量,將會(huì)降低卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)行效率,導(dǎo)致網(wǎng)絡(luò)性能下降。對(duì)卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)主要分為2個(gè)方面,一方面是適量提升卷積層數(shù)量,另一方面是適當(dāng)修改卷積核的尺寸。本文選取9種典型卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分別進(jìn)行性能測(cè)試,測(cè)試統(tǒng)計(jì)結(jié)果[8-10]如表1所示。
表1 多種典型卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)測(cè)試結(jié)果
由表1可知,在卷積核尺寸一樣的條件下,卷積層數(shù)目為3時(shí)卷積神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)準(zhǔn)確率最高。另外,在卷積層數(shù)目相同的條件下,卷積核尺寸為3×3時(shí),卷積神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)準(zhǔn)確率最高。為保證卷積神經(jīng)網(wǎng)絡(luò)具備較高的準(zhǔn)確率,并避免網(wǎng)絡(luò)規(guī)模過大,網(wǎng)絡(luò)結(jié)構(gòu)的卷積層選為3層,卷積核尺寸選為3×3。
通過網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化,雖能夠提高卷積神經(jīng)網(wǎng)絡(luò)的性能,但同時(shí)造成了過擬合問題。過擬合主要是由于卷積神經(jīng)網(wǎng)絡(luò)的連接層參數(shù)是按照訓(xùn)練樣本的識(shí)別結(jié)果進(jìn)行更新的,若訓(xùn)練樣本的分類不夠成熟,則會(huì)導(dǎo)致測(cè)試數(shù)據(jù)無法獲得準(zhǔn)確的預(yù)測(cè)結(jié)果。采用Dropout技術(shù)對(duì)訓(xùn)練過程中的參數(shù)按照一定的概率進(jìn)行隨機(jī)拋棄,從而提升神經(jīng)網(wǎng)絡(luò)的泛化性能。Dropout技術(shù)主要是在訓(xùn)練過程中將每層的神經(jīng)元按照一定比例進(jìn)行隨機(jī)剔除,從而保證每層網(wǎng)絡(luò)的輸入數(shù)量和輸出數(shù)量相同[11-12]。未加入Dropout技術(shù)的網(wǎng)絡(luò)訓(xùn)練過程可表示為
(1)
加入Dropout技術(shù)的網(wǎng)絡(luò)訓(xùn)練過程表示為
(2)
式(2)中,l表示隱含層索引序號(hào),z表示輸入向量,y表示輸出量,w表示每層的加權(quán)系數(shù),f表示激活函數(shù),p表示預(yù)測(cè)前每個(gè)單元參數(shù)的預(yù)乘系數(shù)。
卷積作用主要是對(duì)數(shù)據(jù)特征進(jìn)行提取,提取數(shù)據(jù)特征越精細(xì),獲得的預(yù)測(cè)結(jié)果越精準(zhǔn)。在卷積神經(jīng)網(wǎng)絡(luò)中,通過卷積層和池化層可交替生成數(shù)據(jù)通道。在數(shù)據(jù)訓(xùn)練過程中,若僅采用單一的數(shù)據(jù)通道和網(wǎng)絡(luò)結(jié)構(gòu),易導(dǎo)致數(shù)據(jù)的特征提取不充分。針對(duì)公交運(yùn)行時(shí)間周期和影響因素?cái)?shù)據(jù)的特點(diǎn),提出一種雙數(shù)據(jù)通道方法,采用2條不同的通道,分別對(duì)不同的特征進(jìn)行卷積運(yùn)算,利用2條通道的級(jí)聯(lián)運(yùn)算獲得最終的網(wǎng)絡(luò)數(shù)據(jù)結(jié)果。主要過程包括利用Dropout技術(shù)獲取降維數(shù)據(jù),然后將降維數(shù)據(jù)通過2個(gè)通道進(jìn)行運(yùn)行,第一個(gè)通道采用3×3的卷積核,數(shù)據(jù)進(jìn)行卷積運(yùn)算后,另一個(gè)通道在第一個(gè)通道的基礎(chǔ)上進(jìn)行殘差運(yùn)算。最后對(duì)2個(gè)通道進(jìn)行級(jí)聯(lián)操作,獲得1個(gè)新特征圖。殘差運(yùn)算網(wǎng)絡(luò)的短接映射關(guān)系[13]可表示為
(3)
式(3)中,x表示輸入元素,F()表示殘差擬合函數(shù)。
采用雙通道級(jí)聯(lián)方式,通過兩路卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行級(jí)聯(lián)運(yùn)算,其中一路包含了殘差運(yùn)算模塊,并對(duì)兩路不同特征數(shù)據(jù)進(jìn)行組合,獲取最終的輸出。
設(shè)定訓(xùn)練樣本為(xi,yi),樣本數(shù)量為m,輸入向量的維度為n+1,卷積神經(jīng)網(wǎng)絡(luò)的輸出類數(shù)量為k,卷積神經(jīng)網(wǎng)絡(luò)的輸出可表示為
(4)
式(4)中,θj表示卷積神經(jīng)網(wǎng)絡(luò)的第j個(gè)參數(shù)。
代價(jià)函數(shù)J(θ)可表示為
(5)
式(5)中,p表示輸出結(jié)果的概率分布,1{·}表示指示函數(shù),λ表示正化系數(shù)。
卷積神經(jīng)網(wǎng)絡(luò)每次進(jìn)行迭代運(yùn)算后,參數(shù)的更新表達(dá)式可表示為
(6)
式(6)中,α代表學(xué)習(xí)速率系數(shù)。
基于改進(jìn)型卷積神經(jīng)網(wǎng)絡(luò)的公交運(yùn)行周期預(yù)測(cè)模型的框架圖[14]如圖3所示,從整個(gè)模型結(jié)構(gòu)可知,該模型主要由輸入層、隱含層、輸出層構(gòu)成,并分為了模型訓(xùn)練和模型預(yù)測(cè)2個(gè)數(shù)據(jù)傳輸通道,并將影響公交運(yùn)行周期的主要因素?cái)?shù)據(jù)作為輸入,通過輸入層的全連接處理,并經(jīng)過隱含層卷積運(yùn)算后,再經(jīng)過輸出層的全連接網(wǎng)絡(luò)將隱含層的輸出映射到最終輸出結(jié)果,實(shí)現(xiàn)公交運(yùn)行數(shù)據(jù)的特征提取和分類,從而完成對(duì)公交運(yùn)行周期的預(yù)測(cè)。
圖3 基于改進(jìn)型卷積神經(jīng)網(wǎng)絡(luò)的公交運(yùn)行周期預(yù)測(cè)模型
以某公交線路運(yùn)行數(shù)據(jù)為研究對(duì)象,整條公交線路的下行站點(diǎn)為37個(gè),上行站點(diǎn)為38個(gè),全日車輛運(yùn)行時(shí)間區(qū)間為6:00-21:00。首先利用有序樣本聚類方法對(duì)運(yùn)行時(shí)段進(jìn)行分類,在損失函數(shù)達(dá)到最小值時(shí),獲得14個(gè)長(zhǎng)度不等的時(shí)間窗口。由于單個(gè)時(shí)間窗口內(nèi)運(yùn)行時(shí)間周期整體呈現(xiàn)正態(tài)分布特性,數(shù)據(jù)分布特性的統(tǒng)計(jì)需要盡量多的統(tǒng)計(jì)數(shù)據(jù),若時(shí)間區(qū)間段劃分過多,則獲取的數(shù)據(jù)量數(shù)目過少,導(dǎo)致統(tǒng)計(jì)特性易受噪聲影響,數(shù)據(jù)特征被噪聲淹沒,且過多的區(qū)間段劃分隔斷數(shù)據(jù)間的相關(guān)性和增加運(yùn)算量;而過少的時(shí)間區(qū)間段劃分,不利于凸顯不同運(yùn)行區(qū)間內(nèi)公交運(yùn)行特征的差異。根據(jù)在一天中公交運(yùn)行的整體分布經(jīng)驗(yàn),可將14個(gè)時(shí)間窗口劃分為5個(gè)區(qū)間段,分別為早低峰、早高峰、平峰、晚高峰、晚低峰,時(shí)間窗劃分情況如表2所示。
表2 時(shí)間窗口劃分
將影響公交運(yùn)行時(shí)間周期的主要?jiǎng)討B(tài)影響因素作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,主要包括時(shí)間窗、節(jié)假日、天氣、季節(jié)、星期,網(wǎng)絡(luò)輸出結(jié)果為公交運(yùn)行周期的預(yù)測(cè)結(jié)果。共選取600組數(shù)據(jù)作為樣本,將其隨機(jī)分為2組:第一組為訓(xùn)練樣本,共300組數(shù)據(jù);另外一組為測(cè)試樣本,共300組數(shù)據(jù)。
改進(jìn)型卷積神經(jīng)網(wǎng)絡(luò)采取雙隱含卷積層結(jié)構(gòu),輸入層共有6個(gè)輸入量,分別對(duì)應(yīng)時(shí)段、天氣、節(jié)假日、星期、季節(jié)、運(yùn)行周期等6個(gè)因素。第一個(gè)隱含卷積層節(jié)點(diǎn)為9個(gè),第二個(gè)卷積層節(jié)點(diǎn)數(shù)為7個(gè),輸出層節(jié)點(diǎn)數(shù)為1個(gè),經(jīng)過卷積層的信息傳遞和節(jié)點(diǎn)調(diào)整,進(jìn)行反復(fù)的訓(xùn)練迭代。卷積神經(jīng)網(wǎng)絡(luò)輸出精度的評(píng)價(jià)指標(biāo)采用絕對(duì)百分比誤差,表達(dá)式為
(7)
式(7)中,t1表示公交運(yùn)行時(shí)間周期的預(yù)測(cè)值,t2表示公交運(yùn)行時(shí)間周期的的實(shí)際值。
為了對(duì)比算法的預(yù)測(cè)精度,將BP神經(jīng)網(wǎng)絡(luò)與本文算法進(jìn)行對(duì)比:2種算法的預(yù)測(cè)值與實(shí)際值的對(duì)比結(jié)果如圖4所示,BP神經(jīng)網(wǎng)絡(luò)的平均預(yù)測(cè)精度為16.7%;本文改進(jìn)型卷積神經(jīng)網(wǎng)絡(luò)的樣本預(yù)測(cè)誤差統(tǒng)計(jì)如圖5所示,本文改進(jìn)型卷積神經(jīng)網(wǎng)絡(luò)的平均預(yù)測(cè)精度為5.2%,預(yù)測(cè)精度得到明顯提升。實(shí)驗(yàn)結(jié)果驗(yàn)證了改進(jìn)型算法的預(yù)測(cè)精度和有效性。
圖4 2種算法的預(yù)測(cè)值對(duì)比結(jié)果
圖5 改進(jìn)型卷積神經(jīng)網(wǎng)絡(luò)的樣本預(yù)測(cè)誤差統(tǒng)計(jì)
為了提升公交線路運(yùn)行效率,針對(duì)公交運(yùn)行時(shí)間周期預(yù)測(cè)問題,本文提出了一種基于改進(jìn)型卷積神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型。將影響公交運(yùn)行周期的關(guān)鍵動(dòng)態(tài)因素作為輸入,分析影響因素的非線性分布特征,將運(yùn)行時(shí)間按照時(shí)間窗口進(jìn)行劃分。從卷積層數(shù)量和卷積核尺寸2個(gè)方面對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),并建立2條級(jí)聯(lián)的數(shù)據(jù)運(yùn)算通道,構(gòu)成改進(jìn)型卷積神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)對(duì)公交運(yùn)行時(shí)間周期的有效準(zhǔn)確預(yù)測(cè),實(shí)驗(yàn)結(jié)果驗(yàn)證了該預(yù)測(cè)模型的可行性。