, ,
(江蘇大學(xué) 汽車與交通工程學(xué)院,江蘇 鎮(zhèn)江 212013)
在過去的20年里,我國接受高等教育的人數(shù)一直呈現(xiàn)持續(xù)增長的趨勢,據(jù)中華人民共和國統(tǒng)計(jì)局發(fā)布的統(tǒng)計(jì)信息顯示:2014年,全國研究生在校學(xué)生數(shù)為184.768 9萬人,普通本專科在校學(xué)生數(shù)為2 547.7萬人,2類人數(shù)總和約占中國總?cè)丝诘?%。在我國,絕大多數(shù)大學(xué)生集中住在宿舍里,且大學(xué)生的課程安排具有間隙性,這就允許學(xué)生在他們課后時(shí)間從事各種各樣的活動,無形中增加大學(xué)校園周邊的交通需求量,特別是在每天下午五點(diǎn)至晚上九點(diǎn)的時(shí)間段內(nèi),大學(xué)生出行會呈現(xiàn)爆發(fā)式的增長,可能會導(dǎo)致局部交通供需失衡,進(jìn)而對城市的交通網(wǎng)絡(luò)產(chǎn)生重大影響。為了降低大學(xué)生大量出行對局部交通乃至城市交通網(wǎng)絡(luò)的影響,需要對大學(xué)生的出行規(guī)律進(jìn)行研究。而研究大學(xué)生的出行規(guī)律,需先對大學(xué)生的出行方式進(jìn)行研究。
近年來,已有許多學(xué)者對大學(xué)生的出行方式進(jìn)行研究[1-2],但這些研究所用數(shù)據(jù)基本上是基于傳統(tǒng)調(diào)查方法——問卷調(diào)查方法獲取到的。傳統(tǒng)調(diào)查方法本質(zhì)上是依賴被訪問者對行程的回憶以及他們主觀認(rèn)知,這樣不可避免地會存在訪問回應(yīng)率低和數(shù)據(jù)質(zhì)量差等問題[3]。相對于傳統(tǒng)調(diào)查方法,基于智能手機(jī)GPS的調(diào)查方法具有實(shí)質(zhì)性的優(yōu)勢,如可以實(shí)時(shí)對出行者進(jìn)行調(diào)查;可以減少出行者的負(fù)擔(dān);可以提高數(shù)據(jù)的質(zhì)量等[4]。最近,已有許多利用智能手機(jī)GPS獲取人們的出行數(shù)據(jù),并基于獲取的數(shù)據(jù)進(jìn)行出行方式識別研究。
文獻(xiàn)[5]利用智能手機(jī)GPS記錄45位居民6個(gè)月的出行數(shù)據(jù),并選取長度、平均速度、速度期望值、最大的3個(gè)速度和最大的3個(gè)加速度等作為貝葉斯網(wǎng)絡(luò)(Bayesian Net,BN)、決策樹(Decision Tree,DT)、支持向量機(jī)(Support Vector Machine,SVM)和條件隨機(jī)場(Conditional Random Field,CRF)這4種方法的輸入變量,利用這4種方法進(jìn)行識別研究,其中,DT的識別精度最高,達(dá)到74%。文獻(xiàn)[6]利用手機(jī)GPS分別記錄16位調(diào)查者(8男8女)的75 min出行數(shù)據(jù),與此同時(shí)提出一種混合模型——決策樹和一階離散隱馬爾科夫模型進(jìn)行出行方式識別,并選取GPS速度、加速度方差和加速計(jì)離散傅里葉轉(zhuǎn)換系數(shù)作為混合模型的輸入變量。研究結(jié)果表明,此文獻(xiàn)提出的混合模型的識別精度達(dá)到93.6%。文獻(xiàn)[7]利用智能手機(jī)獲取的137條出行軌跡數(shù)據(jù),并利用提出的兩階段模型(第二階段是SVM)進(jìn)行識別研究。研究結(jié)果顯示模型的識別精度為93%。文獻(xiàn)[8]請15名自愿者利用手機(jī)記錄自己2個(gè)月的出行軌跡數(shù)據(jù),并選擇5%位速度、中位速度、95%位速度、加速度、減速度和方向改變值等作為一種概率分類與離散隱馬爾科夫結(jié)合的識別模型的輸入變量。其研究結(jié)果顯示:模型的識別精度范圍為65%(地鐵、火車)到95%(自行車)。針對BP神經(jīng)網(wǎng)絡(luò)(Backpropagation Neural Networks,BP-NNs)在訓(xùn)練過程中網(wǎng)絡(luò)參數(shù)容易陷入局部最優(yōu)的缺陷,文獻(xiàn)[9]提出粒子群優(yōu)化神經(jīng)網(wǎng)絡(luò)(Particle Swarm Optimization Neural Networks,PSO-NNs)模型,并選取低速度率、出行距離、平均速度、平均絕對加速度、中位速度和95%位速度作為模型的輸入變量。根據(jù)對比結(jié)果可得,PSO-NNs模型的識別精度優(yōu)于其他常用的識別模型(SVM、多項(xiàng)Logit模型和BP-NNs)。文獻(xiàn)[10]提出一種改進(jìn)的貝葉斯網(wǎng)絡(luò)出行方式識別模型,在模型4個(gè)輸入變量(平均速度、95%位速度、平均絕對加速度和出行距離)的基礎(chǔ)上,增加2個(gè)輸入變量(低速度率、平均車頭轉(zhuǎn)向),最終獲得92.74%的識別精度。文獻(xiàn)[11]提出粒子群優(yōu)化支持向量機(jī)(Particle Swarm Optimization and Support Vector Machine,PSO-SVM)的方法進(jìn)行出行方式識別研究,其出行方式識別精度達(dá)到95.1%,并將實(shí)驗(yàn)結(jié)果與DT、BP-NNs和基于網(wǎng)絡(luò)搜索的支持向量機(jī)的結(jié)果進(jìn)行對比,其結(jié)果表明PSO-SVM是有效的出行方式識別模型。
綜上所述,在已有出行方式識別模型里,文獻(xiàn)[11]提出的PSO-SVM識別精度相對較好,但PSO存在一定缺陷,如早熟收斂[12]。針對這個(gè)缺陷,本文提出一種改進(jìn)粒子群優(yōu)化支持向量機(jī)(Improved Particle Swarm Optimization and Support Vector Machine,IPSO-SVM)模型。以繁殖PSO算法為基礎(chǔ),引入遺傳操作機(jī)制(即選擇、交叉和變異操作),并IPSO對SVM的懲罰參數(shù)和核函數(shù)參數(shù)進(jìn)行參數(shù)尋優(yōu)。
SVM模型于1995年首次被提出,是基于統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則發(fā)展起來的一種新的通用學(xué)習(xí)方法[13]。面對小樣本、非線性和高維數(shù)的模式識別問題時(shí),SVM表現(xiàn)出較強(qiáng)的泛化能力[14]。依據(jù)已有文獻(xiàn)[15]的研究結(jié)果,本文研究選擇徑向基核函數(shù)進(jìn)行大學(xué)生出行方式識別研究。
PSO算法于1995年提出一種優(yōu)化算法。相對于其他優(yōu)化算法,如遺傳算法和蟻群算法,在大多數(shù)情況下,PSO算法不僅擁有較低的計(jì)算復(fù)雜度,而且全局搜索能力更優(yōu)、收斂速度更快[10,13]。但是,PSO算法仍存在一些問題,如容易早熟收斂。
在現(xiàn)有研究中,PSO算法容易早熟收斂問題的解決方法已有很多,如基于參數(shù)選擇策略的改進(jìn)方法和基于增加種群規(guī)模的改進(jìn)方法,但這些方向存在一定缺陷,如基于參數(shù)選擇策略的改進(jìn)方法需以多次仿真實(shí)驗(yàn)為基礎(chǔ),且不同優(yōu)化問題,其參數(shù)選擇存在差異;基于增加種群規(guī)模的改進(jìn)方法,增加了算法的運(yùn)算量,且不利于與其他算法的結(jié)合。基于文獻(xiàn)[16]的研究結(jié)果,本文利用以繁殖PSO算法為基礎(chǔ),引入遺傳操作機(jī)制(即選擇、交叉和變異操作)的IPSO來優(yōu)化SVM。
基于IPSO-SVM模型如圖1所示。首先采用大學(xué)生智能手機(jī)中的出行軌跡記錄軟件收集其出行數(shù)據(jù),并對收集的數(shù)據(jù)進(jìn)行處理,接著利用IPSO對SVM進(jìn)行參數(shù)尋優(yōu),然后使用優(yōu)化的SVM對數(shù)據(jù)進(jìn)行訓(xùn)練,最后對大學(xué)生出行方式進(jìn)行識別研究。
IPSO-SVM模型進(jìn)行大學(xué)生出行方式識別研究的具體流程如圖2所示。
在執(zhí)行遺傳操作機(jī)制并更新個(gè)體和全局最優(yōu)位置的步驟時(shí),按交叉概率選擇適應(yīng)度值較好的粒子作為父代粒子,并按式(1)與式(2)進(jìn)行交叉操作,計(jì)算子代粒子的適應(yīng)度值:如果子代粒子適應(yīng)度值優(yōu)于父代粒子的適應(yīng)度值,就進(jìn)行替代。變異操作需按照變異概率和式(3)來執(zhí)行,其作用是避免陷入局部最優(yōu)。在執(zhí)行更新粒子的位置及速度的步驟時(shí),是按照式(4)和式(5)來更新所有粒子的速度與位置信息。
(1)
(2)
(3)
(4)
(5)
本文研究在江蘇大學(xué)招募37名在校大學(xué)生(5名研究生和32名本科生)作為數(shù)據(jù)收集自愿者,并要求這些學(xué)生在自己的智能手機(jī)上安裝SpeedView軌跡記錄軟件。在收集出行軌跡數(shù)據(jù)時(shí),自愿者須同時(shí)打開SpeedView軟件、移動數(shù)據(jù)及手機(jī)GPS定位系統(tǒng)。大學(xué)生出行軌跡數(shù)據(jù)收集時(shí)間為2015年6月29日至7月5號。這37名大學(xué)生一共收集到691條有效出行數(shù)據(jù),其中,步行290條,自行車97條,電動車54條,校園公交53條,公交車165條,出租車32條。
在我國,因?yàn)榇髮W(xué)生沒有經(jīng)濟(jì)來源,所以其選擇的出行方式與城市居民存在差異性,如城市居民駕駛小汽車出行的情況十分普遍,但是在我國,大學(xué)生開車上學(xué)的可能性較小?;诖髮W(xué)生的出行特點(diǎn),本文選取步行、自行車、電動車、校園公交、公交車和出租車等6種出行方式進(jìn)行識別研究。
在出行方式識別研究中,出行特征變量的選擇對模型的識別精度有很大影響[10]。選擇速度相關(guān)的出行特征變量用來進(jìn)行出行方式識別的研究已有很多。文獻(xiàn)[5]選擇出行距離和最大加速度這兩個(gè)出行特征變量對步行、自行車、公交車和小汽車這4種出行方式進(jìn)行識別研究。文獻(xiàn)[17]選擇中位速度、95%位速度和95%位加速度等3個(gè)出行特征變量進(jìn)行識別研究。文獻(xiàn)[10]選擇平均速度、95%位速度、平均絕對加速度、出行距離、車頭轉(zhuǎn)向和低速度率等6個(gè)出行特征變量作為識別模型的輸入變量。基于已有研究,本文選擇出行距離、平均速度、中位速度、95%位速度、95%位加速度、平均絕對加速度、低速度率等7個(gè)出行特征變量作為IPSO-SVM模型的輸入變量,并利用箱線圖和單變量組間均值相等檢驗(yàn)對選取的出行特征變量的有效性進(jìn)行驗(yàn)證分析。
2.2.1 箱線圖法
利用箱線圖(Boxplot)描述6種出行方式的各出行特征變量值,如圖3~圖9所示。由圖3可知,平均速度箱線、中位速度箱線和95%位速度箱線有相似的分布形狀,這種相似性表明,這3個(gè)出行特征變量擁有相似的魯棒性[12]?;趫D3和圖4,可以將6種出行方式分成4類,如步行、自行車和校園公交各自為一類,其余的3種出行方式為第4類。但是由圖5和圖6可知,電動車的95%位速度值的分布與公交車和出租車存在較大差異,可以有效地進(jìn)行出行方式劃分。由圖7~圖9可知,電動車、公交車和出租車這3種出行方式的平均絕對加速度分布、95%位加速度分布和地速度率分布存在差異(如由于公交車需要沿途停靠公交站臺,其低速度率值在這3種出行方式中是最高的,其次是小汽車、最低的是電動車),可進(jìn)行有效的出行方式劃分。
圖3 6種出行方式的平均速度
圖4 6種出行方式的中位速度
圖5 6種出行方式的95%位速度
圖6 6種出行方式的出行距離
圖7 6種出行方式的平均絕對加速度
圖8 6種出行方式95%位加速度
圖9 6種出行方式的低速度率
2.2.2 單變量組間均值相等檢驗(yàn)
文獻(xiàn)[18]指出大多數(shù)出行方式識別研究在選擇出行特征變量時(shí),并沒有給出選擇的統(tǒng)計(jì)基礎(chǔ),利用單變量組間均值相等檢驗(yàn)來選擇出行特征變量,并選擇Wilks’ Lambdaλ值和組間F值(Between-GroupF)作為選擇指標(biāo)。本文基于文獻(xiàn)[18]的出行特征變量選擇方法,對已選取的7個(gè)出行特征變量進(jìn)行驗(yàn)證分析?;讷@取到的691條有效出行數(shù)據(jù),進(jìn)行單變量組間均值相等檢驗(yàn),其結(jié)果如表1所示。
表1 單變量組間均值相等檢驗(yàn)
Wilks’ Lambdaλ是組內(nèi)平方和總平方和之比。當(dāng)所有觀測到的組均值相等時(shí),Wilks’ Lambdaλ值為1;當(dāng)組內(nèi)變異與總變異相比越小時(shí),Wilks’ Lambdaλ值越接近于0。Wilks’Lambdaλ值在[0,1]之間,且其值越小表明其貢獻(xiàn)越大。組間F值越大表明該出行特征變量對出行方式識別結(jié)果的影響力越大。表1顯示了7個(gè)出行特征變量的Wilks’ Lambdaλ值和Between-GroupF值,且Wilks’ Lambdaλ值都小于0.4,Between-GroupF值都大于221,參照文獻(xiàn)[18]的出行特征變量選取結(jié)果,說明本文選取的7個(gè)出行特征變量都有效,其有效性(從小到大排序)依次為平均絕對加速度、低速度率、出行距離、95%位加速度、中位速度、95%位速度及平均速度。
本文是以江蘇大學(xué)37名大學(xué)生收集的有效出行軌跡數(shù)據(jù)為基礎(chǔ),利用IPSO-SVM模型對大學(xué)生的出行方式進(jìn)行識別研究。本文隨機(jī)挑選其中的518條數(shù)據(jù)組成訓(xùn)練集,剩下的173條數(shù)據(jù)組成測試集。利用提出的IPSO-SVM模型對訓(xùn)練、測試數(shù)據(jù)進(jìn)行多次仿真,選擇其中識別精度最好的5次,取5次結(jié)果的平均值作為IPSO-SVM模型的識別精度。與此同時(shí),讓BP-NNs、DT、SVM和PSO-SVM采用相同數(shù)據(jù)進(jìn)行訓(xùn)練和出行方式識別,并經(jīng)過多次仿真,選取識別精度最高的5個(gè)結(jié)果,取其平均值。各模型出行方式平均識別精度如表2所示。
表2 各模型出行方式平均識別精度 %
由表2可知,不同模型對每種出行方式的識別精度都存在一定差異:在步行出行方式識別上,IPSO-SVM和PSO-SVM的識別精度都達(dá)到98%,且兩者的差異很小,這2種方法的識別精度均高于BP-NNs、DT和SVM;在自行車出行方式識別上,IPSO-SVM的識別精度最高,達(dá)到95.24%,PSO-SVM的識別精度次之,達(dá)到91.47%,BP-NNs、DT和SVM對自行車的識別精度都低于90%。IPSO-SVM在電動車出行方式識別精度上低于PSO-SVM的識別精度,但高于BP-NNs、DT和SVM的電動車識別精度。在校園公交出行方式識別上,識別精度從高到低依次為IPSO-SVM、PSO-SVM、BP-NNs、SVM和DT。在公交車出行方式識別上,IPSO-SVM的識別精度最高,BP-NNs的識別精度最低。在出租車出行方式識別上,IPSO-SVM的識別精度最高,達(dá)到94.12%,而DT的識別精度最低,只有87.94%。不同模型對大學(xué)生出行方式的平均識別精度存在一定差異:IPSO-SVM模型的平均識別精度最高,達(dá)到94.22%;PSO-SVM模型的識別精度次之,達(dá)到 91.91%;接著是SVM的識別精度,然后是BP-NNs識別精度,DT識別精度最低。
總體而言,相對于BP-NNs、DT、SVM這3種模型,IPSO-SVM模型在大學(xué)生出行方式識別精度方面具有較大的優(yōu)勢,同時(shí)整體上也優(yōu)于PSO-SVM模型。
本文以37位大學(xué)生用SpeedView出行軌跡記錄軟件收集到的691條有效數(shù)據(jù)為基礎(chǔ),選擇出行距離、平均速度、中位速度、95%位速度、95%位加速度、絕對平均加速度和低速度率等7種出行特征變量,并利用提出的IPSO-SVM模型對大學(xué)生的6種出行方式,即步行、自行車、電動車、校園公交、公交車和出租車進(jìn)行識別研究。實(shí)驗(yàn)結(jié)果證明了箱線圖法和單變量組間均值相等檢驗(yàn)法驗(yàn)證選取的出行特征變量的有效性,本文提出的IPSO-SVM模型在大學(xué)生出行方式識別精度方面優(yōu)于其他常用的識別模型(BP-NNs、DT、SVM和PSO-SVM)。
[1] WHALEN K E,PáEZ A,CARRASCO J A.Mode Choice of University Students Commuting to School and the Role of Active Travel [J].Journal of Transport Geography,2013,31(6):132-142.
[2] CHRISTIAN A K,THOMAS F.A Multi-level Approach to Travel Mode Choice—How Person Characteristics and Situation Specific Aspects Determine Car Use in a Student Sample[J].Transportation Research Part F Traffic Psychology & Behaviour,2011,14(4):261-277.
[3] 張治華.基于GPS軌跡的出行信息提取研究[D].上海:華東師范大學(xué),2010.
[4] ZHOU J,GOLLEDGE R.Real-time Tracking of Activity Scheduling/schedule Execution Within a Unified Data Collection Framework[J].University of California Transportation Center Working Papers,2004,41(5):444-463.
[5] ZHENG Yu,LIU Like,WANG Longhao,et al.Learning Transportation Mode From Raw GPS Data for Geographic Applications on the Web[C]//Proceedings of International Conference on World Wide Web.Washington D.C.,USA:IEEE Press,2008:247-256.
[6] REDDY S,MUN M,BURKE J,et al.Using Mobile Phones to Determine Transportation Modes[J].ACM Transactions on Sensor Networks,2010,6(2):662-701.
[7] ZHANG L,DALYOT S,EGGERT D,et al.Multi-stage Approach to Travel-mode Segmentation and Classification of GPS Traces[J].ISPRS——International Archives of the Photogrammetry,Remote Sensing and Spatial Information Sciences,2012,25(4):87-93.
[8] NITSCHE P,WIDHALM P,BREUSS S,et al.Supporting Large-scale Travel Surveys with Smartphones——A Practical Approach[J].Transportation Research Part C:Emerging Technologies,2014,43:212-221.
[9] XIAO Guangnian,JUAN Zhicai,GAO Jingxian.Travel Mode Detection Based on Neural Networks and Particle Swarm Optimization [J].Information,2015,6(3):522-535.
[10] XIAO Guangnian,JUAN Zhicai,ZHANG Chunqin.Travel Mode Detection Based on GPS Track Data and Bayesian Networks[J].Computers,Environment and Urban Systems,2015,54:14-22.
[11] 李 喆,柏 叢,孫 健,等.基于PSO-SVM的出行方式識別研究[J].計(jì)算機(jī)應(yīng)用研究,2016(12):3527-3529.
[12] 王曉霞,王 濤,谷根代.基于改進(jìn)粒子群優(yōu)化的神經(jīng)網(wǎng)絡(luò)及應(yīng)用[J].華北電力大學(xué)學(xué)報(bào),2009,36(5):99-102.
[13] 王建國,張文興.支持向量機(jī)建模及其智能優(yōu)化[M].北京:清華大學(xué)出版社,2015.
[14] 安 旭,張樹東.基于支持向量機(jī)的模糊特征分類算法研究[J].計(jì)算機(jī)工程,2017,43(1):237-240,246.
[15] 王 園.基于SVM_AdaBoost模型的上市公司退市預(yù)警研究[D].廣州:華南理工大學(xué),2013.
[16] 胡程磊.數(shù)據(jù)驅(qū)動的建筑電能耗預(yù)測方法研究[D].鎮(zhèn)江:江蘇大學(xué),2016.
[17] BROACH J,MCNEIL N W,DILL J.Travel Mode Imputation Using GPS and Accelerometer Data from a Multi-day Travel Survey[C]//Proceedings of Transportation Research Board the 93rd Annual Meeting.Washington,D.C.,USA:[s.n.]2014:256-268.
[18] BOLBOL A,CHENG T,TSAPAKIS I,et al.Inferring Hybrid Transportation Modes from Sparse GPS Data Using a Moving Window SVM Classification[J].Computers Environment & Urban Systems,2012,36(6):526-537.