汪 磊,左忠義*,傅軍豪
(1.大連交通大學(xué) 交通運(yùn)輸工程學(xué)院,遼寧 大連116028;2.大連海事大學(xué) 航海學(xué)院,遼寧 大連116026)
基于SVM的出行方式特征分析和識(shí)別研究
汪 磊1,左忠義*1,傅軍豪2
(1.大連交通大學(xué) 交通運(yùn)輸工程學(xué)院,遼寧 大連116028;2.大連海事大學(xué) 航海學(xué)院,遼寧 大連116026)
基于智能手機(jī)采集的居民出行軌跡信息,分析了不同出行方式的特征,利用支持向量機(jī)進(jìn)行了出行方式識(shí)別研究.首先探討了利用手機(jī)軟件所能檢測(cè)和記錄的參數(shù),進(jìn)而從出行軌跡和特征參數(shù)兩個(gè)方面對(duì)出行方式特征進(jìn)行了分析,探討了不同出行方式兩兩可分的關(guān)鍵變量,提取用于識(shí)別不同出行方式的特征向量,最后建立了徑向基核函數(shù)支持向量機(jī)(SVM)分類器.利用從大連市出行軌跡數(shù)據(jù)獲取的出行方式樣本,訓(xùn)練了該支持向量機(jī),并且以決策樹(shù)、BP神經(jīng)網(wǎng)絡(luò)為對(duì)照.結(jié)果表明,SVM識(shí)別精確度為89.6%,BP神經(jīng)網(wǎng)絡(luò)為85.5%,決策樹(shù)為77.3%,SVM具有更好的識(shí)別性能.
城市交通;模式識(shí)別;支持向量機(jī);出行方式;特征分析
問(wèn)卷調(diào)查、電話訪問(wèn)等傳統(tǒng)的居民出行調(diào)查方法存在調(diào)查成本高、工作量大、數(shù)據(jù)匯總和處理周期長(zhǎng)、調(diào)查內(nèi)容受主觀意識(shí)影響、調(diào)查數(shù)據(jù)不精確等問(wèn)題,影響后續(xù)的交通規(guī)劃和管理工作.隨著智能手機(jī)成本大幅下降、普及率迅速上升,大多數(shù)智能手機(jī)廠商開(kāi)始將GPS模塊和各類傳感器作為手機(jī)的標(biāo)準(zhǔn)配置,使得我們可以考慮利用智能手機(jī)來(lái)記錄出行者出行軌跡并進(jìn)行自動(dòng)化數(shù)據(jù)分析與提取,從而獲得更為完整和精確的居民出行信息.其中,如何自動(dòng)識(shí)別并提取有效的居民出行信息,尤其是如何識(shí)別出行個(gè)體在何階段采用的是何種出行方式,是當(dāng)前研究的難點(diǎn)所在.
利用手機(jī)數(shù)據(jù)映射至交通和出行參數(shù),是近十年來(lái)興起的研究課題.Jang給出了出行模式(Travel Patterns)的概念,并且分析了出行方式(Travel Mode)、活動(dòng)(Activities)和出行模式之間的因果關(guān)系,構(gòu)建了出行鏈模式[1],這提示我們出行鏈模式能夠通過(guò)機(jī)器學(xué)習(xí)來(lái)進(jìn)行自動(dòng)識(shí)別. Sheung和Shalaby開(kāi)發(fā)了一種集成GPS和GIS的能夠自動(dòng)處理基于GPS軌跡的個(gè)人出行調(diào)查的分析系統(tǒng)[2].Widhalm等人[3]采用隱馬爾科夫鏈構(gòu)造兩階段分類器,使之能夠識(shí)別更多的交通方式.
在國(guó)內(nèi),2005年起楊兆升[4]、孫棣華[5]等人開(kāi)始提出利用手機(jī)定位數(shù)據(jù)來(lái)映射交通狀態(tài),但主要考慮檢測(cè)和反映交通流動(dòng)態(tài)規(guī)律.2007年起楊飛提出可以將手機(jī)定位技術(shù)用于交通OD數(shù)據(jù)的獲取上[6].楊揚(yáng)使用支持向量機(jī)進(jìn)行出行鏈活動(dòng)類型識(shí)別[7],沒(méi)有探討對(duì)于出行方式的識(shí)別.閆彭利用AGPS手機(jī)捕捉出行者出行軌跡[8],并建立BP網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)步行、小汽車、公交車出行方式的識(shí)別.冉斌分析了大量的手機(jī)通話數(shù)據(jù)、手機(jī)信令數(shù)據(jù),建立手機(jī)位置信息與出行起訖點(diǎn)信息的映射[9],取得了比較理想的結(jié)果.
出行鏈模式識(shí)別問(wèn)題屬于復(fù)雜的模式識(shí)別問(wèn)題,出行方式識(shí)別是其中一部分.國(guó)內(nèi)外對(duì)于出行方式識(shí)別的方法,較多地采用決策樹(shù)、貝葉斯網(wǎng)絡(luò)或BP神經(jīng)網(wǎng)絡(luò),對(duì)于區(qū)分停駐、步行、非機(jī)動(dòng)車、機(jī)動(dòng)車等比較有效,有效識(shí)別率能夠達(dá)到70%至80%,而對(duì)于進(jìn)一步識(shí)別私家車、出租車、公交車、軌道交通等交通方式則并不理想.
本文通過(guò)編寫(xiě)具有AGPS功能的Android手機(jī)位置軌跡信息記錄應(yīng)用軟件,記錄了16名志愿者在一周內(nèi)的138條出行軌跡信息,采樣率為每分鐘12次,總軌跡點(diǎn)達(dá)7萬(wàn)多個(gè).依托大連市實(shí)際交通條件,分析了步行、私人小汽車、出租車、公交車、輕軌等5種交通方式的特征,訓(xùn)練支持向量機(jī),在沒(méi)有GIS輔助的條件下實(shí)現(xiàn)對(duì)不同出行方式的識(shí)別.
目前,一般智能手機(jī)都搭載了AGPS模塊、三軸陀螺儀及加速度傳感器等組件,能夠提供星時(shí)、經(jīng)緯度坐標(biāo)、海拔、瞬時(shí)速度、朝向、定位精度、可見(jiàn)星數(shù)、信號(hào)強(qiáng)度、三軸加速度等參數(shù).目前具備輔助定位功能的手機(jī)定位精確度可以達(dá)到20 m,本文實(shí)測(cè)的平均位置精度達(dá)到24.6 m,解算出的速度值平均誤差在1.5 m/s以內(nèi),可見(jiàn)手機(jī)定位的精度已經(jīng)很高.
三軸加速度傳感器能獲得手機(jī)豎立時(shí)前向(x軸)、側(cè)向(y軸)、豎向(z軸)三個(gè)方向的加速度(m/s2).需要注意的是,手機(jī)的翻轉(zhuǎn)、晃動(dòng)和振動(dòng)使得手機(jī)坐標(biāo)系相對(duì)地理坐標(biāo)系時(shí)刻變化,手機(jī)檢測(cè)到的加速度不能代表出行者及其采用交通方式的實(shí)際運(yùn)動(dòng)加速度.定義特征加速度來(lái)表征手機(jī)運(yùn)動(dòng)幅度特征公式為
式中 a為特征加速度;ax,ay,az分別表示三軸加速度.
實(shí)驗(yàn)發(fā)現(xiàn)a值大小和波動(dòng)規(guī)律與不同出行方式有關(guān),該參數(shù)對(duì)于識(shí)別出行方式具有一定意義.
利用手機(jī)獲取的各項(xiàng)參數(shù)數(shù)據(jù),可以按照一定采樣率進(jìn)行保存,形成出行軌跡時(shí)間序列.這里我們對(duì)出行軌跡信息進(jìn)行研究,分別從出行軌跡的空間分布規(guī)律、參數(shù)的時(shí)間變化趨勢(shì)來(lái)探討,從而提取出識(shí)別出行方式的特征參數(shù).
3.1 出行軌跡分析
軌跡的空間分布特征表明不同的出行方式在空間上存在不同的特征.一次完整出行鏈的軌跡記錄如圖1所示,其完整過(guò)程包括步行—停駐—出租車—換乘—輕軌—活動(dòng)1—輕軌—活動(dòng)2—步行—公交車.
其中輕軌方式的軌跡由于高速、空間封閉等原因出現(xiàn)明顯的連續(xù)缺失現(xiàn)象.可見(jiàn),出現(xiàn)大量軌跡缺失的遠(yuǎn)距離位移提示該出行方式最可能為軌道交通方式.小汽車和私家車出行方式也存在輕微的數(shù)據(jù)缺失現(xiàn)象,而步行和公交車軌跡數(shù)據(jù)則最為完整.實(shí)驗(yàn)還發(fā)現(xiàn),私家車出行發(fā)生位移前沒(méi)有顯著的停駐現(xiàn)象,且起訖點(diǎn)以路外為主,而出租車出行發(fā)生位移前出行者存在平均13分鐘的路邊停駐現(xiàn)象,公交車則為4.3分鐘.
3.2 特征參數(shù)分析
除了空間特征能區(qū)分不同出行方式外,參數(shù)值的變化規(guī)律和不同值域也能用于出行方式識(shí)別.圖2是與圖1所示完整出行過(guò)程相對(duì)應(yīng)的瞬時(shí)速度、特征加速度隨時(shí)間變化規(guī)律圖.可見(jiàn)在時(shí)間序列上,依靠瞬時(shí)速度和特征加速度,對(duì)不同的交通方式是可劃分的.而且,步行、輕軌和其它三種機(jī)動(dòng)車方式具有顯著差異.
圖3給出了不同交通方式的速度和加速度隨時(shí)間變化特性的局部強(qiáng)制對(duì)比圖,發(fā)現(xiàn)不同交通方式的速度峰值不同,且加速度變化差異顯著.平均值表達(dá)了變量的一般性特征,而峰值則表達(dá)了該出行方式最高可能達(dá)到的水平.對(duì)速度峰值,顯然有輕軌>機(jī)動(dòng)車>步行,而機(jī)動(dòng)車中存在出租車>私家車>公交車但并不顯著.對(duì)于加速度變化,發(fā)現(xiàn)步行加速度值很高且正負(fù)變化頻繁,只是由于步行時(shí)手機(jī)隨人體擺晃所致,而乘車和停駐時(shí)人體擺晃較小,加速度變化則相對(duì)平穩(wěn).
圖1 一次完整的由家出行軌跡Fig.1 A map of one completed travel trace from home
圖2 一次完整的由家出行的速度和特征加速度變化Fig.2 Speed&acceleration trend of one completed travel trace from home
圖4是手機(jī)所檢測(cè)到不同出行方式的速度和加速度平均值的對(duì)比.顯然平均速度和加速度能夠用于區(qū)分步行、機(jī)動(dòng)車和輕軌,而對(duì)于區(qū)分機(jī)動(dòng)車則不顯著.此外,還研究了不同交通方式的平均行程速度和加速度方差,如圖5所示,平均行程速度與平均檢測(cè)速度性質(zhì)相似,加速度方差體現(xiàn)了不同交通方式特征加速度的離散情況,其結(jié)果與圖4的規(guī)律性類同.
3.3 不同出行方式特征總結(jié)
步行平均檢測(cè)速度最小,檢測(cè)速度峰值最小,特征加速度變化幅度最大,位置數(shù)據(jù)缺失少,軌跡信息相對(duì)完整.出租車、私家車、公交車的檢測(cè)速度和特征加速度略有差異,平均檢測(cè)速度為出租車>私家車>公交車,平均檢測(cè)加速度為公交車>出租車>私家車,其中私家車出行方式起訖點(diǎn)位于路網(wǎng)外,出租車和公交車出行方式起訖點(diǎn)位于道路上,且發(fā)生位移前存在停駐時(shí)間.輕軌平均檢測(cè)速度最大,檢測(cè)速度峰值最大,特征加速度變化平穩(wěn),位置數(shù)據(jù)缺失較多,軌跡信息不完整.
圖3 不同交通方式局部速度和加速度變化趨勢(shì)對(duì)比Fig.3 Comparison of partial speed&acceleration trend
圖4 不同交通方式速度和加速度平均值對(duì)比Fig.4 Comparison of average speed&acceleration
圖5 不同交通方式平均行程速度和加速度方差對(duì)比Fig.5 Comparison of average travel speed&acceleration variance
根據(jù)前文對(duì)軌跡空間特征和變量參數(shù)特征的分析,可以發(fā)現(xiàn),利用平均檢測(cè)速度及其峰值、平均特征加速度及其峰值、移動(dòng)距離、缺失時(shí)間比、前駐時(shí)間、路外起訖等參數(shù)能夠?qū)Τ鲂蟹绞竭M(jìn)行分類.特征變量具體情況如表1所示.
考慮出行方式之間的兩兩特異性,我們采用F-分值法來(lái)定量評(píng)價(jià)[7].F-分值越大表示該特征對(duì)識(shí)別這兩類越關(guān)鍵.考慮所有出行方式的第λ個(gè)特征變量的平均值為
第i個(gè)出行方式的第λ個(gè)特征變量平均值為
則第i個(gè)出行方式與第i個(gè)出行方式的第λ個(gè)特征變量的F-分值為
出行方式兩兩可分的關(guān)鍵特征變量如表2所示.
表1 特征變量列表Table1 List of characteristic variables
表2 出行方式兩兩可分的關(guān)鍵特征變量Table2 Key characteristic variables between pairwise travel mode for recognition
給出特征向量(輸入向量)V=(va,vm,aa,am,l, r,ts,x),以及輸出值y,y∈{1,2,…,5},分別表示步行、出租車、私家車、公交車、輕軌等5中交通方式的取值.這時(shí)(V,y)構(gòu)成一個(gè)用于訓(xùn)練支持向量機(jī)分類器的樣本對(duì).
支持向量機(jī)(Support Vector Machines,SVM)是20世紀(jì)90年代興起的良好的模式識(shí)別解決方法[10],它最大的優(yōu)點(diǎn)在于能夠解決非線性劃分、小樣本量、高維數(shù)的學(xué)習(xí)問(wèn)題,且不會(huì)像神經(jīng)網(wǎng)絡(luò)一樣受樣本的影響容易陷于局部最小.文獻(xiàn)[10]給出了詳細(xì)的SVM的推導(dǎo)過(guò)程.一個(gè)訓(xùn)練好的SVM可以較好地逼近輸入向量與輸出向量之間的非線性映射關(guān)系,這個(gè)關(guān)系就是我們所需要的分類器.
本文在LibSVM環(huán)境下,建立并訓(xùn)練了支持向量機(jī),這里我們選擇常用的徑向基函數(shù)(Radial Basis Function,RBF)作為核函數(shù),將數(shù)據(jù)分成4組進(jìn)行交叉比對(duì),利用網(wǎng)格尋優(yōu)法對(duì)參數(shù)C和γ進(jìn)行優(yōu)化,其中C∈[1,10],其步長(zhǎng)l1=1,γ∈[1/2N,0.1],其步長(zhǎng)l2=10-3,其中N為樣本數(shù)量,發(fā)現(xiàn)分別取5和0.021時(shí)識(shí)別率最佳.
通過(guò)對(duì)138條軌跡信息的分段分析和參數(shù)提取,共獲得出行方式數(shù)據(jù)498個(gè).對(duì)樣本數(shù)據(jù)按照7: 3比例分成訓(xùn)練組和測(cè)試組.樣本詳情如表3所示.
表3 樣本和分組詳情Table3 Detail information of samples and their grouping
除訓(xùn)練了SVM外,還利用決策樹(shù)、BP神經(jīng)網(wǎng)絡(luò)對(duì)同組數(shù)據(jù)進(jìn)行了對(duì)比,結(jié)果如表4和圖6所示.對(duì)于訓(xùn)練樣本的識(shí)別情況,決策樹(shù)最差,正確率為81.9%,且對(duì)機(jī)動(dòng)車幾乎無(wú)識(shí)別能力,而訓(xùn)練好的BP網(wǎng)絡(luò)和SVM幾乎對(duì)所有訓(xùn)練樣本有效,正確率分別達(dá)97.1%和99.7%;對(duì)于測(cè)試樣本而言,決策樹(shù)的識(shí)別率為77.3%,BP網(wǎng)絡(luò)為85.5%,SVM為89.6%.數(shù)據(jù)缺失率也能用于區(qū)分出行方式.針對(duì)上述特征變量作為輸入向量,與分類結(jié)果組成樣本對(duì),構(gòu)建了支持向量機(jī).結(jié)果表明,通過(guò)這種方法能夠較好地對(duì)出行方式進(jìn)行識(shí)別.
表4 決策樹(shù)、BP網(wǎng)絡(luò)、SVM的識(shí)別效果Table4 The recognition result comparison among decision tree,BP neural network&SVM
圖6 不同識(shí)別方法正確率對(duì)比Fig.6 Comparison of accuracy among different methods
出行鏈信息的自動(dòng)識(shí)別不但能夠?yàn)榻煌ㄒ?guī)劃提供大量的數(shù)據(jù)基礎(chǔ),高效的出行信息采集還能為實(shí)時(shí)動(dòng)態(tài)的交通控制與誘導(dǎo)提供依據(jù).本文雖探討其中出行方式的識(shí)別問(wèn)題,然而出行鏈模式非常復(fù)雜,其模式的識(shí)別較為困難,可見(jiàn)將來(lái)在這一方向還有很多的工作可以開(kāi)展.
本文探討了在出行軌跡數(shù)據(jù)中進(jìn)行出行方式識(shí)別的問(wèn)題.首先分析了手機(jī)采集的參數(shù)所表征的出行方式特征,表明步行、機(jī)動(dòng)車、輕軌之間利用速度和加速度是可分的;進(jìn)一步地,考察了能夠細(xì)分出租車、私家車、公交車等機(jī)動(dòng)車方式的變量,認(rèn)為它們之間可以通過(guò)判斷采用該出行方式前的路邊停駐時(shí)間、該交通方式是否在路網(wǎng)外起訖等條件來(lái)劃分;此外,采用該出行方式移動(dòng)的距離、
[1]Jang T.Causal relationship among travel mode,activity, and travel patterns[J].Journal of Transportation Engi?neering,2002,129(1):16-22.
[2]Sheung Yuen Amy Tsui,Shalaby A S.Enhanced system for Link and mode identification for personal travel sur?veys based on global positioning systems[J].Transporta?tion Research Record:Journal of the TRA,2006,1972 (1):38-45.
[3]Widhalm P,Nitsche P,Branaie N.Transport mode detec?tion with realistic Smartphone sensor data[C]//PatternRecognition(ICPR),2012 21st Internationa,2012:573-576.
[4]楊兆升,王媛.基于手機(jī)探測(cè)車的交通信息采集方法研究[C]//第一屆中國(guó)智能交通年會(huì)論文集.中國(guó)上海,2005:321-326.[YANG Z S,WANG Y.Research on traffic information collection method using cellular phone as probes[C]//Proceedings of the 1th China ITS Annual Meeting.Shanghai,China,2005:321-326.]
[5]孫棣華,馬麗,陳偉霞.基于手機(jī)定位及聚類分析的實(shí)時(shí)交通參數(shù)估計(jì)[J].交通運(yùn)輸系統(tǒng)工程與信息,2005,5(3):18-23.[SUN D H,MA L,CHEN W X.Re?al-time traffic parameter estimating based on mobile phone locationg and clustering[J].Journal of Transporta?tion Systems Engineering and Information Technology, 2005,5(3):18-23.]
[6]楊飛.基于手機(jī)定位的交通OD數(shù)據(jù)獲取技術(shù)[J].系統(tǒng)工程,2007,37(1):42-48.[YANG F.Traffic OD data collection based on cell phone location technology [J].System Engineering,2007,37(1):42-48.]
[7]楊揚(yáng),姚恩建,岳昊,等.基于支持向量機(jī)的出行鏈活動(dòng)類型識(shí)別研究[J].交通運(yùn)輸系統(tǒng)工程與信息,2010,10(6):70-75.[YANG Y,YAO E J,YUE H,et al.Trip chain's activity type recognition based on sup?port vector machine[J].Journal of Transportation Sys?tems Engineering and Information Technology,2010,10 (6):70-75.]
[8]閆彭.基于AGPS手機(jī)的交通方式識(shí)別研究[D].北京:北京交通大學(xué),2012.[YAN P.Research on trans?portation detection based on the AGPS-abled cell phone[D].Beijing:Beijing Jiaotong University,2012.]
[9]冉斌.手機(jī)數(shù)據(jù)在交通調(diào)查和交通規(guī)劃中的應(yīng)用[J].城市交通,2013,11(1):72-81.[RAN B.Use of cell phone data in travel survey and transportation planning [J].Urban Transport of China,2013,11(1):72-81.]
[10]Cristianini N,Shawe-Taylor J.An introduction to sup?port vector machines and other kernel-based learning methods[M].Cambridge:Cambridge university press, 2000.
Travel Mode Character Analysis and Recognition Based on SVM
WANG Lei1,ZUO Zhong-yi1,F(xiàn)U Jun-hao2
(1.School of Traffic and Transportation Engineering,Dalian Jiaotong University,Dalian 116028,Liaoning,China;2.Navigation College,Dalian Maritime University,Dalian 116026,Liaoning,China)
This paper focuses on travel mode recognition based on Support Vector Machines(SVM)after analyzing the characters of different travel mode,which are extracted from travel trace information collected by smartphone.Firstly,we figure out which parameters can be detected and recorded by smartphone,and analyze the character of travel mode from two aspects which are travel trace and character parameters,to find which are the key parameters to divide each two kind of travel mode,so that we are able to make up the character vectors to recognize different travel mode,and eventually a classifier of Radial Basis Function based SVM can be established.This SVM is trained by travel mode samples from travel trace data in Dalian.As comparisons,Decision Tree and BP Neural Network are used.The result shows that the recognition accuracy rate of SVM is 89.6%,which of BP Neural Network is 85.5%,which of Decision Tree is 77.3%,and suggests that the SVM has better recognition performance.
urban traffic;pattern recognition;support vector machines;travel mode;character analysis
U491.1
A
2013-10-11
2013-11-28錄用日期:2013-12-06
汪磊(1991-),男,安徽桐城人,碩士生.*通訊作者:zuozy@djtu.edu.cn