彭 博,張媛媛,唐 聚,謝濟(jì)銘,王玉婷
(1.山地城市交通系統(tǒng)與安全重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400074;2.重慶交通大學(xué) 交通運(yùn)輸學(xué)院,重慶 400074)
隨著城市的快速發(fā)展,城市機(jī)動(dòng)車(chē)保有量持續(xù)增長(zhǎng),交通擁堵愈發(fā)嚴(yán)重。為了緩解交通擁擠、避免交通癱瘓,需要及時(shí)有效地識(shí)別道路交通狀態(tài)。目前,國(guó)內(nèi)外基于微波檢測(cè)器[1]、地磁感應(yīng)線(xiàn)圈[2]、視頻檢測(cè)器[3]、RFID[4]和浮動(dòng)車(chē)[5]等技術(shù)手段提取的數(shù)據(jù),對(duì)交通狀態(tài)識(shí)別展開(kāi)了大量研究。其中,隨著城市交通視頻資源越來(lái)越豐富,以及視頻處理技術(shù)的快速發(fā)展,基于視頻圖像的交通狀態(tài)識(shí)別研究獲得了廣泛關(guān)注。
國(guó)內(nèi)外學(xué)者基于視頻圖像進(jìn)行了一系列交通狀態(tài)識(shí)別研究,Morton(2005)基于航拍圖像實(shí)現(xiàn)了交通狀態(tài)識(shí)別[6];Reinartz(2006)從航拍圖像中獲得高質(zhì)量的交通數(shù)據(jù)[7];Lozano(2009)基于k-均值聚類(lèi)方法提高了交通擁堵?tīng)顟B(tài)識(shí)別系統(tǒng)的魯棒性[8];Liao(2014)利用支持向量機(jī)和遺傳學(xué)算法建立了交通視頻圖像擁擠識(shí)別模型[9];Quiros(2016)基于模糊邏輯提出視頻圖像交通狀態(tài)識(shí)別方法[10];崔華(2017)利用模糊C均值聚類(lèi)算法對(duì)靜態(tài)圖像進(jìn)行交通狀態(tài)識(shí)別[11]??傮w而言,這些研究可從圖像中提取車(chē)輛位置、流量、速度等交通參數(shù),進(jìn)而識(shí)別交通狀態(tài)。由于視頻圖像內(nèi)容復(fù)雜多樣,快速準(zhǔn)確提取交通特征可能較為困難,不易實(shí)時(shí)處理快速增長(zhǎng)的海量交通視頻。
視頻圖像具有維度高、信息冗余復(fù)雜等特征,考慮到及時(shí)高效識(shí)別交通狀態(tài)的重要性,一些學(xué)者嘗試對(duì)視頻圖像進(jìn)行有效降維。其中,自編碼器是一種非線(xiàn)性無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò)模型,能夠?qū)σ曨l圖像數(shù)據(jù)有效降維,進(jìn)而實(shí)現(xiàn)圖像分類(lèi),因此,基于自編碼器的圖像降維與模式識(shí)別研究受關(guān)注較多:Wang(2012)提出了一種基于傳統(tǒng)自動(dòng)編碼器對(duì)稱(chēng)結(jié)構(gòu)的折疊自動(dòng)編碼器,減小尺寸并降低了降維的計(jì)算成本[12];Gao(2015)提出一種基于有監(jiān)督堆疊自動(dòng)編碼器的面部識(shí)別方法[13];Zhao(2017)將隨機(jī)森林分類(lèi)器引入堆疊式稀疏自動(dòng)編碼器以實(shí)現(xiàn)高光譜圖像分類(lèi)[14];Ge(2019)提出一種雙重對(duì)抗性自動(dòng)編碼器用于圖像聚類(lèi),并能達(dá)到有監(jiān)督CNN算法的聚類(lèi)精度[15]。由此可見(jiàn),自編碼器可有效獲取圖像降維特征、避免“維數(shù)災(zāi)難”,將其與聚類(lèi)方法結(jié)合,可快速高效實(shí)現(xiàn)視頻圖像交通狀態(tài)的無(wú)監(jiān)督識(shí)別。
綜上所述,為了有效降低圖像維度、自動(dòng)快速識(shí)別交通狀態(tài),本研究基于自編碼器與k-means聚類(lèi)提出了一種視頻交通狀態(tài)自動(dòng)識(shí)別方法,并構(gòu)建數(shù)據(jù)集進(jìn)行測(cè)試分析。
主要利用自編碼器對(duì)高維度圖像進(jìn)行特征壓縮,基于壓縮后的低維數(shù)據(jù),利用k-means聚類(lèi)算法識(shí)別交通狀態(tài),流程如圖1所示,主要包含3個(gè)步驟。
圖1 方法流程
(1)自編碼器圖像數(shù)據(jù)集構(gòu)建:將交通視頻轉(zhuǎn)化成幀圖像,根據(jù)車(chē)輛密度及車(chē)間距等參數(shù)與人工經(jīng)驗(yàn)對(duì)每一幀圖像進(jìn)行交通狀態(tài)判定,形成包含暢通、緩行、擁堵3種交通狀態(tài)的數(shù)據(jù)集。
(2)自編碼器模型構(gòu)建與測(cè)試:根據(jù)模型的主要結(jié)構(gòu)參量,包括輸入數(shù)據(jù)維度、隱藏層數(shù)量、降維數(shù)據(jù)維度等,構(gòu)建自編碼器備選模型,并進(jìn)行測(cè)試與選優(yōu)。
(3)k-means聚類(lèi):將最優(yōu)自編碼器輸出的降維數(shù)據(jù)進(jìn)行k-means聚類(lèi),獲得圖像交通狀態(tài)。
交通狀態(tài)識(shí)別模型主要包含自編碼器和k-means聚類(lèi)兩部分,訓(xùn)練自編碼器獲得編碼數(shù)據(jù),以作為k-means聚類(lèi)的輸入數(shù)據(jù),進(jìn)而判定圖像交通狀態(tài)。
構(gòu)建自編碼器以交通視頻圖像為輸入,編碼與解碼過(guò)程均有N個(gè)隱藏層,各層之間采用全連接結(jié)構(gòu),如圖2所示。對(duì)于樣本量為Q的圖像集中第g張圖像為例,自編碼器運(yùn)算過(guò)程如下。
圖2 自編碼器結(jié)構(gòu)
(1)將第g張圖像轉(zhuǎn)化為1×M的一維向量Xg,g∈[1,Q],M=τ1×τ2,τ1和τ2為圖像的寬度(像素)和高度(像素);
(1)
(2)
(3)
根據(jù)輸入數(shù)據(jù)維度、隱藏層數(shù)量、降維數(shù)據(jù)維度設(shè)計(jì)48個(gè)自編碼器模型結(jié)構(gòu),如表1所示?;跀?shù)據(jù)集A1對(duì)這些模型結(jié)構(gòu)進(jìn)行測(cè)試,結(jié)果顯示當(dāng)輸入數(shù)據(jù)維度為64×64、降維數(shù)據(jù)維度為3維或者5維時(shí)測(cè)試效果較好,因此確定了6個(gè)備選模型,結(jié)構(gòu)如表2所示。
表1 自編碼器交叉試驗(yàn)
表2 自編碼器備選模型結(jié)構(gòu)參數(shù)
(4)
式中,p=(bp1,bp2,…,bpv)和q=(bq1,bq2,…,bqv)為兩個(gè)具有v維特征的向量。
(4)遍歷完數(shù)據(jù)集中所有對(duì)象后,利用式(5)更新簇中心。
(5)
(5)根據(jù)最近鄰原則,重新將數(shù)據(jù)集中的對(duì)象進(jìn)行劃分,并計(jì)算新的簇中心,直到平方誤差準(zhǔn)則函數(shù)滿(mǎn)足要求。平方誤差準(zhǔn)則函數(shù)定義如下:
(6)
(6)將所有樣本聚類(lèi)為k簇,即k類(lèi)交通狀態(tài)S1,S2,…,Sk。
道路交通視頻原始數(shù)據(jù)來(lái)源于某城市主要干道的交通視頻,圖像分辨率為704×576像素。為提高運(yùn)行效率,裁剪提取目標(biāo)區(qū)域圖像并劃分為暢通、緩行、擁堵3種交通狀態(tài),記為狀態(tài)0,1,2。據(jù)此構(gòu)建了3個(gè)數(shù)據(jù)集A1,A2,A3,樣本量Qj(j=1,2,3)分別為1 500,3 000,4 500。數(shù)據(jù)集制作過(guò)程與結(jié)果如圖3所示。
圖3 圖像數(shù)據(jù)集制作
試驗(yàn)平臺(tái)為64位windows7操作系統(tǒng)的工作站,內(nèi)存4 GB+CPU Nvidia GeForce 820M,配置Pytorch+Spyder3.6等環(huán)境,搭建Pytorch深度學(xué)習(xí)框架,采用Python 3.5作為編程語(yǔ)言。
針對(duì)數(shù)據(jù)集A1,A2,A3與模型Ⅰ~模型Ⅵ,進(jìn)行了18組訓(xùn)練試驗(yàn)。為了對(duì)比備選模型效果,針對(duì)每個(gè)樣本集的模型Ⅰ~模型Ⅵ均采用相同的訓(xùn)練參數(shù),如表3所示。
表3 訓(xùn)練參數(shù)
訓(xùn)練過(guò)程中采用Adam迭代優(yōu)化算法[16],利用梯度的一階矩估計(jì)和二階矩估計(jì)動(dòng)態(tài)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率,其公式如下:
mt=λ×mt-1+(1-λ)×gt,
(7)
(8)
(9)
(10)
(11)
針對(duì)模型Ⅰ~模型Ⅵ在數(shù)據(jù)集A1,A2,A3下的測(cè)試情況,采用兼顧準(zhǔn)確率和召回率的平均F1值作為效果評(píng)價(jià)指標(biāo),計(jì)算過(guò)程如下。
(1)計(jì)算模型對(duì)數(shù)據(jù)集每類(lèi)交通狀態(tài)的樣本聚類(lèi)準(zhǔn)確率、召回率與F1值。
(12)
(13)
(14)
(2)計(jì)算模型對(duì)各個(gè)數(shù)據(jù)集的交通狀態(tài)平均分類(lèi)準(zhǔn)確率、召回率及F1值。
(15)
(16)
(17)
基于數(shù)據(jù)集A1,對(duì)前文2.1節(jié)的48個(gè)自編碼器模型結(jié)構(gòu)進(jìn)行測(cè)試,計(jì)算F1值,結(jié)果顯示,F(xiàn)1值高于0.9的試驗(yàn)自編碼器結(jié)構(gòu)為(64×64,64),(64,64),(64,12),(12,5),即輸入數(shù)據(jù)維度64×64、8個(gè)編碼及解碼隱藏層、5維編碼數(shù)據(jù);其次,F(xiàn)1值介于0.8~0.9時(shí),模型降維數(shù)據(jù)均為3維或5維。據(jù)此,設(shè)計(jì)了6個(gè)自編碼器備選模型,即模型Ⅰ~模型Ⅵ。
表4 備選模型評(píng)價(jià)指標(biāo)值
為進(jìn)一步驗(yàn)證AE*對(duì)每一類(lèi)交通狀態(tài)的識(shí)別效果,基于數(shù)據(jù)集A3計(jì)算分析各類(lèi)狀態(tài)的識(shí)別準(zhǔn)確率、召回率與F1值,結(jié)果如表5所示??梢钥闯觯珹E*對(duì)暢通、緩行、擁堵的識(shí)別準(zhǔn)確率為0.87~1.00,對(duì)緩行狀態(tài)識(shí)別準(zhǔn)確率最高;AE*對(duì)暢通、緩行、擁堵的識(shí)別召回率為0.86~1.00,對(duì)暢通狀態(tài)識(shí)別召回率最高。綜合來(lái)看,AE*對(duì)暢通、緩行、擁堵的F1值為0.89~0.96,對(duì)每類(lèi)交通狀態(tài)識(shí)別效果均較好。
表5 AE*對(duì)數(shù)據(jù)集A3的評(píng)價(jià)指標(biāo)
將本文AE*與k-means相結(jié)合的交通狀態(tài)識(shí)別模型命名為AE*-k-means,同理,將AE*與SVM[17],DNN_Linear[18],Linear[18]相結(jié)合的模型分別命名為AE*-SVM,AE*-DNN_Linear,AE*-Linear。利用數(shù)據(jù)集A1,A2,A3對(duì)上述模型進(jìn)行訓(xùn)練測(cè)試,計(jì)算每個(gè)數(shù)據(jù)集的交通狀態(tài)識(shí)別準(zhǔn)確率、召回率以及F1值,結(jié)果如圖4~圖6所示。
圖4 AE*結(jié)合各分類(lèi)器的準(zhǔn)確率
圖5 AE*結(jié)合各分類(lèi)器的召回率
圖6 AE*結(jié)合各分類(lèi)器的F1值
可以看出,平均F1值優(yōu)劣排序?yàn)锳E*-SVM(0.927),AE*-k-means(0.924),AE*-DNN_Linear (0.921),AE*-Linear(0.918),4個(gè)模型性能相近,AE*-k-means準(zhǔn)確率、召回率處于最優(yōu)或次優(yōu)水平,表明AE*對(duì)圖像降維效果較好,可為k-means,SVM,Linear,DNN_Linear等提供有效的特征數(shù)據(jù)。此外,k-means是一種典型的無(wú)監(jiān)督聚類(lèi)方法,而SVM,Linear,DNN_Linear則為有監(jiān)督分類(lèi)方法,與AE*-SVM,AE*-DNN_Linear,AE*-Linear相比,AE*-k-means在保證交通狀態(tài)識(shí)別準(zhǔn)確率和召回率的基礎(chǔ)上,可有效減少人工數(shù)據(jù)標(biāo)定、有監(jiān)督訓(xùn)練等工作量及運(yùn)算成本。
為進(jìn)一步驗(yàn)證模型對(duì)暢通、緩行、擁堵3種交通狀態(tài)識(shí)別效果,基于數(shù)據(jù)集A3進(jìn)行了測(cè)試,結(jié)果顯示,對(duì)于暢通狀態(tài),4個(gè)模型F1值為0.93~0.99,效果均較好;對(duì)于緩行狀態(tài),AE*-k-means的F1值為0.96,高出其余模型6%~9%;對(duì)于擁堵?tīng)顟B(tài),AE*-k-means和AE*-SVM的F1值為0.89,比其余模型高4%。因此,對(duì)于數(shù)據(jù)集A3,AE*-k-means對(duì)3種交通狀態(tài)識(shí)別效果總體最優(yōu)。
針對(duì)道路交通視頻,提出了一種基于自編碼器與k-means聚類(lèi)的視頻交通狀態(tài)識(shí)別方法,可實(shí)現(xiàn)無(wú)監(jiān)督條件下的視頻交通狀態(tài)快速自動(dòng)識(shí)別。測(cè)試顯示,本研究模型交通狀態(tài)識(shí)別準(zhǔn)確率、召回率及F1值均較高,既可有效減少人工數(shù)據(jù)標(biāo)定,有效監(jiān)督訓(xùn)練等工作量及運(yùn)算成本,也可以獲得較優(yōu)的交通狀態(tài)識(shí)別準(zhǔn)確率、召回率和F1值。
本研究方法可有效降低算法復(fù)雜度、避免“維數(shù)災(zāi)難”,保證運(yùn)行效率與識(shí)別效果,對(duì)于視頻交通狀態(tài)識(shí)別具有較大的理論和現(xiàn)實(shí)意義。由于交通場(chǎng)景復(fù)雜多樣,對(duì)于自編碼器結(jié)構(gòu)、優(yōu)化結(jié)合自編碼器與分類(lèi)器、構(gòu)建海量數(shù)據(jù)集等方面還需進(jìn)一步研究。