蘇正青 馬巧梅
(中北大學(xué)軟件學(xué)院 山西 太原 030051)
隨著經(jīng)濟(jì)社會的快速發(fā)展,城市交通變得四通八達(dá),在這樣的背景下,私家車成為了人們?nèi)粘I畛鲂斜夭豢缮俚慕煌üぞ撸欢?,這也導(dǎo)致了交通事故發(fā)生的次數(shù)越來越多[1],其中一個重要的問題就是交通標(biāo)志的識別,如環(huán)境因素(陰雨天氣、大霧天氣、夜晚光線較差、遮蔽物遮擋視線等)、駕駛員因素(駕駛員疲憊、駕駛員車速太快)、交通標(biāo)志本身的因素(標(biāo)志老化褪色、標(biāo)志傾斜[2]、等)都對交通標(biāo)志及時準(zhǔn)確的識別帶來了挑戰(zhàn)。近幾年來,在交通標(biāo)志的識別方面,很多研究人員進(jìn)行了大量的探索,而且得到了很多實驗數(shù)據(jù)和結(jié)果。多尺度檢測:王方石等[3]在CNN中加入屬性學(xué)習(xí)約束,引入交通標(biāo)志的形狀、顏色、圖案內(nèi)容三種視覺屬性,該方法有效提高準(zhǔn)確率和召回率。宋青松等[4]采用限制對比度自適應(yīng)直方圖均衡化方法作為圖像預(yù)處理方法,構(gòu)造多尺度CNN模型,用于提取交通標(biāo)志圖像的全局特征和局部特征,進(jìn)而將組合后的多尺度特征送入SoftMax分類器,該方法準(zhǔn)確率高,速度快。楊遠(yuǎn)飛等[5]提出了一種改進(jìn)的網(wǎng)絡(luò)模型,該模型集合了多尺度輸入、并行交叉以及恒等映射的特點(diǎn),保證特征提取的充分性與多樣性并使網(wǎng)絡(luò)性能不會隨深度加深而退化,該方法準(zhǔn)確率高。Sermanet等[6]將多尺度圖像放入神經(jīng)網(wǎng)絡(luò)中訓(xùn)練,將不同卷積層的特征映射級聯(lián)操作,最后聯(lián)合特征輸送到全連接層進(jìn)行識別,準(zhǔn)確度較高。金字塔模型檢測:周以鵬等[7]利用神經(jīng)網(wǎng)絡(luò)分層的特性,在多層卷積層上使用梯度加權(quán)類激活映射,生成梯度金字塔模型,并通過均值濾波計算特征質(zhì)心位置,利用置信強(qiáng)度映射和閾值梯減模塊產(chǎn)生連接的像素段,圍繞最大邊界標(biāo)注進(jìn)行弱監(jiān)督定位,具有較高的精確度。徐喆等[8]提出改進(jìn)的尺度依賴池化SDP模型用于小尺度交通圖像的識別,在SDP模型只提取淺卷積層特征信息的基礎(chǔ)上,使用深卷積層特征補(bǔ)足型SDP映射輸出,使用多尺度滑窗池化MSP將特征池化到固定維度,將改進(jìn)的尺度依賴池化模型應(yīng)用于圖像的識別,有利于小尺度圖像識別。Lin等[9]提出了特征金字塔模型,在結(jié)合多尺度特征圖的基礎(chǔ)上,加入了底層特征圖和特征圖上采樣融合,更有利于微小目標(biāo)檢測。端到端檢測:Choi等[10]提出對各個卷積層使用級聯(lián)分類器,依據(jù)各卷積層的權(quán)重來決定最終的分類結(jié)果,雖然分類結(jié)果結(jié)合不同卷積層的特征的判定,準(zhǔn)確率較高。趙銀玲等[11]對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了改進(jìn),減少其卷積核的數(shù)量,增加池化方式,該方法準(zhǔn)確率高,速度快。武林秀等[12]使用VGG16卷積神經(jīng)網(wǎng)絡(luò)自動提取交通標(biāo)志圖像特征,并將卷積特征圖傳入RPN中進(jìn)行前景目標(biāo)篩選及回歸目標(biāo)邊框,將建議區(qū)域框映射到特征圖上,經(jīng)過ROI池化層后輸出固定大小的建議框,該方法具有很好的魯棒性。喬堃等[13]基于ZF和VGG兩種網(wǎng)絡(luò)的變形,優(yōu)化實現(xiàn)了一種基于卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志分類算法,該方法精度高、魯棒性好。Ciresan等[14]提出多陣列神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)McDNN,使用通過不同預(yù)處理得到的圖像訓(xùn)練得到多個深度DNN結(jié)構(gòu),聯(lián)合多個DNN的結(jié)果完成對路標(biāo)圖像特征提取識別,該方法準(zhǔn)確率較高。概率檢測:熊麗婷等[15]首先對目標(biāo)所在區(qū)域概率進(jìn)行計算,由此分別對內(nèi)外,邊界構(gòu)造模型,形成檢測框,最后通過卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)定位,該方法準(zhǔn)確率高。李凱等[16]分析了圖像的顏色特征,結(jié)合先驗和顏色概率進(jìn)行特征融合,形成選區(qū)域,最后卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行定位,該方法魯棒性好。劉占文等[17]構(gòu)造了基于超輪廓圖超像素區(qū)域的圖模型,有效利用自底向上的多級信息,提出了一種基于圖模型的層次顯著性檢測方法,以提取交通標(biāo)志感興趣區(qū)域,并利用卷積神經(jīng)網(wǎng)絡(luò)對感興趣候選區(qū)進(jìn)行特征提取與分類,該方法準(zhǔn)確率高。Zhang等[18]引入了對比邊際獲勝概率C-MWP,用于模擬可突出區(qū)分區(qū)域的神經(jīng)分類模型,更有利于圖像分類。本文計算顯著度提取感興趣,避免了交通標(biāo)志誤檢和漏檢的發(fā)生,構(gòu)建BF-VDNet-SPP模型,更好地提取低層特征,池化金字塔多層次提取交通標(biāo)志的特征,高效準(zhǔn)確地識別交通標(biāo)志,同時有利于遠(yuǎn)距離交通標(biāo)志檢測。
由于離物體的距離越近越容易發(fā)現(xiàn),因此中心先驗在目標(biāo)檢測定位發(fā)揮了重要的作用,據(jù)此有約束函數(shù)Ti:
(1)
式中:Qb表示中心位置;Qa表示像素坐標(biāo);M指像素數(shù)量。
顏色的對比度越強(qiáng),物體越容易發(fā)現(xiàn),因此有特征對比度Wi:
(2)
α=e-(u1-u2)2
(3)
考慮顏色特征和先驗約束,得到圖像顯著性:
Ci=WiTi
(4)
對得到的顯著性區(qū)域用雙線性插值法放大,調(diào)整圖像尺寸。
有相關(guān)的研究發(fā)現(xiàn),人對目標(biāo)檢測定位時受圖像的梯度特征、紋理特征和灰度特征影響較大,圖像的紋理特征能夠反映局部特征信息,圖像的梯度特征能夠反映邊緣細(xì)節(jié)信息,圖像的灰度特征能夠反映顏色深淺變化,分別對原圖像提取灰度圖,LBP特征圖,骨架特征圖3種特征圖并進(jìn)行6個尺度變換(旋轉(zhuǎn):左右旋轉(zhuǎn),伸縮:放大縮小,平移變換:左移右移),對圖像進(jìn)行滑窗操作,3×3大小為一個圖像鄰域塊,分別計算每個圖像塊的均值和方差作為這個像素塊每個像素點(diǎn)的均值和方差,得到圖像的特征向量為L=(u00,σ00,…,um-1n-1,σm-1n-1),因而淺層特征為G1=[L1;L2;…;LN],其中:N表示輸入圖像的像素個數(shù),Ln表示每個像素點(diǎn)的特征向量,n∈[1,2,…,N]??芍狶N是1×36維。圖1為底層特征圖像。
(a) 原圖(b) 骨架圖像 (c) 灰度圖像 (d) LBP圖像圖1 提取底層特征
以前的字典學(xué)習(xí)采用無監(jiān)督的方式,K-均值算法通過聚類方法構(gòu)建詞典處理樣本,詞典均勻簡易,但在內(nèi)容多樣復(fù)雜的環(huán)境下難以得到一個令人滿意的視覺詞典,為使詞典更加精準(zhǔn)合理,構(gòu)造算法優(yōu)化目標(biāo)函數(shù):
(5)
式中:Y是輸入的樣本值,B為待訓(xùn)練冗余詞典,X為稀疏系數(shù)。
訓(xùn)練詞典時,首先保持詞典B不變并用樣本賦初值,其次利用正交匹配追蹤算法(OMP)優(yōu)化稀疏系數(shù)X,然后對詞典B進(jìn)行翻新,最后求解局部最優(yōu)值:
(6)
式中:N指詞典原子數(shù);S指詞典列數(shù);bs指詞典第s列;Fs指詞典原子殘差;T指利用OMP算法優(yōu)化稀疏系數(shù)X非零數(shù)的最大值,閾值T實現(xiàn)稀疏表示。
根據(jù)以上描述,提出了BF-VDNet-SPP模型,如圖2所示。
第一步:計算顯著度并提取感興趣區(qū)域,提取底層特征向量K,每種交通標(biāo)志的特征向量維度為100×36。
第二步:使用任意K個特征向量對詞典B賦初值,保持詞典B不變,通過OMP算法優(yōu)化稀疏詞典B,得出稀疏系數(shù)X。
第三步:根據(jù)稀疏系數(shù)X,通過N次迭代完善詞典,求得目標(biāo)函數(shù)最優(yōu)解。
第四步:通過主成分分析方法PCA得到當(dāng)前交通標(biāo)志圖像特征向量M。
第五步:將特征向量M和詞典B每一個元素做卷積運(yùn)算,得到所有像素點(diǎn)的特征,因為像素點(diǎn)維度增加,通過空間金字塔池化方法降低維度,提取圖像特征,級聯(lián)得到多尺度圖像特征,作為圖像的中層卷積特征Z。
第六步:訓(xùn)練SoftMax分類器參數(shù),將中層卷積特征Z輸入模型分類,實現(xiàn)對交通標(biāo)志類別的劃分。
池化金字塔具有良好的抗噪性,可以更全面地提取圖像特征,從而更加準(zhǔn)確地對目標(biāo)進(jìn)行劃分。
本文構(gòu)造的池化金字塔模型如圖3所示。
圖3 金字塔池化模型
c∈C指池化金字塔有C層,c指池化金字塔第c層,每層圖像長寬被分成2c段,分成4c個圖像塊,池化公式如下:
Y=E(X)
(7)
為了更好地突出圖像的邊緣細(xì)節(jié)特征,采用最大池化法選取圖像塊中像素的最大值當(dāng)作圖像塊的特征向量,最大池化公式如下:
yj=max{|x1j|,|x2j|,…,|xnj|}
(8)
式中:yj為Y的第j個元素,xnj為圖像第n行第j列像素值,特征向量數(shù)是n。
提取每層金字塔池化后的特征向量,連接這些特征向量獲得多尺度特征,連接方法如下:
設(shè)池化空間金字塔得到的特征向量為ti1和ti2,連接后ti=[ti1,ti2]。
本文設(shè)定C為2,將三層特征拼接作為特征向量Z。
這次實驗所使用的數(shù)據(jù)集是GTSRB,包括了各種氣候條件下,各種各樣的交通標(biāo)志圖像,交通標(biāo)志圖片有1 000多幅,交通標(biāo)志的尺寸大致范圍是15×15到130×130,分為43種類別,選擇其中的20個交通標(biāo)志為正樣本,剩下的23個交通標(biāo)志圖像為負(fù)樣本,使用2 000幅交通標(biāo)志用于訓(xùn)練,100幅交通標(biāo)志用于測試,部分樣本圖像如圖4所示。
圖4 部分樣本圖片
本次實驗的架構(gòu)平臺選擇Tensorflow,電腦系統(tǒng)是Windows 10,64 bit,所使用的函數(shù)來源于Anaconda,所使用的編程軟件是Pycharm,處理器為Intel(R)Core(TM)i7- 7700HQ CPU@2.80 GHz,存儲容量是16 GB。顯卡為GTX1050,訓(xùn)練用時為1小時。
實驗結(jié)果如圖5所示。
圖5 交通標(biāo)志檢測結(jié)果
部分實驗數(shù)據(jù)如表1所示。
表1 部分交通標(biāo)志數(shù)據(jù)統(tǒng)計
不同方法檢測結(jié)果如表2所示。
表2 不同方法檢測結(jié)果統(tǒng)計
續(xù)表2
不同方法誤差分析如圖6所示。
圖6 誤差對比
不同方法準(zhǔn)確率分析如圖7所示。
圖7 準(zhǔn)確率對比
根據(jù)表1、表2、圖6、圖7可知本文算法對交通標(biāo)志定位的召回率為96%,準(zhǔn)確率為97%,取得良好效果。本文算法對交通標(biāo)志定位的召回率和準(zhǔn)確率比文獻(xiàn)[10]和文獻(xiàn)[15]低0.5百分點(diǎn)左右,存在差距。
為了進(jìn)一步對交通標(biāo)志檢測定位進(jìn)行研究,將照片中的交通標(biāo)志尺寸分成兩類,交通標(biāo)志大小在150以下的稱為小標(biāo)志,交通標(biāo)志大小在150以上的稱為大標(biāo)志,不同方法的小標(biāo)志檢測結(jié)果如表3所示。
表3 小標(biāo)志圖像檢測結(jié)果
根據(jù)表3可知本文算法對小標(biāo)志定位的召回率和準(zhǔn)確率較高,說明本文算法更適用于遠(yuǎn)距離交通標(biāo)志定位,實用性更強(qiáng)。
為了進(jìn)一步對交通標(biāo)志檢測時間進(jìn)行研究,分別對100幅交通標(biāo)志圖像進(jìn)行識別,不同方法的檢測時間如表4所示。
表4 交通標(biāo)志定位時間結(jié)果統(tǒng)計
根據(jù)表4可知本文算法對交通標(biāo)志定位所用的時間更短,接近其他方法所用時間的一半,實時性更強(qiáng)。
本文為更好地對交通標(biāo)志進(jìn)行識別,提出了基于卷積神經(jīng)網(wǎng)絡(luò)中層特征學(xué)習(xí)的交通標(biāo)志圖像識別方法。
(1) 計算顯著度提取感興趣區(qū)域,提高識別準(zhǔn)確率。
(2) 根據(jù)灰度圖、LBP特征圖、骨架圖,以及對圖像伸縮、旋轉(zhuǎn)和平移,充分提取低層特征。
(3) 構(gòu)建視覺詞典,通過PCA主成分分析方法得到當(dāng)前圖像特征向量,并與視覺詞典做卷積運(yùn)算,進(jìn)一步提取圖像特征,
(4) 通過金字塔池化模型對特征分層次提取,降低特征維度,充分提取圖像特征。
(5) 最后通過SoftMax分類器對交通標(biāo)志進(jìn)行分類,實驗結(jié)果表明,本文方法效果好,效率高,適用于遠(yuǎn)距離交通標(biāo)志定位識別。