朱勇 劉濤
摘要:在當下的智能交通領域車輛目標識別的許多方法中,基于深度學習的視覺識別方法具有卓越的效果。通過對主流的one-step與two-step模型結構及特點的分析,提出了一套基于RetinaNet深度學習的車輛檢測識別系統(tǒng),使用ResNet101獲取圖像特征,基于Focal Loss損失函數(shù)構建精細化車輛型號識別模型,利用Stanford Car DataSet數(shù)據(jù)集進行訓練,并使用實際場景中的圖像進行測試。實驗結果表明,該系統(tǒng)具有良好的用戶界面,優(yōu)越的性能,較高的識別準確度,解決了復雜交通場景下多型號車輛識別的問題。
關鍵詞:深度學習;RetinaNet;ResNet;Stanford Car DataSet
中圖分類號:TP368.1 文獻標識碼:A 文章編號:1007-9416(2019)11-0072-02
1 研究內(nèi)容
1.1 Focal Loss
在分類過程中,由于簡單易分的負樣本,簡稱易分樣本,占有大部分數(shù)量,使得訓練過程不能充分專注于有類別樣本的信息;并且簡單易分負樣本數(shù)量過多會掩蓋了其他有類別樣本。對于two-stage檢測算法而言,第一個步驟產(chǎn)生合適的候選區(qū)域后,可以通過難分樣本挖掘(Hard Negative Mining,OHEM)控制難分樣本占據(jù)的比例以解決上述提及的樣本數(shù)量不平衡的問題。 對于one-stage檢測算法而言,盡管可以采用同樣的OHEM策略控制正負樣本,但OHEM方法忽略了易分樣本的數(shù)量,只專注于控制難分樣本比例,所以存在效率低下的不足。因此,針對類別不均衡的問題,F(xiàn)ocal Loss損失函數(shù)應運而生,該函數(shù)基于標準交叉熵損失,加入了調(diào)制系數(shù),通過減少易分樣本的權重使模型在訓練時專注于難分樣本,解決了難分樣本挖掘存在的缺陷。
1.2 RetinaNet
RetinaNet是一個基于深度殘差網(wǎng)絡的one-stage detector,加入了focal loss來解決類別不平衡的問題。RetinaNet由一個卷積提取結構,一個特征金字塔網(wǎng)絡,一個分類子網(wǎng)絡和一個框圖子網(wǎng)絡組成。
卷積提取結構負責在整個輸入圖像上計算卷積特征,ResNet卷積網(wǎng)絡采用深度殘差思想,核心是通過跳過特定層的方式有效解決了梯度消失或者梯度爆炸的問題,加深了網(wǎng)絡的疊加層數(shù),使得超深度網(wǎng)絡的構建成為可能,同時也避免了額外參數(shù)的增加,保證了模型的體積。特征金字塔網(wǎng)絡根據(jù)圖像樣本低層特征的語義信息少、目標位置準確,高層特征的語義信息多、目標位置粗略的特點,通過自上而下,自下而上,橫向連接等多種方式將不同層的特征圖進行融合,使小目標易于識別。
分類子網(wǎng)絡在特征金字塔輸出上執(zhí)行卷積對象分類,框圖子網(wǎng)絡執(zhí)行卷積邊界框回歸。Focal Loss主要應用于子網(wǎng)絡部分,使模型專注于高難度分類樣本,解決了正負樣本不平衡問題,大大提高了識別率。
1.3 基于優(yōu)化RetinaNet的車輛識別系統(tǒng)
本文所選用數(shù)據(jù)集為Stanford Car Dataset,包含196種車輛共16,185張圖片,車輛每個型號按50-50劃分為含8144張圖片的訓練集和含8041張圖片的驗證集,非常適合精細化型號識別的場景。本文使用Anaconda開發(fā)環(huán)境,Python3.6語言,深度學習框架Keras構建模型,在計算機配置為Ubuntu16.04,CUDA10.0,cuDNN7.4,NVIDIA Tesla P100*2的系統(tǒng)下進行模型訓練,模型收斂曲線如圖1所示。
為了方便用戶使用和考慮到多終端設備,使用PyQt開發(fā)了考慮到用戶易用性和多終端設備部署的需要,本文使用PyQt開發(fā)了用戶良好的界面,選擇待檢測圖片后調(diào)用后端深度學習模型進行識別,輸出帶目標檢測框圖和車輛具體型號文本標簽的識別結果圖。運行效果如圖2所示。
2 結語
本文將深度學習模型引入智能交通領域下的車輛型號檢測識別中,在訓練新模型時,通過ResNet101特征提取結構達到了識別速度和識別率的最佳平衡,實驗結果表明,本文提出的基于優(yōu)化RetinaNet車輛精細化識別與檢測系統(tǒng)具有良好的可用性和準確度。本文研究也為后續(xù)車輛快速定位、信息檢測等具體的應用奠定了基礎,但目前單型號下數(shù)據(jù)集大小依舊不夠,今后將對現(xiàn)有數(shù)據(jù)集進行擴充,并改進模型結構,改善識別效果。
參考文獻
[1] Lowe D G. Object recognition from local scale-invariant features[C]//iccv.1999, 99(2):1150-1157.
[2] Krizhevsky A, Sutskever I,Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems.2012:1097-1105.