亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于YOLO v3算法改進的交通標志識別算法

2020-09-04 10:01:24江金洪鮑勝利史文旭韋振坤

計算機應(yīng)用 2020年8期

江金洪，鮑勝利，史文旭，韋振坤

（1. 中國科學(xué)院成都計算機應(yīng)用研究所，成都610041； 2. 中國科學(xué)院大學(xué)，北京100049）

0 引言

目前，交通標志在現(xiàn)實生活中隨處可見，道路上的減速限行、安全警示、車輛引流等交通標志為人們安全便捷出行提供了強有力的保障。針對理想情況下的交通標志識別算法研究已取得較高的成就，但由于車輛在實際道路上獲取的圖片容易受到光照強度、天氣狀況等因素的影響，且交通標志目標往往只占整張圖片的極小部分，這使得交通標志識別在車輛真實行駛過程中的應(yīng)用存在諸多挑戰(zhàn)［1］。因此，真實自然條件下交通標志識別的研究具有重要價值。

傳統(tǒng)交通標志識別算法主要利用圖像處理技術(shù)對圖像的顏色、形狀、邊緣等進行提取特征和分類。文獻［2］中提出了在 HSV（Hue，Saturation，Value）空間訓(xùn) 練自適應(yīng) 增強（Adaptive boosting，Adaboost）分類器的檢測算法，該方法具有較好的魯棒性和較高的準確率，但檢測速度較低；文獻［3］中基于CIELab 和YCbCr 空間的方向梯度直方圖（Histogram of Oriented Gradient，HOG）特征訓(xùn)練支持向量機（Support Vector Machine，SVM）分類器，但該方法泛化能力較弱；文獻［4］中根據(jù)交通限速標志的顏色和形狀特征，提出了一種基于車載視頻的交通限速標志的檢測和識別算法；文獻［5］中則提出了基于深度森林的交通標志識別算法。上述算法雖然在準確率上不斷提高，但它們在實時性和準確率的平衡性上依然難以達到卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）所能達到的效果。

自 2012 年 AlexNet［6］在 ImageNet［7］圖像分類比賽中獲得巨大成功后，CNN 便廣泛應(yīng)用于計算機視覺領(lǐng)域。近幾年由于各種新型CNN 結(jié)構(gòu)不斷地被提出，使得目標檢測算法得以迅猛發(fā)展。當前，深度學(xué)習(xí)目標檢測算法可以分為兩類，以Faster R-CNN（Faster Region-CNN）［8］為代表的雙階段目標檢測算法和以 YOLO（You Only Look Once）［9］、單次多框檢測（Single Shot multiBox Detector，SSD）算法［10］為代表的單階段目標檢測算法。由于CNN 在計算機視覺領(lǐng)域存在速度快、準確度高的優(yōu)勢，使得它在交通標志識別任務(wù)中得到廣泛應(yīng)用。2011 年，Sermanet 等［11］在德國交通標志（German Traffic Sign Recognition Benchmark，GTSRB）數(shù)據(jù)集［12］上實現(xiàn)了神經(jīng)網(wǎng)絡(luò)識別交通標志首次超過人工的效果，僅有0.56%的錯誤率；2016 年，騰訊公司聯(lián)合清華大學(xué)創(chuàng)建了一個接近真實駕駛環(huán)境的數(shù)據(jù)集TT100K（Tsinghua-Tencent 100K）［13］，并訓(xùn)練了兩個卷積網(wǎng)絡(luò)用于識別與分類，其準確率能達到88%，召回率能達91%；2018 年，Wang 等［14］提出了一個級聯(lián)掩碼生成框架來解決分辨率與小目標檢測之間的矛盾，通過多次對感興趣區(qū)域（Region Of Interest，ROI）的回歸，得到了定位更準確的目標框及更高的精度。

深度CNN 雖然能提升識別算法的準確率和實時性，但其計算量和參數(shù)量都相對比較大，對硬件需求較高，且目標框交并比（Intersection over Union，IoU）計算與邊框回歸損失函數(shù)的優(yōu)化方向并不完全等價，會使得目標框定位存在誤差。為減少算法的計算量和提高目標框的定位精度，本文提出了一種深度可分離的YOLO v3改進算法IYOLO（Improved YOLO v3），主要工作如下：

1）在YOLO v3［15］的網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上引入深度可分離卷積（Depthwise Separable Convolution，DSC）［16］，使其在不損失準確率的基礎(chǔ)上，減少了模型參數(shù)數(shù)量和計算量；

2）為提高算法的準確率和目標框定位精度，在原YOLO v3損失函數(shù)的基礎(chǔ)上引入了廣義IoU（Generalized IoU，GIoU）損失［17］和 Focal 損失（Focal Loss）［18］，使設(shè)計的損失函數(shù)優(yōu)化方向與目標框最大IoU 計算方向一致，同時在一定程度上解決了類別之間的不均衡問題，提高了檢測準確率。

1 IYOLO網(wǎng)絡(luò)結(jié)構(gòu)

1.1 YOLO v3

YOLO v3 算法是基于 YOLO、YOLOv2［19］算法的改進算法，它在檢測速度和精度上均有很大的提高。YOLO 算法最早是由 Redmon 等［9，15，19］提出，其思想是將整張圖片作為神經(jīng)網(wǎng)絡(luò)的輸入，并在最后輸出層直接輸出回歸的目標框位置和類別信息。不同于Faster R-CNN 算法需要在中間層生成候選區(qū)域，YOLO 算法采用直接回歸的思路，實現(xiàn)了端到端的結(jié)構(gòu)，這使得算法在輸入圖片大小為448× 448 時每秒幀數(shù)（Frames Per Second，F(xiàn)PS）能達到45，其精簡版本Fast YOLO的FPS 甚至可達到155，檢測速度遠遠快于Faster R-CNN。針對YOLO 算法存在對小目標和密集目標檢測效果差以及泛化能力較弱的問題，作者在之后又逐漸提出了YOLO v2 和YOLO v3 兩種升級版本算法，其中YOLO v3 算法由于其速度快、準確率高，現(xiàn)已廣泛應(yīng)用于工業(yè)檢測。

YOLO v3 算法使用一種殘差神經(jīng)網(wǎng)絡(luò)（Darknet-53）作為特征提取層，在花費更少浮點運算和時間的情況下達到與ResNet-152［20］相似的效果。在預(yù)測輸出模塊，YOLO v3 借鑒FPN（Feature Pyramid Network）［21］算法思想，對多尺度的特征圖進行預(yù)測，即在三種不同尺度上，每個尺度上的每個單元格都會預(yù)測出三個邊界框，其結(jié)構(gòu)示意圖如圖1所示。

圖1 YOLO v3結(jié)構(gòu)示意圖Fig. 1 Schematic diagram of YOLO v3 structure

自 YOLO v2 算法起，YOLO 算法引入 anchor box，初始 9 個anchor box 的大小由K-Means 算法對所有真實目標框的長寬聚類得到，網(wǎng)絡(luò)預(yù)測輸出相對于anchor box 偏移量分別為tx，ty，tw，th，則邊界框真實位置如式（1）所示：

其中：(cx，cy)為當前單元格相對于圖像左上角的偏移值，為對應(yīng)尺度anchor box的長和寬。

1.2 深度可分離卷積

在使用傳統(tǒng)卷積計算時，每一步計算都會考慮到所有通道的對應(yīng)區(qū)域的計算，這使得卷積過程需要大量的參數(shù)和計算。深度可分離卷積則是將分組卷積思路做到極致（每一通道作為一組），先對每一通道的區(qū)域進行卷積計算，然后進行通道間的信息交互，實現(xiàn)了將通道內(nèi)卷積和通道間卷積完全分離。

在傳統(tǒng)卷積算法中，輸入為H×W×N特征圖與C個尺度為k×k×N的卷積核進行卷積計算時，會得到輸出特征圖大小為，在不考慮偏置情況下，參數(shù)量為N×k×k×C，計算量為H×W×k×k×N×C，其卷積過程如圖2所示。

在深度可分離卷積中，將卷積過程分為深度卷積（Depthwise Convolution）和逐點卷積（Pointwise Convolution）兩部分。深度卷積是對輸入的同一通道類進行尺寸為k×k的卷積，通道間并沒有信息交互，提取到的是一個通道內(nèi)的特征信息，其參數(shù)量為N×k×k，計算量為H×W×k×k×N。逐點卷積則是利用C個尺寸大小為1× 1×N的卷積對通道間的信息進行融合，在實現(xiàn)通道間通信的同時可調(diào)控通道數(shù)量，其參數(shù)量為N× 1 × 1 ×C，計算量為H×W× 1 × 1 ×N×C，其卷積過程如圖3所示。

圖2 標準卷積過程Fig. 2 Standard convolution process

圖3 深度可分離卷積過程Fig. 3 Depthwise separable convolution process

1.3 IYOLO網(wǎng)絡(luò)結(jié)構(gòu)

IYOLO整個網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

為解決YOLO v3算法在高分辨率交通標志圖片上參數(shù)量較大、實時性較差的問題，提出利用深度可分離卷積重新構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)。相對于標準卷積模塊，深度可分離卷積模塊（Depthwise Separable Convolution Module，DSC Module）如圖5所示。

圖4 IYOLO結(jié)構(gòu)示意圖Fig. 4 Schematic diagram of IYOLO structure

圖5 標準卷積模塊和深度可分離卷積模塊Fig. 5 Standard convolution module and depthwise separable convolution module

網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計上依然借鑒了ResNet 網(wǎng)絡(luò)殘差的思想，主體網(wǎng)絡(luò)由多個DSResblock 模塊組成。DSResblock 模塊結(jié)構(gòu)如圖6 所示，其中虛線框內(nèi)的結(jié)構(gòu)會被重復(fù)Num_blocks-1次。

IYOLO 的最后三層輸出部分主要由ReDSConv 模塊和Out模塊兩部分組成，其結(jié)構(gòu)如圖7所示。

圖6 深度可分離殘差模塊Fig. 6 Depthwise separable residual module

圖7 輸出部分示意圖Fig. 7 Schematic diagram of output section

2 IYOLO損失函數(shù)

YOLO v3算法在目標框坐標回歸過程中采用的是均方誤差（Mean Square Error，MSE）損失函數(shù)，在類別和置信度上使用了交叉熵作為損失函數(shù)，其損失函數(shù)如式（2）所示。

其中：λcoord、λnoobj分別表示坐標損失權(quán)重和不包含object 的置信度損失權(quán)重表示第i個單元格的第j個box 是否負責(zé)該objec（t1 或0）表示預(yù)測目標框坐標、置信度和類別表示真實目標框坐標、置信度和類別。

但以MSE為目標框坐標的損失函數(shù)會存在兩個缺點：

1）L2損失（即MSE 損失）值越低并不等價于IoU 值越高，如圖8 所示，三對目標框具有相同的L2損失值，但IoU 值卻不一樣；

2）L2損失值對目標框尺度比較敏感，不具有尺度不變性，如在式（2）中，對w、h值開方處理就是為緩解目標框尺度對L2損失值的影響。

IoU是在目標檢測算法常用的距離測量標準，其值的計算如式（3）所示，其中A、B分別為兩目標框面積。

針對于MSE損失函數(shù)存在的缺陷，提出利用GIoU損失作為目標框坐標回歸的損失。與IoU 相似，GIoU 也是一種距離度量標準，其值的計算如式（4）所示，其中Ac為兩目標框的最小閉包區(qū)域面積，U為兩目標框的相交面積。

GIoU損失的計算如下所示：

GIoU 作為距離度量標準，滿足非負性、不可分的同一性、對稱性和三角不等性；GIoU 值是比值，因此對目標框尺度并不敏感，具有尺度不變性；由式（4）所知，GIoU 的上限是IoU，當兩目標框越接近且形狀相似時，GIoU 越接近IoU；即有當GIoU值越高時，IoU值越高。

圖8 三種指標關(guān)系示意圖Fig. 8 Schematic diagram of relationship among three indicators

為進一步提高識別的準確率，在對置信度設(shè)計損失函數(shù)時采用了Focal 損失替換交叉熵損失。Focal 損失是基于交叉熵損失的改進，主要是解決了one-stage 目標檢測算法中前景類與背景類比例嚴重不均衡的問題。Focal 損失通過降低大量簡單背景類在訓(xùn)練過程中所占的權(quán)重使得訓(xùn)練的算法模型更專注于前景類的檢測。Focal損失如式（6）所示：

類別損失仍使用交叉熵損失如式（7）所示，其中c^是真實類別，c是預(yù)測類別。

改進后的算法損失函數(shù)GFLoss如式（8）所示：

IYOLO 損失函數(shù)將GIoU 損失作為目標框坐標回歸的損失，量化評測指標GIoU 為損失，這解決了原MSE 損失存在的損失優(yōu)化與最大IoU 值計算方向不一致和對尺度敏感的問題。同時引入Focal損失，緩解了數(shù)據(jù)類別不均衡對檢測算法的影響，并提高了算法的檢測準確率。

3 實驗與結(jié)果分析

3.1 實驗數(shù)據(jù)集

為評估本文所提的IYOLO 算法在真實自然環(huán)境下對交通標志的檢測性能，采用了清華大學(xué)與騰訊公司公開發(fā)布的TT100K 數(shù)據(jù)集。TT100K 數(shù)據(jù)集數(shù)據(jù)是在騰訊街景地圖上截取并進行人工標注，其圖像的分辨率為2 048× 2 048，標注類別數(shù)為221，其中包含6 107張圖像的訓(xùn)練集和3 073張圖像的測試集，覆蓋了不同天氣條件和不同光照下的交通標志圖像。由于原始圖像分辨率較大，因此在本次實驗中對原圖像進行了裁剪處理，裁剪后的圖像尺度為800 × 800。由于數(shù)據(jù)集中各個類別之間的數(shù)據(jù)量存在嚴重不平衡的問題，因此本次實驗只選擇了數(shù)據(jù)量較多的45 類交通標志進行識別，并對訓(xùn)練集中數(shù)據(jù)量較少的類別進行數(shù)據(jù)擴充，隨機采用了加入隨機高斯噪聲、亮度調(diào)整、鏡像三種數(shù)據(jù)增強策略，最終使得每個類別的數(shù)據(jù)量均達3 000以上。經(jīng)裁剪和擴充后，訓(xùn)練集包含212 384 張圖片，測試集包含52 413 張圖片，其中45 類交通標志類別分別是：pn、pne、i5、p11、pl40、po、pl50、pl80、io、pl60、p26、i4、pl100、pl30、il60、pl5、i2、w57、p5、p10、ip、pl120、il80、p23、pr40、ph4.5、w59、p12、p3、w55、pm20、pl20、pg、pl70、pm55、il100、p27、w13、p19、ph4、ph5、wo、p6、pm30、w32。

3.2 評測指標

本文采用平均精度均值（mean Average Precision，mAP）和FPS兩個指標對算法模型進行評估。

mAP 指標通過首先計算每個類別的平均精度（Average Precision，AP），再對所有類別的平均精度求取均值得到，計算如式（9）所示。其中：TP（True Positive）為真正例，F(xiàn)P（False Positive）為假正例，F(xiàn)N（False Negative）為假負例，Nc表示第c類劃分精確率P（Precision）和召回率R（Recall）的數(shù)量，p(rc)表示在c類召回率為rc時的p值。

在實時檢測任務(wù)中，F(xiàn)PS 值是極其重要的指標，是檢測速度的直接體現(xiàn)，對任務(wù)的應(yīng)用場景有直接的影響。

3.3 結(jié)果與分析

本文實驗是在Ubuntu16.04 系統(tǒng)下進行，深度學(xué)習(xí)框架為Keras 2.1.5，所使用的顯卡配置為：4 塊Nvidia GeForce RTX 2080 Ti，顯存為44 GB。

僅引入了深度可分離卷積后，改進的YOLO v3 算法明顯優(yōu)于原始YOLO v3 算法，其對比結(jié)果如表1 所示。由表1 可知，引入深度可分離卷積后的YOLO v3 算法相較于原始YOLO v3 算法在參數(shù)量和模型大小上有了較明顯的優(yōu)勢，只占原始算法的1/5 左右，同時在mAP 指標上，改進的算法也有0.3個百分點的提升。對比實驗表明，YOLO v3算法結(jié)構(gòu)中大部分參數(shù)是冗余的，且將深度可分離卷積引入到Y(jié)OLO v3 算法中以減少參數(shù)量的方法是可行的。

表1 引入DSC前后YOLO v3算法性能對比Tab. 1 Performance comparison of YOLO v3 algorithm before and after introducing DSC

將 IYOLO 算法與YOLO v3、SSD300、Faster R-CNN 三種典型的多尺度目標檢測算法對每個類別的AP值進行對比，結(jié)果如表2 所示。同時，四種算法的檢測精度、檢測速度和模型大小整體性能對比結(jié)果如表3 所示。對表2 和表3 數(shù)據(jù)進行分析可知，IYOLO 算法 mAP 能達到 89%，相較于 YOLO v3［15］、SSD300［10］、Faster R-CNN［8］算法分別提升了 6.6 個百分點、25.29 個百分點、2.1 個百分點，且它在每個類別上的檢測效果均優(yōu)于YOLO v3、SSD300 兩種算法。從檢測速度上看，IYOLO 算法遠遠優(yōu)于Faster R-CNN 算法，且相較于YOLO v3算法FPS 提升了60%，但與SSD300 算法之間還有一定的差距。而在模型大小方面，IYOLO 算法僅有原始YOLO v3 算法模型大小的1/5 左右，其參數(shù)量亦遠小于SSD300 和Faster RCNN，得到極大的壓縮。

表2 四種算法的AP值對比單位：%Tab. 2 Comparison of AP values of four algorithms unit：%

此外，本文設(shè)置了在 IoU 分別為 0.5、0.6、0.7、0.75 時，IYOLO 算法與 SSD300、YOLO v3、Faster R-CNN 三種算法在檢測精度上的對比，其對比結(jié)果如表4所示。

IYOLO 算法與其他三種算法檢測目標框?qū)Ρ刃Ч鐖D9所示。

表3 四種算法整體檢測性能對比Tab. 3 Comparison of overall detection performance of four algorithms

從表4 中可以看出，隨著IoU 閾值的提高，IYOLO 算法較其他三種算法在檢測精度上的優(yōu)勢越發(fā)明顯，其在高IoU 閾值的情況下仍能保持高mAP 值，而其他三種算法隨著IoU 閾值的增大mAP 急劇下降。在IoU 閾值為0.5 時，IYOLO 算法較SSD300、YOLO v3、Faster R-CNN算法的mAP值提升分別為25.29個百分點、6.6個百分點、2.1個百分點，而其在IoU閾值為 0.75 時的 mAP 值提升分別為 30.84 個百分點、13.52 個百分點、11.39個百分點，即在高IoU 閾值下提升越明顯，這說明了IYOLO 算法得到的預(yù)測框與真實目標框重合度更高，目標框定位更準確，這使得其應(yīng)用場景更廣闊。且從圖9 中可以看出，IYOLO 算法比其他三種算法對目標框的定位更精確，并且解決了SSD300、YOLO v3 算法中存在漏檢、誤檢的問題。

表4 不同IoU閾值下檢測精度的對比單位：%Tab. 4 Comparison of detection accuracy under different IoU thresholds unit：%

圖9 不同算法檢測交通標志效果對比圖Fig. 9 Comparison of different algorithms for detecting traffic signs

4 結(jié)語

本文提出了一種基于YOLO v3 的改進算法，旨在解決交通標志識別任務(wù)中存在檢測精度較低、算法模型參數(shù)量巨大以及實時性較差的問題。其中：引入深度可分離卷積實現(xiàn)了在不降低檢測準確率的條件下極大地降低算法模型參數(shù)量的目標；在對目標框坐標回歸損失的設(shè)計上采用了GIoU 損失，這使得算法的檢測精度大幅提升，且定位的目標框也更加精準；同時將Focal 損失加入到置信度損失中，緩解了數(shù)據(jù)類別之間不均衡問題對算法模型的影響。通過對實驗數(shù)據(jù)的分析可知，IYOLO 算法在其參數(shù)只有YOLO v3 算法的1/5 時，mAP指標提高了6.6 個百分點，F(xiàn)PS 也提高了4.5。因此，該算法在模型大小、檢測精度、檢測速度上均優(yōu)于YOLO v3算法。為提高檢測精度，IYOLO 算法采用的輸入圖片尺度為800 × 800，這使得其檢測速度FPS 只能達到12，與達到實時檢測還存在一定距離，未來可以在檢測速度上做進一步的提升以達到實時檢測的效果。