張達(dá)為,劉緒崇,周維,陳柱輝,余瑤
基于改進(jìn)YOLOv3的實(shí)時(shí)交通標(biāo)志檢測(cè)算法
張達(dá)為1*,劉緒崇2,周維1,陳柱輝1,余瑤3
(1.湘潭大學(xué) 計(jì)算機(jī)學(xué)院·網(wǎng)絡(luò)空間安全學(xué)院,湘潭 湖南,411105; 2.湖南警察學(xué)院 湖南公安科學(xué)技術(shù)研究院,長(zhǎng)沙 410138; 3.湘潭大學(xué) 公共管理學(xué)院,湘潭 湖南,411105)( ? 通信作者電子郵箱1135119686@qq.com)
針對(duì)目前我國(guó)智能駕駛輔助系統(tǒng)識(shí)別道路交通標(biāo)志檢測(cè)速度慢、識(shí)別精度低等問題,提出一種基于YOLOv3的改進(jìn)的道路交通標(biāo)志檢測(cè)算法。首先,將MobileNetv2作為基礎(chǔ)特征提取網(wǎng)絡(luò)引入YOLOv3以形成目標(biāo)檢測(cè)網(wǎng)絡(luò)模塊MN-YOLOv3,在MN-YOLOv3主干網(wǎng)絡(luò)中引入兩條Down-up連接進(jìn)行特征融合,從而減少檢測(cè)算法的模型參數(shù),提高了檢測(cè)模塊的運(yùn)行速度,增強(qiáng)了多尺度特征圖之間的信息融合;然后,根據(jù)交通標(biāo)志目標(biāo)形狀的特點(diǎn),使用-Means++算法產(chǎn)生先驗(yàn)框的初始聚類中心,并在邊界框回歸中引入距離交并比(DIOU)損失函數(shù)來將DIOU與非極大值抑制(NMS)結(jié)合;最后,將感興趣區(qū)域(ROI)與上下文信息通過ROI Align統(tǒng)一尺寸后融合,從而增強(qiáng)目標(biāo)特征表達(dá)。實(shí)驗(yàn)結(jié)果表明,所提算法性能更好,在長(zhǎng)沙理工大學(xué)中國(guó)交通標(biāo)志檢測(cè)(CCTSDB)數(shù)據(jù)集上的平均準(zhǔn)確率均值(mAP)可達(dá)96.20%。相較于Faster R-CNN、YOLOv3、Cascaded R-CNN檢測(cè)算法,所提算法擁有具有更好的實(shí)時(shí)性和更高的檢測(cè)精度,對(duì)各種環(huán)境變化具有更好的魯棒性。
目標(biāo)檢測(cè);特征融合;YOLOv3;距離交并比;MobileNetv2;-Means++
交通標(biāo)志識(shí)別系統(tǒng)對(duì)于高速公路標(biāo)志標(biāo)線維護(hù)、駕駛員輔助系統(tǒng)和自動(dòng)駕駛汽車非常重要。交通標(biāo)志檢測(cè)與識(shí)別分為標(biāo)志檢測(cè)和標(biāo)志分類。檢測(cè)階段的目的是定位圖像中的感興趣區(qū)域并驗(yàn)證感興趣區(qū)域(Region Of Interest, ROI)是否包含交通標(biāo)志;識(shí)別階段的目的是對(duì)檢測(cè)階段檢測(cè)到的交通標(biāo)志進(jìn)行唯一識(shí)別。目前,深度卷積網(wǎng)絡(luò)應(yīng)用于圖像識(shí)別和目標(biāo)檢測(cè),速度越來越快,準(zhǔn)確率越來越高。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)可以從大量樣本中學(xué)習(xí)特征,無需預(yù)處理,避免了手工制作特征的設(shè)計(jì)難度,可學(xué)習(xí)更廣義的特征。CNN已經(jīng)被作為機(jī)器學(xué)習(xí)的分類器提出,并已被用于交通標(biāo)志分類?;贑NN的方法的性能是較先進(jìn)的。然而,對(duì)于交通標(biāo)志檢測(cè),基于卷積神經(jīng)網(wǎng)絡(luò)的方法由于計(jì)算復(fù)雜,實(shí)時(shí)性并不好。隨著計(jì)算機(jī)計(jì)算性能的不斷加強(qiáng),實(shí)時(shí)交通標(biāo)志檢測(cè)和識(shí)別技術(shù)已成為無人駕駛技術(shù)中一種不可或缺的技術(shù)。因此,本文以YOLOv3(You Only Look Once version 3)[1]為基礎(chǔ)來對(duì)交通標(biāo)志檢測(cè)與識(shí)別算法進(jìn)行研究,這對(duì)提高無人駕駛技術(shù)具有重要意義。
傳統(tǒng)的交通標(biāo)志識(shí)別系統(tǒng)研究方法主要是基于顏色和形狀的方法。Li等[2]提出采用圖像預(yù)處理、顏色濾波、顏色分割進(jìn)行交通標(biāo)志檢測(cè),在識(shí)別階段采用特征提取和訓(xùn)練有素的神經(jīng)網(wǎng)絡(luò)對(duì)交通標(biāo)志進(jìn)行唯一識(shí)別。Kaplan等[3]提出了一種圓形交通標(biāo)志檢測(cè)與識(shí)別方法,通過以卷積和空間變換模塊為主要模塊的卷積神經(jīng)網(wǎng)絡(luò)對(duì)交通標(biāo)志圖像進(jìn)行細(xì)粒度分類。上述方法都是通過利用交通標(biāo)志特殊的顏色和形狀來進(jìn)行特征提取,依靠分類器來進(jìn)行分類;但是上述方法都存在檢測(cè)速度慢、檢測(cè)精度低等問題,在實(shí)際應(yīng)用中難以達(dá)到預(yù)期目標(biāo)。
由于深度學(xué)習(xí)的不斷發(fā)展,目標(biāo)檢測(cè)、目標(biāo)跟蹤技術(shù)也在不斷迭代更新。Wang等[4]提出了一種新穎的實(shí)時(shí)方法來識(shí)別具有高動(dòng)態(tài)成像和深度學(xué)習(xí)的交通信號(hào)燈,從低曝光的暗幀中可靠地檢測(cè)交通信號(hào)候選,并使用深層神經(jīng)網(wǎng)絡(luò)在連續(xù)的高曝光的亮幀中對(duì)交通燈候選進(jìn)行準(zhǔn)確分類。為了提高對(duì)交通標(biāo)志的檢測(cè)和識(shí)別效果,Zhang等[5]提出使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)交通標(biāo)志提案進(jìn)行分類,以進(jìn)行快速、準(zhǔn)確的交通標(biāo)志檢測(cè)和識(shí)別。García-Garrido等[6]采用霍夫變換從圖像邊緣獲取信息,但計(jì)算復(fù)雜度高,阻礙了實(shí)時(shí)應(yīng)用。總的來說,上述方法中使用的主要方法是先提取感興趣區(qū)域特征,然后采用分類器去定位位置。因此,這些方法被稱為兩階段目標(biāo)檢測(cè)方法,它們擁有較強(qiáng)的檢測(cè)精度和泛化能力,但是也具有訓(xùn)練步驟繁瑣、訓(xùn)練速度慢、精度不夠、訓(xùn)練的時(shí)候占據(jù)太多的物理空間等問題,這些問題會(huì)使得在實(shí)時(shí)檢測(cè)道路交通標(biāo)志時(shí)的效率較低,進(jìn)而達(dá)不到預(yù)期的效果。
為了提高檢測(cè)效率,Redmon等[7]提出了利用整張圖片作為網(wǎng)絡(luò)的輸入,直接在輸出層回歸檢測(cè)框的位置和檢測(cè)框所屬的類別的網(wǎng)絡(luò)YOLO (You Only Look Once)。與前幾個(gè)卷積神經(jīng)網(wǎng)絡(luò)相比,由于YOLO網(wǎng)絡(luò)擁有較快的檢測(cè)速度,所以被應(yīng)用到許多領(lǐng)域。但是由于YOLO對(duì)小目標(biāo)檢測(cè)效果不好、泛化能力偏弱、定位誤差較大等問題,所以隨后出現(xiàn)了YOLOv2[8]、YOLOv3改進(jìn)網(wǎng)絡(luò),大幅地提高了小目標(biāo)的檢測(cè)精度。
但上述方法計(jì)算量較大,影響了檢測(cè)速度,也忽略了淺層位置信息對(duì)小目標(biāo)及遮擋目標(biāo)的重要性。因此為了減小計(jì)算量、提高道路交通標(biāo)志檢測(cè)效果,本文采用MobileNetv2[9]網(wǎng)絡(luò)與YOLOv3集成的方式來實(shí)現(xiàn)在多種復(fù)雜環(huán)境下的目標(biāo)檢測(cè),不僅提高了遮擋目標(biāo)及小目標(biāo)的檢測(cè)精度,同時(shí)還提高了檢測(cè)速度。算法改進(jìn)如下:
1)為了提高前向推斷的速度,本文以MobileNetv2作為基礎(chǔ)特征提取網(wǎng)絡(luò)[10]。
2)為了能更多獲取淺層信息,在MobileNetv2主干網(wǎng)中引入兩條Down-up連接,增強(qiáng)多尺度特征之間的信息融合。
3)為了能更好地檢測(cè)和識(shí)別小目標(biāo),本文提出在原有網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上創(chuàng)建一條新的預(yù)測(cè)分支C4,最后將C1、C2、C3、C4特征層進(jìn)行統(tǒng)一信息融合,加強(qiáng)了各層之間的特征融合,有利于充分利用各層的信息。
4)為了提高模型收斂速度,本文通過引入距離交并比(Distance Intersection Over Union, DIOU)[11]損失函數(shù),提高模型的預(yù)測(cè)精度。
5)為了更加充分地利用高層特征的語(yǔ)義信息和底層特征的細(xì)粒度特征,本文還引入自適應(yīng)特征融合方式。
實(shí)驗(yàn)結(jié)果表明,本文提出的算法相較于原始YOLOv3檢測(cè)算法在精度和運(yùn)行速度上都有明顯的提升。
本文使用MobileNetv2作為骨干網(wǎng)絡(luò)來提取圖像的特征,通過MobileNetv2網(wǎng)絡(luò)將提取出來的特征圖輸入到后續(xù)的多尺度分類檢測(cè)網(wǎng)絡(luò)中,最后得到20×20、40×40、80×80、160×160這4個(gè)不同層級(jí)的特征圖,并在這4種不同尺度的特征圖上進(jìn)行預(yù)測(cè)。
在YOLOv3網(wǎng)絡(luò)中繼續(xù)使用先驗(yàn)框機(jī)制,使用-Means算法對(duì)數(shù)據(jù)集中的真值框進(jìn)行聚類,得到3個(gè)類別的先驗(yàn)框。邊界框真實(shí)位置如式(1)~(4)所示:
其中:是基于矩形框中心點(diǎn)左上角格點(diǎn)坐標(biāo)的偏移量,通過Sigmoid函數(shù)激活,使其范圍限制在[0,1]區(qū)間,是先驗(yàn)框的寬、高;是實(shí)際預(yù)測(cè)框的寬、高;為網(wǎng)格坐標(biāo),也就是距離左上角頂點(diǎn)的偏移量。通過上述公式計(jì)算出邊界框的位置,如圖1所示,通過對(duì)置信度設(shè)置閾值,篩選掉得分低的預(yù)測(cè)框,然后對(duì)余下的預(yù)測(cè)框使用非極大值抑制(Non-Maximum Suppression, NMS)處理,最終獲得真正的預(yù)測(cè)框。
Google在2017年MobileNet網(wǎng)絡(luò)中首次提出了深度可分離卷積的概念。深度可分離卷積在幾乎不影響精度的情況下可以大幅降低網(wǎng)絡(luò)的計(jì)算量。傳統(tǒng)卷積核的通道數(shù)和卷積圖像的通道總是保持一致,與傳統(tǒng)卷積不同,深度可分離卷積是將傳統(tǒng)卷積分為兩步:深度卷積和逐點(diǎn)卷積;深度可分離卷積則是先將每一通道作為一組,然后對(duì)每一通道的區(qū)域進(jìn)行卷積,最后各通道之間進(jìn)行信息交互,結(jié)構(gòu)如圖2所示。
圖 2 傳統(tǒng)卷積與深度可分離卷積對(duì)比
倒置殘差先通過1×1的卷積來進(jìn)行通道擴(kuò)張,再使用3×3的深度卷積特征提取,最后用1×1的卷積將通道數(shù)壓縮,目的是使3×3的深度卷積提取更多的特征,大幅減少了計(jì)算量,讓網(wǎng)絡(luò)重新變小,此網(wǎng)絡(luò)中間寬、兩頭窄,呈沙漏形狀,因此被稱為倒置殘差。采用倒置殘差結(jié)構(gòu)可以大幅減少運(yùn)算時(shí)的參數(shù)量,但是這種結(jié)構(gòu)最后輸出的特征圖通道數(shù)會(huì)很少,因?yàn)槠浜笫褂梅蔷€性激活 ReLU6,會(huì)產(chǎn)生較大的信息丟失。為了減少信息損失,此網(wǎng)絡(luò)使用線性瓶頸,在瓶頸的輸出后接線性激活,減少了信息的損失。倒置殘差結(jié)構(gòu)和線性瓶頸結(jié)構(gòu)如圖3所示。
圖 3 倒置殘差結(jié)構(gòu)
為了解決Darknet-53網(wǎng)絡(luò)在前向特征提取時(shí)參數(shù)量和計(jì)算量較大問題,本文采用MobileNetv2網(wǎng)絡(luò)進(jìn)行前向推理, MobileNetv2網(wǎng)絡(luò)采用深度可分離卷積操作大幅減少了網(wǎng)絡(luò)運(yùn)算所需要的參數(shù)量和運(yùn)算量,降低了網(wǎng)絡(luò)復(fù)雜度,提高了網(wǎng)絡(luò)的推理速度。采用MobileNetv2替換YOLOv3的主干網(wǎng),與之形成了輕量級(jí)網(wǎng)絡(luò)MN-YOLOv3(MobileNetv2- YOLOv3),更加適合交通標(biāo)志的實(shí)時(shí)性檢測(cè),MN-YOLOv3繼續(xù)采用原YOLOv3存在的金字塔結(jié)構(gòu)和多尺度特征融合方法,解決了在檢測(cè)交通標(biāo)志時(shí)的多尺度問題,增加了特征圖中的語(yǔ)義信息。但是隨著網(wǎng)絡(luò)深度的不斷加深,當(dāng)檢測(cè)小目標(biāo)物體時(shí),特征圖的分辨率不斷降低,20×20特征圖中的特征信息不斷丟失,所以在20×20的特征圖上引入Down-Up連接,使用3×3、步長(zhǎng)分為4和8的卷積操作進(jìn)行下采樣,最后與20×20的特征圖進(jìn)行像素融合,增強(qiáng)高層特征圖位置信息;同時(shí)在本文結(jié)構(gòu)中擴(kuò)充一條新的檢測(cè)分支C4,因此能夠更多地獲取淺層的信息。為了能夠更加充分地利用高層特征的語(yǔ)義信息和底層特征的細(xì)粒度特征,本文還引入自適應(yīng)特征融合方式,將輸出的特征圖經(jīng)由自適應(yīng)特征融合方式進(jìn)行處理,最后輸出20、40、80、160四種不同尺度的特征圖。改進(jìn)的MN-YOLOv3 的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖 4 MN-YOLOv3 網(wǎng)絡(luò)結(jié)構(gòu)
在目標(biāo)檢測(cè)中,交并比(Intersection Over Union, IOU)的作用是評(píng)價(jià)預(yù)測(cè)框和真值框之間的相似度,通過計(jì)算交并比得出預(yù)測(cè)框和真值框之間的相似度,對(duì)正負(fù)樣本的選擇起關(guān)鍵性作用。邊界框回歸在目標(biāo)檢測(cè)中起著關(guān)鍵性的作用。近幾年的研究證明IOU損失在邊框回歸上擁有更好的效果,因?yàn)樗鼘?duì)尺度變化不敏感,IOU損失函數(shù)可表示為:
其中:C為包圍預(yù)測(cè)框和目標(biāo)框的最小矩形區(qū)域大小。雖然該損失函數(shù)比IOU損失函數(shù)具有更好的效果,但仍存在收斂速度慢和回歸不準(zhǔn)確的問題。GIOU損失回歸效果如圖5所示。
為了解決上述出現(xiàn)的收斂慢和回歸不準(zhǔn)確問題,本文使用DIOU損失來代替IOU損失作為坐標(biāo)誤差損失函數(shù),該改進(jìn)方法加快模型擬合預(yù)測(cè)框與真值框的位置關(guān)系,提高了模型的預(yù)測(cè)精度。DIOU損失在GIOU損失基礎(chǔ)上添加一個(gè)懲罰項(xiàng),該懲罰項(xiàng)用于最小化兩個(gè)邊界框的中心點(diǎn)距離。懲罰項(xiàng)可以定義為:
DIOU損失函數(shù)定義為:
圖 6 DIOU 損失邊界框回歸效果
先驗(yàn)框機(jī)制首先由Faster R-CNN(Faster Region Convolutional Neural Network)[16]提出,并且隨后各種流行的目標(biāo)檢測(cè)器大部分采用先驗(yàn)框機(jī)制,例如:SSD(Single Shot multibox Detector)[17]、YOLOv3、RetinaNet[18]等。先驗(yàn)框機(jī)制主要是解決一張圖片中的物體具有不同尺度和長(zhǎng)寬比的問題,之前使用的方法是基于圖像金字塔或過濾器金字塔,但這兩種方法比較耗時(shí),且效率低。先驗(yàn)框機(jī)制同時(shí)還解決了真值框與真值框之間重疊過大會(huì)導(dǎo)致多個(gè)真值框映射到一個(gè)網(wǎng)格中,從而導(dǎo)致有些真值框丟失。先驗(yàn)框機(jī)制將擁有不同尺度大小和縱橫比的物體所在的空間劃分為幾個(gè)子空間,降低了問題難度,也降低了模型學(xué)習(xí)難度。但是在Faster R-CNN和SSD中,先驗(yàn)框的長(zhǎng)、框都是手動(dòng)設(shè)定,主觀性比較強(qiáng);若初始選擇的先驗(yàn)框尺度比較合適,那么對(duì)于模型的學(xué)習(xí)將會(huì)更加容易,從而會(huì)得到更好的預(yù)測(cè)效果。因此,在YOLOv3中通過對(duì)訓(xùn)練集-Means聚類得到先驗(yàn)框,但-Means的聚類結(jié)果會(huì)由于選取的初始值不同而有所區(qū)別,對(duì)預(yù)測(cè)結(jié)果也會(huì)有影響。本文預(yù)置初始聚類中心的方法,通過對(duì)交通標(biāo)志的形狀及特點(diǎn)進(jìn)行分析,手動(dòng)選取-Means++[19]的12個(gè)初始聚類框,可以有效地降低原始算法在初始聚類點(diǎn)所造成的聚類偏差,得到比較好尺寸的先驗(yàn)框并且將其匹配到對(duì)應(yīng)的特征圖上,從而可以有效地提高檢測(cè)的準(zhǔn)確率和召回率。
圖 7 自適應(yīng)特征融合的結(jié)構(gòu)
本文實(shí)驗(yàn)在Windows 10、CUDA10.0、CUDNN7.0環(huán)境下進(jìn)行。CPU配置為Intel-CPU-i7-10870H 處理器,硬件配置:NVIDIA GeForce GTX 1080Ti,12 GB顯存,調(diào)用GPU進(jìn)行加速訓(xùn)練。
為了驗(yàn)證本文算法的效果,本文采用的數(shù)據(jù)集為長(zhǎng)沙理工大學(xué)中國(guó)交通標(biāo)志檢測(cè)(CSUST Chinese Traffic Sign Detection Benchmark, CCTSDB)數(shù)據(jù)集見圖8。CCTSDB數(shù)據(jù)集圖片拍攝角度以及分類更規(guī)范,因此作為本文算法的主要研究數(shù)據(jù)集。CCTSDB數(shù)據(jù)集共包含55類交通標(biāo)志,選取了數(shù)據(jù)集中的5 920張圖片。在中國(guó)交通標(biāo)志數(shù)據(jù)集中選取48類交通標(biāo)志作為檢測(cè)識(shí)別對(duì)象,分別為“禁止停車”“限速15 km/h”“注意危險(xiǎn)”“右側(cè)變窄”“前方施工”等48種標(biāo)簽,共計(jì)6 567個(gè)標(biāo)注。將標(biāo)注信息生成與之對(duì)應(yīng)的XML格式的目標(biāo)區(qū)域位置的信息,編寫Python程序?qū)ML格式的目標(biāo)區(qū)域位置信息統(tǒng)一轉(zhuǎn)換為TXT格式,以便能讓YOLOv3讀取圖片標(biāo)注信息位置。最后按照VOC2007 數(shù)據(jù)集格式進(jìn)行了整理,分別按3∶1比例將數(shù)據(jù)集中的圖片分為訓(xùn)練集和測(cè)試集兩類。
圖8 CCTSDB數(shù)據(jù)集
由于YOLOv3最原始選定先驗(yàn)框尺度和寬高比是基于COCO數(shù)據(jù)集確定的,但是在本文的自制數(shù)據(jù)集應(yīng)用目標(biāo)是交通路面上的交通標(biāo)志牌,原始設(shè)置的先驗(yàn)框尺寸已不適合本文研究的環(huán)境中,因此,本文使用-Means++聚類算法對(duì)交通標(biāo)志信息數(shù)據(jù)集的真實(shí)標(biāo)注框進(jìn)行聚類操作,聚類結(jié)果如圖9所示。
圖 9 先驗(yàn)框分布
由圖9可知,真實(shí)標(biāo)注框長(zhǎng)寬映射到模型后輸出的先驗(yàn)框尺寸大小為:(6.31,16.60)、(40.52,57.54)、(24.56,56.84)、(11.45,34.73)、(62.28,88.30)、(83.68,114.15)、(50.17,128.65)、(32.10,4.44)、(19.82,28.07)、(38.59,95.43)、(51.05,71.34)、(12.08,19.29),使用CCTSDB進(jìn)行維度聚類,得出結(jié)果和原始的參數(shù)相比,CCTSDB數(shù)據(jù)集聚類結(jié)果更為集中,長(zhǎng)寬比更符合交通標(biāo)志數(shù)據(jù)集的特點(diǎn),因此使用-Means++算法聚類得到的先驗(yàn)框參數(shù)來代替原始的參數(shù)進(jìn)行訓(xùn)練和測(cè)試,可以使先驗(yàn)框更容易擬合真實(shí)目標(biāo),從而可以降低模型訓(xùn)練的難度。
訓(xùn)練模型期間采用修改后的YOLOv3配置文件,使用數(shù)據(jù)隨機(jī)化(隨機(jī)縮放、隨機(jī)裁減、隨機(jī)排布的方式進(jìn)行拼接將4張圖合為1張圖進(jìn)行訓(xùn)練)的方法來對(duì)交通標(biāo)志圖片進(jìn)行數(shù)據(jù)擴(kuò)充,以此來提高模型的泛化能力。將數(shù)據(jù)隨機(jī)化后的圖像調(diào)整尺寸到640×640后送進(jìn)網(wǎng)絡(luò)模型中進(jìn)行模型訓(xùn)練。數(shù)據(jù)隨機(jī)化效果圖如圖10所示。
圖 10 數(shù)據(jù)隨機(jī)化
目標(biāo)檢測(cè)領(lǐng)域內(nèi)的重要概念即為交并比(IOU)、平均準(zhǔn)確率(Average Precision, AP)、平均準(zhǔn)確率均值(mean Average Precision, mAP)、查準(zhǔn)率(Precision, P)和查全率(Recall, R)等。交并比是指預(yù)測(cè)框與真實(shí)框的交集和并集之比,AP是P和R的關(guān)系曲線與坐標(biāo)軸之間所圍成的面積,準(zhǔn)確率和召回率的計(jì)算公式如下:
其中:(True Positive)為被模型預(yù)測(cè)為真的正樣本;(False Positive)為模型預(yù)測(cè)為真的負(fù)樣本數(shù);(False Negative)為模型預(yù)測(cè)為非真的正樣本數(shù)。mAP為各類目標(biāo)的平均準(zhǔn)確率的均值。
此實(shí)驗(yàn)以MobileNetv2為特征提取網(wǎng)絡(luò),以YOLOv3為網(wǎng)絡(luò)檢測(cè)算法框架,基于遷移學(xué)習(xí)的方法,使用預(yù)訓(xùn)練模型作為提取基礎(chǔ)特征的網(wǎng)絡(luò),整個(gè)過程共迭代了500次,其中批量大小設(shè)置為8,使用隨機(jī)梯度下降的方法,初始學(xué)習(xí)率為0.01,動(dòng)量和權(quán)重衰減率分別設(shè)置為0.937和0.000 5。
2.4.1消融實(shí)驗(yàn)
為了論證上述改進(jìn)方法的有效性,本文在中國(guó)交通標(biāo)志數(shù)據(jù)集上實(shí)行消融實(shí)驗(yàn),構(gòu)建baseline網(wǎng)絡(luò)(通過替換MN-YOLOv3中的主干網(wǎng)絡(luò)MobileNetv2為ResNet-53和移除兩條Down-up連接以及移除ASFF結(jié)構(gòu)得到),通過組合上述所提及的Down-up、ASFF、DIOU,來驗(yàn)證不同模塊對(duì)網(wǎng)絡(luò)性能的提升。測(cè)試結(jié)果如表1所示。表1列出了P、R和mAP(IOU=0.5)這3種指標(biāo)。由baseline和模型A、B、C可知,Down-up、ASFF、DIOU對(duì)于模型的性能均有所提升,并在mAP上分別提高了0.1個(gè)百分點(diǎn)、0.6個(gè)百分點(diǎn)、0.1個(gè)百分點(diǎn)。集合4種模塊的MN-YOLOv3在precision、recall、mAP上均取得了最好的結(jié)果,與baseline相比,分別提升了3.1個(gè)百分點(diǎn)、2.6個(gè)百分點(diǎn)、4個(gè)百分點(diǎn)。由實(shí)驗(yàn)結(jié)構(gòu)可知3個(gè)模塊對(duì)于網(wǎng)絡(luò)性能的提升是有效的。
2.4.2與其他目標(biāo)檢測(cè)算法對(duì)比
本文實(shí)驗(yàn)在指定IOU(IOU0.5)閾值下進(jìn)行評(píng)價(jià),本文將Faster R-CNN、YOLOv3、Cascaded R-CNN(Cascaded Region Convolutional Neural Network)[21]、MN-YOLOv3這4類目標(biāo)檢測(cè)算法在CCTSDB上進(jìn)行測(cè)試,測(cè)試結(jié)果如表2所示。選取P、R、mAP、每秒幀率(Frames Per Second, FPS)4項(xiàng)指標(biāo)對(duì)各算法進(jìn)行評(píng)價(jià)。雖然Cascaded R-CNN算法在查準(zhǔn)率上排在首位,但速度最低;Faster R-CNN算法在查全率上占優(yōu)勢(shì),但FPS效果不佳;雖然在查準(zhǔn)率上,MN-YOLOv3比Cascaded R-CNN低了1個(gè)百分點(diǎn),但在速度和mAP上取得最優(yōu),說明了MN-YOLOv3算法兼顧了目標(biāo)檢測(cè)準(zhǔn)確率和速度;MN-YOLOv3的mAP為96.2%,檢測(cè)速度達(dá)到35.3 FPS,相較于原始YOLOv3的mAP提升了2.7個(gè)百分點(diǎn),速度提升33.7%。檢測(cè)效果如圖11所示。
圖11 MN-YOLOv3算法檢測(cè)效果
表1CCTSDB數(shù)據(jù)集上消融實(shí)驗(yàn)結(jié)果
Tab.1 Results of ablation experiment on CCTSDB dataset
表 2CCTSDB數(shù)據(jù)集上對(duì)比實(shí)驗(yàn)結(jié)果
Tab.2 Comparison of experimental results on CCTSDB dataset
本文提出改進(jìn)YOLOv3算法以解決交通數(shù)據(jù)識(shí)別精度不高且檢測(cè)速度較低的問題。首先利用MobileNetv2替換原始YOLOv3的主干網(wǎng)絡(luò),提高了網(wǎng)絡(luò)的前向推理速度;其次引入兩條Down-up連接,增強(qiáng)各層級(jí)之間的特征融合,有助于檢測(cè)尺度較小的交通標(biāo)志;引入DIOU損失函數(shù)作為代價(jià)函數(shù),不僅能提高檢測(cè)速度,而且還提高了模型對(duì)目標(biāo)框的定位能力;引入自適應(yīng)特征融合,能夠讓網(wǎng)絡(luò)更加充分利用高層特征的語(yǔ)義信息和底層特征的細(xì)粒度特征,增強(qiáng)各層級(jí)之間的特征融合;使用-Means++聚類算法確定先驗(yàn)框的大小,使模型更容易收斂,提高了本文算法對(duì)交通標(biāo)志的檢測(cè)精度。由實(shí)驗(yàn)結(jié)果可知,改進(jìn)后的YOLOv3算法mAP達(dá)96.20%,較原始YOLOv3算法提升了2.7個(gè)百分點(diǎn),檢測(cè)速率達(dá)到35.3 FPS,較原始YOLOv3算法提升了33.7%。本文對(duì)輸入圖像的分辨率均歸一化至640×640,后續(xù)工作將以擴(kuò)展圖像尺寸、減少計(jì)算復(fù)雜度,達(dá)到全分辨率實(shí)時(shí)檢測(cè)為目標(biāo)開展研究。
[1] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. (2018-04-08) [2021-03-10].http://arxiv.org/pdf/1804.02767.pdf.
[2] LI H J, QIU T S, SONG H Y, et al. A fast traffic signs detection method based on color segmentation and improved radial symmetry[J]. ICIC Express Letters, 2014, 8(8): 2175-2180.
[3] KAPLAN B, SELCAN G, HUSEYIN O, et al. On circular traffic sign detection and recognition[J]. Expert Systems with Applications, 2016, 48:67-75.
[4] WANG J G, ZHOU L B. Traffic light recognition with high dynamic range imaging and deep learning[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 20(4):1341-1352.
[5] ZHANG J M, XIE Z P, SUN J, et al. A cascaded R-CNN with multiscale attention and imbalanced samples for traffic sign detection[J]. IEEE Access, 2020, 8: 29742-29754.
[6] GARCíA-GARRIDO M á, SOTELO M á, MARTIN-GOROSTIZA E. Fast road sign detection using Hough transform for assisted driving of road vehicles[C]// Proceedings of the 2015 International Conference on Computer Aided Systems Theory, LNCS 3643. Berlin: Springer, 2005: 543-548.
[7] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 779-788.
[8] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017:6517-6525.
[9] SANDLER M, HOWARD A, ZHU M L, et al. MobileNetv2: inverted residuals and linear bottlenecks[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018:4510-4520.
[10] 任坤,黃瀧,范春奇,等. 基于多尺度像素特征融合的實(shí)時(shí)小交通標(biāo)志檢測(cè)算法[J]. 信號(hào)處理, 2020, 36(9):1457-1463 .(REN K, HUANG L, FAN C Q, et al. Real-time small traffic sign detection algorithm based on multi-scale pixel feature fusion[J]. Journal of Signal Processing, 2020, 36(9):1457-1463.)
[11] ZHENG Z H, WANG P, LIU W, et al. Distance-IoU loss: faster and better learning for bounding box regression[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020:12993-13000.
[12] 李震霄,孫偉,劉明明,等. 交通監(jiān)控場(chǎng)景中的車輛檢測(cè)與跟蹤算法研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2021, 57(8):103-111.(LI Z X, SUN W, LIU M M, et al. Research on vehicle detection and tracking algorithm in traffic monitoring scenes[J]. Computer Engineering and Applications, 2021, 57(8):103-111.)
[13] 蔣麗,薛善良.優(yōu)化初始聚類中心及確定值的-means算法[J]. 計(jì)算機(jī)與數(shù)字工程, 2018, 46(1):21-24, 113.(JIANG L, XUE S L. A-means algorithm based on optimizing the initial clustering center and determining thevalue [J]. Computer and Digital Engineering, 2018, 46(1): 21-24, 113.)
[14] 鄧天民,周臻浩,方芳,等. 改進(jìn)YOLOv3的交通標(biāo)志檢測(cè)方法研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2020, 56(20):28-35.(DENG T M, ZHOU Z H, FANG F, et al. Research on improved YOLOV3 traffic sign detection method[J]. Computer Engineering and Applications, 2020, 56(20): 28-35.)
[15] REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized intersection over union: a metric and a loss for bounding box regression [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019:658-666.
[16] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2015:91-99.
[17] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multiBox detector [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9905. Cham: Springer, 2016: 21-37.
[18] 劉革,鄭葉龍,趙美蓉. 基于RetinaNet改進(jìn)的車輛信息檢測(cè)[J]. 計(jì)算機(jī)應(yīng)用, 2020, 40(3):854-858.(LIU G, ZHENG Y L, ZHAO M R. Vehicle information detection based on improved RetinaNet[J]. Journal of Computer Applications, 2020, 40(3): 854-858.)
[19] 候瑞環(huán),楊喜旺,王智超,等. 一種基于YOLOv4-TIA的林業(yè)害蟲實(shí)時(shí)檢測(cè)方法[J]. 計(jì)算機(jī)工程, 2022, 48(4):255-261.(HOU R H, YANG X W, WANG Z C, et al. A real-time detection method of forestry pests based on YOLOV4-TIA[J]. Computer Engineering, 2022, 48(4):255-261.)
[20] LIU S T, HUANG D, WANG Y H. Learning spatial fusion for single shot object detection[EB/OL]. (2019-11-21) [2021-03-10].http://arxiv.org/pdf/1911.09516.pdf.
[21] CAI Z W,NUNO V. Cascade R-CNN: delving into high quality object detection[EB/OL].[2017-12-03].https://arxiv.org/pdf/1712.00726.pdf.
ZHANG Dawei, born in 1995, M. S. candidate. His research interests include computer vision.
LIU Xuchong,born in 1973, Ph. D., professor. His research interests include big data analysis, information network security.
ZHOU Wei, born in 1978, Ph. D., associate professor. His research interests include computer vision, intelligent systems.
CHEN Zhuhui, born in 1996, M. S. candidate. His research interests include natural language processing.
YU Yao, born in 1995, M. S. candidate. Her research interests include public opinion analysis.
Real-time traffic sign detection algorithm based on improved YOLOv3
ZHANG Dawei1*, LIU Xuchong2, ZHOU Wei1, CHEN Zhuhui1, YU Yao3
(1&,,411105,;2,,410138,;3,,411105,)
Aiming at the problems of slow detection and low recognition accuracy of road traffic signs in Chinese intelligent driving assistance system, an improved road traffic sign detection algorithm based on YOLOv3 (You Only Look Once version 3) was proposed. Firstly, MobileNetv2 was introduced into YOLOv3 as the basic feature extraction network to construct an object detection network module MN-YOLOv3 (MobileNetv2-YOLOv3). And two Down-up links were added to the backbone network of MN-YOLOv3 for feature fusion, thereby reducing the model parameters, and improving the running speed of the detection module as well as information fusion performance of the multi-scale feature maps. Then, according to the shape characteristics of traffic sign objects,-Means++ algorithm was used to generate the initial cluster center of the anchor, and the DIOU (Distance Intersection Over Union) loss function was introduced to combine DIOU and Non-Maximum Suppression (NMS) for the bounding box regression. Finally, the Region Of Interest (ROI) and the context information were unified by ROI Align and merged to enhance the object feature expression. Experimental results show that the proposed algorithm has better performance, and the mean Average Precision (mAP) of the algorithm on the dataset CSUST (ChangSha University of Science and Technology) Chinese Traffic Sign Detection Benchmark (CCTSDB) can reach 96.20%. Compared with Faster R-CNN (Region Convolutional Neural Network), YOLOv3 and Cascaded R-CNN detection algorithms, the proposed algorithm has better real-time performance, higher detection accuracy, and is more robustness to various environmental changes.
object detection; feature fusion; You Only Look Once version 3 (YOLOv3); DIOU (Distance Intersection Over Union); MobileNetv2;-Means++
This work is partially supported by Hunan Provincial Natural Science Foundation (2018JJ2107), Major Science and Technology Project of Hunan Province (2017SK1040), Project of Hunan Province High-tech Industry Science and Technology Innovation Leading Plan (2020GK2029).
TP391.4
A
1001-9081(2022)07-2219-08
10.11772/j.issn.1001-9081.2021050731
2021?05?10;
2021?10?31;
2021?11?08。
湖南省自然科學(xué)基金資助項(xiàng)目(2018JJ2107);湖南省科技重大專項(xiàng)(2017SK1040);湖南省高新技術(shù)產(chǎn)業(yè)科技創(chuàng)新引領(lǐng)計(jì)劃項(xiàng)目(2020GK2029)。
張達(dá)為(1995—),男,湖南常德人,碩士研究生,CCF會(huì)員,主要研究方向:計(jì)算機(jī)視覺; 劉緒崇(1973—),男,湖南桑植人,教授,博士,CCF會(huì)員,主要研究方向:大數(shù)據(jù)分析、信息網(wǎng)絡(luò)安全; 周維(1978—),男,湖南湘潭人,副教授,博士,CCF會(huì)員,主要研究方向:計(jì)算機(jī)視覺、智能系統(tǒng); 陳柱輝(1996—),男,湖南永州人,碩士研究生,CCF會(huì)員,主要研究方向:自然語(yǔ)言處理; 余瑤(1995—),女,江西上饒人,碩士研究生,主要研究方向:公共輿論分析。