雨天下基于注意力機制與特征融合的交通標(biāo)志識別

2023-12-12 04:25:22查超能羅素云

重慶理工大學(xué)學(xué)報(自然科學(xué)) 2023年11期

查超能,羅素云,何佳

(上海工程技術(shù)大學(xué) 機械與汽車工程學(xué)院, 上海 201620)

0 引言

交通標(biāo)志識別(traffic sign recognition,TSR)技術(shù)是高級駕駛輔助系統(tǒng)(advanced driving assistance system,ADAS)和自動駕駛系統(tǒng)(automated driving system,ADS)的重要組成部分,它可以幫助駕駛員和自動駕駛車輛捕捉重要的道路信息。

TSR可分為2種:一是交通標(biāo)志檢測,主要包括獲取圖像、預(yù)處理和閾值分割;二是交通標(biāo)志識別,主要包括交通標(biāo)志特征提取和分類[1]。交通標(biāo)志檢測是交通標(biāo)志識別的前提,交通標(biāo)志檢測是否正確,將直接影響到最終識別結(jié)果。

而在現(xiàn)實環(huán)境中,交通標(biāo)志的檢測識別極易受到環(huán)境、天氣和車速等因素的干擾,需要在無法預(yù)知的復(fù)雜天氣及環(huán)境下進行檢測識別,其檢測速度和精度往往會受到極大影響。如何減少外界干擾使TSR系統(tǒng)在已有移動計算設(shè)備支持下較準(zhǔn)確地完成交通標(biāo)志的檢測和識別,同時保證算法的實時性是本文著重解決的問題。

王文成等[2]提出了一種雨、雪天氣中的道路交通標(biāo)志識別方法。在圖像去雨方面,主要使用低通濾波處理方法將不同類型的雨雪特征進行分類;在交通標(biāo)志識別方面,主要根據(jù)交通標(biāo)志特有的顏色、形狀、梯度以及位置建立了多層特征顯著性模型,從而提升了分類的效率和準(zhǔn)確度[3]。Mohamed等[4]使用馬來西亞交通標(biāo)志數(shù)據(jù)集(malaysia traffic sign dataset,MTSD)測試3種方法(自動白平衡(automatic white balance,AWB)、策略增強和圖像到圖像轉(zhuǎn)換(image-to-image-translation,I2IT)技術(shù))對雨天交通標(biāo)志檢測性能的影響。

雖然以上方法對雨天環(huán)境進行了不同程度的研究探討,但大多采用傳統(tǒng)的先驗去雨算法,較少使用深度學(xué)習(xí)的去雨算法,其可靠性有待考證,也很少涉及對TT100K中涵蓋多個小目標(biāo)檢測識別任務(wù)進行研究。

本文對雨天環(huán)境下交通標(biāo)志檢測識別進行研究,首先對現(xiàn)有數(shù)據(jù)集進行處理,生成雨天環(huán)境下的交通標(biāo)志數(shù)據(jù)集,并提出一種基于YOLOv5的改進交通標(biāo)志檢測識別網(wǎng)絡(luò)YOLOv5s-traffic。在圖像預(yù)處理階段添加了去雨模塊和圖像增強模塊,針對交通標(biāo)志檢測識別的需求,通過引入4種改進方法,顯著提高網(wǎng)絡(luò)的整體性能,提出的算法可針對晴天和雨天環(huán)境靈活切換使用。

1 雨天環(huán)境下交通標(biāo)志檢測識別架構(gòu)

如圖1所示,YOLOv5s-traffic整體架構(gòu)主要由3部分組成,分別為去雨模塊、圖像增強模塊與基于注意力機制與特征融合方法改進的YOLOv5交通標(biāo)志檢測識別網(wǎng)絡(luò)。

圖1 YOLOv5s-traffic整體架構(gòu)示意圖

去雨模塊采用的是基于對抗生成網(wǎng)絡(luò)的去雨算法,由于該網(wǎng)絡(luò)是基于深度學(xué)習(xí)方法,可根據(jù)不同雨天環(huán)境個性化訓(xùn)練達到良好的去雨效果。

圖像增強模塊采用的是MIRNetv2圖像增強模塊,該網(wǎng)絡(luò)可自由調(diào)節(jié)不同的增強方法達到不同的增強效果,而由于雨天環(huán)境通常會模糊圖像,本文中采用超分辨率(super resolution,SR)方法對模糊圖像進行視覺增強,去除一定的模糊干擾,降低后續(xù)檢測識別的難度。

針對TT100K小目標(biāo)數(shù)據(jù)集,基于注意力機制與特征融合方法的YOLOv5交通標(biāo)志檢測識別網(wǎng)絡(luò)在4個方面對網(wǎng)絡(luò)進行了改進。通過向主干網(wǎng)絡(luò)(backone)引入Transformer模塊、在網(wǎng)絡(luò)頸部(neck)中加入CA注意力機制、在網(wǎng)絡(luò)檢測頭(head)中加入ASFF特征融合機制和將原先的CIoU(complete-IOU)改進為SIoU (SCYLLA-IoU)檢測框損失函數(shù)對網(wǎng)絡(luò)的性能進行了全方位增強。

而為保證交通標(biāo)志檢測識別網(wǎng)絡(luò)對于準(zhǔn)確性和實時性的平衡,對去雨模塊與圖像增強模塊作出相應(yīng)改進,通過對特征提取次數(shù)的減少和方式的改進來適應(yīng)網(wǎng)絡(luò)對于實時性的要求,實驗證明可通過這種方法在網(wǎng)絡(luò)實時性大幅提升的同時,略微降低其處理效果。

最后,為使得網(wǎng)絡(luò)可模塊化搭配使用,滿足不同的環(huán)境需求(晴天和雨天)與性能需求(精確度與實時性),將去雨模塊和圖像增強模塊圖像處理前后大小進行了統(tǒng)一,即保證模塊輸出前后的圖像大小一致,同時設(shè)置了2條處理捷徑。因此,圖像在進入網(wǎng)絡(luò)后可根據(jù)環(huán)境需求選擇是否去雨,并可根據(jù)是否需要更精確的識別進行圖像增強,來滿足不同環(huán)境和性能的需求。

1.1 去雨模塊

處理交通標(biāo)志檢測識別因雨滴帶來的外部干擾主要有2個困難,首先是沒有給出被雨滴遮擋的區(qū)域,其次是遮擋區(qū)域的背景環(huán)境信息大部分完全丟失。

因此,為解決這2個問題,從問題根源著手,將基于對抗生成網(wǎng)絡(luò)(generative adversarial network,GAN)[5]的去雨算法融入到交通標(biāo)志檢測識別算法中,通過視覺上去除雨滴來解決根本問題。從而將帶有雨滴的圖像轉(zhuǎn)化為干凈的圖像,大大減少后續(xù)目標(biāo)檢測識別網(wǎng)絡(luò)的阻礙[6]。

圖2所示為去雨模塊深度架構(gòu),圖像從輸入到輸出的大小沒有變化,而在中間部分通過卷積、池化、反卷積和反射填充操作來縮放圖像大小和深度,以獲得淺層次和深層次的雨滴及其周圍環(huán)境特征,達到良好的去雨效果。原網(wǎng)絡(luò)共有165層,6 747 789個參數(shù)。

本文中去雨模塊的主要想法是將視覺注意力注入生成器(generator)和辨別器(discriminator)[7],首先通過生成器找到雨滴特征并恢復(fù)為無雨形象,接著通過辨別器引導(dǎo)注意力地圖來判別圖像受雨滴影響主要部分的真實性,最終將結(jié)果傳回生成器來優(yōu)化其去雨效果。該生成對抗網(wǎng)絡(luò)的損失函數(shù)如式(1)所示。

minGmaxDER～Pclean[log(D(R))]+

El～praindrop[log(1-D(G(I)))]

(1)

式中:G表示生成網(wǎng)絡(luò);D表示判別網(wǎng)絡(luò);I表示從雨天圖像池中抽取的樣本;R表示從干凈圖像中選取的樣本。

圖3展示了生成器和辨別器的網(wǎng)絡(luò)架構(gòu)。對于生成器部分,每張圖片在輸入后需要經(jīng)過由5層ResNet、卷積LSTM和1個生成2D注意力地圖(attention map)的卷積層組成的注意力循環(huán)網(wǎng)絡(luò)(attentive-recurrent network)來進行雨滴特征提取,隨后進入1個上下文自編碼器(contextual autoencoder)生成去雨圖像。對于辨別器部分,輸入圖像首先在7個卷積層中提取特征,然后在1個全連接層中判別圖像真假。

本文中對該網(wǎng)絡(luò)結(jié)構(gòu)進行進一步簡化處理,通過犧牲部分去雨效果來換取更多的實時性。同時,該網(wǎng)絡(luò)結(jié)構(gòu)作為目標(biāo)檢測識別網(wǎng)絡(luò)中的圖像預(yù)處理模塊,僅需保留生成器部分來輸出處理圖像,可大大節(jié)省算力。具體處理方法是將原先的特征提取部分進行簡化,使網(wǎng)絡(luò)結(jié)構(gòu)從165層下降為134層,參數(shù)量下降167 809;當(dāng)輸入100×100的三通道圖像,所需內(nèi)存大小僅為326.31 MB,比原先下降約20%。

圖2 去雨模塊深度架構(gòu)示意圖

在訓(xùn)練過程中,放入TT100K的有雨和無雨環(huán)境對進行訓(xùn)練,視覺注意力會學(xué)習(xí)雨滴區(qū)域及其周圍環(huán)境,通過觀察這些區(qū)域,判別網(wǎng)絡(luò)將能夠評估恢復(fù)區(qū)域的局部一致性[8]。具體做法是將自制TT100K雨天數(shù)據(jù)集和原數(shù)據(jù)集輸入到網(wǎng)絡(luò)訓(xùn)練得到相應(yīng)權(quán)重,并且通過將不同程度的雨天環(huán)境數(shù)據(jù)集代入對抗生成網(wǎng)絡(luò)進行個性化訓(xùn)練,得到不同的去雨效果,模塊的去雨能力具有極大的靈活性。經(jīng)實驗證明,使用該模塊能極大地恢復(fù)雨天環(huán)境下的交通標(biāo)志數(shù)據(jù)集,降低雨天環(huán)境對交通標(biāo)志檢測識別可靠性的阻礙。

1.2 圖像增強模塊

一個優(yōu)良的感知網(wǎng)絡(luò),不僅是網(wǎng)絡(luò)自身檢測識別的能力,同時也包含去干擾以適應(yīng)各種環(huán)境的能力。將圖像增強模塊加入網(wǎng)絡(luò)前處理部分,可以極大地降低后續(xù)網(wǎng)絡(luò)檢測識別的難度。

MIRNet-v2[9]的整體目標(biāo)是通過整個網(wǎng)絡(luò)保持空間精確的高分辨率表示,并從低分辨率表示接收互補的上下文信息[10]。該方法的核心是一個多尺度殘留塊,其核心思想在于:用于提取多尺度特征的并行多分辨率卷積流、跨多分辨率流的信息交換、用于捕獲上下文信息的非局部注意力機制,以及基于注意的多尺度特征聚合[11]。如式(2)所示,使用Charbonnier loss優(yōu)化該網(wǎng)絡(luò),其中I*表示地面真實圖像,ε是一個常數(shù)。

(2)

圖4所示為MIRNet-v2框架,圖像從左側(cè)輸入完成圖像增強后輸出到右側(cè)。該框架可學(xué)習(xí)豐富的特征表示,用于圖像恢復(fù)和增強。

圖4 MIRNet-v2框架示意圖

將圖像處理網(wǎng)絡(luò)MIRNet-v2嵌入交通標(biāo)志檢測識別網(wǎng)絡(luò),以增加網(wǎng)絡(luò)適應(yīng)各種雨天環(huán)境的能力,同時通過減少MIRNet-v2中RRG和MRB的層數(shù)以加快網(wǎng)絡(luò)推理速度。MIRNet-v2以原始分辨率處理特征,保留空間細節(jié),同時有效地融合來自多個并行分支的上下文信息,在圖像處理時便能保證不會破壞原始信息。由于TT100K交通標(biāo)志數(shù)據(jù)集是小目標(biāo)檢測,所以本文中使用MIRNet-v2中的超分辨率網(wǎng)絡(luò)以盡量減小雨天環(huán)境下帶來的模糊干擾。

2 基于注意力機制與特征融合方法的YOLOv5多重改進模型

YOLOv5整個網(wǎng)絡(luò)模型分為4個部分:輸入層、主干層、頸部層和預(yù)測層。圖5展示了YOLOv5s-traffic的網(wǎng)絡(luò)結(jié)構(gòu)和各模塊的詳細結(jié)構(gòu)。

圖5 YOLOv5s-traffic結(jié)構(gòu)示意圖

不同于原先的網(wǎng)絡(luò)結(jié)構(gòu),本文中通過向主干網(wǎng)絡(luò)引入Transformer模塊(C3TR模塊)、在網(wǎng)絡(luò)頸部中加入CA注意力機制(C3CA模塊)、在網(wǎng)絡(luò)檢測頭中加入ASFF特征融合機制(ASFF-Detect模塊)和將原先的CIoU改進為SIoU檢測框損失函數(shù)對網(wǎng)絡(luò)的性能進行增強。

2.1 添加Transformer模塊

圖6所示為VIT[12](vision transformer)結(jié)構(gòu),該網(wǎng)絡(luò)通過標(biāo)準(zhǔn)的視覺Transformer對圖像進行處理。首先對圖像進行切片分割,然后通過位置和Transformer編碼實現(xiàn)多頭注意力機制(multi-head attention)圖像處理,最后經(jīng)過多層感知機(multilayer perceptron,MLP)對圖像進行縮放操作后進行交通標(biāo)志分類。

本文中通過在骨干網(wǎng)絡(luò)中加入Transformer模塊,引入位置編碼機制,來解決傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)對交通標(biāo)志檢測識別的自注意力機制(self-attention)排列不變(permutation-invariant)問題。對于機器學(xué)習(xí)而言,特征之間沒有空間位置關(guān)系,輸入序列順序的調(diào)整不會影響輸出結(jié)果,而對于卷積神經(jīng)網(wǎng)絡(luò)而言,需要Transformer中的位置編碼機制來解決特征之間關(guān)于空間位置關(guān)系的問題。

將C3替換為C3TR,C3與C3TR模塊的不同之處在于將Bottleneck替換為Transformer Block(如圖7所示),即通過將Bottleneck中原先的 1×1卷積降維、3×3卷積升維和相加操作改進為Transformer結(jié)構(gòu),實現(xiàn)可學(xué)習(xí)的嵌入方法。該結(jié)構(gòu)對圖像使用Transformer對自然語言特有的處理方法,結(jié)構(gòu)中的Attention和MLP模塊可控制循環(huán)次數(shù),通過引入空間位置關(guān)系,達到傳統(tǒng)卷積網(wǎng)絡(luò)無法達到的良好分類效果,從而大大提升如TT100K這樣的小目標(biāo)檢測識別任務(wù)的精確度。

2.2 融合CA注意力機制

坐標(biāo)注意力(coordinate attention,CA)機制[13]旨在增強移動網(wǎng)絡(luò)學(xué)習(xí)特征的表達能力,可以對網(wǎng)絡(luò)中的任意中間特征張量進行轉(zhuǎn)化變化后輸出同樣尺寸的張量[14]。通過捕獲位置信息和通道關(guān)系,增強移動網(wǎng)絡(luò)的特征表示。

本文中將CA注意力模塊嵌入到Y(jié)OLOv5網(wǎng)絡(luò)中,對于交通標(biāo)志檢測識別而言,可進一步強化網(wǎng)絡(luò)對方向和位置等信息的敏感度,提升網(wǎng)絡(luò)性能。

2.3 添加ASFF特征融合方法

金字塔特征融合策略(adaptively spatial feature fusion,ASFF)[15]能夠在空域過濾沖突信息以抑制不一致特征,如圖8所示,可提升網(wǎng)絡(luò)對不同尺度目標(biāo)的特征融合能力。

圖8 ASFF特征融合過程示意圖

本文中將ASFF特征融合方法加入網(wǎng)絡(luò)的檢測頭部分,使得網(wǎng)絡(luò)能夠直接學(xué)習(xí)如何在其他級別對特征進行空間濾波,從而僅保留有用的信息以進行組合。

將ASFF加入YOLOv5網(wǎng)絡(luò)有2個優(yōu)勢:一方面,由于搜索最優(yōu)融合的操作是可微的,可使網(wǎng)絡(luò)更好地利用回歸算法進行反向傳播學(xué)習(xí);另一方面,其實現(xiàn)較為簡單,與基礎(chǔ)網(wǎng)絡(luò)無關(guān),附加計算代價極其小。因此,在交通標(biāo)志檢測識別網(wǎng)絡(luò)準(zhǔn)確性和實時性方面[16],ASFF特征融合方法可通過學(xué)習(xí)不同特征圖之間的聯(lián)系來解決特征金字塔的內(nèi)部不一致性問題的同時,兼顧計算代價。

2.4 損失函數(shù)改進

原YOLOv5中使用的損失函數(shù)為CIoU[17],而本文將原先的CIoU改進為SIoU,除考慮CIoU已經(jīng)考慮的3個要素(預(yù)測框和真實框的距離、重疊區(qū)域和縱橫比)外,加入了角度因素,解決了使用CIoU訓(xùn)練模型時方向不匹配的問題。

SIoU[18]中的角度因素用于輔助兩框之間的距離計算,由于在目標(biāo)檢測的起始訓(xùn)練中,大多數(shù)的預(yù)測框是跟真實框不相交的,所以如何快速地收斂兩框之間的距離是值得考慮的。

圖9所示為SIoU回歸示意圖。不同于CIoU,SIoU在考慮兩框角度和距離時引入了角度參數(shù)α和γ,角度的大小決定著模型的回歸方向。當(dāng)角度小于45°時,使用α角度,模型沿著x軸使預(yù)測框相接近;而當(dāng)角度大于45°時,模型切換到β角度,模型將預(yù)測帶到y(tǒng)軸繼續(xù)接近。同樣對于γ參數(shù)而言,通過觀察Λ角度參數(shù)相對于1的大小,來判斷兩框之間的距離和角度對于整體loss的貢獻。

圖9 SIoU回歸示意圖

如式(3)所示,最終損失函數(shù)由分類損失(classification loss)和坐標(biāo)損失(box loss)組成,其中Lcls為焦點損失,Wbox和Wcls分別為坐標(biāo)損失和分類損失權(quán)重。

L=WboxLbox+WclsLcls

(3)

在交通標(biāo)志檢測識別中使用SIoU可以極大地改善模型的整體性能。通過在損失函數(shù)中引入方向性,降低損失自由度,在訓(xùn)練階段實現(xiàn)了更快和更準(zhǔn)確的收斂,并且在推理方面具有更好的性能。

3 實驗結(jié)果及分析

3.1 數(shù)據(jù)集構(gòu)建

對于在雨天環(huán)境下的交通標(biāo)志檢測識別,必須具備雨天環(huán)境下的交通標(biāo)志數(shù)據(jù)集。圖10所示為原環(huán)境與3種雨天環(huán)境(小雨、中雨及大雨)數(shù)據(jù)集的前后對比。不同種類的雨天圖像較原圖像加入了不同程度的雨滴干擾并進行了模糊化和暗化處理,在不改變圖像分辨率的情況下3種雨天環(huán)境使得圖像質(zhì)量分別下降約20%、30%及40%,對于小目標(biāo)檢測識別任務(wù)而言,難度顯著增加。

而數(shù)據(jù)集的構(gòu)建分為數(shù)據(jù)處理和數(shù)據(jù)劃分兩步驟:

第一步是數(shù)據(jù)處理,由于戶外拍攝新數(shù)據(jù)集無法橫向比較網(wǎng)絡(luò)的可靠性,所以本文通過使用pix2pixHD條件對抗生成網(wǎng)絡(luò)(conditional GANs,cGANs)結(jié)合Automold自動駕駛環(huán)境構(gòu)建庫來對TT100K(Tsinghua-Tencent 100K)交通標(biāo)志數(shù)據(jù)集進行處理以最大限度還原雨天場景,且通過控制pix2pixHD網(wǎng)絡(luò)訓(xùn)練的輸入(雨天環(huán)境雨滴的強度)以及使用Automold庫調(diào)整場景能見度來有效還原3種雨天環(huán)境。確保每張圖片還原雨天環(huán)境的真實性以檢驗網(wǎng)絡(luò)對雨天場景的適應(yīng)能力,且通過不改變圖像大小以保證官方標(biāo)簽的準(zhǔn)確性。

由于不同種類的雨天場景對目標(biāo)檢測的干擾程度不同,為檢驗本文中網(wǎng)絡(luò)處于不同類型雨天環(huán)境的實際檢測能力,使用峰值信噪比(peak signal to noise ratio,PSNR)與結(jié)構(gòu)相似性(structural similarity,SSIM)指標(biāo)來綜合衡量所構(gòu)建不同類型雨天場景相對于原環(huán)境的真實差異。

將原環(huán)境數(shù)據(jù)集的數(shù)據(jù)與其對應(yīng)的3種雨天環(huán)境中的數(shù)據(jù)一一對應(yīng)計算PSNR與SSIM,并對其取均值以獲取3種雨天環(huán)境相對原環(huán)境的閾值,如表1所示。設(shè)定PSNR≥28 dB且SSIM≥0.7為小雨;26 dB≤PSNR<28 dB且0.6≤SSIM<0.7為中雨;25 dB≤PSNR<26 dB且0.5≤SSIM<0.6為大雨。

對比而言,3種雨天環(huán)境相對于原環(huán)境的PSNR與SSIM均有不同程度的下降,且雨天強度越大,能見度越低,兩值越低。

表1 不同雨天環(huán)境對比

第二步是數(shù)據(jù)劃分,將圖像按照 8∶2 的比例劃分訓(xùn)練集和測試集,共計圖像3 415張,包含訓(xùn)練集2 390張,測試集1 025張。同時,為豐富數(shù)據(jù)量并減少過擬合,在加入雨天環(huán)境后,對整體數(shù)據(jù)集進行了數(shù)據(jù)增強并重新進行了標(biāo)注。而由于交通標(biāo)志的翻轉(zhuǎn)會帶來錯誤的特性(例如左轉(zhuǎn)和右轉(zhuǎn)),放棄了翻轉(zhuǎn)和鏡像2種增強方式,僅通過圖像縮放和旋轉(zhuǎn)2種方式對原始圖像進行數(shù)據(jù)增強。

3.2 評價指標(biāo)

通過平均精度值(mAP)、幀率(FPS)和模型復(fù)雜度(GFLOPs)等指標(biāo)來評估網(wǎng)絡(luò)性能,使用原數(shù)據(jù)集和雨天數(shù)據(jù)集分開對網(wǎng)絡(luò)進行評價。

(4)

(5)

(6)

如式(4)(5)(6)所示,其中mAP是整體性能的指標(biāo),由對多個驗證集個體求平均AP值得到; 使用精確率(P)和召回率(R)這2個指標(biāo)來衡量模型的好壞,并使用F1score來權(quán)衡考慮兩者以提升模型決策效率;而FPS衡量檢測方法實時性的指標(biāo),代表檢測網(wǎng)絡(luò)每秒可以處理的圖像數(shù)量。

3.3 實驗環(huán)境

采用Pytorch深度學(xué)習(xí)框架,使用Python編程語言,Ubuntu 20.04.3操作系統(tǒng),硬件配置為GeForce RTX 3080顯卡,10 GB顯存。具體訓(xùn)練環(huán)境如表2所示。

表2 基于Pytorch訓(xùn)練環(huán)境

設(shè)置初始學(xué)習(xí)率為0.01,使用余弦退火算法和warm-up學(xué)習(xí)率優(yōu)化方法。Batch size設(shè)為16,在130個epoch后停止訓(xùn)練。

3.4 實驗結(jié)果分析

改進YOLOv5s-traffic算法在不加入去雨和圖像增強模塊時,對于原TT100K數(shù)據(jù)集,其平均識別準(zhǔn)確率達到了88.6%,與原YOLOv5算法相比提升了5.4%,FPS達到50.4幀/s,較原網(wǎng)絡(luò)僅下降了18.3幀/s,說明改進后的YOLOv5算法對原環(huán)境下可以在保證實時性的同時能更準(zhǔn)確地對交通標(biāo)志進行檢測識別。圖11所示為改進后訓(xùn)練和驗證過程中整體損失變化,在網(wǎng)絡(luò)改進之后訓(xùn)練損失相對驗證損失收斂速度明顯更快,訓(xùn)練損失和驗證損失都逐漸下降至較小值,且驗證過程的最終損失明顯更小。

在雨天環(huán)境下,包含去雨模塊和圖像增強模塊的YOLOv5s-traffic算法,其對雨天的準(zhǔn)確率達到了75.3%,相較于不使用兩模塊和主網(wǎng)絡(luò)改進方法提升了12.5%,FPS達到了49.4幀/s,說明改進后的YOLOv5算法對于雨天環(huán)境也可以在保證實時性的同時大幅提升對交通標(biāo)志進行檢測識別的精度。而當(dāng)不包含圖像增強模塊時,其算法準(zhǔn)確率僅上升了5.3%,說明了在去雨模塊與YOLOv5網(wǎng)絡(luò)間嵌入圖像增強模塊的必要性。

圖11 損失變化曲線

3.4.1模型大小對比

首先從模型的大小進行對比分析,將原YOLOv5模型與加入各種改進方法的模型進行對比實驗,同時也將Faster RCNN與YOLOv4作為參考目標(biāo)納入對比范圍。

表3列出了衡量不同模型大小的兩項重要指標(biāo)。可以看出,僅修改網(wǎng)絡(luò)結(jié)構(gòu)而未加入去雨和圖像增強模塊的YOLOv5s-traffic的參數(shù)量為11.26 M,GLOPs為21.4。其參數(shù)量與原YOLOv5s相比提升了4.2M,模型復(fù)雜度與原YOLOv5s相比上升了約24%,但仍遠遠小于Faster RCNN和YOLOv4,分別為其8.5%和71.5%,表明了YOLOv5s-traffic相比于其精度的提升并不會增加太多的參數(shù)量和模型復(fù)雜度。

而模型在加入去雨模塊后,其參數(shù)量分別提升了6.2M,其GLOPs提升了14%,仍遠小于Faster RCNN和YOLOv4的數(shù)據(jù)量和復(fù)雜度,對于雨天這樣的復(fù)雜環(huán)境而言在可接受范圍內(nèi)。

在模型中繼續(xù)加入圖像增強模塊后,其參數(shù)量再次提升了3.8M,其GLOPs提升了22%,模型仍然平衡和準(zhǔn)確性和實時性,其計算成本的消耗帶來了的是精度的顯著增加。

表3 模型大小指標(biāo)

3.4.2消融實驗

為驗證YOLOv5s-traffic各成分的有效性,對所有模塊進行了消融實驗,所有實驗均在同一交通標(biāo)志數(shù)據(jù)集(TT100K)上完成,并將其分為原環(huán)境和雨天環(huán)境以展示網(wǎng)絡(luò)在不同環(huán)境下的表現(xiàn)。在TT100K中隨機選取了2 215張圖像對模型進行評估,去雨和圖像增強都是在這基礎(chǔ)上進行,保證了原環(huán)境和雨天環(huán)境的統(tǒng)一性。當(dāng)統(tǒng)一設(shè)置輸入圖像分辨率為640×640, Bitch-size為1時,認(rèn)為FPS大于30幀/s可達到實時處理。由于去雨模塊和圖像增強模塊都屬于圖像預(yù)處理,因此不會改變模型結(jié)構(gòu)、影響推理速度[19]。

表4所示為原環(huán)境下YOLOv5網(wǎng)絡(luò)在是否加入圖像增強模塊和主網(wǎng)絡(luò)改進方法(主干網(wǎng)絡(luò)、頸部、檢測頭和損失函數(shù))的消融實驗。從中可知,在分開加入圖像增強模塊和主網(wǎng)絡(luò)改進方法后,后者較之前者mAP有顯著提升,而當(dāng)將兩者一同加入后疊加效果產(chǎn)生了7.2%的大幅提升。對比后文雨天環(huán)境下圖像增強模塊的使用可大幅增加mAP,說明即使圖像增強模塊中的多尺度殘留塊可較好地融合上下文特征,達到高低分辨率特征相互鞏固的效果,但由于晴天環(huán)境下原圖像的質(zhì)量本身就足夠高,因此其對于圖像識別精度提升不大。相對而言,注意力機制和特征融合方法在晴天環(huán)境下可顯著提升mAP,且FPS僅下降了18.3幀/s,仍能遠超圖像實時處理的基準(zhǔn)。

如表5、表6及表7所示,為雨天環(huán)境下YOLOv5網(wǎng)絡(luò)在是否加入去雨模塊、圖像增強模塊及主網(wǎng)絡(luò)改進方法(主干網(wǎng)絡(luò)、頸部、檢測頭和損失函數(shù))的分別針對3種雨天環(huán)境的消融實驗。

表5 消融實驗(小雨環(huán)境)

表6 消融實驗(中雨環(huán)境)

表7 消融實驗(大雨環(huán)境)

中雨與大雨環(huán)境相對于小雨環(huán)境的mAP有不同程度的下降,其中中雨較小雨的下降幅度整體略大于大雨較中雨的下降幅度。在加入所有改進模型后,中雨較小雨與大雨較中雨的mAP分別下降了3.4%與2.6%。

為充分展現(xiàn)本文中算法對于雨天環(huán)境的適應(yīng)能力,在此具體對比分析大雨環(huán)境相對原環(huán)境各指標(biāo)的變化。在分開加入去雨模塊和主網(wǎng)絡(luò)改進方法后,mAP分別提升了4.5%和2.7%,證明去雨模塊可很好地提取淺層次和深層次的雨滴及其周圍環(huán)境特征,達到良好的去雨效果,且主網(wǎng)絡(luò)中的多種改進方法相互配合可較好地在雨天環(huán)境下捕獲位置信息和通道關(guān)系,并解決特征金字塔內(nèi)部不一致性,同時極大地提升網(wǎng)絡(luò)整體推理性能;而單獨加入圖像增強后下降較多,這是由于圖像增強會連同雨滴干擾一同增強,說明在雨天環(huán)境下圖像增強前必須先加入去雨模塊盡量減少雨滴干擾才會有良好的精度效果。而在組合使用3種方法時,組合1(去雨和圖像增強)達到了71.2%的mAP,組合2(去雨和主網(wǎng)絡(luò)改進方法)有些許下降;同樣是由于未使用去雨模塊,組合3(圖像增強和主網(wǎng)絡(luò)改進方法)的mAP大幅下降;而3種方法一同疊加網(wǎng)絡(luò)精度效果最好可達75.3%的mAP,說明YOLOv5s-traffic構(gòu)建的雨天環(huán)境下交通標(biāo)志檢測識別網(wǎng)絡(luò)中的兩前處理模塊可明顯降低雨天環(huán)境帶了的外部干擾,三者配合可達到最好的精度效果,而FPS下降了17.4幀/s,同樣超過實時處理的基準(zhǔn)。

3.4.3模型識別效果對比

本文分別展現(xiàn)了原環(huán)境和雨天環(huán)境、去雨模塊前后應(yīng)用和圖像增強模塊前后應(yīng)用的效果對比圖(左側(cè)為原圖,右側(cè)為效果圖)。從中可以看到,主網(wǎng)絡(luò)在改進之后,識別效果有明顯提升;而在加入去雨模塊后,模型對雨天環(huán)境的適應(yīng)性明顯提升;再加入圖像增強模塊后,模型對雨天環(huán)境的識別精度再次提升,達到Y(jié)OLOv5s-traffic的最好識別效果。

圖12展現(xiàn)了原環(huán)境和雨天環(huán)境下模型對交通標(biāo)志檢測識別的效果。從圖12中可以看到,改進模型不但提升了相對易檢標(biāo)志(pl50、p11和pn)的置信度,而且避免了難檢標(biāo)志(w57)的漏檢問題,說明改進后的網(wǎng)絡(luò)可較好地對模糊特征信息加以捕獲,提升整體識別性能。

圖12 原環(huán)境效果

圖13—圖16分別展現(xiàn)了去雨模塊和圖像增強模塊在3種雨天環(huán)境下對交通標(biāo)志檢測識別的效果。類似于原環(huán)境,低置信度標(biāo)志的提升要遠好于高置信度標(biāo)志,在雨天環(huán)境下由于環(huán)境干擾會導(dǎo)致許多標(biāo)志無法檢測,而加入去雨模塊后可有效減少干擾,但會因環(huán)境干擾存在部分誤檢情況;應(yīng)用去雨模塊后,不同類型的雨天環(huán)境對于標(biāo)志識別帶來的不同程度的干擾大多是對其置信度的改變;而加入圖像增強模塊后可進一步增加識別精度,將大部分標(biāo)志檢測并正確識別,有效避免誤檢。

圖13 小雨環(huán)境去雨效果

圖14 中雨環(huán)境去雨效果

圖15 大雨環(huán)境去雨效果

圖16 圖像增強效果

由此說明,改進的YOLOv5交通標(biāo)志檢測識別系統(tǒng)對于原環(huán)境可明顯提高識別精度,對于小目標(biāo)檢測識別有良好的效果。而雨天環(huán)境的干擾會明顯造成檢測和識別的障礙,并顯著降低置信度。在加入去雨和圖像增強模塊后,改進的YOLOv5交通標(biāo)志檢測識別系統(tǒng)對于雨天環(huán)境下的交通標(biāo)志檢測識別首先通過去雨模塊生成的注意力地圖準(zhǔn)確找到雨滴特征替換為無雨形象,然后以圖像增強模塊融合高低分辨率的上下文信息生成特征信息更為明顯的圖像,最后輸入到融合了多種特征提取方法適用于小目標(biāo)檢測的YOLOv5網(wǎng)絡(luò),可準(zhǔn)確地獲得交通標(biāo)志特征信息,保證較高的識別準(zhǔn)確率。

4 結(jié)論

針對當(dāng)前目標(biāo)檢測識別模型極難在雨天環(huán)境下準(zhǔn)確且實時地完成交通標(biāo)志檢測識別任務(wù),基于YOLOv5提出了一種雨天環(huán)境下適用于交通標(biāo)志檢測識別模型YOLOv5s-traffic,該模型能極大地減少外部環(huán)境干擾,在小目標(biāo)檢測識別任務(wù)中取得良好效果。

該網(wǎng)絡(luò)的前處理部分為一個基于對抗生成網(wǎng)絡(luò)的去雨算法和一個基于多尺度殘留塊的圖像增強算法,主干網(wǎng)絡(luò)為融合了Transformer模塊、CA注意力機制、ASFF特征融合方法和SIoU損失函數(shù)的YOLOv5網(wǎng)絡(luò),該融合方法可使網(wǎng)絡(luò)無論在晴天還是雨天環(huán)境下均可在保證實時性的前提下顯著提升檢測識別精度。此外,通過對原始數(shù)據(jù)集進行大規(guī)模處理和重構(gòu),模擬了雨天環(huán)境中交通標(biāo)志檢測識別。實驗表明,雨天環(huán)境對該任務(wù)有極大地干擾,而相對于原網(wǎng)絡(luò),mAP為75.3%,提升12.5%,且FPS達到49.4幀/s,網(wǎng)絡(luò)在顯著提升精度的同時可保證其實時性。對于ADAS和ADS來說,它是交通標(biāo)志識別系統(tǒng)的一個進步;對于計算機視覺來說,它是對目標(biāo)檢測識別任務(wù)的一個貢獻。

目前,主流的TSR方法和公共數(shù)據(jù)集主要涉及白天正常的天氣情景,對于各種復(fù)雜環(huán)境如雨天、霧天和暴風(fēng)雪環(huán)境涉及較少,且無法達到精度和實時性的良好平衡,從未有一種網(wǎng)絡(luò)可適用于各類環(huán)境的交通標(biāo)志檢測識別任務(wù)。未來,將重點關(guān)注各種復(fù)雜環(huán)境下的交通標(biāo)志檢測識別任務(wù),解決各類環(huán)境下的外部干擾問題,嘗試構(gòu)建一種網(wǎng)絡(luò)適用于各類復(fù)雜環(huán)境下的交通標(biāo)志檢測識別網(wǎng)絡(luò)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放