亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        YOLOv3-A:基于注意力機(jī)制的交通標(biāo)志檢測(cè)網(wǎng)絡(luò)

        2021-02-28 04:46:04郭璠張泳祥唐琎李偉清
        通信學(xué)報(bào) 2021年1期
        關(guān)鍵詞:交通標(biāo)志尺度注意力

        郭璠,張泳祥,唐琎,李偉清

        (中南大學(xué)自動(dòng)化學(xué)院,湖南 長(zhǎng)沙 410083)

        1 引言

        交通標(biāo)志檢測(cè)不僅能夠?yàn)檩o助駕駛系統(tǒng)提供有效的路況數(shù)據(jù)支持,而且在建立高精度地圖方面可以避免煩瑣易錯(cuò)的人工標(biāo)注。因此,對(duì)交通標(biāo)志檢測(cè)系統(tǒng)進(jìn)行深入研究,不僅在提高道路安全性方面具有很大的實(shí)用價(jià)值,而且能夠?qū)o(wú)人駕駛技術(shù)的發(fā)展起到推動(dòng)性作用。傳統(tǒng)的交通標(biāo)志檢測(cè)算法可以分為感興趣區(qū)域(RoI,region of interest)提取和RoI 分類2 個(gè)階段。在RoI 提取階段,通常使用不同尺度和比例的滑動(dòng)窗口在整幅圖像上掃描,以獲得潛在的目標(biāo)區(qū)域;在RoI 分類階段,常用HOG(histograms of oriented gradient)[1]、Gabor[2]、Haar-like[3]等人工設(shè)計(jì)特征,結(jié)合機(jī)器學(xué)習(xí)算法進(jìn)行RoI 的類別判斷。由于存在光照、變形、遮擋等問題,傳統(tǒng)方法在實(shí)際的交通標(biāo)志檢測(cè)任務(wù)中難以取得良好效果。

        近年來,隨著卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域不斷深入和發(fā)展,基于深度學(xué)習(xí)的交通標(biāo)志檢測(cè)算法也取得了很大提升?,F(xiàn)有的檢測(cè)方法可以分為兩階段方法和一階段方法。以 Faster R-CNN(region-convolutional neural network)[4]為代表的兩階段方法使用RPN(region proposal network)通過共享卷積特征的方式在特征層面生成建議框,再利用建議框區(qū)域的卷積特征進(jìn)行分類和目標(biāo)框的定位學(xué)習(xí),具有精度高但速度慢的特點(diǎn);以YOLO(you only look once)[5]、SSD(single shot detector)[6]為代表的一階段目標(biāo)檢測(cè)方法將目標(biāo)框的定位和識(shí)別任務(wù)統(tǒng)一按照回歸的邏輯,由卷積神經(jīng)網(wǎng)絡(luò)在輸出層一次性預(yù)測(cè)完成,具有速度快但精度低的特點(diǎn)。實(shí)時(shí)性是工業(yè)領(lǐng)域和實(shí)際應(yīng)用場(chǎng)景中的關(guān)鍵指標(biāo),因此提高一階段檢測(cè)方法的精度更有實(shí)用價(jià)值。

        目前,交通標(biāo)志檢測(cè)算法的主要改進(jìn)方向有探索語(yǔ)義特征更抽象的基礎(chǔ)網(wǎng)絡(luò)、融合不同層級(jí)特征的特征融合方法和數(shù)據(jù)預(yù)處理方法等。Rajendran等[7]以RetinaNet[8]為基礎(chǔ),使用層數(shù)更深的ResNet[9]為基礎(chǔ)網(wǎng)絡(luò),并在網(wǎng)絡(luò)底層使用反卷積模塊豐富特征的語(yǔ)義信息,最后在GTSDB(German traffic sign detection benchmark)交通數(shù)據(jù)集[10]上獲得96.7%mAP 的效果,這種方法會(huì)引入大量的額外參數(shù)。Yang 等[11]使用多尺度的全卷積網(wǎng)絡(luò)DMS-Net(dual multi-scale network)來檢測(cè)不同尺度的交通標(biāo)志,并引入在線困難樣本挖掘(OHEM,online hard example mining)策略,最終在STSD(Swedish traffic signs dataset)數(shù)據(jù)集[12]上獲得99.88%的準(zhǔn)確率和96.61%的召回率。Meng 等[13]在圖像金字塔的基礎(chǔ)上,將每幅圖像劃分為200 像素×200 像素的小圖,送入SSD 網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測(cè),訓(xùn)練得到一個(gè)對(duì)小目標(biāo)敏感的SOS(small object sensitive)網(wǎng)絡(luò),在測(cè)試時(shí)同樣需要進(jìn)行圖像金字塔和子圖劃分操作,降低了算法的實(shí)時(shí)性。上述工作從不同角度提升了交通標(biāo)志檢測(cè)算法的性能。

        在實(shí)際的交通標(biāo)志檢測(cè)場(chǎng)景中,圖像背景復(fù)雜多樣,存在各種廣告牌、干擾物體和其他提示標(biāo)志,這些偽交通標(biāo)志在外形和顏色上很容易與真實(shí)的交通標(biāo)志形成混淆,容易導(dǎo)致誤檢。此外,為了提前獲得道路信息,車載相機(jī)拍到的交通標(biāo)志一般像素絕對(duì)尺度較小,而且占據(jù)整幅圖像的相對(duì)比例也十分小。交通標(biāo)志絕對(duì)尺度小,包含的有效信息少、噪聲多,在模糊不清的情況下,很容易出現(xiàn)誤檢和漏檢;目標(biāo)相對(duì)尺度較小,意味著圖像中包含更多的背景區(qū)域,更容易出現(xiàn)誤檢。注意力機(jī)制在很多計(jì)算機(jī)視覺任務(wù)中被證明可以有效地提升網(wǎng)絡(luò)性能,該方法模擬了人類大腦提取外部信息的過程,即人類視覺系統(tǒng)會(huì)在圖像上的某些區(qū)域產(chǎn)生局部聚焦,通過對(duì)聚焦區(qū)域投入更多的注意力,獲得有效的細(xì)節(jié)信息。注意力機(jī)制使人類在有限的視覺感知能力下,對(duì)海量的輸入信息進(jìn)行合理的抑制和增強(qiáng),極大地提高了人類視覺系統(tǒng)的信息處理能力。

        YOLOv3 檢測(cè)算法[14]并未對(duì)卷積特征進(jìn)行聚焦處理,即同等對(duì)待特征圖中的每個(gè)區(qū)域,認(rèn)為每個(gè)區(qū)域?qū)ψ罱K檢測(cè)結(jié)果的貢獻(xiàn)是相同的,而且特征金字塔網(wǎng)絡(luò)[15](FPN,feature pyramid network)在對(duì)不同層級(jí)特征融合時(shí),直接進(jìn)行拼接處理,會(huì)存在大量的冗余信息。因此,本文以YOLOv3 檢測(cè)算法為基礎(chǔ),提出了目標(biāo)檢測(cè)的通道注意力(CA,channel attention)方法和基于語(yǔ)義分割引導(dǎo)的空間注意力(MGSA,mask guided spatial attention)方法,形成了 YOLOv3-A(attention)算法。YOLOv3-A 算法對(duì)檢測(cè)分支特征在通道和空間2 個(gè)維度進(jìn)行重新標(biāo)定,能夠聚焦網(wǎng)絡(luò)和增強(qiáng)有效特征,抑制干擾特征,提高神經(jīng)網(wǎng)絡(luò)對(duì)小目標(biāo)的注意能力,并且抑制背景中的干擾物體。本文的主要貢獻(xiàn)如下。

        1) 在FPN 融合不同層級(jí)特征時(shí),根據(jù)目標(biāo)檢測(cè)特征中含有大量干擾信息的特點(diǎn),本文對(duì)SENet[16]的通道注意力機(jī)制進(jìn)行了改進(jìn),使用全局最大池化和全局平均池化對(duì)特征在空間維度進(jìn)行壓縮,并且進(jìn)行維度拼接后,通過全連接網(wǎng)絡(luò)學(xué)習(xí)每個(gè)通道的融合權(quán)重,使不同層級(jí)特征在融合時(shí)具有了區(qū)分度。

        2) 本文將目標(biāo)物體的標(biāo)定框作為監(jiān)督信息,在特征層面預(yù)測(cè)一個(gè)語(yǔ)義分割掩模,并將此掩模作為引導(dǎo),與自帶attention 屬性的深層卷積特征相結(jié)合,得到每個(gè)通道的空間注意力權(quán)重,對(duì)特征在空間維度進(jìn)行重新標(biāo)定,以精細(xì)化小目標(biāo)特征,抑制背景特征,減少YOLOv3 網(wǎng)絡(luò)的漏檢和誤檢情況。

        2 YOLOv3-A 交通標(biāo)志檢測(cè)網(wǎng)絡(luò)

        2.1 YOLOv3-A 的檢測(cè)分支結(jié)構(gòu)

        YOLOv3 網(wǎng)絡(luò)在使用FPN 方法融合不同層級(jí)特征時(shí),將逐元素相加的特征融合方式改為在通道方向上的直接拼接,這樣可以避免特征直接相加導(dǎo)致不同尺度特征相互影響的問題,更有利于網(wǎng)絡(luò)對(duì)多尺度特征的利用。受此結(jié)構(gòu)啟發(fā),所提網(wǎng)絡(luò)將通道注意力機(jī)制和語(yǔ)義分割引導(dǎo)的空間注意力機(jī)制引入YOLOv3 網(wǎng)絡(luò)中的檢測(cè)分支,形成YOLOv3-A網(wǎng)絡(luò),其結(jié)構(gòu)如圖1 所示。其中,F(xiàn)代表殘差學(xué)習(xí),以保證引入的注意力機(jī)制不會(huì)導(dǎo)致網(wǎng)絡(luò)退化。該網(wǎng)絡(luò)首先經(jīng)過基礎(chǔ)語(yǔ)義特征網(wǎng)絡(luò)提取特征,在使用FPN 特征金字塔方法對(duì)不同層級(jí)特征進(jìn)行拼接時(shí),引入通道注意力機(jī)制對(duì)多尺度特征進(jìn)行通道間的重新標(biāo)定,以達(dá)到增強(qiáng)有效通道特征、抑制冗余通道特征的目的。然后,經(jīng)過特征融合模塊(YOLOBlock)對(duì)通道注意力特征進(jìn)行融合,接入語(yǔ)義分割引導(dǎo)的空間注意模塊,有監(jiān)督地對(duì)特征在空間維度上進(jìn)行重新標(biāo)定,以達(dá)到強(qiáng)化有效區(qū)域特征、抑制干擾區(qū)域特征的目的。最后,在得到的注意力特征上進(jìn)行目標(biāo)檢測(cè)。由此可見,通道注意力機(jī)制和空間注意力機(jī)制是該檢測(cè)分支結(jié)構(gòu)的核心。

        2.2 通道注意力機(jī)制

        SENet 引入通道注意力機(jī)制,以絕對(duì)優(yōu)勢(shì)獲得了2017 年ImageNet 競(jìng)賽中圖像分類冠軍。其核心思想是將特征在空間維度上壓縮,去除空間位置影響,再經(jīng)過全連接網(wǎng)絡(luò)的學(xué)習(xí)和激活得到輸入特征各通道的權(quán)重,完成對(duì)原始特征在通道維度上的重新標(biāo)定。具體而言,首先,在空間維度上壓縮特征,即將尺度為H×W×C的輸入特征經(jīng)過平均池化,得到具有二維全局感受野的1× 1×C的壓縮特征。然后,經(jīng)過兩層全連接網(wǎng)絡(luò)對(duì)壓縮特征進(jìn)行編碼和解碼,再經(jīng)過sigmoid 函數(shù)激活后,輸出與輸入特征通道數(shù)一致的1×1×C的注意力權(quán)重,用來反映不同通道的重要程度。最后,將通道權(quán)重與輸入特征按通道相乘,得到重新校準(zhǔn)后的通道注意力特征。SENet 是針對(duì)圖像分類任務(wù)所設(shè)計(jì)的通道注意力方法,使用全局平均池化可以獲得代表通道特征的響應(yīng)情況。對(duì)于目標(biāo)物體占據(jù)了特征圖很大面積比例的圖像分類任務(wù)來說,通道特征的平均值能夠較好地代表該通道的響應(yīng)情況。但是,對(duì)于目標(biāo)檢測(cè)任務(wù)來說,目標(biāo)物體通常較小,在特征圖上只能占據(jù)很小的區(qū)域。除此之外,目標(biāo)檢測(cè)的原始圖像中通常包含了很多無(wú)關(guān)物體,這些物體雖然響應(yīng)較小,但是數(shù)量較多,總的響應(yīng)貢獻(xiàn)依舊很大。因此,對(duì)目標(biāo)檢測(cè)特征在空間維度進(jìn)行平均池化,并不能很好地代表網(wǎng)絡(luò)對(duì)前景目標(biāo)的響應(yīng),而每個(gè)通道的響應(yīng)極值或許能夠更好地反映該通道對(duì)前景目標(biāo)的響應(yīng)情況。

        本文針對(duì)目標(biāo)檢測(cè)網(wǎng)絡(luò)所改進(jìn)的通道注意力模塊結(jié)構(gòu)如圖2 所示。該結(jié)構(gòu)將FPN 特征融合部分的多層級(jí)特征FI作為待標(biāo)定特征,首先對(duì)FI特征在通道方向上分別進(jìn)行全局最大池化和全局平均池化,并將池化結(jié)果在通道方向上進(jìn)行拼接,得到1× 1×2C的壓縮特征;然后將1× 1×2C的壓縮特征送入具有3 個(gè)隱藏層的全連接網(wǎng)絡(luò)進(jìn)行特征的編解碼,經(jīng)過sigmoid 激活函數(shù)得到通道注意力權(quán)重Mc;最后將通道注意力權(quán)重Mc與多層級(jí)特征FI進(jìn)行殘差連接并按通道相乘,即F=(1+Mc)FI,得到最終的通道注意力特征,以保證網(wǎng)絡(luò)不會(huì)出現(xiàn)退化問題。

        圖1 YOLOv3-A 網(wǎng)絡(luò)結(jié)構(gòu)

        圖2 通道注意力模塊結(jié)構(gòu)

        通道注意力模塊中的全連接網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。經(jīng)過對(duì)多層級(jí)特征FI在空間維度上的全局最大池化和全局平均池化得到尺度為1× 1×2C的特征向量,經(jīng)過第一個(gè)全連接層進(jìn)行特征融合和降維,把特征從2C個(gè)通道降維到C個(gè)通道,并使用ReLU函數(shù)進(jìn)行激活。第二個(gè)全連接層將C個(gè)通道壓縮成個(gè)通道,進(jìn)行全局特征的編碼,達(dá)到降低計(jì)算量的目的,同樣使用ReLU 函數(shù)激活。最后一個(gè)全連接層將特征的通道數(shù)恢復(fù)為C個(gè)通道,并使用sigmoid 函數(shù)激活,代表多層級(jí)特征FI中的不同通道的重要程度。

        圖3 通道注意力模塊全連接網(wǎng)絡(luò)結(jié)構(gòu)

        綜上所述,本文根據(jù)目標(biāo)檢測(cè)特征中含有大量干擾信息的特點(diǎn),對(duì)SENet 的通道注意力機(jī)制進(jìn)行了改進(jìn),優(yōu)化了FPN 在進(jìn)行不同層級(jí)特征拼接時(shí)存在的冗余通道問題,使不同層級(jí)的特征在融合時(shí)具有了區(qū)分度,抑制了對(duì)干擾信息響應(yīng)較大的通道,保留了利于檢測(cè)任務(wù)的有效信息。

        2.3 基于語(yǔ)義分割引導(dǎo)的空間注意力機(jī)制

        2.3.1 MGSA 算法結(jié)構(gòu)

        空間注意力機(jī)制不僅可以讓網(wǎng)絡(luò)聚焦于有效區(qū)域,而且能夠?qū)劢箙^(qū)域的特征進(jìn)行改善和增強(qiáng)[17]。在圖像分類和圖像顯著性檢測(cè)任務(wù)中,深層特征的激活區(qū)域恰好對(duì)應(yīng)目標(biāo)物體最具有區(qū)分度的部分,這說明深層卷積神經(jīng)網(wǎng)絡(luò)自帶attention 效果。文獻(xiàn)[17-19]使用深層卷積神經(jīng)網(wǎng)絡(luò)特征的attention 屬性,無(wú)監(jiān)督地實(shí)現(xiàn)了對(duì)特征在空間維度上的聚焦和改善,并通過消融實(shí)驗(yàn)驗(yàn)證了這種弱監(jiān)督注意力在圖像分類和圖像顯著性檢測(cè)任務(wù)中的有效性。在交通標(biāo)志檢測(cè)任務(wù)中,目標(biāo)物體尺度一般較小,而且圖像中會(huì)包含大量干擾物體,使深層特征的激活區(qū)域不能明顯地反映目標(biāo)物體的空間位置。因此,本文提出了基于語(yǔ)義分割引導(dǎo)的空間注意力機(jī)制,通過有監(jiān)督的方式生成目標(biāo)檢測(cè)深層特征的語(yǔ)義分割Mask,并將此Mask 作為引導(dǎo)與自帶attention 屬性的深層特征相結(jié)合,得到輸入特征在空間位置上的注意力分布。

        MGSA 算法結(jié)構(gòu)如圖4 所示。輸入圖像首先經(jīng)過特征提取和融合得到檢測(cè)分支特征Fd。然后檢測(cè)分支特征Fd經(jīng)過所設(shè)計(jì)的語(yǔ)義分割模塊進(jìn)行前景和背景類別的分割,其中語(yǔ)義分割的監(jiān)督標(biāo)簽通過將輸入圖像中目標(biāo)的標(biāo)定框映射到特征圖尺寸后得到。接著將語(yǔ)義分割結(jié)果M與深層特征Fs相結(jié)合得到空間注意力權(quán)重Sw。最后將檢測(cè)分支特征Fd與空間注意力權(quán)重Sw通過殘差注意力的方法進(jìn)行結(jié)合,即F=(1+Sw)Fd,得到聚焦和改善的特征后,進(jìn)行后續(xù)的目標(biāo)檢測(cè)過程。

        圖4 MGSA 算法結(jié)構(gòu)

        2.3.2 語(yǔ)義分割模塊結(jié)構(gòu)

        圖像語(yǔ)義分割任務(wù)是對(duì)輸入圖像的所有像素進(jìn)行分類,將同類物體上的像素歸為一類,因此圖像語(yǔ)義分割任務(wù)是從像素的角度去理解圖像?;谏疃葘W(xué)習(xí)的圖像語(yǔ)義分割方法通??煽醋骶幋a?解碼模型。以FCN(fully convolutional network)[20]語(yǔ)義分割模型為例,編碼過程通過若干卷積層的堆疊和池化得到大感受野且低分辨率的編碼特征。解碼過程是將編碼特征進(jìn)行反卷積上采樣,得到高分辨率的特征,并預(yù)測(cè)圖像中每個(gè)像素所屬的類別。本文所提出的語(yǔ)義分割模塊作為特征空間注意力的引導(dǎo),是對(duì)每個(gè)特征的空間位置進(jìn)行前景和背景的預(yù)測(cè),不需要對(duì)編碼特征上采樣到原始圖像的尺度。

        Mask R-CNN[21]在同一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的不同分支中實(shí)現(xiàn)了目標(biāo)檢測(cè)任務(wù)和語(yǔ)義分割任務(wù)。Mask R-CNN 以Faster R-CNN 目標(biāo)檢測(cè)方法為基礎(chǔ),通過對(duì)RPN 提取的目標(biāo)侯選區(qū)域中的特征進(jìn)行RoI Align 池化后,多分支地進(jìn)行目標(biāo)邊界框的回歸和分類學(xué)習(xí),并且增添語(yǔ)義分割分支,對(duì)共享的池化特征進(jìn)行編解碼,同時(shí)預(yù)測(cè)圖像中的物體掩膜。Mask R-CNN 不僅證明了在一個(gè)網(wǎng)絡(luò)中進(jìn)行語(yǔ)義分割和目標(biāo)檢測(cè)的多任務(wù)聯(lián)合學(xué)習(xí)可以達(dá)到相互促進(jìn)的效果,而且證明了深層卷積特征中含有豐富的語(yǔ)義信息,不同的任務(wù)可以通過共享深層卷積特征的方式,利用不同的訓(xùn)練標(biāo)簽和損失函數(shù)學(xué)習(xí)不同的分類器。本文提出的基于語(yǔ)義分割引導(dǎo)的空間注意力模塊同樣通過共享YOLOv3 中檢測(cè)分支的深層特征,完成特征級(jí)別的語(yǔ)義分割任務(wù),并且在訓(xùn)練階段通過多任務(wù)聯(lián)合訓(xùn)練的方式提升目標(biāo)檢測(cè)的性能。

        鑒于交通標(biāo)志都為矩形、圓形或三角形等規(guī)則形狀,而且是對(duì)低分辨率的特征圖進(jìn)行語(yǔ)義分割,因此在建立特征的語(yǔ)義分割標(biāo)簽時(shí),本文利用TT100K 數(shù)據(jù)集中目標(biāo)框的標(biāo)簽在原始圖像上進(jìn)行像素的前景和背景類別劃分,然后將標(biāo)記過前景和背景的像素Mask 按照相應(yīng)的尺度映射到不同層級(jí)的特征圖上,得到特征語(yǔ)義分割Mask 標(biāo)簽。此過程如圖5 所示,首先根據(jù)數(shù)據(jù)集中的標(biāo)簽,判斷圖像上的像素點(diǎn)是否落在任意標(biāo)定框中。如果某像素點(diǎn)落在了標(biāo)定框中,那么該像素點(diǎn)就標(biāo)記為前景類;如果某像素點(diǎn)未落在任意的標(biāo)定框中,那么該像素點(diǎn)標(biāo)記為背景類,得到像素級(jí)語(yǔ)義分割Mask。最后根據(jù)不同檢測(cè)分支上特征圖stride 的倍數(shù),對(duì)像素級(jí)Mask 進(jìn)行尺度映射,得到特征級(jí)別上的語(yǔ)義分割標(biāo)簽。

        圖5 特征Mask 標(biāo)簽生成過程

        語(yǔ)義分割任務(wù)需要結(jié)合像素點(diǎn)的上下文信息完成對(duì)像素的類別判斷,需要具有較大感受野的非局部特征。本文借鑒Inception[22]多分支網(wǎng)絡(luò)的思想,設(shè)計(jì)的檢測(cè)特征編解碼模塊結(jié)構(gòu)如圖6 所示。檢測(cè)分支特征經(jīng)過兩部分完成特征的編解碼:一部分是使用能夠快速獲得全局信息的MaxPool 操作,以保留特征圖中局部響應(yīng)最大的部分,然后使用反卷積操作將低分率的池化特征恢復(fù)到高分辨率,即采用Down-Up 的方式提取特征的非局部信息;另一部分是為了避免MaxPool 特征在Down-Up 的過程中出現(xiàn)激活信息偏移,引入了DeepLabv3[23]中的ASPP(atrous spatial pyramid pooling)模塊。利用不同膨脹率rate 的空洞卷積在不增加過多參數(shù)量的前提下,不斷擴(kuò)大特征的感受野,以獲得精確的非局部特征。最后將這兩部分非局部特征進(jìn)行拼接融合,完成檢測(cè)特征編解碼。

        圖6 檢測(cè)特征編解碼模塊結(jié)構(gòu)

        檢測(cè)特征編解碼模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖7 所示。Down-Up 部分首先進(jìn)行兩次stride=2,卷積核kernel尺寸為3×3 的最大池化,完成特征的下采樣,然后使用兩次卷積核kernel 為3×3、stride=2、padding=1的轉(zhuǎn)置卷積,將池化特征恢復(fù)到原始特征尺度。同時(shí),所提方法還對(duì)DeepLabv3 中的ASPP 部分進(jìn)行了改進(jìn)。具體如下:首先使用3 個(gè)1×1 的標(biāo)準(zhǔn)卷積對(duì)檢測(cè)分支特征進(jìn)行通道降維,以減少計(jì)算量;然后在其中2 個(gè)分支上使用卷積核kernel 尺寸為3 和5 的標(biāo)準(zhǔn)卷積獲得不同的基礎(chǔ)感受野特征;接著在3 個(gè)分支中分別使用rate=1、3、5 的膨脹卷積,進(jìn)一步擴(kuò)大特征的感受野,卷積步長(zhǎng)stride 均為1,以保證卷積過程中特征圖的尺度不會(huì)發(fā)生變化;最后將Down-Up部分特征和改進(jìn)后的ASPP部分特征進(jìn)行拼接,經(jīng)過1×1 卷積進(jìn)行特征融合和通道降維后,得到檢測(cè)分支特征的非局部特征。

        圖7 檢測(cè)特征編解碼模塊的網(wǎng)絡(luò)結(jié)構(gòu)

        在訓(xùn)練階段,由于本文研究任務(wù)只有前景和背景2 個(gè)類別,因此對(duì)網(wǎng)絡(luò)預(yù)測(cè)的語(yǔ)義分割結(jié)果M與真實(shí)標(biāo)簽M*使用二分類交叉熵計(jì)算損失如下

        其中,i、j分別為特征圖上的橫、縱坐標(biāo),α為平衡正負(fù)樣本所使用的權(quán)重。此外,在分配語(yǔ)義分割標(biāo)簽時(shí),根據(jù)YOLOv3 的思想,讓不同層級(jí)特征負(fù)責(zé)不同尺度物體的語(yǔ)義分割學(xué)習(xí)。

        2.3.3 空間注意力權(quán)重的形成

        為了充分利用卷積神經(jīng)網(wǎng)絡(luò)自帶的attention 屬性,所提方法在輸出語(yǔ)義分割預(yù)測(cè)結(jié)果的前一層,生成了一組與檢測(cè)分支特征尺度一致的深度特征Fs作為空間注意力的基礎(chǔ)。因此,所提基于語(yǔ)義分割引導(dǎo)的空間注意力機(jī)制的形成如圖8 所示。該方法首先將語(yǔ)義分割模塊產(chǎn)生的W×H×C尺度的特征Mask,在通道維度上進(jìn)行廣播復(fù)制,得到尺度為W×H×(1×C)的擴(kuò)展特征Mask。然后,將編、解碼網(wǎng)絡(luò)生成的深度特征Fs與擴(kuò)展特征Mask 按元素進(jìn)行相加融合。接著,對(duì)融合后的特征使用sigmoid函數(shù)進(jìn)行激活,將空間注意力權(quán)重的范圍映射到[0,1],得到最終的空間注意力權(quán)重Sw。最后,將空間注意力權(quán)重Sw與檢測(cè)分支特征Fd通過殘差注意力的方式進(jìn)行結(jié)合,即F=(1+Sw)Fd,完成對(duì)檢測(cè)特征在空間位置上的聚焦和改善。

        圖8 空間注意力機(jī)制的形成

        2.4 網(wǎng)絡(luò)輸出結(jié)構(gòu)與訓(xùn)練策略

        2.4.1 YOLOv3-A 輸出特征結(jié)構(gòu)

        YOLOv3-A網(wǎng)絡(luò)使用了基于注意力機(jī)制的FPN結(jié)構(gòu),以解決目標(biāo)多尺度問題,并且改善TT100K數(shù)據(jù)集中的小目標(biāo)問題和遮擋問題。該網(wǎng)絡(luò)通過3 個(gè)具有不同感受野的分支進(jìn)行目標(biāo)檢測(cè),因此在輸出head 部分共有3 個(gè)尺度的特征圖,這些特征圖的長(zhǎng)寬值相對(duì)于輸入圖像的下采樣倍數(shù)分別為32、16和8。特征圖的尺度越小,其擁有的感受野就越大,因此小尺度的特征圖分支用來檢測(cè)大尺度物體,而大尺度特征圖分支用來檢測(cè)小尺度物體。YOLOv3-A 網(wǎng)絡(luò)使用K-means 算法對(duì)訓(xùn)練集中目標(biāo)物體的尺度進(jìn)行聚類,得到9 個(gè)不同尺度和比例的anchor 先驗(yàn)值。每個(gè)檢測(cè)分支分配3 個(gè)尺度相近的anchor,即特征圖上的每個(gè)單元格預(yù)設(shè)3 個(gè)anchor框,因此輸出特征圖的維度為N×N× [3× (4+1+C)],其中,N×N為輸出特征圖的單元格數(shù),每個(gè)anchor框需要預(yù)測(cè) 4 維邊界框的中心點(diǎn)和長(zhǎng)寬信息(x、y、w、h)、一維邊界框的置信度c和C維類別概率cls,YOLOv3-A 網(wǎng)絡(luò)輸出特征結(jié)構(gòu)如圖9 所示。YOLOv3-A 網(wǎng)絡(luò)模型的整體結(jié)構(gòu)如圖10 所示,基礎(chǔ)語(yǔ)義特征網(wǎng)絡(luò)使用的是具有殘差結(jié)構(gòu)的Darknet53。

        由圖10 可知,特征融合的neck 部分使用的是經(jīng)過通道注意力方法和基于語(yǔ)義分割引導(dǎo)的空間注意力方法改進(jìn)后的FPN 結(jié)構(gòu),在輸出head 部分有P5、P4、P3 共3 個(gè)層級(jí)分支,每個(gè)分支上輸出特征圖的長(zhǎng)寬尺度分別為輸入圖像的1/25、1/24和1/23倍,特征圖的通道數(shù)為60×(3×5+45),并且每個(gè)MGSA 模塊都有一個(gè)相應(yīng)尺度的特征Mask 預(yù)測(cè)輸出。此外,在FPN 特征融合部分,采用經(jīng)過注意力機(jī)制的高層級(jí)特征,并且經(jīng)過線性插值上采樣2 倍后與基礎(chǔ)特征進(jìn)行拼接融合。對(duì)于不需要融合其他層級(jí)特征的P5 層級(jí),只使用了MGSA 模塊進(jìn)行空間注意力的改善。

        圖9 YOLOv3-A 網(wǎng)絡(luò)輸出特征結(jié)構(gòu)

        2.4.2 YOLOv3-A 訓(xùn)練策略

        實(shí)驗(yàn)所采用的數(shù)據(jù)集中圖像的分辨率為2 048 像素×2 048 像素,若直接送入網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,很容易導(dǎo)致GPU 內(nèi)存不足。因此在訓(xùn)練數(shù)據(jù)預(yù)處理方面,本文以圖像中每個(gè)目標(biāo)的標(biāo)定框?yàn)閰⒖迹S機(jī)生成3 個(gè)512 像素×512 像素的窗口,裁剪出含有目標(biāo)的圖像。同時(shí)按照Selective Search 方法[24]在圖像上裁剪出2 個(gè)紋理和顏色豐富且只包含背景的圖像,以豐富數(shù)據(jù)集中的背景樣本。對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行裁剪后,隨機(jī)地對(duì)圖像在HSV 顏色空間進(jìn)行顏色變化處理,共得到42 317 張512 像素×512 像素的訓(xùn)練圖像。通過從高分辨率圖像上裁剪訓(xùn)練樣本,不僅使交通標(biāo)志位于圖像上不同的位置,達(dá)到增加樣本多樣性的目的,而且在訓(xùn)練時(shí)可以適量增大batch size,讓每批訓(xùn)練數(shù)據(jù)都能夠更好地代表樣本分布。

        在訓(xùn)練YOLOv3-A 網(wǎng)絡(luò)時(shí),使用了多任務(wù)聯(lián)合學(xué)習(xí)的方式,檢測(cè)分支在輸出特征層上直接回歸出預(yù)測(cè)框的定位和分類信息,引入的MGSA 模塊預(yù)測(cè)出檢測(cè)分支特征的語(yǔ)義分割Mask。因此在訓(xùn)練時(shí)不僅需要計(jì)算每個(gè)anchor 框的定位損失、置信度損失和分類損失,還要計(jì)算特征語(yǔ)義分割損失,由此完整的損失函數(shù)計(jì)算表達(dá)式為

        圖10 YOLOv3-A 網(wǎng)絡(luò)整體結(jié)構(gòu)

        本文將所提方法在深度學(xué)習(xí)框架Pytorch 上實(shí)現(xiàn),網(wǎng)絡(luò)訓(xùn)練和測(cè)試方法如下。在訓(xùn)練階段,使用隨機(jī)梯度下降優(yōu)化算法更新網(wǎng)絡(luò)參數(shù),設(shè)置初始學(xué)習(xí)率lr=1×10?3,每訓(xùn)練10 個(gè)epoch 將學(xué)習(xí)率降低至原來的1/10,動(dòng)量Momentum=0.9,weight decay 設(shè)置為1×10?4。每個(gè)batch 隨機(jī)選取12 個(gè)訓(xùn)練樣本,在一塊GTX2080Ti 顯卡上訓(xùn)練30 個(gè)epoch 后停止。在測(cè)試階段,使用滑動(dòng)窗口的方法在3 071 張2 048 像素×2 048 像素的測(cè)試圖像上檢測(cè)交通標(biāo)志,滑動(dòng)窗口大小為512 像素×512 像素,步長(zhǎng)設(shè)置為256 像素,最終整合整幅圖像上所有的預(yù)測(cè)框,并經(jīng)過NMS 算法后得到最終的預(yù)測(cè)框。其中,通道注意力網(wǎng)絡(luò)中的壓縮系數(shù)r=16,NMS 算法中的IOU(intersection over union)閾值設(shè)置為0.5,目標(biāo)置信度閾值設(shè)置為0.1。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文實(shí)驗(yàn)主要采用我國(guó)的TT100K 交通標(biāo)志數(shù)據(jù)集[25],選取該實(shí)驗(yàn)集的主要原因在于此數(shù)據(jù)集包含的交通標(biāo)志種類齊全,場(chǎng)景豐富。TT100K 數(shù)據(jù)集中包含的交通標(biāo)志種類為221 類,總目標(biāo)個(gè)數(shù)為26 349 個(gè),這兩項(xiàng)數(shù)據(jù)都大大超過了GTSDB[10]、STS(Swedish traffic signs)[26]和LISA(laboratory for intelligent and safe automobiles)[27]等數(shù)據(jù)集。但在TT100K 數(shù)據(jù)集上進(jìn)行目標(biāo)檢測(cè)具有較大的挑戰(zhàn)性,例如該數(shù)據(jù)集中的小目標(biāo)存在絕對(duì)尺度小和相對(duì)尺度小2 個(gè)難題。目標(biāo)絕對(duì)尺度小是指交通標(biāo)志的真實(shí)尺度較小,即所占的像素面積較小,這就使獲得的圖像目標(biāo)模糊不清、信息少、噪聲多,導(dǎo)致模型檢測(cè)困難。如圖11(a)所示,對(duì)圖像中2 個(gè)存在目標(biāo)的區(qū)域進(jìn)行放大后,可以發(fā)現(xiàn)目標(biāo)本來就是模糊不清的,難以區(qū)別具體類別。目標(biāo)相對(duì)尺度小是指交通標(biāo)志在整幅圖像中占據(jù)的像素面積比例小,由于TT100K 數(shù)據(jù)集中的圖像分辨率為2 048 像素×2 048 像素,在如此高分辨率背景下,交通標(biāo)志容易被其他無(wú)關(guān)物體所干擾,在不斷擴(kuò)大感受野的深度學(xué)習(xí)網(wǎng)絡(luò)中,背景物體的信息也被包含進(jìn)來,使目標(biāo)的有效信息容易被淹沒。此外,高分辨率圖像包含了更多的背景信息,存在更多的潛在干擾目標(biāo),使網(wǎng)絡(luò)易出現(xiàn)誤檢情況。如圖11(b)所示,對(duì)原始2 048 像素×2 048 像素圖像的某2 個(gè)區(qū)域進(jìn)行放大后,可以發(fā)現(xiàn)圖像中存在多處偽交通標(biāo)志,這就是高分辨率圖像中存在的更多干擾背景的問題。

        圖11 TT100K 數(shù)據(jù)集中存在的小目標(biāo)問題

        圖12 TT100K 數(shù)據(jù)集中目標(biāo)尺度分布

        本文對(duì)TT100K 數(shù)據(jù)集中交通標(biāo)志的尺度進(jìn)行了統(tǒng)計(jì),其尺度分布如圖12 所示。由圖12 可知,數(shù)據(jù)集中像素面積小于32 像素×32 像素的交通標(biāo)志有10 676 個(gè),占總目標(biāo)個(gè)數(shù)的40.5%,因此該數(shù)據(jù)集中廣泛存在目標(biāo)絕對(duì)尺度小的問題。同時(shí),交通標(biāo)志在圖像中占整幅圖像的像素面積比例不大于2%的個(gè)數(shù)超過24 970 個(gè),占總目標(biāo)個(gè)數(shù)的94.7%,由此可見,此數(shù)據(jù)集中廣泛存在目標(biāo)尺度相對(duì)小的問題,即圖像中包含了大量的無(wú)關(guān)背景信息。因此相比于其他公開數(shù)據(jù)集,TT100K 數(shù)據(jù)集的挑戰(zhàn)難度較大。

        3.2 評(píng)價(jià)指標(biāo)

        本文使用的模型評(píng)價(jià)指標(biāo)與TT100K 數(shù)據(jù)集發(fā)布者Zhu 等[25]提供的方法保持一致,采用固定的IOU 閾值和置信度閾值判斷檢測(cè)結(jié)果是否正確。然后,計(jì)算預(yù)測(cè)結(jié)果的精確率(Precision)和召回率(Recall),以衡量模型的目標(biāo)分類能力和目標(biāo)檢測(cè)能力。此外,通過設(shè)置不同的置信度閾值,繪制模型的精確率?召回率曲線,即P-R 曲線,直觀地展示模型的檢測(cè)效果。在計(jì)算模型的Precision 和Recall 這2 項(xiàng)指標(biāo)時(shí),首先需要根據(jù)真實(shí)標(biāo)簽將檢測(cè)結(jié)果劃分為真正例(TP,true positive)、真反例(TN,true negative)、假正例(FP,false positive)和假反例(FN,false negative)4 類。

        Precision 又稱為查準(zhǔn)率,通過計(jì)算檢測(cè)結(jié)果中預(yù)測(cè)正確的樣本數(shù)和所有預(yù)測(cè)樣本數(shù)的比例得到,即正確檢測(cè)到的樣本數(shù)占總檢出樣本的比例,能夠反映模型對(duì)目標(biāo)的分類能力,其計(jì)算式為

        Recall 又稱為查全率,通過計(jì)算檢測(cè)結(jié)果中預(yù)測(cè)正確的樣本數(shù)和所有真實(shí)樣本數(shù)的比例得到,即正確檢測(cè)到的樣本數(shù)占真實(shí)樣本數(shù)的比例,能夠反映模型對(duì)目標(biāo)的檢測(cè)能力,其計(jì)算式為

        Precision 和Recall 這2 個(gè)指標(biāo)是相互矛盾的,當(dāng)設(shè)置的IOU 閾值和物體置信度閾值較高時(shí),計(jì)算出的Precision 值較高,Recall 值較低。因此,為了綜合對(duì)比網(wǎng)絡(luò)性能,本文通過P-R 曲線進(jìn)行比較。P-R 曲線以Precision 為橫坐標(biāo)、Recall 為縱坐標(biāo),曲線下包圍的面積越大,代表模型的性能越好。

        3.3 注意力機(jī)制有效性實(shí)驗(yàn)

        本文先對(duì)所提出的通道注意力機(jī)制中不同的特征壓縮方法進(jìn)行了實(shí)驗(yàn)對(duì)比,證明了對(duì)檢測(cè)特征進(jìn)行全局最大池化(GMaxPool)和全局平均池化(GAvgPool)的拼接組合更利于提升算法的效果。然后通過消融實(shí)驗(yàn),證明了所提的2 種注意力機(jī)制都能夠?qū)z測(cè)結(jié)果起到正面作用,并通過特征可視化,直觀地展示了2 種注意力機(jī)制的結(jié)合對(duì)交通標(biāo)志特征的聚焦和改善作用。其中,在判斷預(yù)測(cè)框是否為正確檢測(cè)時(shí),設(shè)置預(yù)測(cè)框與真實(shí)框的IOU 閾值為0.5,類別置信度閾值為0.5。

        對(duì)于通道注意力機(jī)制的特征壓縮方法的選擇,本文對(duì)比了GMaxPool、GAvgPool、全局最大池化與全局平均池化按通道相加(GMaxPool+GAvg-Pool)、全局最大池化與全局平均池化在通道維度上進(jìn)行拼接(Concat(GMaxPool,GAvgPool))4 種方法。在實(shí)驗(yàn)時(shí),分別將這4 種方法用于YOLOv3 網(wǎng)絡(luò)之中,并且采用相同的訓(xùn)練和測(cè)試方法,得到在TT100K 數(shù)據(jù)集上所有尺度目標(biāo)的Precision 和Recall結(jié)果,如表1 所示。

        表1 4 種特征壓縮方法對(duì)比

        由表1 可以看出,對(duì)檢測(cè)特征在空間維度進(jìn)行壓縮時(shí),GMaxPool略好于GAvgPool,Concat(GmaxPool,GAvgPool)檢測(cè)效果最好。因此在所提通道注意力機(jī)制中,本文選擇了對(duì)檢測(cè)特征進(jìn)行全局最大池化和全局平均池化后再拼接的方式,來代表檢測(cè)特征的通道響應(yīng)情況。

        此外,針對(duì)所提的2 種注意力方法,本文還進(jìn)行了相關(guān)消融實(shí)驗(yàn)。首先以原始的YOLOv3 網(wǎng)絡(luò)為對(duì)比基準(zhǔn),然后分別將通道注意力機(jī)制和基于語(yǔ)義分割引導(dǎo)的空間注意力機(jī)制添加到Y(jié)OLOv3 網(wǎng)絡(luò)的檢測(cè)分支中,保持訓(xùn)練和測(cè)試方法一致,對(duì)比在TT100K 數(shù)據(jù)集上所有尺度目標(biāo)的Precision 和Recall,得到的消融實(shí)驗(yàn)數(shù)據(jù)如表2 所示。

        表2 注意力機(jī)制消融實(shí)驗(yàn)數(shù)據(jù)

        由表2可以看出,原始YOLOv3網(wǎng)絡(luò)在TT100K數(shù)據(jù)集上的Precision 和Recall 值分別為86.6%和89.4%,融合2 種注意力機(jī)制的YOLOv3-A 網(wǎng)絡(luò)的Precision 和Recall 值分別為88.5%和92.2%,分別提升了1.9%和2.8%。此外,將CA 和MGSA 分別引入YOLOv3 網(wǎng)絡(luò)之后,網(wǎng)絡(luò)模型的性能均有不同程度的提高,可以看出MGSA 模塊對(duì)網(wǎng)格的性能改善效果更好。由此消融實(shí)驗(yàn)可以說明,在YOLOv3 網(wǎng)絡(luò)的檢測(cè)分支中,加入所提出的通道注意力機(jī)制和基于語(yǔ)義分割引導(dǎo)的空間注意力機(jī)制,能夠有效地提高網(wǎng)絡(luò)的精確率和召回率,而且對(duì)召回率的改善更加明顯,減少了網(wǎng)絡(luò)的漏檢和誤檢情況。

        對(duì)特征可視化時(shí),本文分別將YOLOv3 網(wǎng)絡(luò)和YOLOv3-A 網(wǎng)絡(luò)的P3 層級(jí)上的特征在通道維度上進(jìn)行平均池化,通過熱圖的形式進(jìn)行可視化對(duì)比。復(fù)雜背景下注意力效果如圖13 所示。對(duì)于背景復(fù)雜的原始圖像,YOLOv3 網(wǎng)絡(luò)的輸出特征如圖13(b)所示,除了在目標(biāo)區(qū)域有較高的激活外,其他區(qū)域的特征分布雜亂,而且個(gè)別區(qū)域含有較高的激活,很容易產(chǎn)生誤檢;YOLOv3-A 網(wǎng)絡(luò)的輸出特征如圖13(c)所示,明顯地只在目標(biāo)區(qū)域有較高的激活,其他區(qū)域的干擾特征能夠得到很好的抑制;此外,從數(shù)值上看,YOLOv3-A 網(wǎng)絡(luò)的輸出特征在目標(biāo)區(qū)域的激活值更高,可以說明注意力機(jī)制能夠?qū)τ行卣髌鸬皆鰪?qiáng)和改善的作用。

        圖13 復(fù)雜背景下注意力效果

        小尺度目標(biāo)的注意力效果如圖14 所示。對(duì)于包含小尺度目標(biāo)的原始圖像,YOLOv3 網(wǎng)絡(luò)的輸出特征如圖14(b)所示,在小目標(biāo)周圍存在其他雜亂的激活特征,這些特征再經(jīng)過后層網(wǎng)絡(luò)的卷積融合后,容易對(duì)小目標(biāo)的有效特征形成干擾,使網(wǎng)絡(luò)分類錯(cuò)誤,造成誤檢情況的發(fā)生。YOLOv3-A 網(wǎng)絡(luò)的輸出特征如圖14(c)所示,在經(jīng)過2 種注意力機(jī)制之后,小目標(biāo)物體所在區(qū)域的特征形成了明顯聚焦,而且很好地抑制了小目標(biāo)周圍的干擾特征和其他無(wú)關(guān)區(qū)域的特征,這說明了所提出的注意力方法能夠起到了保護(hù)小目標(biāo)有效特征的作用。

        圖14 小尺度目標(biāo)的注意力效果

        由此可見,本文提出的通道注意力方法和基于語(yǔ)義分割引導(dǎo)的空間注意力方法能夠模擬人類的視覺選擇性機(jī)制,讓網(wǎng)絡(luò)聚焦和增強(qiáng)有效區(qū)域信息,同時(shí)能較好地抑制干擾信息,能夠?qū)Τ鞘薪值缊?chǎng)景下交通標(biāo)志檢測(cè)存在的圖像背景復(fù)雜、干擾物體較多和小目標(biāo)問題起到良好的改善作用。

        3.4 與其他方法的性能對(duì)比

        為了對(duì)比YOLOv3-A 網(wǎng)絡(luò)與其他主流一階段方法在不同尺度物體上的檢測(cè)性能,本節(jié)實(shí)驗(yàn)主要按照Z(yǔ)hu 等[25]提出的劃分方法,將目標(biāo)尺度在(0,32]像素的物體設(shè)為小目標(biāo),尺度在(32,96]像素的物體設(shè)為中目標(biāo),尺度在(96,400]像素的物體設(shè)為大目標(biāo),然后調(diào)整分類置信度,分別計(jì)算模型預(yù)測(cè)結(jié)果在小目標(biāo)、中目標(biāo)、大目標(biāo)和整體尺度(0,400]像素目標(biāo)上的Precision 和Recall 值,繪制出的P-R 曲線如圖 15 所示,直觀地展示了文獻(xiàn)[25]、RetinaNet101[8]、YOLOv3[14]和YOLOv3-A 等方法在TT100K 數(shù)據(jù)集上的檢測(cè)效果。文獻(xiàn)[25]方法是在OverFeat 網(wǎng)絡(luò)框架[28]的基礎(chǔ)上改進(jìn)而來的,使用全卷積的方式完成目標(biāo)檢測(cè)和分類;RetinaNet101 算法引入focal loss 損失函數(shù),極大地緩解了一階段目標(biāo)檢測(cè)算法中正負(fù)樣本不均衡的問題,提升了一階段目標(biāo)檢測(cè)算法的性能,是一階段目標(biāo)檢測(cè)算法的代表。

        圖15 YOLOv3-A 與其他方法對(duì)比的P-R 曲線

        由圖15 可以看出,代表YOLOv3-A 網(wǎng)絡(luò)的P-R曲線在不同尺度物體的檢測(cè)結(jié)果中,都能包圍住YOLOv3 網(wǎng)絡(luò)的P-R 曲線,這說明引入的2 種注意力機(jī)制對(duì)各個(gè)尺度物體的檢測(cè)都有不同程度地提高。此外,YOLOv3-A 網(wǎng)絡(luò)的曲線在各個(gè)尺度物體的檢測(cè)結(jié)果中都可以絕大程度地包圍文獻(xiàn)[25]和RetinaNet 方法的P-R 曲線。

        為了從數(shù)值上對(duì)比4 種檢測(cè)方法在各個(gè)尺度上檢測(cè)性能的差異,本文計(jì)算了每條曲線與坐標(biāo)軸圍成的面積AUC,計(jì)算結(jié)果如表3 所示。從表3 中可以看出,4 種方法對(duì)于中等尺度目標(biāo)的檢測(cè)性能均優(yōu)于對(duì)小目標(biāo)和大目標(biāo)的檢測(cè)結(jié)果,這是由于TT100K 數(shù)據(jù)集中的中等尺度目標(biāo)占據(jù)了絕大部分樣本而導(dǎo)致的。另外,YOLOv3-A 網(wǎng)絡(luò)在各個(gè)尺度上的檢測(cè)結(jié)果都優(yōu)于其他3 種檢測(cè)方法,而且相對(duì)于YOLOv3,其在小目標(biāo)檢測(cè)結(jié)果中的提升最多,達(dá)到了3.5%,說明了引入的注意力機(jī)制能夠緩解目標(biāo)檢測(cè)方法中的多尺度問題,而且對(duì)小目標(biāo)檢測(cè)性能的改善尤為明顯。

        表3 4種檢測(cè)方法的AUC 對(duì)比

        在運(yùn)行時(shí)間方面,YOLOv3-A 的運(yùn)行環(huán)境為NVIDIA RTX 2080 Ti GPU,訓(xùn)練階段所需的時(shí)間大約為5 h。盡管因數(shù)據(jù)量較大該過程耗時(shí)較長(zhǎng),但由于是離線操作并不會(huì)給后續(xù)測(cè)試過程造成影響。實(shí)驗(yàn)測(cè)試結(jié)果表明,YOLOv3-A 僅需0.8 s 即可求得交通標(biāo)志檢測(cè)結(jié)果,因而能夠滿足實(shí)際應(yīng)用場(chǎng)景的實(shí)時(shí)性要求。

        4 結(jié)束語(yǔ)

        本文主要介紹了基于注意力機(jī)制的交通標(biāo)志檢測(cè)網(wǎng)絡(luò)YOLOv3-A,分析了在實(shí)際的交通標(biāo)志檢測(cè)場(chǎng)景中普遍存在的目標(biāo)絕對(duì)尺度小和相對(duì)尺度小問題對(duì)目標(biāo)檢測(cè)網(wǎng)絡(luò)的影響,提出了在YOLOv3網(wǎng)絡(luò)的檢測(cè)分支上引入通道注意力機(jī)制和基于語(yǔ)義分割引導(dǎo)的空間注意力機(jī)制2 種方法改善網(wǎng)絡(luò)對(duì)目標(biāo)的關(guān)注程度,提高了對(duì)小目標(biāo)和遮擋變形目標(biāo)的檢測(cè)性能。本文對(duì)2 種注意力機(jī)制的設(shè)計(jì)原理和網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了詳細(xì)的闡述,其中,通道注意力機(jī)制結(jié)合SENet 中的注意力方法和FPN 特征融合的特點(diǎn)進(jìn)行改進(jìn);基于語(yǔ)義分割引導(dǎo)的空間注意力機(jī)制以目標(biāo)的標(biāo)定框?yàn)楸O(jiān)督信息,在特征層面進(jìn)行語(yǔ)義分割的學(xué)習(xí),并且與自帶attention 屬性的深層卷積特征相結(jié)合,完成了特征的空間注意力機(jī)制。通過消融實(shí)驗(yàn)和特征可視化的方式,驗(yàn)證了這2 種注意力機(jī)制的有效性。通過P-R 曲線對(duì)比了所提方法與其他目標(biāo)檢測(cè)方法在不同尺度物體上的檢測(cè)性能,表明了具有這2 種注意力機(jī)制的YOLOv3-A網(wǎng)絡(luò)在不同尺度目標(biāo)上的檢測(cè)能力更強(qiáng)。

        猜你喜歡
        交通標(biāo)志尺度注意力
        交通標(biāo)志認(rèn)得清
        基于雙向特征融合的交通標(biāo)志識(shí)別
        讓注意力“飛”回來
        財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        交通標(biāo)志小課堂
        9
        我們歡迎你!
        v一区无码内射国产| 3亚洲日韩在线精品区| av一区二区三区高清在线看| 中文字幕文字幕一区二区| 亚洲一区二区三区在线看| 无码人妻精品一区二区三区夜夜嗨| 亚洲国产精品一区二区www| 天天影视性色香欲综合网| 国产精品va在线播放我和闺蜜| 亚洲一区二区三区av在线免费| 久久久久国产精品四虎| 麻豆av在线免费观看精品| 国产成人精品久久二区二区91| 国产午夜福利片在线观看| 久久男人av资源网站无码 | 国产一区二区三区资源在线观看| 狠色人妻丝袜中文字幕| 国产特级毛片aaaaaa高潮流水| 欧美人与禽zozzo性伦交| 丰满多毛少妇做爰视频| 精品九九视频| 中文字幕无线精品亚洲乱码一区 | 精品久久久噜噜噜久久久| 亚洲乱码少妇中文字幕| 黄色国产一区在线观看| 日本女优久久精品观看| 国产夫妻自拍视频在线播放| 少妇下面好紧好多水真爽播放| av中文字幕综合在线| 色视频日本一区二区三区| 国产亚洲成人av一区| 色屁屁www影院免费观看入口| 国产高潮刺激叫喊视频| 亚洲一区区| 在线观看的a站免费完整版| 亚洲国产a∨无码中文777| 和黑人邻居中文字幕在线| 搡老熟女老女人一区二区| 99福利网| 国产美女黄性色av网站| 日韩一本之道一区中文字幕|