亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機(jī)制的X光安檢圖像危險(xiǎn)物品檢測(cè)

        2023-12-29 12:23:02郭豆豆李國(guó)權(quán)黃正文
        關(guān)鍵詞:危險(xiǎn)物品池化注意力

        郭豆豆,李國(guó)權(quán),,黃正文,吳 建,龐 宇

        (1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065;2.重慶郵電大學(xué) 光電信息感測(cè)與傳輸技術(shù)重點(diǎn)實(shí)驗(yàn)室,重慶400065)

        0 引 言

        在公眾運(yùn)輸管理領(lǐng)域,對(duì)行李實(shí)施X光安檢是保障乘客生命財(cái)產(chǎn)安全的重要方式,但安檢人員以肉眼觀察圖像來(lái)確認(rèn)危險(xiǎn)物品易受人為因素干擾且效率較低。因此,建立實(shí)時(shí)準(zhǔn)確的X光行李安檢系統(tǒng)意義十分重大。

        X光圖像中的目標(biāo)識(shí)別主要基于視覺詞袋(bag-of-visual-words,BoVW)模型[1],而隨著AlexNet[2]的出現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[3]等深度神經(jīng)網(wǎng)絡(luò)已經(jīng)在目標(biāo)檢測(cè)、圖像分類等方面取得了顯著成績(jī)。文獻(xiàn)[4]將CNN引入X光行李圖像領(lǐng)域,使用遷移學(xué)習(xí)的方法優(yōu)化AlexNet結(jié)構(gòu)進(jìn)行端到端的特征提取和分類,檢測(cè)準(zhǔn)確率達(dá)到98.92%。文獻(xiàn)[5]探索了CNN在X光行李圖像分類和檢測(cè)任務(wù)中的應(yīng)用,表明CNN比BoVW模型更有效。文獻(xiàn)[6]提出一種基于深度特征和最近鄰分類器的策略來(lái)處理公開GDXray(grima X-ray dataset)[7]上的X光圖像識(shí)別問題,識(shí)別準(zhǔn)確率超過95%。為了解決X光圖像數(shù)據(jù)集有限的問題,文獻(xiàn)[8]提出了合成復(fù)合(synthetically composite,SC)的數(shù)據(jù)增強(qiáng)方法,分別在Faster R-CNN[9]和RetinaNet[10]架構(gòu)上進(jìn)行危險(xiǎn)物品檢測(cè),研究了真實(shí)和合成X光訓(xùn)練圖像在檢測(cè)性能上的差異。

        對(duì)于目標(biāo)檢測(cè),例如YOLO(you only look once)系列[11]的單階檢測(cè)算法,只通過一個(gè)階段就可以直接給出物體的類別概率和位置坐標(biāo),推理速度可以達(dá)到每秒幾十甚至上百幀。其中YOLOv1[12]將一幅圖像劃分為S×S的網(wǎng)格,目標(biāo)中心位于某個(gè)網(wǎng)格,就用該網(wǎng)格進(jìn)行預(yù)測(cè),但是很難處理聚集的小目標(biāo);YOLOv2[13]以Darknet-19作為主干網(wǎng)絡(luò),對(duì)YOLOv1進(jìn)行了一系列提升性能的嘗試;YOLOv3[14]以Darknet-53為主干網(wǎng)絡(luò),在3個(gè)特征層上預(yù)測(cè),有效地平衡了推理速度和檢測(cè)精度。YOLOv3借鑒空間金字塔池化(spatial pyramid pooling,SPP)[15]的思想在第1個(gè)卷積集加入SPP模塊,即YOLOv3-SPP。文獻(xiàn)[15]提出的SPP模塊源于空間金字塔匹配(spatial pooling matching,SPM)[16],SPM模塊的原始方法是將特征圖分割成幾個(gè)相等的d×d塊,形成空間金字塔之后再提取詞袋特征。SPP模塊將SPM集成到CNN中之后使用最大池化操作代替詞袋操作。由于SPP模塊輸出的是1維特征向量,無(wú)法應(yīng)用在全卷積網(wǎng)絡(luò)中。在YOLOv3的設(shè)計(jì)中,Redmon只借鑒SPP模塊的思想,并將其改進(jìn)為內(nèi)核大小為k×k,k∈{1,5,9,13},步距為1的最大池化輸出的拼接。這個(gè)設(shè)計(jì)中,相對(duì)較大的k×k最大池化可以有效地增加主干特征的感受野,同時(shí)整個(gè)模塊能夠融合全局特征和局部特征以實(shí)現(xiàn)不同特征的融合,解決輸入圖像中目標(biāo)大小差異大的問題。SPP模塊的結(jié)構(gòu)如圖1所示。

        圖1 SPP模塊Fig.1 SPP module

        文獻(xiàn)[17-18]在計(jì)算機(jī)視覺領(lǐng)域中應(yīng)用注意力機(jī)制,為安檢提供了新的思路,可以使用CNN提取激活輸出節(jié)點(diǎn)的圖像區(qū)域特征,提高對(duì)自然圖像集的檢測(cè)性能。由于安檢圖像中危險(xiǎn)物品之間存在大量的噪聲和干擾,文獻(xiàn)[19]將側(cè)向抑制[17]和對(duì)比注意[18]相結(jié)合,建立了神經(jīng)元刺激抑制模型,在反饋傳播時(shí)可以有效地抑制噪聲和非目標(biāo)干擾。文獻(xiàn)[20]利用通道關(guān)系提出了壓縮和激活(squeeze-and-excitation,SE)塊,這些塊的堆疊形成了壓縮和激勵(lì)網(wǎng)絡(luò)(squeeze-and-excitation network,SENet),SENet曾在ILSVRC 2017分類競(jìng)賽中獲得第1名。卷積注意力模塊(convolutional block attention module,CBAM)[21]利用通道注意力和空間注意力來(lái)細(xì)化提取到的特征,在保證小計(jì)算開銷的同時(shí)實(shí)現(xiàn)性能提升。文獻(xiàn)[22]提出了有效的通道注意力(efficient channel attention,ECA)模塊,在涉及少量參數(shù)的情況下,帶來(lái)了性能的增益。文獻(xiàn)[23]將特征提取網(wǎng)絡(luò)獲取的特征映射層與特征金字塔注意力模塊進(jìn)行融合,以獲取精細(xì)化金字塔網(wǎng)絡(luò)。

        目標(biāo)檢測(cè)任務(wù)中,CNN提取到的淺層特征保留了對(duì)待檢測(cè)目標(biāo)至關(guān)重要的細(xì)節(jié)特征[24]。為了解決公共場(chǎng)所人工識(shí)別X光圖像危險(xiǎn)物品效率較低且易漏檢的問題,本文將YOLOv3-SPP的網(wǎng)絡(luò)架構(gòu)應(yīng)用于X光圖像危險(xiǎn)物品檢測(cè),提出了一種融合通道和空間注意力信息以增強(qiáng)特征表示能力的目標(biāo)檢測(cè)方法。針對(duì)單一池化操作會(huì)造成語(yǔ)義信息丟失,在一定程度上限制了淺層特征的問題,本文分析了SENet中的SE塊后,將最大池化和平均池化并行,提出了多壓縮激活(multi-squeeze excitation,MSE)模塊,用于產(chǎn)生更精細(xì)的注意力,從而提高對(duì)目標(biāo)的檢測(cè)性能,在沒有降維的情況下增強(qiáng)通道注意力的表征能力。考慮到上下文信息對(duì)于需要關(guān)注的空間位置至關(guān)重要,本文在CBAM的空間注意力分支中采用膨脹卷積[25-26]來(lái)構(gòu)建比標(biāo)準(zhǔn)卷積更有效的空間特征圖,提出了多融合全局注意力(multi-fusion global attention,MFGA)模塊,從而有效利用上下文信息,同時(shí)優(yōu)化輸入預(yù)測(cè)網(wǎng)絡(luò)的最終特征,使模型選擇有意義的特征。通過將MSE模塊和MFGA模塊融入網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)不同尺度的特征融合,進(jìn)而獲得更好的目標(biāo)檢測(cè)效果。在SIXray(security inspection X-ray)[27]數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法相對(duì)于YOLOv3-SPP算法具有更好的檢測(cè)性能。

        1 注意力融合網(wǎng)絡(luò)

        本文提出的X光安檢圖像危險(xiǎn)物品檢測(cè)模型(簡(jiǎn)稱為注意力融合網(wǎng)絡(luò))融合了通道和空間注意力,設(shè)計(jì)了2個(gè)模塊將網(wǎng)絡(luò)提取的局部特征與注意力提取的全局特征相融合,從而獲取精細(xì)化的通道和空間注意力特征,使模型在危險(xiǎn)物品檢測(cè)上的性能獲得提高。模型具體框架如圖2所示。

        圖2 注意力融合網(wǎng)絡(luò)Fig.2 Attention fusion network

        輸入要檢測(cè)的X光行李安檢圖像,經(jīng)過主干網(wǎng)絡(luò)獲得特征圖后將其輸入MSE模塊,用來(lái)增強(qiáng)特征圖中的關(guān)鍵信息且抑制背景信息,得到具備通道全局性的語(yǔ)義特征。利用SPP模塊進(jìn)行多尺度特征融合后再經(jīng)過MSE模塊可以使得融合后的局部特征和全局特征精細(xì)化,豐富特征圖的表征能力,增強(qiáng)獲取的多尺度語(yǔ)義信息。

        對(duì)主干網(wǎng)生成的特征圖,3個(gè)檢測(cè)分支分別針對(duì)特征圖中的小、中、大危險(xiǎn)物品進(jìn)行檢測(cè),可以很好地解決目標(biāo)檢測(cè)性能差的問題,對(duì)于不同尺寸目標(biāo)的檢測(cè),也會(huì)獲得相應(yīng)的檢測(cè)精度和召回率。為了獲取目標(biāo)區(qū)域的上下文信息,空間分支通過膨脹卷積擴(kuò)大感受野,從而細(xì)化全局特征和相關(guān)局部特征組成的最后特征。串聯(lián)通道分支和空間分支構(gòu)成MFGA模塊,并將該模塊放在每一個(gè)檢測(cè)分支的分類器之前,有效地融合深層特征的通道及空間信息,使多尺度特征具備3維全局性,從而更加關(guān)注圖像中包含危險(xiǎn)物品的目標(biāo)區(qū)域,有效地提高模型對(duì)危險(xiǎn)物品的檢測(cè)精度。為了滿足實(shí)時(shí)性,無(wú)須在網(wǎng)絡(luò)的所有位置都添加該模塊。

        1.1 MSE模塊

        通用的網(wǎng)絡(luò)架構(gòu)是從高分辨率到高語(yǔ)義特征信息的串聯(lián)結(jié)構(gòu),也就是說,隨著網(wǎng)絡(luò)深度的增加,空間大小會(huì)逐步減少,通道信息的數(shù)量會(huì)增加。采用MSE模塊對(duì)豐富的通道信息進(jìn)行分析,有利于注意力模塊之后的卷積層提取到比較精細(xì)的通道特征表示。

        池化函數(shù)不僅可以用來(lái)降低特征圖的空間大小,同時(shí)也可以減少網(wǎng)絡(luò)參數(shù)的數(shù)量。平均池化考慮一個(gè)區(qū)域內(nèi)的所有特征,使網(wǎng)絡(luò)可以關(guān)注目標(biāo)的完整語(yǔ)義信息;全局平均池化可以將空間信息相加,更多地保留圖像中有利于目標(biāo)檢測(cè)的關(guān)鍵信息;最大池化可以獲取局部信息,也可以減少由于卷積層參數(shù)誤差造成的估計(jì)均值偏移,更多地保留有利于目標(biāo)檢測(cè)的紋理和邊緣信息。由此,本文利用全局平均池化和最大池化,將生成的描述符在通道上拼接,通過標(biāo)準(zhǔn)卷積對(duì)通道進(jìn)行降維。這可以有效地保留神經(jīng)網(wǎng)絡(luò)提取到的特征圖信息,減少背景信息對(duì)危險(xiǎn)物品檢測(cè)的干擾。圖3為本文提出的MSE模塊。

        圖3 MSE模塊Fig.3 MSE module

        MSE模塊是一個(gè)計(jì)算單元,建立在將輸入U(xiǎn)∈RC′×H′×W′映射到特征圖X∈RC×H×W(H、W、C分別對(duì)應(yīng)特征圖的高度、寬度和通道維度)之上。在下面的符號(hào)中,使用V=[v1,v2,…,vC]表示學(xué)習(xí)到的濾波器內(nèi)核集,其中,vc代表第c個(gè)濾波器的參數(shù)??梢詫⑤敵鰧憺閄=[x1,x2,…,xC],xc∈RH×W,xC的計(jì)算式為

        (1)

        將給定的輸入映射到特征圖X∈RC×H×W上,分別通過最大池化和全局平均池化壓縮輸入特征圖的空間維度,分別生成C×1×1大小的特征圖,其中C表示通道數(shù),將兩個(gè)描述符在通道方向上進(jìn)行拼接,生成2C×1×1的特征圖,其中,全局平均池化計(jì)算公式為

        (2)

        (2)式中:(i,j)表示特征圖上的坐標(biāo);xc(i,j)表示輸入圖像經(jīng)過映射之后生成的特征圖中第c個(gè)通道上位置(i,j)處的特征值。為了更好地利用壓縮操作輸出的聚合信息,先使用標(biāo)準(zhǔn)卷積對(duì)拼接后的特征進(jìn)行通道上的降維,激活操作再經(jīng)過兩個(gè)全連接層,旨在完全捕獲通道信息的依賴關(guān)系,計(jì)算公式為

        f(z,W)=σ(g(z,W))=σ(W2ReLU(W1z))

        (3)

        (3)式中,為了避免兩個(gè)全連接層帶來(lái)高的模型復(fù)雜度,W1和W2的大小分別設(shè)置為(C/r)×C和C×(C/r)。超參數(shù)r可以降低模型的計(jì)算成本,首先將通道特征映射到低維空間,然后將其映射回原來(lái)的通道維度,從而可以使通道和權(quán)重之間建立起對(duì)應(yīng)關(guān)系。

        MSE模塊的通道權(quán)重計(jì)算可以表示為

        w=σ(gex{w1,w2}([gavg(X);gmax(X)]))

        (4)

        (4)式中,激活操作先使用標(biāo)準(zhǔn)卷積對(duì)拼接后的特征進(jìn)行通道上的降維。采用Sigmoid函數(shù)獲取最終的3維注意力圖,范圍從0到1。將得到的3維注意力圖添加到原始輸入特征圖上以獲取細(xì)化特征圖。

        1.2 MFGA模塊

        數(shù)據(jù)集中危險(xiǎn)物品往往會(huì)與其他物品發(fā)生重疊,一旦重疊部分將危險(xiǎn)物品的關(guān)鍵特征覆蓋,在檢測(cè)過程中很容易出現(xiàn)誤檢的問題。MFGA模塊從增強(qiáng)特征信息和抑制背景信息角度考慮,有效地解決了上述問題。MFGA模塊的設(shè)計(jì)受CBAM啟發(fā),其空間注意力分支產(chǎn)生的空間注意力圖可以強(qiáng)調(diào)有利于危險(xiǎn)物品檢測(cè)的特征,也可以抑制不利于檢測(cè)的背景特征。在計(jì)算生成空間注意力時(shí),為了有效地聚合特征圖中的上下文信息,根據(jù)文獻(xiàn)[26]中提出的混合膨脹卷積(hybrid dilated convolution,HDC)框架,本文使用3個(gè)膨脹率大小不同的3×3卷積核來(lái)擴(kuò)大感受野,由此增強(qiáng)空間注意力的表征能力。將通道注意力模塊(channel attention module,CAM)和空間注意力模塊(spatial attention module,SAM)順序放置,CAM可以對(duì)輸入的特征圖進(jìn)行通道處理,利用特征圖的通道關(guān)系生成通道注意力圖,使網(wǎng)絡(luò)關(guān)注這幅圖像“是什么”;SAM利用特征圖的空間關(guān)系生成空間注意力圖,使網(wǎng)絡(luò)關(guān)注圖像中的有用信息“在哪里”??臻g注意力圖是通道注意力的補(bǔ)充,在MFGA模塊中,輸入特征圖的大小為C×H×W,先執(zhí)行CAM可以讓網(wǎng)絡(luò)確定圖像中有意義的特征,生成的通道注意力圖的維度為C×1×1,與輸入特征圖相乘之后生成的特征圖維度為C×H×W,之后再通過SAM可以更好地確定關(guān)鍵特征在特征圖中的位置,生成的空間注意力圖的維度為1×H×W,與之前生成的特征圖相乘之后得到精細(xì)化后的融合特征圖。本文MFGA總體結(jié)構(gòu)如圖4所示,這個(gè)模塊基本可以添加到網(wǎng)絡(luò)的任意位置,具有“即插即用”的特性。

        圖4 MFGA模塊Fig.4 MFGA module

        1.3 SAM模塊

        人類視覺系統(tǒng)可以在目標(biāo)和背景復(fù)雜重疊的情況下,根據(jù)目標(biāo)的特征與環(huán)境特點(diǎn)快速確定目標(biāo)的類別并定位目標(biāo)的位置。上下文信息來(lái)源于對(duì)人類視覺系統(tǒng)的模擬,通過捕捉目標(biāo)和背景以及不同目標(biāo)之間的相互作用信息來(lái)對(duì)目標(biāo)進(jìn)行處理與識(shí)別。圖像中背景的全局視圖可能會(huì)為關(guān)鍵信息的獲得提供有用的上下文信息。然而,并非所有的背景信息都是有用的,無(wú)意義的背景噪聲甚至?xí)档湍繕?biāo)檢測(cè)性能。因此,有效地識(shí)別并利用上下文信息是十分有必要的,可以用膨脹卷積來(lái)捕獲多尺度上下文信息。

        膨脹卷積通過在卷積核中的每個(gè)像素之間插入零值來(lái)構(gòu)成,可以在不損失分辨率的情況下聚合多尺度上下文信息、擴(kuò)大感受野[25]。但是,當(dāng)前的膨脹卷積框架會(huì)出現(xiàn)“網(wǎng)格化”問題:經(jīng)過一組膨脹率相等的膨脹卷積之后,卷積核的感受野只覆蓋棋盤圖案的區(qū)域,采樣的時(shí)候,會(huì)導(dǎo)致相鄰信息的丟失,不利于網(wǎng)絡(luò)對(duì)輸入樣本的學(xué)習(xí)。

        本文根據(jù)HDC框架對(duì)SAM進(jìn)行修改,利用HDC時(shí)需要遵守2個(gè)原則:①M(fèi)2≤K,K是卷積核的內(nèi)核大小,Mn=rn,這里rn指組內(nèi)的第n個(gè)膨脹卷積的膨脹率,Mn指兩個(gè)非零值之間最大距離;②一個(gè)組內(nèi),膨脹率之間不能具有公因子,否則,仍然會(huì)出現(xiàn)“網(wǎng)格化”問題。當(dāng)卷積層之間的膨脹率滿足以上2個(gè)原則之后,感受野可以完全覆蓋一個(gè)正方形區(qū)域。

        池化函數(shù)可以為注意力模塊引入一定程度的遷移不變性,來(lái)增強(qiáng)網(wǎng)絡(luò)對(duì)遷移的適應(yīng)性。首先,本文采用一組膨脹率為r=1,2,5的卷積核,大小為K=3的膨脹卷積對(duì)輸入的特征圖進(jìn)行操作;其次,將有效的空間特征圖輸入全局平均池化和最大池化,生成的特征描述符在通道上進(jìn)行拼接來(lái)聚合特征圖上的通道信息,可以突出信息區(qū)域[28];然后,通過卷積核大小為3,膨脹率為2的膨脹卷積對(duì)通道降維,可以對(duì)空間中需要強(qiáng)調(diào)或者抑制的區(qū)域信息進(jìn)行編碼映射,提高空間注意力的表征能力[29];最后,通過Sigmoid函數(shù)生成最終的空間注意力圖。SAM模塊如圖5所示。

        圖5 SAM模塊Fig.5 SAM module

        SAM模塊計(jì)算過程表示為

        (5)

        1.4 CAM模塊

        CAM的設(shè)計(jì)與SAM有一定的相似之處。CAM也是一個(gè)多頭池化注意模塊,可以使網(wǎng)絡(luò)從不同角度關(guān)注遠(yuǎn)程依賴信息,全局平均池化和最大池化的引入可以使網(wǎng)絡(luò)學(xué)習(xí)不同的遠(yuǎn)程依賴信息。CAM通過池化操作來(lái)并行壓縮特征圖的全局空間信息,全局平均池化的作用是聚合信息,最大池化主要用于將生成的通道注意力精細(xì)化,從不同的頭部得到結(jié)果之后,將聚合后的信息輸入共享網(wǎng)絡(luò)以生成通道注意力圖,這里的共享網(wǎng)絡(luò)由多層感知器(multi-layer perceptron,MLP)組成,具有高度的連接性,且包含一個(gè)隱藏在輸入和輸出節(jié)點(diǎn)之間的層,在實(shí)驗(yàn)中將該層的縮減率固定為16。與CBAM中使用“求和”來(lái)合并輸出特征量不同,本文使用標(biāo)準(zhǔn)卷積對(duì)通道上拼接后的特征進(jìn)行降維。CAM模塊結(jié)構(gòu)如圖6所示。

        圖6 CAM模塊Fig.6 CAM module

        通道注意力計(jì)算過程可以表示為

        fMLP(MaxPool(F))]))

        (6)

        (6)式中,fMLP指的是具有一個(gè)隱藏層的多感知器,為了減少參數(shù)開銷,將縮減率設(shè)置為16。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 數(shù)據(jù)集

        X光安檢圖像的產(chǎn)生是利用X射線的穿透性、光電靈敏度和熒光效應(yīng)[30]。目前常用的X光安檢圖像危險(xiǎn)物品檢測(cè)的數(shù)據(jù)集有GDXray[7]、OPIXray[31]以及SIXray[27]。GDXray中部分圖像包含手槍、飛鏢和剃須刀刀片,這些是包含很少背景干擾的灰度圖像,且每幅圖像中通常只有一個(gè)物體,檢測(cè)比較簡(jiǎn)單,但是與實(shí)際場(chǎng)景有一定差距;OPIXray包含折疊刀、直刀、剪刀、美工刀和多功能小刀,都是刀的不同形狀,不利于對(duì)其他種類危險(xiǎn)物品的檢測(cè);SIXray包含1 059 231張X光圖像,手工注釋6類危險(xiǎn)物品:槍、刀、扳手、鉗子、剪刀和錘子,共8 929張圖像。圖7是SIXray數(shù)據(jù)集中每一類危險(xiǎn)物品的樣本示例。相對(duì)于其他數(shù)據(jù)集而言,SIXray中危險(xiǎn)物品的種類和數(shù)量滿足網(wǎng)絡(luò)對(duì)數(shù)據(jù)集的要求,一幅圖像除了包含一個(gè)危險(xiǎn)物品以外,還包含不同種類的多個(gè)危險(xiǎn)物品,或者相同種類的多個(gè)危險(xiǎn)物品,所以將其作為本文研究的基準(zhǔn)。由于“錘子”只有60個(gè)樣本,樣本數(shù)量遠(yuǎn)遠(yuǎn)少于其他危險(xiǎn)物品,因此,實(shí)驗(yàn)中將其去除。

        圖7 SIXray數(shù)據(jù)集包含的種類Fig.7 Categories contained in SIXray data set

        2.2 實(shí)驗(yàn)設(shè)置

        本文模型基于pytorch開源深度學(xué)習(xí)庫(kù),實(shí)驗(yàn)訓(xùn)練使用的是RTX 3090,將batch size設(shè)置為16,且初始化學(xué)習(xí)速率為0.001。模型優(yōu)化方法采用隨機(jī)梯度下降(stochastic gradient descent,SGD),動(dòng)量設(shè)置為0.937,權(quán)重衰減設(shè)置為0.000 5,設(shè)置最大訓(xùn)練epoch為110。SIXray數(shù)據(jù)集中相同的危險(xiǎn)物品在圖像中的大小各不相同,而YOLOv3-SPP中的3個(gè)檢測(cè)分支可以有效地檢測(cè)不同尺寸目標(biāo)的關(guān)鍵特征,由此,本實(shí)驗(yàn)選擇YOLOv3-SPP作為基準(zhǔn)模型,實(shí)驗(yàn)中一共訓(xùn)練5個(gè)模型。加入注意力機(jī)制時(shí),權(quán)重文件無(wú)法使用,所以在訓(xùn)練時(shí)沒有使用權(quán)重文件,而是直接訓(xùn)練所有的卷積層。

        2.3 實(shí)驗(yàn)結(jié)果分析

        實(shí)驗(yàn)中采用COCO評(píng)價(jià)指標(biāo),比較了MSE模塊和MFGA模塊與基準(zhǔn)網(wǎng)絡(luò)不同融合方法的性能,展現(xiàn)了本文提出的注意力融合網(wǎng)絡(luò)模型在中等目標(biāo)和大目標(biāo)上的良好性能。表1是這5個(gè)模型在SIXray數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比。表1中,“RIoU=0.5:0.95”表示對(duì)0.5~0.95之間10個(gè)交并比(intersection over union,IoU)RIoU閾值上分別求取平均精度均值(mean average precision,mAP)PmAP,再對(duì)每一個(gè)RIoU閾值所對(duì)應(yīng)的mAP求平均。由于目標(biāo)在圖像中的尺寸可能不同,實(shí)驗(yàn)中對(duì)不同大小目標(biāo)的檢測(cè)精度都進(jìn)行了統(tǒng)計(jì)分析,表1中“S,M,L”分別表示小目標(biāo),中等目標(biāo)和大目標(biāo)。實(shí)驗(yàn)結(jié)果表明,與基準(zhǔn)網(wǎng)絡(luò)YOLOv3-SPP相比,本文提出的注意力融合網(wǎng)絡(luò)在總體檢測(cè)精度上提升了1.4百分點(diǎn),中等目標(biāo)和大目標(biāo)均提升了1.7百分點(diǎn)。在召回率(RAR)上,中等目標(biāo)提升了2.1百分點(diǎn),大目標(biāo)提升了2.6百分點(diǎn),有效地證明了本文的方法在中等目標(biāo)和大目標(biāo)檢測(cè)上具有良好優(yōu)勢(shì)。表2是“IoU=0.5”時(shí)每個(gè)類別的性能。從表2可以看出,本文提出的注意力機(jī)制在每個(gè)類別上都有一定的性能提升,其中對(duì)“刀”的檢測(cè)性能提升了0.66百分點(diǎn),“槍”的檢測(cè)性能提升了0.36百分點(diǎn),“扳手”的檢測(cè)性能提升了0.77百分點(diǎn),“鉗子”的檢測(cè)性能提升了1.76百分點(diǎn),“剪刀”的檢測(cè)性能提升了2.3百分點(diǎn)。

        表1 在SIXray測(cè)試集上本文方法與其他方法的結(jié)果對(duì)比Tab.1 The results of this method are compared with those of other methods on SIXray test set %

        表2 在SIXray測(cè)試集上本文方法與其他方法在IoU=0.5的分類結(jié)果對(duì)比Tab.2 On the SIXray test set the classification results of this method and other methods in IoU=0.5 are compared %

        特征融合主要用局部特征來(lái)彌補(bǔ)全局特征中缺少的關(guān)鍵特征,是一種深層次的融合。YOLOv3-SPP在單次向前傳遞中需要117.0 GFLOPS的計(jì)算量,而所提出的注意力融合網(wǎng)絡(luò)的計(jì)算量相對(duì)于YOLOv3-SPP增加了2.2百分點(diǎn),但在RIoU=0.5:0.95和RIoU=0.75的檢測(cè)精度均超過了YOLOv3-SPP??偟膩?lái)說,在特征融合過程中會(huì)存在少許的計(jì)算量增加,但是這種計(jì)算量的增加并不會(huì)對(duì)網(wǎng)絡(luò)整體的識(shí)別效率造成太大的影響,同時(shí)還提高了對(duì)危險(xiǎn)物品的檢測(cè)精度。

        2.4 消融研究

        2.4.1 MSE模塊

        實(shí)驗(yàn)只保留SE和MSE模塊,依然將該模塊融入主干網(wǎng)絡(luò)和SPP模塊后,在SIXray數(shù)據(jù)集上進(jìn)行測(cè)試,一共設(shè)計(jì)3組實(shí)驗(yàn),結(jié)果如表3所示。由表3可知,網(wǎng)絡(luò)的總體檢測(cè)精度提升了0.5%,小目標(biāo)和中等目標(biāo)稍有下降,但是在大目標(biāo)上提升了1.5百分點(diǎn),在中等目標(biāo)的召回率上提升了0.9百分點(diǎn),大目標(biāo)的召回率提升了2.2百分點(diǎn)。這是由于該模塊在計(jì)算注意力的過程中是將每個(gè)通道的像素值求平均和最大之后進(jìn)行的,對(duì)大尺度目標(biāo)有效,但是對(duì)于小尺度的目標(biāo)來(lái)說效果較差。由此可以看出,使用平均池化和最大池化在一定程度上能夠提高模型的檢測(cè)精度。

        2.4.2 MFGA模塊

        在基準(zhǔn)網(wǎng)絡(luò)中只保留CBAM和MFGA模塊,依然將該模塊分別融入3個(gè)檢測(cè)分支中,在SIXray數(shù)據(jù)集上進(jìn)行測(cè)試,設(shè)計(jì)了3組實(shí)驗(yàn),結(jié)果如表4所示。由表4可知,在檢測(cè)精度上,網(wǎng)絡(luò)的檢測(cè)性能提高了0.8百分點(diǎn),中等目標(biāo)提升了1.6百分點(diǎn),大目標(biāo)上提升了0.9百分點(diǎn);在召回率上,小目標(biāo)提升了1.1百分點(diǎn),中等目標(biāo)上提升了1.9百分點(diǎn),大目標(biāo)上提升了1.2百分點(diǎn)。對(duì)危險(xiǎn)物品檢測(cè)的召回率的提升,表明了MFGA模塊對(duì)包含危險(xiǎn)物品的圖片的檢測(cè)具有比較好的潛力。

        表3 在SIXray測(cè)試集上MSE模塊與其他方法的結(jié)果對(duì)比Tab.3 Comparison of results of MSE module and other methods on SIXray test set %

        表4 在SIXray測(cè)試集上MFGA模塊與其他方法的結(jié)果對(duì)比Tab.4 Comparison of results of MFGA and other methods on SIXray test set %

        3 結(jié)束語(yǔ)

        本文應(yīng)用基于注意力機(jī)制的目標(biāo)檢測(cè)模型對(duì)X光安檢圖像危險(xiǎn)物品進(jìn)行檢測(cè)。為了提高檢測(cè)性能,本文提出將通道和空間注意力信息融合以提升特征表示能力的目標(biāo)檢測(cè)方法。通過以YOLOv3-SPP網(wǎng)絡(luò)為基礎(chǔ)框架,設(shè)計(jì)了2個(gè)不同的注意力模塊:MSE和MFGA模塊。MSE模塊能夠有效地利用特征圖之間的通道信息,使得淺層特征中包含危險(xiǎn)物品的目標(biāo)區(qū)域得到增強(qiáng);MFGA模塊的空間注意力分支中采用膨脹卷積擴(kuò)大感受野,這樣可以有效地利用上下文信息來(lái)構(gòu)建比標(biāo)準(zhǔn)卷積更有效的空間特征圖,能夠在預(yù)測(cè)前細(xì)化全局特征和相關(guān)局部特征組成的最后特征。在公開的SIXray數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)表明,本文提出的方法能夠有效地提高中等目標(biāo)和大目標(biāo)的檢測(cè)效果。

        猜你喜歡
        危險(xiǎn)物品池化注意力
        基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識(shí)別方法研究
        基于Sobel算子的池化算法設(shè)計(jì)
        探索陪護(hù)參與危險(xiǎn)物品管理在青少年非自殺性自傷行為護(hù)理中應(yīng)用價(jià)值
        讓注意力“飛”回來(lái)
        卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
        危險(xiǎn)物品
        基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識(shí)別研究
        危險(xiǎn)物品儲(chǔ)存和運(yùn)輸安全
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        在线成人爽a毛片免费软件| 国产精品天堂在线观看| 久久精品国产亚洲av久按摩| 亚洲第一页在线观看视频网站| 亚洲综合中文日韩字幕| 狠色人妻丝袜中文字幕| 色视频线观看在线网站| 久久国产色av| 精品国产你懂的在线观看| 色妞一区二区三区免费视频| 黄片视频免费在线播放观看| 国产农村妇女毛片精品久久| 久久久久久久中文字幕| 精品av一区二区在线| 国99精品无码一区二区三区| 久久久噜噜噜www成人网| 国产美女白浆| 欧美日韩综合在线视频免费看| av网站可以直接看的| 国产精品专区第一页天堂2019| 精品www日韩熟女人妻| 蜜桃av噜噜一区二区三区| 天天中文字幕av天天爽| 久久精品国产9久久综合| 精品亚洲国产成人| 中文字幕在线亚洲日韩6页手机版| 亚洲AV无码久久精品国产老人| 白浆高潮国产免费一区二区三区| 婷婷五月六月激情综合色中文字幕| 国产农村乱辈无码| 车上震动a级作爱视频| 国产精品国产三级国产av主| 国产白浆一区二区三区佳柔 | 成人国产一区二区三区| 欧美大肥婆大肥bbbbb| 国产一级淫片免费播放电影| 亚洲av永久一区二区三区| 亚洲国产成人精品无码区在线秒播 | 亚洲一区二区三区av链接| 偷拍偷窥在线精品视频| 无码人妻精品一区二区三|