亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多頭自注意力機制的Faster R-CNN 目標檢測算法

        2024-04-02 03:42:26文靖杰李金龍
        現(xiàn)代電子技術(shù) 2024年7期
        關(guān)鍵詞:置信度邊界注意力

        文靖杰,王 勇,李金龍,張 渝

        (西南交通大學物理科學與技術(shù)學院,四川成都 610031)

        0 引 言

        Faster R-CNN 是一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標檢測算法[1-4],其核心思想是通過提取圖像特征、提出候選框和進行二次分類等步驟,從而實現(xiàn)高效的目標檢測。Faster R-CNN 主要用于對圖像和視頻中的物體進行快速而準確的識別,并能夠?qū)z測結(jié)果進行框定和分類。但是隨著圖像樣本的數(shù)量和種類越來越多,對模型的精度要求也越來越高,所以如何提升檢測的精度成為了關(guān)鍵研究問題[5-7]。

        Faster R-CNN 目標檢測網(wǎng)絡(luò)是通過預訓練的卷積網(wǎng)絡(luò)來提取輸入圖像的特征圖,盡管卷積層可以有效地提取圖像中的局部信息,但卷積核的局部性會使得全局特性無法被充分捕捉,這會導致一些信息的丟失,進而造成精度下降。其次,F(xiàn)aster R-CNN 采用的ROI Pooling(Region of Interest Pooling)算法使用最近鄰插值來對感興趣區(qū)域內(nèi)的特征進行量化,這同樣會導致部分信息的丟失以及空間對齊的不準確。最后,在算法后處理方面,F(xiàn)aster R-CNN 使用傳統(tǒng)非極大抑制來強制刪除重復的檢測框進而導致漏檢。

        針對以上不足,本文做出三處改進來提高Faster RCNN 目標檢測網(wǎng)絡(luò)的檢測精度:

        1)在Faster R-CNN 中嵌入基于現(xiàn)有的改進注意力模型來獲取更多的圖像信息而提高網(wǎng)絡(luò)的檢測精度。該改進的注意力模型基于CBAM 注意力機制[8],采用CBAM改進是因為它集成了SE-Net[9]對通道信息關(guān)注的優(yōu)點和ECA-Net[10]對空間信息關(guān)注的優(yōu)點,但CBAM 中的共享全連接層的降維操作會導致一些區(qū)域的細節(jié)信息被忽略而造成局部信息的丟失,所以本文采用一維卷積替代共享全連接層并且為了使其提供更豐富的特征表達能力,引入多頭機制。

        2)采用ROI Align(Region of Interest Align)算法[11]更精確地定位ROI 區(qū)域內(nèi)的樣本點,減少原圖的信息丟失,提高特征圖的質(zhì)量。

        3)引入Soft-NMS(Soft Non-Maximum Suppression)算法[12],減少漏檢、誤檢情況,提高檢測精度。

        1 相關(guān)工作

        1.1 Faster R-CNN 模型

        Faster R-CNN 目標檢測模型的詳細網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,主要包含4 個步驟:

        圖1 Faster R-CNN 結(jié)構(gòu)圖

        1)將輸入圖片等比例調(diào)整尺寸,然后輸入到主干特征提取網(wǎng)絡(luò)中來獲取圖像的特征圖,用于后續(xù)的區(qū)域生成網(wǎng)絡(luò)(RPN)層的分類與回歸。

        2)將步驟1)生成的特征圖作為RPN 的輸入,使用固定大小的滑窗窗口在特征圖上進行滑窗操作,以每個位置作為中心點生成多個不同尺寸和比例的錨框(Anchor)。上面的分支使用Softmax 分類對錨框進行正負樣本分類,將每個錨框判斷為可能包含目標的積極(Positive)分類或不包含目標的消極(Negative)分類;下面的分支用于進行邊界框回歸(Bounding Box Regression),該回歸操作計算出預測的邊界框與真實目標邊界框之間的偏移量,以獲取更準確的候選框(Proposal)位置。在模型測試過程中,對于部分存在重疊可能性的候選框,使用非極大值抑制(NMS)算法篩選這些框,選擇最有代表性的框輸出并作為感興趣區(qū)域(ROI);在模型的訓練過程中,使用Smooth_L1_Loss 函數(shù)平衡較小差異和較大差異之間的影響,計算建議框與真實框之間的差異從而調(diào)整建議框的位置。接著,通過尺度映射函數(shù)(im_info)確定每個錨框在原始圖像中的位置,并進一步判斷其是否超出了原始圖像的邊界。當錨框嚴重超出邊界時,這些錨框就基本不包含目標信息,是無效的且需要被剔除。再利用邊界框回歸來修正被剔除的錨框并得到最終的建議框。

        3)將步驟2)輸入的建議框劃分為相等大小的網(wǎng)格,然后在每個網(wǎng)格內(nèi)進行池化操作,將網(wǎng)格內(nèi)的特征信息聚合為固定大小的輸出,用于后續(xù)的分類和邊界框回歸。

        4)將步驟3)得到的特征圖輸入到全連接層和Softmax 分類器,以計算建議框包含目標的概率。全連接層將特征圖轉(zhuǎn)換為一維向量,并通過Softmax 分類器輸出每個類別的概率分布,確定建議框中是否包含目標。同時,利用邊界框回歸根據(jù)建議框與其對應(yīng)的真實框之間的差異,對建議框的位置進行微調(diào),使得最終的目標檢測框更加精確。

        1.2 NMS 算法

        NMS 是一種常用的目標檢測算法,用于在多個重疊的檢測框中選擇最佳的結(jié)果。它通過交并比(IoU)篩選和消除冗余的邊界框,從而得到最終的目標檢測結(jié)果,具體可以分為以下7 步:

        1)輸入:首先,給定一系列可能包含目標的邊界框,每個邊界框都有一個置信度分數(shù)和位置信息,這些邊界框可以是通過目標檢測模型生成的候選框。

        2)根據(jù)置信度排序:將輸入的邊界框按照置信度分數(shù)進行降序排序,得到排好序的邊界框列表。

        3)選擇最高置信度邊界框:從排好序的邊界框列表中選擇置信度最高的邊界框M,并將其添加到最終的輸出結(jié)果列表中。

        4)計算重疊區(qū)域:對于剩余的邊界框bi,計算它們與已選擇的邊界框M 之間的交并比。

        5)消除重疊邊界框:對于與已選擇的邊界框M 重疊超過一定閾值的邊界框bi,將它們從候選列表中刪除。

        6)重復步驟3)~步驟5),直到所有的邊界框都被處理完畢。

        7)輸出結(jié)果:輸出最終的非極大值抑制結(jié)果列表,其中只包含具有最高置信度且沒有明顯重疊的邊界框。

        1.3 ROI Pooling 算法

        ROI Pooling 算法首先通過坐標變換將ROI 映射到特征圖上的對應(yīng)位置,然后將映射后的區(qū)域劃分為固定大小的子區(qū)域,并對每個子區(qū)域進行最大池化操作,最后將子區(qū)域內(nèi)的特征進行壓縮,以生成固定大小的特征圖。整個步驟可用圖2~圖5 表示。

        圖2 輸入的特征圖

        假設(shè)特征圖的大小為8×8,有一個ROI,輸出大小為2×2。

        1)輸入固定大小的特征圖,如圖2 所示。

        2)候選區(qū)域投影,大小為5×7,如圖3 所示。

        圖3 候選區(qū)域投影

        3)因輸出大小為2×2,故將其劃分為2×2 個部分,如圖4 所示。

        4)對每個部分做最大池化,結(jié)果如圖5 所示。

        圖5 最大池化結(jié)果

        2 本文算法

        2.1 多頭注意力模塊

        本文使用的多頭注意力模塊[13]基于CBAM 注意力機制。

        1)在通道注意力模塊中,首先對輸入的特征圖進行全局最大值池化和全局平均池化操作,這兩種池化操作分別用于捕捉特征圖中的最顯著特征和平均特征;接著通過共享的全連接層將池化后的結(jié)果作為輸入,進行融合特征映射的空間信息;然后通過一個全連接層進行特征的映射和降維,降維后的特征向量被送入第二個全連接層學習不同通道之間的相互關(guān)聯(lián)性;最終通過使用Sigmoid 非線性激活函數(shù)將全連接層的輸出限制在0~1 之間,以生成每個通道的權(quán)重。根據(jù)論文ECANet 中提出的觀點,在深度卷積神經(jīng)網(wǎng)絡(luò)中,針對特征圖的某一通道,其與鄰域通道特征的關(guān)聯(lián)性更強,因此計算通道注意力時,若對所有通道進行擬合會有信息冗余。通過共享全連接層進行降維操作還可能會導致一些區(qū)域的細節(jié)信息被抹平或忽略,造成局部信息的丟失。其次,共享全連接層在建模通道之間的相關(guān)性時沒有考慮它們在特征圖上的位置關(guān)系,因此無法直接捕捉到遠距離區(qū)域之間的空間相關(guān)性,從而導致精度下降。

        綜上所述,本文采用一維卷積代替共享全連接層來實現(xiàn)權(quán)重計算的任務(wù)。一維卷積在保持更多局部信息的同時,具備一定的感受野,可以捕捉到更廣泛的空間相關(guān)性。

        2)為了使其提供更豐富的特征表達能力,對其引入多頭機制,從而可以分別對特征的不同部分進行重要性的加權(quán)。該多頭注意力模塊首先將特征圖分成兩部分然后分別進入具有相同結(jié)構(gòu)的通道注意力模塊和空間注意力模塊中,最后將他們的輸出特征進行加權(quán)求和。MHEAM 的結(jié)構(gòu)如圖6 所示。

        圖6 MHEAM 的結(jié)構(gòu)圖

        圖6 中:Mc∈RC×1×1代表經(jīng)過空間壓縮后的通道注意力模塊,Ms∈R1×H×W代表經(jīng)過通道壓縮后的空間注意力模塊,C、H和W分別代表特征圖的通道數(shù)、高和寬;“⊕”代表相加操作;“?”代表Sigmoid 非線性激活函數(shù);“?”代表逐元素乘法。

        改進的卷積注意力機制中的每個分支結(jié)構(gòu)相同,具體可表示為:

        式中:F∈RC×H×W表示每個分支輸入特征圖;F″ ∈RC×H×W表示每個分支的輸出。最后再將每個分支的輸出特征圖加權(quán)求和得到最終輸出。

        對于通道注意力模塊Mc∈RC×1×1,輸入進來的特征層通過基于寬和高的全局最大池化和全局平均池化操作分別生成兩個不同空間的上下文描述,記為facvg和;然后分別通過卷積核大小為k的一維卷積來計算權(quán)重,其大小等于聚合的通道信息數(shù)目;最后將得到的權(quán)重相加合并,使用Sigmoid 非線性激活函數(shù)將特征圖中不同通道的重要性進行動態(tài)調(diào)整后輸出最終的通道注意力特征圖,具體的通道部分計算公式如下:

        式中:表示使用長度為k的一維卷積,k的大小由輸入特征圖通道數(shù)大小自適應(yīng)決定。k的計算公式如下:

        式中:|·|odd表示取最近的奇數(shù);C表示通道數(shù)。

        對于空間注意力模塊Ms∈R1×H×W,首先把從通道注意力模塊生成的特征圖作為本模塊的輸入,并沿特征圖的通道方向使用通道全局最大值和均值池化操作對通道信息進行壓縮,得到的結(jié)果分別記為∈R1×H×W和∈R1×H×W;然后將和拼接在一起得到一個雙通道的特征圖;為了保持前后維度一致,方便進行特征融合,再使用7×7 大小的標準卷積核f7×7將雙通道的信息進行融合和壓縮,轉(zhuǎn)化為單個通道的特征表示;最后經(jīng)過Sigmoid 非線性激活函數(shù)輸出最終的空間注意力Ms∈R1×H×W。具體空間部分計算公式如下:

        2.2 Soft-NMS 算法

        在傳統(tǒng)NMS 算法中,當剩余框bi與置信度最高的M相交且IoU 在預設(shè)值時,就會將bi強制刪除導致目標漏檢,并且NMS 閾值不易確定,設(shè)置小了會漏檢,設(shè)置過高又容易增大誤檢。因此,本文引入Soft-NMS 算法來替代NMS 算法。

        NMS 算法可以寫成如下評分函數(shù):

        式中:Si為每個框被分類器計算得到的分數(shù),i為除得分最大的M 框以外的剩余框按照得分從高到低排列的序號;Nt為預設(shè)的重疊閾值。相較于傳統(tǒng)NMS 算法,Soft-NMS 算法則通過使用衰減函數(shù)來降低重疊邊界框的置信度而不是直接刪除它們,一定程度上解決了漏檢問題,評分函數(shù)如下:

        根據(jù)式(7)可知,如果IoU 越大,則對Si的影響就越大,Si的值就會變小,對應(yīng)框的得分也會相應(yīng)降低,這樣就可以防止直接刪除這些框引起的漏檢情況,從而提高檢測精度。

        2.3 ROI Align 算法

        傳統(tǒng)的ROI Pooling 使用最近鄰插值對ROI 區(qū)域內(nèi)的特征進行量化,這會導致部分信息的丟失和空間對齊不準確。與之相比,本文采用的ROI Align 算法使用雙線性插值的方式,在特征圖上更精確地定位ROI 區(qū)域內(nèi)的樣本點,一定程度上減少了原圖的信息丟失,提高了特征圖的質(zhì)量。ROI Align 的步驟表示如圖7~圖10所示。

        圖7 特征圖劃分

        1)對1.3 節(jié)步驟2)中獲取的特征圖轉(zhuǎn)換成2×2 相同規(guī)模的范圍,此過程不做任何量化處理。特征圖劃分如圖7 所示。

        2)將這4 個模塊內(nèi)部進行同樣的處理,再細分成4 個規(guī)模相同的區(qū)域,如圖8 所示。

        圖8 特征圖再劃分(一)

        3)對于每一個最小的區(qū)域確定其中心點(圖中用“×”表示),然后使用雙線性插值法得到這個“×”號所在位置的值作為最小格子區(qū)域的值,如圖9 所示。

        圖9 特征圖再劃分(二)

        4)分別取各個小區(qū)域的最大值,可得4 個小區(qū)域的4 個值,作為最終的特征圖輸出結(jié)果,如圖10 所示。

        圖10 特征圖最終結(jié)果

        2.4 改進后的Faster R-CNN 模型

        圖11 為本文提出的改進后的Faster R-CNN 目標檢測模型。該模型首先將主干特征提取網(wǎng)絡(luò)VGG-16[14]替換成參數(shù)量更少且性能更好的ResNet-50[15];接著通過前向傳播直接將多頭注意力模塊接在最后一個Identity Block 之后,并進行模型訓練;然后將ROI Pooling 算法替換為ROI Align 算法;最后在測試部分使用Soft-NMS替代傳統(tǒng)的非極大抑制NMS。

        由圖2可知,實體煤和支架控頂作用明顯,頂板下沉量小,受充實率的影響小。充填體控頂作用受充實率影響明顯,頂板下沉量隨著充實率的增大而降低,當充實率為 60%,70%,80%,90%,95%,100%時,待充區(qū)工作 面 頂 板 下 沉 量 分 別 為 1m,0.78m,0.55m,0.33m,0.20m,0.11m。充實率受材料特性、工藝等因素影響,一般充實率達到90%以上可以滿足工作面所能承受頂板下沉量的要求。

        圖11 改進后的Faster R-CNN 結(jié)構(gòu)圖

        3 實驗結(jié)果與分析

        實驗環(huán)境配置如表1 所示。

        表1 實驗環(huán)境配置

        3.1 數(shù)據(jù)集和評價標準

        實驗所用的數(shù)據(jù)集為PACAL VOC2007 和PACAL VOC2012 的混合數(shù)據(jù),包含20 個小類別。使用VOC2007 和VOC2012 的Train+Val(16 551)上訓練,然后使用VOC2007 的Test(4 952)測試。PACAL VOC 數(shù)據(jù)集如表2 所示。

        表2 PACAL VOC 數(shù)據(jù)集詳細介紹

        本文通過對改進的Faster R-CNN 目標檢測模型進行客觀評價和主觀評價兩個方面的評估來檢驗改進效果。在客觀評價結(jié)果方面,使用平均正確率(AP)對每個類別的檢測結(jié)果進行驗證,并通過計算平均類別AP(mAP)來確定模型整體性能,即將所有類別的AP 相加并除以總類別數(shù),AP 由精確度(Precision)和召回率(Recall)構(gòu)成的曲線面積確定;對于主觀評價結(jié)果,通過對比改進前后的Faster R-CNN 處理后的圖片來評估模型的性能,具體就是比較目標框的定位精確度和是否存在漏檢和誤檢。

        式中:TP 指檢測器輸出的結(jié)果中正確的個數(shù);FP 指檢測器輸出的結(jié)果中錯誤的個數(shù);FN 指Ground Truth 中未被找出的個數(shù),F(xiàn)N 大小等于Ground Truth 總數(shù)減去TP。

        3.2 客觀評價結(jié)果

        為了檢驗改進后的Faster R-CNN 目標檢測網(wǎng)絡(luò)的性能提升,分別將其嵌入主干神經(jīng)網(wǎng)絡(luò)為VGG-16 和ResNet-50 的Faster R-CNN 網(wǎng)絡(luò)之中,各類別的AP 和代表整個Faster R-CNN 網(wǎng)絡(luò)性能的mAP 如表3 所示。FR、FR*、FR**、FR***分別表示原始的,加入ROI Align 算法,加入ROI Align 和Soft-NMS 算法,同時加入ROI Align、Soft-NMS 和多頭注意力模型的基于VGG-16 主干神經(jīng)網(wǎng)絡(luò)的Faster R-CNN 目標檢測算法;FR′、FR″分別表示原始的,同時加入ROI Align、Soft-NMS 和多頭注意力模型的基于ResNet-50 主干神經(jīng)網(wǎng)絡(luò)的Faster R-CNN 的目標檢測算法。表中“+”表示改進算法與原算法相比的增長數(shù),“-”表示改進算法與原算法相比的減少數(shù)。VGG-16 的Faster R-CNN 改進前后的精度對比如表3 所示。

        首先由代表整體Faster R-CNN 的性能指標mAP 可知,基于VGG-16 的Faster R-CNN 加入ROI Align 算法后,mAP 值提高了0.66%。驗證了ROI Align 算法相比于ROI Pooling 算法能夠減少部分原圖信息的丟失,具有更精確的特征對齊和提高檢測精度的能力,是更有效的特征提取方法;模型加入ROI Align 和Soft-NMS 算法后,mAP 值提高了1.31%。說明Soft-NMS 相比于傳統(tǒng)的NMS,通過降低重疊框的置信度來更好地保留重疊框而不是直接強制刪除,這減少了漏檢情況,提高了檢測精度;模型同時加入ROI Align、Soft-NMS 和多頭注意力機制后,mAP 值提高了3.26%。這驗證了本文提出的多頭注意力模型的有效性,它能夠?qū)Ω信d趣區(qū)域特征進行增強,降低背景的干擾。其次再由單個檢測目標的精度可知,本文的改進方法能提升絕大多數(shù)目標類別的檢測精度,特別在大目標和紋理比較清晰的圖片上提升較多,如植物、沙發(fā)、瓶子、奶牛等,最高精度可達10.19%。同時,由基于ResNet-50 的改進前后的Faster R-CNN 性能指標可知,主干神經(jīng)網(wǎng)絡(luò)用ResNet-50 替換VGG-16 后整體精度和多數(shù)單個檢測目標的精度都會得到提升,整體精度提升了4.73%,單個目標檢測精度最高提高了10.19%。這是因為ResNet-50 相比于VGG-16 引入了殘差連接,可以有效地緩解梯度消失等問題;此外,因為ResNet-50 的卷積層更多,可以擴大模型的感受野,更好地理解圖像中的全局信息和上下文關(guān)系。最后,為了更科學地體現(xiàn)本文提出的多頭注意力模型對Faster RCNN 網(wǎng)絡(luò)的提升,對Faster R-CNN 引入SE-Net、ECANet、CBAM 注意力機制進行消融實驗,如表4 所示。

        表4 注意力機制消融實驗

        3.3 主觀評價結(jié)果

        為了更加直觀地體現(xiàn)改進的Faster R-CNN 目標檢測算法的有效性,隨機選取一些圖片放在改進前后的模型中進行檢測,結(jié)果如圖12 所示。

        圖12 檢測結(jié)果對比

        由檢測結(jié)果對比圖可知:改進后的Faster R-CNN目標檢測算法提高了對感興趣目標的定位準確性和檢測精度,并且減少了漏檢和誤檢情況。從第1 行的對比圖中可以看出,改進后的算法對感興趣目標的定位變得更加準確,并且對應(yīng)的置信度得分也得到了提高;從第2 行的對比圖中可以看到,原本沒有被檢測到的植物和汽車被正常檢測,并且人和摩托車的置信度得分也得到了提高,說明改進的算法不僅降低了漏檢的概率也提高了檢測精度;從第3 行的對比圖中可以看到,改進算法降低了誤檢的概率,使得被識別為汽車的摩托車可以被正確識別,此外被遮擋物體的定位檢測精度也得到了提升;從第4 行和第5 行的對比圖中也同樣可以看出,改進的Faster R-CNN 目標檢測算法同樣也提高了目標物體的定位和檢測精度,并且有效地降低了漏檢和誤檢概率。

        4 結(jié) 論

        本文提出了一種改進的Faster R-CNN 目標檢測網(wǎng)絡(luò)。首先,改進的網(wǎng)絡(luò)嵌入了一種不用降維且在保持更多局部信息的同時可以捕捉到更廣泛的空間相關(guān)性的多頭注意力機制;其次,使用能夠減少原圖信息丟失的ROI Align 算法替代ROI Pooling 算法;最后,使用能減少漏檢、誤檢的Soft-NMS 算法替代傳統(tǒng)NMS 算法。實驗結(jié)果表明,改進后的Faster R-CNN 目標檢測算法使得其中單個目標類的檢測平均精度最高提升了10.19%,而mAP 得到了4.73%的提升,有效地減少了漏檢和誤檢的發(fā)生,并提高了感興趣目標框的定位精度。

        注:本文通訊作者為王勇。

        猜你喜歡
        置信度邊界注意力
        讓注意力“飛”回來
        硼鋁復合材料硼含量置信度臨界安全分析研究
        拓展閱讀的邊界
        論中立的幫助行為之可罰邊界
        正負關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        置信度條件下軸承壽命的可靠度分析
        軸承(2015年2期)2015-07-25 03:51:04
        “偽翻譯”:“翻譯”之邊界行走者
        外語學刊(2014年6期)2014-04-18 09:11:49
        思考新邊界
        99久久久无码国产aaa精品| 丁香婷婷在线成人播放视频| 女人高潮久久久叫人喷水| 国精无码欧精品亚洲一区| 中文字幕在线观看国产双飞高清| 亚洲综合免费在线视频| 日本久久久免费观看视频| 东北老女人高潮大喊舒服死了| 日韩一欧美内射在线观看| 无遮挡很爽视频在线观看 | 国产亚洲成人精品久久久| 日日天干夜夜狠狠爱| 人妻去按摩店被黑人按中出 | 欧美亅性猛交内射| 鲁鲁鲁爽爽爽在线视频观看| 国产成人亚洲综合无码精品| 亚洲国产丝袜美女在线| 丰满少妇人妻无码| 久久中文字幕无码专区| 99JK无码免费| 一卡二卡国产av熟女| 亚洲熟妇色自偷自拍另类| 色一情一区二| 男女激情床上视频网站| 国产流白浆视频在线观看 | 亚洲tv精品一区二区三区| 亚洲国产成人久久综合下载| 精品囯产成人国产在线观看| 国产又色又爽的视频在线观看91 | 久热这里只有精品99国产| 国产亚洲精品成人av在线| 国产高清一区二区三区四区色 | 在线国产视频精品视频| 天涯成人国产亚洲精品一区av| av狠狠色丁香婷婷综合久久| 另类免费视频在线视频二区| 亚洲春色视频在线观看| 亚洲精品久久国产精品| 免费无码又爽又刺激网站| 四虎无码精品a∨在线观看| 中文字幕第一页人妻丝袜|