亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進FPN的小目標檢測算法

2024-12-06 00:00:00金可藝陳惠妹曹斯茹

中國新技術(shù)新產(chǎn)品 2024年21期

摘要：本文針對目前小目標檢測中語義信息缺失且識別困難的問題，對目標檢測算法中的特征金字塔網(wǎng)絡（FPN）進行了改進。首先，將頂層特征圖融合上、下文信息，并與混合注意力機制串聯(lián)，增強頂層特征，從而在進行自上而下融合過程中獲得更好的特征。其次，針對小目標在FPN設計新的特征層。此層由深層語義信息和淺層細節(jié)信息融合而成，使得到的小目標層不僅是高分辨率的淺層，同時還有更豐富的語義信息。最后，將改進目標檢測器在MS COCO數(shù)據(jù)集的一類上進行試驗。結(jié)果表明，改進的Cascade RCNN小目標檢測精度為54.2%，比原模型提高了11%。

關(guān)鍵詞：小目標檢測；FPN；特征融合；注意力機制

中圖分類號：TP 751" " " " " 文獻標志碼：A

目標檢測是計算機視覺領域的核心問題之一?；谏疃葘W習的目標檢測器主要有2種，即兩階段和一階段[1]。前者檢測結(jié)果更精確，后者檢測速度更快。為更好地使用多尺度特征圖，進而又提出了特征金字塔網(wǎng)絡（FPN），以提高檢測精度。目前通用目標檢測器在精度上已取得較好效果[2]，但是對小目標的檢測效果仍然一般。小目標檢測是一個備受關(guān)注的研究方向，在自動駕駛、遙感圖像[3]等實際應用背景中，檢測算法面臨巨大挑戰(zhàn)，很難準確識別出小目標。因此，研究一種用于小目標檢測的目標檢測算法具有重要的意義。

1 特征金字塔網(wǎng)絡（FPN）

在目標檢測的發(fā)展過程中，專家們對使用單、多尺度特征圖進行了不斷探索[4]。首先，為利用各個尺度的特征圖，對輸入圖片進行多尺度縮放并制造圖像金字塔。其次，對每個尺度的圖片進行提取特征圖和目標檢測，但是這種方法訓練時間過多，被很快棄用。再次，有專家選擇使用卷積網(wǎng)絡直接對輸入圖像進行多層卷積和池化，得到最終特征圖并對其進行檢測，但是這種方法僅對頂層特征圖進行檢測，導致特征過于單一，會忽略其他特征層。從次，有專家沿用之前對圖片進行卷積網(wǎng)絡的方法，對每一層卷積得到的特征圖均進行檢測，得到金字塔型特征層，雖然這種方法利用了每一層的特征圖且訓練時間不多，但是也沒有充分利用各層的特征。

為了更好地處理不同尺度的目標、充分利用各層特征，本文提出多尺度融合算法，以進一步提升檢測效果，即特征金字塔網(wǎng)絡（FPN）。FPN不僅利用了不同尺度的特征圖，還在自上而下融合過程后大幅度改進了淺層特征；在提高整體檢測效果的同時，小目標精度也有了明顯提升。FPN由自底向上、自頂向上和橫向連接3個部分組成。FPN整體結(jié)構(gòu)如圖1所示。

1.1 自底向上

此部分為主干卷積網(wǎng)絡的輸出（以ResNet50為例），將每個階級最后的殘差塊結(jié)果作為FPN的輸入，記為{C2，C3，C4，C5}。

1.2 自頂向下

此部分是將上一層進行二倍上采樣的特征圖與此層的特征圖相融合得到此層特征圖。具體過程如下：將經(jīng)過1*1卷積的P5*（等同于C5*）進行2倍上采樣，再將其與下一層的C4*相加得到P4*。同理，C2*、C3*經(jīng)過自頂向下融合后分別得到P3*、P2*。上、下層融合結(jié)構(gòu)如圖2所示。

1.3 橫向連接

此部分包括2個部分。第一是對輸入特征圖{C2，C3，C4，C5}分別進行1*1卷積，得到{C2*，C3*，C4*，C5*}。第二是在自上而下特征融合后，對{P2*，P3*，P4*，P5*}進行3*3卷積，得到特征金字塔的最終輸出{P2，P3，P4，P5}。

2 改進的FPN

目前已有一些對小目標特性進行改進的算法[5]。有的專家采用過采樣含有小目標的圖像并重復粘貼復制小目標的方法，對小目標檢測進行數(shù)據(jù)增強。有的專家采用對FPN添加融合因子并控制自上向下傳遞的特征量的方法，得到使每層融合到更適合特征的帶有S-α的檢測器。有的專家設計新的特征級超分辨率，將其作為訓練時的監(jiān)督信號，并匹配相對感受野，更精準地對小目標進行監(jiān)督。還有的專家采用分配多尺度特征融合權(quán)重并加入約束大目標的抑制塊的方式，使小目標保留更多的細節(jié)和特征。

本文針對小目標的特性，對FPN進行改進。雖然FPN進行了特征圖的多尺度融合，并已經(jīng)利用較低層的特征來提高對小目標的檢測精度，但是其還存在一些問題，例如頂層特征圖缺少上、下文信息融合、小目標特征不夠豐富等。本文以頂層特征增強和添加小目標層的方式對FPN進行改進，以期取得更好的小目標檢測效果。

2.1 頂部特征增強模塊

2.1.1 混合注意力機制（CBAM）

注意力機制一直是目標檢測中被廣泛使用的方法。2018年，有專家提出了一種新的注意力機制，即CBAM。這是一種混合注意力機制，它從通道和空間2個方面出發(fā)，順序使用通道注意力和空間注意力，使輸入特征圖在通道維度和空間維度上均獲得更好的處理。CBAM由2個部分組成，即通道注意力模塊CAM和空間注意力模塊SAM。CBAM結(jié)構(gòu)如圖3所示。

CAM對輸入的形狀為（B，C，H，W）的特征圖分別進行最大池化和平均池化，得到2個形狀為（B，C，1，1）的特征圖。再將兩者送入共享感知機（MLP）進行處理，將得到的結(jié)果相加。最后利用Sigmoid函數(shù)得到每個通道的權(quán)重系數(shù)，并將權(quán)重與輸入特征圖相乘，得到通道注意力特征圖F。

SAM將經(jīng)過CAM模塊調(diào)整的特征圖F沿通道軸分別進行最大池化和平均池化，得到形狀為（B，1，H，W）的2個特征圖。再對2個特征圖進行通道拼接，由卷積降維，得到通道數(shù)為1的特征圖。最后利用Sigmoid函數(shù)得到每個空間位置上的權(quán)重系數(shù)，并與特征圖F相乘，得到最終的新特征圖，將其作為輸出。

2.1.2 頂部特征增強

在傳統(tǒng)FPN的自上而下融合過程中，最頂層C5*是由獲取主干卷積網(wǎng)絡的最高層C5并對其進行1*1卷積后得到的特征圖，而其他層則是由對上一層特征圖進行上采樣，再與本層對應的主干網(wǎng)絡進行卷積后的特征圖相融合得到的，因此只有最頂層特征圖的信息是單一的，缺少上、下文特征融合的部分。本文針對此問題，添加了頂部特征增強模塊。頂部增強結(jié)構(gòu)如圖4所示。

首先，對主干卷積網(wǎng)絡的C5層進行比例不變的自適應池化，分別使用0.1、0.2和0.3這3個池化率獲取不同空間的上、下文信息，得到3個不同尺寸的特征圖r1、r2和r3。其次，將得到的特征圖分別進行卷積，對通道進行降維操作。再次，將特征圖上采樣到同一尺寸，得到3個與C5尺寸相同的特征圖F1、F2和F3。將3個特征圖進行通道拼接，得到含有上、下文信息的新特征圖。獲取上、下文信息結(jié)構(gòu)如圖5所示。從次，對新特征圖與經(jīng)過卷積降維的C5*進行求和，得到一個融合上、下文信息的頂層特征圖。最后，在新得到的頂層特征圖中加入混合注意力機制，進一步增強頂層特征，得到P5*。增強特征圖P5*會為下一層提供更好的特征，將其進行3*3卷積得到P5，將P5送入下一步的區(qū)域生成網(wǎng)絡（RPN）后，可提高后續(xù)的檢測效果。

2.2 底部特征融合模塊

在圖像目標檢測任務中，小目標占整幅圖像的面積比例較小，很難捕捉到它們的細節(jié)信息。并且隨著神經(jīng)網(wǎng)絡主干模型越來越深，特征圖的分辨率也越來越低，使小目標檢測面臨挑戰(zhàn)。一般深層網(wǎng)絡提取到的特征含有更豐富的語義信息，但是小目標相關(guān)的特征更多集中在淺層。雖然深層特征具有更強的語義表達能力，但是對小目標來說，它們可能并不是最相關(guān)的特征。本文針對小目標語義信息較少的問題設計了底部特征融合模塊，選擇FPN中的C2層和C3層，將低分辨率特征圖的深層語義與高分辨率特征圖的淺層區(qū)域細節(jié)相融合，得到更適合小目標的特征金字塔層SL。底部融合結(jié)構(gòu)如圖6所示。

首先，對FPN的P3*層進行卷積，使通道數(shù)擴大為原來的4倍，提高特征圖的表達能力。其次，使用由1*1卷積和ReLU激活函數(shù)組成的卷積塊進行多次迭代，提取P3*的特征，獲取其主要語義信息。再次，利用像素重排，將其通道數(shù)變?yōu)樵瓉淼?/4、空間維度擴大2倍，以此來提高特征圖的分辨率。再將提高分辨率的特征圖P3*與P2*進行通道拼接，得到1張新的特征圖。從次，將得到的特征圖使用1*1卷積和ReLU激活函數(shù)組成的卷積塊進行多次迭代，提取淺層特征圖中的可靠細節(jié)信息。最后，將高分辨率的特征圖P3*與具有淺層特征信息的特征圖進行像素疊加結(jié)合，得到新的用于小目標的FPN層，該層不僅包括淺層特征中的細節(jié)信息，還包括從深層中獲得的更豐富的語義信息。特征融合結(jié)構(gòu)如圖7所示。

將底部融合模塊得到的小目標層與C2*相加得到SL*，再將SL*進行3*3卷積得到最終的小目標層SL，由此得到了一個融合深層語義信息與淺層細節(jié)信息且包括更多小目標特征的特征層。

2.3 在目標檢測器中的應用

以經(jīng)典兩階段檢測器Faster RCNN為例。首先，在原有模型的基礎上，將本文改進的FPN連接到主干卷積網(wǎng)絡上，得到多層特征圖。其次，將其送入下一階段的區(qū)域生成網(wǎng)絡（RPN），得到候選框。再次，將候選框和多層特征圖一同送入感興趣區(qū)域池化（ROI Pooling），得到相應的特征表示。最后，經(jīng)過全連接層后，對特征表示進行目標分類和邊界框回歸，獲得最終檢測框。改進模型整體結(jié)構(gòu)如圖8所示。同理，可將本文改進的FPN應用到其他兩階段目標檢測器模型中，以提升小目標檢測的效果，成為針對小目標改進的檢測器模型。

3 試驗結(jié)果

3.1 試驗環(huán)境和參數(shù)設置

本文使用Ubuntu 18.04操作系統(tǒng)。硬件采用Intel（R） Xeon（R） Platinum 8352V CPU和顯存為24 GB的NVIDIA RTX 4090 GPU；軟件選擇Python 3.8.0、Cuda11.1?；赑ytorch 1.8.1框架搭建實驗平臺，并使用開源的目標檢測框架MMDetection（v3.2.0）進行模型訓練和評估。在訓練過程中，選擇隨機梯度下降（SGD）優(yōu)化器，動量因子和權(quán)重衰減因子分別設置為0.9和0.000 1，初始學習率為0.02，訓練迭代12個epoch，每個批量（batch_size）包括2個樣本。

3.2 數(shù)據(jù)集與評估指標

MS COCO數(shù)據(jù)集是目標檢測中使用最廣泛的通用數(shù)據(jù)集之一，將數(shù)據(jù)集中分辨率小于（32×32）ppi的目標定義為小目標。該數(shù)據(jù)集包括80個目標類別，并具有大量小目標物體數(shù)（標注約有41%的目標面積小于32×32）。目前駕駛安全和自動駕駛技術(shù)得到越來越多的關(guān)注，因此本文選用COCO 2017數(shù)據(jù)集中的停車標志類（stop_sign）進行試驗。此類共包括1 803張圖片，其中訓練集為1 734張，驗證集為69張。

本文試驗使用的評估指標包括平均精度（mAP）、平均召回率（mAR）以及針對小目標的平均精度（mAPs）和平均召回率（mARs）。

3.3 試驗結(jié)果分析

在試驗中，將本文改進的FPN分別應用到兩階段檢測器Faster RCNN和Cascade RCNN中，評估結(jié)果見表1。由表1可知，本文的改進目標檢測模型的精度均有所提升，對小目標的檢測效果更顯著。改進的Cascade RCNN模型的檢測精度提升明顯，雖然總精度只提高了2.5%，但是對小目標的檢測精度卻提高了11%。

檢測結(jié)果比較如圖9所示，圖9（a）～圖9（c）分別為原Cascade RCNN模型的檢測結(jié)果，圖9（d）～圖9（f）分別為本文的改進模型檢測結(jié)果。比較圖9（c）、圖9（f）可知，原模型并未檢測出小停車標志，而本文改進模型不僅能檢測出，還具有良好的檢測值。

4 結(jié)語

針對小目標所在的淺層語義信息不夠豐富和FPN頂層缺少上、下文信息的問題，本文提出了改進小目標檢測的目標檢測器模型算法。該算法對頂層補充上、下文信息并添加注意力機制增強特征，使整個網(wǎng)絡的特征進一步增強。并在底層進行深層與淺層特征融合，針對小目標得到了一個語義信息更豐富的淺層特征層。最后與原目標檢測器進行對比試驗，結(jié)果表明，改進模型在一定程度上提升了總精度，大幅提高了小目標的檢測精度。

參考文獻

[1]ZOU Z，CHEN K，SHI Z，et al.Object detection in 20 years：A Survey[J].Proceedings of the IEEE，2023，111（3）：257-276.

[2]張陽婷，黃德啟，王東偉，等.基于深度學習的目標檢測算法研究與應用綜述[J].計算機工程與應用，2023，59（18）：1-13.

[3]CHENG G，YUAN X，YAO X，et al.Towards large-Scale small"object detection：Survey and benchmarks[J].IEEE Transactions on pattern analysis and machine intelligence，2023，45（11）：13467-13488.

[4]陳科圻，朱志亮，鄧小明，等.多尺度目標檢測的深度學習研究綜述[J].軟件學報，2021，32（4）：1201-1227.

[5]潘曉英，賈凝心，穆元震，等.小目標檢測研究綜述[J].中國圖象圖形學報，2023，28（9）：2587-2615.