馬田源,孫 涵
(南京航空航天大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 南京 211106)
近年來,隨著無人機制造成本和使用難度的不斷降低,無人機得以迅速應(yīng)用到各行各業(yè),普通人也可以很容易操控無人機。這給人們的生產(chǎn)和生活帶來了很大方便,但與此同時,無人機“黑飛”也給空中交通、公共安全等領(lǐng)域的監(jiān)管帶來了巨大挑戰(zhàn)。因此,作為無人機監(jiān)管的重要環(huán)節(jié),對無人機小目標的檢測就成為了目前亟待解決的關(guān)鍵問題。
目前無人機檢測的方案有很多種,基于雷達、聲、無線電、光電設(shè)備等。這些利用無人機的物理屬性對無人機進行定位的技術(shù)非常常見,但是這些檢測方案往往需要非常昂貴的設(shè)備和嚴格的配置。基于視覺的方法則成本較低,配置相對簡單,且易于部署。
而今,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,其在計算機視覺領(lǐng)域取得了大量的突破,優(yōu)秀的工作不斷涌現(xiàn)出來,早期的工作例如Fast R-CNN[1]、Faster R-CNN[2]、YOLO[3]等,在各個通用數(shù)據(jù)集上均取得了不錯的成績。后來何愷明等人提出了特征金字塔融合網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[4],該網(wǎng)絡(luò)由自底向上和自頂向下兩條通路以及一條橫向連接三部分構(gòu)成。首先,自底向上進行特征提??;然后,橫向連接對齊通道數(shù)目;接著,自頂向下進行特征融合;最后,得到具有多尺度特征的特征圖進行預(yù)測。該方法通過將語義信息從深層傳播到淺層來實現(xiàn)多尺度的特征融合,使深層豐富的語義信息得以傳遞到淺層,解決了淺層語義信息缺失的問題,提高了網(wǎng)絡(luò)對不同尺度目標,尤其是對小目標的檢測性能。因此FPN在各種通用的目標檢測方法中普遍被采用,例如RetinaNet[5]、FCOS[6]等工作。然而,無人機小目標與通用尺度的目標不同,它尺度極小,通常占整張圖像的像素比低于0.1%,且小型無人機鏤空的外觀,使其與背景融為一體,特征極不明顯,檢測難度很高。
該文總結(jié)了FPN方法在無人機目標檢測任務(wù)中表現(xiàn)不佳的三點原因:(1)原始FPN上采樣所使用的最近鄰插值法會造成特征偏移失真,這些偏移會對無人機小目標檢測造成很大的影響;(2)無人機小目標通常在網(wǎng)絡(luò)淺層被檢測出來,而網(wǎng)絡(luò)淺層特征的語義信息缺失問題導(dǎo)致網(wǎng)絡(luò)對小目標檢測性能不佳。因此原始的FPN方法將深層的語義信息傳遞到淺層來緩解這個問題,但是在FPN的實際操作過程中,通道維度對齊的做法仍會產(chǎn)生大量通道信息衰減,造成深層語義信息向淺層傳遞不足的問題。對于更需要深層語義信息補充的無人機這類極小目標來說,語義信息不足會產(chǎn)生更大的影響;(3)在FPN特征融合時,網(wǎng)絡(luò)最深層特征只有本層的語義信息,同其他層產(chǎn)生了語義差異,這種差異在一定程度上會影響后續(xù)的推理。
為了解決上述問題,基于RetinaNet提出了新的多尺度特征融合方式,具體貢獻如下:
(1)受到超分辨率領(lǐng)域中效果十分優(yōu)秀的像素洗牌(Pixel Shuffle,PS)[7]上采樣方式的啟發(fā),設(shè)計了像素洗牌上采樣模塊(Pixel Shuffle Unit,PSU),將其作為特征融合網(wǎng)絡(luò)中的上采樣方法,解決特征失真問題,并且使深層的語義信息得到充分利用。
(2)設(shè)計了像素洗牌特征融合網(wǎng)絡(luò) (Pixel Shuffle Feature Fusion,PSFF)。采用PSU改進了上采樣方式,并且重構(gòu)了特征通道融合流程。降低了深層語義信息向淺層傳遞過程中的衰減,使深層的語義信息能夠有效地傳遞到淺層,進而增強淺層無人機小目標的特征表示。
(3)增加了深層語義增強模塊(High-level Semantic Enhancement,HSE)。在網(wǎng)絡(luò)深層追加特征提取模塊,使網(wǎng)絡(luò)可以提取到更深層的語義信息,提高網(wǎng)絡(luò)整體的特征提取能力,同時消除FPN最深層同其他層之間的語義差異。
實驗結(jié)果驗證,在自建蜂群無人機數(shù)據(jù)集上,與其他類似特征融合方式相比,提出的新特征融合方式具有明顯優(yōu)勢,基于RetinaNet的檢測效果提升了1.7%,精度達到了91.2%。
通用目標檢測方法主要分為兩個大方向:一是以Faster R-CNN[2]、Cascade R-CNN[8]、Grid R-CNN[9]、Sparse R-CNN[10]為代表的二階段目標檢測方法。這類方法首先預(yù)測出目標可能出現(xiàn)的候選區(qū)域(Region Proposal),再對該區(qū)域內(nèi)的目標進行目標檢測和類別預(yù)測[11],這類方法精度相對較高,但是模型相對復(fù)雜,且推理速度較慢;二是以YOLO[3,12-13]系列、SSD[14-16]系列、RetinaNet為代表的一階段目標檢測方法。這類方法沒有復(fù)雜的預(yù)測候選區(qū)域的過程,直接根據(jù)輸入圖像預(yù)測出目標的類別和檢測框的位置,因此這類方法具有速度快、開銷低的優(yōu)點,但是檢測精度往往不如二階段檢測方法。
為了應(yīng)對不同尺度的目標檢測,何愷明等人首先提出了特征金字塔融合網(wǎng)絡(luò)FPN[4]。后續(xù)對FPN進行改進的多種多尺度特征融合方法相繼提出。例如PAFPN[17]采用雙向融合,在原有自頂向下融合的基礎(chǔ)上,增加了反向傳遞,縮短了淺層與深層特征之間的信息路徑,在一定程度上提高了信息的利用率,讓融合效率提高。NAS-FPN[18]在多尺度特征融合網(wǎng)絡(luò)中,將神經(jīng)網(wǎng)絡(luò)搜索出來的不規(guī)則拓撲結(jié)構(gòu)作為融合網(wǎng)絡(luò),效果優(yōu)異,但訓(xùn)練成本極高。文獻[19]提出了HRFPN,使特征金字塔在進行下采樣的過程中保留盡可能多的細節(jié)信息。BiFPN[20]中重復(fù)堆疊簡化的PAFPN,同時引入權(quán)重參數(shù),來平衡不同尺度的特征信息。文獻[21]在顯著性檢測領(lǐng)域提出了多尺度特征金字塔網(wǎng)格MFPG來豐富語義信息。
基于傳統(tǒng)方法的無人機檢測工作如下:文獻[22]采用基于卡爾曼模型的方法動態(tài)地對無人機進行檢測和跟蹤。文獻[23]利用無人機本身的移動性、振動性、空間性這三個本身的物理特性來發(fā)現(xiàn)并定位無人機?;谏疃葘W(xué)習(xí)的無人機檢測工作如下:文獻[24]在YOLOv3中引入多尺度的特征圖融合方法,以此提升無人機檢測精度。文獻[25]基于RetinaNet構(gòu)建了無人機目標檢測網(wǎng)絡(luò),對多旋翼無人機進行檢測識別,取得了較好的效果。文獻[26]基于SSD,將高層的特征引入到淺層,以此增強淺層無人機小目標的特征表示,來提高網(wǎng)絡(luò)對無人機的檢測效果。文獻[27]受到人臉檢測方法的啟發(fā),設(shè)計了輕量級迭代的無人機檢測網(wǎng)絡(luò)TIB-Net,取得了不錯的檢測效果。
原始RetinaNet[5]在采用FPN的基礎(chǔ)之上,又引入聚焦損失Focal Loss的概念,解決了類不平衡問題,提高了一階段目標檢測方法的精度,同時也保持了較高的檢測速度。其網(wǎng)絡(luò)由三個主要部分構(gòu)成:一是特征提取的主干網(wǎng)絡(luò);二是多尺度特征融合網(wǎng)絡(luò);三是分類和邊界框回歸的檢測網(wǎng)絡(luò)。因為該方法具有較高的檢測速度,且結(jié)構(gòu)清晰易于擴展,對小目標有較好的檢測效果,所以該文采用該框架作為基本的檢測框架。
總體結(jié)構(gòu)如圖1所示??蚣芑赗etinaNet,該文重新設(shè)計了新的多尺度特征融合方法。其中Backbone部分采用ResNet50[28]進行自底向上的特征提取。多尺度特征融合部分采用像素洗牌融合網(wǎng)絡(luò)PSFF進行自頂向下的多尺度特征融合,深層語義增強模塊HSE繼續(xù)提取更深層次的語義信息,并且注入到PSFF中,讓深層的語義信息可以更有效地傳遞到淺層。最后為兩個FCN全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)[29]分類分支和檢測框回歸分支。
圖1 總體結(jié)構(gòu)
原始FPN網(wǎng)絡(luò)在自底向上的通路中,隨著網(wǎng)絡(luò)的不斷加深,特征通道數(shù)會逐層增加,特征圖尺寸會逐層減小。在網(wǎng)絡(luò)的最深層,通道數(shù)量最多。例如ResNet50的{C2,C3,C4,C5}特征層分別對應(yīng){256,512,1 024,2 048}個特征通道,最深層的C5通道數(shù)量為2 048包含最豐富的語義信息。在橫向連接中,由于特征融合需要對齊特征維度,所以該步驟將得到的特征層的通道維數(shù)統(tǒng)一壓縮到256。在自頂向下的通路中,從頂層開始,進行2倍最近鄰上采樣的同時,與橫向連接對齊通道數(shù)量的特征層進行特征融合。
可見,原始FPN上采樣的過程造成了特征失真;在進行橫向連接時將所有層的通道維數(shù)統(tǒng)一壓縮到256再進行自頂向下的特征融合的做法,造成了深層特征沒有充分地傳遞到淺層的問題;最深層特征F5直接來自C5層,沒有融合其他層的特征,只具備一層的語義信息,造成了深層同其他層之間的語義差異。
考慮以上因素,該文對特征融合網(wǎng)絡(luò)進行了重新設(shè)計,其中包括兩大塊:其一,使用像素洗牌上采樣模塊PSU構(gòu)造了像素洗牌特征融合網(wǎng)絡(luò)PSFF。該網(wǎng)絡(luò)既解決了原始FPN上采樣方法的缺陷,又可以讓深層特征充分地參與到向淺層傳遞的過程中去,使深層語義信息更有效地傳遞到淺層,以此提升淺層小目標的特征表示。其二,引入深層語義增強模塊HSE,既解決深層語義差異問題,又可以提取更深層的語義信息,提高網(wǎng)絡(luò)整體的特征提取能力。
為此,該文首先引入深層語義增強模塊HSE,來補充深層缺失的語義信息;接著,采用像素洗牌上采樣模塊PSU,利用深層大量的通道信息進行上采樣,在完成上采樣的同時,將特征的維度信息轉(zhuǎn)化到空間尺度信息中去,以此將深層的語義信息由低分辨率的特征圖帶入到高分辨率特征圖,既對齊了維度又對齊了尺度;然后,進行逐像素相加和,即特征融合;最后進行去除混疊和通道壓縮。具體實現(xiàn)如圖2所示,其中{C3,C4,C5}為來自主干網(wǎng)絡(luò)Backbone也就是ResNet50特征提取網(wǎng)絡(luò)的第3、第4和第5層的特征,{F3,F(xiàn)4,F(xiàn)5}為對應(yīng)的輸出。PSU為像素洗牌上采樣模塊。C5*為深層語義增強模塊HSE的輸出,Conv-3×3用來去除混疊效應(yīng)。圖中“64x”代表相對于原始網(wǎng)絡(luò)輸入圖像下采樣64倍的尺度,“64x->32x”代表該過程圖像尺度由64x上采樣到32x,“2 048->256”表示通道數(shù)從2 048變?yōu)?56。“⊕”表示特征圖之間逐像素相加。
圖2 像素洗牌特征融合網(wǎng)絡(luò)PSFF
原始的特征金字塔融合網(wǎng)絡(luò)FPN采用最近鄰插值的上采樣法,該方法在上采樣的過程中使用鄰近像素值進行填充,簡單且不需要復(fù)雜計算。但該方法在計算上采樣圖像像素點對應(yīng)位置時,對非整數(shù)的計算結(jié)果直接向下取整的做法會造成像素偏移,使某一區(qū)域的像素值相同,讓像素變化不連續(xù),產(chǎn)生鋸齒狀失真??紤]以上因素,該文采用了像素洗牌[7]上采樣方法,該方法具有高效、快速、無參的特性,更重要的是,它可以充分利用主干網(wǎng)絡(luò)最深層大量的通道信息,將其作為像素洗牌所需的像素信息,進行像素洗牌的上采樣。簡言之,就是可以把通道維度信息轉(zhuǎn)換成空間信息保留下來。如此,不僅避免了簡單最近鄰差值特征失真的缺陷,還可以最大程度地讓深層豐富的語義信息傳遞到淺層,讓淺層獲得到更加豐富的深層語義信息,提升淺層無人機小目標特征表示,進而提升網(wǎng)絡(luò)對無人機小目標的檢測性能。
圖3 像素洗牌上采樣原理PS
將該做法整理為公式(1),其中PS代表Pixel Shuffle,是像素洗牌英文名簡稱,默認擴張因子(Scale)為2,代表使用像素洗牌方法進行2倍上采樣,其中輸入為x'∈Rh×w×4c其通道數(shù)量為4c,輸出為y'∈R2w×2h×c其通道數(shù)量為c,在這個過程中通道數(shù)由4c減少到c,圖像尺寸由h×w擴增到2h×2w。
直觀來看,可以在原始FPN方法的基礎(chǔ)上直接替換上采樣方式。首先,將統(tǒng)一壓縮到256維的特征進行4倍通道擴增;接著,采用像素洗牌上采樣,通道數(shù)還原為256;最后,與上層特征進行融合。以上作法雖然解決了原始FPN上采樣特征失真問題,但是并沒有解決深層特征大量丟失的問題。因為橫向連接的過程特征首先被統(tǒng)一壓縮到256維,這一造成深層特征大量丟失問題的根源,沒有被改變。所以該文未予采用。
圖4 像素洗牌上采樣模塊PSU
y'=PS(x')
(1)
y=Conv-3×3(PS(Conv-1×1(x)))
(2)
在原始的FPN中,融合后網(wǎng)絡(luò)的最深層F5層僅包含它本層一個尺度的語義信息,而其他層則融合了多層語義信息,同其他層之間產(chǎn)生了語義差異。對此,該文設(shè)計了深層語義增強模塊HSE,旨在向F5中注入更深層次的語義信息,消除該層同其他層之間的語義差異問題,同時提高網(wǎng)絡(luò)整體的特征提取能力。
HSE具體流程如圖5所示,采用并行分支結(jié)構(gòu)。第一個分支首先進行全局平均值池化,接著用廣播的形式還原特征尺度,以獲取全局信息;第二個分支采用瓶頸結(jié)構(gòu)結(jié)合3×3卷積獲取局部信息;第三個分支利用最大值池化進行下采樣,結(jié)合3×3卷積,然后用1×1卷積進行通道維度擴增,再通過像素洗牌還原特征尺度,以再次增大感受野來獲取更豐富的語義信息。
圖5 深層語義增強模塊HSE
最后HSE模塊以殘差形式加入特征融合網(wǎng)絡(luò),防止網(wǎng)絡(luò)退化。在特征融合網(wǎng)絡(luò)中引入該深層語義增強模塊,首先消除了最后一層F5與其他層之間的語義差異;其次,在層內(nèi)形成了多層級的特征提取,提高了網(wǎng)絡(luò)整體的特征提取能力;最終為自頂向下的特征融合過程提供了更加豐富的深層語義信息。因此使淺層小目標可以獲得更多深層的語義信息,進而提升網(wǎng)絡(luò)對無人機小目標的特征提取能力。
在訓(xùn)練設(shè)置部分,模型的損失是兩個部分損失的加和,第一部分為回歸子網(wǎng)絡(luò)的檢測框回歸損失,采用標準的Smooth L1 Loss損失;第二部分為分類子網(wǎng)絡(luò)的分類損失,采用帶平衡因子的聚焦損失(Focal Loss)[5],其形式如公式(3)。
FL(pt)=-αt(1-pt)γlog(pt)
(3)
FL代表Focal Loss,其中αt為正負樣本的加權(quán)平衡參數(shù),值越大正樣本的權(quán)重越大,這里設(shè)置為0.25。γ為聚焦系數(shù),控制樣本權(quán)重更新速率,是一個大于0的超參數(shù),該文設(shè)置為2。pt表示樣本屬于正樣本的概率,(1-pt)γ是權(quán)重表達式。以上超參數(shù)設(shè)置均來自RetinaNet[5]原文。
Focal Loss聚焦損失函數(shù)就是給簡單樣本和困難樣本分別加上一組權(quán)重系數(shù)。這個系數(shù)跟模型預(yù)測的樣本屬于真實類別的概率相關(guān)。對于簡單樣本,如果模型預(yù)測該樣本屬于真實類別的概率很大,那該樣本對于模型來說就是簡單樣本,此時的pt接近于1,權(quán)重系數(shù)接近于0,如此就會降低簡單樣本的損失權(quán)重。對于困難樣本,如果模型預(yù)測某樣本屬于真實樣本的概率很小(也可以說這很可能是錯誤分類),那么該樣本對于模型來講就屬于困難樣本,此時的pt很小,權(quán)重系數(shù)接近于1,如此就會讓困難樣本的損失得以最大限度地保留。無人機小目標尺度小、特征少、區(qū)分度不高導(dǎo)致其難以識別,對于網(wǎng)絡(luò)來說屬于困難樣本。而聚焦損失又能夠讓網(wǎng)絡(luò)聚焦于困難樣本,因此采用該損失函數(shù),有利于網(wǎng)絡(luò)學(xué)習(xí)無人機小目標的特征,提高對無人機小目標的檢測性能。
實驗采用自建的蜂群無人機數(shù)據(jù)集。以往的無人機數(shù)據(jù)集都是單架次的,即每張圖像中只存在一個無人機目標。但真實場景中會有多架無人機同時出現(xiàn)的情況,目前還沒有這類公開的數(shù)據(jù)集。而在圖像中剪切粘貼很多架次無人機,這種方式生成的無人機群數(shù)據(jù)集又有失樣本的真實性。因此本次研究專門采集了真實的無人機群數(shù)據(jù),并且為保證數(shù)據(jù)的多樣性,涵蓋了不同天氣條件、不同時間段、不同地點、不同距離以及不同視角的數(shù)據(jù)。如圖6,其中(a,b,c)分別為晴天、陰天、霧霾天,(a,b,c)分別為中午、下午和傍晚,(b/c,d,a/e/f)分別為城市、鄉(xiāng)村、凈空,(a/e/f,b/c/d)分別為遠距離和近距離圖像,(e,f)分別為下面視角和側(cè)面視角,且以上每個場景關(guān)注的空域中都有包含1~10架次無人機的無人機編隊。所有數(shù)據(jù)均通過手持攝像頭和固定機位的云臺攝像頭以視頻形式采集,然后抽幀獲得,最后對其中2 843張圖像進行標注,標注采用VOC數(shù)據(jù)集[30]的標注格式。
圖6 數(shù)據(jù)集中多場景無人機樣本
實驗環(huán)境如下:Ubuntu20.04 LTS系統(tǒng)、Intel i9-9900KCPU×16、內(nèi)存為64 GB、兩張NVIDIA 2080Ti顯卡(12 GB 顯存) 、Pytorch1.7.1、CUDA10.2、CUDNN7.6.5,實驗采用的預(yù)訓(xùn)練模型是由Pytorch官方提供的在Imagenet上進行了預(yù)訓(xùn)練的模型。
為公平起見,所有的實驗結(jié)果都是基于以下訓(xùn)練參數(shù):迭代次數(shù)為12、動量為0.9、批大小為4、初始學(xué)習(xí)率為0.000 5、每訓(xùn)練4個epoch權(quán)重衰減為原來的0.3倍。為了降低模型計算開銷,所有圖像在送入模型前尺寸都被統(tǒng)一調(diào)整為1 333×800。
對于RetinaNet,主干網(wǎng)絡(luò)全部采用ResNet50作為特征提取網(wǎng)絡(luò),其余配置與RetinaNet原文配置相同。
3.3.1 評估指標
為了評價該方法的有效性,該文采用VOC[30]數(shù)據(jù)集的評價指標,使用mAP (mean Average Precision)來評價檢測器的性能。mAP是由精確率和召回率得到的。其計算公式如公式(4)和公式(5):
(4)
(5)
其中,p(Precision)表示精確率、r(Recall)表示召回率,AP (Average Precision)表示平均精度,是計算在不同召回率下精度的平均值,N表示類別數(shù)目,由于該文無人機檢測任務(wù)目標類別數(shù)為1,因此這里的N值設(shè)為1。
3.3.2 實 驗
為驗證該方法的有效性,表1展示了模塊消融實驗。分別使用深層語義增強模塊HSE和像素洗牌融合網(wǎng)絡(luò)PSFF??梢钥闯鲈谥灰肷顚诱Z義增強模塊HSE時模型性能提升0.7%,只引入像素洗牌融合網(wǎng)絡(luò)PSFF時,模型性能提升0.9%,在兩者都加入網(wǎng)絡(luò)時,模型精度提升到91.2%,提升了1.7%。
表1 模塊消融實驗
如表2所示,其中Neck表示該方法的多尺度特征融合部分,Backbone表示主干網(wǎng)絡(luò)部分。第1行為基準實驗,第2、3行分別為使用HRFPN和PAFPN特征融合方法的實驗結(jié)果,最后一行中的Ours代表該文提出的多尺度特征融合方法。可以看出,同其他特征融合方法相比,使用該文提出的新的特征融合方式具有更好的結(jié)果,對無人機小目標檢測的精度更高。
表2 對比實驗
另外,該文也與使用其他方法進行無人機檢測的方法進行對比。這里由于缺乏公開的代碼,使用當前最優(yōu)秀的通用目標檢測方法進行對比實驗。表2下半部分展示的對比實驗包括:二階段的方法Cascade R-CNN、Sparse R-CNN,一階段的方法FCOS、不同版本的YOLO,同樣專門進行無人機檢測的TIB-Net、TIB-Net的改進方法(表2中的TIB-Net++)。從結(jié)果上看,文中方法都優(yōu)于它們。為了展示模型的性能,圖7將部分場景的檢測結(jié)果進行展示,其中右上角為圖中無人機目標的放大圖。可以看出,RetinaNet在引入該文提出的新特征融合方式之后,能夠在不同場景、不同天氣、不同光照條件下得到較好的檢測結(jié)果,網(wǎng)絡(luò)具有魯棒性,并且檢測結(jié)果十分精準。
新的特征融合方法在特征融合的過程中緩解了上采樣造成的失真、深層語義信息衰減以及深層語義差異問題。所以,網(wǎng)絡(luò)可以提取到更加豐富的語義信息,并且深層的語義信息可以更好地豐富淺層小目標的特征表示。因此,該網(wǎng)絡(luò)模型可以根據(jù)無人機所處的背景調(diào)整其置信度,有效地過濾掉一些不合理的誤檢情況,進而提升無人機小目標在各種場景的檢測性能。
對于檢測失敗的情況,例如,圖7誤檢中誤將電線桿的一部分誤檢為無人機,從展示的放大細節(jié)來看,電線桿支架部分的外觀同無人機確實十分接近,所以網(wǎng)絡(luò)將其誤檢為無人機目標。圖7漏檢中,漏檢了一架無人機,原因可能是該無人機由于距離較遠,且與背景墻的顏色和線條較為接近,導(dǎo)致漏檢。對于這類背景十分復(fù)雜的情況,網(wǎng)絡(luò)的檢測效果仍有待提高。
圖7 檢測結(jié)果
基于RetinaNet,根據(jù)無人機小目標的特點進行了有針對性地改進。首先,通過引入深層語義增強模塊HSE,解決深層語義差異問題,同時又能提高網(wǎng)絡(luò)整體的特征提取能力;接著,基于像素洗牌上采樣模塊PSU設(shè)計了像素洗牌特征融合網(wǎng)絡(luò)PSFF,改進了上采樣方式造成特征失真的問題,使網(wǎng)絡(luò)能夠?qū)⑸顚拥恼Z義信息更有效地向淺層傳遞,以此增強淺層小目標的特征表示;最后,在自建蜂群無人機數(shù)據(jù)集上進行實驗,驗證了提出的方法可以提升無人機小目標的檢測效果。
對于接下來的工作,準備從目標之間的關(guān)系入手,嘗試建立無人機與背景之間、無人機群之間的關(guān)聯(lián)性,以此解決復(fù)雜場景中漏檢和誤檢的問題。