王興濤,單慧琳,孫佳琪,崔志強(qiáng),張培琰,龍見洋
(1.南京信息工程大學(xué) 電子與信息工程學(xué)院, 南京 210044; 2.無錫學(xué)院 電子信息工程學(xué)院, 江蘇 無錫 214105)
自深度卷積神經(jīng)網(wǎng)絡(luò)模型在ImageNet大規(guī)模圖像分辨競(jìng)賽(ILSVRC2012)上脫穎而出起,深度學(xué)習(xí)研究便進(jìn)入了快速發(fā)展階段,近幾年內(nèi),深度學(xué)習(xí)在國(guó)內(nèi)外均是重點(diǎn)研究對(duì)象。目前效果突出的深度卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測(cè)算法主要有2類:第一類是基于候選區(qū)域的目標(biāo)檢測(cè)算法,如R-CNN (Region-CNN)[1],Fast R-CNN[2],Faster R-CNN[3]和Mask R-CNN[4]等,但此類目標(biāo)檢測(cè)算法的檢測(cè)速度較慢,無法實(shí)時(shí)檢測(cè);第二類是基于回歸的目標(biāo)檢測(cè)算法,如SSD[5],YOLO[6],YOLOv2[7]和YOLOv3[8]等,此類目標(biāo)檢測(cè)算法的檢測(cè)速度較快,能夠?qū)崟r(shí)檢測(cè)。
深度學(xué)習(xí)被引用于各個(gè)領(lǐng)域,早在2016年的時(shí)候,Zhang等[9]介紹了面向遙感圖像理解的深度學(xué)習(xí)。由于遙感圖像的特殊性,圖像中的物體較小,類似于小目標(biāo),普通的深度學(xué)習(xí)算法對(duì)于小目標(biāo)的檢測(cè)準(zhǔn)確度較低,Courtrai等[10]提出針對(duì)遙感圖像的小目標(biāo)問題,引入基于殘差快的生成對(duì)抗網(wǎng)絡(luò)算法對(duì)圖像進(jìn)行超分辨率重構(gòu),從而得到待檢測(cè)目標(biāo)的大小和細(xì)節(jié)。Shamsolmoali等[11]針對(duì)物體部分缺少,提出一種將模塊劃分為類相似的子集的新型多塊特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)。但以上方法均忽略了復(fù)雜背景下的遙感圖像檢測(cè)。在2021年,何佳瑋[12]對(duì)YOLOv3算法進(jìn)行改進(jìn),針對(duì)遙感圖像中的微小飛機(jī)目標(biāo),作者引入CBAM注意力機(jī)制,將IoU替換成GIoU,增強(qiáng)了算法的檢測(cè)性能。同年,蘭旭婷等[13]提出替換SSD中的主干網(wǎng)絡(luò),并引入CBAM注意力模塊來提高飛機(jī)的檢測(cè)準(zhǔn)確率。次年,Zhang等[14]針對(duì)遙感飛機(jī)目標(biāo)引入K-means聚類算法,進(jìn)一步提高了小目標(biāo)檢測(cè)算法的性能。但以上2種改進(jìn)方式無法提高算法的速度,在忽略K-means聚類算法本身缺陷的同時(shí),經(jīng)典Faster R-CNN算法的輸入圖像尺寸固定,不具備旋轉(zhuǎn)檢測(cè)能力。同年,李冠典[15]針對(duì)于大幅面遙感影像存在背景復(fù)雜、飛機(jī)目標(biāo)呈稀疏性聚集等特點(diǎn),提出了一種飛機(jī)目標(biāo)檢測(cè)算法EAOD,但只適用于低分辨率下的遙感飛機(jī)目標(biāo)檢測(cè)。
為實(shí)現(xiàn)遙感圖像中的飛機(jī)小目標(biāo)的精準(zhǔn)檢測(cè),本研究中對(duì)YOLOv3算法進(jìn)行改進(jìn),提出了一種輕量級(jí)聚類CBAM注意力網(wǎng)絡(luò)(lightweight clustering CBAM attention network,LCCA-Net)。首先,使用MobileNetV2主干網(wǎng)絡(luò)替換原算法的主干網(wǎng)絡(luò),在MobileNetV2中加入CBAM注意力模塊,并將ReLU6替換成H-Swish,以更好地捕捉細(xì)節(jié)信息。然后,對(duì)損失函數(shù)加以修改,減少特征尺度,降低復(fù)雜背景對(duì)檢測(cè)精度的影響,加快識(shí)別速度;最后,采用K-means++聚類算法對(duì)數(shù)據(jù)集進(jìn)行分析提取預(yù)先先驗(yàn)框,提高算法的精度。
目前,在工業(yè)界用的最多的目標(biāo)檢測(cè)算法莫過于YOLOv3。YOLOv3在精度相當(dāng)?shù)耐瑫r(shí),YOLOv3的運(yùn)算速度也是其他模型的3到4倍。
YOLOv3的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,整個(gè)框架可以分為3個(gè)部分,分別是主干網(wǎng)絡(luò)部分(Darknet-53)、特征層融合部分以及分類檢測(cè)部分(圖中未畫出)。
YOLOv3的核心思想就是運(yùn)用3個(gè)不同大小的網(wǎng)格去劃分原始圖像,為了解決YOLOv2無法處理同一張擁有大尺度物品數(shù)據(jù)與小尺度物品數(shù)據(jù)的圖片,采用了金字塔網(wǎng)絡(luò)[16],預(yù)測(cè)大物體用13×13的網(wǎng)格(有最大的感受野),預(yù)測(cè)中等物體用26×26的網(wǎng)格(中等感受野),預(yù)測(cè)小物體用52×52的網(wǎng)格(較小的感受野)。使用Darknet-53主干網(wǎng)絡(luò)提高了模型的泛化性,有利于模型的訓(xùn)練和采集。
本研究中使用改進(jìn)后的MobileNetV2主干網(wǎng)絡(luò)替代YOLOv3原本的Darknet-53網(wǎng)絡(luò)。其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖1 YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)框圖Fig.1 YOLOv3 network structure diagram
圖2 改進(jìn)后的網(wǎng)絡(luò)模型Fig.2 An improved network model
為使網(wǎng)絡(luò)更有效地處理遙感圖像,將空間通道注意力機(jī)制加入MobileNetV2中。
如圖3所示,MobileNetV2的Bottleneck Residual block中有3個(gè)卷積層,輸入張量首先進(jìn)入1×1卷積升維層將低維空間映射到高維空間,再進(jìn)入BN數(shù)據(jù)標(biāo)準(zhǔn)化層和ReLU6激活函數(shù),然后進(jìn)入卷積核為3×3的DW卷積、BN數(shù)據(jù)標(biāo)準(zhǔn)化層和ReLU6激活函數(shù),最后進(jìn)入1×1卷積降維層、BN數(shù)據(jù)標(biāo)準(zhǔn)化層和ReLU6激活函數(shù)。
由于遙感圖像更加注重細(xì)節(jié),所以遙感圖像大多為低頻信號(hào)。為了更好地處理低頻信號(hào),在升維之前加入空間通道注意力機(jī)制(convolutional block attention module,CBAM)[17],使得該網(wǎng)絡(luò)在處理遙感網(wǎng)絡(luò)時(shí)更能關(guān)注特征圖的隱藏信息,提高被識(shí)別物體的權(quán)重,抑制背景區(qū)域的干擾,并且在一定程度上將不同空間中的關(guān)鍵區(qū)域特征進(jìn)行相關(guān)聯(lián)。
CBAM模塊由通道注意力模塊(channel attention module,CAM)和空間注意力模塊(spartial attention module,SAM)結(jié)合而成,相比于只用其一,能取得更好的效果,其結(jié)構(gòu)如圖4所示。
圖3 MobileNetV2的Bottleneck Residual blockFig.3 Bottleneck Residual block in MobileNetV2
圖4 CBAM結(jié)構(gòu)Fig.4 CBAM structure
CAM模塊對(duì)輸入特征圖分別進(jìn)行一次全局MaxPool和AvgPool操作,得到2個(gè)1×1×C的特征圖,再將得到的特征圖分別送入一共2層的神經(jīng)網(wǎng)絡(luò)中,第一層神經(jīng)元個(gè)數(shù)為C/r(r為減少率),第二層神經(jīng)元個(gè)數(shù)為C,生成了2個(gè)特征向量,最終將2個(gè)特征向量相加進(jìn)行sigmod函數(shù)操作,得到通道域的特征圖,最后將通道域的特征圖與輸入特征圖做乘法生成空間注意力模塊需要的輸入特征,其具體流程圖如圖5所示。
SAM模塊則是首先對(duì)通道注意力模塊輸出的特征圖分別進(jìn)行一次全局MaxPool和AvgPool操作,得到2個(gè)H×W×1的特征圖,然后將這2個(gè)特征圖進(jìn)行通道拼接,然后經(jīng)過一個(gè)卷積層降維為H×W×1,最終經(jīng)過sigmoid生成空間域的特征圖,最后將該特征圖和通道域的特征圖做乘法得到最終生成的特征,其具體流程如圖6所示。
圖6 SAM結(jié)構(gòu)Fig.6 SAM structure
考慮到原有的激活函數(shù)ReLU6在反向輸入的情況下,不會(huì)激活神經(jīng)元,并且在應(yīng)對(duì)一個(gè)大梯度的運(yùn)算會(huì)產(chǎn)生無法激活的狀態(tài),造成目標(biāo)在進(jìn)入網(wǎng)絡(luò)時(shí)會(huì)喪失目標(biāo)信息或信息被破壞,因此在升高維度時(shí),選擇使用H-Swish激活函數(shù),如式(1)所示,能夠減少計(jì)算核數(shù),避免信息丟失,更好地保留特征圖的特征信息。
(1)
改進(jìn)的Bottleneck Residual block如圖7所示。
圖7 改進(jìn)后的Bottleneck Residual blockFig.7 Improved Bottleneck Residual block
MobileNetV2模型具有較高的分類效率和較于輕量級(jí)的計(jì)算設(shè)備,因?yàn)樵趦H使用低維度提取特征時(shí),提取的目標(biāo)特征是有限的,為了提高提取目標(biāo)的信息的數(shù)量,在深度可分離卷積之前使用了1×1的網(wǎng)絡(luò)結(jié)構(gòu)將高維度的特征值映射在低維度的空間內(nèi),在計(jì)算深度可分離卷積后,再使用拓展鏈接層將計(jì)算后的,如圖8所示。
圖8 深度可分離卷積Fig.8 Depth separable convolution
在連接過程中,對(duì)于擴(kuò)展分析,經(jīng)過實(shí)驗(yàn)和實(shí)際分析確定由6倍擴(kuò)展組成的分離卷積網(wǎng)絡(luò)進(jìn)行運(yùn)算能夠較好地滿足需求。同時(shí)因?yàn)樾枰?×1的卷積核進(jìn)行維度轉(zhuǎn)換過程。在降維的過程中最大限度保留了目標(biāo)信息,從而達(dá)到在壓縮信息的同時(shí)保留了大量的目標(biāo)信息。在主干網(wǎng)絡(luò)內(nèi)部,Darknet-53使用的標(biāo)準(zhǔn)卷積在信息處理上只是用相鄰的2層特征層進(jìn)行融合,使得混在一起的物品無法得到很好的檢測(cè)效果,并且使用的FPN(特征金字塔結(jié)構(gòu))過深,加大了所需要檢測(cè)的目標(biāo)的計(jì)算量。因此,使用分組卷積和逐點(diǎn)卷積替換掉標(biāo)準(zhǔn)卷積部分,在此結(jié)構(gòu)下相同的輸入模型,結(jié)構(gòu)的卷積個(gè)數(shù)是Darknet-53網(wǎng)絡(luò)中標(biāo)準(zhǔn)卷積數(shù)量的1/3,使得計(jì)算處于二維下的計(jì)算狀態(tài),減少主干網(wǎng)絡(luò)的FPN部分,簡(jiǎn)化了卷積運(yùn)算,減少了網(wǎng)絡(luò)中的總體計(jì)算量,優(yōu)化了網(wǎng)絡(luò)模型的結(jié)構(gòu),因此能達(dá)到更快的檢測(cè)速度與更好的檢測(cè)精度。利用改進(jìn)后的主干網(wǎng)絡(luò)在DOTA數(shù)據(jù)集上進(jìn)行測(cè)試并與現(xiàn)有的網(wǎng)絡(luò)模型,如BERT[18]、DeepLab V3[19]、Faster RCNN[2]、MobileNetV2[20]、ResNet101[21]、U-Net[22]、YOLOv3_Darknet[8]等模型進(jìn)行對(duì)比,其中,每個(gè)模型使用1 000個(gè)樣本量(num_samples),循環(huán)訓(xùn)練次數(shù)(batch_size)為2次,比較的指標(biāo)為平均網(wǎng)絡(luò)延遲(Average_latency)和每秒查詢率(QPS),比較結(jié)果如表1所示。可以看出,對(duì)于平均網(wǎng)絡(luò)延遲這一指標(biāo),DeepLab V3的平均網(wǎng)絡(luò)延遲最高,為193.826 ms;其次是Faster RCNN,為162.795 ms;本研究中提出的LCCA-Net平均網(wǎng)絡(luò)延遲最低,只需要2.442 98 ms。
在每秒查詢率的指標(biāo)對(duì)比中,LCCA-Net的每秒查詢率最高,高達(dá)818.673;其次是BERT,它的每秒查詢率為130.409;DeepLab V3的每秒查詢率最低,為10.318 5。
表1 各網(wǎng)絡(luò)性能比較結(jié)果
由于在過去的網(wǎng)絡(luò)中,在一個(gè)多維度的卷積核的使用過程中通常選擇了3×3與5×5的多維度卷積核,但實(shí)驗(yàn)表明直接用1×1多維度卷積核來進(jìn)行有效地替換會(huì)達(dá)到以往那種較大的卷積核性能相同的效果。1×1多維度卷積核不僅在計(jì)算效能方面節(jié)約了大部分3×3的與5×5的模式那種約90%的計(jì)算效能,它還可以明顯減少3×3與5×5多維度卷積核所需要的參數(shù),降低了計(jì)算維度。3×3與5×5多維度卷積核在過去要實(shí)現(xiàn)跨通道的信息交互與資源整合,通常是以傳統(tǒng)的復(fù)數(shù)個(gè)Feature mAP的線性有機(jī)結(jié)合,而1×1的多維度卷積核可以明顯地使用一個(gè)Deature mAP,有效表現(xiàn)了在多維度通道的交互,以及多維度信息整合方面的優(yōu)勢(shì)。
在分類各個(gè)不同物體的任務(wù)和回歸壓縮成0~1的置信度方面,1×1卷積核有效替代了作為分類器的Fully Connected Layers(簡(jiǎn)稱FC層),在視覺任務(wù)方面降低了大量計(jì)算量。在大大節(jié)約實(shí)際部署的能源消耗的同時(shí),降低了對(duì)算力的要求。
在YOLOv3中因?yàn)槠渲鞲删W(wǎng)絡(luò)Darknet-53最終的輸出有3種不同的尺度的特征圖,分別使用對(duì)應(yīng)這3個(gè)不同尺度的Loss函數(shù),并將最終的計(jì)算損失結(jié)果求和,再進(jìn)行反向傳播。在對(duì)物體的判斷過程中,會(huì)出現(xiàn)3種結(jié)果:正例、負(fù)例和忽視,在輸入的特征圖中統(tǒng)計(jì)圖中的邊界框數(shù)量,針對(duì)特征圖中識(shí)別出的每一個(gè)對(duì)象,選擇IoU最大的作為正例,其他的邊界框如果大于0.5則剔除舍棄,剩下的作為負(fù)例。因此在計(jì)算和實(shí)際使用中會(huì)出現(xiàn)背景錯(cuò)誤檢測(cè)的問題。對(duì)于訓(xùn)練圖片的Ground Truth值,若中心點(diǎn)在某一個(gè)區(qū)域內(nèi),同時(shí)另外一個(gè)物體的中心點(diǎn)恰好也在此處,則會(huì)首先計(jì)算該區(qū)域內(nèi)所有框體與Ground Truth值進(jìn)行匹配,選擇最優(yōu)的作為預(yù)測(cè)框體計(jì)算,其余框體繼續(xù)按照正常流程進(jìn)行排除,則最后會(huì)產(chǎn)生無法成功識(shí)別出重疊的不同物體,將重疊的物體錯(cuò)誤識(shí)別的現(xiàn)象。文中加入了Focal Loss函數(shù)[23]來修正這個(gè)問題,在Focal Loss中側(cè)重根據(jù)樣本分辨的難易程度給樣本對(duì)應(yīng)的損失添加權(quán)重,因?yàn)榧词故侵眯哦群芨叩臉颖驹跇?biāo)準(zhǔn)的交叉熵內(nèi)也會(huì)存在些許的計(jì)算和實(shí)際損失。在實(shí)際應(yīng)用中置信度高的負(fù)樣本在總體樣本中占據(jù)絕大部分,使用比重將這部分損失去除或者減弱,能明顯地提升損失函數(shù)的效率并且能夠更好地計(jì)算Loss值的大小。所以在交叉熵之前加入權(quán)重因子形成新的損失函數(shù),如式(2)所示,其中l(wèi)og為交叉熵?fù)p失函數(shù)。
FL(Pt)=-(1-Pt)γlogPt
(2)
式(2)中:γ為權(quán)重的參數(shù),當(dāng)其值大于1時(shí),能取得更好的效果(在文中值取2);Pt值為該目標(biāo)物體的置信度。
給容易區(qū)分的樣本(置信度接近1或接近0)添加較小的權(quán)重α1,給難分辨的樣本(置信度在0.5附近)添加較大的權(quán)重α2,其表達(dá)式為
Loss=a1*FL易區(qū)分+a2*FL難區(qū)分
(3)
損失函數(shù)的計(jì)算由難區(qū)分的樣本主導(dǎo),將損失函數(shù)的重點(diǎn)集中于難分辨的樣本上。Focal Loss在處理類不均衡問題,效果明顯優(yōu)于在YOLOv3中使用的損失函數(shù)。
由于飛機(jī)遙感圖像檢測(cè)過程中,圖片中被測(cè)物體的大小和位置均不固定,若在檢測(cè)前預(yù)先設(shè)置幾個(gè)固定大小的先驗(yàn)框作為初始檢測(cè)框,在檢測(cè)時(shí)根據(jù)初始檢測(cè)框定位當(dāng)前物體,可以提高算法的精度以及速度。
采用K-means++聚類算法對(duì)DOTA數(shù)據(jù)集進(jìn)行聚類分析。K-means++聚類算法由K-means聚類算法改進(jìn)得到,具體區(qū)別為初始化聚類中心的選擇,K-means算法的聚類中心是在最大值和最小值之間隨機(jī)生成,這一操作導(dǎo)致聚類中心選擇交差,最終影響結(jié)果。K-means++聚類算法的基本思路如下:
1) 根據(jù)數(shù)據(jù)集,隨機(jī)選擇一個(gè)初始聚類中心;
2) 計(jì)算數(shù)據(jù)集中每一個(gè)樣本與已經(jīng)初始化的聚類中心之間的距離,并選擇出最短的距離,記為di;
3) 用概率的方法選擇距離最大的樣本作為新的聚類中心,距離越大,概率越大;重復(fù)步驟2)、步驟3),直到找到K個(gè)聚類中心;
4) 利用K-means算法計(jì)算出最終的聚類中心。
DOTA數(shù)據(jù)集中大多數(shù)邊界框在(0.15,0.1)附近,有少量較大的邊界框位于(0.8,0.7)附近,如圖9所示。
圖9 數(shù)據(jù)集聚類分析Fig.9 Dataset clustering analysis
聚類中心數(shù)與平均重疊度的關(guān)系如圖10所示,當(dāng)K的取值為1~20時(shí),當(dāng)K取值大于10時(shí),平均重疊率趨于平穩(wěn)。由于K的取值影響網(wǎng)絡(luò)的檢測(cè)時(shí)間,文中的聚類中心數(shù)設(shè)置為10,在保證精度的同時(shí)節(jié)約了檢測(cè)時(shí)間。
圖10 聚類中心數(shù)與平均重疊度的關(guān)系Fig.10 Relationship between the number of cluster centers and average overlap
最終聚類中心分布如圖11所示,當(dāng)K取10時(shí)IoU為0.893,先驗(yàn)框取值分別為:(18,18)、(32,30)、(44,48)、(57,63)、(89,86)、(127,145)、(165,131)、(175,173)、(237,260)、(406,390)。
圖11 聚類中心分布Fig.11 Cluster center distribution
為了驗(yàn)證算法的真實(shí)性與說服力,本研究中采用YOLOv3與改進(jìn)YOLOv3算法對(duì)DOTA數(shù)據(jù)集中的遙感飛機(jī)圖像進(jìn)行處理。訓(xùn)練好數(shù)據(jù)后,修改測(cè)試文件的形參,將最后一輪epoch產(chǎn)生的checkpoint文件夾中的best.pth地址設(shè)置成權(quán)重文件的地址,調(diào)用test.py,對(duì)含有飛機(jī)的遙感圖像進(jìn)行處理,并在inference文件夾中保存測(cè)試輸出圖片數(shù)據(jù)。
本研究中分別用2種模型測(cè)試5張圖片,使實(shí)驗(yàn)結(jié)果可視化,以便肉眼觀察其檢測(cè)效果,處理結(jié)果如圖12所示。
如圖12(a)所示,表示每一張圖片的原始圖像,僅憑肉眼無法瞬間判斷出飛機(jī)存在的方位;圖12(b)表示YOLOv3原算法處理的結(jié)果,其主干網(wǎng)絡(luò)為Darknet-53,相比于MobileNetV2,速度更慢;圖12(c)表示本研究中提出的改進(jìn)YOLOv3算法處理的結(jié)果。從準(zhǔn)確率來看,圖12(b)均為0.75左右, 圖12(c)平均準(zhǔn)確率為0.91,準(zhǔn)確率提升明顯。在圖12的第二行中,飛機(jī)數(shù)量明顯增多,但LCCA-Net算法的準(zhǔn)確率依然很高,也不存在多檢漏檢的情況。
除精確率以外,為更直接描述出本文中提出的算法的具體性能,文中分別從mAP_0.5、算法檢測(cè)時(shí)間、權(quán)重模型、Loss曲線與召回率五個(gè)方面進(jìn)行數(shù)據(jù)說明,以此來綜合驗(yàn)證算法的檢測(cè)性能。
本文中提出的LCCA-Net由于使用輕量級(jí)主干網(wǎng)絡(luò),在提高識(shí)別精度的同時(shí)還提高了算法檢測(cè)速度,具體的數(shù)據(jù)指標(biāo)如表2所示,將mAP_0.5從61.7提高到了91.3,在檢測(cè)速度方面,處理一幀圖片的速度提高了約8 ms,權(quán)重模型的大小也有18.8 MB減少到了8.0 MB。
在Loss曲線方面,將改進(jìn)前后的Loss值進(jìn)行可視化處理,得出了Loss曲線,如圖13所示,樣本數(shù)量為400時(shí),改進(jìn)前的初始Loss值比改進(jìn)后的初始Loss值更高,并且在經(jīng)過200次迭代以后趨近于平穩(wěn),且一直維持在0.25以下,由此可以得出,改進(jìn)后的算法能夠提高檢測(cè)目標(biāo)的速度和準(zhǔn)確性。
圖13 檢測(cè)結(jié)果的Loss曲線Fig.13 Loss curve of detection results
Recall表示召回率,是用來表示一個(gè)網(wǎng)絡(luò)能夠鑒別所有正確實(shí)例的能力,對(duì)mAP_0.5的提升大部分來自于Loss函數(shù)對(duì)于召回率的提升,如圖14所示,即本研究中算法在最后的檢測(cè)中能在前n個(gè)實(shí)例中找到75%~80%的正確實(shí)例,而原算法在最后的檢測(cè)時(shí)只能保持在60%~70%左右,對(duì)于糾正正確檢測(cè)有很大的提升。
圖14 Recall曲線Fig.14 Recall curve
對(duì)YOLOv3算法進(jìn)行改進(jìn),提出一種輕量級(jí)聚類CBAM注意力網(wǎng)絡(luò)LCCA-Net,得到如下結(jié)論:
1) 使用輕量級(jí)MobileNetV2替代YOLOv3中的Darknet-53主干網(wǎng)絡(luò),減少了檢測(cè)時(shí)間;
2) 使用H-Swish激活函數(shù)替代MobileNetV2中Bottleneck Residual block第一層中的ReLU6激活函數(shù),避免信息損失,保留了特征圖的特征信息;
3) 使用改進(jìn)后的Focal loss損失函數(shù)替代YOLOv3中原始的損失函數(shù),修正了無法成功識(shí)別出重疊的不同物體、將重疊的物體錯(cuò)誤識(shí)別的現(xiàn)象;
4) 使用K-means++聚類對(duì)DOTA數(shù)據(jù)集進(jìn)行聚類分析,提高了對(duì)小目標(biāo)識(shí)別的準(zhǔn)確度;
5) 在MobileNetV2中Bottleneck Residual block第一層開始處加入空間通道注意力機(jī)制,使得網(wǎng)絡(luò)處理遙感圖像時(shí)更能關(guān)注特征圖的隱藏信息,提高被識(shí)別物的權(quán)重,抑制背景區(qū)域的干擾,并且在一定程度上將不同空間中的關(guān)鍵區(qū)域特征進(jìn)行相關(guān)聯(lián);
6) 去除3×3與5×5多維度卷積核,保留1×1的多維卷積核,有效體現(xiàn)了在多維度通道的交互。在DOTA數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,實(shí)驗(yàn)結(jié)果表明:文中將平均檢測(cè)時(shí)間從36.6 ms 減少到了28.42 ms,將mAP_0.5從61.7提高到了91.3,能夠更快更好地實(shí)現(xiàn)對(duì)遙感飛機(jī)圖像的檢測(cè)。