亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合旋轉(zhuǎn)框和注意力機(jī)制的輕量遙感圖像檢測(cè)模型

        2023-09-26 04:21:46李朝輝安金堂賈紅雨方艷
        關(guān)鍵詞:特征提取實(shí)例尺度

        李朝輝,安金堂,賈紅雨,方艷

        大連海事大學(xué)航運(yùn)經(jīng)濟(jì)管理學(xué)院,大連 116000

        0 引言

        基于光學(xué)遙感圖像的目標(biāo)檢測(cè)與識(shí)別是遙感數(shù)據(jù)分析領(lǐng)域的重要研究方向。光學(xué)遙感圖像包含著豐富的紋理、細(xì)節(jié)和地物特征,通過(guò)對(duì)其進(jìn)行目標(biāo)檢測(cè),可以詳細(xì)掌握?qǐng)D像中各地物的類(lèi)別及其分布。光學(xué)遙感圖像目標(biāo)檢測(cè)在國(guó)防安全、海洋監(jiān)測(cè)等領(lǐng)域有著廣闊的應(yīng)用前景(Zhao等,2021)。

        基于人工手動(dòng)提取特征的傳統(tǒng)目標(biāo)檢測(cè)方法步驟煩瑣且泛化能力差?;谏疃葘W(xué)習(xí)的方法可以自動(dòng)提取特征而不需要手動(dòng)設(shè)計(jì)且具有很強(qiáng)的魯棒性,因此基于深度學(xué)習(xí)的目標(biāo)檢測(cè)得到迅速發(fā)展,這對(duì)于未來(lái)的遙感圖像智能感知發(fā)展具有重要的意義?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)算法主要分為基于回歸的單階段目標(biāo)檢測(cè)算法和基于候選框生成的多階段目標(biāo)檢測(cè)算法。前者是直接在圖像的多個(gè)區(qū)域上進(jìn)行回歸,此類(lèi)方法中最典型的代表是YOLO(you only look once)(Redmon 等,2016)。后者首先生成候選區(qū)域,然后在候選區(qū)域上進(jìn)行分類(lèi)與回歸,代表算法有Faster-RCNN(faster regions with convolutional neural network)(Ren 等,2017)等。多階段目標(biāo)檢測(cè)算法相比單階段檢測(cè)精度高,但是存在計(jì)算復(fù)雜度高、推理速度較慢、訓(xùn)練步驟煩瑣以及部署困難等問(wèn)題。

        為追求更高的準(zhǔn)確率,大型及超大型的特征提取網(wǎng)絡(luò)結(jié)構(gòu)層出不窮,如ResNet101 將網(wǎng)絡(luò)深度增加至101 層,Liu 等人(2021)提出的Swin Transformer雖然在機(jī)器視覺(jué)各項(xiàng)任務(wù)表現(xiàn)非常出色,但是其網(wǎng)絡(luò)參數(shù)和計(jì)算量非常龐大,擁有強(qiáng)大特征提取能力的同時(shí)卻忽略了模型性能和本身規(guī)模及計(jì)算量之間的性價(jià)比,大部分場(chǎng)景中設(shè)備的算力不足以部署大型網(wǎng)絡(luò)模型,也滿足不了實(shí)時(shí)推理,所以輕量級(jí)的遙感目標(biāo)檢測(cè)將是下一步的研究重點(diǎn)。通過(guò)網(wǎng)絡(luò)剪枝、網(wǎng)絡(luò)參數(shù)量化和知識(shí)蒸餾等方法可以減少模型參數(shù)量,它們都是在已經(jīng)設(shè)計(jì)好的網(wǎng)絡(luò)模型上進(jìn)行優(yōu)化,會(huì)影響模型的檢測(cè)精度。還可以采用特定的硬件部署來(lái)加速模型,比如TensorRT、Jetson、TensorFlow-slim 等。除上述方法之外還可以直接定制輕量化網(wǎng)絡(luò),例如谷歌提出的MobileNetv3(Howard 等,2019)和EfficientNet(Tan 等,2020),這些方法利用深度可分離卷積大大減少了網(wǎng)絡(luò)的參數(shù)量和計(jì)算量。曠世科技(Zhang 等,2018)提出的ShuffleNet,在分組卷積中加入通道重排(channel shuffle),使得通道與通道之間可以信息交互。華為(Han 等,2020)提出的GhostNet,對(duì)特征圖進(jìn)行簡(jiǎn)單的線性運(yùn)算(cheap operations),從而生成更多相似特征圖,以減少模型的參數(shù)。然而這些輕量級(jí)網(wǎng)絡(luò)模型在面對(duì)復(fù)雜背景的遙感圖像時(shí)特征提取能力有限,易出現(xiàn)漏檢、檢錯(cuò)的情況。常見(jiàn)的目標(biāo)檢測(cè)模型多為水平框檢測(cè),然而面對(duì)遙感圖像中方向任意排列的目標(biāo)實(shí)例,特別是排列密集的目標(biāo),采用水平框檢測(cè)會(huì)包含過(guò)多的冗余信息,使得定位不夠精細(xì)。隨著對(duì)遙感圖像目標(biāo)檢測(cè)的深入研究,學(xué)者提出了不少針對(duì)旋轉(zhuǎn)框目標(biāo)檢測(cè)的模型和方法,Ding 等人(2019)提出的ROI(region of interest)-Transformer 模塊通過(guò)對(duì)水平錨框進(jìn)行空間變換,使其能夠在旋轉(zhuǎn)框標(biāo)注的監(jiān)督下學(xué)習(xí)。SCRDet(detection for small,cluttered and rotated objects)通過(guò)添加IoU(intersection over union)常數(shù)因子設(shè)計(jì)了一種改進(jìn)的平滑L1損失,用于解決旋轉(zhuǎn)邊界框回歸的邊界問(wèn)題(Yang等,2019)。Chen 等人(2020)提出的PIoU(pixels intersection over union)通過(guò)近似計(jì)算旋轉(zhuǎn)框的IoU,替代了傳統(tǒng)的Smooth L1 損失。Yang 等人(2021)提出的KLD(Kullback-Leibler divergence)損失則是直接將旋轉(zhuǎn)框轉(zhuǎn)換為二維高斯分布,再通過(guò)KLD 計(jì)算預(yù)測(cè)框與真實(shí)框分布之間的距離,從而實(shí)現(xiàn)對(duì)旋轉(zhuǎn)框?qū)嵌鹊膶W(xué)習(xí)。

        目前,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法的研究主要集中于構(gòu)建更深的網(wǎng)絡(luò),以達(dá)到提高檢測(cè)精度,但是忽略了模型本身的性價(jià)比,面對(duì)背景復(fù)雜的遙感圖像輕量級(jí)網(wǎng)絡(luò)則特征提取能力有限。因此本文以光學(xué)遙感圖像為實(shí)例背景設(shè)計(jì)了一種端到端的輕量級(jí)旋轉(zhuǎn)框目標(biāo)檢測(cè)模型(YOLO-RMV4),使模型精度和參數(shù)量達(dá)到強(qiáng)平衡。

        1 數(shù)據(jù)集

        本文選取開(kāi)源數(shù)據(jù)集DOTA2.0(dataset of object detection in aerial images)(Ding 等,2022)、FAIR1M(fine grained object recognItion in highresolution remote sensing imagery)(Sun 等,2022)和HRSC2016(high-resolution ship dataset)作為基礎(chǔ)數(shù)據(jù)集進(jìn)行數(shù)據(jù)集的制備,并以船舶、飛機(jī)、小型交通工具和大型交通工具4 類(lèi)常見(jiàn)交通工具為實(shí)例目標(biāo)。由于不同數(shù)據(jù)集其類(lèi)別名稱(chēng)、標(biāo)注形式、圖像尺寸和圖像存儲(chǔ)格式都不盡相同,經(jīng)過(guò)篩選、切分、轉(zhuǎn)換、重新標(biāo)注以及合并數(shù)據(jù)集等數(shù)據(jù)預(yù)處理,建立了AVSP(aerial images of vehicle ship and plane)數(shù) 據(jù)集,AVSP 數(shù)據(jù)集共分為水平框(horizontal bounding box,HBB)和旋轉(zhuǎn)框(oriented bounding box,OBB)兩種標(biāo)注形式,其中OBB 采用8 參數(shù)表示,即為{(xi,yi),i∈1,2,…,4},其中(xi,yi)表示矩形邊界框頂點(diǎn)的第i個(gè)坐標(biāo),并且按順時(shí)針?lè)较蚺帕?,圖像格式為png 格式,本文以AVSP-OBB 為研究對(duì)象。AVSP 數(shù)據(jù)集包含19 406 幅1 024 × 1 024 像素的圖像,共637 466 個(gè)目標(biāo)實(shí)例。按照約3∶1 劃分訓(xùn)練集和驗(yàn)證集,各類(lèi)別數(shù)量統(tǒng)計(jì)如表1,圖像示例和數(shù)據(jù)統(tǒng)計(jì)如圖1所示。

        圖1 AVSP圖像示例和數(shù)據(jù)統(tǒng)計(jì)Fig.1 An example image and data statistics from AVSP((a)a typical image;(b)the instance density of per image;(c)the scale distribution of all instances;(d)the orientation distribution of all instances)

        表1 AVSP數(shù)據(jù)集各類(lèi)別數(shù)量統(tǒng)計(jì)Table 1 Quantity statistics of each category in the AVSP dataset

        經(jīng)統(tǒng)計(jì)和分析,AVSP數(shù)據(jù)集中各類(lèi)別數(shù)量分布相對(duì)均衡,類(lèi)別間最大數(shù)量比只有1∶6。每幅圖像中實(shí)例數(shù)量分布情況如圖1(b)所示,平均每幅圖像約有33 個(gè)實(shí)例,超過(guò)50%的圖像中實(shí)例數(shù)量小于20 個(gè),有7.2%的圖像中實(shí)例數(shù)量超過(guò)100 個(gè),可以看到,不同的遙感圖像密集程度存在較大差異。因?yàn)榇嬖诤芏嗄繕?biāo)分布密集的場(chǎng)景,例如停車(chē)場(chǎng)、港口和機(jī)場(chǎng)。

        除此之外,遙感圖像中實(shí)例的尺度范圍分布很廣,圖1(c)展示了數(shù)據(jù)集中所有目標(biāo)的尺度分布情況,目標(biāo)尺度定義為,國(guó)際光學(xué)工程學(xué)會(huì)將面積小于圖像面積0.12%的目標(biāo)定義為小目標(biāo),對(duì)于1 024 × 1 024 像素的圖像,即小于35,可以看到大約80%的實(shí)例尺度范圍在(4,32)之間,屬于小目標(biāo),其中有16.4%的實(shí)例尺度范圍小于8,屬于極小物體,同時(shí)也存在極大尺度的實(shí)例。

        遙感圖像中目標(biāo)通常具有任意的方向,在圖像中表現(xiàn)為處于不同程度的傾斜狀態(tài)。圖1(d)為數(shù)據(jù)集中實(shí)例傾斜角度分布直方圖,其中橫坐標(biāo)角度為弧度制,可以看到傾斜角度分布相對(duì)均衡。

        綜上,遙感圖像數(shù)據(jù)集中目標(biāo)實(shí)例小且分布密集,同時(shí)尺度范圍廣、變化大,以及角度方向任意,這為遙感圖像的目標(biāo)檢測(cè)增加了難度。

        2 YOLO-RMV4網(wǎng)絡(luò)模型設(shè)計(jì)

        如前文所述,數(shù)據(jù)集中存在大量小且密集分布的目標(biāo)且目標(biāo)尺度范圍變化大,所以要根據(jù)數(shù)據(jù)的實(shí)際分布情況進(jìn)行網(wǎng)絡(luò)設(shè)計(jì)。本文的模型設(shè)計(jì)的目標(biāo)是依據(jù)數(shù)據(jù)特點(diǎn),在保證性能的前提下盡可能使網(wǎng)絡(luò)更輕量化。本文設(shè)計(jì)的YOLO-RMV4 主要由主干特征提取網(wǎng)絡(luò)(backbone)、多尺度融合網(wǎng)絡(luò)(neck)和檢測(cè)頭(head)3 個(gè)部分構(gòu)成,頂層框圖如圖2 所示。為了實(shí)現(xiàn)更輕量級(jí)的方法,主干特征提取網(wǎng)絡(luò)采用了大量的深度可分離卷積,并且加入通道注意力機(jī)制使網(wǎng)絡(luò)可以自動(dòng)調(diào)整通道的權(quán)重;同時(shí)加入多尺度融合網(wǎng)絡(luò)PANet 和4 種尺度檢測(cè)頭以滿足不同尺度大小目標(biāo)的檢測(cè)。

        圖2 YOLO-RMV4頂層框圖Fig.2 The overview of YOLO-RMV4

        2.1 主干特征提取網(wǎng)絡(luò)

        如何使用最少的參數(shù)和計(jì)算量達(dá)到最佳的性能,本文借鑒谷歌提出的輕量級(jí)的網(wǎng)絡(luò)架構(gòu)MobileNet 中深度可分離卷積的思想設(shè)計(jì)了網(wǎng)絡(luò)基本單元(IRes-ECA),如圖3 所示。IRes-ECA 單元由深度可分離卷積和ECA 模塊組成,先通過(guò)1 × 1卷積降維,批歸一化(batch normalization,BN)和ReLU6激活函數(shù),然后使用3 × 3可分離卷積,再經(jīng)過(guò)BN 層和ReLU6激活函數(shù),最后通過(guò)1 × 1卷積升維。由于使用了大量的1 × 1卷積,在降低參數(shù)和計(jì)算量的同時(shí)也導(dǎo)致了部分特征信息的丟失,因此加入通道注意力機(jī)制ECA 模塊。ECA 模塊通過(guò)考慮每個(gè)通道及其k個(gè)近鄰來(lái)捕獲本地跨通道交互,并通過(guò)一維卷積來(lái)完成跨通道間的信息交互,一維卷積的卷積核大小ksize(如式(1))通過(guò)一個(gè)函數(shù)來(lái)自適應(yīng),使得通道數(shù)較大的層可以更多地進(jìn)行跨通道交互(Wang等,2020),其中C為給定通道維數(shù),γ和b為超參數(shù),分別設(shè)置為2和1。

        主干特征提取網(wǎng)絡(luò)結(jié)構(gòu)主要通過(guò)堆疊IRes-ECA 單元和SPPF(spatial pyramid pooling fast)模塊,構(gòu)建了一個(gè)更加輕量級(jí)的主干特征提取網(wǎng)絡(luò)。網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示,圖中左側(cè)為主干網(wǎng)絡(luò),主要負(fù)責(zé)圖像特征與語(yǔ)義信息的提取。IRes-ECA 模塊中的逆殘差結(jié)構(gòu)能夠更好地利用問(wèn)題的低秩性質(zhì)來(lái)制作更高效的層結(jié)構(gòu),以保證網(wǎng)絡(luò)的淺層特征能重復(fù)利用,提高了網(wǎng)絡(luò)的檢測(cè)精度;同時(shí)ECA 模塊能獲得更豐富的特征信息,保證了網(wǎng)絡(luò)的性能。圖中IRes-ECA模塊中RE 表示采用ReLU6 激活函數(shù),HS 則表示h-swish 激活函數(shù)。在主干網(wǎng)絡(luò)的最后加入SPPF 模塊(如圖5 所示),以豐富特征圖的表達(dá)能力,從而提高檢測(cè)精度。此處SPPF 采用3 個(gè)5 × 5 的卷積核替代了傳統(tǒng)5 × 5、9 × 9、13 × 13 的空間金字塔池化(spatial pyramid pooling,SPP)結(jié)構(gòu),經(jīng)實(shí)驗(yàn)證明SPPF 結(jié)構(gòu)同樣能得到SPP 的效果,同時(shí)能帶來(lái)更多性能上的提升,包括前向計(jì)算和反向計(jì)算。

        圖4 YOLO-RMV4網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 The architecture of the YOLO-RMV4

        圖5 SPPF網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.5 The architecture of SPPF

        2.2 多尺度融合

        輕量級(jí)的主干特征提取網(wǎng)絡(luò)特征提取能力有限,所以加入了特征融合模塊。圖4 中間部分是對(duì)主干網(wǎng)絡(luò)提取特征進(jìn)行多尺度融合,與YOLOv3 中的特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)結(jié)構(gòu)類(lèi)似。但是FPN 是自頂向下的模式,將高層特征傳下來(lái),而底層特征卻無(wú)法影響高層特征,并且FPN中頂部信息流逐層向下傳,計(jì)算量比較大。PANet則解決了這一問(wèn)題,PANet 引入了自底向上的路徑,使得底層信息更容易傳遞到高層頂部。若要將底層特征傳遞到特征圖頂部,PANet 采用的是:在進(jìn)行自頂向下的特征融合后,再進(jìn)行自下向頂?shù)奶卣魅诤?,這樣特征傳遞需要“穿越”的特征圖數(shù)量大大減少,在FPN 的基礎(chǔ)上加了一個(gè)自底向上方向的增強(qiáng),使得頂層特征圖也可以享受到底層帶來(lái)的豐富的位置信息,從而提升了大物體的檢測(cè)效果。其中C3結(jié)構(gòu)(如圖6)由3個(gè)標(biāo)準(zhǔn)二維卷積(convolution,CONV)層與Bottleneck組成。

        圖6 C3結(jié)構(gòu)圖Fig.6 The architecture of C3

        2.3 檢測(cè)頭

        圖4 右側(cè)為多尺度檢測(cè)頭,由于數(shù)據(jù)集中目標(biāo)尺度范圍變化大且存在大量小目標(biāo),所以分別在其4、8、16 和32 倍下采樣后輸出4 種尺度的檢測(cè)頭,以增加小目標(biāo)物體的召回率。角度預(yù)測(cè)則是將傳統(tǒng)的角度回歸方式轉(zhuǎn)換成角度分類(lèi)方式,并且將角度標(biāo)簽轉(zhuǎn)換為環(huán)形平滑標(biāo)簽,通過(guò)一維高斯函數(shù)將角度標(biāo)簽轉(zhuǎn)換為環(huán)形圓滑標(biāo)簽(circular smooth label,CSL),使得角度具有周期性,以達(dá)到在分類(lèi)中可以衡量預(yù)測(cè)角度和真實(shí)角度之間的距離(Yang 和Yan,2022)。錨框大小采用聚類(lèi)的方式得到3組最優(yōu)大小的錨框。最后每一種尺度輸出一個(gè)567((4+1+4+180)× 3)維張量,其中第1個(gè)4代表預(yù)測(cè)框的位置參量(tx,ty,tw,th),1代表預(yù)測(cè)框的置信度,第2個(gè)4代表AVSP 數(shù)據(jù)集的4 類(lèi)目標(biāo)物體,180 代表180 個(gè)度數(shù)類(lèi)別,3代表該尺度下的3種不同比例大小的錨框。

        2.4 損失函數(shù)設(shè)計(jì)及優(yōu)化

        在網(wǎng)絡(luò)實(shí)現(xiàn)過(guò)程中,目標(biāo)檢測(cè)損失可分為4 部分:分類(lèi)損失、角度損失、目標(biāo)置信度損失和定位目標(biāo)框的損失。損失函數(shù)公式定義如式(2)。其中l(wèi)ossconfidence為置信度損失,lossclass為分類(lèi)損失,lossxywh為目標(biāo)框回歸損失,lossangle為角度損失。

        檢測(cè)的關(guān)鍵點(diǎn)在于目標(biāo)框的解碼,樣本的采樣策略決定了解碼結(jié)構(gòu)。目標(biāo)檢測(cè)在訓(xùn)練過(guò)程中往往會(huì)出現(xiàn)正負(fù)樣本嚴(yán)重失衡的問(wèn)題,這很大程度上影響了訓(xùn)練結(jié)果。Lin 等人(2017)曾提出了Focal Loss用來(lái)解決樣本不均衡的問(wèn)題。本文則采用了更簡(jiǎn)明的方式來(lái)擴(kuò)增正樣本集,如圖7所示。圖7中假設(shè)深灰色為原正樣本對(duì)應(yīng)邊框數(shù)據(jù),綠色為補(bǔ)充正樣本邊框數(shù)據(jù)。假設(shè)A~E為正樣本集中心點(diǎn)坐標(biāo),則選取與正樣本中心點(diǎn)距離最近的兩個(gè)網(wǎng)格為擴(kuò)展后正樣本集。擴(kuò)展后的正樣本中心點(diǎn)坐標(biāo)則為原中心點(diǎn)坐標(biāo)減去擴(kuò)展后網(wǎng)格左下角坐標(biāo)。經(jīng)擴(kuò)展后正樣本增加為原來(lái)的3 倍,使模型更充分訓(xùn)練。解碼公式為

        圖7 正樣本采樣策略Fig.7 Positive sample sampling strategy

        式中,tx,ty,tw,th為模型預(yù)測(cè)輸出,bx,by,bw,bh分別為最終預(yù)測(cè)的目標(biāo)邊框中心點(diǎn)、寬和高,pw,ph為當(dāng)前網(wǎng)格大小,cx,cy為檢測(cè)點(diǎn)中心所在網(wǎng)格區(qū)域的左下角坐標(biāo)。最終中心點(diǎn)偏移量值域?yàn)椋?0.5,1.5],寬高偏移量值域?yàn)椋?,4]。

        置信度損失、分類(lèi)損失和角度損失都采用交叉熵?fù)p失。由于角度問(wèn)題轉(zhuǎn)換為分類(lèi)問(wèn)題,所以目標(biāo)框位置損失仍采用水平框的CIoU(complete intersection over union)損 失,CIoU 相比GIoU(generalized intersection over union)和DIoU(distance intersection over union)具有更好的寬高擬合效果。

        3 實(shí)驗(yàn)過(guò)程與結(jié)果分析

        3.1 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

        本文的實(shí)驗(yàn)環(huán)境為Ubuntu16.04 系統(tǒng),Intel(R)Core(TM)i7-11700F 處理器,內(nèi)存為16 GB,顯卡型號(hào)為NVIDIA GeForce RTX 3060 Ti 8 GB,驅(qū)動(dòng)程序版本為471.41,使用的CUDA 版本為11.3,搭建模型使用的深度學(xué)習(xí)框架為PyTorch1.7。

        使用AVSP-OBB 數(shù)據(jù)集進(jìn)行訓(xùn)練和驗(yàn)證。對(duì)輸入圖像使用數(shù)據(jù)增強(qiáng),包括隨機(jī)裁剪、翻轉(zhuǎn)、縮放、HSV(hue,saturation,value)增強(qiáng)和馬賽克數(shù)據(jù)增強(qiáng)等。設(shè)置初始學(xué)習(xí)率為0.001,學(xué)習(xí)率衰減采用余弦退火衰減,權(quán)重衰減因子設(shè)置為0.000 5,采用Adam(adaptive moment estimation)優(yōu)化器,批量大小設(shè)置為4,訓(xùn)練50 輪。模型的性能通過(guò)模型參數(shù)量(parameter)、平均精度均值(mean average precision,mAP)、平均召回率(average recull,AR)以及每秒傳輸幀數(shù)(frames per second,F(xiàn)PS)來(lái)評(píng)估。

        3.2 對(duì)比實(shí)驗(yàn)

        為了驗(yàn)證提出的輕量級(jí)目標(biāo)檢測(cè)算法性能,設(shè)計(jì)了對(duì)比實(shí)驗(yàn)。參與對(duì)比的檢測(cè)算法有YOLOv3、YOLOv5l、YOLOv5s、GhostNet、EfficientNet、Shuffle-NetV2、PP-LCNet 和MobileNetV3,參與對(duì)比的網(wǎng)絡(luò)模型均為主干特征提取網(wǎng)絡(luò)+PANet+3 尺度水平框檢測(cè)頭。將本文提出的YOLO-RMV4 與其他目標(biāo)檢測(cè)模型分別在AVSP 數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后比較它們?cè)隍?yàn)證集上的檢測(cè)性能(IoU=0.5)。本文為YOLO-RMV4 設(shè)計(jì)了不同大小的網(wǎng)絡(luò),其中YOLORMV4網(wǎng)絡(luò)參數(shù)數(shù)量約為5.3 M,通過(guò)模型壓縮和剪枝得到Y(jié)OLO-RMV4S,參數(shù)量約為4.5 M,通過(guò)擴(kuò)展網(wǎng)絡(luò)得到Y(jié)OLO-RMV4L,參數(shù)量約為13.5 M。對(duì)比實(shí)驗(yàn)結(jié)果如表2 所示,表2 中RYOLOv5l 和RMobile-NetV3 是對(duì)YOLOv5l 和MobileNetV3 的檢測(cè)頭進(jìn)行了相應(yīng)的旋轉(zhuǎn)框檢測(cè)改造。

        表2 各模型實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison of the experimental results of each model

        從表2中可以看到,本文YOLO-RMV4系列檢測(cè)模型在檢測(cè)精度和召回率方面遠(yuǎn)遠(yuǎn)高于其他水平框檢測(cè)模型。YOLO-RMV4L 在mAP 和AR 上相比RYOLOv5l 分別提升了2.2%和4.5%,參數(shù)量?jī)H是RYOLOv5l 的1/4,但是高于部分輕量級(jí)網(wǎng)絡(luò),F(xiàn)PS 與YOLOv5 持平,低于其他輕量級(jí)網(wǎng)絡(luò)。本文提出的YOLO-RMV4 和YOLO-RMV4S 參數(shù)量遠(yuǎn)小于輕量級(jí)網(wǎng)絡(luò),其中YOLO-RMV4 在檢測(cè)精度和召回率方面比RYOLOv5l 分別提升了1.2%和1.6%,F(xiàn)PS 高于RYOLOv5l,但是仍低于其他輕量級(jí)網(wǎng)絡(luò)模型。YOLO-RMV4S 檢測(cè)精度上略低于YOLOv5l,但召回率方面優(yōu)于YOLOv5l。

        從模型檢測(cè)效率來(lái)看,YOLOv5s 擁有最高的檢測(cè)效率,F(xiàn)PS達(dá)到了99 幀/s,因?yàn)閅OLOv5s網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,參數(shù)也僅1.9 M,故推理速度快,但是特征提取能力有限,導(dǎo)致其檢測(cè)性能下降嚴(yán)重。本文提出的模型在檢測(cè)效率上與RYOLOv5l 相近,但要低于其他輕量級(jí)網(wǎng)絡(luò),原因在于其有4 個(gè)檢測(cè)頭,造成推理時(shí)間增加,但是同樣可以做到實(shí)時(shí)檢測(cè),額外增加的4 倍下采樣檢測(cè)頭提升了模型的召回率,降低了對(duì)極小目標(biāo)的漏檢率,可以看到Y(jié)OLO-RMV4S 的AR也高于RYOLOv5l。

        本文提出的3 個(gè)模型中,從YOLO-RMV4S 到Y(jié)OLO-RMV4模型參數(shù)增加0.77 M,mAP 和AR 分別增加1.9%和1%,F(xiàn)PS 減少3 幀/s。從YOLO-RMV4到Y(jié)OLO-RMV4L模型參數(shù)增加8.22 M,其參數(shù)增長(zhǎng)超過(guò)0.77 M 的10 倍,但mAP 和AR 分別增加0.9%和2.9%,F(xiàn)PS 減少4 幀/s。在數(shù)據(jù)集復(fù)雜度一定的情況下,當(dāng)模型的參數(shù)量達(dá)到一定程度時(shí),會(huì)達(dá)到模型的性能瓶頸,即隨著模型參數(shù)增加,mAP 和AR 的增長(zhǎng)趨勢(shì)逐漸平緩直到趨近于0,此時(shí)性價(jià)比逐漸下降。本文提出的YOLO-RMV4,在此數(shù)據(jù)集的復(fù)雜度下,其模型性價(jià)比趨于最高附近。

        以上結(jié)果表明,本文提出的網(wǎng)絡(luò)模型能夠在極有限的參數(shù)數(shù)量下學(xué)習(xí)到豐富的物體特征信息,并且有著先進(jìn)的網(wǎng)絡(luò)的性能。同時(shí)該網(wǎng)絡(luò)模型沒(méi)有復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),可以達(dá)到實(shí)時(shí)檢測(cè),并且對(duì)于硬件條件受限的環(huán)境部署非常友好,模型的綜合表現(xiàn)已經(jīng)達(dá)到了較優(yōu)的水平。

        3.3 消融實(shí)驗(yàn)

        為了更好地分析各個(gè)模塊對(duì)模型的影響,設(shè)計(jì)了兩個(gè)消融實(shí)驗(yàn)。

        消融實(shí)驗(yàn)1 以MobileNetV3 作為消融實(shí)驗(yàn)的基準(zhǔn),將本文提出的不同改進(jìn)模塊依次應(yīng)用到Mobile-NetV3 中,并保持每組實(shí)驗(yàn)超參數(shù)相同,分別在AVSP數(shù)據(jù)集上訓(xùn)練,比較添加不同改進(jìn)模塊對(duì)模型性能的影響。消融實(shí)驗(yàn)2 在YOLO-RMV4 的基礎(chǔ)上消除其中某個(gè)模塊,比較模型性能下降程度,從而反映模型中每個(gè)模塊的獨(dú)特作用。

        表3展示了消融實(shí)驗(yàn)1的結(jié)果??梢钥闯?,在分別加入PANet、旋轉(zhuǎn)框檢測(cè)頭(R)、ECA 模塊、SPPF模塊和4 倍下采樣后檢測(cè)精度和召回率有明顯的提升,但是檢測(cè)速度方面略有降低。在添加PANet 后mAP 提升了8.4%,AR 提升了6.1%,通過(guò)實(shí)驗(yàn)證明了PANet能夠很好地將不同層的特征進(jìn)行融合。添加旋轉(zhuǎn)框檢測(cè)頭后mAP 和AR 有非常大的提升,結(jié)合旋轉(zhuǎn)框后,使其在訓(xùn)練中減少了冗余信息的學(xué)習(xí),使得定位更加精細(xì)。添加ECA 模塊后mAP和AR 分別提升了1.6%和1.7%,ECA 模塊能夠更好地刺激主干特征提取網(wǎng)絡(luò)利用有限的參數(shù)量來(lái)學(xué)習(xí)目標(biāo)物體的特征信息,從而提高模型的精度。SPPF 模塊對(duì)模型的檢測(cè)精度也有提升,但不明顯。添加4 倍下采樣后mAP和AR分別提升3.0%和2.4%,4倍下采樣可以極大地增強(qiáng)對(duì)極小目標(biāo)物體的檢測(cè)效果。

        表3 消融實(shí)驗(yàn)1結(jié)果對(duì)比Table 3 Comparison of the results of ablation experiment 1

        表4 展示了消融實(shí)驗(yàn)2 的結(jié)果??梢钥闯雒總€(gè)模塊在YOLO-RMV4 中的獨(dú)特作用,其中旋轉(zhuǎn)框檢測(cè)頭(-R)和PANet 模塊(-PANet)對(duì)模型性能影響較大,由于遙感圖像中目標(biāo)物體呈任意角度分布且存在大量密集分布的場(chǎng)景,所以水平檢測(cè)效果不理想,PANet 模塊則通過(guò)進(jìn)行多尺度融合大大提升了模型性能。4 倍下采樣(-4)和ECA 模塊(-ECA)影響次之,SPPF 模塊(-SPPF)對(duì)模型影響作用最小。從檢測(cè)效率看,PANet 模塊、4 倍下采樣和旋轉(zhuǎn)檢測(cè)頭模塊對(duì)推理速度影響較大,其中PANet 模塊增加了大量參數(shù),4 倍下采樣和旋轉(zhuǎn)檢測(cè)頭模塊則是增加了計(jì)算復(fù)雜度,從而造成了推理時(shí)間增加。

        表4 消融實(shí)驗(yàn)2結(jié)果對(duì)比Table 4 Comparison of the results of ablation experiment 2

        3.4 實(shí)驗(yàn)結(jié)果展示及分析

        圖8 為部分YOLO-RMV4L 模型的實(shí)驗(yàn)結(jié)果,由于實(shí)例目標(biāo)分布密集,故隱藏了預(yù)測(cè)標(biāo)簽。可以看到無(wú)論是在目標(biāo)密集分布的港口或停車(chē)場(chǎng),還是面對(duì)極小目標(biāo)小型交通工具,模型的檢測(cè)效果都非常理想,符合預(yù)期效果。

        圖8 YOLO-RMV4L在驗(yàn)證集中部分可視化結(jié)果Fig.8 Some visualization results from YOLO-RMV4L on validation set

        表5 為YOLO-RMV4L 在AVSP 驗(yàn)證集上(IoU=0.5)各類(lèi)別的平均準(zhǔn)確率和召回率。圖9 為各類(lèi)別尺度分布和混淆矩陣??梢钥吹剑w機(jī)類(lèi)別在mAP和AR 上最高,原因分析為飛機(jī)特征單一并且實(shí)例大小大多分布在(16,64)之間,屬于較易檢測(cè)目標(biāo);船舶和大型交通工具次之,原因分析為船舶種類(lèi)繁多、特征復(fù)雜,船舶實(shí)例大小在(4,1 024)之間不等,增大了檢測(cè)難度,大型交通工具雖然特征單一且實(shí)例大小集中在(16,32)之間,但是大型交通工具多為密集分布,預(yù)測(cè)框容易出現(xiàn)重疊現(xiàn)象,導(dǎo)致準(zhǔn)確率不高,故篩選預(yù)測(cè)框時(shí)需要更高的置信度和IoU;小型交通工具最低,原因分析為小型交通工具實(shí)例大小大多分布在(4,16)之間,屬于小目標(biāo)或極小目標(biāo)物體,特征較難提取,再加以遙感圖像背景復(fù)雜,容易出現(xiàn)將背景識(shí)別為小型交通工具的情況,故屬于難檢測(cè)目標(biāo)。

        圖9 各類(lèi)別尺度分布及混淆矩陣Fig.9 The scale distribution and confusion matrix of each category((a)(b)(c)(d)are the instance size distribution diagrams of plane,ship,small-vehicle and large-vehicle;(e)confusion matrix is made at IoU threshold of 0.5)

        表5 各類(lèi)別實(shí)驗(yàn)結(jié)果Table 5 Experiment results of various categories

        為驗(yàn)證本文提出的模型在DOTA 數(shù)據(jù)集上的檢測(cè)性能,表6 為YOLO-RMV4L 在DOTA 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果(IoU=0.5)??梢钥吹?,所有類(lèi)別的mAP為56.7%,AR 為51.4%,由于本文提出的YOLORMV4L 模型結(jié)構(gòu)簡(jiǎn)單,參數(shù)僅13.5 M,對(duì)于復(fù)雜度極高的DOTA 數(shù)據(jù)集,很難學(xué)習(xí)到全部的信息,再加以DOTA數(shù)據(jù)集類(lèi)間數(shù)量比差距大,導(dǎo)致其在DOTA數(shù)據(jù)集上的檢測(cè)性能不理想。

        表6 DOTA實(shí)驗(yàn)結(jié)果Table 6 Experiment results of DOTA

        若從宏觀角度看,即對(duì)數(shù)據(jù)集與網(wǎng)絡(luò)模型而言圖像特征復(fù)雜度(feature complexity)及類(lèi)別(class)等與網(wǎng)絡(luò)模型參數(shù)(model parameter)與網(wǎng)絡(luò)模型性能(performance)之間必然存在關(guān)聯(lián),若得到它們之間的關(guān)系表達(dá)式,這對(duì)不同數(shù)據(jù)集選擇不同大小的網(wǎng)絡(luò)模型具有非常重要的指導(dǎo)意義,可使其之間的性價(jià)比最大化。

        4 結(jié)論

        針對(duì)大型的目標(biāo)檢測(cè)模型本身規(guī)模大,對(duì)硬件算力要求高,無(wú)法滿足實(shí)時(shí)推理的要求,同時(shí)水平框目標(biāo)檢測(cè)面對(duì)遙感圖像中方向任意排列的目標(biāo)實(shí)例會(huì)出現(xiàn)定位不準(zhǔn)的情況,本文設(shè)計(jì)了一種輕量級(jí)旋轉(zhuǎn)框目標(biāo)檢測(cè)模型(YOLO-RMV4)。本文模型改進(jìn)MobileNet 輕量化網(wǎng)絡(luò)并引入ECA 模塊,同時(shí)加入PANet 大大提高底層信息的利用率和傳播效率,彌補(bǔ)了輕量級(jí)網(wǎng)絡(luò)特征提取能力的不足,對(duì)于角度回歸問(wèn)題加入了環(huán)形圓滑標(biāo)簽(CSL),巧妙地將角度回歸轉(zhuǎn)換為角度分類(lèi),解決了預(yù)測(cè)角度和真實(shí)角度之間距離不能衡量的問(wèn)題。該網(wǎng)絡(luò)模型(YOLORMV4)大小僅為YOLOv5l 模型的1/8,并且在AVSP驗(yàn)證集的mAP 和AR 遠(yuǎn)優(yōu)于EfficientNet 等一系列輕量級(jí)網(wǎng)絡(luò),在推理速度上略低,但可以滿足實(shí)時(shí)檢測(cè)的需求,該模型在一些計(jì)算力和內(nèi)存受限的應(yīng)用場(chǎng)景中部署非常友好。

        但是該模型面對(duì)極小目標(biāo)實(shí)例體和排列密集的目標(biāo)實(shí)例也會(huì)出現(xiàn)漏檢、重疊現(xiàn)象,比如面對(duì)小型交通工具和停車(chē)場(chǎng)、港口等密集排列的場(chǎng)景。本文的下一步工作將考慮如何提升極小目標(biāo)物體的檢測(cè)精度,在有限參數(shù)量和計(jì)算量的前提下提高網(wǎng)絡(luò)特征提取能力,并改進(jìn)不同類(lèi)別之間IoU 和置信度的分配策略,以減少出現(xiàn)重疊現(xiàn)象,進(jìn)而也將會(huì)探究圖像特征復(fù)雜度、模型參數(shù)與性能之間的關(guān)系。

        猜你喜歡
        特征提取實(shí)例尺度
        財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        Bagging RCSP腦電特征提取算法
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        9
        完形填空Ⅱ
        完形填空Ⅰ
        Walsh變換在滾動(dòng)軸承早期故障特征提取中的應(yīng)用
        軸承(2010年2期)2010-07-28 02:26:12
        室外雕塑的尺度
        雕塑(2000年2期)2000-06-22 16:13:30
        色一情一乱一伦一区二区三区日本 | 日韩精品免费在线视频一区| 国产精品亚洲一区二区三区16| 久久精品国产亚洲av麻豆瑜伽| 中文无码精品a∨在线观看不卡| 情侣黄网站免费看| 亚洲AV无码一区二区三区天堂网 | 国产91成人精品亚洲精品| 久久精品有码中文字幕1| 亚洲中文字幕人成乱码在线| 精品国产免费一区二区三区| 无套内谢孕妇毛片免费看看| 波多野无码AV中文专区| 亚洲av色在线播放一区| 无码人妻精品一区二区三| 久久久精品波多野结衣| 91热爆在线精品| 伊人久久大香线蕉av最新午夜| 东京热久久综合久久88| 国产精品美女久久久久久久| 国产 无码 日韩| 国产av精品一区二区三区视频| 精品欧美一区二区三区久久久| 久久综合精品国产一区二区三区无码| 五月婷网站| av在线播放一区二区免费| 中文字幕亚洲无线码在线一区| 成年女人色毛片| 欧美精品在线一区| 女同性恋一区二区三区四区| 精品激情成人影院在线播放| 人人爽人人爱| 国产精品黄色片在线观看| 亚洲熟少妇一区二区三区| 天天躁夜夜躁狠狠躁2021a2| 老熟女多次高潮露脸视频| 蜜臀av国内精品久久久人妻| 一区二区三区最新中文字幕 | 亚洲国产剧情一区在线观看| 久草视频这里只有精品| 国产女厕偷窥系列在线视频|