亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種改進(jìn)的Mask R－CNN 衛(wèi)星影像船舶尾跡檢測(cè)方法

2022-05-11 07:31:52吳榮峰唐希源

智能計(jì)算機(jī)與應(yīng)用 2022年2期

吳榮峰，唐希源

（南京理工大學(xué) 電子工程與光電技術(shù)學(xué)院，南京 210094）

0 引言

中國(guó)海域面積遼闊，使用衛(wèi)星遙感技術(shù)實(shí)時(shí)監(jiān)測(cè)海面船舶對(duì)國(guó)防事業(yè)、海運(yùn)貿(mào)易等都具有十分重要的意義。為了盡可能多地獲取海面船舶信息，往往會(huì)選擇超廣角的衛(wèi)星，然而在這類衛(wèi)星的遙感圖像上，船舶往往表現(xiàn)為很小的白色點(diǎn)狀，難于識(shí)別，而海面復(fù)雜的環(huán)境狀況又會(huì)進(jìn)一步加大識(shí)別的難度，基于這種情況，轉(zhuǎn)向識(shí)別船舶的尾跡。船舶尾跡的目標(biāo)范圍遠(yuǎn)大于船舶，且尾跡在遙感圖像上的灰度變化和周邊的海域有著明顯的區(qū)別，大大降低了目標(biāo)檢測(cè)的難度。此外，尾跡還能提供船只的航速以及航向方向等信息。

傳統(tǒng)的船舶尾跡檢測(cè)算法往往依賴于人為的特征提取，耗時(shí)費(fèi)力，且這類方法的魯棒性和泛化能力較差，不利于系統(tǒng)自動(dòng)地識(shí)別目標(biāo)。近年來(lái)，深度學(xué)習(xí)技術(shù)不斷地發(fā)展和完善，逐漸被引入到遙感圖像目標(biāo)檢測(cè)與識(shí)別領(lǐng)域，并且取得了很好的效果?；诖?，本文提出了一種基于改進(jìn)的Mask R－CNN算法的船舶尾跡檢測(cè)技術(shù)。

Mask R－CNN 是由Faster R－CNN 改進(jìn)而來(lái)，用于實(shí)例分割的目標(biāo)檢測(cè)算法，可以在一個(gè)網(wǎng)絡(luò)中同時(shí)做目標(biāo)檢測(cè)和實(shí)例分割，其在原來(lái)Faster R－CNN的基礎(chǔ)上把ROI Pooling 層改為ROI Align，使得區(qū)域劃分更加精準(zhǔn)，此外還額外引入了一個(gè)Mask 層用于實(shí)例的分割。

由于遙感衛(wèi)星圖像往往圖像不清晰，噪聲很大。為了更好地實(shí)現(xiàn)檢測(cè)，本文在原有的Mask R－CNN算法的基礎(chǔ)上做出了兩點(diǎn)改進(jìn)：

（1）在原有的特征金字塔網(wǎng)絡(luò)（FPN）結(jié)構(gòu)上引入平衡特征金字塔（BFP）串聯(lián)結(jié)構(gòu)，以增強(qiáng)圖像特征信息的融合，降低原圖的噪聲，增強(qiáng)目標(biāo)的可辨識(shí)性；

（2）使用ResNet50 作為主干網(wǎng)絡(luò)，在主干網(wǎng)絡(luò)上引入GCNet，增加特征的提取能力。

實(shí)驗(yàn)結(jié)果表明，經(jīng)過(guò)改進(jìn)之后的Mask R－CNN對(duì)于船舶尾跡的目標(biāo)檢測(cè)能力明顯提升。

1 Mask R－CNN 簡(jiǎn)述

Mask R－CNN 是一種實(shí)例分割的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)，在目標(biāo)檢測(cè)領(lǐng)域有著十分優(yōu)秀的表現(xiàn)，很適合遙感圖像的檢測(cè)。主干網(wǎng)絡(luò)與特征金字塔網(wǎng)絡(luò)層（Backbone ＋FPN）、區(qū)域建議網(wǎng)絡(luò)層（RPN）、RoI Align 層、卷積層（CONV）、邊框回歸支路（class）、邊框分類支路（box），以及一條并行的Mask 支路，如圖1 所示。

圖1 Mask R－CNN 結(jié)構(gòu)示意圖Fig.1 Structure diagram of Mask R－CNN

ROI Align 是Mask R－CNN 的第一個(gè)重大改進(jìn)，明顯改進(jìn)了量化誤差的影響。在Faster R－CNN 當(dāng)中， RoI Pooling 引入了兩次量化誤差，一次是在原始圖像映射到特征圖的過(guò)程中，圖像尺寸的浮點(diǎn)數(shù)取整；另一次是對(duì)特征圖進(jìn)行最鄰近插值。整個(gè)過(guò)程的兩次取整操作，會(huì)給坐標(biāo)引入很大的誤差。為了解決該問(wèn)題，文獻(xiàn)［4］提出了RoI Align 使用雙線性插值方法，利用原圖中虛擬點(diǎn)四周的4 個(gè)像素點(diǎn)的值，來(lái)共同決定目標(biāo)圖中的一個(gè)像素值，這樣就可以將虛擬點(diǎn)對(duì)應(yīng)的像素值估計(jì)出來(lái)。

Mask R－CNN 的另一個(gè)改進(jìn)是在原有的損失函數(shù)中引入了Mask 預(yù)測(cè)損失函數(shù)L，損失函數(shù)如式（1）：

其中，L、L分別為類別、位置預(yù)測(cè)的損失函數(shù)。

對(duì)于支路，每個(gè)的輸出維度是，表示的大小，代表類別數(shù)。得到預(yù)測(cè)后，對(duì)的每一個(gè)像素點(diǎn)求函數(shù)值，并把結(jié)果作為L的輸入。雖然會(huì)有個(gè)，但在計(jì)算時(shí)只有對(duì)應(yīng)類別的才有效，其他的不會(huì)對(duì)L造成影響。

2 平衡特征金字塔（Balanced Feature Pyramid，BFP）

在遙感圖像中，船舶尾跡目標(biāo)的長(zhǎng)短大小往往很不一致，并且由于分辨率低，目標(biāo)的辨識(shí)度很低，圖像噪聲也很大，即使是依靠人眼也很難快速確定目標(biāo)，因此需要加工處理，加強(qiáng)特征，提高辨識(shí)度，而平衡特征金字塔結(jié)構(gòu)可以很好地滿足這一要求。

BFP 結(jié)構(gòu)旨在解決特征層信息的不平衡，以更加高效地利用不同尺度各自的特征。傳統(tǒng)的FPN 是一種致力于解決特征融合問(wèn)題的結(jié)構(gòu)，使用自下而上后再自上而下的結(jié)構(gòu)，低層的特征圖包含了更多的位置細(xì)節(jié)信息，有利于小物體的目標(biāo)檢測(cè)，而高層次的特征圖則是包含了更多的語(yǔ)義信息，更加適合做大尺度物體的識(shí)別，通過(guò)兩者的組合來(lái)進(jìn)行不同尺度物體的識(shí)別。但這種結(jié)構(gòu)更多地關(guān)注于相鄰層的關(guān)系，忽略非相鄰層間的依賴關(guān)系，而非相鄰層的依賴關(guān)系在目標(biāo)識(shí)別當(dāng)中往往起著重要的作用。

平衡特征金字塔結(jié)構(gòu)很好地解決了這一問(wèn)題，同時(shí)獲取并聚合了來(lái)自不同層級(jí)的特征，使得高層語(yǔ)義特征和底層位置細(xì)節(jié)等信息同時(shí)匯聚到一起，并通過(guò)使用嵌入式高斯Non－Local 注意力模塊進(jìn)一步精煉了特征，提高了目標(biāo)的可辨識(shí)度。

BFP 的結(jié)構(gòu)示意圖，如圖2 所示，包括調(diào)整大小、融合、精煉和增強(qiáng)4 個(gè)步驟。

圖2 BFP 結(jié)構(gòu)示意圖Fig.2 Structure diagram of BFP

（1）調(diào)整大小。在FPN 結(jié)構(gòu)輸出的特征圖中，不同層次的特征圖大小不一，為了便于后續(xù)的整合，需要調(diào)整為同一尺寸。比如，以C4 層作為目標(biāo)，對(duì)于更大的C3 和C2，使用最大池化（Max Pooling）方法進(jìn)行縮小，對(duì)于更小的C5 層，則可以使用雙線性插值的方法放大到C4 的尺寸。

（2）融合。把幾張同尺寸特征圖相互疊加，并求平均值即可。

（3）精煉。使用嵌入式高斯Non－Local 注意力模塊進(jìn)行特征精煉，通過(guò)建立圖像上兩個(gè)有一定距離的像素之間的聯(lián)系來(lái)增強(qiáng)識(shí)別的效果，同時(shí)基于傳統(tǒng)數(shù)字圖像處理中的非局部均值理論，該方法還可以明顯降低圖像中的噪聲。該方法有比卷積更好的穩(wěn)定性，其關(guān)鍵公式如式（2）所示。

輸入信號(hào)x代表目標(biāo)圖像，x是所有特征可能與x相似的圖像，兩者大小相等。通過(guò)函數(shù)計(jì)算得到兩者的關(guān)聯(lián)系數(shù)，函數(shù)代表位置處的輸入信號(hào)，之后以函數(shù)為權(quán)重進(jìn)行加權(quán)求和，（）代表歸一化系數(shù)。相關(guān)的函數(shù)表達(dá)式如式（3）～式（7）所示。

最后，需要把該結(jié)構(gòu)插入到原有的網(wǎng)絡(luò)中，并且不能破壞初始信息，這里需要增加一個(gè)殘差鏈接，其表達(dá)式如式（8）所示。

Non－Local 模塊的結(jié)構(gòu)示意圖，如圖3 所示。

圖3 Non－Local 模塊的結(jié)構(gòu)示意圖Fig.3 Structure diagram of non－local block

（4）增強(qiáng)。把已經(jīng)融合的特征圖恢復(fù)到原有大小。對(duì)精煉后的圖像使用雙線性插值操作可以恢復(fù)到C2，C3 大小，使用最大池化操作則恢復(fù)到C5 的大小，對(duì)于C4 大小的輸出則不需要操作。恢復(fù)完成后，再把其和原始的C2、C3、C4、C5 相互疊加后輸出。

綜上所述，通過(guò)BFP 的操作實(shí)現(xiàn)了不同特征層的信息融合，并加強(qiáng)了目標(biāo)的特征，增加了可辨識(shí)度，對(duì)低分辨率的遙感圖像識(shí)別十分關(guān)鍵。

3 GCNet 模塊

傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)通過(guò)圖像的一部分作為卷積核，在圖像上以滑窗的形式不斷進(jìn)行卷積，直至整幅圖像均以該卷積核進(jìn)行過(guò)卷積操作，后對(duì)特征圖進(jìn)行池化。然而這樣的操作產(chǎn)生了一個(gè)問(wèn)題，當(dāng)另外有相似或關(guān)系密切的目標(biāo)距離卷積核所在位置較遠(yuǎn)，那么該卷積核只能觀察到其卷積范圍內(nèi)的部分圖像，無(wú)法提高長(zhǎng)距離依賴的檢測(cè)能力。引入GCNet 的目的正是提高長(zhǎng)距離依賴特征提取能力。

GCNet 由Non－local 與SE 兩大模塊組成。

Non－local 操作是為提高長(zhǎng)距離依賴，某一輸入信號(hào)處的響應(yīng)是其他所有與其大小相等的位置特征權(quán)重和，將每一個(gè)信號(hào)與其他所有的信號(hào)相關(guān)聯(lián)，實(shí)現(xiàn)Non－local 的思想。 2019 年Yue Cao 等人指出，所選取的注意力x對(duì)最終的識(shí)別效果只能產(chǎn)生很小的影響，對(duì)于每個(gè)x均計(jì)算其注意力分布是很浪費(fèi)計(jì)算資源的行為，因此，在GCNet 當(dāng)中，Nonlocal 模塊被進(jìn)一步簡(jiǎn)化。

由于不再對(duì)x進(jìn)行操作，因此傳統(tǒng)的non－local模塊中的W路被移除，不再加入該卷積模塊，以節(jié)約計(jì)算資源。將W移至y的乘法運(yùn)算之后，單獨(dú)生成一個(gè)模塊稱為Transform，雖然會(huì)犧牲一定的準(zhǔn)確度，但是會(huì)大大節(jié)省計(jì)算的成本，提高運(yùn)算的速度。

簡(jiǎn)化的Non－local 模塊結(jié)構(gòu)如圖4 所示，可以將整個(gè)簡(jiǎn)化Non － local 模塊劃分為上下文建模（Context Modeling）、變換（Transform）以及融合（Fusion）3 個(gè)部分。

圖4 簡(jiǎn)化的non－local 模塊結(jié)構(gòu)示意圖Fig.4 Structure diagram of simplified non－local block

其數(shù)學(xué)模型如式（9）所示。

其中，x、x表示輸入信號(hào)，W，W表示卷積因子。

在簡(jiǎn)化的non－local 模塊的操作中，將W移至乘法運(yùn)算之后，在顯著減少運(yùn)算量的同時(shí)，會(huì)降低準(zhǔn)確度，為了彌補(bǔ)這個(gè)問(wèn)題從而引入了第二個(gè)模塊SE模塊，其結(jié)構(gòu)示意圖如圖5 所示。

圖5 SE 模塊的結(jié)構(gòu)示意圖Fig.5 Structure diagram of SE block

SE 模塊的上支路會(huì)先將輸入的圖像做一次全局平均池化（ Global Average Pooling），后接bottleneck 結(jié)構(gòu)，即先使用卷積降低維度，之后做一次ReLU 非線性激活，再做一次卷積恢復(fù)維度，最后通過(guò)產(chǎn)生歸一化權(quán)重。上支路最后和恒等映射進(jìn)行乘積操作，形成SE 模塊的輸出。 SE 模塊的顯著特點(diǎn)便是通過(guò)bottleneck 結(jié)構(gòu)減小參數(shù)量，這是GCNet 引入SE 的重要原因。

融合簡(jiǎn)化后的Non－local 模塊以及SE 模塊，最終的GCNet 模塊結(jié)構(gòu)如圖6 所示。層標(biāo)準(zhǔn)化（Layer Normalization，LayerNorm）的作用是改善bottleneck結(jié)構(gòu)難以優(yōu)化的問(wèn)題，提高模型泛化能力，同時(shí)可以彌補(bǔ)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)不斷以相同函數(shù)堆疊導(dǎo)致提取的特征缺少多樣性的問(wèn)題。

圖6 Gcnet 模塊結(jié)構(gòu)示意圖Fig.6 Structure diagram of GCnet block

GCNet 的數(shù)學(xué)表達(dá)如式（10）所示：

其中，即ReLU 非線性激活函數(shù)，即層標(biāo)準(zhǔn)化。

在原來(lái)的簡(jiǎn)化的non－local 模塊的變換部分，融合了SE 模塊中bottleneck 結(jié)構(gòu)，并使用層標(biāo)準(zhǔn)化運(yùn)算解決優(yōu)化問(wèn)題，而上下文建模部分保留了簡(jiǎn)化的Non－local 模塊的結(jié)構(gòu)，這樣即能夠得到Non－local適應(yīng)特征之間長(zhǎng)距離的依賴的性能，又能像SE 模塊一般減少計(jì)算量，解決提取特征多樣性的丟失問(wèn)題，提高了檢測(cè)的準(zhǔn)確率。

4 融合BFP＋GCNet 的Mask R－CNN 網(wǎng)絡(luò)整體結(jié)構(gòu)

融合BFP＋GCNet 的Mask R－CNN 網(wǎng)絡(luò)整體結(jié)構(gòu)如圖7 所示。在主干網(wǎng)絡(luò)（Backbone）部分選用Resnet50，并在其中引入了GCNet 結(jié)構(gòu)，以加強(qiáng)特征的提取能力；在FPN 和RPN 之間增加了串聯(lián)的BFP結(jié)構(gòu)，用于提高特征的融合，增加目標(biāo)的可辨識(shí)性。

圖7 融合BFP＋GCNet 的Mask R－CNN 網(wǎng)絡(luò)整體結(jié)構(gòu)Fig.7 The overall structure of Mask R－CNN network integrated with BFP＋GCNet

5 實(shí)驗(yàn)方法與實(shí)驗(yàn)結(jié)果

5.1 實(shí)驗(yàn)環(huán)境

硬件環(huán)境：配有兩塊NVIDIA RTX 2080 Ti 顯卡的計(jì)算機(jī)；

軟件環(huán)境：Ubuntu 18 操作系統(tǒng)，Python 語(yǔ)言編程實(shí)現(xiàn)算法網(wǎng)絡(luò)，使用 PyTorch 學(xué)習(xí)框架，mmdetection 框架；

訓(xùn)練集：64 張圖片進(jìn)行mosaic 混合，大圖裁剪拼接，以提高背景與場(chǎng)景特征多樣性，提升數(shù)據(jù)質(zhì)量與數(shù)據(jù)集泛化性，每輪訓(xùn)練取所有圖片的80%，重復(fù)十次，共計(jì)十二輪訓(xùn)練；

測(cè)試集：64 張圖片，大小均為1 400×1 000。

5.2 評(píng)價(jià)指標(biāo)

識(shí)別對(duì)象分別為船只和尾跡，根據(jù)測(cè)試程序返回的指標(biāo)，選取各檢測(cè)對(duì)象“框選”和“分割”的平均準(zhǔn)確度進(jìn)行評(píng)價(jià)，評(píng)價(jià)的對(duì)照組為傳統(tǒng)Mask RCNN，實(shí)驗(yàn)組為僅融合BFP 的Mask R－CNN、僅融合GCNet 的Mask R－CNN、融合BFP＋GCNet 的Mask R－CNN，測(cè)試結(jié)果見(jiàn)表1。

表1 測(cè)試集輸出的模型準(zhǔn)確度測(cè)試結(jié)果Tab.1 Accuracy on test dataset

由表1 可以看出，相較于傳統(tǒng)的Mask R－CNN，不論是僅采取一個(gè)改進(jìn)措施或是將兩項(xiàng)改進(jìn)結(jié)合，本文所述的改進(jìn)措施具有顯著效果。同時(shí)，對(duì)尾跡的標(biāo)定準(zhǔn)確度比船只都高，說(shuō)明針對(duì)尾跡對(duì)船只的位置進(jìn)行勘測(cè)是可行的。

5.3 檢測(cè)效果

本文采用的數(shù)據(jù)集來(lái)自于landsat8 遙感影像，實(shí)際檢測(cè)效果如圖8 所示。由于目標(biāo)物較為模糊，且圖像的噪聲大，對(duì)需要檢測(cè)的目標(biāo)存在較大干擾，需要通過(guò)對(duì)已有的衛(wèi)星影像進(jìn)行裁剪，放大小目標(biāo)的精度，并進(jìn)行mosaic 融合，以提升檢測(cè)數(shù)據(jù)的質(zhì)量，并擴(kuò)充數(shù)據(jù)集。圖片經(jīng)過(guò)預(yù)處理后，進(jìn)入神經(jīng)網(wǎng)絡(luò)中的數(shù)據(jù)質(zhì)量得到提升，從而使得識(shí)別結(jié)果較為清晰，基本能夠正確地標(biāo)注出船只與尾跡所在的位置。

圖8 檢測(cè)效果Fig.8 Detection effects

6 結(jié)束語(yǔ)

本文討論了一種改進(jìn)的Mask R－CNN 的結(jié)構(gòu)，該結(jié)構(gòu)做出了兩個(gè)改進(jìn)：一在骨干網(wǎng)絡(luò)Resnet50 中加入GCNet 全局注意力模塊；二在FPN 特征提取網(wǎng)絡(luò)中引入BFP 串聯(lián)結(jié)構(gòu)。首先，從理論上證明這樣的改進(jìn)結(jié)構(gòu)能夠使Mask R－CNN 的檢測(cè)準(zhǔn)確率得以提升；利用實(shí)驗(yàn)分別測(cè)試融合了BFP／GCNet／BFP ＋GCnet 改進(jìn)的Mask R－CNN 以及對(duì)照組（傳統(tǒng)Mask R－CNN）的檢測(cè)準(zhǔn)確率，最終證明BFP＋GCNet 的改進(jìn)結(jié)構(gòu)明顯比其他模型的檢測(cè)能力更好，對(duì)于尾跡的檢測(cè)比對(duì)于船只的檢測(cè)準(zhǔn)確率更高，說(shuō)明了融合BFP＋GCNet 的Mask R－CNN 能夠更好地適應(yīng)船舶尾跡的檢測(cè)任務(wù)。