亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

GCAT-U-Net嵌入全局坐標(biāo)注意力機(jī)制的遙感地塊分割網(wǎng)絡(luò)

2022-03-30 14:03:02蘇耀，于濂，周偉

計(jì)算機(jī)測(cè)量與控制 2022年2期

蘇耀，于濂，周偉

(1.北京師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院，北京 100875；2.北京師范大學(xué) 互聯(lián)網(wǎng)教育智能技術(shù)及應(yīng)用國(guó)家工程實(shí)驗(yàn)室，北京 100875)

0 引言

耕地的數(shù)量和質(zhì)量是保持農(nóng)業(yè)可持續(xù)發(fā)展的關(guān)鍵，利用高分辨率的衛(wèi)星遙感影像[1]可以識(shí)別并獲取耕地區(qū)域，準(zhǔn)確的耕地分布能夠?yàn)閲?guó)家決策部門提供重要支撐。隨著遙感技術(shù)的迅速發(fā)展，現(xiàn)如今遙感圖像以及相關(guān)技術(shù)的應(yīng)用越來越廣泛[2-4]，耕地面積的統(tǒng)計(jì)提取、農(nóng)作物識(shí)別以及地塊識(shí)別等圖像語義分割技術(shù)，對(duì)促進(jìn)農(nóng)業(yè)發(fā)展有重要的科研意義和經(jīng)濟(jì)價(jià)值。

學(xué)者們針對(duì)遙感地塊語義分割這一實(shí)際問題進(jìn)行了一系列的研究，提出了很多種方法。有基于邊緣、形態(tài)學(xué)、區(qū)域、隨機(jī)場(chǎng)等傳統(tǒng)圖像分割特征的方法，例如：使用形態(tài)學(xué)中自適應(yīng)全局閾值配合方法[5]、高斯馬爾可夫隨機(jī)場(chǎng)結(jié)合支持向量機(jī)算法[6]等。很顯然，上述傳統(tǒng)語義分割方法，在特定規(guī)模的數(shù)據(jù)上有著良好的效果，但其依賴于專家知識(shí)、人工參數(shù)選取以及大量重復(fù)性實(shí)驗(yàn)等先驗(yàn)知識(shí)，對(duì)于大規(guī)模的數(shù)據(jù)來說，隨著特征復(fù)雜程度的提高，會(huì)有一定的限制，相較于深度學(xué)習(xí)方法，其在準(zhǔn)確率、精度、以及效率上尚存在著差距。

在深度學(xué)習(xí)領(lǐng)域，卷積神經(jīng)網(wǎng)絡(luò)憑借其獨(dú)特的自主學(xué)習(xí)能力以及處理大數(shù)據(jù)集的優(yōu)勢(shì)，在語義分割中展現(xiàn)了強(qiáng)大的潛力。當(dāng)前廣泛使用的語義分割網(wǎng)絡(luò)主要有：Long等人提出來的全連接層替代卷積層，保留圖像上下文空間特征，并且是圖像像素端到端預(yù)測(cè)的FCN網(wǎng)絡(luò)模型[7]；Badrinarayanan等人在繼承了FCN網(wǎng)絡(luò)模型的思想的同時(shí)，進(jìn)一步提出了SegNet網(wǎng)絡(luò)模型，該模型去掉了全連接層并且在編碼器(Encoder)信息和解碼器(Decoder)信息之間采用直接連接的方式，保留了數(shù)據(jù)結(jié)構(gòu)中大量有用的特征信息，使得網(wǎng)絡(luò)在訓(xùn)練過程以及精準(zhǔn)度上都有了提升[8]；Chaurasia等人同樣在基于編碼-解碼結(jié)構(gòu)網(wǎng)絡(luò)上，通過改進(jìn)特征融合方式，在解碼階段融合編碼階段的數(shù)據(jù)特征信息，提出了LinkNet網(wǎng)絡(luò)模型，獲得了更為精細(xì)的實(shí)驗(yàn)效果[9];Ronneberger等人同樣在FCN的基礎(chǔ)上使用對(duì)稱的編碼器和解碼器以及添加跳躍連接提出了U-Net網(wǎng)絡(luò)模型，其主要意義在于解碼階段重復(fù)利用了編碼階段的數(shù)據(jù)的特征信息，因此對(duì)于數(shù)據(jù)特征的紋理信息能夠更好的利用[10];Oktay等人將注意力機(jī)制引入到了U-Net網(wǎng)絡(luò)中，其在編碼器和解碼器特征進(jìn)行跳躍連接的地方，引入了一個(gè)門控制信號(hào)，旨在控制不同特征的重要性，對(duì)于U-Net網(wǎng)絡(luò)的檢測(cè)精度進(jìn)行了提升[11]；Zhou等人在U-Net網(wǎng)絡(luò)中使用了嵌套密集跳躍連接來替代原來的跳躍連接,提出了U-Net++網(wǎng)絡(luò)模型，在減小了編碼階段特征圖和解碼階段特征圖的語義鴻溝的同時(shí)，增加了U-Net的網(wǎng)絡(luò)性能[12]。

相對(duì)于一般場(chǎng)景特征來說，遙感影像具有數(shù)據(jù)量大、范圍廣的特點(diǎn)[13]，其綜合反映了某一時(shí)段內(nèi)某一地區(qū)的各種地物的形態(tài)和分布，包括：地質(zhì)、地貌、土壤、植被、水文、人工建筑物等，因此遙感影像存在紋理特征復(fù)雜、邊緣信息繁瑣、背景特征豐富的特點(diǎn)。隨著遙感影像空間分辨率的提高，在信息更加豐富的同時(shí)，帶來的還有更多的數(shù)據(jù)干擾的問題，例如：房屋、樹木等，其幾何形狀以及結(jié)構(gòu)內(nèi)容具有同一性或結(jié)構(gòu)性，給土地的細(xì)化分類，帶來了更多的挑戰(zhàn)。為了更好地處理遙感影像數(shù)據(jù)，本文在U-Net網(wǎng)絡(luò)結(jié)構(gòu)中引入注意力機(jī)制。實(shí)驗(yàn)結(jié)果表明注意力機(jī)制的加入，能夠有效提升語義分割的精確度以及地塊邊緣的清晰度。

本文的主要?jiǎng)?chuàng)新點(diǎn)如下：

1)針對(duì)地塊語義分割這一現(xiàn)實(shí)問題，結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)中通道以及數(shù)據(jù)位置等特征的研究，本文在U-Net的網(wǎng)絡(luò)架構(gòu)基礎(chǔ)上嵌入通道注意力機(jī)制和坐標(biāo)注意力機(jī)制，用于提高地塊分割網(wǎng)絡(luò)性能，證明了U-Net網(wǎng)絡(luò)在遙感地塊分割中的實(shí)用性，以及注意力機(jī)制的加入，能夠有效提升語義分割的精確度以及地塊邊緣的清晰度；

2)關(guān)注網(wǎng)絡(luò)特征提取中對(duì)于特征自身重要性以及特征位置信息的提取，既考慮全局信息，又考慮坐標(biāo)信息，創(chuàng)新的提出綜合考慮全局信息以及其位置信息的全局坐標(biāo)注意力機(jī)制，進(jìn)一步提高了模型性能，相較于同類注意力機(jī)制的嵌入，提高了分割準(zhǔn)確性，并且對(duì)于邊界的分割也更為清晰。

1 U-Net網(wǎng)絡(luò)體系結(jié)構(gòu)及注意力機(jī)制

1.1 U-Net網(wǎng)絡(luò)體系結(jié)構(gòu)

U-Net網(wǎng)絡(luò)是2015年Ronneberger等人提出來的用于醫(yī)學(xué)圖像處理的網(wǎng)絡(luò)，是圖像分割領(lǐng)域著名的深度學(xué)習(xí)網(wǎng)絡(luò)模型[10]。該模型主要使用卷積壓縮和擴(kuò)展的編碼-解碼結(jié)構(gòu)和跳級(jí)連接，實(shí)現(xiàn)了對(duì)語義信息以及圖像信息進(jìn)行融合的特征提取。由于其對(duì)稱的兩個(gè)路徑形似U型結(jié)構(gòu)而命名為“U-Net”。

U-Net網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示,該模型是一端到端的網(wǎng)絡(luò)模型，由左半邊的捕獲上下文信息的壓縮通道(Encoder)和右半邊的擴(kuò)展通道(Decoder)以及連接壓縮通道和擴(kuò)展通道的跳躍連接組成。從模型結(jié)構(gòu)來分析，主要分為3個(gè)部分：下采樣，上采樣和跳躍連接。左半部分即Encoder，每個(gè)下采樣結(jié)構(gòu)由兩個(gè)3×3的卷積層，卷積層后使用ReLU函數(shù)激活，然后使用2×2的步長(zhǎng)為2的最大池化操作組成，每經(jīng)過一次下采樣，通道數(shù)翻倍；右半部分Decoder，每個(gè)上采樣結(jié)構(gòu)由一個(gè)2×2的上采樣卷積層，每個(gè)卷積層后使用ReLU函數(shù)激活后與對(duì)應(yīng)的Encoder層的輸出特征圖結(jié)果相加之后進(jìn)行2個(gè)3×3的卷積層，最后進(jìn)行ReLU函數(shù)激活組成，其中上采樣將特征通道的數(shù)量減半。在最后一層，使用1×1的卷積，將輸出映射到所需的類別數(shù)。網(wǎng)絡(luò)中的卷積皆采用valid的填充方式，主要是用來保證結(jié)果都是在沒有缺失的上下文特征中得到的，且網(wǎng)絡(luò)中通過中間的跳躍連接，將在網(wǎng)絡(luò)壓縮階段所產(chǎn)生的淺層次特征圖與擴(kuò)張階段所產(chǎn)生的深層次特征圖相結(jié)合，根據(jù)所獲取的特征圖進(jìn)行地塊語義的預(yù)測(cè)分割。

圖1 U-Net網(wǎng)絡(luò)體系結(jié)構(gòu)

1.2 注意力機(jī)制

注意力模型在當(dāng)下已經(jīng)成為神經(jīng)網(wǎng)絡(luò)中優(yōu)化網(wǎng)絡(luò)的一個(gè)重要研究方向，很多研究者都頗為關(guān)注[14-16]。在非大幅度增加模型復(fù)雜程度的基礎(chǔ)上，注意力機(jī)制通過參數(shù)調(diào)整，加強(qiáng)網(wǎng)絡(luò)對(duì)于數(shù)據(jù)中重要特征的關(guān)注度，抑制數(shù)據(jù)中的背景特征，以提高模型預(yù)測(cè)結(jié)果的分割精度，尤其對(duì)細(xì)節(jié)處的提升，有較為明顯的優(yōu)勢(shì)。

在遙感圖像中，地塊的分布是錯(cuò)綜復(fù)雜的，不僅要考慮部分的遮擋，例如大樹、房屋等，還要考慮田間道路等細(xì)微處的分割，因此引入注意力機(jī)制，能夠有利于細(xì)化分割。本文提出了一種全局坐標(biāo)注意力機(jī)制，對(duì)U-Net網(wǎng)絡(luò)進(jìn)行了優(yōu)化改進(jìn)。

1.2.1 通道注意力機(jī)制(SE, squeeze-and-excitation channel attention mechanism)

遙感圖像在U-Net網(wǎng)絡(luò)的卷積操作的過程中，不同的特征通道對(duì)于最后的圖像分割也會(huì)存在不同的影響，原有的U-Net網(wǎng)絡(luò)，是直接采用相加拼接的方式進(jìn)行特征的融合，忽略了不同特征通道的權(quán)重，不利于在最后的分割結(jié)果中某些重要特征通道的信息增強(qiáng)。因此考慮特征通道之間的關(guān)系，提出了通道注意力機(jī)制[17]，該機(jī)制是通過對(duì)特征圖中各通道間對(duì)于輸出結(jié)果的影響的要性來進(jìn)行的分析計(jì)算，這有利于增強(qiáng)特征圖中重要通道的影響，提高U-Net網(wǎng)絡(luò)對(duì)最終圖像分割的精準(zhǔn)度。

如圖2所示，通道注意力機(jī)制是一種先壓縮再擴(kuò)張的模型。具體來說，給定輸入特征X，假設(shè)原始特征圖的維度為H×W×C，其中H是高度(Height)，W是寬度(Width)，C是通道數(shù)(Channel)。壓縮部分是將H×W×C壓縮為1×1×C，相當(dāng)于把H×W壓縮成一維，實(shí)際中一般使用全局平均池化來實(shí)現(xiàn)，并不使用其他的池化方式，因?yàn)槊總€(gè)通道的特征圖最后會(huì)池化為一個(gè)值，在這種情況下，全局平均池化更能代表其整體的特征。H×W壓縮成一維后，相當(dāng)于這一維參數(shù)獲得了之前H×W全局的視野，感受區(qū)域更廣，將特征通道數(shù)據(jù)進(jìn)行壓縮變成1×1×C后，加入一個(gè)FC全連接層(Fully Connected)，進(jìn)行降維操作，其目的在于擴(kuò)大感受野的同時(shí)，降低計(jì)算量。之后通過ReLU激活，再接一個(gè)FC全連接層完成升維操作，升維后的向量通過Sigmoid激活，變成C維向量，所代表的是每個(gè)通道的重要性。在得到不同通道的重要性大小后再乘(激勵(lì))到之前的特征圖對(duì)應(yīng)通道上。通道注意力機(jī)制有著復(fù)雜度低、新增參數(shù)和計(jì)算量小的優(yōu)勢(shì)。

圖2 通道注意力機(jī)制結(jié)構(gòu)

1.2.2 坐標(biāo)注意力機(jī)制(CAT,coordinate attention mechanism)

通道注意力機(jī)制僅僅考慮了卷積之后不同特征通道之間的權(quán)重分配，雖然它能夠有效反映通道間相關(guān)性，但卻忽視了位置信息的問題，因此應(yīng)考慮在不同的通道特征圖中位置對(duì)于輸出結(jié)果的影響，坐標(biāo)注意力機(jī)制可以將位置信息嵌入到通道注意力中，通過融入水平與垂直不同方向的注意力機(jī)制，以捕獲特征位置的依賴關(guān)系[18]。

所提位置注意力機(jī)制模塊的結(jié)構(gòu)如圖3所示，相較于通道注意力機(jī)制，其將全局池化拆分成了兩個(gè)特征編碼操作，具體來說，給定輸入特征X，假設(shè)其維度為H×W×C，采用兩個(gè)池化核(H,1)、(1,W)對(duì)每個(gè)通道沿著水平與垂直坐標(biāo)進(jìn)行編碼，描述如下：

圖3 坐標(biāo)注意力機(jī)制結(jié)構(gòu)

(1)

(2)

通過這兩個(gè)變換可以沿著兩個(gè)空間方向集成特征，并生成與該方向相關(guān)的特征圖。這兩種變換使得所提注意力模塊可以更好地捕獲位置依賴性，有助于進(jìn)行更精確的目標(biāo)定位。結(jié)合上一步所提取的特征，首先對(duì)其進(jìn)行拼接，這一步是為了保障兩個(gè)方向的輸出擁有一致的量綱，將拼接之后的特征數(shù)據(jù)送入到共享1×1卷積F1并得到:

f=δ(F1([zh,zw]))

(3)

最后將f沿著空間維度拆分為兩個(gè)獨(dú)立張量fh∈RR/r×H，fw∈RC/r×W，采并用兩個(gè)額外的1×1卷積Fh，F(xiàn)w對(duì)其進(jìn)行分離為和X相同維度的張量。

gh=σ(Fh(fh))

(4)

gw=σ(Fw(fw))

(5)

接下來，對(duì)輸出進(jìn)行擴(kuò)展用以作為注意力權(quán)重，并作用于輸入得到該注意力模塊的最后輸出：

(6)

位置注意力機(jī)制本質(zhì)是能夠在卷積后的通道圖上，結(jié)合其所處的位置信息，提取所有像素的顯著特征。對(duì)于輸出的特征圖來說，其建立了特征像素和位置之間的關(guān)聯(lián)信息，在對(duì)于邊界點(diǎn)以及細(xì)節(jié)處等微小的地方，網(wǎng)絡(luò)的分割能力有顯著提高。

1.2.3 全局坐標(biāo)注意力機(jī)制(GCAT, global coordinate attention mechanism)

上述兩個(gè)注意力機(jī)制，分別考慮了卷積之后的特征圖不同通道之間以及各個(gè)通道特征圖中不同位置之間的關(guān)系之后提出的注意力機(jī)制。在此基礎(chǔ)之上，本文不僅考慮不同位置之間的影響，同時(shí)還考慮全局信息對(duì)于輸出特征圖的影響，提出了全局坐標(biāo)注意力機(jī)制，將進(jìn)一步關(guān)注特征圖中每一特征自身對(duì)于整體特征的重要性及其所處位置信息對(duì)于輸出結(jié)果的重要性，這對(duì)于地塊語義分割來說能夠提高其特征選取效率，細(xì)化選取有效的地塊語義分割特征。

圖4 全局坐標(biāo)注意力機(jī)制結(jié)構(gòu)

所提出的注意力機(jī)制模塊如圖4所示，主要分為兩個(gè)部分：第一部分同于上述坐標(biāo)注意力機(jī)制，通過變換沿著水平與垂直兩個(gè)空間方向集成特征，生成方向相關(guān)特征圖。

(7)

第二部分融入特征圖自身對(duì)于輸出的影響，將輸入特征圖送入到共享1×1卷積，之后進(jìn)行標(biāo)準(zhǔn)化操作，最后采用額外的1×1卷積以及Sigmoid激活，輸出結(jié)果為與X相同維度的張量。

yn=σ(F1(σ(F1(xc(i,j)))))

(8)

該注意力機(jī)制模塊最終輸出為與輸入得到與X相同維度的張量Y。

Y=yn+yc

(9)

經(jīng)過這兩種變換使得所提全局注意力機(jī)制模塊不僅可以捕獲到位置依賴性，而且考慮其自身對(duì)于輸出的作用，在有助于進(jìn)行更精確的目標(biāo)定位同時(shí)，細(xì)化輸出，加強(qiáng)了重要特征的提取。

2 模型構(gòu)建

2.1 模型結(jié)構(gòu)

本文對(duì)U-Net網(wǎng)絡(luò)進(jìn)行了改進(jìn)，改進(jìn)后的網(wǎng)絡(luò)設(shè)計(jì)如圖5所示。

圖5 注意力機(jī)制嵌入位置

本文在一個(gè)標(biāo)準(zhǔn)的U-Net架構(gòu)上，嵌入不同的注意力機(jī)制。綜合考量U-Net的網(wǎng)絡(luò)結(jié)構(gòu)，為充分利用其對(duì)于圖像的多個(gè)尺度的特征提取，因此考慮跳躍連接之后對(duì)結(jié)合了網(wǎng)絡(luò)壓縮階段所產(chǎn)生的淺層次特征圖與擴(kuò)張階段所產(chǎn)生的深層次特征圖的特征進(jìn)行注意力機(jī)制改進(jìn)。這樣做，不僅有利于改進(jìn)模型對(duì)于粗略的特征圖的上下文信息提取，有利于突出顯示最終需要的特征類別和位置，并且對(duì)于感受野的捕捉有促進(jìn)作用。從結(jié)果輸出來分析，這4個(gè)位置進(jìn)行注意力機(jī)制嵌入，也有利于其突出跳躍連接傳遞的顯著特征，相較于壓縮階段嵌入來說，更加貼近輸出特征圖，對(duì)于結(jié)果的改進(jìn)更為直接。此外，相關(guān)注意力機(jī)制的嵌入可以讓網(wǎng)絡(luò)更加關(guān)注其卷積層間的信息、特征圖的位置信息以及自身信息。

結(jié)合圖5的注意力機(jī)制嵌入方式以及SE通道注意力機(jī)制、CAT坐標(biāo)注意力機(jī)制、GCAT全局坐標(biāo)注意力機(jī)制，我們?cè)O(shè)計(jì)了SE-U-Net 通道注意力機(jī)制嵌入網(wǎng)絡(luò)、CAT-U-Net 坐標(biāo)注意力機(jī)制嵌入網(wǎng)以及GCAT-U-Net全局坐標(biāo)注意力機(jī)制嵌入網(wǎng)絡(luò)。

2.2 參數(shù)設(shè)置

在訓(xùn)練過程中，每次實(shí)驗(yàn)參數(shù)設(shè)置相同，batch size每批次輸入大小為8，訓(xùn)練迭代次數(shù)為100次，訓(xùn)練圖像每張大小為480像素*480像素，實(shí)驗(yàn)使用 Adam 優(yōu)化算法，使用 Adam中默認(rèn)參數(shù)[19]，其中學(xué)習(xí)率設(shè)為 0.001，指數(shù)衰減率0.9，調(diào)整學(xué)習(xí)率為間隔調(diào)整學(xué)習(xí)率(Step LR)。

2.3 損失函數(shù)

將損失函數(shù)設(shè)計(jì)為CELoss和DiceLoss二者的加權(quán)和，考慮Dice系數(shù)為評(píng)價(jià)指標(biāo)引導(dǎo)模型進(jìn)行更好的訓(xùn)練。

損失函數(shù)：

loss=loss(xi,yi)+s

(10)

其中：xi表示樣本i的預(yù)測(cè)概率；yi表示樣本i的真實(shí)標(biāo)簽，取值為0或1；wi表示樣本i的權(quán)重：

loss(xi,yi)=-wi[yilogxi+(1-yi)log(1-xi)]

(11)

Dice系數(shù)差異函數(shù)(Dice loss)，是一種集合相似度度量函數(shù)，通常用于計(jì)算兩個(gè)樣本的相似度(值范圍為[0,1])，公式如下:

(12)

|X|和|Y|分別表示X圖片真實(shí)標(biāo)注的標(biāo)簽和Y網(wǎng)絡(luò)預(yù)測(cè)的結(jié)果標(biāo)簽的元素個(gè)數(shù)。其中，分子中的系數(shù)2，是因?yàn)榉帜复嬖谥貜?fù)計(jì)算X和Y之間的共同元素的原因。

2.4 評(píng)價(jià)指標(biāo)

本文主要研究的是遙感地塊語義分割，因此使用語義分割中普遍使用的準(zhǔn)確率度量：像素準(zhǔn)確率(PA，pixel accuracy)、平均像素準(zhǔn)確率(MPA， mean pixel accuracy)、平均IOU(MIOU，mean intersection over union)和加權(quán)平均IOU(FWIoU，frequency weighted intersection over union)。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)獲取與處理

GID數(shù)據(jù)集[20]是武漢大學(xué)的開源高分影像數(shù)據(jù)集，它是利用高分2號(hào)(GF-2)衛(wèi)星影像構(gòu)建的大規(guī)模土地覆蓋數(shù)據(jù)集，該數(shù)據(jù)集覆蓋范圍大，分布范圍廣，空間分辨率高，優(yōu)于先前的土地覆蓋數(shù)據(jù)集。因?yàn)楸緦?shí)驗(yàn)專注于地塊提取，所以利用其精細(xì)分類集，精細(xì)分類集包含有：工業(yè)用地、城市住宅、農(nóng)村住宅、交通用地、灌溉地、水田、旱地、河、湖、池塘等15個(gè)類別。

在精細(xì)分類遙感數(shù)據(jù)集中，挑選了一副土地占有率為56.7%的7 200像素*6 800像素的高分辨率遙感圖像。通過對(duì)標(biāo)注數(shù)據(jù)的二值化，得到訓(xùn)練所需的地面真值標(biāo)簽，其中1為地塊類別，0為其他類別。隨著所設(shè)計(jì)的網(wǎng)絡(luò)的深度、寬度的不斷增加，網(wǎng)絡(luò)模型的參數(shù)量都是數(shù)以百計(jì)的，因此需要大量的圖像數(shù)據(jù)進(jìn)行訓(xùn)練以得到更好的模型，而實(shí)際情況中數(shù)據(jù)并沒有那么多，為了更好的提取圖像特征，使用以下方法對(duì)圖像訓(xùn)練集進(jìn)行豐富。在獲得 batch 數(shù)據(jù)之后，對(duì)這個(gè)batch的數(shù)據(jù)進(jìn)行了數(shù)據(jù)增強(qiáng)，主要方法手段有：旋轉(zhuǎn)90°、旋轉(zhuǎn)180°、旋轉(zhuǎn)270°、翻轉(zhuǎn)、光照調(diào)整、模糊操作、增加噪聲等方式，將訓(xùn)練數(shù)據(jù)集擴(kuò)充到3 000張，其中訓(xùn)練集與測(cè)試集比例為7∶3。一方面，它增加了訓(xùn)練的數(shù)據(jù)量，提高了模型的泛化能力；另一方面，它增加噪聲數(shù)據(jù)，提升了模型的魯棒性。

3.2 結(jié)果與討論

本節(jié)討論U-Net網(wǎng)絡(luò)在嵌入不同注意力機(jī)制，在GID實(shí)驗(yàn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果和分析。

實(shí)驗(yàn)所有模型的輸入圖像尺寸為480像素*480像素,輸出圖像為 480像素*480像素大小的預(yù)測(cè)標(biāo)簽圖。部分分割結(jié)果對(duì)比如圖6，依次為：原圖、Ground Truth以及U-Net、SE-U-Net、CAT-U-Net和GCAT-U-Net的預(yù)測(cè)結(jié)果。

圖6 網(wǎng)絡(luò)在 GID測(cè)試集上分割效果圖

其中，SE-U-Net、CAT-U-Net分別為：?jiǎn)为?dú)嵌入通道注意力機(jī)制、坐標(biāo)注意機(jī)制的U-Net網(wǎng)絡(luò)，GCAT-U-Net為本文設(shè)計(jì)的針對(duì)問題研究提出來的全局坐標(biāo)注意力機(jī)制改進(jìn)網(wǎng)絡(luò)。所有對(duì)比網(wǎng)路在相同環(huán)境下運(yùn)行，且損失函數(shù)、數(shù)據(jù)預(yù)處理以及參數(shù)設(shè)置等方面均保持一致。

從預(yù)測(cè)圖中可以看出，U-Net模型的預(yù)測(cè)結(jié)果與真實(shí)標(biāo)注label相差較大，而將通道注意力機(jī)制嵌入之后的SE-U-Net模型預(yù)測(cè)的計(jì)算結(jié)果則有了明顯提升，進(jìn)一步嵌入坐標(biāo)注意力機(jī)制的CAT-U-Net模型預(yù)測(cè)結(jié)果在SE-U-Net的基礎(chǔ)上有了更進(jìn)一步的提高。相較于前兩種注意力機(jī)制來說，本文提出的全局坐標(biāo)注意力機(jī)制嵌入的GCAT-U-Net模型則對(duì)于預(yù)測(cè)結(jié)果的精確度提升效果最好。如圖8，在每個(gè)預(yù)測(cè)圖的圓框內(nèi)，只有本文設(shè)計(jì)的GCAT-U-Net模型的預(yù)測(cè)結(jié)果分類較為準(zhǔn)確，其余模型，有明顯的將地塊類別錯(cuò)分為其余類別的問題。另外，從圖8中的每個(gè)預(yù)測(cè)圖的方框中可以看出，GCAT-U-Net模型的預(yù)測(cè)結(jié)果相較于CAT-U-Net模型的預(yù)測(cè)結(jié)果邊界分割更清晰，分類更為準(zhǔn)確；而SE-U-Net模型的預(yù)測(cè)結(jié)果，有明顯的將地塊類別錯(cuò)分為其余類別的問題。由此說明注意力機(jī)制可以明顯提高遙感地塊語義分割與提取的精度，所得到的分割邊界也更為清晰。

不同注意力機(jī)制嵌入的U-Net語義分割網(wǎng)絡(luò)模型在驗(yàn)證數(shù)據(jù)集上的基于分割準(zhǔn)確率評(píng)價(jià)指標(biāo)的結(jié)果分析如表1所示。通過對(duì)表進(jìn)行分析，基于語義分割評(píng)價(jià)指標(biāo)PA，與U-Net進(jìn)行對(duì)比，SE-U-Net提升了1.43%，CAT-U-Net提升了1.83% ，GCAT-U-Net提升了2.05%；而在評(píng)價(jià)指標(biāo)MIoU上，SE-U-Net提升了2.58%，CAT-U-Net提升了3.35% ，GCAT-U-Net提升了3.72%，可以發(fā)現(xiàn)，本文所提出的全局坐標(biāo)注意力機(jī)制，在各個(gè)評(píng)價(jià)指標(biāo)上，相較于其他注意力機(jī)制來說取得了顯著的提升，對(duì)于圖像的分割，也取得了較高的分割精度。

表1 模型在GID測(cè)試集上的比較

4 結(jié)束語

本文是關(guān)注遙感地塊語義分割中對(duì)于U-NET網(wǎng)絡(luò)的注意力機(jī)制改進(jìn)，旨在提高細(xì)節(jié)處遙感圖像的分割，提高分割的準(zhǔn)確率。針對(duì)U-Net網(wǎng)絡(luò)的特性，在前人研究的通道注意力機(jī)制以及坐標(biāo)注意力機(jī)制的基礎(chǔ)上，創(chuàng)新性的提出了全局坐標(biāo)注意力機(jī)制，提高了遙感地塊語義分割的準(zhǔn)確度。全局坐標(biāo)注意力機(jī)制改進(jìn)的U-Net網(wǎng)絡(luò)模型，相比較于單一嵌入通道注意力機(jī)制、坐標(biāo)注意力機(jī)制的U-Net網(wǎng)絡(luò)，在武漢大學(xué)GID數(shù)據(jù)集上，從不同的指標(biāo)來看，都有了很大的改進(jìn)，尤其對(duì)于一些原始網(wǎng)絡(luò)中的錯(cuò)分、漏分和邊緣粗糙等問題來說，輸出結(jié)果均有所改善。但還有很多可提升的空間，例如：增加網(wǎng)絡(luò)的泛化性以及魯棒性；降低模型復(fù)雜程度、參數(shù)數(shù)量、運(yùn)行時(shí)間等。在接下來的研究中，可以考慮多尺度模型設(shè)計(jì)，以及其他改進(jìn)方式，例如transform等，在利用好深度學(xué)習(xí)網(wǎng)絡(luò)模型的同時(shí)，嘗試融入當(dāng)下理論體系相對(duì)較完善的傳統(tǒng)語義分割理論，增加模型的可解釋性，更深層次的增進(jìn)遙感地塊語義分割的探索與研究。