亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種雙路網(wǎng)絡(luò)語義分割模型

2022-02-11 07:00:08楊運龍滕少華

廣東工業(yè)大學(xué)學(xué)報 2022年1期

楊運龍，梁路，滕少華

（廣東工業(yè)大學(xué) 計算機學(xué)院，廣東廣州 510006）

語義分割是對圖像中的每個像素進行分類。高分辨率遙感圖像語義分割是遙感領(lǐng)域一個長期研究的課題。它在城市規(guī)劃[1]、自然災(zāi)害監(jiān)測[2]、土地覆蓋變化[3]、自動道路監(jiān)測[4]等方面扮演著重要的角色。隨著對太空的不斷探索，發(fā)射的衛(wèi)星越來越多，獲取到的遙感圖像數(shù)量也越來越多，如何對遙感圖像進行解譯已經(jīng)成為了當(dāng)下的研究熱點之一。傳統(tǒng)方法通常是依賴圖像像素自身的低階視覺信息來進行語義分割。2006年以卷積神經(jīng)網(wǎng)絡(luò)為主體的深度學(xué)習(xí)模型的提出在圖像識別任務(wù)上取得了重大突破[5]。近年來，隨著深度學(xué)習(xí)的不斷發(fā)展，深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Networks,DCNNs)在所有主要的評價基準(zhǔn)上都取得了顯著的提高，并成為遙感圖像處理的常用方法。

語義分割模型由用于圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)發(fā)展而來。為使網(wǎng)絡(luò)能夠進行稠密像素預(yù)測，將卷積神經(jīng)網(wǎng)絡(luò)中的全連接層轉(zhuǎn)變?yōu)槎鄠€卷積層[6]。然而，使用分類網(wǎng)絡(luò)的基本結(jié)構(gòu)會帶來一些問題[7-8]。例如，網(wǎng)絡(luò)中池化層進行下采樣會導(dǎo)致輸出結(jié)果的空間分辨率損失，降低分割精度[9-10]。對于圖像中不同尺度的物體，感受野的限制也會對分割結(jié)果產(chǎn)生不利影響[11-13]。值得注意的是，對于分割中目標(biāo)邊緣的處理也是其中的難題。網(wǎng)絡(luò)對邊緣劃分不夠明確，常常會導(dǎo)致分割結(jié)果錯誤，網(wǎng)絡(luò)的準(zhǔn)確率下降。圖1為神經(jīng)網(wǎng)絡(luò)輸出與真實標(biāo)簽邊緣對比圖，其中圖1(a)為輸入圖像，圖1(b)為真實標(biāo)簽，圖1(c)為神經(jīng)網(wǎng)絡(luò)預(yù)測，從圖中可以看出，神經(jīng)網(wǎng)絡(luò)在不同類別邊緣處更容易分割錯誤。卷積神經(jīng)網(wǎng)絡(luò)可以可靠地預(yù)測圖像中物體的存在和粗略位置，但不太適合精確地指出它們的確切輪廓。卷積網(wǎng)絡(luò)的分類精度和定位精度之間存在一種內(nèi)在的權(quán)衡，具有多個池化層的更深層模型增加了平移不變性，擴大了頂層節(jié)點的感受野，但丟失了高頻細節(jié)，而目標(biāo)邊緣的精確定位需要更多的局部細節(jié)信息[14]。本文認為這種影響對于包含至少數(shù)十到數(shù)百個多尺度目標(biāo)的遙感圖像非常關(guān)鍵。

圖1 神經(jīng)網(wǎng)絡(luò)輸出與真實標(biāo)簽邊緣對比圖Fig.1 The comparison of edge between ground truth and CNN

已經(jīng)有一些模型試圖減輕由于下采樣而造成的細節(jié)損失，如在網(wǎng)絡(luò)中引入空洞卷積[7,14-15]，在編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)之間增加對等的跳躍連接[12,16]等。然而，在應(yīng)用于小目標(biāo)較多的遙感影像時，這些方法仍有模糊目標(biāo)邊界的傾向。邊緣特征對于完成語義分割、目標(biāo)識別等多種視覺任務(wù)都非常重要[17]。但由于分類網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的固有屬性，顏色、形狀、紋理等特征都在一個網(wǎng)絡(luò)中處理，這些特征與識別的相關(guān)性各不相同。為了增強模型對邊緣的識別能力，本文提出了一種融合語義分割與邊緣檢測的單一網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架?？蚣苡蓛蓚€部分構(gòu)成：分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)。具體來說，分割網(wǎng)絡(luò)提取圖像的分割特征，為每個像素生成語義標(biāo)簽，邊緣網(wǎng)絡(luò)提取邊緣特征，判斷不同類別間的邊界。邊緣網(wǎng)絡(luò)以分割網(wǎng)絡(luò)的中間特征作為輸入，從分割網(wǎng)絡(luò)中提取多路語義特征構(gòu)建邊緣特征。在框架的頂層融合兩個網(wǎng)絡(luò)的特征，利用邊緣特征細化分割特征，提高分割結(jié)果的準(zhǔn)確性，并實現(xiàn)端到端的訓(xùn)練。

1 相關(guān)研究

1.1 語義分割模型

多年來，語義分割一直是計算機視覺和遙感研究的核心問題。早期的方法主要是基于區(qū)域建議的方法，通過生成區(qū)域建議對像素進行分類[18-19]。一個重要的里程碑是Long等[6]提出的全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,FCNs)，它表明全連接層可以看作是卷積層的堆疊，并且已經(jīng)成為語義分割網(wǎng)絡(luò)應(yīng)用最廣泛的選擇。為了降低池化層造成的空間分辨率損失，一些方法提出采用反卷積[20-21]來恢復(fù)損失的細節(jié)信息。反卷積使用存儲池化位置并在其他位置補零的方式進行上采樣操作。另一些方法則采用空洞卷積來控制特征圖的分辨率[14,22]，擴大感受野，同時建立空間金字塔池，在多尺度上對圖像進行分割。還有很多方法利用中間層特征進行分割。U-net[16]和RefineNet[12]在編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)之間應(yīng)用跳躍連接，使用來自早期卷積的細粒度特征直接補充更深層次網(wǎng)絡(luò)中捕獲的高級語義特征。一些研究提出對網(wǎng)絡(luò)輸出使用條件隨機場來細化目標(biāo)邊界，以此來提高分割性能[23-25]。Pohlen等[26]提出了一個雙流網(wǎng)絡(luò)，其中一個流用于恢復(fù)在池化中損失的高分辨率特征。與這些方法通過恢復(fù)下采樣造成的空間分辨率損失不同，雙路網(wǎng)絡(luò)模型在網(wǎng)絡(luò)增加邊緣特征來提高對目標(biāo)邊緣的分割能力。

1.2 語義邊緣檢測

語義邊緣檢測最早由Prasad等[27]提出。Bertasius等[28]提出使用高級對象特征來告知低級邊界檢測的方法，在使用FCNs等深度語義分割網(wǎng)絡(luò)來獲得類別標(biāo)簽之前，使用分類網(wǎng)絡(luò)來定位二值語義邊緣。Bertasius等[29]引入的BNF(Boundary Neural Field)使用了綜合FCNs預(yù)測和邊緣線索的能量模型。一個值得注意的方法是HED(Holistically-nested Edge Detection)[30]，它證明了FCNs除了類別分類外，也可以被訓(xùn)練為邊緣檢測器來輸出圖像的邊緣的特征圖。CASENet[17]提出了一種新的跨層結(jié)構(gòu)來預(yù)測多標(biāo)簽語義邊緣。深度卷積神經(jīng)網(wǎng)絡(luò)不僅可以用于圖像分類、目標(biāo)檢測等任務(wù)，也可以學(xué)習(xí)邊緣信息用于邊緣檢測，并在效果上取得了顯著的提升。

1.3 多任務(wù)學(xué)習(xí)

一些研究探索了將網(wǎng)絡(luò)與互補任務(wù)相結(jié)合的想法，以提高計算機視覺任務(wù)的學(xué)習(xí)效率、預(yù)測精度和泛化。Kendall等[31]提出了一個統(tǒng)一的架構(gòu)，結(jié)合多個損失函數(shù)，利用同方差不確定性同時學(xué)習(xí)多個目標(biāo)。為了學(xué)習(xí)DCNNs中的共享表示，十字形網(wǎng)絡(luò)[32]引入十字形單元進行多任務(wù)學(xué)習(xí)。在本文的雙路網(wǎng)絡(luò)中，通過增加邊緣網(wǎng)絡(luò)，讓模型可以同時學(xué)習(xí)邊緣特征和分割特征，并用邊緣特征細化分割特征。

2 網(wǎng)絡(luò)模型

雙路網(wǎng)絡(luò)模型主要由兩個網(wǎng)絡(luò)構(gòu)成，分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)，兩個網(wǎng)絡(luò)協(xié)同工作進行語義分割。分割網(wǎng)絡(luò)對圖像像素進行分類，輸出像素點類別的可能性；邊緣網(wǎng)絡(luò)利用分割網(wǎng)絡(luò)的中間特征作為輸入，來學(xué)習(xí)和邊緣相關(guān)的特征，判斷像素點是否為邊緣。接著，在網(wǎng)絡(luò)的頂層，將分割特征和邊緣特征融合在一起，提升模型的識別能力。

2.1 分割網(wǎng)絡(luò)

分割網(wǎng)絡(luò)是用于語義分割的深度卷積神經(jīng)網(wǎng)絡(luò)，以高度H、寬度W的圖像為輸入，提取圖像的分割特征，輸出同樣大小的密集特征預(yù)測圖。分割網(wǎng)絡(luò)可以是任意前饋的全卷積網(wǎng)絡(luò)，如FCNs[6]、SegNet[33]或Deeplab[34]。為了兼顧效果和模型參數(shù)的平衡，本文選擇SegNet作為分割網(wǎng)絡(luò)。

分割網(wǎng)絡(luò)由兩部分組成:編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)。編碼網(wǎng)絡(luò)由一系列卷積層和池化層構(gòu)成，卷積層負責(zé)獲取圖像的局部特征，池化層負責(zé)對圖像進行下采樣。隨著網(wǎng)絡(luò)的深入，獲得的特征圖包含更多的高層次語義信息，但空間分辨率也不斷下降。為了克服這一問題，SegNet在編碼網(wǎng)絡(luò)的基礎(chǔ)上增加了一個解碼網(wǎng)絡(luò)，用于恢復(fù)特征的分辨率。解碼網(wǎng)絡(luò)的設(shè)計類似于編碼網(wǎng)絡(luò)的鏡像版本，它使用上采樣操作替代池化層擴大分辨率，以復(fù)原物體的幾何形狀，彌補編碼網(wǎng)絡(luò)中下采樣造成的細節(jié)損失，獲得更精細的特征圖。編碼網(wǎng)絡(luò)中有5組卷積層，與VGG-16[35]網(wǎng)絡(luò)中的13個卷積層相同。在每組卷積層后，都使用BN(Batch Normalization)和RELU(Rectified Linear Units)來加速訓(xùn)練。接下來是大小為2×2，步長為2的最大池化層來實現(xiàn)平移不變性。在解碼網(wǎng)絡(luò)中，使用了與編碼網(wǎng)絡(luò)中對稱的卷積層，并用上采樣操作替代最大池化層。

2.2 邊緣網(wǎng)絡(luò)

由于高層次特征圖的空間分辨率損失，語義分割的結(jié)果可能會在邊緣附近包含錯誤的分類。本文提出了一個雙路網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架，擴展了一個特殊的分支來處理邊緣相關(guān)信息。邊緣網(wǎng)絡(luò)以分割網(wǎng)絡(luò)的中間層次特征作為輸入，生成語義邊緣作為輸出。

邊緣網(wǎng)絡(luò)由少量殘差塊[36]和卷積核大小為1×1的卷積層構(gòu)成。具體地說，邊緣網(wǎng)絡(luò)從分割網(wǎng)絡(luò)中編碼網(wǎng)絡(luò)的第一和第二組卷積中獲得兩個特征作為輸入，從解碼網(wǎng)絡(luò)對稱地獲得另外兩個特征作為輸入。為了保持邊緣特征分辨率的一致，將這些特征通過線性插值恢復(fù)到與輸入圖像分辨率相同。低層特征包含更多的局部細節(jié)，從編碼網(wǎng)絡(luò)提??；高層特征包含更多的語義信息，從解碼網(wǎng)絡(luò)提取。通過殘差塊構(gòu)成的邊緣網(wǎng)絡(luò)來學(xué)習(xí)這些中間特征中語義邊緣信息，提取邊緣特征。殘差結(jié)構(gòu)具有很強的學(xué)習(xí)能力，適合在深度網(wǎng)絡(luò)中使用。卷積核大小為1×1的卷積層被插入分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)之間。它能將兩個網(wǎng)絡(luò)連接起來，使整個模型更加靈活，并讓分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)更專注于它們各自的任務(wù)。同時，它也能降低中間特征的維數(shù)，減少內(nèi)存消耗，加快訓(xùn)練過程。兩種殘差塊如圖2所示。

圖2 兩種殘差塊結(jié)構(gòu)圖Fig.2 The architecture of residual block

殘差塊由卷積層和恒等映射組成，可定義為

式中：xl和xl+1分別是殘差塊的輸入和輸出，F(xiàn)(xl,wl)表示需要學(xué)習(xí)的殘差映射。殘差塊有兩層恒等殘差和性能更強大的三層恒等殘差兩種結(jié)構(gòu)。殘差結(jié)構(gòu)解決了深度網(wǎng)絡(luò)中的退化問題，很適合在本框架中提取邊緣特征。為了減少計算量，與分割網(wǎng)絡(luò)適應(yīng)，本文選擇兩層恒等殘差塊。圖3為雙路網(wǎng)絡(luò)的結(jié)構(gòu)圖，分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)并行學(xué)習(xí)輸入圖片的特征信息，并在網(wǎng)絡(luò)的頂層融合分割特征和邊緣特征，將其輸入一系列卷積層以產(chǎn)生最終的預(yù)測結(jié)果。

圖3 雙路網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Architecture of the proposed two-way model

3 多任務(wù)學(xué)習(xí)和正則化

雙路網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架可以實現(xiàn)端到端的訓(xùn)練，分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)并行地分別學(xué)習(xí)分割特征和邊緣特征。一方面，多任務(wù)學(xué)習(xí)框架有助于優(yōu)化分割模型，另一方面，可以通過兩個網(wǎng)絡(luò)的融合，利用邊緣網(wǎng)絡(luò)的輸出進一步提高整個模型的性能。

在訓(xùn)練過程中，多任務(wù)學(xué)習(xí)框架可以同時監(jiān)督分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)的預(yù)測特征。這里，邊緣特征是指圖像中目標(biāo)邊緣的二值表示。本文利用交叉熵損失函數(shù)來訓(xùn)練分割網(wǎng)絡(luò)，其定義為

式中：li是點i的標(biāo)簽，pk,i是點i屬于第k類的輸出概率，K是總的類別數(shù)量，σ(·)是一個指示函數(shù)，當(dāng)li=k時為1，否則為0。θseg是分割網(wǎng)絡(luò)的參數(shù)集合，N是一幅圖像中所有像素點的數(shù)量。

同時，本文使用標(biāo)準(zhǔn)的二值交叉熵函數(shù)作為邊緣網(wǎng)絡(luò)的損失函數(shù)，監(jiān)督邊緣網(wǎng)絡(luò)的訓(xùn)練，其定義為

式中：yi是點i是否為邊緣的真實標(biāo)簽，表示點i屬于第c類的概率。C是所有標(biāo)簽類別的總數(shù)，在邊緣檢測中大小為2。θedg是邊緣網(wǎng)絡(luò)的參數(shù)集合，邊緣損失函數(shù)可以同時監(jiān)督更新分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)的參數(shù)。本文在真實的分割標(biāo)簽中產(chǎn)生遙感圖像邊緣標(biāo)簽[37-38]，并把原始圖像、分割標(biāo)簽和邊緣標(biāo)簽放入網(wǎng)絡(luò)中進行訓(xùn)練。在網(wǎng)絡(luò)頂部，可以得到分割特征圖和邊緣特征圖作為輸出。

在多任務(wù)學(xué)習(xí)的情況下，為了進一步提高整個模型的性能，用邊緣特征細化分割特征，使預(yù)測結(jié)果在邊緣更加清晰，本文引入了一種正則化方法來實現(xiàn)分割特征和邊緣特征的融合。類似于Takikawa等的方法[39]，本文希望預(yù)測邊緣與真實邊緣不符合時受到懲罰，并且避免邊緣像素主導(dǎo)損失函數(shù)。因此引入

式中：ζ代表某個特定像素是否屬于語義邊緣，它是對輸出的分割特征圖取空間導(dǎo)數(shù)計算出來的。是用同樣方式從真實分割標(biāo)簽中計算出的真實邊緣掩碼。p+是所有非零像素點的集合。

同樣，本文也希望二進制邊緣預(yù)測s和預(yù)測的分割特征p(y|r,s)保持一致：

式中：p和k分別代表所有的圖像像素點和語義類。1s={1:s>thrs}對應(yīng)了一個指示函數(shù)，thrs是置信度閾值。將整個模型的最終損失函數(shù)定義為

式中：λ是用于調(diào)整不同損失函數(shù)之間相對權(quán)重的超參數(shù)。該損失函數(shù)用于監(jiān)督更新整個模型的所有參數(shù)。

4 實驗結(jié)果

在本節(jié)中，將對雙路網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架進行評估。為了驗證本文所提出方法的有效性，本文在ISPRS Potsdam 數(shù)據(jù)集和 ISPRSVaihingen 數(shù)據(jù)集上進行了實驗，數(shù)據(jù)集分別拍攝于德國的 Potsdam 市和 Vaihingen 市，包含了多張高分辨率的航拍遙感圖片。本文將雙路網(wǎng)絡(luò)模型與多個經(jīng)典的語義分割模型在不同評價指標(biāo)上進行比較。

4.1 對比方法

為了驗證雙路網(wǎng)絡(luò)模型的性能，本文將與多個語義分割網(wǎng)絡(luò)進行對比：

(1)FCNs：FCNs是經(jīng)典的語義分割網(wǎng)絡(luò)，它將傳統(tǒng)CNN中的全連接層轉(zhuǎn)化為多個卷積層，實現(xiàn)了網(wǎng)絡(luò)端到端的訓(xùn)練。

(2)SegNet：首次提出使用對稱的編碼器和解碼器結(jié)構(gòu)網(wǎng)絡(luò)進行語義分割。

(3)PSPNet：使用金字塔池化結(jié)構(gòu)，該結(jié)構(gòu)能夠聚合不同區(qū)域的上下文信息進行語義分割。

(4)DeeplabV3：提出空洞空間金字塔結(jié)構(gòu)，能夠獲取不同尺度目標(biāo)的特征。

4.2 數(shù)據(jù)集

ISPRS Potsdam Dataset:Potsdam是一個典型的歷史城市，數(shù)據(jù)集由38張遙感圖片組成，地面采樣距離為5 cm。圖像大小為6 000×6 000，包含 IRRG圖像、IRGB圖像和NDSM圖像。實驗使用8張高分辨率遙感圖像進行訓(xùn)練，1張高分辨率遙感圖像進行測試。數(shù)據(jù)集中定義了6個類別，分別為不透水的表面(白色)、建筑(藍色)、低植被(青色)、樹(綠色)、汽車(黃色)、背景(紅色)。實驗沒有使用NDSM圖像和DSM圖像。

ISPRS Vaihingen Dataset：Vaihingen市是一個規(guī)模較小的城市，數(shù)據(jù)集由33張遙感圖片組成,地面采樣距離為9 cm。圖像的平均大小為2 494×2 064，包含IRRG圖像、IRGB圖像和DSM圖像。實驗使用10張圖像作為訓(xùn)練集，3張圖像作為驗證集。

4.3 評價指標(biāo)

為了評估模型的效果，本文使用3個評價指標(biāo)，Precision、IoU(Intersection over union)和F1-score。

式中：TP為真正例，代表正樣本預(yù)測結(jié)果為正確的數(shù)目；FP為假正例，代表負樣本被預(yù)測為正樣本的數(shù)量；FN為假負例，代表正樣本被預(yù)測為負樣本的數(shù)量。β是精確率和召回率之間的權(quán)重，設(shè)置為1。對于數(shù)據(jù)集中的6個類別，本文使用各不同指標(biāo)的平均值進行比較，分別記為mIoU，mprecision，mF1-score。

4.4 實驗細節(jié)

雙路網(wǎng)絡(luò)是基于Pytorch框架實現(xiàn)的。在數(shù)據(jù)預(yù)處理中，使用256×256的滑動窗口對原始的遙感圖像進行隨機裁剪，生成大小為8 000張圖片的訓(xùn)練集，并通過隨機的旋轉(zhuǎn)、翻轉(zhuǎn)和添加噪聲等方法對訓(xùn)練集中的部分樣本進行了數(shù)據(jù)增強。實驗使用NVIDIA Tesla P100顯卡訓(xùn)練網(wǎng)絡(luò)模型，批次大小為16并進行同步的批歸一化。初始學(xué)習(xí)率為0.01，采用多項式衰減。損失函數(shù)如式(6)所示，其中 λ1為 1，λ2為150，λ3為1，λ4為1，雙路網(wǎng)絡(luò)在440輪訓(xùn)練得到最佳結(jié)果。

4.5 定量比較

在表1中，提供了雙路網(wǎng)絡(luò)模型在Potsdam數(shù)據(jù)集上與FCNs、SegNet、PSPNet、DeeplabV3等語義分割網(wǎng)絡(luò)模型的定量比較。從最終結(jié)果來看，雙路網(wǎng)絡(luò)在mIoU、mF1-score和mprecision等指標(biāo)上均取得優(yōu)異的表現(xiàn)，高于其他的語義分割網(wǎng)絡(luò)。對比基線模型SegNet，在增加邊緣網(wǎng)絡(luò)這一分支后，雙路網(wǎng)絡(luò)模型在mIoU評價標(biāo)準(zhǔn)上取得6%的提升，在mF1-score評價標(biāo)準(zhǔn)上取得5%的提升。對比其他網(wǎng)絡(luò)模型，以ResNet-34為基礎(chǔ)網(wǎng)絡(luò)的PSPNet性能僅次于雙路網(wǎng)絡(luò)模型。雙路網(wǎng)絡(luò)模型在mIoU評價標(biāo)準(zhǔn)上取得3%的提升，在mF1-score評價標(biāo)準(zhǔn)上取得2%的提升，這說明，對比層次更深的神經(jīng)網(wǎng)絡(luò)模型，雙路網(wǎng)絡(luò)模型在網(wǎng)絡(luò)中增加邊緣特征后，也能有更加優(yōu)異的表現(xiàn)。

表1 在Potsdam數(shù)據(jù)集上對比結(jié)果Table 1 Comparison results on the Potsdam dataset

在表2中，提供了雙路網(wǎng)絡(luò)模型在Vaihingen數(shù)據(jù)集上與不同語義分割網(wǎng)絡(luò)模型的定量比較。與基線網(wǎng)絡(luò)SegNet比較，雙路網(wǎng)絡(luò)在mIoU、mF1-score和mprecision 3個指標(biāo)上均取得2%左右的提升。對比層次更深、模型更加復(fù)雜的PSPNet和DeeplabV3，雙路網(wǎng)絡(luò)也表現(xiàn)表現(xiàn)優(yōu)異。除在mF1-score指標(biāo)上雙路網(wǎng)絡(luò)較PSPNet略低外，其余兩個指標(biāo)均高于PSPNet，其中，在mIoU上提升2%左右。

表2 在Vaihingen數(shù)據(jù)集上對比結(jié)果Table 2 Comparison results on the Vaihingen dataset

表3展示了雙路網(wǎng)絡(luò)與其他語義分割網(wǎng)絡(luò)在Potsdam數(shù)據(jù)集上對于不同類別IoU指標(biāo)的比較。從表中的結(jié)果可以看出，雙路網(wǎng)絡(luò)模型在不同類別的IoU指標(biāo)上均取得了領(lǐng)先的效果。表4展示了對于雙路網(wǎng)絡(luò)中損失函數(shù)，不同的超參數(shù) λ2對于模型性能的影響。在 λ2為150時，雙路模型在Vaihingen數(shù)據(jù)集上取得最佳的效果，mIoU指標(biāo)最高，而隨著 λ2增大，模型性能有所下降。

表3 不同網(wǎng)絡(luò)模型在Potsdam數(shù)據(jù)集上對IoU的對比結(jié)果Table 3 Comparison in terms of IoU on the Potsdam dataset %

表4 不同λ2在Vaihingen數(shù)據(jù)集上對IoU的對比結(jié)果Table 4 Comparison in terms of different λ2 on the Vaihingen dataset %

表5對比了雙路網(wǎng)絡(luò)與基線網(wǎng)絡(luò)SegNet的模型參數(shù)量與單張圖片的GFLOPs(Giga Floating Point Operations Per Second)，也就是每秒10億次的浮點運算數(shù)。與SegNet相比，雙路網(wǎng)絡(luò)只增加了少量殘差塊和卷積層，模型參數(shù)增加較少，只增加了0.52 M。但是由于增加了一個旁路網(wǎng)絡(luò)，計算量增加較大，運行時間較基線模型增加了一半左右。

表5 雙路網(wǎng)絡(luò)與SegNet參數(shù)和計算量比較Table 5 Comparison in terms of parameters and calculation between two-way Network and SegNet

在Potsdam數(shù)據(jù)集和Vaihingen數(shù)據(jù)集上，本文將雙路網(wǎng)絡(luò)與多個語義分割模型在不同指標(biāo)上進行了對比。從結(jié)果可以看出，雙路網(wǎng)絡(luò)均取得了領(lǐng)先的效果。雙路網(wǎng)絡(luò)模型，在原有的分割網(wǎng)絡(luò)基礎(chǔ)上，增加了一路邊緣網(wǎng)絡(luò)，使網(wǎng)絡(luò)在學(xué)習(xí)分割特征的同時學(xué)習(xí)邊緣特征，并對邊緣特征和分割特征進行融合，用邊緣特征細化分割特征，提升網(wǎng)絡(luò)對邊緣的識別能力。在網(wǎng)絡(luò)中注入邊緣特征信息后，雙路網(wǎng)絡(luò)模型取得了更好的性能，得到了更好的語義分割結(jié)果，實驗結(jié)果證明了雙路網(wǎng)絡(luò)的有效性。

4.6 定性比較

圖4展示了雙路網(wǎng)絡(luò)模型對圖像物體邊緣的識別結(jié)果。從左至右依次為遙感圖像、分割標(biāo)簽、邊緣標(biāo)簽和雙路網(wǎng)絡(luò)的邊緣輸出。從圖中可以看出，雙路網(wǎng)絡(luò)學(xué)習(xí)到了圖像的邊緣特征信息，對遙感圖像中不同類別目標(biāo)間的輪廓有個大致的區(qū)分，尤其對于圖像中的小目標(biāo)，如汽車、道路的邊緣都有清晰的劃分。圖5對比了雙路網(wǎng)絡(luò)模型與基線網(wǎng)絡(luò)SegNet分割效果。從左至右依次為遙感圖像、分割標(biāo)簽、SegNet網(wǎng)絡(luò)和雙路網(wǎng)絡(luò)的分割結(jié)果。從圖中可以看出，對比基線網(wǎng)絡(luò)，雙路網(wǎng)絡(luò)模型在不同類別的邊緣處分割效果更好，誤分類更少。就遙感圖像中的小目標(biāo)汽車類來說，SegNet對該類的分割劃分模糊，有些輸出結(jié)果中汽車連接在一起；而雙路網(wǎng)絡(luò)的輸出中，汽車的輪廓被分割的更加清晰，分割效果更好?？梢钥闯觯吘壧卣鞯膶W(xué)習(xí)，有助于網(wǎng)絡(luò)對高分辨率遙感圖像的分割，提升了雙路網(wǎng)絡(luò)模型的性能。

圖4 邊緣檢測結(jié)果圖Fig.4 Visual comparison of edge detection results

圖5 分割結(jié)果比較圖Fig.5 Visual comparison of segmentation results

5 結(jié)語

本文提出了一種用于高分辨率遙感圖像的密集像素預(yù)測的雙路網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架。在原有語義分割網(wǎng)絡(luò)模型的基礎(chǔ)上，增加了一個專門用于提取圖像邊緣特征的邊緣網(wǎng)絡(luò)與分割網(wǎng)絡(luò)組成一個統(tǒng)一的雙路網(wǎng)絡(luò)。本文使用SegNet作為基線網(wǎng)絡(luò)，并在ISPRS Potsdam數(shù)據(jù)集和ISPRSVaihingen數(shù)據(jù)集上與多個語義分割模型對比驗證雙路網(wǎng)絡(luò)模型的性能，證明了該模型在高分辨率遙感圖像語義分割領(lǐng)域的有效性。在未來，可以探索基于更深層次卷積神經(jīng)網(wǎng)絡(luò)的雙路網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架，研究更好的融合網(wǎng)絡(luò)去融合邊緣特征與分割特征。