楊運龍,梁 路,滕少華
(廣東工業(yè)大學(xué) 計算機學(xué)院,廣東 廣州 510006)
語義分割是對圖像中的每個像素進行分類。高分辨率遙感圖像語義分割是遙感領(lǐng)域一個長期研究的課題。它在城市規(guī)劃[1]、自然災(zāi)害監(jiān)測[2]、土地覆蓋變化[3]、自動道路監(jiān)測[4]等方面扮演著重要的角色。隨著對太空的不斷探索,發(fā)射的衛(wèi)星越來越多,獲取到的遙感圖像數(shù)量也越來越多,如何對遙感圖像進行解譯已經(jīng)成為了當(dāng)下的研究熱點之一。傳統(tǒng)方法通常是依賴圖像像素自身的低階視覺信息來進行語義分割。2006年以卷積神經(jīng)網(wǎng)絡(luò)為主體的深度學(xué)習(xí)模型的提出在圖像識別任務(wù)上取得了重大突破[5]。近年來,隨著深度學(xué)習(xí)的不斷發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Networks,DCNNs)在所有主要的評價基準(zhǔn)上都取得了顯著的提高,并成為遙感圖像處理的常用方法。
語義分割模型由用于圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)發(fā)展而來。為使網(wǎng)絡(luò)能夠進行稠密像素預(yù)測,將卷積神經(jīng)網(wǎng)絡(luò)中的全連接層轉(zhuǎn)變?yōu)槎鄠€卷積層[6]。然而,使用分類網(wǎng)絡(luò)的基本結(jié)構(gòu)會帶來一些問題[7-8]。例如,網(wǎng)絡(luò)中池化層進行下采樣會導(dǎo)致輸出結(jié)果的空間分辨率損失,降低分割精度[9-10]。對于圖像中不同尺度的物體,感受野的限制也會對分割結(jié)果產(chǎn)生不利影響[11-13]。值得注意的是,對于分割中目標(biāo)邊緣的處理也是其中的難題。網(wǎng)絡(luò)對邊緣劃分不夠明確,常常會導(dǎo)致分割結(jié)果錯誤,網(wǎng)絡(luò)的準(zhǔn)確率下降。圖1為神經(jīng)網(wǎng)絡(luò)輸出與真實標(biāo)簽邊緣對比圖,其中圖1(a)為輸入圖像,圖1(b)為真實標(biāo)簽,圖1(c)為神經(jīng)網(wǎng)絡(luò)預(yù)測,從圖中可以看出,神經(jīng)網(wǎng)絡(luò)在不同類別邊緣處更容易分割錯誤。卷積神經(jīng)網(wǎng)絡(luò)可以可靠地預(yù)測圖像中物體的存在和粗略位置,但不太適合精確地指出它們的確切輪廓。卷積網(wǎng)絡(luò)的分類精度和定位精度之間存在一種內(nèi)在的權(quán)衡,具有多個池化層的更深層模型增加了平移不變性,擴大了頂層節(jié)點的感受野,但丟失了高頻細節(jié),而目標(biāo)邊緣的精確定位需要更多的局部細節(jié)信息[14]。本文認為這種影響對于包含至少數(shù)十到數(shù)百個多尺度目標(biāo)的遙感圖像非常關(guān)鍵。
圖1 神經(jīng)網(wǎng)絡(luò)輸出與真實標(biāo)簽邊緣對比圖Fig.1 The comparison of edge between ground truth and CNN
已經(jīng)有一些模型試圖減輕由于下采樣而造成的細節(jié)損失,如在網(wǎng)絡(luò)中引入空洞卷積[7,14-15],在編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)之間增加對等的跳躍連接[12,16]等。然而,在應(yīng)用于小目標(biāo)較多的遙感影像時,這些方法仍有模糊目標(biāo)邊界的傾向。邊緣特征對于完成語義分割、目標(biāo)識別等多種視覺任務(wù)都非常重要[17]。但由于分類網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的固有屬性,顏色、形狀、紋理等特征都在一個網(wǎng)絡(luò)中處理,這些特征與識別的相關(guān)性各不相同。為了增強模型對邊緣的識別能力,本文提出了一種融合語義分割與邊緣檢測的單一網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架??蚣苡蓛蓚€部分構(gòu)成:分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)。具體來說,分割網(wǎng)絡(luò)提取圖像的分割特征,為每個像素生成語義標(biāo)簽,邊緣網(wǎng)絡(luò)提取邊緣特征,判斷不同類別間的邊界。邊緣網(wǎng)絡(luò)以分割網(wǎng)絡(luò)的中間特征作為輸入,從分割網(wǎng)絡(luò)中提取多路語義特征構(gòu)建邊緣特征。在框架的頂層融合兩個網(wǎng)絡(luò)的特征,利用邊緣特征細化分割特征,提高分割結(jié)果的準(zhǔn)確性,并實現(xiàn)端到端的訓(xùn)練。
多年來,語義分割一直是計算機視覺和遙感研究的核心問題。早期的方法主要是基于區(qū)域建議的方法,通過生成區(qū)域建議對像素進行分類[18-19]。一個重要的里程碑是Long等[6]提出的全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,FCNs),它表明全連接層可以看作是卷積層的堆疊,并且已經(jīng)成為語義分割網(wǎng)絡(luò)應(yīng)用最廣泛的選擇。為了降低池化層造成的空間分辨率損失,一些方法提出采用反卷積[20-21]來恢復(fù)損失的細節(jié)信息。反卷積使用存儲池化位置并在其他位置補零的方式進行上采樣操作。另一些方法則采用空洞卷積來控制特征圖的分辨率[14,22],擴大感受野,同時建立空間金字塔池,在多尺度上對圖像進行分割。還有很多方法利用中間層特征進行分割。U-net[16]和RefineNet[12]在編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)之間應(yīng)用跳躍連接,使用來自早期卷積的細粒度特征直接補充更深層次網(wǎng)絡(luò)中捕獲的高級語義特征。一些研究提出對網(wǎng)絡(luò)輸出使用條件隨機場來細化目標(biāo)邊界,以此來提高分割性能[23-25]。Pohlen等[26]提出了一個雙流網(wǎng)絡(luò),其中一個流用于恢復(fù)在池化中損失的高分辨率特征。與這些方法通過恢復(fù)下采樣造成的空間分辨率損失不同,雙路網(wǎng)絡(luò)模型在網(wǎng)絡(luò)增加邊緣特征來提高對目標(biāo)邊緣的分割能力。
語義邊緣檢測最早由Prasad等[27]提出。Bertasius等[28]提出使用高級對象特征來告知低級邊界檢測的方法,在使用FCNs等深度語義分割網(wǎng)絡(luò)來獲得類別標(biāo)簽之前,使用分類網(wǎng)絡(luò)來定位二值語義邊緣。Bertasius等[29]引入的BNF(Boundary Neural Field)使用了綜合FCNs預(yù)測和邊緣線索的能量模型。一個值得注意的方法是HED(Holistically-nested Edge Detection)[30],它證明了FCNs除了類別分類外,也可以被訓(xùn)練為邊緣檢測器來輸出圖像的邊緣的特征圖。CASENet[17]提出了一種新的跨層結(jié)構(gòu)來預(yù)測多標(biāo)簽語義邊緣。深度卷積神經(jīng)網(wǎng)絡(luò)不僅可以用于圖像分類、目標(biāo)檢測等任務(wù),也可以學(xué)習(xí)邊緣信息用于邊緣檢測,并在效果上取得了顯著的提升。
一些研究探索了將網(wǎng)絡(luò)與互補任務(wù)相結(jié)合的想法,以提高計算機視覺任務(wù)的學(xué)習(xí)效率、預(yù)測精度和泛化。Kendall等[31]提出了一個統(tǒng)一的架構(gòu),結(jié)合多個損失函數(shù),利用同方差不確定性同時學(xué)習(xí)多個目標(biāo)。為了學(xué)習(xí)DCNNs中的共享表示,十字形網(wǎng)絡(luò)[32]引入十字形單元進行多任務(wù)學(xué)習(xí)。在本文的雙路網(wǎng)絡(luò)中,通過增加邊緣網(wǎng)絡(luò),讓模型可以同時學(xué)習(xí)邊緣特征和分割特征,并用邊緣特征細化分割特征。
雙路網(wǎng)絡(luò)模型主要由兩個網(wǎng)絡(luò)構(gòu)成,分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò),兩個網(wǎng)絡(luò)協(xié)同工作進行語義分割。分割網(wǎng)絡(luò)對圖像像素進行分類,輸出像素點類別的可能性;邊緣網(wǎng)絡(luò)利用分割網(wǎng)絡(luò)的中間特征作為輸入,來學(xué)習(xí)和邊緣相關(guān)的特征,判斷像素點是否為邊緣。接著,在網(wǎng)絡(luò)的頂層,將分割特征和邊緣特征融合在一起,提升模型的識別能力。
分割網(wǎng)絡(luò)是用于語義分割的深度卷積神經(jīng)網(wǎng)絡(luò),以高度H、寬度W的圖像為輸入,提取圖像的分割特征,輸出同樣大小的密集特征預(yù)測圖。分割網(wǎng)絡(luò)可以是任意前饋的全卷積網(wǎng)絡(luò),如FCNs[6]、SegNet[33]或Deeplab[34]。為了兼顧效果和模型參數(shù)的平衡,本文選擇SegNet作為分割網(wǎng)絡(luò)。
分割網(wǎng)絡(luò)由兩部分組成:編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)。編碼網(wǎng)絡(luò)由一系列卷積層和池化層構(gòu)成,卷積層負責(zé)獲取圖像的局部特征,池化層負責(zé)對圖像進行下采樣。隨著網(wǎng)絡(luò)的深入,獲得的特征圖包含更多的高層次語義信息,但空間分辨率也不斷下降。為了克服這一問題,SegNet在編碼網(wǎng)絡(luò)的基礎(chǔ)上增加了一個解碼網(wǎng)絡(luò),用于恢復(fù)特征的分辨率。解碼網(wǎng)絡(luò)的設(shè)計類似于編碼網(wǎng)絡(luò)的鏡像版本,它使用上采樣操作替代池化層擴大分辨率,以復(fù)原物體的幾何形狀,彌補編碼網(wǎng)絡(luò)中下采樣造成的細節(jié)損失,獲得更精細的特征圖。編碼網(wǎng)絡(luò)中有5組卷積層,與VGG-16[35]網(wǎng)絡(luò)中的13個卷積層相同。在每組卷積層后,都使用BN(Batch Normalization)和RELU(Rectified Linear Units)來加速訓(xùn)練。接下來是大小為2×2,步長為2的最大池化層來實現(xiàn)平移不變性。在解碼網(wǎng)絡(luò)中,使用了與編碼網(wǎng)絡(luò)中對稱的卷積層,并用上采樣操作替代最大池化層。
由于高層次特征圖的空間分辨率損失,語義分割的結(jié)果可能會在邊緣附近包含錯誤的分類。本文提出了一個雙路網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架,擴展了一個特殊的分支來處理邊緣相關(guān)信息。邊緣網(wǎng)絡(luò)以分割網(wǎng)絡(luò)的中間層次特征作為輸入,生成語義邊緣作為輸出。
邊緣網(wǎng)絡(luò)由少量殘差塊[36]和卷積核大小為1×1的卷積層構(gòu)成。具體地說,邊緣網(wǎng)絡(luò)從分割網(wǎng)絡(luò)中編碼網(wǎng)絡(luò)的第一和第二組卷積中獲得兩個特征作為輸入,從解碼網(wǎng)絡(luò)對稱地獲得另外兩個特征作為輸入。為了保持邊緣特征分辨率的一致,將這些特征通過線性插值恢復(fù)到與輸入圖像分辨率相同。低層特征包含更多的局部細節(jié),從編碼網(wǎng)絡(luò)提??;高層特征包含更多的語義信息,從解碼網(wǎng)絡(luò)提取。通過殘差塊構(gòu)成的邊緣網(wǎng)絡(luò)來學(xué)習(xí)這些中間特征中語義邊緣信息,提取邊緣特征。殘差結(jié)構(gòu)具有很強的學(xué)習(xí)能力,適合在深度網(wǎng)絡(luò)中使用。卷積核大小為1×1的卷積層被插入分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)之間。它能將兩個網(wǎng)絡(luò)連接起來,使整個模型更加靈活,并讓分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)更專注于它們各自的任務(wù)。同時,它也能降低中間特征的維數(shù),減少內(nèi)存消耗,加快訓(xùn)練過程。兩種殘差塊如圖2所示。
圖2 兩種殘差塊結(jié)構(gòu)圖Fig.2 The architecture of residual block
殘差塊由卷積層和恒等映射組成,可定義為
式中:xl和xl+1分別是殘差塊的輸入和輸出,F(xiàn)(xl,wl)表示需要學(xué)習(xí)的殘差映射。殘差塊有兩層恒等殘差和性能更強大的三層恒等殘差兩種結(jié)構(gòu)。殘差結(jié)構(gòu)解決了深度網(wǎng)絡(luò)中的退化問題,很適合在本框架中提取邊緣特征。為了減少計算量,與分割網(wǎng)絡(luò)適應(yīng),本文選擇兩層恒等殘差塊。圖3為雙路網(wǎng)絡(luò)的結(jié)構(gòu)圖,分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)并行學(xué)習(xí)輸入圖片的特征信息,并在網(wǎng)絡(luò)的頂層融合分割特征和邊緣特征,將其輸入一系列卷積層以產(chǎn)生最終的預(yù)測結(jié)果。
圖3 雙路網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Architecture of the proposed two-way model
雙路網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架可以實現(xiàn)端到端的訓(xùn)練,分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)并行地分別學(xué)習(xí)分割特征和邊緣特征。一方面,多任務(wù)學(xué)習(xí)框架有助于優(yōu)化分割模型,另一方面,可以通過兩個網(wǎng)絡(luò)的融合,利用邊緣網(wǎng)絡(luò)的輸出進一步提高整個模型的性能。
在訓(xùn)練過程中,多任務(wù)學(xué)習(xí)框架可以同時監(jiān)督分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)的預(yù)測特征。這里,邊緣特征是指圖像中目標(biāo)邊緣的二值表示。本文利用交叉熵損失函數(shù)來訓(xùn)練分割網(wǎng)絡(luò),其定義為
式中:li是點i的標(biāo)簽,pk,i是點i屬于第k類的輸出概率,K是總的類別數(shù)量,σ(·)是一個指示函數(shù),當(dāng)li=k時為1,否則為0。θseg是分割網(wǎng)絡(luò)的參數(shù)集合,N是一幅圖像中所有像素點的數(shù)量。
同時,本文使用標(biāo)準(zhǔn)的二值交叉熵函數(shù)作為邊緣網(wǎng)絡(luò)的損失函數(shù),監(jiān)督邊緣網(wǎng)絡(luò)的訓(xùn)練,其定義為
式中:yi是點i是否為邊緣的真實標(biāo)簽,表示點i屬于第c類的概率。C是所有標(biāo)簽類別的總數(shù),在邊緣檢測中大小為2。θedg是邊緣網(wǎng)絡(luò)的參數(shù)集合,邊緣損失函數(shù)可以同時監(jiān)督更新分割網(wǎng)絡(luò)和邊緣網(wǎng)絡(luò)的參數(shù)。本文在真實的分割標(biāo)簽中產(chǎn)生遙感圖像邊緣標(biāo)簽[37-38],并把原始圖像、分割標(biāo)簽和邊緣標(biāo)簽放入網(wǎng)絡(luò)中進行訓(xùn)練。在網(wǎng)絡(luò)頂部,可以得到分割特征圖和邊緣特征圖作為輸出。
在多任務(wù)學(xué)習(xí)的情況下,為了進一步提高整個模型的性能,用邊緣特征細化分割特征,使預(yù)測結(jié)果在邊緣更加清晰,本文引入了一種正則化方法來實現(xiàn)分割特征和邊緣特征的融合。類似于Takikawa等的方法[39],本文希望預(yù)測邊緣與真實邊緣不符合時受到懲罰,并且避免邊緣像素主導(dǎo)損失函數(shù)。因此引入
式中:ζ代表某個特定像素是否屬于語義邊緣,它是對輸出的分割特征圖取空間導(dǎo)數(shù)計算出來的。是用同樣方式從真實分割標(biāo)簽中計算出的真實邊緣掩碼。p+是所有非零像素點的集合。
同樣,本文也希望二進制邊緣預(yù)測s和預(yù)測的分割特征p(y|r,s)保持一致:
式中:p和k分別代表所有的圖像像素點和語義類。1s={1:s>thrs}對應(yīng)了一個指示函數(shù),thrs是置信度閾值。將整個模型的最終損失函數(shù)定義為
式中:λ是用于調(diào)整不同損失函數(shù)之間相對權(quán)重的超參數(shù)。該損失函數(shù)用于監(jiān)督更新整個模型的所有參數(shù)。
在本節(jié)中,將對雙路網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架進行評估。為了驗證本文所提出方法的有效性,本文在ISPRS Potsdam 數(shù)據(jù)集和 ISPRSVaihingen 數(shù)據(jù)集上進行了實驗,數(shù)據(jù)集分別拍攝于德國的 Potsdam 市和 Vaihingen 市,包含了多張高分辨率的航拍遙感圖片。本文將雙路網(wǎng)絡(luò)模型與多個經(jīng)典的語義分割模型在不同評價指標(biāo)上進行比較。
為了驗證雙路網(wǎng)絡(luò)模型的性能,本文將與多個語義分割網(wǎng)絡(luò)進行對比:
(1)FCNs:FCNs是經(jīng)典的語義分割網(wǎng)絡(luò),它將傳統(tǒng)CNN中的全連接層轉(zhuǎn)化為多個卷積層,實現(xiàn)了網(wǎng)絡(luò)端到端的訓(xùn)練。
(2)SegNet:首次提出使用對稱的編碼器和解碼器結(jié)構(gòu)網(wǎng)絡(luò)進行語義分割。
(3)PSPNet:使用金字塔池化結(jié)構(gòu),該結(jié)構(gòu)能夠聚合不同區(qū)域的上下文信息進行語義分割。
(4)DeeplabV3:提出空洞空間金字塔結(jié)構(gòu),能夠獲取不同尺度目標(biāo)的特征。
ISPRS Potsdam Dataset:Potsdam是一個典型的歷史城市,數(shù)據(jù)集由38張遙感圖片組成,地面采樣距離為5 cm。圖像大小為6 000×6 000,包含 IRRG圖像、IRGB圖像和NDSM圖像。實驗使用8張高分辨率遙感圖像進行訓(xùn)練,1張高分辨率遙感圖像進行測試。數(shù)據(jù)集中定義了6個類別,分別為不透水的表面(白色)、建筑(藍色)、低植被(青色)、樹(綠色)、汽車(黃色)、背景(紅色)。實驗沒有使用NDSM圖像和DSM圖像。
ISPRS Vaihingen Dataset:Vaihingen市是一個規(guī)模較小的城市,數(shù)據(jù)集由33張遙感圖片組成,地面采樣距離為9 cm。圖像的平均大小為2 494×2 064,包含IRRG圖像、IRGB圖像和DSM圖像。實驗使用10張圖像作為訓(xùn)練集,3張圖像作為驗證集。
為了評估模型的效果,本文使用3個評價指標(biāo),Precision、IoU(Intersection over union)和F1-score。
式中:TP為真正例,代表正樣本預(yù)測結(jié)果為正確的數(shù)目;FP為假正例,代表負樣本被預(yù)測為正樣本的數(shù)量;FN為假負例,代表正樣本被預(yù)測為負樣本的數(shù)量。β是精確率和召回率之間的權(quán)重,設(shè)置為1。對于數(shù)據(jù)集中的6個類別,本文使用各不同指標(biāo)的平均值進行比較,分別記為mIoU,mprecision,mF1-score。
雙路網(wǎng)絡(luò)是基于Pytorch框架實現(xiàn)的。在數(shù)據(jù)預(yù)處理中,使用256×256的滑動窗口對原始的遙感圖像進行隨機裁剪,生成大小為8 000張圖片的訓(xùn)練集,并通過隨機的旋轉(zhuǎn)、翻轉(zhuǎn)和添加噪聲等方法對訓(xùn)練集中的部分樣本進行了數(shù)據(jù)增強。實驗使用NVIDIA Tesla P100顯卡訓(xùn)練網(wǎng)絡(luò)模型,批次大小為16并進行同步的批歸一化。初始學(xué)習(xí)率為0.01,采用多項式衰減。損失函數(shù)如式(6)所示,其中 λ1為 1,λ2為150,λ3為1,λ4為1,雙路網(wǎng)絡(luò)在440輪訓(xùn)練得到最佳結(jié)果。
在表1中,提供了雙路網(wǎng)絡(luò)模型在Potsdam數(shù)據(jù)集上與FCNs、SegNet、PSPNet、DeeplabV3等語義分割網(wǎng)絡(luò)模型的定量比較。從最終結(jié)果來看,雙路網(wǎng)絡(luò)在mIoU、mF1-score和mprecision等指標(biāo)上均取得優(yōu)異的表現(xiàn),高于其他的語義分割網(wǎng)絡(luò)。對比基線模型SegNet,在增加邊緣網(wǎng)絡(luò)這一分支后,雙路網(wǎng)絡(luò)模型在mIoU評價標(biāo)準(zhǔn)上取得6%的提升,在mF1-score評價標(biāo)準(zhǔn)上取得5%的提升。對比其他網(wǎng)絡(luò)模型,以ResNet-34為基礎(chǔ)網(wǎng)絡(luò)的PSPNet性能僅次于雙路網(wǎng)絡(luò)模型。雙路網(wǎng)絡(luò)模型在mIoU評價標(biāo)準(zhǔn)上取得3%的提升,在mF1-score評價標(biāo)準(zhǔn)上取得2%的提升,這說明,對比層次更深的神經(jīng)網(wǎng)絡(luò)模型,雙路網(wǎng)絡(luò)模型在網(wǎng)絡(luò)中增加邊緣特征后,也能有更加優(yōu)異的表現(xiàn)。
表1 在Potsdam數(shù)據(jù)集上對比結(jié)果Table 1 Comparison results on the Potsdam dataset
在表2中,提供了雙路網(wǎng)絡(luò)模型在Vaihingen數(shù)據(jù)集上與不同語義分割網(wǎng)絡(luò)模型的定量比較。與基線網(wǎng)絡(luò)SegNet比較,雙路網(wǎng)絡(luò)在mIoU、mF1-score和mprecision 3個指標(biāo)上均取得2%左右的提升。對比層次更深、模型更加復(fù)雜的PSPNet和DeeplabV3,雙路網(wǎng)絡(luò)也表現(xiàn)表現(xiàn)優(yōu)異。除在mF1-score指標(biāo)上雙路網(wǎng)絡(luò)較PSPNet略低外,其余兩個指標(biāo)均高于PSPNet,其中,在mIoU上提升2%左右。
表2 在Vaihingen數(shù)據(jù)集上對比結(jié)果Table 2 Comparison results on the Vaihingen dataset
表3展示了雙路網(wǎng)絡(luò)與其他語義分割網(wǎng)絡(luò)在Potsdam數(shù)據(jù)集上對于不同類別IoU指標(biāo)的比較。從表中的結(jié)果可以看出,雙路網(wǎng)絡(luò)模型在不同類別的IoU指標(biāo)上均取得了領(lǐng)先的效果。表4展示了對于雙路網(wǎng)絡(luò)中損失函數(shù),不同的超參數(shù) λ2對于模型性能的影響。在 λ2為150時,雙路模型在Vaihingen數(shù)據(jù)集上取得最佳的效果,mIoU指標(biāo)最高,而隨著 λ2增大,模型性能有所下降。
表3 不同網(wǎng)絡(luò)模型在Potsdam數(shù)據(jù)集上對IoU的對比結(jié)果Table 3 Comparison in terms of IoU on the Potsdam dataset %
表4 不同λ2在Vaihingen數(shù)據(jù)集上對IoU的對比結(jié)果Table 4 Comparison in terms of different λ2 on the Vaihingen dataset %
表5對比了雙路網(wǎng)絡(luò)與基線網(wǎng)絡(luò)SegNet的模型參數(shù)量與單張圖片的GFLOPs(Giga Floating Point Operations Per Second),也就是每秒10億次的浮點運算數(shù)。與SegNet相比,雙路網(wǎng)絡(luò)只增加了少量殘差塊和卷積層,模型參數(shù)增加較少,只增加了0.52 M。但是由于增加了一個旁路網(wǎng)絡(luò),計算量增加較大,運行時間較基線模型增加了一半左右。
表5 雙路網(wǎng)絡(luò)與SegNet參數(shù)和計算量比較Table 5 Comparison in terms of parameters and calculation between two-way Network and SegNet
在Potsdam數(shù)據(jù)集和Vaihingen數(shù)據(jù)集上,本文將雙路網(wǎng)絡(luò)與多個語義分割模型在不同指標(biāo)上進行了對比。從結(jié)果可以看出,雙路網(wǎng)絡(luò)均取得了領(lǐng)先的效果。雙路網(wǎng)絡(luò)模型,在原有的分割網(wǎng)絡(luò)基礎(chǔ)上,增加了一路邊緣網(wǎng)絡(luò),使網(wǎng)絡(luò)在學(xué)習(xí)分割特征的同時學(xué)習(xí)邊緣特征,并對邊緣特征和分割特征進行融合,用邊緣特征細化分割特征,提升網(wǎng)絡(luò)對邊緣的識別能力。在網(wǎng)絡(luò)中注入邊緣特征信息后,雙路網(wǎng)絡(luò)模型取得了更好的性能,得到了更好的語義分割結(jié)果,實驗結(jié)果證明了雙路網(wǎng)絡(luò)的有效性。
圖4展示了雙路網(wǎng)絡(luò)模型對圖像物體邊緣的識別結(jié)果。從左至右依次為遙感圖像、分割標(biāo)簽、邊緣標(biāo)簽和雙路網(wǎng)絡(luò)的邊緣輸出。從圖中可以看出,雙路網(wǎng)絡(luò)學(xué)習(xí)到了圖像的邊緣特征信息,對遙感圖像中不同類別目標(biāo)間的輪廓有個大致的區(qū)分,尤其對于圖像中的小目標(biāo),如汽車、道路的邊緣都有清晰的劃分。圖5對比了雙路網(wǎng)絡(luò)模型與基線網(wǎng)絡(luò)SegNet分割效果。從左至右依次為遙感圖像、分割標(biāo)簽、SegNet網(wǎng)絡(luò)和雙路網(wǎng)絡(luò)的分割結(jié)果。從圖中可以看出,對比基線網(wǎng)絡(luò),雙路網(wǎng)絡(luò)模型在不同類別的邊緣處分割效果更好,誤分類更少。就遙感圖像中的小目標(biāo)汽車類來說,SegNet對該類的分割劃分模糊,有些輸出結(jié)果中汽車連接在一起;而雙路網(wǎng)絡(luò)的輸出中,汽車的輪廓被分割的更加清晰,分割效果更好??梢钥闯觯吘壧卣鞯膶W(xué)習(xí),有助于網(wǎng)絡(luò)對高分辨率遙感圖像的分割,提升了雙路網(wǎng)絡(luò)模型的性能。
圖4 邊緣檢測結(jié)果圖Fig.4 Visual comparison of edge detection results
圖5 分割結(jié)果比較圖Fig.5 Visual comparison of segmentation results
本文提出了一種用于高分辨率遙感圖像的密集像素預(yù)測的雙路網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架。在原有語義分割網(wǎng)絡(luò)模型的基礎(chǔ)上,增加了一個專門用于提取圖像邊緣特征的邊緣網(wǎng)絡(luò)與分割網(wǎng)絡(luò)組成一個統(tǒng)一的雙路網(wǎng)絡(luò)。本文使用SegNet作為基線網(wǎng)絡(luò),并在ISPRS Potsdam數(shù)據(jù)集和ISPRSVaihingen數(shù)據(jù)集上與多個語義分割模型對比驗證雙路網(wǎng)絡(luò)模型的性能,證明了該模型在高分辨率遙感圖像語義分割領(lǐng)域的有效性。在未來,可以探索基于更深層次卷積神經(jīng)網(wǎng)絡(luò)的雙路網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)框架,研究更好的融合網(wǎng)絡(luò)去融合邊緣特征與分割特征。