劉冠群,劉 豪,王 新,王 威*
(1.湖南開(kāi)放大學(xué),長(zhǎng)沙 410004;2.長(zhǎng)沙理工大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,長(zhǎng)沙 410114)
遙感圖像處理技術(shù)近年來(lái)發(fā)展迅速.基于人工智能神經(jīng)網(wǎng)絡(luò)的語(yǔ)義分割技術(shù)已成為衛(wèi)星遙感圖像語(yǔ)義分割領(lǐng)域的研究熱點(diǎn)[1],并廣泛應(yīng)用于土地檢測(cè)、植被分類、環(huán)境監(jiān)測(cè)、城市規(guī)劃和國(guó)防安全等領(lǐng)域.深度學(xué)習(xí)方法可以提取大數(shù)據(jù)中包含的復(fù)雜信息,對(duì)未知數(shù)據(jù)做出更準(zhǔn)確的預(yù)測(cè)[2].因此,學(xué)術(shù)界開(kāi)始通過(guò)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行高分辨率遙感圖像的多層表達(dá)和深層特征提取,并用于高分辨率遙感影像分類[3].
近年來(lái),隨著人工智能的發(fā)展,深度學(xué)習(xí)方法在計(jì)算機(jī)視覺(jué)識(shí)別任務(wù)中展現(xiàn)出了優(yōu)異性能.卷積神經(jīng)網(wǎng)絡(luò)在圖像分類[4-7]和語(yǔ)義分割[8]等領(lǐng)域取得了巨大的成功.例如,Simon等[9]在語(yǔ)義分割模型中應(yīng)用了密集塊,提出用FC-DenseNet增強(qiáng)特征提取并進(jìn)行特征重用,取得了較好的分割效果.Wang等[10]提出了一個(gè)改進(jìn)的DFCN網(wǎng)絡(luò),在衛(wèi)星遙感圖像語(yǔ)義分割任務(wù)中展現(xiàn)了很好的性能.
圖像語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的一種重要方法.語(yǔ)義分割是指在同一類別的圖像中劃分相同對(duì)象的像素,并劃分不同的對(duì)象以預(yù)測(cè)圖像中每個(gè)像素的類別[11],其與圖像超分辨率重建有相似之處[12].近些年,深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域也取得了重大成果.因此,研究者們嘗試將其用于語(yǔ)義分割.Wang等[5]對(duì)卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展及其在圖像分類中的應(yīng)用進(jìn)行了詳細(xì)總結(jié)和分析.2015年,Long等[8]提出了一種用于圖像語(yǔ)義分割的全卷積網(wǎng)絡(luò),通過(guò)調(diào)整普通卷積網(wǎng)絡(luò)結(jié)構(gòu),可以在不帶全連接層的情況下進(jìn)行密集預(yù)測(cè).
FCN(全卷積網(wǎng)絡(luò))模型實(shí)現(xiàn)了深度卷積神經(jīng)網(wǎng)絡(luò)從圖像級(jí)別分類到像素級(jí)別分類的跨越.Ronneberger等[13]針對(duì)醫(yī)學(xué)圖像分割問(wèn)題,基于FCN網(wǎng)絡(luò)提出了Unet模型.Unet擁有U型網(wǎng)絡(luò)結(jié)構(gòu),可同時(shí)獲取上、下文信息和位置信息.該模型在2015年的ISBI cell tracking比賽中獲得了多項(xiàng)第一.SegNet在上采樣過(guò)程中利用池化層中丟棄的位置信息來(lái)減少網(wǎng)絡(luò)參數(shù)量[14].Deeplab系列網(wǎng)絡(luò)由Google公司提出,其中的DeeplabV1是一個(gè)基于VGG16進(jìn)行改進(jìn)語(yǔ)義分割網(wǎng)絡(luò)[15];相比而言,DeeplabV2則提出了一個(gè)ASPP結(jié)構(gòu),取得了很好的效果[16];DeeplabV3利用空洞卷積加深網(wǎng)絡(luò),改進(jìn)了ASPP結(jié)構(gòu)[17];DeeplabV3+網(wǎng)絡(luò)將Xception網(wǎng)絡(luò)作為主干,并在網(wǎng)絡(luò)內(nèi)部使用了Encoder-Decoder結(jié)構(gòu)[18-19].
針對(duì)衛(wèi)星遙感圖像語(yǔ)義分割任務(wù),首先,本文擬改進(jìn)上采樣方法,在減少模型參數(shù)量的同時(shí),提高模型的識(shí)別能力;其次,基于新的上采樣模塊提出一個(gè)全新的圖像語(yǔ)義分割模型,并引入注意力機(jī)制;最后,為了驗(yàn)證方法的有效性,實(shí)驗(yàn)提供一個(gè)新的遙感影像數(shù)據(jù)集顯示中國(guó)郴州的遙感林地(這些遙感影像來(lái)自GF-2衛(wèi)星,其空間分辨率為0.8 m,展示了耕地、林地、水域和建筑等的各種空間信息),并根據(jù)當(dāng)?shù)氐牡孛蔡卣鳂?biāo)注原始圖像,利用所提方法在此數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),同時(shí)與其他基于深度學(xué)習(xí)的語(yǔ)義分割方法進(jìn)行對(duì)比分析.
為了提高語(yǔ)義分割網(wǎng)絡(luò)模型的特征提取能力,本文引入了一種通道特征權(quán)重提取模塊(channel feature weight extraction module,CFWE)[7],其結(jié)構(gòu)如圖1所示.其中,“Conv3”和“Conv1”分別代表卷積核大小為3和1的卷積層;“GAP”表示全局平均池化層;“FC”表示全連接層.
圖1 CFWE模塊結(jié)構(gòu)
CFWE結(jié)構(gòu)共計(jì)5層,其中“Conv”表示一個(gè)包含了“卷積”、“批標(biāo)準(zhǔn)化”和“激活函數(shù)”的復(fù)合結(jié)構(gòu).CFWE模塊還包含多種尺寸的卷積核.首先,該模塊的短連接層由2個(gè)“Conv1”和1個(gè)“Conv3”組成.通過(guò)短連接可在一定程度上緩解網(wǎng)絡(luò)退化的問(wèn)題,第一個(gè)“Conv1”用來(lái)降低維度;第二個(gè)“Conv1”用來(lái)升高維度,其主要目的是減少參數(shù)數(shù)量.其次,串聯(lián)的池化層和全連接層包含2個(gè)全連接(FC)層和1個(gè)全局平均池化(GAP)層.第一個(gè)“FC”層用來(lái)降低維度,可通過(guò)短連接將原始特征和提取出來(lái)的特征圖通道權(quán)重系數(shù)分通道相乘以得到更好的特征圖;第二個(gè)“FC”層用來(lái)恢復(fù)維度,GAP用來(lái)將通道上的特征圖壓縮為全局特征.通過(guò)這種方式,該模型可以學(xué)習(xí)到每個(gè)通道的權(quán)重系數(shù),且在特征提取過(guò)程中,權(quán)重系數(shù)可以幫助該模型提取到更多重要的通道特征,抑制不重要的通道特征,增強(qiáng)網(wǎng)絡(luò)的特征提取能力.
基于CFWE模塊,本文提出了具有3種深度的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)CA-Net,它們分別是CA-Net18,CA-Net34和CA-Net101.CA-Net的網(wǎng)絡(luò)結(jié)構(gòu)如表1所示.
表1 CA-Net結(jié)構(gòu)
實(shí)驗(yàn)數(shù)據(jù)集來(lái)源于2016年GF-2衛(wèi)星采集的郴州地區(qū)多個(gè)波段圖像經(jīng)融合后的RGB遙感圖像.首先,對(duì)GF-2衛(wèi)星原始圖像進(jìn)行預(yù)處理.原始衛(wèi)星遙感圖像像素尺寸大約為2 000×2 000,先將其進(jìn)行標(biāo)注,并將各種圖像類型注釋成具有不同顏色的地面真實(shí)圖像.其次,通過(guò)裁剪將其分為若干個(gè)256×256的圖像作為數(shù)據(jù)集,并舍棄圖像多余尺寸.圖像數(shù)據(jù)分為7類,即耕地、林地、水域、道路、建筑、犁溝和其他.該數(shù)據(jù)集共有12 000張圖像,隨機(jī)選取其中10 000張作為訓(xùn)練集,另外2 000張作為測(cè)試集.該數(shù)據(jù)集中的衛(wèi)星遙感圖像如圖2所示.
圖2 衛(wèi)星遙感圖像示意
實(shí)驗(yàn)數(shù)據(jù)預(yù)處理步驟如下:
1)將數(shù)據(jù)集原始圖像設(shè)置為特定大??;
2)進(jìn)行隨機(jī)窗口采樣,生成采樣坐標(biāo),得到固定大小為256×256的圖像;
3)對(duì)處理好的圖像數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),包括隨機(jī)旋轉(zhuǎn)、水平和垂直翻轉(zhuǎn)、隨機(jī)伽馬變換、模糊、腐蝕、添加噪聲以及雙線性濾波等圖像變換操作.
經(jīng)過(guò)上述數(shù)據(jù)預(yù)處理及數(shù)據(jù)增強(qiáng),訓(xùn)練集規(guī)模擴(kuò)大了6倍,可在一定程度上減少網(wǎng)絡(luò)過(guò)擬合的風(fēng)險(xiǎn).
為驗(yàn)證本文所提方法的有效性,對(duì)比實(shí)驗(yàn)在相同的平臺(tái)和環(huán)境下進(jìn)行,以確保不同網(wǎng)絡(luò)模型的實(shí)驗(yàn)數(shù)據(jù)可信度.實(shí)驗(yàn)操作系統(tǒng)為Windows 10,CPU為Intel I7,GPU為GeForce GTX 1080Ti;開(kāi)發(fā)平臺(tái)為PyCharm,編程語(yǔ)言為python,采用pytorch框架;訓(xùn)練集和測(cè)試集的batchsize大小均為4.
根據(jù)大多數(shù)語(yǔ)義分割模型所采用的評(píng)估標(biāo)準(zhǔn),本文采用像素精度(PA),均交并比(MIoU)和頻權(quán)交并比(FWIoU)作為性能指標(biāo)[4].假設(shè)像素類別數(shù)為k+1,則PA,MIoU和FWIoU的計(jì)算公式為
其中,Pij代表屬于i類卻被分類為j類的像素?cái)?shù);Pii代表屬于i類的正確分類的像素?cái)?shù).
為了防止過(guò)擬合,實(shí)驗(yàn)結(jié)合數(shù)據(jù)擴(kuò)充技術(shù)進(jìn)行圖像預(yù)處理.本文提出一種自動(dòng)分割遙感圖像的方法,其具體流程如圖3所示.首先,將數(shù)據(jù)進(jìn)行預(yù)處理,得到相應(yīng)的數(shù)據(jù)集,將其分為訓(xùn)練集和測(cè)試集;其次,對(duì)模型進(jìn)行訓(xùn)練,并利用網(wǎng)絡(luò)進(jìn)行標(biāo)注,將圖像輸入到網(wǎng)絡(luò)中,通過(guò)卷積層和池化層進(jìn)行下采樣提取圖像特征,再使用反卷積層進(jìn)行上采樣獲取和原圖大小相同的圖像,完成圖像語(yǔ)義分割.
圖3 實(shí)驗(yàn)處理流程
將CA-Net與經(jīng)典語(yǔ)義分割神經(jīng)網(wǎng)絡(luò)Deeplab,FCN,SegNet,Unet,Dilated以及最新的FCDenseNet進(jìn)行比較.實(shí)驗(yàn)對(duì)比結(jié)果如表2所示.
由表2可知,CFWE模塊使網(wǎng)絡(luò)性能有了明顯的提升.DeeplabV3使用并改進(jìn)了ASPP模塊,在本文數(shù)據(jù)集上有著不錯(cuò)的效果,但性能仍然低于CA-Net;FCN-8s通過(guò)棄用傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的全連接層將卷積神經(jīng)網(wǎng)絡(luò)用于語(yǔ)義分割任務(wù),在本文數(shù)據(jù)集上達(dá)到了不錯(cuò)的性能;SegNet是基于FCN網(wǎng)絡(luò)并改進(jìn)了VGG16得到的語(yǔ)義分割網(wǎng)絡(luò),因其引入了Encoder-Decoder結(jié)構(gòu),在實(shí)驗(yàn)中取得了不錯(cuò)的效果;Unet可以用于解決醫(yī)學(xué)圖像語(yǔ)義分割問(wèn)題,其U型的網(wǎng)絡(luò)結(jié)構(gòu)可以同時(shí)獲取上、下文信息和位置信息,但在本實(shí)驗(yàn)中性能最差;FC-DenseNet將DenseNet引入到圖像語(yǔ)義分割任務(wù),實(shí)現(xiàn)了不錯(cuò)的效果.
表2 本文方法與其他方法的性能比較 %
根據(jù)表2中的實(shí)驗(yàn)結(jié)果還可知,CA-Net101網(wǎng)絡(luò)模型的PA和MIoU最高,分別為91.36%和53.77%.將CA-Net和其他經(jīng)典語(yǔ)義分割網(wǎng)絡(luò)以及最新的語(yǔ)義分割網(wǎng)絡(luò)進(jìn)行對(duì)比,雖然其他網(wǎng)絡(luò)都實(shí)現(xiàn)了不錯(cuò)的性能,但是普遍低于CA-Net,這表明了其整體性能優(yōu)于其他方法.
同時(shí),和其他方法相比,CA-Net的參數(shù)量相對(duì)更少.在幾個(gè)參數(shù)量相近的模型中,CA-Net的性能也最優(yōu).這說(shuō)明CA-Net性能更好,對(duì)衛(wèi)星遙感圖像語(yǔ)義分割任務(wù)更有針對(duì)性.
通過(guò)分析以上實(shí)驗(yàn)結(jié)果可知,在衛(wèi)星遙感圖像語(yǔ)義分割任務(wù)中,網(wǎng)絡(luò)深度不能太淺.網(wǎng)絡(luò)層數(shù)太少難以提取到充足的特征,網(wǎng)絡(luò)層數(shù)太多則會(huì)導(dǎo)致出現(xiàn)梯度彌散問(wèn)題或梯度爆炸問(wèn)題.使用批標(biāo)準(zhǔn)化(batch normalization)可在一定程度上解決梯度彌散和梯度爆炸問(wèn)題.此外,本文引入了注意力機(jī)制模塊CFWE,并使用了跳躍連接,在一定程度上解決了網(wǎng)絡(luò)的退化問(wèn)題;同時(shí),CFWE模塊通過(guò)注意力機(jī)制學(xué)習(xí)得到通道權(quán)重系數(shù),提高了網(wǎng)絡(luò)的特征提取能力,取得了更好的圖像分割效果.
本文針對(duì)高分辨率遙感影像圖像語(yǔ)義分割問(wèn)題提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的新的語(yǔ)義分割模型,并在這個(gè)網(wǎng)絡(luò)中使用了通道注意力模塊CFWE以增強(qiáng)網(wǎng)絡(luò)的特征提取能力.文中實(shí)驗(yàn)使用了2016年郴州地區(qū)GF-2衛(wèi)星遙感圖像數(shù)據(jù),結(jié)果表明,CA-Net101的PA,MIoU和FWIoU分別為91.36%,53.77%和85.52%,實(shí)現(xiàn)了對(duì)GF-2圖像分類任務(wù)中復(fù)雜目標(biāo)的精確分割.本文所提方法旨在應(yīng)用于檢測(cè)中國(guó)郴州林地和水域面積的變化情況,為林業(yè)資源的開(kāi)發(fā)和水域環(huán)境的保護(hù)提供幫助.在今后的研究中,可以通過(guò)獲取更多同類型衛(wèi)星遙感圖像,制作出更高質(zhì)量的分割數(shù)據(jù)集來(lái)進(jìn)一步訓(xùn)練CA-Net,以提高其泛用性和分割性能.