黃 聰,周 坤,安學(xué)剛
(1.蘭州交通大學(xué)電子與信息工程學(xué)院,蘭州 730070;2.國華衛(wèi)星數(shù)據(jù)科技有限公司,蘭州 730050)
近年來隨著高分辨率對地觀測技術(shù)的進(jìn)步,各個(gè)國家認(rèn)識到了高空間分辨率衛(wèi)星遙感帶來的巨大經(jīng)濟(jì)效益,并高度重視其發(fā)展。高分辨率遙感圖像包含眾多種類的語義場景信息和精細(xì)的空間尺度信息,可以清晰地表示地物的詳細(xì)特征、紋理特征和幾何結(jié)構(gòu),對于提升分割精度有很大的幫助,因此被廣泛地應(yīng)用在農(nóng)業(yè)、林業(yè)、搶險(xiǎn)救災(zāi)和環(huán)境保護(hù)等領(lǐng)域[1]。
語義分割是對高分辨率遙感圖像處理過程中不可或缺的步驟。遙感圖像的語義分割是針對每一個(gè)像素進(jìn)行劃分,在標(biāo)注數(shù)據(jù)的時(shí)候給圖像中每個(gè)目標(biāo)區(qū)域的像素打上標(biāo)簽,進(jìn)而區(qū)分出不同地物,在城市規(guī)劃、環(huán)境監(jiān)測、災(zāi)難評估等領(lǐng)域[2]有著廣泛的應(yīng)用。鑒于語義分割有著廣泛的應(yīng)用前景,國內(nèi)外學(xué)者已提出了大量的方法來提高語義分割的性能。在眾多方法中,基于深度學(xué)習(xí)的方法因能自動(dòng)學(xué)習(xí)復(fù)雜數(shù)據(jù)內(nèi)部的抽象特征而受到研究人員的青睞。文獻(xiàn)[3]第1 次采用全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)進(jìn)行端到端的語義分割,但由于沒有考慮到像素與像素之間的關(guān)系,因此分割結(jié)果不理想;隨后,文獻(xiàn)[4-8]提出Deep Lab系列模型,使用空洞卷積進(jìn)行上下文信息提取,經(jīng)過Deep-Lab V1到Deep Lab V3+的發(fā)展不斷提升分割性能;文獻(xiàn)[9]提出金字塔場景分析網(wǎng)絡(luò)(pyramid scene parseing network,PSPNet),利用圖像的全局上下文信息實(shí)現(xiàn)復(fù)雜場景下的圖像分割;U-Net[10-11]網(wǎng)絡(luò)采用編碼器-解碼器-跳躍鏈接,有效提高了小目標(biāo)分割精度:但是,上述這些方法仍存在相鄰地物之間邊界難以區(qū)分、邊界模糊現(xiàn)象。pix2pix[12]使用U-Net作為分割網(wǎng)絡(luò),并使用一種“PatchGAN”結(jié)構(gòu)作為判別器,通過引入對抗學(xué)習(xí)框架可以顯著提高模型的泛化能力,從而有效地提高了遙感圖像的分割精度,比基于全卷積神經(jīng)網(wǎng)絡(luò)的語義分割方法具有更高的分割準(zhǔn)度[13-14]。針對上述文獻(xiàn)中出現(xiàn)的分割邊界粗糙、錯(cuò)分和漏分割問題,本文提出一種改進(jìn)的pix2pix模型:在特征提取階段,在pix2pix 模型的編碼器部分連接空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP),以便通過提取多尺度信息來提高分割性能;同時(shí)為了更好地分割地物邊界,在跳躍連接部分加入空間注意力機(jī)制(spatial attention mechanisms,SAM),以增強(qiáng)邊緣信息,進(jìn)一步優(yōu)化分割邊界的精度。
近年來,生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)在計(jì)算機(jī)視覺技術(shù)領(lǐng)域表現(xiàn)優(yōu)異,在高分辨率遙感圖像分割中應(yīng)用廣泛。2014 年Goodfellow 等[15-16]受來自博弈論中的“二人零和博弈”啟發(fā)提出GAN。GAN 模型包含兩部分:生成模型(generative model,簡稱G)和判別模型(discriminative model,簡稱D)。生成模型G產(chǎn)生新的數(shù)據(jù)樣本(它通過捕捉樣本的數(shù)據(jù)分布提煉出真實(shí)數(shù)據(jù)樣本的隱含信息來實(shí)現(xiàn));判別模型D(實(shí)質(zhì)就是一個(gè)二分類器)能把輸入的數(shù)據(jù)巧妙地判斷是真實(shí)的數(shù)據(jù)樣本還是生成模型生成的數(shù)據(jù)樣本,并給出樣本訓(xùn)練數(shù)據(jù)的概率。生成模型和判別模型不斷地更新權(quán)重值,使判別模型區(qū)分輸入樣本來源的能力不斷提升,這將促使生成模型生成更逼真的樣本來迷惑判別模型,而生成模型能力的提高又促使判別模型提高其判別能力。在相互對抗的過程中,兩者共同進(jìn)步,最終達(dá)到納什均衡。二者間的競爭關(guān)系可由式(1)所示的損失函數(shù)表示。
其中:x為真實(shí)數(shù)據(jù),z為生成器輸入的隨機(jī)向量,G為生成器,D為判別器,D(x)表示輸入為真實(shí)數(shù)據(jù)時(shí)判別器的輸出,D(G(z))表示輸入為生成器生成的數(shù)據(jù)時(shí)判別器的輸出。
由于傳統(tǒng)的GAN 未假設(shè)樣本數(shù)據(jù)的分布規(guī)律,當(dāng)出現(xiàn)數(shù)據(jù)維度較高且分布復(fù)雜的樣本時(shí),無法控制GAN 的訓(xùn)練,因此,條件生成對抗網(wǎng)絡(luò)(conditional generative adversarial nets,cGAN)[17]首次將條件標(biāo)簽引入GAN 模型,通過對模型增加條件(額外的信息)來指導(dǎo)生成數(shù)據(jù)過程。借鑒cGAN 的結(jié)構(gòu),使用成對的數(shù)據(jù),文獻(xiàn)[12]提出一種特殊的cGAN,即pix2pix,利用該網(wǎng)絡(luò)解決了高質(zhì)量的圖像到圖像的轉(zhuǎn)換任務(wù)。cGAN 通過添加條件信息的方式對圖像生成進(jìn)行指導(dǎo),如果把這個(gè)過程中的條件換成輸入圖像,那么通過對輸入圖像到輸出圖像之間的映射關(guān)系的學(xué)習(xí),以及通過學(xué)習(xí)損失函數(shù)去訓(xùn)練這個(gè)映射,就能解決通用的圖像到圖像的轉(zhuǎn)換問題。
pix2pix由1個(gè)生成器和1個(gè)判別器組成,實(shí)現(xiàn)原理如圖1所示,其中:z為隨機(jī)噪聲,y為與x對應(yīng)的真實(shí)實(shí)體圖片樣本,{y,x}和{G(z),y}為判別器D的輸入。cGAN 的條件為y,生成器G輸入為{y,z}時(shí)得到生成圖像G(z)。
圖1 pix2pix結(jié)構(gòu)示意圖Fig.1 Pix2pix structure diagram
pix2pix使用改進(jìn)后cGAN 的目標(biāo)函數(shù),如式(2)所示。
L1損失函數(shù)用來約束生成圖像G(z)和真實(shí)圖像y之間的差異,表示為:
pix2pix的最終優(yōu)化目標(biāo)函數(shù)表示為:
即G需要通過多次迭代訓(xùn)練使目標(biāo)函數(shù)盡量最小化,而D則是使目標(biāo)函數(shù)最大化。這里使用L1損失函數(shù)的目的是希望降低生成圖像的模糊度。
pix2pix采用U-Net充當(dāng)生成器。U-Net是一個(gè)編碼-解碼結(jié)構(gòu),左邊是編碼器部分,負(fù)責(zé)特征提取,從而得到特征圖,隨后通過解碼器恢復(fù)到輸入時(shí)的分辨率。跳躍連接也是U-Net網(wǎng)絡(luò)的一個(gè)關(guān)鍵特征。通過級聯(lián)將解碼器中的上采樣圖像和編碼器中對應(yīng)分辨率層的輸出圖像一同輸入到解碼器的下一層,從而融合低層特征和深層的語義信息,在提高網(wǎng)絡(luò)表達(dá)圖像信息能力的同時(shí),又可以有效地訓(xùn)練網(wǎng)絡(luò),加快收斂速度。
由于遙感圖像覆蓋的區(qū)域動(dòng)輒數(shù)十公里且場景復(fù)雜多變,針對地物復(fù)雜度高的植被、建筑物等對象的精確區(qū)分以及地物邊緣的清晰分割仍存在挑戰(zhàn)。經(jīng)典的pix2pix模型在特征提取過程中采用池化操作,使特征圖的長和寬均變小,從而丟失了部分像素的細(xì)節(jié)信息,導(dǎo)致上采樣恢復(fù)的特征圖邊界分割精度較差。ASPP模塊能夠多尺度捕捉上下文特征信息,縮減訓(xùn)練的時(shí)間。SAM 能夠在空間維度上加強(qiáng)有用的邊界特征,并抑制無效特征,從而提高分割的準(zhǔn)確性?;诖耍疚哪P偷木W(wǎng)絡(luò)架構(gòu)以第2 節(jié)pix2pix網(wǎng)絡(luò)為基準(zhǔn)模型進(jìn)行改進(jìn)。網(wǎng)絡(luò)結(jié)構(gòu)由分割網(wǎng)絡(luò)和判別網(wǎng)絡(luò)組成,如圖2所示。
圖2 改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Improved network structure
在分割網(wǎng)絡(luò)中,編碼網(wǎng)絡(luò)的每個(gè)下采樣階段使用2個(gè)相同的卷積層堆疊方式進(jìn)行特征提取,將批量歸一化操作和ReLU(rectified liner uints)激活函數(shù)用于每個(gè)卷積層后,而后采用ASPP 對特征圖進(jìn)行上下文特征的提取,其目的是將高級特征和低級特征更好地融合在一起,從而減少池化操作導(dǎo)致的空間和細(xì)節(jié)信息的丟失,保留更多有效的特征信息,提高特征提取準(zhǔn)確度。在跳躍連接中加入空間注意力機(jī)制,通過多尺度的跳躍連接結(jié)構(gòu)將深層和淺層信息充分結(jié)合,通過獲得更清晰的定位和邊緣信息來提高分割精度。
判別網(wǎng)絡(luò)結(jié)構(gòu)采用卷積層、批量歸一化、LeakyRe-LU(leaky rectified liner uints)激活函數(shù)組成。以真實(shí)的語義分割標(biāo)注圖或分割網(wǎng)絡(luò)分割的結(jié)果圖像作為輸入,輸出的是一張置信圖,它的每一個(gè)元素只有真或假2個(gè)選擇。
在圖像分割領(lǐng)域中,感受野是影響圖像分割精度好壞的一個(gè)重要因素。空洞卷積[18](atrous convolutions)是針對圖像語義分割問題中池化操作會(huì)降低圖像分辨率、丟失信息而提出的一種卷積思路。通過在普通卷積核的每個(gè)像素之間填充值為0的像素,同時(shí)增加網(wǎng)絡(luò)的擴(kuò)張率(dilation rate),可以有效增大感受野且不增加模型參數(shù)或者計(jì)算量,使每個(gè)卷積都輸出較大范圍的信息。增大感受野可以令分割結(jié)果更加準(zhǔn)確。感受野的大小受卷積核尺寸的制約,隨著卷積核的尺寸增大,所提取的特征圖包含的細(xì)節(jié)信息增多,從而提高網(wǎng)絡(luò)的學(xué)習(xí)能力。
在進(jìn)行特征提取時(shí),利用ASPP結(jié)構(gòu)能夠充分提取圖像的復(fù)雜特征,有效地捕獲不同尺度下的特征點(diǎn),從而提升卷積過程的效率。ASPP結(jié)構(gòu)如圖3所示。它借鑒了空間金字塔模型的思想,由不同大小的空洞卷積核組成。大擴(kuò)張率的空洞卷積可以獲得大范圍的感受野,更有利于捕捉大尺度物體信息和全局信息,但局部信息容易丟失,此時(shí)局部信息可以靠小擴(kuò)張率的空洞卷積來補(bǔ)償,最后再將特征進(jìn)行融合并輸出。
圖3 ASPP結(jié)構(gòu)圖Fig.3 ASPP structure diagram
在高分辨率遙感圖像中,不同位置的空間信息在價(jià)值上存在差異。在低層特征圖中不僅有邊緣信息,也包含了很多不重要的背景,這些不重要的背景容易干擾物體邊緣信息??臻g注意力機(jī)制[18]通過為邊緣信息特征值分配1個(gè)權(quán)重,修復(fù)圖像像素的定位,精細(xì)化分割邊界,使得低層特征圖中很多不重要的背景信息得到抑制,引導(dǎo)網(wǎng)絡(luò)選擇有用特征。SAM 結(jié)構(gòu)如圖4所示。首先,將輸入特征圖每個(gè)通道中相同位置的元素進(jìn)行全局池化,得到1個(gè)空間描述符,用以捕獲目標(biāo)圖像的邊緣信息(包含水平和垂直方向);接下來,使用該空間描述符進(jìn)行卷積操作(7×7的卷積核),生成1張二維的空間注意力權(quán)重圖;最后,為得到空間注意力加權(quán)圖,把該權(quán)重圖與原輸入特征圖的每個(gè)通道進(jìn)行逐元素相乘。
圖4 空間注意力機(jī)制Fig.4 Spatial attention mechanism
本文采用Vaihingen 和GID(Gaofen Image Dataset)2個(gè)公開數(shù)據(jù)集,其中Vaihingen數(shù)據(jù)集由ISPRS 提供,研究區(qū)域?yàn)榈聡捻f興根地區(qū)(Vaihingen)。如圖5(a)所示,該數(shù)據(jù)集由航空正射圖像構(gòu)成(共33張,尺寸不同),每幅圖像具有對應(yīng)于近紅外(NIR)、紅色(R)和綠色(G)波長的3個(gè)波段,圖像分辨率為9 cm。在這些圖像中,容納了一部分手動(dòng)標(biāo)注的像素級標(biāo)簽數(shù)據(jù)。此數(shù)據(jù)集包含5類地物:建筑、低矮植被、樹木、地表和汽車。GID數(shù)據(jù)集由武漢大學(xué)夏桂松團(tuán)隊(duì)制作(見圖5(b))。該數(shù)據(jù)集由150張Gaofen-2(GF-2)的高分辨率圖像(7 200像素×6 800像素)組成。這些圖像覆蓋了超過50 000 km2的地理區(qū)域,包括建筑物、農(nóng)用地、公路、湖、工業(yè)用地和河等分類。
圖5 Vaihingen數(shù)據(jù)集和GID數(shù)據(jù)集Fig.5 Vaihingen data set and GID data set
首先將圖像轉(zhuǎn)換為RGB三通道圖像,然后利用移動(dòng)滑窗的方法將Vaihingen圖像和GID 圖像的尺寸裁剪為768像素×768像素。裁剪后,Vaihingen數(shù)據(jù)集產(chǎn)生了1 182張768像素×768像素的圖像,GID 數(shù)據(jù)集產(chǎn)生了5 440張768像素×768像素的圖像。
本文實(shí)驗(yàn)中計(jì)算機(jī)配置為:Ubantu18.04操作系統(tǒng),2 塊Nvidia P4000 顯卡,Intel(R)Xeon(R)Gold5115 CPU@2.40 GHz、2.39 GHz(2個(gè)處理器),128 GB內(nèi)存。軟件環(huán)境使用Python3.7,Pytorch框架。在本實(shí)驗(yàn)中,批量大小設(shè)置為1 000,程序運(yùn)行的迭代次數(shù)設(shè)置為200,整個(gè)網(wǎng)絡(luò)使用Adam 優(yōu)化器進(jìn)行優(yōu)化。
為了更客觀地驗(yàn)證本文方法的優(yōu)勢,采用精確率(P)、召回率(R)、F1-score(F1)和平均交并比(mean intersection over union,mIo U)作為評價(jià)指標(biāo)。精確率用于衡量圖像識別方法的精度,當(dāng)干擾項(xiàng)在結(jié)果中越少時(shí),精確率越高;召回率用于衡量在圖像識別方法中對目標(biāo)結(jié)果的覆蓋情況,正確結(jié)果占總體目標(biāo)的比例越高,召回率越大;F1-score是精確率和召回率的調(diào)和平均數(shù)。P、R、F1計(jì)算方法如下:
式中:TP為被模型預(yù)測為正類的正樣本,F(xiàn)P為被模型預(yù)測為正類的負(fù)樣本,F(xiàn)N為被模型預(yù)測為負(fù)類的正樣本。
對于不止一宗類別的語義分割模型,往往使用平均交并比反映模型的識別精準(zhǔn)度。分別對每個(gè)類計(jì)算交并比(真實(shí)標(biāo)簽和預(yù)測結(jié)果的交并比),然后再對所有類別的交并比求均值。其計(jì)算式如下:
式中:χmIoU為平均交并比;k為類別,這里假設(shè)包括無效類或背景在內(nèi)有k+1個(gè)類;Pij為本屬于類i但預(yù)測為類j的像素?cái)?shù)量;Pii為真實(shí)正例的數(shù)量;Pij和Pji分別為錯(cuò)誤正例和錯(cuò)誤負(fù)例。
實(shí)驗(yàn)選取了目前主流的全監(jiān)督語義分割模型FCN-8s[2]、Deeplabv3+和pix2pix與本文提出的語義分割網(wǎng)絡(luò)進(jìn)行對比,在Vaihingen數(shù)據(jù)集上的分割結(jié)果對比見圖6。由圖6可以明顯地看出:本文算法分割結(jié)果中每類地物的邊界較清晰,這是因?yàn)楸疚脑诰幋a器中加入了ASPP,同時(shí)在解碼器的每層加入了SAM,這樣做既能夠提取到多尺度的上下文信息,又增強(qiáng)了邊緣輪廓特征,因此對各類地物邊緣的細(xì)節(jié)信息分割效果較好。其它模型都存在分割模糊現(xiàn)象:FCN-8s存在明顯的欠分割和漏分割現(xiàn)象,主要表現(xiàn)為建筑物存在明顯遺漏和錯(cuò)分割,這是因?yàn)镕CN-8s網(wǎng)絡(luò)存在多次下采樣,導(dǎo)致目標(biāo)特征大量丟失;Deeplabv3+雖然比FCN-8s提高了語義分割的能力,但也存在沒有充分利用骨干網(wǎng)絡(luò)中產(chǎn)生的多階段高分辨率特征圖的情況,從而導(dǎo)致特征圖中邊緣、輪廓信息丟失,使得分割效果較差。
圖6 Vaihingen數(shù)據(jù)實(shí)驗(yàn)圖Fig.6 Vaihingen data experiment diagram
表1列出了各方法在Vaihingen數(shù)據(jù)集上進(jìn)行語義分割后所獲得的精確率(P)、召回率(R)、F1-score(F1),其中FCN-8s和Deeplabv3+為常見的全監(jiān)督學(xué)習(xí)語義分割算法。從表1中可以看出:相較于FCN-8s方法,本文方法的建筑物、公路、低矮植被、樹木、汽車的精確率分別提高了7.32、12.87、8.60、11.28、22.90個(gè)百分點(diǎn);相較于Deeplabv3+方法,本文方法的建筑物、樹木、汽車的精確率分別提高了9.24、2.92、5.12個(gè)百分點(diǎn);相較于pix2pix方法,本文方法的建筑物、公路、低矮植被、樹木、汽車的精確率分別提高了9.72、2.11、0.62、6.43、7.68個(gè)百分點(diǎn)。表2 列舉了本文方法與其它方法在Vaihingen數(shù)據(jù)集上進(jìn)行語義分割后所獲得的mIo U。由表2可以看出:本文方法的mIoU 為82.69%,相比于pix2pix算法高出8.17 個(gè)百分點(diǎn)。仿真結(jié)果表明:本文方法對高分辨率遙感圖像地物分割表現(xiàn)最優(yōu)。
表1 各實(shí)驗(yàn)方法的精確率、召回率和F1-score對比Tab.1 Comparison of precision,recall,and F1-score of various experimental methods%
表2 本文方法與其它方法的mIoUTab.2 MIoU of this method and other methods %
接著,在GID數(shù)據(jù)集上進(jìn)一步驗(yàn)證本文方法的性能。本文方法與FCN-8s、Deeplabv3+、pix2pix方法在GID數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比見圖7。由圖7可以看出:本文方法對高分辨率遙感圖像地物分割表現(xiàn)最優(yōu)。
圖7 GID數(shù)據(jù)實(shí)驗(yàn)圖Fig.7 GID data experiment diagram
表3列出了各方法用于建筑物、農(nóng)用地、公路、湖、工業(yè)用地、河流的精確率、召回率和F1-score。由表3可以看出:相較于使用FCN-8s方法,本文方法分割建筑物、農(nóng)用地、公路、湖、工業(yè)用地、河流的精確率分別提高了6.53、12.17、1.18、7.63、12.85、5.73個(gè)百分點(diǎn);相較于Deeplabv3+方法,本文方法分割農(nóng)用地、公路、湖、河流的精確率分別提高了1.57、12.35、2.58、1.75個(gè)百分點(diǎn);相較于使用pix2pix方法,本文方法分割建筑物、農(nóng)用地、公路、湖、工業(yè)用地、河流的精確率分別提高了10.09、13.74、14.11、13.32、14.85、6.54個(gè)百分點(diǎn)。表4 列舉了各方法在GID 數(shù)據(jù)集上對建筑物、農(nóng)用地、公路、湖、工業(yè)用地、河流進(jìn)行語義分割時(shí)所得到的mIo U。由表4可以看出:本文方法的mIoU 為81.27%,相比于pix2pix算法提高5.92個(gè)百分點(diǎn)。仿真結(jié)果表明:對于大多數(shù)地物來說,本文方法與其他常見主流方法的分割效果相比能夠達(dá)到最優(yōu)或次優(yōu),分割結(jié)果的完整性和正確性較高。
表3 本文方法與其它實(shí)驗(yàn)方法的精確率、召回率和F 1Tab.3 The precision,recall and F 1 of this method and other experimental methods%
表4 本文方法與其它方法的mIoUTab.4 MIoU of this method and other methods %
本文提出了一種改進(jìn)的pix2pix模型用于遙感圖像語義分割,通過引入ASPP,使多尺度特征融合時(shí)充分利用了上下文信息,提高了圖像分割的準(zhǔn)確性;通過加入SAM,增強(qiáng)了地物邊緣的細(xì)節(jié)信息,提高了網(wǎng)絡(luò)模型對地物的分割能力。仿真實(shí)驗(yàn)結(jié)果表明:本文方法相比其他經(jīng)典方法分割效果顯著,解決了遙感圖像語義分割任務(wù)的錯(cuò)分、漏分及邊界模糊等問題,提高了分割精度。此外,本文方法對高分辨率遙感圖像在分割地物邊界信息方面有特定的參考價(jià)值,為將深度學(xué)習(xí)應(yīng)用于遙感圖像語義分割提供了解決方案。