張 艷,王翔宇,張眾維,孫葉美,劉樹(shù)東
(天津城建大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,天津 300384)
遙感影像建筑物提取在城市規(guī)劃、人口估計(jì)、土地利用分析、地形圖制作和更新、建筑物變化檢測(cè)等應(yīng)用中都具有極為重要的意義,但遙感影像特征復(fù)雜、分辨率高、數(shù)據(jù)量大等特點(diǎn)給建筑物提取研究帶來(lái)了極大的挑戰(zhàn)。
建筑物提取可以看成是一種特定的圖像分割任務(wù)——將建筑物從周圍的背景中分割出來(lái)。其算法主要分為4類:基于閾值、基于邊緣、基于區(qū)域和基于分類的方法。基于閾值的方法通過(guò)手動(dòng)或自動(dòng)選擇的閾值,將具有不同值的像素分配到不同的部分[1],但不能在灰度值相似的不同區(qū)域之間進(jìn)行區(qū)分;基于邊緣的方法采用Gaussian[2]和Sobel[3]等邊緣檢測(cè)濾波器,檢測(cè)相鄰像素之間的突變并生成邊界進(jìn)行分割;基于區(qū)域的方法通過(guò)聚類[4]或形狀分析[5]分割圖像的不同部分,但由于圖像的亮度和紋理?xiàng)l件的多樣性,基于邊緣或基于區(qū)域的方法無(wú)法提供穩(wěn)定和通用的結(jié)果;基于分類的方法將圖像分割視為對(duì)每個(gè)像素進(jìn)行分類的過(guò)程[6],因此該方法可以通過(guò)適當(dāng)?shù)奶卣魈崛『头诸惼鱽?lái)產(chǎn)生更精確的分割。
傳統(tǒng)的特征提取方法利用經(jīng)驗(yàn)設(shè)定特定的特征來(lái)表示建筑物,通常包括像素[7]、光譜[8-9]、邊緣[10-11]、形狀[12-13]、語(yǔ)義[14]等在內(nèi)的相關(guān)指標(biāo),但這些指標(biāo)會(huì)隨著季節(jié)、光照、尺度、建筑物風(fēng)格和環(huán)境發(fā)生較明顯的變化。因此,這種憑經(jīng)驗(yàn)設(shè)計(jì)特征的方法特征表征能力較差,依賴先驗(yàn)信息較多,只能處理特定環(huán)境的建筑物提取。
隨著深度學(xué)習(xí)的發(fā)展,能夠自動(dòng)學(xué)習(xí)并提取深層次特征的卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測(cè)[15-17]、圖像分類[18-20]、顯著性目標(biāo)檢測(cè)[21-22]等領(lǐng)域的應(yīng)用越來(lái)越廣泛,其在遙感影像的處理方面也取得了一定進(jìn)展。MAGGIORI等[23]和YUAN[24]基于全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)框架改進(jìn)用于建筑物的像素級(jí)語(yǔ)義分割,但分割結(jié)果較粗略,分割區(qū)域不均勻、不完整;許慧敏[25]利用 U-Net 模型結(jié)合歸一化數(shù)字表面模型(normalized Digital Surface Model,nDSM)數(shù)據(jù)進(jìn)行高分辨率遙感影像分類,并在此基礎(chǔ)上采用全連接條件隨機(jī)場(chǎng)(Conditional Random Fields,CRFs)進(jìn)行影像后處理,得到了較好的結(jié)果,但是在建筑物提取方面存在邊界不準(zhǔn)確的問(wèn)題;WU等[26]提出了多約束全卷積網(wǎng)絡(luò)(MC-FCN)進(jìn)行建筑物提取,通過(guò)不同顏色標(biāo)注了漏檢和誤檢情況,但對(duì)于背景復(fù)雜的情況,存在誤檢和漏檢情況;季順平等[27]提出尺度不變性遙感影像建筑物提取網(wǎng)絡(luò)(SU-NET),將建筑物提取推進(jìn)到一個(gè)新的自動(dòng)化水平,但是由于遙感成像機(jī)理、建筑物自身、背景環(huán)境的復(fù)雜性,仍然存在邊界模糊和提取區(qū)域不完整的問(wèn)題;張春森等[28]構(gòu)造了稀疏約束語(yǔ)義分割模型(LSPNet),在提取速度上有所提高,但是出現(xiàn)了對(duì)小型建筑未能識(shí)別、誤檢地物以及一些建筑物的邊緣未能很好分割的情況。綜上所述,遙感影像建筑物提取仍存在小目標(biāo)漏檢、分割邊界模糊和區(qū)域不完整的問(wèn)題。
針對(duì)上述問(wèn)題,筆者提出了一種用于建筑物提取的邊界感知網(wǎng)絡(luò)(Boundary-Aware Network,BANet)。該網(wǎng)絡(luò)不依賴于任何先驗(yàn)條件,可直接輸入遙感影像,通過(guò)特征融合、特征增強(qiáng)和特征細(xì)化網(wǎng)絡(luò)提取特征,在復(fù)雜背景下能有效地降低建筑物的誤檢和漏檢,提高了建筑物提取的魯棒性和準(zhǔn)確率。特征融合網(wǎng)絡(luò)采用編碼-解碼結(jié)構(gòu),為獲得更具判別力的特征,設(shè)計(jì)了交互聚合模塊(Interactived Aggregation Module,IAM)來(lái)實(shí)現(xiàn)特征信息的深度融合,不僅融合了高層語(yǔ)義特征和低層局部特征,而且融合了全局上下文特征,提高了特征的利用率。為增強(qiáng)建筑物區(qū)域特征,設(shè)計(jì)了特征增強(qiáng)網(wǎng)絡(luò),通過(guò)逐像素相減和級(jí)聯(lián)操作增強(qiáng)對(duì)漏檢區(qū)域的學(xué)習(xí),提取了更加完整的建筑物特征和小建筑物特征。此外,為進(jìn)一步細(xì)化邊界,采用特征細(xì)化網(wǎng)絡(luò)提取細(xì)節(jié)信息以獲得更加豐富的建筑物邊界特征。為了使得網(wǎng)絡(luò)更加穩(wěn)定且有效,將二值交叉熵?fù)p失和結(jié)構(gòu)相似性損失相結(jié)合,從像素和圖像結(jié)構(gòu)兩個(gè)層次監(jiān)督模型的訓(xùn)練學(xué)習(xí),以更好地學(xué)習(xí)建筑物區(qū)域和邊界。
筆者提出的端到端的邊界感知網(wǎng)絡(luò)(BANet)包括特征融合網(wǎng)絡(luò)、特征增強(qiáng)網(wǎng)絡(luò)及特征細(xì)化網(wǎng)絡(luò)3個(gè)部分,整體網(wǎng)絡(luò)框架如圖1所示。特征融合網(wǎng)絡(luò)是以編碼-橋接-解碼組成的密集監(jiān)督網(wǎng)絡(luò),對(duì)輸入圖像進(jìn)行特征提取與融合,其中設(shè)計(jì)交互聚合模塊配合短連接的使用對(duì)提取特征加以融合,得到了粗略的特征;特征增強(qiáng)網(wǎng)絡(luò)是為解決大建筑物圖像內(nèi)部區(qū)域不完整和小建筑物漏檢問(wèn)題而設(shè)計(jì)的,通過(guò)逐像素相減的方式對(duì)漏檢區(qū)域和目標(biāo)加強(qiáng)學(xué)習(xí);特征細(xì)化網(wǎng)絡(luò)以多尺度殘差結(jié)構(gòu)對(duì)邊界特征和細(xì)節(jié)特征進(jìn)一步學(xué)習(xí),得到最終的提取結(jié)果。給該網(wǎng)絡(luò)輸入彩色圖像,通過(guò)特征融合網(wǎng)絡(luò)、特征增強(qiáng)網(wǎng)絡(luò)和特征細(xì)化網(wǎng)絡(luò),進(jìn)行特征的提取融合、區(qū)域增強(qiáng)和邊界細(xì)化,得到了提取的二值圖像結(jié)果,其中黑色像素標(biāo)注的區(qū)域代表背景,白色像素標(biāo)注的區(qū)域?yàn)樘崛〉慕ㄖ铩?/p>
圖1 邊界感知網(wǎng)絡(luò)整體結(jié)構(gòu)
圖2 特征融合網(wǎng)絡(luò)
對(duì)于背景雜亂、前景干擾、多個(gè)建筑物提取等場(chǎng)景,簡(jiǎn)單地將低層特征和高層特征融合,無(wú)法準(zhǔn)確地檢測(cè)建筑物區(qū)域。全局上下文有利于從全局的角度推斷不同建筑物或同一建筑物不同部分之間的關(guān)系,故在編碼模塊后設(shè)計(jì)橋接模塊。橋接模塊由膨脹率為2的3個(gè)卷積層組成,提高了網(wǎng)絡(luò)的有效感受野,提取了全局上下文特征:
(1)
(2)
(3)
(4)
(5)
(6)
(7)
最后,將3個(gè)層次特征級(jí)聯(lián)起來(lái),通過(guò)一個(gè)3×3卷積獲得最終的綜合特征:
(8)
其中,°表示級(jí)聯(lián)操作。
特征融合網(wǎng)絡(luò)的整體表達(dá)式為
fFF=Fc(FD(FB(FE(Fc(IRGB))))) ,
(9)
其中,F(xiàn)E表示編碼模塊的操作,F(xiàn)B表示橋接模塊的操作,F(xiàn)D表示解碼模塊的操作。
圖3 特征增強(qiáng)網(wǎng)絡(luò)
遙感影像背景復(fù)雜且建筑物尺度不一。大建筑物圖像內(nèi)存在多種結(jié)構(gòu)外觀,導(dǎo)致很難被當(dāng)成一個(gè)完整的建筑物分割,進(jìn)而造成區(qū)域提取不完整;而小建筑物則容易被復(fù)雜場(chǎng)景湮沒(méi),造成漏檢。因此,為加強(qiáng)對(duì)不同尺度特征的提取,設(shè)計(jì)了特征增強(qiáng)網(wǎng)絡(luò),如圖3所示。
通過(guò)對(duì)fG和fFF特征圖的逐像素差值的學(xué)習(xí),可實(shí)現(xiàn)對(duì)漏檢區(qū)域的單獨(dú)學(xué)習(xí),以強(qiáng)化小目標(biāo)和漏檢區(qū)域特征,補(bǔ)全建筑物區(qū)域,起到特征完善的作用。將訓(xùn)練得到的結(jié)果與特征融合網(wǎng)絡(luò)的提取結(jié)果進(jìn)行級(jí)聯(lián),得到最后的預(yù)測(cè)結(jié)果。特征增強(qiáng)網(wǎng)絡(luò)表達(dá)式為
fSUB=fG-fFF,
(10)
fFE=FR(FR(fSUB)°fFF) ,
(11)
其中,fSUB表示漏檢目標(biāo)特征圖,fFE表示特征增強(qiáng)網(wǎng)絡(luò)得到的特征圖,F(xiàn)R表示包含批歸一化和ReLU激活函數(shù)的卷積操作。
為進(jìn)一步細(xì)化提取到的輪廓,采用特征細(xì)化網(wǎng)絡(luò)將特征增強(qiáng)網(wǎng)絡(luò)的輸出進(jìn)一步細(xì)化,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 特征細(xì)化網(wǎng)絡(luò)
首先將特征增強(qiáng)網(wǎng)絡(luò)的輸出fFE送入帶有下采樣的殘差塊,提取細(xì)節(jié)特征;然后利用上采樣層將特征圖映射回輸入大小,得到特征增強(qiáng)網(wǎng)絡(luò)的輸出與真實(shí)標(biāo)簽之間的殘差值fRES,使提取的建筑物邊界更加清晰;最后利用逐像素相加得到建筑物提取結(jié)果fFR。該網(wǎng)絡(luò)的表達(dá)式為
fFR=fFE+fRES。
(12)
二值交叉熵?fù)p失可廣泛應(yīng)用于建筑物提取中,有利于加速模型收斂。但是二值交叉熵?fù)p失不考慮鄰域信息,應(yīng)用在遙感影像建筑物提取中時(shí)模型將會(huì)嚴(yán)重偏向背景,使得最后的預(yù)測(cè)結(jié)果不準(zhǔn)確。而結(jié)構(gòu)相似性損失考慮了像素的局部領(lǐng)域,賦予邊界更高的權(quán)重,即使邊界上的預(yù)測(cè)概率和前景的其余部分是相同的,邊界附近的損失也相對(duì)更高。故為得到更高質(zhì)量的區(qū)域分割效果和更清晰的邊界,筆者結(jié)合了二值交叉熵?fù)p失函數(shù)和結(jié)構(gòu)相似性損失,從像素和圖像結(jié)構(gòu)兩個(gè)層次監(jiān)督模型的訓(xùn)練學(xué)習(xí):一方面使模型關(guān)注單一像素點(diǎn)預(yù)測(cè)的準(zhǔn)確性,另一方面結(jié)合結(jié)構(gòu)信息可得到更為全面準(zhǔn)確的提取結(jié)果。使用該損失函數(shù)對(duì)整個(gè)網(wǎng)絡(luò)模型進(jìn)行迭代訓(xùn)練,指導(dǎo)整個(gè)過(guò)程收斂。損失函數(shù)L定義為
(13)
二值交叉熵?fù)p失定義如下:
LBCE=-∑[G(r,c)log(P(r,c))+(1-G(r,c))log(1-P(r,c))] ,
(14)
其中,G(r,c)∈(0,1),表示像素(r,c)的真實(shí)標(biāo)簽;P(r,c)表示預(yù)測(cè)為建筑物的可能性。令x={xj:j=1,…,N2},y={yj:j=1,…,N2},x,y分別表示從預(yù)測(cè)圖和二進(jìn)制真實(shí)標(biāo)簽中裁剪出來(lái)的兩個(gè)大小為N×N的對(duì)應(yīng)圖像塊的像素值。x和y的結(jié)構(gòu)相似性損失定義如下:
(15)
其中,μx,μy和σx,σy分別是x和y的均值和標(biāo)準(zhǔn)偏差;σxy是它們的協(xié)方差;C1=0.000 1和C2=0.000 9,分別表示常數(shù),以避免分母為零。
采用公共數(shù)據(jù)集WHU building dataset進(jìn)行訓(xùn)練測(cè)試。該數(shù)據(jù)集是于 2019年公開(kāi)的高分辨率遙感影像數(shù)據(jù)集,適用于建筑物提取。訓(xùn)練數(shù)據(jù)集包含4 736張遙感影像建筑物RGB圖像和對(duì)應(yīng)的4 736張二值標(biāo)簽圖;測(cè)試集包含2 416張遙感影像建筑物圖像以及對(duì)應(yīng)的2 416張二值標(biāo)簽圖。利用交并比(Intersection over Union,IoU)、準(zhǔn)確率(Precision,P)和召回率(Recall,R)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。交并比指算法檢測(cè)到的建筑物像素與真實(shí)的正像素的交集以及它們的并集之間的比值,定義如下:
(16)
其中,TP表示正確檢測(cè)的建筑物特征;FP表示被錯(cuò)誤檢測(cè)為建筑物特征的非建筑物特征;FN表示被錯(cuò)誤檢測(cè)為非建筑物特征的建筑物特征。
準(zhǔn)確率指算法檢測(cè)到的建筑物像素中真實(shí)像素的百分比,定義如下:
(17)
召回率指算法檢測(cè)到的建筑物像素占真實(shí)標(biāo)簽正像素的百分比,定義如下:
(18)
為驗(yàn)證文中算法的有效性,首先對(duì)BANet進(jìn)行總體性能分析,然后與U-Net、SegNet、MC-FCN、SU-Net、LSPNet算法進(jìn)行對(duì)比分析。實(shí)驗(yàn)硬件環(huán)境為Intel(R) Core(TM) i7-7700 CPU @ 3.60 GHz,16 GB內(nèi)存,Nvidia GeForce GTX 1080。實(shí)驗(yàn)在Windows10 64 bit系統(tǒng)下進(jìn)行。選用Pytorch深度學(xué)習(xí)框架搭建網(wǎng)絡(luò),并通過(guò)Python實(shí)現(xiàn)算法的編程,使用Adam優(yōu)化器來(lái)訓(xùn)練網(wǎng)絡(luò)。實(shí)驗(yàn)中初始學(xué)習(xí)速率為0.000 1,設(shè)置了16批次,迭代次數(shù)為478 336次。
為了驗(yàn)證筆者提出的邊界感知模型BANet中交互聚合模塊、特征增強(qiáng)網(wǎng)絡(luò)和結(jié)構(gòu)相似性損失函數(shù)的有效性,針對(duì)不同模型進(jìn)行了消融實(shí)驗(yàn)。模型1未添加交互聚合模塊和特征增強(qiáng)網(wǎng)絡(luò),采用二值交叉熵?fù)p失函數(shù)與結(jié)構(gòu)相似性損失函數(shù)的結(jié)合進(jìn)行訓(xùn)練;模型2在模型1的基礎(chǔ)上添加了交互聚合模塊,損失函數(shù)與模型1相同;模型3在模型2的基礎(chǔ)上添加特征增強(qiáng)網(wǎng)絡(luò),采用二值交叉熵?fù)p失函數(shù)訓(xùn)練;模型4是筆者提出的模型,采用二值交叉熵?fù)p失函數(shù)和結(jié)構(gòu)相似性損失函數(shù)的組合。所有實(shí)驗(yàn)在WHU數(shù)據(jù)集上進(jìn)行測(cè)試,通過(guò)定量計(jì)算,以客觀評(píng)價(jià)指標(biāo)比較不同網(wǎng)絡(luò)模型性能。結(jié)果如表1所示,視覺(jué)效果比較如圖5所示。
表1 不同網(wǎng)絡(luò)模型實(shí)驗(yàn)結(jié)果客觀指標(biāo)對(duì)比
由表1可看出,模型2的交并比相比模型1提高了約1.8%,準(zhǔn)確率提高了約1%;模型4比模型2測(cè)試圖像的客觀評(píng)價(jià)指標(biāo),即交并比、準(zhǔn)確率分別提高了約1.9%、1.1%。所以加入特征融合模塊和特征增強(qiáng)網(wǎng)絡(luò)后,筆者提出的方法對(duì)于測(cè)試圖像的客觀評(píng)價(jià)指標(biāo)均有提升。模型4相比模型3,交并比和準(zhǔn)確率分別提高了約1.3%和0.9%,在使用二值交叉熵?fù)p失的基礎(chǔ)上驗(yàn)證了結(jié)構(gòu)相似性損失函數(shù)的有效性。
圖5 不同網(wǎng)絡(luò)模型視覺(jué)效果比較(圖中圓圈表示誤檢區(qū)域,矩形框表示漏檢區(qū)域)
從圖5中可以看出,模型1存在較多的漏檢和誤檢情況;模型2相比模型1誤檢情況明顯減少,但仍然存在較多的漏檢情況以及建筑物內(nèi)部區(qū)域不完整的情況;而模型3則邊界十分模糊,不能準(zhǔn)確地分割出建筑物的輪廓。相比之下,模型4達(dá)到了較好的提取效果,邊界更加明晰,輪廓更加分明,建筑物內(nèi)部區(qū)域也更加完整。通過(guò)客觀指標(biāo)比較以及主觀視覺(jué)效果比較,驗(yàn)證了筆者設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)的有效性。
為了驗(yàn)證文中方法的優(yōu)越性,與目前主流的U-Net,SegNet,MC-FCN,SU-Net,LSPNet等建筑物提取方法進(jìn)行了客觀指標(biāo)比較。實(shí)驗(yàn)同樣在WHU數(shù)據(jù)集上訓(xùn)練,訓(xùn)練過(guò)程中采用ReLU作為激活函數(shù),利用Adam算法進(jìn)行網(wǎng)絡(luò)優(yōu)化。初始學(xué)習(xí)率為0.000 1,所有參數(shù)使用正態(tài)分布進(jìn)行初始化。對(duì)WHU測(cè)試集圖片進(jìn)行測(cè)試,客觀評(píng)價(jià)指標(biāo)結(jié)果如表2所示,并截取尺度不一且背景復(fù)雜的兩個(gè)圖像,對(duì)提取結(jié)果進(jìn)行視覺(jué)效果比較,如圖6所示。
表2 BANet與經(jīng)典方法的客觀指標(biāo)對(duì)比
圖6 文中方法與經(jīng)典方法的視覺(jué)效果比較(圓圈表示誤檢區(qū)域,矩形框表示漏檢區(qū)域)
由表2可以看出,現(xiàn)有方法中SU-Net和LSPNet的客觀評(píng)價(jià)指標(biāo)值較高,而文中方法的交并比和準(zhǔn)確率比SU-Net分別高出約8.1%和2.8%,比LSPNet高出約11.1%和11.0%。文中方法的召回率評(píng)估指標(biāo)由于要平衡準(zhǔn)確率,而略有下降。由圖6可看出,圖6(b)列所示的U-Net提取結(jié)果出現(xiàn)了大量的誤檢現(xiàn)象;圖6(c)列所示的SegNet提取結(jié)果誤檢減少,但存在邊界模糊以及區(qū)域不完整的問(wèn)題;從圖6(d)列圖像看出,SU-Net提取結(jié)果準(zhǔn)確度提高了,但仍然存在邊界不夠明晰且存在誤檢的情況;從圖6(e)列圖像看出,用文中方法提取的圖像邊界更加清晰,建筑物區(qū)域更加完整。通過(guò)視覺(jué)效果可知,相比其他方法存在誤檢以及提取區(qū)域不精細(xì)的情況,筆者提出的方法改善了視覺(jué)效果,同時(shí)評(píng)價(jià)指標(biāo)也得到提高。
為進(jìn)一步驗(yàn)證文中方法的有效性,圖7給出了BANet在不同背景下部分建筑物提取結(jié)果,其中圖7(a)是在背景復(fù)雜、建筑物尺度不一時(shí)的提取結(jié)果;圖7(b)是在背景單一、有建筑物以及一些汽車時(shí)的提取結(jié)果。從圖7可以看出,對(duì)于這兩種情況,筆者提出的方法都可以較好地完成建筑物提取,而且圖7(b)結(jié)果中沒(méi)有出現(xiàn)誤檢汽車為建筑物的情況。但對(duì)于場(chǎng)景復(fù)雜、建筑物極小的情況下(如圖7(a)第2行),仍存在少量的漏檢。綜上所述,從客觀評(píng)價(jià)指標(biāo)和主觀視覺(jué)效果上來(lái)看,筆者提出的方法準(zhǔn)確率有所提升,建筑物提取結(jié)果邊界更加清晰,區(qū)域更加完整。
圖7 BANet在不同背景下部分建筑物提取結(jié)果
針對(duì)目前建筑物提取存在的邊界模糊且提取結(jié)果不準(zhǔn)確,以及建筑物漏檢、地物誤檢的問(wèn)題,筆者提出了不依賴于任何先驗(yàn)條件的基于邊界感知的建筑物提取網(wǎng)絡(luò)。設(shè)計(jì)了交互聚合模塊,提高了特征融合網(wǎng)絡(luò)的多尺度特征融合性能;利用特征增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)漏檢目標(biāo)的特征,以提高預(yù)測(cè)結(jié)果的準(zhǔn)確性;采用特征細(xì)化網(wǎng)絡(luò),對(duì)特征增強(qiáng)后的結(jié)果做進(jìn)一步的邊界細(xì)化和區(qū)域精確;最后為了加快模型收斂且更好地學(xué)習(xí)邊界信息,給出將二值交叉熵?fù)p失和結(jié)構(gòu)相似性損失相結(jié)合的損失函數(shù)。筆者設(shè)計(jì)的網(wǎng)絡(luò)提高了建筑物提取的魯棒性和準(zhǔn)確率,得到了邊界更清晰、區(qū)域更完整的結(jié)果。在此建筑物提取的基礎(chǔ)上,可以進(jìn)行諸如建筑物變化檢測(cè)等相關(guān)行業(yè)應(yīng)用,以方便對(duì)土地資源進(jìn)行有效的管理。另外,該網(wǎng)絡(luò)可延伸到類似的圖像檢測(cè)與二值分割方面,如應(yīng)用到其他地物提取等。