梁哲,寧曉剛,張翰超,王浩
(1.遼寧工程技術(shù)大學(xué) 測繪與地理科學(xué)學(xué)院,遼寧 阜新 123000;2.中國測繪科學(xué)研究院,北京 100036)
隨著經(jīng)濟的迅速發(fā)展,城鎮(zhèn)化的趨勢不可避免,新增建設(shè)用地占用優(yōu)質(zhì)耕地情況越來越嚴重。為加強土地利用管理,自然資源部門實施土地變更調(diào)查監(jiān)測與核查工作,以把控土地利用情況。為了保護好耕地資源,我國制定了“堅持世界上最嚴格的土地管理,特別是農(nóng)用地保護制度”的基本戰(zhàn)略[1]。為了準確地把控土地利用情況,我國在第二次全國土地調(diào)查的基礎(chǔ)上,開展了年度土地利用變更調(diào)查監(jiān)測工作[1]。當前,正在開展第三次全國國土調(diào)查工作。高分辨率遙感影像是新增建設(shè)用地信息提取的重要的數(shù)據(jù)源之一。目前自然資源部門主要利用高分辨率遙感影像,采用人工目視解譯的方法提取新增建設(shè)用地[2]。隨著衛(wèi)星載荷的增加和影像分辨率的不斷提高,大面積城區(qū)建設(shè)用地變化信息提取所需處理的數(shù)據(jù)量急劇增加。成本高、效率低的傳統(tǒng)人工調(diào)查的方法已難以滿足當前形勢的需求。因此,利用人工智能算法快速、準確地提取新增建設(shè)用地,對于及時準確掌握全國的新增建設(shè)用地信息,輔助國土調(diào)查、年度土地利用變更調(diào)查工作具有重要的意義。
隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)[3]已經(jīng)在人臉識別、語義分割、目標檢測等多方面的領(lǐng)域中取得了巨大的成果,在新增建設(shè)用地提取方面也有著巨大的潛力。傳統(tǒng)的深度卷積分類網(wǎng)絡(luò)如 AlexNet[4]和 VGGNet通常包含全連接層。全連接層要求圖像的輸入大小是固定的,而這些網(wǎng)絡(luò)存在存儲開銷大、計算效率過低,以及感知區(qū)域大小受限等缺陷。針對以上問題,Long等[5]提出了全卷積神經(jīng)網(wǎng)絡(luò)(fully convolution networks,F(xiàn)CN)。該方法是語義分割的開山之作,與上面的2種方法相比,采用了小卷積核的方式提升了處理速度。但該方法做語義分割仍然不夠精細,其輸出的低分辨率圖像犧牲了定位精度,只是對像素進行獨立的分類,并未充分考慮空間一致性的問題。Ronneberger等[6]提出的 U-net是針對 FCN進行的改進,是一種編碼解碼的結(jié)構(gòu)方式,利用淺層網(wǎng)絡(luò)來解決像素定位精度的問題,利用深層網(wǎng)絡(luò)以及各個特征的映射方法來解決空間一致性的問題,是目前推廣較好的全卷積網(wǎng)絡(luò)。然而,針對新增建設(shè)用地提取的U-net網(wǎng)絡(luò)的特征表達能力仍不強,易出現(xiàn)過擬合的情況,導(dǎo)致網(wǎng)絡(luò)泛化性較低,無法精確提取建設(shè)用地的變化信息。
為解決現(xiàn)階段全卷積神經(jīng)網(wǎng)絡(luò)對新增建設(shè)用地信息提取的方法中特征表達能力不強、容易出現(xiàn)過擬合的問題,本研究基于U-net網(wǎng)絡(luò)結(jié)構(gòu),加入了新型的激活函數(shù)、批標準化以及退化學(xué)習(xí)率的方法,以防止U-net存在過擬合的問題,從而提升本研究網(wǎng)絡(luò)的泛化性。加入空洞卷積,通過擴大感受野以感受更多的地物信息,提取更詳細的地物特征。通過與傳統(tǒng)FCN以及U-net網(wǎng)絡(luò)方法進行比較,驗證本文方法在新增建設(shè)用地提取中的可行性。
擴張卷積(dilated convolutions)又名空洞卷積[7](atrous convolutions)。向卷積層引入了一個稱為 “擴張率(dilation rate)”的新參數(shù),該參數(shù)定義了卷積核處理數(shù)據(jù)時各值的間距。擴張卷積可以以指數(shù)的速度擴大感受野,且不會降低特征的分辨率和大小。擴展卷積感受野指數(shù)級計算,如式(1)所示。
F(I+1)=(2(I+2)-1)2
(1)
式中:F為感受野指數(shù)級;I為圖像的高寬(只考慮等寬高的圖像)。
傳統(tǒng)的下采樣層可以非常有效地縮小參數(shù)矩陣的尺寸,從而減少最后全連層中的參數(shù)數(shù)量。使用池化層既可以加快計算速度又有防止過擬合的作用,但是感受野的縮小,導(dǎo)致神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征減少,或者一些特征丟失導(dǎo)致無法還原,從而引起空間的不一致性、分割精度不高等問題。利用空洞卷積層,降低池化層的影響,減少圖像信息的丟失[8],既可以保證空間分率等優(yōu)勢,又可以擴大感受野,使得神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到更多的特征。
Swish函數(shù)[9]是一種更優(yōu)于Relu函數(shù)的激活函數(shù),為Relu函數(shù)的一個變種公式,即在Relu函數(shù)中乘以一個縮放參數(shù)β,如式(2)所示。
f(x)
(2)
式中:β為變量x的縮放參數(shù),一般情況下縮放參數(shù)的取值為1,但是在BN算法下,還需要對x的縮放值β進行調(diào)節(jié)。當β=0時,Swish函數(shù)變?yōu)榫€性函數(shù),表達式如式(3)所示。
f(x)=2xf(x)=2x
(3)
式中:當β→∞時,σ(x)=0或1,則此時的Swish函數(shù)即為Relu函數(shù)。因此,Swish函數(shù)是介于Relu函數(shù)與線性函數(shù)之間的平滑函數(shù)。
學(xué)習(xí)率是深度學(xué)習(xí)中的一個重要的超參數(shù),決定著目標函數(shù)能否收斂到局部最小值,以及何時收斂到最小值。合適的學(xué)習(xí)率能夠使目標函數(shù)在合適的時間內(nèi),收斂到局部最小值。如何調(diào)整學(xué)習(xí)率是訓(xùn)練出好模型的關(guān)鍵要素之一。在通過隨機梯度下降求解問題的極小值時,需要找到合適的梯度。
1)學(xué)習(xí)率的值過大,容易出現(xiàn)梯度爆炸的現(xiàn)象,即在梯度下降過程中極值點發(fā)散,或者呈現(xiàn)類似于周期函數(shù)的震蕩形式,產(chǎn)生梯度爆炸的情況。
2)學(xué)習(xí)率的值過小,會導(dǎo)致無法快速地找到好的下降方向,即在一個鞍點“徘徊”無法找到最優(yōu)解,隨著迭代次數(shù)增大損失基本不變。
針對以上情況,本文采用退化學(xué)習(xí)率的方式來進行學(xué)習(xí)率的設(shè)置。退化學(xué)習(xí)率又稱衰減學(xué)習(xí)率,其原理為:在初始訓(xùn)練時,利用大的學(xué)習(xí)率來加速網(wǎng)絡(luò)模型的訓(xùn)練,在之后的訓(xùn)練中不斷減小學(xué)習(xí)率以尋求最優(yōu)解,提高分類精度。公式如式(4)所示。
(4)
式中:LR為原始設(shè)定的學(xué)習(xí)率;DR為衰減速率;GS為循環(huán)次數(shù);DS為衰減間隔次數(shù)。此種方法既加快網(wǎng)絡(luò)模型的收斂速度,又防止了過擬合情況的發(fā)生,提高了分類的精度。
本實驗使用的數(shù)據(jù)均來自于土地利用變更調(diào)查成果數(shù)據(jù),及高分辨遙感影像數(shù)據(jù),分別為2015年與2017年遼寧、山西某地遙感衛(wèi)星數(shù)據(jù)。數(shù)據(jù)源為高分二號衛(wèi)星,波段數(shù)為3,地面分辨率為1 m。部分新增建設(shè)用地信息標注圖如圖1所示。
圖1 新增建設(shè)用地標注結(jié)果
新增建設(shè)用地標注樣本主要包含新增房屋建筑樣本、新增道路樣本、動土樣本、新增橋梁樣本、新增立交橋樣本、新增光伏用地樣本。本文將所有樣本的類別統(tǒng)一劃分為新增建設(shè)用地樣本,使用的標簽均采用土地利用動態(tài)監(jiān)測人工標注的數(shù)據(jù)。新增建設(shè)用地,即為規(guī)劃期間農(nóng)用地轉(zhuǎn)化為建設(shè)用地,主要是在規(guī)劃期間前時相地類為農(nóng)用地,后時相地類變化為建設(shè)用地。
在構(gòu)建新增建設(shè)用地分類體系時,將新增建設(shè)用地信息提取的類別共分為2類:一類是變化區(qū)域;一類是未變化區(qū)域,即為二分類。將標簽二值化后,分為白色與黑色,白色為變化區(qū)域,黑色為未變化區(qū)域。
本數(shù)據(jù)采用多張遼寧省、山西省城鎮(zhèn)數(shù)據(jù),將原始影像裁剪挑選出新增建設(shè)用地數(shù)據(jù),標注圖像與原始影像的大小一致,并且一一對應(yīng)。在訓(xùn)練初期,將影像調(diào)整大小為512像素×512像素,降低計算機內(nèi)存的使用。實驗數(shù)據(jù)將一整張影像進行裁剪,數(shù)據(jù)的數(shù)量有一定的局限性。原數(shù)據(jù)集中含有4 328張影像,隨機選取數(shù)據(jù)按照大于9∶1的比例作為訓(xùn)練數(shù)據(jù)集與測試數(shù)據(jù)集。為防止因缺少數(shù)據(jù)帶來的欠擬合的情況,將訓(xùn)練數(shù)據(jù)集進行了平移、旋轉(zhuǎn)等[10]操作,以進行數(shù)據(jù)集的擴增,形成新的數(shù)據(jù)集。新數(shù)據(jù)集中含有5 394張影像。按照該比例選取訓(xùn)練數(shù)據(jù)集以及測試數(shù)據(jù)集,超過了總體樣本的10%[11-12],符合樣本選擇比例的要求。擴張數(shù)據(jù)集如圖2所示。
圖2 新增建設(shè)用擴張數(shù)據(jù)集
本研究設(shè)計的新增建設(shè)用地提取方法技術(shù)流程如圖 3所示。
圖3 技術(shù)流程圖
利用深度學(xué)習(xí)的方法做監(jiān)督分類,首先要利用帶有人工標注的數(shù)據(jù)集進行訓(xùn)練;其次針對新增建設(shè)用地,對網(wǎng)絡(luò)模型進行設(shè)計,其中包括對地物特征的提取和反卷積的映射,加入了空洞卷積使其感受野增大,并通過從下到上的上采樣的計算,得出原始影像中每個像素所述類別的概率;最后利用真實值與預(yù)測值的圖像進行對比分析,最終得出新增建設(shè)用地提取結(jié)果。
本研究是受到U-net網(wǎng)絡(luò)結(jié)構(gòu)的啟發(fā)設(shè)計的。在高分辨遙感影像語義分割中,需要處理更多的細節(jié)問題,因此本研究參照全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)形式構(gòu)建新的網(wǎng)絡(luò)模型,實現(xiàn)了精確的像素級別信息提取的同時,提升了擬合速度。
本研究在上采樣的過程中加入了擴張卷積,將Relu函數(shù)替換為Swish函數(shù),并且定義了退化學(xué)習(xí)率的算法。通常池化帶來的信息損失導(dǎo)致部分細節(jié)顯示的不夠清晰,并導(dǎo)致位置信息的缺失。為保證原始影像特征的完整性,在上采樣的過程中利用擴張卷積的操作,在保證計算參數(shù)不變的情況下,擴大感受野增加特征信息的讀取。與傳統(tǒng)的全卷積神經(jīng)網(wǎng)絡(luò)相比,本研究采用的是最大池化層,并且將大的卷積核替換為3個3×3的卷積核以加快網(wǎng)絡(luò)模型訓(xùn)練速度。激活函數(shù)采用的是Swish函數(shù),開始的學(xué)習(xí)率為0.1,隨著迭代次數(shù)的增加,每迭代6 000次學(xué)習(xí)率衰減0.9,最大迭代次數(shù)為50 001次,批次的大小設(shè)置為10。由于采用的是影像疊加,原始的網(wǎng)絡(luò)適用于普通的3波段影像輸入,經(jīng)過影像疊加處理后的影像波段數(shù)為6,輸入通道數(shù)參數(shù)并不適合輸入。為了防止過大的通道數(shù)對新增建設(shè)用地提取產(chǎn)生冗余,以及過小的通道數(shù)容易出現(xiàn)特征表達能力不足的情況,對其進行參數(shù)調(diào)整。因為沒有類似于該任務(wù)的網(wǎng)絡(luò)模型,因此網(wǎng)絡(luò)的初始權(quán)重由隨機初始化得到。
卷積的過程中,卷積核的尺寸選為3×3,步長為2,不填充。擴張卷積的過程中采用3×3大小的卷積核,步長為1,不填充。池化的過程中采用的是最大池化,過濾器尺寸為2×2,步長為2。在卷積池化等一系列過程后,加入了批標準化層,一定程度上可以防止過擬合,提高提取結(jié)果的精度,結(jié)構(gòu)如圖4所示。
圖4 網(wǎng)絡(luò)結(jié)構(gòu)示意圖
損失函數(shù)使用交叉熵來定義,計算如式(5)所示。
(5)
式中:y代表真實值分類0或1;a代表預(yù)測值;Loss為損失值,其值越小表示越精確,反之其值越大表示損失得越大。
混淆矩陣[13]是最成熟,也是最常用的變化檢測精度評價指標,描述了數(shù)據(jù)的真實值與預(yù)測值之間的關(guān)系。采用混淆矩陣計算出精確率、召回率、F1值、總體精度及Kappa系數(shù)等指標,對新增建設(shè)用地提取結(jié)果進行精度評價(表1)。F1值同時兼顧了精確率與召回率的平衡,是2種值的加權(quán)。其值最大為1,代表輸出的結(jié)果很好;最小值為0,代表輸出的值并不好。Kappa系數(shù)在遙感影像分類的精度評定中有著舉足輕重的作用,其取值范圍是(-1,1),實際應(yīng)用的取值范圍是(0,1)。
表1 混淆矩陣
本實驗采用Tensorflow 1.12.0作為開發(fā)框架,計算機硬件配置為Nvidia Titan Xp(12 GB),網(wǎng)絡(luò)訓(xùn)練約14 h,本文創(chuàng)建的數(shù)據(jù)集上的訓(xùn)練準確率為98%。具體精度評價如表2所示。
表2 測試數(shù)據(jù)集不同類別信息提取評價
將3種方法進行對比實驗,從表2中可以得出,本文方法對比FCN網(wǎng)絡(luò)未變化區(qū)域F1值提升0.09,對比U-net網(wǎng)絡(luò)未變化區(qū)域提取精度基本持平。而對于敏感的變化區(qū)域,本文方法對比傳統(tǒng)的FCN變化區(qū)域F1值提高了0.11,對比U-net網(wǎng)絡(luò)變化區(qū)域F1值提高了0.05。本文方法對變化區(qū)域敏感,提取精度比FCN網(wǎng)絡(luò)有著很大提升。根據(jù)Kappa系數(shù)的得分率的規(guī)定,Kappa系數(shù)大于0.8意味著分類效果很好[14],而本文方法Kappa系數(shù)為0.89,表明本文方法可靠、可行。但由于變化檢測正負樣本比例失調(diào),導(dǎo)致變化區(qū)域?qū)W習(xí)泛化性弱,學(xué)習(xí)敏感區(qū)域的能力不強,F(xiàn)1值有待提高。新增建設(shè)用地信息提取結(jié)果如圖5所示。
圖5 新增建設(shè)用地信息提取結(jié)果
從圖5可以看出,對于動土樣本提取的效果,F(xiàn)CN方法提取效果沒有整體性,U-net方法將一些顏色特征變化大的非建設(shè)用地區(qū)域提取為了新增建設(shè)用地。對于建筑用地,F(xiàn)CN方法沒有檢測到上面的房屋,U-net方法與本文提取的效果基本一致。對于光伏用地,F(xiàn)CN方法缺少了下半部分變化的區(qū)域,U-net方法對中間部位的過量識別導(dǎo)致誤提。對于道路樣本,F(xiàn)CN網(wǎng)絡(luò)細節(jié)部位識別不精,U-net方法與本文方法基本一致。
綜上所述,本文提出的網(wǎng)絡(luò)最接近于真實值標簽,而且分割細節(jié)更加完整。本研究也利用了傳統(tǒng)的FCN網(wǎng)絡(luò)進行提取,發(fā)現(xiàn)提取的效果很難令人滿意。而FCN方法采用的大卷積核,使得計算機內(nèi)存容易溢出,訓(xùn)練的效率很低。由于FCN網(wǎng)絡(luò)采用的是VGG-net的網(wǎng)絡(luò)結(jié)構(gòu),導(dǎo)致不能自由地調(diào)整輸出通道的參數(shù),以至于無法增大批次,最終導(dǎo)致網(wǎng)絡(luò)泛化能力不強、精度不高。
使用U-net網(wǎng)絡(luò)進行分割時,由于U-net在上采樣的過程中采用的是卷積的操作,感受野的限制導(dǎo)致出現(xiàn)一些未變化區(qū)域提取為變化區(qū)域的細碎小圖斑。實際上本文提出的網(wǎng)絡(luò)收斂更快,這主要得益于Swish函數(shù)、批標準化以及退化學(xué)習(xí)率的使用。其不僅提升了網(wǎng)絡(luò)擬合的速度、降低權(quán)重的敏感性,而且可以防止過擬合,提高了網(wǎng)絡(luò)模型的泛化能力,因此本研究的網(wǎng)絡(luò)并未設(shè)置 Dropout 層。使用擴張卷積可以使網(wǎng)絡(luò)對一些細節(jié)部位更加敏感,提取得更加準確。相同條件下,加入擴張卷積的網(wǎng)絡(luò)與未加入擴張卷積的網(wǎng)絡(luò)相比,精度有很明顯的提升,空間一致性更加顯著。
本文改進的全卷積神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)了分割與分類的過程一體化,應(yīng)用于端到端的高分辨率遙感影像新增建設(shè)用地信息提取,解決了傳統(tǒng)方法人工成本高等問題。本文采用退化學(xué)習(xí)率、批標準化以及Swish函數(shù),大大降低了過擬合的情況。在上采樣的過程中,使用了空洞卷積的方法,擴大感受野以感受更多的地物信息,提取更詳細的地物特征。實驗結(jié)果表明,對比傳統(tǒng)的FCN網(wǎng)絡(luò),變化區(qū)域F1值提高了0.11;對比U-net網(wǎng)絡(luò),變化區(qū)域F1值提高了0.05。此方法實現(xiàn)了新增建設(shè)用地的自動化提取,在提取精度方面具有較大優(yōu)勢,具有良好的應(yīng)用潛力。
盡管本研究提出的新增建設(shè)用地信息提取方法在二分類的問題上有著顯著的效果,并取得了不錯的性能,但仍然有不足之處。由于變化檢測正負樣本比例失調(diào),導(dǎo)致變化區(qū)域提取精度略低于未變化區(qū)域的提取精度。如何讓神經(jīng)網(wǎng)絡(luò)著重學(xué)習(xí)敏感區(qū)域是下一步工作的重點。