林曉萍
(1.福建省基礎地理信息中心,福建 福州 350003)
耕地是我國非常寶貴的資源,一些地方農(nóng)村未經(jīng)批準違法亂占耕地建房,已威脅到國家糧食安全[1],因此有必要對亂占、多占耕地建房的違法行為進行有效監(jiān)測,為耕地保護日常執(zhí)法監(jiān)管提供技術支撐和信息化服務。遙感影像可直觀反映地物的分布和信息,具有多傳感器、多時相、多分辨率等特點,已成為人類了解自身活動對地球環(huán)境影響的重要信息來源[2-3]。近年來,我國衛(wèi)星遙感技術發(fā)展迅速,國產(chǎn)衛(wèi)星遙感影像種類和數(shù)量更加豐富,為我國自然資源變化動態(tài)監(jiān)測提供了極大便利。
為了更好地滿足自然資源管理業(yè)務需求,福建省采用衛(wèi)星遙感監(jiān)測技術開展了農(nóng)村亂占耕地建房動態(tài)監(jiān)測工作。截至目前,該項工作仍主要采用傳統(tǒng)的目視解譯方法,通過人工逐屏判讀前后時相影像發(fā)現(xiàn)變化的區(qū)域,工作效率低,已無法滿足監(jiān)測需求。因此,亟需采用先進的遙感影像自動分類方法實現(xiàn)變化圖斑的快速監(jiān)測。近年來,深度學習技術發(fā)展迅猛,已成功應用于圖像識別和大數(shù)據(jù)分析等領域,并逐漸引入遙感領域[4]。目前,深度學習技術在遙感領域大多還處于理論與算法研究階段,在實際工程項目中的應用較少。本文針對福建省亂占耕地建房監(jiān)測的迫切需求,嘗試利用深度學習技術進行應用探索,以期減少監(jiān)測過程中人力投入、提高監(jiān)測工作效率。
深度學習技術是指計算機根據(jù)一套通用規(guī)則自動學習數(shù)據(jù)從輸入到輸出的最優(yōu)特征表示的方法。其核心思想是以數(shù)據(jù)模型為驅動,通過設定多層網(wǎng)絡、每層網(wǎng)絡的參數(shù)(隨機初始化)、迭代規(guī)則等,使計算機自動學習并提取輸入數(shù)據(jù)中高維、抽象和特定語義特征,進而實現(xiàn)信息智能化提取和知識挖掘[5-7]。目前,深度學習技術在遙感領域的應用日漸廣泛,已逐漸引入遙感圖像分類、識別和目標檢測等任務中[8],如劉大偉[9]等針對高空間分辨率遙感影像的分類問題,提出了基于深度學習的分類方法;曲景影[10]等提出了一種基于卷積神經(jīng)網(wǎng)絡(CNN)的光學高分辨率遙感圖像目標識別方法;陳洋[11]等提出了基于深度學習的資源三號衛(wèi)星遙感影像的云檢測方法。
本文將CNN作為深度學習技術的核心算法。CNN是一種前饋神經(jīng)網(wǎng)絡,其低隱含層由卷積層、池化層交替組成,高層通常為全連接層,作為分類器使用。CNN模型結構如圖1所示[12]。CNN通過梯度下降法最小化損失函數(shù)訓練網(wǎng)絡,對相關的權重參數(shù)進行逐層反向調節(jié),經(jīng)過多次迭代訓練后的模型能充分挖掘遙感影像的特征,最終完成分類[13]。
圖1 CNN模型結構圖
深度學習技術的實現(xiàn)包括樣本準備和模型訓練 兩個部分,其中樣本準備是深度學習技術得以有效運行的關鍵環(huán)節(jié),標記了需要計算機自動識別的遙感影像樣本,使計算機不斷學習樣本數(shù)據(jù)特征,最終達到計算機智能解譯的效果,提供的訓練樣本數(shù)據(jù)越多、質量越高,結果就越好[14];模型訓練是采用自動挖掘樣本數(shù)據(jù)特征的方式學習樣本語義,通過對訓練和應用中的效果分析,有針對性地調整參數(shù)、不斷迭代優(yōu)化,以獲得最優(yōu)模型的過程。
本文將前時相影像沒有房屋特征,后時相影像有明顯房屋特征(高層建筑、低矮房屋等)的區(qū)域作為樣本標注對象,標注樣本時盡量覆蓋監(jiān)測采用的衛(wèi)星影像星源。樣本標注采用的衛(wèi)星影像星源包括資源 三號(ZY-3)、資源一號02C、高分一號(GF-1)、高分二號(GF-2)、高分六號(GF-6)、高分七號(GF-7)、 高景一號(GJ-1)和吉林一號(JL-1),分辨率為0.5~2.1 m。樣本標注時,將前后時相影像進行套合,通過目視判讀標記出變化區(qū)域;然后按照指定尺寸(512像素×512像素)批量制作影像樣本(圖2),共制作21 207組樣本。
圖2 不同星源樣本示例
模型訓練采用Tensorflow+Keras機器學習框架,訓練硬件內存為512 GB,處理器為Intel Xeon Gold 5220@2.20GHz,顯卡為Tesla T4 16GB。將樣本數(shù)據(jù)集中的15 582組數(shù)據(jù)作為訓練樣本,5 625組數(shù)據(jù)作為驗證樣本,設置輸入尺寸為384,批大小為16,迭代輪數(shù)為100,初始學習率為0.001?;跍蕚浜玫臉颖緮?shù)據(jù)集進行模型訓練,并根據(jù)訓練結果進行參數(shù)和權重調整;通過迭代訓練實現(xiàn)模型的優(yōu)化,使模型達到穩(wěn)定有效的狀態(tài)。深度學習模型訓練流程如圖3所示,首先將樣本數(shù)據(jù)輸入模型,模型將自動學習分批次導入的訓練集樣本特征,并根據(jù)特征信息更新模型的相關參數(shù);在樣本訓練一個完整輪次后,驗證集樣本將對模型進行精度驗證,樣本影像的預測數(shù)據(jù)與樣本標簽會產(chǎn)生一定規(guī)則的差值,即損失函數(shù);若驗證樣本的預測精度不滿足要求,模型則根據(jù)損失函數(shù)的反饋變化情況來調整模型參數(shù),進行迭代訓練,直至滿足要求停止訓練。
圖3 模型訓練流程圖
本文構建的是基于語義分割網(wǎng)絡的新增建房檢測模型。平均交并比(MIoU)是深度學習語義分割領域常用的評價指標之一,因此在訓練階段本文選擇基于像素統(tǒng)計的MIoU作為最優(yōu)模型選擇的依據(jù)。IoU和MIoU的表達式分別為:
式中,i為真實值;j為預測值;pi為真實值像素數(shù)量;pj為預測值像素數(shù)量;pii為預測正確的像素數(shù)量。
式中,k為類別數(shù)量;l為第l類。MIoU的取值范圍為0~1,越接近1,表示模型精度越高。
訓練過程中模型MIoU隨訓練輪次的變化趨勢如圖4所示,可以看出,MIoU隨著訓練輪次的增加逐步提升,訓練100輪次前,MIoU提升較明顯;訓練100~160輪次時,MIoU趨于穩(wěn)定,調整樣本后MIoU又有明顯提升;訓練180輪次后,MIoU曲線再次趨于平穩(wěn)。本次訓練模型在迭代188輪次后MIoU達到最高值0.603 5。
圖4 模型MIoU隨訓練輪次的變化趨勢
本文選取福建省連城縣、永定區(qū)、漳浦縣和涵江區(qū)4個區(qū)縣進行耕地新增建房智能提取應用實驗,其中連城縣和永定區(qū)地處內陸,漳浦縣和涵江區(qū)地處沿海,平均海拔比連城縣和永定區(qū)低。實驗區(qū)域前后時相遙感數(shù)據(jù)來源如表1所示。
表1 實驗區(qū)域前后時相遙感數(shù)據(jù)來源
在亂占耕地建房監(jiān)測業(yè)務應用中,成果是以圖斑為統(tǒng)計單元,因此圖斑統(tǒng)計的召回率和準確率能直接反映模型的應用效果。在應用結果評價時,將人工內業(yè)判讀結合野外核查的結果作為真值圖斑?,F(xiàn)階段預測的目的是檢測出新增建房圖斑并準確定位,因此當預測圖斑與真值圖斑的IoU高于10%時,將預測圖斑歸為正確圖斑,否則歸為錯誤圖斑。圖斑準確率P和召回率R的表達式分別為:
式中,TP為正確預測的圖斑數(shù)量;FP為錯誤預測的圖斑數(shù)量;FN為漏檢的圖斑數(shù)量。
實驗區(qū)域的應用測試結果如表2所示,可以看出,4個區(qū)縣耕地新增建房提取結果的平均召回率為74.5%,且各區(qū)縣召回率較接近,沿海與內陸之間、不同海拔之間無明顯差別,均在70%~80%;但準確率普遍偏低,平均值僅為52.9%。利用現(xiàn)有樣本和模型進行實驗發(fā)現(xiàn),召回率和準確率相互影響,若要進一步提高準確率,則將導致預測圖斑數(shù)量的減少,召回率降低;若要進一步提高召回率,則將導致預測圖斑的增加,準確率降低,后期人工篩查工作量變大。雖然目前耕地新增建房智能提取圖斑無法直接作為實際工程最終成果,但70%以上的召回率、50%左右的準確率可在工程應用中發(fā)揮作用[8],如將智能提取圖斑作為人工目視判讀的基底數(shù)據(jù)或后期質檢的輔助數(shù)據(jù),可在一定程度上減輕人工工作量,彌補少數(shù)目視判讀過程中因主觀條件導致漏檢的不足,從而提高監(jiān)測工作的效率和精度。
表2 不同區(qū)縣模型應用實驗結果
本文結合福建省農(nóng)村亂占耕地建房實際工作需求,基于多源多時相衛(wèi)星遙感影像制作了21 207組新增建房樣本,采用CNN進行深度學習模型訓練,經(jīng)過多輪 迭代,模型MIoU最高值達到0.603 5。利用優(yōu)化后的模型在福建省開展了耕地新增建房提取應用實驗, 實驗區(qū)域的平均召回率為74.5%,準確率為52.9%。 實驗結果表明,基于深度學習的耕地新增建房監(jiān)測技術具備一定的應用潛力,可先利用深度學習技術智能提取耕地新增建房圖斑,再將智能提取圖斑作為人工目視判讀的基底數(shù)據(jù)或后期質檢的輔助數(shù)據(jù),從而提高監(jiān)測工作的效率和精度。
目前研究工作的不足之處在于,所構建的模型存在一定漏檢和誤檢情況,樣本數(shù)據(jù)集尚不足以覆蓋所有場景。今后的工作中將根據(jù)福建省各地區(qū)不同的自然條件,針對更多的典型應用場景補充擴展正例樣本和負例樣本,從而升級完善數(shù)據(jù)集;同時,繼續(xù)優(yōu)化模型算法,以提升模型對困難案例的提取能力。