孫 盛,董曉冬,水文澤、劉立露
(廣東工業(yè)大學計算機學院,廣東 廣州 510000)
土地利用/土地覆蓋(land use/land cover)為地表系統(tǒng)最直接的景觀標志[1]。土地利用[2]研究一直是全球變化研究中的重要問題。通過土地利用分類,不僅可以了解各種土地類型的基本屬性,并且可以作為對土地利用的分布結構、區(qū)域特征研究的基礎。土地利用在國家、地區(qū)以及全球范圍內(nèi)關于經(jīng)濟、人口、環(huán)境問題等方面為政策的建立提供了重要的依據(jù)。
地表的最早描述采用土地利用分類系統(tǒng)和植被分類系統(tǒng)實現(xiàn), 隨著科技的不斷發(fā)展,遙感技術[3]成為獲取地表地物屬性的主要方法。由于遙感技術具有探測范圍廣、采集數(shù)據(jù)快、獲取信息手段多、信息量大等優(yōu)點,現(xiàn)已被廣泛應用于土地利用分類中[4]。當前土地分類研究中所用到數(shù)據(jù)源多光學遙感數(shù)據(jù),通過利用地物在遙感影像上的光譜、形狀、 紋理等信息的差別進行土地利用分類。由于中國 南方快速城市化地區(qū)常年多云雨的天氣,增加了有效光學影像獲取的難度,使得單一的光學遙感數(shù)據(jù)源很難滿足城市土地利用信息提取以及變化研究的需求[5]。對于該情況,使用合成孔徑雷達 (Synthetic Aperture Radar,SAR)成為目前較好的解決方法之一。合成孔徑雷達不受外界天氣因素的影響,可全天時、全天候不間斷工作,獲取云覆蓋下的圖像信息,獲取的圖像具有較好的紋理信息,可以彌補光學信息的不足[6]。根據(jù)國內(nèi)外近期相關研究,張臘梅[7]等提出基于3D卷積神經(jīng)網(wǎng)絡的PolSAR圖像地物精細分類方法,將傳統(tǒng)卷積神經(jīng)網(wǎng)絡擴展為三維并將其應用于PolSAR圖像分類中,張月[8]等提出了一種基于一致相似度網(wǎng)絡融合的極化SAR圖像非監(jiān)督地物分類方法,茍水萍[9]等提出了一種基于稀疏表示的海岸帶土地利用類型分類方法,Carolyne Danilla[10]等將卷積神經(jīng)網(wǎng)絡(CNN)與馬爾可夫隨機場(MRF)結合用于分析多時相系列的Sentinel-1圖像,對荷蘭弗萊福蘭的農(nóng)田進行了分類提取。
深度學習模型靈感來源于人類腦部結構[11],依靠多個神經(jīng)元的聯(lián)結,對輸入數(shù)據(jù)進行底層到高層的逐 層抽象特征,從而可以在圖像、文本和語音等領域展現(xiàn)其強大的能力,并轉(zhuǎn)而被用于更多領域。深度神經(jīng)網(wǎng)絡依靠其強大的學習能力和泛化能力,逐漸替代了其它機器學習手段,成為了該領域最主要的技術并被越來越多的學者涉足和應用?,F(xiàn)有的深度學習模型已經(jīng)有了很多,但這些模型的基本框架主要有深度置信神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡和自編碼器等,其中在圖像處理領域應用最廣泛的就是卷積神經(jīng)網(wǎng)絡[12]。本文使用改進于卷積神經(jīng)網(wǎng)絡的深度模型Segnet,對SAR圖像進行土地利用分類。根據(jù)文獻[13],并且結合SAR圖像特性,把研究域內(nèi)土地分為包括水域、林地、建筑、草地、耕地、裸地、公路七個類別進行分類和研究。
卷積神經(jīng)網(wǎng)絡是一類包含卷積計算且具有深度結構的前饋神經(jīng)網(wǎng)絡,是深度學習的代表算法之一。卷積神經(jīng)網(wǎng)絡是一種多層神經(jīng)網(wǎng)絡,擅長處理圖像相關的機器學習問題。近些年,針對 CNN具有避免圖像的復雜前期預處理的優(yōu)勢,該網(wǎng)絡被廣泛應用于圖像的模式分類領域。其基本架構如圖1所示。
圖1 卷積神經(jīng)網(wǎng)絡
經(jīng)典的CNN一般包括卷積層、池化層、全連接層和分類器在卷積層中,其目的是對圖像進行特征提取。 即通過對上一層輸出的特征圖進行卷積,并在加入偏置后通過一個激活函數(shù)激活,得到當前層的輸出 特征圖,即得到當前層對應特征情況,如式1所示
(1)
其中,x表示特征圖,Mj表示輸入特征圖的集合,k為卷積核,b為偏置,l是層序號,i是卷積核序號,j是特征圖通道序號。對于池化層而言,該層 設置的目的是對圖像進行下采樣處理,而經(jīng)典的池 化方法包括:最大池化、均值池化等。在全連接層 中可將上一層得到的特征圖進行按順序排列,得到 1維向量,對其進行典型神經(jīng)網(wǎng)絡連接。最后,對于不同神經(jīng)元的輸出進行分類器分類,一般采用 softmax或支持向量機(Support Vector Machine, SVM)分類器,得到分類標簽。
Segnet[14]是Cambridge的Vijay Badrinarayanan提出的圖像語義分割深度網(wǎng)絡,是一種基于語義的圖像分割模型。該模型具有空間資源占用少,訓練參數(shù)較少,訓練速度較快的優(yōu)點,同時對圖像分割結果有相對明顯的提升。該模型是一種端到端的對稱結構,包含編碼,解碼兩個部分。Segnet基于卷積神經(jīng)網(wǎng)絡,是通過修改VGG-16網(wǎng)絡得到的語義分割網(wǎng)絡??梢栽谄浠A上進行修改,使得網(wǎng)絡能夠適應SAR圖像,從而使用Segnet進行SAR圖像的分類。Segnet具有編碼器網(wǎng)絡和相應的解碼器網(wǎng)絡,以及進行最終像素分類的分類層。在編碼器處,執(zhí)行卷積和最大池化。在解碼器處,使用最大池化的索引進行上采樣和卷積。最后,每個像素送到softmax分類器,使用K類softmax分類器來預測每個像素的類別。Segnet與FCN[15](Fully Convolutional Networks)思路相似,不同處主要為編碼部分和解碼部分使用的技術不一致。編碼過程中,通過卷積提取特征,該網(wǎng)絡使用的卷積為same卷積(卷積后保持圖像原尺寸)。在解碼過程中,同樣使用same卷積,此時卷積的作用是豐富因上采樣而變大圖像的信息,使得在池化過程丟失的信息可以通過學習在解碼過程中得到。在Segnet中池化層多了一個池化索引功能(每次池化,都會保存濾波器選出的權值的位置),此功能可以有效地減少學習所需的參數(shù),提高學習速度。在上采樣過程中,池化層而丟失的權值是無法復原的,此時使用index信息,將剩余權值恢復到池化之前的位置,減少了學習的過程,是Segnet相對于FNC有明顯提升的原因。圖3中,左半部分的網(wǎng)絡結構為編碼器部分,通過卷積提取特征,通過池化層增大感受野,同時圖片變小。右邊是解碼器部分,通過反卷積使得圖像分類后特征得以重現(xiàn),上采樣還原到圖像原始尺寸。最后通過softmax,輸出不同分類的最大值,得到最終分割圖。
本文中使用的數(shù)據(jù)是TerraSAR-X衛(wèi)星拍攝的3米分辨率的HH單極化數(shù)據(jù),拍攝時間為2018年3月23日22時31分。衛(wèi)星數(shù)據(jù)覆蓋區(qū)域為珠江三角洲入???廣州市南沙區(qū)),如圖2所示。地球探測衛(wèi)星TerraSAR-X是由德國發(fā)射的首顆多用途偵察衛(wèi)星,于2007年6月15日發(fā)射。該衛(wèi)星采用太陽同步軌道,其軌道高度約514公里,傾角97.4度,重訪周期為11天,是目前世界上探測精度較高的衛(wèi)星之一[16]。SAR衛(wèi)星運行不依賴氣象條件,云層覆蓋和光照度,不會應為天氣原因?qū)е聼o法獲得衛(wèi)星數(shù)據(jù),因此對于華南地區(qū)多云多雨的天氣有較好的適應效果。
圖2 Segnet網(wǎng)絡結構
圖2 研究區(qū)域范圍
SAR圖像中會有部分與圖像內(nèi)容無關的斑點,這是由于雷達目標回波信號的衰落現(xiàn)象引起的。表現(xiàn)在圖像上,就產(chǎn)生了不可避免的斑點噪聲現(xiàn)象。噪聲會對SAR圖像的質(zhì)量產(chǎn)生影響,因此在處理數(shù)據(jù)之前,進行濾波,降低噪聲是必要的工作。本文對原始SAR圖像進行Gamma濾波算法處理,從而達到對原始圖像進行降噪的目的。Gamma MAP濾波是一種幾何濾波法,把圖像的平面坐標加上灰度值考慮為一種三維模型,用形態(tài)學的方法去除噪聲,這種濾波器的邊緣保持能力較好。如下式2為Gamma MAP濾波的方法
(2)
SAR系統(tǒng)觀測到的是電磁波入射地球表面后反射(后向散射)的雷達脈沖的強度和相位信息。這個信息編碼到雷達坐標系統(tǒng)下,即斜距坐標系,被記錄下來。實驗中,需要將SAR數(shù)據(jù)從斜距坐標系轉(zhuǎn)到地理坐標系,即SAR數(shù)據(jù)的地理編碼。同時,TerraSAR-X衛(wèi)星的原始數(shù)據(jù)圖像為左右倒置,在實驗和應用中會產(chǎn)生標注鏡像問題,故對SAR數(shù)據(jù)進行地理編碼是必要的。本研究中采用WGS-84地理坐標系。WGS-84坐標系(World Geodetic System)是一種國際上采用的地心坐標系。坐標原點為地球質(zhì)心,其地心空間直角坐標系的Z軸指向協(xié)議地極方向,X軸指向協(xié)議子午面和CTP赤道的交點,Y軸與Z軸、X軸垂直構成右手坐標系,稱為1984年世界大地坐標系,是一個國際協(xié)議地球參考系統(tǒng)。
數(shù)據(jù)增強深度學習中普遍用到的一種數(shù)據(jù)處理方法。通過數(shù)據(jù)增強,增加訓練樣本的數(shù)據(jù)量,提高模型的泛化能力。尤其在樣本數(shù)據(jù)不是足夠充分的條件下,使用數(shù)據(jù)增強的方法能對訓練結果產(chǎn)生提升。本研究中,使用了翻轉(zhuǎn),平移,縮放的方法進行數(shù)據(jù)增強,使得原始樣本由180個增加到1480個,擴充了較充分的數(shù)據(jù)。
為防止出現(xiàn)過擬合現(xiàn)象,Segnet模型訓練20個Epoch。圖3表明訓練集精度和驗證集精度在第12Epoch之前呈增長趨勢,同時損失函數(shù)值呈下降趨勢。但在第12至20個Epoch中,訓練集損失函數(shù)、精度,驗證集損失函數(shù)、精度,分別出現(xiàn)不同程度的波動。其中驗證集損失函數(shù)的波動較大。是由于在此階段出現(xiàn)過擬合現(xiàn)象,故應選用前12個Epoch中驗證集精度最高的輪數(shù)時的模型。綜合以上,實驗選取第11個Epoch的訓練模型作為最終結果。
圖3 訓練過程損失函數(shù)及精度變化圖
使用該模型對廣州市南沙區(qū)的TerraSAR影像進行土地利用分類,分類結果與原始圖像和Ground-Truth對比如圖4所示,其中a1,b1為選取的兩個場景樣例的圖像,a2,b2為兩個所選取場景的Ground Truth圖像,a3,b3為使用本文方法所得的圖像分類結果。
圖4 原始圖像、GroundTruth、分類結果對比圖
使用Segnet的分類結果中各種地物區(qū)分較為完整,由于模型采用深度網(wǎng)絡,在淺層的學習中提取到圖像局部特征,在深層的學習中提取到全局特征,因而模型可以學習到充分的地物特征信息。模型對同一類地物的分割很少產(chǎn)生割裂的現(xiàn)象,錯分現(xiàn)象也較少。但也存在少部分區(qū)域分割效果不好的情況,如圖4中b區(qū)域右上方公路部分產(chǎn)生斷裂以及類型錯分的情況。同時由于SAR圖像固有的噪聲問題,也使得圖像中分類結果會有部分斑點存在。
由于本文分類方法結合了SAR圖像特征提取和Segnet深度神經(jīng)網(wǎng)絡,因此在分割結果中很好地分出不同地物類型之間的邊界,同時能夠得到較高的分類準確性,實驗分類的總體精度和Kappa系數(shù)可以證明此結論。
Kappa系數(shù)用于一致性檢驗與衡量分類精度,Kappa系數(shù)是基于混淆矩陣的。
注:總體精度Overall Accuracy:0.791,Kappa系數(shù):0.721
在混淆矩陣中,使用某一類別正確分類的樣本個數(shù)除以該類的真實樣本個數(shù)可得該類地物的分類精度。由圖5混淆矩陣結合精度計算公式得出:對于水域,林地,建筑,本文所使用的方法分別有96%,96%,85%的分類精確度。本文方法對比其它深度學習方法與傳統(tǒng)方法:使用基于VGG16的深度網(wǎng)絡分類方法,水域、林地、建筑的分類精度分別為89%、83%、70%;使用基于Resnet的深度網(wǎng)絡分類方法,水域、林地、建筑的分類精度分別為93%、89%、87%;使用Mahalanobis Distance分類方法水域、林地、建筑的分類精度分別為57%、49%、31%;使用Minimum Distance分類方法,三類精度分別為55%、28%、29%。比較可知,本文方法相較傳統(tǒng)方法,分類精度有較大提高,同時相對深度學習的其它方法,在水域、林地的分類精度上也有一定程度的提升。
圖5 分類結果混淆矩陣
使用Segnet模型對TerraSAR影像中的水域、林地的分類精度最高,一方面由于水體、林地的散射特性較其它地物類型有較大區(qū)別,另一方面說明使用Segnet模型對該兩類地物特征提取較好,區(qū)分顯著。建筑區(qū)域在研究中,范圍較廣,區(qū)分效果較好,但有部分被錯分為林地。對于耕地區(qū)域,分類精度有略微下降,分析原因有耕地區(qū)域耕種作物類型多,散射特性不一致,并受季節(jié)影響較大,是導致該類精度有所下降的原因。公路分類精度相對較低,是由于公路在圖像中像素占有率低,而使用影像的分辨率又較低,導致素點較少,從而使得三類地物在圖像上的特征學習程度較低,導致對公路分類的結果精度也相對低??偨Y上述結果,在研究區(qū)域地物分類中,使用本文方法,將地物分為7中不同類別,對多數(shù)地物可以做到70%以上的精確度,但在道路這樣的像素占有率較低的地物類別的分類結果還有待提高。
本文將廣州市南沙區(qū)作為案例,研究該地區(qū)地物分類的方法。研究中以 TerraSAR-X HH極化影像為數(shù)據(jù)源,采用Gamma MAP濾波、地理定標、數(shù)據(jù)增強的方法減少圖像噪聲、校正圖像地理定位、增加數(shù)據(jù)量。訓練Segnet深度網(wǎng)絡模型,再對圖像進行分類預測,從而得到地物類型分類結果。水域、林地、建筑、草地、耕地、裸地均有高準確率的結果,其中水域、林地的分類結果最好。
值得注意的是,本方法對公路等一些地物類型的分類結果存在一定偏差,在SAR圖像固有的噪聲在分類結果上會有少量斑點的問題。因此在今后的研究中,會考慮使用不同的SAR圖像結合極化分解的方法進行分類,并且使用不同的深度網(wǎng)絡來進行訓練,以提高對不同圖像和地理區(qū)域的SAR圖像分類效果。