宋廷強,張信耶,李繼旭,范海生,孫媛媛,宗 達,劉童心
1.青島科技大學 信息科學技術學院,山東 青島266000
2.廣州歐比特人工智能研究院,廣東 珠海519080
蔬菜大棚作為重要的農業(yè)設施,可以延長蔬菜供應周期,提高農業(yè)產量。早期通過人工的方法獲取種植分布以及種植面積,這種方法效率低下,可靠性較低?,F(xiàn)代地球觀測設備如衛(wèi)星、無人機每天都會產生大量的遙感數(shù)據(jù)。如何準確、自動化進行遙感解譯(如大棚分布信息),進而輔助政府決策具有重要的研究意義。
遙感影像解譯的準確性依賴于圖像分類技術[1-2]。在過去研究中,針對單時間觀測影像,使用最大似然法(maximum likelihood)、神經網絡、支持向量機(SVM)以及面向對象等分類算法完成城市、道路提取等任務[3-8]。然而,植被、蔬菜大棚等地物受時間變化影響,光譜和紋理會發(fā)生改變。為解決時相問題,研究學者做了大量研究,其中Whitcraft 和Valero 等人根據(jù)物候學知識,構建時序系統(tǒng)用于時間特征的提取[9-10]。Guo借助NDVI(植被指數(shù))構建時間序列進行糧食產量預估[11-12]。雖然這些方法取得不錯的結果,受限于傳統(tǒng)模式識別方法特征設計繁瑣、泛化能力不足[13],如何充分利用時間、空間以及光譜信息提高遙感分類精度仍然面臨挑戰(zhàn)。
近年來,深度學習快速發(fā)展,F(xiàn)CN[14]、CRF-FCN[15]、U-net[16]以及Segnet[17]等語義分割網絡在無人駕駛[18]、地理信息系統(tǒng)、醫(yī)學圖像分析[19]、遙感影像地物識別[20-24]等領域得到了廣泛應用。特別的,針對小數(shù)據(jù)集,楊建宇等人選用Segnet 網絡在遙感數(shù)據(jù)集上獲得不錯的效果[25]?;赨-net網絡分割方法同樣在遙感圖像上有著不錯的表現(xiàn)[26-27]。2017 年Chen 等人提出Deeplabv3+網絡[28],該模型嘗試編解碼結構,在PASCAL VOC 2012取得最高準確率,針對遙感影像分類同樣具有很高的準確率[29-31]。針對時序問題,具有代表性的RNN、LSTM網絡成功應用在語言翻譯、天氣預測等領域[32-33]。但是到目前為止,使用多時相深度學習模型用于遙感地物提取的研究并不成熟,雖然Ru?wurm 等人嘗試使用LSTM實現(xiàn)多時相的遙感分類,在公共數(shù)據(jù)集上取得了不錯的效果[34]。但是,遙感影像包含信息豐富,多時相、空間、光譜等信息并沒有充分利用,并且公共數(shù)據(jù)集并不能很好地反映實際應用情況??紤]到地物類型、復雜環(huán)境、時間等影響因素,本文提出了一種多時相語義分割網絡用于蔬菜大棚提取,除了考慮時間特性,還融合空間信息和光譜信息以提高分類精度。該模型在經過變換后的多時相GF-2 衛(wèi)星影像數(shù)據(jù)集上訓練,與傳統(tǒng)方法以及流行的深度學習分割模型相比,本模型識別精度較高。
圖1 GF-2圖像融合
數(shù)據(jù)源選擇空間分辨率為0.8 m的GF-2衛(wèi)星影像,GF-2 影像主要由全色圖像和多光譜影像組成,預處理包括輻射校正、大氣校正、正射校正以及融合。其中,輻射校正和大氣校正將灰度值轉換為光譜反射率。正射校正用于糾正偏差引起的幾何和環(huán)境影響。以上使用ENVI5.3(The Environment for Visualizing Images)軟件完成。融合過程采用Pan sharpening算法,通過Python編程實現(xiàn),融合后為4通道的高分辨率圖像(如圖1所示)。
根據(jù)野外調查獲取的經緯度信息截取感興趣區(qū)域,數(shù)據(jù)包含高密市的7組共21張影像(每組包含3張多時相影像,分別為1月份、4月份和11月份拍攝)。每張影像2 000×2 000 像素,背景像素標記為0,蔬菜大棚像素標記為1。
數(shù)據(jù)擴充提供深度學習所需的不變性和魯棒性。對影像進行翻轉、顏色增強、添加噪聲等操作。每張影像裁剪成512×512大小,由于高空間分辨率影像對噪聲敏感,下采樣到256×256 尺寸模糊噪聲,標簽也進行相應的變換。擴充后的影像和標簽根據(jù)序號和拍攝時間保存到相應文件夾中。最終訓練數(shù)據(jù)包含12 039 張影像(256×256),按7∶3的比例劃分為訓練集和測試集。
流行的前饋網絡主要由卷積層或者全連接層組成,輸入數(shù)據(jù)為xt,經過前向傳播,仿射變換得到h(z),其中h(z)=h(θTxi+b),對于時序數(shù)據(jù),這樣的結構對于上下文信息的特征表達能力差。許多研究者證明了RNN在處理多時序數(shù)據(jù)上的有效性[35-36],但是隨著網絡的不斷加深,梯度爆炸和梯度消失問題使得網絡記憶的信息越來越少,Hochreiter和Schmidhube等人提出的RNN的變體LSTM網絡[37-38],通過‘門’控制記憶的時間,使得整個網絡可以長時間記憶信息,其整體結構如圖2所示。
圖2 LSTM網絡結構
圖2 顯示LSTM 單元網絡結構,每個LSTM 單元由輸入門、遺忘門、輸出門組成。首先,yt-1和xt經過一個Sigmoid函數(shù)與內部狀態(tài)信息Ct-1相乘,當值為0時,表示完全舍棄,當值為1 時,表示完全保留。該網絡內部數(shù)學關系表示為:
其中,yt-1表示上一個單元的輸出,θf表示學習的參數(shù)。然后yt-1和xt分別經過tanh 和sigmoid 來決定信息是否需要更新,與內部狀態(tài)信息Ct-1呈加性關系,其數(shù)學表達式為:
Ct表示更新后的內部狀態(tài)信息。最后,更新后的內部狀態(tài)信息與yt-1和xt共同計算出LSTM 單元的輸出,表示為:
yt和狀態(tài)信息Ct作為輸入傳入到下一個LSTM單元中以此不斷更新所提取的信息,通過反向傳播來更新參數(shù)。
卷積神經網絡通過卷積加和運算可以有效地融合圖像的光譜信息(遙感影像由多個光譜疊加而成)。3.1節(jié)介紹的LSTM可以通過記憶的方式保留時序信息,但是在壓縮圖像生成時序向量過程中空間信息被破壞。因此,為解決LSTM無法充分利用圖像的空間信息的局限性,本文設計了一種基于補丁的Patch-LSTM 結構(如圖3所示)。
圖3 Patch-LSTM網絡結構
網絡的輸入是時序圖像,分別對應不同拍攝時間。針對每一組時序圖像,截取Patch區(qū)域(不同時序相同區(qū)域),生成時序向量x1、x2、x3。考慮計算量,每個Patch區(qū)域的尺寸設為5×5 大小,因此生成時序向量長度為(25,1)。LSTM 采用多對1 的結構,即多個輸入1 個輸出,時序向量x1,x2,x3分別輸入到LSTM 單元,輸出向量經過Reshape生成區(qū)域特征圖。每一塊區(qū)域特征圖信息包含對應時序圖像Patch 區(qū)域的疊加信息,重復操作直到獲得完整的輸出特征圖。為直觀展示時相特征,特征圖進行了可視化(如圖4所示),第一列是不同時期的時序圖像,后面是對應不同階段的特征圖可視化結果(特征圖可視化結果通過時序向量Reshape保存輸出),可以看出不同時期蔬菜大棚的特征差異明顯。通過Patch-LSTM 時序網絡可以將不同時相特征進行融合,充分保留各個時相的特征,提升特征表達能力。
圖4 特征圖可視化
基于3.2節(jié)介紹Patch-LSTM,本文的語義分割模型(MSSN)如圖5所示。
圖5 MSSN語義分割網絡
整體結構分為Patch-LSTM、CNN 和ASSP 組成的編碼器以及反卷積和skip-layer組成的解碼器。
和全連接層一樣,Patch-LSTM 可以看做特征的線性表達,因此信息的表達能力不如CNN。編碼階段,在Patch-LSTM 模塊后接CNN 模塊以提高網絡的特征表達能力。研究證明CNN 的池化層會導致分辨率的下降,不利于特征的保留而且CNN對微小平移和變形的穩(wěn)定性與池化層無關[39-40]。因此,本文嘗試使用stride=2的卷積替代池化層,實現(xiàn)特征圖尺寸的減小。
多尺度指的是圖像的局部特征在不同尺度上的描述。通過單一尺寸特征圖預測,網絡對于目標的大小較為敏感。ASPP 模塊受到空間金字塔啟發(fā),它將不同大小的區(qū)域重新采樣到任意大小,以解決網絡對目標大小的敏感性[41]。結構上,ASSP 由四個不同膨脹率的空洞卷積級聯(lián)而成,后接全局平均池化層(GAP)融合尺度信息。Yu 等人證明,空洞卷積有效增加神經元的感受野[42]。感受野的計算公式如下:
其中,rk為第k層的感受野大小,si代表步長。假定卷積核為3×3,經過空洞率分別為[1,2,4]的三個空洞卷積操作之后,共獲得15×15感受野,而經過3個常規(guī)卷積操作只有7×7感受野。因此,使用空洞卷積具有更大的感受野,意味著神經元包含更多的特征信息。
在解碼階段,低分辨率的語義信息可以投影到高分辨率像素上,實現(xiàn)密集分類。通常編碼階段下采樣過程會導致信息的丟失,跳連結構可有效融合編解碼特征。具體的,ASSP 生成的特征圖經過反卷積層(上采樣)之后與編碼器(相同尺寸)的特征圖進行拼接(concatenc),融合后的特征圖通道數(shù)增加并且同時包含解碼的特征以及編碼丟失的特征,使得特征圖還原更加準確。另外,多次實驗發(fā)現(xiàn)參數(shù)學習的反卷積層相比簡單的雙線性插值計算更適合高精度的特征圖還原。因此,上采樣采用反卷積層。
Softmax分類器可將數(shù)值轉化概率向量[43]。對圖像而言,每個像素通過前向傳播計算對應數(shù)值Softmax 分類器分別對每個像素計算類別概率,生成和類別數(shù)量相同的概率特征圖。最后選取最大概率輸出即為真實預測類別。Softmax函數(shù)定義如下:
其中,zi表示網絡的輸出。公式(5)表明Softmax 函數(shù)輸出多個類別概率(0~1 之間)并且概率的總和為1,這意味著類別之間有更好的對抗學習能力。損失函數(shù)反映網絡的誤差,像素級的交叉熵損失函數(shù)(categorical_crossentropy)廣泛應用在分割網絡中[44-45]。交叉熵損失函數(shù)定義為:
其中,ypre(x(i),θ)是網絡的輸出,是真實標簽。梯度下降算法通過反向傳播計算梯度,從而優(yōu)化損失函數(shù)[46-47]。選擇目前應用最廣泛的自適應的Adam優(yōu)化算法進行權重更新[48]。進一步探討交叉熵損失函數(shù)利于反向傳播過程,對公式(6)求導得到公式(7):
從公式(7)中可以看出,當輸出與真實標簽有較大差異時,梯度更新較快,反之則較慢。另外,梯度計算非常簡單,反向傳播更加迅速。其他參數(shù)設置如表1所示。
表1 網絡參數(shù)設置
該模型在ubuntu16.04 系統(tǒng)上進行了訓練,使用NVIDIA GeForce Titan X圖形設備,圖形內存為12 GB。該網絡由開源框架Keras和Tensorflow實現(xiàn)。為了證明所設計網絡的有效性,本文建立了兩組實驗,一組是和傳統(tǒng)遙感分類方法的比較,另一組是和基于深度學習的語義分割模型方法的比較。
目前傳統(tǒng)分類算法SVM 廣泛應用于遙感分類,該算法通過核函數(shù)將數(shù)據(jù)映射到高維空間從而進行分類。另外,多尺度分割結合閾值分割算法是目前通用的面向對象方法,首先采用多尺度分割算法獲得連通區(qū)域,再選擇像素點、紋理、形狀等信息進行閾值分割。以上兩種方法在Envi 和易康軟件上實現(xiàn)。表2 給出了本文方法(MSSN)、SVM 以及面向對象方法的精度評估對比。
表2 傳統(tǒng)遙感分類方法比較
表2列出了不同方法的精度評價。結果表明,本文方法(MSSN)在Precision、F1 以及Kappa 都獲得最高的數(shù)值。F1 為95%,比面向對象方法提高了8%,比SVM提高了13%。
U-net 和Deeplabv3+是目前流行的語義分割模型,在各種衛(wèi)星圖像數(shù)據(jù)集上都取得了良好的成績。深度學習與傳統(tǒng)的遙感分割方法有著不同的工作原理。因此,為了從多角度驗證所提方法的有效性,將本文方法與U-net(vgg16)和Deeplabv3+(Xception)深度語義分割模型進行比較。為保證測試數(shù)據(jù)和訓練數(shù)據(jù)不同,測試數(shù)據(jù)中選取了1 張尺寸為5 000×5 000 的2017 年GF-2影像,裁剪到256尺寸用于網絡預測。隨機選取三張用于測試,預測結果如圖6所示。
圖6 深度學習分割網絡結果
從圖6 可以看出本文方法在信息的完整度和邊緣提取效果上都優(yōu)于U-net 和Deeplabv3+原版,針對分割任務,除了Precision和F1指數(shù)之外,還加入前景交并比(IoU)評價模型以及預測時間(256×256)。由表3所示,本文的Precision、F1和IoU最高,分別為0.952 5、0.925 6和0.938 6。與U-net 網絡相比,U-net 網絡預測用時更快,但本文方法Precision提高了3%,IoU提高了4%。與原始Deeplabv3+網絡相比,預測速度相同,由于本文模型充分利用了空間信息、時序信息以及光譜信息,所以Precision、F1和IoU都得到很大的提升。
表3 深度學習模型的對比評價
本文提出了一種改進的多時相語義分割網絡(MSSN)用于蔬菜大棚提取。針對季節(jié)性對蔬菜大棚的影響以及空間信息丟失問題,本文設計了Patch-LSTM模型,針對單一尺度問題,網絡采用ASSP 可以實現(xiàn)不同尺度的特征提取。由于模型充分利用了圖像的空間信息、時序信息以及光譜信息,在與傳統(tǒng)遙感分割方法以及流行的深度學習方法比較中,該模型在大棚提取任務中具有出色的表現(xiàn)。該模型并不針對大棚這一類地物,可以作為地物提取的基準模型。但是面對更大的范圍,例如全國范圍的遙感影像的大棚提取,構建樣本數(shù)據(jù)庫顯得尤為重要。到目前為止很少有公開的遙感數(shù)據(jù)集,遙感數(shù)據(jù)集的制作需要實地探測和人工標注,需要耗費大量時間和人力。數(shù)據(jù)回灌技術即標注一部分數(shù)據(jù),通過小型網絡訓練獲得輔助標簽,也是一種未來可以嘗試的方法。另外,面對巨大的數(shù)據(jù)量,網絡的耗時也是未來考慮的問題。