盧元兵,李華朋,張樹(shù)清
基于混合3D-2D CNN的多時(shí)相遙感農(nóng)作物分類(lèi)
盧元兵1,2,李華朋1※,張樹(shù)清1
(1. 中國(guó)科學(xué)院東北地理與農(nóng)業(yè)生態(tài)研究所,長(zhǎng)春 130102;2. 中國(guó)科學(xué)院大學(xué),北京 100049)
準(zhǔn)確的農(nóng)作物分類(lèi)圖是農(nóng)業(yè)監(jiān)測(cè)和糧食安全評(píng)估的重要數(shù)據(jù)來(lái)源,針對(duì)傳統(tǒng)的深度學(xué)習(xí)模型在多時(shí)相農(nóng)作物遙感分類(lèi)方面精度較低的問(wèn)題,該研究將卷積維度單一的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)進(jìn)行改進(jìn),提出了一種混合三維和二維卷積的神經(jīng)網(wǎng)絡(luò)識(shí)別模型(Hybrid Three Dimensional and Two Dimensional Convolutional Neural Networks,3D-2D CNN)。該模型首先通過(guò)多個(gè)三維卷積層提取時(shí)空特征,其次將輸出的特征降維壓縮后通過(guò)二維卷積層執(zhí)行空域特征分析,最后將高層特征圖展平后通過(guò)全連接層進(jìn)行類(lèi)別預(yù)測(cè)。試驗(yàn)以L(fǎng)andsat8多時(shí)相影像為數(shù)據(jù)源,將美國(guó)加利福尼亞州北部研究區(qū)的地塊按照2:2:6分層隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。試驗(yàn)結(jié)果表明3D-2D CNN對(duì)13種農(nóng)作物分類(lèi)的總體精度(89.38%)、宏平均1值(84.21%)和Kappa系數(shù)(0.881)均優(yōu)于三維卷積神經(jīng)網(wǎng)絡(luò)(Three Dimensional Convolutional Neural Networks,3D-CNN)、二維卷積神經(jīng)網(wǎng)絡(luò)(Two Dimensional Convolutional Neural Networks, 2D-CNN)、支持向量機(jī)(Support Vector Machines,SVM)和隨機(jī)森林(Random Forest,RF)等方法,并在參數(shù)量和收斂時(shí)間方面比3D CNN大幅度減小。同時(shí),在較小樣本訓(xùn)練集下3D-2D CNN仍表現(xiàn)最優(yōu)。該模型綜合利用空間-光譜-時(shí)間特征并具有較高的分類(lèi)精度和較強(qiáng)的魯棒性,這為解決多時(shí)相遙感農(nóng)作物分類(lèi)問(wèn)題提供了一個(gè)有效且可行的方案。
遙感;農(nóng)作物;多時(shí)相地塊;分類(lèi);深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)
農(nóng)作物的種植類(lèi)型和空間分布是表征農(nóng)業(yè)資源合理利用的科學(xué)指標(biāo),也是農(nóng)作物種植結(jié)構(gòu)的綜合反映[1]。傳統(tǒng)的農(nóng)作物種植類(lèi)型制圖主要采用人工實(shí)地調(diào)查的方法,該方法易受主觀(guān)因素影響,并且不能動(dòng)態(tài)監(jiān)測(cè)農(nóng)作物種植類(lèi)型的變化。遙感影像能夠提供及時(shí)準(zhǔn)確的農(nóng)作物空間分布、長(zhǎng)勢(shì)以及產(chǎn)量等農(nóng)業(yè)信息,為數(shù)字化精準(zhǔn)農(nóng)業(yè)提供基礎(chǔ)數(shù)據(jù)[1]。隨著遙感衛(wèi)星采集影像頻率的提高,多時(shí)相地球觀(guān)測(cè)能力在農(nóng)作物監(jiān)測(cè)中發(fā)揮著越來(lái)越重要的作用,如何充分利用密集多時(shí)相數(shù)據(jù)中隱含的物候規(guī)律顯得越來(lái)越重要[2]。因此,及時(shí)了解農(nóng)作物種植結(jié)構(gòu)對(duì)于調(diào)控農(nóng)產(chǎn)品市場(chǎng)、輔助決策和保障農(nóng)業(yè)可持續(xù)發(fā)展具有重要意義[1]。
基于遙感影像的作物或植被分類(lèi),通常有兩種方法。一種方法是將光譜帶聚合成代表植被物理特性的植被指數(shù),其中歸一化植被指數(shù)(Normal Difference Vegetation Index,NDVI)是最常用的方法;二是直接利用原始多時(shí)相圖像進(jìn)行分類(lèi)[3]。Guerschman等利用多時(shí)相Landsat TM數(shù)據(jù)對(duì)土地覆蓋進(jìn)行分類(lèi),結(jié)果表明利用原始圖像比NDVI可以獲得更高的精度[4]。光譜、空間和時(shí)間特征是遙感提取農(nóng)作物種植類(lèi)別信息的基礎(chǔ)[5]。季節(jié)性是農(nóng)作物最顯著的特征之一,多時(shí)相遙感是監(jiān)測(cè)農(nóng)作物生長(zhǎng)動(dòng)態(tài)并進(jìn)行分類(lèi)的有效途徑[6]。隨著遙感技術(shù)和大數(shù)據(jù)分析技術(shù)的快速發(fā)展,國(guó)內(nèi)外學(xué)者使用不同空間分辨率的遙感數(shù)據(jù),從特征篩選、分類(lèi)器選擇和參數(shù)優(yōu)化等方面,對(duì)農(nóng)作物類(lèi)型空間分布開(kāi)展了廣泛的研究[1]。支持向量機(jī)(Support Vector Machines,SVM)、隨機(jī)森林(Random Forest,RF)等淺層機(jī)器學(xué)習(xí)算法經(jīng)過(guò)的非線(xiàn)性變換組合層較少,受特征工程(Feature Engineering, FE)影響較大,對(duì)影像中復(fù)雜異質(zhì)特征的分辨效果較差[7]。近年來(lái),深度學(xué)習(xí)被認(rèn)為是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘(包括遙感)研究領(lǐng)域的一項(xiàng)突破性技術(shù),由于它具有對(duì)特征的層次化表示、高效率運(yùn)算以及端到端地自動(dòng)化學(xué)習(xí)等優(yōu)點(diǎn),因此它逐漸成為圖像模式識(shí)別領(lǐng)域的主流算法[8]。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是深度學(xué)習(xí)方法中最成功的網(wǎng)絡(luò)結(jié)構(gòu)之一,研究表明在大多數(shù)圖像分類(lèi)問(wèn)題中CNN比其他模型表現(xiàn)更好[9]。對(duì)于多時(shí)相遙感影像或時(shí)間序列NDVI,3D CNN特別適合提取農(nóng)作物生長(zhǎng)的動(dòng)態(tài)特征,并優(yōu)于2D CNN、SVM和最鄰近分類(lèi)等主流方法[3]。國(guó)外學(xué)者基于多光譜時(shí)間序列數(shù)據(jù)比較了CNN、遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)和混合神經(jīng)網(wǎng)絡(luò)(CNN+RNN)的分類(lèi)性能,并得出效果最好的方法是混合配置網(wǎng)絡(luò)的結(jié)論[10]。Li等借鑒了自然語(yǔ)言處理(Natural Language Processing,NLP)知識(shí)中的transformer結(jié)構(gòu)來(lái)挖掘多時(shí)間序列模式,提出了一種顯著提升農(nóng)作物分類(lèi)精度的混合模型CNN-transformer[2]。Gadiraju等提出了聯(lián)合利用空間、光譜和物候特征來(lái)識(shí)別農(nóng)作物類(lèi)型的多模態(tài)深度學(xué)習(xí)方案,使得預(yù)測(cè)誤差降低60%[11]。國(guó)內(nèi)部分學(xué)者的研究表明一維CNN為長(zhǎng)時(shí)間序列遙感圖像農(nóng)作物種類(lèi)識(shí)別提供了一種有效且高效的方法[12]。解毅等認(rèn)為長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)對(duì)多源遙感數(shù)據(jù)融合的時(shí)序NDVI進(jìn)行農(nóng)作物分類(lèi)優(yōu)勢(shì)明顯[13]。深度學(xué)習(xí)的主要優(yōu)點(diǎn)是能夠有效地逼近高度復(fù)雜的問(wèn)題,而不需要預(yù)先進(jìn)行特征工程[9]。遙感圖像能夠提供動(dòng)態(tài)或時(shí)間信息,雖然已有研究在農(nóng)作物遙感理論、技術(shù)方法和實(shí)踐應(yīng)用方面取得了顯著的進(jìn)展[14-15],但是二維CNN缺乏準(zhǔn)確提取三維特征的能力,在第三個(gè)維度(即時(shí)間維)提取的信息被平均化并折疊為標(biāo)量,因此沒(méi)有充分挖掘該維度特征[8]。三維卷積的結(jié)構(gòu)設(shè)計(jì)非常適用于時(shí)空表示,然而3D CNN計(jì)算復(fù)雜度高,參數(shù)較多不易被訓(xùn)練[8],而且單獨(dú)處理多光譜波段上具有相似紋理的類(lèi)時(shí)表現(xiàn)不佳[16],因此3D CNN在分類(lèi)中的應(yīng)用相對(duì)較少。
農(nóng)業(yè)區(qū)作物景觀(guān)的異質(zhì)性和破碎化,使得以田塊為單元的農(nóng)作物對(duì)象特征不易于被中低分辨率影像有效地捕捉,因此增加了錯(cuò)分地可能[1]。針對(duì)農(nóng)作物分類(lèi)過(guò)程中時(shí)間序列遙感信息利用不足、中分辨率影像地物特征表現(xiàn)相似,以及多數(shù)研究以較少農(nóng)作物類(lèi)別提取為主等問(wèn)題,本文基于混合3D-2D CNN對(duì)多時(shí)相遙感影像進(jìn)行農(nóng)作物分類(lèi),探討模型的優(yōu)化流程,分析時(shí)間信息和紋理信息在模型分類(lèi)中的作用,為深度學(xué)習(xí)使用較少訓(xùn)練樣本對(duì)多種混合農(nóng)作物分類(lèi)提供新思路。
加利福尼亞州是美國(guó)一個(gè)高產(chǎn)的農(nóng)業(yè)州,其農(nóng)作物種類(lèi)豐富,農(nóng)業(yè)收入全國(guó)排名第一(https://www.cdfa.ca.gov/ statistics/)。研究區(qū)域位于美國(guó)加州西部,主要由Solano縣北部和Yolo縣東部大部分地區(qū),以及Sacramento縣西部和Sutter縣南部小部分地區(qū)構(gòu)成(圖1)。研究區(qū)地理坐標(biāo)范圍為38°11′9″N~38°55′25″N,121°23′44″W~122°4′3″W,地勢(shì)平坦,范圍約覆蓋4 650 km2。該地區(qū)屬地中海氣候,夏季炎熱干燥,冬季涼爽,7月最熱,12月最冷,土壤層較厚,灌溉條件理想,年平均降雨量500 mm以下,多發(fā)生在春、冬兩季,是加州降雪最少的地區(qū)之一(https://www.bestplaces.net/climate/county/california/solano)。該研究區(qū)農(nóng)業(yè)景觀(guān)類(lèi)型主要為耕地(包括旱地、稻田、果園和菜地)、草地、裸地、聚落和水體,農(nóng)業(yè)景觀(guān)以灌溉農(nóng)業(yè)為主(例如苜蓿和水稻作物),并形成了小麥、玉米和其他谷物輪作,以及番茄、紫花苜蓿、紅花、向日葵等輪作兩種常見(jiàn)的方式(https://aic.ucdavis.edu/ solano/econroots.pdf)。本文選擇該研究區(qū)主要考慮該區(qū)遙感數(shù)據(jù)和地面調(diào)查數(shù)據(jù)作為公共數(shù)據(jù)集的完備性,便于模型驗(yàn)證以及與其他研究者的試驗(yàn)結(jié)果對(duì)比。
1.2.1 土地利用調(diào)查數(shù)據(jù)
本文使用的是2014年加利福尼亞州水利部對(duì)縣級(jí)土地利用的調(diào)查數(shù)據(jù)(https://databasin.org/datasets/ 6cc5b24e401043a899a6db6eef5c86db/)。工作人員在實(shí)地調(diào)查期間,記錄了各種土地利用屬性。在這項(xiàng)研究中,作物種類(lèi)是根據(jù)加州水資源計(jì)劃(California Water Plan, CDWR)確定的[8]。本試驗(yàn)在A(yíng)rcGIS中為每個(gè)觀(guān)察到的屬性創(chuàng)建一個(gè)標(biāo)簽,然而某幾個(gè)標(biāo)簽只適用于少數(shù)幾個(gè)地塊,所以有必要將這些標(biāo)簽合并到感興趣的農(nóng)作物類(lèi)別中。本文選擇了13個(gè)夏季農(nóng)作物類(lèi)別進(jìn)行分類(lèi)和分析(表1),由于氣象或氣候因素的影響,不同年份和地理區(qū)域的種植或播種和收獲日期可能會(huì)有一些輕微的變化。另外,所有非農(nóng)作物土地利用類(lèi)型匯總為其他用地類(lèi)(包括城鎮(zhèn)、閑置地和濕地)。
表1 樣本集中農(nóng)作物類(lèi)別及其比例
1.2.2 遙感衛(wèi)星影像
本文采用的遙感數(shù)據(jù)是由Landsat8陸地成像儀(Operational Land Imager, OLI)獲取的地表反射率,多光譜波段空間分辨率為30 m,可從美國(guó)地質(zhì)調(diào)查局(USGS, http://glovis.usgs.gov/)開(kāi)發(fā)的Landsat二級(jí)產(chǎn)品獲得。研究發(fā)現(xiàn)使用Landsat8原始影像的分類(lèi)精度高于植被指數(shù)NDVI[17],因此輸入數(shù)據(jù)選擇2014年云量低于5%的原始影像,軌道號(hào)為044/033。生育期內(nèi)所有可用的遙感數(shù)據(jù)的時(shí)間點(diǎn)分別為2014-05-21、2014-06-06、2014-06-22、2014-07-24、2014-08-09、2014-08-25、2014-09-10、2014-09-26、2014-10-12、2014-10-28。根據(jù)農(nóng)作物特征在2014-08-25和2014-09-26兩期影像與其他時(shí)相影像上的區(qū)分度和數(shù)據(jù)冗余度,本研究選擇其余8個(gè)時(shí)相多光譜遙感地表反射率數(shù)據(jù)(不包括以上兩期影像)作為模型的試驗(yàn)數(shù)據(jù)。
1.2.3 數(shù)據(jù)集劃分和數(shù)據(jù)預(yù)處理
在大多數(shù)農(nóng)田中,同一地塊的像素是十分同質(zhì)且高度相關(guān),將一個(gè)地塊中的像素分配到不同的數(shù)據(jù)集合(訓(xùn)練集、驗(yàn)證集和測(cè)試集)將違反獨(dú)立性原則[8]??紤]到單個(gè)地塊的耕作方式和管理方式通常不同,不同地塊的農(nóng)作物類(lèi)型相對(duì)獨(dú)立,在數(shù)據(jù)集劃分時(shí),本文將同一地塊視為一個(gè)整體,并對(duì)非農(nóng)作物用地進(jìn)行了掩膜。整個(gè)研究區(qū)域采用分層隨機(jī)采樣的方法,按照2:2:6將農(nóng)作物地塊劃分為訓(xùn)練區(qū)、驗(yàn)證區(qū)和測(cè)試區(qū)。由于同一地塊內(nèi)像元?dú)w屬的農(nóng)作物類(lèi)型相同,在訓(xùn)練區(qū)和驗(yàn)證區(qū)中,分別對(duì)每一類(lèi)地物進(jìn)行2 000左右的隨機(jī)點(diǎn)采樣得到典型樣本集,由于各類(lèi)別地物所占面積大小不一樣,最終的訓(xùn)練集、驗(yàn)證集和測(cè)試集如表1所示。為了驗(yàn)證算法的穩(wěn)定性,在所選的訓(xùn)練區(qū)中分別按照50%和25%兩種比例分層隨機(jī)選取地塊,形成新的小樣本訓(xùn)練集,并各自占農(nóng)作物總地塊數(shù)據(jù)的10%和5%(每類(lèi)地物樣本點(diǎn)分別在1 000和500左右)。另外,在圖像輸入模型之前,需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理,將原始數(shù)據(jù)映射到[0,1]區(qū)間,加速模型的收斂。根據(jù)研究區(qū)內(nèi)農(nóng)作物的生長(zhǎng)物候特征,本文選取成像時(shí)間2014-07-24的單時(shí)相遙感影像分析時(shí)相信息和紋理信息在CNN分類(lèi)中的作用。該時(shí)相的植被生長(zhǎng)旺盛,與其他地物光譜差異顯著,具有較好的區(qū)分度;同時(shí)農(nóng)作物之間物候特征明顯,有利于分類(lèi)識(shí)別。
2.1.1 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種多層前饋神經(jīng)網(wǎng)絡(luò),它是通過(guò)考慮局部和全局的平穩(wěn)特性,為處理多陣列形式的大規(guī)模圖像或傳感數(shù)據(jù)而設(shè)計(jì)的[18]。CNN通常由多個(gè)層組成,層與層之間通過(guò)一組可學(xué)習(xí)的權(quán)重和偏差相互連接。每個(gè)層輸入圖像的斑塊,這些斑塊掃描整個(gè)圖像以捕獲局部和全局尺度的不同特征。在CNN框架內(nèi),這些圖像斑塊通過(guò)交替的卷積層和池化層進(jìn)行泛化,直到獲得高層特征,并在此基礎(chǔ)上執(zhí)行全連接的分類(lèi)[19]。另外,在每個(gè)卷積層中可以存在多個(gè)特征圖,并且同一特征圖中共享卷積節(jié)點(diǎn)的權(quán)重。這種設(shè)置使網(wǎng)絡(luò)能夠?qū)W習(xí)不同的特征,同時(shí)保持參數(shù)的數(shù)量易于處理。而且,在卷積層外采用非線(xiàn)性激活函數(shù)來(lái)加強(qiáng)非線(xiàn)性。具體而言,在CNN中執(zhí)行的主要操作可以概括[20]:
式中O-1表示第層的輸入特征圖,W和b分別表示該層的權(quán)重和偏差,它們通過(guò)線(xiàn)性卷積*對(duì)輸入特征圖進(jìn)行卷積,(·)表示卷積層外的非線(xiàn)性函數(shù)。然后使用s×s窗口大小的最大池化(P)操作,以聚合特定區(qū)域內(nèi)特征的統(tǒng)計(jì)信息,從而在第層輸出特征圖O。
2.1.2 混合卷積神經(jīng)網(wǎng)絡(luò)(3D-2D CNN)
本文提出了一種新的基于CNN的架構(gòu),結(jié)合了空間和時(shí)間分析,模型架構(gòu)如圖2所示。模型由相互連接的3個(gè)部分組成,第一部分使用3D卷積來(lái)執(zhí)行時(shí)空分析,通過(guò)多個(gè)3D CNN層提取時(shí)空特征,而不折疊時(shí)間維度。第二部分使用2D卷積引入空域分析,將3D CNN的輸出壓縮后再輸送給2D CNN,進(jìn)一步只從空間維度提取重要信息,這種時(shí)空分析之后的空間分析有助于消除噪聲。3D卷積模塊和2D卷積模塊與傳統(tǒng)CNN卷積基本相同,3D-2D混合卷積模式集成二者優(yōu)點(diǎn)可以充分挖掘遙感影像的空間和時(shí)間特征,并提高計(jì)算效率。前兩個(gè)部分從輸入中提取特征,第三部分是一個(gè)全連接的神經(jīng)網(wǎng)絡(luò),它可以從多時(shí)相輸入的圖像中預(yù)測(cè)標(biāo)簽。圖2中每一層正方形圖塊代表圖像不同的通道或特征圖,每個(gè)卷積塊在激活前都有一個(gè)批處理歸一化層,通過(guò)批處理歸一化,模型收斂速度更快,精度更高[21]。由于CNN的池化層可能會(huì)丟失大量有價(jià)值的信息,忽略整體和部分之間的關(guān)系[22],因此本研究所使用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中不包括池化層。
圖3對(duì)二維(2D)卷積和三維(3D)卷積運(yùn)算進(jìn)行了比較,例如,在5月、6月、7月、8月和9月分別捕捉同一區(qū)域的單通道圖像斑塊,U表示卷積算子,?表示折疊特征的求和運(yùn)算符(圖3)。
5幅多時(shí)相影像經(jīng)過(guò)2D卷積運(yùn)算變成單通道特征圖(圖3a),也就是二維卷積運(yùn)算在時(shí)間維度提取的特征被平均并折疊成標(biāo)量。與2D卷積不同,5幅多時(shí)相影像經(jīng)過(guò)連續(xù)的3D卷積運(yùn)算后變成3通道特征圖(圖3b),其中操作符U3在時(shí)間方向上連續(xù)執(zhí)行3次卷積(用實(shí)線(xiàn)、虛線(xiàn)和點(diǎn)劃線(xiàn)箭頭表示),由相同線(xiàn)型的箭頭指向的特征包含時(shí)間信息。也就是連續(xù)的3D卷積運(yùn)算能提取多時(shí)相遙感影像的時(shí)空信息(圖3b)。在實(shí)踐中,多時(shí)相遙感圖像由多光譜通道組成,即由空間維、光譜維、時(shí)間維構(gòu)成,2D卷積運(yùn)算所提取的特征在時(shí)間方向上不存在關(guān)系,而3D卷積運(yùn)算能保留時(shí)間動(dòng)態(tài)特征[3]。
目前,在圖像語(yǔ)義分割任務(wù)中常用的方法是利用交叉熵?fù)p失函數(shù)(CEloss)對(duì)模型進(jìn)行訓(xùn)練,交叉熵?fù)p失函數(shù)(CEloss)公式如下[23]:
實(shí)際上,由于主要是解決難分類(lèi)和易分類(lèi)樣本的不平衡,正負(fù)樣本的不平衡問(wèn)題主要由權(quán)重因子α進(jìn)行調(diào)整,并且有試驗(yàn)證明Focalloss的平衡形式取得的分類(lèi)精度略高于其非平衡形式。因此本文采用Focalloss的平衡形式作為損失函數(shù)[24]:
聚焦參數(shù)平穩(wěn)地調(diào)整易分類(lèi)樣本權(quán)重下降的速率。當(dāng)=0時(shí),F(xiàn)ocalloss相當(dāng)于CEloss,當(dāng)增加時(shí),調(diào)整因子的效果也隨之增加。
分類(lèi)器的性能是影響其分類(lèi)泛化能力的關(guān)鍵前提,為了定量化模型在測(cè)試集數(shù)據(jù)中的分類(lèi)精度表現(xiàn),本文采用混淆矩陣、總體精度(Overall Accuracy,OA)、精確率(Precision)、召回率(Recall)、1分?jǐn)?shù)的宏平均(宏平均1值)、Kappa系數(shù)等指標(biāo)對(duì)試驗(yàn)結(jié)果進(jìn)行評(píng)價(jià),其中宏平均1值由精確率和召回率計(jì)算得到[25]。
為了進(jìn)行比較,本文還嘗試了2D CNN、3D CNN以及另外兩種典型傳統(tǒng)的機(jī)器學(xué)習(xí)分類(lèi)器:SVM和RF,它們通常作為分類(lèi)任務(wù)的基線(xiàn)模型[8]。隨機(jī)森林是基于裝袋技術(shù)(Bagging)的決策樹(shù)集成算法[26],支持向量機(jī)是通過(guò)分離超平面而定義的分類(lèi)器模型,一般使用核函數(shù)進(jìn)行非線(xiàn)性分類(lèi)[27]。SVM和RF在遙感應(yīng)用中得到了廣泛的應(yīng)用,并在復(fù)雜的分類(lèi)任務(wù)中取得了巨大的成功[28]。本研究以SVM和RF的分類(lèi)結(jié)果為參考基準(zhǔn),它們代表目前流行的非深度學(xué)習(xí)算法的性能。對(duì)于SVM和RF,本文使用Python中的機(jī)器學(xué)習(xí)庫(kù)實(shí)現(xiàn)。每個(gè)分類(lèi)器都需要一組超參數(shù),本文采用隨機(jī)搜索策略并根據(jù)驗(yàn)證集的分類(lèi)精度來(lái)優(yōu)化所選分類(lèi)器的主要超參數(shù)。具體方法為反復(fù)多次訓(xùn)練分類(lèi)器,每次運(yùn)行都基于所有超參數(shù)值集合中的隨機(jī)組合[8]。經(jīng)過(guò)試驗(yàn),SVM超參數(shù)C和gamma最優(yōu)值分別為20和3,RF超參數(shù)n_estimators、max_depth、min_samples_split、min_samples_leaf、max_features最優(yōu)值分別為300、25、2、1、’sqrt’。兩種深度學(xué)習(xí)模型3D CNN和2D CNN參數(shù)設(shè)置與本文采用的混合3D-2D CNN模型一致。為了處理數(shù)據(jù)集類(lèi)別之間的不平衡問(wèn)題,本文將類(lèi)別權(quán)重參數(shù)設(shè)置為與類(lèi)豐度成反比,以使每個(gè)類(lèi)的貢獻(xiàn)度相等。
本文試驗(yàn)基于Python3.6軟件平臺(tái)和TensorFlow2.0深度學(xué)習(xí)框架,采用Intel i7-9700處理器和NVIDIA RTX2080 GPU運(yùn)算,運(yùn)行內(nèi)存32 G。
本文采用具有Adam優(yōu)化器的隨機(jī)梯度下降算法[29]對(duì)所有神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,經(jīng)過(guò)試驗(yàn),本研究使用的CNN模型均為四層卷積層,混合3D-2D CNN前三層為3D卷積,第四層為2D卷積。窗口尺寸過(guò)大易致卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)線(xiàn)條特征提取不清晰,類(lèi)別間邊界不夠細(xì)膩,影響圖像分類(lèi)效果[30]。在綜合考慮計(jì)算效率和分類(lèi)精度的基礎(chǔ)上,本文經(jīng)過(guò)對(duì)鄰域窗口{9×9,11×11,15×15,19×19,21×21}的多次嘗試,當(dāng)α=0.25,=2,以樣本點(diǎn)為中心像元生成11×11×32鄰域窗口的圖像塊作為輸入數(shù)據(jù)時(shí)模型的分類(lèi)效果最好。由于小卷積核進(jìn)行一次卷積運(yùn)算覆蓋的像元數(shù)少,對(duì)密集特征表示效果較好,本文所用數(shù)據(jù)為中等分辨率遙感影像,識(shí)別地物類(lèi)型為農(nóng)作物,在遙感影像中呈密集分布狀態(tài)[31],因此所有CNN模型每層卷積核大小設(shè)置相同均為3×3,卷積核個(gè)數(shù)均設(shè)置為32、64、128、256。為了提高模型的泛化能力,特征圖展開(kāi)后經(jīng)過(guò)兩個(gè)全連接層,最后進(jìn)入分類(lèi)決策層。批大小設(shè)置為512,初始學(xué)習(xí)率從0.001開(kāi)始,當(dāng)驗(yàn)證樣本的準(zhǔn)確率停止提高時(shí),學(xué)習(xí)率下降5倍。對(duì)選定的模型進(jìn)行訓(xùn)練,直到驗(yàn)證精度達(dá)到穩(wěn)定水平不再明顯變化為止。
本文采用100輪次訓(xùn)練模型,由于不同的模型,參數(shù)量不等,因此3D CNN訓(xùn)練時(shí)間最長(zhǎng),SVM訓(xùn)練時(shí)間最短。相比2D-CNN和3D-CNN,混合3D-2D CNN收斂速率最快,并取得最大驗(yàn)證精度值(圖4a)和最小驗(yàn)證損失值(圖4b)。
本文計(jì)算了測(cè)試集的總體精度和混淆矩陣以評(píng)估所有分類(lèi)器的性能??傮w精度與正確制圖的面積成正比,適用于面積估計(jì)。在本試驗(yàn)測(cè)試集中,制圖精度為1%時(shí),大概對(duì)應(yīng)于1 160 hm2農(nóng)作物面積。另外,評(píng)價(jià)標(biāo)準(zhǔn)還使用宏平均1值(所有類(lèi)別1值的簡(jiǎn)單平均)作為分類(lèi)能力的指標(biāo),對(duì)于每個(gè)類(lèi),宏平均1值是生產(chǎn)者準(zhǔn)確率和使用者準(zhǔn)確率的調(diào)和平均數(shù)。宏平均1值的大小反映了模型識(shí)別農(nóng)作物空間分布的能力,特別是對(duì)數(shù)量相對(duì)較少的農(nóng)作物類(lèi)型[8]。如表2所示,經(jīng)過(guò)20%地塊上隨機(jī)采樣的樣本訓(xùn)練的混合3D-2D CNN在測(cè)試集上取得了各個(gè)評(píng)價(jià)指標(biāo)的最優(yōu)值,總體精度、宏平均1值和Kappa系數(shù)分別為89.38%、84.21%、0.881,而SVM均取得了最小值?;旌?D-2D CNN與3D CNN及2D CNN模型的各個(gè)評(píng)價(jià)指標(biāo)相比均有一定程度的提高,其總體精度分別提高1.35和5.46個(gè)百分點(diǎn),宏平均1值分別提高1.33和6.78個(gè)百分點(diǎn),Kappa系數(shù)分別提高0.015和0.061。與傳統(tǒng)機(jī)器學(xué)習(xí)模型SVM和RF相比,所有CNN模型的評(píng)價(jià)指標(biāo)均有所提高,而本文所提出的混合3D-2D CNN提高最為明顯,其總體精度分別增加8.02和7.23個(gè)百分點(diǎn),宏平均1值分別增加10.54和10.02個(gè)百分點(diǎn),Kappa系數(shù)分別增加0.089和0.081(表2)。
表2 不同模型在測(cè)試集上的分類(lèi)精度比較
圖5顯示了不同分類(lèi)器對(duì)不同農(nóng)作物分類(lèi)結(jié)果的歸一化混淆矩陣??傮w而言,CNN模型(包括混合3D-2D CNN(圖5a)、3D CNN(圖5b)、2D CNN(圖5c))對(duì)不同農(nóng)作物類(lèi)型的識(shí)別精度優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型(包括SVM (圖5d)、RF (圖5e)),特別是本文所提出的混合3D-2D CNN模型表現(xiàn)最為優(yōu)異,其中農(nóng)作物類(lèi)型核桃樹(shù)(W)、其他落葉果樹(shù)(D)、苜蓿及其混合物(AM)和混播草地(P)比SVM分類(lèi)精度分別提高14.09、18.00、12.78和13.02個(gè)百分點(diǎn),而在農(nóng)作物類(lèi)型杏樹(shù)(A)、其他落葉果樹(shù)(D)、核桃樹(shù)(W)和混播草地(P)的識(shí)別精度分別比RF提高了15.96、18.32、14.78和12.91個(gè)百分點(diǎn)。在深度學(xué)習(xí)模型中,混合3D-2D CNN對(duì)不同農(nóng)作物類(lèi)型的分類(lèi)精度均高于3D CNN及2D CNN,其中相對(duì)3D CNN,其他落葉果樹(shù)(D)、番茄(T)、玉米類(lèi)(CS)和苜蓿及其混合物(AM)識(shí)別精度分別提高了2.46、3.64、2.10和3.11個(gè)百分點(diǎn);相對(duì)2D CNN,杏樹(shù)(A)、核桃樹(shù)(W)、番茄(T)、玉米類(lèi)(CS)、紅花(Sa)、向日葵(Su)、苜蓿及其混合物(AM)和混播草地(P)的分類(lèi)精度分別提高了6.76、8.92、7.54、11.23、8.33、5.25、6.17和6.60個(gè)百分點(diǎn)。在傳統(tǒng)機(jī)器學(xué)習(xí)模型中,RF對(duì)農(nóng)作物玉米類(lèi)(CS)、谷物和干草(GH)和苜蓿及其混合物(AM)的識(shí)別精度比SVM分別提高了2.66、3.97和6.37個(gè)百分點(diǎn)。
為了驗(yàn)證混合3D-2D CNN在小數(shù)據(jù)集上的穩(wěn)定性和普適性,本文隨機(jī)選取訓(xùn)練地塊中50%和25%的地塊,分別得到占總數(shù)據(jù)10%和5%的兩種小樣本訓(xùn)練集,并在此基礎(chǔ)上保持驗(yàn)證集和測(cè)試集不變(仍然占總數(shù)據(jù)的20%和60%)。五種分類(lèi)器在測(cè)試集上的分類(lèi)精度如表2所示,不同比例的訓(xùn)練集訓(xùn)練得到的混合3D-2D CNN均取得了分類(lèi)精度的最優(yōu)值。所有模型經(jīng)過(guò)10%的訓(xùn)練樣本訓(xùn)練后,在相同測(cè)試集上混合3D-2D CNN比其他深度學(xué)習(xí)模型3D CNN和2D CNN的分類(lèi)精度分別提高了1.40和5.92個(gè)百分點(diǎn);而相對(duì)于淺層機(jī)器學(xué)習(xí)模型SVM和RF,3D-2D CNN的分類(lèi)精度提升更為顯著,分別達(dá)到了7.80和7.01個(gè)百分點(diǎn)(表2)。所有模型經(jīng)過(guò)5%的訓(xùn)練樣本訓(xùn)練后,在相同測(cè)試集上混合3D-2D CNN比其他深度學(xué)習(xí)模型3D CNN和2D CNN的分類(lèi)精度分別提高了1.27和6.94個(gè)百分點(diǎn);而相對(duì)于淺層機(jī)器學(xué)習(xí)模型SVM和RF,3D-2D CNN的分類(lèi)精度提升更為顯著,分別達(dá)到了7.77和7.09個(gè)百分點(diǎn)(表2)。另外,就模型穩(wěn)定性而言,訓(xùn)練數(shù)據(jù)集由20%減少至10%,模型穩(wěn)定性大小順序?yàn)椋篠VM=RF>3D-2D CNN> 3D CNN > 2D CNN;訓(xùn)練數(shù)據(jù)集由10%減少至5%,模型穩(wěn)定性大小順序?yàn)椋?D CNN > SVM>3D-2D CNN>RF>2D CNN。
為了分析農(nóng)作物物候信息在CNN分類(lèi)中的作用,本試驗(yàn)以2014-07-24單時(shí)相遙感影像為例對(duì)農(nóng)作物進(jìn)行識(shí)別,分類(lèi)結(jié)果顯示2D CNN在該單時(shí)相遙感影像測(cè)試集上的總體精度、宏平均F1值和Kappa系數(shù)分別為64.14%、57.84%、0.601。
本文對(duì)模型復(fù)雜度(模型參數(shù)內(nèi)存需求)和計(jì)算時(shí)間(訓(xùn)練時(shí)間和測(cè)試時(shí)間)進(jìn)行了比較(表3)。在3種深度學(xué)習(xí)模型混合3D-2D CNN、3D CNN和2D CNN中,3D CNN模型參數(shù)內(nèi)存需求最大,計(jì)算時(shí)間最長(zhǎng),而2D CNN模型參數(shù)內(nèi)存需求最小,計(jì)算效率最快,分類(lèi)精度相對(duì)較低?;旌?D-2D CNN模型在保持相對(duì)較高分類(lèi)精度的情況下,比3D CNN模型具有相對(duì)較小的參數(shù)內(nèi)存需求和較快的訓(xùn)練時(shí)間和推斷時(shí)間,這是因?yàn)樵撃P蜎](méi)有將最后一層卷積層進(jìn)行3D 卷積,而是將其降維后輸入到2D卷積中,這樣較大程度地減少了參數(shù)的數(shù)量,提高了模型性能。
表3 不同CNN模型性能比較
多時(shí)相農(nóng)作物遙感具有光譜與空間高度異質(zhì)性特征,這給大范圍農(nóng)作物遙感制圖分類(lèi)帶來(lái)挑戰(zhàn),本文使用時(shí)間序列遙感數(shù)據(jù)作為分類(lèi)器的輸入進(jìn)行研究。農(nóng)作物的生長(zhǎng)變化信息具有關(guān)聯(lián)性,但這些時(shí)間特征往往被部分忽略或用簡(jiǎn)單化的模型來(lái)表示。對(duì)于支持向量機(jī)(SVM)和隨機(jī)森林(RF),序列中的每一個(gè)時(shí)間步都被視為一個(gè)獨(dú)立的維度,一般會(huì)采用過(guò)于簡(jiǎn)化的的經(jīng)驗(yàn)規(guī)則來(lái)表示時(shí)間特征[3],沒(méi)有利用序列關(guān)系。2D CNN僅在空間維卷積,在一定程度上由于其卷積的限制會(huì)丟失時(shí)間信息,對(duì)于光譜相似但物候信息差異較大的農(nóng)作物不能準(zhǔn)確分類(lèi)[32]。SVM和RF雖然利用光譜信息,但無(wú)法有效納入空間信息,而以圖像塊作為輸入單元的卷積神經(jīng)網(wǎng)絡(luò)(CNN)能夠提取空間相關(guān)信息和深層次特征,但由于2D CNN未能充分利用拼接后的多時(shí)相多光譜圖像的時(shí)間變化特征,與傳統(tǒng)模型SVM和RF相比,其分類(lèi)精度提高幅度并非顯著。這表明如果忽略分類(lèi)器的差異,拼接的多時(shí)相多光譜圖像具有很好的時(shí)空變化特征,并且與傳統(tǒng)CNN學(xué)習(xí)的最先進(jìn)的多層次表示相匹配。與2D CNN不同,3D CNN中的三維卷積核分別在空間和時(shí)間維上進(jìn)行卷積,它可以更好地提取多時(shí)相遙感數(shù)據(jù)的時(shí)空特征,因而3D CNN分類(lèi)精度明顯優(yōu)于2D CNN、SVM和RF模型。
本文中3D CNN模型的輸入數(shù)據(jù)需是多時(shí)相遙感影像,而2D CNN模型的輸入數(shù)據(jù)可以是單時(shí)相或多時(shí)相遙感影像。試驗(yàn)以2014-07-24單時(shí)相遙感影像為例,2D CNN在該單時(shí)相遙感影像上的農(nóng)作物分類(lèi)精度(OA=64.14%,1=57.84%,Kappa=0.601)遠(yuǎn)低于采用的多時(shí)相遙感影像(OA=83.92%,1=77.43%,Kappa=0.820)。結(jié)果表明時(shí)相因素在農(nóng)作物影像分類(lèi)中具有重要的作用,在農(nóng)作物物候期內(nèi)提高遙感影像的時(shí)間分辨率可以獲得更高的農(nóng)作物分類(lèi)精度[33]。為了減少空間關(guān)系信息對(duì)分類(lèi)結(jié)果的噪聲影響,本文將紋理信息作為分類(lèi)的輔助特征,并基于二階概率統(tǒng)計(jì)的濾波(Co-occurrence Measures)考慮了8種紋理特征[34]:均值(Mean)、方差(Variance)、協(xié)同性(Homogeneity)、對(duì)比度(Contrast)、相異性(Dissimilarity)、信息熵(Entropy)、二階矩(Second Moment)、相關(guān)性(Correlation)。上述紋理特征是由全向64位陰影灰度圖像生成的,本文使用的內(nèi)核大小為11×11,并以2D CNN模型和2014-07-24單時(shí)相遙感影像為例分析紋理特征對(duì)農(nóng)作物分類(lèi)精度的影響。試驗(yàn)結(jié)果顯示,相比該單時(shí)相影像(未疊加紋理特征),2D CNN在疊加紋理特征的影像上的分類(lèi)精度僅提高了0.68個(gè)百分點(diǎn)。Yang等[35]利用CNN(一維CNN和二維CNN)和多時(shí)相Sentinel-2數(shù)據(jù)對(duì)農(nóng)作物進(jìn)行分類(lèi),結(jié)果表明多時(shí)相遙感影像紋理信息對(duì)農(nóng)作物分類(lèi)精度的貢獻(xiàn)并不明顯。在基于CNN模型的多時(shí)相遙感農(nóng)作物分類(lèi)中,紋理信息主要用于輔助增強(qiáng)較小地物的特征表達(dá),光譜信息對(duì)農(nóng)作物分類(lèi)精度貢獻(xiàn)最大[36]。由于添加紋理特征后的輸入數(shù)據(jù)量較大,且對(duì)農(nóng)作物分類(lèi)精度提升不顯著,因此本文模型輸入數(shù)據(jù)僅使用未疊加紋理特征的多時(shí)相遙感影像。
為了評(píng)估所提方法的分類(lèi)性能,本文搜集了國(guó)內(nèi)外不同學(xué)者利用加利福尼亞州縣級(jí)土地利用調(diào)查數(shù)據(jù)和Landsat影像對(duì)農(nóng)作物進(jìn)行分類(lèi)的試驗(yàn)結(jié)果,并對(duì)幾種先進(jìn)的分類(lèi)方法1D CNN(+增強(qiáng)植被指數(shù))[8]、Inception+1D CNN(+多光譜影像)[17]、1D CNN(+植被指數(shù)組合)[37]進(jìn)行了比較,如表4所示。以1D CNN(+增強(qiáng)植被指數(shù))為例,該模型復(fù)雜度相對(duì)較小,該研究中農(nóng)作物類(lèi)別數(shù)為14(與本文試驗(yàn)類(lèi)別數(shù)接近),其中有兩類(lèi)農(nóng)作物分類(lèi)精度低于60%。雖然本文采用的混合3D-2D CNN模型參數(shù)量較大,但是試驗(yàn)僅使用了8景多時(shí)相Landsat8數(shù)據(jù)以及相對(duì)較小的訓(xùn)練集便獲得了與其他先進(jìn)模型相當(dāng)?shù)姆诸?lèi)精度。由于時(shí)空三維卷積模型復(fù)雜度高且對(duì)樣本數(shù)據(jù)量要求大,一般來(lái)說(shuō),由于受野外調(diào)查條件等限制,遙感分類(lèi)模型中的大樣本數(shù)據(jù)集難以獲取[38],大樣本數(shù)據(jù)要求難以滿(mǎn)足,因而難以保證3D CNN模型的高精度分類(lèi)。如何保證小樣本情況下深度學(xué)習(xí)模型的分類(lèi)精度及穩(wěn)定性是當(dāng)前遙感領(lǐng)域亟需解決的重要問(wèn)題[39-40]。本研究提出的混合3D-2D CNN模型,既保留了3D CNN時(shí)空三維特征,同時(shí)又降低了模型復(fù)雜度及時(shí)空維度,因而與其他模型相比取得了較高的分類(lèi)精度。試驗(yàn)也表明即使在10%和5%的小樣本訓(xùn)練集上,混合3D-2D CNN模型仍然表現(xiàn)最為優(yōu)異,并且也降低了模型計(jì)算的時(shí)間復(fù)雜度,因而它為復(fù)雜農(nóng)作物遙感分類(lèi)識(shí)別提供了一種重要的參考與借鑒。
表4 3D-2D CNN模型與其他先進(jìn)模型分類(lèi)性能對(duì)比
注:最后一個(gè)模型數(shù)據(jù)集劃分為訓(xùn)練集、測(cè)試集,其他的為訓(xùn)練集、驗(yàn)證集、測(cè)試集。
Note: The last model dataset is divided into training set and test set, and the others are training set, validation set and test set.
在實(shí)際應(yīng)用中,確定多時(shí)相農(nóng)作物制圖任務(wù)的輸入數(shù)據(jù)時(shí),常常會(huì)遇到一個(gè)兩難的問(wèn)題。原始時(shí)間序列在分類(lèi)中的使用是簡(jiǎn)單而直接的,但是序列中的信息可能沒(méi)有被充分挖掘,特別是對(duì)于那些本來(lái)就不具備處理時(shí)間關(guān)系的分類(lèi)器;通過(guò)擬合預(yù)定義曲線(xiàn)函數(shù)進(jìn)行物候提取,可以提供具有物理意義的有用特征,但其應(yīng)用受到曲線(xiàn)函數(shù)選擇的限制[8]。在某種程度上,基于時(shí)間卷積特征的混合3D-2D CNN模型在以上兩難問(wèn)題之間取得了平衡,它能夠有效地利用空間信息和時(shí)間特征以改進(jìn)分類(lèi)效果。因此,混合3D-2D CNN模型在時(shí)空特征表示方面具有可行性和有效性。未來(lái)的工作將繼續(xù)研究基于深度學(xué)習(xí)技術(shù)的農(nóng)作物制圖,挖掘不同輸入尺度下模型在農(nóng)作物分類(lèi)制圖精度中的潛力,在面向?qū)ο蟮幕A(chǔ)上以地塊為單元進(jìn)行分類(lèi),并對(duì)不同的算法進(jìn)行集成或決策融合以達(dá)到優(yōu)勢(shì)互補(bǔ),從而提高分類(lèi)精度,以期為中國(guó)農(nóng)業(yè)監(jiān)測(cè)提供支持輔助決策的農(nóng)作物類(lèi)型空間分布信息。
如何充分利用多時(shí)相遙感數(shù)據(jù),有效挖掘農(nóng)作物生育期內(nèi)物候規(guī)律,提高農(nóng)作物遙感分類(lèi)識(shí)別與制圖精度是當(dāng)前農(nóng)業(yè)遙感領(lǐng)域研究的重要課題。本文以加利福尼亞州北部農(nóng)業(yè)區(qū)為試驗(yàn)區(qū)域,利用Landsat8時(shí)間序列遙感數(shù)據(jù),提出了一種混合3D卷積和2D卷積為構(gòu)建塊的時(shí)空卷積深度網(wǎng)絡(luò)模型3D-2D CNN,并利用該模型實(shí)現(xiàn)了地塊尺度多種農(nóng)作物的精細(xì)分類(lèi)。主要結(jié)論如下:
1)針對(duì)研究區(qū)內(nèi)13種農(nóng)作物識(shí)別,混合3D-2D CNN模型取得了相對(duì)較高的分類(lèi)結(jié)果,其分類(lèi)精度(總體精度(Overall Accuracy,OA)=89.38%)優(yōu)于其他深度卷積模型3D CNN(OA=88.03%)、2D CNN(OA=83.92%),以及傳統(tǒng)淺層機(jī)器學(xué)習(xí)模型支持向量機(jī)(Support Vector Machines,SVM)(OA=81.36%)、隨機(jī)森林(Random Forest,RF)(OA=82.15%),表明該模型融合了3D CNN模型的時(shí)空特征挖掘能力,不需要額外的特征工程去構(gòu)建紋理特征,并實(shí)現(xiàn)端到端的農(nóng)作物自動(dòng)分類(lèi)。
2)在保證較高分類(lèi)精度的情況下,混合3D-2D CNN模型相比3D CNN模型的參數(shù)內(nèi)存需求和計(jì)算時(shí)間分別下降了44.10%和35.38%,表明該模型具有較低的模型復(fù)雜度以及較高的計(jì)算效率。
3)本文開(kāi)展以不同大小訓(xùn)練樣本的模型試驗(yàn)與驗(yàn)證研究,在占總數(shù)據(jù)10%和5%的兩種小樣本訓(xùn)練集上,混合3D-2D CNN模型(10%,OA=86.49%;5%,OA=82.99%)均取得了優(yōu)于其他模型3D CNN(10%,OA=85.09%;5%,OA=81.72%)、2D CNN(10%,OA=80.57%;5%,OA=76.05%)、SVM(10%,OA=78.69%;5%,OA=75.22%)、RF(10%,OA=79.48%;5%,OA=75.90%)的農(nóng)作物分類(lèi)精度,表明該模型在小數(shù)據(jù)集上的穩(wěn)定性和適用性。
本文所提出的混合3D-2D CNN模型可有效挖掘多時(shí)相遙感信息,并取得了較優(yōu)的農(nóng)作物遙感分類(lèi)結(jié)果,表明在時(shí)間序列分類(lèi)中該模型結(jié)構(gòu)設(shè)計(jì)的合理性及重要性,這為農(nóng)作物遙感制圖應(yīng)用提供了一種靈活和高度自動(dòng)化的方法。此外,3D-2D CNN模型有助于利用遙感數(shù)據(jù)進(jìn)行其他與變化、趨勢(shì)或動(dòng)態(tài)相關(guān)的建模過(guò)程。例如,在冰川融化、氣候變化和季節(jié)性森林動(dòng)態(tài)等研究的模型中嵌入三維卷積和二維卷積信息??傊谑褂脮r(shí)間序列遙感數(shù)據(jù)進(jìn)行分類(lèi)任務(wù)的眾多方法中,混合3D-2D CNN模型是一個(gè)可行且有效的選擇。
[1] 張鵬,胡守庚. 地塊尺度的復(fù)雜種植區(qū)作物遙感精細(xì)分類(lèi)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(20):125-134.
Zhang Peng, Hu Shougeng. Fine crop classification by remote sensing in complex planting areas based on field parcel[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(20): 125-134. (in Chinese with English abstract)
[2] Li Z, Chen G, Zhang T. A CNN-Transformer hybrid approach for crop classification using multitemporal multisensor images[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 847-858.
[3] Ji S, Zhang C, Xu A, et al. 3D convolutional neural networks for crop classification with multi-temporal remote sensing images[J]. Remote Sensing, 2018, 10(1): 75.
[4] Guerschman J P, Paruelo J M, Bella C D, et al. Land cover classification in the Argentine Pampas using multi-temporal Landsat TM data[J]. International Journal of Remote Sensing, 2003, 24(17): 3381-3402.
[5] 胡瓊,吳文斌,宋茜,等. 農(nóng)作物種植結(jié)構(gòu)遙感提取研究進(jìn)展[J]. 中國(guó)農(nóng)業(yè)科學(xué),2015,48(10):1900-1914.
Hu Qiong, Wu Wenbin, Song Qian, et al. Recent progresses in research of crop patterns mapping by using remote sensing[J]. Scientia Agricultura Sinica, 2015, 48(10): 1900-1914. (in Chinese with English abstract)
[6] Xie Y, Sha Z, Yu M. Remote sensing imagery in vegetation mapping: A review[J]. Journal of Plant Ecology, 2008, 1(1): 9-23.
[7] Sheykhmousa M, Mahdianpari M, Ghanbari H, et al. Support vector machine vs. random forest for remote sensing image classification: A meta-analysis and systematic review[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 6308-6325.
[8] Zhong L, Hu L, Zhou H, et al. Deep learning based multi-temporal crop classification[J]. Remote Sensing of Environment, 2019, 221: 430-443.
[9] Kamilaris A, Prenafeta-Boldú F X. A review of the use of convolutional neural networks in agriculture[J]. The Journal of Agricultural Science, 2018, 156(3): 312-322.
[10] Garnot V S F, Landrieu L, Giordano S, et al. Time-Space tradeoff in deep learning models for crop classification on satellite multi-spectral image time series[C]//IGARSS 2019-2019 IEEE International Geoscience and Remote Sensing Symposium. Yokohama: IEEE, 2019: 6247-6250.
[11] Gadiraju K K, Ramachandra B, Chen Z, et al. Multimodal deep learning based crop classification using multispectral and multitemporal satellite imagery[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: Association for Computing Machinery, 2020: 3234-3242.
[12] 屈煬,袁占良,趙文智,等. 基于多時(shí)序特征和卷積神經(jīng)網(wǎng)絡(luò)的農(nóng)作物分類(lèi)[J]. 遙感技術(shù)與應(yīng)用,2021,36(2):304-313.
Qu Yang, Yuan Zhanliang, Zhao Wenzhi, et al. Crop classification based on multi-temporal features and convolutional neural network[J]. Remote Sensing Technology and Application, 2021, 36(2): 304-313. (in Chinese with English abstract)
[13] 解毅,張永清,荀蘭,等. 基于多源遙感數(shù)據(jù)融合和LSTM算法的作物分類(lèi)研究[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(15):129-137.
Xie Yi, Zhang Yongqing, Xun Lan, et al. Crop classification based on multi-source remote sensing data fusion and LSTM algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(15): 129-137. (in Chinese with English abstract)
[14] Li H, Zhang C, Zhang S, et al. A hybrid OSVM-OCNN method for crop classification from fine spatial resolution remotely sensed imagery[J]. Remote Sensing, 2019, 11(20): 2370.
[15] Li H, Zhang C, Zhang S, et al. Crop classification from full-year fully-polarimetric L-band UAVSAR time-series using the Random Forest algorithm[J]. International Journal of Applied Earth Observation and Geoinformation, 2020, 87: 102032.
[16] Roy S K, Krishna G, Dubey S R, et al. HybridSN: Exploring 3-D–2-D CNN feature hierarchy for hyperspectral image classification[J]. IEEE Geoscience and Remote Sensing Letters, 2019, 17(2): 277-281.
[17] García Pereira A, Porwol L, Ojo A, et al. Exploiting the temporal dimension of remotely sensed imagery with deep learning models[C]//Proceedings of the 54th Hawaii International Conference on System Sciences. Hawaii: HICSS, 2021: 5317.
[18] LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[19] Schmidhuber J. Deep learning in neural networks: An overview[J]. Neural Networks, 2015, 61: 85-117.
[20] Zhang C, Sargent I, Pan X, et al. An object-based convolutional neural network (OCNN) for urban land use classification[J]. Remote Sensing of Environment, 2018, 216: 57-70.
[21] Li J, Liang B, Wang Y. A hybrid neural network for hyperspectral image classification[J]. Remote Sensing Letters, 2020, 11(1): 96-105.
[22] Li H, Huang J, Ji S. Bearing fault diagnosis with a feature fusion method based on an ensemble convolutional neural network and deep neural network[J]. Sensors, 2019, 19(9): 2034.
[23] Kampffmeyer M, Salberg A B, Jenssen R. Semantic segmentation of small objects and modeling of uncertainty in urban remote sensing images using deep convolutional neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Las Vegas: IEEE, 2016: 1-9.
[24] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2999-3007.
[25] Bayr U, Puschmann O. Automatic detection of woody vegetation in repeat landscape photographs using a convolutional neural network[J]. Ecological Informatics, 2019, 50: 220-233.
[26] Liaw A, Wiener M. Classification and regression by randomForest[J]. R news, 2002, 2(3): 18-22.
[27] Cortes C, Vapnik V. Support-vector networks[J]. Machine learning, 1995, 20(3): 273-297.
[28] Zhang J, Feng L, Yao F. Improved maize cultivated area estimation over a large scale combining MODIS–EVI time series data and crop phenological information[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2014, 94: 102-113.
[29] Kingma D P, Ba J. Adam: A method for stochastic optimization[EB/OL]. arXiv preprint arXiv: 1412.6980, 2014.
[30] 馬凱,羅澤. 基于卷積神經(jīng)網(wǎng)絡(luò)的青海湖區(qū)域遙感影像分類(lèi)[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2018,27(9):137-142.
Ma Kai, Luo Ze. Classification of remote sensing images in Qinghai lake based on convolutional neural network[J]. Computer Systems and Applications, 2018, 27(9): 137-142. (in Chinese with English abstract)
[31] 汪傳建,趙慶展,馬永建,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的無(wú)人機(jī)遙感農(nóng)作物分類(lèi)[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2019,50(11):161-168.
Wang Chuanjian, Zhao Qingzhan, Ma Yongjian, et al. Crop identification of drone remote sensing based on convolutional neural network[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(11): 161-168. (in Chinese with English abstract)
[32] Kussul N, Lavreniuk M, Skakun S, et al. Deep learning classification of land cover and crop types using remote sensing data[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(5): 778-782.
[33] Qiong H U, Wu W, Qian S, et al. How do temporal and spectral features matter in crop classification in Heilongjiang Province, China?[J]. Journal of Integrative Agriculture, 2017, 16(2): 324-336.
[34] Zhou H, Fu L, Sharma R P, et al. A hybrid approach of combining random forest with texture analysis and VDVI for desert vegetation mapping based on UAV RGB data[J]. Remote Sensing, 2021, 13(10): 1891.
[35] Yang S, Gu L, Li X, et al. Crop classification method based on optimal feature selection and hybrid CNN-RF networks for multi-temporal remote sensing imagery[J]. Remote Sensing, 2020, 12(19): 3119.
[36] 周壯,李盛陽(yáng),張康,等. 基于CNN和農(nóng)作物光譜紋理特征進(jìn)行作物分布制圖[J]. 遙感技術(shù)與應(yīng)用,2019,34(4):694-703.
Zhou Zhuang, Li Shengyang, Zhang Kang, et al. Crop mapping using remotely sensed spectral and context features based on CNN[J]. Remote Sensing Technology and Application, 2019, 34(4): 694-703. (in Chinese with English abstract)
[37] 屈煬,袁占良,趙文智,等. 基于多時(shí)序特征和卷積神經(jīng)網(wǎng)絡(luò)的農(nóng)作物分類(lèi)[J]. 遙感技術(shù)與應(yīng)用,2021,36(2):304-313.
Qu Yang, Yuan Zhanliang, Zhao Wenzhi, et al. Crop classification based on multi-temporal features and convolutional neural network[J]. Remote Sensing Technology and Application, 2021, 36(2): 304-313.
[38] Elmes A, Alemohammad H, Avery R, et al. Accounting for training data error in machine learning applied to Earth observations[J]. Remote Sensing, 2020, 12(6): 1034.
[39] Karpatne A, Ebert-Uphoff I, Ravela S, et al. Machine learning for the geosciences: Challenges and opportunities[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 31(8): 1544-1554.
[40] Tian T, Li C, Xu J, et al. Urban area detection in very high resolution remote sensing images using deep convolutional neural networks[J]. Sensors, 2018, 18(3): 904.
Multi-temporal remote sensing based crop classification using a hybrid 3D-2D CNN model
Lu Yuanbing1,2, Li Huapeng1※, Zhang Shuqing1
(1.,,130102,; 2.,100049,)
Reliable and accurate classification of crop types can greatly contribute to data sources in agricultural monitoring and food security. Remote sensing can be used to rapidly and accurately extract the planting areas and distribution of main crops, thereby optimizing the spatial pattern of crops, grain production, and management. However, it is extremely difficult to identify and then map different types of crops with high accuracy and efficiency, especially for traditional machine learning. The reason is that there are highly complex and heterogeneous spectral data in crop space on time-series remote sensing images. Fortunately, three-dimensional convolution neural networks (3D CNN) are suitable for the spatio-temporal information in the time-series remote sensing imagery. Nevertheless, the high complexity of the 3D CNN model often requires a large number of training samples. In this study, a novel hybrid classification model (called 3D-2D CNN) was proposed to integrate 3D CNN and two-dimensional convolution neural networks (2D CNN) in the trade-off among accuracy, efficiency, and ground sample acquisition. The specific procedure was as follows. The spatio-temporal features were first extracted from the multiple 3D convolutional layers, then the output features were compressed for the spatial feature analysis in the 2D convolutional layer, and finally the high-level maps of features were flattened to predict the category in the fully connected layer. Batch normalization was performed on the input data of each layer to accelerate the network convergence. As such, the complex structure of the original 3D CNN was reduced, while the capacity of 3D-2D CNN remained in spatio-temporal feature extraction. Taking northern California, USA, as the study area, Landsat8 multi-temporal images were utilized as the remote sensing data source in the test to verify the model. Landsat images presented specific characteristics, compared with the natural. The spectral and texture features of the same type varied greatly along with the imaging time and conditions. California agricultural investigation was used as sampling data. Accordingly, the land plots in the study area were randomly divided into a training, validation, and test region, according to 2:2:6 stratification, where the training and validation sample datasets were randomly selected. Since the overflow easily occurred, when the training dataset was limited in actual work, it was necessary for the deep learning model to require a large number of data samples to train a CNN. Correspondingly, two small sample sets of different proportions were randomly selected from the training sample set of 50% and 25% to verify the feasibility of the model. The trained models were then used to predict the test region. The experimental results showed that the overall accuracy (89.38%), macro-average1 value (84.21%), and Kappa coefficient (0.881) of 3D-2D CNN for 13 crop classifications performed better than other deep learning, including 3D CNN and 2D CNN, as well as traditional machine learning, such as Support Vector Machines (SVM) and Random Forest (RF). It should be mentioned that the proposed 3D-2D CNN also achieved the best performance in the small training set, where the highest recognition rate of classification was obtained, compared with the benchmark models. Meanwhile, the convergence time of 3D-2D CNN was reduced greatly, compared with the 3D CNN, thanks to a significant reduction of parameters. It was found that there was a greater effect of temporal features of crops that were hidden in multi-temporal remote sensing imagery on CNN classification, compared with texture features. Consequently, the highest accuracy and strongest robustness were obtained in the 3D-2D CNN model, due mainly to the comprehensive utilization of spatial-temporal-spectrum features. The finding can provide a highly effective and novel solution to crop classification from multi-temporal remote sensing.
remote sensing; crops; multi-temporal field parcel; classification; deep learning; CNN
盧元兵,李華朋,張樹(shù)清. 基于混合3D-2D CNN的多時(shí)相遙感農(nóng)作物分類(lèi)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(13):142-151.
10.11975/j.issn.1002-6819.2021.13.017 http://www.tcsae.org
Lu Yuanbing, Li Huapeng, Zhang Shuqing. Multi-temporal remote sensing based crop classification using a hybrid 3D-2D CNN model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(13): 142-151. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.13.017 http://www.tcsae.org
2020-12-02
2021-06-29
中科院戰(zhàn)略性先導(dǎo)科技專(zhuān)項(xiàng)項(xiàng)目課題(XDA28010500);國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2017YFB0503602)
盧元兵,博士生,研究方向?yàn)檗r(nóng)業(yè)遙感、遙感信息智能化提取與分析。Email:luyuanbing@iga.ac.cn
李華朋,博士,副研究員,研究方向?yàn)檗r(nóng)業(yè)遙感、遙感信息智能化提取與分析、時(shí)空大數(shù)據(jù)挖掘。Email:lihuapeng@iga.ac.cn
10.11975/j.issn.1002-6819.2021.13.017
TP79; S127
A
1002-6819(2021)-13-0142-10