鄭二功,田迎芳,陳 濤
(1.空軍航空大學(xué) 航空作戰(zhàn)勤務(wù)學(xué)院,吉林 長(zhǎng)春 130022; 2.河南省農(nóng)業(yè)科學(xué)院,河南 鄭州 450002;3.中國(guó)人民保險(xiǎn)集團(tuán)股份有限公司 吉林省分公司,吉林 長(zhǎng)春 130000)
倒伏是玉米在生長(zhǎng)過(guò)程中因風(fēng)雨或管理不當(dāng)而植株傾斜或著地的一種生產(chǎn)災(zāi)害。在我國(guó)東北和華北兩大玉米主產(chǎn)區(qū),玉米生長(zhǎng)期盛行夏季季風(fēng),暴雨、大風(fēng)等災(zāi)害性天氣頻發(fā),易發(fā)生大面積倒伏。倒伏不僅影響玉米植株的光合作用和養(yǎng)分輸導(dǎo)的正常進(jìn)行,還易使玉米植株發(fā)生各種病蟲(chóng)害。研究表明,玉米在不同生長(zhǎng)時(shí)期倒伏對(duì)產(chǎn)量有不同的影響,吐絲期后倒伏越早,穗粒數(shù)越少,百粒質(zhì)量越低,減產(chǎn)越多[1],抽雄期不同倒伏程度可減產(chǎn)5.8%~89.9%[2]。災(zāi)害發(fā)生后,快速準(zhǔn)確地獲取玉米倒伏信息,有助于農(nóng)業(yè)生產(chǎn)管理部門(mén)和農(nóng)業(yè)保險(xiǎn)公司確定受災(zāi)面積、評(píng)估減產(chǎn)損失,并及時(shí)采取各項(xiàng)災(zāi)后生產(chǎn)管理和救助措施。
目前,獲取玉米倒伏信息的方法主要有人工法和遙感法。人工法是調(diào)查人員采取逐塊或抽樣方式,實(shí)地勘查、測(cè)量倒伏面積的方法,存在工作效率低、隨機(jī)性大等缺點(diǎn)。遙感法是根據(jù)遙感影像中倒伏玉米與未倒伏玉米在光譜、色彩、紋理等特征上的差異,識(shí)別并獲取倒伏信息的方法。王猛等[3-4]利用地物光譜儀采集玉米的冠層光譜數(shù)據(jù),對(duì)比分析顯示,倒伏后玉米冠層光譜反射率增加,可見(jiàn)光波段的改變幅度大于近紅外波段;楊粉團(tuán)等[5]設(shè)置不同倒伏程度的田間模擬試驗(yàn),分析了倒伏角度與高光譜參數(shù)之間的相關(guān)關(guān)系;韓東等[6]利用衛(wèi)星雷達(dá)影像,篩選出最佳敏感后向散射系數(shù)作為倒伏程度評(píng)價(jià)指標(biāo);李宗南等[7]利用高分辨多光譜衛(wèi)星影像分析倒伏玉米的光譜和紋理特征,估算倒伏面積;王立志等[8]利用多時(shí)相CCD衛(wèi)星影像構(gòu)建基于植被指數(shù)變化分析的玉米倒伏災(zāi)情遙感監(jiān)測(cè)模型。衛(wèi)星遙感雖有覆蓋范圍大、高效的優(yōu)點(diǎn),但也受時(shí)空分辨率和光譜波段等性能的限制,遙感數(shù)據(jù)應(yīng)用具有多解性和不確定性[9]。近年來(lái),隨著無(wú)人機(jī)技術(shù)的飛速發(fā)展,無(wú)人機(jī)遙感得到越來(lái)越廣泛的應(yīng)用。李宗南等[10]通過(guò)小型無(wú)人機(jī)遙感獲取的RGB彩色圖像,研究灌漿期玉米倒伏的圖像特征,利用圖像的色彩和紋理特征提取玉米倒伏區(qū)域。在農(nóng)業(yè)保險(xiǎn)領(lǐng)域,一些保險(xiǎn)公司開(kāi)始使用無(wú)人機(jī)遙感勘查玉米倒伏面積,探索“按圖理賠”的農(nóng)險(xiǎn)新模式[11-12]。但是,目前對(duì)獲取的無(wú)人機(jī)影像還主要依賴(lài)目視解譯來(lái)確定玉米倒伏信息。
深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)的一個(gè)分支,其概念源于人工神經(jīng)網(wǎng)絡(luò)的研究,含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過(guò)組合低層特征形成更加抽象的高層表示屬性類(lèi)別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示[13]。2012年以來(lái),深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)三大任務(wù)——分類(lèi)[14-16]、檢測(cè)[17-18]和分割[19]中均取得了突破性進(jìn)展,在圖像分類(lèi)任務(wù)中卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)甚至超過(guò)了人類(lèi)水平[20]。全卷積網(wǎng)絡(luò)(Fully convolutional network,F(xiàn)CN)[19]是CNN的一種擴(kuò)展結(jié)構(gòu),可以實(shí)現(xiàn)圖像的像素級(jí)分類(lèi),2015年一經(jīng)提出就在圖像分割領(lǐng)域得到廣泛應(yīng)用[21-24]。深度學(xué)習(xí)技術(shù)的突破,為基于機(jī)器學(xué)習(xí)自動(dòng)獲取玉米倒伏信息奠定了技術(shù)基礎(chǔ)?;诖?,本研究提出一種基于深度學(xué)習(xí)的無(wú)人機(jī)影像中玉米倒伏區(qū)域提取方法,該方法將玉米倒伏區(qū)域提取建模為圖像分割問(wèn)題,首先利用無(wú)人機(jī)遙感采集影像,通過(guò)人工標(biāo)注建立玉米倒伏分割圖像庫(kù),然后構(gòu)建FCN圖像分割網(wǎng)絡(luò),學(xué)習(xí)大量玉米倒伏圖像的實(shí)際樣本,最終實(shí)現(xiàn)對(duì)玉米倒伏區(qū)域的自動(dòng)分割,為運(yùn)用無(wú)人機(jī)遙感進(jìn)行玉米倒伏災(zāi)害評(píng)估提供依據(jù)。
吉林省地處中緯度地帶,屬溫帶大陸性季風(fēng)氣候。春季干燥多風(fēng),夏季溫暖多雨,秋季晴冷溫差大,冬季漫長(zhǎng)干寒。作物種植為一年一熟制,主要農(nóng)作物是玉米、水稻和大豆。玉米一般在4月下旬至5月上旬完成播種,同年10月收獲。夏季易發(fā)洪澇并伴隨大風(fēng),導(dǎo)致玉米大面積倒伏。
本研究數(shù)據(jù)來(lái)源于2016年9月14日在吉林省長(zhǎng)春市德惠市米沙子鎮(zhèn)三勝村進(jìn)行的無(wú)人機(jī)遙感試驗(yàn)。采用多旋翼無(wú)人機(jī)掛載索尼QX1型CCD相機(jī),圖像分辨率為5 456×3 632像素,設(shè)計(jì)飛行相對(duì)航高170 m,航線4條,航向重疊率為80%,旁向重疊率為60%,地面采樣距離不大于5 cm/像素,航拍獲取了玉米農(nóng)田及周邊區(qū)域約2 000張圖像。
選取第1條航線拍攝的圖像構(gòu)建圖像分割的訓(xùn)練集和驗(yàn)證集,具體步驟如下:
(1)初步篩選:利用姿態(tài)數(shù)據(jù)篩選出無(wú)人機(jī)姿態(tài)平穩(wěn)、高度穩(wěn)定時(shí)拍攝的含有倒伏玉米區(qū)域的316幅原始圖像。
(2)人工標(biāo)注:通過(guò)目視解譯,將玉米倒伏區(qū)域標(biāo)注為前景(用1表示),其他區(qū)域標(biāo)注為背景(用0表示),建立標(biāo)簽圖像,作為分割訓(xùn)練或評(píng)價(jià)的標(biāo)簽。
(3)裁剪:將(1)、(2)步驟得到的圖像分別裁剪成互不重疊的512×512像素的小圖,為克服類(lèi)別不平衡問(wèn)題,只保留圖像中玉米倒伏區(qū)域占比為20%~80%的小圖,共得到4 969幅小圖,其中3 962幅作為訓(xùn)練集,1 007幅作為驗(yàn)證集。
(4)數(shù)據(jù)擴(kuò)增:研究表明,數(shù)據(jù)擴(kuò)增可以提高神經(jīng)網(wǎng)絡(luò)的泛化性能[14]。因此,對(duì)訓(xùn)練集和驗(yàn)證集中的每一幅圖像做5種數(shù)據(jù)擴(kuò)增方式,分別是:旋轉(zhuǎn)90°、180°、270°,水平和垂直翻轉(zhuǎn)。最終,訓(xùn)練集有23 772幅圖像,驗(yàn)證集有6 042幅圖像。
為避免訓(xùn)練集與測(cè)試集圖像中地物有重疊,選取第4條航線拍攝的圖像構(gòu)建測(cè)試集。人工標(biāo)注玉米倒伏區(qū)域,得到由180幅5 456×3 632大小的圖像組成的測(cè)試集,圖1所示為其中4幅玉米倒伏地塊圖像。
將玉米倒伏區(qū)域提取看作圖像分割問(wèn)題,利用深度學(xué)習(xí)技術(shù)中的全卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行像素級(jí)分類(lèi),從而實(shí)現(xiàn)倒伏區(qū)域提取。
圖1 玉米倒伏地塊圖像
1.4.1 FCN圖像分割網(wǎng)絡(luò)架構(gòu) 圖像分類(lèi)CNN在卷積層之后使用全連接層來(lái)獲得固定長(zhǎng)度的特征向量進(jìn)行分類(lèi),由于全連接層必須是固定尺寸輸入,這就導(dǎo)致輸入圖像的尺寸必須固定。與經(jīng)典CNN不同,F(xiàn)CN將全連接層轉(zhuǎn)化卷積層,并對(duì)最后幾個(gè)卷積層采用反卷積進(jìn)行上采樣,使它恢復(fù)到輸入圖像相同的尺寸,從而可以對(duì)每個(gè)像素都產(chǎn)生一個(gè)預(yù)測(cè),同時(shí)也保留了原始輸入圖像中的空間信息。FCN的明顯優(yōu)點(diǎn)是,可以接受任意大小的輸入圖像,而不用要求所有的訓(xùn)練圖像和測(cè)試圖像具有相同的尺寸。
本研究采用基于VGG16[15]的FCN-8s[19]網(wǎng)絡(luò)架構(gòu)作為圖像分割網(wǎng)絡(luò),它由編碼器和解碼器兩部分組成,如圖2所示。其中,上半部分為編碼器,基于VGG16圖像分類(lèi)模型;下半部分為解碼器,對(duì)編碼器的輸出卷積層conv7進(jìn)行反卷積上采樣,并利用跳轉(zhuǎn)連接,融合編碼器中的池化層pool4和pool3,來(lái)幫助確定更精確的位置信息,最后通過(guò)8倍反卷積上采樣得到原始圖像大小的分割預(yù)測(cè)結(jié)果。需要指出的是,與原始FCN-8s不同,由于本研究對(duì)倒伏玉米區(qū)域的分割,相當(dāng)于二分類(lèi),所以在原始FCN-8s架構(gòu)的21類(lèi)分割預(yù)測(cè)層之后增加了一個(gè)1×1卷積層,從而得到二類(lèi)分割預(yù)測(cè)。
圖2 FCN圖像分割網(wǎng)絡(luò)架構(gòu)
1.4.2 FCN圖像分割網(wǎng)絡(luò)的訓(xùn)練 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練分為前向傳播和反向傳播2個(gè)階段。前向傳播計(jì)算網(wǎng)絡(luò)輸出值與期望值之間的誤差,反向傳播則根據(jù)前者計(jì)算的誤差,利用鏈?zhǔn)角髮?dǎo)法則和梯度下降法,反向逐層調(diào)整神經(jīng)網(wǎng)的權(quán)重。利用大量數(shù)據(jù)對(duì)這2個(gè)階段反復(fù)迭代,最終得到一組優(yōu)化的神經(jīng)網(wǎng)絡(luò)權(quán)重參數(shù)。
本研究采用DIGITS+Caffe的深度學(xué)習(xí)軟件配置。DIGITS是英偉達(dá)(NVIDIA)公司開(kāi)發(fā)的一個(gè)網(wǎng)頁(yè)版交互式深度學(xué)習(xí)GPU(Graphics processing unit,圖形處理器)訓(xùn)練系統(tǒng),目前后端支持Caffe、Torch和Tensorflow 3種深度學(xué)習(xí)框架,可以方便地實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)、訓(xùn)練和可視化。具體訓(xùn)練參數(shù)設(shè)置:損失函數(shù)為交叉熵?fù)p失函數(shù),優(yōu)化算法選擇隨機(jī)梯度下降法,批大小設(shè)為2,訓(xùn)練周期設(shè)為30,初始基準(zhǔn)學(xué)習(xí)率設(shè)為0.000 1,并且每過(guò)10個(gè)訓(xùn)練周期學(xué)習(xí)率衰減10倍。此外,用在PASCAL VOC2012[25]圖像語(yǔ)義分割數(shù)據(jù)集上預(yù)訓(xùn)練的FCN-8s模型作為本研究分割網(wǎng)絡(luò)的初始化權(quán)重,然后用1.3中構(gòu)建的訓(xùn)練集和驗(yàn)證集進(jìn)行訓(xùn)練。深度學(xué)習(xí)訓(xùn)練需要大量的數(shù)據(jù),在數(shù)據(jù)量有限的情況下,采用這種遷移學(xué)習(xí)[26]的方法,比隨機(jī)初始化網(wǎng)絡(luò)參數(shù)、從頭開(kāi)始訓(xùn)練的收斂速度更快,得到的網(wǎng)絡(luò)權(quán)重更好。
在硬件配置為英特爾i7-7700K處理器、GTX1080Ti GPU、32 G內(nèi)存的電腦上,F(xiàn)CN圖像分割網(wǎng)絡(luò)訓(xùn)練共耗時(shí)約47 h。為了評(píng)價(jià)分割網(wǎng)絡(luò)提取玉米倒伏區(qū)域的性能,采用1.3中構(gòu)建的測(cè)試集,計(jì)算準(zhǔn)確率(Precision)、召回率(Recall)和F1分?jǐn)?shù)3個(gè)評(píng)價(jià)指標(biāo)[27]。準(zhǔn)確率表示被分割為前景的區(qū)域中實(shí)際是前景的占比;召回率表示實(shí)際為前景的區(qū)域中被分割為前景的占比;F1分?jǐn)?shù)是準(zhǔn)確率和召回率的調(diào)和均值,定義如式(1)所示,數(shù)值范圍為[0,1],反映了圖像分割的綜合性能,數(shù)值越大表示性能越好。
圖3給出了對(duì)圖1中4個(gè)地塊的分割結(jié)果,表1給出了在4個(gè)地塊上的性能指標(biāo)。可以看出,無(wú)論是帶狀還是片狀倒伏區(qū)域,本研究方法都能夠提取出來(lái),特別是對(duì)于大面積倒伏區(qū)域(如地塊2、4),具有更高的提取精度。表1還給出了在整個(gè)測(cè)試集上的平均性能,F(xiàn)1分?jǐn)?shù)達(dá)到90%以上。
圖3 倒伏區(qū)域提取結(jié)果
訓(xùn)練集和測(cè)試集都是未經(jīng)正射校正的圖像,為了進(jìn)一步測(cè)試分割網(wǎng)絡(luò)對(duì)正射影像的分割性能,選取10幅連續(xù)拍攝的圖像,用PhotoScan軟件進(jìn)行正射校正和影像拼接,得到1幅10 499×13 633像素的正射影像,如圖4a所示。圖4b給出了倒伏區(qū)域提取結(jié)果,以人工標(biāo)注結(jié)果為基準(zhǔn),準(zhǔn)確率、召回率、F1分?jǐn)?shù)分別為93.65%、83.89%、88.50%??梢?jiàn),本方法對(duì)正射影像也具有很好的泛化性能。
圖4 正射影像的倒伏區(qū)域提取
本研究將深度學(xué)習(xí)應(yīng)用到無(wú)人機(jī)影像中玉米倒伏區(qū)域的提取,利用全卷積網(wǎng)絡(luò)圖像分割方法提取玉米倒伏區(qū)域。結(jié)果表明,基于深度學(xué)習(xí)的方法能夠有效識(shí)別和分割出倒伏的區(qū)域,且不需要手工提取圖像特征,實(shí)現(xiàn)了端到端的學(xué)習(xí),對(duì)光照、拍攝角度及其他地物干擾等具有較強(qiáng)的適應(yīng)能力。本研究既可為運(yùn)用無(wú)人機(jī)遙感進(jìn)行玉米倒伏災(zāi)害評(píng)估提供技術(shù)支撐,也可為大數(shù)據(jù)背景下人工智能+現(xiàn)代農(nóng)業(yè)領(lǐng)域的其他應(yīng)用提供有益參考。但受條件限制,研究過(guò)程還有一些不足之處需要進(jìn)一步完善。一是要豐富圖像數(shù)據(jù)的多樣性,不同的生長(zhǎng)時(shí)期、不同的倒伏角度以及倒伏后不同的時(shí)間段,倒伏玉米具有不同的光譜特征,需要采集更豐富多樣的玉米倒伏圖像,進(jìn)一步提升分割網(wǎng)絡(luò)對(duì)各種復(fù)雜情況的泛化能力;二是要提高圖像數(shù)據(jù)的標(biāo)注質(zhì)量,與道路、房屋等地物具有明顯的邊界不同,倒伏玉米與未倒伏玉米之間的邊界具有一定的模糊性,需要具有相關(guān)知識(shí)的專(zhuān)家進(jìn)行準(zhǔn)確的手工標(biāo)注,才能訓(xùn)練出更好的神經(jīng)網(wǎng)絡(luò)模型參數(shù)。