程 坤,張 斌,郭 新
(1.中國(guó)地質(zhì)大學(xué)(武漢)地理與信息工程學(xué)院,湖北 武漢 430074;2.武漢工程大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430205)
在農(nóng)業(yè)領(lǐng)域,地下水豐富或地表水稀缺地區(qū)的農(nóng)田可以嘗試軸心灌溉方式,其主要工作原理為:抽取地下水并圍繞軸心旋轉(zhuǎn)澆灌植被。軸心灌溉方式能較大程度地節(jié)約灌溉用水和勞動(dòng)力成本,目前在許多國(guó)家和地區(qū)如沙特阿拉伯、美國(guó)和中國(guó)的內(nèi)蒙古黑龍江等地區(qū)得到廣泛應(yīng)用。這種軸心灌溉農(nóng)田在遙感影像上呈現(xiàn)為規(guī)則的圓形形狀,利用深度學(xué)習(xí)的目標(biāo)檢測(cè)算法對(duì)其進(jìn)行識(shí)別提取,可以為產(chǎn)量預(yù)測(cè)、資源分配、經(jīng)濟(jì)規(guī)劃、支持推廣等提供重要數(shù)據(jù)服務(wù),具有極大的可行性和實(shí)用價(jià)值。
針對(duì)檢測(cè)網(wǎng)絡(luò)對(duì)于多尺度目標(biāo)檢測(cè)能力較弱的問(wèn)題,為了更充分地利用骨干網(wǎng)提取出的特征信息,特征金字塔(Feature Pyramid Network,F(xiàn)PN)將兩個(gè)相鄰特征圖進(jìn)行組合連接來(lái)構(gòu)建特征金字塔,生成的融合多尺度特征可以提升網(wǎng)絡(luò)對(duì)于小目標(biāo)的檢測(cè)能力。在FPN 單向的自深到淺融合的基礎(chǔ)上,EfficientDet 正式構(gòu)建了雙向特征金字塔BiFPN,雙向特征融合可有效提升小目標(biāo)的檢測(cè)精度。
遙感影像上的目標(biāo)大小極具變化性,為提高檢測(cè)模型對(duì)于多尺寸目標(biāo)的檢測(cè)能力,首先使用特征提取能力更強(qiáng)的Resnet 作為改進(jìn)的YOLOv3 的骨干網(wǎng)絡(luò);其次構(gòu)建雙向特征金字塔模塊,實(shí)現(xiàn)從深到淺和從淺到深的雙向融合,提升淺層預(yù)測(cè)分支的目標(biāo)分類(lèi)能力和深層預(yù)測(cè)分支的目標(biāo)定位能力。同時(shí),使用Dropblock 區(qū)域正則進(jìn)行特征取舍,使網(wǎng)絡(luò)學(xué)習(xí)到更全面的目標(biāo)特征,提高網(wǎng)絡(luò)模型的泛化能力。通過(guò)在公開(kāi)遙感數(shù)據(jù)集HRRSD上的結(jié)果表明,改進(jìn)后的模型在檢測(cè)精度上較原網(wǎng)絡(luò)獲得了較大提升,精度相對(duì)于原版YOLOv3 提高1.99%。在制作的西北地區(qū)圓形灌溉農(nóng)田數(shù)據(jù)集RF上,可達(dá)94.84%的精度和42.2 f/s 的速度。
YOLO 系列是深度學(xué)習(xí)目標(biāo)檢測(cè)中單階段模型的經(jīng)典代表,憑借著極快的檢測(cè)速度和不斷提高的檢測(cè)精度,得到了廣泛的研究和應(yīng)用,最新發(fā)表的YOLOv4 也是在此基礎(chǔ)上添加或修改而底層邏輯不變,本研究綜合考慮模型的檢測(cè)速度和精度以及實(shí)驗(yàn)的技術(shù)和條件,以YOLOv3為研究對(duì)象進(jìn)行遙感影像的目標(biāo)檢測(cè)。YOLOv3采用主流的設(shè)計(jì)模式,即由骨干網(wǎng)和檢測(cè)頭構(gòu)建模型主體。骨干網(wǎng)是計(jì)算機(jī)視覺(jué)四大任務(wù)的基礎(chǔ),一般是從圖像分類(lèi)模型中遷移出來(lái)并經(jīng)過(guò)適當(dāng)修改后在檢測(cè)任務(wù)中用作圖像特征提取器;檢測(cè)頭接收經(jīng)骨干網(wǎng)卷積產(chǎn)生的特征圖,經(jīng)過(guò)再提取和組合進(jìn)行目標(biāo)的定位與分類(lèi)。
YOLOv3 網(wǎng)絡(luò)結(jié)構(gòu)主要由骨干網(wǎng)、特征金字塔和檢測(cè)頭組成,如圖1 所示。原版YOLOv3 的骨干網(wǎng)是Darknet53,由五個(gè)卷積層組成,每次卷積后都會(huì)產(chǎn)生一個(gè)尺寸為原來(lái)1 2 的特征圖。后三個(gè)較深的特征圖將輸入給特征金字塔模塊進(jìn)行上采樣、降維、連接等操作,生成包含多尺度特征信息的融合特征圖P1、P2、P3。最后三個(gè)尺度的融合特征圖輸入給檢測(cè)頭進(jìn)行最后的大、中、小目標(biāo)檢測(cè)。
圖1 YOLOv3 結(jié)構(gòu)簡(jiǎn)圖
本文將從骨干網(wǎng)和FPN 模塊進(jìn)行改進(jìn),具體為用Resnet50 替換Darknet53;將原單向FPN 改進(jìn)為雙向FPN;在FPN 模塊中應(yīng)用Dropblock 區(qū)域正則。
Resnet 最大的貢獻(xiàn)是在網(wǎng)絡(luò)中加入殘差單元,使得有效訓(xùn)練超深神經(jīng)網(wǎng)絡(luò)成為現(xiàn)實(shí),特征提取能力大大增強(qiáng),極大提升了模型性能。在Resnet 眾多變體中,Resnet-C 與Resnet-D 分別通過(guò)改進(jìn)卷積核大小和改進(jìn)殘差結(jié)構(gòu),有效地減小了計(jì)算量和避免了信息的大量流失,同時(shí)參數(shù)量和計(jì)算量與Resnet 幾乎一致。
為了提高對(duì)復(fù)雜遙感影像目標(biāo)特征的提取能力,使用Resnet 替代Darknet53 作為骨干網(wǎng)絡(luò)。同時(shí),為了平衡檢測(cè)精度與速度優(yōu)勢(shì),結(jié)合C、D 兩種改進(jìn)得到的Resnet50_N 作為骨干網(wǎng)。
YOLOv3 吸收了特征金字塔網(wǎng)絡(luò)FPN 的思想,在三個(gè)尺度預(yù)測(cè)分支上進(jìn)行了特征融合以提高小目標(biāo)檢測(cè)能力,但其僅包含單向的從深層到淺層的特征融合過(guò)程,僅為淺層特征提供了語(yǔ)義增強(qiáng),而忽略了深層特征對(duì)于上下文信息的缺失。深層特征由于經(jīng)過(guò)很深的卷積操作,如32 倍下采樣必將導(dǎo)致特征圖中丟失大量的細(xì)節(jié)信息,難以滿(mǎn)足精確目標(biāo)定位任務(wù)的需求。本文通過(guò)改進(jìn)原有FPN 結(jié)構(gòu),構(gòu)建雙向特征金字塔結(jié)構(gòu)如圖2 所示,實(shí)現(xiàn)淺、深層特征的雙向融合,提升網(wǎng)絡(luò)目標(biāo)檢測(cè)的能力。
圖2 雙向特征金字塔
如圖2 所示,concat 是將兩個(gè)特征張量拼接在一起的一種算法,在這里即是將兩個(gè)特征圖拼接得到雙向融合特征。DBL 表示將特征圖流經(jīng)卷積層D、批歸一化層B 和激活層L 循環(huán)處理,該結(jié)構(gòu)可以充分增加網(wǎng)絡(luò)對(duì)于非線性特征的表達(dá)能力。上采樣層保持不變,具體做法是先將特征維度降到原來(lái)的1 2,同時(shí)對(duì)變換后的特征進(jìn)行上采樣,即將特征圖譜的尺寸放大一倍。圖2 粗線表示新增的下采樣操作,保持輸入特征圖維度不變,將尺寸下采樣為原尺寸的1 2,進(jìn)而與原特征圖Feature map1、Feature map2、Feature map3 和上采樣特征圖進(jìn)行concat 連接產(chǎn)生融合特征圖P1、P2、P3。
改進(jìn)的雙向特征金字塔形成了從深到淺和從淺到深的雙向特征融合,既可以將深層特征中強(qiáng)語(yǔ)義信息融入到淺層特征中,提升網(wǎng)絡(luò)對(duì)淺層較小目標(biāo)的分類(lèi)能力;又可以將淺層特征中豐富的上下文細(xì)節(jié)信息融入到深層特征中,提升網(wǎng)絡(luò)對(duì)深層較大目標(biāo)的定位能力。
為了緩解模型的過(guò)擬合問(wèn)題,提出Dropout 算法,在每一次迭代訓(xùn)練過(guò)程中隨機(jī)將神經(jīng)元變量置為空,原理類(lèi)似于正則化,可以比較有效地緩解過(guò)擬合現(xiàn)象。但在實(shí)際應(yīng)用中它在卷積層使用時(shí)效果非常有限。這是因?yàn)榫矸e層產(chǎn)生的特征圖的相鄰神經(jīng)單元是對(duì)上一層同一局部信息的抽象,具有十分相近的語(yǔ)義信息,這樣即使Dropout 掉某些單元,但其相鄰單元擁有同樣語(yǔ)義信息,網(wǎng)絡(luò)仍然會(huì)學(xué)習(xí)到同樣的特征,即沒(méi)有起到正則化作用。因此針對(duì)卷積層的正則化,Ghiasi 在2018 年提出了Dropblock,將特征圖上相鄰的整片區(qū)域單元放在一起隨機(jī)丟棄,例如隨機(jī)刪除了目標(biāo)頭部的區(qū)域特征,網(wǎng)絡(luò)就會(huì)注重學(xué)習(xí)目標(biāo)其他部位的特征,使檢測(cè)模型學(xué)習(xí)到更全面的目標(biāo)特征,對(duì)檢測(cè)效果的提升非常明顯。
在改進(jìn)時(shí)根據(jù)YOLOv4 等應(yīng)用Dropblock 的經(jīng)驗(yàn),閾值概率隨著訓(xùn)練進(jìn)行從1 線性降低到0.9,丟棄的區(qū)域大小設(shè)置為3,為避免增大計(jì)算負(fù)擔(dān),添加的位置只是在特征金字塔每個(gè)分支的第一層卷積。
實(shí)驗(yàn)數(shù)據(jù)使用兩套數(shù)據(jù)集:
其一是中國(guó)科學(xué)院公開(kāi)的高分辨率遙感檢測(cè)數(shù)據(jù)集HRRSD,類(lèi)別數(shù)為13,圖像總數(shù)為21 761,共計(jì)4 萬(wàn)個(gè)目標(biāo)對(duì)象,各類(lèi)樣本平衡,屬于較大數(shù)據(jù)集。實(shí)驗(yàn)中隨機(jī)分成訓(xùn)練驗(yàn)證集14 362 張和測(cè)試集7 399 張。
另一套數(shù)據(jù)集是利用內(nèi)蒙古地區(qū)遙感圖像制作的VOC 格式的圓形農(nóng)田(Round Farm,RF)數(shù)據(jù)集,該數(shù)據(jù)集取材于LocalSpaceViewer,選取339 張不同天氣情況、不同地區(qū)的圓形噴灌農(nóng)田遙感影像,分辨率均為1 100×892。以遙感影像中的圓形農(nóng)田為目標(biāo),使用LableImg工具進(jìn)行標(biāo)注。劃分訓(xùn)練驗(yàn)證集223張,測(cè)試集116張。
超參數(shù)與凍結(jié)微調(diào):在模型訓(xùn)練的前1 000 次迭代采用學(xué)習(xí)率預(yù)熱方式,從0 增大到0.001。預(yù)訓(xùn)練權(quán)重使用在ImageNet 上訓(xùn)練好的相應(yīng)骨干網(wǎng)的參數(shù)為模型特征提取網(wǎng)絡(luò)的初始化參數(shù)。對(duì)于較大規(guī)模的HRRSD數(shù)據(jù)集,訓(xùn)練39 輪,batchsize 設(shè)為8,因數(shù)據(jù)集本身較大、類(lèi)別豐富且目標(biāo)均衡,故無(wú)需數(shù)據(jù)增強(qiáng),也無(wú)需凍結(jié)預(yù)訓(xùn)練權(quán)重,初始化參數(shù)全部參與迭代更新。對(duì)于小規(guī)模的RF 數(shù)據(jù)集,訓(xùn)練251 輪,batchsize 設(shè)為8,同樣采用學(xué)習(xí)率預(yù)熱方式從0 增大到0.000 25。因RF 數(shù)據(jù)集本身較小且類(lèi)別單一,所以需要進(jìn)行數(shù)據(jù)增強(qiáng)以及凍結(jié)預(yù)訓(xùn)練權(quán)重。
精度評(píng)價(jià)指標(biāo):實(shí)驗(yàn)主要采用平均精度(Average Precision,AP)和總體平均精度(Mean Average Precision,mAP)作為實(shí)驗(yàn)結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)。其中AP 值由精確率和召回率組成的平滑曲線與坐標(biāo)軸所圍成面積計(jì)算得到,mAP 即數(shù)據(jù)集中各個(gè)類(lèi)別的AP 加和后除以類(lèi)別數(shù)。
實(shí)驗(yàn)分別使用公開(kāi)的大型遙感數(shù)據(jù)集HRRSD 和制作的圓形農(nóng)田數(shù)據(jù)集RF 訓(xùn)練和測(cè)試模型,首先基于原版YOLOv3(Darknet53)得到基線mAP,然后改進(jìn)骨干網(wǎng)為Resnet50,同時(shí)基于兩種骨干網(wǎng)各自分別測(cè)試雙向特征金字塔和Dropblock 的改進(jìn)效果,最后得到最優(yōu)模型。
首先替換YOLO 模型的骨干網(wǎng),即用HRRSD 和RF數(shù)據(jù)集分別進(jìn)行原版YOLOv3(Darknet53)、YOLOv3(Resnet50_N)的對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表1 所示,替換性能更強(qiáng)的骨干網(wǎng)后,兩套數(shù)據(jù)集的總體平均精度mAP分別提高0.33%和3.33%。這是因?yàn)镈arknet53 的29 個(gè)3×3 卷積遠(yuǎn)多于Resnet50 的20 個(gè),其神經(jīng)元參數(shù)量相對(duì)非常多,這對(duì)于復(fù)雜特征的多目標(biāo)檢測(cè)是有益的,而對(duì)本文圓形農(nóng)田目標(biāo)檢測(cè)而言其參數(shù)冗余,易產(chǎn)生過(guò)擬合現(xiàn)象,降低精度和訓(xùn)練速度,所以出現(xiàn)在大型數(shù)據(jù)集上的精度方面二者差異不大,在小型數(shù)據(jù)集上明顯提高精度的結(jié)果。
其次進(jìn)行雙向特征金字塔實(shí)驗(yàn),如表1 所示,對(duì)于不同骨干網(wǎng),使用雙向特征融合后較原模型檢測(cè)精度,HRRSD 分別提升0.45%和0.33%,RF 分別提升2.75%和2.03%。表明雙向特征金字塔有助于特征信息的充分利用,并穩(wěn)健地提升目標(biāo)檢測(cè)精度,作為數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)任務(wù),改進(jìn)模型對(duì)于大型數(shù)據(jù)集精度的提升通常是較為有限的,對(duì)于小型數(shù)據(jù)集如本文的RF 圓形農(nóng)田數(shù)據(jù)集,精度提升比較明顯。
第三添加Dropblock 正則化,實(shí)驗(yàn)結(jié)果如表1 所示,對(duì)于兩種不同骨干網(wǎng)添加Dropblock 后,較原模型檢測(cè)精度,HRRSD 分別提升0.46%和0.94%,RF 分別提升2.46%和4.18%。結(jié)果表明,無(wú)論是復(fù)雜特征還是單一特征的大型或小型數(shù)據(jù)集,通過(guò)應(yīng)用Dropblock 使檢測(cè)模型學(xué)習(xí)到更魯棒、更全面的目標(biāo)特征,對(duì)模型檢測(cè)性能的提升非常明顯且穩(wěn)定。
最后進(jìn)行融合實(shí)驗(yàn),即以Resnet50_N 為骨干網(wǎng),改用雙向特征金字塔同時(shí)添加Dropblock。實(shí)驗(yàn)結(jié)果如表1 所示,HRRSD 的檢測(cè)精度達(dá)到86.17%,RF的檢測(cè)精度達(dá)到94.70%??梢钥闯?,相對(duì)于YOLOv3(Resnet50_N+Dropblock)的精度反而降低了0.55%和0.14%。這是因?yàn)殡p向特征融合過(guò)程本質(zhì)是信息的相互補(bǔ)充,必然導(dǎo)致一定的特征冗余,這樣即使某些區(qū)域被隨機(jī)失活,也仍有類(lèi)似補(bǔ)充信息因冗余而保留,限制了Dropblock 發(fā)揮應(yīng)有的作用。因此雙向特征金字塔和卷積層的Dropblock 不應(yīng)簡(jiǎn)單疊加使用,需要更合理調(diào)整各自的應(yīng)用位置。
表1 實(shí)驗(yàn)結(jié)果
綜合考慮實(shí)驗(yàn)方案的模型效果選定Resnet50_N+Dropblock 為最終改進(jìn)方案,稱(chēng)為RD_YOLOv3,在HRRSD 的測(cè)試集測(cè)得mAP 為86.72%,比原版YOLOv3提高1.27%,實(shí)際檢測(cè)效果如圖3 所示。
圖3 改進(jìn)前后HRRSD 檢測(cè)結(jié)果
在RF的測(cè)試集測(cè)得mAP為94.84%,比原版YOLOv3提高7.51%,檢測(cè)速度方面可達(dá)到23 f/s,實(shí)際檢測(cè)效果如圖4 所示。
圖4 改進(jìn)前后RF 檢測(cè)結(jié)果
本文基于YOLOv3,改進(jìn)針對(duì)骨干網(wǎng)、特征金字塔和正則化方式,提出一種遙感影像目標(biāo)的實(shí)時(shí)檢測(cè)算法RD_YOLOv3,同時(shí)制作遙感影像圓形農(nóng)田目標(biāo)的訓(xùn)練與測(cè)試集。分析實(shí)驗(yàn)結(jié)果,RD_YOLOv3 網(wǎng)絡(luò)對(duì)大型遙感影像數(shù)據(jù)集中復(fù)雜目標(biāo)的檢測(cè)精度有明顯提升,證明了改進(jìn)模型實(shí)現(xiàn)了檢測(cè)能力的提升。同時(shí)該模型對(duì)遙感影像中的圓形農(nóng)田目標(biāo)的識(shí)別精度可達(dá)94.84%,速度為42.2 f/s,驗(yàn)證了YOLOv3 用于遙感影像中圓形農(nóng)田目標(biāo)檢測(cè)的可行性和高效性,為快速、高效、準(zhǔn)確定位檢測(cè)和提取圓形農(nóng)田完成第一步工作,繼而為相關(guān)地區(qū)的農(nóng)業(yè)產(chǎn)量預(yù)測(cè)、資源分配、圓形軸心灌溉農(nóng)業(yè)的支持推廣等提供重要數(shù)據(jù)服務(wù)。
最后,對(duì)于目前存在的數(shù)據(jù)集太小、小尺寸目標(biāo)較少和模型改進(jìn)不到位等問(wèn)題,將會(huì)做如下工作:擴(kuò)展數(shù)據(jù)集規(guī)模,豐富目標(biāo)種類(lèi),平衡大、中、小目標(biāo)數(shù)量;優(yōu)化網(wǎng)絡(luò)模型如改進(jìn)損失函數(shù)、添加優(yōu)化策略等;在檢測(cè)的基礎(chǔ)上進(jìn)行信息提取制圖,為進(jìn)一步的農(nóng)業(yè)實(shí)際應(yīng)用提供參考。