基于TPH-YOLO的無人機(jī)圖像麥穗計數(shù)方法

2023-03-31 03:29:42鮑文霞謝文杰胡根生楊先軍蘇彪彪

農(nóng)業(yè)工程學(xué)報 2023年1期

鮑文霞，謝文杰，胡根生，楊先軍，蘇彪彪

鮑文霞1，謝文杰1，胡根生1，楊先軍2※，蘇彪彪1

（1. 安徽大學(xué)農(nóng)業(yè)生態(tài)大數(shù)據(jù)分析與應(yīng)用技術(shù)國家地方聯(lián)合工程研究中心，合肥 230601；2. 中國科學(xué)院合肥物質(zhì)科學(xué)研究院，合肥，230031）

在無人機(jī)上安裝光學(xué)傳感器捕捉農(nóng)作物圖像是一種經(jīng)濟(jì)高效的方法，它有助于產(chǎn)量預(yù)測、田間管理等。該研究以無人機(jī)小麥作物圖像為研究對象，針對圖像中麥穗分布稠密、重疊現(xiàn)象嚴(yán)重、背景信息復(fù)雜等特點(diǎn)，設(shè)計了一種基于TPH-YOLO（YOLO with transformer prediction heads）的麥穗檢測模型，提高無人機(jī)圖像麥穗計數(shù)的精度。首先，為了減小光照不均勻?qū)o人機(jī)圖像質(zhì)量造成的影響，該研究采用Retinex算法進(jìn)行圖像增強(qiáng)處理。其次，在YOLOv5的骨干網(wǎng)絡(luò)中添加坐標(biāo)注意力機(jī)制（coordinate attention，CA），使模型細(xì)化特征，更加關(guān)注麥穗信息，抑制麥稈、麥葉等一些背景因素的干擾。再次，將YOLOv5中原始的預(yù)測頭轉(zhuǎn)換為Transformer預(yù)測頭（transformer prediction heads，TPH），該預(yù)測頭具有多頭注意力機(jī)制的預(yù)測潛力，可以在高密度場景下準(zhǔn)確定位到麥穗。最后，為了提高模型的泛化能力和檢測精度，采用了遷移學(xué)習(xí)的訓(xùn)練策略，先使用田間采集的小麥圖像數(shù)據(jù)集對模型進(jìn)行預(yù)訓(xùn)練，接著再使用無人機(jī)采集的小麥圖像數(shù)據(jù)集對模型進(jìn)行參數(shù)更新和優(yōu)化訓(xùn)練，并在無人機(jī)采集的小麥圖像數(shù)據(jù)集上進(jìn)行了試驗(yàn)。結(jié)果表明，該研究方法精確率、召回率及平均精確率分別為87.2%、84.1%和88.8%，相較于基礎(chǔ)的YOLOv5平均精確率提高4.1個百分點(diǎn)，性能優(yōu)于SSD、Faster-RCNN、CenterNet、YOLOv5等目標(biāo)檢測模型。此外，該研究利用公開數(shù)據(jù)集Global Wheat Head Detection（GWHD）在不同目標(biāo)檢測模型上進(jìn)行對比試驗(yàn)，該數(shù)據(jù)集的小麥樣本是多樣的和典型的，與SSD、Faster-RCNN、CenterNet和YOLOv5等模型相比，平均精確率分別提升11.1、5.4、6.9和3.3個百分點(diǎn)，進(jìn)一步驗(yàn)證了該研究所提方法的可靠性和有效性，研究結(jié)果可以為小麥的產(chǎn)量預(yù)測提供支撐。

無人機(jī)；圖像處理；麥穗計數(shù)；YOLOv5；注意力機(jī)制；transformer編碼器；遷移學(xué)習(xí)

0 引言

小麥?zhǔn)侵匾霓r(nóng)作物品種之一，是世界糧食安全的基礎(chǔ)[1]，全球年產(chǎn)量約為7.3億t。然而小麥在生產(chǎn)過程中經(jīng)常出現(xiàn)各種生物和非生物逆境，小麥產(chǎn)量會受到很大影響。近年來，利用無人機(jī)遙感技術(shù)對小麥生長進(jìn)行監(jiān)測已成為穩(wěn)定產(chǎn)量的重要途經(jīng)。無人機(jī)以其靈活、小巧、成本低等優(yōu)勢逐漸受到研究者們的關(guān)注和青睞。結(jié)合無人機(jī)圖像對麥穗進(jìn)行檢測和計數(shù)，可以大大降低人工成本，實(shí)現(xiàn)自動化估產(chǎn)。傳統(tǒng)小麥計數(shù)主要包括人工計數(shù)方法和傳統(tǒng)機(jī)器學(xué)習(xí)方法。其中人工計數(shù)方法不但十分繁瑣、耗費(fèi)不少的人力和物力成本，而且很容易出現(xiàn)錯誤[2]。傳統(tǒng)機(jī)器學(xué)習(xí)則是一種簡單而有效的實(shí)現(xiàn)麥穗自動計數(shù)的方法。ZHOU等[3]利用半自主多傳感器田間表型平臺獲取小麥圖像，先使用最大熵分割方法進(jìn)行粗分割，然后應(yīng)用形態(tài)學(xué)重建理論對圖像進(jìn)行精細(xì)分割，最后實(shí)現(xiàn)麥穗計數(shù)。FERNANDEZ-GALLEGO等[4]通過使用濾波和尋找最大值的方法，有效地提高了田間麥穗的識別精度。劉哲等[5]提出了一種改進(jìn)的K-means聚類方法，該方法以顏色特征聚類為基礎(chǔ)，把聚類區(qū)域內(nèi)的子區(qū)域數(shù)作為麥穗數(shù)估計值，從而大大提高了麥穗計數(shù)的準(zhǔn)確率。在大田環(huán)境下，上述傳統(tǒng)方法對紋理、顏色等依賴性較強(qiáng)，受土壤、光照、小麥麥葉等影響較大，對麥穗的計數(shù)效果并不理想。

近年來，深度學(xué)習(xí)已成為人工智能領(lǐng)域的研究熱點(diǎn)，同時該技術(shù)也被研究者們應(yīng)用到麥穗檢測和計數(shù)領(lǐng)域中。鮑文霞等[6]針對灌漿期田間小麥圖像麥穗密集的特點(diǎn)，引入一種擁擠場景識別網(wǎng)絡(luò)（congested scene recognition network，CSRNet）來構(gòu)建麥穗密度圖估計模型，實(shí)現(xiàn)田間小麥麥穗數(shù)估計。孫俊等[7]以CSRnet為基礎(chǔ)網(wǎng)絡(luò)構(gòu)建WECnet網(wǎng)絡(luò)，有效地提高灌漿期小麥的計數(shù)精度，同時對麥穗進(jìn)行準(zhǔn)確密度評估。李云霞等[8]設(shè)計了一種冬小麥田間長勢參數(shù)估算系統(tǒng)，該系統(tǒng)基于殘差網(wǎng)絡(luò)ResNet18構(gòu)建長勢參數(shù)估算模型，實(shí)現(xiàn)麥穗長勢參數(shù)估算；基于Faster R-CNN并結(jié)合非極大值抑制構(gòu)建麥穗計數(shù)模型，實(shí)現(xiàn)開花期麥穗準(zhǔn)確計數(shù)。目前，目標(biāo)檢測算法在麥穗檢測的任務(wù)上取得了顯著的進(jìn)步。小麥麥穗檢測任務(wù)的成功，使得田間麥穗計數(shù)方法也獲得了較高的準(zhǔn)確性[9-10]。MADEC等[11]利用R-CNN對麥穗進(jìn)行檢測，根據(jù)檢測到的麥穗個數(shù)實(shí)現(xiàn)麥穗計數(shù)。楊蜀秦等[12]為準(zhǔn)確獲取單位面積麥穗數(shù)，提出了基于改進(jìn)YOLOX的單位面積麥穗檢測方法，利用采樣框直接實(shí)現(xiàn)單位面積麥穗計數(shù)。YANG等[13]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制技術(shù)，創(chuàng)建了一種用于麥穗檢測的CBAM-YOLOv4 計數(shù)方法。陳佳瑋等[14]構(gòu)建了一種MobileNetV2-YOLOV4 深度學(xué)習(xí)模型，對單位面積中的麥穗進(jìn)行識別，通過安卓軟件YQ-M離線識別手機(jī)拍攝的麥穗數(shù)量，實(shí)現(xiàn)田間產(chǎn)量預(yù)測和結(jié)果輸出等功能。

以上方法雖然在田間麥穗的檢測和計數(shù)領(lǐng)域取得了一定的效果，但是無人機(jī)圖像具有麥穗分布稠密、重疊現(xiàn)象嚴(yán)重、尺寸小、背景信息復(fù)雜等特點(diǎn)，容易導(dǎo)致錯檢和漏檢，從而使麥穗檢測精度降低，無法進(jìn)行準(zhǔn)確計數(shù)?；诖?，該研究以無人機(jī)小麥圖像為研究對象，提出了一種基于TPH-YOLO的麥穗計數(shù)方法。該研究在YOLOv5的骨干網(wǎng)絡(luò)中添加坐標(biāo)注意力機(jī)制（coordination attention, CA），使模型能夠細(xì)化特征，更加關(guān)注麥穗，抑制麥稈、麥葉等一些復(fù)雜背景的干擾。同時，該研究采用具有多頭自注意力機(jī)制的Transformer編碼器模塊替換Neck中的CSP（cross stage partial）模塊，將原始的預(yù)測頭轉(zhuǎn)換成Transformer預(yù)測頭（transformer prediction heads，TPH）[15-16]，獲取全局信息和豐富的上下文信息，實(shí)現(xiàn)高密度場景下的麥穗計數(shù)。在模型訓(xùn)練過程中，該研究采用遷移學(xué)習(xí)的策略，先使用田間采集的小麥圖像數(shù)據(jù)集對模型進(jìn)行預(yù)訓(xùn)練，然后再使用無人機(jī)采集的小麥圖像數(shù)據(jù)集對模型參數(shù)進(jìn)行調(diào)整和優(yōu)化，提高了模型的泛化能力和檢測精度。最后，將其與SSD、Faster-RCNN、CenterNet和YOLOv5等模型進(jìn)行對比試驗(yàn)，驗(yàn)證該研究所提方法的有效性。

1 材料和方法

1.1 數(shù)據(jù)采集

本試驗(yàn)的研究區(qū)域是安徽省合肥市巢湖市壩鎮(zhèn)（北緯31°16′23.9″，東經(jīng)117°36′18.3″），該基地主要承擔(dān)小麥、水稻等多種農(nóng)作物的表型信息采集工作。數(shù)據(jù)采集時間為2021年5月3日09:00－16:00，多云天氣，減少了強(qiáng)光照對數(shù)據(jù)采集的干擾。溫度范圍18～25 ℃，濕度范圍在30%～50%之間。本試驗(yàn)使用的圖像采集設(shè)備為大疆Mavic Air 2無人機(jī)，它裝有一個4 800萬像素的可見光攝像機(jī)，攝像機(jī)類型是DJI FC3170，光圈值為f/2.8，曝光時間為1/50 s，ISO速度為ISO-100，最大續(xù)航時間為34 min，最遠(yuǎn)傳輸距離為10 km，最大飛行速度為19 m/s，所拍攝圖像的分辨率大小是8 000像素′6 000像素，攝像機(jī)與地面垂直90°，拍攝時無人機(jī)的飛行高度是3 m，獲取3幅無人機(jī)小麥圖像。無人機(jī)獲取的小麥圖像如圖1a所示。

此外，該研究使用數(shù)碼相機(jī)對田間小麥數(shù)據(jù)進(jìn)行采集。為了計算單位面積的麥穗數(shù)，該研究制作一個40 cm′50 cm大小的紙盒，使用佳能EOS80D數(shù)碼相機(jī)進(jìn)行拍攝，采用自然曝光模式以多種傾斜角度對麥穗進(jìn)行拍攝，每幅圖像的像素均為5 184像素′3 456像素。從采集的圖像中選取342幅圖像，構(gòu)建田間采集的麥穗圖像數(shù)據(jù)集。數(shù)據(jù)集圖像示例如圖1b所示。

圖1 無人機(jī)和田間采集的麥穗圖像示例

1.2 數(shù)據(jù)處理

1.2.1 數(shù)據(jù)裁剪

為了便于模型處理，將得到的無人機(jī)圖像按照800像素′600像素的大小進(jìn)行裁剪，這樣原始圖像就被分割成了300幅小麥子圖像，并且以7∶2∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測試集。

1.2.2 數(shù)據(jù)增強(qiáng)

大田環(huán)境下獲取的小麥圖像由于光照強(qiáng)度的變化，在視覺上會與物體本身的顏色呈現(xiàn)出差異，從而影響模型對麥穗檢測和計數(shù)的準(zhǔn)確性。為了減少光照不均勻?qū)D像質(zhì)量造成的影響，該研究采用Retinex算法進(jìn)行圖像增強(qiáng)處理。Retinex算法認(rèn)為物體對光線的反射能力會決定物體的顏色[17]，人類視覺獲得的圖像可以看作是由入射圖像和反射圖像組成：

式中(,)表示人眼捕獲的視覺圖像，(,)表示物體的反射圖像，(,)表示入射圖像，(,)是圖像中像素點(diǎn)的坐標(biāo)。從(,)中得到(,)，(,)可以表示為

對式（2）進(jìn)行對數(shù)變換可得：

假設(shè)可以得出(,)的值，則可根據(jù)式（3）計算出(,)。因?yàn)槿肷涔饩€的強(qiáng)度在被照表面變化相對較慢，所以(,)可以用圖像中的低頻分量來表示。通過計算原始圖像中像素點(diǎn)與周圍區(qū)域的加權(quán)平均(,)來估計照度的變化并將其去除，最后只保留物體的反射屬性，則入射圖像(,)可表示為

式中(,)為中心環(huán)繞函數(shù)。則

因此，將lnR(x,y)變換為實(shí)數(shù)域，可以從人眼視覺圖像S(x,y)中得到反射圖像R(x,y)，達(dá)到圖像增強(qiáng)的目的。增強(qiáng)后的圖像示例如圖2所示。

1.3 麥穗檢測方法

1.3.1 TPH-YOLO模型

大田環(huán)境下無人機(jī)圖像麥穗分布稠密、重疊現(xiàn)象嚴(yán)重，會出現(xiàn)許多錯檢和漏檢的現(xiàn)象；同時，麥穗尺度小、背景復(fù)雜也增加了檢測的難度，這些問題導(dǎo)致在無人機(jī)圖像中無法對麥穗進(jìn)行準(zhǔn)確地檢測和計數(shù)，因此，需要選擇一種有效的檢測模型對麥穗進(jìn)行檢測。YOLO（You Only Look Once）是一種只需一個卷積神經(jīng)網(wǎng)絡(luò)就可直接得到不同目標(biāo)的類別概率和位置坐標(biāo)的目標(biāo)檢測模型，可以更好地區(qū)分目標(biāo)區(qū)域和背景區(qū)域，YOLO系列一般包括YOLO[18]、YOLO9000[19]、YOLOv3[20]、YOLOv4[21]和YOLOv5。YOLOv5是當(dāng)前YOLO系列最新的目標(biāo)檢測模型，大致可分為 4個模塊：輸入端、骨干部分（backbone）、頸部（neck）以及預(yù)測頭（prediction head）。該模型具有檢測精確、速度快等優(yōu)點(diǎn)，在開源數(shù)據(jù)集上具有良好效果，但是在大田環(huán)境下對無人機(jī)圖像中麥穗的檢測和計數(shù)任務(wù)上仍需要改進(jìn)。

為此，該研究引入了一種簡單靈活的坐標(biāo)注意力機(jī)制[22]（CA），將其加在骨干網(wǎng)絡(luò)CSPDarkNet-53中的CSP（cross stage partial）模塊和卷積模塊之間，模型結(jié)構(gòu)如圖3所示，使模型能夠細(xì)化特征，提高特征提取的能力，從而能更加關(guān)注小麥麥穗，抑制麥稈、麥葉等背景因素的干擾。當(dāng)圖像輸入到TPH-YOLO骨干網(wǎng)絡(luò)部分中時會進(jìn)行切片操作，即特殊的下采樣，把高分辨率的特征圖拆分為多個低分辨率的特征圖，然后將得到的特征輸入到不同深度的CSP模塊中進(jìn)行特征提取，CSP模塊將輸入特征經(jīng)過兩個部分，然后通過跨階段層次結(jié)構(gòu)將其合并，其目的是實(shí)現(xiàn)更多的梯度組合信息從而獲取更加豐富的麥穗特征。同時，該研究采用了具有多頭自注意力機(jī)制的Transformer編碼器模塊。Transformer的出現(xiàn)為視覺特征研究提供了一種新的思路[15]。與卷積神經(jīng)網(wǎng)絡(luò)相比，基于Transformer的視覺模型在眾多領(lǐng)域[16]取得了很好的效果。該研究使用Transformer編碼器模塊替換Neck中的一些CSP模塊，將原始預(yù)測頭轉(zhuǎn)換成Transformer預(yù)測頭（transformer prediction heads，TPH），實(shí)現(xiàn)具有多頭注意力機(jī)制的預(yù)測潛力，捕獲全局信息和充足的背景信息，進(jìn)而在高密度場景中準(zhǔn)確地定位到麥穗。

注：Focus為切片操作，Conv為卷積操作，CA為坐標(biāo)注意力機(jī)制，Slice為切片后的特征圖, SPP為空間金字塔池化結(jié)構(gòu)，Maxpool為最大池化操作, Concat為特征融合函數(shù)，Upsample為上采樣操作，Trans為Transformer編碼器結(jié)構(gòu)，TPH為Transformer預(yù)測頭結(jié)構(gòu)。

1.3.2 訓(xùn)練策略

在該研究模型訓(xùn)練過程中采用了遷移學(xué)習(xí)的訓(xùn)練策略。遷移學(xué)習(xí)[23-24]廣泛應(yīng)用在眾多領(lǐng)域，它可以增強(qiáng)訓(xùn)練，通過調(diào)參，逐步優(yōu)化模型。該研究先使用田間采集的小麥圖像數(shù)據(jù)集對模型進(jìn)行預(yù)訓(xùn)練，得到了預(yù)訓(xùn)練模型，接著使用無人機(jī)采集的小麥圖像數(shù)據(jù)集對模型進(jìn)行參數(shù)更新和優(yōu)化訓(xùn)練，如圖4所示。訓(xùn)練過程如下：

1）從田間采集的小麥圖像數(shù)據(jù)集上訓(xùn)練TPH-YOLO的骨干網(wǎng)絡(luò)Backbone即CSPDarkNet-53網(wǎng)絡(luò)，得到預(yù)訓(xùn)練模型；

2）將預(yù)訓(xùn)練模型加載到TPH-YOLO中，凍結(jié)骨干網(wǎng)絡(luò)Backbone預(yù)訓(xùn)練模型參數(shù)，再從無人機(jī)采集的小麥圖像數(shù)據(jù)集上訓(xùn)練TPH-YOLO，只對后端的Neck和Head進(jìn)行重新訓(xùn)練和更新參數(shù)。

田間采集的小麥圖像和無人機(jī)采集的小麥圖像顏色、輪廓、紋理等基礎(chǔ)結(jié)構(gòu)相近，這些基礎(chǔ)結(jié)構(gòu)在卷積神經(jīng)網(wǎng)絡(luò)中屬于底層信息，靠近輸入端的骨干網(wǎng)絡(luò)部分保留了大量的底層信息，所以骨干部分提取的特征是可以通用的。該研究通過田間采集的小麥圖像數(shù)據(jù)集對模型進(jìn)行預(yù)訓(xùn)練得到預(yù)訓(xùn)練模型，由于田間采集的圖像分辨率更高，模型參數(shù)效果更好。此時，將預(yù)訓(xùn)練得到的權(quán)重加載到TPH-YOLO中，凍結(jié)Backbone預(yù)訓(xùn)練模型參數(shù)，可以減少網(wǎng)絡(luò)層數(shù)，此時訓(xùn)練數(shù)據(jù)需要的更少，從而防止數(shù)據(jù)不足引起的過擬合。此外，模型不用從頭開始進(jìn)行訓(xùn)練，加快了訓(xùn)練效率，泛化能力更好，魯棒性更高。

注：CSP為跨階段層次結(jié)構(gòu)，Neck為頸部結(jié)構(gòu)，Head為預(yù)測頭。

1.3.3 試驗(yàn)參數(shù)及評價指標(biāo)

該研究試驗(yàn)是基于Ubuntu16.04 LTS 64位操作系統(tǒng)來實(shí)現(xiàn)的，顯卡為NVIDIA GTX2080Ti，內(nèi)存為32 G，使用Python編程語言和PyTorch深度學(xué)習(xí)框架訓(xùn)練目標(biāo)檢測模型。試驗(yàn)的初始學(xué)習(xí)率設(shè)置為0.01，采用隨機(jī)梯度下降（stochastic gradient descent，SGD）的方法優(yōu)化訓(xùn)練過程中的損失，迭代次數(shù)為300，批處理尺寸設(shè)置為8，權(quán)重衰減為0.000 5。該研究使用精確率（precision，）、召回率（recall，）以及平均精確率（average precision，AP）作為評價指標(biāo)[25]來綜合評價深度學(xué)習(xí)算法的性能。

2 結(jié)果與分析

2.1 數(shù)據(jù)增強(qiáng)對檢測結(jié)果的影響

考慮到大田環(huán)境下采集的小麥圖像會由于光照不均勻?qū)D像質(zhì)量造成影響，為提高檢測精度，該研究采用Retinex算法進(jìn)行圖像增強(qiáng)處理。試驗(yàn)分別使用經(jīng)過增強(qiáng)處理的圖像與未經(jīng)過增強(qiáng)處理的圖像對TPH-YOLO網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，得到兩個不同的訓(xùn)練模型，用以驗(yàn)證圖像增強(qiáng)對檢測結(jié)果的影響，試驗(yàn)結(jié)果如表1所示。在未經(jīng)過增強(qiáng)處理的數(shù)據(jù)集上模型的平均精確率為87.1%，而在經(jīng)過增強(qiáng)處理的數(shù)據(jù)集上模型的平均精確率為88.8%，證實(shí)了數(shù)據(jù)增強(qiáng)的必要性和有效性。

表1 數(shù)據(jù)增強(qiáng)對檢測結(jié)果的影響

2.2 消融試驗(yàn)

為了驗(yàn)證該研究方法的有效性，對TPH-YOLO網(wǎng)絡(luò)模型進(jìn)行消融試驗(yàn)。該研究以YOLOv5為基礎(chǔ)網(wǎng)絡(luò)，分別在骨干部分加入CA、原始預(yù)測頭轉(zhuǎn)換為TPH預(yù)測頭、采用遷移學(xué)習(xí)訓(xùn)練策略等進(jìn)行試驗(yàn)，消融試驗(yàn)結(jié)果如表2所示。在不使用CA、TPH預(yù)測頭和遷移學(xué)習(xí)的情況下，模型的平均精確率為84.7%。加入CA后，模型的平均精確率達(dá)到86.4%，說明加入CA注意力機(jī)制后，模型能夠更準(zhǔn)確地提取到小麥圖像中的麥穗信息。將原始預(yù)測頭轉(zhuǎn)換為TPH預(yù)測頭后，實(shí)現(xiàn)了多頭注意力機(jī)制的預(yù)測潛力，從而可以獲取全局信息和豐富的上下文信息，進(jìn)而在高密度場景中準(zhǔn)確地定位到麥穗，提升網(wǎng)絡(luò)的檢測結(jié)果。在訓(xùn)練過程中，采用遷移學(xué)習(xí)策略，不僅提高了模型的泛化能力，而且模型的平均精確率達(dá)到88.8%。使用CA、TPH預(yù)測頭和遷移學(xué)習(xí)，模型能更好地提取到小麥圖像中的麥穗信息以及在高密度場景中準(zhǔn)確地定位到麥穗位置，比基準(zhǔn)模型高了4.1個百分點(diǎn)。

表2 消融試驗(yàn)結(jié)果

2.3 不同檢測模型對比試驗(yàn)

為了進(jìn)一步驗(yàn)證該研究方法對無人機(jī)圖像中麥穗檢測的有效性，將該研究提出的模型與一些主流目標(biāo)檢測模型進(jìn)行對比試驗(yàn)，對比的檢測網(wǎng)絡(luò)有：SSD[26]、Faster-RCNN[27]及CenterNet[28]，試驗(yàn)結(jié)果如表3所示。從表3可以看出，所提模型的檢測結(jié)果優(yōu)于SSD、Faster-RCNN、CenterNet等檢測模型。

表3 本研究模型與主流模型對比結(jié)果

圖5以測試集中3幅小麥圖像為示例展示YOLOv5模型及本研究模型的檢測結(jié)果，圖6為圖5在麥穗重疊問題上的局部放大示例圖。通過圖5和圖6可以看出，本研究模型可以更加注意到麥穗信息，能夠在高密度場景準(zhǔn)確定位到麥穗位置，并且有效地緩減了麥穗重疊現(xiàn)象，從而降低了麥穗的漏檢和誤檢率。

注：方框表示預(yù)測框，箭頭表示麥穗漏檢或者誤檢的位置。

2.4 麥穗計數(shù)相關(guān)性研究

通過所得的檢測圖，即可得出每幅圖的麥穗數(shù)量。將該研究研究所獲得的麥穗數(shù)估計值與真實(shí)值加以比較，并通過線性回歸法對結(jié)果進(jìn)行了相關(guān)研究。麥穗估計值和真實(shí)值的擬合結(jié)果，如圖7所示。從擬合結(jié)果來看，決定系數(shù)2值在0.95左右，說明該研究所提模型對小麥麥穗數(shù)的估計數(shù)和真實(shí)值之間存在著明顯的線性關(guān)聯(lián)。

圖6 不同模型在重疊問題上的檢測結(jié)果示例

圖7 麥穗數(shù)量計數(shù)值與真實(shí)值的擬合結(jié)果

該研究在測試集的每一幅圖像上都進(jìn)行了10次人工統(tǒng)計，取平均值作為麥穗數(shù)量的真實(shí)值，并使用CSRNet[29]可視化分布麥穗圖像中的麥穗位置。該研究統(tǒng)計出測試集的30幅小麥圖像麥穗真實(shí)值為1 415，TPH-YOLO模型生成的麥穗數(shù)為1 384，錯誤個數(shù)為31，錯誤率為0.022，表明所提模型對圖像中的麥穗計數(shù)誤差較小。圖8給出了部分圖像麥穗計數(shù)結(jié)果，從圖8中可以看出，TPH-YOLO模型生成的麥穗數(shù)與麥穗真實(shí)數(shù)量比較接近，驗(yàn)證了該研究所提方法的可靠性。

注：GT表示麥穗數(shù)的真實(shí)值；圖8c中數(shù)值為TPH-YOLO模型計數(shù)值。

2.5 TPH-YOLO模型有效性分析

為了驗(yàn)證該研究所提模型的有效性，在公開數(shù)據(jù)集（Global Wheat Head Detection, GWHD）[30]上進(jìn)行了驗(yàn)證分析。GWHD數(shù)據(jù)集包含3 376張RGB圖像，共有145 665個小麥麥穗，圖像像素大小為1 024像素′1 024像素。這些小麥圖像來自世界的不同地區(qū)，獲得的圖像有很大的差異，包括不同的品種、不同的種植條件以及不同的圖像采集方法。按照7∶2∶1的比例構(gòu)建訓(xùn)練集、驗(yàn)證集和測試集，利用不同目標(biāo)檢測模型進(jìn)行試驗(yàn)，其中SSD、Faster-RCNN、CenterNet、YOLOv5平均精確率分別為80.5%、86.2%、84.7%、88.3%，而本研究模型平均精確率為91.6%，優(yōu)于其他檢測模型，因此該研究所提模型有較好的泛化能力。

該研究研究過程中無人機(jī)飛行高度為3 m，如果希望單幅圖像獲取的田間面積更大則需要增加無人機(jī)的飛行高度，這時獲取到的圖像中的麥穗分辨率會下降，因此，在利用該研究算法計數(shù)之前需要對圖像進(jìn)行超分辨率重建，這也是該研究后續(xù)的研究工作。

3 結(jié) 論

該研究針對無人機(jī)圖像具有麥穗分布稠密、重疊現(xiàn)象嚴(yán)重、背景信息復(fù)雜等特點(diǎn)，提出了一種基于TPH-YOLO的目標(biāo)檢測模型，能夠在無人機(jī)圖像中準(zhǔn)確檢測出麥穗和計算出麥穗數(shù)量。通過在YOLOv5骨干網(wǎng)絡(luò)中加入CA模塊，使模型能夠細(xì)化特征，更加關(guān)注小麥麥穗，抑制麥稈、麥葉等一些背景因素的干擾。同時，將原始預(yù)測頭轉(zhuǎn)換為（Transformer預(yù)測頭），從而可以在高密度場景準(zhǔn)確定位到小麥麥穗。最后，在訓(xùn)練過程中，采用遷移學(xué)習(xí)策略來提高模型的泛化能力和加快模型收斂速度。試驗(yàn)結(jié)果表明，TPH-YOLO在無人機(jī)小麥圖像測試集上AP值可達(dá)88.8%，相較于基礎(chǔ)YOLOv5提高了4.1個百分點(diǎn)，從而說明該研究的研究結(jié)果可以為小麥在檢測和計數(shù)的任務(wù)上提供有價值的幫助。此外，該研究利用公開數(shù)據(jù)集GWHD在不同目標(biāo)檢測模型上進(jìn)行對比試驗(yàn)，進(jìn)一步驗(yàn)證了該研究所提方法的可靠性和有效性。

[1] Liu H, Wang Z, Yu R, et al. Optimal nitrogen input for higher efficiency and lower environmental impacts of winter wheat production in China[J]. Agriculture Ecosystems & Environment, 2016, 224: 1-11.

[2] Xiong H, Cao Z, Lu H, et al. TasselNetv2: In-field counting of wheat spikes with context-augmented local regression networks[J]. Plant Methods, 2019, 15(1): 1-14.

[3] ZHOU C, LIANG D, YANG X, et al. Recognition of wheat spike from field based phenotype platform using multi-sensor fusion and improved maximum entropy segmentation algorithms[J]. Remote Sensing, 2018, 10(2): 246-270.

[4] Fernandez-Gallego J A, Kefauver S C, Gutiérrez N, et al. Wheat ear counting in-field conditions: High throughput and low-cost approach using RGB images[J]. Plant Methods, 2018, 14(1): 22.

[5] 劉哲，黃文準(zhǔn)，王利平. 基于改進(jìn) K-means 聚類算法的大田麥穗自動計數(shù)[J]. 農(nóng)業(yè)工程學(xué)報，2019，35(3)：174-181.

Liu Zhe, Huang Wenzhun, Wang Liping. Field wheat ear counting automatically based on improved K-means clustering algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(3): 174-181. (in Chinese with English abstract)

[6] 鮑文霞，張鑫，胡根生，等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的田間麥穗密度估計及計數(shù)[J]. 農(nóng)業(yè)工程學(xué)報，2020，36(21)：186-194.

Bao Wenxia, Zhang Xin, Hu Gensheng, et al. Estimation and counting of wheat ears density in field based on deep convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(21): 186-194. (in Chinese with English abstract)

[7] 孫俊，楊鍇鋒，羅元秋，等. 基于無人機(jī)圖像的多尺度感知麥穗計數(shù)方法[J]. 農(nóng)業(yè)工程學(xué)報，2021，37(23)：136-144.

Sun Jun, Yang Kaifeng, Luo Yuanqiu, et al. Method for the multiscale perceptual counting of wheat ears based on UAV images[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(23): 136-144. (in Chinese with English abstract)

[8] 李云霞，馬浚誠，劉紅杰，等. 基于 RGB 圖像與深度學(xué)習(xí)的冬小麥田間長勢參數(shù)估算系統(tǒng)[J]. 農(nóng)業(yè)工程學(xué)報，2021，37(24)：189-198.

Li Yunxia, Ma Juncheng, Liu Hongjie, et al. Field growth parameter estimation system of winter wheat using RGB digital images and deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(24): 189-198. (in Chinese with English abstract)

[9] Khoroshevsky F, Khoroshevsky S, Bar-Hillel A. Parts-per-object count in agricultural images: Solving phenotyping problems via a single deep neural network[J]. Remote Sensing, 2021, 13(13): 2496.

[10] Wang D, Zhang D, Yang G, et al. SSRNet: In-field counting wheat ears using multi-stage convolutional neural network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60: 1-11.

[11] Madec S, Jin X, Lu H, et al. Ear density estimation from high resolution RGB imagery using deep learning technique[J]. Agricultural and Forest Meteorology, 2019, 264: 225-234.

[12] 楊蜀秦，王帥，王鵬飛，等. 改進(jìn)YOLOX檢測單位面積麥穗[J]. 農(nóng)業(yè)工程學(xué)報，2022，38(15)：143-149.

Yang Shuqin, Wang Shuai, Wang Pengfei, et al. Detecting wheat ears per unit area using an improved YOLOX[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(15): 143-149. (in Chinese with English abstract)

[13] Yang B, Gao Z, Gao Y, et al. Rapid detection and counting of wheat ears in the field using YOLOv4 with attention module[J]. Agronomy, 2021, 11(6): 1202.

[14] 陳佳瑋，李慶，譚巧行，等. 結(jié)合輕量級麥穗檢測模型和離線 Android 軟件開發(fā)的田間小麥測產(chǎn)[J]. 農(nóng)業(yè)工程學(xué)報，2021，37(19)：156-164.

Chen Jiawei, Li Qing, Tan Qiaoxing, et al. Combining lightweight wheat spikes detecting model and offline Android software development for in-field wheat yield prediction[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(19): 156-164. (in Chinese with English abstract)

[15] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems (NIPS), Long Beach: NIPS, 2017: 5998-6008.

[16] Wang W H, Xie E Z, Li X, et al. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions[C]//In Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021: 548-559.

[17] Sun J, Yang Y, He X, et al. Northern maize leaf blight detection under complex field environment based on deep learning[J]. IEEE Access, 2020, 8: 33679-33688.

[18] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas: IEEI, 2016: 779-788.

[19] REDMON J, FARHADI A. YOLO9000: Better, faster, stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu: IEEE, 2017: 6517-6525.

[20] REDMON J, FARHADI A YOLOv3: An incremental improvement[EB/OL]. (2018-04-08) [2022-08-12] https://arxiv.org/abs/1804.02767.

[21] ALEXEY B, WANG C, LIAO H. YOLOv4: Optimal speed and accuracy of object detection[EB/OL]. (2020-04-23) [2022-08-12] https://arxiv.org/abs/2004.10934.

[22] HOU Q, ZHOU D, FENG J. Coordinate attention for efficient mobile network design[EB/OL]. (2021-03-04) [2022-08-12] https://arxiv.org/abs/2103.02907.

[23] Weiss K, KhoshgoftaaR T M, Wang D D. A survey of transfer learning[J]. Journal of Big Data, 2016, 3(1): 9.

[24] GAO Y, MOSALAM K M. Deep transfer learning for image‐based structural damage recognition[J]. Computer-Aided Civil and Infrastructure Engineering, 2018, 33(9): 748-768

[25] 孫豐剛，王云露，蘭鵬，等. 基于改進(jìn) YOLOv5s 和遷移學(xué)習(xí)的蘋果果實(shí)病害識別方法[J]. 農(nóng)業(yè)工程學(xué)報，2022，38(11)：171-179.

SUN Fenggang, WANG Yunlu, LAN Peng, et al. Identification of apple fruit diseases using improved YOLOv5s and transfer learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(11): 171-179. (in Chinese with English abstract)

[26] LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot multiBox detector[C]// European Conference on Computer Vision. Amsterdam, the Netherlands: Springer, 2016: 21-37.

[27] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[28] Zhou X, Wang D, Krhenbühl P. Objects as points [EB/OL]. arXiv preprint arXiv: 1904.07850v2, 2019. (2022-03-10). https://arxiv.org/abs/1904.07850.

[29] LI Y, ZHANG X, CHEN D. CSRNet: Dilated convolutional neural networks for understanding the highly congested scenes[C]//Proceedings of 2018 Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2018: 1091-1100.

[30] DAVID E, SEROUART M, SMITH D, et al. Global wheat head detection 2021: An improved dataset for benchmarking wheat head detection methods[J]. Plant Phenomics, 2021, 2021: 277 - 285

Wheat ear counting method in UAV images based on TPH-YOLO

BAO Wenxia1, XIE Wenjie1, HU Gensheng1, YANG Xianjun2※, SU Biaobiao1

(1.,230601,;2.,,230031,)

Optical sensors have been widely installed on unmanned aerial vehicle (UAV) to capture images of all kinds of crops in recent years. The economic and effective way can greatly contribute to yield prediction and field management in modern agriculture. However, the great challenge of wheat ear counting still remains in the dense distribution of wheat ears, the serious overlap phenomenon, and the complex background information in the images. In this study, a detection model of the wheat ear was designed to improve the accuracy of the wheat ear counting in the UAV images using the transformer prediction heads “you only look once” (TPH-YOLO). The UAV wheat ear images were also taken as the research object. Firstly, the Retinex algorithm was used to deal with the enhancement of the wheat ear images that collected by the UAV, in order to reduce the influence of the uneven illumination on the image quality. Secondly, the coordinate attention mechanism (CA) was added to the backbone network of YOLOv5. In this way, the improved model was utilized to refine the features after treatment. As a result, the TPH-YOLO network was focused mainly on the wheat ear information, at the same time to avoid the interference of some background factors, such as the wheat stalk, and the wheat leaf. Once more, the original prediction head in the YOLOv5 was converted into the transformer prediction head (TPH) in this case. Correspondingly, the improved prediction head was obtained for the prediction potential of multiple head attention mechanism, in order to accurately fix the position of the wheat ears in a high-density scene. In the end, the training strategy was adopted to improve the generalization ability and the detection accuracy of the TPH-YOLO network using transfer learning. The image dataset of the wheat ear that was collected in the field was used to pre-train the model, and then the wheat ear image dataset collected by the UAV was used to update and optimize the model parameters. A series of experiments were conducted on the wheat ear images collected by the UAV. The performance of the target detection model was evaluated by the three indicators: Precision, recall, and average precision (AP). The experimental results show that the precision, recall, and average precision (AP) of the improved model were 87.2%, 84.1%, and 88.8%, respectively. The average precision of the improved model was 4.1% higher than the original YOLOv5 one. The performance was also better than the SSD, Fast RCNN, CenterNet, and Yolov5 target detection models. In addition, Global Wheat Head Detection (GWHD) dataset was selected to carry out the comparative experiments on the different target detection models, due to the diverse and typical wheat samples from the GWHD dataset. Compared with the target detection models such as SSD, Faster-RCNN, CenterNet and YOLOv5, the average precision increased by 11.1, 5.4, 6.9 and 3.3 percentage points respectively. The comparative analysis of the detection further verified the reliability and effectiveness of the improved model. Consequently, the finding can also provide strong support for the wheat yield prediction.

UAV; image processing; wheat ear counting; YOLOv5; attention mechanisms; transformer encoder; transfer learning

10.11975/j.issn.1002-6819.202210020

TP391.41

1002-6819(2023)-01-0155-07

鮑文霞，謝文杰，胡根生，等. 基于TPH-YOLO的無人機(jī)圖像麥穗計數(shù)方法[J]. 農(nóng)業(yè)工程學(xué)報，2023，39(1)：155-161.doi：10.11975/j.issn.1002-6819.202210020 http://www.tcsae.org

BAO Wenxia, XIE Wenjie, HU Gensheng, et al. Wheat ear counting method in UAV images based on TPH-YOLO[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2023, 39(1): 155-161. (in Chinese with English abstract) doi：10.11975/j.issn.1002-6819.202210020 http://www.tcsae.org

2022-10-02

2022-12-28

安徽省自然科學(xué)基金項目（2208085MC60）；國家自然科學(xué)基金項目（62273001）

鮑文霞，博士，教授，研究方向?yàn)檗r(nóng)業(yè)與生態(tài)視覺分析與模式識別。Email：bwxia@ahu.edu.cn

楊先軍，博士，研究員，研究方向?yàn)橹悄苄盘柼幚?。Email：xjyang@iim.ac.cn

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于TPH-YOLO的無人機(jī)圖像麥穗計數(shù)方法

0 引 言

1 材料和方法

1.1 數(shù)據(jù)采集

1.2 數(shù)據(jù)處理

1.3 麥穗檢測方法

2 結(jié)果與分析

2.1 數(shù)據(jù)增強(qiáng)對檢測結(jié)果的影響

2.2 消融試驗(yàn)

2.3 不同檢測模型對比試驗(yàn)

2.4 麥穗計數(shù)相關(guān)性研究

2.5 TPH-YOLO模型有效性分析

3 結(jié) 論

0 引言