黃 碩,周亞男,王起帆,張 晗,邱朝陽,康 凱,羅 斌
改進YOLOv5測量田間小麥單位面積穗數(shù)
黃 碩1,2,周亞男1,2,王起帆3,張 晗1,2,邱朝陽4,康 凱4,羅 斌1,2※
(1. 北京市農(nóng)林科學院智能裝備技術研究中心,北京 100097;2. 國家農(nóng)業(yè)智能裝備工程技術研究中心,北京 100097;3. 河北農(nóng)業(yè)大學機電工程學院,保定 071000;4. 北京市農(nóng)林科學院信息技術研究中心,北京 100097)
單位面積穗數(shù)是決定小麥產(chǎn)量的主要因素之一。針對人工清點小麥穗數(shù)的方法容易受主觀因素影響、效率低和圖像處理方法鮮有進行系統(tǒng)部署等問題,提出一種注意力模塊(Convolutional Block Attention Module,CBAM)與YOLOv5相結合的CBAM-YOLOv5網(wǎng)絡結構,通過對特征圖進行自適應特征細化,實現(xiàn)更準確的單位面積穗數(shù)測量。該研究以本地采集小麥圖像數(shù)據(jù)和網(wǎng)絡公開小麥圖像數(shù)據(jù)為數(shù)據(jù)集,設置輸入圖像分辨率為1 280,得到CBAM-YOLOv5模型,可以達到0.904的1分數(shù)和0.902的平均精度,測試集計數(shù)的平均相對誤差為2.56%,平均每幅圖像耗時0.045 s,綜合對比,CBAM-YOLOv5模型具有顯著優(yōu)勢。模型放置于服務器,結合手機端軟件和輔助裝置,形成單位面積穗數(shù)測量系統(tǒng),實現(xiàn)育種小區(qū)麥穗圖像實時采集、處理和計數(shù),計數(shù)的平均相對誤差為2.80%,抗環(huán)境干擾性強。該研究方法與裝置可以實現(xiàn)田間小麥單位面積穗數(shù)的實時在線檢測,降低主觀誤差,具有較高的準確率及較強的魯棒性,為小麥單位面積穗數(shù)快速、準確估測提供一種新的技術和裝備支撐。
模型;小麥;單位面積麥穗數(shù);深度學習;YOLOv5;CBAM
小麥是世界三大糧食作物之一,種植面積在2.24億公頃左右,養(yǎng)活了世界大約30%的人口[1],不斷提高其單位面積產(chǎn)量一直是現(xiàn)代育種的主要目標。及時、準確地掌握小麥產(chǎn)量信息,可為科研工作者提高育種效率。單位面積穗數(shù)作為小麥最重要的產(chǎn)量指標之一[2],以往在生產(chǎn)過程中,經(jīng)常采用人工計數(shù)的方法來獲取,不僅人力成本和時間成本較大,而且易受主觀因素影響。進行自動估算單位面積穗數(shù)的研究尤為必要,其有助于小麥產(chǎn)量預估和表型鑒定的進步,目前,有圖像處理、機器學習、深度學習三類技術用于自動測量小麥穗數(shù)。
傳統(tǒng)的圖像處理技術已經(jīng)被用于計算單位面積穗數(shù),如紋理特征和混合顏色空間,來自顏色、灰度和紋理數(shù)據(jù)的多特征融合[3]。Fernandez-Gallego等使用限制對比度自適應直方圖均衡化算法(Contrast Limited Adaptive Histogram Equalization,CLAHE)增強麥穗熱像圖中小區(qū)域的局部對比度,并選擇分析粒子函數(shù)過濾并計算檢測到的麥穗[4]。李毅念等轉(zhuǎn)換圖像顏色空間提取飽和度分量圖像,通過圖像預處理、去除細窄處粘連、凹點檢測匹配分割等算法處理,實現(xiàn)圖像中麥穗分割計數(shù),計算籽粒數(shù),完成產(chǎn)量預測[5]。劉濤等利用顏色特征或者紋理特征提取麥穗圖像,進行一系列的形態(tài)學腐蝕膨脹、空洞填充和細化處理,得到麥穗骨架圖像,繼而利用角點檢測方法計數(shù)[6]。圖像處理技術的準確性取決于圖像的質(zhì)量,而大田環(huán)境較為復雜,難以保證圖像質(zhì)量的統(tǒng)一,通用性較差。
隨著機器學習的興起,研究人員使用支持向量機等分類技術進行麥穗識別,以提升識別的精準度和魯棒性[7-8]。Fernandez-Gallego等使用拉普拉斯濾波器和尋找最大值的方法定位麥穗,從原始RGB圖像及其顏色通道中提取如面積、高度等30個特征,進行訓練和分類,完成一種自動計穗系統(tǒng)的設計[9]。Zhou等應用簡單線性迭代聚類(Simple Linear Iterative Clustering,SLIC)來提取超像素圖像斑塊,將多特征優(yōu)化和孿生支持向量機(Twin Support Vector Machine,TWSVM)相結合進行田間條件下的小麥麥穗識別[10]。劉哲等改進K-means算法,充分利用圖像麥穗顏色特征,進行大田麥穗計數(shù)[11]。杜穎等通過SLIC預處理田間小麥圖像,提取并分析出適宜的顏色特征參數(shù)訓練分類器,對識別結果進行處理,結合角點數(shù)和區(qū)域統(tǒng)計結果計算小麥穗數(shù)[12]。機器學習能夠從給定的數(shù)據(jù)中學習目標特征達到較好的識別效果,因此目標特征選擇的準確性決定該類方法的有效性,但需要由研究人員來確定目標特征,存在主觀性。
近年來,隨著計算機硬件性能的快速提升,深度學習技術得到了廣泛應用,許多學者開始使用深度學習方法開展麥穗識別研究[13-15]。Misra等將局部補丁提取網(wǎng)絡(Local Patch extraction Network,LPNet)和全局掩碼細化網(wǎng)絡(Global Mask Refinement Network,GMRNet)相結合,提出一種新的深度學習網(wǎng)絡SpikeSegNet,實現(xiàn)麥穗的識別與計數(shù)[16]。Xu等采用K-means聚類法自動分割麥穗圖像構建數(shù)據(jù)集,并將其送入卷積神經(jīng)網(wǎng)絡模型進行訓練和測試,實現(xiàn)小麥穗部的快速準確識別[17]。鮑文霞等引用擁擠場景識別網(wǎng)絡(Congested Scene Recognition Network,CSRNet)搭建麥穗密度圖模型,利用公開數(shù)據(jù)集進行預訓練,再用采集的數(shù)據(jù)集,調(diào)整和優(yōu)化模型參數(shù),構建麥穗計數(shù)函數(shù)模型,實現(xiàn)穗數(shù)估計[18]。段凌鳳等基于SegNet架構,訓練了PanicleNet深度全卷積網(wǎng)絡,對原始圖劃分的子圖進行語義分割,完成對不同品種稻穗的精準分割[19]。深度學習不依靠人工進行特征提取,具有非常強的學習能力,提高了麥穗識別的準確率和魯棒性。另外,TensorFlow、PyTorch等框架的出現(xiàn),也讓深度學習技術可以廣泛地應用于很多平臺。
綜上可知,目前的研究大多數(shù)只是對圖像中的麥穗進行識別,但鮮有將方法進行部署與應用,難以直接拍攝小麥群體圖像并獲取單位面積麥穗數(shù)。因此,本文提出一種CBAM-YOLOv5的網(wǎng)絡結構,目的在于利用注意力模塊進一步提升YOLOv5對重疊、遮擋情況麥穗的識別效果,實現(xiàn)麥穗的快速識別和有效計數(shù),為小麥單位面積穗數(shù)測量提供新的解決方法和裝置。本文主要工作有:1) 討論輸入圖片不同分辨率設置對模型性能的影響,在允許范圍內(nèi),選用最優(yōu)參數(shù)訓練模型;2)將CBAM集成到YOLOv5中,利用注意力機制細化特征,提高識別精度,實現(xiàn)復雜環(huán)境下小麥穗數(shù)的精確計數(shù);3)開發(fā)了一個單位面積穗數(shù)測量系統(tǒng),進行應用測試,軟件部分采用C/S架構,將深度學習模型和圖片分割算法部署在服務器,手機安裝客戶端進行人機交互,硬件部分通過PVC管搭建一個1 m2的標準框,輔助計算單位面積穗數(shù)。
1.1.1 數(shù)據(jù)獲取
為提高模型的泛化能力,本研究使用兩種數(shù)據(jù)集。其中,Wheat Spikes Detection(WSD)數(shù)據(jù)集的小麥圖像拍攝于江蘇省農(nóng)業(yè)科學院六合動物科學基地(北緯32°29′,東經(jīng)118°37′)和小湯山國家精準農(nóng)業(yè)研究示范基地(北緯40°10′,東經(jīng)116°27′)。小麥品種為揚麥29號、寧麥26號、鎮(zhèn)麥10號、京花5號,生長過程中正常施氮。小麥圖像的拍攝時間是2021年4月28日—5月27日,每隔一個星期選取2 d進行拍攝,覆蓋了小麥的灌漿期和成熟期,且包含晴朗、多云等天氣。以1.5 h為間隔使用華為mate 40 Pro和iPhone 12 Pro Max手動拍攝6組圖片,其中上午拍攝3組,下午拍攝3組。每組包含以20 cm為間隔在小麥冠層上方10~70 cm高度的垂直向下角度拍攝的4張圖片。共拍攝576張圖片,其中部分圖像由于手持手機拍攝存在圖像模糊等問題,為降低圖像質(zhì)量下降對模型檢測精度的影響,對圖片進行篩選后剩余453張圖像。WSD數(shù)據(jù)集具有密度大的特點,其中多數(shù)圖像中麥穗的數(shù)量可達400穗,經(jīng)過圖像數(shù)量對比預試驗,最終使用68張圖片構建WSD數(shù)據(jù)集,約10 000個麥穗樣本,圖片均以JPG格式存儲,統(tǒng)一分辨率為3 648×2 736(像素)。圖1a展示了該數(shù)據(jù)集圖像示例。
第二個數(shù)據(jù)集是網(wǎng)絡公開的Global Wheat Head Detection(GWHD)數(shù)據(jù)集[20],它包含了4 700張RGB圖像(1 024×1 024(像素))和190 000個標記的麥穗。這些圖像是通過歐洲、北美洲、大洋洲和亞洲不同品種、不同種植條件、不同氣候、不同采集方法獲取匯總而成。因此,GWHD數(shù)據(jù)集具有基因型和環(huán)境的多樣性,可對提高小麥穗部檢測和定位的準確性和可靠性提供幫助。相較于自行拍攝的WSD數(shù)據(jù)集,該數(shù)據(jù)集具有拍攝面積小,單幅麥穗較少的特點。從中隨機選取152張圖片參與模型的訓練和評估,圖片包含約5 000個麥穗樣本。圖 1b展示了該數(shù)據(jù)集圖像示例。
圖1 數(shù)據(jù)集的圖像示例
將兩種數(shù)據(jù)集分別按照8∶1∶1的比例隨機挑選劃分為訓練集、驗證集和測試集,如表1所示。
表1 數(shù)據(jù)集
1.1.2 數(shù)據(jù)標注
本文使用Labelimg工具對數(shù)據(jù)集中的麥穗進行標記。圖像中每個麥穗都被一個矩形框完全包裹,且盡量減少多余背景進入矩形框,矩形框的位置由左上角和右下角頂點的坐標確定。在對圖像中全部的麥穗進行標注后,生成對應的XML文件,其中包括圖像的大小、標簽的名稱和標簽的位置等信息。
數(shù)據(jù)的標注工作由4名相關研究人員進行,為降低因目標標簽不準確導致模型訓練和識別性能下降的可能性,研究人員在標注完成后交換進行標注結果校正工作。
1.2.1 YOLO模型
YOLO(You Only Look Once)是一種目前廣泛應用的目標檢測模型,其很好地平衡檢測速度和檢測精度,且擁有較好的小目標檢測能力[21-24]。YOLO對整幅圖像進行處理,直接返回錨框的位置及其類別等信息[25]。YOLOv5根據(jù)寬度和深度的設置,分為YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x,它們參數(shù)量各不相同[26],其中,YOLOv5l兼具不低的平均精度和較高的速度,在分別用4種網(wǎng)絡結構訓練麥穗識別模型的預試驗中,YOLOv5l的表現(xiàn)也更為出色,因此,本文選用YOLOv5l結構,并以其為基礎進行改進。
1.2.2 CBAM注意力模塊
Convolutional Block Attention Module(CBAM)是由Woo等提出的一種前饋卷積神經(jīng)網(wǎng)絡的注意力模塊,其由通道注意力模塊和空間注意力模塊組成[27]。如圖2所示,對于輸入的特征圖,沿著通道和空間這兩個獨立的維度依次計算出注意力圖,然后將注意力圖乘以輸入特征圖進行自適應的特征細化。通道注意力模塊同時使用平均池化操作和最大池化操作,比單獨使用一種操作讓輸入圖像中目標的特征表達進一步突出,模型更容易學習到有意義的特征??臻g注意力模塊是對通道注意力模塊的補充,沿通道軸將特征層連接起來,使目標的特征有效地連接在一起,凸顯目標自身和周邊區(qū)域信息。
1.2.3 CBAM-YOLOv5
基于自定義數(shù)據(jù)集,使用YOLOv5網(wǎng)絡訓練出的模型可以識別麥穗,但一些密集麥穗的圖片的檢測結果并不理想。為改善這類情況,選擇CBAM注意力機制模塊增強模型的學習能力[28]。雖然CBAM是一種端到端的通用模塊,可以無縫集成到卷積神經(jīng)網(wǎng)絡中,但加入在YOLOv5網(wǎng)絡結構的其他位置時,難免破壞YOLOv5原本的整體性,無法將組合后的學習效果提升最大化。經(jīng)過不同加入位置結果對比后,選擇將CBAM嵌入到YOLOv5的頸部末端,搭建如圖3所示的CBAM-YOLOv5網(wǎng)絡結構。CBAM-YOLOv5保留了YOLOv5的網(wǎng)絡結構,繼承了YOLOv5較強的學習能力,YOLOv5的特征圖通過CBAM依次計算出一維通道注意圖和二維空間注意圖,然后與輸入特征圖相乘,對YOLOv5得到的特征圖進行自適應特征細化,增強特征圖中被遮擋目標的特征表達,提高正確特征的提取,抑制無關特征的表達,提高麥穗識別的準確率,尤其是重疊、遮擋情況的麥穗識別效果得到了提升。
圖2 CBAM結構
注:Concat為維度拼接操作;slice為切片操作;CONV為卷積操作;BN為批標準化;SiLU為激活函數(shù);add為疊加操作;Maxpool為最大池化操作。
模型的訓練是在本地電腦上開展,硬件配置較高,縮短訓練時長。模型訓練完成后,部署在云服務器,方便手機APP遠程訪問。配置如下:
本地電腦的硬件配置為Intel? CoreTMi7-10700K處理器和NVIDIA GeForce RTX 3060顯卡,操作系統(tǒng)是Ubuntu 20.04.2 LTS 64位系統(tǒng),并安裝了CUDA11.2、Python3.8.5、Pytorch1.8.1。模型的超參數(shù)和訓練參數(shù)設置如下:學習率為0.01,學習衰減率為0.2,動量為0.937,批處理設置為4,輸入圖片分辨率設置為1 280,輪次設置為300。
云服務器的硬件配置為Intel(R) Xeon(R) Gold 6266C處理器,操作系統(tǒng)是Windows Server 2019 64位系統(tǒng),并安裝了Python3.8.5、Pytorch1.8.1。
為了驗證模型的性能,使用1分數(shù)(1-score)、平均精度(Average Precision,AP)和計數(shù)相對誤差作為評估指標對訓練后的模型進行評價[14]。
由于手機種類繁多,硬件配置各不相同,為減少使用過程的不便,穗數(shù)測量系統(tǒng)選擇基于客戶端/服務器模式的應用開發(fā),由APP和服務器組成,通過Android SDK構建人機交互圖像界面,深度學習模型和數(shù)據(jù)庫放置在服務器。用戶可操作手機APP拍攝或從相冊選擇麥穗圖像(須有一個1 m2標準框,框由白色PVC管搭建),上傳圖像至服務器,服務器先后調(diào)用分割算法和深度學習模型,保留圖像中1 m2標準框和框內(nèi)麥穗,進行識別和計數(shù)后,將結果反饋給客戶端,APP再根據(jù)結果換算出畝穗數(shù),如果用戶填寫單穗質(zhì)量等參數(shù),還可輸出畝產(chǎn)量等信息。
本文的數(shù)據(jù)集有3 648×2 736和1 024×1 024兩種圖片尺寸,當輸入到網(wǎng)絡進行訓練和預測時,都需要進行改變大?。╮esize)操作,改變圖像尺寸。大田環(huán)境下小麥麥穗與一般的檢測目標相比,在圖像中的尺寸更小,分布更密集,圖像縮得越小,信息丟失越嚴重。因此,為了確定CBAM-YOLOv5網(wǎng)絡最優(yōu)訓練參數(shù),圖像尺寸分別設置640、960、1 280像素進行結果對比。模型的評估指標結果如表2所示。由表2可知,設置為960和1 280像素時的評估結果均比設置為640像素時好,與設置為960像素時比,設置為1 280像素的1分數(shù)和AP50∶5∶95分別提高了0.003和0.014,AP50降低了0.007。
表2 不同輸入圖片分辨率設置時模型的評估指標結果
注:AP50指交并比的值為0.50時的AP值;AP50:5:95指IoU的值從0.50取到0.95,步長為0.05,計算AP的均值。下同。
Note:AP50 refers to the AP value for an Intersection over Union (IoU) value of 0.50; AP50:5:95 refers to the mean value of AP, with the value of IoU taken from 0.50 to 0.95 at a step of 0.05. Same below.
系統(tǒng)應用時,手機拍攝帶有1 m2標準框的小麥圖像后,模型需直接對整幅圖像進行預測,計算麥穗數(shù)量。因此,此處僅列舉WSD測試集的預測結果,如表3所示。置信閾值和IoU閾值均分別設置為0.3和0.45,模型生成的預測框經(jīng)過置信閾值和IoU閾值的篩選后,統(tǒng)計其個數(shù)即為麥穗數(shù)量。
從表3中可以看出,圖片的實際檢測計數(shù)過程中,輸入圖像分辨率設置為1 280在耗時沒有變化的同時,計數(shù)相對誤差的平均值均最低,相對誤差的標準差也僅為0.01,說明此參數(shù)設置下精度最高,且誤差波動小。綜合來看,將輸入圖像分辨率設置為1 280是較好的選擇。
表3 不同分辨率設置時模型的測試集計數(shù)結果
為了驗證本文提出的CBAM-YOLOv5網(wǎng)絡的性能,與Faster RCNN、YOLOv4、YOLOv5對測試集小麥穗部的檢測效果進行對比。在相同的硬件環(huán)境下,通過調(diào)整訓練參數(shù),使四種模型各自達到最好的效果。表4列出模型1分數(shù)、AP50和AP50∶5∶95的結果。表5匯總4種模型的WSD測試集的計數(shù)結果。圖片預測結果示例如圖4所示。
由表4可知,CBAM-YOLOv5在1分數(shù)、AP50和AP50∶5∶95這3個指標上都有著更好的表現(xiàn),比YOLOv5分別提高了0.021、0.021、0.022,比YOLOv4分別提高了0.209、0.190、0.255,比Faster RCNN分別提高了0.308、0.398、0.353。
表4 不同模型的評估指標結果
對WSD數(shù)據(jù)集的預測結果顯示,CBAM-YOLOv5模型計數(shù)的相對誤差為2.56%,和YOLOv5、YOLOv4和Faster RCNN相比,分別降低了1.44個百分點、9.04個百分點、24.81個百分點,且相對誤差的標準差為0.01,說明CBAM-YOLOv5模型計數(shù)的相對誤差更加集中,麥穗計數(shù)的結果較為穩(wěn)定。另外,CBAM-YOLOv5模型預測一幅圖像的平均耗時為0.045 s,遠遠低于YOLOv4和Faster RCNN的耗時,僅比YOLOv5的耗時多0.003 s。圖4中可以明顯地看出,YOLOv5和YOLOv4存在大量重復預測框,而Faster RCNN有較多麥穗未識別,與計數(shù)結果吻合。
綜合來看,CBAM-YOLOv5網(wǎng)絡的性能表現(xiàn)最好,其取得較好的效果有以下兩個原因:1)在YOLOv5網(wǎng)絡結構頸部末端加入CBAM模塊。把YOLOv5和CBAM的優(yōu)勢結合起來,將注意力聚焦在目標上,降低復雜背景對目標學習的影響,在不使用過多的參數(shù)和計算力的基礎上,對密集且小目標有更好的學習效果,在麥穗檢測過程中發(fā)揮著巨大的作用;2)圖像輸入尺寸設置為1 280。在3 648×2 736分辨率的圖像中,麥穗所占像素值很小,加大了學習與檢測的難度,因此,以增大計算量為代價,換取精度的大幅提升是有必要的。
表5 不同模型的測試集計數(shù)結果
圖4 不同模型的預測結果示例
系統(tǒng)測試共分為5個步驟:1)創(chuàng)建試驗:填寫試驗名稱,此時還可輸入作物品種、大田編號、單穗質(zhì)量等信息。2)拍攝圖片(如圖5所示):將由白色PVC管搭建的1 m2標準框水平放置在麥田中,手機從上往下垂直拍攝圖片,標準框所占像素比例盡可能大,有助于圖像后續(xù)成功分割和識別。3)處理圖片:利用分割算法完整地將標準框及其內(nèi)部圖像分割出來,圖像分割效果不好時,需重新拍攝。4)穗部識別:調(diào)用深度學習模型得到1 m2內(nèi)麥穗的數(shù)量。5)繼續(xù)試驗或保存退出。一次試驗可以對小區(qū)中小麥進行多組拍攝,自動求取平均值,使估算結果更準確。軟件使用過程流程圖如圖6所示。
圖5 拍攝圖片示例
圖6 軟件使用過程流程圖
在系統(tǒng)測試試驗中,針對5個小區(qū)分別建立1組試驗,每組試驗拍攝5張麥穗圖片,軟件預測結果如表6所示,人工計數(shù)和軟件平均計數(shù)均為每平米的麥穗數(shù)量。測試結果表明,盡管不同品種穗數(shù)有一定差異,但軟件計數(shù)的相對誤差最小可以達到2.15%,誤差平均值穩(wěn)定在2.80%左右,比測試集的平均值僅高0.24個百分點,因此構建的麥穗檢測模型具有良好的檢測性能,能夠應用于實際生產(chǎn)或其他場景中單位面積穗數(shù)統(tǒng)計。
表6 麥穗計數(shù)結果
注:計數(shù)面積為1 m2。
Note:Counting area is 1 m2.
在構建數(shù)據(jù)集時,結合WSD和GWHD數(shù)據(jù)集的特點,選擇逐漸增加圖片數(shù)量參與訓練的策略,最終選擇220幅圖像,這種策略防止因過量麥穗標注工作而浪費研究人員精力這種情況的發(fā)生,同時可以保證模型訓練成功。根據(jù)上述結果可以看出,訓練出的CBAM-YOLOv5模型,不僅在1分數(shù)、平均精度和計數(shù)相對誤差這3個指標上表現(xiàn)良好,且在實地試驗中,5組試驗拍攝的小麥并未參與模型的訓練,麥穗計數(shù)結果同樣精確且穩(wěn)定,說明基于該模型的系統(tǒng)能對不同品種小麥保持較穩(wěn)定的檢測結果。
本文提出一種基于改進YOLOv5方法的田間小麥穗數(shù)計數(shù)方法,該方法主要加入注意力模塊,對YOLOv5網(wǎng)絡提取的特征圖沿著通道和空間兩個維度進行處理,并將處理結果與輸入特征圖相乘,從而細化特征。在電腦硬件支持的范圍內(nèi),設置輸入圖片分辨率為1280,使圖像輸入到網(wǎng)絡時不會丟失更多的特征信息,使模型可以直接從高分辨率手機圖像中檢測出麥穗的數(shù)量。最終模型1分數(shù)、AP50、AP50∶5∶95分別達到0.904、0.902、0.515,與標準YOLOv5、YOLOv4和Faster RCNN相比有了較大的提升。在CBAM-YOLOv5模型訓練完成后,模型在測試集上的表現(xiàn)較為穩(wěn)定,麥穗計數(shù)的平均相對誤差為2.56%。而在系統(tǒng)測試過程中,麥穗計數(shù)的平均相對誤差僅為2.80%。因此,該算法在應用中具有準確性和適用性,形成能夠為小麥作物表型檢測和產(chǎn)量評估的測量裝置,對不同應用場景提供可行的技術解決方案。
[1] Eversole K, Feuillet C, Mayer K F, et al. Slicing the wheat genome[J]. Science, 2014, 345(6194): 285-287.
[2] Sadeghi-Tehran P, Virlet N, Ampe E M, et al. DeepCount: In-field automatic quantification of wheat spikes using simple linear iterative clustering and deep convolutional neural networks[J]. Frontiers in Plant Science, 2019, 10(1176): 1-16.
[3] 范夢揚,馬欽,劉峻明,等. 基于機器視覺的大田環(huán)境小麥麥穗計數(shù)方法[J]. 農(nóng)業(yè)機械學報,2015,46(S1):234-239.
Fan Mengyang, Ma Qin, Liu Junming, et al. Counting method of wheatear in field based on machine vision technology[J]. Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(S1): 234-239. (in Chinese with English abstract)
[4] Fernandez-Gallego J, Buchaillot M, Aparicio N, et al. Automatic wheat ear vounting using thermal imagery[J]. Remote Sensing, 2019, 11(751): 1-13.
[5] 李毅念,杜世偉,姚敏,等. 基于小麥群體圖像的田間麥穗計數(shù)及產(chǎn)量預測方法[J]. 農(nóng)業(yè)工程學報,2018,34(21):185-194.
Li Yinian, Du Shiwei, Yao Min, et al. Method for wheat ear counting and yield predicting based on image of wheatear population in field[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(21): 185-194. (in Chinese with English abstract)
[6] 劉濤,孫成明,王力堅,等. 基于圖像處理技術的大田麥穗計數(shù)[J]. 農(nóng)業(yè)機械學報,2014,45(2):282-290.
Liu Tao, Sun Chengming, Wang Lijian, et al. In-field wheatear counting based on image processing technology[J]. Transactions of the Chinese Society for Agricultural Machinery, 2014, 45(2): 282-290. (in Chinese with English abstract)
[7] Zhu Y, Cao Z, Lu H, et al. In-field automatic observation of wheat heading stage using computer vision[J]. Biosystems Engineering, 2016, 143: 28-41.
[8] Wei G, Fukatsu T, Ninomiya S. Automated characterization of flowering dynamics in rice using field-acquired time-series RGB images[J]. Plant Methods, 2015, 11(7): 1-14.
[9] Fernandez-Gallego J, Lootens P, Borra-Serrano I, et al. Automatic wheat ear counting using machine learning based on RGB UAV imagery[J]. The Plant Journal, 2020, 103(4): 1603-1613.
[10] Zhou C, Liang D, Yang X, et al. Wheat ears counting in field conditions based on multi-feature optimization and TWSVM[J]. Frontiers in Plant Science, 2018, 9(1024): 1-16.
[11] 劉哲,黃文準,王利平. 基于改進K-means聚類算法的大田麥穗自動計數(shù)[J]. 農(nóng)業(yè)工程學報,2019,35(3):174-181.
Liu Zhe, Huang Wenzhun, Wang Liping. Field wheat ear counting automatically based on improved K-means clustering algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(3): 174-181. (in Chinese with English abstract)
[12] 杜穎,蔡義承,譚昌偉,等. 基于超像素分割的田間小麥穗數(shù)統(tǒng)計方法[J]. 中國農(nóng)業(yè)科學,2019,52(1):21-33.
Du Ying, Cai Yicheng, Tan Changwei, et al. Field wheat ears counting based on superpixel segmentation method[J]. Scientia Agricultura Sinica. 2019, 52(1): 21-33. (in Chinese with English abstract)
[13] 李云霞,馬浚誠,劉紅杰,等. 基于 RGB 圖像與深度學習的冬小麥田間長勢參數(shù)估算系統(tǒng)[J]. 農(nóng)業(yè)工程學報,2021,37(24):189-198.
Li Yunxia, Ma Juncheng, Liu Hongjie, et al. Field growth parameter estimation system of winter wheat using RGB digital images and deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(24): 189-198. (in Chinese with English abstract)
[14] 陳佳瑋,李慶,譚巧行,等. 結合輕量級麥穗檢測模型和離線Android軟件開發(fā)的田間小麥測產(chǎn)[J]. 農(nóng)業(yè)工程學報,2021,37(19):156-164.
Chen Jiawei, Li Qing, Tan Qiaoxing, et al. Combining lightweight wheat spikes detecting model and offline Android software development for in-field wheat yield prediction[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(19): 156-164. (in Chinese with English abstract)
[15] Hao Wangli, Yu Peiyan, Hao Fei, et al. Foxtail millet ear detection approach based on YOLOv4 and adaptive anchor box adjustment[J]. Smart Agriculture, 2021, 3(1): 63-74.
郝王麗,尉培巖,郝飛,等. 基于YOLOv4和自適應錨框調(diào)整的谷穗檢測方法(英文)[J]. 智慧農(nóng)業(yè)(中英文),2021,3(1):63-74. (in English with Chinese abstract)
[16] Misra T, Arora A, Marwaha S, et al. SpikeSegNet-a deep learning approach utilizing encoder-decoder network with hourglass for spike segmentation and counting in wheat plant from visual imaging[J]. Plant Methods, 2020, 16(40): 1-20.
[17] Xu X, Li H, Yin F, et al. Wheat ear counting using K-means clustering segmentation and convolutional neural network[J]. Plant Methods, 2020, 16(106): 1-13.
[18] 鮑文霞,張鑫,胡根生,等. 基于深度卷積神經(jīng)網(wǎng)絡的田間麥穗密度估計及計數(shù)[J]. 農(nóng)業(yè)工程學報,2020,36(21):186-193.
Bao Wenxia, Zhang Xin, Hu Gensheng, et al. Estimation and counting of wheat ears density in field based on deep convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(21): 186-193. (in Chinese with English abstract)
[19] 段凌鳳,熊雄,劉謙,等. 基于深度全卷積神經(jīng)網(wǎng)絡的大田稻穗分割[J]. 農(nóng)業(yè)工程學報,2018,34(12):202-209.
Duan Lingfeng, Xiong Xiong, Liu Qian, et al. Field rice panicles segmentation based on deep full convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(12): 202?209. (in Chinese with English abstract)
[20] David E, Madec S, Sadeghi-Tehran P, et al. Global Wheat Head Detection (GWHD) dataset: A large and diverse dataset of high resolution RGB labelled images to develop and benchmark wheat head detection methods[J]. Plant Phenomics, 2020, 1: 1-10.
[21] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779-788.
[22] Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 7263-7271.
[23] Redmon J, Farhadi A. YOLOv3: An incremental improvement[EB/OL].(2018-04-08)[2021-04-18].https://arxiv.org/abs/1804.02767.
[24] Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: Optimal speed and accuracy of object detection[EB/OL]. (2020-04-23) [2021-04-18] https: //arxiv. org/abs/2004. 10934.
[25] Liu G, Nouaze J C, Touko P L, et al. YOLO-Tomato: A robust algorithm for tomato detection based on YOLOv3[J]. Sensors, 2020, 20(7): 1-20.
[26] 胡根生,吳繼甜,鮑文霞,等. 基于改進YOLOv5網(wǎng)絡的復雜背景圖像中茶尺蠖檢測[J]. 農(nóng)業(yè)工程學報,2021,37(21):191-198.
Hu Gensheng, Wu Jitian, Bao Wenxia, et al. Detection of Ectropis oblique in complex background images using improved YOLOv5[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(21): 191-198. (in Chinese with English abstract)
[27] Woo S, Park J, Lee J Y, et al. CBAM: Convolutional block attention module[C]//European Conference on Computer Vision. Munich, Germany: Springer, Cham, 2018: 3-19.
[28] Yang B, Gao Z, Gao Y, et al. Rapid detection and counting of wheat ears in the field using YOLOv4 with attention module[J]. Agronomy, 2021, 11(6): 1-17.
Measuring the number of wheat spikes per unit area in fields using an improved YOLOv5
Huang Shuo1,2, Zhou Yanan1,2, Wang Qifan3, Zhang Han1,2, Qiu Chaoyang4, Kang Kai4, Luo Bin1,2※
(1.100097, China;2.100097, China;3.071000, China;4.100097, China)
The number of spikes per unit area has been one of the main factors to determine the wheat yield. Rapid and accurate acquisition of the number of spikes per unit area is of great importance for the breeding and cultivation in agricultural production. Fortunately, the high-resolution images of wheat spikes can be analyzed by the pre-trained artificial intelligence models to extract the number of spikes per unit area, particularly with the rapid development of deep learning. The consistent data can also be obtained to independently extract the feature, due to the strong learning ability of deep learning at present. In this study, a combined smartphone and server system was proposed to measure the number of wheat spikes. A Convolutional Block Attention Module (CBAM) and YOLOv5 were combined as the core of the CBAM-YOLOv5 model. Among them, the YOLOv5 network structure provided an excellent balance between the detection speed and accuracy for the small and dense targets, suitable for counting the number of wheat spikes. Since the channel and spatial attention modules were contained in the CBAM, the features were processed along both channel and spatial dimensions. The feature representation of targets was then much clearer to identify the overlapping or obscured wheat spikes. The specific procedure was as follows: 1) To manually annotate the self-photographed Wheat Spike Detection (WSD) dataset and the publicly available Global Wheat Head Detection (GWHD) dataset on the web, including 176 images as the training set, 22 images as the validation set, and 22 images as the test set. The generalization ability of the model was improved to introduce the GWHD dataset. 2) The CBAM was added at the neck end of the YOLOv5 network structure in the improved CBAM-YOLOv5 model. The input image sizes of the model were set as 640, 960, and 1 280 pixels. A comparison was then made to obtain the optimal training parameters. 3) The CBAM-YOLOv5, YOLOv5, YOLOv4, and Faster RCNN were trained with the optimal parameters to compare the performance of different network structures. 4) The spikes counting system was developed using the client-server model. Specifically, the images of wheat spikes were taken by smartphones and then uploaded to the server. The CBAM-YOLOv5 model on the server was used to recognize the images. After that, the counting data was then returned to the smartphones for display to the user. The results show that better performance was achieved in the evaluation metrics of CBAM-YOLOv5, when the input image sizes were 1 280 pixels. Among them, the1-score was improved up to 0.904, and the average precision reached 0.902 when the intersection over union was set as 0.50. The CBAM-YOLOv5 was better performed than the YOLOv5, YOLOv4, and Faster RCNN, in terms of evaluation metrics, with an average relative error of only 2.56% in the counting. It infers that the improved model was much more stable and faster. Taken together, the CBAM-YOLOv5 presented a greater improvement. The spikes counting system was simple to use and easy to operate. The relative error of count in the field test was only 2.80%, indicating a relatively stable performance. Therefore, the new system can be expected to serve as the rapid and automatic collection of wheat spike counts without manual intervention in the field. The low-cost and reliable system can also provide an accurate data reference for wheat yield prediction.
models; wheat; number of spikes per unit area; deep learning; YOLOv5; CBAM
10.11975/j.issn.1002-6819.2022.16.026
S126
A
1002-6819(2022)-16-0235-08
黃碩,周亞男,王起帆,等. 改進YOLOv5測量田間小麥單位面積穗數(shù)[J]. 農(nóng)業(yè)工程學報,2022,38(16):235-242.doi:10.11975/j.issn.1002-6819.2022.16.026 http://www.tcsae.org
Huang Shuo, Zhou Yanan, Wang Qifan, et al. Measuring the number of wheat spikes per unit area in fields using an improved YOLOv5[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(16): 235-242. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.16.026 http://www.tcsae.org
2022-04-19
2022-08-03
國家重點研發(fā)計劃項目(2017YFD0701205)
黃碩,研究方向為智能檢測及自動控制技術。Email:huangs@nercita.org.cn
羅斌,博士,副研究員,研究方向為農(nóng)業(yè)智能裝備技術。Email:luob@nercita.org.cn