摘要:甘蔗莖節(jié)識別是實現(xiàn)切種機對甘蔗精準切種的重要步驟。高效的甘蔗莖節(jié)識別定位能幫助甘蔗切種機提高莖節(jié)識別精度、保護蔗芽及減少刀具磨損。文章通過實地調研和文獻查閱,了解識別甘蔗莖節(jié)特征的方法,分析深度學習在計算機視覺領域的應用效果,旨在實現(xiàn)對甘蔗莖節(jié)表面特征進行精準快速高效識別,并基于YOLOv5模型建立智能識別卷積神經網絡模型,提出一種甘蔗莖節(jié)識別方法(甘蔗莖節(jié)識別模型),通過收集的甘蔗訓練圖像對模型進行訓練,并在測試集上驗證。訓練和測試結果表明,建立的甘蔗莖節(jié)識別模型可準確識別甘蔗莖節(jié),識別準確率達90.2%,召回率達90.1%,可在智能化甘蔗切種機開發(fā)中參考應用。
關鍵詞:甘蔗切種;莖節(jié)識別;深度學習;YOLOv5模型;快速準確定位
中圖分類號:S566.1;TP391.4 文獻標志碼:A 文章編號:2095-820X(2024)05-0354-06
0 引言
甘蔗是重要的溫帶和熱帶經濟作物,也是我國的主要糖料作物,可用于制作日常生活所需的食用糖,還可作為化工、輕工和食品等行業(yè)的原材料,因此,甘蔗在我國國民經濟發(fā)展和保障食品安全上占據舉足輕重的地位[1]。廣西是我國甘蔗主產區(qū),甘蔗種植面積和產量均占全國的60%以上,是名副其實的“糖罐子”[2]。甘蔗產業(yè)作為廣西的重點支柱產業(yè),已形成種植、糖料加工及產品銷售的完整產業(yè)鏈,為促進廣西經濟發(fā)展和鄉(xiāng)村振興作出了巨大貢獻[3-4]。盡管廣西地區(qū)的甘蔗產量和種植面積位居全國首位,但總體上仍面臨甘蔗種植面積下降、農戶種植積極性降低和適宜機械化收割的蔗地面積減少等挑戰(zhàn),亟待探索符合本地特點的甘蔗產業(yè)發(fā)展之路,從多個方面推動甘蔗產業(yè)健康發(fā)展。當前,我國廣泛使用的甘蔗種植機多為實時切種,存在播種不均勻、勞動強度大和耗費種蔗量大等問題[5],導致種植成本上升,嚴重制約了甘蔗產業(yè)的可持續(xù)發(fā)展。隨著5G、AI和物聯(lián)網等信息技術賦能現(xiàn)代農業(yè),生產機械化、自動化和智能化已成為智慧農業(yè)的重要特征,且在提高生產效率、降低生產成本和改善生產條件等方面發(fā)揮著重要作用。就甘蔗生產而言,受甘蔗種植分散、種植規(guī)模小和丘陵種植地貌復雜等實際條件的限制,生產技術和生產模式落后、機械化程度不高及主要依賴人工作業(yè)是該產業(yè)的顯著特點。莖節(jié)識別是甘蔗種植機械化和智能化的關鍵所在,準確高效的莖節(jié)識別定位能幫助切種式甘蔗種植機提高識別精度,實現(xiàn)高效防傷芽切種;有利于保護甘蔗芽免遭物理損害和減少對收獲刀具的磨損并實現(xiàn)甘蔗自動化收割,從而促進甘蔗產業(yè)的標準化和智能化,進一步解放生產力。因此,甘蔗莖節(jié)識別定位不僅為各種智能甘蔗機械設備提供視覺技術支持,對甘蔗產業(yè)現(xiàn)代化也具有重要意義。本研究在實地調研和文獻查閱的基礎上,分析深度學習在計算機視覺領域的應用效果,基于YOLOv5模型建立智能識別卷積神經網絡(CNN)模型,提出一種甘蔗莖節(jié)識別方法,為實現(xiàn)對甘蔗莖節(jié)表面特征進行精準快速高效識別及智能化甘蔗切種機開發(fā)提供參考依據。
1 甘蔗莖節(jié)識別相關技術
1.1 甘蔗莖節(jié)識別
準確識別甘蔗莖節(jié)可大幅提高甘蔗機械化收割效率,降低人工成本,在甘蔗種植和收割各環(huán)節(jié)實現(xiàn)精細化管理,從而提升甘蔗產量和質量。但提高甘蔗莖節(jié)識別準確性面臨諸多技術難點,包括莖節(jié)在不同生長階段和環(huán)境下表型多樣、復雜的背景干擾(如葉片和土壤遮擋)、光照條件變化對圖像質量的影響及莖節(jié)形態(tài)和顏色變動。
計算機技術的快速發(fā)展為提高甘蔗莖節(jié)識別準確性提供了新方法,包括基于傳統(tǒng)圖像處理方法(如邊緣檢測和形態(tài)學操作)、基于機器學習方法(如支持向量機和隨機森林)和基于深度學習方法(如卷積神經網絡和目標檢測算法檢測模型)。但應用這些方法也存在一定局限性,如傳統(tǒng)圖像處理方法在處理復雜背景和多樣化莖節(jié)形態(tài)時性能有限,機器學習方法對特征工程依賴較大,難以自動提取復雜特征。
1.2 圖像識別
圖像識別是計算機視覺領域的一個重要研究方向,主要通過計算機自動分析和理解圖像內容[6]。圖像識別技術包括傳統(tǒng)圖像處理方法,如邊緣檢測、形態(tài)學處理和特征匹配及機器學習。這些技術已廣泛應用于醫(yī)療診斷、自動駕駛、安防監(jiān)控、工業(yè)自動化和智能零售等領域。利用圖像識別技術可實現(xiàn)農作物的自動監(jiān)測和管理,如病蟲害識別、作物生長監(jiān)測及產量預測等,提高農業(yè)生產效率,還可減少農藥和肥料使用,實現(xiàn)精準農業(yè)。在甘蔗生產中,圖像識別技術能有效識別和定位甘蔗莖節(jié),為機械化收割及精細化管理提供技術支持,推動甘蔗生產向智能化和自動化方向發(fā)展。
1.3 深度學習
深度學習是一種以人工神經網絡為基礎,旨在通過多層網絡結構對數(shù)據進行分層表示和學習,從而捕捉數(shù)據中復雜模式和特征的機器學習方法[7]。常用的深度學習模型包括卷積神經網絡、循環(huán)神經網絡(RNN)和生成對抗網絡(GAN)等[8]。卷積神經網絡特別適用于圖像處理任務,通過卷積層和池化層操作,能有效提取圖像的空間特征[9];循環(huán)神經網絡擅長處理序列數(shù)據,已廣泛應用于自然語言處理和時間序列預測;生成對抗網絡用于生成高質量合成數(shù)據,在圖像生成和增強方面作用明顯。在農業(yè)生產中,利用卷積神經網絡可實現(xiàn)對農作物進行病蟲害檢測、生長監(jiān)測及產量預測等,如通過分析農作物葉片圖像,可準確識別病害類型并進行實時預警;通過監(jiān)測田間農作物生長狀態(tài),可優(yōu)化施肥和灌溉方案,提高農作物產量和質量。此外,生成對抗網絡技術還可用于生成和增強農業(yè)數(shù)據,提升深度學習模型的訓練效果。
綜上所述,盡管圖像識別和深度學習技術在農業(yè)生產中取得了明顯進展,但甘蔗莖節(jié)的多樣性和復雜性,加上復雜的背景干擾及光照條件變化,使得現(xiàn)有的甘蔗莖節(jié)識別方法在識別準確性和效率方面存在一定局限性。傳統(tǒng)的圖像處理技術在應對這些局限性時表現(xiàn)不佳,機器學習方法對特征工程的依賴較大;深度學習方法雖然表現(xiàn)優(yōu)異,但對數(shù)據和計算資源的需求較高。因此,文章提出一種基于YOLOv5的深度學習甘蔗莖節(jié)識別模型(以下簡稱甘蔗莖節(jié)識別模型),以解決傳統(tǒng)甘蔗莖節(jié)識別方法在應對甘蔗莖節(jié)多樣性和復雜性問題時的局限性,提高莖節(jié)識別的效率和準確性。
2 甘蔗莖節(jié)圖像采集及處理
2.1 圖像采集
2023年10月—2024年2月在廣西靖西市湖潤鎮(zhèn)甘蔗基地采集甘蔗莖節(jié)圖像,甘蔗品種為桂糖8號。采集圖像時甘蔗處于成熟期,平均莖粗約2.5 cm。在圖像采集過程中,光照、拍攝角度、不同莖節(jié)數(shù)、不同甘蔗根數(shù)和有無蔗葉等是影響視覺識別的主要因素,以其為分類特征采集圖像。為更好地模擬甘蔗莖節(jié)的多樣性和復雜性,分別于9:00、12:00和18:00 3個時間點進行拍攝,覆蓋側光、前光和逆光等不同光照條件。此外,通過調整相機拍攝角度獲取不同光線方向甘蔗莖節(jié)的照片。在圖像采集過程中,以拍攝方向與光傳播方向相同、垂直、相反分別模擬前光、側光和背光條件。通過多角度和多時間段的圖像采集,確保數(shù)據的全面性和多樣性。
2.2 數(shù)據采集與增強方法
在野外甘蔗田中,甘蔗葉片經常會遮擋陽光,導致甘蔗下部光線不足;云朵的移動也會導致甘蔗田光線時強時弱。為了增強數(shù)據的多樣性并提高模型在不同光照條件下的識別能力,需通過對采集的圖像進行亮度調節(jié)、旋轉和鏡像翻轉等以增強圖像數(shù)據,應用這些數(shù)據增強技術可明顯增加訓練數(shù)據的多樣性,提升模型在各種圖像場景下的識別性能。其中,通過圖像亮度調節(jié),可解決由于數(shù)據收集時間短而導致收集不全的問題;通過圖像旋轉(左右旋轉45°)和鏡像翻轉可模擬甘蔗的多樣化生長姿態(tài)。
2.3 數(shù)據標注工具與標記過程
數(shù)據標注是甘蔗莖節(jié)識別模型訓練中至關重要的環(huán)節(jié)。標注過程:使用圖像標注工具(Labelimg)對甘蔗圖像進行手動標記,并繪制邊界框,將標注結果保存為YOLO格式;標記的矩形邊界框用于識別甘蔗莖節(jié),確保數(shù)據集中不包含不清楚的數(shù)據,防止神經網絡在訓練過程中出現(xiàn)過擬合現(xiàn)象。整個數(shù)據標注過程需人工仔細檢查和確認,確保每個數(shù)據標注的準確性和一致性。
3 甘蔗莖節(jié)識別模型的實現(xiàn)與優(yōu)化
3.1 YOLOv5網絡架構
YOLO是一種先進的目標檢測算法,采用單一前向傳遞方式進行對象檢測,YOLOv5是其升級版,包含YOLOv5x、YOLOv5l、YOLOv5m和YOLOv5s等4個版本,可通過調整depth_multiple和width_multiple 2個參數(shù)控制算法模型的深度與寬度[10]。YOLOv5的網絡架構包括4個部分:輸入端(Input)、骨干網絡(Backbone)、頸部網絡(Neck)和預測端(Prediction)[11]。YOLOv5將目標檢測任務轉化為回歸問題求解,通過輸入原始圖像直接得到物體所在位置的坐標及其類別。在目標檢測過程中,圖像首先經骨干網絡提取特征,然后通過特征融合層進行特征增強,最后通過預測層得到目標的位置和類別。
YOLOv5引入了錨框(Anchor boxes)概念,用于預測對象的邊界框,每個框負責檢測不同尺寸和比例的對象。此外,YOLOv5采用多尺度特征圖來處理不同大小的對象,使用非極大值抑制(NMS)算法來消除重疊的邊界框,以提高檢測精度。
3.2 網絡層次結構設計
在甘蔗莖節(jié)識別模型中,輸入端負責將原始圖像輸入模型,并通過圖像增強和預處理步驟提高模型的泛化能力。骨干網絡采用CSPDarknet53結構,通過提取圖像的多尺度特征實現(xiàn)對目標的精準識別。頸部網絡使用特征金字塔網絡(FPN)和路徑聚合網絡(PAN)結構,對不同層次的特征進行整合。這些特征包括甘蔗莖節(jié)在不同光照條件、角度和環(huán)境下的形態(tài)特征、紋理信息、邊緣及形狀特征等。特征金字塔網絡能將高層次的語義特征與低層次的細節(jié)特征結合,路徑聚合網絡則進一步增強特征傳遞的效率,從而更好地識別甘蔗莖節(jié)在復雜背景中的位置及其形態(tài),提高檢測的精準度和魯棒性。
3.3 輸入與輸出設置
輸入端的主要任務是對圖像進行標準化處理,以確保圖像在輸入至神經網絡前處于穩(wěn)定狀態(tài)。輸入圖像的分辨率通常被調整為640×640像素,并進行歸一化處理以適應模型要求。在輸出端,YOLOv5將每個網格單元預測的多個邊界框通過非極大值抑制算法進行篩選,最終輸出最可信的目標位置和類別。表1中展示了YOLOv5模型的主要參數(shù)設置。
3.4 訓練策略與超參數(shù)調整
在甘蔗莖節(jié)識別模型訓練過程中,采用自適應算法(ADAM)優(yōu)化器來優(yōu)化損失函數(shù),以實現(xiàn)快速收斂[12]。超參數(shù)設置對模型的性能具有明顯影響,因此在模型訓練過程中通過網格搜索法進行超參數(shù)調整,并運用訓練策略[數(shù)據增強、學習率調度和早停法(Early stopping)等]防止模型出現(xiàn)過擬合或欠擬合現(xiàn)象。圖1展示了訓練過程中損失函數(shù)的變化曲線,通過分析該曲線可看出,由于模型初始化時參數(shù)未經調整,因此其訓練開始時的損失函數(shù)值較大;隨著訓練輪數(shù)的增加,損失值逐漸減小并趨于平穩(wěn),說明模型的參數(shù)通過梯度下降法逐步得到優(yōu)化,模型逐漸適應訓練數(shù)據,其性能趨于穩(wěn)定。
3.5 數(shù)據增強訓練的應用
為了提升甘蔗莖節(jié)識別模型的泛化能力,需對原始數(shù)據集進行多種數(shù)據增強處理,包括旋轉、鏡像翻轉和亮度調整。通過這些數(shù)據增強方法,可模擬不同光照、角度和環(huán)境條件下的甘蔗莖節(jié)圖像,提高甘蔗莖節(jié)識別模型在不同場景下的識別精度。表2展示不同數(shù)據增強方法處理后的甘蔗莖節(jié)識別模型識別效果。其中,F(xiàn)1值(F1-score)在甘蔗莖節(jié)識別模型訓練中用于評估經數(shù)據增強處理后模型的綜合表現(xiàn),以確定模型在不同光照、角度和環(huán)境條件下的識別精度。由表2可知,通過旋轉、鏡像翻轉和亮度調整等數(shù)據增強方法處理,模型在增強后的數(shù)據集中表現(xiàn)出最高的召回率(R)(90.9%)和F1值(0.88),說明經過全面的增強處理后,模型在各種復雜條件下能較準確地識別甘蔗莖節(jié);在左旋轉45°的情況下,召回率下降至85.2%,F(xiàn)1值下降至0.86,說明左旋轉處理對提高模型識別甘蔗莖節(jié)的能力具有一定重要性;鏡像翻轉后,準確率(P)上升到88.3%,但召回率略有下降,F(xiàn)1值降至0.87,說明鏡像翻轉的主要作用體現(xiàn)在提高召回率上,對模型準確率的影響較小;在調整亮度(調整0.7和1.3倍)后,F(xiàn)1值均有所下降,說明亮度調整有助于提高模型在不同光照條件下的魯棒性和識別效果。
3.6 甘蔗莖節(jié)形態(tài)特征分析
甘蔗莖節(jié)在不同生長階段的形態(tài)、顏色和紋理特征具有差異。為此,需對甘蔗莖節(jié)的形態(tài)特征進行詳細分析,以便模型能更準確地識別和定位甘蔗莖節(jié)。通過對大量甘蔗圖像進行分析,總結出甘蔗不同生長階段的特征,并在數(shù)據標注時進行詳細標注。
3.7 模型估計的優(yōu)化策略
在甘蔗莖節(jié)識別模型優(yōu)化過程中,采用多種策略來提高檢測精度和效率。首先,使用稀疏化訓練方法,通過L1正則化約束(對模型參數(shù)/權重的絕對值進行約束以減少模型的復雜度),使模型更精簡,可減少計算的復雜度。其次,引入多尺度特征圖和注意力機制,以提升模型對不同大小和形狀目標的檢測能力。最后,通過剪枝技術進一步優(yōu)化模型結構,降低參數(shù)量和計算量。
從圖2可看出,稀疏化訓練開始時損失函數(shù)值較高,隨著訓練輪數(shù)的增加,模型的權重逐步優(yōu)化,損失函數(shù)值逐漸減小,直到收斂;在訓練后期,曲線逐漸趨于平穩(wěn),說明模型已接近最佳狀態(tài)。由此可見,稀疏化過程可減少冗余參數(shù),提高檢測效率。
綜上所述,通過甘蔗莖節(jié)識別模型的實現(xiàn)與優(yōu)化,其性能和效率得以有效提高,能在復雜的自然環(huán)境下實現(xiàn)對甘蔗莖節(jié)的準確識別和定位。
4 甘蔗莖節(jié)識別模型準確性和有效性驗證
4.1 驗證流程
從圖3可看出,對甘蔗莖節(jié)識別模型的準確性和有效性進行驗證,首先是將甘蔗圖像數(shù)據集劃分為訓練集和測試集,其次是將訓練集數(shù)據作為模型訓練數(shù)據對甘蔗莖節(jié)識別模型進行訓練,使用ADAM優(yōu)化器對模型參數(shù)進行優(yōu)化,模型參數(shù)達到設定的指定迭代次數(shù)時的模型即為訓練完成的甘蔗莖節(jié)識別模型。
4.2 驗證平臺
驗證平臺為臺式電腦,處理器為i5-12600K,主頻為3.7 GHz,內存32 G,顯卡為GeForce RTX3090。平臺運行環(huán)境為Windows 11,使用Pytorch編寫程序,調用Keras和OpenCV庫。
4.3 驗證數(shù)據集的選擇與描述
驗證數(shù)據集選取廣西靖西市湖潤鎮(zhèn)甘蔗基地的甘蔗圖像數(shù)據。數(shù)據集包括2100張甘蔗莖節(jié)圖像,通過旋轉、鏡像翻轉和亮度調整等數(shù)據增強技術擴展為12600張圖像。圖像分辨率為640×640像素,覆蓋不同的光照條件、拍攝角度和生長階段。數(shù)據集按8∶1∶1比例劃分為訓練集、驗證集和測試集,分別用于模型訓練、參數(shù)調優(yōu)和性能評估[13]。
4.4 性能評價指標介紹
以準確率、召回率、平均精度(AP)、F1值和平均IoU(Intersection over union)作為全面評估甘蔗莖節(jié)識別模型性能的評價指標。其中,準確率是檢測出的正樣本占全部檢測樣本的比例,召回率是檢測過程中正確識別正樣本的比率[14],平均精度是各評價指標精度的平均值,F(xiàn)1值是準確率和召回率的調和平均值(綜合表現(xiàn)值)[15],平均IoU是預測框和真實框的重疊度(交并比)。各評價指標的計算公式見表3。
4.5 驗證結果分析
4.5.1 甘蔗莖節(jié)識別模型在不同場景下的檢測結果
由表4可知,甘蔗莖節(jié)識別模型在逆光和側光條件下的準確率分別為88.5%和90.2%,召回率分別為88.1%和89.7%,在前光條件下的準確率達92.3%,召回率為91.5%;在甘蔗不同生長階段,該模型對幼苗期、中期和成熟期的莖節(jié)識別準確率分別為89.1%、91.7%和93.5%;該模型在前光條件下的F1值(0.92)更接近1.00。綜合準確率、召回率和F1值表現(xiàn),甘蔗莖節(jié)識別模型的性能在前光條件下表現(xiàn)最佳。
4.5.2 與傳統(tǒng)圖像處理方法檢測性能的比較結果
甘蔗莖節(jié)識別模型在不同光照條件、拍攝角度和甘蔗生長階段檢測的性能均優(yōu)于傳統(tǒng)圖像處理方法(表5)。傳統(tǒng)圖像處理方法包括邊緣檢測、顏色分割和形態(tài)學操作等,在部分場景下檢測的性能雖表現(xiàn)良好,但總體上不如甘蔗莖節(jié)識別模型。其中,甘蔗莖節(jié)識別模型檢測的準確率(90.2%)和召回率(90.1%)分別高于傳統(tǒng)圖像處理方法14.9%(絕對值,下同)和18.3%,平均精度提高13.9%,平均IoU提高17.8%。說明甘蔗莖節(jié)識別模型在不同場景和復雜環(huán)境下均具有較高的檢測性能,可大幅提高對甘蔗莖節(jié)識別的準確率和效率。
5 結論
甘蔗莖節(jié)識別模型通過優(yōu)化YOLOv5網絡架構、引入數(shù)據增強技術及采用稀疏化訓練與剪枝技術,在甘蔗莖節(jié)自動識別與定位上效果明顯。在不同光照條件、拍攝角度和甘蔗生長階段下,該模型對甘蔗莖節(jié)均具有較高的識別準確率和召回率,且明顯優(yōu)于傳統(tǒng)圖像處理方法,可為甘蔗種植和收割機械化領域提供技術支持。未來工作中可進一步優(yōu)化該模型的結構,結合多模態(tài)傳感器數(shù)據,如激光雷達和多光譜圖像,增強模型對復雜環(huán)境的適應能力,以提高復雜農業(yè)環(huán)境下的莖節(jié)檢測精度和效率。
參考文獻:
[1] 秦樂駒. 云南甘蔗糖業(yè)發(fā)展研究[D]. 湛江:廣東海洋大學,2021.
[2] 王學清,張靜. 中國甘蔗產業(yè)支持政策及相關發(fā)展思路[J]. 農業(yè)展望,2018,14(1):43-48.
[3] 孫西楠. 廣西甘蔗糖業(yè)循環(huán)經濟發(fā)展研究[D]. 武漢:中南民族大學,2015.
[4] 賀貴柏,向英,陶尚琨,等. 加快推動甘蔗產業(yè)綠色高質量發(fā)展的政策措施探討——以廣西百色市為例[J]. 甘蔗糖業(yè),2021,50(1):8-11.
[5] 侯露,鄒展曦,何勝創(chuàng),等. 甘蔗種植機切種控制系統(tǒng)設計[J]. 甘蔗糖業(yè),2015(3):59-65.
[6] 李志. 基于圖像識別的大屏幕人機交互系統(tǒng)研究[D]. 合肥:安徽大學,2010.
[7] 王文博. 視覺和文本的跨模態(tài)檢索和識別研究[D]. 合肥:合肥工業(yè)大學,2021.
[8] 烏日娜. 基于無人機的公路路面破損識別與分類方法研究[D]. 呼和浩特:內蒙古工業(yè)大學,2021.
[9] 范凌云. 基于卷積神經網絡和深度特征融合的學習表情識別[J]. 科學技術創(chuàng)新,2022(11):85-88.
[10] 陳俊. 復雜文檔文本檢測和文本識別研究[D]. 南昌:南昌航空大學,2021.
[11] 葉欣. 基于深度學習的熱軋帶鋼表面缺陷檢測算法研究[D]. 武漢:武漢科技大學,2021.
[12] 謝堂營. 基于DCGAN的圖像增強方法研究[D]. 呼和浩特:內蒙古科技大學,2021.
[13] 陳共馳,榮歡,馬廷淮. 面向連貫性強化的無真值依賴文本摘要模型[J]. 計算機科學與探索,2022,16(3):621-636.
[14] 席春玲. 基于大規(guī)模中文知識庫的自動問答系統(tǒng)研究[D]. 鄭州:鄭州大學,2021.
[15] 樊明亮. 基于深度學習的開放域中文知識問答系統(tǒng)研究[D]. 秦皇島:燕山大學,2021.
(責任編輯 王 暉)
收稿日期:2024-07-18
基金項目:廣西農業(yè)職業(yè)技術大學自然科學與技術開發(fā)計劃項目(XKJ2357)
通訊作者:唐偉萍(1983-),女,副教授,主要從事計算機電子信息應用研究工作,E-mail:770497278@qq.com
第一作者:丘剛瑋(1985-),男,工程師,主要從事計算機應用及農業(yè)信息技術研究工作,E-mail:331872198@qq.com