摘要:為實現(xiàn)溫室復(fù)雜環(huán)境中草莓的快速、精確檢測,提出一種基于改進YOLOv8的多階段草莓檢測算法。首先,針對溫室環(huán)境下采集到的草莓數(shù)據(jù)集,使用LabelImg對數(shù)據(jù)集進行標注;其次,針對草莓體積小、環(huán)境復(fù)雜等問題,在主干網(wǎng)絡(luò)中融入BiFormer動態(tài)注意力機制,實現(xiàn)更加靈活的計算分配和特征感知,使網(wǎng)絡(luò)模型更加關(guān)注小目標檢測,并提高其在復(fù)雜環(huán)境下的果實檢測能力;最后,在Neck部分引入VanillaNet模塊,以降低模型計算量,進一步提高對草莓的識別精度。試驗結(jié)果表明,相較傳統(tǒng)的YOLOv8,改進后的YOLOv8的平均精度均值mAP提升4.6%,達到93.8%。改進后的YOLOv8具有更高的檢測精度,同時在小目標檢測方面表現(xiàn)出色,為后續(xù)的采摘機器人實時小目標檢測提供支撐。
關(guān)鍵詞:深度學習;草莓檢測;YOLOv8;注意力機制;數(shù)據(jù)增強
中圖分類號:TP391" " " 文獻標識碼:A" " " 文章編號:2095?5553 (2024) 10?0274?07
A multi?stage strawberry detection algorithm based on improved YOLOv8
Zhang Pu, Qiao Bo, Chen Yiming
(College of Information and Intelligence, Hunan Agricultural University, Changsha, 410128, China)
Abstract: In order to achieve fast and accurate detection of strawberries in complex greenhouse environments, a multi?stage strawberry detection algorithm based on an improved YOLOv8 was proposed. Firstly, the strawberry dataset, collected in greenhouse environments, was initially annotated by using LabelImg. Subsequently, in order to address issues such as the small size of strawberries and the complexity of the environment, a BiFormer dynamic attention mechanism was integrated into the backbone network. This integration allowed for more flexible computational allocation and feature perception, focusing the network model more on small object detection and enhancing its fruit detection capabilities in complex environments. Finally, a VanilaNet module was introduced in the Neck component to reduce the computational complexity of the model and further improve its strawberry recognition accuracy. Experimental results demonstrated that the improved YOLOv8, in comparison to the traditional YOLOv8, increased the mAP by 4.6%, reaching 93.8%. The improved YOLOv8 not only has higher detection accuracy, but also performs well" in small target detection, which can provide support for the subsequent real?time small target detection of picking robots.
Keywords: deep learning; strawberry detection; YOLOv8; attention mechanism; data enhancement
0 引言
中國是全球最大的草莓生產(chǎn)國,產(chǎn)值達50億美元,是第二大草莓生產(chǎn)國美國的3倍多[1]。草莓是中國農(nóng)民增收致富的重要經(jīng)濟作物,草莓成熟度的識別對于智能管理中的灌溉、施肥和環(huán)境控制等決策具有重要意義。由于草莓體積小、自然環(huán)境復(fù)雜等特點,使得草莓的檢測比較困難。目前,草莓的識別主要依靠人工觀測,工作效率低[2]。傳統(tǒng)的人工采摘和生長觀測對于小型植株和果實來說耗時且費力,可能導致高額的人工成本,并且無法滿足實時、快速的監(jiān)測需求。
近年來,國內(nèi)外在果實精確識別和成熟度分類方面的研究已取得顯著進展。傳統(tǒng)機器學習方法利用顏色、質(zhì)地、形狀等淺層特征,結(jié)合不同化學和物理性質(zhì)的測量參考值,或結(jié)合光譜成像等數(shù)據(jù)來識別水果對象。Munera等[3]使用VIS-NIR高光譜反射成像實現(xiàn)對油桃成熟度檢測。Malik等[4]基于改進的(HSV)色彩空間和增強的分水嶺分割算法檢測成熟番茄。馬惠玲等[5]利用近紅外高光譜圖像技術(shù)結(jié)合KNN計算對蘋果品種進行快速鑒別,取得了較高的檢測精度。Indrabayu等[6]等使用采用徑向基函數(shù)(RBF)核函數(shù)的多類支持向量機(SVM)對草莓成熟度進行分類,準確率高達85.64%。傳統(tǒng)圖像識別方法在精確度方面表現(xiàn)出色。然而,傳統(tǒng)機器學習技術(shù)的局限性往往依賴于手工設(shè)計的特征提取方法,意味著在復(fù)雜背景下水果目標檢測的特征表達能力會受到一定程度限制。因此,基于圖像的水果檢測技術(shù)需要進一步深入研究,以更好地適應(yīng)復(fù)雜場景下的檢測需求。
隨著計算機視覺和深度學習技術(shù)的發(fā)展,尤其是在2012年Krizhevsky等[7]推出AlexNet之后,深度學習技術(shù)已經(jīng)快速發(fā)展并廣泛應(yīng)用于各個領(lǐng)域。許多研究已經(jīng)證明基于 CNN 的水果檢測技術(shù)具有潛力。Appe等[8]提出了一種基于改進YOLO的目標檢測算法,即CAM-YOLO算法。該算法結(jié)合了YOLOv5目標識別和卷積注意力模塊(CBAM),并應(yīng)用非極大值抑制和距離交并集(DIoU)來增強對圖像中重疊物體的識別。試驗結(jié)果表明,CAM-YOLO算法在重疊番茄和小番茄的檢測效率上達到了88.1%。Zhou等[2]提出了一種基于Faster R-CNN的草莓檢測方法,平均檢測精度達到86%。張小花等[9]提出了基于EfficientDet-D1的草莓快速檢測及分類方法,該方法結(jié)合了EfficientNet網(wǎng)絡(luò)的快速歸一化特征加權(quán)融合特點,針對成熟和未成熟草莓的檢測任務(wù),平均精度達到了96.71%,有較好的泛化性和魯棒性。孫俊等[10]提出一種基于改進YOLOv4-Tiny的草莓檢測模型,采用輕量型網(wǎng)絡(luò)GhostNet作為特征提取網(wǎng)絡(luò),并在GhostBottleneck結(jié)構(gòu)中嵌入卷積注意力模塊,實現(xiàn)輕量化的同時將草莓的識別精度提升至92.62%。
與傳統(tǒng)的圖像方法相比,卷積神經(jīng)網(wǎng)絡(luò)具有更強的特征提取能力、準確性以及魯棒性和泛化能力[11]。然而,現(xiàn)有研究大多側(cè)重于紅熟期草莓的檢測,對草莓多階段的研究有限,且實際的草莓檢測應(yīng)用環(huán)境中,由于草莓體積小且密集分布,其外觀特征與周圍背景非常相似,導致檢測困難。在檢測過小的草莓目標方面,目前缺乏有效的算法來獲得準確的結(jié)果?,F(xiàn)有算法在檢測過程中可能會遇到誤檢、漏檢等問題。為解決上述問題,設(shè)計一種基于改進YOLOv8的多階段草莓檢測算法,采用BiFormer[12]動態(tài)注意力機制與輕量級結(jié)構(gòu)VanillaNet[13]相結(jié)合,從而提升對小目標的檢測性能和效率。
1 材料與方法
1.1 數(shù)據(jù)集的采集與構(gòu)建
本試驗所采集的數(shù)據(jù)來自浙江衢州蓮花基地,其采用溫室內(nèi)高架栽培模式,種植場景如圖1所示。草莓的品種為紅顏,試驗使用的圖像采集設(shè)備為手機后置攝像頭。試驗通過采集動態(tài)視頻數(shù)據(jù),并使用Python對采集到的視頻進行幀處理,共采集了溫室環(huán)境中的草莓圖像463張,為提高數(shù)據(jù)集的容量,使用Python腳本從網(wǎng)上隨機爬取并針對性地篩選了小目標等影響下的草莓圖像345張,總數(shù)共計808張原始圖像。本試驗使用的標記工具為LabelImg圖像處理軟件,并通過人工手動對草莓位置進行標記。將識別數(shù)據(jù)分為未成熟、半成熟和成熟草莓3種樣本,按8∶1∶1的比例劃分為訓練集、驗證集和測試集。
Mosaic方法是YOLOv4論文中提出的一種基于圖像變換的數(shù)據(jù)增強方法。它通過一系列方法來拼接多個原始圖像,從而創(chuàng)建一個合成圖像。合成圖像融合了多個圖像的內(nèi)容,包含了更多的信息,有助于訓練模型更好地適應(yīng)各種復(fù)雜場景。
為了增強模型的泛化性能,本文在訓練過程中應(yīng)用Mosaic技術(shù)。該技術(shù)通過隨機選取4張圖片,并對它們進行隨機裁剪、翻轉(zhuǎn)、縮放和色域變化,然后將它們拼接在一起,作為輸入傳入模型中。具體的圖像處理方法和參數(shù)如表1所示。
1.2 方法
1.2.1 YOLOv8網(wǎng)絡(luò)模型
YOLOv8由Ultralytics于2023年1月發(fā)布[14]。基于前一系列YOLO模型的成功,YOLOv8引入了新的功能和改進,這使其在目標檢測方面表現(xiàn)出更高的效率,同時仍然保持高精度。YOLOv8的架構(gòu)如圖2所示,主要可分為骨干特征提取網(wǎng)絡(luò)(Backbone)、特征融合網(wǎng)絡(luò)(Neck)和檢測頭(Head)三部分。YOLOv8包含五種模型,分別是YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8l和YOLOv8x。其中YOLOv8s在檢測性能和模型大小之間取得了最佳平衡。因此,本文采用一階段檢測算法YOLOv8s作為基線模型。
YOLOv8 使用CSPDarknet53作為骨干網(wǎng)絡(luò),它是YOLOv7中使用的Darknet53網(wǎng)絡(luò)的改進版本[15]。相較于YOLOv5,YOLOv8采用了更輕量化的c2f模塊,取代了YOLOv5中的C3模塊,這一改進在保持模型輕量化的同時,提供了更豐富的梯度流信息,有助于提高檢測性能。在骨干網(wǎng)絡(luò)末端,則仍使用最流行的空間金字塔快速池化(SPPF)模塊,SPPF是SPP[16]的變體,它是一種更高效且邊緣設(shè)備友好的信息融合模塊。在特征融合網(wǎng)絡(luò)部分,YOLOv8使用PAN-FPN結(jié)構(gòu)進行特征融合,與YOLOv5和YOLOv7 模型相比,YOLOv8在PAN 結(jié)構(gòu)中去除了上采樣后的卷積運算,以實現(xiàn)輕量化,并保持原有性能。在最后的檢測頭部分(Head),采用目前主流的解耦頭結(jié)構(gòu)(Decoupled Head)。與YOLOv6和YOLOX類似。綜上所述,YOLOv8引入了諸多改進,這使得它在目標檢測任務(wù)中具有較高的性能
1.2.2 YOLOv8算法的改進
YOLOv8在眾多方面表現(xiàn)出色,然而在復(fù)雜場景中對小目標的識別仍存在不足之處。為了更好地應(yīng)對草莓檢測任務(wù)的需求,對原始的YOLOv8結(jié)構(gòu)進行了優(yōu)化,改進了對小目標的檢測效果,并進一步提高了整體的檢測精度。改進YOLOv8的多階段草莓檢測算法結(jié)構(gòu)如圖3所示。
1) 為了使模型能夠更好地關(guān)注草莓的細節(jié)特征,在YOLOv8骨干網(wǎng)絡(luò)部分,引入CVPR2023的最新成果BiFormer注意力機制,替換原有的C2 f模塊,從而提升模型對小目標的檢測性能。
2) 為了進一步提高對草莓的識別精度,在Neck部分,引入了VanillaNet模塊,以降低模型計算量,使得模型能夠在提高性能的同時減少計算資源的消耗,從而提高模型的效率和實用性。
如圖3所示,改進后的YOLOv8引入了BiFormer注意力機制和VanillaNet模塊,相比于其他常用的目標檢測算法(如YOLOv5、YOLOv7、SSD[17]和Faster R-CNN[18]),在整體精度上更高,并且得益于BiFormer注意力機制對于小目標草莓的檢測性能也更好。在GFLOPs方面,改進后的YOLOv8其計算復(fù)雜度遠低于YOLOv7、SSD和Faster R-CNN,然而,盡管引入VanillaNet模塊成功降低了BiFormer注意力機制帶來的計算量問題,但改進后的YOLOv8仍然引入了一定的計算量。
1.2.3 BiFormer注意力機制
BiFormer基于Transformer[19]模型架構(gòu)設(shè)計,在多個任務(wù)上表現(xiàn)優(yōu)異,包括圖像分類、目標檢測、實例分割和語義分割等。從BiFormer在COCO2017數(shù)據(jù)集上的試驗結(jié)果來看,BiFormer注意力機制在處理小目標和密集檢測方面尤為突出。草莓生長環(huán)境復(fù)雜,檢測過程中常出現(xiàn)漏檢和誤檢問題。這是因為草莓植株和果實較小且密集分布,導致對其進行準確檢測具有挑戰(zhàn)性。為了解決這些問題,引入了BiFormer機制,以便檢測模型過濾掉大部分與目標無關(guān)的信息,更好地聚焦于待檢測目標。與傳統(tǒng)注意力相比,BiFormer大幅減少了計算量和內(nèi)存需求,同時又保留了全局建模能力,實現(xiàn)性能和效率之間的平衡。BiFormer注意力機制的結(jié)構(gòu)如圖4所示。
從圖4可以看出,BiFormer首先劃分輸入特征[X∈RH×W×C]為[S×S]個不同區(qū)域,即[Xr∈RS2×HWS2×C],以此確保每個區(qū)域都包含一定數(shù)量的特征信息。劃分后,利用線性映射,通過權(quán)值矩陣[Wq]、[Wk]和[Wv]獲得[Q,K,V∈RS2×HWS2×C],計算如式(1)所示。
[Q=XrWq,K=XrWk,V=XrWv] (1)
其中,Q,K,V分別為查詢向量、鍵向量和值向量。
隨后,對于每個劃分區(qū)域,計算查詢向量Q和鍵向量K的平均值。即[Qr,Kr∈RS2×C]。并以此構(gòu)建鄰接矩陣[Ar],計算區(qū)域間語義相關(guān)性。
[Ar=Qr(Kr)T] (2)
不同于傳統(tǒng)注意力機制,BiFormer通過索引矩陣只選擇與查詢區(qū)域最相關(guān)的前k個區(qū)域,以此避免冗余計算。
[Ir=topkIndex(Ar)] (3)
由于與查詢區(qū)域最相關(guān)的區(qū)域分散在整個特征圖當中,直接計算會導致內(nèi)存利用率較低,因此BiFormer收集分散的鍵向量和值向量,并在收集的鍵值對中應(yīng)用細粒度的token?to?token注意力機制,即[Kg,Vg∈RS2×kHWS2×C]。
[Kg=Gather(K,Ir),Vg=Gather(V,Ir)] (4)
最終得到BiFormer注意力機制式如式(5)所示。
[O=Attention(Q,Kg,Vg)+LCE(V)] (5)
其中,LCE(Local Context Enhancement)[20]是基于深度卷積的局部上下文增強函數(shù)。
傳統(tǒng)的注意力機制中,會對所有的鍵值對進行全局計算,這導致了計算復(fù)雜度較高的問題。然而,在BiFormer中,引入了雙層路由注意力機制,來優(yōu)化這個問題。雙層路由注意力機制的關(guān)鍵思想是只關(guān)注與查詢區(qū)域最相關(guān)的前k個區(qū)域。通過選擇與查詢最相關(guān)的k個區(qū)域,可以避免在最不相關(guān)的區(qū)域進行冗余計算,從而大幅減少計算量。這種做法充分利用了稀疏性,使得計算更加高效。另外,BiFormer注意力機制還針對GPU進行了優(yōu)化,僅使用適用于GPU的密集矩陣乘法運算。這種優(yōu)化進一步提高了計算效率,同時減少了內(nèi)存占用。
1.2.4 VanillaNet模塊
VanillaNet是一種基于極簡主義設(shè)計的神經(jīng)網(wǎng)絡(luò)模型,由華為諾亞和悉尼大學的研究者共同提出。該模型旨在應(yīng)對復(fù)雜神經(jīng)網(wǎng)絡(luò)部署所面臨的挑戰(zhàn),它以極簡主義的設(shè)計理念為基礎(chǔ),舍棄了過多的深度、shortcut以及self?attention等復(fù)雜的操作,簡化了網(wǎng)絡(luò)結(jié)構(gòu),提供了在資源有限環(huán)境下高效的解決方案,并在計算機視覺任務(wù)中取得了令人滿意的結(jié)果。因此,本文在Neck部分引入VanillaNet模塊來提高模型的精度,并減少由BiFormer注意力機制引入的模型計算量。VanillaNet其框架如圖5所示,包括主干、主體和全連接層三部分。其借鑒AlexNet和VGG等傳統(tǒng)深度網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計,輸入特征的大小被向下采樣,而通道在每個階段被加倍。以6層的網(wǎng)絡(luò)結(jié)構(gòu)為例,主干部分采用了步長為4的4×4×3×C卷積進行特征變換;對于主體部分的每個階段,采用MaxPool進行特征下采樣以減小尺寸和特征圖,且為了保留特征圖主要信息的同時,實現(xiàn)最小的計算成本,采用一個1×1卷積進行特征處理,并且在每個1×1卷積層之后應(yīng)用激活函數(shù)。此外,在每一層之后還添加了BN[21]來簡化網(wǎng)絡(luò)的訓練過程。需要注意的是,第5層卷積層不增加通道數(shù),并使用平均池化層。對于全連接層部分,用于進行分類處理。
2 試驗結(jié)果與分析
2.1 試驗環(huán)境以及參數(shù)設(shè)置
本文試驗均在同一硬件環(huán)境下運行,具體包括:CPU為Intel(R) Xeon(R) Silver 4214 R CPU@2.40 GHz,GPU為NVIDIA GeForce RTX3080 Ti,顯存為12 GB。試驗所采用的操作系統(tǒng)環(huán)境為Linux Ubuntu,深度學習框架為PyTorch 2.0.0,Python版本為3.8,Cuda版本為11.8。
試驗中使用的輸入圖像大小為640像素×640像素,優(yōu)化器為Adam,權(quán)重衰減率為0.000 5,初始學習率為0.001,批尺寸為16,訓練200個輪次(Epoch)。此外,為了增強模型泛化性,本文還采用了Mosaic數(shù)據(jù)增強方法。模型訓練結(jié)束后,使用保存的權(quán)重在測試集上對模型進行性能評估。
2.2 評價指標
本次試驗的模型性能評估指標包括mAP@0.5和mAP@0.5:0.95兩項,同時針對模型改進引入的計算量問題,引入GFLOPs參數(shù)作為模型計算效率指標。GFLOPs越低,表明模型的計算效率就越高。平均精度均值mAP是目標檢測中最常用的評價指標之一,它反映了模型的整體精度。mAP越大,則表示模型的整體精度越高。
[P=TPTP+FP] (6)
[R=TPTP+FN] (7)
[AP=01P(R)dR] (8)
[mAP=i=1KAPi/K] (9)
式中: P——精度;
R——召回率;
TP——真正例;
FN——假反例;
FP——假正例;
AP——不同召回率下準確率的平均值;
K——總類別數(shù)。
2.3 消融試驗
為驗證本文所提出的改進方法的有效性和準確性,進行消融試驗,如表2所示。以YOLOv8s作為基線模型,逐步融入BiFormer注意力機制和VanillaNet模塊,并逐一對比分析改進點。從表2可知,使用BiFormer替換YOLOv8骨干網(wǎng)絡(luò)(Backbone)當中的C2f模塊后,mAP@0.5提高了3.2%,mAP@0.5∶0.95提高了4.7%,證明了引入BiFormer注意力機制改善YOLOv8對小目標檢測性能不足的可行性。此外,在Neck部分引入VanillaNet模塊,相比于基線模型,mAP@0.5提高了2.4%,mAP@0.5:0.95提高了5.2%。并且,因為其極簡的設(shè)計,GFLOPs相比于基線模型降低了16%。在融入BiFormer的基礎(chǔ)上,引入VanillaNet模塊后,不僅mAP@0.5達到了93.8%,提高了1.4%,而且緩解了融入注意力機制帶來的計算量問題,使模型GFLOPs降低了14%,進一步證明了引入VanillaNet減少計算量、提高精度的可行性。
2.4 對比試驗
將改進后的YOLOv8算法與其他常用的目標檢測算法(包括YOLOv5、YOLOv7、SSD和Faster R-CNN)進行比較,以進一步驗證改進算法的有效性和其在檢測性能方面的出眾表現(xiàn)。試驗采用了相同的數(shù)據(jù)集劃分,并在相同的試驗平臺上進行。
如表3所示,改進后的YOLOv8相比基線模型,mAP@0.5提高了4.6%,mAP@0.5:0.95提高了5%。相比于其他的單階段算法YOLOv7、YOLOv5和SSD,mAP@0.5也分別提高了16.4%、3.2%和5%。此外,與兩階段算法Faster R-CNN相比,改進后的YOLOv8在mAP@0.5上提高了5.8%。在GFLOPs方面,改進后的YOLOv8比起YOLOv7、SSD和Faster R-CNN,具有更低的計算復(fù)雜度。相比YOLOv5和基線模型,改進后的YOLOv8雖然引入了一定的計算量,但能夠提供更可靠和精確的檢測結(jié)果。相比當前主流算法,本文提出的算法顯然有更出色的檢測性能。
2.5 檢測效果對比
為了更好地觀察本文提出的算法的檢測效果,從數(shù)據(jù)集中選取部分圖片進行測試。如圖6所示,展示了測試集人工標注圖像和改進前后的檢測結(jié)果??梢钥闯觯€模型YOLOv8對于小目標草莓的檢測效果存在一定不足,存在漏檢和誤檢現(xiàn)象。改進后的算法擁有更出色的檢測性能,得益于BiFormer注意力機制,改進后的算法對小目標的檢測效果得到了有效提升,能在復(fù)雜背景的干擾下準確的識別小目標草莓。
3 結(jié)論
1) 針對溫室環(huán)境下采集的草莓數(shù)據(jù)集,使用LabelImg對數(shù)據(jù)集進行標注;針對YOLOv8在小目標檢測方面存在的不足,在YOLOv8骨干網(wǎng)絡(luò)(Backbone)部分融入BiFormer注意力機制,來替換原骨干部分中的C2f模塊,使其對于草莓檢測中的小目標更加敏感,并有效降低漏檢和誤檢情況的發(fā)生;最后,在Neck部分,引入VanillaNet模塊,進一步提高算法的整體檢測精度,并降低融入BiFormer注意力機制所帶來的計算量問題。
2) 通過消融試驗來看,在YOLOv8 s的基礎(chǔ)上分別引入BiFormer與VanillaNet,mAP@0.5分別提高3.2%和2.4%,在融入BiFormer的基礎(chǔ)上,再引入VanillaNet模塊,mAP@0.5提高1.4%,并且使模型GFLOPs降低14%,驗證本文提出的改進方案的有效性。
3) 對比試驗表明,相比YOLOv8,改進后的算法在mAP@0.5和mAP@0.5:0.95上分別提升4.6%和5%。相比其他的檢測算法YOLOv7、YOLOv5、SSD和Faster R-CNN,mAP@0.5也分別提高16.4%、3.2%、5%和5.8%。本文提出的算法具備更加出色的檢測性能,并且能夠有效提升對小目標的檢測效果。
4) 改進后的YOLOv8算法在整體精度上表現(xiàn)更好,并且對于小目標草莓的檢測性能也更出色,這是與其他常用目標檢測算法(例如YOLOv5、YOLOv7、SSD和Faster R-CNN)相比的優(yōu)勢。然而,改進后的YOLOv8具有一定的計算量。因此,在后續(xù)的工作中,應(yīng)繼續(xù)降低算法的計算復(fù)雜度,使其更適用于嵌入式設(shè)備,且減少計算資源的需求。此外,還應(yīng)進一步增加更多具有復(fù)雜場景的草莓圖像,以豐富訓練數(shù)據(jù)集,從而進一步提升算法的泛化性和實用性。
參 考 文 獻
[ 1 ] Hernández?Martínez N R, Blanchard C, Wells D, et al. Current state and future perspectives of commercial strawberry production: A review [J]. Scientia Horticulturae, 2023, 312: 111893.
[ 2 ] Zhou C, Hu J, Yue J, et al. A novel greenhouse?based system for the detection and plumpness assessment of strawberry using an improved deep learning technique [J]. Frontiers in Plant Science, 2020, 11: 559.
[ 3 ] Munera S, Amigo M J, Blasco J, et al. Ripeness monitoring of two cultivars of nectarine using VIS-NIR hyperspectral reflectance imaging [J]. Journal of Food Engineering, 2017, 214: 29-39.
[ 4 ] Malik H M, Zhang T, Li H, et al. Mature tomato fruit detection algorithm based on improved HSV and watershed algorithm [J]. IFAC Papersonline, 2018, 51(17): 431-436.
[ 5 ] 馬惠玲, 王若琳, 蔡騁, 等. 基于高光譜成像的蘋果品種快速鑒別[J]. 農(nóng)業(yè)機械學報, 2017, 48(4): 305-312.
Ma Huiling, Wang Ruolin, Cai Cheng, et al. Rapid identification of apple varieties based on hyperspectral imaging [J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(4): 305-312.
[ 6 ] Indrabayu I, Arifin N, Areni I S. Strawberry ripeness classification system based on skin tone color using multi?class support vector machine [C]. 2019 International Conference on Information and Communications Technology (ICOIACT), 2019: 191-195.
[ 7 ] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks [J]. Advances in Neural Information Processing Systems, 2012, 25.
[ 8 ] Appe S N, Arulselvi G, Balaji G N. CAM-YOLO: tomato detection and classification based on improved YOLOv5 using combining attention mechanism [J]. Peerj Computer Science, 2023, 9: e1463.
[ 9 ] 張小花, 李浩林, 李善軍, 等. 基于EfficientDet-D1的草莓快速檢測及分類[J]. 華中農(nóng)業(yè)大學學報, 2022, 41(6): 262-269.
Zhang Xiaohua, Li Haolin, Li Shanjun, et al. Rapid detection and classification of strawberries based on EfficientDet-D1 [J]. Journal of Huazhong Agricultural University, 2022, 41(6): 262-269.
[10] 孫俊, 陳義德, 周鑫, 等. 快速精準識別棚內(nèi)草莓的改進YOLOv4-Tiny模型[J]. 農(nóng)業(yè)工程學報, 2022, 38(18): 195-203.
Sun Jun, Chen Yide, Zhou Xin, et al. Fast and accurate recognition of the strawberries in greenhouse based on improved YOLOv4-Tiny model [J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38(18): 195-203.
[11] Bharman P, Saad A S, Khan S, et al. Deep learning in agriculture: A survey [J]. Asian Journal of Research in Computer Science, 2022, 13: 28-47.
[12] Zhu L, Wang X, Ke Z, et al. BiFormer: Vision transformer with bi?level routing attention [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 10323-10333.
[13] Chen H, Wang Y, Guo J, et al. VanillaNet: The power of minimalism in deep learning [J]. Advances in Neural Information Processing Systems, 2024, 36.
[14] Terven J, Córdova?Esparza D M, Romero?González J A. A comprehensive review of yolo architectures in computer vision: From YOLOv1 to YOLOv8 and YOLO-NAS [J]. Machine Learning and Knowledge Extraction, 2023, 5(4): 1680-1716.
[15] Soylu E, Soylu T. A performance comparison of YOLOv8 models for traffic sign detection in the robotaxi?full scale autonomous vehicle competition [J]. Multimedia Tools and Applications, 2023, 83(8): 25005-25035.
[16] He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[17] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector [C]. Computer Vision-ECCV 2016: 14th European Conference, 2016: 21-37.
[18] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real?time object detection with region proposal networks [J]. Advances in Neural Information Processing Systems, 2015, 28.
[19] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [J]. Advances in Neural Information Processing Systems, 2017, 30.
[20] Ren S, Zhou D, He S, et al. Shunted self?attention via multi?scale token aggregation [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 10853-10862.
[21] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift [C]. International Conference on Machine Learning. Pmlr, 2015: 448-456.