doi:10.15889/j.issn.1002-1302.2024.20.018
摘要:針對農田環(huán)境下小麥麥穗目標檢測精確率低的問題,在YOLO v7-tiny模型基礎上進行深入改進,旨在提高麥穗檢測的準確率,以滿足農業(yè)生產管理系統和農業(yè)機器人邊緣檢測設備的需求。采用EfficientViT的主干網絡替代YOLO v7-tiny的特征提取網絡層,強化圖像特征的提取能力;在特征融合網絡層,引入CARAFE上采樣模塊替代原模型中的上采樣模塊,進一步優(yōu)化特征融合過程;在特征融合網絡層和輸出層引入基于跨空間學習的高效多尺度注意力機制,有效提升模型的目標檢測性能。結果表明,改進后的模型在小麥麥穗檢測精確率上比YOLO v7-tiny模型提高了2.9百分比;與YOLO v7模型相比,本模型雖然精確率低0.2百分點,但在參數量、計算量上分別降低了82.6%、84.5%,同時模型體積減小了81.2%。綜合考慮精確率、參數量、計算量、模型體積等多個指標,本研究的改進模型在部署于智能農機類邊緣檢測設備方面具有優(yōu)越性。
關鍵詞:目標檢測;YOLO v7;EfficientViT;CARAFE;高效多尺度注意力機制
中圖分類號:S126;TP391.41" 文獻標志碼:A
文章編號:1002-1302(2024)20-0147-10
收稿日期:2023-09-25
基金項目:新疆維吾爾自治區(qū)重大科技專項(編號:2022A02011-2);科技創(chuàng)新2030重大項目(編號:2022ZD0115805)。
作者簡介:魯子翱(2000—),男,湖南岳陽人,主要研究方向為圖像處理。E-mail:17873555123@163.com。
通信作者:張婧婧,副教授,主要從事農業(yè)信息化技術工作。E-mail:zjj@xjau.edu.cn。
小麥是現今世界上最重要的糧食作物之一。我國小麥種植面積約占糧食作物總播種面積的22%[1]。我國是世界上最大的小麥生產國,準確識別麥穗對于監(jiān)測小麥生長、估算產量、分析表型特征至關重要[2-4]。
隨著深度卷積神經網絡和GPU計算能力的發(fā)展,目標檢測被廣泛應用于智慧農業(yè)、人臉識別、自動駕駛等領域[5-7]。將目標檢測技術應用到小麥麥穗的識別中,可有效減少小麥收割中的損耗并降低收割成本。目前,小麥麥穗及相關目標檢測任務已相繼展開。Olgun等依靠DSIFT進行特征提取后,借助支持向量機分類算法對麥穗進行識別檢測,該方法針對單一小麥麥穗進行目標進行檢測,應用范圍有限[8]。在自然農田環(huán)境中,鮑文霞等提出一種基于YOLO v3對小麥麥穗進行目標檢測與計數的方法,但模型數據集較小,模型的魯棒性較差[9]。Li等提出一種改進YOLO v5的麥穗檢測算法,對農田環(huán)境下模糊不清、有遮擋的麥穗檢測有一定的性能提升,但模型體積較大[10]。臧賀藏等使用YOLO v5s模型對淮南區(qū)域試驗小麥進行麥穗檢測,可以快速準確地檢測出小麥穗數,但沒有對模型進行改進[11]。李云等提出一種基于YOLO v5的麥穗檢測方法,對模型體積進行輕量化改進,但是檢測精確度不如基線模型[12]。楊蜀秦等利用改進YOLOX的單位面積麥穗檢測方法,通過采樣框實現單位面積麥穗計數,與對比模型相比,其檢測精確率提升效果仍不明顯[13]。Zhang等利用YOLO結構的旋轉YOLO小麥檢測網絡作為一種新型旋轉檢測器,能夠檢測任意方向檢測盒的麥穗圖像,可解決水平檢測中的背景干擾問題,但是運用場景較為單一[14]。
綜上所述,為了提高復雜農田背景下的密集型目標檢測任務的精確率,本研究對YOLO v7-tiny檢測算法進行改進,主要方法如下:(1)用EfficientViT替換YOLO v7-Tiny的特征提取網絡層,采用EfficientViT高效的計算方法[15],通過優(yōu)化內存效率和減少計算冗余,提高模型的計算效率,進而提升檢測精確率;(2)在特征融合網絡層中,用輕量級上采樣算子CARAFE[16]替換最近鄰插值上采樣方式,以擴大感受野并自適應輸入內容,進一步提升檢測精確率;(3)在特征融合網絡層和輸出層的特定位置嵌入基于跨空間學習的高效多尺度注意力(EMA)機制[17],提高多尺度圖像處理的效率和準確性,通過跨空間學習,提高模型的靈活性,實現輕量級特性。
1" 材料與方法
1.1" 數據集的制作
為提高模型的泛化能力,本次研究使用2個數據集構成,共3 436幅圖像,訓練集 ∶驗證集 ∶測試集按照8 ∶1 ∶1隨機劃分。
1.1.1" 自制數據集
自制數據集的小麥麥穗圖象采集于新疆省昌吉市大西渠鎮(zhèn)華興農場(87°29′E,44°22′N),屬于溫帶大陸性氣候。小麥品種為新冬22。拍攝時間為2023年6—7月,每隔1周進行拍攝,覆蓋小麥的成熟期。田間小麥分布較為密集,在采集圖像時均從側上方拍攝圖像,經過圖像數量的對比和預試驗,最終保留53幅圖像構成自制數據集。采集的麥穗穗圖像分辨率為 1 706像素×1 280 像素,圖 1-a為自制數據集圖像示例。
1.1.2" 公開數據集
公開數據集為全球小麥麥穗檢測數據集[18],包含4 700幅RGB圖像和約 190 000 個標記的麥穗,由歐洲、北美洲、大洋洲、亞洲的不同品種、不同種植條件、不同氣候、不同采集方法等渠道匯總而成。因此,全球小麥麥穗檢測數據集具有基因型和環(huán)境的多樣性,對提高小麥穗部檢測和定位的準確性、可靠性有所幫助。圖1-b為公開數據集圖像示例。
1.2" YOLO v7-tiny模型
YOLO v7是YOLO v4官方團隊在2022年提出的YOLO系列全新架構[19],在5~160 幀/s范圍內的速度和準確率都超過了目前多數目標檢測器。YOLO v7-tiny算法由YOLO v7精簡而來,保留基于級聯的模型縮放策略,并改進了高效長程聚合網絡(ELAN);在保證檢測精確率的基礎上,其參數量更小,檢測速度更快,適應各類實時檢測的需求。故本研究選擇在YOLO v7-tiny的基礎上進行模型改進。YOLO v7-tiny算法由輸入端(Input)、特征提取網絡(Backbone)、特征融合網絡(Neck)、輸出端(Head)4個部分構成(圖2)。
輸入端使用Mosaic技術,提升訓練速度,降低內存消耗。圖像經過輸入端裁剪、縮放等一系列預處理操作,使像素統一,滿足特征提取網絡需求。
特征提取網絡包括CBL卷積塊、改進的高效遠程聚合網絡(ELAN-A)層和MP卷積層。ELAN-A層從基線的YOLO v7中削減了2組特征計算塊,提高了特征提取速度,但降低了特征提取能力。
YOLO v7-tiny的特征融合網絡采用了 YOLO v5 系列的路徑聚合特征金字塔網絡架構,將特征金字塔網絡頂層的強語義信息與路徑聚合網絡自下而上的強定位信息張量相結合,通過特征信息融合,實現多尺度學習。其中,特征融合網絡的張量拼接中沒有充分優(yōu)先考慮相鄰層的特征目標信息,可能導致特征信息的丟失。
輸出端使用類似于YoloR模型的IDetect[20]檢測頭,引入了一種隱式表示策略,以基于融合的特征值來改進預測結果。
1.3" 改進YOLO v7-tiny目標檢測算法
1.3.1" 主干特征提取網絡
對農田環(huán)境下的麥穗檢測任務而言,YOLO v7的特征提取模型復雜度較高,增大了模型的參數量與計算量。Vision Transformer (ViT)是將Transformer引入計算機視覺領域的成功嘗試。EfficientViT的高速ViT模型通過設計新的模塊和注意力機制來提高內存效率和計算效率,從而在速度和準確性之間取得良好的平衡?;诖?,本研究提出用EfficientViT取代YOLO v7-Tiny的主干網絡,以減少模型參數量,加快檢測速度并節(jié)省計算資源。
EfficientViT由3個模塊組成(圖3)。這3個模塊分別是三明治布局塊(a)、級聯組注意力模塊(b)、參數重新分配(c)。其中,三明治布局塊采用一種新的布局方式,使用較少內存綁定的自注意力層和較多內存的高效前饋神經網絡層進行通道通信。三明治布局塊旨在解決注意力頭之間的計算冗余問題,提出一種級聯的分組注意力模塊,將完整特征的不同分割提供給注意力頭,既節(jié)省計算成本,又提高注意力的多樣性。參數重新分配則是為了減少模型參數,提出一種參數重分配策略,將一些參數從注意力頭移動到前饋神經網絡中。
三明治布局塊。為了建立一個內存有效的塊,采用較少內存綁定自我注意力層φAi和較多內存的有效FFN層φFi信道通信。具體來說,它應用了單一的對于空間混合的單個自注意力層:
Xi=ПnφFi{φAi[ПnφFi(Xi)]}。(1)
式(1)中:Xi是第i個塊的完整輸入特征。塊在單個自注意層之前和之后將Xi變換為X(i+1)。設計減
少了模型中自我注意力層造成的存儲時間消耗,并應用更多的前饋神經網絡層,允許不同特征通道之間的有效通信;此外使用深度卷積在每個前饋神經網絡之前應用額外的令牌交互層,通過引入局部結構信息的感性偏置,增強模型能力。
級聯組注意力模塊。注意頭冗余是多頭自注意力中的一個嚴重問題,容易導致計算效率低下。級聯群注意力為每個頭部提供完整特征的不同分割,從而明確地分解頭部之間的注意力計算。公式可以表述為:
X~ij=Attn(XijWQij,XijWKij,XijWVij),
X~i+1=Concat(X~ij)j-1 ∶hWpi。(2)
式(2)中:第j個頭部計算Xij上的自注意力,Xij是輸入特征Xi的第j個分割;WQij、WKij、WVij將輸入特征映射到不同子空間的投影層;WPi是將級聯的輸出特征投影回與輸入一致的維度的線性層。
圖2中,通過激勵Q、K、V層學習,具有更豐富信息特征上的投影將繼續(xù)提高其容量,并以級聯的方式計算每個頭部的注意力圖,其將每個頭部的輸出添加到后續(xù)頭部以漸進細化特征。公式可表述為:
X′ij=Xij+X~i(j-1),1lt;j≤h。(3)
式中:X′ij是第j個輸入Xij和第(j-1)個輸出 X~i(j-1) 的相加,當計算自注意力時,它取代Xij以充當第j個頭部的新輸入特征。另外,在Q投影之后應用交互層,自注意力能夠聯合捕獲局部和全局關系,并進一步增強特征表示。
參數重新分配。為了提高參數效率,EfficientViT通過擴大關鍵模塊的信道寬度、縮小不重要模塊的信道寬度,來重新分配網絡中的參數。具體而言,每個頭部所有階段的Q、K投影均設置了小通道維度。對于V投影,允許它與輸入嵌入具有相同的維數。由于其參數冗余性,FFN的擴展比也從4降低到2。該策略中重要模塊在高維空間中有更多學習表征的通道,避免了特征信息的丟失。同時,去除不重要模塊中的冗余參數,加快推理速度,提高模型效率。
EfficientViT用6個不同的寬度和深度建立了M0-M5的模型,并為每個階段設置了不同數量的頭部(表1)。與MobileNet v3、LeViT類似,在處理較大分辨率圖像時,前期的階段計算更為耗時。因此,在早期階段比晚期階段使用更少的塊。其中,Ci 、Li 、Hi分別是指第i階段頭部的寬度、深度、數量。
EfficientViT采用3種優(yōu)化方法來提高計算效率并減少計算冗余。不同的優(yōu)化方法對EfficientViT的性能有不同的影響,通過減少內存訪問時間和計算冗余,EfficientViT能夠提高計算效率和加快推理速度。(1)在高效前饋神經網絡層之間使用單個內存綁定的多頭自注意力,提高內存效率,同時增強信道通信;(2)為了解決注意圖在不同頭部之間具有高相似性而導致的計算冗余問題,級聯組注意力模塊以不同的全特征分割方式饋送注意頭,既節(jié)省了計算成本,又提高了特征多樣性;(3)通過結構化剪枝來重新分配參數,將更多的參數分配給關鍵的網絡組件,這種參數重新分配方式最終提高了模型的參數效率。
1.3.2" 引入上采樣算子CARAFE
現有卷積網絡體系結構中,特征上采樣是一個關鍵算子。傳統算法中上采樣以最近鄰插值法為主,僅僅通過像素點位置來決定上采樣核,并沒有利用特征圖的語義信息,且感知域很小。本研究采用感受野較大的輕量級通用上采樣算子CARAFE,可以很好地利用特征圖的語義信息,同時不引入過多的參數量和計算量。利用CARAFE代替所有特征層中最近鄰插值上采樣,加強低分辨率特征圖經過CARAFE上采樣與高分辨率特征圖的融合,提升特征金字塔網絡性能。CARAFE分為2個主要模塊,分別是上采樣核預測模塊、特征重組模塊。
由圖4可見,上采樣倍率為δ,輸入特征圖是 H×W×C。通過上采樣核預測模塊對上采樣核進行預測,再通過特征重組模塊對上采樣完成重組,獲得具有形狀δH×δW×C的輸出特征圖。在上采樣預測模塊中,為降低后續(xù)計算量,對輸入形狀H×W×C的特征圖先通過1×1卷積壓縮通道數,然后壓縮為H×W×Cm的內容編碼并預測上采樣核,使用Kencode×Kencode卷積層預測上采樣核,輸入的通道數是Cm,輸出是δ2K2up的上采樣核歸一化運算,使得上采樣核加權和為1。在特征重組模塊,針對輸出特征圖的每一個位置,映射回到輸入特征圖并取其中1個大小為Kup×Kup的區(qū)域作為中心,對該點處采樣核進行點積預測以獲得輸出值。同一地點不同信道共用同一個上采樣核,并最終獲得輸出為 δH×δW×C的輸出特征圖。增大Kencode可以擴大感受野的范圍,利用更大區(qū)域的上下文信息。增大Kup可以更充分地利用特征圖的語義信息。本研究選取Kencode=3、Kup=5。利用CARAFE上采樣替換特征金字塔網絡中最近鄰上采樣改進后的模型,在檢測召回率、準確率、精確率方面均有提升,增強了特征金字塔網絡對圖像特征提取和融合的能力。
1.3.3" 引入注意力機制
關于小麥輸入的圖像,除了麥穗的信息外,常會伴有復雜的農田背景信息。在特征融合網絡中進行卷積時,背景的迭代累積會形成大量冗余信息,淹沒部分目標,導致檢測準確率不高。為此,本研究加入EMA注意力機制,選擇出有效位置,將其加入到YOLO v7-tiny網絡模型中進行特征融合,使模型更加精準地定位和識別興趣目標。
EMA模塊從坐標注意力機制的設計策略,將位置信息嵌入到通道注意中,將通道注意力分解為沿2個不同方向聚合特征的一維特征編碼過程,分別沿水平和垂直方向做一維全局平均池化,不同于通道注意力將輸入使用二維的全局池化轉化為單個特征向量。EMA注意力機制將通道注意力分解為2個一維向量的特征編碼,垂直方向捕獲長距離的依賴性,水平方向保留精確的位置信息,同時增加1個卷積核大小為 3×3 的并行分支,聚合多尺度的空間結構信息,它們可以互補地應用于輸入的特征圖,有效建立長短期依賴關系,增強對目標物體表征的關注。EMA注意力機制模塊結構如圖5所示。
1.3.4" 改進后的YOLO v7-tiny模型
改進后的YOLO v7-tiny模型如圖6所示。將主干網絡替換為EfficientViT-M1模塊,采用一種更為高效的計算方法,提升檢測精確率;采用CARAFE上采樣替換特征金字塔網絡中最鄰近上采樣改進后的模型,增強特征金字塔網絡對圖像特征提取和融合的能力;在網絡模型中添加7個EMA注意力機制模塊,通過跨空間學習,在多個通道和批次維度上嵌入模型,提高模型的靈活性和輕量級特性。
2" 結果與分析
2.1" 試驗環(huán)境
試驗于2023年7—9月在新疆農業(yè)大學實驗室進行。試驗環(huán)境配置:CPU為 AMD EPYC 7642 48-Core Processor,GPU為NVIDIA GeForce RTX 3090,顯存為24 G、ubuntu 20.04系統。使用Pytorch 1.11.0版本,編程語言python 3.8.0,CUDA版本為11.3。訓練超參數設置見表2。
2.2" 評價指標
模型的評價指標主要有:平均精確率均值mAP、參數量、浮點計算量GFLOPs、模型體積。
P=TPTP+FP;(4)
R=TPTP+FN;(5)
AP=∫10P(R)dR;(6)
mAP=1N∑Nj=1APj。(7)
式中:TP表示被正確地判定為正樣本的個數,FP表示被錯誤地判定為正樣本的個數,FN表示被錯誤判定為負樣本的個數。P(precision)表示精確率、R(recall)表示召回率、 AP(average precision)表示平均精確率,mAP為平均精確率均值。IoU是指預測框、真實框交集部分面積與預測框、真實框并集部分面積的比值。mAP通常分為mAP@0.5和mAP@0.5 ∶0.95 ∶mAP@0.5 是指將IoU設為0.5;mAP@0.5 ∶0.95是指IoU閾值范圍為0.5~0.95,步長為0.5。
2.3" 模塊對比分析試驗
為了驗證改進模型算法的可行性和有效性,針對改進模塊進行橫向對比試驗,在保持原有模型的基礎上,對相同位置不同改進點進行對比試驗。試驗均在YOLO v7-tiny版本基礎上進行改進,迭代數為150次。
2.3.1" backbone主干網絡的對比分析
為了驗證本研究EfficientViT-M1的優(yōu)越性,與其他主干做對比。將原YOLO v7-tiny的主干網絡替換為其他主干,主要包括resnet18、Efficient formerv2、EfficientViT-M0、EfficientViT-M2、EfficientViT-M3、EfficientViT-M4、EfficientViT-M5。從表3可以看出,EfficientViT作為主干,相對于其他主干網絡具有良好的精確度,且參數量和計算量相對較小,其中EfficientViT-M1更適合作為本次試驗的主干網絡。
2.3.2" 注意力機制的對比分析
為了驗證本研究跨空間學習的高效多尺度注意力機制的有效性,將該注意力機制與其他主流注意力機制做對比。在相同的位置插入這些主流注意力機制,包括SimAM[21]、SE[22]、CoTAttention[23](CoT)、SkAttention[24](SK)。
由表4可知,加入SimAM、SE注意力機制后,mAP均有降低。CoT注意力機制加入后,模型的mAP提升
0.1百分點,效果不明顯。加入SK注意力機制后,mAP提升了0.9百分點,但參數量、計算量、模型體積有大幅度提升。加入EMA注意力機制后,模型的參數量、計算量只有略微提升,模型的mAP增加了1.1百分點。與其他主流注意力機制相比,本研究所使用的EMA注意力機制擁有更好的性能。使用EMA注意力機制可以提高多尺度圖像處理的效率和準確性,在略微增加參數量、計算量的前提下,可以更好地映射出特征之間的聯系,提高檢測的精確率。由圖7可知,增加EMA注意力機制后的檢測效果明顯優(yōu)于其他注意力機制。
2.4" 消融試驗
為了驗證本研究提出的各個改進算法是否有效,設計1組消融試驗進行對比分析。原模型以 YOLO v7-tiny 為基線,試驗A將EfficientViT-M1網絡作為新的骨干網絡,試驗B替換特征融合網絡輕量化上采樣算子CARAFE,試驗C加入EMA注意力機制。消融試驗結果(表5)表明,7種改進算法都能給模型帶來明顯的性能增益,而且本研究提出的檢測算法在檢測性能上表現更為優(yōu)異。
P-R曲線代表精確率與召回率之間的關系。由圖8可以看出,所有曲線圍成面積均占到90%以上。試驗A、B、C的各種改進方法對模型的檢測性能均起到一定的提升作用。
2.5" 系列模型對比分析
為進一步展示改進后模型的檢測效果,將改進的檢測算法與YOLO系列的模型YOLO v3-Tiny、YOLO v5s、YOLO v7、YOLO v7-tiny相比較,結果如表6所示。YOLO v3-tiny的mAP值僅為88.7%,模型體積為17.5 MB,與改進后的YOLO v7-tiny模型有較大差距。YOLO v5s的mAP值為89.1%,參數量為7.02 M,性能表現相對YOLO v3-tiny較好,并未超越YOLO v7-tiny的模型效果。YOLO v7-tiny 的mAP值為91.1%,參數量為 6.01 M,性能表現良好。改進過的YOLO v7-tiny的mAP達到94.0%,且模型的復雜程度相對變化不大。YOLO v7檢測算法的mAP值雖達到94.2%,與改進后的算法相接近,但模型參數量達到36.50 M,計算量為103.2 GFLOPs。最新的 YOLO v8s 模型的檢測效果較好,mAP值為93.8%,模型的復雜度相對于改進后的模型較大。綜合比較,不難看出改進后模型的性能整體優(yōu)于其他網絡模型。
2.6" 麥穗檢測效果
在小麥麥穗的目標檢測中,使用YOLO v7-tiny與改進后的YOLO v7-tiny檢測算法進行識別對比,結果如圖9所示。圖9-a、圖9-c為 YOLO v7-tiny 檢測效果圖,圖9-b、圖9-d為改進后模型的檢測效果圖。對比圖9-a、圖9-b可以發(fā)現, 標記圈內實際含2個麥穗,而YOLO v7-tiny
檢測出3個麥穗,存在誤檢現象;對比圖9-c、圖 9-d 可以發(fā)現,標記圈內仍含2個麥穗,而YOLO v7-tiny檢測出1個麥穗,出現漏檢問題。在改進后的模型測試中,漏檢、誤檢得到改善。綜上,在小麥麥穗的檢測模型中,改進前后的置信度基本相似,而改進后的麥穗目標檢測效果更好。
圖10中,黃色曲線為改進后的YOLO v7-tiny模型,藍色為YOLO v7-tiny基線模型,改進后的模型mAP@0.5和mAP@0.5 ∶0.95均優(yōu)于改進前的模型,改進后的檢測算法更優(yōu)。
3" 結論
以YOLO v7-tiny檢測模型為基礎,本研究采用農田環(huán)境下小麥麥穗數據集作為研究對象, 提出
改進的YOLO v7-tiny模型。將EfficientViT作為其主干網絡,原有的特征融合網絡上采樣方法替換為CARAFE算子,在特征融合網絡層和輸出層的特定位置加入EMA注意力機制,在定量評估不同檢測模型的精確率、參數量、計算量和模型體積之后發(fā)現,本改進模型對小麥麥穗的檢測更具優(yōu)勢,適于在智能農機類邊緣檢測設備中部署。
參考文獻:
[1]Liu H,Wang Z H,Yu R,et al. Optimal nitrogen input for higher efficiency and lower environmental impacts of winter wheat production in China[J]. Agriculture,Ecosystems amp; Environment,2016,224:1-11.
[2]宋懷波,王云飛,段援朝,等. 基于YOLO v5-MDC的重度粘連小麥籽粒檢測方法[J]. 農業(yè)機械學報,2022,53(4):245-253.
[3]王" 玲,張" 旗,馮天賜,等. 基于YOLO v7-ST模型的小麥籽粒計數方法研究[J]. 農業(yè)機械學報,2023,54(10):188-197,204.
[4]黃" 碩,周亞男,王起帆,等. 改進YOLO v5測量田間小麥單位面積穗數[J]. 農業(yè)工程學報,2022,38(16):235-242.
[5]鄭遠攀,李廣陽,李" 曄. 深度學習在圖像識別中的應用研究綜述[J]. 計算機工程與應用,2019,55(12):20-36.
[6]康飛龍,李" 佳,劉" 濤,等. 多類農作物病蟲害的圖像識別應用技術研究綜述[J]. 江蘇農業(yè)科學,2020,48(22):22-27.
[7]李子涵,周省邦,趙" 戈,等. 基于卷積神經網絡的農業(yè)病蟲害識別研究綜述[J]. 江蘇農業(yè)科學,2023,51(7):15-23.
[8]Olgun M,Onarcan A O,zkan K,et al. Wheat grain classification by using dense SIFT features with SVM classifier[J]. Computers and Electronics in Agriculture,2016,122:185-190.
[9]鮑文霞,謝文杰,胡根生,等. 基于TPH-YOLO的無人機圖像麥穗計數方法[J]. 農業(yè)工程學報,2023,39(1):155-161.
[10]Li R,Wu Y P. Improved YOLO v5 wheat ear detection algorithm based on attention mechanism[J]. Electronics,2022,11(11):1673.
[11]臧賀藏,趙" 晴,周" 萌,等. 基于YOLO v5s模型的小麥品種(系)穗數檢測[J]. 山東農業(yè)科學,2022,54(11):150-157.
[12]李" 云,邱述金,趙華民,等. 基于輕量化YOLO v5的谷穗實時檢測方法[J]. 江蘇農業(yè)科學,2023,51(6):168-177.
[13]楊蜀秦,王" 帥,王鵬飛,等. 改進YOLOX檢測單位面積麥穗[J]. 農業(yè)工程學報,2022,38(15):143-149.
[14]Zhang D Y,Luo H S,Cheng T,et al. Enhancing wheat Fusarium head blight detection using rotation Yolo wheat detection network and simple spatial attention network[J]. Computers and Electronics in Agriculture,2023,211:107968.
[15]Liu X Y,Peng H W,Zheng N X,et al. EfficientViT:memory efficient vision transformer with cascaded group attention[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Vancouve:IEEE,2023:14420-14430.
[16]Wang J Q,Chen K,Xu R,et al. CARAFE:content-aware ReAssembly of FEatures[C]//2019 IEEE/CVF International Conference on Computer Vision.Seoul:IEEE,2019:3007-3016.
[17]Ouyang D L,He S,Zhang G Z,et al. Efficient multi-scale attention module with cross-spatial learning[C]//2023-2023 IEEE International Conference on Acoustics,Speech and Signal Processing.Rhodes Island:IEEE,2023:1-5.
[18]David E,Madec S,Sadeghi-Tehran P,et al. Global wheat head detection (GWHD) dataset:a large and diverse dataset of high-resolution RGB-labelled images to develop and benchmark wheat head detection methods[J]. Plant Phenomics,2020,2020:3521852.
[19]Wang C Y,Bochkovskiy A,Liao H Y M. YOLO v7:trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Vancouver:IEEE,2023:7464-7475.
[20]Wang C Y,Yeh I H,Liao H Y M.You only learn one representation:unified network for multiple tasks[J]. Journal of Information Science and Engineering,2023,39(3):691-709.
[21]Yang L,Zhang R,Li L,et al. SimAM:a simple,parameter-free attention module for convolutional neural networks[C]//Proceedings of the 38th International Conference on Machine Learning.PMLR,2021,139:11863-11874.
[22]Hu J,Shen L,Sun G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7132-7141.
[23]Li Y H,Yao T,Pan Y W,et al. Contextual transformer networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2023,45(2):1489-1500.
[24]Li X,Wang W H,Hu X L,et al. Selective kernel networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach:IEEE,2019:510-519.