張正華,吳 宇,金志琦
(揚(yáng)州大學(xué) 信息工程學(xué)院(人工智能學(xué)院),江蘇 揚(yáng)州 225127)
小麥作為亞洲、歐洲和北美等地區(qū)的主要作物,是僅次于玉米和大米的第三大消費(fèi)谷物[1]。小麥赤霉病是在全球范圍內(nèi)影響比較大的植物病害之一,赤霉病的流行不僅會降低糧食產(chǎn)量、造成嚴(yán)重的經(jīng)濟(jì)損失,還會污染成熟的谷粒并產(chǎn)生毒素,對全世界的人類和動物健康構(gòu)成嚴(yán)重威脅[2],小麥赤霉病引起的安全問題和經(jīng)濟(jì)損失是當(dāng)前迫切需要解決的問題。赤霉病菌對于所有種類的小麥而言,都是一種毀滅性的病菌[3],因此培育優(yōu)質(zhì)的小麥抗病品種是最為理想和有效的防控策略。
在抗病育種中,小麥赤霉病感染率是衡量小麥籽??剐员硇丸b定的重要指標(biāo)。目前小麥赤霉病感染率的常用檢測方法主要集中在視覺觀察、酶聯(lián)免疫測定(ELISA)、聚合酶鏈反應(yīng)(PCR)、氣相色譜質(zhì)譜(GCMS)和高光譜靶標(biāo)檢測(HTD)等[4]。基于形態(tài)特征和經(jīng)驗(yàn)的視覺觀察依據(jù)肉眼,具有高度的主觀性,檢測成本高且評價(jià)標(biāo)準(zhǔn)因人而異,因此在育種實(shí)際操作中難以系統(tǒng)性運(yùn)用該方法;ELISA、PCR、GCMS和HTD檢測方法雖然準(zhǔn)確可靠,但通常需要使用的硬件設(shè)備要求高、操作過程繁瑣、檢測時(shí)間長、無法完成現(xiàn)場檢測且檢測方式破壞植株,其局限性明顯,不適用于大規(guī)模篩查檢測[5]。
隨著計(jì)算機(jī)GPU的快速發(fā)展,計(jì)算機(jī)算力得到大幅度增強(qiáng),基于計(jì)算機(jī)視覺的技術(shù)正在被研究人員廣泛應(yīng)用于作物病害識別,為實(shí)現(xiàn)農(nóng)作物的無損診斷創(chuàng)造了條件[6]。目前傳統(tǒng)的快速顆粒檢測和計(jì)數(shù)方法依賴于圖像處理技術(shù),典型做法是選擇一個(gè)單一的色板作為背景,然后使用顏色提取算法將對象從背景中分離出來,并使用現(xiàn)有的相鄰晶粒分割算法,包括膨脹腐蝕算法、分水嶺算法和特征點(diǎn)匹配算法。現(xiàn)有的圖像處理算法雖然精度不斷提高,但由于需要特定的環(huán)境,如定制的背景板、固定的攝像頭和固定的角度等,實(shí)際應(yīng)用效果仍然較差[7]。
自基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò) (R-CNN) 算法被提出以來,目標(biāo)檢測算法進(jìn)入了一個(gè)新的階段,深度學(xué)習(xí)在農(nóng)作物檢測領(lǐng)域取得了重大進(jìn)展。此后,深度卷積網(wǎng)絡(luò)中的空間金字塔池(SPP)、基于區(qū)域的快速卷積神經(jīng)網(wǎng)絡(luò)(Fast R-CNN)、基于區(qū)域的更快卷積神經(jīng)網(wǎng)絡(luò)(Faster R-CNN)、基于區(qū)域的全卷積神經(jīng)網(wǎng)絡(luò)(R-FCN)以及YOLO系列,通過不斷改進(jìn)模型結(jié)構(gòu)簡化模型計(jì)算的復(fù)雜度,提高對深層語義特征的提取和融合能力,并使用數(shù)據(jù)增強(qiáng)技術(shù)得到大規(guī)模的農(nóng)作物數(shù)據(jù)樣本進(jìn)行模型訓(xùn)練[8],達(dá)到提高模型檢測精度的目的。與傳統(tǒng)依賴先驗(yàn)知識的特征提取算法相比,卷積神經(jīng)網(wǎng)絡(luò)(CNN)具有較好的魯棒性,解決了農(nóng)作物外觀變化帶來的識別困難,表現(xiàn)出更好的靈活性和泛化能力。
YOLOv7作為YOLO系列中的目標(biāo)檢測算法,具有更高的檢測精度和更快的檢測速度。針對麥穗籽粒高度聚合的小目標(biāo)檢測以及目前感染率檢測方法中存在的問題,本文以YOLOv7網(wǎng)絡(luò)為基礎(chǔ)框架,設(shè)計(jì)了一種適用于麥穗籽粒此類小目標(biāo)檢測的混合網(wǎng)絡(luò)模型——MHSA-YOLOv7。
本文的主要工作如下:
① 針對小麥單穗籽粒高度聚合容易導(dǎo)致漏檢的問題,通過在YOLOv7主干網(wǎng)絡(luò)中融合多頭自注意力(Muti-Head Self-Attention,MHSA)機(jī)制來提高網(wǎng)絡(luò)對深層重要語義特征的提取能力;
② 考慮到模型各個(gè)模塊對特征的提取能力不同,通過使用加權(quán)雙向特征金字塔網(wǎng)絡(luò)(Bidirectional Feature Pyramid Network,BiFPN)實(shí)現(xiàn)模塊間的跨層連接,使模型能夠提取和傳遞更豐富的語義特征;
③ 通過數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)充小麥單穗赤霉病數(shù)據(jù)樣本,并采用遷移學(xué)習(xí),初始化模型權(quán)重參數(shù),最終完成模型的訓(xùn)練。
MHSA-YOLOv7混合網(wǎng)絡(luò)模型由卷積層和MHSA層結(jié)合而成,該模型將MHSA機(jī)制模塊集成在YOLOv7的主干網(wǎng)絡(luò)中,并使用BiFPN加強(qiáng)特征融合能力。模型架構(gòu)如圖1所示。
圖1 MHSA-YOLOv7網(wǎng)絡(luò)架構(gòu)Fig.1 MHSA-YOLOv7 network architecture
MHSA-YOLOv7網(wǎng)絡(luò)模型主要包含了輸入端(Input)、主干網(wǎng)絡(luò)(BackBone)、頸部(Neck)以及頭部(Head)四部分。
MHSA-YOLOv7模型的Input模塊將輸入的圖像縮放至統(tǒng)一像素大小,以滿足主干網(wǎng)絡(luò)的要求; BackBone模塊主要由基礎(chǔ)卷積塊(Conv2D)、擴(kuò)展高效聚合網(wǎng)絡(luò)(E-ELAN)、最大池化卷積模塊(MPConv)、特征降維嵌入模塊(PatchEmbed)以及MHSA模塊構(gòu)建而成,對輸入圖像進(jìn)行特征提取,得到大、中、小3種尺度的特征。其中E-ELAN模塊在高效聚合網(wǎng)絡(luò)(ELAN)的基礎(chǔ)上保持原有梯度路徑,利用分組卷積增加新增特征的基數(shù),增強(qiáng)了網(wǎng)絡(luò)學(xué)習(xí)的能力[9],E-ELAN模塊結(jié)構(gòu)如圖2所示。而在MPConv模塊中,使用最大池化操作將當(dāng)前特征層的感受野進(jìn)行擴(kuò)張,再與正常卷積處理后的特征信息進(jìn)行融合,以提高模型的特征提取能力,MPConv模塊結(jié)構(gòu)如圖3所示。Neck模塊主要由E-ELAN模塊、MPConv模塊以及SSP模塊構(gòu)成,對提取到的特征進(jìn)行多尺度特征融合。其中SSP模塊通過最大池化來獲得不同的感受野,用于區(qū)別不同大小的目標(biāo),SSP模塊結(jié)構(gòu)如圖4所示。在原雙向特征金字塔的基礎(chǔ)上使用加權(quán)BiFPN,額外增加了一條跨尺度路徑,通過跨層連接來提取和傳遞更豐富的特征信息;Head模塊對3種不同尺度的特征進(jìn)行通道數(shù)的調(diào)整,最終得到檢測結(jié)果。
圖2 E-ELAN模塊Fig.2 E-ELAN module
圖3 MPConv模塊Fig.3 MPConv module
圖4 SSP模塊Fig.4 SSP module
卷積神經(jīng)網(wǎng)絡(luò)中卷積運(yùn)算的局部性質(zhì)限制了模型獲取全局上下文信息的能力,而對于籽粒高度聚合的小麥麥穗圖像,通過MHSA提高語義特征識別能力有助于學(xué)習(xí)對象間的關(guān)系,使模型能夠從大鄰域中收集和關(guān)聯(lián)特征信息。
考慮到Y(jié)OLOv7主干網(wǎng)絡(luò)在特征提取過程中,MHSA若被過早地用于強(qiáng)制回歸邊界,網(wǎng)絡(luò)相對較淺而特征映射相對較大,極有可能丟失重要的上下文信息[10]。因此,在MHSA-YOLOv7模型中將L個(gè)MHSA模塊應(yīng)用于主干網(wǎng)絡(luò)最頂層以提取更多的差異化特征,MHSA模塊如圖5所示。
圖5 MHSA模塊Fig.5 MHSA module
為了使MHSA模塊利用序列的順序信息,特征序列中加入了關(guān)于序列的位置信息,并生成了3個(gè)完全相同的特征矩陣Q、K和V,通過線性投影將特征矩陣投影h次到Cq、Ck和Cv維度來并行計(jì)算點(diǎn)積注意力[12],計(jì)算如下:
(1)
MHSA-YOLOv7模型使用了8個(gè)并行自注意力層,對于每一層,特征矩陣的通道數(shù)為:Cq=Ck=Cv=Cp/h=256。
CNN中單個(gè)尺度的特征圖所包含的語義特征具有局限性,因此能夠有效融合多尺度特征至關(guān)重要。多尺度融合通過對不同分辨率的特征進(jìn)行聚合,使得拼接后的特征圖具有更多的語義特征。YOLOv7網(wǎng)絡(luò)模型使用特征金字塔網(wǎng)絡(luò)(PANet),通過增加一條額外的自底向上的路徑實(shí)現(xiàn)雙向信息傳輸,解決了傳統(tǒng)自頂向下的特征金字塔網(wǎng)絡(luò)(FPN)結(jié)構(gòu)受到單向信息流的限制[10]。
與PANet結(jié)構(gòu)相比,BiFPN提出了一種簡單高效的加權(quán)雙向特征金字塔網(wǎng)絡(luò),通過引入可學(xué)習(xí)的權(quán)重來學(xué)習(xí)不同輸入特征層的重要性,并且可以模塊化地重復(fù)應(yīng)用[13], BiFPN結(jié)構(gòu)如圖6所示。
圖6 BiFPN結(jié)構(gòu)Fig.6 BiFPN structure
BiFPN涉及跨尺度連接和加權(quán)特征融合2個(gè)方面:一方面,在同一層中增加了輸入和輸出特征之間的跨層連接以更好地提取和傳遞特征信息;另一方面,在組合低級特征和高級特征的同時(shí),引入了可學(xué)習(xí)的權(quán)重來學(xué)習(xí)不同的輸入特征[14]。BiFPN的2個(gè)融合特征計(jì)算如下:
(2)
(3)
本實(shí)驗(yàn)利用白色背景板對田間麥穗進(jìn)行樣本數(shù)據(jù)的拍攝,并使用LabelImg工具分別對健康籽粒與患病籽粒進(jìn)行位置標(biāo)注,通過數(shù)據(jù)增強(qiáng)完成了小麥赤霉病數(shù)據(jù)集的制作,樣本數(shù)據(jù)增強(qiáng)示例如圖7所示。
圖7 麥穗赤霉病樣本數(shù)據(jù)增強(qiáng)Fig.7 Data enhancement of wheat gibberella samples
在模型訓(xùn)練中使用數(shù)據(jù)增強(qiáng)的數(shù)據(jù)集可以提高模型的準(zhǔn)確性[15],通過對小麥單穗原始圖片進(jìn)行隨機(jī)剪裁、平移、改變亮度、加噪聲、旋轉(zhuǎn)、鏡像以及遮擋等操作,最終得到由1 870張圖像構(gòu)成的數(shù)據(jù)集,為滿足實(shí)驗(yàn)需求,該數(shù)據(jù)集以9∶1比例劃分為訓(xùn)練集和驗(yàn)證集。
實(shí)驗(yàn)環(huán)境的相關(guān)硬件配置和模型參數(shù)如表1所示。各模型輸入的圖像大小統(tǒng)一設(shè)為640 pixel×640 pixel,訓(xùn)練代數(shù)epoch設(shè)為300,MHSA模塊數(shù)量設(shè)為4,優(yōu)化器選擇SGD,權(quán)重衰減為5×10-4,初始學(xué)習(xí)率為1×10-2,并采用余弦退火算法調(diào)整學(xué)習(xí)率。
表1 相關(guān)配置及參數(shù)
深度學(xué)習(xí)算法可以在許多問題上實(shí)現(xiàn)更高的功能或性能,然而其依賴于大量的訓(xùn)練樣本以及訓(xùn)練時(shí)長[16]??紤]到小麥赤霉病數(shù)據(jù)集相對較小容易導(dǎo)致模型訓(xùn)練的過擬合,本實(shí)驗(yàn)采用遷移學(xué)習(xí)的方式,在大數(shù)據(jù)集上預(yù)訓(xùn)練自己的權(quán)重參數(shù)以解決數(shù)據(jù)集不足的問題[17]。模型訓(xùn)練開始前利用在VOC數(shù)據(jù)集上獲得的權(quán)重參數(shù)初始化各模型的主干網(wǎng)絡(luò),并通過小麥赤霉病數(shù)據(jù)集完成模型訓(xùn)練,實(shí)現(xiàn)網(wǎng)絡(luò)中權(quán)重參數(shù)的微調(diào)。
實(shí)驗(yàn)采用精度(P)、召回率(R)、F1分?jǐn)?shù)、平均精度均值(mAP) 以及浮點(diǎn)運(yùn)算(FLOPs)作為評價(jià)指標(biāo),對改進(jìn)后的MHSA-YOLOv7模型的性能進(jìn)行綜合評價(jià)。相關(guān)指標(biāo)計(jì)算如下:
(4)
(5)
(6)
(7)
(8)
式中:TP表示真正例,FP表示假正例,FN表示假負(fù)例,P表示精度,R表示召回率,C表示目標(biāo)檢測的總類別數(shù)[18]。
在模型性能的評價(jià)中,精度高或者召回率高并不一定意味著模型是準(zhǔn)確的,通常使用精度和召回率的調(diào)和平均值,即F1分?jǐn)?shù)作為模型的綜合評價(jià)指標(biāo)。而mAP是用來評估模型檢測所有類別綜合能力的指標(biāo),通過取所有類平均精度(AP)的平均值來度量算法的精度[19]。此外,為了比較不同模型的計(jì)算復(fù)雜度,使用FLOPs表示不同算法之間的差異[20]。
在保證配置環(huán)境以及初始訓(xùn)練參數(shù)一致的情況下,將MHSA-YOLOv7網(wǎng)絡(luò)模型與YOLO系列目標(biāo)檢測算法進(jìn)行對比實(shí)驗(yàn),對比結(jié)果如表2所示。改進(jìn)后的模型添加了MHSA模塊,并使用加權(quán)BiFPN以加強(qiáng)特征融合能力,mAP值超過了其他網(wǎng)絡(luò)模型,模型對麥粒此類小目標(biāo)物體具有更強(qiáng)的檢測能力。MHSA-YOLOv7相較于原YOLOv7模型,在增加少量模型計(jì)算量的情況下,將檢測精度、召回率、F1值、mAP@0.5以及mAP@0.5:0.95分別提高了0.33%、1.83%、0.011、1.19%和0.38%。
表2 MHSA-YOLOv7與YOLO系列算法對比結(jié)果
此外,為進(jìn)一步分析MHSA-YOLOv7的檢測性能,通過消融實(shí)驗(yàn)來驗(yàn)證各個(gè)改進(jìn)方法的有效性,消融實(shí)驗(yàn)結(jié)果如表3所示。將MHSA融合到原YOLOv7的主干網(wǎng)絡(luò)中,mAP@0.5提升了0.70;而使用加權(quán)BiFPN實(shí)現(xiàn)模塊間的跨層連接,mAP@0.5提升了0.59。結(jié)果表明,通過MHSA關(guān)聯(lián)全局語義信息,并使用BiFPN實(shí)現(xiàn)跨尺度連接及加權(quán)特征融合,對于麥穗籽粒此類小目標(biāo)物體的精確檢測起到了有效的促進(jìn)作用。
表3 MHSA-YOLOv7消融實(shí)驗(yàn)
小麥赤霉病感染率的實(shí)際檢測結(jié)果如圖8所示。在小麥籽粒高度聚合的檢測任務(wù)中,MHSA-YOLOv7相比于YOLOv7模型,利用MHSA獲取全局語義信息學(xué)習(xí)籽粒對象間的關(guān)系,可以更精確地檢測到小麥籽粒,有效降低了籽粒的漏檢率,針對小目標(biāo)物體表現(xiàn)出了更好的檢測效果,保證了小麥赤霉病感染率檢測的可靠性。
圖8 檢測結(jié)果Fig.8 Detection results
本文針對當(dāng)前小麥赤霉病感染率的檢測方法存在檢測時(shí)間長、硬件成本高、操作要求高以及破壞植株等問題,以YOLOv7網(wǎng)絡(luò)為基礎(chǔ)框架,設(shè)計(jì)了一種適用于小目標(biāo)物體檢測的網(wǎng)絡(luò)模型——MHSA-YOLOv7。該模型通過在原主干網(wǎng)絡(luò)中添加MHSA以提高語義特征識別能力,并使用加權(quán)BiFPN實(shí)現(xiàn)跨尺度連接和加權(quán)特征融合。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的網(wǎng)絡(luò)對于麥穗籽粒類高度聚合的小目標(biāo)物體具有更高的精度與召回率,檢測效果優(yōu)于原網(wǎng)絡(luò)以及其他經(jīng)典目標(biāo)檢測網(wǎng)絡(luò)。該模型實(shí)現(xiàn)了對小麥赤霉病單穗感染率的快速、無損、精確檢測,方便了育種人員對小麥植株病害走勢的長期觀測以及籽??剐缘臏?zhǔn)確評估。