何自芬, 羅 洋, 張印輝, 陳光晨, 陳東東, 徐 林
(昆明理工大學(xué) 機電工程學(xué)院,云南 昆明 650500)
2021 年中國煙草種植面積達1 013 千公頃,初烤煙葉產(chǎn)量達202.01 萬噸[1],貢獻1.2 萬億財政稅收。初烤煙葉分級[2]是煙葉實際收購過程中的重要環(huán)節(jié),分級結(jié)果直接決定了初烤煙葉的價格以及煙草種植農(nóng)戶的利益。目前,由于分級精度不高,烤煙分級自動化方法未得到廣泛應(yīng)用,因此,每年烤煙采收季節(jié),都需投入大量人力和財力對初烤煙葉進行人工分級。此外,人工分級結(jié)果依賴于專家經(jīng)驗知識,使得分級過程主觀化、經(jīng)驗化,從而導(dǎo)致分級結(jié)果缺乏客觀依據(jù)。為解決以上初烤煙葉分級任務(wù)中所存在的問題,研究一種精度高、速度快的初烤煙葉等級檢測算法對提高自動化分級設(shè)備性能具有重要意義。
根據(jù)中國烤煙國家標(biāo)準(zhǔn)GB2635-1998,初烤煙葉顏色、成熟度、油分、長度、身份、殘傷、葉片結(jié)構(gòu)是決定其等級的重要因素。為了更好的對初烤煙葉進行分級,研究人員提出了基于機器視覺的初烤煙葉分級方法,主要分為傳統(tǒng)視覺方法和深度學(xué)習(xí)方法。傳統(tǒng)特征提取方法主要采用圖像色彩閾值劃分和形態(tài)學(xué)計算等方法來提取初烤煙葉圖像的顏色、脈絡(luò)等顯式相關(guān)表層特征,再根據(jù)人工經(jīng)驗判斷其等級。Zhang 等[3]提出了一種表示初烤煙葉特征分布的二維特征空間,利用傳統(tǒng)數(shù)字圖像處理技術(shù)提取初烤煙葉的顏色、紋理和形狀參數(shù)等外觀特征,再與專家標(biāo)準(zhǔn)進行對比,實現(xiàn)初烤煙葉分級。Tattersfield 和Forbes[4]提出一種顏色分析方法,將RGB 色彩空間轉(zhuǎn)換為孟塞爾顏色體系來模擬人類視覺,對初烤煙葉進行顏色分組。Han[5]利用支持向量機對煙葉生長部位進行識別。Marcelo 等[6]采用近紅外高光譜成像技術(shù)結(jié)合支持向量機對初烤煙葉進行分級。盡管傳統(tǒng)視覺分級方法相較于人工分級取得了很大進步,但其在初烤煙葉圖像預(yù)處理時需要人工調(diào)整大量超參數(shù),且無法提取葉片的深層語義特征信息,從而限制了其分級精度和效率。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,可實現(xiàn)自動提取特征并進行分類的卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于農(nóng)業(yè)生產(chǎn)中。林相澤等[7]結(jié)合字典學(xué)習(xí)與SSD目標(biāo)檢測網(wǎng)絡(luò),對不完整稻飛虱圖像進行識別,為稻飛虱的預(yù)防和監(jiān)督提供了技術(shù)支持。Zhang等[8]設(shè)計了一種基于區(qū)域分割和AlexNet 的快速定位分類模型,并將其部署于分揀機器人上,用于茶葉分揀,最高分選準(zhǔn)確率達92%。Shang等[9]利用輕量級深度學(xué)習(xí)算法對自然環(huán)境下的蘋果花進行實時檢測。在卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用提高了農(nóng)產(chǎn)品生產(chǎn)效率的同時,深度學(xué)習(xí)方法也被應(yīng)用在初烤煙葉分級任務(wù)中,曾祥云[10]改進了經(jīng)典AlexNet 網(wǎng)絡(luò),增強了模型的學(xué)習(xí)能力,提高了初烤煙葉分級的準(zhǔn)確率;Dasari 和Prasad[11]使用卷積神經(jīng)網(wǎng)絡(luò)從三個等級的初烤煙葉圖像中自動提取特征,分級準(zhǔn)確率達到85.10%,但作者僅應(yīng)用了120 張初烤煙葉圖像,數(shù)據(jù)集圖像數(shù)量較少,這難以使神經(jīng)網(wǎng)絡(luò)充分學(xué)習(xí)初烤煙葉特征;Chen 等[12]使用MobileNetV2 和Swin Transformer 組成的并行雙編碼器結(jié)構(gòu)對8 個等級的初烤煙葉進行分級,分級精度達到79.30%,但其模型圖像處理時間達到每幀95 ms,無法達到實時檢測的需求。Lu 等[13]搭建了一種細粒度視覺分類框架并將其應(yīng)用于初烤煙葉分級任務(wù)中,六個等級的初烤煙葉分級準(zhǔn)確率達到80.65%,盡管單幀初烤煙葉圖像處理時間縮短至42.1 ms,但仍然達不到實時檢測的需求。
YOLOv5 目標(biāo)檢測算法在檢測精度和檢測速度方面均具有優(yōu)秀的性能,廣泛應(yīng)用于缺陷檢測[14]、行人檢測[15]、異物檢測[16]等方面。將YOLOv5 用于初烤煙葉等級檢測任務(wù)時,隨著網(wǎng)絡(luò)深度的增加,一些對初烤煙葉等級檢測有益的深層特征信息隨之丟失;缺乏對葉片的局部特征信息的關(guān)注,導(dǎo)致其無法有效區(qū)分相似度較高的不同等級的初烤煙葉;在模型定位過程中,真實框與預(yù)測框?qū)捀弑认嗤抑行狞c重合但真實框與預(yù)測框并未重合時,模型的定位損失函數(shù)性能退化。針對上述問題,本文提出一種多感受野特征自適應(yīng)融合及動態(tài)損失調(diào)整的初烤煙葉等級檢測網(wǎng)絡(luò)(Flue-cured Tobacco Leaf Grade Detection Network,F(xiàn)TGDNet)。首先利用CSPNet[17]作為特征提取主干網(wǎng)絡(luò),利用GhostNet[18]作為輔助特征提取網(wǎng)絡(luò),在CSPNet 和GhostNet 末端將所提取的特征進行像素相加以增強模型特征提取能力,保留更多對初烤煙葉等級檢測有益的深層特征信息;使用顯式視覺中心瓶頸模塊EVCB將全局信息與局部信息進行融合;嵌入多感受野特征自適應(yīng)融合模塊MRFA 增強模型局部感受野的同時突出有效通道信息;使用本文提出的MCIoU_Loss 代替CIoU_Loss,MCIoU_Loss 結(jié)合了真實框與預(yù)測框面積損失以及矩形相似度衰減系數(shù),加快模型擬合的同時有效改善真實框與預(yù)測框?qū)捀弑认嗤抑行狞c重合時模型定位損失函數(shù)退化問題。
FTGDNet 深度學(xué)習(xí)模型運用回歸思想,以一階段網(wǎng)絡(luò)完成目標(biāo)定位及分類。如圖1 所示,F(xiàn)TGDNet 沿用了YOLOv5 的整體布局,其網(wǎng)絡(luò)結(jié)構(gòu)由Input,Backbone,Neck 以及Output 四部分組成。
FTGDNet 在Input 部分將圖像縮放為640×640。Backbone 的第一層是Focus 模塊,F(xiàn)ocus 模塊將輸入圖像進行4 次切片操作,切片操作采用間隔像素點采樣的方式,將原圖像寬度W、高度H轉(zhuǎn)換到通道空間,輸入通道由原RGB 3 通道變?yōu)?2 通道,再通過卷積操作,將輸入圖像由640×640×3 變?yōu)?20×320×32。 受啟發(fā)于DenseNet[19]的密集跨層連接思想,CSPNet 利用不同層的特征信息進行局部跨層融合以獲得更為豐富的特征圖。GhostNet 的核心思想是以更少的參數(shù)生成更多的特征信息,進而達到減少模型參數(shù)量同時加快模型推理速度的目的。為增強模型主干特征提取能力,F(xiàn)TGDNet 采用CSPNet 作為特征提取主干,采用GhostNet 進行輔助特征提取??臻g金字塔池化模塊SPP 使用5×5,9×9,13×13 池化核進行最大池化操作,再將不同尺度的特征圖進行拼接,增加了網(wǎng)絡(luò)提取全局信息的能力。在Backbone 末端嵌入具有全局特征和局部特征相結(jié)合功能的EVCB 模塊作為瓶頸層,隨后添加MRFA_d,模塊EVCB 模塊和MRFA_d 模塊將在2.2 和2.3 詳細描述。Neck 部分由特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)和路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PAN)組成,F(xiàn)PN 自頂向下將高層特征信息與不同C3 模塊的輸出進行聚合,PAN自底向上聚合淺層特征,進而充分融合不同層的圖像特征。Output 部分使用MCIoU_Loss 作為定位損失函數(shù),加快模型擬合的同時有效改善真實框與預(yù)測框?qū)捀弑认嗟惹抑行狞c重合時CIoU_Loss 性能退化問題。
顯式視覺中心瓶頸模塊(Explicit Visual Center Bottleneck module,EVCB)主要由可學(xué)習(xí)視覺中心模塊(Learnable Visual Center,LVC)和輕量級多層感知機模塊(Lightweight MLP,LMLP)兩部分構(gòu)成,其結(jié)構(gòu)如圖2 所示??蓪W(xué)習(xí)視覺中心模塊中存在一個擁有固有碼本和縮放因子的編碼器,其中固有碼本B={b1,b2,…,bk},縮放因子S={s1,s2,…,sk}為可學(xué)習(xí)的視覺中心。對于輸入特征(在FTGDNet 中,該輸入來自SPP 模塊的輸出),先使用7×7 卷積平滑所輸入的特征信息,再利用一組卷積(由1×1 卷積、3×3 卷積、1×1 卷積、3×3 卷積+BN+ReLU 構(gòu)成)對該特征進行編碼,將編碼后的特征xi輸入Codebook中,使用縮放因子sk關(guān)聯(lián)xi與bk,進而映射出xi與bk的位置信息,上述過程表達為如式(1)所示:
圖2 EVCB 模塊結(jié)構(gòu)Fig.2 EVCB module sructure
其中:ek為輸入特征圖關(guān)于第k個碼字的位置信息,N為輸入特征的像素點總數(shù),K為視覺中心的總數(shù),xi為第i個像素點,bk為第k個碼字,sk為第k個縮放因子。
使用BRM 融合所有的ek得到所有像素點關(guān)于全部碼字的位置信息,將該信息輸入全連接層中,突出具有類別區(qū)分性的局部信息,再使用view 函數(shù)將FC 輸出的特征圖大小變?yōu)?×1,同時將7×7 卷積的輸出與view 函數(shù)的輸出Xin進行通道相乘,該過程可以表示為:
其中:?表示通道相乘,R表示ReLU 激活函數(shù)。
最后將Y與Xin進行通道拼接,得到包含局部特征信息的LVC 的輸出,上述過程表示為:
其中,⊕表示像素相加。
輕量級多層感知機模塊由深度卷積殘差模塊和通道多層感知機殘差模塊構(gòu)成,其中,通道多層感知機殘差模塊的輸入是深度卷積殘差模塊的輸出。在兩個殘差模塊中均對輸入特征沿著通道維度進行分組操作,同時使用DroupPath操作來提高模型的魯棒性。具體來說,來自7×7卷積的特征信息Xin輸入深度卷積殘差模塊,該過程表示為:
相較于空間多層感知機,通道多層感知機在保證模型檢測性能的前提下,能夠有效降低模型的計算復(fù)雜度。通道多層感知機殘差模塊信息處理過程可以表示為:
將LVC 模塊和LMLP 模塊的輸出進行通道拼接,隨后使用1×1 卷積將通道數(shù)減半,最后與Xin進行像素相加得到EVCB 模塊的輸出,上述過程表示為:
其中,Concat 表示通道拼接。
LVC 能夠有效保留局部特征信息,而LMLP則有效獲取具有長距離依賴的全局特征信息,EVCB 模塊將二者進行結(jié)合,有效提高模型的表征能力進而提高模型檢測精度。
多感受野特征自適應(yīng)融合模塊(Multi-Receptive Field Feature Adaptive Fusion module,MRFA)結(jié)構(gòu)如圖3 所示。MRFA 包含三層標(biāo)準(zhǔn)卷積結(jié)構(gòu),第一層和第三層均為1×1 卷積,主要用于減少通道數(shù)。第二層卷積結(jié)構(gòu)由卷積核為3×3,5×5,7×7 的卷積并行而成,用于制造具有不同感受野的特征圖。在卷積神經(jīng)網(wǎng)絡(luò)中,感受野是指卷積神經(jīng)網(wǎng)絡(luò)每層輸出的特征圖上的像素點在原始圖像上映射區(qū)域的大小。感受野尺寸的求解相當(dāng)于已知輸出特征圖大小反向求出輸入特征圖的過程。計算感受野大小時,常采用自頂向底的方式計算,即先計算最終特征圖在前一層上的感受野,然后逐漸傳遞到第1 層。MRFA 中所使用卷積均為標(biāo)準(zhǔn)卷積且卷積步長s均為1,其感受野計算公式如式(7)所示:
圖3 四種MRFA 結(jié)構(gòu)對比Fig.3 Comparison of four MRFA structures
圖 4 AFF 機制Fig.4 AFF mechanism
其中:lm為第m層感受野,lm-1為第m-1 層感受野,s為第m層卷積步長,n為第m層卷積核尺寸。
MRFA 第三層卷積輸出特征圖感受野為1×1,即l3=1,根據(jù)式(8)計算,第二層3×3,5×5,7×7 卷積輸出特征圖感受野分別為3×3,5×5,7×7,即,卷積核尺寸為7×7 的卷積輸出特征圖感受野最大,再次利用式(7)計算,得到MRFA 模塊輸出的特征圖的一個像素點在原始特征圖的感受野為7×7。
MRFA 利用不同卷積核尺寸卷積制造了感受野為3×3,5×5,7×7 的特征圖,定義相鄰感受野特征圖中較小感受野特征圖為Fa×a,感受野較大特征圖為Fb×b,將Fa×a與Fb×b進行像素相加,再將像素相加結(jié)果輸入注意力特征融合AFF 機制中,獲得通道注意力權(quán)重W。上述過程表示為:
AFF 是一種類似于壓縮激勵(Squeeze-and-Excitation,SE)[20]注意力機制的結(jié)構(gòu),能夠在通道方向上篩選出重要的特征信息,其原理如圖4所示。在獲得通道注意力權(quán)重W后,權(quán)重W與Fa×a進行通道相乘,同時使用1-W與Fb×b進行通道相乘,再將通道相乘結(jié)果進行像素相加,即對相鄰感受野特征圖進行加權(quán)融合,上述過程表示為:
其中:Z表示相鄰感受野特征圖進行加權(quán)融合輸出,W表示通道注意力權(quán)重。
本文設(shè)計了四種MRFA 結(jié)構(gòu),分別為圖3 所示的MRFA_a,MRFA_b,MRFA_c,MRFA_d。定義3×3,5×5,7×7 感受野特征圖為F3×3,F(xiàn)5×5,F(xiàn)7×7。MRFA_a 將F3×3,F(xiàn)5×5進行自適應(yīng)加權(quán)融合,隨后將其與感受野為3×3 和7×7 以及第一層卷積輸出的特征圖進行通道拼接,最后再輸入1×1 卷積中將通道數(shù)減半。MRFA_a 特征處理過程可以表示為:
其中:Conv表示卷積核尺寸為1×1 的卷積,Concat表示通道拼接,C3×3,C5×5,C7×7分別表示F3×3,F(xiàn)5×5,F(xiàn)7×7對應(yīng)通道,CAFF1表示F3×3與F5×5自適應(yīng)加權(quán)融合特征對應(yīng)通道,C0表示第一層卷積輸出特征通道。
MRFA_b 在MRFA_a 的基礎(chǔ)上進行二次加權(quán)特征融合,進一步增強特征圖中的有用信息,MRFA_b 特征處理過程表示為:
其中:CAFF2表示F3×3與F5×5二次加權(quán)融合特征對應(yīng)通道。
MRFA_c 與MRFA_b 相似,所不同的是MRFA_c 將F5×5與F7×7進行二次加權(quán)融合,其特征處理過程表示為:
其中:CAFF3表示F5×5與F7×7加權(quán)融合特征對應(yīng)通道,CAFF4表示F5×5與F7×7二次加權(quán)融合特征對應(yīng)通道。
MRFA_d 綜合MRFA_b 與MRFA_c,同時將F3×3與F5×5以及F5×5與F7×7進行二次加權(quán)特征融合,并將二次加權(quán)融合結(jié)果進行像素相加,再與CAFF1,CAFF3,C0進行通道拼接,其特征處理過程表示為:
其中:C(AFF2⊕AFF4)表示將AFF2與AFF4像素相加后特征對應(yīng)通道。
將多感受野特征自適應(yīng)融合模塊嵌入FTGDNet 中,增加模型局部感受野的同時突出有效特征信息,進一步提升模型表征能力。
YOLOv5 網(wǎng)絡(luò)中使用CIoU_Loss 定位損失函數(shù),其定義如下:
其中:ρ2(cp,cg)表示真實框與預(yù)測框的中心點距離,d真實框與預(yù)測框最小外接矩形的對角線長度,wg和hg是真實框的寬度和高度,wp和hp是預(yù)測框的寬度和高度。
如圖5 所示,網(wǎng)絡(luò)在回歸定位過程中真實框與預(yù)測框?qū)捀弑认嗟龋矗┣移渲行狞c重合時,CIoU_Loss 中的以及αυ將失效,CIoU_Loss 退化為IoU_Loss,但此時真實框與預(yù)測框并未重合,這降低了模型擬合速度且不利于模型檢測精度的提升。針對上述問題,本文提出MCIoU_Loss,MCIoU_Loss 定義如下:
圖5 真實框與預(yù)測框擬合結(jié)果Fig.5 Fitting result of real box and prediction box
其中:β為真實框與預(yù)測框面積損失,wm和hm分別為真實框與預(yù)測框最小外接矩形面積的寬度和高度,將αυ和β定義為真實框與預(yù)測框的矩形相似度判別項,λ為矩形相似度衰減系數(shù)。
本文在MCIoU_Loss 中引入了真實框與預(yù)測框的面積損失,有效解決真實框與預(yù)測框?qū)捀弑认嗟惹移渲行狞c重合時CIoU_Loss 性能退化問題,同時引入矩形相似度衰減系數(shù)λ,隨著預(yù)測框與真實的框重合度增加,λ增大,真實框與預(yù)測框的矩形相似度判別項數(shù)值不斷衰減,在訓(xùn)練過程中對定位損失函數(shù)進行動態(tài)調(diào)整,加快模型擬合速度同時進一步提高模型定位精度。
本文使用智能分級設(shè)備5XYZ-9C 采集初烤煙葉圖像,如圖6 所示,該設(shè)備使用黑色傳送帶將葉片運送至裝有工業(yè)面陣相機和固定光源的暗室中進行圖像采集,工業(yè)面陣相機固定于暗室頂部,其鏡頭距離傳送帶845 mm。相機型號為CA050-11U,其分辨率為2 384×1 528,鏡頭型號為M0824-MPW2。光源設(shè)備型號XC-BK-650-1100,固定于暗室左右兩側(cè)頂部。利用5XYZ-9C獲取代號為B1F,B2F,B3F,C2F,C3F,C4F,X2F,X3F,V,GY 十個等級初烤煙葉圖像數(shù)據(jù),其中,等級代號相鄰的葉片間葉形及顏色特征差異較小,相似度較高。通過數(shù)據(jù)篩選,得到高質(zhì)量圖像共計3 192 幅,建立初烤煙葉分級數(shù)據(jù)集(Flue-cured Tobacco Leaf Grading Dataset,F(xiàn)TLGD),各等級初烤煙葉示例如圖7 所示。使用LabelImg 對FTLGD 中葉片進行錨框標(biāo)注,得到包含葉片中心坐標(biāo)、寬、高信息的xml 文件,使用python 編程將xml 文件轉(zhuǎn)換為txt 標(biāo)注文件,建立可以在YOLO 模型中運行的數(shù)據(jù)集,并將其中2 700 幅按照4∶1 比例隨機劃分訓(xùn)練集和驗證集、492 幅作為測試集用于網(wǎng)絡(luò)訓(xùn)練和性能測試。
圖6 智能分級設(shè)備5XYZ-9CFig.6 Intelligent grading equipment 5XYZ-9C
圖7 FTLGD 中初烤煙葉葉片F(xiàn)ig.7 Flue-cured tobacco leaves in FTLGD
實驗配置:11th Gen Intel(R) Core(TM) i5-11400 處理器,運行內(nèi)存為16G,圖形處理單元為NVIDIA GeForce RTX 3060(12G),深度學(xué)習(xí)框架為Pytorch1.8.0,使用CUDA11.1,cuDNN 8.0.4 加快網(wǎng)絡(luò)訓(xùn)練。Batch_sizes 設(shè)置為16,Epoch 設(shè)置為300。在訓(xùn)練過程中,通過Mosaic 算法對輸入數(shù)據(jù)進行在線增強,采用SGD 對訓(xùn)練過程進行優(yōu)化。
評價指標(biāo):采用模型參數(shù)量(Parameters)、浮點運算數(shù)(FLOPs)以及前向推理時間(Inference time)對模型的計算效率進行評價。采用均值平均精度(mean Average Precision,mAP)對模型檢測精度進行評價,其計算公式如式(16)所示:
其中:M為類別數(shù),APi為第i類的識別精度。
3.2.1 FTGDNet 消融實驗
FTGDNet 使用CSPNet 作為特征提取主干網(wǎng)絡(luò),為增強主干的特征提取能力,使用Ghost-Net 進行輔助特征提取。為驗證上述改進的效果,本節(jié)對ShuffleNet[21],GhostNet,CSPNet 作為特征提取主干網(wǎng)絡(luò)以及CSPNet 作為特征提取主干的同時Shufflenet 或GhostNet 作為輔助特征提取網(wǎng)絡(luò)進行實驗對比,對比結(jié)果如表1 所示。ShuffleNet 和GhostNet 具有模型輕量化的優(yōu)點,但其特征提取能力有限。將ShuffleNet 和Ghost-Net 作為特征提取主干網(wǎng)絡(luò)時,相較于CSPNet,浮點運算數(shù)分別下降6.9 G,5.2 G,參數(shù)量分別下降2.1 M,1.4 M,推理時間分別加快1.0 ms,0.7 ms,但初烤煙葉等級檢測精度大幅下降,在測試集上僅為56.0%和59.5%,在驗證集上僅為51.8%和55.5%。將CSPNet 作為特征提取主干網(wǎng)絡(luò),ShuffleNet 和GhostNet 分別作為輔助特征提取網(wǎng)絡(luò)時,由于增加了一條輔助特征提取網(wǎng)絡(luò),模型的浮點運算數(shù)、參數(shù)量、推理時間均有不同程度的上升,但GhostNet 作為輔助特征提取網(wǎng)絡(luò)時,在驗證集和測試集上,檢測精度分別達到83.5%和81.2%,相較于單一CSPNet 作為特征提取主干網(wǎng)絡(luò),上升4.7%和5.5%。
表1 主干網(wǎng)絡(luò)對比實驗Tab.1 Backbone network comparison study
本文以CSPNet+GhostNet 作為Baseline,以驗證EVCB 模塊、MRFA_d 模塊、MCIoU_Loss定位損失函數(shù)的檢測性能,各模塊性能消融實驗如表2 所示。由表2 可知,模型在采用EVCB 模塊后,在驗證集上檢測精度上升3.1%,在測試集上檢測精度上升1.0%,驗證了EVCB 模塊將全局與局部特征信息結(jié)合進而有效提高初烤煙葉等級檢測精度的結(jié)論,但由于EVCB 中存在全連接層,模型的浮點運算數(shù)、參數(shù)量分別上升2.1 G,2.8 M,推理時間減慢1.6 ms。對MRFA_d 模塊進行實驗分析,在Baseline+EVCB 的基礎(chǔ)上加入MRFA_d,在驗證集和測試集上,模型檢測精度分別達到89.2%和85.3%,模型浮點運算數(shù)上升到22.9 G,參數(shù)量上升到12.4 M,模型推理時間減慢至12.6 ms。對MCIoU_Loss 定位損失函數(shù)進行實驗分析,在模型中使用MCIoU_Loss 定位損失函數(shù)后,模型的驗證精度上升0.8%,達到90%,測試精度上升2.1%,達到87.4%,證明MCIoU_Loss 定位損失函數(shù)具有提高定位精度進而提高檢測精度的能力。
表2 模塊消融實驗Tab.2 Module ablation study
3.2.2 顯式視覺中心瓶頸層對比實驗
本文將顯式視覺中心瓶頸模塊(EVCB)作為網(wǎng)絡(luò)的瓶頸層(Stage 9)來提取初烤煙葉特征信息,為驗證EVCB 作為網(wǎng)絡(luò)瓶頸層的性能,本節(jié)選用YOLOv5 網(wǎng)絡(luò)中作為瓶頸層結(jié)構(gòu)的Bottleneck,BottleneckCSP,C3 與EVCB 進行對比,對比結(jié)果如表3 所示。由表3 可知,F(xiàn)TGDNet 采用Bottleneck 作為瓶頸層時,模型整體性能較差,對初烤煙葉等級的識別準(zhǔn)確率最低,驗證精度僅為81.5%,測試精度僅為81.4%。C3 模塊作為瓶頸層時,其浮點運算數(shù)、參數(shù)量均為最低,分別為19.4 G,8.0 M,此外,其推理時間最快,僅為9.3 ms。當(dāng)FTGDNet 選擇EVCB 模塊作為瓶頸層時,對初烤煙葉的識別精度最高,驗證精度達到86.6%,相較于Bottleneck,BottleneckCSP,C3 模塊分別提升5.1%,4.0%,3.1%,測試精度達到82.2%,相較于Bottleneck,BottleneckCSP,C3 模塊分別提升0.8%,1.6%,1.0%,但由于EVCB中使用了全連接層結(jié)構(gòu),其浮點運算數(shù)和參數(shù)量均為最高,模型推理時間最慢,為10.9 ms。
表3 瓶頸模塊效果對比Tab.3 Effect comparison of bottleneck module
3.2.3 多感受野特征自適應(yīng)融合模塊實驗
本節(jié)在Baseline+EVCB 框架下,驗證多感受野特征自適應(yīng)融合模塊在初烤煙葉等級檢測任務(wù)中的優(yōu)越性能。本文設(shè)計了四種多感受野自適應(yīng)特征融合結(jié)構(gòu)MRFA_a、MRFA_b、MRFA_c,MRFA_d,并將其嵌入網(wǎng)絡(luò)的第10 層(Stege 10),四種多感受野自適應(yīng)特征融合結(jié)構(gòu)性能對比如表4 所示。根據(jù)表4 可知,將4 種多感受野特征自適應(yīng)融合模塊先后嵌入網(wǎng)絡(luò)后,相較于Baseline+EVCB,模型的驗證精度分別上升0.5%,2.0%,2.2%,2.6%,達 到 87.1%,88.6%,88.8%,89.2%,測試精度分別上升2.2%,1.5%,2.8%,3.1%,達 到 84.4%,83.7%,85.0%,85.3%。但多感受野特征自適應(yīng)融合模塊中使用了多個卷積層,模型的浮點運算數(shù)分別上升1.3 G,1.3 G,1.3 G,1.4 G,參數(shù)量均上升1.8 M,推理時間分別減慢1.2 ms,1.4 ms,1.4 ms,1.7 ms。綜合考慮下,MRFA_d對初烤煙葉等級的檢測精度最高,驗證精度和測試精度分別達到89.2%和85.3%,更適合應(yīng)用于初烤煙葉等級檢測任務(wù)中。
表4 四種MRFA 結(jié)構(gòu)性能對比Tab.4 Performance comparison of four MRFA structures
3.2.4 定位損失函數(shù)對比實驗
為驗證MCIoU_Loss 定位損失函數(shù)的性能,本節(jié)在FTGDNet 最終模型的基礎(chǔ)上,選用GIoU_Loss,DIoU_Loss,SIoU_Loss,CIoU_Loss四種定位損失函數(shù)與MCIoU_Loss 進行實驗對比,對比結(jié)果如表5 所示。根據(jù)表5,模型采用GIoU_Loss 的檢測精度最低,驗證精度僅為85.9%,測試精度僅為82.4%;DIoU_Loss 在GIoU_Loss 的基礎(chǔ)上加入中心距損失,較GIoU_Loss 其檢測精度上升1.8% 和2.4%;SIoU_Loss 同時使用了角度損失、中心距損失、形狀損失,模型采用SIoU_Loss 定位損失函數(shù)后,測試精度和驗證精度上升至88.2% 和85.3%;CIoU_Loss 相較DIoU_Loss,CIoU_Loss引入了寬高比損失,進一步提高了目標(biāo)定位精度,其檢測精度達到了89.2% 和85.3%;MCIoU_Loss 中引入真實框與預(yù)測框面積損失,同時引入矩形相似度衰減系數(shù)對真實框與預(yù)測框相似度判別項進行動態(tài)調(diào)整,模型使用MCIoU_Loss 后,在驗證集上,檢測精度達到90.0%,相 較 于 GIoU_Loss,DIoU_Loss,SIoU_Loss,CIoU_Loss 分別提升4.1%,2.3%,1.8%,0.8%,在測試集上,檢測精度達到87.4%,相 較 于 GIoU_Loss,DIoU_Loss,SIoU_Loss,CIoU_Loss 分別提升5.0%,2.6%,2.1%,2.1%。圖8 對比了訓(xùn)練過程中五種定位損失函數(shù)的數(shù)值變化,其中,本文提出的MCIoU_Loss 在40 個Epoch 后保持最低,圖9 對比了訓(xùn)練過程中CIoU_Loss 與MCIoU_Loss 的mAP值,進一步驗證了MCIoU_Loss 具有提高定位精度和加快模型擬合的能力。
表5 不同損失函數(shù)性能對比Tab.5 Performance comparison of different Loss functions
圖8 訓(xùn)練過程損失值變化曲線Fig.8 Change curves of Loss value in training process
圖9 訓(xùn)練過程mAP 值變化曲線Fig.9 Change curves of mAP value in training process
3.2.5 不同網(wǎng)絡(luò)對比實驗
為客觀評價本文算法對初烤煙葉等級的檢測性能,選用Faster R-CNN[22],Double_head RCNN[23],Dynamic R-CNN[24],SOBL[25],TOOD[26],Sparse R-CNN[27],YOLO 系列[28-33]共20 種檢測算法,在實驗設(shè)備、數(shù)據(jù)集結(jié)構(gòu)不變條件下與本文方法進行對比實驗,實驗結(jié)果如表6所示。
表6 模型效果對比Tab.6 Comparison of model effects
可得到如下結(jié)論:
(1)浮點運算數(shù)對比,本文模型的浮點運算數(shù)為22.9G,與TOOD,F(xiàn)aster R-CNN,Sparse RCNN,Double_head R-CNN ,Dynamic R-CNN,SOBL,YOLOv3,YOLOr_CSP,YOLOr_CSPx,YOLOv5m,YOLOv6m,YOLOv7 相比,F(xiàn)TGDNet 存在較大優(yōu)勢。
(2)參數(shù)量對比,F(xiàn)TGDNet 參數(shù)量為12.4M,分別為TOOD,F(xiàn)aster R-CNN,Sparse RCNN,Double_head R-CNN,Dynamic R-CNN,SOBL,YOLOv3,YOLOr_CSP,YOLOr_CSPx,YOLOv5m,YOLOv6m,YOLOv7 的 39.0%,30.1%, 11.7%, 26.5%, 30.1%, 17.4%,20.2%, 13.4%, 12.9%, 59.3%, 43.8%,34.0%。
(3)檢測精度對比,F(xiàn)TGDNet 的驗證精度達到90.0%,測試精度達到87.4%,均高于所對比的20 種先進檢測網(wǎng)絡(luò)。
(4)推理時間對比,本文模型的推理時間僅為12.6 ms,較YOLOv3-Tiny,YOLOv5n,YOLOv5s,YOLOv6n,YOLOv7-Tiny 輕量化模型慢,但仍具有較高的實時檢測性。
綜上分析,F(xiàn)TGDNet 在初烤煙葉等級檢測任務(wù)有著更為優(yōu)秀的性能。
由上述對比實驗可知,在初烤煙葉分級據(jù)集FTLGD 上,本文所提方法有著更為優(yōu)越的檢測性能。圖10 對比了不同網(wǎng)絡(luò)對初烤煙葉分級的測試結(jié)果,可以看出,YOLOv3-Tiny,YOLOv3,YOLOv5s,YOLOv6s 均存在不同程度的檢測缺失問題,預(yù)測框無法覆蓋葉片區(qū)域,YOLOv7-Tiny,YOLOv7 存在錯檢或漏檢問題。與原始YOLOv5s 網(wǎng)絡(luò)相比,本文模型在精度和泛化能力均有較大提升,引入MCIoU_Loss 定位損失函數(shù)后,模型的定位精度有一定程度的提升。
圖10 網(wǎng)絡(luò)檢測結(jié)果可視化Fig.10 Test result visualization
為加深對FTGDNet 理解,本文對FTGDNet和YOLOv5 特征提取過程進行可視化,如圖11所示,可以看出,Stage 0 到Stage 6 隨著網(wǎng)絡(luò)深度的加深,網(wǎng)絡(luò)提取的特征從葉片的輪廓結(jié)構(gòu)信息逐漸過渡到深層語義信息,CSPNet 和GhostNet共同提取葉片特征信息,在Stage 9 到Stage 20 由深層語義信息指導(dǎo)淺層輪廓信息,使網(wǎng)絡(luò)獲取更完整的目標(biāo)輪廓和位置信息,在Stage9-Stage17階段,隨著網(wǎng)絡(luò)深度的加深,F(xiàn)TGDNet 明顯較YOLOv5 保留了更多的有效的深層特征信息。
圖11 FTGDNet 和YOLOv5 特征提取過程可視化Fig.11 Visualization of FTGDNet and YOLOv5 feature extraction process
針對相似度較高但等級不同的初烤煙葉難以區(qū)分問題,本文提出了多感受野特征自適應(yīng)融合及動態(tài)損失調(diào)整的初烤煙葉等級檢測算法FTGDNet,算法采用CSPNet 和GhostNet 共同提取葉片特征信息以達到增強模型特征提取能力的目的;嵌入顯式視覺中心瓶頸模塊將全局特征與局部特征相融合;通過多感受野特征自適應(yīng)融合模塊將不同感受野的特征圖進行自適應(yīng)加權(quán)融合,增強模型的局部感受野的同時突出有效通道信息;使用MCIoU_Loss 定位損失函數(shù)解決模型在回歸定位過程中真實框與預(yù)測框?qū)捀弑认嗟惹抑行狞c重合時CIoU_Loss 定位性能退化問題。FTGDNet 對FTGD 中十個等級初烤煙葉的驗證精度達到90%,測試精度達到87.4%,高于TOOD,F(xiàn)aster R-CNN,Sparse R-CNN,Double_head R-CNN,Dynamic R-CNN,SOBL,YOLOv3,YOLOx,YOLOr,YOLOv5,YOLOv6,YOLOv7 等主流目標(biāo)檢測網(wǎng)絡(luò),同時,F(xiàn)TGDNe的推理時間分別僅為12.6 ms,具有較高的實時檢測性能。