摘要: 為實(shí)現(xiàn)果園實(shí)際環(huán)境中綠色類圓果實(shí)的識(shí)別,研究了基于單階段目標(biāo)檢測網(wǎng)絡(luò)的綠色類圓果實(shí)識(shí)別方法。本研究對(duì)比4種不同輕量化卷積網(wǎng)絡(luò)模型,以GhostNet作為本研究網(wǎng)絡(luò)的主干特征提取網(wǎng)絡(luò),將提取到的特征信息利用復(fù)雜雙向多尺度融合網(wǎng)絡(luò)進(jìn)行融合,最后以改進(jìn)后的YOLO_Head作為預(yù)測頭,建立適合本研究的目標(biāo)檢測網(wǎng)絡(luò)。結(jié)果表明,在果園背景下本研究構(gòu)建的目標(biāo)檢測網(wǎng)絡(luò)對(duì)綠色類圓果實(shí)的均值平均精度達(dá)到96.8%,每張圖片檢測所用的時(shí)間為37 ms,網(wǎng)絡(luò)內(nèi)存占用大小為11.8 M,實(shí)現(xiàn)了對(duì)綠色類圓果實(shí)的快速、準(zhǔn)確識(shí)別,能夠?yàn)樵缙诠麡涞漠a(chǎn)量預(yù)估、病蟲害識(shí)別提供技術(shù)支撐。
關(guān)鍵詞: 目標(biāo)檢測;輕量化卷積網(wǎng)絡(luò);特征融合;綠色類圓果實(shí)
中圖分類號(hào): TP391.41 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1000-4440(2023)03-0724-08
A green round-like fruits identification method based on GhostNet
LI Heng, NAN Xin-yuan, GAO Bing-peng, MA Zhi-gang
(School of Electrical Engineering, Xinjiang University/Siemens Laboratories, Urumqi 830017, China)
Abstract: In order to realize the recognition of green round-like fruits in the actual environment of orchards, the recognition method of green round-like fruits based on one-stage object detection network was studied. In this study, four different lightweight convolutional network models were compared. GhostNet was used as the backbone feature extraction network of this research network. The extracted feature information was fused by bidirectional feature pyramid network(BiFPN). Finally, the improved YOLO_Head was used as the prediction head to establish a target detection network suitable for this study. The experimental results showed that the final detection accuracy of the green round-like fruits in the object detection network constructed in the context of orchard reached 96.8%, the detection speed of a single image reached 37 ms, and the memory occupancy size of the network was 11.8 M, which realized the rapid and accurate identification of green round-like fruits, and could provide technical support for the yield estimation and disease and pest identification of early fruit trees.
Key words: object detection;lightweight convolutional networks;feature fusion;green round-like fruits
中國是傳統(tǒng)農(nóng)業(yè)大國,水果種植面積、產(chǎn)量、消費(fèi)量早已位居世界第一,然而中國的水果種植業(yè)仍以人力為主,自動(dòng)化、機(jī)械化水平與發(fā)達(dá)國家相比存在一定差距。近年來為了應(yīng)對(duì)中國人口紅利的衰減,順應(yīng)國家提出的數(shù)字農(nóng)業(yè)戰(zhàn)略,將機(jī)器視覺與農(nóng)業(yè)相結(jié)合成為國內(nèi)學(xué)者研究的關(guān)注點(diǎn)。利用機(jī)器視覺可以更好地實(shí)現(xiàn)早期果樹的產(chǎn)量預(yù)估、果樹病蟲害的早期識(shí)別并及時(shí)進(jìn)行防治、實(shí)現(xiàn)成熟果實(shí)的精準(zhǔn)采摘等[1-3]。此外,多數(shù)果樹果實(shí)在生長階段會(huì)具備綠色、類圓特征,因此對(duì)綠色類圓果實(shí)精準(zhǔn)識(shí)別是非常有研究價(jià)值的。
然而在實(shí)際環(huán)境中,綠色類圓果實(shí)與果園背景相近,且葉片、枝干遮擋果實(shí)、果實(shí)相互重疊遮擋,給綠色類圓果實(shí)的識(shí)別造成一定的影響[4-6]。目前國內(nèi)外相關(guān)研究為上述識(shí)別過程中存在的難點(diǎn)提供了部分解決辦法。在傳統(tǒng)機(jī)器學(xué)習(xí)目標(biāo)檢測算法方面,Bansal等[7]應(yīng)用快速傅里葉變換(FFT)對(duì)正常環(huán)境下的綠色柑橘進(jìn)行識(shí)別,在構(gòu)建的數(shù)據(jù)集上達(dá)到82.2%的識(shí)別準(zhǔn)確率。盧軍等[8]利用類圓果實(shí)在自然光下圖像具有環(huán)形光照分布的輪廓特征,將Hough變換與該輪廓特征及局部二值模式(LBP)紋理特征進(jìn)行結(jié)合,最終進(jìn)行圓擬合,該方法的果實(shí)識(shí)別召回率達(dá)到82.3%,然而該方法只適用于正常光照條件下,不能對(duì)復(fù)雜環(huán)境中的果樹果實(shí)進(jìn)行精準(zhǔn)識(shí)別。馬翠花等[9]利用無監(jiān)督的顯著性檢測方法密集稀疏重構(gòu)(DSR),完成未成熟的綠色番茄的檢測任務(wù),最終識(shí)別率達(dá)到77.6%,然而該研究存在強(qiáng)光下漏檢率高、誤檢率高的缺陷。謝忠紅等[10]改進(jìn)Hough變換,提出類圓果實(shí)檢測方法,但精度低且存在誤檢漏檢。Liu等[11]利用顏色與形狀特征檢測蘋果,網(wǎng)絡(luò)召回率達(dá)到85.0%,但存在魯棒性較差問題。與傳統(tǒng)方法相比,現(xiàn)階段深度卷積神經(jīng)網(wǎng)絡(luò)不局限于表面特征,以更高維的視角對(duì)特征進(jìn)行全面學(xué)習(xí),充分挖掘檢測目標(biāo)的特征信息,從而更好地滿足更精準(zhǔn)的識(shí)別要求。李頎等[12]在ResNet50網(wǎng)絡(luò)中引入金字塔結(jié)構(gòu)及遮擋補(bǔ)償機(jī)制,最終實(shí)現(xiàn)了果粒排列密集相互遮擋的葡萄果實(shí)檢測。劉芳等[13]以Darknet-20網(wǎng)絡(luò)為基礎(chǔ),引入融合多尺度檢測模塊,重構(gòu)檢測網(wǎng)絡(luò),最終利用采摘試驗(yàn)實(shí)現(xiàn)了對(duì)番茄果實(shí)的識(shí)別。岳有軍等[14]利用級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)研究番茄果實(shí)的檢測問題,實(shí)現(xiàn)番茄的快速檢測。賈偉寬等[15]對(duì)Transformer結(jié)構(gòu)進(jìn)行優(yōu)化,并結(jié)合前饋神經(jīng)網(wǎng)絡(luò)(FFN)結(jié)構(gòu)構(gòu)建目標(biāo)檢測網(wǎng)絡(luò),對(duì)綠色蘋果、柿子進(jìn)行識(shí)別,最終識(shí)別精度分別達(dá)到93.27%、91.35%。上述方法僅針對(duì)某種特定果實(shí)構(gòu)建網(wǎng)絡(luò)進(jìn)行檢測,并沒有某個(gè)網(wǎng)絡(luò)可以對(duì)不同的綠色類圓果實(shí)進(jìn)行識(shí)別,網(wǎng)絡(luò)的泛化性、普適性還有待提升。
綜上所述,本研究擬構(gòu)建目標(biāo)檢測網(wǎng)絡(luò)對(duì)多類綠色類圓果實(shí)進(jìn)行檢測,在提升網(wǎng)絡(luò)檢測精度及速度的同時(shí),提高網(wǎng)絡(luò)的泛化性、適用性。本研究擬借助GhostNet網(wǎng)絡(luò),通過引入復(fù)雜多向特征融合網(wǎng)絡(luò)及改進(jìn)后的YOLO_Head,提出基于GhostNet的綠色類圓果實(shí)檢測網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)自然環(huán)境下綠色類圓果實(shí)的快速精確檢測,以期為早期果實(shí)計(jì)數(shù)、果實(shí)病蟲害識(shí)別、綠色類圓果實(shí)采摘等提供參考。
1 材料與方法
1.1 目標(biāo)檢測網(wǎng)絡(luò)
現(xiàn)階段國內(nèi)外學(xué)者用來構(gòu)建檢測網(wǎng)絡(luò)的方法總體上可分為兩類(圖1):一類是基于區(qū)域進(jìn)行提名的兩階段檢測網(wǎng)絡(luò),如RCNN[16-17]系列網(wǎng)絡(luò),這類網(wǎng)絡(luò)先生成區(qū)域候選框,再通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類、回歸修正以達(dá)到預(yù)測目的;另一類是直接端到端的單階段目標(biāo)檢測網(wǎng)絡(luò),如YOLO[18-19]系列、SDD[20]系列網(wǎng)絡(luò),此類網(wǎng)絡(luò)不需要生成候選框,而是直接利用網(wǎng)絡(luò)提取到的檢測對(duì)象特征直接進(jìn)行預(yù)測。2類方法各有優(yōu)劣,兩階段檢測網(wǎng)絡(luò)因?yàn)橐珊蜻x框所以檢測速度較慢,卻能更好地保證檢測精度,而單階段目標(biāo)檢測網(wǎng)絡(luò)恰恰相反,有著更快的檢測速度,但檢測精度低于兩階段網(wǎng)絡(luò)。
因此,為了快速、準(zhǔn)確地實(shí)現(xiàn)綠色類圓果實(shí)的檢測,本研究構(gòu)建端到端的單階段目標(biāo)檢測網(wǎng)絡(luò),在網(wǎng)絡(luò)中添加加權(quán)特征融合網(wǎng)絡(luò)并利用改進(jìn)后的YOLO_Head同時(shí)進(jìn)行分類和回歸,在實(shí)現(xiàn)快速檢測的同時(shí)保證網(wǎng)絡(luò)的檢測精度。
1.2 本研究網(wǎng)絡(luò)構(gòu)建
1.2.1 輕量化卷積網(wǎng)絡(luò) 卷積神經(jīng)網(wǎng)絡(luò)一經(jīng)提出就引起各國研究者的廣泛關(guān)注,目標(biāo)檢測網(wǎng)絡(luò)方面的學(xué)者將其引入檢測識(shí)別任務(wù),然而大多數(shù)學(xué)者都在考慮如何提升網(wǎng)絡(luò)性能,提高網(wǎng)絡(luò)的識(shí)別準(zhǔn)確性,這就導(dǎo)致卷積神經(jīng)網(wǎng)絡(luò)的深度越來越深、參數(shù)越來越多,然而卻忽視了現(xiàn)實(shí)環(huán)境中普通計(jì)算機(jī)的算力、空間存儲(chǔ)有限,很難在一般的硬件及嵌入式設(shè)備上進(jìn)行檢測任務(wù),不利于目標(biāo)檢測在現(xiàn)實(shí)生活中的應(yīng)用?;诖斯雀鑼?shí)驗(yàn)室提出InceptionNet,首次提及卷積網(wǎng)絡(luò)輕量化概念,后續(xù)學(xué)者參考InceptionNet提出并構(gòu)建了基于不同方法的輕量化卷積網(wǎng)絡(luò)模型[21],如SqueezeNet,利用剪枝、量化、張量分解、知識(shí)蒸餾等方法壓縮重構(gòu)模型;MobileNet、ShuffleNet使用較小卷積核,使網(wǎng)絡(luò)結(jié)構(gòu)更加緊湊,達(dá)到輕量化目的。
GhostNet的構(gòu)建方式則不同于上述輕量化卷積網(wǎng)絡(luò),相較于其他網(wǎng)絡(luò)輕量化方法,GhostNet將關(guān)注點(diǎn)放在了卷積之后生成的大量冗余特征圖上,這些冗余特征圖的作用是對(duì)檢測目標(biāo)主要特征圖進(jìn)行補(bǔ)充,保證網(wǎng)絡(luò)對(duì)檢測對(duì)象有更全面、充分的認(rèn)識(shí),然而在實(shí)際檢測任務(wù)中,此類冗余特征圖卻僅能發(fā)揮很小的作用,但生成這些冗余圖卻需要消耗計(jì)算機(jī)大量算力,如此一來,既浪費(fèi)計(jì)算機(jī)的算力,也不能更好地幫助網(wǎng)絡(luò)提升檢測任務(wù)精度。基于此,GhostNet構(gòu)建了Ghost模塊,利用Ghost模塊以更快、更節(jié)省計(jì)算機(jī)算力的方式來生成冗余圖。
Ghost模塊提取檢測目標(biāo)特征過程如圖2顯示,其操作過程可以分為2部分,第一部分操作與多數(shù)卷積神經(jīng)網(wǎng)絡(luò)相似,利用給定大小的卷積核(卷積核大小可隨意設(shè)置,而不是僅局限于大小為1的卷積核)對(duì)輸入圖像進(jìn)行操作,獲取檢測對(duì)象各個(gè)通道的特征圖;第二部分操作時(shí)Ghost模塊并沒有直接繼續(xù)利用卷積核對(duì)已有多通道特征圖直接進(jìn)行卷積,而是利用深度卷積(圖3)分別對(duì)每個(gè)單一通道進(jìn)行卷積來獲取大量冗余的特征圖;最后通過拼接2部分獲得的特征圖并不斷堆疊Ghost模塊,即可搭建任意層數(shù)的輕量級(jí)GhostNet,更便捷、高效地提取待檢測目標(biāo)的特征。
1.2.2 特征融合網(wǎng)絡(luò) 為了更好地利用特征提取網(wǎng)絡(luò)提取出的特征圖,對(duì)檢測目標(biāo)特征進(jìn)行更全面的學(xué)習(xí),需要對(duì)從不同尺度圖像中提取的目標(biāo)對(duì)象特征圖進(jìn)行融合。
早期的目標(biāo)檢測網(wǎng)絡(luò)并沒有特征融合的概念,無論是單階段還是雙階段目標(biāo)檢測網(wǎng)絡(luò)都只是在最后一次卷積操作提取特征圖后直接接檢測頭進(jìn)行預(yù)測,可想而知,這種用單一的特征圖直接表示檢測對(duì)象的方式并不能高效、全面地幫助網(wǎng)絡(luò)學(xué)習(xí),也不利于網(wǎng)絡(luò)的檢測精度。因此,后期的學(xué)者在構(gòu)建目標(biāo)檢測網(wǎng)絡(luò)時(shí)開始關(guān)注每次特征提取后的特征圖(圖4),利用不同尺度的特征圖直接組成或進(jìn)行融合后組成特征金字塔,從而更好地完成目標(biāo)檢測任務(wù),獲得更準(zhǔn)確的檢測結(jié)果。
圖5顯示,復(fù)雜雙向多尺度融合網(wǎng)絡(luò)(BiFPN)是在特征金字塔的基礎(chǔ)上既添加了自頂向下通道傳遞高層特征進(jìn)行融合,又加入自底向上通道融合底層特征信息,此外在進(jìn)行融合時(shí)并不是像傳統(tǒng)特征融合一樣簡單地對(duì)特征圖進(jìn)行疊加、相加、拼接操作,而是通過計(jì)算不同尺度特征圖在檢測任務(wù)中占據(jù)的權(quán)重完成特征信息的融合。
計(jì)算權(quán)重是因?yàn)閬碜圆煌瑢泳矸e操作后的特征圖分辨率不同,需要上采樣或卷積操作保持相同分辨率后進(jìn)行融合,而上采樣或卷積操作的特征圖及原分辨率特征圖對(duì)融合后特征圖的貢獻(xiàn)并不一樣,因此需要通過權(quán)重對(duì)不同重要程度的特征有重點(diǎn)地進(jìn)行學(xué)習(xí),對(duì)特征圖中的信息進(jìn)行有區(qū)別地融合。此外,BiFPN的加權(quán)特征融合采用快速歸一化融合方式,具體融合方式以圖5的C6層進(jìn)行融合輸出結(jié)果P6舉例說明。
融合過程具體分為2步,首先對(duì)C6和C7層的輸入特征圖進(jìn)行融合,融合過程如公式1:
其次將公式1結(jié)果與C6層輸入及C5層輸出P5進(jìn)行融合操作,融合過程如公式2:
公式1、公式2中的ε是避免數(shù)值不穩(wěn)定的小數(shù)值,一般取0.000 1;C6、C7分別指代原始圖像經(jīng)第6、第7次卷積之后的結(jié)果;P6表示第6次卷積后的最終輸出;P5表示第5次卷積后的最終輸出;P1表示第1次卷積后的最終輸出;UpSample表示上采樣操作;Conv為下采樣操作;ω是學(xué)習(xí)到的各輸入對(duì)于融合結(jié)果重要程度所占權(quán)重參數(shù),這些權(quán)重參數(shù)類似于注意力機(jī)制中的權(quán)重,可以區(qū)分特征融合結(jié)果對(duì)不同特征的依賴程度,此外利用Relu函數(shù)保證權(quán)重參數(shù)的穩(wěn)定性ωi≥0,并對(duì)其進(jìn)行歸一化操作,使其范圍限定在[0,1]。
1.2.3 改進(jìn)的YOLO_Head YOLO_Head是目標(biāo)檢測網(wǎng)絡(luò)YOLO系列網(wǎng)絡(luò)提出的檢測頭,在各公開數(shù)據(jù)集的檢測中都有較好的表現(xiàn),可以實(shí)現(xiàn)檢測目標(biāo)的精準(zhǔn)定位,然而由于本研究檢測對(duì)象為綠色果實(shí),綠色果實(shí)相較于其他數(shù)據(jù)集中的動(dòng)物、人、車等目標(biāo)相對(duì)較小,因此需要對(duì)YOLO檢測頭進(jìn)行改進(jìn),使其更好地進(jìn)行小目標(biāo)識(shí)別。
原始YOLO_Head在大、中、小3個(gè)不同尺度的特征圖上進(jìn)行檢測,為了更好地檢測小目標(biāo),本研究在原始3個(gè)檢測層的基礎(chǔ)上添加一個(gè)對(duì)小目標(biāo)進(jìn)行檢測的檢測層,從而提升改進(jìn)后YOLO_Head的小目標(biāo)檢測精度。此外,由于對(duì)預(yù)測頭進(jìn)行改進(jìn),因此需要重新對(duì)本研究數(shù)據(jù)集中的真實(shí)目標(biāo)檢測錨框聚類,從而使預(yù)測頭能夠更有效地匹配檢測對(duì)象的預(yù)測框,減小預(yù)測框與實(shí)際目標(biāo)位置的偏離程度,并提高被遮擋物體的識(shí)別精度。
本研究采用K-means++算法對(duì)綠色果實(shí)數(shù)據(jù)集中29 085個(gè)檢測對(duì)象的標(biāo)記錨框聚類,因?yàn)楸狙芯扛倪M(jìn)后的YOLO_Head需要在4個(gè)不同尺度,且每個(gè)尺度有3個(gè)檢測框的基礎(chǔ)上進(jìn)行錨框預(yù)測,因此人為設(shè)定聚類中心個(gè)數(shù)K=12。此外,由于本研究不再是對(duì)坐標(biāo)點(diǎn)進(jìn)行聚類,而是對(duì)真實(shí)錨框聚類,因此在聚類時(shí)不再使用歐式距離作為度量值,改為使用其他真實(shí)框與聚類中心框的面積交并比(IoU)作為度量真實(shí)框與聚類中心的距離,IoU越小,表明真實(shí)框與聚類中心重疊面積越小,其越遠(yuǎn)離聚類中心。新的距離計(jì)算公式:
式中,B表示數(shù)據(jù)集中真實(shí)框集合;C表示聚類初始選取的錨框集合;d表示距離;IoU表示真實(shí)框與聚類中心框的面積交并比。最終通過不斷進(jìn)行IoU計(jì)算及迭代調(diào)整聚類中心框的尺度,獲取了適合本研究采取的錨框尺度(表1)。
1.2.4 Ghost_BY目標(biāo)檢測網(wǎng)絡(luò) 本研究單階段目標(biāo)檢測網(wǎng)絡(luò)主要包含3大部分:主干特征提取網(wǎng)絡(luò)、特征加權(quán)融合網(wǎng)絡(luò)及增加一個(gè)檢測層的YOLO_Head預(yù)測頭,其網(wǎng)絡(luò)框圖如圖6所示。輸入層接受圖像并經(jīng)過圖像預(yù)處理,將輸入圖像按網(wǎng)絡(luò)輸入要求進(jìn)行縮放或擴(kuò)充,使其滿足網(wǎng)絡(luò)輸入要求,接著進(jìn)行歸一化、Mosaic數(shù)據(jù)增強(qiáng)等操作,對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)處理,隨后將處理后的圖像送入GhostNet,經(jīng)過特征提取操作后將全部特征圖送入特征融合網(wǎng)絡(luò)BiFPN進(jìn)行復(fù)雜雙向多尺度特征融合,最后利用改進(jìn)后的YOLO_Head進(jìn)行預(yù)測,對(duì)預(yù)測出的錨框本研究采用非極大值抑制回歸算法(NMS)來獲取最佳預(yù)測框,實(shí)現(xiàn)檢測目標(biāo)的標(biāo)記及定位。
1.3 試驗(yàn)準(zhǔn)備
1.3.1 數(shù)據(jù)集的獲取與預(yù)處理 本研究選取青核桃、青桃子、青桔、青李子、青梅、青蘋果、青番茄、青棗8種綠色果實(shí)為研究對(duì)象(圖7),使用紅米k40pro手機(jī)作為拍攝設(shè)備,分辨率2 400×1 080,在2021年5月、7月、8月進(jìn)入新疆地區(qū)的不同果園分時(shí)分地進(jìn)行圖片拍攝,并且人為對(duì)拍攝的圖像進(jìn)行篩選,經(jīng)人為初步篩選后共采集復(fù)雜背景下各類綠色果實(shí)圖像4 392張,其中包括青核桃578張、青桔491張、青李子494張、青梅556張、青蘋果546張、青桃子608張、青番茄518張、青棗601張,數(shù)據(jù)集中果實(shí)目標(biāo)共29 085個(gè),最終使用LabelImg軟件對(duì)全部果實(shí)目標(biāo)進(jìn)行標(biāo)注。
1.3.2 評(píng)價(jià)指標(biāo) 本研究在訓(xùn)練和測試中使用的計(jì)算機(jī)硬件環(huán)境配置是:處理器為3塊Intel(R) Xeon(R) CPU E5-2678 v3@2.5 GHz型號(hào)CPU,CPU內(nèi)存為8 GB,GPU 型號(hào)為NVIDIA Tesla K80,顯卡內(nèi)存為12 GB,操作系統(tǒng)及軟件環(huán)境為:Windows10操作系統(tǒng)、CUDA 11.1版本的并行計(jì)算機(jī)框架、Cudnn 8.05版本的深度學(xué)習(xí)加速庫、Pytorch 1.9.1深度學(xué)習(xí)框架、YOLOv5目標(biāo)檢測網(wǎng)絡(luò)框架,編程語言為Python 3.8。
本研究用來評(píng)價(jià)目標(biāo)檢測網(wǎng)絡(luò)的具體指標(biāo)主要包括:以均值平均精度(mAP)評(píng)價(jià)網(wǎng)絡(luò)預(yù)測結(jié)果的準(zhǔn)確率(綜合考慮精確率(P)和召回率(R),利于評(píng)價(jià)網(wǎng)絡(luò)準(zhǔn)確性);以參數(shù)量及最終權(quán)重文件占用內(nèi)存大小評(píng)價(jià)網(wǎng)絡(luò)大??;以每張圖片檢測所用的時(shí)間(FPS)評(píng)價(jià)網(wǎng)絡(luò)檢測的檢測速度,最終各評(píng)價(jià)指標(biāo)的計(jì)算公式如下:
式中,TP表示IoU滿足設(shè)定閾值的檢測框數(shù)目;FP表示IoU沒有滿足設(shè)定閾值的檢測框數(shù)目;FN表示漏檢的目標(biāo)數(shù);P表示精確率;R表示召回率;mAP表示均值平均精度;FPS表示每張圖片檢測所用的時(shí)間;AP表示平均精度;n表示檢測到待檢目標(biāo)的檢測框個(gè)數(shù);TotalTime指檢測全部驗(yàn)證圖像所用時(shí)間;FigureNumber表示驗(yàn)證圖像總數(shù)。
2 結(jié)果與分析
2.1 不同特征提取網(wǎng)絡(luò)對(duì)目標(biāo)檢測網(wǎng)絡(luò)性能的影響
為了驗(yàn)證特征提取網(wǎng)絡(luò)對(duì)本研究網(wǎng)絡(luò)檢測性能的影響,本研究在保證網(wǎng)絡(luò)使用超參數(shù)、迭代次數(shù)、訓(xùn)練技巧不發(fā)生改變的基礎(chǔ)上,分別使用SqueezeNet、MobileNet、ShuffNet這3種特征提取網(wǎng)絡(luò)與GhostNet相比較,它們的網(wǎng)絡(luò)大小、均值平均精度、每張圖片檢測所用的時(shí)間見表2。GhostNet特征提取網(wǎng)絡(luò)在保證檢測速度的同時(shí),相較于其他提取網(wǎng)絡(luò)擁有最高的均值平均精度,達(dá)到93.5%,雖然網(wǎng)絡(luò)大小比MobileNet多0.3 M,但綜合精度、速度、大小3方面考慮,GhostNet提取網(wǎng)絡(luò)是4種提取網(wǎng)絡(luò)中的最優(yōu)選擇,因此本研究選用GhostNet作為特征提取網(wǎng)絡(luò)。
2.2 不同特征融合網(wǎng)絡(luò)對(duì)目標(biāo)檢測網(wǎng)絡(luò)性能的影響
為了探究不同特征融合網(wǎng)絡(luò)對(duì)本研究構(gòu)建網(wǎng)絡(luò)的影響,分別使用特征金字塔網(wǎng)絡(luò)(FPN)、路徑聚合網(wǎng)絡(luò)(PANet)、BiFPN對(duì)GhostNet所提取到的特征圖進(jìn)行融合。表3顯示,使用BiFPN對(duì)特征圖進(jìn)行融合的確可以提升模型的檢測精度,最終均值平均精度達(dá)到94.9%,高于FPN(93.5%)、PANet(94.0%)特征融合后的均值平均精度,但由于進(jìn)行多次融合,網(wǎng)絡(luò)在內(nèi)存占用及檢測速度方面稍遜于PANet,內(nèi)存占用增加0.7 M,檢測速度增加4 ms。
2.3 改進(jìn)后的預(yù)測頭對(duì)網(wǎng)絡(luò)性能的影響
為了檢驗(yàn)改進(jìn)后YOLO_Head的有效性,將改進(jìn)后YOLO_Head與原始YOLO_Head分別作為檢測網(wǎng)絡(luò)的預(yù)測頭進(jìn)行性能對(duì)比,除改變預(yù)測頭外,檢測網(wǎng)絡(luò)其余部分不變,均采用GhostNet作為特征提取網(wǎng)絡(luò),使用BiFPN進(jìn)行特征融合,數(shù)據(jù)增強(qiáng)手段、訓(xùn)練參數(shù)均相同。結(jié)合圖8和表4可以得出,使用改進(jìn)后的YOLO_Head作為預(yù)測頭本研究目標(biāo)檢測網(wǎng)絡(luò)的均值平均精度達(dá)到96.8%,相較于改進(jìn)前預(yù)測頭,提升1.9個(gè)百分點(diǎn),且訓(xùn)練損失值最終收斂為0.02。
為進(jìn)一步探究添加微小感受野對(duì)目標(biāo)檢測網(wǎng)絡(luò)的影響,按照所拍攝果實(shí)的實(shí)際大小,對(duì)圖片進(jìn)行人為篩選,重新構(gòu)建數(shù)據(jù)集,將數(shù)據(jù)集果實(shí)分為大、中、小3類,其中青棗、青梅為小果實(shí);青核桃、青李子為中等果實(shí);青蘋果、青桃子為大果實(shí)。重新構(gòu)建數(shù)據(jù)集,然而從頭開始訓(xùn)練網(wǎng)絡(luò)不僅需要足夠大的數(shù)據(jù)集,還需要消耗大量時(shí)間再次訓(xùn)練網(wǎng)絡(luò),因此為了節(jié)省訓(xùn)練時(shí)間,加速訓(xùn)練網(wǎng)絡(luò)的收斂,本研究使用此前訓(xùn)練結(jié)束的綠色類圓果實(shí)檢測網(wǎng)絡(luò)模型作為新網(wǎng)絡(luò)的預(yù)測訓(xùn)練模型,使用遷移學(xué)習(xí)方法訓(xùn)練新的網(wǎng)絡(luò),分別使用改進(jìn)前后預(yù)測頭進(jìn)行預(yù)測。表5顯示,改進(jìn)前后預(yù)測頭對(duì)中等果實(shí)、大果實(shí)檢測精度的影響并不明顯,然而對(duì)小果實(shí)的檢測精度影響較大,改進(jìn)預(yù)測頭后檢測網(wǎng)絡(luò)的均值平均精度提升2.1個(gè)百分點(diǎn),最終使檢測網(wǎng)絡(luò)的均值平均精度提升0.9個(gè)百分點(diǎn)。
2.4 與其他網(wǎng)絡(luò)的比較
為了進(jìn)一步證明本研究構(gòu)建單階段目標(biāo)檢測網(wǎng)絡(luò)的性能,將本研究構(gòu)建的檢測網(wǎng)絡(luò)與現(xiàn)階段較流行的YOLO系列網(wǎng)絡(luò)、Faster RCNN網(wǎng)絡(luò)、SDD網(wǎng)絡(luò)在數(shù)據(jù)集不改變、硬件條件不變更的前提下進(jìn)行對(duì)比驗(yàn)證試驗(yàn)。結(jié)果(表6)表明,對(duì)比現(xiàn)階段較流行的網(wǎng)絡(luò),本研究構(gòu)建的檢測網(wǎng)絡(luò)在檢測精度、檢測速度方面均優(yōu)于Faster RCNN網(wǎng)絡(luò)、SDD網(wǎng)絡(luò),網(wǎng)絡(luò)模型內(nèi)存占用大小也有明顯下降;YOLO系列v3、v4網(wǎng)絡(luò)雖然在檢測速度方面優(yōu)于Faster RCNN、SDD網(wǎng)絡(luò),但仍落后于本研究網(wǎng)絡(luò)的檢測速度;YOLO系列v5網(wǎng)絡(luò)雖然檢測速度稍快于本研究構(gòu)建網(wǎng)絡(luò),但對(duì)綠色類圓果實(shí)的檢測精度低于本研究構(gòu)建網(wǎng)絡(luò),本研究所構(gòu)建網(wǎng)絡(luò)的均值平均精度為96.8%,相較于YOLOv3、YOLOv4、YOLOv5分別提升9.3個(gè)百分點(diǎn)、5.3個(gè)百分點(diǎn)、2.6個(gè)百分點(diǎn)。通過對(duì)檢測結(jié)果的綜合比較,本研究構(gòu)建的單階段目標(biāo)檢測網(wǎng)絡(luò)綜合性能更優(yōu),更適合綠色類圓果實(shí)的檢測。
此外,分析本研究構(gòu)建網(wǎng)絡(luò)對(duì)綠色類圓果實(shí)的部分檢測結(jié)果(圖9),發(fā)現(xiàn)本研究構(gòu)建網(wǎng)絡(luò)對(duì)暗光環(huán)境、正常環(huán)境和夜間環(huán)境下的圖片均有較好的檢測結(jié)果;對(duì)密集果實(shí)、果實(shí)遮擋果實(shí)、葉片遮擋果實(shí)的檢測也都具備良好的檢測效果。
3 結(jié)論
本研究構(gòu)建的網(wǎng)絡(luò)能夠?qū)ψ匀画h(huán)境復(fù)雜果園背景中的綠色類圓果實(shí)實(shí)現(xiàn)快速、準(zhǔn)確識(shí)別,與目前主流檢測網(wǎng)絡(luò)相比,本研究構(gòu)建網(wǎng)絡(luò)檢測精度優(yōu)于其他網(wǎng)絡(luò),能夠在背景與檢測目標(biāo)相近的情況下實(shí)現(xiàn)同色系果實(shí)的檢測。使用GhostNet作為特征提取網(wǎng)絡(luò)可以降低目標(biāo)檢測網(wǎng)絡(luò)占用大小,提高檢測速度,有利于在嵌入式設(shè)備及移動(dòng)端的應(yīng)用;使用BiFPN作為特征融合網(wǎng)絡(luò)可以提升檢測網(wǎng)絡(luò)的檢測精度,更好地實(shí)現(xiàn)檢測對(duì)象的識(shí)別預(yù)定位;添加檢測層,改進(jìn)預(yù)測頭可以提升網(wǎng)絡(luò)對(duì)小目標(biāo)的檢測精度,繼而提升網(wǎng)絡(luò)的整體檢測精度。最終,本研究構(gòu)建的檢測網(wǎng)絡(luò)在試驗(yàn)數(shù)據(jù)集中的均值平均精度達(dá)到96.8% 、每張圖片檢測所用的時(shí)間為37 ms、網(wǎng)絡(luò)大小11.8 M,滿足了綠色類圓果實(shí)快速、準(zhǔn)確的識(shí)別要求,也利于后續(xù)移動(dòng)端APP或嵌入式設(shè)備的開發(fā)工作。
參考文獻(xiàn):
[1] HE Z L, XIONG J T, LIN R, et al. A method of green litchi recognition in natural environment based on improved LDA classifier[J]. Computers and Electronics in Agriculture, 2017, 140: 159-167.
[2] LINKER R, COHEN O, NAOR A. Determination of the number of green apples in RGB images recorded in orchards[J]. Computers and Electronics in Agriculture, 2012, 81: 45-57.
[3] LI H, LEE W S, WANG K. Identifying blueberry fruit of different growth stages using natural outdoor color images[J]. Computers and Electronics in Agriculture, 2014, 106: 91-101.
[4] LU J, SANG N. Detecting citrus fruits and occlusion recovery under natural illumination conditions[J]. Computers and Electronics in Agriculture, 2015,110: 121-130.
[5] 王丹丹,徐 越,宋懷波,等. 融合K-means與Ncut算法的無遮擋雙重疊蘋果目標(biāo)分割與重建[J]. 農(nóng)業(yè)工程學(xué)報(bào),2015,31(10):227-234.
[6] LI H, LEE W S, WANG K. Immature green citrus fruit detection and counting based on fast normalized cross correlation (FNCC) using natural outdoor colour images[J]. Precision Agriculture, 2016,17(6): 678-697.
[7] BANSAL R, LEE W S, SATISH S. Green citrus detection using fast Fourier transform (FFT) leakage[J]. Precision Agriculture, 2013, 14: 59-70.
[8] 盧 軍,胡秀文. 弱光復(fù)雜背景下基于MSER和HCA的樹上綠色柑橘檢測[J] 農(nóng)業(yè)工程學(xué)報(bào),2017,33(19):196-201.
[9] 馬翠花,張學(xué)平,李育濤,等. 基于顯著性檢測與改進(jìn)Hough變換方法識(shí)別未成熟番茄[J].農(nóng)業(yè)工程學(xué)報(bào),2016,32(14):219-226.
[10]謝忠紅,姬長英,郭小清,等. 基于改進(jìn) Hough 變換的類圓果實(shí)目標(biāo)檢測[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2010, 26(7): 157-162.
[11]LIU X, ZHAO D, JIA W, et al. A detection method for apple fruits based on color and shape features[J]. IEEE Access, 2019, 7: 67923-67933.
[12]李 頎,楊 軍. 基于多分辨率特征融合的葡萄尺寸檢測[J] 江蘇農(nóng)業(yè)學(xué)報(bào), 2022, 38(2): 394-402.
[13]劉 芳,劉玉坤,林 森,等. 基于改進(jìn)型YOLO的復(fù)雜環(huán)境下番茄果實(shí)快速識(shí)別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2020, 51(6):229-237.
[14]岳有軍,孫碧玉,王紅君,等. 基于級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的番茄果實(shí)目標(biāo)檢測[J]. 科學(xué)技術(shù)與工程, 2021, 21(6):2387-2391.
[15]賈偉寬,孟 虎,馬曉慧,等. 基于優(yōu)化Transformer網(wǎng)絡(luò)的綠色果實(shí)高效檢測模型[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2021,37(14):163-170.
[16]GIRSHICK R. Fast R-CNN[C]. Santiago: IEEE, 2015.
[17]REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J] IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[18]REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C] Las Vegas: IEEE, 2016.
[19]REDMON J, FARHADI A. YOLOv3: an incremental improvement [C].Salt Lake City: IEEE, 2018.
[20]LIU W, ANGUELOV D, ERHAD D, et al. SSD: single shotmulti box detector [C] Amsterdam: Springer,2016.
[21]包志龍. 卷積神經(jīng)網(wǎng)絡(luò)輕量化技術(shù)研究[J] 無線通信技術(shù),2022(1):36-41,47.
(責(zé)任編輯:王 妮)
收稿日期:2022-07-12
基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目(61863033)
作者簡介:李 恒(1997-),男,新疆喀什人,碩士研究生,主要從事計(jì)算機(jī)視覺研究。(E-mail)1344166355@qq.com
通訊作者:南新元,(E-mail)xynan@xju.edu.cn