郭秀明 諸葉平 李世娟 張杰 呂純陽 劉升平
摘要:農(nóng)業(yè)生產(chǎn)環(huán)境中的目標(biāo)識(shí)別對(duì)象常具有分布密集、體積小、密度大的特點(diǎn),加之農(nóng)田環(huán)境光照多變、背景復(fù)雜,導(dǎo)致已有目標(biāo)檢測(cè)模型無法取得令人滿意的效果。本研究以提高小目標(biāo)的識(shí)別性能為目標(biāo),以蜜蜂識(shí)別為例,提出了一種農(nóng)業(yè)復(fù)雜環(huán)境下尺度自適應(yīng)小目標(biāo)識(shí)別算法。算法克服了復(fù)雜多變的背景環(huán)境的影響及目標(biāo)體積較小導(dǎo)致的特征提取困難,實(shí)現(xiàn)目標(biāo)尺度無關(guān)的小目標(biāo)識(shí)別。首先將原圖拆分為一些較小尺寸的子圖以提高目標(biāo)尺度,將已標(biāo)注的目標(biāo)分配到拆分后的子圖中,形成新的數(shù)據(jù)集,然后采用遷移學(xué)習(xí)的方法重新訓(xùn)練并生成新的目標(biāo)識(shí)別模型。在模型的使用中,為使子圖識(shí)別結(jié)果能正常還原,拆分的子圖之間需具有一定的重疊率。收集所有子圖的目標(biāo)識(shí)別結(jié)果,采用非極大抑制( Non-Maximum Suppres ? sion, NMS )去除由于模型本身產(chǎn)生的冗余框,提出一種交小比非極大抑制(Intersection over Small NMS, IOS-NMS )進(jìn)一步去除子圖重疊區(qū)域中的冗余框。在子圖像素尺寸分別為300×300、500×500和700×700,子圖重疊率分別為0.2和0.05的情況下進(jìn)行驗(yàn)證試驗(yàn),結(jié)果表明:采用 SSD (Single Shot MultiBox Detector)作為框架中的目標(biāo)檢測(cè)模型,新提出的尺度自適應(yīng)算法的召回率和精度普遍高于 SSD 模型,最高分別提高了3.8%和2.6%,較原尺度的 YOLOv3模型也有一定的提升。為進(jìn)一步驗(yàn)證算法在復(fù)雜背景中小目標(biāo)識(shí)別的優(yōu)越性,從網(wǎng)上爬取了不同尺度、不同場(chǎng)景的農(nóng)田復(fù)雜環(huán)境下的蜜蜂圖像,并采用本算法和 SSD 模型進(jìn)行了對(duì)比測(cè)試,結(jié)果表明:本算法能提高目標(biāo)識(shí)別性能,具有較強(qiáng)的尺度適應(yīng)性和泛化性。由于本算法對(duì)于單張圖像需要多次向前推理,時(shí)效性不高,不適用于邊緣計(jì)算。
關(guān)鍵詞:目標(biāo)檢測(cè);機(jī)器視覺;小目標(biāo);農(nóng)業(yè)環(huán)境;蜜蜂;SSD ;YOLOv3
中圖分類號(hào):S24;TP391.41??????????? 文獻(xiàn)標(biāo)志碼:A?????????????? ???文章編號(hào):SA202203003
引用格式:郭秀明, 諸葉平, 李世娟, 張杰, 呂純陽, 劉升平.農(nóng)業(yè)復(fù)雜環(huán)境下尺度自適應(yīng)小目標(biāo)識(shí)別算法——以蜜蜂為研究對(duì)象[J].智慧農(nóng)業(yè)(中英文), 2022, 4(1):140-149.
GUO Xiuming, ZHU Yeping, LI Shijuan, ZHANG Jie, LYU Chunyang, LIU Shengping. Scale adaptive small ob‐ jects detection method in complex agricultural environment: Taking bees as research object[J]. Smart Agriculture, 2022, 4(1):140-149.(in Chinese with English abstract)
1 引言
隨著卷積神經(jīng)網(wǎng)絡(luò)及深度學(xué)習(xí)技術(shù)的發(fā)展[1],基于機(jī)器視覺的目標(biāo)檢測(cè)受到了廣泛關(guān)注,已取得了突破性進(jìn)展[2,3]。農(nóng)業(yè)中存在著許多目標(biāo)物識(shí)別和計(jì)數(shù)的場(chǎng)景,用機(jī)器視覺技術(shù)對(duì)農(nóng)業(yè)中的目標(biāo)物進(jìn)行智能識(shí)別和計(jì)數(shù)能提高農(nóng)業(yè)的智能化和現(xiàn)代化水平。農(nóng)業(yè)生產(chǎn)環(huán)境多為室外環(huán)境,光線多變,背景復(fù)雜,且農(nóng)業(yè)生產(chǎn)環(huán)境中的目標(biāo)物大多具有體積小、密度高的特點(diǎn)。復(fù)雜背景環(huán)境下小目標(biāo)的識(shí)別和檢測(cè)是農(nóng)業(yè)生產(chǎn)環(huán)境中常見的應(yīng)用場(chǎng)景,如農(nóng)業(yè)遙感圖像中小目標(biāo)、果樹上的果實(shí)、蜂巢內(nèi)的蜜蜂等,面向農(nóng)業(yè)特定應(yīng)用場(chǎng)景的要求,研究特定需求的算法模型以獲得其在某一側(cè)重指標(biāo)的優(yōu)越性能是未來幾年內(nèi)農(nóng)業(yè)智能識(shí)別領(lǐng)域的研究趨勢(shì)。
由于小目標(biāo)的有效像素少、尺度小,缺乏特征表達(dá)能力,其檢測(cè)一直是目標(biāo)檢測(cè)中的難點(diǎn)。已有眾多研究者從不同角度設(shè)計(jì)優(yōu)化檢測(cè)模型[4] 以提高小目標(biāo)的檢測(cè)性能。有的優(yōu)化和改進(jìn)主干網(wǎng)絡(luò)結(jié)構(gòu)[5-11] 以提取更豐富的特征,有的優(yōu)化錨框[12-17] 以提高目標(biāo)的定位精度,有的優(yōu)化損失函數(shù)[18-20] 以提高模型的訓(xùn)練效率和模型性能,這些改進(jìn)方法能一定程度地提高對(duì)小目標(biāo)的識(shí)別性能。然而,小目標(biāo)的像素少且尺度小是造成其識(shí)別性能較差的根本原因。增加小目標(biāo)的有效像素?cái)?shù)以及增加其尺度是改善其識(shí)別性能的主要途徑。同時(shí),由于網(wǎng)絡(luò)輸出層包含全連接層,當(dāng)前的網(wǎng)絡(luò)模型大多都會(huì)對(duì)輸入圖像歸一化至標(biāo)準(zhǔn)尺度,如快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)( Faster-Regions with? Convolutional? Neural? Network ,? Faster- RCNN )[21] 和 SSD (Single Shot MultiBoxDetec‐ tor)[22]。歸一化處理會(huì)導(dǎo)致圖像尺寸進(jìn)一步縮小,目標(biāo)的有效像素進(jìn)一步減少,增加了小目標(biāo)識(shí)別的難度。提高輸入圖像中的小目標(biāo)的尺度,增加小目標(biāo)的像素個(gè)數(shù),有利于充分提取其特征并提高其識(shí)別性能。已有的方法大多通過優(yōu)化模型提高小目標(biāo)的識(shí)別性能,較少?gòu)奶岣咝∧繕?biāo)的尺度(目標(biāo)像素?cái)?shù)與整體圖像像素?cái)?shù)的比值)出發(fā)進(jìn)行研究。本研究著眼于影響小目標(biāo)識(shí)別性能不高的本質(zhì)原因——有效像素少且尺度小,通過圖像拆分的方法簡(jiǎn)單有效地提高小目標(biāo)的尺度,以期提高其識(shí)別性能。蜜蜂體積小且在圖像中尺度小,且蜜蜂常會(huì)聚集成簇分布,是農(nóng)業(yè)中典型的小目標(biāo)識(shí)別計(jì)數(shù)場(chǎng)景。本研究以蜂巢口的蜜蜂為例,提出了一種與輸入圖像尺寸和目標(biāo)尺度無關(guān)的基于圖像拆分的小目標(biāo)識(shí)別算法。首先將原始輸入圖像拆分為多個(gè)子圖,相鄰子圖之間設(shè)置有重疊區(qū)域,將多個(gè)子圖作為模型的輸入圖像,將子圖的輸出結(jié)果匯集,然后采用二階段非極大抑制( Non-Maxi‐mum Suppression ,NMS )方法去除由于模型本身及子圖重疊產(chǎn)生的冗余框。為評(píng)估算法性能,利用本算法和 SSD 及 YOLOv3(You Only LookOnce )模型進(jìn)行了驗(yàn)證試驗(yàn);從網(wǎng)上爬取了多種尺度和背景下的蜜蜂圖像,將本算法和 SSD模型進(jìn)行了對(duì)比測(cè)試,評(píng)估了算法尺度適應(yīng)能力及泛化性。
2 尺度自適應(yīng)小目標(biāo)識(shí)別算法
2.1 算法框架介紹
基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法主要分為前處理、特征提取和后處理3個(gè)部分(圖1)。傳統(tǒng)算法直接將整體圖像作為網(wǎng)絡(luò)模型的輸入,為增強(qiáng)困難小目標(biāo)的識(shí)別性能,本算法將輸入圖像拆分為若干子圖,提高小目標(biāo)的尺度,增加其像素?cái)?shù)量。
后處理主要使用 NMS 去除卷積神經(jīng)網(wǎng)絡(luò)輸出的冗余候選框,找到最佳的目標(biāo)位置,提高檢測(cè)的準(zhǔn)確率。NMS 是基于深度學(xué)習(xí)的目標(biāo)檢測(cè)中非常重要的一步,最早提出的 NMS [23]將所有的候選框按得分值從高到低排序,選取得分值最高的候選框,刪除所有與其重疊率超出設(shè)定閾值的候選框,對(duì)未刪除的候選框選取得分值最高的繼續(xù)此操作。此處的重疊率取值為相鄰兩個(gè)框的交并比( Intersection over Union ,IOU ),即兩個(gè)框的交集面積與其并集面積的比值。針對(duì)不同的應(yīng)用場(chǎng)景中 NMS 存在的問題,分別對(duì)其進(jìn)行改進(jìn)提出了 Soft-NMS [24]、A-NMS [25] 等多種非極大值抑制算法。本研究的算法不僅有深度學(xué)習(xí)網(wǎng)絡(luò)模型產(chǎn)生的冗余框,還有圖像的區(qū)域重疊造成的檢測(cè)冗余,針對(duì)后者,提出了一種交小比非極大抑制 ( Intersection? over? Small? NMS , IOS- NMS )方法以進(jìn)一步準(zhǔn)確地定位目標(biāo)位置。本算法和傳統(tǒng)基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法框架對(duì)比圖見圖1。
2.2新數(shù)據(jù)集生成方法
數(shù)據(jù)于2020年在中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所采集,拍攝時(shí)間在蜜蜂較活躍的6月份。蜂巢口是蜂巢與外界的交界處,光線不受遮擋且蜜蜂較為活躍,將攝像頭置于蜂巢口正上方,攝像頭分辨率為1280×720像素,采集時(shí)間從早上8點(diǎn)持續(xù)到下午6點(diǎn),拍攝間隔為45 s 。涉及了早、中、晚多個(gè)時(shí)間段和多種天氣狀況,共獲取有效圖像2613張。采用手工標(biāo)注對(duì)原圖進(jìn)行蜜蜂標(biāo)注,如圖2(a)所示。以目標(biāo)識(shí)別模型 SSD 為例,原圖輸入模型后首先對(duì)其進(jìn)行歸一化為300×300像素的圖像(圖2(b)),歸一化后蜜蜂尺度均值為14×18像素,而 SSD 模型中面積最小錨框像素大小為30×30,即使最小錨框也是蜜蜂像素尺度的3.57倍,造成蜜蜂回歸位置不準(zhǔn)確,識(shí)別性能下降。
為增加小目標(biāo)的有效像素,提高其尺度,使用網(wǎng)格劃分的方法將原圖拆分,拆分子圖的個(gè)數(shù)和子圖的尺寸、相鄰子圖的重疊率有關(guān)。新生成的子圖集合產(chǎn)生新的數(shù)據(jù)集用于模型訓(xùn)練(圖3)。子圖尺寸與模型的歸一化輸入尺寸、目標(biāo)的尺度及原圖的分辨率有關(guān)。為避免正負(fù)樣本比例不均衡,提高數(shù)據(jù)輸入的有效性,加快模型的訓(xùn)練效率,移除沒有目標(biāo)物的子圖,將含有目標(biāo)的子圖加入到新數(shù)據(jù)集中。由于蜜蜂標(biāo)注是在原圖像上進(jìn)行的,新數(shù)據(jù)集生成中需要針對(duì)子圖對(duì)標(biāo)注信息進(jìn)行重新計(jì)算,算法流程如下所示。
(1) 原數(shù)據(jù)集設(shè)為 A ,對(duì)于任何一個(gè)原圖?a∈A;
(2) 設(shè) a的寬度為w ,高度為 h ,a中的目標(biāo)物為集合 O ,包含有目標(biāo)的位置信息和類別信息。設(shè)定目標(biāo)子圖的寬度為zw,高度為zh;
(3) 對(duì)于原圖,水平方向以zw為間隔,垂直方向以zh為間隔,將其劃分為「w/zw?×「h/zh?個(gè)子圖,邊緣處的子圖剩余部分用純色填充;
(4) 對(duì)?o∈O ,對(duì)其進(jìn)行重分配和坐標(biāo)的重新計(jì)算,其中 o是 O中的一個(gè)元素;
(5) 從中提取存在目標(biāo)的子圖加入新建數(shù)據(jù)集 B中。
子圖拆分時(shí),需將原目標(biāo)進(jìn)行重新分配并調(diào)整其在子圖中的坐標(biāo),目標(biāo)重分配過程如圖4所示。若目標(biāo)完全處于一個(gè)子圖中,將其分配給該子圖;若目標(biāo)跨越相鄰的兩個(gè)子圖(圖4中標(biāo)注的蜜蜂 A 和蜜蜂 B),計(jì)算兩者中目標(biāo)面積較小部分的占比,若其小于設(shè)定的閾值,且將較小部分丟棄,只保留面積較大的部分(蜜蜂 B);若大于設(shè)定的閾值,則兩者都保留,將其分配給各自所在的子圖(蜜蜂 A)并重新計(jì)算其坐標(biāo);若目標(biāo)被劃分為四部分,同樣依據(jù)其占比確定其是否保留,并同時(shí)計(jì)算其在子圖中的新坐標(biāo)。原目標(biāo)重分配及坐標(biāo)重計(jì)算過程算法流程如圖5所示。
2.3模型的訓(xùn)練和使用
由于新數(shù)據(jù)集和原數(shù)據(jù)集只是在像素尺度上進(jìn)行了調(diào)整,目標(biāo)的特征及背景不變,采用原數(shù)據(jù)集訓(xùn)練的識(shí)別模型已經(jīng)學(xué)習(xí)到了很多目標(biāo)特征,與像素尺度調(diào)整后的目標(biāo)特征具有高度相似性。因此,采用遷移學(xué)習(xí)繼續(xù)訓(xùn)練在原尺度圖像訓(xùn)練得到的結(jié)果模型,加快模型收斂,減少模型訓(xùn)練的時(shí)間。
模型使用的整體流程如圖6所示。由于新模型針對(duì)目標(biāo)尺度較大的圖像,在使用模型時(shí)同樣需要將原圖拆分為多個(gè)子圖。為使子圖銜接處的目標(biāo)能被準(zhǔn)確識(shí)別,子圖之間設(shè)置一定的重疊率,重疊率的比例和目標(biāo)的像素尺度相關(guān),重疊尺度和目標(biāo)尺度相似即可,過大的像素尺度會(huì)造成拆分子圖數(shù)量過多,降低算法時(shí)效性。
將每個(gè)子圖輸入新模型得到該子圖中的目標(biāo)集合,然后依據(jù)目標(biāo)坐標(biāo)及其所屬子圖在原圖中的位置還原出目標(biāo)在原圖中的坐標(biāo),收集所有子圖檢測(cè)得到的目標(biāo)集合,采用 NMS 移除由于模型本身產(chǎn)生的冗余框(圖7(a))。由于相鄰子圖的重疊區(qū)域目標(biāo)重復(fù),可能造成識(shí)別結(jié)果中同一個(gè)目標(biāo)存在內(nèi)外兩個(gè)識(shí)別框的問題(圖7(a)中標(biāo)注 A)。這是因?yàn)樵械?NMS 采用交并比 IOU (圖8)作為邊界框的定位精度(公式(1)),當(dāng)兩個(gè)邊界框面積相差較大且兩者相交部分和較小的邊界框占比較大時(shí),交并比的值小于設(shè)定閾值。原有的 NMS 不能去除此種冗余框,為了去除嵌套處不完整目標(biāo)識(shí)別冗余框,采用交小比 IOS (公式(2) )作為兩個(gè)識(shí)別框的相似性度量,研究了一種交小比非極大抑制( IOS-NMS )方法實(shí)現(xiàn)對(duì)其內(nèi)部冗余框的去除,通過 IOS- NMS后的目標(biāo)識(shí)別結(jié)果見圖7(b)。
3 算法性能評(píng)估
3.1 試驗(yàn)設(shè)計(jì)
為驗(yàn)證本算法性能,以蜂場(chǎng)中的蜜蜂識(shí)別為例進(jìn)行驗(yàn)證試驗(yàn)。試驗(yàn)硬件環(huán)境采用 CPU 型號(hào)為 Intel Corei76700k ,搭載一臺(tái) GeForce GTX Ti‐tan X的 GPU ,系統(tǒng)操作系統(tǒng)為 Ubuntu ,采用Py‐torch深度學(xué)習(xí)框架搭建網(wǎng)絡(luò)。
對(duì)采集的2613張圖像進(jìn)行手工標(biāo)注,創(chuàng)建蜜蜂圖像原始數(shù)據(jù)集,圖像中蜜蜂尺度均值(即蜜蜂像素?cái)?shù)與圖像總像素?cái)?shù)的比值)為0.0037。采用2.2節(jié)中提出的拆分方法建立新的數(shù)據(jù)集,子圖尺寸設(shè)置為360×320像素,共得到6269張圖像,蜜蜂尺度均值約為0.028。
選用 SSD模型和 YOLOv3深度學(xué)習(xí)網(wǎng)絡(luò)模型作為算法中的目標(biāo)檢測(cè)模型,首先采用原始數(shù)據(jù)集訓(xùn)練模型,分別得到針對(duì)原始圖像的原模型,然后使用遷移學(xué)習(xí)的方法使用新數(shù)據(jù)集繼續(xù)訓(xùn)練原模型,即新尺度 SSD模型和新尺度 YOLOv3模型,獲取針對(duì)新數(shù)據(jù)集的新模型,即尺度自適應(yīng)新模型。采用同一批驗(yàn)證數(shù)據(jù)集進(jìn)行驗(yàn)證分析。為避免其他因素的影響,測(cè)試中新算法的目標(biāo)檢測(cè)模型部分和原尺度的相應(yīng)模型設(shè)置相同的置信度閾值。
3.2性能驗(yàn)證結(jié)果分析
為分析子圖尺寸、子圖重疊率對(duì)結(jié)果的影響,分別選取300×300、500×500和700×700像素三種子圖尺寸和0.2、0.05兩種子圖重疊率進(jìn)行驗(yàn)證試驗(yàn)。采用精度、召回率和單張圖像的計(jì)算時(shí)間三個(gè)指標(biāo)評(píng)估模型性能,結(jié)果如表1所示。
由驗(yàn)證試驗(yàn)結(jié)果可知,和原尺度 SSD 模型相比,尺度自適應(yīng)目標(biāo)識(shí)別算法的召回率普遍有所提升,當(dāng)拆分像素尺度為300×300和500×500,且重疊率為0.2時(shí),召回率達(dá)到了同樣的最高值98.4%,較原尺度 SSD 模型高3.8%。部分目標(biāo)檢測(cè)結(jié)果對(duì)比圖如圖9所示??芍谧R(shí)別召回率方面,尺度自適應(yīng)目標(biāo)識(shí)別算法對(duì)特征不明顯及不完整蜜蜂也能識(shí)別出來。如圖9中標(biāo)注1的只有局部的蜜蜂,標(biāo)注2的是由于光照或者蜜蜂移動(dòng)的原因造成的不清晰的蜜蜂,標(biāo)注3的是由于蜜蜂的姿勢(shì)及所處位置造成的蜜蜂像素尺度更小的蜜蜂。這是因?yàn)楸舅惴▽?duì)原圖進(jìn)行了拆分,增加了目標(biāo)物的尺度,從而豐富了目標(biāo)特征,能識(shí)別出不易識(shí)別的蜜蜂。當(dāng)子圖尺度從300×300像素增加至700×700像素時(shí),召回率逐漸減小??傮w上,召回率隨著子圖尺度的增大而減小。子圖尺度為500×500和700×700像素、重疊率取值0.05時(shí)的召回率均低于取值0.2時(shí)的召回率,召回率隨著重疊尺度的減小而減小。
在識(shí)別精度方面,尺度自適應(yīng)目標(biāo)識(shí)別算法平均精度普遍較原尺度 SSD模型有所提高,尺度分別為300×300和500×500像素、重疊率均為0.2時(shí),模型的精度均達(dá)到最大的89.9%,較原尺度模型的87.3%提高了2.6%。當(dāng)子圖尺度為300×300像素、尺度為0.05時(shí),精度最低為88.3%。
尺度自適應(yīng)目標(biāo)識(shí)別算法的召回率和平均精度普遍高于原尺度 YOLOv3模型。YOLOv3在小目標(biāo)識(shí)別方面具有較優(yōu)越的性能,使用殘差網(wǎng)絡(luò)增加了網(wǎng)絡(luò)的深度,采用多層特征融合的方法豐富低層小目標(biāo)的語義特征,當(dāng)模型的輸入尺度設(shè)為其默認(rèn)尺度416×416像素時(shí),其召回率為95.1%。雖然 YOLOv3專門針對(duì)小目標(biāo)的識(shí)別對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了調(diào)整,但當(dāng)小目標(biāo)有效像素較少時(shí),仍會(huì)由于特征表達(dá)不充分造成困難小目標(biāo)識(shí)別不能取得滿意的效果。
在識(shí)別速度方面,尺度自適應(yīng)目標(biāo)識(shí)別算法計(jì)算速度較原模型普遍降低,尺度從300×300增加到700×700像素時(shí),單張圖像的計(jì)算時(shí)間成倍增加。相同尺度下,重疊尺度0.2時(shí)的計(jì)算時(shí)間較0.05大約多1/5。
3.3復(fù)雜環(huán)境下算法性能測(cè)試
為評(píng)估算法的尺度自適應(yīng)性和泛化性,進(jìn)一步驗(yàn)證本算法在復(fù)雜環(huán)境下性能,從網(wǎng)上爬取了三張不同尺度、不同背景下的野外蜜蜂圖像進(jìn)行了對(duì)比測(cè)試。圖像詳細(xì)信息如表2所示。
采用尺度自適應(yīng)目標(biāo)識(shí)別算法和 SSD模型識(shí)別蜜蜂。尺度自適應(yīng)目標(biāo)識(shí)別算法分別采用兩種子圖尺度為300×300和500×500像素,重疊率均選0.2。識(shí)別結(jié)果如圖10所示。
由圖10可知, SSD 模型在圖像尺寸較小的 pic1時(shí)能識(shí)別出1~2個(gè)蜜蜂。隨著圖像尺寸的增加,在 pic2上能識(shí)別出3~8個(gè)蜜蜂,而在尺寸更大的 pic3上均沒能識(shí)別出一只蜜蜂。而尺度自適應(yīng)小目標(biāo)識(shí)別算法由于通過拆分為子圖調(diào)整了蜜蜂的尺度,能更好地適應(yīng)不同尺度的輸入,尤其是當(dāng)子圖尺寸為300×300像素時(shí),識(shí)別性能并沒有因?yàn)樵瓐D尺寸的變化而有明顯的下降。
由于模型訓(xùn)練中沒有蜂巢及整體蜂箱等相關(guān)背景的圖像,沒能學(xué)習(xí)到相關(guān)背景的特征,同時(shí)選取的測(cè)試圖像中均具有高密度的蜜蜂,所以尺度自適應(yīng)目標(biāo)識(shí)別算法在識(shí)別的準(zhǔn)確率和召回率方面結(jié)果并不令人滿意。但是,和 SSD模型測(cè)試對(duì)比結(jié)果充分說明了尺度自適應(yīng)目標(biāo)識(shí)別算法具有較強(qiáng)的尺度適應(yīng)能力和泛化性能。
4 討論與結(jié)論
4.1 討論
尺度自適應(yīng)目標(biāo)識(shí)別算法通過將原圖拆分為多個(gè)子圖作為深度學(xué)習(xí)網(wǎng)絡(luò)的輸入,增加了目標(biāo)的尺度,能提取豐富的目標(biāo)特征,從而提高識(shí)別性能,尤其在目標(biāo)的絕對(duì)像素?cái)?shù)量充分且目標(biāo)尺度較小時(shí),尺度自適應(yīng)目標(biāo)識(shí)別算法能有效地避免輸入圖像歸一化導(dǎo)致的目標(biāo)有效像素?cái)?shù)過度減小導(dǎo)致的目標(biāo)特征提取困難的問題,能更充分體現(xiàn)新算法的性能。
深度學(xué)習(xí)網(wǎng)絡(luò)推理過程是目標(biāo)識(shí)別中耗時(shí)占比最大的部分,通過拆分原圖多次推理會(huì)導(dǎo)致算法的時(shí)效性下降,導(dǎo)致單張圖像識(shí)別時(shí)間成倍增加,時(shí)效性隨子圖尺寸的減小而增加,較高的重疊率也會(huì)導(dǎo)致子圖數(shù)量的增加造成識(shí)別時(shí)間增加。依據(jù)目標(biāo)的像素?cái)?shù)和模型的輸入尺寸,選取合適的子圖尺寸和重疊率能增加精度和召回率,同時(shí)提高模型的時(shí)效性。
終端采集設(shè)備多變,導(dǎo)致采集的圖像分辨率和質(zhì)量不一,尤其是農(nóng)業(yè)生產(chǎn)中,從業(yè)人員多樣,采集設(shè)備良莠不齊,若對(duì)所有尺寸的圖像都一次性輸入模型中,必將因?yàn)槟繕?biāo)尺度過小且不一導(dǎo)致模型性能下降。本研究算法首先依據(jù)采集目標(biāo)的尺度進(jìn)行拆分處理,實(shí)現(xiàn)對(duì)所有尺度圖像的自動(dòng)處理,提高模型的尺度適應(yīng)性和泛化能力。
4.2結(jié)論
本研究針對(duì)農(nóng)田中小目標(biāo)識(shí)別困難,目標(biāo)尺度多變?cè)斐傻淖R(shí)別性能差的問題,研究了一種提高目標(biāo)有效像素?cái)?shù)量及其尺度的方法以提升模型性能。首先將原圖拆分為多個(gè)子圖,將每個(gè)子圖作為目標(biāo)檢測(cè)模型的輸入,然后采用二階段非極大值抑制方法實(shí)現(xiàn)最終目標(biāo)的計(jì)算。試驗(yàn)結(jié)果表明,該方法能有效識(shí)別一些特征不明顯的困難目標(biāo),尺度自適應(yīng)目標(biāo)識(shí)別算法的召回率和精度都普遍高于原算法,召回率最高提高3.8%,精度最高提高2.6%。本算法的召回率和精度也普遍高于 YOLOv3模型。但由于本算法時(shí)效性較差,適用于對(duì)召回率和精度要求較高的非實(shí)時(shí)性計(jì)算。
參考文獻(xiàn):
[1] NAUATA N, HU H, ZHOU G T, et al. Structured labelinference? for? visual? understanding[J]. IEEE? Transac‐tions? on? Pattern? Analysis? and? Machine? Intelligence, 2019, 42(5):1257-1271.
[2] 黃凱奇, 任偉強(qiáng), 譚鐵牛.圖像物體分類與檢測(cè)算法綜述[J].計(jì)算機(jī)學(xué)報(bào), 2014, 36(12):1-18.
HUANG K, REN W, TAN T. A review on image object classification? and? detection[J]. Chinese? Journal? of Computers, 2014, 36(12):1-18.
[3] ZOU Z, SHI Z, GUO Y, et al. Object detection in 20years: A survey[J/OL]. arXiv:1905.05055v2[cs. CV],2019.
[4] 李科岑, 王曉強(qiáng), 林浩, 等.深度學(xué)習(xí)中的單階段小目標(biāo)檢測(cè)方法綜述[J].計(jì)算機(jī)科學(xué)與探索, 2022, 16(1):41-58.
LI? K, WANG? X,? LIN? H,? et? al. Survey? of one? stage small? object? detection? methods? in? deep? learning[J]. Journal of Frontiers of Computer Science and Technol‐ogy, 2022, 16(1):41-58.
[5] BOCHKOVSKIY? A,? WANG? C? Y,? LIAO? H? Y? M.YOLOv4: Optimal? speed? and? accuracy? of object? de‐tection[J/OL]. arXiv:2004.10934, 2020.
[6] REDMON J, FARHADI A. YOLOv3: An incrementalimprovement[J/OL]. arXiv:1804.02767[cs.CV], 2018.
[7] MAHTO? P,? GARG? P,? SETH? P,? et? al. Refining YO ‐LOv4 for vehicle detection[J]. International Journal of Advanced? Research? in? Engineering? and? Technology, 2020, 11(5):409-419.
[8] ZHAI S, SHANG D, WANG S, et al. DF-SSD : An im‐proved? SSD? object? detection? algorithm? based? on denseNet? and? feature? fusion[J]. IEEE? Access, 2020:24344-24357.
[9] 奚琦, 張正道, 彭力.基于改進(jìn)密集網(wǎng)絡(luò)與二次回歸的小目標(biāo)檢測(cè)算法[J].計(jì)算機(jī)工程, 2021, 47(4):241-247, 255.
XI Q, ZHANG Z, PENG L. Small object detection al‐gorithm based on improved dense network and quadrat‐ic? regression[J]. Computer? Engineering, 2021, 47(4):241-247, 255.
[10] SHENZ Q, LIU Z, LI J G, et al. DSOD : Learning deep‐ly? supervised? object? detectors? from? scratch[C]// The 2017 IEEE International Conference on Computer Vi‐sion. Washington D. C., USA: IEEE Computer Society, 2017:1937-1945.
[11]李航, 朱明.基于深度卷積神經(jīng)網(wǎng)絡(luò)的小目標(biāo)檢測(cè)算法[J].計(jì)算機(jī)工程與科學(xué), 2020, 42(4):649-657.
LI? H,? ZHU? M. A? small? object? detection? algorithm based on deep convolutional neural network[J]. Com ‐puter Engineering & Science, 2020, 42(4):649-657.
[12]周慧, 嚴(yán)鳳龍, 褚娜, 等.一種改進(jìn)復(fù)雜場(chǎng)景下小目標(biāo)檢測(cè)模型的方法[J/OL].計(jì)算機(jī)工程與應(yīng)用:1-8.
[2021-10-04]. http://kns. cnki. net/kcms/detail/11.2127.TP.20210419.1404.049.html.ZHOU H, YAN F, ZHU N, et al. An approach to im‐prove the detection model for small object in complexscenes[J/OL]. Computer Engineering and Applications:1-8. [2021-10-04]. http://kns. cnki. net/kcms/detail/11.2127.TP.20210419.1404.049.html.
[13] ESTER M, KRIEGEL H P, SANDER J, et al. A densi‐ty-based algorithm for discovering clusters in large spa‐tial databases with noise[C]// The Second InternationalConference? on? Knowledge? Discovery? and? Data? Min‐ing. Portland, Oregon, USA: AAAI, 1996:226-231.
[14]李云紅, 張軒, 李傳真, 等.融合 DBSCAN的改進(jìn) YO‐LOv3目標(biāo)檢測(cè)算法[J/OL].計(jì)算機(jī)工程與應(yīng)用:1-12. [2021-10-04]. http://kns. cnki. net/kcms/detail/11.2127.TP.20210327.1437.002.html.
LI Y, ZHANG X, LI C, et al. Improved YOLOv3 targetdetection? algorithm? combined? with? DBSCAN[J/OL].Computer Engineering and Applications:1-12.[2021-10-04].? http://kns.? cnki.? net/kcms/detail/11.2127.TP.20210327.1437.002.html.
[15] REZATOFIGHI H, TSOI N, GWAK J Y, et al. General‐ized? intersection? over union: A metric? and? a? loss? forbounding? box? regression[C]// IEEE? Conference? onComputer Vision and Pattern Recognition. Piscataway,New York, USA: IEEE, 2019:658-666.
[16] YANG Y, LIAO Y, CHENG L, et al. Remote sensingimage? aircraft? target? detection? based? on? GIoU-YO ‐LOv3[C]//20216th International Conference on Intel‐ligent? Computing? and? Signal? Processing. Piscataway,New York, USA: IEEE, 2021:474-478.
[17] ZHENG Z, ZHAO H, LIU W, et al. Distance-IoUloss:Faster? and? better? learning? for? bounding? box? regres‐sion[C]// The 34th AAAI Conference on Artificial In‐telligence, the 32nd Innovative Applications of Artifi‐cial? Intelligence? Conference,? the 10th AAAI? Sympo‐sium? on? Educational? Advances? in? Artificial? Intelli‐gence. Piscataway,? New? York,? USA: AAAI, 2020:12993-13000.
[18] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss fordense? object? detection[J]. IEEE? Transactions? on? Pat‐tern? Analysis & Machine? Intelligence, 2017, (99):2999-3007.
[19]張炳力 , 秦浩然 , 江尚 , 等.基于RetinaNet及優(yōu)化損失函數(shù)的夜間車輛檢測(cè)方法[J].汽車工程 , 2021, 43(8):1195-1202.
ZHANG B, QIN H, JIANG S, et al. A method of vehi‐cle? detection? at? night? based? on? RetinaNet? and? opti‐mized? loss? functions[J]. Automotive? Engineering,2021, 43(8):1195-1202.
[20]鄭秋梅, 王璐璐, 王風(fēng)華.基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的交通場(chǎng)景小目標(biāo)檢測(cè)[J].計(jì)算機(jī)工程 , 2020, 46(6):26-33.
ZHENG Q, WANG L, WANG F. Small object detec‐tion in traffic scene based on improved convolutional neural network[J]. Computer Engineering, 2020, 46(6):26-33.
[21] REN S, HE K, GIRSHICK R, et al. Faster R-CNN : To‐wards real-time object detection with region proposal networks[J]. IEEE? Transactions? on? Pattern? Analysis and Machine Intelligence, 2017, 39(6):1137-1149.
[22] LIU W, ANGUELOV D, ERHAN D, et al. SSD : Sin‐gle? shot? multibox? detector[C]// In? European? Confer‐ence on Computer Vision. Cham, Switzerland: Spring‐ er:2016.
[23] Neubeck A, Gool L J V. Efficient non-maximum sup‐pression[C]// International Conference on Pattern Rec‐ognition. Piscataway, New York, USA: IEEE Comput‐er Society, 2006:848-855.
[24]李景琳 , 姜晶菲 , 竇勇 , 等.基于 Soft-NMS 的候選框去冗余加速器設(shè)計(jì)[J].計(jì)算機(jī)工程與科學(xué) , 2021, 43(4):586-593.
LI J, JIANG J, DOU Y, et al. A redundacy-reduced can‐didate? box? accelerator? based? on? soft-non-maximumsuppression[J]. Computer? Engineering &? Science,2021, 43(4):586-593.
[25]張長(zhǎng)倫 , 張翠文 , 王恒友 , 等.基于注意力機(jī)制的NMS 在目標(biāo)檢測(cè)中的研究[J].電子測(cè)量技術(shù) , 2021,44(19):82-88.
ZHANG C, ZHANG C, WANG H, et al. Research onnon-maximum? suppression based on attention mecha‐nism? in? object? detection[J]. Electronic? MeasurementTechnology, 2021, 44(19):82-88.
Scale Adaptive Small Objects Detection Method in Complex Agricultural Environment: Taking Bees as Research Object
GUO Xiuming, ZHU Yeping, LI Shijuan, ZHANG Jie, LYU Chunyang, LIU Shengping*
(Agricultural Information Institute, Chinese Academy of Agricultural Sciences/Key Laboratory of Agri-informationService Technology, Ministry of Agriculture and Rural Affairs, Beijing 100081, China )
Abstract: Objects in farmlands often have characteristic of small volume and high density with variable light and complex back‐ ground, and the available object detection models could not get satisfactory recognition results. Taking bees as research objects, a method that could overcome the influence from the complex backgrounds, the difficulty in small object feature extraction was proposed, and a detection algorithm was created for small objects irrelevant to image size. Firstly, the original image was split into some smaller sub-images to increase the object scale, and the marked objects were assigned to the sub-images to produce a new dataset. Then, the model was trained again using transfer learning to get a new object detection model. A certain overlap rate was set between two adjacent sub-images in order to restore the objects. The objects from each sub-image was collected and then non-maximum suppression (NMS) was performed to delete the redundant detection boxes caused by the network, an improved NMS named intersection over small NMS (IOS-NMS) was then proposed to delete the redundant boxes caused by the overlap between adjacent sub-images. Validation tests were performed when sub-image size was set was 300×300, 500×500 and 700×700, the overlap rate was set as 0.2 and 0.05 respectively, and the results showed that when using single shot multibox de‐tector (SSD) as the object detection model, the recall rate and precision was generally higher than that of SSD with the maxi‐ mum difference 3.8% and 2.6%, respectively. In order to further verify the algorithm in small target recognition with complex background, three bee images with different scales and different scenarios were obtained from internet and test experiments were conducted using the new proposed algorithm and SSD. The results showed that the proposed algorithm could improve the performance of target detection and had strong scale adaptability and generalization. Besides, the new algorithm required multi‐ple forward reasoning for a single image, so it was not time-efficient and was not suitable for edge calculation.
Key words: object detection; machine vision; small object; farmland; bee; single shot multibox detector; YOLOv3