林 莉,姜 麟,張志堅
(昆明理工大學(xué) 理學(xué)院,云南昆明 650500)
近些年,人工智能領(lǐng)域不斷發(fā)展,涌現(xiàn)出一大批基于深度學(xué)習(xí)的目標(biāo)檢測算法。相較于傳統(tǒng)目標(biāo)檢測算法,深度學(xué)習(xí)算法速度更快,精度更高。目前,深度學(xué)習(xí)領(lǐng)域?qū)δ繕?biāo)檢測算法主要進行了兩方面的研究:①以R-CNN[1]系列算法為代表的基于候選區(qū)域的二階段目標(biāo)檢測算法,該類算法首先搜索邊界框,生成一系列候選區(qū)域,然后利用卷積神經(jīng)網(wǎng)絡(luò)提取輸入圖像的特征,進行分類和定位;②以SSD[2]系列和YOLO[3]系列為代表的基于回歸的一階段目標(biāo)檢測算法,該類算法可將目標(biāo)物體的檢測定位和分類兩個過程合二為一,直接預(yù)測物體的類別概率和所在位置坐標(biāo)。
自2016 年YOLO 算法和SSD 算法被提出后,現(xiàn)有實時檢測算法主要為一階段目標(biāo)檢測優(yōu)化算法。2017 年Lin等[4]提出焦點損失(Focal Loss)有效解決了一階段算法中由于樣本分布不均衡導(dǎo)致模型精度不高的問題。同年,Redmon 等[5]在YOLO 算法的基礎(chǔ)上,引入高分辨率分類器(DarkNet-19)、Anchor Box、多尺度圖像訓(xùn)練等方法,提出YOLOV2 算法,大幅度提升了算法的檢測精度。隨后2018年其對YOLOV2 算法進行再次改進,采用了更好的基礎(chǔ)分類器網(wǎng)絡(luò)(DarkNet-53)[6]和特征金字塔(Feature Pyramid Network,F(xiàn)PN),以預(yù)測3 種不同尺度的框,解決了一階段目標(biāo)檢測算法在小目標(biāo)檢測上效果不佳的問題。2021 年5月,Chen 等[7]提出YOLOF 算法,僅檢測一個層級的特征,并提出了一種替換FPN 復(fù)雜的特征金字塔的方案。隨后,Ge等[8]提出YOLOX 算法,該算法在YOLOv3的基礎(chǔ)上,引入了Anchor Free、SimOTA 樣本匹配等方法,構(gòu)建了一種anchor-free 端到端的目標(biāo)檢測框架,使其具備較高的檢測能力。
YOLO 系列模型在現(xiàn)階段目標(biāo)檢測領(lǐng)域應(yīng)用最為廣泛,該類模型具備良好的目標(biāo)檢測能力,但由于模型復(fù)雜,參數(shù)量多,對硬件的性能要求較高,難以適用于移動端、嵌入式平臺等性能較低的設(shè)備?;诖耍琑edmon 等[6]提出了YOLOV3的輕量級版本Tiny YOLOV3 模型。Tiny YOLOV3模型對設(shè)備性能要求低,運行速度快,但檢測精度較低,存在小目標(biāo)漏檢率較高的問題。針對這一問題,2020 年王璽坤等[9]在Tiny YOLOV3 模型的基礎(chǔ)上增加了特征映射模塊和殘差分支,提高了算法的檢測準(zhǔn)確率。李文濤等[10]在Tiny YOLOV3 網(wǎng)絡(luò)關(guān)鍵位置的特征圖中使用擠壓激勵注意模塊和卷積注意模塊增強目標(biāo),提高抗干擾能力,從而增強模型的魯棒性和提升模型的檢測精度。馬立等[11]對Tiny YOLOV3 目標(biāo)檢測模型中的主干網(wǎng)絡(luò)和損失函數(shù)進行改進,有效提升了實時檢測中行人等小目標(biāo)的檢測精度。這類改進模型對復(fù)雜實時環(huán)境具有良好的適應(yīng)性,在檢測速度上提升很大,但在檢測精度上仍有較大的提升空間,在對多尺度檢測尤其是小目標(biāo)檢測時,模型的魯棒性不高、適應(yīng)性不強。
針對Tiny YOLOV3 在小目標(biāo)檢測上存在檢測精度低、漏檢率高等問題,本文提出一種基于改進Tiny YOLOV3的小目標(biāo)檢測算法,在提高原網(wǎng)絡(luò)檢測精度的同時,進一步提高檢測效率。首先,針對Tiny YOLOV3 算法特征提取網(wǎng)絡(luò)層數(shù)少、結(jié)構(gòu)簡單、特征提取能力差等問題,使用輕量級高效卷積網(wǎng)絡(luò)(EfficientNet-B0)中包含的圖像輸入處理模塊和7 個MBconv 模塊的圖像特征提取網(wǎng)絡(luò),替換原特征提取網(wǎng)絡(luò),使模型在增加網(wǎng)絡(luò)深度的同時,減少了參數(shù)量,便于提取更深層次的語義信息,為后續(xù)預(yù)測階段作準(zhǔn)備。其次,針對Tiny YOLOV3 算法中小目標(biāo)漏檢率高等問題,借鑒FPN 和注意力機制的工作原理,構(gòu)建了基于注意力機制的3 尺度目標(biāo)檢測模型,使其能準(zhǔn)確預(yù)測大、中、小不同尺度的目標(biāo),以解決小目標(biāo)檢測精度低、漏檢率高等問題。最后,將改進的模型應(yīng)用于檢測架空輸電線的絕緣子狀態(tài)。通過實驗數(shù)據(jù)表明,在海量無人機巡線所拍攝的圖像中,該模型可快速、有效地檢測絕緣子。
Tiny YOLOV3 是YOLOV3的簡化版本,其主干網(wǎng)絡(luò)由1個輸入層、7 個卷積層和6 個下采樣層構(gòu)成,很大程度上縮減了Darknet53的網(wǎng)絡(luò)層數(shù),有效實現(xiàn)了模型壓縮。其中,檢測網(wǎng)絡(luò)主要對13×13、26×26 兩個尺度的特征圖進行預(yù)測,網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
Fig.1 Tiny YOLOV3 network structure圖1 Tiny YOLOV3 網(wǎng)絡(luò)結(jié)構(gòu)
由圖1 可見,Tiny YOLOV3 網(wǎng)絡(luò)將416×416的圖像經(jīng)過5次Maxpooling下采樣,分別得到208×208、104× 104、52×52、26×26、13×13 共5 個尺度的特征圖。再將13×13、26×26 尺度的特征圖輸入檢測網(wǎng)絡(luò)中進行多尺度檢測。此外,Tiny YOLOV3 將6 組錨框平均分配在檢測網(wǎng)絡(luò)上,每個尺度的錨點分配2 組錨框。具體操作如下:首先使用Adam優(yōu)化器采用回歸的方式對錨框進行類別和置信度預(yù)測;然后應(yīng)用非極大值抑制算法(Non-Maximum Suppression,NMS)選出最終預(yù)測框;最后根據(jù)特征圖與原圖關(guān)系將預(yù)測框映射到原圖上,完成目標(biāo)定位。
2019 年,Google 工程師Tan 等[12]通過神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS),設(shè)置與MobileNet V2 相同的搜索空間,使用ACC(m)*[FLOPS(m)/T]w作為優(yōu)化目標(biāo),構(gòu)建EfficientNet-B0 網(wǎng)絡(luò)模型。該模型由7 個移動翻轉(zhuǎn)瓶頸卷積(MBConv)模塊構(gòu)成,并在MBConv 模塊中引入擠壓和激發(fā)(Squeezeand-Excitation,SE)操作進行優(yōu)化升級,使淺層網(wǎng)絡(luò)同樣能夠通過全局感受野提取圖像特征并對圖像進行描述。此外,MBConv 模塊中還包含深度可分離卷積、swish 激活函數(shù)、drop_connect 連接、批歸一化等組件。EfficientNet-B0的網(wǎng)絡(luò)結(jié)構(gòu)及各層參數(shù)設(shè)置如表1 所示。
Table 1 EfficientNet-B0 network structure表1 EfficientNet-B0 網(wǎng)絡(luò)結(jié)構(gòu)
如圖2 所示,MBConv 模塊首先對輸入圖像進行1×1的二維卷積,目的是對輸入數(shù)據(jù)進行維度整理;然后通過3×3的深度可分離卷積提取特征信息;再傳入SE 模塊中進行賦權(quán),接下來將值輸入到1×1的二維卷積進行維度整理;最后將輸出值進行drop_connect 操作,隨機舍棄一些信息與整個模塊的原輸入相加,得到MBConv 模塊的最終輸出。
Fig.2 MBConv block圖2 MBConv 模塊
注意力機制源于人類視覺系統(tǒng)的研究,當(dāng)人面對某一大型復(fù)雜場景時,往往會重點關(guān)注顏色突兀或風(fēng)格突變的區(qū)域,而忽略其它區(qū)域。計算機視覺中的注意力機制正是借鑒于此,讓網(wǎng)絡(luò)根據(jù)當(dāng)前任務(wù)從眾多信息中聚焦重要信息[13]。
首先在原有兩個檢測分支的基礎(chǔ)上,再增加一個檢測分支,形成3尺度檢測,使網(wǎng)絡(luò)可有效檢測大、中、小各尺度的目標(biāo)。其次,將注意力機制應(yīng)用于已經(jīng)構(gòu)建的3檢測分支中,使網(wǎng)絡(luò)在輸出最終檢測結(jié)果前,能夠客觀地分析各通道特征圖之間的關(guān)系。并且可為含有重要特征的通道賦予更大的權(quán)重,使網(wǎng)絡(luò)能自適應(yīng)關(guān)注圖像中的重要信息,從而提升模型檢測精度?;谧⒁饬C制的檢測分支結(jié)構(gòu)如圖3所示。
由圖3可見,DBL1模塊中包含一個1×1的卷積層、Batch Normalization 標(biāo)準(zhǔn)歸一化層和LeakyRelu 激活函數(shù);DBL3 中包含一個3×3的卷積層、Batch Normalization 標(biāo)準(zhǔn)歸一化層和LeakyRelu 激活函數(shù)。具體操作為:先對每一個檢測分支經(jīng)過DBL1的1×1 卷積整理上層輸出特征通道的維度;然后使用DBL3的3×3 卷積分析、提取重要特征;最后將注意力機制得到的權(quán)重與DBL3 提取的特征相乘,使網(wǎng)絡(luò)重點關(guān)注含特征信息較為豐富的通道。
Fig.3 Detection branch structure based on attention mechanism圖3 基于注意力機制的檢測分支結(jié)構(gòu)
為解決現(xiàn)有Tiny YOLOV3 網(wǎng)絡(luò)魯棒性不高,尤其在針對小目標(biāo)檢測過程中存在的檢測精度低、漏檢誤檢率高的問題。將改進重點集中在特征提取主干網(wǎng)絡(luò)和檢測分支上,改進后的網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。
Fig.4 Improved Tiny YOLOV3 network structure圖4 改進Tiny YOLOV3 網(wǎng)絡(luò)結(jié)構(gòu)
由圖4 可見,該模型基于EfficientNet-B0 網(wǎng)絡(luò),舍棄了最后的全局平均池化層、dropout 層和全連接層,僅保留特征提取部分,以代替Tiny YOLOV3的7 層卷積骨干網(wǎng)絡(luò)進行特征提取。替換后,新模型用于特征提取的網(wǎng)絡(luò)層數(shù)明顯增加,由原來7 層增加至36 層。隨著卷積層數(shù)的增加,可有效提升特征提取網(wǎng)絡(luò)的提取性能,從而可更好分析高層次的語義信息。
B0 網(wǎng)絡(luò)中將傳統(tǒng)的普通卷積更換為深度可分離卷積,并引入注意力機制和殘差結(jié)構(gòu)構(gòu)建MBConv 模塊。使用深度可分離卷積和注意力機制代替普通二維卷積,一方面在增加卷積層的同時可有效縮減網(wǎng)絡(luò)的參數(shù)計算量;另一方面,通過引入注意力機制,可在網(wǎng)絡(luò)在訓(xùn)練的過程中,賦予重要信息所在通道更大的權(quán)重。但隨著卷積層的增加,模型會在訓(xùn)練中發(fā)生梯度消失的問題,而MBConv 模塊通過引入殘差結(jié)構(gòu)可有效解決該問題。
EfficientNet-B0共有7個MBConv模塊,取第3個MBConv模塊的輸出作為feat1 層,取第5 個MBConv 模塊的輸出作為feat2 層,取第7 個MBConv 模塊的輸出作為feat3 層,將語義信息豐富的深層特征通過上采樣后與具有較多空間信息的淺層特征進行通道拼接,使用卷積操作融合不同通道。應(yīng)用基于通道注意力機制的多尺度檢測分支,構(gòu)建feat1、feat2、feat3 之間特征融合后的3 種不同尺度檢測層以檢測大、中、小不同尺度的目標(biāo),以提升算法的準(zhǔn)確性和魯棒性。
本文實驗環(huán)境:操作系統(tǒng)為Ubuntu18.04,GPU 型號為NVIDIA RTX 1660s,CUDA 版本為7.0,基于TensorFlow的Keras 深度學(xué)習(xí)框架,程序語言為Python 3.7。
由于目標(biāo)檢測結(jié)果由分類結(jié)果和定位結(jié)果兩部分共同決定。因此,既可把目標(biāo)檢測看成一個分類問題,也可看成一個回歸問題。本文使用單個類別的精確度(Average Precision,AP)和平均精確度(mean Average Precision,mAP)作為模型檢測精度的評價標(biāo)準(zhǔn),使用模型大?。╩odel size)和每秒檢測幀數(shù)(FPS)作為模型檢測速度的評價標(biāo)準(zhǔn)[14]。計算公式如式(1)所示:
其中,AP定義為精確率(precision)/召回率(recall)曲線下的面積,TP表示實際為正樣本,模型預(yù)測也為正樣本的個數(shù);FP表示實際為負樣本,但是預(yù)測為正樣本的個數(shù);FN表示為實際為正樣本,但是模型預(yù)測為負樣本的個數(shù)。
對于多分類問題,需要求N個類別的AP均值,即平均精確率平均值以衡量分類器對所有類別的分類精度,這也是目標(biāo)檢測算法最為重要的指標(biāo)之一。換言說,mAP就是不同類別的AP平均值,計算公式如式(2)所示:
實驗過程中主要對mAP@0.3,mAP@0.5,mAP@0.7 進行對比,mAP@0.5 表示預(yù)測框與真實框的交并比(IoU)大于等于0.5的情況下可以準(zhǔn)確預(yù)測的概率。IoU的計算公式如式(3)所示:
其中,S(A?B)表示區(qū)域A與區(qū)域B重疊部分的面積,S(A?B)表示區(qū)域A的面積與區(qū)域B的面積之和減去二者重疊部分的面積。
實驗使用的數(shù)據(jù)集為PASCAL VOC。該數(shù)據(jù)集是目標(biāo)檢測領(lǐng)域的通用數(shù)據(jù)集,共包含20 類已經(jīng)標(biāo)注好的對象,其中訓(xùn)練圖像使用VOC2007 和V0C2012 綜合數(shù)據(jù)集,共包含16 551 幅圖像的40 025 個物體;測試集使用VOC2007的test 數(shù)據(jù)集,共包含4 952 幅圖像的12 032 個物體。
實驗過程中,輸入圖像尺寸為416×416,分兩階段進行。第一階段:凍結(jié)特征提取骨干網(wǎng)絡(luò),加載已在ImageNet數(shù)據(jù)集上訓(xùn)練好的權(quán)重信息,僅對檢測分支進行訓(xùn)練,從而獲得一個穩(wěn)定的損失,此階段學(xué)習(xí)率設(shè)置為0.001,采用adam 優(yōu)化器進行參數(shù)優(yōu)化訓(xùn)練,batchsize 設(shè)為16,訓(xùn)練50epoch;第二階段:將上一階段凍結(jié)的骨干網(wǎng)絡(luò)進行解凍,加載上一階段的訓(xùn)練權(quán)重,對整個目標(biāo)檢測網(wǎng)絡(luò)進行訓(xùn)練,設(shè)置學(xué)習(xí)率為0.000 1,batchsize 設(shè)為8,接著第一階段的訓(xùn)練結(jié)果繼續(xù)訓(xùn)練100epoch。
將AE-Tiny YOLOV3 算法與Tiny YOLOV3 算法在VOC2007+2012 數(shù)據(jù)集上進行檢測效果對比,結(jié)果如表2 所示。
Table 2 Comparison of algorithm performance on the VOC data set表2 在VOC 數(shù)據(jù)集上的算法性能對比
表2 中模型A 保持Tiny YOLOV3 算法原有的檢測框架不變,將其中包含7 層卷積的特征提取網(wǎng)絡(luò)替換為EfficientNet-B0 網(wǎng)絡(luò)的Tiny YOLOV3 模型;模型B 在模型A的基礎(chǔ)上,引入FPN 思想,增加檢測分支,構(gòu)成3 尺度檢測模型;AE-Tiny YOLOV3 在模型B的基礎(chǔ)上融合注意力機制。
由表2 可見,模型A 使用基于神經(jīng)網(wǎng)絡(luò)架構(gòu)的EfficientNet-B0 網(wǎng)絡(luò)進行特征提取,相較于Tiny YOLOV3 模型的特征提取網(wǎng)絡(luò),網(wǎng)絡(luò)層數(shù)從27 層增加到231 層,可有效提取深層次的語義特征,且模型參數(shù)量減少了12.3M,mAP@0.5 提高了8.93%。由此說明,EfficientNet-B0 相較于原特征提取網(wǎng)絡(luò)更輕量高效。雖然FPS 有所降低,但依然滿足實時檢測的需求。模型B 結(jié)合多尺度訓(xùn)練,mAP@0.5相較模型A 提升了8.03%。
AE-Tiny YOLOV3 模型在多尺度訓(xùn)練的基礎(chǔ)上,又在3個檢測分支上添加了注意力機制,使模型可重點關(guān)注信息量最大的通道特征,自適應(yīng)地抑制干擾因素對檢測結(jié)果的影響,加強目標(biāo)檢測特征的表征能力。結(jié)果表明,該模型的mAP@0.5 由77.26% 提升至78.22%。表3 為Tiny YOLOV3 算法和AE-Tiny YOLOV3 算法在VOC2007測試集上,IoU為0.5 時,每一類的精確度AP。
根據(jù)表3 可知,AE-Tiny YOLOV3 算法在各類別的檢測上均有提升,特別是在bird、bottle、cat 等小物體檢測上尤為明顯。其中,檢測準(zhǔn)確率提升幅度最大為bird,檢測準(zhǔn)確率提高了32.02%;檢測幅度提升最小為car,僅提高了10.95%。由此可說明基于注意力機制的多尺度檢測對于大、中、小不同尺寸的物體,尤其是小目標(biāo)檢測具有良好的檢測效果。
Table 3 Comparison results of various APs in the VOC data set表3 VOC 數(shù)據(jù)集各類AP 對比結(jié)果
如圖5 所示,對添加注意力機制的檢測分支和未添加的檢測分支進行對比,本文選取feat1 層所在檢測分支為例,比較輸出最終檢測結(jié)果的前一個卷積層的輸出特征圖。其中,(a)為未添加注意力機制的80 個通道對應(yīng)的特征圖,(b)為(a)圖中80 個通道所疊加的特征圖,(c)為添加注意力機制的80 個通道對應(yīng)的特征圖,(d)為(c)圖中80 個通道疊加的特征圖。
由圖5 可見,(a)圖中80 個通道對應(yīng)的特征圖之間區(qū)別度不高、特征相似;(b)圖中圖像高亮部分過多,且多數(shù)出現(xiàn)在背景部分,可用于分類的特征較少;(c)圖中80 個特征圖之間的區(qū)別度較高,可直觀地看出某幾個通道包含的特征信息較為重要;(d)圖中圖像高亮部分較少且集中于一個區(qū)域內(nèi),可通過此區(qū)域的高層次語義信息準(zhǔn)確地區(qū)分物體。由此可見,本文改進的基于注意力機制的檢測分支能夠有效減少背景等無關(guān)信息的對檢測的干擾。圖6 為通過注意力分析后重新為80 個通道所賦權(quán)值的散點圖。
Fig.5 Feature map of the convolutional layer on the detection branch where the feat1 layer is located圖5 feat1 層所在檢測分支上的卷積層的特征圖
由圖6 可知,feat1 層的權(quán)值基本分布在0 周圍,均值約為0.05。在經(jīng)過注意力機制分析后,為多數(shù)通道賦予了一個很小的權(quán)重,即忽略一些次要信息。僅有少數(shù)權(quán)值分布較為分散,即為包含重要信息的通道賦予了一個較大的權(quán)重,突出顯示其包含的特征信息。
Fig.6 Scatter plot of weight distribution圖6 權(quán)值分布散點
實驗使用自制絕緣子數(shù)據(jù)集,圖像來源于網(wǎng)絡(luò),分辨率均在800×600 以上,清晰度較高,能夠滿足目標(biāo)檢測需要。數(shù)據(jù)集主要包含正常絕緣子(normal)和“自爆”絕緣子(defective)兩類,共1 000 張圖像(正常絕緣子700 張,自爆絕緣子300 張)。圖7 為樣例圖像。實驗過程中,選取100張圖像作為測試集,900 張作為訓(xùn)練集。數(shù)據(jù)集標(biāo)注格式為VOC 格式,采用LabelImg 工具進行手工標(biāo)記,得到相應(yīng)的.xml 注釋文件。
由于檢測的絕緣子目標(biāo)在單張圖像中所占的比例較小,因此將絕緣子圖像輸入網(wǎng)絡(luò)前需統(tǒng)一縮放至608×608大小。圖8 為自制數(shù)據(jù)集中目標(biāo)標(biāo)注框所占圖像尺寸的比例分布圖,橫坐標(biāo)為目標(biāo)框的面積占圖像面積的比例,縱坐標(biāo)為比例在每一區(qū)間上的對應(yīng)目標(biāo)數(shù)量。由此可見,占比小于10%目標(biāo)有1 397 個,占所有目標(biāo)的68.41%,表明數(shù)據(jù)集的大部分目標(biāo)均為小目標(biāo)。為此,本文提出基于AETiny YOLOV3 目標(biāo)檢測模型主要應(yīng)用于檢測小目標(biāo)。
Fig.7 Sample image of self-made insulator data set圖7 自制絕緣子數(shù)據(jù)集的樣例圖像
Fig.8 Proportion distribution of the label frame of self-made insulator data set in the original image size圖8 自制絕緣子數(shù)據(jù)集標(biāo)注框占原圖像尺寸的比例分布
實驗環(huán)境和實驗設(shè)置除輸入分辨率更改為608×608外,其余參數(shù)設(shè)置均與3.2 節(jié)中相同。表4 為本文改進模型與原模型在自制數(shù)據(jù)集上的對比結(jié)果。
Table 4 Performance comparison on the self-made insulator data set表4 在自制絕緣子數(shù)據(jù)集上的性能對比 (%)
表4 中實驗結(jié)果為在IoU為0.5 時的測試結(jié)果。其中,normal-AP表示正常絕緣子的檢測準(zhǔn)確率,defective-AP表示“自爆”絕緣子的檢測準(zhǔn)確率,mAP為平均準(zhǔn)確率。本文所改進的模型對正常絕緣子和自爆絕緣子的mAP相較于Tiny YOLOV3 算法提高了15.27%,正常絕緣子的識別率提升了16.74%,自爆絕緣子的檢測準(zhǔn)確率提升了13.79%。由此證明,本文模型較原算法提高了目標(biāo)檢測的準(zhǔn)確率,且檢測速度相當(dāng)。圖9 為本文模型與Tiny YOLOV3的檢測結(jié)果的對比圖。其中,圖9(a)(b)為Tiny YOLOV3的目標(biāo)檢測結(jié)果,(c)(d)為相同圖像在AE-Tiny YOLOV3 模型中的目標(biāo)檢測結(jié)果。
從圖9的對比結(jié)果可見,AE-Tiny YOLOV3 模型可準(zhǔn)確檢測Tiny YOLOV3 模型中漏檢的小目標(biāo)。對比(a)和(c),Tiny YOLOV3 模型僅能檢測到1 個正常絕緣子,漏檢了2 個正常絕緣子和1 個“自爆”絕緣子;對比(b)和(d),二者均可準(zhǔn)確檢測到正常絕緣子,但由于“自爆”絕緣子的目標(biāo)較小,原模型通常難以檢測,而本文模型可準(zhǔn)確檢測并定位“自爆”絕緣子。
Fig.9 Comparison of insulator detection results圖9 絕緣子檢測結(jié)果對比
本文提出的AE-Tiny YOLOV3 模型,不僅通過替換特征提取網(wǎng)絡(luò)增加了模型的特征提取能力,降低了模型參數(shù)量,還保證了目標(biāo)檢測速度。同時,通過在預(yù)測網(wǎng)絡(luò)中增加檢測分支形成3 尺度預(yù)測,以更好預(yù)測自爆絕緣子等小目標(biāo)。最后,通過注意力機制,使模型在預(yù)測時可自適應(yīng)關(guān)注有效信息較多的通道特征,進一步提高了目標(biāo)檢測的準(zhǔn)確率。通過在VOC07+12 數(shù)據(jù)集上的實驗證明,AE-Tiny YOLOV3 模型目標(biāo)檢測的平均準(zhǔn)確率為78.22%,相較于原模型提高了16.89%。在滿足模型實時性的需求外,檢測準(zhǔn)確率更高。在自制絕緣子數(shù)據(jù)集上,本文所提出的模型目標(biāo)檢測的平均準(zhǔn)確率為86.53%,相較于原模型提高了15.27%。雖然AE-Tiny YOLOV3 模型的目標(biāo)檢測精確度有所提高,但與大型檢測網(wǎng)絡(luò)相比仍有較大差距,需進一步改進。并且,如何讓模型既滿足嵌入式平臺實時監(jiān)測的需求,又能進一步提高準(zhǔn)確率,將是下一步的研究重點。