姚宇捷,彭育輝,陳澤輝,何維堃,吳 慶,黃 煒,陳文強(qiáng)
(1.福州大學(xué)機(jī)械工程及自動(dòng)化學(xué)院,福州 350116;2.福建漢特云智能科技有限公司,福州 350028)
基于計(jì)算機(jī)視覺(jué)的目標(biāo)檢測(cè)是通過(guò)對(duì)輸入的圖像信息進(jìn)行解碼分析,獲得圖像中目標(biāo)對(duì)象的正確類別和準(zhǔn)確位置,在商用領(lǐng)域和軍用領(lǐng)域均有巨大應(yīng)用價(jià)值。
傳統(tǒng)目標(biāo)檢測(cè)算法存在運(yùn)算量大、實(shí)時(shí)性差等問(wèn)題[1-2],基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法正逐步成為計(jì)算機(jī)視覺(jué)領(lǐng)域的主流技術(shù)路線。深度學(xué)習(xí)目標(biāo)檢測(cè)算法根據(jù)是否提前生成候選框可分為T(mén)wo-stage和One-stage。前者以R-CNN[3]為代表,由于算法本身會(huì)產(chǎn)生過(guò)多的候選框,導(dǎo)致運(yùn)算量過(guò)大,無(wú)法滿足實(shí)時(shí)性要求;后者則實(shí)現(xiàn)了端到端的網(wǎng)絡(luò)訓(xùn)練,大幅減少了運(yùn)算量,提高了網(wǎng)絡(luò)的實(shí)時(shí)性,如YOLO 系列[4-6]、SSD[7]、MobileNet[8-10]算法等。
RGB 圖像作為目標(biāo)檢測(cè)的輸入數(shù)據(jù),其自身的特性之一就是易受到光照的影響,為此Ren 等[11]提出了一種新的單級(jí)端到端可訓(xùn)練的目標(biāo)檢測(cè)網(wǎng)絡(luò),通過(guò)在多尺度特征圖上引入遞歸滾動(dòng)卷積(RRC)架構(gòu)來(lái)構(gòu)建“深入上下文”的對(duì)象分類器和包圍盒回歸器來(lái)降低光照影響;Zhao 等[12]提出特征金字塔增強(qiáng)策略(FPES)來(lái)增加網(wǎng)絡(luò)感受野,并為對(duì)象檢測(cè)模塊(ODM)階段提出了自適應(yīng)閾值獲取方法以提高模型精度;Zhu 等[13]采用殘差特征增強(qiáng)的方法來(lái)增強(qiáng)頸部卷積層的特征提取,增強(qiáng)的PANet[14]用于改進(jìn)特征融合,加強(qiáng)了特征圖的表示能力。上述算法均無(wú)法回避RGB 圖像自身的固有缺陷,即對(duì)光照敏感度過(guò)高問(wèn)題。
由于HSV 圖像具有較好的抗光照能力,以及YOLO 算法在目標(biāo)檢測(cè)中的優(yōu)越性,本文中提出一種適用于YOLO 系列(YOLOV3、V4、V5等)的改進(jìn)算法。鑒于YOLOV4[15]網(wǎng)絡(luò)相較于其他YOLO 網(wǎng)絡(luò)在復(fù)雜環(huán)境下檢測(cè)性能突出,因此以YOLOV4 網(wǎng)絡(luò)為基礎(chǔ),從HSV 圖像分離出抗光照能力最強(qiáng)的S通道,并與RGB 圖像進(jìn)行融合,使輸入網(wǎng)絡(luò)中的圖像數(shù)據(jù)既保留重要的色彩信息又同時(shí)具備抗光照能力;同時(shí)對(duì)YOLOV4 的主干網(wǎng)絡(luò)和損失函數(shù)進(jìn)行優(yōu)化,以達(dá)到提高檢測(cè)精度并滿足實(shí)時(shí)性的預(yù)期目標(biāo)。
RGB 圖像將R(red)、G(green)、B(blue)3個(gè)通道的變化和亮度相疊加混合,構(gòu)成人類視覺(jué)所能感知的顏色信息。RGB 3 個(gè)通道的分量與亮度緊密相聯(lián),當(dāng)亮度發(fā)生變化后,3 個(gè)通道的分量也會(huì)隨之發(fā)生改變,從而導(dǎo)致整體的顏色信息發(fā)生改變。這一特性導(dǎo)致RGB 圖像很易受到光照影響,即對(duì)亮度的敏感度過(guò)高。
為解決光照帶來(lái)的影響,方式之一是采用HSV顏色空間。構(gòu)成HSV 模型的主要參數(shù)有:色調(diào)(Hue)、飽和度(Saturation)、明度(Value)。色調(diào)H是將所有的顏色顯示轉(zhuǎn)化為0°~360°之間,不同于RGB需要三通道的分量相互配合,H通道只須選擇相應(yīng)的角度即可;飽和度S表示的是顏色接近光譜色的程度,光譜色占比越高,則表示顏色的飽和度越高;明度V表示的是顏色明亮程度,明亮值就是指受到外界光照影響的大小。HSV 可由RGB 轉(zhuǎn)換而成,轉(zhuǎn)換公式為
式中:R、G、B分別代表RGB圖像的3個(gè)通道分量;H、S、V代表的是HSV 圖像的3 個(gè)通道分量。由上述公式可知,V通道選取的是RGB 圖像的最大分量,因此光照對(duì)HSV 圖像的V通道影響最大,而相較之下,H通道和S通道都是取RGB圖像中的最小分量并相互作差和運(yùn)算而來(lái)的,所以光照對(duì)與HSV 圖像的H通道和S通道影響較小。驗(yàn)證這一結(jié)論的光照實(shí)驗(yàn)結(jié)果如圖1所示。
由圖1 可知,在相同光照條件下,RGB 圖像易受光照影響,3 個(gè)通道分量都出現(xiàn)了亮暗界限分明的情況。HSV 圖像由于其V通道的存在,導(dǎo)致HSV圖像也出現(xiàn)亮暗界限分明的情況。將HSV 圖像進(jìn)行通道分割,分離出H通道、S通道和V通道進(jìn)行觀察,發(fā)現(xiàn)V通道的亮暗界限分明,S通道的亮暗界限消失,H通道的亮暗界限模糊,說(shuō)明HSV 圖像的H通道和S通道都具有抗光照能力,而S通道的抗光照能力更強(qiáng)。
HSV 關(guān)注的是圖像顏色的劃分,而非圖像顏色的語(yǔ)義信息。如果只是簡(jiǎn)單地將HSV去除V通道輸入網(wǎng)絡(luò),就會(huì)缺失圖像顏色中攜帶的語(yǔ)義信息,導(dǎo)致網(wǎng)絡(luò)無(wú)法進(jìn)行與顏色相關(guān)的特征提取。為此,本文將HSV 中抗光照能力強(qiáng)的S通道分離出,與RGB 通道合并后輸入網(wǎng)絡(luò),使輸入網(wǎng)絡(luò)的數(shù)據(jù)兼?zhèn)淇构庹漳芰?。具體流程見(jiàn)圖2。
圖2 抗光照算法流程圖
圖2 所示的實(shí)現(xiàn)流程是建立在原YOLOV4 網(wǎng)絡(luò)基礎(chǔ)上的,由于YOLOV4網(wǎng)絡(luò)本身不具備學(xué)習(xí)RGBS四通道圖像信息的能力,為此,須對(duì)YOLOV4的原網(wǎng)絡(luò)維度進(jìn)行重構(gòu),補(bǔ)足四通道信息輸入所需維度,保證網(wǎng)絡(luò)正常輸出。
YOLOV4 的主干網(wǎng)絡(luò)CSPDarknet53 采用了大量的3×3 卷積核來(lái)進(jìn)行特征提取,過(guò)程中產(chǎn)生的相似特征圖通常被當(dāng)作冗余信息。冗余特征圖雖然能使網(wǎng)絡(luò)更具泛化性,但同時(shí)也帶來(lái)了更大的數(shù)據(jù)量,降低算法效率。Ghostnet 網(wǎng)絡(luò)[16]基于一組內(nèi)在特征映射,應(yīng)用一系列成本低廉的線性變換來(lái)生成許多冗余特征映射,可以用更低的計(jì)算量充分提取內(nèi)在特征背后的信息。因此,為降低網(wǎng)絡(luò)參數(shù)量,提高檢測(cè)實(shí)時(shí)性,將主干網(wǎng)絡(luò)由CSPDarknet53 替換為Ghostnet網(wǎng)絡(luò),對(duì)YOLOV4進(jìn)行改進(jìn)。
Ghostnet 模塊主要由兩部分操作構(gòu)成:先是通過(guò)少量的普通卷積來(lái)獲取網(wǎng)絡(luò)學(xué)習(xí)所需要的部分特征圖;再對(duì)這些特征圖進(jìn)行低成本的線性操作生成新的特征圖;最后再將兩部分的特征圖Concat 拼接在一起補(bǔ)足輸出維度需求。Ghostnet 模塊相較于普通卷積的理論加速比為
式中:k為Kernel 的尺寸;d為內(nèi)核尺寸;w、h為輸入數(shù)據(jù)的寬和高;c為輸入數(shù)據(jù)的通道數(shù);n為輸出數(shù)據(jù)的通道數(shù);s為壓縮比。
在一個(gè)Ghostnet模塊線性運(yùn)算中,當(dāng)內(nèi)核尺寸d與卷積核尺寸k一致,且s<<c時(shí),模型的效率最大。則參數(shù)壓縮率計(jì)算如下:
文獻(xiàn)[17]中對(duì)比分析了VGG 與ResNet 系列在CIFAR-10 數(shù)據(jù)集上的測(cè)試結(jié)果,得出當(dāng)壓縮比s=2時(shí)Ghostnet 模型效果最佳,即在卷積過(guò)程中,一半用普通卷積生成,另外一半由簡(jiǎn)單線性操作生成。研究發(fā)現(xiàn),部分網(wǎng)絡(luò)的冗余特征圖并沒(méi)有占到原特征圖總數(shù)的一半。對(duì)于這部分網(wǎng)絡(luò),如果只用一半的常規(guī)卷積進(jìn)行特征提取,將無(wú)法完成對(duì)圖像信息的全面理解,導(dǎo)致網(wǎng)絡(luò)的識(shí)別精度下降。因此壓縮比s=2的Ghostnet模型無(wú)法運(yùn)用到所有的網(wǎng)絡(luò)模型中。
為獲得Ghostnet 模塊在YOLOV4 網(wǎng)絡(luò)中最佳壓縮比s,采用Hash 算法對(duì)YOLOV4 網(wǎng)絡(luò)生成的32 張?zhí)卣髯訄D進(jìn)行分析,通過(guò)將所有子圖的數(shù)據(jù)轉(zhuǎn)化為hash值,并進(jìn)行兩兩比對(duì)其hash值的漢明距離,借此來(lái)判定二者是否相似。兩張圖片的漢明距離越小,圖片越相似。最后通過(guò)數(shù)據(jù)變換將距離大小轉(zhuǎn)化為相似度進(jìn)行輸出,所得結(jié)果如圖3所示。
圖3 YOLOV4特征圖冗余現(xiàn)象
由圖3 可知,YOLOV4 在經(jīng)過(guò)卷積生成的特征圖中冗余特征圖與普通特征圖的占比為1∶3,即壓縮比s為4/3。據(jù)此,對(duì)GhostNnet 模塊進(jìn)行修改,將原來(lái)普通卷積與廉價(jià)卷積的比例由原來(lái)的1∶1 重新調(diào)整為3∶1,修改前后如圖4所示。
圖4 Ghostnet模塊修改對(duì)比圖
改進(jìn)后的Ghostnet 模型相較于原模型在參數(shù)量上有所提升,但其保證了對(duì)輸入圖像特征的全面提取,提高了網(wǎng)絡(luò)的檢測(cè)精度。改進(jìn)的YOLOV4 檢測(cè)模型結(jié)構(gòu)如圖5所示。
圖5 YOLOV4+抗光照算法+改進(jìn)Ghostnet模塊的網(wǎng)絡(luò)結(jié)構(gòu)圖(YOLO-RLG)
YOLOV4 采用CIoU 損失作為Boundingbox(目標(biāo)識(shí)別框)的損失函數(shù),其在IoU 損失的基礎(chǔ)上加入了考慮預(yù)測(cè)框與真實(shí)框高寬比的影響因子,即
式中:b、bgt表示預(yù)測(cè)框和真實(shí)框的中心點(diǎn);ρ表示兩中心點(diǎn)之間的距離;c為包含兩個(gè)框的最小封閉框的對(duì)角線長(zhǎng)度;v用來(lái)衡量高寬比的相似性;α為與交并比相關(guān)的權(quán)重系數(shù)。
盡管CIoU_Loss 在進(jìn)行候選框與真實(shí)框損失計(jì)算時(shí)考慮了框的面積大小、中心點(diǎn)距離以及框的高寬比等因素。但是,當(dāng)候選框的高、寬與真實(shí)框的高、寬呈倍數(shù)關(guān)系且大小不相等時(shí),CIoU_Loss 中高寬比影響因子(αν)就會(huì)失效。另外,對(duì)式(6)求導(dǎo)發(fā)現(xiàn),高、寬的梯度方向相反,即當(dāng)高度增加時(shí),寬度必然減小,反之也成立。因?yàn)楦?、寬無(wú)法實(shí)現(xiàn)同增或同減,導(dǎo)致CIoU_Loss可能會(huì)以不合理的方式優(yōu)化相似性。為進(jìn)一步提高模型的檢測(cè)精度和魯棒性,本文中利用EIoU來(lái)改進(jìn)YOLOV4算法的損失函數(shù)。
將CIoU 替換為EIoU[17]來(lái)優(yōu)化高寬比影響因子失效的情況,從而實(shí)現(xiàn)對(duì)YOLOV4 損失函數(shù)的改進(jìn),即
EIoU 將CIoU 的高寬比損失項(xiàng)拆分成預(yù)測(cè)框的高寬分別與最小外接框高寬的差值,優(yōu)化了邊界框回歸任務(wù)中樣本不平衡問(wèn)題,即減少與目標(biāo)框重疊較少的大量錨框?qū)oundingbox(目標(biāo)識(shí)別框)回歸的優(yōu)化共享,使回歸過(guò)程專注于高質(zhì)量錨框,加速了模型的收斂速度和回歸精度。
實(shí)驗(yàn)采用的KITTI 數(shù)據(jù)集是由德國(guó)卡爾斯魯厄理工學(xué)院和豐田美國(guó)技術(shù)研究院聯(lián)合采集制作的,其中包含市區(qū)、鄉(xiāng)村和高速公路等場(chǎng)景采集的真實(shí)圖像數(shù)據(jù)。每張圖像中最多達(dá)15 輛車,還有各種程度的遮擋與截?cái)?,每個(gè)車輛特征復(fù)雜,場(chǎng)景多變,可以很好地防止訓(xùn)練過(guò)程中由于標(biāo)記物特征簡(jiǎn)單而導(dǎo)致的過(guò)擬合風(fēng)險(xiǎn)。KITTI數(shù)據(jù)集總共分為7 481張訓(xùn)練集和7 518 張測(cè)試集,總共包含80 256 個(gè)標(biāo)記對(duì)象,龐大的數(shù)據(jù)量能夠支持各種不同算法的驗(yàn)證,為國(guó)內(nèi)外廣大研究人員廣泛使用。
計(jì)算環(huán)境為Ubuntu16.04 操作系統(tǒng),服務(wù)器硬件配置為Intel Xeon Silver 4108 處理器、GPU 型號(hào)為NVIDIA GTX1080Ti 顯卡、32 GB 運(yùn)行內(nèi)存。在Anaconda 下使用tensorflow 深度學(xué)習(xí)框架和Python3.8 編程語(yǔ)言實(shí)現(xiàn)車輛的檢測(cè)網(wǎng)絡(luò),并使用GPU進(jìn)行加速。
在目標(biāo)檢測(cè)方面的評(píng)價(jià)標(biāo)準(zhǔn)主要有精確率P(Precision)、召回率R(Recall)、AP(Average Precision)、網(wǎng)絡(luò)推理時(shí)間(FPS)和模型大小MS(Model Size)。其中,AP是由類別的精確率和召回率所構(gòu)成的曲線下方面積,是充分體現(xiàn)模型泛化能力的重要指標(biāo),AP計(jì)算公式為
式中:P表示精確率;R表示召回率;TP表示正確預(yù)測(cè)為正樣本的數(shù)量;FP表示錯(cuò)誤預(yù)測(cè)為正樣本的數(shù)量;NF表示錯(cuò)誤預(yù)測(cè)為負(fù)樣本的數(shù)量;AP表示各類別PR曲線構(gòu)成的下方面積。
在模型訓(xùn)練的過(guò)程中使用SGD 優(yōu)化方法,模型訓(xùn)練的超參數(shù)設(shè)置:初始學(xué)習(xí)率設(shè)置為0.005,動(dòng)量設(shè)置為0.9,權(quán)重衰減系數(shù)設(shè)置為0.000 5。在實(shí)驗(yàn)的訓(xùn)練和測(cè)試中所設(shè)置的圖片大小設(shè)置為416×416,batch-size 大小設(shè)置為16,epoch 大小設(shè)置為1 000。
為進(jìn)一步驗(yàn)證YOLOV4改進(jìn)抗光照模型中所用到的各模塊對(duì)YOLOV4的優(yōu)化作用,采取消融實(shí)驗(yàn)。首先對(duì)YOLOV4 網(wǎng)絡(luò)進(jìn)行抗光照增強(qiáng),之后將模型的主干網(wǎng)絡(luò)替換成Ghostnet,最后對(duì)Ghostnet 網(wǎng)絡(luò)和損失函數(shù)進(jìn)行改進(jìn)。消融實(shí)驗(yàn)各模型的AP 和性能比對(duì)結(jié)果如圖6和圖7所示。
圖6 各模型AP曲線圖
圖7 性能比對(duì)圖
表1 為YOLOV4 改進(jìn)抗光照模型進(jìn)行的消融實(shí)驗(yàn)結(jié)果,對(duì)各種組合下的算法平均精確度、模型大小和檢測(cè)幀率進(jìn)行對(duì)比。
表1 消融實(shí)驗(yàn)
(1)定量分析
從表1 可以看出,YOLOV4 模型生成的權(quán)重文件大小為256.8 M,AP為92.53%,F(xiàn)PS為34.04 f/s。改進(jìn)模型1 進(jìn)行了抗光照增強(qiáng),輸入數(shù)據(jù)由原來(lái)的RGB 三通道圖像變換RGBS 四通道圖像,并對(duì)網(wǎng)絡(luò)模型進(jìn)行維度統(tǒng)一,導(dǎo)致模型權(quán)重大小輕微增加了6.9 M,F(xiàn)PS輕微變化了0.18 f/s,但AP提升了1.55%,其原因在于KITTI數(shù)據(jù)集本身就有較多的陰影交替的場(chǎng)景,而改進(jìn)模型1 中剛好具有抗光照能力,所以AP有所提升。改進(jìn)模型2 在改進(jìn)模型1 的基礎(chǔ)上將原來(lái)的CSPDarknet53 替換成Ghostnet,由于Ghostnet本身是輕量化網(wǎng)絡(luò),所以改進(jìn)模型2相較于改進(jìn)模型1,其模型權(quán)重大小下降了218.3 M,F(xiàn)PS提高了18.41 f/s,由于上文中提到了原Ghostnet網(wǎng)絡(luò)特征提取不充分的原因,導(dǎo)致了改進(jìn)模型2 的AP下降了5.33%,改進(jìn)模型2 雖然AP下降,但FPS得到了大幅上升,提高了網(wǎng)絡(luò)檢測(cè)的實(shí)時(shí)性。改進(jìn)模型3 在改進(jìn)模型2 的基礎(chǔ)上運(yùn)用本文提到的方法對(duì)Ghostnet 網(wǎng)絡(luò)進(jìn)行了優(yōu)化,使模型相較于改進(jìn)模型2的AP提升了3.87%,模型權(quán)重大小增加了1.1 M,F(xiàn)PS上漲了3.28 f/s。本文模型YOLO-RLG 在改進(jìn)模型3 的基礎(chǔ)上將損失函數(shù)由CIoU 替換為EIoU,使AP提升了0.74%,模型大小沒(méi)有變化,F(xiàn)PS輕微提升0.67 f/s。與原YOLOV4 網(wǎng)絡(luò)模型相比,模型的大小下降了210.3 M,檢測(cè)精度提升了0.83%,F(xiàn)PS提高了22.54 f/s。
(2)定性分析
對(duì)比YOLOV4 與YOLO-RLG 在測(cè)試集上的部分檢測(cè)結(jié)果如圖8所示。圖8(a)和圖8(b)分別是兩個(gè)算法對(duì)同一張圖像進(jìn)行檢測(cè)的結(jié)果??梢钥吹?,YOLOV4 雖然在近處的檢測(cè)結(jié)果很好,但在遠(yuǎn)處光影交錯(cuò)的車輛就無(wú)法識(shí)別到;而YOLO-RLG 能很好識(shí)別近處和遠(yuǎn)處光影交錯(cuò)的車輛。為驗(yàn)證YOLOV4-RLG 能識(shí)別到遠(yuǎn)處的這類車輛不是因?yàn)樗惴ū旧鞟P(平均精確度)高導(dǎo)致的,本文采用了訓(xùn)練還未完成的AP(平均精確度)較低的YOLO-RLG 權(quán)重文件進(jìn)行同一圖像檢測(cè)如圖8(c)所示。結(jié)果顯示,由于AP(平均精確度)較低的原因,近處的識(shí)別效果沒(méi)有YOLOV4 好,但仍然能夠識(shí)別到遠(yuǎn)處光影交錯(cuò)的車輛,充分說(shuō)明了本文算法所具備的抗光照能力。
圖8 KITTI數(shù)據(jù)集測(cè)試結(jié)果
為驗(yàn)證改進(jìn)后的YOLO-RLG 算法的性能優(yōu)勢(shì),將本文提出的算法與前沿的目標(biāo)檢測(cè)算法SSD、Faster-RCNN、EfficientDet、Swin Transformer等網(wǎng)絡(luò)模型在KITTI二維數(shù)據(jù)集上進(jìn)行比對(duì),結(jié)果如表2所示。
表2 YOLO-RLG與其他算法比對(duì)
由表2 可知,YOLO-RLG 相較于Faster-RCNN,由于使用了Ghostnet 改進(jìn)模塊,使其計(jì)算的參數(shù)量遠(yuǎn)小于Faster-RCNN,且實(shí)時(shí)檢測(cè)速度也比其快;與SSD系列相比,在實(shí)時(shí)檢測(cè)速度上與SSD300和SSDMoblienetV3 相當(dāng),但在檢測(cè)精度方面,YOLO-RLG有絕對(duì)優(yōu)勢(shì);與YOLOV5和EfficientDet相比,不管在檢測(cè)精度還是實(shí)時(shí)檢測(cè)速度方面都優(yōu)于二者;最后與Swin Transformer 比較,在檢測(cè)精度上略低于SwinTransformer,但在計(jì)算參數(shù)量上遠(yuǎn)小于Swin Transformer,且實(shí)時(shí)檢測(cè)速度比Swin Transformer快。
為進(jìn)一步驗(yàn)證YOLO-RLG 算法對(duì)不同類型的檢測(cè)目標(biāo)也具備較好的檢測(cè)效果,利用PASCAL VOC 數(shù)據(jù)集對(duì)原YOLOV4 算法和改進(jìn)后的YOLORLG 算法進(jìn)行驗(yàn)證,結(jié)果如圖9 和圖10 所示。其中PASCAL VOC 數(shù)據(jù)集包含20 個(gè)目標(biāo)類別,總計(jì)有16 551 張訓(xùn)練圖像和15 943 張測(cè)試圖。PASCAL VOC 數(shù)據(jù)集是計(jì)算機(jī)視覺(jué)中常用的數(shù)據(jù)集,龐大的數(shù)據(jù)量和多種類別可支持各種不同算法的驗(yàn)證。
圖9 YOLOV4模型多類別檢測(cè)AP柱狀圖
圖10 YOLO-RLG模型多類別檢測(cè)AP柱狀圖
YOLO-RLG 與YOLOV4 在PASCAL VOC 數(shù)據(jù)集上性能對(duì)比數(shù)據(jù)如表3所示。
表3 PASCAL VOC數(shù)據(jù)集驗(yàn)證比對(duì)
由表3 可知,改進(jìn)后的YOLO-RLG 模型檢測(cè)多類別的平均精度(mAP)為92.64%,原YOLOV4 模型檢測(cè)多類別的平均精度(mAP)為91.33%,改進(jìn)后的YOLO-RLG 模型mAP提升了1.31%,且改進(jìn)后的YOLO-RLG 模型在檢測(cè)速度、模型大小、抗光照能力方面均優(yōu)于原YOLOV4 算法。綜上所述,本文的YOLO-RLG 模型相較于其他網(wǎng)絡(luò)模型不僅有較好的檢測(cè)精度,且有較快的檢測(cè)速度,能滿足算法實(shí)時(shí)性要求,且還具備抗光照能力。
為更好解決強(qiáng)光和陰影等干擾因素對(duì)目標(biāo)檢測(cè)的影響,提出了一種基于YOLOV4 的抗光照目標(biāo)檢測(cè)模型YOLO-RLG。首先,從HSV 圖像分離出抗光照能力強(qiáng)的S通道與RGB圖像通道進(jìn)行合并作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,使輸入模型的數(shù)據(jù)既保留了重要的色彩信息又具備抗光照與陰影的能力;其次,為提高模型目標(biāo)檢測(cè)的實(shí)時(shí)性和檢測(cè)精度,對(duì)主干網(wǎng)絡(luò)和損失函數(shù)進(jìn)行改進(jìn),將CSPDarknet53 替換成輕量化模型Ghostnet,并對(duì)Ghostnet 模型進(jìn)行優(yōu)化,使用EIoU 來(lái)消除候選框與真實(shí)框高寬比相同、大小不同所造成的高寬比影響因子失效的影響,加快模型收斂速度和回歸精度,提升模型的魯棒性?;贙ITTI 數(shù)據(jù)集和PASCAL VOC 數(shù)據(jù)集對(duì)模型的性能進(jìn)行實(shí)驗(yàn),結(jié)果表明:提出的方法能滿足目標(biāo)檢測(cè)的實(shí)時(shí)性和檢測(cè)精度要求,并有效提升網(wǎng)絡(luò)的抗光照能力,相比于原YOLOV4網(wǎng)絡(luò)模型,模型的規(guī)模下降了210.3 M,在KITTI 數(shù)據(jù)集上檢測(cè)精度提升了0.83%,F(xiàn)PS 提高了22.54 f/s;在PASCAL VOC 數(shù)據(jù)集上檢測(cè)精度提升了1.31%,F(xiàn)PS提高了17.84 f/s。
改進(jìn)后的YOLO-RLG 算法,雖然在抗光照方面有所提升,但相應(yīng)地增加了網(wǎng)絡(luò)特征提取的復(fù)雜度,如何讓網(wǎng)絡(luò)更加注重目標(biāo)特征,將會(huì)是YOLO-RLG算法未來(lái)提升的方向。