亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于YOLO 的多模態(tài)加權(quán)融合行人檢測(cè)算法

2021-08-20 04:54:24施政，毛力，孫俊

計(jì)算機(jī)工程 2021年8期

施政，毛力，孫俊

（江南大學(xué)人工智能與計(jì)算機(jī)學(xué)院，江蘇無(wú)錫 214122）

0 概述

行人檢測(cè)［1-3］作為目標(biāo)檢測(cè)中的重要任務(wù)，在無(wú)人駕駛、視頻監(jiān)控等領(lǐng)域得到廣泛應(yīng)用。傳統(tǒng)的行人檢測(cè)方法主要使用人工設(shè)計(jì)的梯度方向直方圖（Histogram of Oriented Gradients，HOG）［4］、小波變換（Haar）［5］、聚合通道特征（Aggregated Channel Features，ACF）［6］等特征提取器來(lái)提取行人特征，并使用支持向量機(jī)（Support Vector Machines，SVM）［7］、自適應(yīng)提升（Adaptive Boosting，AdaBoost）［8］等分類(lèi)器來(lái)判斷區(qū)域是否有目標(biāo)。隨著深度學(xué)習(xí)的不斷發(fā)展，F(xiàn)aster-RCNN（Faster Region-based Convolutional Neural Networks）［9］、SSD（Single Shot Detection）［10］、YOLO（You Only Look Once）［11］等目標(biāo)檢測(cè)算法相繼被提出，使得行人檢測(cè)方法得到較快發(fā)展［12-14］。但是，此類(lèi)可見(jiàn)光單模態(tài)檢測(cè)算法無(wú)法應(yīng)對(duì)光照不足的情況，從而導(dǎo)致行人檢測(cè)模型在夜間表現(xiàn)效果不佳。如何提高行人檢測(cè)模型在光照不足情況下的魯棒性是亟待解決的問(wèn)題。

紅外相機(jī)基于紅外光反射成像，在夜間光照不足條件下也能獲取到圖片的特征，其能夠?qū)梢?jiàn)光模態(tài)進(jìn)行信息補(bǔ)充，使得夜間行人檢測(cè)［15］成為可能。但是，由于紅外光圖像的紋理信息較少，在光照良好的條件下，可見(jiàn)光模態(tài)行人檢測(cè)模型效果更優(yōu)。因此，近年來(lái)有大量紅外光與可見(jiàn)光多模態(tài)相融合的行人檢測(cè)算法被提出。文獻(xiàn)［16］提出KAIST 數(shù)據(jù)集，其包括一一匹配的可見(jiàn)光和紅外光圖片，該文提出可見(jiàn)光與紅外光融合的ACF+T+THOG（Aggregated Channel Features+Thermal+Thermal Histogram of Oriented Gradients）行人檢測(cè)器，實(shí)驗(yàn)結(jié)果表明，融合后的行人檢測(cè)器在性能上優(yōu)于可見(jiàn)光或紅外光的單模態(tài)行人檢測(cè)器，但是，因?yàn)槠涫褂脗鹘y(tǒng)方法，檢測(cè)準(zhǔn)確率依然太低。文獻(xiàn)［17］使用深度卷積神經(jīng)網(wǎng)絡(luò)，并提出前期融合（Early Fusion）和后期融合（Late Fusion）2種特征融合策略。文獻(xiàn)［18］進(jìn)一步探討基于深度卷積神經(jīng)網(wǎng)絡(luò)的可見(jiàn)光與紅外光圖像特征融合結(jié)構(gòu)，并提出比前期融合和后期融合更好的中層融合（Halfway Fusion），再次提升了檢測(cè)性能。文獻(xiàn)［19］在Halfway Fusion 的基礎(chǔ)上使用區(qū)域推薦網(wǎng)絡(luò)（Region Proposal Network，RPN）作為特征提取模塊，并使用BDT（Boosted Decision Trees）進(jìn)行分類(lèi)，提升了行人檢測(cè)器的性能。但是，上述多模態(tài)行人檢測(cè)算法在進(jìn)行特征提取時(shí)忽略了行人圖像的多尺度問(wèn)題，只對(duì)單獨(dú)的特征層進(jìn)行融合，這使得算法對(duì)多尺度行人尤其是小目標(biāo)行人的檢測(cè)效果不佳。此外，這些算法所使用的融合方案為簡(jiǎn)單的concat 級(jí)聯(lián)融合，忽略了白天和夜晚不同光照條件下各模態(tài)的特征信息差異，導(dǎo)致檢測(cè)效果較差。

本文在YOLO 算法的基礎(chǔ)上，提出針對(duì)可見(jiàn)光和紅外光雙模態(tài)輸入的行人檢測(cè)算法，并對(duì)其他算法模態(tài)融合時(shí)所使用的concat 級(jí)聯(lián)融合進(jìn)行改進(jìn)，設(shè)計(jì)結(jié)合注意力機(jī)制的模態(tài)加權(quán)融合方法。

1 YOLO 算法

本節(jié)對(duì)YOLO 算法進(jìn)行介紹，包括其進(jìn)行目標(biāo)檢測(cè)的基本原理和用于特征提取的Darknet53 框架網(wǎng)絡(luò)結(jié)構(gòu)?；赮OLO 網(wǎng)絡(luò)的檢測(cè)方法直接從圖像中提取特征，再端到端地回歸以得到結(jié)果。Darknet53 通過(guò)1×1 和3×3 卷積核的交替堆疊來(lái)完成特征提取，通過(guò)步長(zhǎng)為2 的卷積核完成下采樣過(guò)程。

1.1 YOLO 算法原理

YOLO 將輸入圖片縮放為416×416，再分成S×S的網(wǎng)格，待檢測(cè)目標(biāo)的中心落入某個(gè)網(wǎng)格時(shí)，由該網(wǎng)格預(yù)測(cè)出B個(gè)邊框。若有C類(lèi)的待檢測(cè)物體，則每個(gè)邊框輸出的向量大小為C+5，5 代表形如T=(x，y，w，h，S)的五元組，(x，y)為物體中心的橫縱坐標(biāo)，(w，h)為物體的寬高，S代表預(yù)測(cè)框的置信度評(píng)分，其計(jì)算方式為：

當(dāng)預(yù)測(cè)框中存在物體時(shí)，P(O)=1；否則，P(O)=0。I代表預(yù)測(cè)框和真實(shí)框的交并比，P(Ci)代表物體存在時(shí)該物體屬于C類(lèi)物體中的第i個(gè)的概率。在獲得每個(gè)邊框的置信度評(píng)分之后設(shè)置閾值，使用非極大性抑制算法（NMS）進(jìn)行處理，將得分小于閾值的置為0，將置信度評(píng)分S較高的預(yù)測(cè)框作為檢測(cè)框。

1.2 Darknet53 網(wǎng)絡(luò)

Darknet53 是REDMON J 在YOLOv3［20］中提出的用于特征提取的主干網(wǎng)絡(luò)，網(wǎng)絡(luò)的基本單元由卷積層、批歸一化層（Batch Normalization）和Leaky ReLU 激活函數(shù)組成，其加深了網(wǎng)絡(luò)層數(shù)，增強(qiáng)了特征提取能力，又借鑒了殘差網(wǎng)絡(luò)residual network［21］，能夠避免由于網(wǎng)絡(luò)層數(shù)過(guò)深導(dǎo)致的模型退化問(wèn)題。網(wǎng)絡(luò)結(jié)構(gòu)中有5 個(gè)殘差模塊，分別為{Block1，Block2，Block3，Block4，Block5}，每個(gè)殘差模塊記為Resn，其中，包含n個(gè)殘差單元。Darknet53 網(wǎng)絡(luò)參數(shù)如圖1 所示。

圖1 Darknet53 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of Darknet53

2 行人檢測(cè)模型構(gòu)建

在本文所提基于YOLO 的多模態(tài)加權(quán)融合行人檢測(cè)算法模型中，先進(jìn)行多模態(tài)特征提取，再對(duì)提取后的特征進(jìn)行特征加權(quán)融合和注意力機(jī)制加強(qiáng)，最后使用多尺度的特征圖進(jìn)行目標(biāo)檢測(cè)，以預(yù)測(cè)出行人目標(biāo)的位置和概率。

行人檢測(cè)算法模型整體流程框架如圖2 所示。選取一一對(duì)應(yīng)的可見(jiàn)光與紅外光圖片作為輸入，分別送入特征提取網(wǎng)絡(luò)Darknet53 中，提取出2 個(gè)模態(tài)的多尺度特征圖，并將提取后的特征依次送入模態(tài)加權(quán)融合層MAM中進(jìn)行模態(tài)加權(quán)融合，再將融合結(jié)果送入CBAM（Convolutional Block Attention Module）模塊進(jìn)行注意力機(jī)制加強(qiáng)。在完成以上2 個(gè)步驟后，可以獲得多尺度的加權(quán)融合特征圖，最后將多尺度的加權(quán)融合特征圖依次級(jí)聯(lián)并送入YOLO 層完成目標(biāo)檢測(cè)任務(wù)。本文算法對(duì)YOLO 的輸入端進(jìn)行修改，使得模型可以使用一一對(duì)應(yīng)的多模態(tài)圖像對(duì)作為輸入，為了對(duì)不同模態(tài)的特征圖進(jìn)行加權(quán)融合，使用模態(tài)加權(quán)融合模塊MAM和注意力機(jī)制模塊CBAM。

圖2 基于YOLO 的多模態(tài)加權(quán)融合行人檢測(cè)算法流程Fig.2 Procedure of YOLO-based multi-modal weighted fusion pedestrian detection algorithm

2.1 多模態(tài)特征提取

本文使用雙路Darknet53 作為特征提取網(wǎng)絡(luò)，提取可見(jiàn)光圖片特征的部分記為Darknet-V，提取紅外光圖片特征的部分記為Darknet-I。對(duì)于大小為416×416 的輸入圖片，特征提取網(wǎng)絡(luò)的2 個(gè)分支分別在Block3、Block4、Block5 后獲得3 個(gè)多尺度特征圖，可見(jiàn)光模態(tài)的特征圖記為{V1，V2，V3}，紅外光模態(tài)的特征圖記為{I1，I2，I3}。將所得的可見(jiàn)光模態(tài)特征和紅外光模態(tài)特征送入特征融合模塊Fusion 中進(jìn)行融合，融合結(jié)果為{M1，M2，M3}，特征提取模塊架構(gòu)如圖3 所示。

圖3 特征提取模塊架構(gòu)Fig.3 Architecture of feature extraction module

2.2 特征融合模塊

從圖4 的白天可見(jiàn)光-紅外光行人圖像對(duì)和圖5的夜晚可見(jiàn)光-紅外光行人圖像對(duì)可以看出，白天可見(jiàn)光圖片中行人目標(biāo)紋理清晰，特征豐富，紅外光行人目標(biāo)僅具有輪廓信息，而夜晚在光照不充分的條件下，可見(jiàn)光圖片行人目標(biāo)難以辨認(rèn)，紅外光圖片行人特征明顯易于識(shí)別。在白天、夜晚不同的光照環(huán)境下，2 個(gè)模態(tài)的數(shù)據(jù)呈現(xiàn)出不同的特點(diǎn)，因此，要針對(duì)不同模態(tài)的數(shù)據(jù)設(shè)置加權(quán)特征融合模塊。

圖4 白天場(chǎng)景中行人目標(biāo)的可見(jiàn)光和紅外光圖像Fig.4 Visible and infrared images of pedestrian targets in daytime scenes

圖5 夜晚場(chǎng)景中行人目標(biāo)的可見(jiàn)光和紅外光圖像Fig.5 Visible and infrared images of pedestrian targets in nighttime scenes

其他的多模態(tài)融合行人檢測(cè)算法采用直接concat的級(jí)聯(lián)融合方式［17-19］，這種做法默認(rèn)了2 個(gè)模態(tài)提供的信息相等。本文先通過(guò)NIN（Network in Network）［22］層對(duì)可見(jiàn)光模態(tài)特征圖與紅外光模態(tài)特征圖進(jìn)行維度壓縮，然后使用圖6 所示的MAM（Modal Attention Module）模塊對(duì)2 個(gè)模態(tài)的特征圖進(jìn)行加權(quán)，再對(duì)加權(quán)后的2 個(gè)模態(tài)特征圖實(shí)現(xiàn)級(jí)聯(lián)，以在賦予不同模態(tài)權(quán)重的情況下保證融合特征圖的通道數(shù)和單模態(tài)特征圖的通道數(shù)相等，使得模型可以重用后續(xù)目標(biāo)檢測(cè)模塊中的參數(shù)?？梢?jiàn)光多尺度特征圖記為{V1，V2，V3}，紅外光多尺度特征圖記為{I1，I2，I3}，MAM 層的2個(gè)輸入Vnin和Inin分別代表可見(jiàn)光模態(tài)和紅外光模態(tài)經(jīng)過(guò)NIN 層壓縮后的特征圖。fnin是NIN 函數(shù)，即通過(guò)1×1 卷積核對(duì)特征圖進(jìn)行降維，完成各模態(tài)在不同通道上的信息整合。fcat是concat融合函數(shù)。模態(tài)注意力機(jī)制獲得了可見(jiàn)光模態(tài)的特征描述符Aν和紅外光模態(tài)的特征描述符Ai，相加后記為Am，將2 個(gè)模態(tài)的特征描述符分別除以特征描述符之和Am，作為各自模態(tài)的權(quán)重，與特征圖相乘后再級(jí)聯(lián)融合，作為加權(quán)融合特征圖，3 個(gè)尺度的加權(quán)融合特征圖記為{M1，M2，M3}，則每個(gè)尺度的加權(quán)融合特征圖為：

圖6 MAM 注意力機(jī)制結(jié)構(gòu)Fig.6 The structure of MAM attention mechanism

2.3 CBAM 注意力機(jī)制

在通過(guò)MAM 層對(duì)特征圖進(jìn)行加權(quán)融合之后，加入CBAM 注意力機(jī)制［23］，以?xún)?yōu)化特征融合模塊，對(duì)特征圖的通道和空間進(jìn)行選擇。CBAM 層的輸入為多尺度加權(quán)融合特征圖{M1，M2，M3}，經(jīng)過(guò)注意力機(jī)制加強(qiáng)后輸出的多尺度加權(quán)融合注意力特征圖記為{MA1，MA2，MA3}，每個(gè)尺度的特征圖為：

其中，fsam代表空間注意力機(jī)制，fcam代表通道注意力機(jī)制。上述特征圖用于后續(xù)的多尺度目標(biāo)檢測(cè)。如圖7所示，CBAM是一種結(jié)合通道（Channel）和空間（Spatial）的注意力機(jī)制模塊，加在每個(gè)特征融合模塊之后。

圖7 CBAM 注意力機(jī)制結(jié)構(gòu)Fig.7 The structure of CBAM attention mechanism

加權(quán)融合特征圖的通道分別來(lái)自可見(jiàn)光特征圖和紅外光特征圖，通道注意力機(jī)制（Channel Attention Module）可以利用通道間的關(guān)系學(xué)習(xí)一個(gè)權(quán)重，將其乘以對(duì)應(yīng)的通道，以實(shí)現(xiàn)在不同模態(tài)之間的特征選擇。在通道注意力機(jī)制中，輸入的多模態(tài)融合特征圖F的通道數(shù)為C，高為H，寬為W，記為F∈?C×H×W。通道注意力機(jī)制先對(duì)F進(jìn)行全局平均池化（Avgpool）和最大池化（Maxpool），得到2 個(gè)大小為C×1×1 的特征描述符，將其分別送入一個(gè)2 層的神經(jīng)網(wǎng)絡(luò)MLP 中，將輸出的特征相加后獲得通道注意力權(quán)重，與原來(lái)的特征圖F相乘得到新特征F′：

空間注意力機(jī)制（Spatial Attention Module）利用不同空間位置之間的關(guān)系學(xué)習(xí)空間權(quán)重圖，并將其與對(duì)應(yīng)的空間位置相乘，可以加強(qiáng)圖像對(duì)中的目標(biāo)遮擋、光照不足等特征較弱部分的學(xué)習(xí)。以經(jīng)過(guò)通道注意力機(jī)制加強(qiáng)的特征圖F′∈?C×H×W作為輸入，進(jìn)行通道維度的平均池化和最大池化，得到2 個(gè)1×H×W的特征描述，將其拼接在一起之后經(jīng)過(guò)7×7的卷積核獲得空間注意力權(quán)重，與輸入的特征圖F′相乘得到F″，F(xiàn)″即為融合特征圖，如下：

完整的特征融合模塊如圖8 所示，其中，V代表可見(jiàn)光特征圖，I代表紅外光特征圖，M代表融合特征圖，MA代表經(jīng)過(guò)注意力機(jī)制加強(qiáng)后的融合特征圖。

圖8 特征融合模塊結(jié)構(gòu)Fig.8 Feature fusion module structure

2.4 多尺度目標(biāo)檢測(cè)

在獲得了經(jīng)過(guò)注意力機(jī)制加強(qiáng)后的可見(jiàn)光與紅外光融合的多尺度特征圖之后，將特征圖依次融合并送入YOLO 層進(jìn)行目標(biāo)檢測(cè)。{MA1，MA2，MA3}代表3 個(gè)尺度的注意力加權(quán)融合特征圖，在獲得MA1之后，經(jīng)過(guò)數(shù)個(gè)卷積層，將大小為13×13 的特征圖送入YOLO1，感受野較大，應(yīng)用于大尺度目標(biāo)的檢測(cè)；隨后進(jìn)行上采樣，并與經(jīng)過(guò)數(shù)個(gè)卷積層的MA2特征圖結(jié)果進(jìn)行concat，再經(jīng)過(guò)卷積獲得大小為26×26 的特征圖，此特征圖送入YOLO2，用于中等尺度目標(biāo)的檢測(cè)；最后再將特征圖上采樣并和經(jīng)過(guò)數(shù)個(gè)卷積層的MA3進(jìn)行concat，經(jīng)過(guò)數(shù)個(gè)卷積層之后獲得大小為52×52 的特征圖并送入YOLO3，此特征圖感受野較小，用于小目標(biāo)的檢測(cè)。經(jīng)過(guò)以上過(guò)程，模型針對(duì)多尺度行人的檢測(cè)能力有所提升，多尺度目標(biāo)檢測(cè)網(wǎng)絡(luò)整體架構(gòu)如圖9 所示，DBL 即1.2 節(jié)所述的網(wǎng)絡(luò)基本單元，UP 為上采樣模塊，Conv 為卷積層。

圖9 多尺度目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)Fig.9 Multi-scale target detection network structure

3 實(shí)驗(yàn)結(jié)果與分析

本文實(shí)驗(yàn)環(huán)境設(shè)置如下：CPU 型號(hào)為I7-5930k，內(nèi)存為32 GB，顯卡為GeForce 1080 Ti，顯存為11 GB。在該實(shí)驗(yàn)環(huán)境下本文檢測(cè)器的檢測(cè)速度達(dá)到19.8 frame/s，具有一定的實(shí)時(shí)性。

3.1 數(shù)據(jù)集與評(píng)價(jià)標(biāo)準(zhǔn)

本文使用KAIST 公開(kāi)數(shù)據(jù)集訓(xùn)練和評(píng)價(jià)行人檢測(cè)模型，KAIST［16］數(shù)據(jù)集是由HWANG 等人建立的可見(jiàn)光圖片與紅外光圖片一一對(duì)應(yīng)的數(shù)據(jù)集，圖片尺寸為640 像素×512 像素，有白天、夜晚2 種場(chǎng)景，其中包含多尺度、被遮擋、光照條件不足等復(fù)雜環(huán)境下的行人目標(biāo)。實(shí)驗(yàn)過(guò)程中使用平均精度（Average Precision，AP）作為評(píng)價(jià)指標(biāo)，當(dāng)檢測(cè)框和任一標(biāo)簽框的IOU 大于等于50%時(shí)記為正確檢測(cè)樣本，IOU小于50%時(shí)則記為誤檢樣本，若標(biāo)簽框與任一檢測(cè)框的IOU 都不大于50%時(shí)記為漏檢樣本。

3.2 實(shí)驗(yàn)參數(shù)設(shè)置

本文基于深度學(xué)習(xí)框架pytorch 構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)，設(shè)置每批訓(xùn)練可見(jiàn)光-紅外光圖片對(duì)數(shù)為B=4，采用隨機(jī)梯度下降法（SGD）進(jìn)行訓(xùn)練。初始學(xué)習(xí)率設(shè)為0.001，隨著訓(xùn)練輪次的增加，減小學(xué)習(xí)率為0.000 1以接近模型最優(yōu)解。由于YOLO 算法默認(rèn)anchor 的尺寸是在COCO 數(shù)據(jù)集中得到的，不適用于行人檢測(cè)任務(wù)，行人目標(biāo)多為狹長(zhǎng)的個(gè)體，因此本文通過(guò)聚類(lèi)算法得到尺寸分別為［48，157］［34，104］［84，50］、［27，80］［26，63］［25，40］、［18，54］［16，44］［13，24］的anchor 并作為大、中、小行人目標(biāo)的檢測(cè)框。

3.3 不同融合策略對(duì)比實(shí)驗(yàn)結(jié)果

不同融合策略的精度對(duì)比實(shí)驗(yàn)結(jié)果如表1 所示，其中，concat 代表其他多模態(tài)行人檢測(cè)算法常用的直接concat 融合方法，MAM 代表本文融合模塊所使用的模態(tài)加權(quán)融合方法，MAM+CBAM 代表在MAM 算法中加入了CBAM 注意力機(jī)制。

表1 不同融合模塊對(duì)比實(shí)驗(yàn)結(jié)果Table 1 Comparison experiment results of different fusion modules %

通過(guò)表1 可以看出，本文使用的加權(quán)融合機(jī)制較其他算法使用的直接concat 方法有較大性能提升，CBAM 注意力機(jī)制也對(duì)多模態(tài)行人檢測(cè)任務(wù)有所幫助。

白天部分檢測(cè)效果如圖10 所示，夜晚部分檢測(cè)效果如圖11 所示，上排為直接concat 的檢測(cè)結(jié)果，下排為MAM+CBAM 的檢測(cè)結(jié)果，圖中矩形為檢測(cè)結(jié)果框，橢圓形為漏檢的行人目標(biāo)。圖10 中因?yàn)槟繕?biāo)過(guò)小和互相遮擋而難以檢測(cè)的目標(biāo)被準(zhǔn)確檢測(cè)，圖11 中因?yàn)樾腥四繕?biāo)過(guò)于密集、衣服顏色與背景顏色過(guò)于接近而導(dǎo)致的特征較弱的目標(biāo)也都被檢測(cè)出來(lái)，證明本文算法所進(jìn)行的特征加權(quán)融合和注意力機(jī)制能夠提升行人檢測(cè)器的性能。

圖10 不同融合方法在白天時(shí)的檢測(cè)結(jié)果對(duì)比Fig.10 Comparison of detection results of different fusion methods in daytime

圖11 不同融合方法在夜晚時(shí)的檢測(cè)結(jié)果對(duì)比Fig.11 Comparison of detection results of different fusion methods at night

本文算法與其他可見(jiàn)光與紅外光融合的行人檢測(cè)算法的對(duì)比結(jié)果如表2 所示，其中，各對(duì)比算法的結(jié)果來(lái)自文獻(xiàn)［24］。通過(guò)表2 可以看出，本文算法的精度較對(duì)比算法有所提升，且在準(zhǔn)確率接近的算法中本文算法的速度有較大優(yōu)勢(shì)。

表2 不同多模態(tài)算法的檢測(cè)結(jié)果對(duì)比Table 2 Comparison of detection results of different multi-modal algorithms

3.4 與單模態(tài)行人檢測(cè)算法的對(duì)比實(shí)驗(yàn)結(jié)果

將僅使用可見(jiàn)光進(jìn)行行人檢測(cè)的算法記為YOLOVis，在面對(duì)光照不足的問(wèn)題時(shí)，有學(xué)者通過(guò)曝光增強(qiáng)［25-26］的方式對(duì)低照度圖像進(jìn)行預(yù)處理，將對(duì)圖片曝光增強(qiáng)后再進(jìn)行行人檢測(cè)的算法記為YOLO-Enhancement。將本文多模態(tài)加權(quán)融合行人檢測(cè)算法與上述2 種算法進(jìn)行對(duì)比，結(jié)果如表3 所示。

表3 3 種算法性能對(duì)比結(jié)果Table 3 Performance comparison results of three algorithms

從表3 可以看出，可見(jiàn)光單模態(tài)行人檢測(cè)算法在速度上具備優(yōu)勢(shì)，但在精度上不如本文多模態(tài)加權(quán)融合算法，尤其是在夜晚，其表現(xiàn)效果較差。在對(duì)圖片進(jìn)行曝光增強(qiáng)的預(yù)處理后算法精度有所提高，但精度仍然低于利用了紅外光信息作為補(bǔ)充的本文算法。

本文算法與單模態(tài)算法的部分實(shí)驗(yàn)結(jié)果如圖12所示。其中，第1排為YOLO-Vis及YOLO-Enhancement 的檢測(cè)結(jié)果，第2 排為本文算法的檢測(cè)結(jié)果。圖中矩形為檢測(cè)結(jié)果框，橢圓形為漏檢的行人目標(biāo)。從檢測(cè)結(jié)果可看出，對(duì)于白天由于陰影而導(dǎo)致目標(biāo)亮度不足的行人，曝光增強(qiáng)后有效提升了其辨識(shí)度。在夜晚圖片中，曝光增強(qiáng)雖然提升了亮度，使得最左方黑衣行人區(qū)別于黑夜背景，變得更加清晰，但最右方靠近車(chē)燈的小目標(biāo)行人由于車(chē)燈亮度干擾而無(wú)法有效提高辨識(shí)度，然而利用了紅外光信息作為補(bǔ)充的本文多模態(tài)行人檢測(cè)算法可以有效識(shí)別出目標(biāo)。

圖12 3 種算法檢測(cè)結(jié)果對(duì)比Fig.12 Comparison of detection results of three algorithms

3.5 算法泛化能力分析

為驗(yàn)證本文算法的泛化能力，使用僅在KAIST 數(shù)據(jù)集上訓(xùn)練得到的模型，在OTCBVS Benchmark Dataset數(shù)據(jù)集［27］的子數(shù)據(jù)集OSU Color-Thermal Database 上進(jìn)行驗(yàn)證，該數(shù)據(jù)集中包含一一對(duì)應(yīng)的可見(jiàn)光與紅外光圖像對(duì)，圖像尺寸為320 像素×240 像素，由2 組固定的監(jiān)控?cái)z像頭拍攝所得。部分實(shí)驗(yàn)結(jié)果如圖13 所示，從檢測(cè)結(jié)果可以看出，對(duì)于被樹(shù)枝遮擋和陰影中的行人，本文算法依然可以將其檢測(cè)出來(lái)，證明本文算法具備一定的泛化能力。但是，由于未在驗(yàn)證集中進(jìn)行訓(xùn)練，且驗(yàn)證集使用的圖片大小僅為訓(xùn)練所用圖片的23%，導(dǎo)致部分小目標(biāo)檢測(cè)效果不佳。

圖13 OTCBVS 數(shù)據(jù)集上的檢測(cè)結(jié)果Fig.13 Detection results on the OTCBVS dataset

4 結(jié)束語(yǔ)

為解決可見(jiàn)光圖片在光照不足、信息缺失情況下檢測(cè)效果不佳的問(wèn)題，本文基于YOLO 算法提出一種可見(jiàn)光與紅外光融合的行人檢測(cè)算法。對(duì)傳統(tǒng)檢測(cè)算法常用的級(jí)聯(lián)融合方式進(jìn)行改進(jìn)，引入模態(tài)加權(quán)融合層MAM 和CBAM 注意力機(jī)制。實(shí)驗(yàn)結(jié)果表明，在KAIST 多模態(tài)行人檢測(cè)數(shù)據(jù)集上使用級(jí)聯(lián)融合時(shí)，AP值為82.78%（全天）、83.31%（白天）和82.24%（夜晚），在使用本文結(jié)合注意力機(jī)制的模態(tài)加權(quán)融合時(shí)，AP 值達(dá)到92.60%（全天）、93.39%（白天）和91.54%（夜晚）。本文算法在1080Ti上的檢測(cè)速度可達(dá)19.8FPS，但與單模態(tài)行人檢測(cè)算法的檢測(cè)速度（35.7FPS）之間仍然存在一定的差距，因此，下一步將對(duì)模型進(jìn)行壓縮，構(gòu)造更好的輕量級(jí)網(wǎng)絡(luò)結(jié)構(gòu)用于模型訓(xùn)練，從而提升網(wǎng)絡(luò)模型的實(shí)時(shí)性。