劉凱天,磨少清
低照度交通場(chǎng)景行人檢測(cè)算法研究
劉凱天,磨少清
(天津職業(yè)技術(shù)師范大學(xué) 汽車與交通學(xué)院,天津 300222)
無(wú)人駕駛汽車車載相機(jī)在低照度交通場(chǎng)景下由于光照不足、環(huán)境復(fù)雜導(dǎo)致采集的行人圖像質(zhì)量差,后續(xù)檢測(cè)算法難以保障足夠的檢測(cè)精度。因此,針對(duì)低照度交通場(chǎng)景下行人檢測(cè)效果不好的問(wèn)題,文章提出一種基于改進(jìn)YOLOv4-Tiny的行人檢測(cè)算法。首先,對(duì)骨干網(wǎng)絡(luò)增加了8倍下采樣特征圖輸出,并自下而上的融合深層語(yǔ)義信息和淺層細(xì)節(jié)信息,以增強(qiáng)對(duì)小目標(biāo)的檢測(cè)能力,同時(shí)在不同特征圖融合之前引入注意力機(jī)制模塊,使網(wǎng)絡(luò)更加關(guān)注重點(diǎn)特征信息。其次,使用SPP-Net提高網(wǎng)絡(luò)的感受野和魯棒性。利用K-means聚類算法對(duì)行人目標(biāo)生成新的先驗(yàn)框,用Soft-NMS方法替換掉傳統(tǒng)的非極大值抑制方法。改進(jìn)后的網(wǎng)絡(luò)模型記為YOLO-IPD,實(shí)驗(yàn)表明文章提出的YOLO-IPD模型在自建數(shù)據(jù)集上效果良好。
行人檢測(cè);低照度;YOLOv4-Tiny;注意力機(jī)制;深度學(xué)習(xí)
近年來(lái),由于深度學(xué)習(xí)技術(shù)取得了突破性進(jìn)展,計(jì)算機(jī)視覺(jué)及工業(yè)自動(dòng)化技術(shù)也得到了顯著提升。尤其在智能汽車領(lǐng)域,無(wú)人駕駛更是得到廣泛的關(guān)注,在無(wú)人駕駛的系統(tǒng)中,行人檢測(cè)模塊是極重要的,它是無(wú)人駕駛技術(shù)安全性能的基礎(chǔ)。行人檢測(cè)的方法之一是對(duì)車載相機(jī)采集到的圖像進(jìn)行識(shí)別檢測(cè),然而現(xiàn)實(shí)生活中低照度交通場(chǎng)景下,無(wú)人駕駛汽車車載相機(jī)采集到的行人圖像質(zhì)量差,存在圖像對(duì)比度低、噪聲多、圖像細(xì)節(jié)輪廓可見(jiàn)度低等問(wèn)題。且由于車載相機(jī)安裝位置的限制,導(dǎo)致行人目標(biāo)存在偏小、密集遮擋、外形輪廓復(fù)雜多變等檢測(cè)難點(diǎn),若直接使用通用的目標(biāo)檢測(cè)網(wǎng)絡(luò)難以保障無(wú)人駕駛汽車在低照度復(fù)雜多樣交通場(chǎng)景下的行人檢測(cè)精度要求。
目標(biāo)檢測(cè)算法,主要分為傳統(tǒng)的檢測(cè)算法和基于卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)算法。傳統(tǒng)的檢測(cè)算法如梯度直方圖或支持向量機(jī),主要采用滑動(dòng)窗口檢測(cè)目標(biāo),時(shí)間長(zhǎng)且人工設(shè)計(jì)的特征魯棒性差?;诰矸e神經(jīng)網(wǎng)絡(luò)的算法實(shí)時(shí)性和準(zhǔn)確性高,且由于通過(guò)對(duì)大量樣本特征的學(xué)習(xí)來(lái)完成目標(biāo)檢測(cè),故在面對(duì)復(fù)雜圖像識(shí)別時(shí)有著較好的魯棒性[1]。因此,基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法成為當(dāng)前機(jī)器視覺(jué)領(lǐng)域的主流方法。
基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法包括以 R-CNN[2]與 Faster R-CNN[3-5]等為代表的兩階段目標(biāo)檢測(cè)算法和以YOLO[6-7]和SSD等為代表的由端到端的一階段目標(biāo)檢測(cè)算法。兩階算法使用區(qū)域候選網(wǎng)絡(luò)來(lái)提取候選目標(biāo)信息,區(qū)域建議模塊對(duì)計(jì)算機(jī)內(nèi)存消耗很大;而一階段算法是學(xué)習(xí)從輸入圖像直接到目標(biāo)位置和類別的輸出,沒(méi)有區(qū)域候選環(huán)節(jié),目標(biāo)檢測(cè)被視為回歸問(wèn)題,檢測(cè)速度較快。
本文采用YOLO系列的YOLOv4-Tiny模型作為低照度交通場(chǎng)景下行人檢測(cè)的原始網(wǎng)絡(luò),對(duì)YOLOv4-Tiny模型進(jìn)行改進(jìn)以提高在低照度交通場(chǎng)景下行人檢測(cè)的性能。對(duì)YOLOv4-Tiny網(wǎng)絡(luò)模型的改進(jìn)主要包括:1)增加了8倍下采樣特征圖輸出,并融合深層語(yǔ)義信息和淺層細(xì)節(jié)信息,同時(shí)在不同特征圖融合之前引入注意力機(jī)制模塊,使網(wǎng)絡(luò)更加關(guān)注重點(diǎn)特征信息,從而增強(qiáng)對(duì)小目標(biāo)的檢測(cè)能力。其次,使用SPP-Net提高網(wǎng)絡(luò)的感受野和魯棒性。2)利用K-means聚類算法生成適合自制數(shù)據(jù)集行人目標(biāo)的先驗(yàn)框,用Soft-NMS方法替換掉傳統(tǒng)的非極大值抑制方法,以緩解因行人目標(biāo)密集遮擋而漏檢的問(wèn)題。改進(jìn)后的模型記為YOLO-IPD,該模型較原模型提高了檢測(cè)精度。
YOLOv4-Tiny是YOLOv4的精簡(jiǎn)版,屬于輕量化后的模型,只有600萬(wàn)的參數(shù)相當(dāng)于原來(lái)網(wǎng)絡(luò)的十分之一,檢測(cè)速度更快。由卷積層(Conv)、批量歸一化層(BN)、激活函數(shù)(LeakyReLU)組成基本的特征提取單元(BaseModule),使用CSPDarket53-Tiny作為主干特征提取網(wǎng)絡(luò),CSPDarket53-Tiny由CSPnet堆疊組成,CSPnet由BM單元進(jìn)行殘差嵌套組合再經(jīng)過(guò)最大池化層構(gòu)成。殘差結(jié)構(gòu)能夠緩解隨著網(wǎng)絡(luò)層數(shù)的增加而網(wǎng)絡(luò)性能退化的問(wèn)題。YOLOv4-Tiny僅使用了兩個(gè)特征層進(jìn)行分類與回歸,合并特征層時(shí)使用了特征金字塔網(wǎng)絡(luò)(FPN),如圖1所示。
圖1 YOLOv4-Tiny結(jié)構(gòu)圖
輸入網(wǎng)絡(luò)的圖像,先經(jīng)過(guò)兩層BM單元進(jìn)行初步的特征提取,然后再經(jīng)過(guò)三層CSPnet模塊進(jìn)行32倍下采樣輸出13×13的特征圖,之后再經(jīng)過(guò)BM單元、卷積層、線性激活輸入給第一個(gè)YOLO檢測(cè)頭。從第三個(gè)CSPnet中引出16倍下采樣特征圖,與經(jīng)過(guò)2倍上采樣的特征圖進(jìn)行拼接,融合淺層信息與深層信息,經(jīng)過(guò)卷積與激活輸入給第二個(gè)YOLO檢測(cè)頭。檢測(cè)頭1和檢測(cè)頭2分別處理13×13和26×26大小的特征圖對(duì)不同尺度的目標(biāo)進(jìn)行檢測(cè)。
無(wú)人駕駛汽車車載相機(jī)收集到的低照度的圖像,行人的紋理細(xì)節(jié)信息不明顯,行人圖像多為小目標(biāo),且行人目標(biāo)多具有密集、遮擋的特點(diǎn)。原始的YOLOv4-Tiny網(wǎng)絡(luò)模型,對(duì)特征的提取不夠精細(xì),對(duì)小目標(biāo)的檢測(cè)能力一般,因此,添加一個(gè)檢測(cè)頭以提升網(wǎng)絡(luò)對(duì)小目標(biāo)的檢測(cè)能力,使用特征金字塔算法融合深淺特征層獲得更加豐富的信息,加入SPP-Net模塊增加提取的多尺度特征信息量,引入注意力機(jī)制使模型更加關(guān)注重點(diǎn)信息,使用Soft-NMS緩解密集情況下預(yù)測(cè)框被誤刪的問(wèn)題,從而實(shí)現(xiàn)對(duì)原始模型的改進(jìn)。
SPP-Net能夠?qū)?lái)自不同核大小池化后的特征圖串聯(lián)在一起作為輸出,最大池化核為k={1×1, 5×5, 9×9, 13×13},比單純的使用單個(gè)尺寸核大小的最大池化的方式,更有效地增加網(wǎng)絡(luò)的感受野,提升魯棒性和提取多尺度特征,如圖2所示。
圖2 SPP-Net模塊結(jié)構(gòu)
CBAM(Convolutional Block Attention Mod- ule)是卷積注意力機(jī)制模塊,是結(jié)合了通道(channel)和空間(spatial)兩個(gè)方向的注意力機(jī)制模塊。輸入的特征圖先經(jīng)過(guò)CAM再經(jīng)過(guò)SAM,這樣不僅能夠減少參數(shù)節(jié)約算力,還能即插即用到網(wǎng)絡(luò)的架構(gòu)中,如圖3所示。
圖3 CBAM模塊結(jié)構(gòu)
YOLOv4-Tiny只有兩個(gè)檢測(cè)頭,分別對(duì)13×13,26×26兩種大小的特征圖進(jìn)行檢測(cè),然而自制數(shù)據(jù)集中的行人目標(biāo)大多是小目標(biāo),容易造成漏檢問(wèn)題。32倍下采樣和16倍下采樣特征圖包含高級(jí)的語(yǔ)義信息,然而缺乏行人目標(biāo)的細(xì)節(jié)紋理信息,加之在低照度交通場(chǎng)景下采集到的圖像多為昏暗圖像,本身紋理細(xì)節(jié)信息少,這些都導(dǎo)致原始網(wǎng)絡(luò)對(duì)行人目標(biāo)的檢測(cè)精度低。因此,添加一個(gè)檢測(cè)頭,對(duì)輸出的52×52大小的特征圖進(jìn)行檢測(cè),并自下而上的將三種大小不同的特征圖進(jìn)行融合,從而實(shí)現(xiàn)淺層紋理細(xì)節(jié)信息與深層抽象語(yǔ)義信息融合以提升對(duì)行人目標(biāo)的檢測(cè)精度,如圖4所示。
圖4 YOLO-IPD網(wǎng)絡(luò)
在主干特征提取網(wǎng)絡(luò)與頭部網(wǎng)絡(luò)之間加入SPP-Net以增加網(wǎng)絡(luò)的感受野,26×26和52×52的特征圖檢測(cè)頭都融合深層信息和淺層信息,在融合之前深層信息和淺層信息都經(jīng)過(guò)了CBAM注意力模塊的重點(diǎn)選擇,使模型更關(guān)注重點(diǎn)信息。
傳統(tǒng)的K-means聚類算法采用歐氏距離或曼哈頓距離來(lái)計(jì)算數(shù)據(jù)對(duì)象間的距離,算法的詳細(xì)流程如下:
1)首先確定聚類中心點(diǎn)的個(gè)數(shù),即值;
2)從數(shù)據(jù)集中隨機(jī)選擇個(gè)聚類中心進(jìn)行初始化;
3)計(jì)算數(shù)據(jù)集中其他點(diǎn)與每個(gè)聚類中心點(diǎn)之間的距離(如歐氏距離),將各個(gè)點(diǎn)劃分到距離其較近的聚類中心所在類;
4)更新每個(gè)類的聚類中心;
5)重復(fù)步驟3)和步驟4),直到新計(jì)算出來(lái)的聚類中心和原來(lái)的聚類中心之間的距離小于一個(gè)設(shè)置的閾值,則可以認(rèn)為聚類已經(jīng)達(dá)到期望的結(jié)果。
文中將K-means算法中歐氏測(cè)距法進(jìn)行改進(jìn),根據(jù)交并比(Intersection over Union, IoU)計(jì)算先驗(yàn)框之間的距離,計(jì)算公式為
(,)=1-(,) (1)
式中,為真實(shí)框與先驗(yàn)框之間的距離;為任意一個(gè)真實(shí)框;為先驗(yàn)框;IoU為真實(shí)框與先驗(yàn)框的交集和并集的比值。
原始算法采用傳統(tǒng)的NMS方法,來(lái)確定最后的預(yù)測(cè)框。
式中,為得分最高的預(yù)測(cè)框;b為第個(gè)預(yù)測(cè)框;t為人為設(shè)置的IoU閾值;S為第個(gè)預(yù)測(cè)框的得分。
傳統(tǒng)的NMS方法會(huì)確定得分最大的預(yù)測(cè)框,計(jì)算其他預(yù)測(cè)框與得分最大的預(yù)測(cè)框的交并比,且當(dāng)交并比大于設(shè)置的閾值時(shí)會(huì)將該預(yù)測(cè)框直接刪除。但行人目標(biāo)存在重疊、集群、遮擋的現(xiàn)象,傳統(tǒng)NMS極易粗暴地將相鄰目標(biāo)的預(yù)測(cè)框剔除掉,所以引入Soft-NMS替換掉傳統(tǒng)NMS。
式中,為高斯系數(shù),一般取值為0.5。與式(2)相比,Soft-NMS將IoU大于閾值的部分進(jìn)行改進(jìn),使用了高斯加權(quán),相對(duì)于原NMS直接置0的操作,Soft-NMS對(duì)IoU值大的預(yù)測(cè)框得分進(jìn)行懲罰,重疊面積越大懲罰系數(shù)越高,對(duì)應(yīng)的得分S越小,這樣有利于對(duì)重疊目標(biāo)的檢測(cè),減少漏檢情形。對(duì)于Soft-NMS的高斯系數(shù)實(shí)驗(yàn)證明:設(shè)置為0.35對(duì)自制數(shù)據(jù)集效果最好。
本文實(shí)驗(yàn)在Windows10操作系統(tǒng)下,基于Pytorch深度學(xué)習(xí)框架,配有Intel(R) Xeon(R) CPU E5-2603v4,搭載NVIDIA Quadro P2000的工作站上運(yùn)行。
從BDD100K數(shù)據(jù)集中,篩選出5 400張圖片數(shù)據(jù),這些圖片包含行人目標(biāo),同時(shí)包括了夜間、傍晚、清晨、雨天、霧天、多云等各種低照度復(fù)雜交通場(chǎng)景。包含行人目標(biāo)22 157個(gè),在行人識(shí)別數(shù)據(jù)CityPersons中,將小目標(biāo)定義為了高度小于75像素的目標(biāo),按此標(biāo)準(zhǔn)自建數(shù)據(jù)集小目標(biāo)占比70.19%,且存在大量遮擋狀況。4 374張數(shù)據(jù)劃入訓(xùn)練集,486張數(shù)據(jù)劃入驗(yàn)證集,540張數(shù)據(jù)劃入測(cè)試集。
實(shí)驗(yàn)過(guò)程中,訓(xùn)練的輪數(shù)設(shè)置為350輪;動(dòng)量(momentum)設(shè)置為0.9;權(quán)重衰減(decay)設(shè)置為0.000 5;批量大小(batch size)設(shè)為16;學(xué)習(xí)率(learning rate)最大設(shè)置為0.01,最小設(shè)置為0.000 1;優(yōu)化器選用SGD(Stochastic Gradient Descent)。
目標(biāo)檢測(cè)網(wǎng)絡(luò)有多種評(píng)價(jià)指標(biāo),本文采用以平均精度(Average Precision, AP)值作為評(píng)價(jià)指標(biāo),AP值是以召回率(R)、檢測(cè)精度(P)構(gòu)成的PR曲線下方的面積。
表1是進(jìn)行的消融實(shí)驗(yàn)的結(jié)果,使用改進(jìn)后的K-means聚類算法,模型的AP提高0.92%,同時(shí)使用了改進(jìn)K-means聚類算法和Soft-NMS,模型的AP提高0.51%,最終改進(jìn)后的網(wǎng)絡(luò)模型YOLO- IPD比YOLOv4-Tiny的AP提高2.16%。
表1 消融實(shí)驗(yàn)對(duì)比
表2是在同樣的實(shí)驗(yàn)條件下,驗(yàn)證不同的高斯系數(shù)值對(duì)模型精度的影響,可以看到在不同的高斯系數(shù)值下,模型AP值最大變化0.17%,最小變化0.01%。由表2可知本文算法在高斯系數(shù)取值0.35時(shí)在自制數(shù)據(jù)集上表現(xiàn)最優(yōu)。
表2 高斯系數(shù)對(duì)算法性能的影響
為驗(yàn)證了YOLOv4-Tiny和YOLO-IPD的檢測(cè)效果,選取了部分場(chǎng)景進(jìn)行定性分析,在自制數(shù)據(jù)集上的檢測(cè)結(jié)果可視化如圖5所示。
圖5是在傍晚十字街口的檢測(cè)結(jié)果對(duì)比,可以看出YOLOv4-Tiny在低照度交通場(chǎng)景下,由于距離遠(yuǎn)、行人目標(biāo)小、與周圍的背景差異小且有相互遮擋因而沒(méi)有檢測(cè)到,而YOLO-IPD能夠識(shí)別出遠(yuǎn)處的行人。同時(shí)可以看出由于引入了Soft- NMS,對(duì)于右側(cè)的人群,YOLO-IPD也能很好的檢測(cè)出來(lái),并沒(méi)有漏檢。
(a) 原圖
(b)YOLOv4-Tiny
(c)YOLO-IPD
圖 6 是在不同照度下的檢測(cè)結(jié)果,可以看出照度相對(duì)較好的條件下YOLOv4-Tiny和YOLO-IPD檢測(cè)效果相近,但隨著照度的降低,YOLOv4-Tiny出現(xiàn)了漏檢問(wèn)題,但YOLO-IPD依舊可以保持很好的檢測(cè)效果。
(a) YOLOv4-Tiny不同照度下檢測(cè)結(jié)果
圖7以熱力圖的方式對(duì)比了YOLOv4-Tiny和YOLO-IPD對(duì)重點(diǎn)信息的關(guān)注程度。
(a) YOLOv4-Tiny熱力圖
(b) YOLO-IPD熱力圖
圖7 不同低照度熱力圖對(duì)比
可以看到Y(jié)OLO-IPD因?yàn)橐肓薈BAM注意力機(jī)制更加關(guān)注重點(diǎn)信息,對(duì)行人的檢測(cè)效果更好。
針對(duì)低照度交通場(chǎng)景下行人檢測(cè)存在目標(biāo)小、集群遮擋以及檢測(cè)精度低的問(wèn)題,基于輕量化的YOLOv4-Tiny網(wǎng)絡(luò)模型,改進(jìn)K-means聚類方法重新生成先驗(yàn)框以及引入Soft-NMS非極大值抑制,并在網(wǎng)絡(luò)結(jié)構(gòu)上添加一個(gè)檢測(cè)頭以提升對(duì)小目標(biāo)的檢測(cè)效果,引入注意力機(jī)制關(guān)注重點(diǎn)信息,而且自下而上的融合特征信息,提出了YOLO-IPD網(wǎng)絡(luò)。YOLO-IPD網(wǎng)絡(luò)在自制數(shù)據(jù)集上訓(xùn)練測(cè)試,與YOLOv4-Tiny相比AP提高了2.16%,在很低的照度環(huán)境下依舊有良好的檢測(cè)性能。但在行人目標(biāo)的定位上還有許多不足,離實(shí)際應(yīng)用所需要的精度還有一定的距離。
[1] 楊偉,杜學(xué)峰,張勇,等.基于深度學(xué)習(xí)的車輛目標(biāo)檢測(cè)算法綜述[J].汽車實(shí)用技術(shù),2022,47(2):24-26.
[2] UIJLINGS J R R, DE SANDE K E A V, GEVERS T, et al.Selective Search for Object Recognition[J].Inte- rnational Journal of Computer Vision,2013(104):154- 171.
[3] GIRSHICK R.Fast R-CNN[C]//Proc of the IEEE Inte- rnational Conference on Computer Vision.Piscataway: IEEE,2015:1440-1448.
[4] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca- taway:IEEE,2014:580-587.
[5] REN S,HE K,GIRSHICK R,et al.Faster R-CNN:Tow- ards Realtime Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,39(6):1137-1149.
[6] REDMON J,FARHADI A.YOLOv3:An Incremental Improvement[J].ArXiv E-prints,2018:02767.
[7] BOCHKOVSKIY A,WANG C Y,LIAO H Y M. YOLOv4: Optimal Speed and Accuracy of Object Detection[J]. 2020:10934.
Research on Pedestrian Detection Algorithms in Low Illumination Traffic Scenes
LIU Kaitian, MO Shaoqing
( School of Automobile and Transportation, Tianjin University of Technology and Education, Tianjin 300222, China )
The quality of pedestrian images collected by autonomous vehicle mounted cameras in low illumination traffic scenes is poor due to insufficient lighting and complex environments, and subsequent detection algorithms are difficult to ensure sufficient detection accuracy. Therefore, in response to the problem of poor pedestrian detection performance in low illumination traffic scenes, this paper proposes a pedestrian detection algorithm based on improved YOLOv4-Tiny. First of all, the output of 8 times down sampling feature map is increased for the backbone network, and the deep semantic information and shallow semantic information are fused from bottom to top to enhance the detection ability for small targets. At the same time, the attention mechanism module is introduced before the fusion of different feature maps, making the network pay more attention to key feature information. Secondly, SPP-Net is used to improve the Receptive field and robustness of the network. Using K-means clustering algorithm to generate a new prior box for pedestrian targets, replacing traditional non maximum suppression methods with Soft-NMS method. The improved network model is labeled YOLO-IPD, and experiments have shown that the YOLO-IPD model proposed in the article performs well on a self built dataset.
Pedestrian detection; Low illumination; YOLOv4-Tiny; Attention mechanism; Deep learning
TP391
A
1671-7988(2023)22-43-06
10.16638/j.cnki.1671-7988.2023.022.009
劉凱天(1999-),男,碩士研究生,研究方向?yàn)槟繕?biāo)檢測(cè),E-mail:1771623181@qq.com。
國(guó)家重點(diǎn)研發(fā)計(jì)劃課題(2016YFB0101104);天津市重點(diǎn)研發(fā)計(jì)劃科技支撐重點(diǎn)項(xiàng)目(18YFJLCG00130)。