亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        夜間多場(chǎng)景的鄰近感知實(shí)時(shí)行人檢測(cè)算法

        2023-09-26 04:21:44龔安李中浩梁辰宏
        關(guān)鍵詞:行人卷積特征

        龔安,李中浩*,梁辰宏

        1.中國(guó)石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,青島 266580;2.廈門大學(xué)信息學(xué)院,廈門 361104

        0 引言

        行人檢測(cè)是計(jì)算機(jī)視覺任務(wù)的熱點(diǎn)問題,也是自動(dòng)駕駛輔助系統(tǒng)、視覺監(jiān)控和行為識(shí)別等領(lǐng)域的關(guān)鍵性技術(shù)。在交通環(huán)境中,行人以及騎車的人群屬于“道路弱勢(shì)群體”,根據(jù)世界衛(wèi)生組織(World Health Organization,WHO)的統(tǒng)計(jì)數(shù)據(jù),死于交通事故的人群中,行人的數(shù)量約占總死亡人數(shù)的一半(Toroyan,2009)。除了客觀交通因素,夜間光照條件差也成為誘發(fā)交通事故的重要原因。因此,夜間行人檢測(cè)技術(shù)對(duì)保障行人安全具有重要的研究?jī)r(jià)值和社會(huì)價(jià)值。不同于常規(guī)檢測(cè)對(duì)象(如汽車)具有相對(duì)穩(wěn)定的結(jié)構(gòu)特征,行人的不同肢體活動(dòng)表現(xiàn)出結(jié)構(gòu)不穩(wěn)定的非剛性特性,這給檢測(cè)帶來了更多挑戰(zhàn)。

        早期,利用方向梯度直方圖(histogram of oriented gradients,HOG)建模人類特征,配合支持向量機(jī)(support vector machine,SVM)作為特征分類器的行人檢測(cè)策略得到了廣泛的研究。Dalal 和Triggs(2005)率先提出將HOG 用于行人檢測(cè),根據(jù)局部梯度的強(qiáng)度或邊緣的方向特征來定位目標(biāo)的形狀和外觀。此后,Wang 等人(2009)結(jié)合局部二值模式(local binary pattern,LBP)改進(jìn)HOG 方法,提出了一種能夠檢測(cè)局部遮擋的行人檢測(cè)模型。但是,傳統(tǒng)的行人檢測(cè)方法基于特征工程,手工制作特征的方法精度低,且不具備泛用性。近年來,深度學(xué)習(xí)開始用于行人檢測(cè)任務(wù),利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)可以提取更高層次的特征,逐漸成為了主流的行人檢測(cè)方法。

        根據(jù)檢測(cè)算法是否基于預(yù)選區(qū)域(region proposal),基于深度學(xué)習(xí)的行人檢測(cè)算法大致可以分為兩步(Two-stage)和單步(One-stage)兩類。Two-stage方法首先利用滑動(dòng)窗口在圖像中找出一些預(yù)選區(qū)域,再對(duì)預(yù)選區(qū)域進(jìn)行分類和回歸,代表性的方法有R-CNN(region CNN)(Girshick 等,2014)、Faster R-CNN(Ren等,2017)等。基于預(yù)選區(qū)域的檢測(cè)算法可以捕獲更豐富的特征,因此檢測(cè)精度較高,但存在預(yù)選區(qū)域冗余、推理速度慢等問題。One-stage 方法不基于預(yù)選區(qū)域,直接回歸目標(biāo)在圖像中的位置,簡(jiǎn)化了檢測(cè)流程,推理速度相對(duì)較快。代表性的方法有SSD(single shot multibox detector)(Liu 等,2016)、YOLOv3(you only look once v3)(Redmon 和Farhadi,2018),以及曠視科技提出的YOLOX(Ge等,2021)等。

        一直以來,密集人群帶來的遮擋、小尺度行人目標(biāo)等問題是行人檢測(cè)任務(wù)的難點(diǎn)所在(Wang 等,2016)。針對(duì)小目標(biāo),劉萬(wàn)軍等人(2021)提出了一種改進(jìn)的R-FCN(region-based fully convolutional network)模型,徐歆愷等人(2021)提出了一種雙路EfficientDet 網(wǎng)絡(luò)。這些算法都在一定程度上提升了小尺度目標(biāo)上的檢測(cè)性能。而針對(duì)行人類間遮擋的問題,研究者們?cè)噲D改進(jìn)非極大值抑制算法(nonmaximum suppression,NMS)減少漏檢數(shù)目,如Soft-NMS(Bodla 等,2017),Adaptive-NMS(Liu 等,2019)。這類算法改進(jìn)NMS 對(duì)檢測(cè)框的打分策略,但未包含遮擋行人的分布信息,因此提升效果不明顯,而且極大地增加了推理時(shí)間。

        深度學(xué)習(xí)算法提高了行人檢測(cè)的準(zhǔn)確性和推理速度,但在一些復(fù)雜場(chǎng)景以及惡劣天氣環(huán)境下仍有很大的提升空間,如夜間、雨天等成像質(zhì)量差的場(chǎng)景。一方面,夜間場(chǎng)景更復(fù)雜更具挑戰(zhàn)性,光照質(zhì)量差限制了圖像的信息表達(dá)能力,制約了行人檢測(cè)算法的準(zhǔn)確性;另一方面,夜間行人檢測(cè)的可見光數(shù)據(jù)集匱乏,這極大地限制了基于視覺的夜間行人檢測(cè)算法的發(fā)展。NightSurveillance 數(shù)據(jù)集(Wang 等,2021)是第一個(gè)用于夜間行人檢測(cè)研究的監(jiān)控?cái)?shù)據(jù)集,這從根本上解決了數(shù)據(jù)缺乏的問題。

        為了提高夜間復(fù)雜場(chǎng)景下行人檢測(cè)的準(zhǔn)確性,本文在檢測(cè)算法中添加Zero-DCE 低光增強(qiáng)模塊(Guo 等,2020)。將Zero-DCE 生成的增強(qiáng)圖像與原圖一起輸入CSPDarkNet 網(wǎng)絡(luò)中提取并融合特征,同時(shí)將行人檢測(cè)網(wǎng)絡(luò)輸出的回歸損失Reg_loss 反饋于低光增強(qiáng)模塊進(jìn)行聯(lián)合訓(xùn)練。低光增強(qiáng)模塊旨在改善夜間圖像質(zhì)量,提升圖像的信息表達(dá)能力;回歸損失引導(dǎo)低光增強(qiáng)模塊,使圖像中的行人區(qū)域得到重點(diǎn)關(guān)注,保持行人區(qū)域特征的空間一致性。夜間行人檢測(cè)示意圖如圖1所示。

        圖1 夜間行人檢測(cè)示意圖Fig.1 Schematic diagram of pedestrian detection at night

        為了緩解密集人群和障礙物遮擋情況下的行人漏檢問題,本文利用鄰近感知模塊(nearby objects hallucinator,NOH)建模鄰近行人分布信息,設(shè)計(jì)了鄰近感知的行人檢測(cè)頭(PedestrianHead),有效改善了遮擋造成的漏檢問題,在夜間復(fù)雜場(chǎng)景行人檢測(cè)任務(wù)中表現(xiàn)出良好的魯棒性。

        為了進(jìn)一步提升網(wǎng)絡(luò)的推理速度,降低模型復(fù)雜度,在此基礎(chǔ)上,本文借鑒Howard 等人(2017)提出的深度可分離卷積(depthwise separable convolution,DSC),對(duì)網(wǎng)絡(luò)的參數(shù)量進(jìn)行縮減,在保持檢測(cè)精度的同時(shí),大幅減少了模型的復(fù)雜度。

        1 夜間鄰近感知行人檢測(cè)算法

        1.1 YOLOX算法

        YOLOX 的網(wǎng)絡(luò)結(jié)構(gòu)由特征提取網(wǎng)絡(luò)(cross stage partial dark networks,CSPDarkNet)、特征融合網(wǎng)絡(luò)(feature pyramid networks,F(xiàn)PN)和檢測(cè)頭(YOLOHead)組成。其中,CSPDarkNet 是模型的骨干網(wǎng)絡(luò),用于特征提取;FPN 是一種自頂向下帶有側(cè)向連接的層次結(jié)構(gòu),用于融合不同尺寸的特征圖;YOLOHead 是分類器和回歸器,用于輸出檢測(cè)目標(biāo)的信息。主要過程為:輸入圖像經(jīng)過CSPDarkNet 進(jìn)行特征提取獲得3 種尺寸的特征圖(分別是80 ×80 × 256、40 × 40 × 256 和20 × 20 × 1 024),F(xiàn)PN 通過下采樣和側(cè)向連接融合各階段的特征圖,輸入到Y(jié)OLOHead中得到行人檢測(cè)框和置信度分?jǐn)?shù)。

        1.1.1 CSPDarkNet

        CSPDarkNet 網(wǎng)絡(luò)的基本結(jié)構(gòu)如表1 所示。主要由FCOUS 和若干殘差塊構(gòu)成。其中,F(xiàn)OCUS 為特征圖切片采樣操作,SPPBottleneck 為多尺度特征池化單位。卷積層(Conv2D_BN_SiLU)是網(wǎng)絡(luò)的基本單位,包含2維卷積(Conv2D)、批正則化(batch normalization,BN)和SiLU(sigmoid linear unit)激活函數(shù)。

        表1 CSPDarkNet網(wǎng)絡(luò)結(jié)構(gòu)Table 1 CSPDarkNet structure

        FCOUS將輸入圖像Input∈RH×W×C每隔一個(gè)像素點(diǎn)切片采樣,得到4 幅尺寸為H/2 ×H/2 的圖像,H、W和C分別代表圖像的高度、寬度和通道數(shù)。實(shí)現(xiàn)了在不丟失原圖信息的情況下,將圖像在2 維空間(H、W)上的信息轉(zhuǎn)移到通道空間(C),一定程度上降低了網(wǎng)絡(luò)的計(jì)算量。

        基本殘差塊由卷積層和CspLayer 組成,CspLayer 結(jié)構(gòu)由兩個(gè)分支組成,如圖2 所示。殘差分支包含基本卷積塊和n個(gè)Bottleneck 殘差塊,連接分支是一個(gè)基本卷積塊,兩個(gè)分支的輸出在通道上拼接后利用卷積層進(jìn)行特征融合。

        圖2 CspLayer結(jié)構(gòu)圖Fig.2 CspLayer structure

        殘差塊4 引入了一個(gè)特殊的特征金字塔結(jié)構(gòu)SPPBottleneck,特征金字塔池化模塊(spatial pyramid pooling,SPP)最早由微軟 研究院的He 等人(2015)提出,旨在通過融合局部特征和全局特征提升特征圖的表達(dá)能力。如圖3 所示,SPPBottleneck包含5、9 和13 這3 種不同尺寸的最大值池化操作,通過向特征圖添加不同尺度的全局先驗(yàn)信息,提升網(wǎng)絡(luò)對(duì)不同尺度目標(biāo)的檢測(cè)能力。

        圖3 SPPBottleneck結(jié)構(gòu)圖Fig.3 SPPBottleneck structure

        CSPDarkNet 網(wǎng)絡(luò)使用的SiLU 激活函數(shù)綜合了ReLU(rectified linear unit)激活函數(shù)和sigmoid 激活函數(shù)的特性,具有平滑、非單調(diào)的特性,其表達(dá)式為

        1.1.2 YOLOX網(wǎng)絡(luò)結(jié)構(gòu)

        YOLOX 的算法流程如圖4 所示。輸入圖像Input∈R640×640×3,首先經(jīng)過CSPDarkNet 網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行特征提取,其中殘差塊2、殘差塊3、殘差塊4 輸出3種尺寸的特征圖和。利用特征融合網(wǎng)絡(luò)(FPN)融合不同尺寸的特征圖,輸入到檢測(cè)頭(YOLOHead),得到行人的回歸框和置信度,完成行人檢測(cè)任務(wù)。每個(gè)YOLOHead 均由3 個(gè)卷積層構(gòu)成,輸出行人檢測(cè)框的回歸損失(Reg_loss)和背景損失(Obj_loss)。

        圖4 YOLOX算法流程Fig.4 YOLOX algorithm flowchart

        1.2 改進(jìn)之處

        1.2.1 NSPDet

        本文提出的NSPDet采用YOLOX-m 作為基線模型,并針對(duì)夜間復(fù)雜場(chǎng)景的行人檢測(cè)任務(wù)做了相應(yīng)改進(jìn)。YOLOX是一種One-stage檢測(cè)算法,具有精度高、速度快等優(yōu)點(diǎn),本文算法繼承了這些優(yōu)點(diǎn)。如圖5 所示,與原始的YOLOX 相比,主要做了以下幾點(diǎn)改進(jìn):1)添加一個(gè)低光增強(qiáng)模塊對(duì)夜間監(jiān)控影像進(jìn)行圖像光照增強(qiáng),旨在降低夜間成像質(zhì)量差對(duì)檢測(cè)精度的影響;2)利用高斯分布建模圖像中的多個(gè)行人的位置分布,提出Pedestrian-Head 預(yù)測(cè)頭。緩解了因NMS 算法帶來的密集人群遮擋情況下的行人漏檢現(xiàn)象;3)利用深度可分離卷積降低模型復(fù)雜度,使算法具備在移動(dòng)端設(shè)備的實(shí)時(shí)推理性能。

        圖5 NSPDet算法流程Fig.5 NSPDet algorithm flowchart

        1.2.2 Zero-DCE低光增強(qiáng)模塊

        夜間監(jiān)控環(huán)境存在光照條件差等客觀問題,這限制了行人檢測(cè)的準(zhǔn)確性。本研究提出在檢測(cè)模型中添加低光增強(qiáng)模塊(Zero-DCE),提高算法的夜間檢測(cè)性能。Zero-DCE 以一個(gè)弱光圖像作為輸入,學(xué)習(xí)圖像自身信息生成高階曲線動(dòng)態(tài)地對(duì)原圖進(jìn)行像素級(jí)調(diào)整,獲得增強(qiáng)圖像。這種思路來源于照片編輯軟件中的曲線調(diào)整功能。在Zero-DCE 中,弱光映射到增強(qiáng)圖像的調(diào)整曲線設(shè)計(jì)為一個(gè)簡(jiǎn)單的二次曲線,它滿足3 個(gè)基本條件:1)增強(qiáng)圖像的每個(gè)像素值應(yīng)在[0,1]歸一化范圍內(nèi),以避免數(shù)據(jù)截?cái)嘣斐傻男畔p失;2)曲線單調(diào),以保持相鄰像素間的局部一致性;3)在梯度反向傳播過程中,曲線的形式盡可能簡(jiǎn)單且可微。它的數(shù)學(xué)表達(dá)式為

        式中,x表示像素點(diǎn),LE(I(x) ;α)是給定低光圖像I(x)的增強(qiáng)圖像,α∈ [-1,1]是可訓(xùn)練的曲線參數(shù),它調(diào)整LE曲線的大小,控制圖像曝光水平。α作用于輸入圖像每個(gè)像素的RGB 通道,這個(gè)參數(shù)利用網(wǎng)絡(luò)學(xué)習(xí)輸入圖像得到。針對(duì)RGB 通道調(diào)整能更好地保持原圖的顏色,降低過飽和的風(fēng)險(xiǎn)。

        若直接使用圖像增強(qiáng)后的特征進(jìn)行行人檢測(cè),在多數(shù)情況下會(huì)降低檢測(cè)準(zhǔn)確度。這是由于低光圖像增強(qiáng)的關(guān)注點(diǎn)是改善全局(整幅圖像)的質(zhì)量(光照均勻度、自然度等),這種像素級(jí)別的調(diào)整一定程度上破壞了圖像中的行人區(qū)域特征,導(dǎo)致了漏檢、錯(cuò)檢的發(fā)生。本文利用回歸損失Reg_loss 以及檢測(cè)框位置信息引導(dǎo)圖像增強(qiáng)的“方向”,保持圖像中行人特征區(qū)域的空間連續(xù)性,進(jìn)行低光圖像增強(qiáng)和行人檢測(cè)任務(wù)的聯(lián)合訓(xùn)練,以達(dá)到低光圖像增強(qiáng)對(duì)行人檢測(cè)任務(wù)的正向增益作用。對(duì)原圖和增強(qiáng)圖像提取特征的融合,同樣考慮到保持行人特征的語(yǔ)義信息完整性。

        如圖6 所示,經(jīng)過Zero-DCE 光照增強(qiáng)的特征圖與原圖輸入到CSPDarkNet 中提取并融合特征。同時(shí),YOLOHead 中輸出的回歸損失Reg_loss 反饋于低光增強(qiáng)模塊,引導(dǎo)生成增強(qiáng)圖像的方向。此外,若要針對(duì)行人檢測(cè)任務(wù)生成合適的增強(qiáng)圖像,需要針對(duì)數(shù)據(jù)集中行人的統(tǒng)計(jì)特點(diǎn)設(shè)計(jì)合適的損失函數(shù)。空間一致性損失(spatial consistency loss)是低光增強(qiáng)任務(wù)常用的損失函數(shù),其通過保留增強(qiáng)圖像與原始圖像中相鄰區(qū)域的差異,來保證生成圖像的空間連續(xù)性,具體定義為

        圖6 NSPDet網(wǎng)絡(luò)框架圖Fig.6 The overview of working pipeline using NSPDet

        式中,K是局部區(qū)域的數(shù)量,Ω(i)是以i為中心的4個(gè)周邊相鄰區(qū)域的集合。Y和I分別表示增強(qiáng)圖像和輸入圖像在某個(gè)局部區(qū)域上的平均強(qiáng)度值。

        本文針對(duì)NightSurveillance 數(shù)據(jù)集行人標(biāo)注框進(jìn)行統(tǒng)計(jì)后發(fā)現(xiàn),標(biāo)注框的平均寬高比為0.43。針對(duì)這一特點(diǎn),將空間一致性損失的局部區(qū)域Ω的尺寸調(diào)整為4 × 16。

        1.2.3 Pedestrian Head行人檢測(cè)頭

        類間遮擋和密集人群造成的漏檢、錯(cuò)檢是困擾行人檢測(cè)任務(wù)的難點(diǎn)所在。YOLOX 算法在推理時(shí)會(huì)生成若干個(gè)檢測(cè)框,之后利用NMS 算法剔除冗余的檢測(cè)框,得到最終檢測(cè)結(jié)果。當(dāng)場(chǎng)景中存在較多行人且集中分布時(shí),不可避免地存在行人之間遮擋情況。傳統(tǒng)的NMS 算法容易出現(xiàn)檢測(cè)框的誤刪除,造成行人漏檢。YOLOX 算法使用的Soft-NMS 提升效果不明顯,且其實(shí)現(xiàn)邏輯極大地增加了推理時(shí)間。針對(duì)這一特殊場(chǎng)景,本文重新考慮模型推理階段的NMS 策略,并引入一種加入附近行人分布信息的非極大值抑制算法(Zhou等,2020)。

        圖7 展示了本文NOH 的實(shí)現(xiàn)結(jié)構(gòu),F(xiàn)C Layer 是全連接層。本文在NOH 的基礎(chǔ)上去除了其對(duì)預(yù)選區(qū)域的依賴,使其得以移植到one-stage 目標(biāo)檢測(cè)算法之中。本文將YOLOX 輸出的預(yù)選框特征圖信息池化到同一特征空間,利用一個(gè)簡(jiǎn)單的全連接模塊建立NOH 需要的附近行人的位置分布和密度信息,并與原始的YOLOHead 組合作為行人檢測(cè)頭Pedestrian Head,得到最終的行人檢測(cè)結(jié)果。

        圖7 Pedestrian Head結(jié)構(gòu)圖Fig.7 Pedestrian Head structure

        傳統(tǒng)NMS 算法及其改進(jìn)Soft-NMS 算法、Adaptive-NMS算法對(duì)非極大值框得分采取不同的抑制策略,但未給出這些檢測(cè)框的分布情況。NOH 的關(guān)鍵思想是將附近行人的分布信息PpM融合進(jìn)NMS的處理流程中,減輕其對(duì)檢測(cè)結(jié)果的負(fù)面影響,相比僅依據(jù)交并比(intersection over union,IoU)對(duì)檢測(cè)框重新打分,這種策略更加合理。附近行人的分布PpM由式(5)和式(6)定義。

        NOH算法處理基本流程如下:

        輸入:檢測(cè)框集合B及檢測(cè)框得分集合S;相關(guān)檢測(cè)框密度集合D;相關(guān)檢測(cè)框附近行人分布信息參數(shù)集合P;NMS閾值Nt。

        輸出:結(jié)果集合F;檢測(cè)框得分集合S。

        1)篩選得分S大于0.5 的檢測(cè)框B,其中得分最高的檢測(cè)框記為M;

        2)將M加入結(jié)果集合F,并從B中刪除;

        3)遍歷B中剩余的檢測(cè)框,查找所有與M的交并比大于閾值Nt的檢測(cè)框(即滿足條件iou(M,bi) ≥Nt);

        4)更新3)中檢測(cè)框?qū)?yīng)得分si乘上概率得分f,si=si·f(M,bi,dM,pM);

        5)重新計(jì)算得分最高的檢測(cè)框M,重復(fù)步驟2)—4),直到B為空。

        從算法流程4)中可以看出,當(dāng)M中存在附近行人信息(確定檢測(cè)框?yàn)榉钱?dāng)前行人對(duì)象之外的其他行人檢測(cè)框)時(shí),將乘上概率得分f,其計(jì)算方法為

        式中,dM為當(dāng)前行人與M的交并比IoU,dt為IoU 閾值,pM代表M附近行人的分布PpM的參數(shù)。

        在NOH 算法中,與M重疊最多的“附近行人對(duì)象”記為μM,記錄與M的相對(duì)位置以及寬高信息。因?yàn)椤案浇腥藢?duì)象”是部分可見(即附近行人對(duì)象與M重疊的部分)的,NOH 以μM為中心,利用高斯分布來表示其可能分布的最大似然,具體為

        1.2.4 深度可分離卷積

        為了滿足算法在移動(dòng)端設(shè)備實(shí)時(shí)推理的需要,本文進(jìn)一步研究縮減模型參數(shù)量,旨在保持模型檢測(cè)精度的同時(shí),降低推理所需的算力,保證算法在理論上具備實(shí)時(shí)推理的性能。Howard 等人(2017)在MobileNet 中首次提出深度可分離卷積的卷積計(jì)算策略。

        深度可分離卷積是一種可以分解的卷積操作,分為深度卷積和點(diǎn)卷積。如圖8 所示,與常規(guī)卷積的卷積核在所有特征通道上進(jìn)行卷積計(jì)算不同的是,深度卷積針對(duì)每個(gè)輸入通道采用不同的卷積核進(jìn)行計(jì)算,即每個(gè)卷積核對(duì)應(yīng)一個(gè)特征通道。點(diǎn)卷積是1 ×1 的常規(guī)卷積,旨在融合深度卷積的輸出特征。深度可分離卷積實(shí)現(xiàn)的效果與常規(guī)卷積相同,但極大地減少了模型參數(shù)。給定一個(gè)輸入特征圖FH×W×I,假設(shè)輸出特征為FH×W×O,為簡(jiǎn)化計(jì)算令H=W=D,即特征圖的寬度和高度均為D。對(duì)于卷積核大小為K的常規(guī)卷積運(yùn)算,其可訓(xùn)練參數(shù)Pnormal的計(jì)算式為

        圖8 深度可分離卷積Fig.8 Depthwise separable convolution

        而對(duì)于深度可分離卷積,其計(jì)算復(fù)雜度為

        則可以得到常規(guī)卷積和深度可分離卷積的計(jì)算訓(xùn)練參數(shù)比值。具體為

        由此可見,深度可分離卷積的參數(shù)量約為常規(guī)卷積的1/K2,極大地降低了模型的復(fù)雜度。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 實(shí)驗(yàn)平臺(tái)

        在Ubuntu16.04 操作系統(tǒng)上搭建實(shí)驗(yàn)環(huán)境,選用PyCharm 作為集成開發(fā)環(huán)境,基于Python 語(yǔ)言實(shí)現(xiàn)。處理器為4 核 Intel(R)Xeon(R)Silver 4110 CPU @ 2.10 GHz,內(nèi)存15 GB,顯卡(GPU)型號(hào)為NVIDIA GeForce RTX 2080 ti,顯存11 GB。在訓(xùn)練階段使用2 張GPU 進(jìn)行分布式數(shù)據(jù)并行訓(xùn)練(distributed data parallel,DDP),測(cè)試階段使用單張GPU推理。深度學(xué)習(xí)開發(fā)環(huán)境為JetBrains PyCharm Community Edition 2020.2.2 x64,Python 3.8,CUDA10.1,PyTorch1.5.1和Numpy 1.21.2。

        2.2 實(shí)驗(yàn)數(shù)據(jù)及實(shí)驗(yàn)參數(shù)設(shè)置

        2.2.1 數(shù)據(jù)集

        實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)來源于夜間監(jiān)控?cái)?shù)據(jù)集NightSurveillance,該數(shù)據(jù)集從真實(shí)的校園監(jiān)控?cái)z像機(jī)中收集了20 GB的圖像數(shù)據(jù),是第1個(gè)用于夜間監(jiān)控視角的行人檢測(cè)數(shù)據(jù)集。NightSurveillance 數(shù)據(jù)集包含遮擋、目標(biāo)大小因素、光照程度因素、模糊、雨天等場(chǎng)景。該數(shù)據(jù)集包含Train/Test 兩部分共計(jì)38 k 幅圖像,包含行人目標(biāo)標(biāo)注52 k,平均每幀2.46 個(gè)行人目標(biāo),圖像尺寸為1 920 × 1 080像素。

        本文遵照NightSurveillance 數(shù)據(jù)集的原始劃分方式,即訓(xùn)練集與測(cè)試集的比例為1∶1,共有19 000幅圖像,約26 000個(gè)標(biāo)簽用于訓(xùn)練。實(shí)驗(yàn)前,將圖像調(diào)整為640 × 640 像素的尺寸,并利用隨機(jī)剪切、旋轉(zhuǎn)和縮放等方式進(jìn)行數(shù)據(jù)增強(qiáng)。

        此外,為了檢驗(yàn)本文提出算法的檢測(cè)性能,在一些公共數(shù)據(jù)集上與其他方法進(jìn)行了對(duì)比。包含行人檢測(cè)數(shù)據(jù)集Caltech(Dollar 等,2012),CityPersons(Zhang 等,2017),以及夜間行人檢測(cè)數(shù)據(jù)集Night-Owls(Neumann等,2018)。

        2.2.2 實(shí)驗(yàn)設(shè)置

        本文使用YOLOX-m 作為基線模型(baseline),使用官方提供的COCO(common objects in context)數(shù)據(jù)集上預(yù)訓(xùn)練的權(quán)重。NSPDet 算法消融實(shí)驗(yàn)?zāi)K設(shè)置參見表2,GFLOPs(giga floating-point operations per second)即每秒10 億次的浮點(diǎn)運(yùn)算數(shù),常用來衡量模型的復(fù)雜度,表2 使用YOLOX-m 作為基線模型,Zero-DCE 為低光增強(qiáng)模塊,NOH 表示鄰近感知模塊,DSC 表示使用深度可分離卷積。參數(shù)量用來衡量模型的復(fù)雜度。

        表2 消融實(shí)驗(yàn)中的模型Table 2 Models in ablation experiment

        所有模型在NightSurveillance數(shù)據(jù)集上訓(xùn)練500個(gè)epoch,訓(xùn)練數(shù)據(jù)量為9 481,共計(jì)迭代296 281 次。為保留預(yù)訓(xùn)練模型的有效權(quán)重和加快網(wǎng)絡(luò)收斂,本工作采取凍結(jié)訓(xùn)練的策略。所有卷積層和全連接層的權(quán)重初始化為均值0,方差0.02,正則化層的參數(shù)初始化為均值1.0,方差0.02。具體模塊的訓(xùn)練參數(shù)設(shè)置如下:

        1)YOLOX。使用隨機(jī)梯度下降算法作為優(yōu)化器(stochastic gradient descent,SGD),動(dòng)量設(shè)為0.9,初始學(xué)習(xí)率為0.01,使用余弦退火算法降低學(xué)習(xí)率,最低學(xué)習(xí)率為0.000 1。前50 個(gè)epoch 凍結(jié)CSPDarkNet 網(wǎng)絡(luò)的權(quán)重,批大小為32,之后解凍所有網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練,批大小為16。

        2)Zero-DCE。使用Adam 優(yōu)化器,學(xué)習(xí)率為0.000 1,權(quán)重衰減為0.000 01,梯度裁剪為0.1。批大小的設(shè)置與YOLOX一致,訓(xùn)練時(shí)不凍結(jié)參數(shù)。訓(xùn)練時(shí)YOLOX 輸出的預(yù)測(cè)框回歸損失Reg_loss 反饋低光增強(qiáng)模塊,聯(lián)合訓(xùn)練損失如圖9所示。

        圖9 低光增強(qiáng)模塊訓(xùn)練損失圖Fig.9 Low-light enhancement module training loss

        3)NOH。NOH 模塊由兩個(gè)全連接模塊組成,使用Smooth-L1損失監(jiān)督訓(xùn)練。

        2.3 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

        本文消融實(shí)驗(yàn)使用平均精度(average precision,AP)、平均召回率(average recall,AR)和每幅圖像錯(cuò)檢數(shù)曲線(false positive per image,F(xiàn)PPI)作為評(píng)價(jià)指標(biāo)。

        AP 是目標(biāo)檢測(cè)任務(wù)常用的評(píng)價(jià)指標(biāo),在實(shí)驗(yàn)中檢測(cè)框與標(biāo)注框的IoU > 0.5 記為正確檢測(cè)。AP 反映了算法正確檢測(cè)出行人目標(biāo)的性能。FPPI 是行人檢測(cè)的專有評(píng)價(jià)指標(biāo),用于評(píng)估每幅圖像中的誤檢個(gè)數(shù)。本文使用FPPI 分析消融實(shí)驗(yàn)?zāi)P驮诓煌瑘?chǎng)景下的具體表現(xiàn)。

        2.4 實(shí)驗(yàn)結(jié)果與分析

        所有模型在NightSurveillance 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3 所示。表3 使用COCO 工具進(jìn)行評(píng)估,AP50表示當(dāng)IOU 閾值取50%的檢測(cè)分?jǐn)?shù);AP75表示當(dāng)交并比取75%的檢測(cè)分?jǐn)?shù);APS表示在該數(shù)據(jù)集中小目標(biāo)的檢測(cè)分?jǐn)?shù);APM表示算法在中等目標(biāo)上的檢測(cè)分?jǐn)?shù);APL表示算法在大目標(biāo)上的檢測(cè)分?jǐn)?shù)。本文在測(cè)試數(shù)據(jù)集上選取2 000幅圖像,統(tǒng)計(jì)每個(gè)模型處理一幅圖像的平均速率。

        表3 不同模型在NightSurveillance數(shù)據(jù)集上的表現(xiàn)Table 3 Detection performance of different models on NightSurveillancedataset

        從實(shí)驗(yàn)數(shù)據(jù)可以得出,相比基線模型,添加低光增強(qiáng)模塊的NSPDet_1,AP 提升了5.4%,AR 提升了3.8%。表明采用低光增強(qiáng)模塊聯(lián)合訓(xùn)練的行人檢測(cè)器的準(zhǔn)確率獲得了較大提升,低光增強(qiáng)模塊對(duì)于夜間行人檢測(cè)任務(wù)具有重要作用。同時(shí),NSPDet_2相比基線模型AP 提升了10.1%,AR 提升了7.2%。這證明鄰近感知模塊NOH 緩解了密集和遮擋場(chǎng)景下的行人漏檢現(xiàn)象,進(jìn)一步提升了行人檢測(cè)的精度。此外,NSPDet_3 相比NSPDet_2,AR 和AP 指標(biāo)得分均有所下降。表明輕量化后的模型準(zhǔn)確率出現(xiàn)了一定的衰減,但模型的參數(shù)量大大降低,推理速度也得到了一定提升。

        為了驗(yàn)證模型在不同的夜間場(chǎng)景下的具體表現(xiàn),本文根據(jù)NightSurveillance 數(shù)據(jù)集劃分的不同場(chǎng)景,對(duì)比了所提方法在不同場(chǎng)景下的性能(尺度因素、光照因素、遮擋、雨天和模糊)。消融實(shí)驗(yàn)中各模型的FPPI 性能如圖10 所示。根據(jù)各組圖像的分布可以得出結(jié)論,在模糊、弱光和雨天等光照條件不理想的場(chǎng)景下,加入低光增強(qiáng)模塊的對(duì)照組取得了明顯優(yōu)勢(shì)。因此,低光增強(qiáng)模塊對(duì)于提高檢測(cè)算法在夜間復(fù)雜場(chǎng)景下的性能具有重要作用。此外,在遮擋場(chǎng)景中,得益于NOH 模塊建模了鄰近行人分布信息,NSPDet_2 的平均誤檢率相比基線模型降低了10.37%。這證明了NOH 模塊可以有效降低密集人群以及遮擋情況下的行人漏檢數(shù)量。

        圖10 各模型在NightSurveillance數(shù)據(jù)集上的比較Fig.10 Comparison of the models on the NightSurveillancedataset((a)blur;(b)high light;(c)low light;(d)occlusion;(e)rainy weather;(f)small scale)

        為了更直觀地檢驗(yàn)所提算法的性能,圖11 給出了本文最優(yōu)精度模型(NSPDet_2)在典型夜間場(chǎng)景中的行人檢測(cè)及熱圖結(jié)果,由上至下每行依次是小尺寸、遮擋、強(qiáng)光、雨天場(chǎng)景。從圖中可以看出,模型正確檢出了各種場(chǎng)景下的多數(shù)行人目標(biāo),而在小尺寸場(chǎng)景下存在較多漏檢。實(shí)際上,極小行人目標(biāo)在訓(xùn)練數(shù)據(jù)中是沒有標(biāo)注的,但在熱圖中NSPDet算法對(duì)極小行人目標(biāo)區(qū)域仍然具有響應(yīng)。

        圖11 本文算法(NSPDet_2)在NightSurveillance數(shù)據(jù)集不同場(chǎng)景下的行人檢測(cè)效果Fig.11 Effect of the proposed(NSPDet_2)in different scenarios of the NightSurveillance dataset((a)originalimages;(b)pedestrian detection;(c)heatmaps)

        為了驗(yàn)證所提出算法的有效性,本文在Caltech、CityPersons、NightOwls 數(shù)據(jù)集上與現(xiàn)有典型方法進(jìn)行了對(duì)比。其中Caltech、CityPersons 是白天行人檢測(cè)數(shù)據(jù)集,NightOwls 是夜間行人檢測(cè)數(shù)據(jù)集。采用平均誤檢率作為評(píng)價(jià)指標(biāo),對(duì)比方法包括Dollár 等人(2014)的ACF 算法,Zhang 等人(2016)的RPN+BF 算法,Ren 等人(2017)的Vanilla Faster 算法,Zhang等人(2017)的Adapted Faster R-CNN算法,Brazil 等人(2017)的SDS R-CNN 算法,Wang 等人(2020)的S3D 算法,Ge 等人(2021)的YOLOX 算法(本文的基線模型),本文提出的NSPDet_2算法以及輕量化的NSPDet_3算法。

        表4 的實(shí)驗(yàn)數(shù)據(jù)表明,本文采用的基線模型YOLOX 在3 個(gè)數(shù)據(jù)集上獲得了較低的誤檢率,NSPDet算法在繼承基線模型優(yōu)點(diǎn)的同時(shí),針對(duì)夜間低光場(chǎng)景以及遮擋問題進(jìn)行改進(jìn),取得了更低的行人誤檢率。

        表4 不同行人檢測(cè)算法的平均誤檢率Table 4 Average false detection rate of different pedestrian detection algorithms/%

        3 結(jié)論

        針對(duì)夜間復(fù)雜場(chǎng)景下圖像光照質(zhì)量差對(duì)行人檢測(cè)算法性能的限制,本文提出將低光增強(qiáng)模塊添加到基線檢測(cè)算法中,提高了夜間行人檢測(cè)的準(zhǔn)確度。針對(duì)密集人群行人目標(biāo)遮擋造成的漏檢問題,本文利用NOH 建模鄰近行人信息,有效抑制了遮擋、密集人群場(chǎng)景下的漏檢現(xiàn)象。在此基礎(chǔ)上,本文進(jìn)一步探索了降低模型復(fù)雜度的方法,采用深度可分離卷積替換基本卷積操作,在保證模型檢測(cè)準(zhǔn)確度的同時(shí),極大減少了模型參數(shù),降低了模型復(fù)雜度,保證了算法在理論上具備實(shí)時(shí)推理的性能。

        提出的改進(jìn)模型在夜間各種復(fù)雜場(chǎng)景下的行人檢測(cè)任務(wù)中表現(xiàn)出了良好的魯棒性,包含低光、強(qiáng)光干擾、圖像模糊、遮擋和雨天等場(chǎng)景,對(duì)于推動(dòng)自動(dòng)駕駛、智慧交通等領(lǐng)域的研究具有重要的應(yīng)用價(jià)值。

        本文工作仍存在不足之處,如部分惡劣天氣諸如雪天、沙塵暴等尚未考慮在內(nèi)。此外,使用深度可分離卷積在理論上有效降低了模型復(fù)雜度,但實(shí)際生產(chǎn)使用的嵌入式芯片對(duì)其兼容性如何,尚未進(jìn)行驗(yàn)證。未來的研究方向是在更多場(chǎng)景上的泛化性能以及算法的實(shí)際落地應(yīng)用。

        猜你喜歡
        行人卷積特征
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        毒舌出沒,行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        如何表達(dá)“特征”
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        不忠誠(chéng)的四個(gè)特征
        路不為尋找者而設(shè)
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        抓住特征巧觀察
        我是行人
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        久久一区二区三区四区| 人人鲁人人莫人人爱精品 | 国产一区二区三区免费av| 中文字幕无线码一区二区| 台湾佬自拍偷区亚洲综合| 免费中文熟妇在线影片| 亚洲精品女同在线观看| 丝袜美腿一区二区国产| 伊人久久精品久久亚洲一区| 精品免费人伦一区二区三区蜜桃| 亚洲精品一区二区视频| av中文字幕一区不卡| 性色av无码中文av有码vr| 亚洲高清无码第一| 操老熟妇老女人一区二区| 精品国产亚洲亚洲国产| 特级av毛片免费观看| 亚洲一级电影在线观看| 中国黄色偷拍视频二区| 国产a在亚洲线播放| 久久这里只精品国产免费10 | 国产一区二区三区日韩精品| 亚洲第一av导航av尤物| 精品亚洲欧美高清不卡高清| 亚洲精品一区二区三区麻豆| 欲求不満の人妻松下纱荣子 | 最近高清中文在线字幕观看| 天堂av在线免费播放| 久久一二区女厕偷拍图| 精品国产一区二区三区免费| 国产高清吃奶成免费视频网站| 中文字幕亚洲中文第一| 欧美黑人又粗又大xxxx| 亚洲av日韩av不卡在线观看| 在线观看av片永久免费| 开心五月激情五月五月天| 久久99精品国产麻豆宅宅| 免费高清日本中文| 一卡二卡国产av熟女| 亚洲中文字幕无码中文字| 国产精品精品|