馮 媛,李敬兆
(安徽理工大學(xué) 電氣與信息工程學(xué)院,安徽 淮南 232001)
近年來(lái)深度學(xué)習(xí)相關(guān)理論快速發(fā)展,優(yōu)秀的神經(jīng)網(wǎng)絡(luò)模型層出不窮,基于深度學(xué)習(xí)的目標(biāo)識(shí)別模型在準(zhǔn)確性和實(shí)時(shí)性方面都明顯優(yōu)于傳統(tǒng)的人工設(shè)計(jì)特征的檢測(cè)算法[1]。深度學(xué)習(xí)也被廣泛應(yīng)用到行人檢測(cè)中,并逐漸成為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)之一[2]。
傳統(tǒng)的行人檢測(cè)方法大多集中在人工特征的提取和分類方面,但此類方法存在特征維度高、泛化能力差等缺點(diǎn),對(duì)傳統(tǒng)方法的改進(jìn)通常是建立在梯度直方圖(HOG)[3]、Haar特征、局部二值模式(LBP)[4]等基礎(chǔ)上。
目前,目標(biāo)檢測(cè)領(lǐng)域的深度學(xué)習(xí)方法主要分為兩類:區(qū)域提名算法和端到端算法。區(qū)域提名算法通常是結(jié)合候選區(qū)域(region proposal,RP)和卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行目標(biāo)檢測(cè),代表性的網(wǎng)絡(luò)有R-CNN系列[5-7]等;端到端算法,代表性的網(wǎng)絡(luò)有SSD[8]、YOLO系列[9-11]。相較于區(qū)域提名算法,SSD和YOLO算法舍棄了RP階段,犧牲了一定的檢測(cè)精度,但提高了檢測(cè)速度。何愷明等提出了ResNet[12],引入新思路進(jìn)行神經(jīng)網(wǎng)絡(luò)優(yōu)化。DenseNet[13]在ResNet的思想上再做創(chuàng)新,使各層間連接更加緊密,其網(wǎng)絡(luò)結(jié)構(gòu)不復(fù)雜,卻非常有效。
近年來(lái),神經(jīng)網(wǎng)絡(luò)的輕量化一直是業(yè)界的發(fā)展趨勢(shì),YOLO系列雖然具有較好的檢測(cè)準(zhǔn)確率和實(shí)時(shí)性,但其對(duì)電腦的GPU等硬件配置要求較高。因此,本文提出了一種融合DenseNet和YOLOV3的行人檢測(cè)方法,改良后的Dense-YOLO網(wǎng)絡(luò)擁有更少的卷積層、更快的檢測(cè)速度以及較好的檢測(cè)精度,更適合應(yīng)用在行人檢測(cè)的場(chǎng)景中。
現(xiàn)有的YOLO系列神經(jīng)網(wǎng)絡(luò)模型雖然在目標(biāo)檢測(cè)方面已達(dá)到了較好的效果,但是面對(duì)行人檢測(cè)場(chǎng)景,YOLO系列神經(jīng)網(wǎng)絡(luò)并不完全適合,所以需對(duì)YOLO算法進(jìn)行改進(jìn),使其更適合行人檢測(cè)工作。目前有研究者提出基于Faster-RCNN的行人檢測(cè)方法,該方法通過(guò)聚類和構(gòu)建區(qū)域候選網(wǎng)絡(luò)(region proposal network,RPN),快速生成可能感興趣的框,從而將含有行人的區(qū)域提取出來(lái)[14]。也有通過(guò)改進(jìn)Tiny-YOLO的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)實(shí)現(xiàn)行人檢測(cè)的輕量化模型[15]。針對(duì)行人檢測(cè),本文提出了一個(gè)融合了YOLOV3和DenseNet的輕量化行人檢測(cè)算法,利用卷積神經(jīng)網(wǎng)絡(luò)提取低層圖像特征,并調(diào)節(jié)IOU(交并比)和學(xué)習(xí)率的閾值來(lái)改善行人重疊或遮擋的問(wèn)題,通過(guò)k均值聚類算法 (k-means) 提取可能含有行人的區(qū)域。針對(duì)畫(huà)面中行人大小不一,尺寸不同的情況,利用特征金字塔網(wǎng)絡(luò)(feature pyramid networks,F(xiàn)PN)[16]來(lái)做高低層的行人的特征融合,不同尺寸的行人特征圖對(duì)應(yīng)不同大小的行人會(huì)有更好的預(yù)測(cè)效果。較小的特征圖對(duì)尺寸較大的行人會(huì)有較好的預(yù)測(cè)能力,較大的特征圖對(duì)尺寸較小的行人或者是被遮擋的行人具有更好的預(yù)測(cè)能力。再利用Dense Block的結(jié)構(gòu)對(duì)行人檢測(cè)的網(wǎng)絡(luò)進(jìn)行輕量化完善,提升行人檢測(cè)網(wǎng)絡(luò)的實(shí)時(shí)性,改進(jìn)后的模型結(jié)構(gòu)如圖1所示。
圖1 Dense-YOLO結(jié)構(gòu)
為了讓本文的行人檢測(cè)方法能夠獲得更全面的行人特征,使特征提取的效果更好,從輸入圖像這方面著手,本文做出以下兩點(diǎn)改進(jìn):
(1)在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí),對(duì)部分輸入圖像的大小進(jìn)行隨機(jī)變換,放大倍數(shù)區(qū)間為(0.25,2)。同時(shí),為了讓行人檢測(cè)模型的魯棒性更好,采取了對(duì)圖片隨機(jī)添加偏移量的操作。為了讓行人檢測(cè)模型適用于任何光照強(qiáng)度的情景,減少圖片明暗度對(duì)行人檢測(cè)結(jié)果造成的影響,本文額外進(jìn)行了圖片隨機(jī)旋轉(zhuǎn)和隨機(jī)扭曲HSV顏色空間模型的操作,HSV是一種較為直觀的顏色模型,在許多圖像編輯工具中應(yīng)用廣泛。HSV模型中顏色的參數(shù)分別是:色調(diào)(hue,H),飽和度(saturation,S),明度(value,V)。進(jìn)行隨機(jī)扭曲HSV,如圖2所示,在灰度圖像下,標(biāo)定框里的行人顏色發(fā)生了變化,這就相當(dāng)于改變了行人的明暗程度,不僅增強(qiáng)了數(shù)據(jù)集的豐富度,也使神經(jīng)網(wǎng)絡(luò)具有更好的泛化性,后續(xù)實(shí)驗(yàn)結(jié)果表明,此舉有效提高了行人檢測(cè)的準(zhǔn)確率和召回率。
圖2 隨機(jī)扭曲HSV顏色空間模型
(2)據(jù)現(xiàn)有的行人檢測(cè)實(shí)驗(yàn)研究表明,圖像中行人身高和寬度通常為3∶1的定值,也就意味著行人的橫向特征比縱向特征表達(dá)少[17]。因此,本文中采用9∶16的輸入圖片的長(zhǎng)寬比,與原網(wǎng)絡(luò)輸入圖像大小416×416相比,增加了圖像的寬度,增強(qiáng)了行人橫向特征的表達(dá),豐富了行人特征信息。
值得關(guān)注的是YOLO系列借鑒了Faster R-CNN的思想,在網(wǎng)絡(luò)中使用了anchor boxes,用k-means的思想來(lái)確定初始候選框。YOLOV2和YOLOv3初始候選框的個(gè)數(shù)分別是在PASCAL VOC數(shù)據(jù)集和COCO數(shù)據(jù)集使用聚類算法確定的,YOLOV2有5個(gè)anchor boxes,YOLOV3有9個(gè)anchor boxes。YOLOV3結(jié)合FPN的多尺度融合思想,將9個(gè)anchor boxes平均分到3個(gè)尺寸的網(wǎng)絡(luò)層實(shí)行預(yù)測(cè)。COCO以及PASCAL VOC數(shù)據(jù)集含有的物體種類很多,因此原有anchor boxes的參數(shù)也不太適和應(yīng)用于行人檢測(cè)。為了對(duì)行人的定位進(jìn)行更準(zhǔn)確的預(yù)測(cè),本文在INRIA行人數(shù)據(jù)集上進(jìn)行k均值聚類,根據(jù)該數(shù)據(jù)集的大小和行人的特征,確定最優(yōu)的anchor boxes的參數(shù)。傳統(tǒng)的k-means測(cè)距通常用的是歐氏距離算法,但這樣會(huì)出現(xiàn)“大框優(yōu)勢(shì)”的問(wèn)題,即較大的邊界框比小的邊界框會(huì)產(chǎn)生更大的距離誤差。IOU是產(chǎn)生的候選框與原邊界框的重疊率,且IOU的大小與原邊界框尺寸無(wú)關(guān),因此使用IOU參與距離計(jì)算可以避免這一問(wèn)題,計(jì)算距離如式(1)所示,b表示k均值聚類的結(jié)果,c表示聚類中心
D(b,c)=1-IOU(b,c)
(1)
通過(guò)k值和平均IOU的關(guān)系,選擇最適合網(wǎng)絡(luò)的k值,二者關(guān)系如圖3所示。
圖3 平均IOU的k曲線
如圖3所示,k=6是曲線的斜率慢慢減小的點(diǎn),為了加快網(wǎng)絡(luò)的識(shí)別速度,Dense-YOLO網(wǎng)絡(luò)會(huì)在兩個(gè)尺度的預(yù)測(cè)層上進(jìn)行預(yù)測(cè),可采取每層分配3個(gè)anchor boxes的策略,因此采用k=6的聚類結(jié)果。
Dense Block這一概念來(lái)自于CVPR2017最佳論文所提出的DenseNet。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,神經(jīng)網(wǎng)絡(luò)的層數(shù)通常等于連接的數(shù)量,但在DenseNet中,其每一層的輸入都是來(lái)自前面所有層輸出的并集,層與層之間的連接變得更緊密。DenseNet的網(wǎng)絡(luò)比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)寬度窄很多,這歸功于它的Dense Block中的子模塊Bottleneck layer和Translation layer結(jié)構(gòu)。DenseNet提出K值的概念,K代表網(wǎng)絡(luò)成長(zhǎng)率(Growth rate),它被用來(lái)控制網(wǎng)絡(luò)的寬度。Dense Block結(jié)構(gòu)如圖4所示。
圖4 Dense Block結(jié)構(gòu)
如圖4所示,假設(shè)x0是輸入,H1的輸入是x0,H2的輸入是x0和x1(x1是H1的輸出),以此類推。具體概念體現(xiàn)在式(2)中,[x0,x1……xl-1] 表示將0到l-1層的輸出特征圖做通道的合并,Hl包括BN,ReLU和3×3的卷積,經(jīng)過(guò)Hl處理之后輸出的特征圖的數(shù)量都為K,便于控制網(wǎng)絡(luò)的寬度(特征圖的通道數(shù))。如果神經(jīng)網(wǎng)絡(luò)有l(wèi)層,那么第l層有K(l-1)+K0個(gè)輸入特征圖,K0是輸入圖片的通道數(shù)
xl=Hl([x0,x1……xl-1])
(2)
因?yàn)镈enseNet的層層緊密連接,當(dāng)網(wǎng)絡(luò)層數(shù)加深時(shí),特征圖的通道數(shù)也會(huì)變得很大,即特征圖數(shù)量變多。因此在每個(gè)Dense Block的3×3卷積前面都加入了一個(gè)1×1的卷積操作,即Bottleneck layer,這個(gè)操作不僅是為了減小輸入的特征圖的數(shù)量,也是為了可以融合各個(gè)通道特征,從而達(dá)到降維和減少計(jì)算量的目的。另外,為了進(jìn)一步壓縮參數(shù),DenseNet在每?jī)蓚€(gè)Dense Block之間又增加了1×1的卷積操作,即Translation layer,調(diào)節(jié)參數(shù)reduction(范圍是0到1),通常默認(rèn)為0.5,如此一來(lái)傳遞給下一個(gè)Dense Block的時(shí)候通道的數(shù)量就會(huì)減少一半,在一定程度上減少了參數(shù)量。由于這幾個(gè)機(jī)制的加入,使得DenseNet的每個(gè)卷積層的輸出特征圖的數(shù)量都很小。這種緊密連接的方式使得特征和梯度的傳遞更加有效,減輕了梯度消失的情況,網(wǎng)絡(luò)也變得更加容易訓(xùn)練。
本文在YOLOV3的基礎(chǔ)上,將YOLOV3原有的主網(wǎng)絡(luò)DarkNet換成DenseNet,不但減少了神經(jīng)網(wǎng)絡(luò)的層數(shù),而且達(dá)到了降低網(wǎng)絡(luò)參數(shù)數(shù)量的目的,將YOLOV3原有的殘差模塊替換成Dense Block。
結(jié)合圖5簡(jiǎn)述網(wǎng)絡(luò)的訓(xùn)練策略,以輸入尺寸為480×270的圖片為例,先經(jīng)過(guò)一層卷積層,圖片大小不變,通道數(shù)變?yōu)?4。激活函數(shù)選用Leaky Relu是因?yàn)槠湓谪?fù)軸有一個(gè)小斜率傾斜,當(dāng)激活函數(shù)進(jìn)入負(fù)半軸時(shí)依然能令神經(jīng)元繼續(xù)保持學(xué)習(xí)的狀態(tài)。經(jīng)過(guò)最大池化(max polling,MP)層,MP對(duì)特征圖進(jìn)行(270/3,480/4)的處理,在保留主要特征的同時(shí)還可以起到降低參數(shù)數(shù)量的作用。之后進(jìn)入DB(dense block)層,對(duì)于模塊中每一層的輸入特征圖的層數(shù)是不斷增加的,每次增加的個(gè)數(shù)設(shè)為K,為了網(wǎng)絡(luò)不變寬,K值不宜過(guò)大,本實(shí)驗(yàn)中取K=32。 但僅憑K的控制網(wǎng)絡(luò)寬度還不夠,隨著Dense Block模塊深度的加深,由于層層緊密連接,后面的輸入特征圖的維度會(huì)越來(lái)越大。為了解決這個(gè)問(wèn)題,在Dense Block模塊中加入了Bottleneck模塊,采用1×1卷積進(jìn)行降維,輸出維度都被降到4K維,可以起到降維減參的功效。Translation Layer模塊再次采用1×1卷積做降維,默認(rèn)輸出特征圖的數(shù)量為上一個(gè)DB模塊的輸出特征圖的一半,運(yùn)算量和參數(shù)再次被減少。
圖5 網(wǎng)絡(luò)流程
結(jié)合FPN的思想,基于神經(jīng)網(wǎng)絡(luò)的一貫特性,小尺度特征圖可以更好表征大目標(biāo),大尺度的特征圖可以更好表征小目標(biāo)。為了對(duì)不同大小的行人檢測(cè)的效果更好,在Dense-YOLO的輸出端分為兩個(gè)尺度做預(yù)測(cè)。在經(jīng)過(guò)第一個(gè)Dense Block之后的特征圖大小為30×30,這作為第一個(gè)尺度特征圖輸出。之后再經(jīng)過(guò)兩個(gè)Dense Block后,得到大小為15×15的特征圖,其特征通道數(shù)為15。其中15×15對(duì)應(yīng)將輸入圖像分為15×15個(gè)柵格,共設(shè)置6個(gè)預(yù)測(cè)框,兩個(gè)尺度的各個(gè)柵格都要預(yù)測(cè)3個(gè)邊界框,各個(gè)邊界框都需要預(yù)測(cè)x、y、wide、hight、置信度以及框內(nèi)是n類待檢測(cè)物體中哪些類的條件概率。
本實(shí)驗(yàn)中只存在行人這一目標(biāo),為了加快檢測(cè)速度,可以不用顯示行人標(biāo)簽,即n=0,直接標(biāo)出預(yù)測(cè)框。所以每一個(gè)柵格對(duì)應(yīng)的特征維數(shù)是3×(4+1)=15,最后Reshape成(15,15,3,5)的特征向量,再用非極大值抑制算法(non-maximum suppression,NMS)去除多余(交叉重復(fù))的窗口,找到最佳行人檢測(cè)位置。
本實(shí)驗(yàn)中訓(xùn)練用到的數(shù)據(jù)集皆為國(guó)際公認(rèn)的行人檢測(cè)數(shù)據(jù)集:INRIA數(shù)據(jù)集和Caltech數(shù)據(jù)集。目前使用度最高的行人檢測(cè)數(shù)據(jù)集就是INRIA數(shù)據(jù)集,其中雖然包含了正負(fù)樣本,但是本實(shí)驗(yàn)中對(duì)于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練只是用數(shù)據(jù)集中的正樣本,該數(shù)據(jù)集清晰度較高,行人拍攝情況多樣化,存在行人遮擋情景下的圖片,平均像素為279左右,其訓(xùn)練數(shù)據(jù)集中有正樣本614張(包含2416個(gè)行人),測(cè)試數(shù)據(jù)集有正樣本288張(包含1126個(gè)行人)。Caltech數(shù)據(jù)集是由加州理工等高校組成的視覺(jué)小組整理的,他們從10小時(shí)的車(chē)載攝像頭視頻中選取了137 min(約250 000張圖像),2300個(gè)行人,作者標(biāo)注了350 000個(gè)邊界框,Caltech數(shù)據(jù)集很好的標(biāo)注了行人被遮擋情況,這有利于神經(jīng)網(wǎng)絡(luò)對(duì)行人遮擋問(wèn)題做出改進(jìn),本文挑選了Caltech數(shù)據(jù)集中行人較多的2000張圖片進(jìn)行訓(xùn)練。實(shí)驗(yàn)在INRIA數(shù)據(jù)集和Caltech數(shù)據(jù)集混合數(shù)據(jù)集中進(jìn)行,圖6展示了實(shí)驗(yàn)中測(cè)試集中部分測(cè)試結(jié)果的圖片。
圖6 實(shí)驗(yàn)測(cè)試結(jié)果
本文采用深度學(xué)習(xí)架構(gòu)YOLOV3和DenseNet搭建實(shí)驗(yàn)運(yùn)行環(huán)境,并配置CUDA 9.2環(huán)境進(jìn)行GPU并行加速計(jì)算,本文的實(shí)驗(yàn)平臺(tái)軟硬件配置見(jiàn)表1。
表1 實(shí)驗(yàn)平臺(tái)軟硬件配置
深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的搭建只是第一步,超參數(shù)的選擇對(duì)于神經(jīng)網(wǎng)絡(luò)的成功起到至關(guān)重要的作用,合理的設(shè)置網(wǎng)絡(luò)超參數(shù),可以達(dá)到更好的訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的目的。設(shè)置學(xué)習(xí)率、動(dòng)量系數(shù)、迭代次數(shù)等參數(shù)能夠優(yōu)化超參數(shù),讓神經(jīng)網(wǎng)絡(luò)達(dá)到更好的預(yù)測(cè)效果。多次實(shí)驗(yàn)后,本文選取網(wǎng)絡(luò)訓(xùn)練效果最好的一組值為最終的超參數(shù)。訓(xùn)練時(shí)模型的初始學(xué)習(xí)率設(shè)為0.01,學(xué)習(xí)率為0.1,權(quán)值衰減系數(shù)為0.0010,動(dòng)量系數(shù)為0.9,成長(zhǎng)率(K)設(shè)為32,批大小為32,epochs為10 000。為了增強(qiáng)網(wǎng)絡(luò)的泛化性,在網(wǎng)絡(luò)訓(xùn)練時(shí)還會(huì)進(jìn)行隨機(jī)調(diào)整圖片大小、將圖片旋轉(zhuǎn)某些角度以及隨機(jī)明暗度調(diào)節(jié)等操作。
2.3.1 強(qiáng)化行人特征圖像處理模塊測(cè)試
在行人測(cè)試數(shù)據(jù)集上,將加入強(qiáng)化行人特征圖像處理模塊的網(wǎng)絡(luò)模型和未加入該模塊的網(wǎng)絡(luò)模型進(jìn)行測(cè)試與比較,實(shí)驗(yàn)結(jié)果如表2所示,與不加該圖像處理模塊的方法相比,本文提出的方法使mAP提高了3.87%,召回率提升了3.39%。
表2 強(qiáng)化行人特征處理模塊的測(cè)試結(jié)果
2.3.2 行人檢測(cè)網(wǎng)絡(luò)的輕量化實(shí)現(xiàn)
為了驗(yàn)證Dense-YOLO網(wǎng)絡(luò)模型的輕量化,從模型的計(jì)算需求量、訓(xùn)練參數(shù)的數(shù)量、網(wǎng)絡(luò)模型的大小3個(gè)方面與YOLOV3和Tiny-YOLOV3網(wǎng)絡(luò)進(jìn)行比較,具體的比較結(jié)果見(jiàn)表3。Dense-YOLO網(wǎng)絡(luò)模型的計(jì)算需求量是YOLOV3的1/118,訓(xùn)練參數(shù)數(shù)量是YOLOV3的1/120,模型大小是YOLOV3的1/107,與YOLOV3的輕量化模型Tiny-YOLOV3相比,Dense-YOLO在實(shí)現(xiàn)網(wǎng)絡(luò)輕量化方面也有很大進(jìn)步。
表3 網(wǎng)絡(luò)模型規(guī)模比較
2.3.3 速度測(cè)試
本實(shí)驗(yàn)采用的檢測(cè)速度的評(píng)判標(biāo)準(zhǔn)為FPS(frames per second),F(xiàn)PS是圖像領(lǐng)域中的定義,是指畫(huà)面每秒傳輸?shù)膸瑪?shù),FPS值反映了保存以及顯示動(dòng)態(tài)視頻的信息數(shù)量。FPS越大,表示每秒鐘的幀數(shù)越多,所顯示的視頻就會(huì)越流暢。為了滿足行人檢測(cè)的實(shí)時(shí)性要求,F(xiàn)PS的值越大越好。將DenseNet與傳統(tǒng)行人檢測(cè)算法HOG+SVM、YOLOV3以及輕量化神經(jīng)Tiny-YOLOV3等方法比較,具體的比較結(jié)果見(jiàn)表4,Dense-YOLO的檢測(cè)速度比HOG+SVM方法快35倍,比Tiny-YOLOV3快1.75倍,比YOLOV3快8倍,結(jié)果表明,Dense-YOLO的實(shí)時(shí)檢測(cè)速度實(shí)現(xiàn)了大幅提升。
2.3.4 精度測(cè)試
mAP(mean average precision)的定義式如式(3)所示,其含義是h類目標(biāo)物體的平均精度的均值
(3)
表4 目標(biāo)檢測(cè)速度各方法對(duì)比實(shí)驗(yàn)結(jié)果
召回率(Recall)的定義如式(4)所示,其表示測(cè)試數(shù)據(jù)集的全部目標(biāo)(NAll)中有多少被正確檢測(cè)到,正確檢測(cè)到的比例占多少
(4)
具體的測(cè)試結(jié)果見(jiàn)表5,Dense-YOLO的mAP相較于YOLOV3提升了2.91%,相較于Tiny-YOLOV3的mAP提升了29.09%。Dense-YOLO的召回率相較于YOLOV3提升了3.93%,相較于Tiny-YOLOV3提升了15.68%。YOLOV3由于主網(wǎng)絡(luò)是DarkNet,存在著網(wǎng)絡(luò)層數(shù)過(guò)多,容易造成梯度消失等問(wèn)題,導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)過(guò)早停滯;Tiny-YOLOv3又因?yàn)榫W(wǎng)絡(luò)層數(shù)過(guò)少,行人特征學(xué)習(xí)的不夠充分,而Dense-YOLO 在網(wǎng)絡(luò)層數(shù)和準(zhǔn)確率上做到了更好的平衡。
表5 不同網(wǎng)絡(luò)模型測(cè)試的結(jié)果
本文基于YOLOV3和DenseNet提出一種輕量化的行人檢測(cè)模型,在公開(kāi)行人檢測(cè)數(shù)據(jù)集INRIA數(shù)據(jù)集以及Caltech數(shù)據(jù)集上對(duì)網(wǎng)絡(luò)模型進(jìn)行了訓(xùn)練,并通過(guò)對(duì)輸入神經(jīng)網(wǎng)絡(luò)的圖片進(jìn)行隨機(jī)變化處理,增強(qiáng)網(wǎng)絡(luò)的泛化性,利用維度聚類分析選擇合適的k值,改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),提出了一種基于Dense-YOLO網(wǎng)絡(luò)的行人檢測(cè)模型。
(1)與現(xiàn)有的行人檢測(cè)算法和YOLO系列算法相比,Dense-YOLO網(wǎng)絡(luò)更為輕量化,在保證一定準(zhǔn)確率的前提下,其具有更快的檢測(cè)速度,提高了行人檢測(cè)的實(shí)時(shí)性,借鑒特征金字塔的思想,Dense-YOLO網(wǎng)絡(luò)對(duì)不同尺寸的行人也具有更好的檢測(cè)效果。
(2)通過(guò)Dense-YOLO與復(fù)雜網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)可以看出,Dense-YOLO網(wǎng)絡(luò)提升了目標(biāo)檢測(cè)速度,但由于行人檢測(cè)中依然存在遮擋、對(duì)小目標(biāo)行人檢測(cè)效果較差等問(wèn)題。如何在保證高速檢測(cè)的前提下對(duì)網(wǎng)絡(luò)的準(zhǔn)確率以及召回率進(jìn)行提升,將會(huì)是下一步研究的重點(diǎn)。