改進(jìn)的CNN用于單幀紅外圖像行人檢測(cè)的方法

2020-05-06 08:58:46崔少華李素文黃金樂(lè)

紅外技術(shù) 2020年3期

崔少華，李素文，黃金樂(lè)，單巍

崔少華，李素文，黃金樂(lè)，單巍

（淮北師范大學(xué) 物理與電子信息學(xué)院，安徽淮北 235000）

針對(duì)全卷積神經(jīng)網(wǎng)絡(luò)對(duì)單幀紅外圖像行人檢測(cè)計(jì)算量大、檢測(cè)率較低等問(wèn)題，提出了一種改進(jìn)的LeNet-7系統(tǒng)對(duì)紅外圖像行人檢測(cè)的方法。該系統(tǒng)包含3個(gè)卷積層、3個(gè)池化層，通過(guò)錯(cuò)誤率最小的試選法確定每層參數(shù)，以波士頓大學(xué)建立的BU-TIV數(shù)據(jù)庫(kù)訓(xùn)練系統(tǒng)。首先，以俄亥俄州立大學(xué)建立的OTCBVS和Terravic Motion IR Database紅外數(shù)據(jù)庫(kù)作為測(cè)試圖像；然后，采用自適應(yīng)閾值的垂直和水平投影法得到感興趣區(qū)域（regions of interest，ROI）；最后，將得到的ROI輸入訓(xùn)練好的系統(tǒng)進(jìn)行測(cè)試。3個(gè)測(cè)試集檢測(cè)實(shí)驗(yàn)表明，本文方法具有良好的識(shí)別能力，與不同實(shí)驗(yàn)方法相比，本文方法能有效提高檢測(cè)率。

圖像處理；LeNet-7系統(tǒng)；單幀紅外圖像；檢測(cè)率

0 引言

行人檢測(cè)是機(jī)器視覺(jué)領(lǐng)域的重要分支，目前已經(jīng)得到廣泛應(yīng)用，紅外視頻監(jiān)控作為當(dāng)今社會(huì)安防的重要手段，采用行人檢測(cè)技術(shù)對(duì)其進(jìn)行分析與捕捉具有極高的應(yīng)用價(jià)值。對(duì)紅外視頻的行人檢測(cè)就是對(duì)組成視頻的單幀紅外圖像行人檢測(cè)。由于人體在圖像中的大小和出現(xiàn)的位置都無(wú)法確定，所以在行人檢測(cè)研究的早期，往往采取對(duì)圖像進(jìn)行多尺度遍歷搜索的方式檢測(cè)是否存在人體目標(biāo)。例如，Nanda等[1]通過(guò)人體亮度分布概率設(shè)計(jì)了一種亮度概率模板，但由于人體姿態(tài)的多樣性，該方法仍需在不同尺度下使用多個(gè)模板進(jìn)行匹配。Bertozzi等[2]構(gòu)建了基于正面人體對(duì)稱(chēng)性的形態(tài)學(xué)人體模型，并對(duì)人體在圖像中的大小進(jìn)行了預(yù)估，然后在圖像中進(jìn)行多尺度的搜索以確定可能存在人體的候選區(qū)域，最后將候選區(qū)域與構(gòu)建的人體模型進(jìn)行匹配完成紅外圖像中的行人檢測(cè)。這兩種方法雖然不易出現(xiàn)漏檢，具有較好的魯棒性，但在實(shí)時(shí)性上都大打折扣。因此，之后的紅外行人檢測(cè)方法中，都采用了感興趣區(qū)域分割和目標(biāo)識(shí)別的方法，以避免對(duì)圖像進(jìn)行多尺度遍歷搜索，提高系統(tǒng)的實(shí)時(shí)性。例如，Gao等[3]采用基于立體視覺(jué)的方法獲取ROI，根據(jù)提取行的位置和姿態(tài)對(duì)其分類(lèi)，用于檢測(cè)路面、障礙物等，然而，該方法對(duì)獲取的ROI進(jìn)行分類(lèi)仍然依賴(lài)人工，準(zhǔn)確率較低。

隨著2012年神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)科學(xué)技術(shù)方面的應(yīng)用，其高效的網(wǎng)絡(luò)結(jié)構(gòu)和識(shí)別能力得到廣泛公認(rèn)。學(xué)者們嘗試將神經(jīng)網(wǎng)絡(luò)應(yīng)用于行人檢測(cè)領(lǐng)域，其中，Girshick等[4]提出基于建議區(qū)域ROI獲取的卷積神經(jīng)網(wǎng)絡(luò)（Convolution Neural Network，CNN）行人檢測(cè)方法，利用CNN網(wǎng)絡(luò)代替了傳統(tǒng)的人工分類(lèi)檢測(cè)。許茗等[5]采用包含12個(gè)卷積層的CNN將感興趣區(qū)域圖像輸入網(wǎng)絡(luò)，由行人目標(biāo)概率圖生成紅外圖像中的行人目標(biāo)標(biāo)記框，用以訓(xùn)練和檢測(cè)CNN。譚康霞等[6]提出基于YOLO模型的紅外圖像行人檢測(cè)方法，利用23個(gè)卷積層和5個(gè)池化層構(gòu)成卷積神經(jīng)網(wǎng)絡(luò)，對(duì)實(shí)際道路采集的紅外數(shù)據(jù)進(jìn)行訓(xùn)練與測(cè)試。陳恩加等[7]將CNN網(wǎng)絡(luò)和再識(shí)別模塊聯(lián)合，采用64個(gè)卷積層的全卷積網(wǎng)絡(luò)實(shí)現(xiàn)紅外圖像的行人檢測(cè)。上述方法雖然能有效完成行人檢測(cè)，但是均采用多層卷積的網(wǎng)絡(luò)對(duì)ROI特征進(jìn)行分類(lèi)，網(wǎng)絡(luò)包含參數(shù)過(guò)多、容易過(guò)擬合，在環(huán)境較差的單幀紅外圖像行人檢測(cè)中正確率相對(duì)較低。

基于前人的研究基礎(chǔ)和上述文獻(xiàn)的缺陷，本文提出一種基于LeNet-7的卷積神經(jīng)網(wǎng)絡(luò)對(duì)單幀紅外圖像行人檢測(cè)的方法。引入自適應(yīng)閾值的垂直和水平方向投影得到ROI的方法，將ROI圖像輸入本文構(gòu)建的LeNet-7系統(tǒng)，該系統(tǒng)共包含3個(gè)卷積層、3個(gè)池化層和1個(gè)輸出層，每個(gè)卷積層所用卷積核大小和特征圖個(gè)數(shù)并不單一固定，而是以錯(cuò)誤率最小的實(shí)驗(yàn)試選法，通過(guò)實(shí)驗(yàn)數(shù)據(jù)確定。采用波士頓大學(xué)建立的BU-TIV（Thermal Infrared Video）Benchmark熱紅外視頻數(shù)據(jù)庫(kù)訓(xùn)練本文系統(tǒng)，俄亥俄州立大學(xué)建立的OTCBVS和Terravic Motion IR Database紅外數(shù)據(jù)庫(kù)測(cè)試系統(tǒng)，與不同方法進(jìn)行對(duì)比，本文方法更好地提高了檢測(cè)率。

1 “方向投影”的ROI分割方法

一般而言，人體溫度高于背景溫度，人體在紅外圖像中體現(xiàn)為高灰度區(qū)域[8]。然而，在城市環(huán)境中，車(chē)輛發(fā)動(dòng)機(jī)、熱水管和空調(diào)外機(jī)等非人體目標(biāo)在紅外圖像中也體現(xiàn)為高灰度區(qū)域，因此僅靠目標(biāo)灰度信息直接進(jìn)行行人檢測(cè)是不現(xiàn)實(shí)的。但是，與背景目標(biāo)相比較，人體在紅外圖像中灰度仍然較高，通過(guò)搜索紅外圖像中的“熱點(diǎn)區(qū)域”可以實(shí)現(xiàn)ROI的分割。因此本文采用一種“方向投影”的方法對(duì)人體可能存在的區(qū)域進(jìn)行分割。

方向投影的基本方法是：首先，選擇一定的閾值對(duì)紅外圖像進(jìn)行分割，將分割后的圖像向軸作垂直投影，記錄下像素點(diǎn)的數(shù)量，此時(shí)圖像被分割為一系列垂直的亮度帶，然后將亮度帶向軸作水平投影，最后，得到高灰度區(qū)域的垂直位置與水平位置。具體的實(shí)現(xiàn)過(guò)程如圖1所示。

第一步：閾值的選擇

由于不同場(chǎng)景中的紅外圖像的亮度分布不同，因此在設(shè)置閾值時(shí)應(yīng)采取自適應(yīng)的方式。本文采用的分割閾值為：

圖1 方向投影人體區(qū)域位置初定位

Fig.1 Preliminary location of human body region by directional projection

＝*max(im)＋(1－)mean(im) (1)

式中：為加權(quán)系數(shù)（0≤≤1）；im為原始圖像；max為圖像灰度的最大值；mean為圖像灰度的均值。將圖像灰度最大值和圖像灰度均值進(jìn)行加權(quán)組合，可以增強(qiáng)分割閾值的自適應(yīng)性。通過(guò)大量實(shí)驗(yàn)，本文最終將的取值定為0.25。經(jīng)過(guò)閾值分割以后，圖像當(dāng)中灰度較低的部分以及噪聲基本被消除，如圖1(b)所示。

第二步：垂直投影

將經(jīng)過(guò)閾值分割的圖像向軸作垂直投影，得到圖像的灰度垂直投影曲線，曲線記錄的是灰度值為1的像素點(diǎn)的數(shù)量，如圖1(c)所示。由圖1(b)可知，人體在圖像中為高灰度區(qū)域，在圖1(c)垂直投影曲線中表現(xiàn)為凸起的山峰，在投影曲線中凸起山峰的兩側(cè)分別尋找曲線的上升點(diǎn)與下降點(diǎn)作為一條亮度帶的起始點(diǎn)與結(jié)束點(diǎn)，可得一系列垂直于軸的亮度帶，而人體可能存在的區(qū)域則被包含在亮度帶中。

第三步：水平投影

將垂直投影得到的亮度帶向軸做水平投影。與垂直投影相似，在水平投影曲線當(dāng)中也能夠得到一系列凸起的山峰，同樣將每個(gè)山峰的上升點(diǎn)和下降點(diǎn)分別作為水平亮度帶的起始點(diǎn)與結(jié)束點(diǎn)，即得到一系列平行于軸的亮度帶，結(jié)果如圖1(d)所示。

第四步：ROI的確定

將垂直投影和水平投影得到的亮度帶同時(shí)放入原始圖像中相應(yīng)的位置，此時(shí)原始圖像可以被分割為許多高亮度的矩形區(qū)域，如圖1(e)所示。這些矩形區(qū)域就是本文確定的ROI，圖1(e)中一些矩形區(qū)域包含人體目標(biāo)，一些高灰度區(qū)域則包含非人體目標(biāo)。

本文將確定的ROI作為卷積神經(jīng)網(wǎng)絡(luò)的輸入，利用訓(xùn)練好的CNN網(wǎng)絡(luò)進(jìn)行二分類(lèi)，從而檢測(cè)出紅外圖像中的人體目標(biāo)。因此接下來(lái)本文對(duì)CNN網(wǎng)絡(luò)的建立進(jìn)行探討。

2 LeNet-7網(wǎng)絡(luò)的建立

2.1 CNN網(wǎng)絡(luò)的介紹

傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中隱含層的神經(jīng)元與前一層是全連通的，這意味著每一個(gè)神經(jīng)元都與前一層的所有神經(jīng)元存在參數(shù)關(guān)聯(lián)，從而使得傳統(tǒng)神經(jīng)網(wǎng)絡(luò)計(jì)算量大、速度慢，容易過(guò)擬合[9]。而CNN是一個(gè)由單層卷積神經(jīng)網(wǎng)絡(luò)組成的多層可訓(xùn)練監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)，每個(gè)單層卷積神經(jīng)網(wǎng)絡(luò)包含卷積、非線性變換和下采樣（池化）3個(gè)階段。若設(shè)每個(gè)神經(jīng)元的輸入為x，輸出為y，每個(gè)神經(jīng)元的輸入和輸出之間并非全連接，而是通過(guò)一定大小的區(qū)域相連接，同時(shí)y中的神經(jīng)元通過(guò)一定大小的卷積核對(duì)這個(gè)區(qū)域進(jìn)行特征提取，從而使得輸入數(shù)據(jù)的權(quán)值數(shù)量大大降低（降維），提高了網(wǎng)絡(luò)的訓(xùn)練速度，避免了過(guò)擬合[10]。y和x之間的監(jiān)督學(xué)習(xí)過(guò)程如式(2)所示：

式中：是可訓(xùn)練的卷積核；b是可訓(xùn)練的偏置參數(shù)。

2.2 LeNet-7系統(tǒng)的介紹

CNN最為經(jīng)典的應(yīng)用是Y. Lecun等提出的LeNet-5系統(tǒng)[11]，該系統(tǒng)設(shè)計(jì)之初主要應(yīng)用于手寫(xiě)數(shù)字識(shí)別，識(shí)別錯(cuò)誤率僅達(dá)到0.9%。由于紅外圖像采集環(huán)境復(fù)雜，單幀圖像包含干擾目標(biāo)（非行人目標(biāo)）種類(lèi)較多，本文將傳統(tǒng)LeNet-5系統(tǒng)直接用于單幀紅外圖像行人檢測(cè)，實(shí)驗(yàn)結(jié)果并不令人滿(mǎn)意。因此本文對(duì)該系統(tǒng)進(jìn)行了改進(jìn)，提出7層網(wǎng)絡(luò)：LeNet-7系統(tǒng)，除去輸入層，LeNet-7系統(tǒng)僅僅包含3個(gè)卷積層、3個(gè)池化層和1個(gè)輸出層，具體結(jié)構(gòu)如圖2所示。圖2中、、分別是各卷積層與池化層中特征圖的個(gè)數(shù)，、、、、、和、、、、、分別為各個(gè)特征圖的寬和高。如果是LeNet-5系統(tǒng)，則沒(méi)有C5和S6層，S4層直接全連接到輸出層。由圖2可知，影響LeNet-7系統(tǒng)的參數(shù)包含卷積核大小、特征圖個(gè)數(shù)，目前對(duì)于二者的參數(shù)選擇沒(méi)有明確數(shù)學(xué)標(biāo)準(zhǔn)化，大多數(shù)依賴(lài)設(shè)計(jì)者的經(jīng)驗(yàn)，本文采用錯(cuò)誤率最小的試選法，通過(guò)實(shí)驗(yàn)數(shù)據(jù)分析，對(duì)系統(tǒng)的卷積核大小、特征圖個(gè)數(shù)進(jìn)行選取，使系統(tǒng)達(dá)到最佳檢測(cè)效果。

圖2 LeNet-7系統(tǒng)結(jié)構(gòu)

2.3 LeNet-7系統(tǒng)參數(shù)的確定

本文采用波士頓大學(xué)2014年提供的BU-TIV（Thermal Infrared Video）Benchmark[12]熱紅外視頻數(shù)據(jù)庫(kù)訓(xùn)練系統(tǒng)，該數(shù)據(jù)庫(kù)包含的圖像環(huán)境多樣，相對(duì)復(fù)雜，具有很高的實(shí)用性。隨機(jī)提取3000個(gè)行人樣本，2000個(gè)用于訓(xùn)練，1000個(gè)用于測(cè)試；隨機(jī)提取3000個(gè)非行人樣本中，2000個(gè)用于訓(xùn)練，1000個(gè)用于測(cè)試。使用時(shí)所有樣本歸一化為32×32，步長(zhǎng)為1，激活函數(shù)為ReLU，歷經(jīng)8000個(gè)epoch（訓(xùn)練次數(shù)）。系統(tǒng)參數(shù)的選擇，采用錯(cuò)誤率最小的試選法，基本思想如下：

1）在單層卷積網(wǎng)絡(luò)中（圖2中的C1層和S2層），估計(jì)卷積核大小的范圍，固定某一個(gè)卷積核尺寸，依次改變特征圖個(gè)數(shù)，通過(guò)實(shí)驗(yàn)數(shù)據(jù)分析，選取該層最佳的卷積核尺寸和特征圖個(gè)數(shù)。

2）將上一層網(wǎng)絡(luò)確定的參數(shù)作為C3層的輸入，聯(lián)合C1層網(wǎng)絡(luò)，重復(fù)步驟1），選取C3層和S4層的最佳卷積核尺寸和特征圖個(gè)數(shù)。

3）將上一層網(wǎng)絡(luò)確定的參數(shù)作為C5層的輸入，聯(lián)合C1、C3層網(wǎng)絡(luò)，重復(fù)步驟1），選取C5層和S6層的最佳卷積核尺寸和特征圖個(gè)數(shù)。

2.3.1 C1層參數(shù)的確定

傳統(tǒng)LeNet-5系統(tǒng)用于數(shù)字識(shí)別時(shí)，在最后一層使用16張?zhí)卣鲌D實(shí)現(xiàn)十分類(lèi)（數(shù)字0～9），行人檢測(cè)只需實(shí)現(xiàn)二分類(lèi)，因此本文選取特征圖范圍為1～16。一般，卷積核選取奇數(shù)，由于行人在單幀紅外圖像中目標(biāo)較小，干擾目標(biāo)較多，為了保證檢測(cè)的正確率，卷積核不宜選取過(guò)大，因此本文選取卷積核大小范圍為1×1、3×3、5×5、7×7、9×9。采用檢測(cè)錯(cuò)誤率衡量網(wǎng)絡(luò)提取特征的能力，錯(cuò)誤率的描述如公式(3)所示：

式中：ER為錯(cuò)誤樣本個(gè)數(shù)，TOTAL為總樣本個(gè)數(shù)。錯(cuò)誤率越低，網(wǎng)絡(luò)提取特征的能力越強(qiáng)，錯(cuò)誤率為0.5表示系統(tǒng)無(wú)法收斂。

本文首先構(gòu)建單層卷積網(wǎng)絡(luò)（只保留圖2中的C1層和S2層）進(jìn)行實(shí)驗(yàn)，結(jié)果如表1所示。由于網(wǎng)絡(luò)前向傳播時(shí)特征圖廣度逐層減小，后一卷積層中的卷積核大小不應(yīng)大于上一卷積層中卷積核的大小，因此，C1層的卷積核選擇3×3、5×5、7×7、9×9。由表1可知，除個(gè)別情況外，大部分不收斂（錯(cuò)誤率0.5000）情況出現(xiàn)在左下角呈階梯狀分布，大部分收斂（錯(cuò)誤率較?。┣闆r出現(xiàn)在右上角。由此可知，卷積核過(guò)小時(shí)，增大特征圖個(gè)數(shù)使得系統(tǒng)輸出錯(cuò)誤率過(guò)大，無(wú)法收斂；卷積核過(guò)大時(shí)，特征圖個(gè)數(shù)過(guò)大，也會(huì)使系統(tǒng)無(wú)法收斂。其中，9×9卷積核對(duì)應(yīng)的6個(gè)特征圖時(shí)，單層網(wǎng)絡(luò)的錯(cuò)誤率最低，因此，C1層卷積層參數(shù)確定為9×9，6個(gè)特征圖。一般，該層卷積網(wǎng)絡(luò)特征圖尺寸為[13]：

map＝(－＋1)×(－+1) (4)

式中：為該層網(wǎng)絡(luò)的輸入圖像尺寸；為該層卷積核尺寸，因此，C1層×＝24×24，池化層S2中×＝12×12。經(jīng)過(guò)池化后系統(tǒng)的廣度（特征圖的尺寸）減小到原有的1/4，而數(shù)據(jù)的深度不變，系統(tǒng)的參數(shù)個(gè)數(shù)減小到了75%，計(jì)算量大大降低，池化層：S4層、S6層也是如此。

表1 C1層不同卷積核和特征圖對(duì)應(yīng)錯(cuò)誤率

2.3.2 C3層參數(shù)的確定

聯(lián)合C1層網(wǎng)絡(luò)，再次通過(guò)實(shí)驗(yàn)試選法進(jìn)行C3層參數(shù)的確定。其中，C3層卷積核大小選取1×1、3×3、5×5、7×7、9×9。由表1可知大部分不收斂的情況出現(xiàn)在特征圖個(gè)數(shù)大于10的時(shí)候，因此本次實(shí)驗(yàn)選取特征圖范圍為1～10。實(shí)驗(yàn)結(jié)果如表2所示，由表2可知，在非單層卷積網(wǎng)絡(luò)中，特征圖個(gè)數(shù)和卷積核大小并無(wú)規(guī)律可尋，5×5卷積核對(duì)應(yīng)5個(gè)特征圖時(shí)，系統(tǒng)的錯(cuò)誤率最低，因此，C3層卷積層參數(shù)確定為5×5，5個(gè)特征圖，C3層×＝8×8，池化層S4中×＝4×4。

2.3.3 C5層參數(shù)的確定

聯(lián)合C1層、C3層網(wǎng)絡(luò)，最后通過(guò)實(shí)驗(yàn)試選法確定C5層參數(shù)。一般，后一層的卷積核尺寸不大于上一層卷積核尺寸，因此本次實(shí)驗(yàn)選取卷積核大小為1×1、3×3、5×5，特征圖個(gè)數(shù)選取1～10，實(shí)驗(yàn)結(jié)果如表3所示。由表3可知，卷積核3×3時(shí)7個(gè)特征圖對(duì)應(yīng)的錯(cuò)誤率最小，此時(shí)C5層×＝2×2，×＝2×2。因此，C5層卷積核大小確定為3×3，特征圖個(gè)數(shù)為7。最終，LeNet-7系統(tǒng)參數(shù)確定為：9×9、6個(gè)特征圖；5×5、5個(gè)特征圖；3×3、7個(gè)特征圖。

表3 C5層不同卷積核和特征圖對(duì)應(yīng)錯(cuò)誤率

3 LeNet-7系統(tǒng)應(yīng)用于單幀紅外圖像

3.1 行人檢測(cè)流程

通過(guò)第1、2章的探討，本文建立了“方向投影”的ROI分割方法和7層的卷積神經(jīng)網(wǎng)絡(luò)，單幀紅外圖像行人檢測(cè)的具體方法為：將分割得到的ROI依次送入訓(xùn)練好的LeNet-7系統(tǒng)，經(jīng)由系統(tǒng)二分類(lèi)，最終輸出檢測(cè)率數(shù)值。具體流程如圖3所示。

圖3 單幀紅外圖像行人檢測(cè)流程

需要指出的是：

1）數(shù)據(jù)庫(kù)的選擇

為了避免測(cè)試時(shí)ROI中出現(xiàn)訓(xùn)練系統(tǒng)所用BU-TIV數(shù)據(jù)庫(kù)中的人體目標(biāo)，本文采用俄亥俄州立大學(xué)提供的OTCBVS Benchmark Dataset數(shù)據(jù)庫(kù)[14]和Terravic Motion IR Database數(shù)據(jù)庫(kù)[15]對(duì)LeNet-7網(wǎng)絡(luò)進(jìn)行測(cè)試。這樣固然可以避免測(cè)試集和訓(xùn)練集相互重合，但是對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)的場(chǎng)景遷移能力提出了挑戰(zhàn)。

2）人體目標(biāo)的大小

本文訓(xùn)練樣本來(lái)自BU-TIV（Thermal Infrared Video）Benchmark數(shù)據(jù)庫(kù)，根據(jù)數(shù)據(jù)庫(kù)提供的ground truth文件可以發(fā)現(xiàn)大部分人體目標(biāo)大小為22×32，有一些特殊姿態(tài)的（如騎自行車(chē)或摩托車(chē)）的人體樣本，給出的目標(biāo)大小則為32×32。在制作訓(xùn)練樣本集和測(cè)試樣本集時(shí)，本文將所有的樣本統(tǒng)一歸一化為32×32。為了保證訓(xùn)練好的系統(tǒng)有效用于測(cè)試，本文將ROI全部歸一化為32×32，以此保證測(cè)試集與訓(xùn)練集大小相同。

3.2 實(shí)驗(yàn)結(jié)果與分析

采用3個(gè)不同的紅外圖像測(cè)試集進(jìn)行紅外行人檢測(cè)實(shí)驗(yàn)，測(cè)試集1來(lái)源于俄亥俄州立大學(xué)的OSU Thermal Pedestrian Database數(shù)據(jù)庫(kù)，測(cè)試集2來(lái)源于OSU Color-Thermal Database數(shù)據(jù)庫(kù)，測(cè)試集3來(lái)源于Terravic Motion IR Database數(shù)據(jù)庫(kù)。其中，測(cè)試集1由23副圖像組成，共含有101個(gè)人體目標(biāo)，為多人體測(cè)試集；測(cè)試集2由54副圖像組成，每幅圖像含有一個(gè)人體目標(biāo)，為單人體測(cè)試集；測(cè)試集3共有127幅攜帶武器的圖像，每幅圖像中含有2個(gè)人體目標(biāo)，共含有254個(gè)人體目標(biāo)。實(shí)驗(yàn)結(jié)果如圖4所示。

圖4 不同測(cè)試集行人檢測(cè)結(jié)果 (a)測(cè)試集1；(b)測(cè)試集2；(c)測(cè)試集3

由圖4可知，3個(gè)測(cè)試集的圖像經(jīng)過(guò)自適應(yīng)閾值方向投影后得到的ROI中存在大量的非人體目標(biāo)，經(jīng)過(guò)本文構(gòu)建的LeNet-7系統(tǒng)進(jìn)行分類(lèi)后，人體目標(biāo)能夠很好地被分離，這表明本文提出的LeNet-7系統(tǒng)對(duì)單幀紅外圖像的人體檢測(cè)效果良好。為直觀反映檢測(cè)效果，采用檢測(cè)率（accuracy rate，AR）和虛警率（false alarm rate ，F(xiàn)AR）作為衡量指標(biāo)，具體描述如下[16]：

式(5)和式(6)中：TP為正確檢測(cè)的人體目標(biāo)數(shù)量；FP為未被正確檢測(cè)的人體目標(biāo)數(shù)量；FN為被誤判為行人的非人體目標(biāo)數(shù)量。將本文方法所得檢測(cè)結(jié)果與傳統(tǒng)“HOG＋Fisher”(文獻(xiàn)[17])方法、文獻(xiàn)[6]方法對(duì)比，結(jié)果如表4所示。其中，文獻(xiàn)[17]對(duì)ROI的檢索性能受限于手動(dòng)設(shè)計(jì)的行人特征, 而且滑動(dòng)窗并未實(shí)現(xiàn)對(duì)于不同數(shù)據(jù)集的可伸縮性。文獻(xiàn)[6]構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)包含23個(gè)卷積層和5個(gè)池化層，參數(shù)多，計(jì)算復(fù)雜。

由表4可知，本文構(gòu)建的LeNet-7系統(tǒng)在3個(gè)測(cè)試集中的檢測(cè)率均高于其他方法，這表明基于LeNet-7系統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)針對(duì)行人檢測(cè)系統(tǒng)具有很好的正確率、遷移性。在單人體測(cè)試集2中，本文方法檢測(cè)率達(dá)到100%，同時(shí)沒(méi)有產(chǎn)生虛警；測(cè)試集1和3中本文方法存在部分人體目標(biāo)未被正確檢測(cè)的問(wèn)題，但虛警率為0%。經(jīng)過(guò)分析，原因是沒(méi)有正確檢測(cè)的ROI中行人之間存在較為嚴(yán)重的相互遮擋，導(dǎo)致系統(tǒng)無(wú)法正確判斷人體目標(biāo)的個(gè)數(shù)。在以后的工作中，本文將進(jìn)一步研究。

表4 不同方法的實(shí)驗(yàn)結(jié)果

4 結(jié)論

本文提出一種基于LeNet-7的卷積神經(jīng)網(wǎng)絡(luò)對(duì)單幀紅外圖像行人檢測(cè)的方法。首先，采用自適應(yīng)閾值分割圖像，然后將分割后的圖像向軸方向投影，再向軸投影，最后將得到的ROI圖像輸入訓(xùn)練好的LeNet-7系統(tǒng)進(jìn)行測(cè)試。該系統(tǒng)僅包含3個(gè)卷積層，避免了全卷積神經(jīng)網(wǎng)絡(luò)參數(shù)多、計(jì)算量大等問(wèn)題，每層的參數(shù)以錯(cuò)誤率最小的試選法進(jìn)行確定，避免了依賴(lài)經(jīng)驗(yàn)選擇參數(shù)的盲目性。其中，訓(xùn)練系統(tǒng)的6000個(gè)隨機(jī)樣本來(lái)自于BU-TIV數(shù)據(jù)庫(kù)，測(cè)試樣本來(lái)自于OTCBVS和Terravic Motion IR Database數(shù)據(jù)庫(kù)。3個(gè)不同測(cè)試集的實(shí)驗(yàn)結(jié)果表明，本文方法具有很高的紅外圖像行人檢測(cè)率，與傳統(tǒng)“HOG＋Fisher”方法、采用多個(gè)卷積層的神經(jīng)網(wǎng)絡(luò)對(duì)比，本文算法的檢測(cè)率更高，虛警率更低，具有較高的實(shí)用性。然而，本文方法還有進(jìn)一步改進(jìn)的空間，當(dāng)ROI圖像中行人之間存在較為嚴(yán)重的相互遮擋時(shí)，系統(tǒng)無(wú)法正確判斷人體目標(biāo)，在接下來(lái)的工作中，將進(jìn)一步提高行人遮擋圖像ROI的分割精度，提升系統(tǒng)的識(shí)別能力，為更深層、更復(fù)雜的序列紅外圖像行人檢測(cè)作鋪墊。

[1] Nanda H , Davis L. Probabilistic template based pedestrian detection in infrared videos[C]//,, 2002: 7712599.

[2] Bertozzi M, Broggi A, Grisleri P, et al. Pedestrian detection in infrared images[C]//,, 2003: 7883392.

[3] GAO Y , AI X , WANG Y , et al. U-V-Disparity based Obstacle Detection with 3D Camera and steerable filter[C]//,, 2011: 12095161.

[4] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//, 2014: 580-587.

[5] 許茗, 于曉升, 陳東岳, 等. 復(fù)雜熱紅外監(jiān)控場(chǎng)景下行人檢測(cè)[J]. 中國(guó)圖象圖形學(xué)報(bào), 2018, 23(12): 1829-1837.

XU M, YU X S, CHEN D Y, et al. Man detection in complex thermal infrared monitoring scenes[J]., 2018, 23(12): 1829-1837.

[6] 譚康霞, 平鵬, 秦文虎. 基于YOLO模型的紅外圖像行人檢測(cè)方法[J]. 激光與紅外, 2018, 48(11): 1436-1442.

TAN K X, PING P, QIN W H. Infrared image pedestrian detection method based on YOLO model[J]., 2018, 48(11): 1436-1442.

[7] 陳恩加, 唐向宏, 傅博文. Faster R-CNN行人檢測(cè)與再識(shí)別為一體的行人檢索算法[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2019, 31(2): 332-339.

CHEN E G, TANG X H, FU B W. Pedestrian Search Method Based on Faster R-CNN with the Integration of Pedestrian Detection and Re-identification[J]., 2019, 31(2): 332-339.

[8] 劉智嘉, 賈鵬, 夏寅輝, 等. 基于紅外與可見(jiàn)光圖像融合技術(shù)發(fā)展與性能評(píng)價(jià)[J]. 激光與紅外, 2019, 49(5): 633-640.

LIU Z J, JIA P, XIA Y H, et al. Development and performance evaluation of infrared and visible image fusion technology[J]., 2019, 49(5): 633-640.

[9] 吳志洋, 卓勇, 李軍, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的單色布匹瑕疵快速檢測(cè)算法[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2018, 30(12): 2262-2270.

WU Z Y, ZHUO Y, LI J, et al. Fast detection algorithm of monochrome fabric defects based on convolution neural network[J]., 2018, 30(12): 2262-2270.

[10] 歐攀, 張正, 路奎, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像目標(biāo)檢測(cè)[J]. 激光與光電子學(xué)進(jìn)展, 2019, 56(5): 74-80.

OU P, ZHANG Z, LU K, et al. Remote sensing image target detection based on convolution neural network[J]., 2019, 56(5): 74-80.

[11] Y. Lecun, L. Bottou, Y. Bengi, et al. Gradient-based learning applied to document recognition[J]., 1998, 86(11): 2278-2324.

[12] ZHENG Wu, Nathan Fuller, Diane Theriault, et al. IEEE Conference on Computer Vision and Pattern Recognition[DB/OL].(2014-6-24)[2019-12-18].http://csr.bu.edu/BU-TIV/BUTIV.html.

[13] 呂永標(biāo), 趙建偉, 曹飛龍. 基于復(fù)合卷積神經(jīng)網(wǎng)絡(luò)的圖像去噪算法[J]. 模式識(shí)別與人工智能, 2017, 30(2): 97-105.

LU Y B, ZHAO J W, CAO F L. Image denoising algorithm based on compound convolution neural network[J]., 2017, 30(2): 97-105.

[14] Riad I. Hammoud. OTCBVS Benchmark Dataset Collection[DB/OL].(2014-6-22)[2019-12-18].http://vcipl-okstate.org/pbvs/bench/.

[15] Riad I. Hammoud. Terravic Motion IR Database[DB/OL].(2014-6-22)[20192-12-18].http://vcipl-okstate.org/pbvs/bench/Data/05/download.html.

[16] 蘇育挺, 陳耀, 呂衛(wèi). 基于近紅外圖像的嵌入式人員在崗檢測(cè)系統(tǒng)[J]. 紅外技術(shù), 2019, 41(4): 377-382.

SU Y T, CHEN Y, LU W. Embedded on-the-job detection system based on near infrared image[J]., 2019, 41(4): 377-382.

[17] XU Y L, MA B P, HUANG R, et al. Person search in a scene by jointly modeling people commonness and person uniqueness[C]//22nd, 2014: 937-940.

A Method of Pedestrian Detection Based on Improved CNN in Single-frame Infrared Images

CUI Shaohua，LI Suwen，HUANG Jinle，SHAN Wei

(College of Physics and Electronic Information, Huaibei Normal University, Huaibei 235000, China)

We proposed an improved method of pedestrian detection in infrared images based on the LeNet-7 system, to address the problems of large computation and low detection rates in traditional methods based on a full convolution neural network. The system consists of three convolution layers and three pooling layers. The trail selection method with the smallest error rate is used to determine the parameters of each layer, while the BU-TIV database, established by Boston University,is used to train the system. Firstly, theObject Tracking and Classification in and Beyond the Visible Spectrum(OTCBVS) and Terravic Motion IR Database, established by Ohio State University,areused to test images. Then, the region of interest (ROI) is obtained by vertical and horizontal projection with adaptive thresholds. Finally, the ROI is input into the trained system for testing. Experiments on three test sets demonstrate that the proposed method has good recognition ability. Compared with different experimental methods, the proposed method can effectively improve the detection rate.

image processing, LeNet-7 system, single-frame infrared image, detection rate

TP391

1001-8891(2020)05-0238-07

2019-06-25；

2019-12-18.

崔少華（1983-），女，碩士，講師，主要從事信號(hào)去噪、圖像處理等方面的研究。E-mail：flower0804@126.com。

國(guó)家自然科學(xué)基金面上項(xiàng)目（41875040）；安徽省教育廳項(xiàng)目（2018jyxm0530，2017kfk044，KJ2017B008）。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

改進(jìn)的CNN用于單幀紅外圖像行人檢測(cè)的方法

0 引言

1 “方向投影”的ROI分割方法

2 LeNet-7網(wǎng)絡(luò)的建立

2.1 CNN網(wǎng)絡(luò)的介紹

2.2 LeNet-7系統(tǒng)的介紹

2.3 LeNet-7系統(tǒng)參數(shù)的確定

3 LeNet-7系統(tǒng)應(yīng)用于單幀紅外圖像

3.1 行人檢測(cè)流程

3.2 實(shí)驗(yàn)結(jié)果與分析

4 結(jié)論