柳 黎,許凱華,何伍斌,徐 秀
1(江蘇如是地球空間信息科技有限公司,宿遷 223800)
2(江蘇如是數(shù)學(xué)研究院有限公司,宿遷 223800)
目標(biāo)識(shí)別、定位和報(bào)警是非?;钴S的研究方向,被認(rèn)為是與生活緊密相關(guān)的前沿技術(shù).近年來,目標(biāo)定位研究取得了一些新的成果,包括各種模型和算法.總體而言,這些研究成果可以分為3 類:第1 類是建立空間幾何關(guān)系和測(cè)距算法[1-12];第2 類是建立位置數(shù)據(jù)庫和測(cè)距算法[13-20];第3 類是場(chǎng)景匹配和視覺定位[21-24].第1 類是通過固定錨點(diǎn)的空間幾何關(guān)系,再測(cè)量定位節(jié)點(diǎn)與錨點(diǎn)的距離來實(shí)現(xiàn)定位.這種方法的不足是無線信號(hào)在環(huán)境中存在著多徑效應(yīng)、信號(hào)衰落、干擾等,計(jì)算接收信號(hào)的功率[1,11]、相位[5,12]、到達(dá)時(shí)間[9]往往是不準(zhǔn)確的,而且定位節(jié)點(diǎn)是有源的,在實(shí)際應(yīng)用中有難度.第2 類是通過事前在定位區(qū)域建立位置數(shù)據(jù)庫,定位時(shí)通過環(huán)境測(cè)量結(jié)果來匹配位置數(shù)據(jù)庫,從而實(shí)現(xiàn)定位.這種方法的不足是建立位置數(shù)據(jù)庫的工作量大,在定位時(shí)節(jié)點(diǎn)的任何形態(tài)變化都會(huì)影響匹配定位的精度,而且定位節(jié)點(diǎn)也是有源的.第3 類是通過視覺定位目標(biāo),并將視覺定位與實(shí)際場(chǎng)景匹配,從而實(shí)現(xiàn)定位.這種方法的不足是算法復(fù)雜度高,實(shí)時(shí)性要求嚴(yán)格,優(yōu)點(diǎn)是定位目標(biāo)是無源的.
為了實(shí)現(xiàn)對(duì)行人目標(biāo)的無源定位與越界報(bào)警,結(jié)合上述3 類方法的特點(diǎn),本文提出了結(jié)合視覺圖像的行人檢測(cè)與交疊率的定位報(bào)警算法.本方法要達(dá)到較好的效果,關(guān)鍵是基于紅外圖像的行人檢測(cè)準(zhǔn)確率,交疊率算法和報(bào)警邏輯策略.目前,國(guó)內(nèi)外有關(guān)學(xué)者對(duì)行人檢測(cè)進(jìn)行了部分研究,提出了一些有意義的檢測(cè)方法.李盈盈等[25]通過提取HOG 特征和顏色自相似性進(jìn)行行人檢測(cè),并通過Adaboost算法進(jìn)行分類;陳麗楓等[26]通過提取多尺度方向的HOG 特征進(jìn)行行人檢測(cè),并通過Adaboost算法進(jìn)行分類;任克強(qiáng)等[27]通過提取LBP特征,并引入灰度的全局和局部自適應(yīng)閾值進(jìn)行行人檢測(cè),最后通過支持向量機(jī)(SVM)進(jìn)行分類;Susutti 等[28]通過構(gòu)造多通道的行人特征,并對(duì)通道加權(quán),組合出完整的行人特征來進(jìn)行檢測(cè);張匯等[29]基于Faster RCNN網(wǎng)絡(luò),通過構(gòu)建區(qū)域建議網(wǎng)絡(luò)(RPN)和目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行判別和分類.這些行人檢測(cè)方法和模型是基于自然光環(huán)境的下檢測(cè),紅外環(huán)境下并不適用.
目前,基于紅外圖像的行人檢測(cè)研究也取得了部分進(jìn)展.譚康霞[30]基于YOLO 模型,改進(jìn)輸入圖像分辨率,并用實(shí)際道路場(chǎng)景下的數(shù)據(jù)集進(jìn)行訓(xùn)練和檢測(cè);Kim[31]通過提取人體紅外圖像溫度特征來提高行人檢測(cè)性能,取得了不小的突破;王姮[32]通過高斯混合模型進(jìn)行圖像分割,再提取HOG 特征進(jìn)行檢測(cè),并用Adaboost算法進(jìn)行分類;許茗[33]將紅外圖像的原圖和頻域特征圖結(jié)合,通過全卷積網(wǎng)絡(luò)進(jìn)行行人檢測(cè).這些檢測(cè)方法屬于增加樣本,調(diào)整參數(shù),來提高檢測(cè)準(zhǔn)確率,本文在設(shè)計(jì)實(shí)驗(yàn)過程中也有借鑒.
鑒于基于紅外圖像的行人檢測(cè)和報(bào)警的重要意義,本文提出了一種權(quán)衡了行人檢測(cè)和報(bào)警準(zhǔn)確率的系統(tǒng)設(shè)計(jì),并提出了動(dòng)態(tài)與靜態(tài)交疊率的理論與計(jì)算.本方法主要由3 部分組成:紅外圖像行人檢測(cè)算法、分類算法、交疊率算法與報(bào)警邏輯.紅外圖像行人檢測(cè)是通過改進(jìn)的YOLOv3算法實(shí)現(xiàn),然后提取目標(biāo)候選框的方向梯度直方圖(HOG)特征并通過多層感知器(MLP)二分類來實(shí)現(xiàn);報(bào)警算法與邏輯是計(jì)算行人目標(biāo)的候選框與報(bào)警區(qū)域的交疊率,再進(jìn)行邏輯判斷.實(shí)驗(yàn)表明,本方法提高了紅外行人檢測(cè)的準(zhǔn)確率,通過計(jì)算交疊率判斷入侵報(bào)警也較為準(zhǔn)確,能夠滿足應(yīng)用需求.
本文權(quán)衡了行人檢測(cè)準(zhǔn)確率和報(bào)警準(zhǔn)確率,提出一種改進(jìn)的紅外圖像行人檢測(cè)和交疊率算法.首先,通過YOLOv3算法進(jìn)行紅外圖像的行人檢測(cè),優(yōu)化背景平衡問題.然后,利用方向梯度直方圖(HOG)的幾何不變性,提取目標(biāo)候選框的HOG 特征,并通過多層感知器(MLP)二分類來實(shí)現(xiàn).由于MLP 網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,也有利于提高實(shí)時(shí)性.最后,根據(jù)實(shí)際應(yīng)用場(chǎng)景設(shè)置圖像中需要監(jiān)測(cè)的區(qū)域(報(bào)警區(qū)域),計(jì)算行人目標(biāo)候選框與報(bào)警區(qū)域的交疊率,通過類似斯密特觸發(fā)器的雙門限來進(jìn)行邏輯判斷.例如,當(dāng)交疊率大于90%,表征行人進(jìn)入了標(biāo)記區(qū);當(dāng)交疊率小于10%,表征行人離開了標(biāo)記區(qū).實(shí)驗(yàn)表明,本方法的報(bào)警準(zhǔn)確率可達(dá)91%,在實(shí)際應(yīng)用中能較好克服環(huán)境影響,具有較好的應(yīng)用前景.目標(biāo)檢測(cè)報(bào)警總體架構(gòu)圖如圖1 所示.
圖1 目標(biāo)檢測(cè)報(bào)警總體架構(gòu)圖
本文中軟件主要包括行人檢測(cè)、目標(biāo)分類、交疊率與報(bào)警邏輯3 部分.
YOLOv3 在原來YOLOv2 的基礎(chǔ)上參考了ResNet和SSD 網(wǎng)絡(luò)結(jié)構(gòu),兼顧網(wǎng)絡(luò)復(fù)雜度和檢測(cè)準(zhǔn)確率.YOLOv3 的改進(jìn)主要體現(xiàn)在3 個(gè)方面:1)將YOLOv2的Softmax 損失函數(shù)改成了Logistic 損失函數(shù),類別預(yù)測(cè)中單標(biāo)簽分類改進(jìn)為多標(biāo)簽分類;2)YOLOv2 用了5 個(gè)anchor,而YOLOv3 用了9 個(gè),提高了交并比;3)采用了多個(gè)不同尺度的特征圖譜,detection 有由1 個(gè)增加到3 個(gè),且特征圖譜維度也由13×13 增加至52×52,有利于小目標(biāo)檢測(cè)和準(zhǔn)確率.雖然YOLOv3 增加了anchor 和detection,但YOLOv3 的網(wǎng)絡(luò)結(jié)構(gòu)是縱橫交叉的,很多通道的卷積層沒有依賴性,這個(gè)非常有利于并行計(jì)算.
本文對(duì)YOLOv3 在第一階段生成的預(yù)選框,針對(duì)紅外采集圖像前景和背景分類不平衡,加入focal loss 只對(duì)背景進(jìn)行l(wèi)oss 調(diào)節(jié)[34],在訓(xùn)練過程中逐漸減低“簡(jiǎn)單樣本”的權(quán)重,而向“困難樣本”加權(quán).如式1,α為權(quán)重因子,p 為交叉熵調(diào)節(jié)因子,γ為調(diào)節(jié)loss 相關(guān)性指數(shù),計(jì)算中取α =0.25,p=0.4,γ=2.
同時(shí),修改隨機(jī)參數(shù),讓不同分辨率的紅外圖片進(jìn)行訓(xùn)練.用紅外數(shù)據(jù)集進(jìn)行模型的預(yù)訓(xùn)練,在神經(jīng)網(wǎng)絡(luò)迭代過程中,隨機(jī)改變輸入圖像的分辨率進(jìn)行多尺度訓(xùn)練,從而提升網(wǎng)絡(luò)整體適應(yīng)性.
通過YOLOv3 可以比較有效的檢測(cè)到行人目標(biāo),但誤檢仍然不可避免,所以對(duì)檢測(cè)目標(biāo)的進(jìn)一步分類是有必要的.目標(biāo)分類需要提取目標(biāo)區(qū)域的特征向量,并使用分類器來分類.考慮到行人目標(biāo)的長(zhǎng)寬比相對(duì)固定(幾何不變性),且運(yùn)動(dòng)過程中難免會(huì)有肢體動(dòng)作,本文選擇方向梯度直方圖(HOG)來提取目標(biāo)區(qū)域的HOG 特征,并通過多層感知器(MLP)二分類來實(shí)現(xiàn),目標(biāo)分類流程圖如圖2.
圖2 目標(biāo)分類流程圖
2.2.1 特征提取
對(duì)于目標(biāo)區(qū)域圖片,首先縮放至一個(gè)固定比例,然后對(duì)縮放后的區(qū)域進(jìn)行灰度化處理,最后再提取特征和二分類.在HOG 計(jì)算時(shí),通過梯度算子分別計(jì)算水平方向和垂直方向的梯度分量gradscaly,然后再計(jì)算每個(gè)像素點(diǎn)的梯度大小和方向.
H(x,y),Gx(x,y),Gy(x,y)分別代表像素點(diǎn)(x,y)的像素值、水平方向梯度、垂直方向梯度.G (x,y)和α(x,y)分別為像素點(diǎn)(x,y)處的梯度幅值和梯度方向.將檢測(cè)區(qū)域分成若干個(gè)cell,將每個(gè)cell 計(jì)算出的特征向量串聯(lián)系起來即可得到整個(gè)檢測(cè)區(qū)域的HOG 特征.
2.2.2 二分類
分類算法是目標(biāo)檢測(cè)中非常重要的一個(gè)環(huán)節(jié),分類算法的性能直接影響檢測(cè)性能.目前的分類算法有很多,Adaboost算法[25,26]和支持向量機(jī)(SVM)算法[27]都是性能優(yōu)良、使用廣泛的分類算法.本文選擇性能較好的多層感知器(MLP)來實(shí)現(xiàn)二分類.
本文中的多層感知器選用了一個(gè)輸入層、兩個(gè)隱藏層、一個(gè)輸出層的網(wǎng)絡(luò)結(jié)構(gòu).在這個(gè)模型中,檢測(cè)區(qū)域的HOG 特征會(huì)連接到輸入層神經(jīng)單元,輸入層會(huì)連接到臨近隱藏層各神經(jīng)單元,最后一個(gè)隱藏層的神經(jīng)元再連接到輸出層,每一層的連接都是全連接,MLP 神經(jīng)元網(wǎng)絡(luò)圖如圖3.對(duì)于輸出的結(jié)果,用激活函數(shù)Sigmoid 即可實(shí)現(xiàn)分類.
圖3 MLP 神經(jīng)元網(wǎng)絡(luò)圖
在目標(biāo)檢測(cè)的評(píng)價(jià)體系中,交并比(IOU)是一個(gè)重要的評(píng)價(jià)尺度.IOU 是指檢測(cè)結(jié)果(detection result)與標(biāo)記窗口(ground truth)的交集與并集的比值,交疊率示意圖如圖4,主要用來判斷檢測(cè)框的重合程度.
圖4 交疊率示意圖
對(duì)于沒有方向性要求和距離評(píng)價(jià)的檢測(cè)框而言,交并比無疑是非常合適.但在現(xiàn)實(shí)中,許多目標(biāo)是動(dòng)態(tài)的,我們希望能夠盡可能的反映目標(biāo)變化,并且盡可能的設(shè)置合理門限值來過濾評(píng)價(jià)結(jié)果.對(duì)于檢測(cè)結(jié)果與標(biāo)記窗口相等的情況,典型的就是比較視頻中連續(xù)幀同一目標(biāo)的交并比,交并比的門限值是容易設(shè)定的,交并比的范圍也很明確,為[0,1].對(duì)于檢測(cè)結(jié)果與標(biāo)記窗口不相等的情況,如一幀圖像中檢測(cè)目標(biāo)是行人而標(biāo)記窗口是廣場(chǎng),交并比往往好計(jì)算而門限不好設(shè)置.為此,我們將兩種情況統(tǒng)一考慮,引入交并比的思想,提出計(jì)算交疊率.即計(jì)算同一目標(biāo)連續(xù)幀的交疊率,同時(shí)計(jì)算當(dāng)前圖像幀中檢測(cè)目標(biāo)與標(biāo)記窗口的交集與檢測(cè)目標(biāo)本身的比率,計(jì)算公式如下.
Dpre,Dcur,G分別代表上一幀圖像檢測(cè)目標(biāo)框,當(dāng)前幀檢測(cè)目標(biāo)框,標(biāo)記框.I OUD是動(dòng)態(tài)因子,反映了檢測(cè)目標(biāo)自身的運(yùn)動(dòng)特性;IOUG是靜態(tài)因子,反映了檢測(cè)目標(biāo)在標(biāo)記范圍內(nèi)的靜態(tài)特征.通過動(dòng)態(tài)因子和靜態(tài)因子,即可以反映視頻場(chǎng)景中目標(biāo)自身的運(yùn)動(dòng)信息和目標(biāo)相對(duì)于標(biāo)記范圍的運(yùn)動(dòng)信息.
在行人檢測(cè)的場(chǎng)景中,I OUD可表征行人是否丟失和行走的快慢,IOUG可表征行人是否進(jìn)入標(biāo)記范圍和進(jìn)入的程度.
在實(shí)際應(yīng)用場(chǎng)景中,需要對(duì) I OUD設(shè)置門限,以判定前后兩幀的行人檢測(cè)結(jié)果是否為同一目標(biāo).將IOUD大于等于0.5 認(rèn)定為是同一個(gè)行人,數(shù)值越大,行走越慢.當(dāng) IOUD小于0.5 時(shí),認(rèn)定為當(dāng)前行人目標(biāo)丟失,產(chǎn)生了新的行人目標(biāo).
在實(shí)際應(yīng)用場(chǎng)景中,將 I OUG通過類似斯密特觸發(fā)器的雙門限來進(jìn)行邏輯判斷是有必要的.例如,當(dāng)IOUG逐漸增大到大于90%,表征行人進(jìn)入了標(biāo)記區(qū);當(dāng)I OUG逐漸減小到小于10%,表征行人離開了標(biāo)記區(qū).
作者在生活園區(qū)的主干路和臨近綠化帶支路共架設(shè)了4 臺(tái)紅外攝像機(jī),用38 天時(shí)間采集了19:00~22:00間的行人數(shù)據(jù),最后形成了有效行人數(shù)據(jù)集共11 854 張.隨機(jī)將數(shù)據(jù)集的70%抽取出來當(dāng)作訓(xùn)練集,共8298 張;將剩下的3556 張當(dāng)作測(cè)試集.
在進(jìn)行網(wǎng)絡(luò)訓(xùn)練時(shí),修改隨機(jī)參數(shù),用訓(xùn)練集進(jìn)行模型的預(yù)訓(xùn)練,在神經(jīng)網(wǎng)絡(luò)迭代過程中,隨機(jī)改變輸入圖像的分辨率進(jìn)行多尺度訓(xùn)練.針對(duì)本文所述方法,在訓(xùn)練過程中,通過在YOLOv3 中加入focal loss 對(duì)背景進(jìn)行l(wèi)oss 調(diào)節(jié),進(jìn)行“困難樣本”的自適應(yīng)加權(quán)學(xué)習(xí).在用測(cè)試集測(cè)試時(shí),對(duì)于檢測(cè)結(jié)果,利用方向梯度直方圖(HOG)和多層感知器(MLP)二分類來實(shí)現(xiàn)目標(biāo)過濾.行人檢測(cè)性能對(duì)比如表1.
表1 行人檢測(cè)準(zhǔn)確率對(duì)比表(單位:%)
計(jì)算行人目標(biāo)的候選框與標(biāo)記區(qū)域的交疊率.首先,對(duì)測(cè)試集中的3556 張圖片標(biāo)記報(bào)警區(qū)域,為了提高測(cè)試集的利用效率,我們對(duì)每張照片均標(biāo)記了3 次作成3 個(gè)樣本:標(biāo)記區(qū)域與行人重疊度大于90%的作為正樣本;標(biāo)記區(qū)域與行人重疊度小于10%作為負(fù)樣本;標(biāo)記區(qū)域與行人重疊度在10%~90%之間的作為中間樣本.
然后,我們?cè)O(shè)置報(bào)警邏輯,與測(cè)試集打標(biāo)時(shí)一致,設(shè)置類似斯密特觸發(fā)器的雙門限來進(jìn)行邏輯判斷,當(dāng)交疊率大于90%,表征行人進(jìn)入了標(biāo)記區(qū);當(dāng)交疊率小于10%,表征行人離開了標(biāo)記區(qū).交疊率報(bào)警性能對(duì)比如表2,交疊率報(bào)警效果如圖5.
實(shí)驗(yàn)表明:結(jié)合表1 來看,行人檢測(cè)的識(shí)別率因樣本像素的增加而提高;改進(jìn)YOLOv3 比YOLOv3 的準(zhǔn)確率要高,這是由于改進(jìn)YOLOv3 更加關(guān)注困難樣本的學(xué)習(xí);而改進(jìn)YOLOv3+HOG+MLP 檢測(cè)結(jié)果要優(yōu)于改進(jìn)YOLOv3,這是由于二分類能過濾一部分誤檢.
表2 改進(jìn)YOLOv3+HOG+MLP 的交疊率報(bào)警準(zhǔn)確率對(duì)比表(單位:%)
圖5 交疊率報(bào)警效果圖
在行人檢測(cè)之后,進(jìn)行了交疊率計(jì)算和報(bào)警邏輯判斷.結(jié)合表1、表2 來看,對(duì)于改進(jìn)YOLOv3+HOG+MLP算法,交疊率報(bào)警的準(zhǔn)確率比行人檢測(cè)的準(zhǔn)確率要低4%左右,這是由于行人候選框的精度存在誤差,導(dǎo)致候選框在計(jì)算交疊率時(shí)產(chǎn)生誤差;結(jié)合表2 來看,同一種像素條件下,正負(fù)樣本的準(zhǔn)確率很接近,而中間樣本則普遍低了2%左右,這是由于測(cè)試數(shù)據(jù)集中在交疊率門限附近的樣本出現(xiàn)了“判斷困難”,實(shí)際上還是行人候選框的精度問題;同時(shí),交疊率門限附近的“判斷困難”也證明,本文的斯密特雙門限邏輯設(shè)計(jì)的必要性.與此同時(shí),我們也應(yīng)該看到,中間樣本的實(shí)際報(bào)警準(zhǔn)確率達(dá)到了91%.
本文提出了結(jié)合紅外圖像的行人檢測(cè)與交疊率的定位報(bào)警算法,包括改進(jìn)YOLOv3 的行人檢測(cè)算法、分類算法、交疊率算法與報(bào)警邏輯.實(shí)驗(yàn)比較了不同圖像分辨率、不同算法條件下的行人檢測(cè)準(zhǔn)確率,進(jìn)一步比較了不同圖像分辨率下的交疊率報(bào)警的準(zhǔn)確率.實(shí)驗(yàn)表明,本方法的報(bào)警準(zhǔn)確率可達(dá)91%,具有實(shí)際應(yīng)用價(jià)值.