◆盧俊俏 顏思璇
?
基于FAST R-CNN行人檢測識別的研究與改進(jìn)
◆盧俊俏 顏思璇
(浙江師范大學(xué)數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院 浙江 321300)
本文的目的是進(jìn)行視頻中的人行識別,將視頻逐幀提取,采用Fast R-cnn,它不僅實現(xiàn)了識別圖片中單個行人的骨架,還能通過分類判斷圖片有多少個需要識別的行人,并將各個關(guān)節(jié)點與每一個行人所相對應(yīng),與此同時,它也能將各個關(guān)節(jié)點與行人身上的各個身體部位相對應(yīng),從而實現(xiàn)了識別圖片中多個行人骨架的目的。
人體骨架模型;Fast R-CNN;行人識別
人工智能最基礎(chǔ)的數(shù)據(jù)來自對音頻和視覺的感知,如何收集處理所接受到視覺信息,是目前人工智能中重要的一項技術(shù)。其中,基于視覺的行人識別技術(shù)已經(jīng)成了研究熱點,具有廣闊的應(yīng)用前景。行人檢測是一種在給定的圖像和視頻中判斷行人存在的技術(shù),可以應(yīng)用于監(jiān)控查詢拜訪,車輛辨認(rèn),路況識別,盲人導(dǎo)航等,為這些領(lǐng)域提供了便利。比如先進(jìn)輔助駕駛系統(tǒng)(ADAS)中通過單目攝像頭判斷路況,通過對前方汽車、行人、障礙物等的識別,給予司機(jī)主動提醒。
在2005年Dalal發(fā)表了基于HOG特征的行人檢測模型論文。HOG 特性也廣泛應(yīng)用于目標(biāo)檢測和識別、圖像檢索和跟蹤等領(lǐng)域。通過HOG梯度直方圖算法以及SVM算法識別出每張圖片中的行人,但這種模型速度運行慢,且由于背景中存在著各種各樣的干擾項,背景中的某些部分與人體相似,導(dǎo)致最終識別出來的結(jié)果存在一些錯誤。2006年,Hinton 等人提出了一種基于深度學(xué)習(xí)的算法,并利用深度卷積神經(jīng)網(wǎng)絡(luò)從大量數(shù)據(jù)中學(xué)習(xí)高級特征。深卷積神經(jīng)網(wǎng)絡(luò)將特征提取、特征選擇和特征分類融合到同一模型中,通過端到端訓(xùn)練優(yōu)化整體功能,進(jìn)一步加強(qiáng)特征分類。
以增強(qiáng)行人識別的準(zhǔn)確率和效率為目標(biāo),本文借鑒RBG等人在目標(biāo)檢測領(lǐng)域中的FAST-RCNN模型,通過HOG梯度直方圖算法以及SVM算法對視頻中行人的大致位置進(jìn)行識別,再用Fast R-CNN對圖片中行人的關(guān)節(jié)點進(jìn)行識別,將各個關(guān)節(jié)點相連,識別出視頻中人體骨架的圖片。將此模型與基于HOG特征的行人檢測方法進(jìn)行效果對比,目標(biāo)檢測領(lǐng)域中的FAST-RCNN模型檢測正確率更好,并且效率更高。
FAST-RCNN依據(jù)RCNN為基礎(chǔ),選擇性搜索(ss)獲得圖像中約2k候選框。利用卷積收集提取圖片特點,獲得feature map后按照以前RoI框選擇出對應(yīng)的區(qū)域等三個進(jìn)程。
通常對一張圖像進(jìn)行檢測會采用不同的滑窗進(jìn)行窮舉的方式搜索,這種方法計算量過大且速度慢,于是通過比較一張圖片不同區(qū)域顏色、紋理等方面將相識度較大的部分劃分為同一個區(qū)域,這便是選擇性搜索的基本思想。
(1)生成了一個區(qū)域。
計算總相似度:
(3)找相似度最高的區(qū)域,并將其合并。
(4)從中移除與和有關(guān)的相識度。
(5)計算新集與所有子集的相似度。
(6)重復(fù)上述步驟,直到為空。
圖1 相鄰區(qū)域的相似度
通過上述步驟就可以在需要進(jìn)行行人檢測的圖像中找到1000-2000個候選區(qū)域,每個候選區(qū)域都作為一個節(jié)點,而每一個節(jié)點就是就是人體的一個部件,然而現(xiàn)在節(jié)點眾多,而當(dāng)圖片中行人數(shù)目比較多時,各個節(jié)點之間相互連接,錯綜復(fù)雜,接下來就要解決節(jié)點數(shù)模過多問題,以及判斷哪些節(jié)點屬于同一個人。
在R-CNN中, 卷積神經(jīng)網(wǎng)絡(luò) CNN 用于每個候選框的特征提取,這需要大量的時間來改進(jìn),這在快速 R-NNN 中得到了很好的改進(jìn)效果,只對原始圖像進(jìn)行一次卷積,得到了整個圖的特征圖,查找每個候選框架上的映射patch。patch是每個候選框的卷積特征。
在R-CNN中,您需要統(tǒng)一每個候選框的大小,然后提取特征值,降低識別效率;在Fast R-CNN中,它添加了一個名為ROI池的網(wǎng)絡(luò)圖層,該網(wǎng)絡(luò)層將不同大小的候選框映射到固定比例的特征向量。從每個區(qū)域提取固定維度的特征來表示,下一步是使用SoftmaxLoss分類器來判斷。
該分類器需要做到使得在一個候選框特征值的輸入后,能夠判斷出屬于真實標(biāo)簽的概率是否達(dá)到最高。就比如說,當(dāng)候選框為手的那部分時,向SoftmaxLoss分類器輸入每一個候選框的映射之后,使最終的輸出結(jié)果為手的可能性要達(dá)到最高,而腳、肩膀、頭等的可能性較小。
下面為損失的計算公式:
這是一種CNN全連接層到損失層的計算,全連接層的輸入即每個候選框的特征,全連接層的輸出即為損失,若SoftmaxLoss分類器能夠做到預(yù)測正確,則損失較小,若預(yù)測錯誤,則損失較大,即為分類候選框時所產(chǎn)生的誤差。
在使用完分類器進(jìn)行候選框分類之后,需要使用SmoothL1Loss回歸器縮小范圍以更精確的框出目標(biāo)物體,在使用SmoothL1Loss回歸器進(jìn)行計算時會產(chǎn)生誤差即損失:
總損失等于各部分損失之和:
當(dāng)預(yù)測值和目標(biāo)值相差過大時,梯度就容易爆炸,在SmoothL1Loss回歸器中使用-1代替了原來梯度中的-,避免了梯度爆炸問題。
我們?nèi)∮脤W(xué)校馬路上隨機(jī)的幾段視頻,進(jìn)行行人識別檢測。并用FAST R-CNN的方法與HOG模型進(jìn)行比較,如圖2。
圖2 FAST R-CNN識別流程圖
在經(jīng)過分類和回歸之后,就可以識別出哪個候選框?qū)儆谛腥耸值膮^(qū)域,哪些候選框是屬于行人腳的區(qū)域,哪些候選框是屬于行人肩膀的區(qū)域,同時也可以判斷出哪些候選框?qū)儆谕粋€人,最后將屬于同一個人的關(guān)節(jié)點連接,就可以得到任何一張所需要進(jìn)行檢測的圖片中的行人的骨架圖了,如圖3。
圖3 人體部位骨架識別
在嘗試FAST-CRNN之前,通過使用HOG梯度直方圖算法以及SVM算法識別出每張圖片的行人,但這種模型速度慢,且由于背景中存在著各種各樣的干擾項,背景中的某些部分與人體相似,導(dǎo)致最終識別出來的結(jié)果存在一些錯誤。如圖4。
圖4 HOG模型錯誤識別
而本模型相對基于HOG的行人識別對人體動作的識別準(zhǔn)確性更高,通過對關(guān)鍵幀和重要節(jié)點的判斷,能夠去除多余的信息,提高識別的準(zhǔn)確率。相比于HOG模型,在該視頻識別中,排除了樹等其他的干擾,并且不完整的行人也能準(zhǔn)確識別,如圖5。
圖5 FAST R_CNN效果圖
(1)在圖片中通過選擇性搜索提取候選框較慢,可以采用RPN產(chǎn)生候選框,即CNN卷積神經(jīng)網(wǎng)絡(luò)直接產(chǎn)生候選框,就可以提高圖片的識別速度。
(2)除FAST-CRNN這個方針辨認(rèn)的算法之外,現(xiàn)如今速率更快,精確度加倍的辨認(rèn)方法FASTER-CRNN已被研究出來,方針檢測的四塊(區(qū)域生成,特征提取,分類,位置精修)終究被統(tǒng)一到一個深度收集框架以內(nèi)。所有計算沒有重復(fù),完全在GPU中完成,大大提高了運行速度。
(3)除了采用CRNN系列進(jìn)行目標(biāo)識別,根據(jù)最近提出的使用最新提出的residual net進(jìn)行body part的提取,得到的效果更加準(zhǔn)確,精度更高。使用Image-Conditioned Pairwise Terms的方法,能夠?qū)⒈姸嗪蜻x區(qū)域的節(jié)點壓縮到更少數(shù)量的節(jié)點。實現(xiàn)效果更好的識別,這就是提出的DEEPER CUT。
(4)可以采用了LSTM時間遞歸神經(jīng)網(wǎng)絡(luò)算法,通過行人運動時引起的各個關(guān)節(jié)點的運動,去識別出行人的動作。同時,LSTM網(wǎng)絡(luò)能夠通過自主學(xué)習(xí),獲知一系列動作持續(xù)時間內(nèi)不同幀的重要性,以及不同的關(guān)節(jié)點在不同的動作中的重要性,使重要的幀和重要的關(guān)節(jié)點在識別某張圖的行人的動作中起更大的作用,這是更進(jìn)一步的運用。
[1]Eldar Insafutdinov,Mykhaylo Andriluka, Leonid Pishch-ulin, Siyu Tang, Evgeny Levinkov, Bjoern Andres, Bernt Sc-hiele ArtTrack: ArticulatedMulti-personTrackingintheWild,Su-bmitted on 20 Nov 2015.
[2]Eldar Insafutdinov1, Leonid Pishchulin1, Bjoern Andr-es1,Mykhaylo Andriluka1,2, and Bernt Schiele1,DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose EstimationModel,Computer Vision – ECCV:2016.
[3]林原,劉海峰,林鴻飛,許侃.基于損失函數(shù)融合的組排序?qū)W習(xí)方法[J].廣西師范大學(xué)學(xué)報(自然科學(xué)版),2019,37(01):62-70.
[4]陳恩加,唐向宏,傅博文.Faster R-CNN行人檢測與再識別為一體的行人檢索算法[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2019,31(02):332-339.
[5]姚品,萬旺根.行人再識別問題中背景抑制方法的研究[J].電子測量技術(shù),2019,42(02):73-77.
[6]彭志勇,常發(fā)亮,劉洪彬,別秀德.基于HSV模型和特征點匹配的行人重識別算法[J].光電子·激光,2015,26(08):1575-1582.
[7]王文豪,高利,吳紹斌,趙亞男.行人檢測綜述[J].摩托車技術(shù),2019(01):29-32.
[8]王斌,劉洋,唐勝,郭俊波.融合多模型和幀間信息的行人檢測算法[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2017,29(03):444.