黃有山,候 鳴,秦宏帥,徐 玲,施剛強(qiáng),胡一奇
(1.浙江新納陶瓷新材有限公司,浙江 東陽(yáng) 322100;2.滁州市質(zhì)監(jiān)局,安徽 滁州 239000;3.杭州電子科技大學(xué),浙江 杭州 310018)
運(yùn)動(dòng)目標(biāo)檢測(cè)是目前智能視頻監(jiān)控的基礎(chǔ)技術(shù)之一,其核心是利用計(jì)算機(jī)視覺(jué)技術(shù)和數(shù)字圖像處理技術(shù)來(lái)對(duì)獲取的視頻進(jìn)行自動(dòng)分析處理進(jìn)而判斷其中是否有運(yùn)動(dòng)目標(biāo)存在的一種技術(shù)。運(yùn)動(dòng)目標(biāo)檢測(cè)廣泛應(yīng)用于機(jī)動(dòng)車輔助駕駛、智能視頻監(jiān)控、機(jī)器人以及人體行為分析等領(lǐng)域。在一些特定區(qū)域如機(jī)場(chǎng)、政府、軍事區(qū)等對(duì)安全性要求比較高的場(chǎng)景,需采用運(yùn)動(dòng)目標(biāo)檢測(cè)對(duì)一些危險(xiǎn)情況進(jìn)行及時(shí)報(bào)警。運(yùn)動(dòng)目標(biāo)檢測(cè)還可用于對(duì)運(yùn)動(dòng)目標(biāo)的跟蹤和運(yùn)動(dòng)分析,不僅能用于安防方面的人員追蹤,還能為人體運(yùn)動(dòng)研究、運(yùn)動(dòng)目標(biāo)個(gè)體行為研究等提供支持。
隨著人工智能、機(jī)器視覺(jué)技術(shù)的不斷進(jìn)步,人們對(duì)該技術(shù)的需求也越來(lái)越高。但在實(shí)際應(yīng)用中,因運(yùn)動(dòng)目標(biāo)圖像容易受到光照、穿著、姿態(tài)、遮擋以及拍攝角度的多樣性等影響,運(yùn)動(dòng)目標(biāo)檢測(cè)成為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究難點(diǎn)與熱點(diǎn)。當(dāng)前制約該技術(shù)發(fā)展的因素有以下幾個(gè):虛警問(wèn)題,即計(jì)算機(jī)把不是運(yùn)動(dòng)目標(biāo)的物體或者背景當(dāng)做了運(yùn)動(dòng)目標(biāo);檢測(cè)率不理想,即計(jì)算機(jī)把運(yùn)動(dòng)目標(biāo)當(dāng)做了非運(yùn)動(dòng)目標(biāo)來(lái)處理;檢測(cè)速度慢,即計(jì)算機(jī)每秒能處理的視頻幀數(shù)少。
芮挺[1]等提出了基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的運(yùn)動(dòng)目標(biāo)檢測(cè)算法,最終確定深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)共分7層,卷積核大小為9×9,隱含層輸出特征維數(shù)為360維左右時(shí)效果最佳。Carlos Ismael Orozco[2]等提出了一個(gè)深度卷積網(wǎng)絡(luò)架構(gòu),將之前生成的候選區(qū)域劃分為運(yùn)動(dòng)目標(biāo)或非運(yùn)動(dòng)目標(biāo)——使用一個(gè)簡(jiǎn)單的金字塔滑動(dòng)窗口方法。卷積神經(jīng)網(wǎng)絡(luò)在這個(gè)系統(tǒng)中不需要預(yù)先分類階段的幫助,也不需要特殊的模糊步驟或首字母條件,就能從非運(yùn)動(dòng)目標(biāo)圖像中對(duì)運(yùn)動(dòng)目標(biāo)進(jìn)行分類,使其比其他基于卷積神經(jīng)網(wǎng)絡(luò)的解決方案更直接。胡洋[3]等提出了基于回歸窗口和全局概率的運(yùn)動(dòng)目標(biāo)檢測(cè)方法,并進(jìn)一步探索端到端的網(wǎng)絡(luò)結(jié)構(gòu)與傳播方式,以保證較高的檢測(cè)準(zhǔn)確度。薛璐晨[4]等設(shè)計(jì)了基于OpenCV的運(yùn)動(dòng)目標(biāo)異常檢測(cè)系統(tǒng),通過(guò)金字塔Lucas-Kanade方法跟蹤分析特征點(diǎn)光流,獲得特征點(diǎn)在圖像中的光流特性,進(jìn)行運(yùn)動(dòng)估計(jì)。Sanjukta Ghosh[5]等提出了一種利用訓(xùn)練有素的深度卷積神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)運(yùn)動(dòng)目標(biāo)的新方法,該方法避免了通過(guò)邊界框?qū)τ?xùn)練數(shù)據(jù)中運(yùn)動(dòng)目標(biāo)位置的不確定定位。岳頎[6]等采用PCA非監(jiān)督學(xué)習(xí)方式獲取導(dǎo)向性初始化參數(shù)數(shù)值方法,并基于對(duì)網(wǎng)絡(luò)誤差的傳播分析,提出指數(shù)自適應(yīng)彈性動(dòng)量參數(shù)學(xué)習(xí)方法。靳培飛[7]等根據(jù)SVM(Support Vector Machine)檢測(cè)運(yùn)動(dòng)目標(biāo)時(shí)所表現(xiàn)出的特點(diǎn),快速提取出運(yùn)動(dòng)目標(biāo)ROI區(qū)域,然后在提取的ROI內(nèi)部使用可變形部件模型(DPM)檢測(cè)運(yùn)動(dòng)目標(biāo)。謝林江[8]提出一種改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)模型,即在第一個(gè)卷積層前加入一個(gè)選擇性注意層,模擬人眼的選擇性注意功能,選取LBP紋理預(yù)處理和梯度預(yù)處理為該層運(yùn)算。
本文首先為了全面描述運(yùn)動(dòng)目標(biāo)的特征屬性,使用HOG(Histogram of Oriented)特征和顏色特征相結(jié)合的特征融合方法,克服了單特征描述能力不全面的問(wèn)題,并使用主成分分析法對(duì)特征維度進(jìn)行降維,克服了多個(gè)特征數(shù)據(jù)量大的問(wèn)題;其次為了能高效識(shí)別運(yùn)動(dòng)目標(biāo),使用經(jīng)過(guò)調(diào)優(yōu)結(jié)構(gòu)后的BP神經(jīng)網(wǎng)絡(luò),克服了檢測(cè)時(shí)間長(zhǎng)的問(wèn)題。
運(yùn)動(dòng)目標(biāo)檢測(cè)的任務(wù)是將運(yùn)動(dòng)的物體(感興趣的物體)從背景中最大程度地提取出來(lái),一般使用黑白二值圖來(lái)表示運(yùn)動(dòng)目標(biāo)的檢測(cè)。Stauffer C[9]等提出了基于利用高斯分布來(lái)描述像素點(diǎn)的方法。該方法通過(guò)不斷更新高斯分布的參數(shù)來(lái)實(shí)現(xiàn)對(duì)背景的適應(yīng),同時(shí)通過(guò)維護(hù)一組權(quán)值較高的高斯分布(一般是3~5個(gè))來(lái)實(shí)現(xiàn)對(duì)動(dòng)態(tài)背景的擬合。
存在像素X,則其混合高斯模板為:
其中δw為提前設(shè)好的閾值,ωtk代表了第K個(gè)高斯分量的權(quán)重。
在判斷當(dāng)前點(diǎn)屬于前景還是背景時(shí)需要經(jīng)過(guò)以下幾個(gè)步驟:
(1)高斯分量按照權(quán)重從大到小與像素X逐一對(duì)比,判斷像素X是否落在高斯分量的中心2.5σ以內(nèi);
(2)若落在其內(nèi)則判定為背景,落在其外則繼續(xù)對(duì)比下一個(gè)高斯分量;
(3)重復(fù)2步驟直到最后一個(gè)高斯分量,若依然沒(méi)有落入相應(yīng)的高斯分量的2.5σ以內(nèi)則判定為前景。
混合高斯模板的高斯分量更新只在前景檢測(cè)的結(jié)果為前景或前景檢測(cè)結(jié)束時(shí)Q的數(shù)量小于設(shè)定的上限時(shí)對(duì)其維護(hù)的高斯分量進(jìn)行維護(hù)。當(dāng)前景檢測(cè)結(jié)果為背景且Q的數(shù)量小于設(shè)定的上限,則為該像素X建立一個(gè)高斯分量并加入到已有的高斯分量組中,若Q等于設(shè)定的上限則將權(quán)重最小的高斯分量刪除并為該像素X建立一個(gè)高斯分量并加入到已有的高斯分量組中。
混合高斯模板為像素X所維護(hù)的高斯分量數(shù)據(jù)中的不同參數(shù)的公式如下:
其中α和β為更新系數(shù),由一般經(jīng)驗(yàn)得知α和β通常為0.02。
對(duì)于所有維護(hù)的高斯分量的權(quán)重ωtk、ωt+1k的更新如下:
其中式(5)是像素X中權(quán)重最大的高斯分量的權(quán)重的更新公式;式(6)是其余高斯分量權(quán)重的更新公式;式(7)是對(duì)已有的高斯分量進(jìn)行系數(shù)歸一化的公式,這樣設(shè)置是為了削弱除權(quán)重最大的高斯分量之外的其余高斯分量的權(quán)重。
算法通過(guò)視頻序列的第一幀圖像來(lái)初始化混合高斯模板,并在后續(xù)的視頻序列檢測(cè)中繼續(xù)完善混合高斯模板的高斯分量?;旌细咚鼓0鍖?duì)前景的提取效果好、結(jié)構(gòu)簡(jiǎn)單,對(duì)計(jì)算機(jī)的要求也相對(duì)低,在較小系統(tǒng)消耗的情況下能做到每秒20幀左右的速度,該方法已經(jīng)能滿足視頻處理中的實(shí)時(shí)性要求。
人工神經(jīng)網(wǎng)絡(luò)是研究人員在人腦神經(jīng)網(wǎng)絡(luò)的啟發(fā)下通過(guò)模擬人腦神經(jīng)網(wǎng)絡(luò)工作方法來(lái)實(shí)現(xiàn)的一種模式識(shí)別方法。在圖1中,最左側(cè)為輸入層,中間為隱藏層,最右側(cè)為輸出層。相同層之間無(wú)連線,不同層中間全部連線。每一條線段代表一個(gè)權(quán)值。除輸入層以外每層點(diǎn)的求值公式如下:
圖1 神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
式(8)中wi為第i個(gè)點(diǎn)對(duì)應(yīng)的權(quán)值,為第i個(gè)點(diǎn)的值。訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過(guò)程就是尋找最優(yōu)權(quán)值組的過(guò)程。以BP神經(jīng)網(wǎng)絡(luò)為例,其通過(guò)反向傳播來(lái)實(shí)現(xiàn)對(duì)權(quán)值組的最優(yōu)調(diào)整,通過(guò)尋找使上層網(wǎng)絡(luò)的實(shí)際輸出與下層網(wǎng)絡(luò)的實(shí)際值之間的平方誤差最小化。誤差求和公式如下:
式中outputs指神經(jīng)網(wǎng)絡(luò)中輸出層單元的集合,tkd和okd指訓(xùn)練樣本d在第k個(gè)輸出層的值。
該方法需要在解空間中尋找能使平方誤差和E最小的權(quán)值組。同時(shí)為了防止神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)陷入無(wú)限循環(huán)的問(wèn)題,一般給其設(shè)立了3個(gè)結(jié)束訓(xùn)練的條件:
(1)迭代次數(shù)超標(biāo);
(2)平方誤差和E降低到了預(yù)先規(guī)定的值;
(3)當(dāng)其在測(cè)試樣本中達(dá)到預(yù)先要求。
使用pets2001標(biāo)準(zhǔn)視頻進(jìn)行測(cè)試。pets2001標(biāo)準(zhǔn)視頻由測(cè)試視頻和訓(xùn)練視頻共5個(gè)部分組成,由于其中第一部分有樹(shù)木遮擋、第五部分為車載鏡頭拍攝,使用其中第二部分和第四部分作為算法的室外場(chǎng)景來(lái)對(duì)算法進(jìn)行實(shí)驗(yàn)。
在特征提取步驟中,首先利用獲取的代表運(yùn)動(dòng)目標(biāo)位置的矩形框坐標(biāo)從原始圖像幀中截取相應(yīng)位置的圖像作為運(yùn)動(dòng)目標(biāo)圖像,并將其歸一化到預(yù)先設(shè)定的大小以便后續(xù)的特征提取操作,使用的歸一化大小是64×128像素。
其次,從運(yùn)動(dòng)目標(biāo)圖像中按照HOG特征和顏色特征的提取方法獲取描述運(yùn)動(dòng)目標(biāo)屬性的特征數(shù)據(jù)組。然后通過(guò)主成分分析法將獲取的描述運(yùn)動(dòng)目標(biāo)屬性的特征數(shù)據(jù)組維度降低。
模式識(shí)別步驟中,BP神經(jīng)網(wǎng)絡(luò)在得到降維后的代表運(yùn)動(dòng)目標(biāo)屬性的特征數(shù)據(jù)組之后,調(diào)用事先使用INRIA運(yùn)動(dòng)目標(biāo)數(shù)據(jù)庫(kù)中的訓(xùn)練樣本訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)運(yùn)動(dòng)目標(biāo)進(jìn)行智能判定,并輸出該運(yùn)動(dòng)目標(biāo)為運(yùn)動(dòng)目標(biāo)的概率和非運(yùn)動(dòng)目標(biāo)的概率。通過(guò)BP神經(jīng)網(wǎng)絡(luò)輸出的代表運(yùn)動(dòng)目標(biāo)為運(yùn)動(dòng)目標(biāo)的概率和非運(yùn)動(dòng)目標(biāo)的概率來(lái)判斷運(yùn)動(dòng)目標(biāo)檢測(cè)環(huán)節(jié)檢測(cè)出來(lái)的目標(biāo)是否為運(yùn)動(dòng)目標(biāo):若其為運(yùn)動(dòng)目標(biāo)則將代表該運(yùn)動(dòng)目標(biāo)位置的矩形框標(biāo)記成藍(lán)色;否則不做反應(yīng),直接將輸入圖像幀作為輸出圖像幀輸出。
圖2顯示了算法在pets2001標(biāo)準(zhǔn)視頻上的部分實(shí)驗(yàn)結(jié)果。算法檢測(cè)出了視頻中的運(yùn)動(dòng)的運(yùn)動(dòng)目標(biāo),并對(duì)其作出了標(biāo)記。
根據(jù)檢測(cè)結(jié)果,從檢測(cè)率、檢測(cè)速度、對(duì)運(yùn)動(dòng)目標(biāo)錯(cuò)誤檢測(cè)為非運(yùn)動(dòng)目標(biāo)的概率、對(duì)背景或非運(yùn)動(dòng)目標(biāo)檢測(cè)為運(yùn)動(dòng)目標(biāo)的概率共4個(gè)指標(biāo)來(lái)對(duì)算法進(jìn)行效果和性能的評(píng)估。實(shí)驗(yàn)證明,采用基于神經(jīng)網(wǎng)絡(luò)算法的運(yùn)動(dòng)目標(biāo)檢測(cè)在使用單隱層結(jié)構(gòu)BP神經(jīng)網(wǎng)絡(luò)、隱層節(jié)點(diǎn)數(shù)為80、閾值為運(yùn)動(dòng)目標(biāo)概率為1.4,非運(yùn)動(dòng)目標(biāo)概率為0.4的時(shí)候達(dá)到最佳值,算法表現(xiàn)如表1。將本樣本集運(yùn)用目前主流的HOG特征+支持向量機(jī)SVM算法進(jìn)行運(yùn)動(dòng)目標(biāo)檢測(cè),結(jié)果對(duì)比如表2。
表1 檢測(cè)方法性能指標(biāo)
表2 不同算法的識(shí)別率比較
圖2 pets2001標(biāo)準(zhǔn)視頻檢測(cè)試驗(yàn)結(jié)果
上述對(duì)比結(jié)果進(jìn)一步表明基于神經(jīng)網(wǎng)絡(luò)算法的運(yùn)動(dòng)目標(biāo)檢測(cè)能夠更好地提取運(yùn)動(dòng)目標(biāo)特征并完成對(duì)運(yùn)動(dòng)目標(biāo)的檢測(cè),與HOG特征+支持向量機(jī)SVM算法相比,正確率有明顯提升,識(shí)別速度也有所提高。
在室外場(chǎng)景下基于神經(jīng)網(wǎng)絡(luò)算法進(jìn)行運(yùn)動(dòng)目標(biāo)檢測(cè),使用HOG特征和顏色特征相結(jié)合的特征融合方法,并使用主成分分析法對(duì)特征維度進(jìn)行降維。實(shí)驗(yàn)證明,算法對(duì)視頻中的運(yùn)動(dòng)目標(biāo)檢出效果好。同時(shí),通過(guò)與目前使用較多的HOG特征和支持向量機(jī)SVM的方法進(jìn)行對(duì)比,在總識(shí)別率上有明顯提升,在檢測(cè)速度上也有所提高。