宮法明,呂軒軒,宮文娟,王曉寧
(中國石油大學(xué)(華東)計(jì)算機(jī)與通信工程學(xué)院,青島 266580)
近年來,運(yùn)動(dòng)目標(biāo)檢測已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn),引起了眾多學(xué)者的關(guān)注,在視頻監(jiān)控系統(tǒng)、對象跟蹤等方面發(fā)揮了巨大的作用.行人檢測的研究隨著機(jī)器學(xué)習(xí)的巨大發(fā)展取得了重大進(jìn)步,研究內(nèi)容為在圖像中快速而精確地識別和定位出行人.基于外觀的行人檢測器在大規(guī)模的數(shù)據(jù)集上進(jìn)行訓(xùn)練已經(jīng)成為主流,目前流行的訓(xùn)練目標(biāo)檢測器的方法是使用監(jiān)督算法(如AdaBoost[1],神經(jīng)網(wǎng)絡(luò)[2],支持向量機(jī)[3]).但是這種方法需要大量的人工標(biāo)注訓(xùn)練數(shù)據(jù)集,而且隨著檢測模型的擴(kuò)大,需要標(biāo)注的數(shù)據(jù)集也快速增長,人工標(biāo)記大型訓(xùn)練集的過程是耗時(shí)且乏味的.因?yàn)橛?xùn)練出適應(yīng)特定場景的檢測器需要海量的數(shù)據(jù)集來覆蓋各種視點(diǎn)、分辨率、光照條件、天氣環(huán)境以及各種復(fù)雜的場景,當(dāng)訓(xùn)練用于大規(guī)模視覺系統(tǒng)的檢測器時(shí),例如在幾百個(gè)場景中配置攝像機(jī)的視頻監(jiān)控網(wǎng)絡(luò)中,從每個(gè)場景人工收集和標(biāo)記正面以及負(fù)面的訓(xùn)練圖像的成本是非常大的.隨著大數(shù)據(jù)時(shí)代的到來,需要處理海量視頻數(shù)據(jù),人工獲取數(shù)據(jù)集的方式已經(jīng)無法滿足實(shí)際需要.
目前目標(biāo)檢測圖片標(biāo)注的方式主要以全手工標(biāo)注為主,進(jìn)行重復(fù)人工類別標(biāo)注的成本太高,效率低下且不可擴(kuò)展,尤其是在需要大量標(biāo)注樣本的情況下.在這種情況下,數(shù)據(jù)集的獲取方式變得尤為重要.為了應(yīng)對大量增長的視頻數(shù)據(jù),提高效率.本文針對靜止的單目攝像機(jī)拍攝的監(jiān)控視頻圖像,在已有框架上進(jìn)行步驟改進(jìn),提出了一種融合對象分割的半自動(dòng)標(biāo)注方法,極大減少了人力參與,降低經(jīng)濟(jì)成本.
本文的實(shí)驗(yàn)數(shù)據(jù)來源于海上石油平臺的監(jiān)控視頻.海上作業(yè)危險(xiǎn)性很高,為了保證石油工人的安全等問題,對海上石油平臺的監(jiān)控尤為重要.海上平臺的攝像頭數(shù)量巨大,且安裝角度各異,使得視頻背景及海上石油平臺工作人員在視頻中出現(xiàn)的位置復(fù)雜,更增加了訓(xùn)練集制作的難度.
本文的主要貢獻(xiàn)如下:
1)設(shè)計(jì)一個(gè)用于行人檢測任務(wù)的融合對象分割的半自動(dòng)標(biāo)注方法,能夠提供大量的訓(xùn)練樣例;
2)將運(yùn)動(dòng)信息與視覺相似性相結(jié)合,更好地分割出前景目標(biāo),并將其應(yīng)用于數(shù)據(jù)集的生成.
首先,為了更加精確地分割前景目標(biāo)和背景,本文結(jié)合了短期線索的運(yùn)動(dòng)信息和跨越大時(shí)間圈的視覺相似性,首先將圖像分割成超像素[4],通過光流[5]大小來提取運(yùn)動(dòng)信息,給出每個(gè)超像素的初始顯著性分割(前景或者背景),通過跨越時(shí)間的連續(xù)幀在空間區(qū)域的外觀相似性迭代的糾正每個(gè)超像素的分割結(jié)果.在空間區(qū)域和時(shí)間區(qū)域的相似特征將豐富多樣的信息傳播到整個(gè)視頻序列,得到準(zhǔn)確的分割結(jié)果.根據(jù)提取出的前景目標(biāo)進(jìn)行數(shù)據(jù)集的制作;其次,用制作好的數(shù)據(jù)集學(xué)習(xí)一個(gè)針對特定場景的行人檢測器,最后將其應(yīng)用于行人檢測.如圖1所示,為本文的框架流程圖.
文章的組織結(jié)構(gòu)如下:第2 部分介紹了行人檢測的研究現(xiàn)狀;第3 部分提出了一種新的數(shù)據(jù)集標(biāo)注方法,將得到的數(shù)據(jù)集用于行人檢測器的學(xué)習(xí);第4 部分在海上石油平臺的監(jiān)控視頻數(shù)據(jù)集中對本文提出的算法進(jìn)行了實(shí)驗(yàn)驗(yàn)證;第5 部分對全文進(jìn)行了總結(jié).
圖1 行人檢測框架流程圖
監(jiān)督學(xué)習(xí)的行人檢測算法一般需要手工標(biāo)注大量的數(shù)據(jù)集,這種方式耗費(fèi)大量的時(shí)間和人力.目前已經(jīng)有相關(guān)的無監(jiān)督學(xué)習(xí)或者半監(jiān)督學(xué)習(xí)實(shí)現(xiàn)了無需標(biāo)注數(shù)據(jù)集的方式來訓(xùn)練行人檢測模型.香港中文大學(xué)的王曉剛等[6]提出了一種遷移學(xué)習(xí)框架,自動(dòng)地將通用行人檢測器轉(zhuǎn)換成針對特定場景的行人檢測器,過程中無需手工標(biāo)注數(shù)據(jù)集.弗萊堡大學(xué)的Dosovitskiy A等[7]基于數(shù)據(jù)增強(qiáng)提出了一種僅使用未標(biāo)記數(shù)據(jù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的無監(jiān)督的目標(biāo)檢測方法,使用代理類通過一系列基本變換進(jìn)行數(shù)據(jù)增強(qiáng),如:旋轉(zhuǎn)、縮放、平移、顏色、對比度等.卡內(nèi)基梅隆大學(xué)的Rosenberg C 等[8]使用一組弱標(biāo)記的示例來增強(qiáng)一小組標(biāo)記的訓(xùn)練實(shí)例去訓(xùn)練出一個(gè)目標(biāo)檢測器,表現(xiàn)優(yōu)于完全使用標(biāo)記數(shù)據(jù)訓(xùn)練出的目標(biāo)檢測器.巴塞羅那自治大學(xué)的Marin J[9]使用來自虛擬世界的數(shù)據(jù)集,免除了手工標(biāo)注的煩瑣過程.
對于監(jiān)督學(xué)習(xí),YOLO[10]和SSD[11]在目標(biāo)檢測方面基于大量數(shù)據(jù)集的人工標(biāo)注取得了良好的效果.麥吉爾大學(xué)的Nair V 等[12]使用背景減法手動(dòng)設(shè)計(jì)了一個(gè)自動(dòng)標(biāo)注機(jī),自動(dòng)標(biāo)注在辦公室走廊上的行人,免除了手工標(biāo)注數(shù)據(jù)集的枯燥乏味,但是對于復(fù)雜場景下,這種方式可能并不適用.
監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)是人工神經(jīng)網(wǎng)絡(luò)的兩種主要的學(xué)習(xí)方式.無監(jiān)督學(xué)習(xí)不需要帶有標(biāo)簽的訓(xùn)練樣本,但是訓(xùn)練過程繁瑣且時(shí)間冗長.監(jiān)督學(xué)習(xí)從帶標(biāo)記的訓(xùn)練樣本中學(xué)習(xí)特征,但是需要大量的訓(xùn)練數(shù)據(jù).根據(jù)研究現(xiàn)狀可知,以上成果主要基于訓(xùn)練數(shù)據(jù)集的無監(jiān)督訓(xùn)練,數(shù)據(jù)增強(qiáng)或者虛擬現(xiàn)實(shí)來實(shí)現(xiàn)無需標(biāo)注數(shù)據(jù)集的目的,基于監(jiān)督學(xué)習(xí)表現(xiàn)良好,本文旨在構(gòu)建一個(gè)應(yīng)用于監(jiān)督學(xué)習(xí)的復(fù)雜場景下的數(shù)據(jù)集類別半自動(dòng)標(biāo)注的方法.本文的半自動(dòng)標(biāo)注方法允許人力參與,對標(biāo)注結(jié)果進(jìn)行修正.
在下面的章節(jié)中描述了所提出方法的細(xì)節(jié),3.1 節(jié)將運(yùn)動(dòng)信息與視覺相似性相結(jié)合,提取出前景目標(biāo),為之后的數(shù)據(jù)集標(biāo)注做準(zhǔn)備;3.2 節(jié)將3.1 節(jié)提取的前景目標(biāo)應(yīng)用于數(shù)據(jù)集的半自動(dòng)標(biāo)注,可以人工調(diào)整目標(biāo)框;3.3 節(jié)使用深度學(xué)習(xí)方法對本文方法進(jìn)行了驗(yàn)證.
圖像前景區(qū)域提取有很多應(yīng)用,包括對象檢測和識別,視頻摘要,圖像壓縮等等.因此,國內(nèi)外的學(xué)者也在這個(gè)方向進(jìn)行了大量的研究.Mitra NJ 等[13]提出的算法僅僅考慮顏色顯著性,這顯然是不夠的,因?yàn)橐恍┎煌伾膮^(qū)域可能是非顯著的;還有算法僅僅考慮檢測不同的模式,如前景對象和背景區(qū)域之間的邊緣信息,但這可能導(dǎo)致顯著物體的均勻區(qū)域缺失;背景減除法也是是一種有效的對象檢測算法,基本思想是利用背景的參數(shù)模型來近似背景圖像的像素值,將當(dāng)前幀與背景圖像進(jìn)行差分比較實(shí)現(xiàn)對運(yùn)動(dòng)區(qū)域的檢測由于監(jiān)控環(huán)境的不同,真實(shí)的背景可能隨時(shí)會發(fā)生變化,背景模型如果不能及時(shí)更新,則會導(dǎo)致運(yùn)動(dòng)目標(biāo)提取的失敗.針對傳統(tǒng)方法存在的不足,我們既考慮運(yùn)動(dòng)顯著性,也考慮跨越大時(shí)間圈的視覺相似性.這些線索都不足以提供良好的分割結(jié)果.我們的方法是以簡單而有效的方式融合這兩個(gè)線索.本文核心算法流程圖如圖2所示.
圖2 算法流程圖
算法包含了4 部分:(1)將視頻序列分割成超像素;(2)根據(jù)光流信息獲得每個(gè)超像素的前景可能性(0-1),其中1 代表前景,0 代表背景;(3)將每個(gè)超像素用一個(gè)外觀描述符表示在特征空間中,特征空間中相鄰描述符代表相似的區(qū)域,每一個(gè)區(qū)域都有一個(gè)前景可能性;(4)根據(jù)特征空間中的相鄰描述符的前景可能性來更新初始前景可能性.
3.1.1 初始前景可能性結(jié)果
最初的光流算法由Horn 和Schunck[14]提出,假定在時(shí)刻t處于圖像坐標(biāo)(x,y)位置的點(diǎn),在時(shí)刻t+d運(yùn)動(dòng)到了圖像坐標(biāo)的點(diǎn)(x+dx,y+dy)處,在時(shí)刻t的像素灰度值為I(x,y,t),在時(shí)刻t+dt的像素灰度值為I(x+dx,y+dy,t+dt),時(shí)間變化很小的情況下,認(rèn)定像素灰度值不變,那么像素的運(yùn)動(dòng)矢量即為運(yùn)動(dòng)物體的光流變化.光流算法根據(jù)物體的運(yùn)動(dòng)信息來判斷物體位置以及顯著性特征.它代表圖像中的模式運(yùn)動(dòng)的速度,如果圖像中沒有運(yùn)動(dòng)目標(biāo),那么,光流矢量在整個(gè)圖像區(qū)域連續(xù)變化;如果物體和圖像背景存在著相對運(yùn)動(dòng)時(shí),運(yùn)動(dòng)物體形成的速度矢量的大小和方向和鄰域背景必然不同,從而檢測出運(yùn)動(dòng)物體的位置以及輪廓特征.
本文利用連續(xù)幀間差分方法定位運(yùn)動(dòng)目標(biāo),獲得二值圖像,然后計(jì)算二值圖像中特征點(diǎn)處的光流.因?yàn)橛?jì)算二值圖像中值為1的特征點(diǎn)的光流場分布比計(jì)算整個(gè)圖像的光流場要準(zhǔn)確.
本文利用光流信息獲取視頻幀的初始前景可能性結(jié)果,但是在復(fù)雜背景下的視頻序列中,短期的運(yùn)動(dòng)顯著性只能很好地指示物體位置.假如前景物體在視頻序列中只有一部分移動(dòng)而另一部分靜止,只用光流的方法是不夠的.這些前景可能性結(jié)果很嘈雜,需要通過視頻序列的特征空間的相鄰描述符的前景可能性來更新初始結(jié)果.
3.1.2 超像素分割
超像素分割技術(shù)是指將圖像分割為許多小的區(qū)域,這些成為超像素的小區(qū)域在顏色和紋理上具有同質(zhì)性.由于超像素空間緊湊性高、大小均勻,并且能夠很好地保留了圖像中目標(biāo)的邊界結(jié)構(gòu),這種過度碎片化使得我們即使在高運(yùn)動(dòng)模糊或低分辨率的情況下提取有意義的邊界.本系統(tǒng)采用超像素分割方法為簡單線性迭代聚類(Simple Linear Iterative Clustering,SLIC)[15],該方法預(yù)先設(shè)定的超像素個(gè)數(shù),采用K-mean 聚類方法生成一系列大小一致且保持目標(biāo)邊界的超像素區(qū)域R.超像素分割示例如圖3所示.
3.1.3 前景可能性的迭代更新
特征空間中的相鄰描述符表示相似的區(qū)域,在視頻中可能在空間和時(shí)間上相隔很遠(yuǎn).我們的描述符有以下幾種類型:RGB 和LAB 顏色直方圖,HOG 描述符.首先我們需要找到超像素區(qū)域R在特征空間上的N個(gè)最鄰近區(qū)域(Nearest Neighbors),計(jì)算出區(qū)域R和它的N個(gè)最鄰近區(qū)域的相似性:
其中,d(R)代表區(qū)域R的高維特征描述符.
圖3 SLIC 超像素分割圖像
然后,計(jì)算圖像上所有超像素區(qū)域的最鄰近距離矩陣S(i,j),并歸一化;用N個(gè)最鄰近區(qū)域的前景可能性的加權(quán)平均值更新每個(gè)區(qū)域R的前景可能性:
我們將算法分為兩個(gè)階段:首先限制最鄰近區(qū)域搜索的視頻幀數(shù)量,將每個(gè)超像素搜索的范圍設(shè)置為在F等于10 幀的時(shí)間半徑之內(nèi)的包括自身在內(nèi)的TNN(即2F+1 幀),這樣的做法保證了算法的效率以及減少了混淆背景和前景區(qū)域的機(jī)會;然后放寬對于鄰近區(qū)域的搜索時(shí)間限制,可以在整個(gè)視頻序列中搜索,得到最終的分割結(jié)果.
我們的半自動(dòng)標(biāo)注數(shù)據(jù)集的方法是根據(jù)3.1 節(jié)中提取的前景目標(biāo)設(shè)計(jì)而來.在行人檢測任務(wù)中,半自動(dòng)標(biāo)注方法允許人力的參與,當(dāng)然我們盡力讓提取的前景目標(biāo)更加精確,以免除或者減少人力參與,使得標(biāo)注結(jié)果更加精確:
(1)當(dāng)目標(biāo)框不夠精確時(shí),可以手動(dòng)調(diào)整目標(biāo)框的大??;
(2)當(dāng)出現(xiàn)將背景像素標(biāo)記為前景目標(biāo)等錯(cuò)誤標(biāo)記情況時(shí),可以通過刪除目標(biāo)框按鈕,刪除已經(jīng)標(biāo)記的錯(cuò)誤目標(biāo)框;
(3)當(dāng)出現(xiàn)遺漏標(biāo)記的情況,可以通過添加目標(biāo)框按鈕來標(biāo)記遺漏目標(biāo).
卷積神經(jīng)網(wǎng)絡(luò)[16]作為深度學(xué)習(xí)模型的一種,能從數(shù)據(jù)中自動(dòng)學(xué)習(xí)并提取特征,其泛化能力顯著優(yōu)于傳統(tǒng)方法,已經(jīng)成功應(yīng)用于物體檢測和識別等領(lǐng)域.包含輸入層、輸出層和隱層,它的隱層由若干個(gè)卷積層、池化層和全連接層組成.簡化的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖4所示.
圖4 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
其中,Conv1、Conv3是卷積層,Pool2、Pool4為池化層,F(xiàn)C 為全連接層.卷積層中有多個(gè)Feature Map,每個(gè)Feature Map 對應(yīng)一種濾波器,以此提取不同的特征.
基于本文提出的方法,我們開發(fā)了一個(gè)半自動(dòng)標(biāo)注行人實(shí)例的系統(tǒng).為了驗(yàn)證本文方法的魯棒性,在石油海洋平臺的多個(gè)場景中進(jìn)行了實(shí)驗(yàn)驗(yàn)證.本實(shí)驗(yàn)采用普通的臺式機(jī),將CPU 為Core(TM)i7、主頻3.4 GHz,內(nèi)存為8 G的臺式機(jī)作為硬件平臺,搭載英偉達(dá)GTX1060 型號顯卡.軟件開發(fā)環(huán)境為:64 位Windows 10 操作系統(tǒng)、MATLAB R2015b 軟件開發(fā)平臺、Visual Studio 2013 平臺、Caffe 深度學(xué)習(xí)框架.
實(shí)驗(yàn)所用的視頻來自石油海洋平臺的靜止監(jiān)控?cái)z像頭.在實(shí)驗(yàn)中,監(jiān)控設(shè)備保持固定不動(dòng),視頻序列以海洋工作平臺作為背景.圖5 為方法實(shí)現(xiàn)過程.
圖5(a)為輸入視頻幀;圖5(b)為經(jīng)過光流算法得到的初始前景可能性結(jié)果;圖5(c)為限制鄰近區(qū)域搜索空間得到的第一階段分割結(jié)果;圖5(d)為在整個(gè)視頻序列中搜索鄰近區(qū)域得到的第二階段分割結(jié)果;圖5(e)為使用本文半自動(dòng)標(biāo)注方法得到的訓(xùn)練樣例標(biāo)注結(jié)果;圖5(f)為本文所提出的目標(biāo)檢測框架所得結(jié)果圖.
圖5 本文框架實(shí)現(xiàn)過程
如表1所示,為兩種標(biāo)注方法在同一數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的結(jié)果.人工標(biāo)注與操作人員的標(biāo)注效率有關(guān),本實(shí)驗(yàn)選用七個(gè)標(biāo)注人員的平均效率作為參考.其中,包含目標(biāo)幀為所選視頻中包含行人的幀數(shù),不包含目標(biāo)幀為視頻幀中沒有行人的幀數(shù),錯(cuò)誤標(biāo)注率為標(biāo)注錯(cuò)誤的視頻幀占不包含目標(biāo)幀的比例,遺漏標(biāo)注率為標(biāo)注遺漏的視頻幀占包含目標(biāo)幀的比例,標(biāo)注時(shí)長為標(biāo)注該組數(shù)據(jù)集所消耗的時(shí)間.
表1 實(shí)驗(yàn)結(jié)果對比表
由實(shí)驗(yàn)可以看出:
(1)在相同的數(shù)據(jù)集上進(jìn)行標(biāo)注,本文提出的方法在效率上要優(yōu)于人工標(biāo)注數(shù)據(jù)集.
表2 為在不同場景下使用本文方法的表現(xiàn)對比結(jié)果,其中,場景1 為畫質(zhì)清晰且目標(biāo)行人尺寸較大的數(shù)據(jù)集;場景2 為畫質(zhì)清晰但目標(biāo)行人尺寸較小的情況;場景3 為背景較為復(fù)雜且行人較小的數(shù)據(jù)集.
(2)在相同的數(shù)據(jù)集上進(jìn)行標(biāo)注,本文提出的方法在標(biāo)注質(zhì)量上要低于人工標(biāo)注,但在資源消耗上要優(yōu)于人工標(biāo)注方法.
(3)在不同的數(shù)據(jù)集上進(jìn)行標(biāo)注,本文提出的方法在畫質(zhì)清晰且目標(biāo)行人尺寸較大的場景中表現(xiàn)明顯優(yōu)于背景模糊場景或者目標(biāo)行人尺寸較小的場景.圖像質(zhì)量以及目標(biāo)尺寸大小對實(shí)驗(yàn)結(jié)果(標(biāo)注效率、標(biāo)注質(zhì)量、資源消耗)有很大影響.
表2 不同場景下實(shí)驗(yàn)結(jié)果對比表
圖6 為使用本文的方法針對不同場景下的結(jié)果.實(shí)驗(yàn)表明,本文提出的半自動(dòng)標(biāo)注行人實(shí)例的方法能夠較精確地實(shí)現(xiàn)單目標(biāo)場景中行人訓(xùn)練實(shí)例的分割問題,同時(shí)對多場景視頻中的復(fù)雜環(huán)境等有較好的適應(yīng)性,提高標(biāo)注訓(xùn)練實(shí)例的效率.
圖6 不同場景下的實(shí)驗(yàn)結(jié)果.第一列為相應(yīng)場景的分割結(jié)果圖,第二列為對應(yīng)于第一列的使用本文提出的方法的標(biāo)注結(jié)果圖
本文所提出的行人檢測框架,結(jié)合了對象分割,能較準(zhǔn)確的分割出視頻中的運(yùn)動(dòng)目標(biāo),并將其應(yīng)用于訓(xùn)練數(shù)據(jù)集的標(biāo)注.一定程度上減輕了人力負(fù)擔(dān),提高了數(shù)據(jù)集標(biāo)注效率.但是對于多目標(biāo)場景,本文還不能很好地解決.由于海上采油平臺遠(yuǎn)離陸地,工作環(huán)境相對復(fù)雜,我們下一步的工作就是解決多目標(biāo)復(fù)雜場景下的前景分割及標(biāo)注.