鄭琛媛,程遠增,付 強
(陸軍工程大學(xué)石家莊校區(qū),石家莊 050003)
目標(biāo)檢測是計算機視覺中基礎(chǔ)的任務(wù)之一,其研究的主要目的是從復(fù)雜的背景中檢測并定位所設(shè)定種類的目標(biāo)物體[1]。近年來,目標(biāo)檢測在醫(yī)學(xué)、軍事、智能交通、視覺導(dǎo)航等多個領(lǐng)域發(fā)揮著越來越重要的作用,有著廣泛的應(yīng)用前景和潛在的經(jīng)濟價值。
傳統(tǒng)目標(biāo)檢測算法利用滑動搜索窗,通過改變其位置、大小和長寬比遍歷整幅圖片,得到一系列的候選框,然后利用提取的特征和分類器對候選框進行處理,從而檢測出要求的目標(biāo)[2]。對于這種檢測算法,如果要求檢測結(jié)果的準(zhǔn)確性高,就需要對圖像的遍歷過程更加精細,但是這樣會引起計算量的增加,影響檢測的速度;如果想加快檢測速度,那么對圖像的遍歷過程就會相對粗糙,造成檢測結(jié)果的準(zhǔn)確性降低[3]。如何更加快速準(zhǔn)確地檢測出目標(biāo)也已經(jīng)成為當(dāng)今學(xué)者們普遍關(guān)注和研究的一個重要課題[4]。近些年來,為了更好地調(diào)節(jié)檢測的準(zhǔn)確性和快速性之間的矛盾,人們對得到的候選框進行研究,著眼于提高候選框的質(zhì)量、減少候選框的數(shù)量,進而提出了“目標(biāo)提議(proposal)”的概念。目標(biāo)提議認為在一張圖像中并不是每個子窗口都包含有目標(biāo),僅有少量的候選窗口對目標(biāo)的檢測是有意義的[5],利用一些方法將這些對目標(biāo)檢測有意義的窗口提取出來,就是目標(biāo)提議的過程。兩種檢測算法的流程圖如圖1所示。
根據(jù)候選區(qū)域生成過程的不同,proposal算法大致可分為兩類[5]:一類是先將圖片分割,然后再聚合的方法,即聚合法,其中比較經(jīng)典的算法有Selective search[6]、CPMC[7]、MCG[8];另一類則是生成大量的候選窗并根據(jù)一些低層次的特征快候選窗進行評分,然后過濾掉低分的方法,即候選窗評分法,其中比較經(jīng)典的算法有 Edge boxes[9]、Bing[10]。利用這些方法對圖像進行處理可得到幾千個甚至幾百個包含目標(biāo)的可能性較高的候選框,這不僅提高了檢測的確性,而且降低了后續(xù)操作的時間復(fù)雜度,提高了檢測的速度[5]。
現(xiàn)有的提議算法都是針對常規(guī)物體,當(dāng)僅需要針對某種特定目標(biāo)進行檢測時,如監(jiān)控場景中只檢測人或車輛、軍事應(yīng)用中僅關(guān)心敵方飛機或?qū)椀那闆r,可以利用已有的先驗知識改進現(xiàn)有提議算法,提高其性能。Edge boxes是一種不需要進行學(xué)習(xí)的快速[9]提議生成算法,處理一幀圖像平均需要0.27 s,因此,本文在edge boxes基礎(chǔ)上進行研究。目標(biāo)的邊緣圖像可看作是由許多的輪廓(線段)組成,如果組成某一輪廓的所有像素點都位于候選框中,那么則認為該輪廓就是一條被候選框完全封閉包圍的輪廓。Edge boxes將被候選框完全封閉包圍的邊緣輪廓的數(shù)量作為候選框評分的依據(jù)。但是,當(dāng)一候選框包含特定目標(biāo)及其周圍背景中物體時,利用edge boxes的評分依據(jù)進行評分,通常情況下比恰好包含目標(biāo)的候選框的評分要高,這會影響對某一特定目標(biāo)檢測的結(jié)果。為了得到針對某一特定目標(biāo)的候選框,本文在Edge boxes算法的基礎(chǔ)上進行改進,提取被候選框完全封閉包圍的輪廓在候選框不同區(qū)域的邊緣像素點,以這些邊緣像素點幅值的均值組成特征向量,將各個候選框與目標(biāo)的特征向量的差值、被候選框完全封閉包圍的輪廓數(shù)量聯(lián)合起來作為評分的依據(jù)。實驗結(jié)果證明,該方法能夠提高針對特定目標(biāo)的候選框的準(zhǔn)確性。
輸入一幅圖像Edge boxes包括兩個步驟:1)計算邊緣圖像;2)對候選框進行評分。
對邊緣圖像的計算主要包括兩個步驟:1)得到初始的邊緣圖像;2)對原始邊緣圖像進行稀疏化處理。首先,根據(jù)文獻[11]中所提出的結(jié)構(gòu)化邊緣檢測算法得到原始的邊緣圖像,然而,此邊緣圖像中包含細節(jié)的邊緣較多,影響檢測速度。為此對邊緣像素點進行處理,要求只有當(dāng)邊緣像素點的幅值mp>0.1時,將其作為邊緣像素點,這樣就得到了稀疏化的邊緣圖像。如圖2所示,其中(a)圖表示原始圖像,黃色矩形框表示目標(biāo)位置;(b)圖表示稀疏化的邊緣圖像,藍色矩形框表示對應(yīng)目標(biāo)的邊緣圖像的位置。記稀疏化的邊緣圖像中任一像素點p,其對應(yīng)的幅值和方向角分別記為mp、θp。后續(xù)過程均在稀疏化的邊緣圖像上進行。
Edge boxes將被候選框完全封閉包圍的輪廓的數(shù)量作為評分標(biāo)準(zhǔn),而輪廓可以看作是由許多相似性很高的像素群組成,通過計算像素群間的相似性,可以快速區(qū)分出被候選框完全封閉包圍的輪廓以及與候選框有重疊的輪廓。對于任意候選框b,具體評分計算過程如下[9]:
首先,計算像素群。對于任意p∈b,利用貪婪搜索的方法不斷尋找像素點8-連通范圍內(nèi)與其相似性最高的像素點,直到這些像素點方向的差值和超過(π/2),這些像素點就組成了一個小的像素群。
其次,計算像素群間的相似度。如果相鄰的兩個像素群的方向角與平均位置夾角相同,那么這兩個像素群間具有很高的相似性。因此,對于一個像素群集合S中任意兩條相鄰的像素群si和sj,記si和sj的平均位置分別為xi和xj,平均方向角為θi和θj,其相似度a(si,sj)計算公式為:
其中,θij為 xi和 xj的夾角。為了簡化計算,如果 a(si,sj)<0.05或兩個像素群間隔兩個或兩個以上像素點,則將兩個像素群間的相似度記為a(si,sj)=0。
然后,計算像素群的權(quán)值wb(si)。對于像素群集合S中任一像素群si中所包含的像素點 p的幅值mp的和記為mi,用Sb代表與候選框b有重疊的像素群的集合,如果si∈Sb,wb(si)=0,那么si與候選框b的關(guān)系wb(si)計算公式如下:
其中,T是指從候選框的邊緣開始到達si的像素群序列集合也即路徑。通過尋找與候選框的邊緣有重疊的像素群與任一si間的相似度最高的路徑,得到與候選框有重疊的輪廓。
最后,計算候選框評分hnin由于在候選框的中心處的邊緣對檢測結(jié)果影響很小,因此,可以減去候選框b中心處框bin中的所有邊緣像素點幅值的和,候選框評分計算公式為:
其中,bw和bh分為為候選框的寬和高,bin的寬和高分別為bw/2和bh/2。
利用edge boxes算法處理圖像,如果候選框包含目標(biāo)和其周圍部分背景,或者圖像背景中部分區(qū)域的邊緣輪廓比目標(biāo)區(qū)域邊緣輪廓多,那么此時得到的候選框的評分通常比恰好包含目標(biāo)的候選框的評分要高。因此,針對特定目標(biāo),僅靠候選框中完全封閉包圍的輪廓數(shù)量不足以實現(xiàn)對特定目標(biāo)的候選框的優(yōu)選。鑒于此,本文在edgeboxes算法評分依據(jù)中加入了特定目標(biāo)。
對于一候選框,記其中完全封閉包圍的輪廓為Sf。如果候選框越接近剛好能將目標(biāo)包圍的情況,那么該框中完全封閉包圍的輪廓越接近目標(biāo)的輪廓,也即構(gòu)成Sf的像素點與構(gòu)成目標(biāo)輪廓的像素點的差別越小,那么構(gòu)成候選框中Sf的像素點與目標(biāo)的像素點在不同區(qū)域的幅值均值越接近?;诖耍疚倪x取了10個不同區(qū)域[12](如圖3所示)并得到各個區(qū)域中構(gòu)成Sf的像素點的幅值均值,利用這些幅值均值構(gòu)成的特征向量表征候選框中對應(yīng)每個區(qū)域中的輪廓信息。特征向量表示如下:
其中,gi表在第i個區(qū)域邊緣像素點幅值的均值。那么對應(yīng)的目標(biāo)在10個區(qū)域的像素點的幅值均值構(gòu)成的特征向量記為GT。
對于任一候選框,其提取的特征向量與目標(biāo)特征向量的總差值可通過wbg來表示,其計算公式如下:
如果候選框的大小、形狀和位置越接近標(biāo)準(zhǔn)框,那么其與目標(biāo)的邊緣輪廓的差異就越小,即wbg值就越??;相反,如果候選框的大小、位置和形狀與標(biāo)準(zhǔn)框差別越大,該框與目標(biāo)的邊緣輪廓的差異就越大,那么wbg值就越大。候選框b的評分hbs計算公式如下:
hbs越大表明候選框包含目標(biāo)的可能性越大。
針對特定目標(biāo),本文利用候選框中邊緣輪廓整體信息和局部信息相結(jié)合的方式,評價候選框包含特定目標(biāo)的可能性。即利用被候選框完全封閉包圍的輪廓的數(shù)量,候選框與目標(biāo)特征向量的差異來評價該框包含目標(biāo)的可能性的,因此,候選框的評分計算公式如下:
這里,sb值越大表明候選框包含目標(biāo)的可能性越大。
Edge boxes提議算法流程如下頁圖4所示。
CVPR2013[13]測評集中包含50個完整標(biāo)注的視頻序列,涵蓋了目標(biāo)檢測跟蹤面臨的主要挑戰(zhàn)性場景,近年來許多檢測跟蹤算法都以該測評集為基準(zhǔn)進行實驗和測評。本文在CVPR2013測評集中選取了 couple、David3、singer1視頻序列中的部分圖像,利用這些序列圖像對改進算法與Edge boxes算法的性能進行評估,實驗設(shè)置參照Edge boxes[9]方法進行。本文的實驗平臺為配置3.2 GHz i5處理器、8 GB內(nèi)存、4核的普通電腦,仿真環(huán)境為MATLAB2013b。
將兩個框相交部分的面積與相并得到的面積相除得到的數(shù)值記為IoU,實驗過程中設(shè)定一閾值,當(dāng)某一候選框與標(biāo)準(zhǔn)框的IoU大于該閾值,將該框的位置存儲起來。首先,得到得分最高的1 000個候選框,然后在每個候選框的周圍通過改變滑動搜索窗的大小和長寬比得到得分最高的候選框即為提議算法在該位置提取的候選區(qū)域。以couple視頻序列中的某幅圖像為例,分別利用Edge boxes與改進算法得到的部分評分較高的候選框,如圖5所示(黃色矩形框代表目標(biāo)位置,紅色矩形框代表候選框)。
本文利用精度來反映算法的性能:選取一定數(shù)量的候選框,那么與目標(biāo)真實位置的IoU在閾值范圍內(nèi)候選框數(shù)量與所選取候選框的數(shù)量的比值就代表了算法的精度。實驗選取了couple視頻序列中140幅圖像、David3視頻序列中50幅圖像、singer1視頻序列中79幅圖像,在選取的視頻序列圖像中分別利用edgeboxes和改進算法分別對這些圖像提取候選框,IoU設(shè)定為0.7時,實驗結(jié)果如表1所示。
實驗發(fā)現(xiàn),IoU設(shè)定為0.7時,同一視頻序列,精度至少提升了10.71%。對于Couple視頻序列,分別改變提取候選框數(shù)量和IoU取值得到的精度曲線分別如圖6所示:圖6(a)表示IoU為0.7時提取1 000個候選框的精度變化曲線,圖6(b)表示IoU從0.5變化到1的精度變化曲線。從圖中可以看出IoU一定,改變提取候選模板的數(shù)量;或者提取候選模板數(shù)量一定,改變IoU取值時,利用改進算法比利用edgeboxes算法得到的精度都要高。尤其是提取模板數(shù)量一定,IoU在0.6~0.75這一范圍內(nèi)取值時。
表1 edge boxes與改進算法針對各中目標(biāo)實驗結(jié)果
從提議算法中可以看出,hbin和hbs的計算過程是相互獨立的,可以采用并行的方式實現(xiàn),提議算法處理一幅圖像需要1.04 s。
本文從特定目標(biāo)的檢測問題出發(fā)對Edge boxes算法進行了研究,提出了一種改進的Edge boxes提議算法。在評分過程中,選取目標(biāo)的10個不同區(qū)域,計算組成被候選框完全封閉包圍的輪廓的像素點在各個區(qū)域的幅值均值,從而提出了特定目標(biāo)的特征向量,將候選框與目標(biāo)特征向量的差異、被候選框完全封閉包圍的輪廓的數(shù)量結(jié)合起來作為評價各個候選框包含目標(biāo)可能性大小的依據(jù)。提議算法在測試集上進行了評測,精度提升了10.71%左右,表明該算法具有良好的目標(biāo)-背景判別能力,魯棒性能良好。
參考文獻:
[1]郭明瑋,趙宇宙,項俊平,等.基于支持向量機的目標(biāo)檢測算法綜述[J].控制與決策,2014,29(2):193-200.
[2]胡正平,董淑麗,趙淑歡.多尺度局部區(qū)域響應(yīng)累積的非滑窗快速目標(biāo)檢測算法 [J]. 信號處理,2016,32(1):37-45.
[3]劉濤,吳澤民,姜青竹,等.基于候選區(qū)域的視覺目標(biāo)識別算法[J].軍事通信技術(shù),2015,36(4):16-20.
[4]張建軍,黃山,張洪斌,等.基于視頻的運動目標(biāo)檢測與識別[J].現(xiàn)代電子技術(shù),2009,39(8):87-91.
[5]HOSANG J,BENENSON R,DOLLAR P,et al.What makes for effective detection proposals [J].Pattern Analysis and Machine Intelligence,2016,38(4):814-830.
[6]UIJLINGS J R R,VAN DE SANDE K E,GEVERS T,et al.Selective search for object recognition[J].International Journal of Computer Vision,2013,104(2):154-171.
[7]CARREIRA J,SMINCHISESCU C.Cmpc:automatic object segmentation using constrained parametric min-cuts[J].Pattern Analysisand MachineIntelligence,2012,34 (7):1312-1328.
[8]ARBELAEZ P,TUSET J P ,BARRON J,et al.Multiscale combinational grouping[C]//Conference on Computer Vision and Pattern Recognition,2014:328-335.
[9]ZITNICK C L,DOLLAR P.Edge boxes:locating object proposals form edges[J].European Conference on Computer Vision,2014:391-405.
[10]CHENG M M,ZHANG Z M,LIN W Y,et al.BING:binarized normed gradients for objectness estimation at 300fps[C]//Conference on Computer Vision and Pattern Recognition,2014:3289-3293.
[11]DOLLAR P,ZITNICK C L.Structured forests for fast edge detection[C]//International Conference on Computer Vision,2013:1841-1848.
[12]ZHU G,PORIKLI F,LI H D.Beyond local search:tracking objects everywhere with instance-specific proposals[C]//Conference on Computer Vision and Pattern Recognition,2016:943-951.
[13]WU Y,LIM J,YANG M H.Online object tracking:a benchmark[C]//IEEE Conference on Computer Vision and Pattern Recognition,Portland,USA,2013:1354-1362.