韓開旭,袁淑芳
(1. 北部灣大學(xué)電子與信息工程學(xué)院,廣西 欽州 535011;2. 北部灣大學(xué)理學(xué)院,廣西 欽州 535011)
在視頻文件分析過程中,視覺跟蹤是一個(gè)至關(guān)重要的環(huán)節(jié),尤其是在安全監(jiān)督、視頻壓縮和機(jī)器人視覺系統(tǒng)等方面更是尤為重要。雖然相關(guān)科研人員從未停止對(duì)視頻跟蹤的研究,但是由于各種噪聲、目標(biāo)姿態(tài)變化和光照改變等因素,依舊是科研過程中的技術(shù)難題,尤其當(dāng)視覺跟蹤的目標(biāo)是非剛性物體時(shí),跟蹤過程困難度更大。
陳國軍等人[1]提出了基于深度學(xué)習(xí)的單目視覺圖像目標(biāo)跟蹤方法,采用訓(xùn)練過的深度卷積神經(jīng)網(wǎng)絡(luò)算法計(jì)算視頻中的每個(gè)圖像的傳輸圖,從而實(shí)現(xiàn)視覺跟蹤。但是該方法存在一定的弊端,當(dāng)圖像背景較復(fù)雜,或者目標(biāo)姿態(tài)和光照突然改變時(shí),將會(huì)導(dǎo)致漂移,難以準(zhǔn)確地跟蹤目標(biāo)。蒲磊等人[2]提出了基于空間可靠性約束的魯棒視覺跟蹤方法,利用預(yù)先經(jīng)過訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型提取目標(biāo)的多層深度特征,與各層的濾波器進(jìn)行加權(quán)融合,從而實(shí)現(xiàn)視覺跟蹤。但是在圖像復(fù)雜的情況下,難以對(duì)圖像作出全面的描述或者分離出目標(biāo),往往會(huì)出現(xiàn)目標(biāo)漂移的情況。
基于此,本文提出了基于深度學(xué)習(xí)的雙閾值圖像局部分塊視覺跟蹤方法,并通過仿真驗(yàn)證了該方法的可行性與有效性。
深度卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)是基于深度學(xué)習(xí)的一種網(wǎng)絡(luò)模型,被廣泛應(yīng)用于圖像分割。FCN有以下幾點(diǎn)優(yōu)勢(shì):
1)用卷積層替換全連接層,實(shí)現(xiàn)端到端的卷積網(wǎng)絡(luò)訓(xùn)練。
2)為使圖像達(dá)到像素級(jí)分割,對(duì)圖像中全部的像素特征進(jìn)行預(yù)測(cè)分類。但是針對(duì)視覺環(huán)境較復(fù)雜的圖像,F(xiàn)CN網(wǎng)絡(luò)結(jié)構(gòu)上采樣依然采取最簡(jiǎn)單的反卷積方式,導(dǎo)致無法識(shí)別到圖像的細(xì)節(jié)特征,最終分割的圖像輪廓模糊,粘連較嚴(yán)重。
為此提出使用Mask R-CNN,其作為一種實(shí)例分割(Instance segmentation)方法,把感興趣區(qū)域(Region of Interest,ROI)作為深度卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)分支,實(shí)現(xiàn)對(duì)目標(biāo)圖像的實(shí)例分割。為保留目標(biāo)空間位置坐標(biāo)的精度,Mask R-CNN網(wǎng)絡(luò)用ROIAlign操作替換ROIPool操作。對(duì)于空間量化特征提取錯(cuò)位的層,ROIAlign可以起到修正作用。雙線性差值使輸入網(wǎng)絡(luò)和輸出網(wǎng)絡(luò)之間的空間位置精度保持不變,對(duì)應(yīng)ROI bin上的坐標(biāo)值。使判斷類別(Class)與輸出掩模(MASK)之間的依賴關(guān)系降為最低,實(shí)現(xiàn)對(duì)其中每一個(gè)目標(biāo)單獨(dú)地用平均二值交叉熵?fù)p失預(yù)測(cè)二值掩模,降低了類別之間的競(jìng)爭(zhēng)力,提高了圖像分割的效率。
在Mask R-CNN網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,還對(duì)網(wǎng)絡(luò)深度和網(wǎng)絡(luò)寬度進(jìn)行了優(yōu)化調(diào)整,在給定的訓(xùn)練參數(shù)上進(jìn)行遷移學(xué)習(xí)。以分割目標(biāo)圖像為基礎(chǔ),通過求出不同層數(shù)和不同卷積核之間的分割準(zhǔn)確率來得到最優(yōu)網(wǎng)絡(luò)參數(shù)和網(wǎng)絡(luò)模型。
最終本文確定最優(yōu)網(wǎng)絡(luò)模型為PigNet網(wǎng)絡(luò)結(jié)構(gòu),對(duì)Mask R-CNN網(wǎng)絡(luò)結(jié)構(gòu)在卷積層和類別數(shù)方面作出兩點(diǎn)優(yōu)化改進(jìn):
1)對(duì)于圖像中不同的目標(biāo)區(qū)域,Mask R-CNN網(wǎng)絡(luò)第四階段由原來的69層卷積層變?yōu)?2層,一方面可以降低特征損耗,另一方面還可以降低卷積運(yùn)算量。
2)Mask R-CNN網(wǎng)絡(luò)的Mask分支最后一層卷積層類別數(shù)優(yōu)化調(diào)整為PigNet類和background類兩類。具體結(jié)構(gòu)如圖1所示。

圖1 PigNet網(wǎng)絡(luò)結(jié)構(gòu)十一圖
PigNet網(wǎng)絡(luò)結(jié)構(gòu)由五個(gè)階段、四十四個(gè)卷積層構(gòu)成,所有卷積層均采用殘差學(xué)習(xí)結(jié)構(gòu)。其中每條弧線包含3個(gè)卷積層,1×1×64層表示卷積核為1×1、通道數(shù)為64的卷積層。殘差學(xué)習(xí)結(jié)構(gòu)在很大程度上減少了參數(shù)數(shù)量,使計(jì)算更加簡(jiǎn)單的同時(shí)保持了目標(biāo)的空間位置精度不變。通過網(wǎng)絡(luò)圖弧線部分,殘差學(xué)習(xí)結(jié)構(gòu)將輸入的信息直接傳輸給后面的層,也降低了部分特征損耗。殘差學(xué)習(xí)結(jié)構(gòu)還可以把每一層卷積層的滑動(dòng)步長(zhǎng)由原來的2個(gè)像素縮小為四分之一,同時(shí)輸出通道數(shù)不斷的增加,直到2048為止。
在PigNet主干網(wǎng)絡(luò)結(jié)構(gòu)上涉及到兩種特征提取過程[3]:其中一方面是通過候選區(qū)域網(wǎng)絡(luò)(Region proposal networks,RPN)對(duì)網(wǎng)絡(luò)模型conv4_12卷積層輸出的特征圖(Feature map)作出分析處理,提取所需的特征信息;另一方面,它向前傳播生成特征映射。RPN可以用最快的速度選取感興趣區(qū)域。
PigNet網(wǎng)絡(luò)的損失函數(shù)L主要由三部分分類誤差Lcls、檢測(cè)誤差Lbox、分割誤差Lmask構(gòu)成,公式如下
L=Lcls+Lbox+Lmask
(1)
式中,Lcls、Lbox處理全連接層以此來預(yù)測(cè)所有感興趣區(qū)域的所屬類別和目標(biāo)空間的回歸框坐標(biāo)值。Lmask分割并對(duì)每一個(gè)感興趣區(qū)域的目標(biāo)圖像賦予掩模。選擇圖像中所有感興趣區(qū)域類別為pig類的目標(biāo)圖像,這樣在繼續(xù)計(jì)算對(duì)區(qū)域分割產(chǎn)生的損失函數(shù)時(shí)只需要考慮pig類的相對(duì)熵誤差即可。為了避免類別間競(jìng)爭(zhēng),計(jì)算pig類的相對(duì)熵誤差時(shí)不考慮background類。Lbox主要作用是保證目標(biāo)圖像回歸框的位置坐標(biāo)不發(fā)生偏離。Lmask則用來確保目標(biāo)圖像生成掩模的精準(zhǔn)度。Class分支預(yù)測(cè)感興趣區(qū)域類別為pig類,那么Lmask只需要對(duì)pig類別預(yù)測(cè)像素點(diǎn),保證目標(biāo)圖像輪廓分明,不發(fā)生粘連的情況,以此來保證不同層深度上的輪廓位置坐標(biāo)信息的精準(zhǔn)度,使圖像可以實(shí)現(xiàn)精準(zhǔn)的分割。本文PigNet網(wǎng)絡(luò)模型由卷積計(jì)算得到2個(gè)感興趣區(qū)域,Lbox用來預(yù)測(cè)目標(biāo)空間回歸框的位置坐標(biāo),Lmask利用平均二值交叉熵?fù)p失函數(shù)與Sigmoid函數(shù)的結(jié)合,可以單獨(dú)地預(yù)測(cè)目標(biāo)空間回歸框的位置坐標(biāo)形成一個(gè)二值掩模。分割圖像用兩種不同顏色的掩模表示,放在兩個(gè)不同的層深度中。即使分割目標(biāo)更多的圖像,PigNet模型也會(huì)對(duì)每個(gè)分割目標(biāo)形成相對(duì)應(yīng)的二值掩模。
概率潛在語義分析(probabilitistic latent semantic analysis,PLSA),最開始在文本分類和信息檢索領(lǐng)域應(yīng)用甚廣,隨著研究的不斷深入,在機(jī)器視覺領(lǐng)域也得到迅速發(fā)展。它主要用來發(fā)現(xiàn)圖像分割區(qū)域中的“主題”部分。這里本文依然使用原始術(shù)語“文檔”、“主題”、“詞匯”等描述PLSA模型?!拔臋n”表示分割塊,“主題”表示閾值信息,屬于潛在的中間變量,“詞匯”表示分割圖像中的視覺詞匯。
由于目標(biāo)遮擋、光照等條件改變會(huì)對(duì)閾值圖像產(chǎn)生影響,為了降低這種影響帶來的檢測(cè)誤差,本文主要對(duì)圖像的SIFT(quick scale invariant feature transform)特征進(jìn)行提取,并利用k-means算法對(duì)提取的SIFT特征進(jìn)行類聚,每個(gè)聚類中心為一個(gè)視覺單詞,用BOW對(duì)直方圖視覺詞匯進(jìn)行描述。
圖像分割塊用Di={d1,d2…,dNi}(i=1,2,3)表示,其中N表示被分割個(gè)數(shù),基于k-means算法聚類可得到M個(gè)視覺詞匯{x1,x2…,xM},n(di,xj)表示某個(gè)視覺詞匯在某個(gè)分割塊di(i∈1,…N)中的數(shù)量;如果存在k個(gè)潛在主題(z1,z2…,zk),那么每個(gè)分割塊中每個(gè)視覺詞匯都有一個(gè)可能的主題變量zk(k=1,…,k)與之相關(guān)聯(lián)。聯(lián)合概率為p(xj,di,zk),通過對(duì)主題的邊緣求和可確定條件概率p(xj|di)

(2)
式(2)中,di表示分割塊,zk表示主題,xj表示視覺詞匯,P(zk|di)表示在di中zk出現(xiàn)的概率;P(xj|zk)表示zk中xj出現(xiàn)的概率,PLSA模型圖如圖2所示。

圖2 PASA模型
代入EM算法可求出PLSA模型參數(shù)。EM算法可以用來估算主題分布,利用極大似然原則對(duì)潛在變量模型參數(shù)的標(biāo)準(zhǔn)過程進(jìn)行估計(jì)。本文通過EM算法求得最大條件概率P(zk|di,xj)。
最后分析主題與分割區(qū)域的對(duì)應(yīng)程度,利用KL(Kullback-Leibler)算法對(duì)每個(gè)分割區(qū)域進(jìn)行加權(quán),可以看出分割區(qū)域出現(xiàn)亮度不一致的圖塊,在這些分割區(qū)域中選出亮度較高的圖塊作為閾值圖像進(jìn)行提取。


(3)


(4)
對(duì)于式(4)中的p(st|rt),可通過閾值的狀態(tài)信息估算出st的值。對(duì)于已知的閾值圖像的空間位置信息,可通過計(jì)算得出st的條件概率,st的條件概率p(st|rt)為

(5)

(6)

(7)


(8)

(9)
那么式(9)的等效形式可以用lg函數(shù)的單調(diào)性表示為

(10)

(11)
為驗(yàn)證本文設(shè)計(jì)的基于深度學(xué)習(xí)的雙閾值圖像局部分塊視覺跟蹤方法的實(shí)際有效性,在MATLAB環(huán)境中設(shè)計(jì)如下仿真加以驗(yàn)證。
在仿真中,選取Seq_mb圖像序列、Skating2圖像序列和Shaking圖像序列作為實(shí)驗(yàn)對(duì)象,分別用本文方法與文獻(xiàn)[1]、文獻(xiàn)[2]方法對(duì)其進(jìn)行視覺跟蹤,最終確定在姿態(tài)變化、光照變化、部分遮擋等條件下三種方法的最優(yōu)結(jié)果,并以目標(biāo)平均中心位置像素誤差為衡量標(biāo)準(zhǔn)。
三個(gè)圖像序列的詳細(xì)信息如表1所示。

表1 仿真中應(yīng)用的圖像序列描述
不同方法的仿真結(jié)果如圖3所示。

圖3 三種圖像序列跟蹤誤差曲線
從圖3中可以看出,相比文獻(xiàn)[1]、文獻(xiàn)[2]方法,本文方法的誤差更小。圖4(b)中,由于圖像中姿態(tài)大幅度變化,文獻(xiàn)[1]、文獻(xiàn)[2]方法的跟蹤區(qū)域逐漸漂移甚至丟失,而本文方法表現(xiàn)出了較高的一致性;圖4(c)中,由于視頻中光照改變,目標(biāo)部分遮擋導(dǎo)致文獻(xiàn)[1]、文獻(xiàn)[2]方法視覺跟蹤效果變得極差,但是本文方法一直處于穩(wěn)定跟蹤目標(biāo)的狀態(tài)。
仿真結(jié)果表明,在復(fù)雜的視覺環(huán)境下,本文方法較文獻(xiàn)[1]、文獻(xiàn)[2]方法相比跟蹤誤差更小,證明本文方法跟蹤效果更好。
本文提出了一種基于深度學(xué)習(xí)的雙閾值圖像局部分塊視覺跟蹤方法。以深度卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)構(gòu)建PigNet網(wǎng)絡(luò),有效地解決了復(fù)雜視覺環(huán)境下對(duì)圖像的分割。利用PLSA算法類別估計(jì)分割區(qū)域,貝葉斯算法跟蹤閾值圖像,并利用EM算法進(jìn)行優(yōu)化,完成視覺跟蹤任務(wù)。通過仿真結(jié)果證明了本文方法比文獻(xiàn)[1]、文獻(xiàn)[2]方法更有優(yōu)勢(shì),在視覺跟蹤方面準(zhǔn)確性更高。但本文方法對(duì)于粘連較嚴(yán)重的圖像在分割跟蹤任務(wù)方面仍有不足,需要做更深入的研究。