王龍 宋慧慧 張開華 劉青山
視頻目標(biāo)分割[1-6]通常被建模為半監(jiān)督學(xué)習(xí)任務(wù),即在給定初始幀目標(biāo)掩模標(biāo)注的前提下,精確分割出后續(xù)幀中特定目標(biāo)區(qū)域.視頻目標(biāo)分割在眾多計(jì)算機(jī)視覺任務(wù)中具有重要的應(yīng)用價(jià)值,包括視頻編輯[7-8]、目標(biāo)追蹤[9-10]和動(dòng)作識(shí)別[11-12]等.近年來,隨著深度學(xué)習(xí)的興起,視頻目標(biāo)分割也取得了突破性進(jìn)展.但是,精度高且速度快的算法仍然非常匱乏,其原因在于所學(xué)深度模型仍難以有效應(yīng)對(duì)復(fù)雜視頻場(chǎng)景的變化,如嚴(yán)重遮擋、快速運(yùn)動(dòng)、相似目標(biāo)干擾等.
為此,一些視頻目標(biāo)分割算法在不同方面進(jìn)行了嘗試.其中,文獻(xiàn)[1-2,13-14]中的算法在測(cè)試階段用第1 幀及其標(biāo)注在線微調(diào)網(wǎng)絡(luò);另外,文獻(xiàn)[2,15-17]中的算法將視頻分割任務(wù)視為掩膜逐幀傳播過程.但是,由于未充分考慮復(fù)雜場(chǎng)景的表觀建模,這些方法在一些復(fù)雜場(chǎng)景下表現(xiàn)不佳.為此,一些算法試圖通過增強(qiáng)目標(biāo)與背景的特征表征力來提升表觀模型的判別力.譬如,文獻(xiàn)[3]通過利用匹配(Matching)操作與排序注意力模塊學(xué)習(xí)查詢幀中的每個(gè)像素與引導(dǎo)幀中所有像素之間的相似程度來構(gòu)建魯棒的表觀模型;文獻(xiàn)[4]設(shè)計(jì)了兩個(gè)新穎的子網(wǎng)絡(luò)調(diào)制器,將視覺和空間信息通過網(wǎng)絡(luò)調(diào)制構(gòu)建表觀模型,并嵌入分割子網(wǎng)絡(luò)進(jìn)行學(xué)習(xí).但是,這些方法只利用單幀的特征學(xué)習(xí)表觀建模,未能充分捕獲視頻的時(shí)域上下文信息,難以自適應(yīng)復(fù)雜場(chǎng)景的變化.針對(duì)該問題,本文設(shè)計(jì)出一種在線多幀、多尺度高斯表觀網(wǎng)絡(luò)模塊,通過在線學(xué)習(xí)目標(biāo)與背景的特征分布來提升表觀模型的判別力.
除此之外,大量掩膜傳播類算法[2-3,15-18]將前一幀的預(yù)測(cè)結(jié)果作為當(dāng)前幀的額外輸入進(jìn)行處理.這種結(jié)構(gòu)可視為時(shí)間維度的循環(huán)結(jié)構(gòu).但是,鮮有算法在空間維度也構(gòu)建循環(huán)結(jié)構(gòu),而空間維循環(huán)可將高層特征反饋到低層,從而充分利用前、后層特征信息學(xué)習(xí)更加魯棒的表觀模型.鑒于此,本文通過引入這種反饋機(jī)制[19-20]設(shè)計(jì)出反饋多核融合模塊,用于引導(dǎo)學(xué)習(xí)更加魯棒的表觀模型.
本文的主要貢獻(xiàn)總結(jié)如下:
1)提出一種在線多幀、多尺度高斯表觀模型,充分學(xué)習(xí)多尺度特征的統(tǒng)計(jì)信息,增強(qiáng)對(duì)目標(biāo)與背景表觀的判別力;
2)將信息反饋的思想引入視頻目標(biāo)分割,設(shè)計(jì)出一種反饋多核融合模塊,允許前層特征捕捉后層的有用信息;
3)本文算法與當(dāng)前最先進(jìn)的方法相比,在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上達(dá)到領(lǐng)先水平,證明了本文算法的優(yōu)越性.
一些視頻目標(biāo)分割算法嚴(yán)重依賴在線學(xué)習(xí).文獻(xiàn)[1]及其擴(kuò)展算法[21]預(yù)先訓(xùn)練一個(gè)語義分割網(wǎng)絡(luò),然后利用初始幀微調(diào)該網(wǎng)絡(luò),使其關(guān)注分割目標(biāo);文獻(xiàn)[13]在文獻(xiàn)[1]的基礎(chǔ)上引入了在線自適應(yīng)機(jī)制以學(xué)習(xí)跨視頻目標(biāo)表觀變化.這類方法將視頻簡單地視為無關(guān)圖片的集合,忽略了視頻序列的時(shí)間相關(guān)性,嚴(yán)重影響建模精度.為此,一些方法開始考慮采用簡單的時(shí)序信息建模,通過傳播上一幀掩膜來建模時(shí)序信息.文獻(xiàn)[2]利用了光流算法傳播掩膜,首創(chuàng)了掩膜傳播類視頻目標(biāo)分割方法;文獻(xiàn)[22]將4 個(gè)不同功能的子網(wǎng)絡(luò)組合為一體進(jìn)行微調(diào),獲得2018 DAVIS[23]挑戰(zhàn)賽的冠軍.盡管在線微調(diào)能夠大幅提升視頻目標(biāo)分割的精度,但是嚴(yán)重影響運(yùn)行效率,導(dǎo)致其難以應(yīng)用于對(duì)實(shí)時(shí)性要求較高的實(shí)際任務(wù)之中.
為降低運(yùn)算成本并達(dá)到精度與速度之間的平衡,最近提出的一些視頻目標(biāo)分割算法拋棄了在線微調(diào)過程,轉(zhuǎn)而只依賴于離線學(xué)習(xí).文獻(xiàn)[16]提出了基于孿生網(wǎng)絡(luò)的視頻目標(biāo)分割模型,其中,子網(wǎng)絡(luò)1 對(duì)初始幀及其掩模標(biāo)注進(jìn)行編碼,子網(wǎng)絡(luò)2 對(duì)當(dāng)前幀和上一幀預(yù)測(cè)結(jié)果進(jìn)行編碼.兩者的輸出結(jié)果再通過全局卷積(Global convolution)進(jìn)行融合;另外,文獻(xiàn)[18]在時(shí)空域引入非局部(Non-local)注意力機(jī)制來充分利用視頻中豐富的時(shí)序信息,在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上都表現(xiàn)出優(yōu)異的性能.
表觀建模對(duì)視頻目標(biāo)分割至關(guān)重要.文獻(xiàn)[24]設(shè)計(jì)了軟匹配層來計(jì)算相似得分圖;文獻(xiàn)[25]同時(shí)進(jìn)行全局匹配和局部匹配,并結(jié)合了參考幀和上一幀的信息學(xué)習(xí)魯棒的表觀模型;文獻(xiàn)[3]則將掩膜傳播與特征匹配結(jié)合,優(yōu)勢(shì)互補(bǔ),性能表現(xiàn)出色;文獻(xiàn)[15]和文獻(xiàn)[26]分別設(shè)計(jì)了專門的目標(biāo)表觀模型來自適應(yīng)學(xué)習(xí)目標(biāo)和背景區(qū)域之間的差異.
近年來,反饋機(jī)制[19-20]在視覺任務(wù)中得到了廣泛應(yīng)用,如圖像超分[27]、顯著目標(biāo)檢測(cè)[28]、人群計(jì)數(shù)[29]等.文獻(xiàn)[27]利用反饋結(jié)構(gòu),以高層特征補(bǔ)充學(xué)習(xí)淺層表征,取得不錯(cuò)效果;文獻(xiàn)[28]在解碼器中應(yīng)用多階段反饋機(jī)制,進(jìn)一步糾正顯著圖估計(jì)偏差,提升了顯著性檢測(cè)的精度;文獻(xiàn)[29]設(shè)計(jì)了一種通用架構(gòu),將自頂向下的信息以反饋的形式傳遞給自底向上的網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí),在多個(gè)數(shù)據(jù)集上表現(xiàn)出優(yōu)異性能.
如圖1 所示,本文網(wǎng)絡(luò)主要包含引導(dǎo)、查詢與分割三個(gè)分支.其中,引導(dǎo)與查詢分支為在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet101 網(wǎng)絡(luò),通過共享網(wǎng)絡(luò)權(quán)重分別用于提取引導(dǎo)幀與查詢幀的深度特征.深度卷積網(wǎng)絡(luò)各層特征的特性不同:低層富含紋理細(xì)節(jié)信息,高層富含語義信息,而中層則介于兩者之間.本文將利用多層特征構(gòu)建多尺度表觀網(wǎng)絡(luò),以充分利用它們之間的互補(bǔ)優(yōu)勢(shì).
圖1 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Network structure diagram
首先,利用多層特征構(gòu)建多尺度高斯表觀模型,并通過在線更新來捕獲多幀信息.通過圖1 中的多尺度高斯表觀特征提取模塊生成目標(biāo)和背景區(qū)域的概率密度分布圖作為目標(biāo)表觀特征X?,其能夠有效凸顯目標(biāo)而抑制背景干擾.之后,將引導(dǎo)幀的高斯表觀特征、引導(dǎo)幀真實(shí)標(biāo)注GT0、查詢幀的高斯表觀特征和上一幀掩膜預(yù)測(cè)Mt-1一同輸入反饋多核融合模塊,該模塊同時(shí)考慮時(shí)空雙重反饋,不僅沿時(shí)間維反饋傳播掩膜,而且將后層特征反饋至前層以融合兩者優(yōu)勢(shì),達(dá)到豐富自身信息容量與提升判別力的效果.最后,融合后的多級(jí)特征通過一個(gè)簡單的類似文獻(xiàn)[30]所提出的U 形網(wǎng)絡(luò) (UNet)結(jié)構(gòu)的解碼器網(wǎng)絡(luò),輸出最終分割預(yù)測(cè)結(jié)果Mt.
本文的主要?jiǎng)?chuàng)新點(diǎn)在于所設(shè)計(jì)的多尺度高斯表觀特征提取模塊與反饋多核融合模塊,并將在后續(xù)內(nèi)容中進(jìn)行詳細(xì)介紹.
鑒于視頻的多幀、多尺度特征的統(tǒng)計(jì)信息在表觀建模中的重要作用,本文在低、中、高三種特征尺度層面上,通過設(shè)計(jì)混合高斯模型(Gaussian mixed model,GMM)在線學(xué)習(xí)多幀的表觀統(tǒng)計(jì)信息,以獲取各個(gè)位置的像素屬于前景目標(biāo)的概率,來突出目標(biāo)并抑制背景干擾,為后續(xù)模塊精確預(yù)測(cè)提供有效支持.
本文的GMM 模型在整個(gè)視頻上在線更新目標(biāo)的均值μ與方差σ.具體來講,本文利用當(dāng)前幀It對(duì)應(yīng)的多尺度特征與分割結(jié)果Mti,通過掩膜平均池化操作估計(jì)目標(biāo)和背景的均值與方差參數(shù),對(duì)應(yīng)公式化描述為
圖2 高斯表觀特征提取模塊 (G 表示高斯模型)Fig.2 Gaussian appearance feature extraction module(G denotes Gaussian model)
其中,γ是超參,分別為式(1)與式(2)在時(shí)間為t-1 時(shí)計(jì)算所得.最后,更新后的參數(shù)代入GMM 公式,并忽略掉無關(guān)的常數(shù)項(xiàng),可輸出高斯表觀特征如下:
由于視頻相鄰幀間目標(biāo)的表觀變化比較平穩(wěn),故大量算法將視頻目標(biāo)分割視為掩膜從初始幀逐幀傳播的過程,把上幀預(yù)測(cè)掩膜作為處理當(dāng)前幀的額外輸入,通過這種時(shí)域循環(huán)結(jié)構(gòu)捕捉時(shí)序信息.但是,這類方法忽視了與時(shí)域循環(huán)結(jié)構(gòu)相對(duì)應(yīng)的空域循環(huán)結(jié)構(gòu).而這種結(jié)構(gòu)允許靠近監(jiān)督約束的特征回流到網(wǎng)絡(luò)淺層,能夠進(jìn)一步增強(qiáng)所學(xué)特征的判別力.所以,為了同時(shí)充分利用這兩種結(jié)構(gòu),本文將反饋機(jī)制和掩膜傳播相結(jié)合,構(gòu)建了反饋多核融合模塊,分別在低、中、高三種特征尺度上進(jìn)一步增強(qiáng)多尺度高斯表觀特征的信息容量.
圖3 展示了反饋多核融合模塊的結(jié)構(gòu).在視頻目標(biāo)分割任務(wù)中,首幀的掩膜標(biāo)注提供全局引導(dǎo)信息,而前一幀預(yù)測(cè)出的掩膜則富含局部引導(dǎo)信息.反饋多核融合模塊融合這兩種引導(dǎo)信息以及第2.1節(jié)所述的引導(dǎo)幀與查詢幀的高斯表觀特征:
其中,fcat代表沿通道維度連接.不同于簡單的前饋結(jié)構(gòu),反饋結(jié)構(gòu)中的高層信息可通過反饋連接向前流動(dòng).如圖3 所示,多核融合模塊在第n=1,···,k次循環(huán)接收前一次循環(huán)的輸出以及式(6)定義的
其中,fMKFM為多核融合模塊,⊕為按位加.
圖3(b)所示多核融合模塊(Multiple kernels fusion module,MKFM)為反饋多核融合模塊的基本單元,除了傳播掩膜的功能之外,還通過并行多個(gè)不同擴(kuò)張率的卷積操作構(gòu)成空洞金字塔[32],擴(kuò)大感受野以捕捉更豐富的上下文信息.首先,輸入三個(gè)平行的擴(kuò)張率分別為r=1,3,6 的帶孔卷積:
圖3 反饋結(jié)構(gòu)Fig.3 Feedback structure
其中,CONV表示卷積操作.然后,式(9)的結(jié)果輸入一個(gè)普通卷積以融合三路特征融合并還原通道數(shù);最后,利用殘差跳躍連接來防止梯度消失,以上操作公式化為
其中,fdec由多個(gè)上采樣層和卷積層組成,還原到原始尺寸的同時(shí)逐級(jí)融合多層特征.
為了公平起見,本文借鑒文獻(xiàn)[15]采用兩階段訓(xùn)練:
第1 階段:以尺寸調(diào)整至 240×480 像素大小的DAVIS 2017[33]和YouTube-VOS[34]訓(xùn)練集為訓(xùn)練數(shù)據(jù),采用Adam[35]優(yōu)化器,訓(xùn)練80 個(gè)周期.其中,每批訓(xùn)練數(shù)據(jù)包括4 段視頻,每段視頻隨機(jī)選取連續(xù)8 幀,學(xué)習(xí)率及其衰減率分別設(shè)置為10-4和0.95,權(quán)重衰減率設(shè)置為10-5.
第2 階段:對(duì)第1 階段訓(xùn)練的預(yù)訓(xùn)練模型進(jìn)行進(jìn)一步微調(diào).首先,以尺寸調(diào)整為 480×864 像素大小的DAVIS 2017[33]和YouTube-VOS[34]的訓(xùn)練集為訓(xùn)練數(shù)據(jù),采用Adam[35]優(yōu)化器,訓(xùn)練100 個(gè)周期.其中,每批訓(xùn)練數(shù)據(jù)包括2 段視頻,每段視頻隨機(jī)選取連續(xù)4 幀,學(xué)習(xí)率及其衰減率分別設(shè)置為10-5和0.985,權(quán)重衰減率設(shè)置為10-6.
本文使用DAVIS 2017[33]的標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo),包括區(qū)域相似度J和輪廓精度F.其中,J為分割結(jié)果和標(biāo)注真值掩膜的交并比,即
其中,M表示預(yù)測(cè)的分割結(jié)果,GT表示分割真值掩膜.F將掩膜視為系列閉合輪廓的集合,計(jì)算基于輪廓的F度量,即
其中,P為準(zhǔn)確率,R為召回率.另外,本文還采用綜合指標(biāo)J&F,其表示為兩者的均值,即
DAVIS 2016[36]是密集標(biāo)注的單目標(biāo)視頻目標(biāo)分割數(shù)據(jù)集,包括30 段訓(xùn)練視頻和20 段驗(yàn)證視頻.表1 中對(duì)比了本文算法與其他18 種最先進(jìn)的算法,包括10 種基于在線學(xué)習(xí)的算法和8 種基于離線學(xué)習(xí)的算法.本文算法的綜合指標(biāo)J&F=85%,在基于離線的對(duì)比方法中排名第2,僅低于排名第1 的RANet[3]0.5 個(gè)百分點(diǎn),與性能最先進(jìn)的在線方法MHP[14]相比,結(jié)果僅相差1.9%.但是,本文算法的運(yùn)行速度達(dá)到0.1 s/幀,遠(yuǎn)快于對(duì)比的離線方法,如MHP[14]分割每幀用時(shí)超過14 s.此外,雖然RANet[3]幾乎在所有指標(biāo)上都略高于本文算法,但是,其在驗(yàn)證單目標(biāo)與多目標(biāo)分割任務(wù)前,需分別在單目標(biāo)數(shù)據(jù)集DAVIS 2016[36]和多目標(biāo)數(shù)據(jù)集DAVIS 2017[33]各自的訓(xùn)練集上進(jìn)行網(wǎng)絡(luò)微調(diào),即針對(duì)不同數(shù)據(jù)集使用更有針對(duì)性的不同模型參數(shù).而本文算法則無需這一過程,在驗(yàn)證不同數(shù)據(jù)集時(shí)使用同樣模型參數(shù),因而更具普適性.
表1 不同方法在DAVIS 2016 驗(yàn)證集的評(píng)估結(jié)果Table 1 Evaluation results of different methods on DAVIS 2016 validation dataset
1)數(shù)據(jù)集DAVIS 2017 上的結(jié)果
DAVIS 2017[33]是DAVIS 2016[36]針對(duì)多目標(biāo)視頻分割任務(wù)的擴(kuò)展,其包括60 段訓(xùn)練視頻、30 段驗(yàn)證視頻、30 段測(cè)試視頻以及30 段競(jìng)賽視頻.表2比較了本文算法與9 種基于離線學(xué)習(xí)算法和8 種基于在線學(xué)習(xí)算法在DAVIS 2017[33]驗(yàn)證集上的結(jié)果.本文算法以J=70.7%和F=76.2%的結(jié)果在所有離線方法中排名第1,非常接近最優(yōu)在線方法MHP[14]的性能J=71.8%和F=78.8%.但是,本文算法運(yùn)行速度達(dá)到0.14 s/幀,而MHP[14]則為20 s/幀.
表2 不同方法在DAVIS 2017 驗(yàn)證集的評(píng)估結(jié)果Table 2 Evaluation results of different methods on DAVIS 2017 validation dataset
表3 是各算法在DAVIS 2017[33]測(cè)試集上的表現(xiàn).本文算法在離線算法中仍表現(xiàn)最優(yōu),且與排名第2 的FEELVOS[25]相比,J和F指標(biāo)分別高出3.1%和3%.此外,本文算法精度不及最優(yōu)離線方法PReMVOS[22],但是其網(wǎng)絡(luò)模型是由4 個(gè)不同功能的子網(wǎng)絡(luò)組成,結(jié)構(gòu)異常復(fù)雜,并且其緩慢的在線學(xué)習(xí)過程導(dǎo)致其推理速度(> 30 s/幀)遠(yuǎn)慢于本文算法.另外,DAVIS 2017[33]測(cè)試集中平均每段視頻包含的目標(biāo)物體數(shù)目多于驗(yàn)證集,導(dǎo)致離線算法與在線算法之間的精度差距要比在驗(yàn)證集上的更大.
表3 不同方法在DAVIS 2017 測(cè)試集的評(píng)估結(jié)果Table 3 Evaluation results of different methods on DAVIS 2017 test-dev dataset
2)數(shù)據(jù)集YouTube-VOS 上的結(jié)果
YouTube-VOS[34]是第一個(gè)大規(guī)模視頻目標(biāo)分割數(shù)據(jù)集,包含3 471 段訓(xùn)練視頻和474 段驗(yàn)證視頻.驗(yàn)證集又分為65 類可見類別和26 類未見類別.評(píng)估指標(biāo)為分別計(jì)算可見和未見的J和F:Js,Ju,Fs和Fu.綜合指標(biāo)G為4 項(xiàng)指標(biāo)均值.如表4 所示,本文算法G=6 8.1%,排名第1,超越第2名AGAME[15]2.1%,甚至比在線學(xué)習(xí)的S2S (Sequence-to-sequence)[45]高3.7%.尤其,本文算法對(duì)未見類別取得了Ju=62.1%和Fu=68.3%的出色性能,充分體現(xiàn)了本文模型良好的泛化性能.
表4 不同方法在YouTube-VOS 驗(yàn)證集的評(píng)估結(jié)果Table 4 Evaluation results of different methods on YouTube-VOS validation dataset
表5 展示了本文算法在DAVIS 2017[33]驗(yàn)證集上的消融實(shí)驗(yàn)結(jié)果.三個(gè)算法變體分別用于驗(yàn)證各組成部分的作用.不考慮高斯表觀建模即去除多尺度高斯表觀特征提取模塊,J=62.2%,與原模型相比下降了8.5%,證明了高斯表觀建模的重要作用.另外,將反饋多核融合模塊替換為幾層簡單的卷積后,J=66.6%;只去除反饋連接后J=69.1%.從這兩種模型變體的結(jié)果指標(biāo)可見,多核融合模塊和反饋機(jī)制的貢獻(xiàn)分別為2.5%與1.6%.最后,將上述兩模塊都去除,J僅為59.8%.以上消融實(shí)驗(yàn)充分證明了本文算法各部分的重要作用.
表5 消融實(shí)驗(yàn)(M,F和f分別代表多尺度高斯表觀特征提取模塊、反饋多核融合模塊和反饋機(jī)制)Table 5 Ablative experiments (M,F,f,denotes the multi-level Gaussian feature module,feedback multi-kernel fusion module and feedback mechanism,respectively)
表6 展示了反饋次數(shù)k對(duì)本算法精度、速度的影響.當(dāng)反饋次數(shù)為0 時(shí),意味著只有前饋沒有反饋;當(dāng)k由0 變?yōu)? 時(shí),J提升了0.8%;進(jìn)一步地,當(dāng)k取2和3 時(shí),J也隨之繼續(xù)提升;最后,當(dāng)k再進(jìn)一步增加時(shí),J不再改變.而另一方面,隨著k值的增加,算法運(yùn)行速度逐漸變慢,這是多核融合模塊(MKFM)被重復(fù)調(diào)用導(dǎo)致計(jì)算量上升的結(jié)果.但是,由于多核融合模塊結(jié)構(gòu)簡單、計(jì)算量小,k每加1,速度僅變慢2~3 ms/幀.相較于J的大幅提升,此數(shù)量級(jí)的速度變慢和計(jì)算量增加是微乎其微的.綜上,本文將反饋機(jī)制和多核融合模塊相結(jié)合,能夠以較少的計(jì)算代價(jià)換來精度的大幅提升.
表6 不同反饋次數(shù)對(duì)比Table 6 Comparisons with different numbers of feedback
圖4 展示了本文算法在各數(shù)據(jù)集上的分割結(jié)果.可見本文算法在多種挑戰(zhàn)場(chǎng)景下性能出色.前兩行中,跳舞女孩和街舞男孩被幾乎無錯(cuò)地分割,展示了本算法對(duì)單個(gè)目標(biāo)的強(qiáng)大分割能力.第3 行金魚和第8 行斑馬視頻中,算法未被多個(gè)相似物體誤導(dǎo),未發(fā)生混淆和丟失,體現(xiàn)了本算法對(duì)于相似物體的良好區(qū)分能力.另外,第4 行中,兩個(gè)進(jìn)行柔道比賽的男士之間相互遮擋與交互不斷,但是本算法仍可準(zhǔn)確分割,表現(xiàn)出很強(qiáng)的魯棒性.最后,第5行和第6 行出現(xiàn)的自拍桿和小提琴琴弓都被準(zhǔn)確分割,充分展示了本算法對(duì)小物體出色的分割能力.
圖4 分割結(jié)果展示Fig.4 Display of segmentation results
本文提出了一種新穎的反饋學(xué)習(xí)高斯表觀網(wǎng)絡(luò)的視頻目標(biāo)分割算法,集成了多尺度高斯表觀特征提取模塊與反饋多核融合模塊.前者通過高斯混合模型在線建??缍鄮投喑叨鹊哪繕?biāo)和背景穩(wěn)定表觀特征,生成粗糙但魯棒的中間結(jié)果,方便后續(xù)模塊進(jìn)一步處理.而后者結(jié)合反饋機(jī)制和掩模傳播,通過時(shí)空雙重循環(huán)結(jié)構(gòu)更好地利用上下文信息,增強(qiáng)模型的判別力.在多個(gè)標(biāo)準(zhǔn)評(píng)測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果都充分驗(yàn)證了本文所提出算法的優(yōu)越性.