亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

自適應(yīng)權(quán)重更新的輕量級(jí)視頻目標(biāo)分割算法

2023-12-23 10:14:04汪水源侯志強(qiáng)李富成馬素剛余旺盛

中國(guó)圖象圖形學(xué)報(bào) 2023年12期

汪水源，侯志強(qiáng)，李富成，馬素剛，余旺盛

1.西安郵電大學(xué)計(jì)算機(jī)學(xué)院，西安 710121；2.西安郵電大學(xué)陜西省網(wǎng)絡(luò)數(shù)據(jù)分析與智能處理重點(diǎn)實(shí)驗(yàn)室，西安 710121；3.空軍工程大學(xué)信息與導(dǎo)航學(xué)院，西安 710077

0 引言

視頻目標(biāo)分割（video object segmentation，VOS）是一項(xiàng)基本的計(jì)算機(jī)視覺(jué)任務(wù)，在視頻編輯、視頻合成以及自動(dòng)駕駛等領(lǐng)域有著廣泛的應(yīng)用（汪水源等，2021）。本文主要研究半監(jiān)督視頻目標(biāo)分割問(wèn)題，即在給定視頻第1 幀目標(biāo)真實(shí)標(biāo)注掩碼的情況下，預(yù)測(cè)剩余幀中由第1 幀標(biāo)注指定的目標(biāo)的分割掩碼（李瀚等，2021）。在視頻序列中，由于連續(xù)的運(yùn)動(dòng)和可變的攝像機(jī)拍攝視角，目標(biāo)對(duì)象會(huì)經(jīng)歷較大的外觀變化；其次，如果出現(xiàn)其他物體的遮擋，目標(biāo)對(duì)象可能在此幀中消失；最后，同類別的相似目標(biāo)會(huì)使得分割特定目標(biāo)變得更加困難。因此，盡管在第1 幀中提供了標(biāo)注，半監(jiān)督VOS 仍是一個(gè)極具挑戰(zhàn)性的課題。

早些年，性能先進(jìn)的半監(jiān)督視頻目標(biāo)分割相關(guān)工作可以分為兩類。第1 類工作大多使用單個(gè)帶注釋的幀對(duì)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN）模型進(jìn)行在線微調(diào)，并獨(dú)立地分割每一幀。OSVOS（one-shot VOS）（Caelles 等，2017）算法做了這個(gè)方向的開創(chuàng)性工作。OnAVOS（online adaptation VOS）（Voigtlaender 和Leibe，2017）挖掘測(cè)試序列中的置信度區(qū)域以增加訓(xùn)練數(shù)據(jù)。OSVOS-S（Maninis 等，2019）集成了來(lái)自實(shí)例分割模型的語(yǔ)義信息以提高性能。PReMVOS（proposal-generation，refinement and merging for video object segmentation）（Luiten 等，2019）結(jié)合了在線學(xué)習(xí)、目標(biāo)檢測(cè)和光流和重識(shí)別等技術(shù)實(shí)現(xiàn)對(duì)目標(biāo)的跟蹤。DyeNe（tvideo object segmentation with joint re-identification and attention-aware mask propagation）（Li 和Loy，2018）提出自適應(yīng)匹配檢索丟失的目標(biāo)實(shí)體，增強(qiáng)模型的魯棒性。雖然在線訓(xùn)練有效地提高了模型對(duì)目標(biāo)對(duì)象外觀變化的泛化能力，但卻十分耗時(shí)，例如，OSVOS算法分割一幀圖像需要10 s，這對(duì)于許多應(yīng)用來(lái)說(shuō)是不實(shí)際的。此外，盡管這些方法可以學(xué)習(xí)到目標(biāo)帶有空間連續(xù)性的先驗(yàn)知識(shí)，但忽略了視頻中潛在的時(shí)序信息，造成了極大的信息浪費(fèi)。第2 類工作通過(guò)傳播或匹配將目標(biāo)信息傳遞給后續(xù)幀。Mask-Track（Perazzi 等，2017）將前一幀的預(yù)測(cè)掩碼與當(dāng)前幀的圖像連接起來(lái)，以提供空間信息上的指導(dǎo)。Lucid（Khoreva 等，2019）在MaskTrack 的基礎(chǔ)上使用首幀掩碼進(jìn)行數(shù)據(jù)增強(qiáng)。FEELVOS（fast end-to-end embedding learning for video object segmentation）（Voigtlaender 等，2019）使用語(yǔ)義上逐像素的嵌入以及全局和局部匹配機(jī)制來(lái)傳遞信息到當(dāng)前幀。VideoMatch（Hu 等，2018）將當(dāng)前幀特征和模板幀的前景和背景匹配，從而實(shí)現(xiàn)分割。OSMN（object segmentation via network modulation）（Yang 等，2018）使用雙網(wǎng)絡(luò)充分利用初始幀和前一幀特征信息，實(shí)現(xiàn)對(duì)當(dāng)前幀的分割。RGMP（reference-guided mask propagation）（Oh等，2018）將掩碼傳播和目標(biāo)檢測(cè)思想相結(jié)合，利用參考幀以及前一幀信息指導(dǎo)分割當(dāng)前幀。盡管這些方法不需要進(jìn)行復(fù)雜的在線微調(diào)，但由于信息流傳輸效率低下，它們?nèi)匀粺o(wú)法達(dá)到較快的分割速度。此外，由于缺乏魯棒的目標(biāo)表示，它們可能會(huì)出現(xiàn)目標(biāo)漂移現(xiàn)象。

后續(xù)的一些工作將視覺(jué)目標(biāo)跟蹤領(lǐng)域的相關(guān)方法遷移到視頻目標(biāo)分割任務(wù)中。FAVOS（fast and accurate online VOS）（Cheng 等，2018）提出目標(biāo)分塊跟蹤，將目標(biāo)部分區(qū)域信息與第1 幀信息進(jìn)行匹配。SiamMask（Wang 等，2019a）在全卷積孿生網(wǎng)絡(luò)基礎(chǔ)上，增加掩碼分支實(shí)現(xiàn)對(duì)目標(biāo)的分割。RANe（tranking attention network）（Wang 等，2019b）提出一種排序注意力模塊，分別處理視頻每一幀的前景和背景。盡管取得了不錯(cuò)的效果，但這些算法并沒(méi)有充分利用視頻序列中的歷史幀信息，性能無(wú)法進(jìn)一步提升。

基于記憶網(wǎng)絡(luò)的算法成為視頻目標(biāo)分割的熱點(diǎn)方向。STMVOS（space-time memory VOS）（Oh 等，2019）利用記憶網(wǎng)絡(luò)存儲(chǔ)更多的歷史幀特征信息，在進(jìn)行每一幀的分割時(shí)，它使用記憶信息與視頻當(dāng)前幀的特征信息進(jìn)行逐像素匹配，其性能優(yōu)于之前所有的方法，但由于計(jì)算復(fù)雜度較高，STMVOS 的分割速度較慢。FRTM（fast and robust models）（Robinson等，2020）同樣采用記憶網(wǎng)絡(luò)存儲(chǔ)歷史幀信息，不同于STMVOS，它只使用記憶信息更新自己所提出的目標(biāo)模型，該目標(biāo)模型以主干網(wǎng)絡(luò)所傳來(lái)的特征信息為輸入，輸出目標(biāo)的粗略掩碼，該粗略掩碼會(huì)作為后續(xù)細(xì)化分割網(wǎng)絡(luò)的輸入，最終輸出目標(biāo)的精細(xì)分割掩碼。在處理完每一幀后，F(xiàn)RTM 會(huì)將該幀的特征和掩碼存入記憶模塊，用于后續(xù)目標(biāo)模型的更新。與STMVOS 相比，F(xiàn)RTM 在取得有競(jìng)爭(zhēng)精度的同時(shí)，速度是前者的3.5倍。但是，F(xiàn)RTM 依然存在以下問(wèn)題：1）FRTM 在處理完每一幀后都將對(duì)應(yīng)的特征信息和掩碼存入記憶模塊，這無(wú)疑會(huì)導(dǎo)致記憶模塊中存在許多重復(fù)和冗余的信息；2）FRTM 存儲(chǔ)記憶幀時(shí)，僅是機(jī)械地對(duì)最新存入的特征信息賦予固定比例的權(quán)重，而并沒(méi)有考慮當(dāng)前幀的表征質(zhì)量，這對(duì)訓(xùn)練一個(gè)具備強(qiáng)有力判別力的目標(biāo)模型顯然是不利的。

針對(duì)FRTM 算法所存在的問(wèn)題，本文提出一種自適應(yīng)權(quán)重更新的輕量級(jí)視頻目標(biāo)分割算法。首先，為了給表征質(zhì)量更高的特征信息賦予更高的權(quán)重，所提算法通過(guò)掩碼映射的方式，判定當(dāng)前幀的表征質(zhì)量并賦予對(duì)應(yīng)的權(quán)重；其次，為了減少冗余信息，本文算法使用新的信息存儲(chǔ)策略，構(gòu)造了一個(gè)輕量級(jí)的記憶模塊。實(shí)驗(yàn)結(jié)果表明，在常用的視頻目標(biāo)分割數(shù)據(jù)集DAVIS（densely annotated video segmentation）2016 和DAVIS2017 上，本文算法的性能和速度都明顯優(yōu)于FRTM，在近年來(lái)流行的視頻目標(biāo)分割算法中具有一定的優(yōu)勢(shì)。

1 本文算法

為去除記憶模塊中的多余信息，建立一個(gè)目標(biāo)判別性較強(qiáng)的視頻目標(biāo)分割模型，本文算法在FRTM 基礎(chǔ)上，通過(guò)優(yōu)化信息存儲(chǔ)策略，重新構(gòu)建了一個(gè)輕量級(jí)的記憶模塊；使用新提出的特征表征質(zhì)量判別方法，自適應(yīng)地給存入記憶模塊的特征賦予對(duì)應(yīng)的權(quán)重。

1.1 FRTM簡(jiǎn)介

FRTM包括ResNet-101（residual network）主干網(wǎng)絡(luò)、目標(biāo)模型、高斯牛頓優(yōu)化器、分割網(wǎng)絡(luò)和記憶模塊等5 個(gè)部分。算法整體框架如圖1 所示。該算法用主干網(wǎng)絡(luò)對(duì)視頻的每一幀進(jìn)行特征提取，目標(biāo)模型以此特征作為輸入，輸出目標(biāo)的粗略掩碼并送至分割網(wǎng)絡(luò)，分割網(wǎng)絡(luò)利用主干網(wǎng)絡(luò)所提取的淺層特征對(duì)粗略掩碼進(jìn)行逐級(jí)細(xì)化，輸出目標(biāo)的精細(xì)分割掩碼，每一幀賦予權(quán)重后的特征信息和對(duì)應(yīng)精細(xì)掩碼都會(huì)保存至記憶模塊，用于對(duì)目標(biāo)模型進(jìn)行在線更新。每幀的權(quán)重都是根據(jù)上一幀的權(quán)重線性更新的，以此保證最后處理的幀總是具有最高的權(quán)重，而具有更高權(quán)重的特征信息會(huì)對(duì)目標(biāo)模型的更新做出更大的貢獻(xiàn)。FRTM 將記憶模塊的容量設(shè)置為80，每當(dāng)記憶模塊的容量達(dá)到8 的倍數(shù)時(shí)，高斯牛頓優(yōu)化器就會(huì)利用該模塊中的信息對(duì)目標(biāo)模型進(jìn)行在線更新，不同于以往對(duì)整個(gè)模型進(jìn)行在線更新的方法，F(xiàn)RTM 的目標(biāo)模型僅包括兩層簡(jiǎn)單的卷積，這使得該算法分割速度可達(dá)21.9 幀/s，有效解決了在線更新耗時(shí)的問(wèn)題。

圖1 FRTM算法整體框架圖Fig.1 Overall frame diagram of FRTM algorithm

1.2 特征通道多樣性

深度卷積神經(jīng)網(wǎng)絡(luò)（deep convolutional neural network，DCNN）為計(jì)算機(jī)視覺(jué)領(lǐng)域帶來(lái)了一系列突破。深層網(wǎng)絡(luò)以端到端的多層方式自然地集成了低/中/高層次的特征，淺層主要包含目標(biāo)的低級(jí)空間輪廓信息，深層則含有高級(jí)語(yǔ)義信息，二者都對(duì)目標(biāo)的表征起著重要的作用。卷積核是DCNN 的主要組成部分，同層的每個(gè)卷積核都對(duì)上一層輸出的特征進(jìn)行卷積操作，并輸出一個(gè)二維張量，此張量作為本層輸出特征的一個(gè)通道，將這些張量堆疊起來(lái)就構(gòu)成了本層輸出的特征圖。值得注意的是，每個(gè)卷積核所“關(guān)注”的目標(biāo)類別（車輛、人、天空和動(dòng)物等）是多種多樣的，當(dāng)卷積核處理的特征包含它所“感興趣”的類時(shí)，輸出的張量在對(duì)應(yīng)位置就會(huì)表現(xiàn)出更高的激活值。本文在DAVIS2016 數(shù)據(jù)集中選取了3 組具有代表性的視頻序列的一幀，并可視化了FRTM對(duì)其處理后保存至記憶模塊的對(duì)應(yīng)特征部分通道的熱力圖。如圖2 所示，圖2（c）在除目標(biāo)外的背景區(qū)域上表現(xiàn)出更高的激活值，這表明對(duì)應(yīng)的通道更加關(guān)注目標(biāo)周圍的干擾物而非目標(biāo)本身，本文將其稱為噪聲通道（noisy channel）；而圖2（d）在目標(biāo)區(qū)域上表現(xiàn)出更高的激活值，本文將其稱為目標(biāo)通道（target channel）。

圖2 通道可視化熱力圖Fig.2 Visual thermal map of channel（（a）frames；（b）ground truth；（c）noisy channel；（d）target channel）

在對(duì)目標(biāo)模型進(jìn)行迭代更新時(shí)，F(xiàn)RTM 只是不加區(qū)分地賦予最新的幀更高的權(quán)重，而并沒(méi)有考慮特征本身對(duì)于目標(biāo)的表征程度?？紤]到目標(biāo)模型主要學(xué)習(xí)目標(biāo)的外觀信息，本文提出了如下猜想：如果根據(jù)特征對(duì)于目標(biāo)的表征程度和特征對(duì)應(yīng)視頻幀的先后順序，綜合賦予特征對(duì)應(yīng)的權(quán)重，是否會(huì)對(duì)目標(biāo)模型的優(yōu)化更有幫助？因?yàn)樽罱膸芊从衬繕?biāo)當(dāng)前的運(yùn)動(dòng)狀態(tài)與外觀信息，而對(duì)目標(biāo)表征程度更高的特征應(yīng)當(dāng)更有助于目標(biāo)模型學(xué)習(xí)目標(biāo)的外觀信息。

為了驗(yàn)證這一想法，本文從特征目標(biāo)通道的占比著手，提出了一種特征表征質(zhì)量判別方法，并重新設(shè)計(jì)了特征權(quán)重計(jì)算方式，采用該計(jì)算方式后，算法的性能取得了明顯的提升，詳細(xì)的實(shí)驗(yàn)結(jié)果將在第2 節(jié)中介紹，具體的特征表征質(zhì)量判別方法和特征權(quán)重計(jì)算方式將在1.3節(jié)中介紹。

1.3 自適應(yīng)權(quán)重更新

基于上述分析，為了得到一個(gè)目標(biāo)判別性更強(qiáng)的目標(biāo)模型，本文利用掩碼映射的方式判定每幀對(duì)應(yīng)特征的表征質(zhì)量。

式中，G為下采樣函數(shù)，運(yùn)算符號(hào)×表示逐點(diǎn)相乘對(duì)于特征本文采用表示xn的每個(gè)通道對(duì)目標(biāo)的平均關(guān)注度，具體為

式中，c為特征xn的通道總數(shù)。對(duì)于特征xn對(duì)應(yīng)的各個(gè)通道的目標(biāo)關(guān)注度統(tǒng)計(jì)其中大于等于目標(biāo)平均關(guān)注度Yˉn的總數(shù)量Pn（0

Pn數(shù)量越大，表明特征xn中對(duì)目標(biāo)關(guān)注度較高的通道越多，本文認(rèn)為該種特征對(duì)目標(biāo)具有更強(qiáng)的表征能力，應(yīng)分配更高的權(quán)重，重新定義權(quán)重γn，具體為

式中，lr為線性權(quán)重更新率，本文與FRTM保持一致，皆為0.1。FRTM原始的權(quán)重更新方式為

相比于式（4），式（3）在賦予權(quán)重時(shí)既考慮了幀的先后順序，又考慮了特征xn對(duì)于目標(biāo)的表征程度，從兩方面綜合自適應(yīng)地賦予特征xn相應(yīng)的權(quán)重，這對(duì)于訓(xùn)練一個(gè)具備強(qiáng)判別力的目標(biāo)模型是非常有用的，新的權(quán)重更新方式更有助于目標(biāo)模型捕捉目標(biāo)對(duì)象的外觀，輸出準(zhǔn)確和魯棒的粗略掩碼，給后續(xù)的細(xì)化操作提供一個(gè)強(qiáng)有力的可靠指導(dǎo)，第2 節(jié)的實(shí)驗(yàn)將對(duì)此進(jìn)行證明。

1.4 輕量級(jí)記憶模塊

在大部分的視頻序列中，可以自然地發(fā)現(xiàn)相鄰兩幀之間的差異是很小的，F(xiàn)RTM 每幀都保存的處理方式不可避免地會(huì)引入更多的冗余信息，拖慢算法速度。因此，為了剔除記憶模塊中不必要的冗余特征信息，保留關(guān)鍵特征信息，提升算法的運(yùn)行速度，本文算法在DAVIS2017 數(shù)據(jù)集上，對(duì)記憶模塊的容量設(shè)置，以及更新目標(biāo)模型的時(shí)間做了大量相關(guān)實(shí)驗(yàn)。表1 給出了其中的部分結(jié)果，其中，更新系數(shù)代表當(dāng)記憶模塊的實(shí)存幀數(shù)達(dá)到相應(yīng)的倍數(shù)時(shí)對(duì)目標(biāo)模型進(jìn)行在線更新；J和F為DAVIS2017數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)，分別代表與掩碼真值相比，預(yù)測(cè)掩碼相對(duì)應(yīng)的區(qū)域相似度與輪廓準(zhǔn)確度（數(shù)值采用百分比%）；S代表算法的運(yùn)行速度，單位為幀/s。不同于FRTM，本文僅將連續(xù)兩幀中的一幀存入記憶模塊。

表1 記憶模塊容量及目標(biāo)模型更新時(shí)機(jī)的實(shí)驗(yàn)結(jié)果Table 1 Experimental results of memory module capacity and target model update timing

結(jié)果表明，記憶模塊的容量設(shè)置為20，實(shí)存幀數(shù)達(dá)到4 的倍數(shù)時(shí)更新目標(biāo)模型，算法的性能與速度達(dá)到綜合最佳。因此，本文算法對(duì)FRTM 的存儲(chǔ)和更新策略調(diào)整如下：首先，本文算法只將相鄰兩幀中的一幀存至記憶模塊，并將記憶模塊的容量調(diào)整為20；其次，當(dāng)記憶模塊的實(shí)存幀數(shù)達(dá)到4 的倍數(shù)時(shí)，本文算法利用其中的特征信息對(duì)目標(biāo)模型進(jìn)行更新。采用新的策略后，記憶模塊中保存的特征與掩碼信息容量為原來(lái)的1/4，相對(duì)于FRTM，有效提升了在線優(yōu)化目標(biāo)模型的速度，且算法精度不受影響。

2 實(shí)驗(yàn)結(jié)果

為驗(yàn)證所提算法的有效性，采用DAVIS2016 和DAVIS2017數(shù)據(jù)集進(jìn)行評(píng)估。下面分別介紹算法的訓(xùn)練細(xì)節(jié)、定性分析、定量分析和消融實(shí)驗(yàn)，從多個(gè)角度驗(yàn)證本文算法的有效性。

2.1 算法訓(xùn)練細(xì)節(jié)

本文使用DAVIS2017 和Youtube-VOS（video object segmentation）兩個(gè)數(shù)據(jù)集對(duì)所提算法進(jìn)行訓(xùn)練，從同一視頻序列中隨機(jī)選擇一個(gè)參考幀和一個(gè)或多個(gè)驗(yàn)證幀，然后執(zhí)行訓(xùn)練迭代。首先，基于參考幀來(lái)優(yōu)化目標(biāo)模型權(quán)重；隨后，將完整的網(wǎng)絡(luò)與學(xué)習(xí)到的目標(biāo)模型一起應(yīng)用到驗(yàn)證幀上，以預(yù)測(cè)目標(biāo)的分割掩碼。網(wǎng)絡(luò)中的參數(shù)是通過(guò)相對(duì)于真實(shí)標(biāo)注掩碼的二進(jìn)制交叉熵?fù)p失反向傳播來(lái)學(xué)習(xí)的。

在離線訓(xùn)練過(guò)程中，本文算法使用ADAM 優(yōu)化器訓(xùn)練和學(xué)習(xí)分割網(wǎng)絡(luò)的參數(shù)，并凍結(jié)主干網(wǎng)絡(luò)的權(quán)值。ADAM 優(yōu)化器的初始參數(shù)設(shè)置如下，學(xué)習(xí)率α=10-3，指數(shù)衰減率β1=0.9，β2=0.999，權(quán)重衰減系數(shù)為10-5，訓(xùn)練大約106次迭代，分成120個(gè)epoch。然后將學(xué)習(xí)率降低到α=10-4，接著訓(xùn)練140個(gè)epoch。

訓(xùn)練使用的實(shí)驗(yàn)環(huán)境如下：顯卡為一塊NVIDIA GeForce RTX 3090，內(nèi)存為32 GB，操作系統(tǒng)為64 位的 Ubuntu 16.04，PyTorch版本為1.8.1。

2.2 定量分析

為驗(yàn)證本文算法的有效性，在DAVIS2016 和DAVIS2017 數(shù)據(jù)集上評(píng)估所提出的方法，DAVIS2016 數(shù)據(jù)集包含50 個(gè)視頻（480 p），在總共3 455幀中密集標(biāo)注像素級(jí)對(duì)象掩膜（每一個(gè)序列一個(gè)），分為一個(gè)訓(xùn)練集（30個(gè)視頻）和一個(gè)驗(yàn)證集（20個(gè)視頻）。DAVIS2017數(shù)據(jù)集包含多個(gè)對(duì)象的視頻，是DAVIS2016 的擴(kuò)展，它包含了60 個(gè)視頻的訓(xùn)練集，30個(gè)視頻的驗(yàn)證集以及3個(gè)視頻的測(cè)試集。在所有的數(shù)據(jù)集中，訓(xùn)練集、驗(yàn)證集和測(cè)試集之間沒(méi)有重復(fù)的視頻序列。DAVIS系列數(shù)據(jù)集的評(píng)價(jià)指標(biāo)主要有Jaccard index（J）和F-Measure（F）。Jaccard index 為分割結(jié)果和標(biāo)注真值掩膜的交并比，度量了標(biāo)注錯(cuò)誤像素的數(shù)量。F-Measure 是綜合準(zhǔn)確率和召回率的評(píng)價(jià)指標(biāo)，它衡量的是預(yù)測(cè)掩碼與掩碼真值之間的輪廓準(zhǔn)確度。

表2 給出了本文算法與對(duì)比算法在DAVIS2016上的性能指標(biāo)；圖3給出了表2中部分算法與本文算法在DAVIS2016 上的性能—速度散點(diǎn)圖。從中可以看出，所提算法的區(qū)域相似度J為85.9%，輪廓準(zhǔn)確度F為85.7%，二者的均值J&F為85.8%，速度S為13.5 幀/s。對(duì)比早期的經(jīng)典算法MaskTrack 和OSVOS，區(qū)域相似度J分別比它們提升了6.2%和6.1%；輪廓準(zhǔn)確度F分別比它們提升了10.3%和5.1%；均值J&F分別比它們提升了8.2%和5.6%，速度S比它們快了兩個(gè)數(shù)量級(jí)，性能大大領(lǐng)先。對(duì)比2017年—2021年的主流算法，所提算法的區(qū)域相似度J幾乎實(shí)現(xiàn)了對(duì)它們的全部超越，僅略低于OnAVOS，而輪廓準(zhǔn)確度F和二者的均值J&F均實(shí)現(xiàn)了對(duì)它們的全部超越。總體上，所提算法的性能具有明顯的優(yōu)勢(shì)。

表2 DAVIS2016數(shù)據(jù)集上不同算法之間的性能對(duì)比Table 2 Performance comparison between different algorithms on DAVIS2016 dataset

圖3 不同算法在DAVIS2016數(shù)據(jù)集的性能—速度散點(diǎn)圖Fig.3 Performance-velocity scatter diagram between different algorithms on DAVIS2016 dataset

從表2 中可以看出，相比于FRTM，所提算法的區(qū)域相似度J和輪廓準(zhǔn)確度F均提升了2.3%，同時(shí)速度S也更快。相比于同樣針對(duì)FRTM 進(jìn)行改進(jìn)的G-FRTM（Park等，2021），均值J&F提升了1.5%。

表3 給出了本文算法與其他近年對(duì)比算法在DAVIS2017上的性能指標(biāo)，圖4給出了表3中部分算法與本文算法在DAVIS2017 上的性能—速度散點(diǎn)圖。從中可以看出，所提算法的區(qū)域相似度J為75.5%，輪廓準(zhǔn)確度F為81.1%，二者的均值J&F為78.3%，速度S為9.4 幀/s。對(duì)比早期的經(jīng)典算法MaskTrack 和OSVOS，區(qū)域相似度J分別提升了24.3%和18.9%，輪廓準(zhǔn)確度F分別提升了23.8%和17.2%，均值J&F分別提升了24%和18%，速度S依然快了兩個(gè)數(shù)量級(jí)，相比于DAVIS2016，性能領(lǐng)先幅度更大。對(duì)比2017—2021 年的主流算法，所提算法的區(qū)域相似度J實(shí)現(xiàn)了全部超越，而輪廓準(zhǔn)確度F僅略低于PReMVOS，二者的均值J&F實(shí)現(xiàn)了全部超越。從總體情況而言，所提算法的性能具有明顯優(yōu)勢(shì)。其中，相比于FRTM，所提算法的區(qū)域相似度J和輪廓準(zhǔn)確度F分別提升了1.7%和1.5%，同時(shí)速度S也更快。相比于同樣針對(duì)FRTM 進(jìn)行改進(jìn)的GFRTM（Park等，2021），均值J&F提升了1.9%。

表3 DAVIS2017數(shù)據(jù)集上不同算法之間的性能對(duì)比Table 3 Performance comparison between different algorithms on DAVIS2017 dataset

圖4 不同算法在DAVIS2017數(shù)據(jù)集的性能—速度散點(diǎn)圖Fig.4 Performance-velocity scatter diagram between different algorithms on DAVIS2017 dataset

表2 和表3 都在S列中給出了FRTM 的速度，括號(hào)前的數(shù)值為FRTM 論文中的數(shù)據(jù)，對(duì)應(yīng)圖3 和圖4中的FRTM，而括號(hào)內(nèi)是本文使用FRTM 算法給出的權(quán)重模型在本地測(cè)試出的數(shù)據(jù)，對(duì)應(yīng)圖3和圖4中的FRTM（Re）。FRTM 使用的GPU 為NVIDIA Tesla V100，而本文使用的GPU 為NVIDIA GeForce GTX1080Ti。由于硬件環(huán)境不同，導(dǎo)致兩個(gè)數(shù)值存在一定差異。

2.3 定性分析

圖5 給出了本文算法與FRTM 在DAVIS2016 和DAVIS2017 上的分割效果圖，前兩行來(lái)源于DAVIS2016，后4 行來(lái)源于DAVIS2017?？梢钥闯觯赟cooter-Black 行中，F(xiàn)RTM 只分割出了目標(biāo)“摩托車”的一部分區(qū)域，漏分了目標(biāo)“摩托車”的尾部，所提算法則完整地將目標(biāo)“摩托車”分割出來(lái)；在Soapbox 行中，F(xiàn)RTM 只分割出了“兩車一人”中的一人和一車，漏分了位于左上位置的人，所提算法做到了沒(méi)有遺漏的分割；在Camel 行中，F(xiàn)RTM 出現(xiàn)了明顯的相似目標(biāo)誤判，誤將目標(biāo)“駱駝”旁邊的駱駝也分割出來(lái)，而所提算法則避開了相似物的干擾，實(shí)現(xiàn)了目標(biāo)“駱駝”的精準(zhǔn)分割；在Drift-Chicane 行中，F(xiàn)RTM誤將目標(biāo)“賽車”帶起的煙霧進(jìn)行了分割，出現(xiàn)了背景誤判現(xiàn)象，而所提算法則給出了目標(biāo)“賽車”沒(méi)有任何漂移的分割掩碼；在Shooting 行中，F(xiàn)RTM 只實(shí)現(xiàn)了目標(biāo)之一“槍”的部分分割，而所提算法則將其完整地分割了出來(lái)；在Dogs-Jump 行中，F(xiàn)RTM 沒(méi)有識(shí)別到位于該幀圖像中最右側(cè)的目標(biāo)“狗”，出現(xiàn)了目標(biāo)丟失現(xiàn)象，而所提算法依然能精準(zhǔn)地識(shí)別并分割出該目標(biāo)。

2.4 消融實(shí)驗(yàn)

為了驗(yàn)證所提算法各個(gè)策略的有效性，在DAVIS2017 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)，結(jié)果如表4 所示。其中，skip 表示是否采用新的記憶模塊存儲(chǔ)和更新策略，update 表示是否采用新的權(quán)重更新方式。結(jié)果表明，新的記憶模塊存儲(chǔ)和更新策略有效提升了算法的速度，對(duì)算法性能的提升也有一定的幫助，而新的權(quán)重更新方式在對(duì)算法速度影響很小的前提下，顯著地提升了算法性能，二者結(jié)合之后又將本文算法的性能提升到新的高度。

表4 本文算法在DAVIS2017上的消融實(shí)驗(yàn)Table 4 Ablation experiment of this algorithm on DAVIS2017

3 結(jié)論

本文提出一種自適應(yīng)權(quán)重更新的輕量級(jí)視頻目標(biāo)分割算法。首先，為了更敏銳地捕捉到目標(biāo)所在區(qū)域，削減噪聲信息對(duì)目標(biāo)模型的影響，算法對(duì)存入的特征信息表征質(zhì)量進(jìn)行評(píng)估后賦予對(duì)應(yīng)的權(quán)重；其次，使用輕量級(jí)的記憶模塊存儲(chǔ)歷史幀的相關(guān)信息。在DAVIS2016 和DAVIS2017 兩個(gè)視頻目標(biāo)分割領(lǐng)域常用的數(shù)據(jù)集上，本文算法的平均性能皆超過(guò)了所有的對(duì)比算法，在一些有挑戰(zhàn)性的場(chǎng)景下，依然能給出目標(biāo)準(zhǔn)確和魯棒的分割掩碼，這也證明了本文算法的有效性。但本文所提對(duì)特征表征質(zhì)量的判別方法略顯粗糙，并且由于本文算法會(huì)對(duì)每一幀的特征進(jìn)行保存，指導(dǎo)后續(xù)幀的分割，導(dǎo)致計(jì)算量增大，造成速度無(wú)法滿足實(shí)時(shí)性要求。下一步將繼續(xù)深入研究特征表征質(zhì)量判別方法，考慮使用一些模塊對(duì)特征表征質(zhì)量進(jìn)行更準(zhǔn)確和更精細(xì)的判斷，以更好地對(duì)基于記憶模塊的視頻目標(biāo)分割算法進(jìn)行優(yōu)化，綜合提升算法性能與運(yùn)行時(shí)速度。