汪水源,侯志強(qiáng),李富成,馬素剛,余旺盛
1.西安郵電大學(xué)計(jì)算機(jī)學(xué)院,西安 710121;2.西安郵電大學(xué)陜西省網(wǎng)絡(luò)數(shù)據(jù)分析與智能處理重點(diǎn)實(shí)驗(yàn)室,西安 710121;3.空軍工程大學(xué)信息與導(dǎo)航學(xué)院,西安 710077
視頻目標(biāo)分割(video object segmentation,VOS)是一項(xiàng)基本的計(jì)算機(jī)視覺(jué)任務(wù),在視頻編輯、視頻合成以及自動(dòng)駕駛等領(lǐng)域有著廣泛的應(yīng)用(汪水源等,2021)。本文主要研究半監(jiān)督視頻目標(biāo)分割問(wèn)題,即在給定視頻第1 幀目標(biāo)真實(shí)標(biāo)注掩碼的情況下,預(yù)測(cè)剩余幀中由第1 幀標(biāo)注指定的目標(biāo)的分割掩碼(李瀚 等,2021)。在視頻序列中,由于連續(xù)的運(yùn)動(dòng)和可變的攝像機(jī)拍攝視角,目標(biāo)對(duì)象會(huì)經(jīng)歷較大的外觀變化;其次,如果出現(xiàn)其他物體的遮擋,目標(biāo)對(duì)象可能在此幀中消失;最后,同類別的相似目標(biāo)會(huì)使得分割特定目標(biāo)變得更加困難。因此,盡管在第1 幀中提供了標(biāo)注,半監(jiān)督VOS 仍是一個(gè)極具挑戰(zhàn)性的課題。
早些年,性能先進(jìn)的半監(jiān)督視頻目標(biāo)分割相關(guān)工作可以分為兩類。第1 類工作大多使用單個(gè)帶注釋的幀對(duì)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)模型進(jìn)行在線微調(diào),并獨(dú)立地分割每一幀。OSVOS(one-shot VOS)(Caelles 等,2017)算法做了這個(gè)方向的開創(chuàng)性工作。OnAVOS(online adaptation VOS)(Voigtlaender 和Leibe,2017)挖掘測(cè)試序列中的置信度區(qū)域以增加訓(xùn)練數(shù)據(jù)。OSVOS-S(Maninis 等,2019)集成了來(lái)自實(shí)例分割模型的語(yǔ)義信息以提高性能。PReMVOS(proposal-generation,refinement and merging for video object segmentation)(Luiten 等,2019)結(jié)合了在線學(xué)習(xí)、目標(biāo)檢測(cè)和光流和重識(shí)別等技術(shù)實(shí)現(xiàn)對(duì)目標(biāo)的跟蹤。DyeNe(tvideo object segmentation with joint re-identification and attention-aware mask propagation)(Li 和Loy,2018)提出自適應(yīng)匹配檢索丟失的目標(biāo)實(shí)體,增強(qiáng)模型的魯棒性。雖然在線訓(xùn)練有效地提高了模型對(duì)目標(biāo)對(duì)象外觀變化的泛化能力,但卻十分耗時(shí),例如,OSVOS算法分割一幀圖像需要10 s,這對(duì)于許多應(yīng)用來(lái)說(shuō)是不實(shí)際的。此外,盡管這些方法可以學(xué)習(xí)到目標(biāo)帶有空間連續(xù)性的先驗(yàn)知識(shí),但忽略了視頻中潛在的時(shí)序信息,造成了極大的信息浪費(fèi)。第2 類工作通過(guò)傳播或匹配將目標(biāo)信息傳遞給后續(xù)幀。Mask-Track(Perazzi 等,2017)將前一幀的預(yù)測(cè)掩碼與當(dāng)前幀的圖像連接起來(lái),以提供空間信息上的指導(dǎo)。Lucid(Khoreva 等,2019)在MaskTrack 的基礎(chǔ)上使用首幀掩碼進(jìn)行數(shù)據(jù)增強(qiáng)。FEELVOS(fast end-to-end embedding learning for video object segmentation)(Voigtlaender 等,2019)使用語(yǔ)義上逐像素的嵌入以及全局和局部匹配機(jī)制來(lái)傳遞信息到當(dāng)前幀。VideoMatch(Hu 等,2018)將當(dāng)前幀特征和模板幀的前景和背景匹配,從而實(shí)現(xiàn)分割。OSMN(object segmentation via network modulation)(Yang 等,2018)使用雙網(wǎng)絡(luò)充分利用初始幀和前一幀特征信息,實(shí)現(xiàn)對(duì)當(dāng)前幀的分割。RGMP(reference-guided mask propagation)(Oh等,2018)將掩碼傳播和目標(biāo)檢測(cè)思想相結(jié)合,利用參考幀以及前一幀信息指導(dǎo)分割當(dāng)前幀。盡管這些方法不需要進(jìn)行復(fù)雜的在線微調(diào),但由于信息流傳輸效率低下,它們?nèi)匀粺o(wú)法達(dá)到較快的分割速度。此外,由于缺乏魯棒的目標(biāo)表示,它們可能會(huì)出現(xiàn)目標(biāo)漂移現(xiàn)象。
后續(xù)的一些工作將視覺(jué)目標(biāo)跟蹤領(lǐng)域的相關(guān)方法遷移到視頻目標(biāo)分割任務(wù)中。FAVOS(fast and accurate online VOS)(Cheng 等,2018)提出目標(biāo)分塊跟蹤,將目標(biāo)部分區(qū)域信息與第1 幀信息進(jìn)行匹配。SiamMask(Wang 等,2019a)在全卷積孿生網(wǎng)絡(luò)基礎(chǔ)上,增加掩碼分支實(shí)現(xiàn)對(duì)目標(biāo)的分割。RANe(tranking attention network)(Wang 等,2019b)提出一種排序注意力模塊,分別處理視頻每一幀的前景和背景。盡管取得了不錯(cuò)的效果,但這些算法并沒(méi)有充分利用視頻序列中的歷史幀信息,性能無(wú)法進(jìn)一步提升。
基于記憶網(wǎng)絡(luò)的算法成為視頻目標(biāo)分割的熱點(diǎn)方 向。STMVOS(space-time memory VOS)(Oh 等,2019)利用記憶網(wǎng)絡(luò)存儲(chǔ)更多的歷史幀特征信息,在進(jìn)行每一幀的分割時(shí),它使用記憶信息與視頻當(dāng)前幀的特征信息進(jìn)行逐像素匹配,其性能優(yōu)于之前所有的方法,但由于計(jì)算復(fù)雜度較高,STMVOS 的分割速度較慢。FRTM(fast and robust models)(Robinson等,2020)同樣采用記憶網(wǎng)絡(luò)存儲(chǔ)歷史幀信息,不同于STMVOS,它只使用記憶信息更新自己所提出的目標(biāo)模型,該目標(biāo)模型以主干網(wǎng)絡(luò)所傳來(lái)的特征信息為輸入,輸出目標(biāo)的粗略掩碼,該粗略掩碼會(huì)作為后續(xù)細(xì)化分割網(wǎng)絡(luò)的輸入,最終輸出目標(biāo)的精細(xì)分割掩碼。在處理完每一幀后,F(xiàn)RTM 會(huì)將該幀的特征和掩碼存入記憶模塊,用于后續(xù)目標(biāo)模型的更新。與STMVOS 相比,F(xiàn)RTM 在取得有競(jìng)爭(zhēng)精度的同時(shí),速度是前者的3.5倍。但是,F(xiàn)RTM 依然存在以下問(wèn)題:1)FRTM 在處理完每一幀后都將對(duì)應(yīng)的特征信息和掩碼存入記憶模塊,這無(wú)疑會(huì)導(dǎo)致記憶模塊中存在許多重復(fù)和冗余的信息;2)FRTM 存儲(chǔ)記憶幀時(shí),僅是機(jī)械地對(duì)最新存入的特征信息賦予固定比例的權(quán)重,而并沒(méi)有考慮當(dāng)前幀的表征質(zhì)量,這對(duì)訓(xùn)練一個(gè)具備強(qiáng)有力判別力的目標(biāo)模型顯然是不利的。
針對(duì)FRTM 算法所存在的問(wèn)題,本文提出一種自適應(yīng)權(quán)重更新的輕量級(jí)視頻目標(biāo)分割算法。首先,為了給表征質(zhì)量更高的特征信息賦予更高的權(quán)重,所提算法通過(guò)掩碼映射的方式,判定當(dāng)前幀的表征質(zhì)量并賦予對(duì)應(yīng)的權(quán)重;其次,為了減少冗余信息,本文算法使用新的信息存儲(chǔ)策略,構(gòu)造了一個(gè)輕量級(jí)的記憶模塊。實(shí)驗(yàn)結(jié)果表明,在常用的視頻目標(biāo)分割數(shù)據(jù)集DAVIS(densely annotated video segmentation)2016 和DAVIS2017 上,本文算法的性能和速度都明顯優(yōu)于FRTM,在近年來(lái)流行的視頻目標(biāo)分割算法中具有一定的優(yōu)勢(shì)。
為去除記憶模塊中的多余信息,建立一個(gè)目標(biāo)判別性較強(qiáng)的視頻目標(biāo)分割模型,本文算法在FRTM 基礎(chǔ)上,通過(guò)優(yōu)化信息存儲(chǔ)策略,重新構(gòu)建了一個(gè)輕量級(jí)的記憶模塊;使用新提出的特征表征質(zhì)量判別方法,自適應(yīng)地給存入記憶模塊的特征賦予對(duì)應(yīng)的權(quán)重。
FRTM包括ResNet-101(residual network)主干網(wǎng)絡(luò)、目標(biāo)模型、高斯牛頓優(yōu)化器、分割網(wǎng)絡(luò)和記憶模塊等5 個(gè)部分。算法整體框架如圖1 所示。該算法用主干網(wǎng)絡(luò)對(duì)視頻的每一幀進(jìn)行特征提取,目標(biāo)模型以此特征作為輸入,輸出目標(biāo)的粗略掩碼并送至分割網(wǎng)絡(luò),分割網(wǎng)絡(luò)利用主干網(wǎng)絡(luò)所提取的淺層特征對(duì)粗略掩碼進(jìn)行逐級(jí)細(xì)化,輸出目標(biāo)的精細(xì)分割掩碼,每一幀賦予權(quán)重后的特征信息和對(duì)應(yīng)精細(xì)掩碼都會(huì)保存至記憶模塊,用于對(duì)目標(biāo)模型進(jìn)行在線更新。每幀的權(quán)重都是根據(jù)上一幀的權(quán)重線性更新的,以此保證最后處理的幀總是具有最高的權(quán)重,而具有更高權(quán)重的特征信息會(huì)對(duì)目標(biāo)模型的更新做出更大的貢獻(xiàn)。FRTM 將記憶模塊的容量設(shè)置為80,每當(dāng)記憶模塊的容量達(dá)到8 的倍數(shù)時(shí),高斯牛頓優(yōu)化器就會(huì)利用該模塊中的信息對(duì)目標(biāo)模型進(jìn)行在線更新,不同于以往對(duì)整個(gè)模型進(jìn)行在線更新的方法,F(xiàn)RTM 的目標(biāo)模型僅包括兩層簡(jiǎn)單的卷積,這使得該算法分割速度可達(dá)21.9 幀/s,有效解決了在線更新耗時(shí)的問(wèn)題。
圖1 FRTM算法整體框架圖Fig.1 Overall frame diagram of FRTM algorithm
深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN)為計(jì)算機(jī)視覺(jué)領(lǐng)域帶來(lái)了一系列突破。深層網(wǎng)絡(luò)以端到端的多層方式自然地集成了低/中/高層次的特征,淺層主要包含目標(biāo)的低級(jí)空間輪廓信息,深層則含有高級(jí)語(yǔ)義信息,二者都對(duì)目標(biāo)的表征起著重要的作用。卷積核是DCNN 的主要組成部分,同層的每個(gè)卷積核都對(duì)上一層輸出的特征進(jìn)行卷積操作,并輸出一個(gè)二維張量,此張量作為本層輸出特征的一個(gè)通道,將這些張量堆疊起來(lái)就構(gòu)成了本層輸出的特征圖。值得注意的是,每個(gè)卷積核所“關(guān)注”的目標(biāo)類別(車輛、人、天空和動(dòng)物等)是多種多樣的,當(dāng)卷積核處理的特征包含它所“感興趣”的類時(shí),輸出的張量在對(duì)應(yīng)位置就會(huì)表現(xiàn)出更高的激活值。本文在DAVIS2016 數(shù)據(jù)集中選取了3 組具有代表性的視頻序列的一幀,并可視化了FRTM對(duì)其處理后保存至記憶模塊的對(duì)應(yīng)特征部分通道的熱力圖。如圖2 所示,圖2(c)在除目標(biāo)外的背景區(qū)域上表現(xiàn)出更高的激活值,這表明對(duì)應(yīng)的通道更加關(guān)注目標(biāo)周圍的干擾物而非目標(biāo)本身,本文將其稱為噪聲通道(noisy channel);而圖2(d)在目標(biāo)區(qū)域上表現(xiàn)出更高的激活值,本文將其稱為目標(biāo)通道(target channel)。
圖2 通道可視化熱力圖Fig.2 Visual thermal map of channel((a)frames;(b)ground truth;(c)noisy channel;(d)target channel)
在對(duì)目標(biāo)模型進(jìn)行迭代更新時(shí),F(xiàn)RTM 只是不加區(qū)分地賦予最新的幀更高的權(quán)重,而并沒(méi)有考慮特征本身對(duì)于目標(biāo)的表征程度??紤]到目標(biāo)模型主要學(xué)習(xí)目標(biāo)的外觀信息,本文提出了如下猜想:如果根據(jù)特征對(duì)于目標(biāo)的表征程度和特征對(duì)應(yīng)視頻幀的先后順序,綜合賦予特征對(duì)應(yīng)的權(quán)重,是否會(huì)對(duì)目標(biāo)模型的優(yōu)化更有幫助?因?yàn)樽罱膸芊从衬繕?biāo)當(dāng)前的運(yùn)動(dòng)狀態(tài)與外觀信息,而對(duì)目標(biāo)表征程度更高的特征應(yīng)當(dāng)更有助于目標(biāo)模型學(xué)習(xí)目標(biāo)的外觀信息。
為了驗(yàn)證這一想法,本文從特征目標(biāo)通道的占比著手,提出了一種特征表征質(zhì)量判別方法,并重新設(shè)計(jì)了特征權(quán)重計(jì)算方式,采用該計(jì)算方式后,算法的性能取得了明顯的提升,詳細(xì)的實(shí)驗(yàn)結(jié)果將在第2 節(jié)中介紹,具體的特征表征質(zhì)量判別方法和特征權(quán)重計(jì)算方式將在1.3節(jié)中介紹。
基于上述分析,為了得到一個(gè)目標(biāo)判別性更強(qiáng)的目標(biāo)模型,本文利用掩碼映射的方式判定每幀對(duì)應(yīng)特征的表征質(zhì)量。
式中,G為下采樣函數(shù),運(yùn)算符號(hào)×表示逐點(diǎn)相乘對(duì)于特征本文采用表示xn的每個(gè)通道對(duì)目標(biāo)的平均關(guān)注度,具體為
式中,c為特征xn的通道總數(shù)。對(duì)于特征xn對(duì)應(yīng)的各個(gè)通道的目標(biāo)關(guān)注度統(tǒng)計(jì)其中大于等于目標(biāo)平均關(guān)注度Yˉn的總數(shù)量Pn(0 Pn數(shù)量越大,表明特征xn中對(duì)目標(biāo)關(guān)注度較高的通道越多,本文認(rèn)為該種特征對(duì)目標(biāo)具有更強(qiáng)的表征能力,應(yīng)分配更高的權(quán)重,重新定義權(quán)重γn,具體為 式中,lr為線性權(quán)重更新率,本文與FRTM保持一致,皆為0.1。FRTM原始的權(quán)重更新方式為 相比于式(4),式(3)在賦予權(quán)重時(shí)既考慮了幀的先后順序,又考慮了特征xn對(duì)于目標(biāo)的表征程度,從兩方面綜合自適應(yīng)地賦予特征xn相應(yīng)的權(quán)重,這對(duì)于訓(xùn)練一個(gè)具備強(qiáng)判別力的目標(biāo)模型是非常有用的,新的權(quán)重更新方式更有助于目標(biāo)模型捕捉目標(biāo)對(duì)象的外觀,輸出準(zhǔn)確和魯棒的粗略掩碼,給后續(xù)的細(xì)化操作提供一個(gè)強(qiáng)有力的可靠指導(dǎo),第2 節(jié)的實(shí)驗(yàn)將對(duì)此進(jìn)行證明。 在大部分的視頻序列中,可以自然地發(fā)現(xiàn)相鄰兩幀之間的差異是很小的,F(xiàn)RTM 每幀都保存的處理方式不可避免地會(huì)引入更多的冗余信息,拖慢算法速度。因此,為了剔除記憶模塊中不必要的冗余特征信息,保留關(guān)鍵特征信息,提升算法的運(yùn)行速度,本文算法在DAVIS2017 數(shù)據(jù)集上,對(duì)記憶模塊的容量設(shè)置,以及更新目標(biāo)模型的時(shí)間做了大量相關(guān)實(shí)驗(yàn)。表1 給出了其中的部分結(jié)果,其中,更新系數(shù)代表當(dāng)記憶模塊的實(shí)存幀數(shù)達(dá)到相應(yīng)的倍數(shù)時(shí)對(duì)目標(biāo)模型進(jìn)行在線更新;J和F為DAVIS2017數(shù)據(jù)集上的評(píng)價(jià)指標(biāo),分別代表與掩碼真值相比,預(yù)測(cè)掩碼相對(duì)應(yīng)的區(qū)域相似度與輪廓準(zhǔn)確度(數(shù)值采用百分比%);S代表算法的運(yùn)行速度,單位為幀/s。不同于FRTM,本文僅將連續(xù)兩幀中的一幀存入記憶模塊。 表1 記憶模塊容量及目標(biāo)模型更新時(shí)機(jī)的實(shí)驗(yàn)結(jié)果Table 1 Experimental results of memory module capacity and target model update timing 結(jié)果表明,記憶模塊的容量設(shè)置為20,實(shí)存幀數(shù)達(dá)到4 的倍數(shù)時(shí)更新目標(biāo)模型,算法的性能與速度達(dá)到綜合最佳。因此,本文算法對(duì)FRTM 的存儲(chǔ)和更新策略調(diào)整如下:首先,本文算法只將相鄰兩幀中的一幀存至記憶模塊,并將記憶模塊的容量調(diào)整為20;其次,當(dāng)記憶模塊的實(shí)存幀數(shù)達(dá)到4 的倍數(shù)時(shí),本文算法利用其中的特征信息對(duì)目標(biāo)模型進(jìn)行更新。采用新的策略后,記憶模塊中保存的特征與掩碼信息容量為原來(lái)的1/4,相對(duì)于FRTM,有效提升了在線優(yōu)化目標(biāo)模型的速度,且算法精度不受影響。 為驗(yàn)證所提算法的有效性,采用DAVIS2016 和DAVIS2017數(shù)據(jù)集進(jìn)行評(píng)估。下面分別介紹算法的訓(xùn)練細(xì)節(jié)、定性分析、定量分析和消融實(shí)驗(yàn),從多個(gè)角度驗(yàn)證本文算法的有效性。 本文使用DAVIS2017 和Youtube-VOS(video object segmentation)兩個(gè)數(shù)據(jù)集對(duì)所提算法進(jìn)行訓(xùn)練,從同一視頻序列中隨機(jī)選擇一個(gè)參考幀和一個(gè)或多個(gè)驗(yàn)證幀,然后執(zhí)行訓(xùn)練迭代。首先,基于參考幀來(lái)優(yōu)化目標(biāo)模型權(quán)重;隨后,將完整的網(wǎng)絡(luò)與學(xué)習(xí)到的目標(biāo)模型一起應(yīng)用到驗(yàn)證幀上,以預(yù)測(cè)目標(biāo)的分割掩碼。網(wǎng)絡(luò)中的參數(shù)是通過(guò)相對(duì)于真實(shí)標(biāo)注掩碼的二進(jìn)制交叉熵?fù)p失反向傳播來(lái)學(xué)習(xí)的。 在離線訓(xùn)練過(guò)程中,本文算法使用ADAM 優(yōu)化器訓(xùn)練和學(xué)習(xí)分割網(wǎng)絡(luò)的參數(shù),并凍結(jié)主干網(wǎng)絡(luò)的權(quán)值。ADAM 優(yōu)化器的初始參數(shù)設(shè)置如下,學(xué)習(xí)率α=10-3,指數(shù)衰減率β1=0.9,β2=0.999,權(quán)重衰減系數(shù)為10-5,訓(xùn)練大約106次迭代,分成120個(gè)epoch。然后將學(xué)習(xí)率降低到α=10-4,接著訓(xùn)練140個(gè)epoch。 訓(xùn)練使用的實(shí)驗(yàn)環(huán)境如下:顯卡為一塊NVIDIA GeForce RTX 3090,內(nèi)存為32 GB,操作系統(tǒng)為64 位的 Ubuntu 16.04,PyTorch版本為1.8.1。 為驗(yàn)證本文算法的有效性,在DAVIS2016 和DAVIS2017 數(shù)據(jù)集上評(píng)估所提出的方法,DAVIS2016 數(shù)據(jù)集包含50 個(gè)視頻(480 p),在總共3 455幀中密集標(biāo)注像素級(jí)對(duì)象掩膜(每一個(gè)序列一個(gè)),分為一個(gè)訓(xùn)練集(30個(gè)視頻)和一個(gè)驗(yàn)證集(20個(gè)視頻)。DAVIS2017數(shù)據(jù)集包含多個(gè)對(duì)象的視頻,是DAVIS2016 的擴(kuò)展,它包含了60 個(gè)視頻的訓(xùn)練集,30個(gè)視頻的驗(yàn)證集以及3個(gè)視頻的測(cè)試集。在所有的數(shù)據(jù)集中,訓(xùn)練集、驗(yàn)證集和測(cè)試集之間沒(méi)有重復(fù)的視頻序列。DAVIS系列數(shù)據(jù)集的評(píng)價(jià)指標(biāo)主要有Jaccard index(J)和F-Measure(F)。Jaccard index 為分割結(jié)果和標(biāo)注真值掩膜的交并比,度量了標(biāo)注錯(cuò)誤像素的數(shù)量。F-Measure 是綜合準(zhǔn)確率和召回率的評(píng)價(jià)指標(biāo),它衡量的是預(yù)測(cè)掩碼與掩碼真值之間的輪廓準(zhǔn)確度。 表2 給出了本文算法與對(duì)比算法在DAVIS2016上的性能指標(biāo);圖3給出了表2中部分算法與本文算法在DAVIS2016 上的性能—速度散點(diǎn)圖。從中可以看出,所提算法的區(qū)域相似度J為85.9%,輪廓準(zhǔn)確度F為85.7%,二者的均值J&F為85.8%,速度S為13.5 幀/s。對(duì)比早期的經(jīng)典算法MaskTrack 和OSVOS,區(qū)域相似度J分別比它們提升了6.2%和6.1%;輪廓準(zhǔn)確度F分別比它們提升了10.3%和5.1%;均值J&F分別比它們提升了8.2%和5.6%,速度S比它們快了兩個(gè)數(shù)量級(jí),性能大大領(lǐng)先。對(duì)比2017年—2021年的主流算法,所提算法的區(qū)域相似度J幾乎實(shí)現(xiàn)了對(duì)它們的全部超越,僅略低于OnAVOS,而輪廓準(zhǔn)確度F和二者的均值J&F均實(shí)現(xiàn)了對(duì)它們的全部超越。總體上,所提算法的性能具有明顯的優(yōu)勢(shì)。 表2 DAVIS2016數(shù)據(jù)集上不同算法之間的性能對(duì)比Table 2 Performance comparison between different algorithms on DAVIS2016 dataset 圖3 不同算法在DAVIS2016數(shù)據(jù)集的性能—速度散點(diǎn)圖Fig.3 Performance-velocity scatter diagram between different algorithms on DAVIS2016 dataset 從表2 中可以看出,相比于FRTM,所提算法的區(qū)域相似度J和輪廓準(zhǔn)確度F均提升了2.3%,同時(shí)速度S也更快。相比于同樣針對(duì)FRTM 進(jìn)行改進(jìn)的G-FRTM(Park等,2021),均值J&F提升了1.5%。 表3 給出了本文算法與其他近年對(duì)比算法在DAVIS2017上的性能指標(biāo),圖4給出了表3中部分算法與本文算法在DAVIS2017 上的性能—速度散點(diǎn)圖。從中可以看出,所提算法的區(qū)域相似度J為75.5%,輪廓準(zhǔn)確度F為81.1%,二者的均值J&F為78.3%,速度S為9.4 幀/s。對(duì)比早期的經(jīng)典算法MaskTrack 和OSVOS,區(qū)域相似度J分別提升了24.3%和18.9%,輪廓準(zhǔn)確度F分別提升了23.8%和17.2%,均值J&F分別提升了24%和18%,速度S依然快了兩個(gè)數(shù)量級(jí),相比于DAVIS2016,性能領(lǐng)先幅度更大。對(duì)比2017—2021 年的主流算法,所提算法的區(qū)域相似度J實(shí)現(xiàn)了全部超越,而輪廓準(zhǔn)確度F僅略低于PReMVOS,二者的均值J&F實(shí)現(xiàn)了全部超越。從總體情況而言,所提算法的性能具有明顯優(yōu)勢(shì)。其中,相比于FRTM,所提算法的區(qū)域相似度J和輪廓準(zhǔn)確度F分別提升了1.7%和1.5%,同時(shí)速度S也更快。相比于同樣針對(duì)FRTM 進(jìn)行改進(jìn)的GFRTM(Park等,2021),均值J&F提升了1.9%。 表3 DAVIS2017數(shù)據(jù)集上不同算法之間的性能對(duì)比Table 3 Performance comparison between different algorithms on DAVIS2017 dataset 圖4 不同算法在DAVIS2017數(shù)據(jù)集的性能—速度散點(diǎn)圖Fig.4 Performance-velocity scatter diagram between different algorithms on DAVIS2017 dataset 表2 和表3 都在S列中給出了FRTM 的速度,括號(hào)前的數(shù)值為FRTM 論文中的數(shù)據(jù),對(duì)應(yīng)圖3 和圖4中的FRTM,而括號(hào)內(nèi)是本文使用FRTM 算法給出的權(quán)重模型在本地測(cè)試出的數(shù)據(jù),對(duì)應(yīng)圖3和圖4中的FRTM(Re)。FRTM 使用的GPU 為NVIDIA Tesla V100,而本文使用的GPU 為NVIDIA GeForce GTX1080Ti。由于硬件環(huán)境不同,導(dǎo)致兩個(gè)數(shù)值存在一定差異。 圖5 給出了本文算法與FRTM 在DAVIS2016 和DAVIS2017 上的分割效果圖,前兩行來(lái)源于DAVIS2016,后4 行來(lái)源于DAVIS2017??梢钥闯觯赟cooter-Black 行中,F(xiàn)RTM 只分割出了目標(biāo)“摩托車”的一部分區(qū)域,漏分了目標(biāo)“摩托車”的尾部,所提算法則完整地將目標(biāo)“摩托車”分割出來(lái);在Soapbox 行中,F(xiàn)RTM 只分割出了“兩車一人”中的一人和一車,漏分了位于左上位置的人,所提算法做到了沒(méi)有遺漏的分割;在Camel 行中,F(xiàn)RTM 出現(xiàn)了明顯的相似目標(biāo)誤判,誤將目標(biāo)“駱駝”旁邊的駱駝也分割出來(lái),而所提算法則避開了相似物的干擾,實(shí)現(xiàn)了目標(biāo)“駱駝”的精準(zhǔn)分割;在Drift-Chicane 行中,F(xiàn)RTM誤將目標(biāo)“賽車”帶起的煙霧進(jìn)行了分割,出現(xiàn)了背景誤判現(xiàn)象,而所提算法則給出了目標(biāo)“賽車”沒(méi)有任何漂移的分割掩碼;在Shooting 行中,F(xiàn)RTM 只實(shí)現(xiàn)了目標(biāo)之一“槍”的部分分割,而所提算法則將其完整地分割了出來(lái);在Dogs-Jump 行中,F(xiàn)RTM 沒(méi)有識(shí)別到位于該幀圖像中最右側(cè)的目標(biāo)“狗”,出現(xiàn)了目標(biāo)丟失現(xiàn)象,而所提算法依然能精準(zhǔn)地識(shí)別并分割出該目標(biāo)。 為了驗(yàn)證所提算法各個(gè)策略的有效性,在DAVIS2017 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),結(jié)果如表4 所示。其中,skip 表示是否采用新的記憶模塊存儲(chǔ)和更新策略,update 表示是否采用新的權(quán)重更新方式。結(jié)果表明,新的記憶模塊存儲(chǔ)和更新策略有效提升了算法的速度,對(duì)算法性能的提升也有一定的幫助,而新的權(quán)重更新方式在對(duì)算法速度影響很小的前提下,顯著地提升了算法性能,二者結(jié)合之后又將本文算法的性能提升到新的高度。 表4 本文算法在DAVIS2017上的消融實(shí)驗(yàn)Table 4 Ablation experiment of this algorithm on DAVIS2017 本文提出一種自適應(yīng)權(quán)重更新的輕量級(jí)視頻目標(biāo)分割算法。首先,為了更敏銳地捕捉到目標(biāo)所在區(qū)域,削減噪聲信息對(duì)目標(biāo)模型的影響,算法對(duì)存入的特征信息表征質(zhì)量進(jìn)行評(píng)估后賦予對(duì)應(yīng)的權(quán)重;其次,使用輕量級(jí)的記憶模塊存儲(chǔ)歷史幀的相關(guān)信息。在DAVIS2016 和DAVIS2017 兩個(gè)視頻目標(biāo)分割領(lǐng)域常用的數(shù)據(jù)集上,本文算法的平均性能皆超過(guò)了所有的對(duì)比算法,在一些有挑戰(zhàn)性的場(chǎng)景下,依然能給出目標(biāo)準(zhǔn)確和魯棒的分割掩碼,這也證明了本文算法的有效性。但本文所提對(duì)特征表征質(zhì)量的判別方法略顯粗糙,并且由于本文算法會(huì)對(duì)每一幀的特征進(jìn)行保存,指導(dǎo)后續(xù)幀的分割,導(dǎo)致計(jì)算量增大,造成速度無(wú)法滿足實(shí)時(shí)性要求。下一步將繼續(xù)深入研究特征表征質(zhì)量判別方法,考慮使用一些模塊對(duì)特征表征質(zhì)量進(jìn)行更準(zhǔn)確和更精細(xì)的判斷,以更好地對(duì)基于記憶模塊的視頻目標(biāo)分割算法進(jìn)行優(yōu)化,綜合提升算法性能與運(yùn)行時(shí)速度。1.4 輕量級(jí)記憶模塊
2 實(shí)驗(yàn)結(jié)果
2.1 算法訓(xùn)練細(xì)節(jié)
2.2 定量分析
2.3 定性分析
2.4 消融實(shí)驗(yàn)
3 結(jié)論