亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深淺層表示融合的半監(jiān)督視頻目標(biāo)分割

        2022-12-18 08:11:28宋慧慧樊佳慶
        計(jì)算機(jī)應(yīng)用 2022年12期
        關(guān)鍵詞:掩膜集上注意力

        呂 瀟,宋慧慧,樊佳慶

        (1.江蘇省大數(shù)據(jù)分析技術(shù)重點(diǎn)實(shí)驗(yàn)室(南京信息工程大學(xué)),南京 210044;2.江蘇省大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心(南京信息工程大學(xué)),南京 210044)

        0 引言

        視頻目標(biāo)分割一般指半監(jiān)督視頻目標(biāo)分割,就是給定視頻中第一幀特定物體的精確分割結(jié)果,然后在后續(xù)幀中準(zhǔn)確地對(duì)目標(biāo)進(jìn)行分割。半監(jiān)督視頻目標(biāo)分割是計(jì)算機(jī)視覺中的一項(xiàng)重要任務(wù),在動(dòng)作識(shí)別[1-2]、自動(dòng)駕駛[3-4]、視頻編輯[5]中有著廣闊的應(yīng)用前景。但視頻中往往都伴隨著目標(biāo)物體的外觀變化,也會(huì)含有與目標(biāo)物體相似的背景物體,因此對(duì)視頻中目標(biāo)物體進(jìn)行準(zhǔn)確的分割是一項(xiàng)充滿挑戰(zhàn)性的任務(wù)。而隨著深度學(xué)習(xí)的興起與發(fā)展,半監(jiān)督視頻目標(biāo)分割領(lǐng)域涌現(xiàn)出大量?jī)?yōu)秀的算法,推動(dòng)了半監(jiān)督視頻目標(biāo)分割的發(fā)展。

        為了實(shí)現(xiàn)對(duì)視頻中目標(biāo)的準(zhǔn)確分割,多種算法從不同的方面進(jìn)行了嘗試。文獻(xiàn)[6-9]中的算法利用第一幀給定的掩膜對(duì)分割網(wǎng)絡(luò)進(jìn)行微調(diào)來學(xué)習(xí)特定目標(biāo)的外觀特征。文獻(xiàn)[10]中的算法則是在此基礎(chǔ)上進(jìn)行了擴(kuò)展,通過在后續(xù)視頻幀上進(jìn)行額外的微調(diào)來學(xué)習(xí)目標(biāo)外觀特征。微調(diào)操作使得上述算法在視頻目標(biāo)分割數(shù)據(jù)集上獲得了非常不錯(cuò)的效果,但與此同時(shí)微調(diào)導(dǎo)致計(jì)算成本過高,算法運(yùn)行時(shí)間過長(zhǎng),難以滿足實(shí)時(shí)性的要求。另外,微調(diào)導(dǎo)致網(wǎng)絡(luò)容易過擬合,當(dāng)目標(biāo)發(fā)生形變或者場(chǎng)景中出現(xiàn)與目標(biāo)相似的物體時(shí),算法性能就會(huì)受到很大的影響。

        文獻(xiàn)[5,11-13]中的算法通過幀與幀之間的特征關(guān)聯(lián)[5]以及特征匹配[11-13]來設(shè)計(jì)整個(gè)網(wǎng)絡(luò),從對(duì)應(yīng)于初始位置目標(biāo)標(biāo)簽的特征構(gòu)造外觀模型,然后使用經(jīng)典聚類方法或特征匹配啟發(fā)的技術(shù)對(duì)輸入幀中的特征進(jìn)行分類,進(jìn)一步提高分割精度。這些方法不需要計(jì)算成本相當(dāng)高昂的在線微調(diào),但是由于特征匹配效率并不高,因此雖然精度有所提高,但速度卻大打折扣。視頻目標(biāo)跟蹤[14]與分割存在一定的聯(lián)系,視頻目標(biāo)分割實(shí)際可以看作目標(biāo)在像素級(jí)別上的跟蹤。文獻(xiàn)[15]中的算法通過在文獻(xiàn)[16]中的算法上添加一個(gè)分割分支來縮小跟蹤與分割之間的差距,該算法的運(yùn)行速度相較于之前的算法更快,在DAVIS 數(shù)據(jù)集[17-18]上取得了不錯(cuò)的結(jié)果。文獻(xiàn)[19]中利用已有的跟蹤器,在視頻中先對(duì)目標(biāo)進(jìn)行跟蹤,將跟蹤到的物體從視頻幀中分離開來進(jìn)行更加精確的分割操作。這一類的算法在速度方面相較于微調(diào)以及特征匹配的算法具有明顯的優(yōu)勢(shì),但是,此類算法的分割精度在很大程度上取決于跟蹤效果,如果跟蹤效果不佳,那么分割結(jié)果必然也會(huì)受到很大的影響。

        學(xué)習(xí)快速魯棒目標(biāo)模型的視頻目標(biāo)分割(learning Fast and Robust Target Models for video object segmentation,F(xiàn)RTM)算法[20]利用預(yù)生成的粗糙分割掩膜作為引導(dǎo)信息得到更精確的分割圖像。該算法在速度與精度方面均取得了不錯(cuò)的效果,但對(duì)粗糙掩膜的利用比較簡(jiǎn)單,因此也存在較大的提升空間。

        針對(duì)以上算法存在的不足,本文提出了一種深淺層表示融合的半監(jiān)督視頻目標(biāo)分割算法。該算法通過所設(shè)計(jì)的高效高階注意力(Effective High Order Attention,EHOA)模型,從骨干網(wǎng)絡(luò)特征中提取出豐富的語義信息。結(jié)合粗糙分割掩膜,設(shè)計(jì)了一種融合分割模塊,促使網(wǎng)絡(luò)學(xué)習(xí)到更魯棒的特征,從而在保證分割速度的情況下,提高了分割精度。將本文算法應(yīng)用于基線算法FRTM 上,并在多個(gè)主流數(shù)據(jù)集上進(jìn)行評(píng)測(cè),結(jié)果充分證實(shí)了本文算法的有效性。

        1 本文算法

        FRTM 通過簡(jiǎn)單的雙層線性卷積網(wǎng)絡(luò)構(gòu)建目標(biāo)模型,使用視頻首幀圖像及標(biāo)簽進(jìn)行訓(xùn)練,預(yù)先生成較為粗糙的掩膜,再通過分割網(wǎng)絡(luò)對(duì)粗糙掩膜及骨干網(wǎng)絡(luò)特征進(jìn)行簡(jiǎn)單融合,在分割精度與速度方面取得了很好的效果。粗糙的掩膜信息帶有非常豐富的前景目標(biāo)輪廓位置信息,對(duì)目標(biāo)的最終分割結(jié)果有著重要的引導(dǎo)作用;但是,該算法僅將掩膜特征與骨干特征簡(jiǎn)單拼接送入分割網(wǎng)絡(luò),在分割精度方面仍有待提高。

        本文算法基于基線算法FRTM 進(jìn)行設(shè)計(jì),網(wǎng)絡(luò)整體框架如圖1 所示,本文網(wǎng)絡(luò)主要包含特征提取模塊、粗糙掩膜生成模塊、特征聚合模塊、融合分割模塊四個(gè)部分。其中,特征提取模塊采用ResNet101[21]為其后面三個(gè)模塊提供特征輸入,粗糙掩膜生成模塊[20]用于生成粗糙掩膜,特征聚合模塊將輸入的特征進(jìn)行聚合,融合分割模塊將收集到的各類信息融合,輸出最終的精細(xì)分割圖像。

        圖1 網(wǎng)絡(luò)整體框架Fig.1 Overall network framework

        首先,將圖像輸入到特征提取模塊中進(jìn)行特征提取,提取到的特征放入存儲(chǔ)器中,作為粗糙掩膜生成模塊的輸入,并且通過高斯牛頓優(yōu)化方法[22]進(jìn)行優(yōu)化,得到粗糙的分割掩膜。在特征聚合模塊中,粗糙的分割掩膜與特征提取模塊中的各層特征先進(jìn)行拼接融合,再送入高效高階注意力模型中。特征聚合模塊中的高效高階注意力模型能夠使得特征更加專注于像素級(jí)別的變化,因此能夠提取出更加精細(xì)化的特征。聚合后的特征經(jīng)由粗糙掩膜提取到的特征進(jìn)行引導(dǎo),送入融合分割模塊中與處理過的特征提取模塊中的第二層特征進(jìn)行融合分割,最終得到精細(xì)的分割結(jié)果。

        相較于FRTM,本文的不同之處在于特征聚合模塊中的EHOA 模型以及所設(shè)計(jì)的融合分割模塊。特征聚合模塊中的EHOA 模型提取深層次的語義特征,融合分割模塊充分利用了粗糙掩膜,提高了分割效果。

        1.1 高效高階注意力模型

        特征聚合模塊將特征提取模塊輸出的各層特征與插值后的粗糙分割掩膜進(jìn)行拼接,經(jīng)過卷積濾波后送入通道注意力模塊以及高效高階注意力模型中,輸出聚合特征。特征聚合模塊結(jié)構(gòu)如圖2 所示,其中,粗糙掩膜S和骨干網(wǎng)絡(luò)各層特征χ(d)循環(huán)輸入到特征聚合模塊中,上一層的輸出Z(d)反饋到通道注意力模塊[20]中,一共循環(huán)輸入4 層骨干網(wǎng)絡(luò)的特征。

        圖2 特征聚合模塊結(jié)構(gòu)Fig.2 Feature aggregation module structure

        在行人重識(shí)別[23-26]、視頻超分[27]等相關(guān)領(lǐng)域中,注意力機(jī)制[28]被充分證明對(duì)視覺特征的提取具有很好的效果,注意力能夠?qū)⑻崛〕龅奶卣鞲悠蛴诰W(wǎng)絡(luò)所需要的特征。因此,本文在高階注意力(High Order Attention,HOA)模型[23]的基礎(chǔ)上,提出高效高階注意力(EHOA)模型。

        EHOA 結(jié)構(gòu)如圖3 所示,輸入X經(jīng)過卷積網(wǎng)絡(luò),再與X逐元素相加,經(jīng)激活函數(shù)后輸出X0:

        圖3 高效高階注意力模型Fig.3 Efficient high-order attention model

        其中:*表示對(duì)應(yīng)元素相乘;f1、f2、f3表示卷積激活操作。通過上述式(2)~(4),由同一特征得到了3 個(gè)不同階次的注意力信息,將3 個(gè)不同權(quán)重按式(5)進(jìn)行加權(quán)取平均:

        最終按式(6)得到最終輸出:

        注意力模型通常分為空間注意力模型和通道注意力模型,即在圖像空間位置以及通道方向上進(jìn)行加權(quán)。視頻目標(biāo)分割是一項(xiàng)像素級(jí)別的分類任務(wù),需要更加精細(xì)的注意力機(jī)制來提取所需特征。本文所提高效高階注意力模型,其最終輸出為一個(gè)與輸入特征維度相同的權(quán)重矩陣,即對(duì)特征在空間以及通道上均進(jìn)行了加權(quán),相較于單一的通道注意力以及空間注意力機(jī)制,能夠提取更加精細(xì)的特征。

        HOA 在后續(xù)的特征融合階段將不同階次的特征直接相加得到最終的注意力特征。但是這樣的操作沒有考慮到不同階次的特征所包含的語義信息存在差異,直接相加會(huì)導(dǎo)致部分信息的損失。因此,本文EHOA 模型考慮對(duì)特征加入不同的權(quán)重減少該部分信息損失,具體地,以粗糙掩膜和骨干網(wǎng)絡(luò)特征拼接得到的特征作為輸入,首先經(jīng)過一個(gè)跳躍連接,利用ReLU 激活函數(shù)的單側(cè)抑制性,對(duì)特征信息進(jìn)行初步去噪。根據(jù)3 種階次語義信息的豐富程度設(shè)置不同的權(quán)重對(duì)特征信息進(jìn)行整合,從而提取最佳的注意力信息,本文權(quán)重最終設(shè)置為λ1=0.2,λ2=0.3。對(duì)于該部分權(quán)重的選取將在后續(xù)實(shí)驗(yàn)中給出。

        綜上所述,本文高效高階注意力模型相較于HOA 在引入少量參數(shù)的情況下通過設(shè)定不同階次的權(quán)重能夠更高效地提取網(wǎng)絡(luò)中的注意力信息,更有效地提升本文算法的分割效果。

        1.2 融合分割模塊

        半監(jiān)督視頻目標(biāo)分割存在兩大難點(diǎn):1)是否能夠區(qū)分分割目標(biāo)與相似物體;2)是否能夠準(zhǔn)確判別前景與背景之間的邊緣位置信息。前者需要網(wǎng)絡(luò)中有足夠豐富并且魯棒的深度語義信息,后者需要的則是較為淺層的邊緣位置信息。因此,本文提出融合分割模塊,同時(shí)利用網(wǎng)絡(luò)深層語義信息以及淺層位置信息。

        融合分割模塊結(jié)構(gòu)如圖4 所示。經(jīng)優(yōu)化得到的粗糙掩膜帶有魯棒的前背景信息以及紋理信息,因此本文利用帶有豐富紋理特征的粗糙掩膜作為引導(dǎo)信息來引導(dǎo)聚合后的深度特征。

        圖4 融合分割模塊Fig.4 Fusion segmentation module

        首先對(duì)粗糙掩膜進(jìn)行插值,再經(jīng)卷積網(wǎng)絡(luò)將插值后的掩膜通道數(shù)進(jìn)行擴(kuò)展,使其與深度特征具有相同的維度,利用擴(kuò)展通道后的掩膜過濾深度特征中重復(fù)的語義信息。

        骨干網(wǎng)絡(luò)中,淺層特征帶有更為豐富的邊緣紋理信息,而在分割任務(wù)中,對(duì)前景與背景之間的邊緣輪廓的辨別能力是評(píng)價(jià)分割結(jié)果的重要指標(biāo),因此,網(wǎng)絡(luò)淺層特征對(duì)提高算法性能有很重要的作用。

        基于上述分析,本文將經(jīng)粗糙掩膜加權(quán)后的深度特征與骨干網(wǎng)絡(luò)淺層特征按式(7)進(jìn)行融合:

        其中:T表示融合后的特征;Z(2)表示特征聚合模塊最終輸出的特征;S表示粗糙掩膜權(quán)重;conv2表示粗糙掩膜的加權(quán)網(wǎng)絡(luò);χ(2)表示骨干網(wǎng)絡(luò)第二層輸出特征;res 表示殘差網(wǎng)絡(luò);λ、μ表示超參數(shù),控制加權(quán)深層特征與淺層骨干網(wǎng)絡(luò)特征之間的權(quán)重關(guān)系,本文方法中的λ和μ設(shè)置為1 時(shí),效果最佳。

        2 實(shí)驗(yàn)與結(jié)果分析

        2.1 訓(xùn)練設(shè)置

        本文訓(xùn)練與測(cè)試設(shè)備均為一張RTX 2080Ti 顯卡。特征提取模塊采用ResNet101 作為骨干網(wǎng)絡(luò),為保證實(shí)驗(yàn)的公平性,本文采用與FRTM 相同的訓(xùn)練方法,包括粗糙分割掩膜的優(yōu)化訓(xùn)練部分以及其他模塊的分割訓(xùn)練部分。

        1)粗糙掩膜訓(xùn)練。首先將第一幀圖片以及第一幀掩膜進(jìn)行數(shù)據(jù)增廣。特征提取模塊所得的特征作為輸入,下采樣后的首幀掩膜作為標(biāo)簽送入粗糙掩膜生成器[20],粗糙掩膜生成器的結(jié)構(gòu)是兩層線性卷積層,通過高斯牛頓法[22]優(yōu)化參數(shù),接著將后續(xù)幀的特征輸入到生成器中生成粗糙掩膜,將輸入特征與粗糙掩膜放入存儲(chǔ)器中構(gòu)建一個(gè)固定容量的數(shù)據(jù)集來持續(xù)優(yōu)化生成器參數(shù)。

        2)分割訓(xùn)練。網(wǎng)絡(luò)中特征聚合模塊,融合分割模塊的參數(shù)通過離線訓(xùn)練的方法學(xué)習(xí)。

        本文將DAVIS 2017 和YouTube-VOS[29]作為訓(xùn) 練數(shù)據(jù),采用Adam[30]優(yōu)化器進(jìn)行優(yōu)化,訓(xùn)練260 個(gè)周期,初始學(xué)習(xí)率α設(shè)為1E-3,衰減率β1設(shè)為0.9,β2設(shè)為0.999,權(quán)重衰減率設(shè)為1E-5。每120 個(gè)訓(xùn)練周期,學(xué)習(xí)率縮減為原來的1/10。

        2.2 評(píng)價(jià)指標(biāo)

        本文主要采用DAVIS 2017 的標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo),包括雅卡爾指標(biāo)J和F得分。其中,J為標(biāo)注真值與分割結(jié)果的區(qū)域相似度,公式表示為:

        其中:M表示預(yù)測(cè)值,G表示標(biāo)注真值。

        F被用來描述預(yù)測(cè)的分割結(jié)果的邊界與標(biāo)注真值的邊界之間的吻合程度,公式表示為:

        其中:P為查準(zhǔn)率,R為查全率。并且,本文還采用J與F的均值J&F作為綜合評(píng)價(jià)指標(biāo):

        2.3 不同數(shù)據(jù)集上的結(jié)果比較

        2.3.1 DAVIS 2016數(shù)據(jù)集上的結(jié)果比較

        DAVIS 2016 數(shù)據(jù)集中每一個(gè)視頻序列只標(biāo)注一個(gè)目標(biāo),是一個(gè)單目標(biāo)視頻目標(biāo)分割數(shù)據(jù)集,其中包括了30 個(gè)用于訓(xùn)練的視頻,20 個(gè)用于驗(yàn)證的視頻。表1 中展示了本文算法與其他先進(jìn)算法在DAVIS 2016 驗(yàn)證集上的比較結(jié)果。為體現(xiàn)實(shí)驗(yàn)的公平性,F(xiàn)RTM[20]與本文算法所測(cè)數(shù)據(jù)均在RTX 2080Ti 設(shè)備中測(cè)得,其余均使用公開數(shù)據(jù)。與表1 中其他算法不同的是,本文算法以及FRTM 并未使用預(yù)訓(xùn)練的分割模型以及額外數(shù)據(jù)集。從表1 中可以看出,本文算法的雅卡爾指標(biāo)J=85.5%,相較于FRTM 提高了1.8 個(gè)百分點(diǎn);綜合指標(biāo)J&F=85.9%,相較于FRTM 提高了2.3 個(gè)百分點(diǎn),而速度使用幀率(即每秒傳輸幀數(shù)(Frames Per Second,F(xiàn)PS))衡量,相差不大。在所有運(yùn)行速度較快的算法中,本文算法是分割效果最好的。相較于其他算法,本文算法在速度與精度的平衡性上更為突出。

        表1 不同算法在DAVIS 2016驗(yàn)證集上的評(píng)估結(jié)果Tab.1 Evaluation results of different algorithms on DAVIS 2016 validation set

        2.3.2 DAVIS 2017數(shù)據(jù)集上的結(jié)果比較

        DAVIS 2017 數(shù)據(jù)集是在DAVIS 2016 數(shù)據(jù)集上擴(kuò)展而來的多目標(biāo)視頻目標(biāo)分割數(shù)據(jù)集,其中60 段視頻用于訓(xùn)練,30段視頻用于驗(yàn)證,30 段視頻用于測(cè)試以及30 段視頻用于競(jìng)賽。該數(shù)據(jù)集相較于DAVIS 2016 數(shù)據(jù)集,數(shù)據(jù)量明顯增加,但同時(shí)場(chǎng)景更加復(fù)雜,分割難度也顯著增加。表2 中展示了不同算法在DAVIS 2017 驗(yàn)證集上的比較結(jié)果。在該數(shù)據(jù)集上,本文算法的雅卡爾指標(biāo)J=75.0%,相較于FRTM 提高了1.2 個(gè)百分點(diǎn);綜合指標(biāo)J&F=77.8%,相較于FRTM 提高了1.1 個(gè)百分點(diǎn),并且相較于無時(shí)序信息的視頻目標(biāo)分割(Video Object Segmentation without Temporal Information,OSVOS-S)算法[7]等在DAVIS 2016 數(shù)據(jù)集上取得不錯(cuò)效果的算法,本文算法在這個(gè)更具挑戰(zhàn)性的數(shù)據(jù)集上體現(xiàn)了良好的優(yōu)越性。

        表2 不同算法在DAVIS 2017驗(yàn)證集上的評(píng)估結(jié)果Tab.2 Evaluation results of different algorithms on DAVIS 2017 validation set

        2.3.3 YouTube-VOS數(shù)據(jù)集上的結(jié)果比較

        YouTube-VOS 驗(yàn)證集有474 段視頻,共有91 個(gè)類別,其中有26 個(gè)類別為未見類別。分別計(jì)算可見與未見類別的J和F作為評(píng)估指標(biāo),g為4 個(gè)單項(xiàng)指標(biāo)的均值。表3 展示了不同算法在YouTube-VOS 驗(yàn)證集上的結(jié)果。由表3 可以看出,本文算法的綜合指標(biāo)g為67.1%,在沒有使用額外數(shù)據(jù)和分割預(yù)訓(xùn)練模型的情況下排名第二。尤其,本文算法的F指標(biāo)在可見與未見類別上取得71.3%和68.4%的出色性能,超越其他對(duì)比算法。體現(xiàn)了本文算法區(qū)分前景背景邊緣位置的出色性能。

        表3 不同算法在YouTube-VOS驗(yàn)證集上的評(píng)估結(jié)果 單位:%Tab.3 Evaluation results of different algorithms on YouTube-VOS validation set unit:%

        2.4 消融實(shí)驗(yàn)

        表4 展示了本文算法中EHOA 模型、融合分割模塊在DAVIS 2016 驗(yàn)證集下的消融實(shí)驗(yàn)結(jié)果。其中Base 表示本文算法同時(shí)去掉EHOA 模型和融合分割模塊之后的基礎(chǔ)網(wǎng)絡(luò),使用Fuse 表示融合分割模塊。通過表4 中四種算法變體來驗(yàn)證算法各部分的作用??梢园l(fā)現(xiàn),在不考慮EHOA 模型的情況下,J&F達(dá)到81.4%。在Base 模型加入EHOA 模型的情況下,算法性能提升了3.2 個(gè)百分點(diǎn);在Base 模型下加入Fuse,算法性能提升了3.8 個(gè)百分點(diǎn)。由此可見本文算法中的EHOA 模型以及融合分割模塊對(duì)網(wǎng)絡(luò)的整體性能提升均有明顯作用,兩部分共同作用,最終提升了4.5 個(gè)百分點(diǎn)。

        表4 消融實(shí)驗(yàn)結(jié)果 單位:%Tab.4 Ablation experimental results unit:%

        表5 展示了EHOA 模型與HOA 模型的實(shí)驗(yàn)結(jié)果對(duì)比,本文所提EHOA 模型的最佳結(jié)果(85.9%)相較于HOA 模型的性能提升了0.9 個(gè)百分點(diǎn),證明本文所提模型提取網(wǎng)絡(luò)注意力信息更為高效。表5 中同時(shí)展示了EHOA 模型在不同權(quán)重下的算法表現(xiàn),其中,λ3=1-λ1-λ2。從表5 中可以看出,當(dāng)各階特征單獨(dú)作用時(shí),EHOA 模型的性能均低于HOA 模型;λ1、λ2過小分別為0.1、0.2 時(shí),一階特征和二階特征對(duì)模型整體影響過小,EHOA 模型的性能相較于最佳結(jié)果降低了0.8個(gè)百分點(diǎn);λ1、λ2過大分別為0.6、0.3 時(shí),包含更豐富語義信息的三階特征信息損失過多,EHOA 模型的性能相較于最佳結(jié)果降低了0.9 個(gè)百分點(diǎn);λ1為0.2、λ2為0.3 時(shí),三種階次特征權(quán)重處于相對(duì)平衡,EHOA 模型取得最佳性能。充分說明當(dāng)前模型按特征階數(shù)賦予不同權(quán)重的有效性。

        表5 EHOA模型與HOA模型的實(shí)驗(yàn)結(jié)果對(duì)比Tab.5 Comparison of experimental results of EHOA and HOA models

        表6 展示了融合分割模塊對(duì)本文算法在性能方面的影響。將ResNet101 的四層輸出分別與加權(quán)后的聚合特征進(jìn)行融合,可以發(fā)現(xiàn),越淺層的特征對(duì)算法的性能提升最大,Layer2 的特征相較于Layer5 的特征,算法性能提高了1.1 個(gè)百分點(diǎn),并且越淺層的特征具有的通道數(shù)越少,進(jìn)行融合計(jì)算時(shí)所需要的計(jì)算代價(jià)也越小。綜上,本文將高效高階注意力模型與融合分割模塊相結(jié)合,在沒有過多加大計(jì)算負(fù)擔(dān)的情況下,取得了較高的精度,在精度與速度上更加平衡。

        表6 不同層特征的實(shí)驗(yàn)結(jié)果對(duì)比 單位:%Tab.6 Comparison of experimental results with features of different layers unit:%

        2.5 可視化結(jié)果

        為更直觀地展現(xiàn)本文算法的分割效果,對(duì)分割結(jié)果進(jìn)行了可視化。

        圖5 展示的是DAVIS 2016 中一段駱駝視頻的分割結(jié)果,視頻首幀只出現(xiàn)了一只駱駝,根據(jù)半監(jiān)督視頻目標(biāo)分割的任務(wù)設(shè)定,整個(gè)視頻中首幀出現(xiàn)的駱駝為需要分割的前景目標(biāo),而后續(xù)幀中出現(xiàn)的駱駝則為視頻中的相似干擾目標(biāo)??梢钥吹剑谝曨l中出現(xiàn)另外的屬于背景駱駝的情況下,本文算法能夠更好地抑制干擾,作出準(zhǔn)確的分割,體現(xiàn)了本文算法在區(qū)分相似前景背景方面的出色性能。

        圖5 在DAVIS 2016數(shù)據(jù)集上的可視化結(jié)果對(duì)比Fig.5 Comparison of visualized results on DAVIS 2016 dataset

        圖6 展示的是DAVIS 2017 中一段人與狗的視頻。在這段視頻中,需要將視頻中的3 個(gè)物體分割出來。在前幾幀,物體的形變與移動(dòng)距離并不是很大,因此,分割難度不是很大;但是在視頻后面幾幀,物體發(fā)生了比較大的形變與移動(dòng),分割難度變大。可以看到,在視頻后面幾幀,當(dāng)物體出現(xiàn)比較大的形變和移動(dòng)的時(shí)候,本文算法仍然能夠正確分割出物體,表現(xiàn)出了更強(qiáng)大的穩(wěn)定性。

        圖6 DAVIS 2017數(shù)據(jù)集上的可視化結(jié)果對(duì)比Fig.6 Comparison of visualized results on DAVIS 2017 dataset

        3 結(jié)語

        本文在FRTM 算法的基礎(chǔ)上提出了一種深度注意力特征與淺層特征融合的視頻目標(biāo)分割算法。設(shè)計(jì)了高效高階注意力模型與融合分割模塊。前者在幾乎沒有增加計(jì)算負(fù)擔(dān)的同時(shí)顯著提高了分割精度;后者加入粗糙掩膜信息,引導(dǎo)深度特征與淺層骨干特征融合,兼顧深層與淺層信息,能夠使得特征更加魯棒,提高了分割效果。本文算法在DAVIS 2016、DAVIS 2017 以及YouTube-VOS 數(shù)據(jù)集上均取得優(yōu)異的實(shí)驗(yàn)結(jié)果,充分驗(yàn)證了其優(yōu)越性。但本文算法也還存在著一些不足,對(duì)于視頻中的時(shí)序信息沒有充分利用,性能還存在較大的提升空間。未來工作應(yīng)該在保證分割速度不變的前提下有效地提高精度這一方向上進(jìn)行探索。

        猜你喜歡
        掩膜集上注意力
        利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
        讓注意力“飛”回來
        一種結(jié)合圖像分割掩膜邊緣優(yōu)化的B-PointRend網(wǎng)絡(luò)方法
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        光纖激光掩膜微細(xì)電解復(fù)合加工裝置研發(fā)
        復(fù)扇形指標(biāo)集上的分布混沌
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        多層陰影掩膜結(jié)構(gòu)及其制造和使用方法
        科技資訊(2016年21期)2016-05-30 18:49:07
        69久久精品亚洲一区二区| 80s国产成年女人毛片| 男女高潮免费观看无遮挡| 国产精品户露av在线户外直播| 久久久国产精品ⅤA麻豆百度 | 国产网友自拍视频在线观看| 不卡日韩av在线播放| 丰满人妻被黑人猛烈进入| 国产福利酱国产一区二区| 免费人成网站在线播放| 国产午夜激无码av毛片不卡| 国产无人区码一码二码三mba| 亚洲熟妇丰满大屁股熟妇| аⅴ天堂一区视频在线观看| 亚洲av色在线观看网站| 丝袜美腿视频一区二区| 国产一区二区三区四区五区加勒比 | 国产精品国产三级国产av剧情 | 亚洲人成人网站在线观看| 四虎成人在线| 中文字幕成人精品久久不卡| 亚洲av手机在线播放| 免费观看91色国产熟女| 一本加勒比hezyo无码人妻| 97se在线| 国产精品日日摸夜夜添夜夜添| 亚洲国产都市一区二区| 色中文字幕在线观看视频| 欧美最猛性xxxxx免费| 日本加勒比东京热日韩| av毛片亚洲高清一区二区| 黄片大全视频在线播放| 国产美女久久精品香蕉69| 91精品国产综合久久青草| 91久久香蕉国产熟女线看| 亚洲精品成人片在线观看精品字幕| 欧美成人免费高清视频| 日本岛国视频在线观看一区二区| 久久精品99国产精品日本| 又黄又爽又色的视频| 素人系列免费在线观看|