亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        尺度自適應(yīng)生成調(diào)控的弱監(jiān)督視頻實(shí)例分割

        2023-09-27 07:22:14張印輝海維琪何自芬黃瀅陳東東
        光學(xué)精密工程 2023年18期
        關(guān)鍵詞:特征信息模型

        張印輝, 海維琪, 何自芬, 黃瀅, 陳東東

        (昆明理工大學(xué) 機(jī)電工程學(xué)院,云南 昆明 650000)

        1 引 言

        近年來,輔助駕駛領(lǐng)域中對車輛周圍復(fù)雜環(huán)境多目標(biāo)感知和場景理解技術(shù)成為研究的重點(diǎn)方向?,F(xiàn)階段,針對輔助駕駛車輛環(huán)境感知技術(shù)包括激光雷達(dá)(Lidar)[1-4]、全球?qū)Ш叫l(wèi)星系統(tǒng)(Global Navigation Satellite System, GNSS)[5-7]和慣性測量單元(Inertial Measurement Unit,IMU)[8]以及計算機(jī)視覺卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[9-11]等技術(shù)。其中全球?qū)Ш叫l(wèi)星系統(tǒng)和慣性測量單元往往只用于定位,而激光雷達(dá)和計算機(jī)視覺既可用于定位也可用于識別,但激光雷達(dá)成本高,且無法給出跟蹤目標(biāo)的類別和尺寸信息?;谟嬎銠C(jī)視覺的實(shí)例分割技術(shù)具備對復(fù)雜環(huán)境進(jìn)行實(shí)時感知的強(qiáng)大能力且成本較低,被廣泛應(yīng)用于輔助駕駛視覺識別系統(tǒng),實(shí)現(xiàn)輔助駕駛車輛對周圍障礙物的精準(zhǔn)識別。

        實(shí)例分割技術(shù)可分為圖像實(shí)例分割和視頻實(shí)例分割兩個方向。其中圖像實(shí)例分割[12-15]針對單幀圖像進(jìn)行實(shí)例分類、檢測和分割;視頻實(shí)例分割[16-20]以圖像實(shí)例分割為基礎(chǔ),對不同幀中同一實(shí)例進(jìn)行跨幀關(guān)聯(lián)追蹤,以時間序列形式獲得各實(shí)例的分割掩膜及檢測結(jié)果。目前基于深度學(xué)習(xí)的視頻實(shí)例分割方法主要包括基于全監(jiān)督和弱監(jiān)督學(xué)習(xí)兩類模型,在全監(jiān)督學(xué)習(xí)中,Mask-Track R-CNN[16]在圖像實(shí)例分割Mask RCNN[12]頭部基礎(chǔ)上添加跟蹤分支關(guān)聯(lián)不同幀之間的目標(biāo)實(shí)例,最先實(shí)現(xiàn)幀級實(shí)例同時檢測、跟蹤和分割,并在提出的Youtube-VIS2019[16]數(shù)據(jù)集驗(yàn)證模型有效性,但結(jié)合單幀圖像分割和傳統(tǒng)方法進(jìn)行跟蹤關(guān)聯(lián),忽略了關(guān)鍵的時間信息,導(dǎo)致網(wǎng)絡(luò)分割精度低。Maskprop[21]在MaskTrack R-CNN基礎(chǔ)上添加mask傳播分支,將中間幀目標(biāo)實(shí)例mask傳播到視頻其他幀以提升mask生成和關(guān)聯(lián)質(zhì)量,在使用較少標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的情況下,在Youtube-VIS數(shù)據(jù)集上分割精度達(dá)到46.6%,比MaskTrack R-CNN高16.3%,但由于MaskProp采用離線學(xué)習(xí)方式導(dǎo)致模型占用內(nèi)存大且分割時效性差。為克服檢測到跟蹤多階段分割范式處理速度較慢且不利于發(fā)揮視頻時序連續(xù)性的優(yōu)勢,STEm-Seg[22]采用三維卷積和高斯混合來改善時空嵌入特征表示,提升挖掘視頻整體的空間和時序信息提取能力,且以較快的速度解決視頻實(shí)例分割的問題。然而,該方法獲得的實(shí)例嵌入特征僅包含像素級高斯后驗(yàn)概率估計,缺乏視頻數(shù)據(jù)目標(biāo)實(shí)例時變的高級上下文抽象和統(tǒng)計特征,極大限制了STEm-Seg算法的分割魯棒性。CrossVIS[23]提出一種新的交叉學(xué)習(xí)方案,基于當(dāng)前幀中的實(shí)例特征,以像素方式定位其他視頻幀中相同實(shí)例,有效利用視頻中固有的上下文信息來增強(qiáng)跨視頻幀的實(shí)例表示,同時削弱背景和無關(guān)實(shí)例信息,顯著提高了網(wǎng)絡(luò)分割精度。但上述基于全監(jiān)督學(xué)習(xí)的視頻實(shí)例分割技術(shù)對目標(biāo)真實(shí)值像素級標(biāo)注具有很強(qiáng)的依賴性,因此冗長的視頻序列樣本導(dǎo)致大量的人工精細(xì)化標(biāo)注成本劇增。

        目前基于邊界框的弱監(jiān)督實(shí)例分割方法僅將實(shí)例邊界框坐標(biāo)及類別信息作為真實(shí)值進(jìn)行網(wǎng)絡(luò)約束學(xué)習(xí),極大節(jié)省人工標(biāo)注成本[24]。Hsu等人[25]提出BBTP(Bounding Box Tightness Prior)方法將弱監(jiān)督實(shí)例分割問題視為多示例學(xué)習(xí)任務(wù),以真實(shí)邊界框?yàn)榻缦迏^(qū)分前景與背景,結(jié)合MIL loss和DenseCRF對偽mask進(jìn)一步優(yōu)化,然而僅以邊界框約束像素歸類可能導(dǎo)致邊界框內(nèi)mask質(zhì)量下降。Wang[26]等人基于BoxCaseg預(yù)訓(xùn)練模型生成偽標(biāo)簽,并通過邊界框標(biāo)簽約束偽標(biāo)簽邊界,最后用于代替Mask R-CNN實(shí)例分割模型訓(xùn)練過程中人工標(biāo)注值,但受限于指定實(shí)例分割預(yù)訓(xùn)練模型難以適配現(xiàn)有視頻實(shí)例分割網(wǎng)絡(luò)。Tian等人[27]提出BoxInst方法,通過構(gòu)建投影損失和顏色相似性損失函數(shù)替換CondInst[28]中mask分割損失,顯著縮小了弱監(jiān)督和全監(jiān)督實(shí)例分割之間的性能差距。弱監(jiān)督視頻實(shí)例分割僅使用邊界框?qū)W(wǎng)絡(luò)進(jìn)行訓(xùn)練嚴(yán)重制約了交通場景大尺度動態(tài)范圍目標(biāo)分割精度的問題。

        為實(shí)現(xiàn)輔助駕駛車輛對周圍復(fù)雜環(huán)境的多尺度動態(tài)目標(biāo)精準(zhǔn)感知和場景理解,以及節(jié)省訓(xùn)練所需人工精細(xì)化標(biāo)注成本,本文設(shè)計了一種基于尺度自適應(yīng)生成調(diào)控弱監(jiān)督視頻實(shí)例分割算法(Scale Adaptive Generation Regulation,SAGRNet)。首先針對全監(jiān)督網(wǎng)絡(luò)對目標(biāo)真實(shí)值像素級標(biāo)注具有很強(qiáng)的依賴性,冗長的視頻序列樣本導(dǎo)致大量的人工精細(xì)化標(biāo)注成本劇增的問題,本文引入正交損失函數(shù)和顏色相似性損失函數(shù)代替全監(jiān)督CrossVIS網(wǎng)絡(luò)實(shí)例mask分割損失,僅利用邊界框標(biāo)簽對初始預(yù)測mask進(jìn)行聯(lián)合訓(xùn)練,實(shí)現(xiàn)了基于邊界框的弱監(jiān)督視頻實(shí)例分割算法Box-CrossVIS,并以此作為本文的基準(zhǔn)網(wǎng)絡(luò)。其次,在特征金字塔(Feature Pyramid Networks,F(xiàn)PN)[29]自上而下融合路徑嵌入多尺度特征映射貢獻(xiàn)度動態(tài)自適應(yīng)調(diào)控模塊,通過動態(tài)調(diào)整不同尺度特征映射信息貢獻(xiàn)度以強(qiáng)化對目標(biāo)局部位置和整體輪廓的聚焦能力,增強(qiáng)網(wǎng)絡(luò)對前景目標(biāo)多尺度變化情況下的識別感知能力。最后,在mask預(yù)測分支前添加目標(biāo)實(shí)例多細(xì)粒度空間信息聚合生成調(diào)控模塊,采用通道注意力機(jī)制[30]聚合基于不同空洞率提取的多細(xì)粒度空間信息生成權(quán)重參數(shù)以調(diào)控各尺度特征,有效細(xì)化實(shí)例邊緣輪廓并增強(qiáng)跨通道信息交互掩碼特征映射表征能力。SAGRNet算法在Youtube-VIS2019提取的交通場景數(shù)據(jù)集上進(jìn)行綜合實(shí)驗(yàn),平均分割精度達(dá)到38.1%,且在2080Ti上最高分割速度可達(dá)36 FPS,為車輛輔助駕駛實(shí)現(xiàn)實(shí)時多目標(biāo)感知和實(shí)例級場景理解提供了有效算法依據(jù)。

        2 本文算法

        2.1 SAGRNet網(wǎng)絡(luò)結(jié)構(gòu)

        SAGRNet網(wǎng)絡(luò)包含特征提取和后處理兩個階段,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。在特征提取階段,首先將視頻t和t+δ幀圖像輸入到ResNet50提取語義特征{C1,C2,C3,C4,C5}。其次,利用FPN增強(qiáng)上下文多尺度目標(biāo)特征信息提取能力,通過自頂向下和橫向連接融合方式為低層特征引入豐富的高層語義信息,得到特征圖{P3,P4,P5}。為解決由于距離變化造成交通場景中車輛和行人等障礙物目標(biāo)尺度動態(tài)范圍擴(kuò)大問題,本文在FPN融合路徑嵌入自適應(yīng)調(diào)控模塊,動態(tài)調(diào)整不同尺度特征映射信息貢獻(xiàn)度以強(qiáng)化對不同尺度目標(biāo)的感知識別能力。最后,將FPN輸出特征經(jīng)3×3卷積操作,并將得到的最高層特征進(jìn)行2倍下采樣操作,最終得到特征圖{F3,F(xiàn)4,F(xiàn)5,F(xiàn)6,F(xiàn)7}。在特征后處理階段,首先將特征提取階段輸出的各尺度特征分別輸入Mask Branch和Controller Head分支。其中Mask Branch用于生成實(shí)例mask預(yù)測的Fmask特征,并結(jié)合相對位置信息Coord拼接生成實(shí)例mask特征圖;Controller Head用于生成實(shí)例特定動態(tài)濾波器θx,y(t),θx′,y′(t+δ),并預(yù)測該位置實(shí)例動態(tài)條件卷積MaskHead的參數(shù)。針對實(shí)例邊緣輪廓分割不完整、質(zhì)量粗糙的問題,本文在mask預(yù)測分支前添加生成調(diào)控模塊以細(xì)化實(shí)例邊界并實(shí)現(xiàn)特征跨通道信息交互增強(qiáng)掩碼特征映射表征能力,提高網(wǎng)絡(luò)對實(shí)例邊緣輪廓的分割能力。然后,將生成的mask特征圖和動態(tài)濾波器交叉輸入條件卷積MaskHead生成靜態(tài)和交叉動態(tài)mask。t幀和t+δ幀圖像生成的靜態(tài)實(shí)例mask可表示為:

        圖1 SAGRNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 SAGRNet Network Structure

        t幀和t+δ幀圖像生成的交叉動態(tài)實(shí)例mask可表示為:

        其中,Maskhead由三個卷積層組成,以實(shí)例為條件動態(tài)生成卷積參數(shù)。最后,引入正交損失和顏色相似性損失函數(shù)代替全監(jiān)督CrossVIS網(wǎng)絡(luò)實(shí)例mask分割損失,利用邊界框標(biāo)簽對初始預(yù)測mask進(jìn)行約束輸出預(yù)測分割結(jié)果。

        2.2 自適應(yīng)調(diào)控模塊

        在特征提取網(wǎng)絡(luò)中,F(xiàn)PN主要對骨干網(wǎng)絡(luò)提取的各層級特征圖進(jìn)行高層語義信息和低層細(xì)節(jié)信息的融合,用于增強(qiáng)特征圖表達(dá)能力并提高網(wǎng)絡(luò)對不同尺度目標(biāo)的感知能力[31]。低層特征具有優(yōu)秀的細(xì)粒度空間分辨率,包含豐富的細(xì)節(jié)信息特征,但語義信息表征能力弱,更適合檢測小尺度目標(biāo);而高層特征擁有較大感受野,能提取到豐富的語義信息,但特征分辨率低,幾何信息表征能力弱,更適合檢測大尺度目標(biāo)。在本文交通場景數(shù)據(jù)集中,由于車輛、行人等障礙物目標(biāo)距離遠(yuǎn)近容易造成目標(biāo)尺度動態(tài)范圍過大,原有FPN將高低層特征進(jìn)行簡單的線性加權(quán)融合不僅會削弱高層特征圖對大尺度目標(biāo)局部位置信息的感知,還會降低低層特征對小尺度目標(biāo)細(xì)節(jié)信息的提取能力,導(dǎo)致在目標(biāo)大尺度范圍變化下網(wǎng)絡(luò)對前景目標(biāo)的識別能力降低。因此,本文提出自適應(yīng)調(diào)控模塊(Adaptive Regulation Module,ARM),通過動態(tài)調(diào)整FPN不同層級信息貢獻(xiàn)度以強(qiáng)化對目標(biāo)局部位置和整體輪廓的聚焦能力,提高網(wǎng)絡(luò)分割精度,具體結(jié)構(gòu)如圖2所示。

        圖2 自適應(yīng)調(diào)控模塊Fig.2 Adaptive regulation module

        首先,ARM模塊將高層特征XH和低層特征XL經(jīng)1×1卷積操作捕捉空間特征信息并壓縮通道為c,在本文實(shí)驗(yàn)中,c設(shè)置為256。然后,將通道壓縮后的高層特征通過雙線性插值上采樣,使其與XL保持相同分辨率。最后,根據(jù)高低層特征貢獻(xiàn)程度自適應(yīng)賦予權(quán)重參數(shù)α1,α2后進(jìn)行特征融合,其中α1,α2在模型訓(xùn)練過程中,通過網(wǎng)絡(luò)梯度反向傳播不斷學(xué)習(xí),自適應(yīng)調(diào)整和更新以適應(yīng)當(dāng)前的分割任務(wù),最終得到融合特征圖X:

        其中:αi為歸一化權(quán)重,∑αi=1,wi為初始化指數(shù)權(quán)重,wj為特征權(quán)重;(?)表示卷積核為k×k,步長為m的卷積操作;U表示上采樣操作;⊕表示逐元素相加;·表示權(quán)重系數(shù)與特征圖相乘。

        由于高低層特征圖之間的細(xì)粒度和語義信息不同,融合后的特征會造成信息沖突和冗余,削弱特征圖的表達(dá)能力。因此,ARM模塊通過兩個分支L(X)和G(X)來提取通道注意力,增強(qiáng)相關(guān)信息的關(guān)注,減弱不相關(guān)信息的干擾。L(X)采用全局平均池化操作提取全局上下文信息,然后采用1×1卷積將得到的注意力特征進(jìn)行通道縮減,再使用1×1卷積操作進(jìn)行通道還原,實(shí)現(xiàn)特征跨通道信息交互和信息整合,并降低網(wǎng)絡(luò)計算量。G(X)采用兩個1×1卷積進(jìn)行通道信息交互,在不降低特征通道維度情況下建立權(quán)重映射關(guān)系,從而避免特征信息損耗。最終將兩個分支輸出的特征進(jìn)行特征融合,對融合后的特征使用Sigmoid激活函數(shù)進(jìn)行權(quán)重歸一化以濾掉冗余信息,實(shí)現(xiàn)從不同尺度特征中自適應(yīng)選擇分割任務(wù)所需特征信息,生成注意力權(quán)重N(X):

        其中:GAP(?)表示全局平均池化操作;Convn→mk×k表示卷積核為k×k,輸入通道數(shù)為n,輸出通道數(shù)為m的卷積操作;δ表示ReLU激活函數(shù);BN表示批量歸一化操作;⊕表示逐元素相加。

        為了抑制無關(guān)背景噪聲的干擾和防止網(wǎng)絡(luò)性能退化,將Sigmoid函數(shù)生成的注意力權(quán)重N(X)分別與X′H和X′L相乘進(jìn)行加權(quán)融合,最終生成自適應(yīng)融合特征圖Z:

        其中:?表示逐元素相乘。自適應(yīng)調(diào)控融合后的特征圖Z能夠有效強(qiáng)化對目標(biāo)局部位置和整體輪廓的聚焦能力,克服了車輛、行人等目標(biāo)由于距離遠(yuǎn)近造成的尺度動態(tài)范圍過大問題。

        2.3 生成調(diào)控模塊

        CrossVIS將特征提取階段輸出的F4,F(xiàn)5上采樣與F3融合輸入Mask Branch,通過一系列卷積操作生成原型掩膜。然而受限于卷積核尺寸,原有特征提取階段只能有效表征局部信息,導(dǎo)致部分實(shí)例邊緣紋理信息丟失。因此,本文在mask預(yù)測分支基礎(chǔ)上設(shè)計生成調(diào)控模塊(Generating Regulatory Module,GRM),其包含多細(xì)粒度提取模塊和空間信息聚合模塊,采用通道注意力機(jī)制聚合基于不同空洞率提取的多細(xì)粒度空間信息生成權(quán)重參數(shù)以調(diào)控各尺度特征,有效細(xì)化了實(shí)例邊緣輪廓并增強(qiáng)了跨通道信息交互掩碼特征映射表征能力,提高了模型對目標(biāo)的定位精度和邊緣輪廓分割精度,網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

        圖3 生成調(diào)控模塊Fig.3 Generating regulatory module

        圖4 正交損失構(gòu)建Fig.4 Construction of orthogonal loss

        為有效表征不同層級特征實(shí)例邊緣輪廓細(xì)節(jié)信息,本文基于ResNet50與FPN框架提取的F3∈R256×48×80,F(xiàn)4∈R256×24×40,F(xiàn)5∈R256×12×20作為生成調(diào)控模塊的輸入。首先,對輸入各層級特征進(jìn)行3×3卷積將其通道壓縮為128,并對卷積后的高層特征分別進(jìn)行雙線性插值上采樣與低層特征F5保持相同分辨率,然后分別送入多細(xì)粒度提取模塊。具體地,使用3×3卷積進(jìn)行初步特征提取,為了獲取不同細(xì)粒度特征信息減少信息丟失,使用由三個空洞率r=[1,2,5]的空洞卷積并聯(lián)組成的混合空洞卷積(Hybrid Dilation Convolution,HDC)[32]對特征進(jìn)行實(shí)例邊緣輪廓細(xì)節(jié)信息提??;將提取的不同細(xì)粒度特征在通道維度進(jìn)行拼接和混洗,提高通道間信息的流動以增強(qiáng)通道間的關(guān)聯(lián)性,然后使用1×1卷積進(jìn)行通道降維;為防止網(wǎng)絡(luò)性能退化,最后采用殘差結(jié)構(gòu)將輸入特征與提取的輪廓細(xì)節(jié)信息進(jìn)行跳躍連接得到新的特征Fi′∈R128×48×80,在增強(qiáng)特征提取能力的同時,豐富目標(biāo)實(shí)例邊緣輪廓細(xì)節(jié)信息,多細(xì)粒度提取模塊計算公式為:

        其中:AConv(r,n)表示空洞率r=n的空洞卷積;Cat(?)表示在通道維度進(jìn)行拼接;SN(?)表示通道混洗;Fi表示輸入特征;Fi′表示輸出特征;⊕表示逐元素相加。

        為解決卷積神經(jīng)網(wǎng)絡(luò)中各層級和通道間信息價值不等的問題,將由不同空洞率提取的多細(xì)粒度特征輸入空間信息聚合模塊生成權(quán)重參數(shù)以調(diào)控各尺度特征。具體地,首先將各層級特征圖F3′,F(xiàn)4′,F(xiàn)5′在通道維度進(jìn)行拼接生成新的特征F′∈R384×48×80。然后,采用擠壓與激勵(Squeeze and Excitation)[30]操作計算特征F?的通道注意力,增強(qiáng)關(guān)鍵通道信息并抑制無關(guān)冗余信息,提高網(wǎng)絡(luò)對特征可分辨性。具體地,首先將拼接后的特征F′進(jìn)行擠壓操作,即對F?進(jìn)行全局平均池化將全局信息壓縮,建立不同通道間的相互依存關(guān)系,得到特征向量T∈R384×1×1。然后,為自動獲取每個特征通道重要程度,并抑制對當(dāng)前任務(wù)用處不大的低效或無效的通道信息,將池化后的特征經(jīng)兩個1×1卷積操作完成特征激勵,為有效降低計算量,通道壓縮比例設(shè)置為r=4。最后使用Sigmoid函數(shù)生成各通道權(quán)重Z∈R384×1×1,并與原特征Fi′相乘得到特征圖U∈R384×48×80:

        為進(jìn)一步捕捉不同尺度特征信息對分割任務(wù)的重要性,通過1×1卷積操作壓縮各尺度特征信息U通道數(shù)為3,利用Softmax函數(shù)進(jìn)行空間信息權(quán)重歸一化,得到權(quán)重矩陣W∈R3×48×80,然后權(quán)重矩陣在通道方向進(jìn)行分割,以此生成特征重要性權(quán)重參數(shù)λ,γ,α∈R1×48×80以調(diào)控各尺度特征,權(quán)重參數(shù)與各尺度特征相乘后得到新的特征L∈R128×48×80:

        最后,將整合后的特征L再次送入多細(xì)粒度提取模塊,通過擴(kuò)大感受野增強(qiáng)特征全局信息和細(xì)粒度信息提取能力,進(jìn)一步提升網(wǎng)絡(luò)模型分割精度。

        2.4 弱監(jiān)督損失構(gòu)建

        2.4.1 正交損失約束

        基于邊界框的弱監(jiān)督實(shí)例分割模型,用于網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)的真實(shí)值僅為邊界框標(biāo)注信息。BoxInst[27]為確保覆蓋生成預(yù)測mask最小外接框與真實(shí)邊界框相匹配而提出的正交損失函數(shù),通過邊界框標(biāo)注信息監(jiān)督預(yù)測mask水平和垂直投影,縮小模型預(yù)測mask與真實(shí)邊界框的偏差,具體操作如下:

        首先,假設(shè)訓(xùn)練圖像尺寸為W×H,用于網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)的真實(shí)邊界框左上角和右下角坐標(biāo)分別為(x1,y1)和(x2,y2)。然后,對訓(xùn)練圖像建立橫向真實(shí)行矩陣Xgt∈R1×W和縱向真實(shí)值列矩陣Ygt∈RH×1,令行矩陣Xgt的x1至x2位置所對應(yīng)元素全為1,其余位置元素均為0,列矩陣Ygt的y1至y2位置對應(yīng)元素為1,其余位置元素均為0。最后,假設(shè)S∈(0,1)H×W為網(wǎng)絡(luò)預(yù)測mask,S表示該像素點(diǎn)是前景目標(biāo)的概率。計算預(yù)測mask分?jǐn)?shù)每行和每列最大值Sn∈(0,1),組成列矩陣Ypre∈RH×1和行矩陣Xpre∈RW×1。為了使預(yù)測的mask趨近真實(shí)mask,應(yīng)使網(wǎng)絡(luò)預(yù)測mask與真實(shí)邊界框在軸X,Y軸投影盡可能接近。因此,定義正交損失Lx,Ly如下:

        最后,將X軸和Y軸方向的損失相加得到正交損失Lpre=Lx+Ly。

        2.4.2 顏色相似性損失

        僅通過正交損失對初始預(yù)測mask的約束,可以初步提高預(yù)測mask質(zhì)量,但存在多個mask投影到同一真實(shí)邊界框,導(dǎo)致預(yù)測mask質(zhì)量和精細(xì)化程度下降。受啟發(fā)于顏色相似的相鄰像素間屬于同類別概率較高,引入顏色相似性損失對預(yù)測mask進(jìn)一步約束。在實(shí)例分割領(lǐng)域中,利用像素顏色差異可以對復(fù)雜背景中的目標(biāo)對象進(jìn)行有效區(qū)分,若像素間顏色相似性較高,則這些像素較大概率具有相同實(shí)例標(biāo)簽。因此,通過確定顏色相似性閾值τ,當(dāng)某兩個像素點(diǎn)顏色相似性高于τ,則它們標(biāo)簽相同的概率較高,由此引入顏色相似性[27]:

        其中:si,j,sl,k為像素點(diǎn)(i,j)和(l,k)的顏色信息,e表示像素點(diǎn)(i,j)和(l,k)之間的連線,Ce表示(i,j)和(l,k)的顏色相似度,θ是一個超參數(shù),本文設(shè)置為2,τ值本文設(shè)置為0.3。

        為構(gòu)建顏色相似性損失函數(shù),在圖像上建立一個無向圖G=(V,E),其中V表示圖像中所有像素點(diǎn)的集合,E表示代表圖像中兩像素點(diǎn)連線的集合。在計算像素間兩兩相似性時,采取隔像素采樣的方法以增大感受野,將每個像素同時與周圍8個相鄰點(diǎn)計算顏色相似性,示意圖如圖5所示。

        圖5 顏色相似性損失構(gòu)建Fig.5 Construction of color similarity loss

        定義ye∈(0,1)為邊e的標(biāo)簽,當(dāng)Ce>τ時,ye=1,表示邊緣連接的兩像素具有相同的標(biāo)簽,否則ye=0,表示兩個像素點(diǎn)標(biāo)簽不同。設(shè)像素(i,j)和(l,k)為邊緣的兩個端點(diǎn),網(wǎng)絡(luò)預(yù)測pi,j可以看作像素(i,j)為前景的概率,則ye=1和ye=0的概率分別表示為:

        因此,顏色相似性損失函數(shù)為:

        其中:Ein表示框中至少包含一個像素的邊的集合,使用Ein代替E可以防止損失被框外無效像素控制,N是Ein的邊數(shù)。當(dāng)ye=0時,該邊的標(biāo)簽未知,容易對網(wǎng)絡(luò)造成錯誤的監(jiān)督,所以在損失中丟棄(1-ye)logP(ye=0)一項(xiàng),結(jié)合顏色相似性約束,最終損失函數(shù)為:

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集的建立

        本文在Youtube-VIS2019數(shù)據(jù)集基礎(chǔ)上抽取了交通場景中常見的人、摩托車、滑板、轎車、卡車、火車、狗七個類別目標(biāo)作為本文數(shù)據(jù)集,其中訓(xùn)練集329個視頻片段,總幀數(shù)7 212幀包含603個實(shí)例,驗(yàn)證集53個視頻片段,總幀數(shù)1 097幀包含88個實(shí)例。本文在訓(xùn)練過程中僅使用訓(xùn)練集中的邊界框標(biāo)簽和類別標(biāo)簽對網(wǎng)絡(luò)進(jìn)行監(jiān)督訓(xùn)練,而測試集使用與全監(jiān)督數(shù)據(jù)集一致像素級標(biāo)簽、邊界框標(biāo)簽和類別標(biāo)簽對網(wǎng)絡(luò)模型定量分析。

        3.2 實(shí)驗(yàn)配置

        本文實(shí)驗(yàn)平臺為Ubuntu18.04操作系統(tǒng),CPU為Intel(R) Core(TM) i9-10400F處理器,GPU為NVIDIA GTX 3060顯卡,顯存為12GB的計算機(jī)。深度學(xué)習(xí)框架為pytorch1.8.0,python版本為3.7、采用CUDA11.1和cuDNN8.0.5加速網(wǎng)絡(luò)模型訓(xùn)練。

        實(shí)驗(yàn)過程中,將輸入圖像尺寸統(tǒng)一為360×640并將批處理尺寸(Batch Size)設(shè)置為4。在訓(xùn)練階段初始學(xué)習(xí)率設(shè)置為0.000 5、迭代次數(shù)為12Epoch,每個Epoch輸出一個模型權(quán)重,對最后的訓(xùn)練模型的精度和推理速度綜合比較后選出最優(yōu)模型。

        3.3 評價指標(biāo)

        本文使用平均精度(Average Precision,AP)和平均召回率(Average Recall,AR)作為網(wǎng)絡(luò)模型的評價指標(biāo),而在實(shí)例分割任務(wù)中,常以預(yù)測值與真實(shí)值的交并比IoU(Intersection over Union,IoU)來確定算法的評價指標(biāo)AP和AR值。視頻例分割中IoU的定義與圖像實(shí)例分割有所不同,較為注重相同實(shí)例在時序上空間位置的關(guān)聯(lián)情況。給定一個視頻序列的真實(shí)掩膜mi…j和預(yù)測掩膜其中i,j代表時序信息。假如在t幀靜態(tài)圖像中沒有出現(xiàn)目標(biāo)實(shí)例,那么利用空白掩膜對該幀信息進(jìn)行填補(bǔ),具體可表示為mt=0或=0,即把IoU從圖像擴(kuò)展到視頻序列,視頻實(shí)例分割I(lǐng)oU計算公式如式(18)所示:

        其中:a和b分別表示為某個實(shí)例的真實(shí)值和預(yù)測值。

        求得IoU之后,按照0.05的增量在0.50至0.95區(qū)間取值10個IoU作為閾值,AP為這10個閾值下對應(yīng)的平均精度的均值,AP(50)和AP(75)分別表示IoU閾值為50%和75%時的平均精度,AP值越大表示視頻實(shí)例分割效果越好;召回率AR表示真實(shí)分割結(jié)果的所有目標(biāo)像素中被分割出來的目標(biāo)像素所占的比例,主要衡量模型預(yù)測正樣本的能力,其中AR1表示每幀圖像按照IoU由高到低選取1個結(jié)果計算平均召回率,AR10表示每幀圖像按照IoU由高到低選取10個結(jié)果計算平均召回率。相關(guān)計算公式如下:

        其中:TP表示正確檢測為正樣本的個數(shù),F(xiàn)P表示誤檢為正樣本的個數(shù),F(xiàn)N表示漏檢為正樣本的個數(shù)。

        3.4 實(shí)驗(yàn)結(jié)果與定量分析

        3.4.1 自適應(yīng)調(diào)控實(shí)驗(yàn)分析

        本節(jié)根據(jù)是否自適應(yīng)更新權(quán)重參數(shù)以及權(quán)重是否歸一化將自適應(yīng)調(diào)控模塊設(shè)計為3類,分別為對FPN中高低層特征賦予常量α1和α2的權(quán)重平衡模型(Weight Balance Model,WBM)、對高低層特征賦予初始化為1的自適應(yīng)權(quán)重未歸一化模型(Weight Unnormalization Model,WUM)和初始化為1的自適應(yīng)權(quán)重歸一化模型(Weight Normalization Madel,WNM),并對三類模型進(jìn)行實(shí)驗(yàn),其實(shí)驗(yàn)結(jié)果如表1所示。

        表1 不同權(quán)重實(shí)驗(yàn)結(jié)果對比Tab.1 Comparison of experimental results with different weights

        從表1可知,WBM將高低層特征賦予常量α1和α2的權(quán)重,由于高低層特征對網(wǎng)絡(luò)分割任務(wù)的貢獻(xiàn)度不等,人為賦值權(quán)重α1和α2需要大量調(diào)參實(shí)驗(yàn)才能取得最優(yōu)解,當(dāng)人為賦值α1=1,α2=0.25時,網(wǎng)絡(luò)平均分割精度為34.8%,相較于Box-CrossVIS基準(zhǔn)提升了1.8%。WUM由于自適應(yīng)生成的權(quán)重參數(shù)未進(jìn)行歸一化處理,會導(dǎo)致權(quán)重參數(shù)過大引起網(wǎng)絡(luò)梯度爆炸,平均分割精度為33.4%,較Box-CrossVIS提升了0.4%。WNM將自適應(yīng)權(quán)重進(jìn)行歸一化處理,使模型根據(jù)數(shù)據(jù)特征分布來自行決定特征權(quán)重,強(qiáng)化了對目標(biāo)局部位置和整體輪廓的聚焦能力,在自適應(yīng)調(diào)控模塊中平均分割精度達(dá)到最高35.6%,較Box-CrossVIS提升了2.6%。因此本文選擇初始化為1的自適應(yīng)權(quán)重歸一化模型WNM作為自適應(yīng)調(diào)控模塊的最終模型。

        為解釋自適應(yīng)調(diào)控模塊的工作機(jī)理以及對最終分割結(jié)果的有效性,本文對特征金字塔網(wǎng)絡(luò)的最低層特征F3進(jìn)行熱力圖可視化分析。熱力圖可以直觀反映模型在圖像上的關(guān)注區(qū)域,熱力圖內(nèi)顏色越深,表明模型對該區(qū)域的關(guān)注程度越高。如圖6所示(彩圖見期刊電子版),(a)為模型輸入的原圖像、(b)和(c)分別為Box-CrossVIS基準(zhǔn)網(wǎng)絡(luò)和嵌入ARM模塊后的熱力映射圖。圖(b)中紅色高亮感興趣區(qū)域除了集中在前景目標(biāo)上之外,還擴(kuò)散到背景目標(biāo)上,對分割任務(wù)存在一定的干擾。圖(c)中紅色高亮區(qū)域明顯集中于需要精確分割的前景目標(biāo)上,并對背景進(jìn)行抑制,引導(dǎo)網(wǎng)絡(luò)在特征提取過程中重點(diǎn)關(guān)注目標(biāo)實(shí)例特征信息,明顯地減少了無關(guān)區(qū)域的特征權(quán)重占比。說明嵌入自適應(yīng)調(diào)控模塊后,網(wǎng)絡(luò)能有效學(xué)到感興趣區(qū)域信息,并對前景重要目標(biāo)特征予以關(guān)注,增強(qiáng)了網(wǎng)絡(luò)分割效果。3.4.2 生成調(diào)控模塊實(shí)驗(yàn)分析

        圖6 熱力圖可視化對比Fig.6 Visual Comparison of heat map

        為獲取最佳的多層級特征細(xì)粒度空間信息聚合效果,實(shí)驗(yàn)中對特征提取階段輸出的5個特征層按逐層遞增順序進(jìn)行了不同尺度的融合實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。

        結(jié)果表明,當(dāng)生成調(diào)控模塊對輸入特征F3和F4進(jìn)行聚焦融合時,模型平均分割精度為34.9%,較基準(zhǔn)網(wǎng)絡(luò)Box-CrossVIS提升1.9%。當(dāng)生成調(diào)控模塊對輸入特征F6和F7聚焦融合時,模型平均分割精度僅為17.6%,較基準(zhǔn)網(wǎng)絡(luò)Box-CrossVIS降低15.4%。當(dāng)輸入的特征圖層數(shù)為3時,F(xiàn)3,F(xiàn)4和F5三個特征層聚合多細(xì)粒度空間信息生成權(quán)重參數(shù)以調(diào)控各尺度特征(GRM)取得了最好的分割效果,模型平均分割精度達(dá)到35.6%,較基準(zhǔn)網(wǎng)絡(luò)Box-CrossVIS提升2.6%。當(dāng)輸入特征圖層數(shù)為3和4時,模型平均分割精度分別為34.6%和34.2%,相較于基準(zhǔn)Box-CrossVIS分割精度分別提升1.6%和1.2%。綜上所述,當(dāng)生成調(diào)控模塊對輸入特征F3,F(xiàn)4或F3,F(xiàn)4和F5進(jìn)行聚焦融合時,模型平均分割精度均有不同程度的提升,但隨著高層特征F6和F7的加入,模型平均分割精度隨層數(shù)增加有所降低,且當(dāng)生成調(diào)控模塊僅聚焦融合高層特征F6和F7時,模型平均分割精度有較大降低。充分說明低層特征F3,F(xiàn)4,F(xiàn)5對邊界輪廓特征信息貢獻(xiàn)度較大,而高層F6,F(xiàn)7對邊界輪廓特征信息貢獻(xiàn)度偏低。

        為了更直觀突顯生成調(diào)控模塊在交通場景視頻序列中對障礙物實(shí)例邊緣細(xì)節(jié)信息提取的有效性,本文選擇對mask預(yù)測分支的輸入特征圖進(jìn)行可視化分析??紤]到該特征包含128個通道維度,分別提取Box-CrossVIS基準(zhǔn)模型與嵌入GRM模塊后模型的第一層通道特征進(jìn)行可視化分析以保證對比條件的一致性,引入GRM模塊前后特征圖可視化對比結(jié)果如圖7所示。從圖(b)可視化結(jié)果可以看出,Box-CrossVIS提取的特征圖實(shí)例邊緣輪廓粗糙,前景與背景對比度不明顯,而從圖(c)可以看出,嵌入生成調(diào)控模塊后,模型對前景目標(biāo)實(shí)例的邊緣輪廓特征提取能力明顯高于基準(zhǔn)模型,增大了背景與前景的反差對比度,優(yōu)化了模型對目標(biāo)邊緣輪廓的定位準(zhǔn)確性,有效減少圖像邊緣信息丟失。結(jié)果表明生成調(diào)控模塊可以通過注意力機(jī)制聚合基于不同空洞卷積率提取的多細(xì)粒度空間信息,細(xì)化了實(shí)例邊緣輪廓,有效彌補(bǔ)邊緣輪廓分割mask連續(xù)性缺失,提高了本文算法的分割精度。

        圖7 特征圖可視化結(jié)果Fig.7 Visualization of characteristic image

        3.4.3 不同網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果對比

        考慮到弱監(jiān)督視頻實(shí)例分割相關(guān)工作較少,本文選擇全監(jiān)督網(wǎng)絡(luò)YolactEdge,STMask,CrossVIS與本文模型做對比,以客觀評價SAGRNet模型對交通場景障礙物識別分割任務(wù)的優(yōu)越性。為保證驗(yàn)證結(jié)果有效性和公平性,對比實(shí)驗(yàn)均在同一設(shè)備上開展且使用同一數(shù)據(jù)集,算法性能對比如表3所示。

        表3 不同模型的實(shí)驗(yàn)結(jié)果對比Tab.3 Comparison of experimental results of different models

        結(jié)果表明,本文模型SAGRNet平均分割精度最高達(dá)到38.1%,較弱監(jiān)督Box-CrossVIS基準(zhǔn)網(wǎng)絡(luò)分割精度提升5.1%,較全監(jiān)督網(wǎng)絡(luò)YolactEdge分割精度提升2.1%,但平均分割速度降低了11FPS;與全監(jiān)督網(wǎng)絡(luò)CrossVIS和STMask網(wǎng)絡(luò)相比,分割精度分別降低僅2.5%和1.9%,但數(shù)據(jù)集的標(biāo)注成本卻有大幅度降低。綜上所述,本文算法能在弱監(jiān)督條件下取得與部分全監(jiān)督網(wǎng)絡(luò)相當(dāng)?shù)姆指钚Ч?,?yàn)證了本文改進(jìn)算法SAGRNet的優(yōu)越性。

        3.4.4 SAGRNet消融實(shí)驗(yàn)

        為驗(yàn)證各改進(jìn)模塊在交通場景數(shù)據(jù)集中針對目標(biāo)障礙物的有效分割,本文以弱監(jiān)督Box-CrossVIS算法為基準(zhǔn),分別與添加了本文ARM和GRM模塊的不同網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)對比,實(shí)驗(yàn)結(jié)果如表4所示。

        表4 消融實(shí)驗(yàn)結(jié)果Tab.4 Result of ablation experiments

        由表4可知,弱監(jiān)督Box-CrossVIS算法平均分割基準(zhǔn)精度為33.0%。首先,在FPN融合路徑嵌入ARM模塊,改進(jìn)了網(wǎng)絡(luò)高低層特征融合方式,解決了多尺度信息直接融合效率低下的問題。結(jié)果表明,嵌入ARM模塊后在平均分割速度保持不變的情況下,平均分割精度達(dá)到35.6%;其次,在mask預(yù)測分支前添加GRM模塊,通過注意力機(jī)制聚合基于不同空洞率提取的多細(xì)粒度空間信息進(jìn)行多尺度特征調(diào)控,以有效彌補(bǔ)實(shí)例邊緣信息匱乏導(dǎo)致的邊緣輪廓分割mask連續(xù)性缺失問題,分割精度達(dá)到35.6%;最后,將兩種方法組合使用,以38.1%的平均分割精度達(dá)到最優(yōu)結(jié)果,以上模塊比Box-CrossVIS基準(zhǔn)分別提升了2.6%,2.6%和5.1%,驗(yàn)證了本文算法有效性。

        3.4.5 實(shí)驗(yàn)平臺搭建與驗(yàn)證

        由上述對比實(shí)驗(yàn)可知,在交通場景數(shù)據(jù)集上,本文提出的算法能夠有效提高模型對障礙物目標(biāo)的識別和分割精度。為有效驗(yàn)證SAGRNet算法在交通場景中應(yīng)用的可行性,本文基于輔助駕駛小車獲取復(fù)雜交通場景下的視頻數(shù)據(jù),并與CrossVIS,Box-CrossVIS算法進(jìn)行對比驗(yàn)證。該輔助駕駛小車搭載激光雷達(dá)、毫米波、GPS和攝像機(jī)等設(shè)備,其中獲取視頻數(shù)據(jù)所使用的攝像頭型號為1080P(SP5268),最大分辨率為1 920×1 080,網(wǎng)絡(luò)分割可視化結(jié)果如圖8所示。對比(a1),(a2)分割結(jié)果,CrossVIS網(wǎng)絡(luò)生成的mask質(zhì)量優(yōu)秀,邊緣輪廓清晰,而對于僅使用邊界框進(jìn)行訓(xùn)練的弱監(jiān)督Box-CrossVIS算法,由于監(jiān)督信息減弱導(dǎo)致網(wǎng)絡(luò)難以準(zhǔn)確地挖掘和定位目標(biāo)實(shí)例,造成分割實(shí)例存在邊緣輪廓粗糙、不連續(xù)等問題。在(a3)中本文算法SAGRNet通過聚合基于不同空洞率提取的多細(xì)粒度空間信息改善了實(shí)例邊緣紋理信息丟失的問題,實(shí)現(xiàn)了對目標(biāo)實(shí)例的準(zhǔn)確定位與分割。在(b1),(b2)視頻序列中,均存在行人不完全分割、過分割的問題,在(b3)中由于自適應(yīng)調(diào)控模塊強(qiáng)化了對目標(biāo)局部位置和整體輪廓的聚焦能力,提高了網(wǎng)絡(luò)對目標(biāo)實(shí)例的捕捉能力。綜上所述,本文模型SAGRNet相比于Box-CrossVIS而言能更好適應(yīng)交通場景大尺度動態(tài)范圍目標(biāo)的分割問題,有效降低模型的誤檢率和漏檢率,有更高的檢測分割精度以及更好的魯棒性。

        圖8 分割結(jié)果可視化Fig.8 Visualization of segmentation results

        4 結(jié) 論

        本文針對輔助駕駛車輛對復(fù)雜交通場景下多目標(biāo)感知和場景理解的需求,提出一種自適應(yīng)生成調(diào)控弱監(jiān)督視頻實(shí)例分割算法SAGRNet。首先,引入正交損失和顏色相似性損失代替CrossVIS實(shí)例mask分割損失,利用邊界框信息監(jiān)督網(wǎng)絡(luò)訓(xùn)練,實(shí)現(xiàn)基于邊界框的弱監(jiān)督視頻實(shí)例分割Box-CrossVIS;其次,引入自適應(yīng)調(diào)控模塊強(qiáng)化對目標(biāo)局部位置和整體輪廓的聚焦能力,增強(qiáng)網(wǎng)絡(luò)對不同尺度變化情況下前景目標(biāo)的感知能力;最后,設(shè)計生成調(diào)控模塊聚合多細(xì)粒度空間信息,彌補(bǔ)邊緣輪廓分割mask連續(xù)性缺失問題。經(jīng)實(shí)驗(yàn)驗(yàn)證,本文算法能有效提高輔助駕駛車輛對復(fù)雜交通場景下多目標(biāo)障礙物的檢測和分割精度,平均分割精度達(dá)到38.1%,較Box-CrossVIS模型提高5.1%,且在2080Ti上最高分割速度可達(dá)36 FPS,能夠滿足實(shí)時檢測分割需求。此外,本文還搭建了輔助駕駛小車實(shí)驗(yàn)平臺驗(yàn)證本文算法的可行性。

        盡管已經(jīng)取得了顯著的進(jìn)展,本文算法仍存在進(jìn)步空間。一方面,輔助駕駛車輛在交通場景下自主行駛時捕獲的障礙物目標(biāo)普遍存在相互遮擋的情況,嚴(yán)重的遮擋會帶來易混淆的遮擋邊界及非連續(xù)自然的物體形狀,影響網(wǎng)絡(luò)對物體整體結(jié)構(gòu)的判斷,出現(xiàn)欠分割或錯分現(xiàn)象,網(wǎng)絡(luò)抗干擾能力有待提高;另一方面,本文算法僅依靠邊界框信息對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,由于監(jiān)督信息的減弱會面臨局部聚焦,難以準(zhǔn)確地挖掘和定位所有目標(biāo)實(shí)例等問題。因此,在正交損失和顏色相似性損失的基礎(chǔ)上,通過引入光流等相關(guān)技術(shù)獲取視頻序列中的外觀和運(yùn)動信息對初始預(yù)測mask進(jìn)一步約束,縮小視覺弱監(jiān)督學(xué)習(xí)與全監(jiān)督學(xué)習(xí)的性能差異,并將其應(yīng)用于實(shí)際的視覺理解應(yīng)用,仍然是未來視覺弱監(jiān)督視頻實(shí)例分割研究的重點(diǎn)。

        猜你喜歡
        特征信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        国产极品视觉盛宴在线观看| 色婷婷一区二区三区四| 久久综合激情的五月天| 图片小说视频一区二区| 成人爽a毛片在线视频| 综合网在线视频| 91超碰在线观看免费| 亚洲第一女人天堂av| 日韩一区在线精品视频| 香蕉人人超人人超碰超国产| 国产成人精品精品欧美| 美女极度色诱视频国产免费| 精品婷婷国产综合久久| 亚洲av永久无码精品漫画| 成人小说亚洲一区二区三区| 亚洲片在线视频| 尤物精品国产亚洲亚洲av麻豆| 久久婷婷五月国产色综合| 亚洲不卡av不卡一区二区| 久久精品国产亚洲av成人擦边| 国产美女一区三区在线观看| 少妇高潮av久久久久久| 嗯啊哦快使劲呻吟高潮视频| 欧美人与动牲交片免费| 久久精品国产亚洲av麻豆床戏| 亚洲乱码一区av春药高潮| 日韩少妇内射免费播放| 久久亚洲国产成人亚| 亚洲成人av在线播放不卡| 亚洲精品无码专区在线在线播放| 欧美综合自拍亚洲综合图片区| 精品丝袜国产在线播放| 青青青免费在线视频亚洲视频 | 中文精品久久久久人妻不卡| 欧美疯狂做受xxxxx高潮| 杨幂国产精品一区二区| 日韩三级一区二区三区| 久久aⅴ人妻少妇嫩草影院| 精品亚洲少妇一区二区三区| 日韩一二三四区在线观看| 国产欧美日韩一区二区三区|