亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        尺度自適應生成調控的弱監(jiān)督視頻實例分割

        2023-09-27 07:22:14張印輝海維琪何自芬黃瀅陳東東
        光學精密工程 2023年18期
        關鍵詞:實例卷積精度

        張印輝, 海維琪, 何自芬, 黃瀅, 陳東東

        (昆明理工大學 機電工程學院,云南 昆明 650000)

        1 引 言

        近年來,輔助駕駛領域中對車輛周圍復雜環(huán)境多目標感知和場景理解技術成為研究的重點方向?,F(xiàn)階段,針對輔助駕駛車輛環(huán)境感知技術包括激光雷達(Lidar)[1-4]、全球導航衛(wèi)星系統(tǒng)(Global Navigation Satellite System, GNSS)[5-7]和慣性測量單元(Inertial Measurement Unit,IMU)[8]以及計算機視覺卷積神經網絡(Convolutional Neural Networks,CNN)[9-11]等技術。其中全球導航衛(wèi)星系統(tǒng)和慣性測量單元往往只用于定位,而激光雷達和計算機視覺既可用于定位也可用于識別,但激光雷達成本高,且無法給出跟蹤目標的類別和尺寸信息?;谟嬎銠C視覺的實例分割技術具備對復雜環(huán)境進行實時感知的強大能力且成本較低,被廣泛應用于輔助駕駛視覺識別系統(tǒng),實現(xiàn)輔助駕駛車輛對周圍障礙物的精準識別。

        實例分割技術可分為圖像實例分割和視頻實例分割兩個方向。其中圖像實例分割[12-15]針對單幀圖像進行實例分類、檢測和分割;視頻實例分割[16-20]以圖像實例分割為基礎,對不同幀中同一實例進行跨幀關聯(lián)追蹤,以時間序列形式獲得各實例的分割掩膜及檢測結果。目前基于深度學習的視頻實例分割方法主要包括基于全監(jiān)督和弱監(jiān)督學習兩類模型,在全監(jiān)督學習中,Mask-Track R-CNN[16]在圖像實例分割Mask RCNN[12]頭部基礎上添加跟蹤分支關聯(lián)不同幀之間的目標實例,最先實現(xiàn)幀級實例同時檢測、跟蹤和分割,并在提出的Youtube-VIS2019[16]數(shù)據(jù)集驗證模型有效性,但結合單幀圖像分割和傳統(tǒng)方法進行跟蹤關聯(lián),忽略了關鍵的時間信息,導致網絡分割精度低。Maskprop[21]在MaskTrack R-CNN基礎上添加mask傳播分支,將中間幀目標實例mask傳播到視頻其他幀以提升mask生成和關聯(lián)質量,在使用較少標簽數(shù)據(jù)進行預訓練的情況下,在Youtube-VIS數(shù)據(jù)集上分割精度達到46.6%,比MaskTrack R-CNN高16.3%,但由于MaskProp采用離線學習方式導致模型占用內存大且分割時效性差。為克服檢測到跟蹤多階段分割范式處理速度較慢且不利于發(fā)揮視頻時序連續(xù)性的優(yōu)勢,STEm-Seg[22]采用三維卷積和高斯混合來改善時空嵌入特征表示,提升挖掘視頻整體的空間和時序信息提取能力,且以較快的速度解決視頻實例分割的問題。然而,該方法獲得的實例嵌入特征僅包含像素級高斯后驗概率估計,缺乏視頻數(shù)據(jù)目標實例時變的高級上下文抽象和統(tǒng)計特征,極大限制了STEm-Seg算法的分割魯棒性。CrossVIS[23]提出一種新的交叉學習方案,基于當前幀中的實例特征,以像素方式定位其他視頻幀中相同實例,有效利用視頻中固有的上下文信息來增強跨視頻幀的實例表示,同時削弱背景和無關實例信息,顯著提高了網絡分割精度。但上述基于全監(jiān)督學習的視頻實例分割技術對目標真實值像素級標注具有很強的依賴性,因此冗長的視頻序列樣本導致大量的人工精細化標注成本劇增。

        目前基于邊界框的弱監(jiān)督實例分割方法僅將實例邊界框坐標及類別信息作為真實值進行網絡約束學習,極大節(jié)省人工標注成本[24]。Hsu等人[25]提出BBTP(Bounding Box Tightness Prior)方法將弱監(jiān)督實例分割問題視為多示例學習任務,以真實邊界框為界限區(qū)分前景與背景,結合MIL loss和DenseCRF對偽mask進一步優(yōu)化,然而僅以邊界框約束像素歸類可能導致邊界框內mask質量下降。Wang[26]等人基于BoxCaseg預訓練模型生成偽標簽,并通過邊界框標簽約束偽標簽邊界,最后用于代替Mask R-CNN實例分割模型訓練過程中人工標注值,但受限于指定實例分割預訓練模型難以適配現(xiàn)有視頻實例分割網絡。Tian等人[27]提出BoxInst方法,通過構建投影損失和顏色相似性損失函數(shù)替換CondInst[28]中mask分割損失,顯著縮小了弱監(jiān)督和全監(jiān)督實例分割之間的性能差距。弱監(jiān)督視頻實例分割僅使用邊界框對網絡進行訓練嚴重制約了交通場景大尺度動態(tài)范圍目標分割精度的問題。

        為實現(xiàn)輔助駕駛車輛對周圍復雜環(huán)境的多尺度動態(tài)目標精準感知和場景理解,以及節(jié)省訓練所需人工精細化標注成本,本文設計了一種基于尺度自適應生成調控弱監(jiān)督視頻實例分割算法(Scale Adaptive Generation Regulation,SAGRNet)。首先針對全監(jiān)督網絡對目標真實值像素級標注具有很強的依賴性,冗長的視頻序列樣本導致大量的人工精細化標注成本劇增的問題,本文引入正交損失函數(shù)和顏色相似性損失函數(shù)代替全監(jiān)督CrossVIS網絡實例mask分割損失,僅利用邊界框標簽對初始預測mask進行聯(lián)合訓練,實現(xiàn)了基于邊界框的弱監(jiān)督視頻實例分割算法Box-CrossVIS,并以此作為本文的基準網絡。其次,在特征金字塔(Feature Pyramid Networks,F(xiàn)PN)[29]自上而下融合路徑嵌入多尺度特征映射貢獻度動態(tài)自適應調控模塊,通過動態(tài)調整不同尺度特征映射信息貢獻度以強化對目標局部位置和整體輪廓的聚焦能力,增強網絡對前景目標多尺度變化情況下的識別感知能力。最后,在mask預測分支前添加目標實例多細粒度空間信息聚合生成調控模塊,采用通道注意力機制[30]聚合基于不同空洞率提取的多細粒度空間信息生成權重參數(shù)以調控各尺度特征,有效細化實例邊緣輪廓并增強跨通道信息交互掩碼特征映射表征能力。SAGRNet算法在Youtube-VIS2019提取的交通場景數(shù)據(jù)集上進行綜合實驗,平均分割精度達到38.1%,且在2080Ti上最高分割速度可達36 FPS,為車輛輔助駕駛實現(xiàn)實時多目標感知和實例級場景理解提供了有效算法依據(jù)。

        2 本文算法

        2.1 SAGRNet網絡結構

        SAGRNet網絡包含特征提取和后處理兩個階段,其網絡結構如圖1所示。在特征提取階段,首先將視頻t和t+δ幀圖像輸入到ResNet50提取語義特征{C1,C2,C3,C4,C5}。其次,利用FPN增強上下文多尺度目標特征信息提取能力,通過自頂向下和橫向連接融合方式為低層特征引入豐富的高層語義信息,得到特征圖{P3,P4,P5}。為解決由于距離變化造成交通場景中車輛和行人等障礙物目標尺度動態(tài)范圍擴大問題,本文在FPN融合路徑嵌入自適應調控模塊,動態(tài)調整不同尺度特征映射信息貢獻度以強化對不同尺度目標的感知識別能力。最后,將FPN輸出特征經3×3卷積操作,并將得到的最高層特征進行2倍下采樣操作,最終得到特征圖{F3,F(xiàn)4,F(xiàn)5,F(xiàn)6,F(xiàn)7}。在特征后處理階段,首先將特征提取階段輸出的各尺度特征分別輸入Mask Branch和Controller Head分支。其中Mask Branch用于生成實例mask預測的Fmask特征,并結合相對位置信息Coord拼接生成實例mask特征圖;Controller Head用于生成實例特定動態(tài)濾波器θx,y(t),θx′,y′(t+δ),并預測該位置實例動態(tài)條件卷積MaskHead的參數(shù)。針對實例邊緣輪廓分割不完整、質量粗糙的問題,本文在mask預測分支前添加生成調控模塊以細化實例邊界并實現(xiàn)特征跨通道信息交互增強掩碼特征映射表征能力,提高網絡對實例邊緣輪廓的分割能力。然后,將生成的mask特征圖和動態(tài)濾波器交叉輸入條件卷積MaskHead生成靜態(tài)和交叉動態(tài)mask。t幀和t+δ幀圖像生成的靜態(tài)實例mask可表示為:

        圖1 SAGRNet網絡結構Fig.1 SAGRNet Network Structure

        t幀和t+δ幀圖像生成的交叉動態(tài)實例mask可表示為:

        其中,Maskhead由三個卷積層組成,以實例為條件動態(tài)生成卷積參數(shù)。最后,引入正交損失和顏色相似性損失函數(shù)代替全監(jiān)督CrossVIS網絡實例mask分割損失,利用邊界框標簽對初始預測mask進行約束輸出預測分割結果。

        2.2 自適應調控模塊

        在特征提取網絡中,F(xiàn)PN主要對骨干網絡提取的各層級特征圖進行高層語義信息和低層細節(jié)信息的融合,用于增強特征圖表達能力并提高網絡對不同尺度目標的感知能力[31]。低層特征具有優(yōu)秀的細粒度空間分辨率,包含豐富的細節(jié)信息特征,但語義信息表征能力弱,更適合檢測小尺度目標;而高層特征擁有較大感受野,能提取到豐富的語義信息,但特征分辨率低,幾何信息表征能力弱,更適合檢測大尺度目標。在本文交通場景數(shù)據(jù)集中,由于車輛、行人等障礙物目標距離遠近容易造成目標尺度動態(tài)范圍過大,原有FPN將高低層特征進行簡單的線性加權融合不僅會削弱高層特征圖對大尺度目標局部位置信息的感知,還會降低低層特征對小尺度目標細節(jié)信息的提取能力,導致在目標大尺度范圍變化下網絡對前景目標的識別能力降低。因此,本文提出自適應調控模塊(Adaptive Regulation Module,ARM),通過動態(tài)調整FPN不同層級信息貢獻度以強化對目標局部位置和整體輪廓的聚焦能力,提高網絡分割精度,具體結構如圖2所示。

        圖2 自適應調控模塊Fig.2 Adaptive regulation module

        首先,ARM模塊將高層特征XH和低層特征XL經1×1卷積操作捕捉空間特征信息并壓縮通道為c,在本文實驗中,c設置為256。然后,將通道壓縮后的高層特征通過雙線性插值上采樣,使其與XL保持相同分辨率。最后,根據(jù)高低層特征貢獻程度自適應賦予權重參數(shù)α1,α2后進行特征融合,其中α1,α2在模型訓練過程中,通過網絡梯度反向傳播不斷學習,自適應調整和更新以適應當前的分割任務,最終得到融合特征圖X:

        其中:αi為歸一化權重,∑αi=1,wi為初始化指數(shù)權重,wj為特征權重;(?)表示卷積核為k×k,步長為m的卷積操作;U表示上采樣操作;⊕表示逐元素相加;·表示權重系數(shù)與特征圖相乘。

        由于高低層特征圖之間的細粒度和語義信息不同,融合后的特征會造成信息沖突和冗余,削弱特征圖的表達能力。因此,ARM模塊通過兩個分支L(X)和G(X)來提取通道注意力,增強相關信息的關注,減弱不相關信息的干擾。L(X)采用全局平均池化操作提取全局上下文信息,然后采用1×1卷積將得到的注意力特征進行通道縮減,再使用1×1卷積操作進行通道還原,實現(xiàn)特征跨通道信息交互和信息整合,并降低網絡計算量。G(X)采用兩個1×1卷積進行通道信息交互,在不降低特征通道維度情況下建立權重映射關系,從而避免特征信息損耗。最終將兩個分支輸出的特征進行特征融合,對融合后的特征使用Sigmoid激活函數(shù)進行權重歸一化以濾掉冗余信息,實現(xiàn)從不同尺度特征中自適應選擇分割任務所需特征信息,生成注意力權重N(X):

        其中:GAP(?)表示全局平均池化操作;Convn→mk×k表示卷積核為k×k,輸入通道數(shù)為n,輸出通道數(shù)為m的卷積操作;δ表示ReLU激活函數(shù);BN表示批量歸一化操作;⊕表示逐元素相加。

        為了抑制無關背景噪聲的干擾和防止網絡性能退化,將Sigmoid函數(shù)生成的注意力權重N(X)分別與X′H和X′L相乘進行加權融合,最終生成自適應融合特征圖Z:

        其中:?表示逐元素相乘。自適應調控融合后的特征圖Z能夠有效強化對目標局部位置和整體輪廓的聚焦能力,克服了車輛、行人等目標由于距離遠近造成的尺度動態(tài)范圍過大問題。

        2.3 生成調控模塊

        CrossVIS將特征提取階段輸出的F4,F(xiàn)5上采樣與F3融合輸入Mask Branch,通過一系列卷積操作生成原型掩膜。然而受限于卷積核尺寸,原有特征提取階段只能有效表征局部信息,導致部分實例邊緣紋理信息丟失。因此,本文在mask預測分支基礎上設計生成調控模塊(Generating Regulatory Module,GRM),其包含多細粒度提取模塊和空間信息聚合模塊,采用通道注意力機制聚合基于不同空洞率提取的多細粒度空間信息生成權重參數(shù)以調控各尺度特征,有效細化了實例邊緣輪廓并增強了跨通道信息交互掩碼特征映射表征能力,提高了模型對目標的定位精度和邊緣輪廓分割精度,網絡結構如圖3所示。

        圖3 生成調控模塊Fig.3 Generating regulatory module

        圖4 正交損失構建Fig.4 Construction of orthogonal loss

        為有效表征不同層級特征實例邊緣輪廓細節(jié)信息,本文基于ResNet50與FPN框架提取的F3∈R256×48×80,F(xiàn)4∈R256×24×40,F(xiàn)5∈R256×12×20作為生成調控模塊的輸入。首先,對輸入各層級特征進行3×3卷積將其通道壓縮為128,并對卷積后的高層特征分別進行雙線性插值上采樣與低層特征F5保持相同分辨率,然后分別送入多細粒度提取模塊。具體地,使用3×3卷積進行初步特征提取,為了獲取不同細粒度特征信息減少信息丟失,使用由三個空洞率r=[1,2,5]的空洞卷積并聯(lián)組成的混合空洞卷積(Hybrid Dilation Convolution,HDC)[32]對特征進行實例邊緣輪廓細節(jié)信息提取;將提取的不同細粒度特征在通道維度進行拼接和混洗,提高通道間信息的流動以增強通道間的關聯(lián)性,然后使用1×1卷積進行通道降維;為防止網絡性能退化,最后采用殘差結構將輸入特征與提取的輪廓細節(jié)信息進行跳躍連接得到新的特征Fi′∈R128×48×80,在增強特征提取能力的同時,豐富目標實例邊緣輪廓細節(jié)信息,多細粒度提取模塊計算公式為:

        其中:AConv(r,n)表示空洞率r=n的空洞卷積;Cat(?)表示在通道維度進行拼接;SN(?)表示通道混洗;Fi表示輸入特征;Fi′表示輸出特征;⊕表示逐元素相加。

        為解決卷積神經網絡中各層級和通道間信息價值不等的問題,將由不同空洞率提取的多細粒度特征輸入空間信息聚合模塊生成權重參數(shù)以調控各尺度特征。具體地,首先將各層級特征圖F3′,F(xiàn)4′,F(xiàn)5′在通道維度進行拼接生成新的特征F′∈R384×48×80。然后,采用擠壓與激勵(Squeeze and Excitation)[30]操作計算特征F?的通道注意力,增強關鍵通道信息并抑制無關冗余信息,提高網絡對特征可分辨性。具體地,首先將拼接后的特征F′進行擠壓操作,即對F?進行全局平均池化將全局信息壓縮,建立不同通道間的相互依存關系,得到特征向量T∈R384×1×1。然后,為自動獲取每個特征通道重要程度,并抑制對當前任務用處不大的低效或無效的通道信息,將池化后的特征經兩個1×1卷積操作完成特征激勵,為有效降低計算量,通道壓縮比例設置為r=4。最后使用Sigmoid函數(shù)生成各通道權重Z∈R384×1×1,并與原特征Fi′相乘得到特征圖U∈R384×48×80:

        為進一步捕捉不同尺度特征信息對分割任務的重要性,通過1×1卷積操作壓縮各尺度特征信息U通道數(shù)為3,利用Softmax函數(shù)進行空間信息權重歸一化,得到權重矩陣W∈R3×48×80,然后權重矩陣在通道方向進行分割,以此生成特征重要性權重參數(shù)λ,γ,α∈R1×48×80以調控各尺度特征,權重參數(shù)與各尺度特征相乘后得到新的特征L∈R128×48×80:

        最后,將整合后的特征L再次送入多細粒度提取模塊,通過擴大感受野增強特征全局信息和細粒度信息提取能力,進一步提升網絡模型分割精度。

        2.4 弱監(jiān)督損失構建

        2.4.1 正交損失約束

        基于邊界框的弱監(jiān)督實例分割模型,用于網絡監(jiān)督學習的真實值僅為邊界框標注信息。BoxInst[27]為確保覆蓋生成預測mask最小外接框與真實邊界框相匹配而提出的正交損失函數(shù),通過邊界框標注信息監(jiān)督預測mask水平和垂直投影,縮小模型預測mask與真實邊界框的偏差,具體操作如下:

        首先,假設訓練圖像尺寸為W×H,用于網絡監(jiān)督學習的真實邊界框左上角和右下角坐標分別為(x1,y1)和(x2,y2)。然后,對訓練圖像建立橫向真實行矩陣Xgt∈R1×W和縱向真實值列矩陣Ygt∈RH×1,令行矩陣Xgt的x1至x2位置所對應元素全為1,其余位置元素均為0,列矩陣Ygt的y1至y2位置對應元素為1,其余位置元素均為0。最后,假設S∈(0,1)H×W為網絡預測mask,S表示該像素點是前景目標的概率。計算預測mask分數(shù)每行和每列最大值Sn∈(0,1),組成列矩陣Ypre∈RH×1和行矩陣Xpre∈RW×1。為了使預測的mask趨近真實mask,應使網絡預測mask與真實邊界框在軸X,Y軸投影盡可能接近。因此,定義正交損失Lx,Ly如下:

        最后,將X軸和Y軸方向的損失相加得到正交損失Lpre=Lx+Ly。

        2.4.2 顏色相似性損失

        僅通過正交損失對初始預測mask的約束,可以初步提高預測mask質量,但存在多個mask投影到同一真實邊界框,導致預測mask質量和精細化程度下降。受啟發(fā)于顏色相似的相鄰像素間屬于同類別概率較高,引入顏色相似性損失對預測mask進一步約束。在實例分割領域中,利用像素顏色差異可以對復雜背景中的目標對象進行有效區(qū)分,若像素間顏色相似性較高,則這些像素較大概率具有相同實例標簽。因此,通過確定顏色相似性閾值τ,當某兩個像素點顏色相似性高于τ,則它們標簽相同的概率較高,由此引入顏色相似性[27]:

        其中:si,j,sl,k為像素點(i,j)和(l,k)的顏色信息,e表示像素點(i,j)和(l,k)之間的連線,Ce表示(i,j)和(l,k)的顏色相似度,θ是一個超參數(shù),本文設置為2,τ值本文設置為0.3。

        為構建顏色相似性損失函數(shù),在圖像上建立一個無向圖G=(V,E),其中V表示圖像中所有像素點的集合,E表示代表圖像中兩像素點連線的集合。在計算像素間兩兩相似性時,采取隔像素采樣的方法以增大感受野,將每個像素同時與周圍8個相鄰點計算顏色相似性,示意圖如圖5所示。

        圖5 顏色相似性損失構建Fig.5 Construction of color similarity loss

        定義ye∈(0,1)為邊e的標簽,當Ce>τ時,ye=1,表示邊緣連接的兩像素具有相同的標簽,否則ye=0,表示兩個像素點標簽不同。設像素(i,j)和(l,k)為邊緣的兩個端點,網絡預測pi,j可以看作像素(i,j)為前景的概率,則ye=1和ye=0的概率分別表示為:

        因此,顏色相似性損失函數(shù)為:

        其中:Ein表示框中至少包含一個像素的邊的集合,使用Ein代替E可以防止損失被框外無效像素控制,N是Ein的邊數(shù)。當ye=0時,該邊的標簽未知,容易對網絡造成錯誤的監(jiān)督,所以在損失中丟棄(1-ye)logP(ye=0)一項,結合顏色相似性約束,最終損失函數(shù)為:

        3 實驗結果與分析

        3.1 實驗數(shù)據(jù)集的建立

        本文在Youtube-VIS2019數(shù)據(jù)集基礎上抽取了交通場景中常見的人、摩托車、滑板、轎車、卡車、火車、狗七個類別目標作為本文數(shù)據(jù)集,其中訓練集329個視頻片段,總幀數(shù)7 212幀包含603個實例,驗證集53個視頻片段,總幀數(shù)1 097幀包含88個實例。本文在訓練過程中僅使用訓練集中的邊界框標簽和類別標簽對網絡進行監(jiān)督訓練,而測試集使用與全監(jiān)督數(shù)據(jù)集一致像素級標簽、邊界框標簽和類別標簽對網絡模型定量分析。

        3.2 實驗配置

        本文實驗平臺為Ubuntu18.04操作系統(tǒng),CPU為Intel(R) Core(TM) i9-10400F處理器,GPU為NVIDIA GTX 3060顯卡,顯存為12GB的計算機。深度學習框架為pytorch1.8.0,python版本為3.7、采用CUDA11.1和cuDNN8.0.5加速網絡模型訓練。

        實驗過程中,將輸入圖像尺寸統(tǒng)一為360×640并將批處理尺寸(Batch Size)設置為4。在訓練階段初始學習率設置為0.000 5、迭代次數(shù)為12Epoch,每個Epoch輸出一個模型權重,對最后的訓練模型的精度和推理速度綜合比較后選出最優(yōu)模型。

        3.3 評價指標

        本文使用平均精度(Average Precision,AP)和平均召回率(Average Recall,AR)作為網絡模型的評價指標,而在實例分割任務中,常以預測值與真實值的交并比IoU(Intersection over Union,IoU)來確定算法的評價指標AP和AR值。視頻例分割中IoU的定義與圖像實例分割有所不同,較為注重相同實例在時序上空間位置的關聯(lián)情況。給定一個視頻序列的真實掩膜mi…j和預測掩膜其中i,j代表時序信息。假如在t幀靜態(tài)圖像中沒有出現(xiàn)目標實例,那么利用空白掩膜對該幀信息進行填補,具體可表示為mt=0或=0,即把IoU從圖像擴展到視頻序列,視頻實例分割IoU計算公式如式(18)所示:

        其中:a和b分別表示為某個實例的真實值和預測值。

        求得IoU之后,按照0.05的增量在0.50至0.95區(qū)間取值10個IoU作為閾值,AP為這10個閾值下對應的平均精度的均值,AP(50)和AP(75)分別表示IoU閾值為50%和75%時的平均精度,AP值越大表示視頻實例分割效果越好;召回率AR表示真實分割結果的所有目標像素中被分割出來的目標像素所占的比例,主要衡量模型預測正樣本的能力,其中AR1表示每幀圖像按照IoU由高到低選取1個結果計算平均召回率,AR10表示每幀圖像按照IoU由高到低選取10個結果計算平均召回率。相關計算公式如下:

        其中:TP表示正確檢測為正樣本的個數(shù),F(xiàn)P表示誤檢為正樣本的個數(shù),F(xiàn)N表示漏檢為正樣本的個數(shù)。

        3.4 實驗結果與定量分析

        3.4.1 自適應調控實驗分析

        本節(jié)根據(jù)是否自適應更新權重參數(shù)以及權重是否歸一化將自適應調控模塊設計為3類,分別為對FPN中高低層特征賦予常量α1和α2的權重平衡模型(Weight Balance Model,WBM)、對高低層特征賦予初始化為1的自適應權重未歸一化模型(Weight Unnormalization Model,WUM)和初始化為1的自適應權重歸一化模型(Weight Normalization Madel,WNM),并對三類模型進行實驗,其實驗結果如表1所示。

        表1 不同權重實驗結果對比Tab.1 Comparison of experimental results with different weights

        從表1可知,WBM將高低層特征賦予常量α1和α2的權重,由于高低層特征對網絡分割任務的貢獻度不等,人為賦值權重α1和α2需要大量調參實驗才能取得最優(yōu)解,當人為賦值α1=1,α2=0.25時,網絡平均分割精度為34.8%,相較于Box-CrossVIS基準提升了1.8%。WUM由于自適應生成的權重參數(shù)未進行歸一化處理,會導致權重參數(shù)過大引起網絡梯度爆炸,平均分割精度為33.4%,較Box-CrossVIS提升了0.4%。WNM將自適應權重進行歸一化處理,使模型根據(jù)數(shù)據(jù)特征分布來自行決定特征權重,強化了對目標局部位置和整體輪廓的聚焦能力,在自適應調控模塊中平均分割精度達到最高35.6%,較Box-CrossVIS提升了2.6%。因此本文選擇初始化為1的自適應權重歸一化模型WNM作為自適應調控模塊的最終模型。

        為解釋自適應調控模塊的工作機理以及對最終分割結果的有效性,本文對特征金字塔網絡的最低層特征F3進行熱力圖可視化分析。熱力圖可以直觀反映模型在圖像上的關注區(qū)域,熱力圖內顏色越深,表明模型對該區(qū)域的關注程度越高。如圖6所示(彩圖見期刊電子版),(a)為模型輸入的原圖像、(b)和(c)分別為Box-CrossVIS基準網絡和嵌入ARM模塊后的熱力映射圖。圖(b)中紅色高亮感興趣區(qū)域除了集中在前景目標上之外,還擴散到背景目標上,對分割任務存在一定的干擾。圖(c)中紅色高亮區(qū)域明顯集中于需要精確分割的前景目標上,并對背景進行抑制,引導網絡在特征提取過程中重點關注目標實例特征信息,明顯地減少了無關區(qū)域的特征權重占比。說明嵌入自適應調控模塊后,網絡能有效學到感興趣區(qū)域信息,并對前景重要目標特征予以關注,增強了網絡分割效果。3.4.2 生成調控模塊實驗分析

        圖6 熱力圖可視化對比Fig.6 Visual Comparison of heat map

        為獲取最佳的多層級特征細粒度空間信息聚合效果,實驗中對特征提取階段輸出的5個特征層按逐層遞增順序進行了不同尺度的融合實驗,實驗結果如表2所示。

        結果表明,當生成調控模塊對輸入特征F3和F4進行聚焦融合時,模型平均分割精度為34.9%,較基準網絡Box-CrossVIS提升1.9%。當生成調控模塊對輸入特征F6和F7聚焦融合時,模型平均分割精度僅為17.6%,較基準網絡Box-CrossVIS降低15.4%。當輸入的特征圖層數(shù)為3時,F(xiàn)3,F(xiàn)4和F5三個特征層聚合多細粒度空間信息生成權重參數(shù)以調控各尺度特征(GRM)取得了最好的分割效果,模型平均分割精度達到35.6%,較基準網絡Box-CrossVIS提升2.6%。當輸入特征圖層數(shù)為3和4時,模型平均分割精度分別為34.6%和34.2%,相較于基準Box-CrossVIS分割精度分別提升1.6%和1.2%。綜上所述,當生成調控模塊對輸入特征F3,F(xiàn)4或F3,F(xiàn)4和F5進行聚焦融合時,模型平均分割精度均有不同程度的提升,但隨著高層特征F6和F7的加入,模型平均分割精度隨層數(shù)增加有所降低,且當生成調控模塊僅聚焦融合高層特征F6和F7時,模型平均分割精度有較大降低。充分說明低層特征F3,F(xiàn)4,F(xiàn)5對邊界輪廓特征信息貢獻度較大,而高層F6,F(xiàn)7對邊界輪廓特征信息貢獻度偏低。

        為了更直觀突顯生成調控模塊在交通場景視頻序列中對障礙物實例邊緣細節(jié)信息提取的有效性,本文選擇對mask預測分支的輸入特征圖進行可視化分析。考慮到該特征包含128個通道維度,分別提取Box-CrossVIS基準模型與嵌入GRM模塊后模型的第一層通道特征進行可視化分析以保證對比條件的一致性,引入GRM模塊前后特征圖可視化對比結果如圖7所示。從圖(b)可視化結果可以看出,Box-CrossVIS提取的特征圖實例邊緣輪廓粗糙,前景與背景對比度不明顯,而從圖(c)可以看出,嵌入生成調控模塊后,模型對前景目標實例的邊緣輪廓特征提取能力明顯高于基準模型,增大了背景與前景的反差對比度,優(yōu)化了模型對目標邊緣輪廓的定位準確性,有效減少圖像邊緣信息丟失。結果表明生成調控模塊可以通過注意力機制聚合基于不同空洞卷積率提取的多細粒度空間信息,細化了實例邊緣輪廓,有效彌補邊緣輪廓分割mask連續(xù)性缺失,提高了本文算法的分割精度。

        圖7 特征圖可視化結果Fig.7 Visualization of characteristic image

        3.4.3 不同網絡實驗結果對比

        考慮到弱監(jiān)督視頻實例分割相關工作較少,本文選擇全監(jiān)督網絡YolactEdge,STMask,CrossVIS與本文模型做對比,以客觀評價SAGRNet模型對交通場景障礙物識別分割任務的優(yōu)越性。為保證驗證結果有效性和公平性,對比實驗均在同一設備上開展且使用同一數(shù)據(jù)集,算法性能對比如表3所示。

        表3 不同模型的實驗結果對比Tab.3 Comparison of experimental results of different models

        結果表明,本文模型SAGRNet平均分割精度最高達到38.1%,較弱監(jiān)督Box-CrossVIS基準網絡分割精度提升5.1%,較全監(jiān)督網絡YolactEdge分割精度提升2.1%,但平均分割速度降低了11FPS;與全監(jiān)督網絡CrossVIS和STMask網絡相比,分割精度分別降低僅2.5%和1.9%,但數(shù)據(jù)集的標注成本卻有大幅度降低。綜上所述,本文算法能在弱監(jiān)督條件下取得與部分全監(jiān)督網絡相當?shù)姆指钚Ч炞C了本文改進算法SAGRNet的優(yōu)越性。

        3.4.4 SAGRNet消融實驗

        為驗證各改進模塊在交通場景數(shù)據(jù)集中針對目標障礙物的有效分割,本文以弱監(jiān)督Box-CrossVIS算法為基準,分別與添加了本文ARM和GRM模塊的不同網絡進行實驗對比,實驗結果如表4所示。

        表4 消融實驗結果Tab.4 Result of ablation experiments

        由表4可知,弱監(jiān)督Box-CrossVIS算法平均分割基準精度為33.0%。首先,在FPN融合路徑嵌入ARM模塊,改進了網絡高低層特征融合方式,解決了多尺度信息直接融合效率低下的問題。結果表明,嵌入ARM模塊后在平均分割速度保持不變的情況下,平均分割精度達到35.6%;其次,在mask預測分支前添加GRM模塊,通過注意力機制聚合基于不同空洞率提取的多細粒度空間信息進行多尺度特征調控,以有效彌補實例邊緣信息匱乏導致的邊緣輪廓分割mask連續(xù)性缺失問題,分割精度達到35.6%;最后,將兩種方法組合使用,以38.1%的平均分割精度達到最優(yōu)結果,以上模塊比Box-CrossVIS基準分別提升了2.6%,2.6%和5.1%,驗證了本文算法有效性。

        3.4.5 實驗平臺搭建與驗證

        由上述對比實驗可知,在交通場景數(shù)據(jù)集上,本文提出的算法能夠有效提高模型對障礙物目標的識別和分割精度。為有效驗證SAGRNet算法在交通場景中應用的可行性,本文基于輔助駕駛小車獲取復雜交通場景下的視頻數(shù)據(jù),并與CrossVIS,Box-CrossVIS算法進行對比驗證。該輔助駕駛小車搭載激光雷達、毫米波、GPS和攝像機等設備,其中獲取視頻數(shù)據(jù)所使用的攝像頭型號為1080P(SP5268),最大分辨率為1 920×1 080,網絡分割可視化結果如圖8所示。對比(a1),(a2)分割結果,CrossVIS網絡生成的mask質量優(yōu)秀,邊緣輪廓清晰,而對于僅使用邊界框進行訓練的弱監(jiān)督Box-CrossVIS算法,由于監(jiān)督信息減弱導致網絡難以準確地挖掘和定位目標實例,造成分割實例存在邊緣輪廓粗糙、不連續(xù)等問題。在(a3)中本文算法SAGRNet通過聚合基于不同空洞率提取的多細粒度空間信息改善了實例邊緣紋理信息丟失的問題,實現(xiàn)了對目標實例的準確定位與分割。在(b1),(b2)視頻序列中,均存在行人不完全分割、過分割的問題,在(b3)中由于自適應調控模塊強化了對目標局部位置和整體輪廓的聚焦能力,提高了網絡對目標實例的捕捉能力。綜上所述,本文模型SAGRNet相比于Box-CrossVIS而言能更好適應交通場景大尺度動態(tài)范圍目標的分割問題,有效降低模型的誤檢率和漏檢率,有更高的檢測分割精度以及更好的魯棒性。

        圖8 分割結果可視化Fig.8 Visualization of segmentation results

        4 結 論

        本文針對輔助駕駛車輛對復雜交通場景下多目標感知和場景理解的需求,提出一種自適應生成調控弱監(jiān)督視頻實例分割算法SAGRNet。首先,引入正交損失和顏色相似性損失代替CrossVIS實例mask分割損失,利用邊界框信息監(jiān)督網絡訓練,實現(xiàn)基于邊界框的弱監(jiān)督視頻實例分割Box-CrossVIS;其次,引入自適應調控模塊強化對目標局部位置和整體輪廓的聚焦能力,增強網絡對不同尺度變化情況下前景目標的感知能力;最后,設計生成調控模塊聚合多細粒度空間信息,彌補邊緣輪廓分割mask連續(xù)性缺失問題。經實驗驗證,本文算法能有效提高輔助駕駛車輛對復雜交通場景下多目標障礙物的檢測和分割精度,平均分割精度達到38.1%,較Box-CrossVIS模型提高5.1%,且在2080Ti上最高分割速度可達36 FPS,能夠滿足實時檢測分割需求。此外,本文還搭建了輔助駕駛小車實驗平臺驗證本文算法的可行性。

        盡管已經取得了顯著的進展,本文算法仍存在進步空間。一方面,輔助駕駛車輛在交通場景下自主行駛時捕獲的障礙物目標普遍存在相互遮擋的情況,嚴重的遮擋會帶來易混淆的遮擋邊界及非連續(xù)自然的物體形狀,影響網絡對物體整體結構的判斷,出現(xiàn)欠分割或錯分現(xiàn)象,網絡抗干擾能力有待提高;另一方面,本文算法僅依靠邊界框信息對網絡進行訓練,由于監(jiān)督信息的減弱會面臨局部聚焦,難以準確地挖掘和定位所有目標實例等問題。因此,在正交損失和顏色相似性損失的基礎上,通過引入光流等相關技術獲取視頻序列中的外觀和運動信息對初始預測mask進一步約束,縮小視覺弱監(jiān)督學習與全監(jiān)督學習的性能差異,并將其應用于實際的視覺理解應用,仍然是未來視覺弱監(jiān)督視頻實例分割研究的重點。

        猜你喜歡
        實例卷積精度
        基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于DSPIC33F微處理器的采集精度的提高
        電子制作(2018年11期)2018-08-04 03:25:38
        基于傅里葉域卷積表示的目標跟蹤算法
        GPS/GLONASS/BDS組合PPP精度分析
        改進的Goldschmidt雙精度浮點除法器
        完形填空Ⅱ
        完形填空Ⅰ
        一種基于卷積神經網絡的性別識別方法
        電視技術(2014年19期)2014-03-11 15:38:20
        巧用磨耗提高機械加工精度
        河南科技(2014年14期)2014-02-27 14:11:53
        中文人妻av大区中文不卡| 伊人久久久精品区aaa片| 国产av国片精品| 无码区a∨视频体验区30秒 | 国产一区二区三区精品成人爱| 国产精品妇女一区二区三区| 日本怡春院一区二区三区| 亚洲中文字幕每日更新| 久久免费精品视频老逼| 丰满精品人妻一区二区| 玩弄放荡人妻少妇系列视频| 精品 无码 国产观看| 日本中文字幕人妻精品| 成人影片麻豆国产影片免费观看 | 日本福利视频免费久久久| 成人国产激情自拍视频| 日本老熟妇乱| 久久中文字幕无码一区二区| 国产性感主播一区二区| 18禁在线永久免费观看| 久久久久久人妻一区二区三区| 色yeye在线观看| 日本本土精品午夜视频| 无码人妻精品一区二区蜜桃网站| 波多野结衣中文字幕在线视频| 成人精品国产亚洲av久久| 少妇一级淫片中文字幕| 婷婷久久久亚洲欧洲日产国码av| 北岛玲日韩精品一区二区三区 | 欧美巨大xxxx做受中文字幕| 国产在线91精品观看| 欧美黑人性暴力猛交喷水| 一本到无码AV专区无码| 极品少妇一区二区三区四区视频| 日韩一区二区三区无码影院| 欧美精品免费观看二区| 亚洲综合原千岁中文字幕| 一二三四五区av蜜桃| 中国丰满熟妇av| 国产精品一区二区午夜久久| 麻豆69视频在线观看|