王美童,毛 琳,楊大偉
(大連民族大學(xué) 機電工程學(xué)院,遼寧 大連 116605)
視頻語義分割是為每一視頻幀逐像素分配類別標(biāo)簽的過程。與圖像語義分割相比,視頻是圖像的集合,由于場景中運動物體時刻變化,導(dǎo)致分割不穩(wěn)定,使得實現(xiàn)高質(zhì)量視頻語義分割任務(wù)極具挑戰(zhàn)。深層幀間語義特征準確性對分割結(jié)果至關(guān)重要,對此國內(nèi)外大量學(xué)者展開研究。
目前主流視頻語義分割網(wǎng)絡(luò)采用AlexNet[1]、VGG[2]、GoogLeNet[3]和ResNet[4]等作為主干進行特征提取,但在特征提取過程中,一些表示高頻邊緣輪廓的信息無法完整保留[5-7]。基于光流計算的方法利用光流信息進行特征融合獲取更準確的特征表示,利用相鄰兩幀之間光流計算結(jié)果增強當(dāng)前幀分割[8]。Gadde等[9]提出Netwarp模塊,在金字塔場景解析網(wǎng)絡(luò)(Pyramid Scene Parsing Network,PSPNet)[10]池化層前后插入Netwarp模塊,利用光流將前一幀特征遷移到當(dāng)前幀,起到特征增強作用。Zhu等[11]提出深度特征流網(wǎng)絡(luò)(Deep Feature Flow,DFF),只提取關(guān)鍵幀特征,對非關(guān)鍵幀計算其與關(guān)鍵幀的光流從而減少計算量,但光流計算成本較大,同時容易將關(guān)鍵幀冗余特征傳遞到當(dāng)前幀?;陂L短期記憶網(wǎng)絡(luò)[12](Long-Short Term Memory,LSTM)的方法學(xué)習(xí)如何在時序上將多幀信息融合地更好。Nilsson等[13]提出時空轉(zhuǎn)換器門控循環(huán)單元(Spatio-Temporal Transformer Gated Recurrent Unit,STGRU),將多幀的語義分割圖通過GRU傳遞到當(dāng)前幀,只對分割后的結(jié)果進行處理,結(jié)合多幀未標(biāo)注信息使分割結(jié)果語義一致性增強。Sistu等[14]提出多流全卷積網(wǎng)絡(luò)(Multi-Stream Full Convlution Network,MSFCN),使用ResNet-50作為基線編碼器,利用LSTM對FCN[15]編碼器進行時間處理,將當(dāng)前幀和過去幀的編碼融合,但LSTM嵌在編碼器和解碼器之間,對主干網(wǎng)絡(luò)提取的特征直接進行處理,忽略了主干網(wǎng)絡(luò)提取特征的不充分性。Li等[16]提出注意力引導(dǎo)網(wǎng)絡(luò)(Attention-Guided Network,AGNet),自適應(yīng)加強幀間和幀內(nèi)特征,通過提高時間連續(xù)性實現(xiàn)精準分割。Wang等[17]提出時空記憶注意力網(wǎng)絡(luò)(Temporal Memory Attention,TMANet),利用記憶和自注意力建立時間關(guān)系,引入時間記憶注意模塊捕捉時間序列的特征關(guān)系。Paul等[18]提出局部記憶注意網(wǎng)絡(luò)(Local Memory Attention Network,LMANet),網(wǎng)絡(luò)主干使用改進后的高效殘差結(jié)構(gòu)(Efficient Residual Factorized ConvNet,ERFNet)獲得更深層次的性能增益,使用局部注意力機制訪問內(nèi)存中的特征。上述研究中利用了光流、LSTM、注意力機制等對主干輸出特征進行不同形式處理,但忽略了特征在傳遞過程中產(chǎn)生偏差的問題,導(dǎo)致在解碼分割中不能得到精細的邊緣輪廓和具體結(jié)構(gòu)特征。
針對目前視頻語義分割算法中幀間語義特征傳遞偏差問題,本文提出局部記憶語義特征增強算法(Local Memory Semantic Feature Enhancement Algorithm,E-LMA),借鑒八度卷積(OctConv)特征分頻處理思想[19],將卷積層輸出特征映射看作不同頻率信息的混合。使用OctConv在相應(yīng)的頻率空間上做不同卷積處理,形成頻率之間的信息交互,使網(wǎng)絡(luò)能有效處理高、低頻分量,增強記憶幀和查詢幀的特征表達能力,能夠更準確地比較相鄰幀之間的相似信息,從而提升分割準確性。
為減小幀間語義特征傳遞偏差,構(gòu)建視頻語義分割網(wǎng)絡(luò),該網(wǎng)絡(luò)以編碼-解碼架構(gòu)為基礎(chǔ),輸入視頻幀經(jīng)主干網(wǎng)絡(luò)提取特征可表示為
X=F(I)。
(1)
式中:I表示輸入主干網(wǎng)絡(luò)的視頻幀;F表示卷積和最大池化計算過程;X表示主干網(wǎng)絡(luò)輸出特征圖。經(jīng)池化和下采樣操作過濾邊緣紋理信息,特征圖趨于平滑狀態(tài),特征圖表達不夠清晰。
(2)
式中:M(Memory)表示記憶;Q(Query)表示查詢;C表示通道數(shù);H×W表示特征圖的空間尺寸大??;G1和G2表示通道數(shù)為128、卷積核為3×3的卷積計算。
定義2:KM(i,j)和KQ(p,q)為表示空間位置的特征向量,(i,j),(p,q)∈{1,…,H}×{1,…,W},記憶和查詢配對相似度可以表示為一個4維張量C(KM,KQ)∈RH×W×R×R,則C的計算過程為
C(KM,KQ)=KM(i,j)TKQ(p,q)。
(3)
式中,通過匹配K(Key)訪問和組合存儲在V(Value)中的豐富語義特征。
目前基于時空記憶(Space-Time Memory)[20,21]方法利用圖像全局特征構(gòu)建幀間全局記憶,視頻目標(biāo)在給定位置的內(nèi)容更可能在記憶幀的相似位置找到,因此采用記憶幀中局部特征構(gòu)建精確的局部區(qū)域記憶。
(4)
式中:R表示局部記憶區(qū)域大小,R≤H,W;m、n表示第s個目標(biāo)位置;P表示局部記憶語義特征匹配結(jié)果;?表示元素相乘。
在特征匹配的過程中,由于經(jīng)主干編碼得到的特征丟失高頻邊緣,導(dǎo)致幀間的語義特征在傳遞過程中出現(xiàn)偏差,尤其是當(dāng)運動目標(biāo)移動速度過快時,特征匹配可能出錯導(dǎo)致分割結(jié)果不準確,在不同類別間引入錯誤的相關(guān)性,使分類不準確,降低分割精度。為解決這一問題,將編碼輸出的混合特征映射到頻率域進行分解。E-LMA局部記憶語義特征增強算法結(jié)構(gòu)如圖1。
圖1 E-LMA局部記憶語義特征增強算法結(jié)構(gòu)
E-LMA算法分開處理低頻和高頻信息,使用OctConv在高頻和低頻信息之間建立有效聯(lián)系,將處理后的特征圖與記憶特征和查詢特征融合,有助于捕獲更多全局信息,輸出增強后的特征。增強后的高頻邊緣特征改善了特征圖在匹配過程中出現(xiàn)的局部記憶特征丟失問題。本文提出一種高效的方式訪問包含在內(nèi)存中正確邊緣位置的相關(guān)特性,為分割解碼器提供了高質(zhì)量的特征圖,有效提升分割準確性。
在局部記憶語義特征增強模塊中引入OctConv,OctConv特征增強模塊如圖2。采用先分離再融合的思想從特征圖中分離出高頻和低頻特征,并調(diào)整各頻率分量權(quán)重。先對特征的高頻邊緣區(qū)域進行增強,其次基于高頻增強結(jié)果恢復(fù)低頻結(jié)構(gòu)特征,使輸出特征圖包含更多高低頻信息,有效提高對低頻和高頻的信息利用[22]。
圖2 OctConv特征增強模塊
YL=fk1(XL)+fk3(ga(XH));
(5)
YH=fk4(XH)+gu(fk2(XL));
(6)
YHL=fk4(YL)+gu(fk2(YL))。
(7)
式中:fk1、fk2、fk3和fk4表示卷積操計算;ga表示平均池化;gu表示上采樣;HL表示頻率更新方向;YHL表示將輸出的高頻特征YL再次分解為高低頻分量。
(8)
硬件配置為NVIDIA GeForce 1080Ti顯卡,在Ubuntu16.04操作系統(tǒng)中,采用Pytorch1.9.0深度學(xué)習(xí)框架進行訓(xùn)練和測試網(wǎng)絡(luò)模型。以Cityscapes[23]為基準數(shù)據(jù)集,該數(shù)據(jù)集包含50個不同城市街道場景,共19個類別,11 900張連續(xù)視頻幀用于訓(xùn)練,驗證集中2 500張圖片用于測試。采用Adam優(yōu)化器,批尺寸設(shè)置為8,設(shè)置初始學(xué)習(xí)率為0.000 2,訓(xùn)練周期為50個epoch。與LMANet算法參數(shù)設(shè)置保持一致,記憶大小設(shè)置為4,搜索區(qū)域R設(shè)置為21。
為評價分割結(jié)果的準確性,以平均交并比(Mean Intersection over Union, mIoU)作為視頻語義分割評價指標(biāo),mIoU越大表示像素預(yù)測值與真實值的交集越大,分類預(yù)測結(jié)果越準確。mIoU的計算過程為
(9)
式中:(α+1)表示類別數(shù)目;i表示真實類別;j表示預(yù)測類別;pij表示像素值真實為i類但被預(yù)測為j類;pii表示將像素真實值i預(yù)測為i;pji表示將像素預(yù)測值j預(yù)測為真實值i。
E-LMA算法在保持LMANet算法結(jié)構(gòu)不變的基礎(chǔ)上,將OctConv分別并聯(lián)在記憶特征和查詢特征支路上,將卷積特征映射分解為兩組不同的空間頻率,并在其對應(yīng)頻率上進行不同的卷積處理,視頻語義分割對比結(jié)果見表1。
表1 語義分割結(jié)果對比
實驗結(jié)果表明,在相同批尺寸、迭代周期和學(xué)習(xí)率設(shè)置下E-LMA算法mIoU為73.65%,相比LMANet算法提高了0.37%。在Cityscapes數(shù)據(jù)集19個類別中,E-LMA算法在每個類別上的mIoU見表2。
表2 Cityscapes數(shù)據(jù)集仿真結(jié)果 %
由表2可以看出E-LMA算法對自動駕駛場景中的某些目標(biāo),如地面、公共汽車、交通桿等10個類別的分割結(jié)果提升明顯。對比原始算法,E-LMA算法無論是針對摩托車、火車等移動目標(biāo)還是柵欄、墻等不動目標(biāo)的分割結(jié)果都更接近真實場景,表明E-LMA算法使用OctConv將空間域變換到頻率域進行分解,能有效增強目標(biāo)邊緣特征,減小幀間語義特征傳遞偏差,進而提升分割準確性,應(yīng)用在自動駕駛領(lǐng)域有明顯優(yōu)勢。
為驗證OctConv在頻率域上對編碼輸出記憶語義特征具有增強作用,針對OctConv的不同級聯(lián)方式對Cityscapes數(shù)據(jù)集進行消融,在相同實驗環(huán)境下全面比較,結(jié)果見表3。
表3 不同級聯(lián)方式對Cityscapes數(shù)據(jù)集的仿真結(jié)果
OctConv將特征映射張量分解成低頻分量和高頻分量,其中采用單層低頻分量L丟失了圖像細節(jié)信息,不能提升網(wǎng)絡(luò)性能;采用單層高頻分量H忽略了圖像內(nèi)容信息,無法起到特征增強作用。本文提出采用高低頻復(fù)用方式,將低頻部分L的采樣提高到原始空間分辨率,與高頻部分L連接,進行卷積處理,高低頻間形成信息交換,在不改變圖像高頻細節(jié)特征的基礎(chǔ)上恢復(fù)低頻結(jié)構(gòu)特征,使網(wǎng)絡(luò)能夠以一種高效的方式匹配正確記憶特征,提高識別性能。三層級聯(lián)方式HLL能起到特征增強作用,但級聯(lián)層數(shù)越多,高低頻復(fù)用次數(shù)越多,無法保證達到最好效果。因此,E-LAM算法采用兩層級聯(lián)HL方式,在節(jié)約計算成本的同時補償高頻邊緣特征,使目標(biāo)邊緣特征更清晰,進而改善局部記憶語義特征丟失問題。
為直觀比較輸入視頻幀經(jīng)主干網(wǎng)絡(luò)提取特征和經(jīng)OctConv特征增強的前后效果,記憶特征和經(jīng)OctConv增強的邊緣特征可視化結(jié)果如圖3。
a)原圖 b)LMANet算法 c)E-LMA算法圖3 局部記憶特征可視化對比
圖3a列為原始視頻中的連續(xù)三幀,圖3b列為經(jīng)LMANet算法卷積層輸出特征的可視化結(jié)果,圖3c列為經(jīng)E-LMA算法OctConv增強后的可視化結(jié)果。第1行,街景中斑馬線細節(jié)更加清晰;第2行,建筑物邊緣與天空分界處更加明顯;第3行,建筑物與地面連接處輪廓更加突出。由此可以驗證,在連續(xù)視頻幀中,E-LMA算法增強了高頻邊緣特征,改善了特征匹配過程中出現(xiàn)的局部記憶特征丟失問題。
編碼輸出特征經(jīng)增強后能更好地融合不同邊緣位置的語義表示,使網(wǎng)絡(luò)在后續(xù)處理中能讓分割結(jié)果語義一致性更強,為分割解碼器提供了更好的輸入,改善了局部記憶特征丟失問題。LMANet與E-LMA分割結(jié)果如圖4。
a)原圖 b)LMANet算法 c)E-LMA算法 d)真值圖4 LMA與E-LMA分割結(jié)果對比圖
圖4a列為當(dāng)前幀,圖4b和圖4c列分別為LMANet和E-LMA算法的最終分割結(jié)果,圖片右下方突出顯示了局部記憶特征增強后的對比結(jié)果,圖4d列為真值。第2行b列中對自行車輪胎的分割結(jié)果明顯缺失了一部分,而在第2行c列中E-LMA算法減小了幀間語義特征傳遞偏差,缺失的部分得以還原。第4行c列中人和摩托車兩個不同類別目標(biāo)存在重疊現(xiàn)象,E-LMA算法與LMANet算法相比更接近真實場景。E-LMA算法能有效增強目標(biāo)邊緣特征,對移動目標(biāo)、交通工具等表現(xiàn)出更好的分割效果。
本文提出一種局部記憶語義特征增強算法E-LMA,該算法通過補償高頻邊緣細節(jié)信息增強局部記憶特征,減小幀間語義特征傳遞偏差,進而改善不同類別目標(biāo)之間分割不準確問題。與LMANet算法相比,E-LMA算法提高了重疊目標(biāo)分類預(yù)測的準確性,對邊緣特征有顯著提升能力。E-LMA算法在交通場景下對車輛、道路、交通桿等目標(biāo)輪廓分割精度更高,適用于自動駕駛和智能機器人等視覺感知領(lǐng)域。在未來工作中,將進一步提高記憶特征和查詢特征相似性計算,提高當(dāng)前幀分割質(zhì)量。