朱松豪,孫冬軒,宋 杰
(南京郵電大學(xué) 自動(dòng)化學(xué)院、人工智能學(xué)院,江蘇 南京 210023)
語(yǔ)義分割作為計(jì)算機(jī)視覺(jué)研究的重要內(nèi)容之一,結(jié)合了目標(biāo)檢測(cè)、圖像分類(lèi)和圖像分割。 通過(guò)某種方法將圖像中的每個(gè)像素進(jìn)行分類(lèi),最終得到一幅具有語(yǔ)義標(biāo)注的分割圖像,這種像素級(jí)分割也被稱(chēng)為密集預(yù)測(cè)。
隨著全卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)[1],深度學(xué)習(xí)逐漸用于解決圖像語(yǔ)義分割問(wèn)題。 由于圖像分類(lèi)和語(yǔ)義分割間存在著密切的聯(lián)系,因此許多先進(jìn)的語(yǔ)義分割框架都是基于ImageNet 的圖像分類(lèi)體系的變體,如AlexNet[2]、VGGNet[3]和GoogleNet[4]。 全卷積神經(jīng)網(wǎng)絡(luò)通過(guò)將以上這些分類(lèi)網(wǎng)絡(luò)的全連接層調(diào)整為卷積層,再經(jīng)過(guò)端到端、像素到像素的訓(xùn)練,語(yǔ)義分割性能超越傳統(tǒng)機(jī)器學(xué)習(xí)方法。
從模式識(shí)別的角度,語(yǔ)義分割問(wèn)題可視為一個(gè)結(jié)構(gòu)化預(yù)測(cè)問(wèn)題,其難點(diǎn)在于如何設(shè)計(jì)能夠有效捕獲上下文信息的模塊。 這方面的一個(gè)典型例子是空洞卷積[5],它通過(guò)在卷積核中“膨脹”孔洞增加感受野。 隨著自然語(yǔ)言處理的巨大成功[6],Transformer橫空出世,創(chuàng)造性地實(shí)現(xiàn)了對(duì)序列化數(shù)據(jù)的并行處理,極大提高了計(jì)算效率,因此Transformer 被引入視覺(jué)任務(wù)。 Dosovitskiy 等[7]提出視覺(jué)Transformer,首次將Transformer 引入計(jì)算機(jī)視覺(jué)領(lǐng)域。 按照自然語(yǔ)言處理的思路,Dosovitskiy 等將圖像分割成多個(gè)線(xiàn)性嵌入的圖像塊,并將這些圖像塊輸入帶有位置嵌入的標(biāo)準(zhǔn)Transformer,作為向量進(jìn)行多頭注意力操作,實(shí)現(xiàn)圖像全局上下文信息的捕獲,從而在ImageNet 上獲得了令人印象深刻的性能。
作為T(mén)rans10K-V2 數(shù)據(jù)集的創(chuàng)作者,Xie 等[8]提出用于解決透明物體語(yǔ)義分割的方法,該方法通過(guò)將卷積神經(jīng)網(wǎng)絡(luò)提取的初始特征和位置信息輸入到Transformer,用以提取注意力特征,最后通過(guò)一個(gè)小的卷積頭獲得最終的語(yǔ)義分割結(jié)果。 由于透明物體具有透視、反射等特殊性質(zhì),因此需要借助豐富的上下文信息才能推斷某個(gè)像素到底屬于哪個(gè)類(lèi)別。 受該方法啟示,本文在編碼器的注意力模塊中增加了一個(gè)卷積模塊,如圖1 所示,其中圖1(a)為文獻(xiàn)[7]中編碼器部分的結(jié)構(gòu),圖1(b)為改進(jìn)后的混合結(jié)構(gòu)。 其多頭注意力模塊用于捕獲圖像的全局信息,卷積模塊用于捕獲圖像的局部信息,這對(duì)于改善復(fù)雜場(chǎng)景下的語(yǔ)義分割性能至關(guān)重要。
圖1 Transformer 編碼器結(jié)構(gòu)示意圖
文獻(xiàn)[9]利用空洞空間卷積池化金字塔獲取多尺度信息,用以獲取更精確的分割結(jié)果。 文獻(xiàn)[10]利用空洞空間卷積池化金字塔挖掘多尺度卷積特征,并對(duì)圖像全局特征進(jìn)行編碼。 受該方法啟示,本文在最后的特征融合模塊引入了改進(jìn)的金字塔模塊,將主干網(wǎng)絡(luò)提取的特征映射與注意力特征映射相結(jié)合,進(jìn)一步提升透明物體語(yǔ)義分割效果。
本文所提方法主要貢獻(xiàn)描述如下:
(1) 為更好地捕獲圖像上下文信息,提出將多頭自注意力與卷積相結(jié)合的注意力機(jī)制模塊引入Transformer 編碼器,以期獲得更為精確的特征映射;
(2) 為 更 好 地 融 合 多 尺 度 特 征 映 射, 在Transformer 解碼器得到注意力特征映射后,引入了包含空洞空間卷積池化金字塔結(jié)構(gòu)的特征融合模塊,以期更好地融合主干網(wǎng)絡(luò)特征映射和注意力特征映射,用以提升透明物體語(yǔ)義分割效果;
(3) 本文所提方法模型在Trans10K-v2 數(shù)據(jù)集上展現(xiàn)了良好的性能。
作為深度學(xué)習(xí)開(kāi)山之作的全卷積神經(jīng)網(wǎng)絡(luò),其將傳統(tǒng)的分割方法轉(zhuǎn)換為端到端的全卷積分類(lèi)網(wǎng)絡(luò)。 之后,研究人員從不同角度致力于改善全卷積神經(jīng)網(wǎng)絡(luò)。 繼承全卷積神經(jīng)網(wǎng)絡(luò)的思想,文獻(xiàn)[11]提出基于編解碼結(jié)構(gòu)和跳躍連接的分割方法。 文獻(xiàn)[12]將邊界信息引入條件隨機(jī)場(chǎng),用于改進(jìn)分割結(jié)果。 文獻(xiàn)[5,13]均通過(guò)引入空洞卷積擴(kuò)大感受野,提高語(yǔ)義分割效果。 文獻(xiàn)[14]利用金字塔解析模塊獲取不同區(qū)域上下文信息,用于解決語(yǔ)義分割問(wèn)題。 同時(shí),基于注意力機(jī)制的網(wǎng)絡(luò)模型也廣泛用于捕獲上下文信息。 文獻(xiàn)[15]利用點(diǎn)式空間注意模塊,動(dòng)態(tài)捕捉上下文信息,研究結(jié)果表明,全局上下文信息有利于提高場(chǎng)景分割精度。 文獻(xiàn)[16]的網(wǎng)絡(luò)模型中同時(shí)嵌入了空間注意力機(jī)制和通道注意力機(jī)制。 上述這些方法的主干網(wǎng)絡(luò)依然基于全連接網(wǎng)絡(luò),其中的編碼和特征提取部分大多都基于文獻(xiàn)[3]提出的VGG 和文獻(xiàn)[17]提出的ResNet 等經(jīng)典卷積網(wǎng)絡(luò)。
文獻(xiàn)[6]中Transformer 和自注意力模型的出現(xiàn),突破性地改變了自然語(yǔ)言處理的研究現(xiàn)狀。 文獻(xiàn)[7]首次將自然語(yǔ)言處理中的純Transformer 引入視覺(jué)任務(wù),構(gòu)成視覺(jué)Transformer,并在圖像分類(lèi)方面取得令人滿(mǎn)意的結(jié)果,為在語(yǔ)義分割模型中開(kāi)發(fā)基于純Transformer 編碼器的設(shè)計(jì)提供了直接啟發(fā)。在目標(biāo)檢測(cè)領(lǐng)域,文獻(xiàn)[18]利用Transformer 對(duì)目標(biāo)位置信息和全局圖像上下文關(guān)系進(jìn)行推理,且不使用非極大值抑制,而直接輸出最終檢測(cè)結(jié)果。 文獻(xiàn)[19]首次在Transformer 中引入金字塔結(jié)構(gòu),展現(xiàn)了在視覺(jué)任務(wù)中純Transformer 模型與卷積神經(jīng)網(wǎng)絡(luò)模 型 相 似 的 潛 力。 文 獻(xiàn)[20] 采 用 視 覺(jué)Transformer 作為編碼器,卷積神經(jīng)網(wǎng)絡(luò)作為解碼器,獲得了不錯(cuò)的性能。
文獻(xiàn)[11]中的U-Net 方法在下采樣時(shí)提取分辨率較小的特征,在上采樣時(shí)又將分辨率逐層回復(fù)到原來(lái)大小,在此過(guò)程中采用串聯(lián)方式將兩種尺度特征相結(jié)合,得到預(yù)測(cè)結(jié)果。 這種思想也常常出現(xiàn)在Transformer 結(jié)構(gòu)中,但最后的融合特征尺寸過(guò)大,訓(xùn)練時(shí)間和預(yù)測(cè)時(shí)間較長(zhǎng)。 文獻(xiàn)[21]中的特征金字塔網(wǎng)絡(luò)模型既可用于目標(biāo)檢測(cè),也可用于語(yǔ)義分割,與U-Net 網(wǎng)絡(luò)模型類(lèi)似,特征金字塔網(wǎng)絡(luò)模型也是基于編碼-解碼過(guò)程提取全局特征,區(qū)別在于特征金字塔網(wǎng)絡(luò)模型采用疊加方式,并基于多個(gè)特征映射進(jìn)行預(yù)測(cè)分類(lèi)。 文獻(xiàn)[9]提出基于空洞卷積特征金字塔的特征融合方式,對(duì)于主干網(wǎng)絡(luò)提取的不同尺度的特征映射,分別使用不同空洞率的卷積得到新的特征映射,再進(jìn)行融合,獲得最終的特征。 文獻(xiàn)[22]利用跨步卷積和空洞卷積進(jìn)行特征融合,進(jìn)一步提高了語(yǔ)義分割結(jié)果。
文獻(xiàn)[23]中的Trans10K 數(shù)據(jù)集是第一個(gè)大規(guī)?,F(xiàn)實(shí)世界透明物體語(yǔ)義分割數(shù)據(jù)集,但其只有兩個(gè)類(lèi)別。 Trans10K-V2 數(shù)據(jù)集在其基礎(chǔ)上,進(jìn)一步使用更細(xì)粒度的類(lèi)別對(duì)圖像進(jìn)行注釋。 Trans10KV2 數(shù)據(jù)集共有10 428 張圖像,分為2 個(gè)大類(lèi)以及11 小類(lèi),具體信息如下:(1) 透明物品。 茶杯、玻璃瓶、玻璃罐、玻璃碗和眼鏡。 (2) 透明材質(zhì)。 窗戶(hù)、透明隔板、透明盒子、冰柜蓋板、玻璃墻和玻璃門(mén)。這些物體常出現(xiàn)在人們的生活中,更適合現(xiàn)實(shí)世界的應(yīng)用。 圖2 給出來(lái)自Trans10K-V2 數(shù)據(jù)集的例圖。
圖2 Trans10K-V2 數(shù)據(jù)集示意圖
圖3 給出本文所提出的基于視覺(jué)轉(zhuǎn)換器的透明物體語(yǔ)義分割網(wǎng)絡(luò)模型結(jié)構(gòu)圖。 首先,利用卷積神經(jīng)網(wǎng)絡(luò)提取輸入圖像的初始特征映射,并將其展開(kāi)平鋪成一維特征序列;然后,將得到的一維特征序列輸入至帶有位置嵌入的視覺(jué)轉(zhuǎn)換器的編碼器,用以獲取帶有注意力的編碼特征映射;其次,將編碼特征映射與一組可學(xué)習(xí)的類(lèi)別嵌入傳至視覺(jué)轉(zhuǎn)換器的解碼器,用以獲取注意力特征映射,其中N為類(lèi)別數(shù),M為多注意力的頭數(shù);最后,利用不同采樣率的空洞卷積,實(shí)現(xiàn)來(lái)自卷積神經(jīng)網(wǎng)絡(luò)的初始特征映射與來(lái)自視覺(jué)轉(zhuǎn)換器的注意力特征映射的融合,得到最終的透明物體語(yǔ)義分割結(jié)果。
圖3 本文所提網(wǎng)絡(luò)模型的結(jié)構(gòu)示意圖
對(duì)于圖像語(yǔ)義分割算法而言,絕大多數(shù)主干網(wǎng)絡(luò)均為來(lái)自文獻(xiàn)[17]的殘差網(wǎng)絡(luò),該網(wǎng)絡(luò)的核心思想是引入一個(gè)恒等捷徑連接結(jié)構(gòu),直接跳過(guò)一個(gè)或多個(gè)中間層。 通過(guò)殘差學(xué)習(xí),殘差網(wǎng)絡(luò)能夠有效解決隨著網(wǎng)絡(luò)深度不斷加深,網(wǎng)絡(luò)性能不斷退化的問(wèn)題。 特征提取過(guò)程中,通常選取殘差網(wǎng)絡(luò)第一層至第五層的特征映射,這是因?yàn)橄噍^于輸入圖像原始尺寸,第一層至第五層的特征映射分別縮減至1/2~1/25。
如圖3 所示,將一幅尺寸為H×W×3 的原始圖像,輸入至殘差網(wǎng)絡(luò)-101 網(wǎng)絡(luò),通過(guò)下采樣進(jìn)行提取特征,文中提取網(wǎng)絡(luò)第四層的特征映射。 由于視覺(jué)轉(zhuǎn)換器的輸入為一維數(shù)據(jù)序列,因此將二維圖像特征進(jìn)行分割并拉伸為C×(H/16,W/16)的圖像塊序列(C表示特征通道數(shù)),以便傳入編碼器中進(jìn)行編碼。
視覺(jué)轉(zhuǎn)換編碼器模塊由多層編碼器模塊堆疊而成,其中每層編碼器模塊由一個(gè)注意力模塊、一個(gè)多層線(xiàn)性感知器以及一個(gè)歸一化層組成,需要注意的是,這里的注意力模塊包含一個(gè)多頭自注意力模塊和一個(gè)卷積模塊,多層線(xiàn)性感知器包含一個(gè)ReLU激活函數(shù)和兩個(gè)全連接層。 圖4 給出視覺(jué)轉(zhuǎn)換編碼器模塊的結(jié)構(gòu)示意圖。
圖4 視覺(jué)轉(zhuǎn)換編碼器模塊的結(jié)構(gòu)示意圖
視覺(jué)轉(zhuǎn)換編碼器模塊的流程描述如下:首先,利用殘差網(wǎng)絡(luò)提取特征映射,并將其與位置嵌入信息作為視覺(jué)轉(zhuǎn)換編碼器的輸入;然后,依次利用層標(biāo)準(zhǔn)化和多頭自注意力提取特征映射;接下來(lái),依次利用層標(biāo)準(zhǔn)化和多層線(xiàn)性感知器提取特征映射,并進(jìn)行多層以上的處理過(guò)程;最后,再次利用層標(biāo)準(zhǔn)化獲得最終的編碼特征映射。
由于視覺(jué)轉(zhuǎn)換編碼器的輸入特征須是一維序列,因此為彌補(bǔ)空間維度上的缺失,本文引入文獻(xiàn)[24]中的一組位置嵌入補(bǔ)充至一維特征序列,用以提供這些圖像塊在整幅圖像中的絕對(duì)位置信息和相對(duì)位置信息,此時(shí)的位置嵌入與展開(kāi)的特征映射具有相同的維度C×(H/16,W/16)。 除了采用位置嵌入策略外,本文還引入了文獻(xiàn)[7]中的類(lèi)別標(biāo)記,其輸出特征加上一個(gè)線(xiàn)性分類(lèi)器即可實(shí)現(xiàn)分類(lèi)。 網(wǎng)絡(luò)模型訓(xùn)練過(guò)程中,隨機(jī)初始化類(lèi)別標(biāo)記,并將其與位置嵌入進(jìn)行相加。
在注意力機(jī)制方面,本文將原始視覺(jué)轉(zhuǎn)換器中的多頭注意力模塊改變成多頭自注意力與卷積層的混合結(jié)構(gòu),采用線(xiàn)性多頭自注意力捕獲全局上下文信息,采用卷積層捕獲局部上下文信息。 最后,對(duì)全局上下文和局部上下文進(jìn)行一個(gè)與操作,提取全局-局部上下文信息。
對(duì)于能夠捕獲全局上下文信息多頭自注意力而言,其輸出形式表示為
其中,Q、K、V分別表示查詢(xún)、鍵、特征信息,分別通過(guò)3 個(gè)不同的權(quán)值矩陣WQ、WK、WV乘以輸入一維特征序列獲得,且采用softmax 函數(shù)計(jì)算注意力特征,表達(dá)式為
多頭自注意力的特征提取過(guò)程描述如下:首先,通過(guò)n個(gè)不同的線(xiàn)性變換對(duì)Q、K、V進(jìn)行投影;然后,將不同的線(xiàn)性投影結(jié)果進(jìn)行拼接,具體操作為
經(jīng)過(guò)編碼器后,特征映射的維度依然為C×(H/16,W/16)。
卷積層部分采用卷積核分別為1、3、5 的3 個(gè)并行卷積,再分別進(jìn)行批歸一化操作來(lái)提取局部上下文信息,生成的全局和局部上下文進(jìn)一步進(jìn)行深度卷積、批歸一化操作和1×1 卷積,以增強(qiáng)泛化能力。圖3 中編碼器模塊中的注意力機(jī)制混合結(jié)構(gòu)細(xì)節(jié)如圖5 所示。
圖5 注意力機(jī)制混合結(jié)構(gòu)示意圖
整個(gè)編碼流程可用式(4)表示。
其中,x表示特征映射,PE表示位置嵌入信息,l表示編碼器層數(shù)。
解碼器模塊由多層解碼器模塊堆疊而成,其中每層解碼器模塊包含一個(gè)多頭自注意力模塊、一個(gè)標(biāo)準(zhǔn)化層以及一個(gè)多層線(xiàn)性感知器。 圖6 給出視覺(jué)轉(zhuǎn)換解碼器模塊的結(jié)構(gòu)示意圖。
圖6 視覺(jué)轉(zhuǎn)換解碼器模塊的結(jié)構(gòu)示意圖
視覺(jué)轉(zhuǎn)換解碼器模塊的流程描述如下:首先,將編碼器得到的特征映射與一組可學(xué)習(xí)的類(lèi)別嵌入輸入到解碼器;然后,利用多頭自注意力機(jī)制獲得一個(gè)注意力特征映射以及一個(gè)新的目標(biāo)區(qū)域特征映射;接下來(lái),分別將編碼特征映射、注意力特征映射、目標(biāo)區(qū)域特征映射依次通過(guò)層歸一化、多層線(xiàn)性感知器提取特征映射;最后,進(jìn)行多層處理,獲得不同類(lèi)別的注意力特征映射。
本文在解碼器的輸入端初始化一組可學(xué)習(xí)的類(lèi)別嵌入Ecls作為查詢(xún)Q,由多層視覺(jué)轉(zhuǎn)換解碼器模塊通過(guò)多頭自注意力進(jìn)行迭代學(xué)習(xí),且每次迭代后的類(lèi)別嵌入Ecls可表示為
其中,n表示解碼器層數(shù)。 每次迭代更新一次,就會(huì)生成一個(gè)新的類(lèi)別嵌入供下一層查詢(xún)。 經(jīng)過(guò)多層解碼后,最后獲得的注意力特征映射的維度為N ×M ×(H/16,W/16)。
整個(gè)解碼流程可用式(6)表示。
其中,CE表示類(lèi)別嵌入,F(xiàn)表示編碼特征映射,A表示注意力特征映射,l表示解碼器層數(shù)。
經(jīng)過(guò)視覺(jué)轉(zhuǎn)換器編碼-解碼后,將得到的注意力特征映射與主干網(wǎng)絡(luò)提取的初始特征映射合并,然后進(jìn)行每類(lèi)別上的像素分類(lèi)。 由于視覺(jué)轉(zhuǎn)換器關(guān)注圖像的全局上下文信息,因而得到的注意力特征映射往往忽略一些細(xì)節(jié)特征,需要融合不同尺度的特征才能達(dá)到更好的分割效果。
與文獻(xiàn)[25]采用的特征融合方法不同,這里將最大池化層替換為包括深度卷積和點(diǎn)卷積的深度可分離卷積,其中的深度卷積是指首先對(duì)輸入特征的每個(gè)通道分別進(jìn)行卷積,然后再進(jìn)行1×1 的全卷積,這樣可大幅減少參數(shù)量并大幅降低計(jì)算量。
特征融合模塊的流程描述如下:首先,對(duì)主干網(wǎng)絡(luò)提取的第三層特征進(jìn)行自適應(yīng)平均池化,且利用空洞率分別為6、12 及18 的3 組卷積核進(jìn)行卷積操作;然后,將解碼器獲得的注意力特征映射上采樣至N×M×(H/4,W/4)維度,并與卷積神經(jīng)網(wǎng)絡(luò)提取的特征映射融合至N×(M+C)×(H/4,W/4)維度,再經(jīng)過(guò)卷積等操作降至N×(H/4,W/4)維度;最后,利用平均最大池化函數(shù)獲得分割結(jié)果。
對(duì)于優(yōu)化器的選擇,很多深度學(xué)習(xí)任務(wù)都會(huì)使用基于隨機(jī)梯度下降的優(yōu)化算法,實(shí)現(xiàn)模型收斂,但隨機(jī)梯度下降算法存在以下問(wèn)題:(1) 很難選擇合適的初始學(xué)習(xí)率;(2) 各個(gè)參數(shù)只能使用同一種學(xué)習(xí)率;(3) 學(xué)習(xí)率調(diào)整策略受限。 為此,這里選擇適應(yīng)性矩估計(jì)優(yōu)化器完成模型收斂。 這是因?yàn)檫m應(yīng)性矩估計(jì)優(yōu)化器結(jié)合了自適應(yīng)學(xué)習(xí)梯度下降算法和動(dòng)量梯度下降算法的優(yōu)點(diǎn),因而使得適應(yīng)性矩估計(jì)優(yōu)化器既能適應(yīng)梯度稀疏問(wèn)題,又能緩解梯度振蕩問(wèn)題。
(1) 利用殘差網(wǎng)絡(luò)-101 的預(yù)訓(xùn)練模型初始化網(wǎng)絡(luò)參數(shù)。
(2) 對(duì)于優(yōu)化損失,設(shè)置學(xué)習(xí)率為1×10-8,權(quán)重衰減設(shè)置為1×10-4,動(dòng)量設(shè)置為0.9 的適應(yīng)性矩估計(jì)優(yōu)化器。
(3) 多頭自注意力的頭部數(shù)設(shè)置為8,編碼層和解碼層的層數(shù)均設(shè)置為16,多層線(xiàn)性感知器的比率設(shè)置為3,訓(xùn)練次數(shù)設(shè)置為50 個(gè)周期,初始學(xué)習(xí)率設(shè)置為1×10-4。
由表1 所示的實(shí)驗(yàn)結(jié)果可以看出,本文所提方法的準(zhǔn)確率和平均交并比分別達(dá)到最高的94.85%和73.86%。 相較于性能最好的文獻(xiàn)[8]中語(yǔ)義分割方法Trans2Seg,本文所提方法的準(zhǔn)確率和平均交并比分別提高了0.86%和1.71%。
表1 Trans10K-V2 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果 %
此外,由表1 的實(shí)驗(yàn)結(jié)果還可以看出,在所有類(lèi)別的透明物體上,本文方法的分割性能總體上都得到了提高,特別是在大面積和整體透明物體方面。 例如,與目前整體性能先進(jìn)的Trans2Seg 方法相比,本文提出的方法在“冰柜”、“玻璃門(mén)”和“玻璃盒子”3 個(gè)類(lèi)別的平均交并比分別提高了7.47%、2.68%和2.04%。
本文以文獻(xiàn)[8]中的方法作為基線(xiàn)方法,首先通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取輸入圖像的初始特征,然后將其與位置信息輸入到Transformer 的編碼器和解碼器中提取注意力特征,最后通過(guò)一個(gè)卷積頭得到最終的分割結(jié)果。 由于Transformer 和卷積神經(jīng)網(wǎng)絡(luò)都具有特征提取的功能,Transformer 中強(qiáng)大的注意力機(jī)制側(cè)重于提取圖像的全局特征,而卷積神經(jīng)網(wǎng)絡(luò)則側(cè)重于提取圖像的局部特征。 對(duì)此,本文進(jìn)行了全部的消融實(shí)驗(yàn),具體包括以下3 個(gè)方面:(1)標(biāo)準(zhǔn)的多頭注意力機(jī)制與卷積層輔助的注意力-卷積機(jī)制的對(duì)比實(shí)驗(yàn);(2) 是否有特征融合模塊的對(duì)比實(shí)驗(yàn);(3) 多頭自注意力中不同頭數(shù)的對(duì)比實(shí)驗(yàn)。
第一組實(shí)驗(yàn)研究了Transformer 編碼器中卷積層對(duì)注意力機(jī)制的輔助對(duì)實(shí)驗(yàn)結(jié)果的影響。 作為對(duì)比,使用圖1(a)所示的標(biāo)準(zhǔn)Transformer 編碼器結(jié)構(gòu)。 從表2 所示的對(duì)比實(shí)驗(yàn)結(jié)果可以看出,使用卷積層輔助的注意力-卷積結(jié)構(gòu)可以有效提高分割精度。
表2 注意力機(jī)制中卷積層的對(duì)比實(shí)驗(yàn)結(jié)果 %
第二組實(shí)驗(yàn)研究了特征融合模塊對(duì)實(shí)驗(yàn)結(jié)果的影響。 作為對(duì)比,本文沒(méi)有采用Transformer 解碼器輸出注意力特征映射后的空洞空間卷積金字塔結(jié)構(gòu),而是對(duì)注意力特征映射進(jìn)行上采樣后,直接與從卷積主干網(wǎng)絡(luò)中提取的初始特征映射進(jìn)行連接操作,最終得到分割結(jié)果。 從表3 所示的對(duì)比實(shí)驗(yàn)結(jié)果可以看出,通過(guò)使用空洞卷積對(duì)主干網(wǎng)絡(luò)特征映射進(jìn)行多尺度處理后,再與注意力映射融合,可以獲得更好的實(shí)驗(yàn)結(jié)果。
表3 特征融合模塊的對(duì)比實(shí)驗(yàn)結(jié)果 %
第三組實(shí)驗(yàn)研究了多頭自注意力中頭部的數(shù)量對(duì)實(shí)驗(yàn)結(jié)果的影響。 頭部數(shù)是影響注意力機(jī)制性能的一個(gè)重要超參數(shù)。 文獻(xiàn)[31]中的研究表明,類(lèi)似于卷積神經(jīng)網(wǎng)絡(luò)同時(shí)使用多個(gè)濾波器,多頭的自注意力有助于網(wǎng)絡(luò)利用各種特征。 本文設(shè)置了3 種多頭自注意力,分別為4 頭、8 頭和16 頭,進(jìn)行對(duì)比實(shí)驗(yàn)。 從表4 所示的對(duì)比實(shí)驗(yàn)的結(jié)果可以看出,隨著頭數(shù)的增加,平均交并比值先增大后減小,并不是頭數(shù)越多,分割性能的提高就越大,所以選擇設(shè)置頭數(shù)為8 進(jìn)行實(shí)驗(yàn)。
表4 多頭自注意機(jī)制中不同頭數(shù)的對(duì)比實(shí)驗(yàn)結(jié)果 %
為了更直觀地評(píng)價(jià)本文網(wǎng)絡(luò)模型的性能,本文將日常生活中的實(shí)拍物品、一些復(fù)雜場(chǎng)景下的物體、提升最為明顯的3 類(lèi)物體以及本文方法與其他語(yǔ)義分割方法的對(duì)比進(jìn)行分割結(jié)果的可視化展示。
圖7 為對(duì)日常生活中的透明物體的實(shí)拍圖像進(jìn)行分割的結(jié)果。 從分割圖像中可以看出,本文的網(wǎng)絡(luò)模型對(duì)于生活中的實(shí)拍物體也具有較高的準(zhǔn)確度,對(duì)瓶子、杯子、眼鏡等常見(jiàn)物品識(shí)別得比較精細(xì),也進(jìn)一步說(shuō)明本方法具有一定的實(shí)際意義。
圖7 日常物品實(shí)拍分割結(jié)果
圖8 為一些在復(fù)雜場(chǎng)景下的透明物體的分割結(jié)果。 例如,有樹(shù)木和樓房等其他干擾物體作為背景的窗戶(hù)和玻璃墻、商場(chǎng)中陳列商品的玻璃櫥窗、多個(gè)交叉放置的玻璃杯、裝有其他物體的杯子和罐子以及容易與玻璃墻和窗戶(hù)混淆的玻璃門(mén)等。 從分割結(jié)果可以看出,在較為復(fù)雜的環(huán)境狀態(tài)下,本文方法也能夠輕松識(shí)別出透明物體的所在位置,并能分割出相對(duì)清晰的物體輪廓。
圖8 復(fù)雜場(chǎng)景下的分割結(jié)果
圖9 列出了“冰柜”、“玻璃門(mén)”和“玻璃盒子”3 種物體的原始圖像、語(yǔ)義標(biāo)注信息以及本文方法與Trans2Seg 方法的分割結(jié)果對(duì)比。 可以看出,本文對(duì)這3 類(lèi)對(duì)象的分割精度有了明顯的提高。 由于冰柜內(nèi)部有許多陳列物品的干擾,Trans2Seg 很容易將冰柜誤識(shí)別為窗戶(hù)或隔板。由于玻璃墻與門(mén)的特征極其相似,在識(shí)別過(guò)程中很難把握門(mén)的特征而混淆。 Trans10K-V2 數(shù)據(jù)集還將一些如透明尺子和透明牌子的物體歸類(lèi)到盒子類(lèi)別中,這進(jìn)一步增加了分割的難度。 本文方法可以有效地克服這些問(wèn)題,獲得相對(duì)精確的分割結(jié)果。
圖9 3 種物體分割結(jié)果對(duì)比
圖10 為不同方法的分割結(jié)果示意圖。 可以看出,與其他傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)方法相比,本文方法最終預(yù)測(cè)到的結(jié)果更加準(zhǔn)確,特別是在較為復(fù)雜的場(chǎng)景下。 在物體邊緣的地方識(shí)別得更加精細(xì),而且一些玻璃物體上的細(xì)節(jié)也可以高質(zhì)量地預(yù)測(cè)出來(lái),例如商場(chǎng)里的玻璃門(mén)、玻璃墻和透明櫥窗。
圖10 與其他方法的分割結(jié)果對(duì)比
通過(guò)上述可視化結(jié)果可以發(fā)現(xiàn),本文方法中強(qiáng)大的注意力機(jī)制結(jié)構(gòu)和特征融合方法能有效地捕捉到透明物體與周?chē)h(huán)境之間的關(guān)系,并能在多種干擾因素存在下,較為準(zhǔn)確地判斷出該部位屬于透明物體的一部分還是周?chē)渌矬w。
本文針對(duì)一種新的透明物體數(shù)據(jù)集的語(yǔ)義分割方法進(jìn)行了相關(guān)研究。 以Trans2Seg 方法作為基線(xiàn),提出了一種基于Transformer 的分割網(wǎng)絡(luò),并在此基礎(chǔ)上優(yōu)化了編碼-解碼過(guò)程的結(jié)構(gòu),設(shè)計(jì)了Transformer 編碼器的多頭自注意力與卷積的混合結(jié)構(gòu)。 一方面,利用傳統(tǒng)的卷積方法捕捉圖像的局部特征;另一方面,利用多頭自注意力提取圖像全局特征,更好地理解圖像上下文信息。 此外,為了提高分割效果,還引入了包含空洞空間卷積金字塔結(jié)構(gòu)的特征融合模塊。 實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)模型能有效提高透明目標(biāo)分割的性能。