亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Transformer的透明物體圖像語(yǔ)義分割

2023-09-23 02:00:02朱松豪孫冬軒

南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版) 2023年4期

朱松豪，孫冬軒，宋杰

(南京郵電大學(xué) 自動(dòng)化學(xué)院、人工智能學(xué)院，江蘇南京 210023)

語(yǔ)義分割作為計(jì)算機(jī)視覺(jué)研究的重要內(nèi)容之一，結(jié)合了目標(biāo)檢測(cè)、圖像分類(lèi)和圖像分割。通過(guò)某種方法將圖像中的每個(gè)像素進(jìn)行分類(lèi)，最終得到一幅具有語(yǔ)義標(biāo)注的分割圖像，這種像素級(jí)分割也被稱(chēng)為密集預(yù)測(cè)。

隨著全卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)［1］，深度學(xué)習(xí)逐漸用于解決圖像語(yǔ)義分割問(wèn)題。由于圖像分類(lèi)和語(yǔ)義分割間存在著密切的聯(lián)系，因此許多先進(jìn)的語(yǔ)義分割框架都是基于ImageNet 的圖像分類(lèi)體系的變體，如AlexNet［2］、VGGNet［3］和GoogleNet［4］。全卷積神經(jīng)網(wǎng)絡(luò)通過(guò)將以上這些分類(lèi)網(wǎng)絡(luò)的全連接層調(diào)整為卷積層，再經(jīng)過(guò)端到端、像素到像素的訓(xùn)練，語(yǔ)義分割性能超越傳統(tǒng)機(jī)器學(xué)習(xí)方法。

從模式識(shí)別的角度，語(yǔ)義分割問(wèn)題可視為一個(gè)結(jié)構(gòu)化預(yù)測(cè)問(wèn)題，其難點(diǎn)在于如何設(shè)計(jì)能夠有效捕獲上下文信息的模塊。這方面的一個(gè)典型例子是空洞卷積［5］，它通過(guò)在卷積核中“膨脹”孔洞增加感受野。隨著自然語(yǔ)言處理的巨大成功［6］，Transformer橫空出世，創(chuàng)造性地實(shí)現(xiàn)了對(duì)序列化數(shù)據(jù)的并行處理，極大提高了計(jì)算效率，因此Transformer 被引入視覺(jué)任務(wù)。 Dosovitskiy 等［7］提出視覺(jué)Transformer，首次將Transformer 引入計(jì)算機(jī)視覺(jué)領(lǐng)域。按照自然語(yǔ)言處理的思路，Dosovitskiy 等將圖像分割成多個(gè)線(xiàn)性嵌入的圖像塊，并將這些圖像塊輸入帶有位置嵌入的標(biāo)準(zhǔn)Transformer，作為向量進(jìn)行多頭注意力操作，實(shí)現(xiàn)圖像全局上下文信息的捕獲，從而在ImageNet 上獲得了令人印象深刻的性能。

作為T(mén)rans10K-V2 數(shù)據(jù)集的創(chuàng)作者，Xie 等［8］提出用于解決透明物體語(yǔ)義分割的方法，該方法通過(guò)將卷積神經(jīng)網(wǎng)絡(luò)提取的初始特征和位置信息輸入到Transformer，用以提取注意力特征，最后通過(guò)一個(gè)小的卷積頭獲得最終的語(yǔ)義分割結(jié)果。由于透明物體具有透視、反射等特殊性質(zhì)，因此需要借助豐富的上下文信息才能推斷某個(gè)像素到底屬于哪個(gè)類(lèi)別。受該方法啟示，本文在編碼器的注意力模塊中增加了一個(gè)卷積模塊，如圖1 所示，其中圖1（a）為文獻(xiàn)［7］中編碼器部分的結(jié)構(gòu)，圖1（b）為改進(jìn)后的混合結(jié)構(gòu)。其多頭注意力模塊用于捕獲圖像的全局信息，卷積模塊用于捕獲圖像的局部信息，這對(duì)于改善復(fù)雜場(chǎng)景下的語(yǔ)義分割性能至關(guān)重要。

圖1 Transformer 編碼器結(jié)構(gòu)示意圖

文獻(xiàn)［9］利用空洞空間卷積池化金字塔獲取多尺度信息，用以獲取更精確的分割結(jié)果。文獻(xiàn)［10］利用空洞空間卷積池化金字塔挖掘多尺度卷積特征，并對(duì)圖像全局特征進(jìn)行編碼。受該方法啟示，本文在最后的特征融合模塊引入了改進(jìn)的金字塔模塊，將主干網(wǎng)絡(luò)提取的特征映射與注意力特征映射相結(jié)合，進(jìn)一步提升透明物體語(yǔ)義分割效果。

本文所提方法主要貢獻(xiàn)描述如下：

（1）為更好地捕獲圖像上下文信息，提出將多頭自注意力與卷積相結(jié)合的注意力機(jī)制模塊引入Transformer 編碼器，以期獲得更為精確的特征映射；

（2）為更好地融合多尺度特征映射，在Transformer 解碼器得到注意力特征映射后，引入了包含空洞空間卷積池化金字塔結(jié)構(gòu)的特征融合模塊，以期更好地融合主干網(wǎng)絡(luò)特征映射和注意力特征映射，用以提升透明物體語(yǔ)義分割效果；

（3）本文所提方法模型在Trans10K-v2 數(shù)據(jù)集上展現(xiàn)了良好的性能。

1 相關(guān)工作

1．1 語(yǔ)義分割

作為深度學(xué)習(xí)開(kāi)山之作的全卷積神經(jīng)網(wǎng)絡(luò)，其將傳統(tǒng)的分割方法轉(zhuǎn)換為端到端的全卷積分類(lèi)網(wǎng)絡(luò)。之后，研究人員從不同角度致力于改善全卷積神經(jīng)網(wǎng)絡(luò)。繼承全卷積神經(jīng)網(wǎng)絡(luò)的思想，文獻(xiàn)［11］提出基于編解碼結(jié)構(gòu)和跳躍連接的分割方法。文獻(xiàn)［12］將邊界信息引入條件隨機(jī)場(chǎng)，用于改進(jìn)分割結(jié)果。文獻(xiàn)［5，13］均通過(guò)引入空洞卷積擴(kuò)大感受野，提高語(yǔ)義分割效果。文獻(xiàn)［14］利用金字塔解析模塊獲取不同區(qū)域上下文信息，用于解決語(yǔ)義分割問(wèn)題。同時(shí)，基于注意力機(jī)制的網(wǎng)絡(luò)模型也廣泛用于捕獲上下文信息。文獻(xiàn)［15］利用點(diǎn)式空間注意模塊，動(dòng)態(tài)捕捉上下文信息，研究結(jié)果表明，全局上下文信息有利于提高場(chǎng)景分割精度。文獻(xiàn)［16］的網(wǎng)絡(luò)模型中同時(shí)嵌入了空間注意力機(jī)制和通道注意力機(jī)制。上述這些方法的主干網(wǎng)絡(luò)依然基于全連接網(wǎng)絡(luò)，其中的編碼和特征提取部分大多都基于文獻(xiàn)［3］提出的VGG 和文獻(xiàn)［17］提出的ResNet 等經(jīng)典卷積網(wǎng)絡(luò)。

1．2 視覺(jué)任務(wù)中的Transformer

文獻(xiàn)［6］中Transformer 和自注意力模型的出現(xiàn)，突破性地改變了自然語(yǔ)言處理的研究現(xiàn)狀。文獻(xiàn)［7］首次將自然語(yǔ)言處理中的純Transformer 引入視覺(jué)任務(wù)，構(gòu)成視覺(jué)Transformer，并在圖像分類(lèi)方面取得令人滿(mǎn)意的結(jié)果，為在語(yǔ)義分割模型中開(kāi)發(fā)基于純Transformer 編碼器的設(shè)計(jì)提供了直接啟發(fā)。在目標(biāo)檢測(cè)領(lǐng)域，文獻(xiàn)［18］利用Transformer 對(duì)目標(biāo)位置信息和全局圖像上下文關(guān)系進(jìn)行推理，且不使用非極大值抑制，而直接輸出最終檢測(cè)結(jié)果。文獻(xiàn)［19］首次在Transformer 中引入金字塔結(jié)構(gòu)，展現(xiàn)了在視覺(jué)任務(wù)中純Transformer 模型與卷積神經(jīng)網(wǎng)絡(luò)模型相似的潛力。文獻(xiàn)［20］采用視覺(jué)Transformer 作為編碼器，卷積神經(jīng)網(wǎng)絡(luò)作為解碼器，獲得了不錯(cuò)的性能。

1．3 特征融合

文獻(xiàn)［11］中的U-Net 方法在下采樣時(shí)提取分辨率較小的特征，在上采樣時(shí)又將分辨率逐層回復(fù)到原來(lái)大小，在此過(guò)程中采用串聯(lián)方式將兩種尺度特征相結(jié)合，得到預(yù)測(cè)結(jié)果。這種思想也常常出現(xiàn)在Transformer 結(jié)構(gòu)中，但最后的融合特征尺寸過(guò)大，訓(xùn)練時(shí)間和預(yù)測(cè)時(shí)間較長(zhǎng)。文獻(xiàn)［21］中的特征金字塔網(wǎng)絡(luò)模型既可用于目標(biāo)檢測(cè)，也可用于語(yǔ)義分割，與U-Net 網(wǎng)絡(luò)模型類(lèi)似，特征金字塔網(wǎng)絡(luò)模型也是基于編碼-解碼過(guò)程提取全局特征，區(qū)別在于特征金字塔網(wǎng)絡(luò)模型采用疊加方式，并基于多個(gè)特征映射進(jìn)行預(yù)測(cè)分類(lèi)。文獻(xiàn)［9］提出基于空洞卷積特征金字塔的特征融合方式，對(duì)于主干網(wǎng)絡(luò)提取的不同尺度的特征映射，分別使用不同空洞率的卷積得到新的特征映射，再進(jìn)行融合，獲得最終的特征。文獻(xiàn)［22］利用跨步卷積和空洞卷積進(jìn)行特征融合，進(jìn)一步提高了語(yǔ)義分割結(jié)果。

1．4 Trans10K-V2 數(shù)據(jù)集

文獻(xiàn)［23］中的Trans10K 數(shù)據(jù)集是第一個(gè)大規(guī)?，F(xiàn)實(shí)世界透明物體語(yǔ)義分割數(shù)據(jù)集，但其只有兩個(gè)類(lèi)別。 Trans10K-V2 數(shù)據(jù)集在其基礎(chǔ)上，進(jìn)一步使用更細(xì)粒度的類(lèi)別對(duì)圖像進(jìn)行注釋。 Trans10KV2 數(shù)據(jù)集共有10 428 張圖像，分為2 個(gè)大類(lèi)以及11 小類(lèi)，具體信息如下：（1）透明物品。茶杯、玻璃瓶、玻璃罐、玻璃碗和眼鏡。（2）透明材質(zhì)。窗戶(hù)、透明隔板、透明盒子、冰柜蓋板、玻璃墻和玻璃門(mén)。這些物體常出現(xiàn)在人們的生活中，更適合現(xiàn)實(shí)世界的應(yīng)用。圖2 給出來(lái)自Trans10K-V2 數(shù)據(jù)集的例圖。

圖2 Trans10K-V2 數(shù)據(jù)集示意圖

2 本文所提方法

圖3 給出本文所提出的基于視覺(jué)轉(zhuǎn)換器的透明物體語(yǔ)義分割網(wǎng)絡(luò)模型結(jié)構(gòu)圖。首先，利用卷積神經(jīng)網(wǎng)絡(luò)提取輸入圖像的初始特征映射，并將其展開(kāi)平鋪成一維特征序列；然后，將得到的一維特征序列輸入至帶有位置嵌入的視覺(jué)轉(zhuǎn)換器的編碼器，用以獲取帶有注意力的編碼特征映射；其次，將編碼特征映射與一組可學(xué)習(xí)的類(lèi)別嵌入傳至視覺(jué)轉(zhuǎn)換器的解碼器，用以獲取注意力特征映射，其中N為類(lèi)別數(shù)，M為多注意力的頭數(shù)；最后，利用不同采樣率的空洞卷積，實(shí)現(xiàn)來(lái)自卷積神經(jīng)網(wǎng)絡(luò)的初始特征映射與來(lái)自視覺(jué)轉(zhuǎn)換器的注意力特征映射的融合，得到最終的透明物體語(yǔ)義分割結(jié)果。

圖3 本文所提網(wǎng)絡(luò)模型的結(jié)構(gòu)示意圖

2．1 主干網(wǎng)絡(luò)模塊

對(duì)于圖像語(yǔ)義分割算法而言，絕大多數(shù)主干網(wǎng)絡(luò)均為來(lái)自文獻(xiàn)［17］的殘差網(wǎng)絡(luò)，該網(wǎng)絡(luò)的核心思想是引入一個(gè)恒等捷徑連接結(jié)構(gòu)，直接跳過(guò)一個(gè)或多個(gè)中間層。通過(guò)殘差學(xué)習(xí)，殘差網(wǎng)絡(luò)能夠有效解決隨著網(wǎng)絡(luò)深度不斷加深，網(wǎng)絡(luò)性能不斷退化的問(wèn)題。特征提取過(guò)程中，通常選取殘差網(wǎng)絡(luò)第一層至第五層的特征映射，這是因?yàn)橄噍^于輸入圖像原始尺寸，第一層至第五層的特征映射分別縮減至1／2～1／25。

如圖3 所示，將一幅尺寸為H×W×3 的原始圖像，輸入至殘差網(wǎng)絡(luò)-101 網(wǎng)絡(luò)，通過(guò)下采樣進(jìn)行提取特征，文中提取網(wǎng)絡(luò)第四層的特征映射。由于視覺(jué)轉(zhuǎn)換器的輸入為一維數(shù)據(jù)序列，因此將二維圖像特征進(jìn)行分割并拉伸為C×（H／16，W／16）的圖像塊序列（C表示特征通道數(shù)），以便傳入編碼器中進(jìn)行編碼。

2．2 視覺(jué)轉(zhuǎn)換編碼器模塊

視覺(jué)轉(zhuǎn)換編碼器模塊由多層編碼器模塊堆疊而成，其中每層編碼器模塊由一個(gè)注意力模塊、一個(gè)多層線(xiàn)性感知器以及一個(gè)歸一化層組成，需要注意的是，這里的注意力模塊包含一個(gè)多頭自注意力模塊和一個(gè)卷積模塊，多層線(xiàn)性感知器包含一個(gè)ReLU激活函數(shù)和兩個(gè)全連接層。圖4 給出視覺(jué)轉(zhuǎn)換編碼器模塊的結(jié)構(gòu)示意圖。

圖4 視覺(jué)轉(zhuǎn)換編碼器模塊的結(jié)構(gòu)示意圖

視覺(jué)轉(zhuǎn)換編碼器模塊的流程描述如下：首先，利用殘差網(wǎng)絡(luò)提取特征映射，并將其與位置嵌入信息作為視覺(jué)轉(zhuǎn)換編碼器的輸入；然后，依次利用層標(biāo)準(zhǔn)化和多頭自注意力提取特征映射；接下來(lái)，依次利用層標(biāo)準(zhǔn)化和多層線(xiàn)性感知器提取特征映射，并進(jìn)行多層以上的處理過(guò)程；最后，再次利用層標(biāo)準(zhǔn)化獲得最終的編碼特征映射。

由于視覺(jué)轉(zhuǎn)換編碼器的輸入特征須是一維序列，因此為彌補(bǔ)空間維度上的缺失，本文引入文獻(xiàn)［24］中的一組位置嵌入補(bǔ)充至一維特征序列，用以提供這些圖像塊在整幅圖像中的絕對(duì)位置信息和相對(duì)位置信息，此時(shí)的位置嵌入與展開(kāi)的特征映射具有相同的維度C×（H／16，W／16）。除了采用位置嵌入策略外，本文還引入了文獻(xiàn)［7］中的類(lèi)別標(biāo)記，其輸出特征加上一個(gè)線(xiàn)性分類(lèi)器即可實(shí)現(xiàn)分類(lèi)。網(wǎng)絡(luò)模型訓(xùn)練過(guò)程中，隨機(jī)初始化類(lèi)別標(biāo)記，并將其與位置嵌入進(jìn)行相加。

在注意力機(jī)制方面，本文將原始視覺(jué)轉(zhuǎn)換器中的多頭注意力模塊改變成多頭自注意力與卷積層的混合結(jié)構(gòu)，采用線(xiàn)性多頭自注意力捕獲全局上下文信息，采用卷積層捕獲局部上下文信息。最后，對(duì)全局上下文和局部上下文進(jìn)行一個(gè)與操作，提取全局-局部上下文信息。

對(duì)于能夠捕獲全局上下文信息多頭自注意力而言，其輸出形式表示為

其中，Q、K、V分別表示查詢(xún)、鍵、特征信息，分別通過(guò)3 個(gè)不同的權(quán)值矩陣WQ、WK、WV乘以輸入一維特征序列獲得，且采用softmax 函數(shù)計(jì)算注意力特征，表達(dá)式為

多頭自注意力的特征提取過(guò)程描述如下：首先，通過(guò)n個(gè)不同的線(xiàn)性變換對(duì)Q、K、V進(jìn)行投影；然后，將不同的線(xiàn)性投影結(jié)果進(jìn)行拼接，具體操作為

經(jīng)過(guò)編碼器后，特征映射的維度依然為C×（H／16，W／16）。

卷積層部分采用卷積核分別為1、3、5 的3 個(gè)并行卷積，再分別進(jìn)行批歸一化操作來(lái)提取局部上下文信息，生成的全局和局部上下文進(jìn)一步進(jìn)行深度卷積、批歸一化操作和1×1 卷積，以增強(qiáng)泛化能力。圖3 中編碼器模塊中的注意力機(jī)制混合結(jié)構(gòu)細(xì)節(jié)如圖5 所示。

圖5 注意力機(jī)制混合結(jié)構(gòu)示意圖

整個(gè)編碼流程可用式（4）表示。

其中，x表示特征映射，PE表示位置嵌入信息，l表示編碼器層數(shù)。

2．3 視覺(jué)轉(zhuǎn)換解碼器模塊

解碼器模塊由多層解碼器模塊堆疊而成，其中每層解碼器模塊包含一個(gè)多頭自注意力模塊、一個(gè)標(biāo)準(zhǔn)化層以及一個(gè)多層線(xiàn)性感知器。圖6 給出視覺(jué)轉(zhuǎn)換解碼器模塊的結(jié)構(gòu)示意圖。

圖6 視覺(jué)轉(zhuǎn)換解碼器模塊的結(jié)構(gòu)示意圖

視覺(jué)轉(zhuǎn)換解碼器模塊的流程描述如下：首先，將編碼器得到的特征映射與一組可學(xué)習(xí)的類(lèi)別嵌入輸入到解碼器；然后，利用多頭自注意力機(jī)制獲得一個(gè)注意力特征映射以及一個(gè)新的目標(biāo)區(qū)域特征映射；接下來(lái)，分別將編碼特征映射、注意力特征映射、目標(biāo)區(qū)域特征映射依次通過(guò)層歸一化、多層線(xiàn)性感知器提取特征映射；最后，進(jìn)行多層處理，獲得不同類(lèi)別的注意力特征映射。

本文在解碼器的輸入端初始化一組可學(xué)習(xí)的類(lèi)別嵌入Ecls作為查詢(xún)Q，由多層視覺(jué)轉(zhuǎn)換解碼器模塊通過(guò)多頭自注意力進(jìn)行迭代學(xué)習(xí)，且每次迭代后的類(lèi)別嵌入Ecls可表示為

其中，n表示解碼器層數(shù)。每次迭代更新一次，就會(huì)生成一個(gè)新的類(lèi)別嵌入供下一層查詢(xún)。經(jīng)過(guò)多層解碼后，最后獲得的注意力特征映射的維度為N ×M ×（H／16，W／16）。

整個(gè)解碼流程可用式（6）表示。

其中，CE表示類(lèi)別嵌入，F(xiàn)表示編碼特征映射，A表示注意力特征映射，l表示解碼器層數(shù)。

2．4 特征融合模塊

經(jīng)過(guò)視覺(jué)轉(zhuǎn)換器編碼-解碼后，將得到的注意力特征映射與主干網(wǎng)絡(luò)提取的初始特征映射合并，然后進(jìn)行每類(lèi)別上的像素分類(lèi)。由于視覺(jué)轉(zhuǎn)換器關(guān)注圖像的全局上下文信息，因而得到的注意力特征映射往往忽略一些細(xì)節(jié)特征，需要融合不同尺度的特征才能達(dá)到更好的分割效果。

與文獻(xiàn)［25］采用的特征融合方法不同，這里將最大池化層替換為包括深度卷積和點(diǎn)卷積的深度可分離卷積，其中的深度卷積是指首先對(duì)輸入特征的每個(gè)通道分別進(jìn)行卷積，然后再進(jìn)行1×1 的全卷積，這樣可大幅減少參數(shù)量并大幅降低計(jì)算量。

特征融合模塊的流程描述如下：首先，對(duì)主干網(wǎng)絡(luò)提取的第三層特征進(jìn)行自適應(yīng)平均池化，且利用空洞率分別為6、12 及18 的3 組卷積核進(jìn)行卷積操作；然后，將解碼器獲得的注意力特征映射上采樣至N×M×（H／4，W／4）維度，并與卷積神經(jīng)網(wǎng)絡(luò)提取的特征映射融合至N×（M＋C）×（H／4，W／4）維度，再經(jīng)過(guò)卷積等操作降至N×（H／4，W／4）維度；最后，利用平均最大池化函數(shù)獲得分割結(jié)果。

對(duì)于優(yōu)化器的選擇，很多深度學(xué)習(xí)任務(wù)都會(huì)使用基于隨機(jī)梯度下降的優(yōu)化算法，實(shí)現(xiàn)模型收斂，但隨機(jī)梯度下降算法存在以下問(wèn)題：（1）很難選擇合適的初始學(xué)習(xí)率；（2）各個(gè)參數(shù)只能使用同一種學(xué)習(xí)率；（3）學(xué)習(xí)率調(diào)整策略受限。為此，這里選擇適應(yīng)性矩估計(jì)優(yōu)化器完成模型收斂。這是因?yàn)檫m應(yīng)性矩估計(jì)優(yōu)化器結(jié)合了自適應(yīng)學(xué)習(xí)梯度下降算法和動(dòng)量梯度下降算法的優(yōu)點(diǎn)，因而使得適應(yīng)性矩估計(jì)優(yōu)化器既能適應(yīng)梯度稀疏問(wèn)題，又能緩解梯度振蕩問(wèn)題。

3 實(shí)驗(yàn)結(jié)果

3．1 實(shí)驗(yàn)設(shè)置

（1）利用殘差網(wǎng)絡(luò)-101 的預(yù)訓(xùn)練模型初始化網(wǎng)絡(luò)參數(shù)。

（2）對(duì)于優(yōu)化損失，設(shè)置學(xué)習(xí)率為1×10－8，權(quán)重衰減設(shè)置為1×10－4，動(dòng)量設(shè)置為0.9 的適應(yīng)性矩估計(jì)優(yōu)化器。

（3）多頭自注意力的頭部數(shù)設(shè)置為8，編碼層和解碼層的層數(shù)均設(shè)置為16，多層線(xiàn)性感知器的比率設(shè)置為3，訓(xùn)練次數(shù)設(shè)置為50 個(gè)周期，初始學(xué)習(xí)率設(shè)置為1×10－4。

3．2 實(shí)驗(yàn)結(jié)果

由表1 所示的實(shí)驗(yàn)結(jié)果可以看出，本文所提方法的準(zhǔn)確率和平均交并比分別達(dá)到最高的94.85%和73.86%。相較于性能最好的文獻(xiàn)［8］中語(yǔ)義分割方法Trans2Seg，本文所提方法的準(zhǔn)確率和平均交并比分別提高了0.86%和1.71%。

表1 Trans10K-V2 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果 %

此外，由表1 的實(shí)驗(yàn)結(jié)果還可以看出，在所有類(lèi)別的透明物體上，本文方法的分割性能總體上都得到了提高，特別是在大面積和整體透明物體方面。例如，與目前整體性能先進(jìn)的Trans2Seg 方法相比，本文提出的方法在“冰柜”、“玻璃門(mén)”和“玻璃盒子”3 個(gè)類(lèi)別的平均交并比分別提高了7.47%、2.68%和2.04%。

3．3 消融實(shí)驗(yàn)

本文以文獻(xiàn)［8］中的方法作為基線(xiàn)方法，首先通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取輸入圖像的初始特征，然后將其與位置信息輸入到Transformer 的編碼器和解碼器中提取注意力特征，最后通過(guò)一個(gè)卷積頭得到最終的分割結(jié)果。由于Transformer 和卷積神經(jīng)網(wǎng)絡(luò)都具有特征提取的功能，Transformer 中強(qiáng)大的注意力機(jī)制側(cè)重于提取圖像的全局特征，而卷積神經(jīng)網(wǎng)絡(luò)則側(cè)重于提取圖像的局部特征。對(duì)此，本文進(jìn)行了全部的消融實(shí)驗(yàn)，具體包括以下3 個(gè)方面：（1）標(biāo)準(zhǔn)的多頭注意力機(jī)制與卷積層輔助的注意力-卷積機(jī)制的對(duì)比實(shí)驗(yàn)；（2）是否有特征融合模塊的對(duì)比實(shí)驗(yàn)；（3）多頭自注意力中不同頭數(shù)的對(duì)比實(shí)驗(yàn)。

第一組實(shí)驗(yàn)研究了Transformer 編碼器中卷積層對(duì)注意力機(jī)制的輔助對(duì)實(shí)驗(yàn)結(jié)果的影響。作為對(duì)比，使用圖1（a）所示的標(biāo)準(zhǔn)Transformer 編碼器結(jié)構(gòu)。從表2 所示的對(duì)比實(shí)驗(yàn)結(jié)果可以看出，使用卷積層輔助的注意力-卷積結(jié)構(gòu)可以有效提高分割精度。

表2 注意力機(jī)制中卷積層的對(duì)比實(shí)驗(yàn)結(jié)果 %

第二組實(shí)驗(yàn)研究了特征融合模塊對(duì)實(shí)驗(yàn)結(jié)果的影響。作為對(duì)比，本文沒(méi)有采用Transformer 解碼器輸出注意力特征映射后的空洞空間卷積金字塔結(jié)構(gòu)，而是對(duì)注意力特征映射進(jìn)行上采樣后，直接與從卷積主干網(wǎng)絡(luò)中提取的初始特征映射進(jìn)行連接操作，最終得到分割結(jié)果。從表3 所示的對(duì)比實(shí)驗(yàn)結(jié)果可以看出，通過(guò)使用空洞卷積對(duì)主干網(wǎng)絡(luò)特征映射進(jìn)行多尺度處理后，再與注意力映射融合，可以獲得更好的實(shí)驗(yàn)結(jié)果。

表3 特征融合模塊的對(duì)比實(shí)驗(yàn)結(jié)果 %

第三組實(shí)驗(yàn)研究了多頭自注意力中頭部的數(shù)量對(duì)實(shí)驗(yàn)結(jié)果的影響。頭部數(shù)是影響注意力機(jī)制性能的一個(gè)重要超參數(shù)。文獻(xiàn)［31］中的研究表明，類(lèi)似于卷積神經(jīng)網(wǎng)絡(luò)同時(shí)使用多個(gè)濾波器，多頭的自注意力有助于網(wǎng)絡(luò)利用各種特征。本文設(shè)置了3 種多頭自注意力，分別為4 頭、8 頭和16 頭，進(jìn)行對(duì)比實(shí)驗(yàn)。從表4 所示的對(duì)比實(shí)驗(yàn)的結(jié)果可以看出，隨著頭數(shù)的增加，平均交并比值先增大后減小，并不是頭數(shù)越多，分割性能的提高就越大，所以選擇設(shè)置頭數(shù)為8 進(jìn)行實(shí)驗(yàn)。

表4 多頭自注意機(jī)制中不同頭數(shù)的對(duì)比實(shí)驗(yàn)結(jié)果 %

3．4 可視化實(shí)驗(yàn)結(jié)果

為了更直觀地評(píng)價(jià)本文網(wǎng)絡(luò)模型的性能，本文將日常生活中的實(shí)拍物品、一些復(fù)雜場(chǎng)景下的物體、提升最為明顯的3 類(lèi)物體以及本文方法與其他語(yǔ)義分割方法的對(duì)比進(jìn)行分割結(jié)果的可視化展示。

圖7 為對(duì)日常生活中的透明物體的實(shí)拍圖像進(jìn)行分割的結(jié)果。從分割圖像中可以看出，本文的網(wǎng)絡(luò)模型對(duì)于生活中的實(shí)拍物體也具有較高的準(zhǔn)確度，對(duì)瓶子、杯子、眼鏡等常見(jiàn)物品識(shí)別得比較精細(xì)，也進(jìn)一步說(shuō)明本方法具有一定的實(shí)際意義。

圖7 日常物品實(shí)拍分割結(jié)果

圖8 為一些在復(fù)雜場(chǎng)景下的透明物體的分割結(jié)果。例如，有樹(shù)木和樓房等其他干擾物體作為背景的窗戶(hù)和玻璃墻、商場(chǎng)中陳列商品的玻璃櫥窗、多個(gè)交叉放置的玻璃杯、裝有其他物體的杯子和罐子以及容易與玻璃墻和窗戶(hù)混淆的玻璃門(mén)等。從分割結(jié)果可以看出，在較為復(fù)雜的環(huán)境狀態(tài)下，本文方法也能夠輕松識(shí)別出透明物體的所在位置，并能分割出相對(duì)清晰的物體輪廓。

圖8 復(fù)雜場(chǎng)景下的分割結(jié)果

圖9 列出了“冰柜”、“玻璃門(mén)”和“玻璃盒子”3 種物體的原始圖像、語(yǔ)義標(biāo)注信息以及本文方法與Trans2Seg 方法的分割結(jié)果對(duì)比。可以看出，本文對(duì)這3 類(lèi)對(duì)象的分割精度有了明顯的提高。由于冰柜內(nèi)部有許多陳列物品的干擾，Trans2Seg 很容易將冰柜誤識(shí)別為窗戶(hù)或隔板。由于玻璃墻與門(mén)的特征極其相似，在識(shí)別過(guò)程中很難把握門(mén)的特征而混淆。 Trans10K-V2 數(shù)據(jù)集還將一些如透明尺子和透明牌子的物體歸類(lèi)到盒子類(lèi)別中，這進(jìn)一步增加了分割的難度。本文方法可以有效地克服這些問(wèn)題，獲得相對(duì)精確的分割結(jié)果。

圖9 3 種物體分割結(jié)果對(duì)比

圖10 為不同方法的分割結(jié)果示意圖。可以看出，與其他傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)方法相比，本文方法最終預(yù)測(cè)到的結(jié)果更加準(zhǔn)確，特別是在較為復(fù)雜的場(chǎng)景下。在物體邊緣的地方識(shí)別得更加精細(xì)，而且一些玻璃物體上的細(xì)節(jié)也可以高質(zhì)量地預(yù)測(cè)出來(lái)，例如商場(chǎng)里的玻璃門(mén)、玻璃墻和透明櫥窗。

圖10 與其他方法的分割結(jié)果對(duì)比

通過(guò)上述可視化結(jié)果可以發(fā)現(xiàn)，本文方法中強(qiáng)大的注意力機(jī)制結(jié)構(gòu)和特征融合方法能有效地捕捉到透明物體與周?chē)h(huán)境之間的關(guān)系，并能在多種干擾因素存在下，較為準(zhǔn)確地判斷出該部位屬于透明物體的一部分還是周?chē)渌矬w。

4 結(jié)束語(yǔ)

本文針對(duì)一種新的透明物體數(shù)據(jù)集的語(yǔ)義分割方法進(jìn)行了相關(guān)研究。以Trans2Seg 方法作為基線(xiàn)，提出了一種基于Transformer 的分割網(wǎng)絡(luò)，并在此基礎(chǔ)上優(yōu)化了編碼-解碼過(guò)程的結(jié)構(gòu)，設(shè)計(jì)了Transformer 編碼器的多頭自注意力與卷積的混合結(jié)構(gòu)。一方面，利用傳統(tǒng)的卷積方法捕捉圖像的局部特征；另一方面，利用多頭自注意力提取圖像全局特征，更好地理解圖像上下文信息。此外，為了提高分割效果，還引入了包含空洞空間卷積金字塔結(jié)構(gòu)的特征融合模塊。實(shí)驗(yàn)結(jié)果表明，該網(wǎng)絡(luò)模型能有效提高透明目標(biāo)分割的性能。