亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Transformer的透明物體圖像語(yǔ)義分割

        2023-09-23 02:00:02朱松豪孫冬軒
        關(guān)鍵詞:解碼器編碼器注意力

        朱松豪,孫冬軒,宋 杰

        (南京郵電大學(xué) 自動(dòng)化學(xué)院、人工智能學(xué)院,江蘇 南京 210023)

        語(yǔ)義分割作為計(jì)算機(jī)視覺(jué)研究的重要內(nèi)容之一,結(jié)合了目標(biāo)檢測(cè)、圖像分類(lèi)和圖像分割。 通過(guò)某種方法將圖像中的每個(gè)像素進(jìn)行分類(lèi),最終得到一幅具有語(yǔ)義標(biāo)注的分割圖像,這種像素級(jí)分割也被稱(chēng)為密集預(yù)測(cè)。

        隨著全卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)[1],深度學(xué)習(xí)逐漸用于解決圖像語(yǔ)義分割問(wèn)題。 由于圖像分類(lèi)和語(yǔ)義分割間存在著密切的聯(lián)系,因此許多先進(jìn)的語(yǔ)義分割框架都是基于ImageNet 的圖像分類(lèi)體系的變體,如AlexNet[2]、VGGNet[3]和GoogleNet[4]。 全卷積神經(jīng)網(wǎng)絡(luò)通過(guò)將以上這些分類(lèi)網(wǎng)絡(luò)的全連接層調(diào)整為卷積層,再經(jīng)過(guò)端到端、像素到像素的訓(xùn)練,語(yǔ)義分割性能超越傳統(tǒng)機(jī)器學(xué)習(xí)方法。

        從模式識(shí)別的角度,語(yǔ)義分割問(wèn)題可視為一個(gè)結(jié)構(gòu)化預(yù)測(cè)問(wèn)題,其難點(diǎn)在于如何設(shè)計(jì)能夠有效捕獲上下文信息的模塊。 這方面的一個(gè)典型例子是空洞卷積[5],它通過(guò)在卷積核中“膨脹”孔洞增加感受野。 隨著自然語(yǔ)言處理的巨大成功[6],Transformer橫空出世,創(chuàng)造性地實(shí)現(xiàn)了對(duì)序列化數(shù)據(jù)的并行處理,極大提高了計(jì)算效率,因此Transformer 被引入視覺(jué)任務(wù)。 Dosovitskiy 等[7]提出視覺(jué)Transformer,首次將Transformer 引入計(jì)算機(jī)視覺(jué)領(lǐng)域。 按照自然語(yǔ)言處理的思路,Dosovitskiy 等將圖像分割成多個(gè)線(xiàn)性嵌入的圖像塊,并將這些圖像塊輸入帶有位置嵌入的標(biāo)準(zhǔn)Transformer,作為向量進(jìn)行多頭注意力操作,實(shí)現(xiàn)圖像全局上下文信息的捕獲,從而在ImageNet 上獲得了令人印象深刻的性能。

        作為T(mén)rans10K-V2 數(shù)據(jù)集的創(chuàng)作者,Xie 等[8]提出用于解決透明物體語(yǔ)義分割的方法,該方法通過(guò)將卷積神經(jīng)網(wǎng)絡(luò)提取的初始特征和位置信息輸入到Transformer,用以提取注意力特征,最后通過(guò)一個(gè)小的卷積頭獲得最終的語(yǔ)義分割結(jié)果。 由于透明物體具有透視、反射等特殊性質(zhì),因此需要借助豐富的上下文信息才能推斷某個(gè)像素到底屬于哪個(gè)類(lèi)別。 受該方法啟示,本文在編碼器的注意力模塊中增加了一個(gè)卷積模塊,如圖1 所示,其中圖1(a)為文獻(xiàn)[7]中編碼器部分的結(jié)構(gòu),圖1(b)為改進(jìn)后的混合結(jié)構(gòu)。 其多頭注意力模塊用于捕獲圖像的全局信息,卷積模塊用于捕獲圖像的局部信息,這對(duì)于改善復(fù)雜場(chǎng)景下的語(yǔ)義分割性能至關(guān)重要。

        圖1 Transformer 編碼器結(jié)構(gòu)示意圖

        文獻(xiàn)[9]利用空洞空間卷積池化金字塔獲取多尺度信息,用以獲取更精確的分割結(jié)果。 文獻(xiàn)[10]利用空洞空間卷積池化金字塔挖掘多尺度卷積特征,并對(duì)圖像全局特征進(jìn)行編碼。 受該方法啟示,本文在最后的特征融合模塊引入了改進(jìn)的金字塔模塊,將主干網(wǎng)絡(luò)提取的特征映射與注意力特征映射相結(jié)合,進(jìn)一步提升透明物體語(yǔ)義分割效果。

        本文所提方法主要貢獻(xiàn)描述如下:

        (1) 為更好地捕獲圖像上下文信息,提出將多頭自注意力與卷積相結(jié)合的注意力機(jī)制模塊引入Transformer 編碼器,以期獲得更為精確的特征映射;

        (2) 為 更 好 地 融 合 多 尺 度 特 征 映 射, 在Transformer 解碼器得到注意力特征映射后,引入了包含空洞空間卷積池化金字塔結(jié)構(gòu)的特征融合模塊,以期更好地融合主干網(wǎng)絡(luò)特征映射和注意力特征映射,用以提升透明物體語(yǔ)義分割效果;

        (3) 本文所提方法模型在Trans10K-v2 數(shù)據(jù)集上展現(xiàn)了良好的性能。

        1 相關(guān)工作

        1.1 語(yǔ)義分割

        作為深度學(xué)習(xí)開(kāi)山之作的全卷積神經(jīng)網(wǎng)絡(luò),其將傳統(tǒng)的分割方法轉(zhuǎn)換為端到端的全卷積分類(lèi)網(wǎng)絡(luò)。 之后,研究人員從不同角度致力于改善全卷積神經(jīng)網(wǎng)絡(luò)。 繼承全卷積神經(jīng)網(wǎng)絡(luò)的思想,文獻(xiàn)[11]提出基于編解碼結(jié)構(gòu)和跳躍連接的分割方法。 文獻(xiàn)[12]將邊界信息引入條件隨機(jī)場(chǎng),用于改進(jìn)分割結(jié)果。 文獻(xiàn)[5,13]均通過(guò)引入空洞卷積擴(kuò)大感受野,提高語(yǔ)義分割效果。 文獻(xiàn)[14]利用金字塔解析模塊獲取不同區(qū)域上下文信息,用于解決語(yǔ)義分割問(wèn)題。 同時(shí),基于注意力機(jī)制的網(wǎng)絡(luò)模型也廣泛用于捕獲上下文信息。 文獻(xiàn)[15]利用點(diǎn)式空間注意模塊,動(dòng)態(tài)捕捉上下文信息,研究結(jié)果表明,全局上下文信息有利于提高場(chǎng)景分割精度。 文獻(xiàn)[16]的網(wǎng)絡(luò)模型中同時(shí)嵌入了空間注意力機(jī)制和通道注意力機(jī)制。 上述這些方法的主干網(wǎng)絡(luò)依然基于全連接網(wǎng)絡(luò),其中的編碼和特征提取部分大多都基于文獻(xiàn)[3]提出的VGG 和文獻(xiàn)[17]提出的ResNet 等經(jīng)典卷積網(wǎng)絡(luò)。

        1.2 視覺(jué)任務(wù)中的Transformer

        文獻(xiàn)[6]中Transformer 和自注意力模型的出現(xiàn),突破性地改變了自然語(yǔ)言處理的研究現(xiàn)狀。 文獻(xiàn)[7]首次將自然語(yǔ)言處理中的純Transformer 引入視覺(jué)任務(wù),構(gòu)成視覺(jué)Transformer,并在圖像分類(lèi)方面取得令人滿(mǎn)意的結(jié)果,為在語(yǔ)義分割模型中開(kāi)發(fā)基于純Transformer 編碼器的設(shè)計(jì)提供了直接啟發(fā)。在目標(biāo)檢測(cè)領(lǐng)域,文獻(xiàn)[18]利用Transformer 對(duì)目標(biāo)位置信息和全局圖像上下文關(guān)系進(jìn)行推理,且不使用非極大值抑制,而直接輸出最終檢測(cè)結(jié)果。 文獻(xiàn)[19]首次在Transformer 中引入金字塔結(jié)構(gòu),展現(xiàn)了在視覺(jué)任務(wù)中純Transformer 模型與卷積神經(jīng)網(wǎng)絡(luò)模 型 相 似 的 潛 力。 文 獻(xiàn)[20] 采 用 視 覺(jué)Transformer 作為編碼器,卷積神經(jīng)網(wǎng)絡(luò)作為解碼器,獲得了不錯(cuò)的性能。

        1.3 特征融合

        文獻(xiàn)[11]中的U-Net 方法在下采樣時(shí)提取分辨率較小的特征,在上采樣時(shí)又將分辨率逐層回復(fù)到原來(lái)大小,在此過(guò)程中采用串聯(lián)方式將兩種尺度特征相結(jié)合,得到預(yù)測(cè)結(jié)果。 這種思想也常常出現(xiàn)在Transformer 結(jié)構(gòu)中,但最后的融合特征尺寸過(guò)大,訓(xùn)練時(shí)間和預(yù)測(cè)時(shí)間較長(zhǎng)。 文獻(xiàn)[21]中的特征金字塔網(wǎng)絡(luò)模型既可用于目標(biāo)檢測(cè),也可用于語(yǔ)義分割,與U-Net 網(wǎng)絡(luò)模型類(lèi)似,特征金字塔網(wǎng)絡(luò)模型也是基于編碼-解碼過(guò)程提取全局特征,區(qū)別在于特征金字塔網(wǎng)絡(luò)模型采用疊加方式,并基于多個(gè)特征映射進(jìn)行預(yù)測(cè)分類(lèi)。 文獻(xiàn)[9]提出基于空洞卷積特征金字塔的特征融合方式,對(duì)于主干網(wǎng)絡(luò)提取的不同尺度的特征映射,分別使用不同空洞率的卷積得到新的特征映射,再進(jìn)行融合,獲得最終的特征。 文獻(xiàn)[22]利用跨步卷積和空洞卷積進(jìn)行特征融合,進(jìn)一步提高了語(yǔ)義分割結(jié)果。

        1.4 Trans10K-V2 數(shù)據(jù)集

        文獻(xiàn)[23]中的Trans10K 數(shù)據(jù)集是第一個(gè)大規(guī)?,F(xiàn)實(shí)世界透明物體語(yǔ)義分割數(shù)據(jù)集,但其只有兩個(gè)類(lèi)別。 Trans10K-V2 數(shù)據(jù)集在其基礎(chǔ)上,進(jìn)一步使用更細(xì)粒度的類(lèi)別對(duì)圖像進(jìn)行注釋。 Trans10KV2 數(shù)據(jù)集共有10 428 張圖像,分為2 個(gè)大類(lèi)以及11 小類(lèi),具體信息如下:(1) 透明物品。 茶杯、玻璃瓶、玻璃罐、玻璃碗和眼鏡。 (2) 透明材質(zhì)。 窗戶(hù)、透明隔板、透明盒子、冰柜蓋板、玻璃墻和玻璃門(mén)。這些物體常出現(xiàn)在人們的生活中,更適合現(xiàn)實(shí)世界的應(yīng)用。 圖2 給出來(lái)自Trans10K-V2 數(shù)據(jù)集的例圖。

        圖2 Trans10K-V2 數(shù)據(jù)集示意圖

        2 本文所提方法

        圖3 給出本文所提出的基于視覺(jué)轉(zhuǎn)換器的透明物體語(yǔ)義分割網(wǎng)絡(luò)模型結(jié)構(gòu)圖。 首先,利用卷積神經(jīng)網(wǎng)絡(luò)提取輸入圖像的初始特征映射,并將其展開(kāi)平鋪成一維特征序列;然后,將得到的一維特征序列輸入至帶有位置嵌入的視覺(jué)轉(zhuǎn)換器的編碼器,用以獲取帶有注意力的編碼特征映射;其次,將編碼特征映射與一組可學(xué)習(xí)的類(lèi)別嵌入傳至視覺(jué)轉(zhuǎn)換器的解碼器,用以獲取注意力特征映射,其中N為類(lèi)別數(shù),M為多注意力的頭數(shù);最后,利用不同采樣率的空洞卷積,實(shí)現(xiàn)來(lái)自卷積神經(jīng)網(wǎng)絡(luò)的初始特征映射與來(lái)自視覺(jué)轉(zhuǎn)換器的注意力特征映射的融合,得到最終的透明物體語(yǔ)義分割結(jié)果。

        圖3 本文所提網(wǎng)絡(luò)模型的結(jié)構(gòu)示意圖

        2.1 主干網(wǎng)絡(luò)模塊

        對(duì)于圖像語(yǔ)義分割算法而言,絕大多數(shù)主干網(wǎng)絡(luò)均為來(lái)自文獻(xiàn)[17]的殘差網(wǎng)絡(luò),該網(wǎng)絡(luò)的核心思想是引入一個(gè)恒等捷徑連接結(jié)構(gòu),直接跳過(guò)一個(gè)或多個(gè)中間層。 通過(guò)殘差學(xué)習(xí),殘差網(wǎng)絡(luò)能夠有效解決隨著網(wǎng)絡(luò)深度不斷加深,網(wǎng)絡(luò)性能不斷退化的問(wèn)題。 特征提取過(guò)程中,通常選取殘差網(wǎng)絡(luò)第一層至第五層的特征映射,這是因?yàn)橄噍^于輸入圖像原始尺寸,第一層至第五層的特征映射分別縮減至1/2~1/25。

        如圖3 所示,將一幅尺寸為H×W×3 的原始圖像,輸入至殘差網(wǎng)絡(luò)-101 網(wǎng)絡(luò),通過(guò)下采樣進(jìn)行提取特征,文中提取網(wǎng)絡(luò)第四層的特征映射。 由于視覺(jué)轉(zhuǎn)換器的輸入為一維數(shù)據(jù)序列,因此將二維圖像特征進(jìn)行分割并拉伸為C×(H/16,W/16)的圖像塊序列(C表示特征通道數(shù)),以便傳入編碼器中進(jìn)行編碼。

        2.2 視覺(jué)轉(zhuǎn)換編碼器模塊

        視覺(jué)轉(zhuǎn)換編碼器模塊由多層編碼器模塊堆疊而成,其中每層編碼器模塊由一個(gè)注意力模塊、一個(gè)多層線(xiàn)性感知器以及一個(gè)歸一化層組成,需要注意的是,這里的注意力模塊包含一個(gè)多頭自注意力模塊和一個(gè)卷積模塊,多層線(xiàn)性感知器包含一個(gè)ReLU激活函數(shù)和兩個(gè)全連接層。 圖4 給出視覺(jué)轉(zhuǎn)換編碼器模塊的結(jié)構(gòu)示意圖。

        圖4 視覺(jué)轉(zhuǎn)換編碼器模塊的結(jié)構(gòu)示意圖

        視覺(jué)轉(zhuǎn)換編碼器模塊的流程描述如下:首先,利用殘差網(wǎng)絡(luò)提取特征映射,并將其與位置嵌入信息作為視覺(jué)轉(zhuǎn)換編碼器的輸入;然后,依次利用層標(biāo)準(zhǔn)化和多頭自注意力提取特征映射;接下來(lái),依次利用層標(biāo)準(zhǔn)化和多層線(xiàn)性感知器提取特征映射,并進(jìn)行多層以上的處理過(guò)程;最后,再次利用層標(biāo)準(zhǔn)化獲得最終的編碼特征映射。

        由于視覺(jué)轉(zhuǎn)換編碼器的輸入特征須是一維序列,因此為彌補(bǔ)空間維度上的缺失,本文引入文獻(xiàn)[24]中的一組位置嵌入補(bǔ)充至一維特征序列,用以提供這些圖像塊在整幅圖像中的絕對(duì)位置信息和相對(duì)位置信息,此時(shí)的位置嵌入與展開(kāi)的特征映射具有相同的維度C×(H/16,W/16)。 除了采用位置嵌入策略外,本文還引入了文獻(xiàn)[7]中的類(lèi)別標(biāo)記,其輸出特征加上一個(gè)線(xiàn)性分類(lèi)器即可實(shí)現(xiàn)分類(lèi)。 網(wǎng)絡(luò)模型訓(xùn)練過(guò)程中,隨機(jī)初始化類(lèi)別標(biāo)記,并將其與位置嵌入進(jìn)行相加。

        在注意力機(jī)制方面,本文將原始視覺(jué)轉(zhuǎn)換器中的多頭注意力模塊改變成多頭自注意力與卷積層的混合結(jié)構(gòu),采用線(xiàn)性多頭自注意力捕獲全局上下文信息,采用卷積層捕獲局部上下文信息。 最后,對(duì)全局上下文和局部上下文進(jìn)行一個(gè)與操作,提取全局-局部上下文信息。

        對(duì)于能夠捕獲全局上下文信息多頭自注意力而言,其輸出形式表示為

        其中,Q、K、V分別表示查詢(xún)、鍵、特征信息,分別通過(guò)3 個(gè)不同的權(quán)值矩陣WQ、WK、WV乘以輸入一維特征序列獲得,且采用softmax 函數(shù)計(jì)算注意力特征,表達(dá)式為

        多頭自注意力的特征提取過(guò)程描述如下:首先,通過(guò)n個(gè)不同的線(xiàn)性變換對(duì)Q、K、V進(jìn)行投影;然后,將不同的線(xiàn)性投影結(jié)果進(jìn)行拼接,具體操作為

        經(jīng)過(guò)編碼器后,特征映射的維度依然為C×(H/16,W/16)。

        卷積層部分采用卷積核分別為1、3、5 的3 個(gè)并行卷積,再分別進(jìn)行批歸一化操作來(lái)提取局部上下文信息,生成的全局和局部上下文進(jìn)一步進(jìn)行深度卷積、批歸一化操作和1×1 卷積,以增強(qiáng)泛化能力。圖3 中編碼器模塊中的注意力機(jī)制混合結(jié)構(gòu)細(xì)節(jié)如圖5 所示。

        圖5 注意力機(jī)制混合結(jié)構(gòu)示意圖

        整個(gè)編碼流程可用式(4)表示。

        其中,x表示特征映射,PE表示位置嵌入信息,l表示編碼器層數(shù)。

        2.3 視覺(jué)轉(zhuǎn)換解碼器模塊

        解碼器模塊由多層解碼器模塊堆疊而成,其中每層解碼器模塊包含一個(gè)多頭自注意力模塊、一個(gè)標(biāo)準(zhǔn)化層以及一個(gè)多層線(xiàn)性感知器。 圖6 給出視覺(jué)轉(zhuǎn)換解碼器模塊的結(jié)構(gòu)示意圖。

        圖6 視覺(jué)轉(zhuǎn)換解碼器模塊的結(jié)構(gòu)示意圖

        視覺(jué)轉(zhuǎn)換解碼器模塊的流程描述如下:首先,將編碼器得到的特征映射與一組可學(xué)習(xí)的類(lèi)別嵌入輸入到解碼器;然后,利用多頭自注意力機(jī)制獲得一個(gè)注意力特征映射以及一個(gè)新的目標(biāo)區(qū)域特征映射;接下來(lái),分別將編碼特征映射、注意力特征映射、目標(biāo)區(qū)域特征映射依次通過(guò)層歸一化、多層線(xiàn)性感知器提取特征映射;最后,進(jìn)行多層處理,獲得不同類(lèi)別的注意力特征映射。

        本文在解碼器的輸入端初始化一組可學(xué)習(xí)的類(lèi)別嵌入Ecls作為查詢(xún)Q,由多層視覺(jué)轉(zhuǎn)換解碼器模塊通過(guò)多頭自注意力進(jìn)行迭代學(xué)習(xí),且每次迭代后的類(lèi)別嵌入Ecls可表示為

        其中,n表示解碼器層數(shù)。 每次迭代更新一次,就會(huì)生成一個(gè)新的類(lèi)別嵌入供下一層查詢(xún)。 經(jīng)過(guò)多層解碼后,最后獲得的注意力特征映射的維度為N ×M ×(H/16,W/16)。

        整個(gè)解碼流程可用式(6)表示。

        其中,CE表示類(lèi)別嵌入,F(xiàn)表示編碼特征映射,A表示注意力特征映射,l表示解碼器層數(shù)。

        2.4 特征融合模塊

        經(jīng)過(guò)視覺(jué)轉(zhuǎn)換器編碼-解碼后,將得到的注意力特征映射與主干網(wǎng)絡(luò)提取的初始特征映射合并,然后進(jìn)行每類(lèi)別上的像素分類(lèi)。 由于視覺(jué)轉(zhuǎn)換器關(guān)注圖像的全局上下文信息,因而得到的注意力特征映射往往忽略一些細(xì)節(jié)特征,需要融合不同尺度的特征才能達(dá)到更好的分割效果。

        與文獻(xiàn)[25]采用的特征融合方法不同,這里將最大池化層替換為包括深度卷積和點(diǎn)卷積的深度可分離卷積,其中的深度卷積是指首先對(duì)輸入特征的每個(gè)通道分別進(jìn)行卷積,然后再進(jìn)行1×1 的全卷積,這樣可大幅減少參數(shù)量并大幅降低計(jì)算量。

        特征融合模塊的流程描述如下:首先,對(duì)主干網(wǎng)絡(luò)提取的第三層特征進(jìn)行自適應(yīng)平均池化,且利用空洞率分別為6、12 及18 的3 組卷積核進(jìn)行卷積操作;然后,將解碼器獲得的注意力特征映射上采樣至N×M×(H/4,W/4)維度,并與卷積神經(jīng)網(wǎng)絡(luò)提取的特征映射融合至N×(M+C)×(H/4,W/4)維度,再經(jīng)過(guò)卷積等操作降至N×(H/4,W/4)維度;最后,利用平均最大池化函數(shù)獲得分割結(jié)果。

        對(duì)于優(yōu)化器的選擇,很多深度學(xué)習(xí)任務(wù)都會(huì)使用基于隨機(jī)梯度下降的優(yōu)化算法,實(shí)現(xiàn)模型收斂,但隨機(jī)梯度下降算法存在以下問(wèn)題:(1) 很難選擇合適的初始學(xué)習(xí)率;(2) 各個(gè)參數(shù)只能使用同一種學(xué)習(xí)率;(3) 學(xué)習(xí)率調(diào)整策略受限。 為此,這里選擇適應(yīng)性矩估計(jì)優(yōu)化器完成模型收斂。 這是因?yàn)檫m應(yīng)性矩估計(jì)優(yōu)化器結(jié)合了自適應(yīng)學(xué)習(xí)梯度下降算法和動(dòng)量梯度下降算法的優(yōu)點(diǎn),因而使得適應(yīng)性矩估計(jì)優(yōu)化器既能適應(yīng)梯度稀疏問(wèn)題,又能緩解梯度振蕩問(wèn)題。

        3 實(shí)驗(yàn)結(jié)果

        3.1 實(shí)驗(yàn)設(shè)置

        (1) 利用殘差網(wǎng)絡(luò)-101 的預(yù)訓(xùn)練模型初始化網(wǎng)絡(luò)參數(shù)。

        (2) 對(duì)于優(yōu)化損失,設(shè)置學(xué)習(xí)率為1×10-8,權(quán)重衰減設(shè)置為1×10-4,動(dòng)量設(shè)置為0.9 的適應(yīng)性矩估計(jì)優(yōu)化器。

        (3) 多頭自注意力的頭部數(shù)設(shè)置為8,編碼層和解碼層的層數(shù)均設(shè)置為16,多層線(xiàn)性感知器的比率設(shè)置為3,訓(xùn)練次數(shù)設(shè)置為50 個(gè)周期,初始學(xué)習(xí)率設(shè)置為1×10-4。

        3.2 實(shí)驗(yàn)結(jié)果

        由表1 所示的實(shí)驗(yàn)結(jié)果可以看出,本文所提方法的準(zhǔn)確率和平均交并比分別達(dá)到最高的94.85%和73.86%。 相較于性能最好的文獻(xiàn)[8]中語(yǔ)義分割方法Trans2Seg,本文所提方法的準(zhǔn)確率和平均交并比分別提高了0.86%和1.71%。

        表1 Trans10K-V2 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果 %

        此外,由表1 的實(shí)驗(yàn)結(jié)果還可以看出,在所有類(lèi)別的透明物體上,本文方法的分割性能總體上都得到了提高,特別是在大面積和整體透明物體方面。 例如,與目前整體性能先進(jìn)的Trans2Seg 方法相比,本文提出的方法在“冰柜”、“玻璃門(mén)”和“玻璃盒子”3 個(gè)類(lèi)別的平均交并比分別提高了7.47%、2.68%和2.04%。

        3.3 消融實(shí)驗(yàn)

        本文以文獻(xiàn)[8]中的方法作為基線(xiàn)方法,首先通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取輸入圖像的初始特征,然后將其與位置信息輸入到Transformer 的編碼器和解碼器中提取注意力特征,最后通過(guò)一個(gè)卷積頭得到最終的分割結(jié)果。 由于Transformer 和卷積神經(jīng)網(wǎng)絡(luò)都具有特征提取的功能,Transformer 中強(qiáng)大的注意力機(jī)制側(cè)重于提取圖像的全局特征,而卷積神經(jīng)網(wǎng)絡(luò)則側(cè)重于提取圖像的局部特征。 對(duì)此,本文進(jìn)行了全部的消融實(shí)驗(yàn),具體包括以下3 個(gè)方面:(1)標(biāo)準(zhǔn)的多頭注意力機(jī)制與卷積層輔助的注意力-卷積機(jī)制的對(duì)比實(shí)驗(yàn);(2) 是否有特征融合模塊的對(duì)比實(shí)驗(yàn);(3) 多頭自注意力中不同頭數(shù)的對(duì)比實(shí)驗(yàn)。

        第一組實(shí)驗(yàn)研究了Transformer 編碼器中卷積層對(duì)注意力機(jī)制的輔助對(duì)實(shí)驗(yàn)結(jié)果的影響。 作為對(duì)比,使用圖1(a)所示的標(biāo)準(zhǔn)Transformer 編碼器結(jié)構(gòu)。 從表2 所示的對(duì)比實(shí)驗(yàn)結(jié)果可以看出,使用卷積層輔助的注意力-卷積結(jié)構(gòu)可以有效提高分割精度。

        表2 注意力機(jī)制中卷積層的對(duì)比實(shí)驗(yàn)結(jié)果 %

        第二組實(shí)驗(yàn)研究了特征融合模塊對(duì)實(shí)驗(yàn)結(jié)果的影響。 作為對(duì)比,本文沒(méi)有采用Transformer 解碼器輸出注意力特征映射后的空洞空間卷積金字塔結(jié)構(gòu),而是對(duì)注意力特征映射進(jìn)行上采樣后,直接與從卷積主干網(wǎng)絡(luò)中提取的初始特征映射進(jìn)行連接操作,最終得到分割結(jié)果。 從表3 所示的對(duì)比實(shí)驗(yàn)結(jié)果可以看出,通過(guò)使用空洞卷積對(duì)主干網(wǎng)絡(luò)特征映射進(jìn)行多尺度處理后,再與注意力映射融合,可以獲得更好的實(shí)驗(yàn)結(jié)果。

        表3 特征融合模塊的對(duì)比實(shí)驗(yàn)結(jié)果 %

        第三組實(shí)驗(yàn)研究了多頭自注意力中頭部的數(shù)量對(duì)實(shí)驗(yàn)結(jié)果的影響。 頭部數(shù)是影響注意力機(jī)制性能的一個(gè)重要超參數(shù)。 文獻(xiàn)[31]中的研究表明,類(lèi)似于卷積神經(jīng)網(wǎng)絡(luò)同時(shí)使用多個(gè)濾波器,多頭的自注意力有助于網(wǎng)絡(luò)利用各種特征。 本文設(shè)置了3 種多頭自注意力,分別為4 頭、8 頭和16 頭,進(jìn)行對(duì)比實(shí)驗(yàn)。 從表4 所示的對(duì)比實(shí)驗(yàn)的結(jié)果可以看出,隨著頭數(shù)的增加,平均交并比值先增大后減小,并不是頭數(shù)越多,分割性能的提高就越大,所以選擇設(shè)置頭數(shù)為8 進(jìn)行實(shí)驗(yàn)。

        表4 多頭自注意機(jī)制中不同頭數(shù)的對(duì)比實(shí)驗(yàn)結(jié)果 %

        3.4 可視化實(shí)驗(yàn)結(jié)果

        為了更直觀地評(píng)價(jià)本文網(wǎng)絡(luò)模型的性能,本文將日常生活中的實(shí)拍物品、一些復(fù)雜場(chǎng)景下的物體、提升最為明顯的3 類(lèi)物體以及本文方法與其他語(yǔ)義分割方法的對(duì)比進(jìn)行分割結(jié)果的可視化展示。

        圖7 為對(duì)日常生活中的透明物體的實(shí)拍圖像進(jìn)行分割的結(jié)果。 從分割圖像中可以看出,本文的網(wǎng)絡(luò)模型對(duì)于生活中的實(shí)拍物體也具有較高的準(zhǔn)確度,對(duì)瓶子、杯子、眼鏡等常見(jiàn)物品識(shí)別得比較精細(xì),也進(jìn)一步說(shuō)明本方法具有一定的實(shí)際意義。

        圖7 日常物品實(shí)拍分割結(jié)果

        圖8 為一些在復(fù)雜場(chǎng)景下的透明物體的分割結(jié)果。 例如,有樹(shù)木和樓房等其他干擾物體作為背景的窗戶(hù)和玻璃墻、商場(chǎng)中陳列商品的玻璃櫥窗、多個(gè)交叉放置的玻璃杯、裝有其他物體的杯子和罐子以及容易與玻璃墻和窗戶(hù)混淆的玻璃門(mén)等。 從分割結(jié)果可以看出,在較為復(fù)雜的環(huán)境狀態(tài)下,本文方法也能夠輕松識(shí)別出透明物體的所在位置,并能分割出相對(duì)清晰的物體輪廓。

        圖8 復(fù)雜場(chǎng)景下的分割結(jié)果

        圖9 列出了“冰柜”、“玻璃門(mén)”和“玻璃盒子”3 種物體的原始圖像、語(yǔ)義標(biāo)注信息以及本文方法與Trans2Seg 方法的分割結(jié)果對(duì)比。 可以看出,本文對(duì)這3 類(lèi)對(duì)象的分割精度有了明顯的提高。 由于冰柜內(nèi)部有許多陳列物品的干擾,Trans2Seg 很容易將冰柜誤識(shí)別為窗戶(hù)或隔板。由于玻璃墻與門(mén)的特征極其相似,在識(shí)別過(guò)程中很難把握門(mén)的特征而混淆。 Trans10K-V2 數(shù)據(jù)集還將一些如透明尺子和透明牌子的物體歸類(lèi)到盒子類(lèi)別中,這進(jìn)一步增加了分割的難度。 本文方法可以有效地克服這些問(wèn)題,獲得相對(duì)精確的分割結(jié)果。

        圖9 3 種物體分割結(jié)果對(duì)比

        圖10 為不同方法的分割結(jié)果示意圖。 可以看出,與其他傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)方法相比,本文方法最終預(yù)測(cè)到的結(jié)果更加準(zhǔn)確,特別是在較為復(fù)雜的場(chǎng)景下。 在物體邊緣的地方識(shí)別得更加精細(xì),而且一些玻璃物體上的細(xì)節(jié)也可以高質(zhì)量地預(yù)測(cè)出來(lái),例如商場(chǎng)里的玻璃門(mén)、玻璃墻和透明櫥窗。

        圖10 與其他方法的分割結(jié)果對(duì)比

        通過(guò)上述可視化結(jié)果可以發(fā)現(xiàn),本文方法中強(qiáng)大的注意力機(jī)制結(jié)構(gòu)和特征融合方法能有效地捕捉到透明物體與周?chē)h(huán)境之間的關(guān)系,并能在多種干擾因素存在下,較為準(zhǔn)確地判斷出該部位屬于透明物體的一部分還是周?chē)渌矬w。

        4 結(jié)束語(yǔ)

        本文針對(duì)一種新的透明物體數(shù)據(jù)集的語(yǔ)義分割方法進(jìn)行了相關(guān)研究。 以Trans2Seg 方法作為基線(xiàn),提出了一種基于Transformer 的分割網(wǎng)絡(luò),并在此基礎(chǔ)上優(yōu)化了編碼-解碼過(guò)程的結(jié)構(gòu),設(shè)計(jì)了Transformer 編碼器的多頭自注意力與卷積的混合結(jié)構(gòu)。 一方面,利用傳統(tǒng)的卷積方法捕捉圖像的局部特征;另一方面,利用多頭自注意力提取圖像全局特征,更好地理解圖像上下文信息。 此外,為了提高分割效果,還引入了包含空洞空間卷積金字塔結(jié)構(gòu)的特征融合模塊。 實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)模型能有效提高透明目標(biāo)分割的性能。

        猜你喜歡
        解碼器編碼器注意力
        讓注意力“飛”回來(lái)
        科學(xué)解碼器(一)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        線(xiàn)圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        基于FPGA的同步機(jī)軸角編碼器
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
        A Beautiful Way Of Looking At Things
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        黑人巨大白妞出浆| 中文字幕日韩有码在线| 国产女主播大秀在线观看| 上海熟女av黑人在线播放| 亚洲中文字幕无码av| 日产精品久久久久久久| 久久久久国产精品四虎| 一区二区三区精品免费| 无码熟妇人妻av影音先锋| 久久亚洲精品无码gv| 亚洲AV秘 无码一区二区在线| 日韩av最新在线地址| 蜜桃视频在线观看免费亚洲| 久久99国产精品久久99| 日韩无套内射视频6| WWW拍拍拍| 成人免费播放片高清在线观看| 国产婷婷色一区二区三区深爱网| 亚洲综合欧美在线一区在线播放| 狠狠躁夜夜躁AV网站中文字幕| av天堂在线免费播放| 欧洲美女黑人粗性暴交视频| 国产又爽又黄又刺激的视频| 色婷婷精品| 在线观看日韩精品视频网站| 一道之本加勒比热东京| 亚洲av无码一区二区三区天堂古代| 亚洲一区中文字幕在线电影网| 人妻av一区二区三区av免费 | 久久精品国产亚洲av麻豆色欲 | 曰韩精品无码一区二区三区| 国产一区二区三区特黄| 精品无码人妻夜人多侵犯18| 成人欧美一区二区三区| 最近免费中文字幕| 欧美h久免费女| 精品在线视频在线视频在线视频| 国产公开免费人成视频| 好日子在线观看视频大全免费动漫| 狠干狠爱无码区| 狼友AV在线|