亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        引入獨立融合分支的雙模態(tài)語義分割網(wǎng)絡(luò)

        2022-08-12 02:30:12樂,王
        計算機(jī)工程 2022年8期
        關(guān)鍵詞:編碼器紅外像素

        田 樂,王 歡

        (南京理工大學(xué)計算機(jī)科學(xué)與工程學(xué)院,南京 210094)

        0 概述

        在全天時條件下的語義分割任務(wù)中,惡劣光照、雨雪等天氣條件會對可見光和熱紅外相機(jī)成像造成不同程度的干擾,因此,有很多研究人員聯(lián)合可見光和紅外熱圖像的信息[1-2]來設(shè)計雙模態(tài)語義分割方法。可見光和熱紅外相機(jī)具有多種可以互補(bǔ)的優(yōu)勢,例如,在白天場景下,可見光相機(jī)分辨率高,成像清晰;在黑夜環(huán)境中,熱紅外不受低光照的影響,并且具有穿透霧霾等遮擋物的能力,在惡劣場景下依然能夠觀測到車輛、行人等與背景有溫度差異的目標(biāo)。通過互補(bǔ)這2 個傳感器的信息,能夠提升全天時的道路場景語義分割性能。但是,SUN 等[3]指出直接合并可見光、紅外圖像的所有通道信息作為網(wǎng)絡(luò)模型的輸入時效果并不好,有些甚至不如單模態(tài)網(wǎng)絡(luò),造成該現(xiàn)象的原因主要與雙模態(tài)數(shù)據(jù)的差異性有關(guān)。

        針對上述問題,主流方法大都采用2 支編碼器來提取雙模態(tài)圖像的特征,然后對相同級別的特征圖進(jìn)行融合,以此來互補(bǔ)雙模態(tài)信息。文獻(xiàn)[4-5]中提出的多模態(tài)融合網(wǎng)絡(luò)均是采用對應(yīng)元素相加的方式組合每個模態(tài)的特征,但是這些研究并沒有在雙模態(tài)特征的選擇上表現(xiàn)出傾向性,當(dāng)遇到雙模態(tài)圖像包含的信息量嚴(yán)重失衡時,方法的效果將下降,例如,當(dāng)相機(jī)視野內(nèi)所有物體的溫度差異很小時,熱圖像的信息量就很有限;在光照強(qiáng)烈或嚴(yán)重不足時,RGB 相機(jī)產(chǎn)生的圖像會出現(xiàn)大面積白色或黑色等無效信息。文獻(xiàn)[6]針對元素相加融合雙模態(tài)信息的方法進(jìn)行改進(jìn),在網(wǎng)絡(luò)中加入模態(tài)加權(quán)融合層以加強(qiáng)對融合特征圖的模態(tài)選擇,該方法能夠在夜間光照缺乏時檢測出行人目標(biāo)。根據(jù)雙模態(tài)圖像所包含信息量的多少來自適應(yīng)地將更高的權(quán)重賦予信息量貢獻(xiàn)更大的模態(tài)圖像,有利于更好地完成分割任務(wù)。

        為了有效融合可見光譜與紅外譜段信息來實現(xiàn)圖像語義分割,本文提出一種雙模態(tài)深度神經(jīng)網(wǎng)絡(luò)。在雙流網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)上,增加一支包含自適應(yīng)圖像融合模塊的獨立融合子網(wǎng)絡(luò),該子網(wǎng)絡(luò)能夠通過空間、通道注意力機(jī)制對雙模態(tài)特征進(jìn)行空間和通道上的顯著性分析,以自適應(yīng)地調(diào)整特征融合系數(shù),從而完成雙模態(tài)圖像特征級和像素級的融合。

        1 相關(guān)工作

        1.1 圖像語義分割

        圖像語義分割的目標(biāo)是對圖像的每一個像素點進(jìn)行類別預(yù)測。為了精細(xì)化圖像的分割結(jié)果,研究人員提出了眾多應(yīng)用于深度學(xué)習(xí)分割系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)和方法。BADRINARAYANAN 等[7]提出的SegNet 網(wǎng)絡(luò)通過在池化層保留池化索引實現(xiàn)了非線性的上采樣,其能夠在解碼階段融入原始圖像的空間信息。HE 等[8]提出深度殘差學(xué)習(xí)的方法,該方法解決了梯度彌散問題,使深層網(wǎng)絡(luò)的訓(xùn)練成為可能。Google 團(tuán)隊提出的GoogleNet 網(wǎng)絡(luò)證明了CNN 可以有更多的排列方式,其提出的Xception 模塊[9]不僅通過繼承Inception v3 感知模塊的功能獲得了不同尺度的特征,還利用引入的可分離卷積提高了模型的運行速率。

        此外,各種注意力機(jī)制也被應(yīng)用于語義分割領(lǐng)域。MA 等[10]通過在卷積運算后加入自身平方項的注意力機(jī)制,增強(qiáng)了深層和淺層特征在解碼器階段的融合效果。HU 等[11]從像素預(yù)測和像素分組2 個獨立的維度對語義分割重新進(jìn)行考量,使用多頭的壓縮注意力模塊增強(qiáng)像素間的密集預(yù)測。本文網(wǎng)絡(luò)模型同樣引入了注意力機(jī)制,包括空間、通道注意力機(jī)制,從而在不增加參數(shù)量的情況下使得網(wǎng)絡(luò)能夠選擇更關(guān)鍵的信息。

        1.2 多模態(tài)的語義分割

        多模態(tài)圖像能夠提供具有不同成像機(jī)理的信息,因此,在醫(yī)學(xué)領(lǐng)域得到廣泛應(yīng)用[12],多模態(tài)語義分割經(jīng)常被用于分割病變區(qū)域,如ZHOU 等[13]利用多模態(tài)圖像完成腫瘤的檢測與分割任務(wù)。

        多模態(tài)圖像語義分割在機(jī)器人環(huán)境感知中也得到應(yīng)用,常見的數(shù)據(jù)源有可見光圖像、紅外圖像以及3D 點云圖像。SUN 等[14]以DenseNet 作為編碼器主干,提出兩階段的融合策略:第一階段在RGB 編碼器中分層添加紅外特征;第二階段將融合的特征圖與對應(yīng)層級的解碼器特征圖進(jìn)行連接,以恢復(fù)密集下采樣所造成的空間信息損失。HAZIRBAS 等[15]在FuseNet 網(wǎng)絡(luò)中設(shè)計雙支VGG-16 編碼器同時提取RGB 和Depth 特征,通過密集和稀疏融合策略將深度特征融合到RGB 編碼器中。Lü 等[16]使用Resdiv模塊完成融合特征的解碼工作,其可以有效地融合顏色和紅外特征。本文網(wǎng)絡(luò)在編碼階段提出一種新的方法,在雙流網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)上增加一個獨立融合網(wǎng)絡(luò)分支,其輸入為可見光和紅外圖像,根據(jù)雙模態(tài)圖像信息量的貢獻(xiàn)度自適應(yīng)地調(diào)整融合系數(shù)以得到融合特征圖。例如,當(dāng)目標(biāo)與環(huán)境溫度相近時,紅外圖像在特征提取中提供的可用信息量較少,對于學(xué)習(xí)到的紅外特征,融合網(wǎng)絡(luò)在生成融合特征圖時就會賦予其較低的權(quán)重。

        1.3 圖像融合

        在傳統(tǒng)的圖像處理方法中,根據(jù)圖像表征層次的不同,圖像融合通常分為像素級融合、特征級融合和決策級融合這3 種層次[17]:像素級圖像融合在輸入數(shù)據(jù)層面進(jìn)行融合,最大限度地保留了圖像的細(xì)節(jié)信息;特征級融合對特征提取后的信息進(jìn)行合并處理;決策級融合是在每個模態(tài)數(shù)據(jù)單獨完成特征提取和分類后,根據(jù)每個決策的可信度做出的綜合處理。此外,基于變換域的分解重構(gòu)融合算法[18-19]也被用于可見光和紅外圖像的融合任務(wù)。

        在深度學(xué)習(xí)網(wǎng)絡(luò)中,多模態(tài)數(shù)據(jù)的融合策略有很多。本文以融合可見光、紅外2 種模態(tài)數(shù)據(jù)為例進(jìn)行介紹,這些策略也可以推廣到更多的模態(tài)問題中。用vi、ir 表示可見光、紅外2 種模態(tài),和為它們在神經(jīng)網(wǎng)絡(luò)第l層的特征圖,分別是第l層的變換函數(shù)和融合結(jié)果。3種融合策略具體如下:

        1)Addition。在雙模態(tài)特征融合上采用像素級累加的方式得到融合特征,即:

        2)Concatenation。這種策略通常會在卷積層之前沿特征圖的深度方向疊加2 種模態(tài)的數(shù)據(jù),如式(2)所示:

        其中:⊕表示張量的合并操作。

        3)Mixture of Experts?;旌蠈<揖W(wǎng)絡(luò)[20]的策略能夠通過多個專家網(wǎng)絡(luò)隱式地學(xué)習(xí)每個模態(tài)的權(quán)重圖,再和原始特征圖加權(quán)以得到最終的融合特征圖。VALADA 等[21]采用這種融合策略,根據(jù)場景條件自適應(yīng)地加權(quán)專家網(wǎng)絡(luò)得到的特征,從而完成全天時和跨季節(jié)的道路場景解析。本文以wvi、wir分別代表專家網(wǎng)絡(luò)為可見光、紅外模態(tài)預(yù)測的權(quán)重,則最終融合特征的數(shù)學(xué)表示為:

        2 本文雙模態(tài)語義分割網(wǎng)絡(luò)

        2.1 模型整體框架

        圖1 所示為本文模型的整體結(jié)構(gòu),其中,左圖是網(wǎng)絡(luò)的整體框架,右圖是上采樣塊的詳細(xì)結(jié)構(gòu),k和s分別表示卷積核的大小和步長,默認(rèn)值分別為3 和1。鑒于Encoder-Decoder 是一種有效的語義分割網(wǎng)絡(luò)框架[22],本文采用該框架來搭建所提模型的主干網(wǎng)絡(luò)。與主流RGBT 網(wǎng)絡(luò)的雙編碼器有所不同,本文在此基礎(chǔ)上增加一支包含融合模塊的編碼器網(wǎng)絡(luò)。3 個獨立的編碼網(wǎng)絡(luò)分別從RGB 圖像IV、熱紅外圖像IT、融合“圖像”(融合模塊的輸出)中提取特征。本文將所提網(wǎng)絡(luò)命名為三支型網(wǎng)絡(luò),三支編碼器分別命名為可見光編碼子網(wǎng)絡(luò)EV、紅外編碼子網(wǎng)絡(luò)ET、融合編碼子網(wǎng)絡(luò)EF。EF的前端是一個融合模塊,通過注意力機(jī)制自適應(yīng)地在像素級別融合雙模態(tài)的信息。EF子網(wǎng)絡(luò)在下采樣操作后添加可見光和紅外單模態(tài)的編碼分支網(wǎng)絡(luò)的各級特征,以得到多模態(tài)特征。

        圖1 本文模型的整體結(jié)構(gòu)Fig.1 The overall structure of the proposed model

        2.2 模型細(xì)節(jié)

        模型編碼(Encoder)部分由3 支包含ResNet 結(jié)構(gòu)的編碼子網(wǎng)絡(luò)組成。3 種模態(tài)原始圖像的通道數(shù)分別為1、3、4,而3 支編碼器EV、ET、EF的輸入數(shù)據(jù)要求通道數(shù)均為64。因此,本文設(shè)計了In Conv 卷積層來統(tǒng)一多模態(tài)數(shù)據(jù)的深度(即設(shè)置該卷積層輸出通道數(shù)均為64),之后采用L個stage 的殘差卷積層(本文中L=4)來進(jìn)行不同尺度特征的提取。數(shù)據(jù)流經(jīng)過每一個stage,寬度和高度各減小1/2,通道數(shù)會增加一倍。表1 所示為編碼器子網(wǎng)絡(luò)的具體結(jié)構(gòu),包括每個殘差卷積塊使用的殘差卷積層數(shù)量。

        表1 編碼器子網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Structure of encoder sub network

        殘差卷積層主要分為2 種設(shè)計方式,如圖2 所示。本文選擇3 層殘差卷積結(jié)構(gòu),其將2 個3×3 的卷積層替換為1×1、3×3、1×1 的結(jié)構(gòu),從而有效降低參數(shù)量。例如,在一個卷積單元中,2 層的殘差結(jié)構(gòu)參數(shù)量為18C2,而3 層殘差結(jié)構(gòu)中第一個1×1 的卷積將通道數(shù)降為原始通道數(shù)的1/4,然后通過后置的1×1卷積再將通道數(shù)恢復(fù),整體上的參數(shù)量為比2 層的殘差結(jié)構(gòu)降低了94.1%。

        圖2 殘差卷積的2 種結(jié)構(gòu)Fig.2 Two structures of residual convolution

        整個編碼器網(wǎng)絡(luò)通過像素級別的融合編碼子網(wǎng)絡(luò)實現(xiàn)雙模態(tài)圖像的特征融合,且該子網(wǎng)絡(luò)通過Concat方式添加對應(yīng)層級的可見光和紅外特征圖,通過該方式使得到的特征圖通道數(shù)變?yōu)樵鹊? 倍。為了減輕網(wǎng)絡(luò)負(fù)載,本文使用一個1×1 的卷積來降低通道數(shù),因此,融合編碼子網(wǎng)絡(luò)最終的輸出特征圖為:

        Decoder 部分包含4 個上采樣塊,由卷積層、BN層、激活層、反卷積層組成。每個上采樣塊的殘差連接部分首先采用1×1 卷積核的卷積層作為bottleneck層進(jìn)行通道數(shù)降維,以減少訓(xùn)練的參數(shù)量,然后使用核為3 的卷積層和同尺寸的反卷積層來恢復(fù)特征圖的尺寸。上采樣塊的短連接部分只做反卷積操作,得到與殘差部分相同尺寸的特征圖。把上述2 個部分的輸出通過像素級對應(yīng)的方式進(jìn)行組合,得到新的特征圖并通過ReLU 激活函數(shù)層獲得當(dāng)前塊的輸出,將其作為下一層的輸入。整個模型使用多分類的交叉熵?fù)p失函數(shù)來訓(xùn)練,通過計算預(yù)測數(shù)據(jù)與真實標(biāo)簽的差距來反向傳播梯度從而優(yōu)化模型。

        2.3 像素級特征融合模塊

        多數(shù)融合策略采用加權(quán)平均算子的方式生成加權(quán)映射以融合特征,如ASPP 空洞空間金字塔池化模塊使用多個空洞卷積層來提取不同感受野下的特征,從而得到融合特征,然而,這些策略并不適合本文的雙模態(tài)特征融合,因為本文的目標(biāo)是既保留紅外圖像中所提取的輻射特征,也要保留可見光圖像中所提取的細(xì)節(jié)特征。融合注意力機(jī)制能夠解決不能針對性地提取不同模態(tài)特征的問題。

        本文基于空間和通道注意力機(jī)制的融合策略,可以實現(xiàn)像素級的特征融合??臻g注意力機(jī)制以特征圖的每個像素點作為單位,對每個像素點都分配一個權(quán)重值,這個權(quán)重值可看作一個矩陣,尺寸與當(dāng)前特征圖一致;通道注意力以特征圖的每個通道作為單位,得到的權(quán)重值是一個向量,其與當(dāng)前特征圖的深度一致。如圖3 所示,本文像素級特征融合模塊分為3 個階段:下采樣階段分別對可見光、紅外圖像進(jìn)行特征提??;融合階段對相同層級的雙模態(tài)特征圖(虛線部分)采用空間、通道2 種注意力融合(Spatial and Channel Fusion,SCF)機(jī)制;上采樣階段在每個層級上添加前一層的特征圖,再通過上采樣操作獲得當(dāng)前層的融合特征。

        圖3 特征融合模塊結(jié)構(gòu)及SCF 機(jī)制流程Fig.3 Feature fusion module structure and SCF mechanism procedure

        權(quán)重圖ω由空間注意力模塊(Spatial-AttentionModule,SAM)的AVG 層和Softmax 操作得到。其中,AVG為通道平均層,能夠在特征圖所有的空間位置(x,y)上對所有通道的值取平均,得到尺寸為h×w×1 的特征圖,再利用Softmax 層計算得到權(quán)重圖ω,如式(5)、式(6)所示:

        權(quán)重向量ν由通道注意力模塊(Channel-Attention Module,CAM)的GAP層和Softmax 操作得到。GAP為全局池化層,在特征圖每個通道上對所有位置上的值取平均,得到c維的特征向量,再通過Softmax 計算得到權(quán)重向量v,如式(7)、式(8)所示:

        3 實驗結(jié)果與分析

        3.1 數(shù)據(jù)集與評價指標(biāo)

        MF 是較早用于城市場景雙模態(tài)語義分割的數(shù)據(jù)集,其包括1 569 個有像素級標(biāo)注的可見光、紅外圖像對。本文對MF 數(shù)據(jù)集進(jìn)行劃分,使訓(xùn)練集、驗證集、測試集的比例為4∶1∶1,且每部分的白天、夜晚數(shù)據(jù)比例為1∶1。

        FR-T 數(shù)據(jù)集包含多個白天和夜晚的可見光、紅外圖像序列,并對13 個語義類別進(jìn)行了標(biāo)注,但是該數(shù)據(jù)集沒有提供夜間場景的圖像標(biāo)注信息,因此,本文僅使用部分白天拍攝的圖像序列,共12 170 個可見光、紅外圖像對。

        在語義分割領(lǐng)域,一般利用均交并比(mean Intersection over Union,mIoU)作為度量標(biāo)準(zhǔn),其計算公式為:

        其中:k+1 是所有語義類別的個數(shù)(包含未標(biāo)記的類);pxy表示真實值為x而被預(yù)測為y的像素數(shù)量;pii代表真正例(True Positive,TP);pij、pji分別代表假正例(False Positive,F(xiàn)P)和假負(fù)例(False Negative,F(xiàn)N)。

        在消融實驗部分,本文還引入精確率Precision指標(biāo)來衡量模型的查準(zhǔn)率,該指標(biāo)表示在所有正樣本中正確目標(biāo)所占的比例,計算公式如下:

        3.2 實驗環(huán)境與參數(shù)設(shè)置

        本文實驗平臺為基于Linux18.04 系統(tǒng)的深度學(xué)習(xí)服務(wù)器,包括4 張Nvidia 3090 顯卡,并使用Pytorch 1.7 深度學(xué)習(xí)框架。分別在MF 和FR-T 數(shù)據(jù)集上訓(xùn)練模型,初始學(xué)習(xí)率設(shè)置為0.03,學(xué)習(xí)率每次迭代下降2%,訓(xùn)練批大小為4。使用SGD 和Adam優(yōu)化器的組合策略共訓(xùn)練200 個Epoch,通過最小化交叉熵?fù)p失函數(shù)來優(yōu)化模型參數(shù)。

        6.3.3 抽獎規(guī)則。抽獎是從已關(guān)注了XX圖書館官方微信并參與了現(xiàn)場網(wǎng)上薦購的讀者的微信號中抽取。其中,微信薦書抽獎共分3輪,第一輪抽取三等獎20個,第二輪抽取二等獎10個,第三輪抽取一等獎5個,抽獎只針對微信網(wǎng)上薦購渠道,門戶、APP等渠道,不參與抽獎。

        3.3 與主流模型的對比實驗

        將本文所提模型與MFNet[1]、PSTNet[4]、HeatNet[23]、RTFNet-50[3]模型進(jìn)行對比實驗,此外,還設(shè)置一組RTFNet-50+NestFuse[24]的組合模型,以驗證 本文像素級融合策略在語義分割任務(wù)中的性能優(yōu)勢。NestFuse[24]是RGB、紅外圖 像的融 合網(wǎng)絡(luò),其 在RTFNet 的基礎(chǔ)上增加一支編碼網(wǎng)絡(luò),輸入為通過NestFuse 輸出的紅外、可見光融合圖像。NestFuse 模型直接采用原始論文中提供的參數(shù)。

        表2 所示為MF 數(shù)據(jù)集上的對比實驗結(jié)果(mIoU),其中,“—”表示原文實驗未提供,加粗字體表示每列中的最好結(jié)果。從表2 可以看出,在8 個語義類別中,本文模型在其中的6 個類別上都達(dá)到了最優(yōu),另外,在第5、第6 組實驗中,Guardrail 類別的檢測率有大幅提升,而這2 組實驗與其他網(wǎng)絡(luò)模型的主要區(qū)別是增加了一支融合編碼網(wǎng)絡(luò),這表明在雙模態(tài)網(wǎng)絡(luò)中增加第三支融合編碼器的策略具有有效性。另外,由于第5 組實驗中網(wǎng)絡(luò)的融合模塊是NestFuse,即本文提出的像素級融合模塊在可見光、紅外的雙模態(tài)數(shù)據(jù)融合中更具優(yōu)勢。

        表2 各模型在MF 數(shù)據(jù)集上的測試結(jié)果Table 2 Test results of each model on the MF dataset %

        圖4 所示為MF 數(shù)據(jù)集上定性實驗的部分樣例可視化結(jié)果(彩色效果見《計算機(jī)工程》官網(wǎng)HTML版),第1 列、第2~第4 列分別顯示白天、夜晚場景下的結(jié)果,第2~第4 列代表夜間的照明條件,部分區(qū)域甚至完全黑暗。從圖4 可以看出,與其他網(wǎng)絡(luò)模型相比,本文網(wǎng)絡(luò)模型提取的目標(biāo)更完整,比如在第3、第4 列中,只有本文模型識別出了完整的車輛、自行車類別的目標(biāo)。

        圖4 MF 數(shù)據(jù)集上的分割結(jié)果可視化效果Fig.4 Visualization of segmentation results on MF dataset

        從表3 可以看出,在FR-T 數(shù)據(jù)集的12 種語義類別中,本文模型在其中的8 種類別上mIoU 達(dá)到了最優(yōu),總體平均值比RTFNet高0.6個百分點。圖5所示為FR-T數(shù)據(jù)集上的部分樣例可視化結(jié)果(彩色效果見《計算機(jī)工程》官網(wǎng)HTML 版),從中可以看出,本文模型對目標(biāo)的識別更為準(zhǔn)確,分割的結(jié)果也更為精細(xì)。

        表3 各模型在FR-T 數(shù)據(jù)集上的測試結(jié)果Table 3 Test results of each model on the FR-T dataset %

        圖5 FR-T 數(shù)據(jù)集上的分割結(jié)果可視化效果Fig.5 Visualization of segmentation results on FR-T dataset

        為了測試各模型在白天、夜晚不同場景下的穩(wěn)定性,在MF 測試集的白天、夜間圖像上分別進(jìn)行評估,表4 所示為白天和夜間場景中模型預(yù)測結(jié)果的定量比較(mIoU),實驗結(jié)果表明,本文模型在2 種場景下均能達(dá)到最佳效果,其精確率較2 種場景中次優(yōu)的模型分別高出4.5 和4.0 個百分點。

        表4 白天和夜晚場景下的模型分割結(jié)果比較Table 4 Comparison of model segmentation results in day and night scenes %

        3.4 消融實驗

        3.4.1 網(wǎng)絡(luò)參數(shù)分析

        編碼子網(wǎng)絡(luò)中殘差卷積塊的堆疊數(shù)量L直接影響網(wǎng)絡(luò)的深度,為了探究其對模型學(xué)習(xí)效果的影響,設(shè)置L分別為3、4、5 并進(jìn)行實驗,結(jié)果如表5 所示,從中可以看出,在MF 數(shù)據(jù)集上使模型效果最優(yōu)的L值為4,L過大會使模型的參數(shù)量增加,訓(xùn)練難度提高,L過小會導(dǎo)致模型的學(xué)習(xí)結(jié)果欠擬合。

        表5 殘差卷積塊數(shù)量對模型性能的影響Table 5 Influence of the number of residual convolution blocks on the performance of the model

        本文在編解碼器中使用1×1 卷積的bottleneck 層,目的是降低特征圖的通道數(shù)。通過實驗分析bottleneck層的使用與否對網(wǎng)絡(luò)參數(shù)量、實時性、準(zhǔn)確性產(chǎn)生影響。表6 結(jié)果表明,使用1×1 卷積的bottleneck 層策略,不僅能讓整個模型的參數(shù)量降低8%,而且在準(zhǔn)確率和平均交并比指標(biāo)上均有略微提升。

        表6 bottleneck 層對模型性能的影響Table 6 Influence of the bottleneck layer on model performance

        3.4.2 各編碼器分支對網(wǎng)絡(luò)的影響測試

        為了分析三支型網(wǎng)絡(luò)中各編碼器分支的作用,本文嘗試了各分支的其他組合形式:同時去掉紅外和可見光2 支編碼器子網(wǎng)絡(luò)(w/o RGBT 實驗組);單獨去掉融合編碼器子網(wǎng)絡(luò)(w/o Fusion 實驗組)。實驗結(jié)果如表7 所示,從中可以看出,當(dāng)去除紅外和可見光編碼器分支時,模型的預(yù)測準(zhǔn)確率下降8.9%,僅缺少融合編碼器子網(wǎng)絡(luò)時下降7.6%。因此,通過紅外、可見光編碼器網(wǎng)絡(luò)補(bǔ)充的特征級信息以及融合編碼器自身的像素級融合特征,都能使模型性能得到提升。

        表7 編碼器分支的組合實驗Table 7 Combined experiment of encoder branch %

        3.4.3 像素級融合模塊中注意力機(jī)制的有效性測試

        表8 所示為融合模塊中采用不同注意力機(jī)制的效果,以不采用注意力機(jī)制的網(wǎng)絡(luò)模型1 為基準(zhǔn),將其分別與采用空間注意力機(jī)制SAM(模型2)、通道注意力機(jī)制CAM(模型3)以及空間通道注意力機(jī)制SCAM(模型4)進(jìn)行比較。從表8 可以看出:模型1因為沒有使用注意力機(jī)制,其平均交并比和預(yù)測精確率均為最低;與通道注意力機(jī)制(模型3)相比,空間注意力機(jī)制(模型2)對網(wǎng)絡(luò)分割效果的提升更明顯,表示空間注意力機(jī)制更有效;本文模型在2 個指標(biāo)上均為最優(yōu),說明采用空間和通道注意力機(jī)制相結(jié)合的方式最有效。

        表8 注意力機(jī)制的消融實驗結(jié)果Table 8 Ablation experimental results of attention mechanism %

        3.4.4 融合策略的影響

        為了驗證不同融合策略對模型效果的影響,設(shè)計早期融合和晚期融合2 種策略進(jìn)行對比實驗[25]。如圖6 所示,上圖是采用早期融合策略的網(wǎng)絡(luò)模型,其以可見光、紅外以及像素級融合模塊的融合結(jié)果作為輸入,將3 種圖像逐通道拼接作為新的輸入,然后訓(xùn)練分割網(wǎng)絡(luò),整個模型從第一層到最后一層都可以利用不同模態(tài)的特征信息。早期融合策略可以表示為:

        圖6 中的下圖是采用晚期融合策略的網(wǎng)絡(luò)模型,每個模態(tài)圖像是對應(yīng)分支網(wǎng)絡(luò)的唯一輸入,僅在決策階段才綜合各分支網(wǎng)絡(luò)的信息,且以預(yù)測概率最大的類別作為最終的分割結(jié)果。使用該融合策略的模型旨在從不同模式中獨立學(xué)習(xí)互補(bǔ)信息。晚期融合策略可以表示為:

        圖6 2 種融合策略的模型結(jié)構(gòu)Fig.6 Model structure of two fusion strategies

        表9 中的前2 行數(shù)據(jù)分別對應(yīng)早期融合、晚期融合策略的網(wǎng)絡(luò)模型。本文調(diào)整3 組實驗的編碼器、解碼器結(jié)構(gòu),均減少一個下采樣層和對應(yīng)的上采樣層以及相關(guān)的卷積層。一方面,由于遲融合網(wǎng)絡(luò)分別含有3 支編碼器、解碼器網(wǎng)絡(luò),如果采用和第2 節(jié)相同的下采樣數(shù)量,遲融合模型的參數(shù)量會過大從而導(dǎo)致難以訓(xùn)練;另一方面,對所有組實驗均采用相同的策略能排除模型結(jié)構(gòu)對實驗數(shù)據(jù)的影響。

        表9 不同融合策略的實驗結(jié)果Table 9 Experimental results of different fusion strategies

        綜合3 組實驗?zāi)P偷膮?shù)量、預(yù)測結(jié)果的平均交并比以及分割精確率可以看出,雖然采用遲融合策略的網(wǎng)絡(luò)取得了最佳表現(xiàn),但是將融合階段置于網(wǎng)絡(luò)的后端,需要更多地參數(shù)來執(zhí)行前置的卷積以及其他操作。本文模型采用的融合策略在準(zhǔn)確率和參數(shù)量上取得了較好的平衡。

        3.4.5 圖像降質(zhì)和失效情況下的網(wǎng)絡(luò)測試

        本次實驗測試輸入圖像質(zhì)量降低甚至失效時對模型性能的影響程度。通過對輸入的可見光、紅外熱圖像附加額外操作來模擬圖像的降質(zhì)和失效情況,如圖7 所示。對于圖像降質(zhì),本文通過改變RGB圖像的亮度和對比度,以模擬可見光相機(jī)在過曝、欠曝場景下得到的降質(zhì)圖像;通過給紅外圖像附加高斯濾波操作,以模擬紅外圖像的降質(zhì)。對于圖像失效,本文在圖像的每個通道上都增加一個全局平均池化操作。

        圖7 降質(zhì)、失效圖像的合成與實驗結(jié)果Fig.7 Synthesis and experimental results of degraded and invalid images

        為了定量地說明網(wǎng)絡(luò)在上述情況下受影響的程度,本文將處理后的圖像分別輸入RTFNet 網(wǎng)絡(luò)和三支型網(wǎng)絡(luò)中進(jìn)行對比。表10 所示為測試網(wǎng)絡(luò)在雙模態(tài)圖像質(zhì)量降低或單一模態(tài)圖像失效時的性能表現(xiàn),其中,下降率表示模態(tài)失效時模型指標(biāo)較正常狀態(tài)的下降幅度。對輸入圖像的降質(zhì)操作具體為:將可見光圖像的整體亮度調(diào)整為原來的0.2 倍;在紅外圖像上增加一個核尺寸為21 的高斯濾波操作;對雙模態(tài)輸入圖像同時采取上述2 種操作。從表10 可以看出:當(dāng)可見光、紅外圖像單獨降質(zhì)時,本文模型準(zhǔn)確率分別下降3.7%和3.9%,RTFNet 模型準(zhǔn)確率分別下降5%和4.3%;當(dāng)雙模態(tài)圖像均降質(zhì)時,2 種模型準(zhǔn)確率分別降低11.1%、12.1%。對于單一模態(tài)輸入圖像失效的情況,參與實驗的模型都受到了較大程度的影響,在可見光、紅外圖像分別單獨失效時,RTFNet 模型的測試指標(biāo)分別下降16.9%、36.5%,本文模型則分別下降22.2%、24.5%。

        表10 圖像降質(zhì)和失效情況下的測試結(jié)果Table 10 Test results in case of image degradation and invalidation %

        在輸入圖像失效的極端場景中,由于本文模型使用三支編碼子網(wǎng)絡(luò)分別進(jìn)行特征提取,因此能夠保證有正常輸入的一支子網(wǎng)絡(luò)能夠繼續(xù)工作,此外,像素級特征融合模塊在這種情況下雖然丟失了雙模態(tài)特征的選擇功能,但仍然能對正常輸入模態(tài)圖像進(jìn)行特征提取和增強(qiáng),這也是在任一模態(tài)圖像失效時本文模型能得到一個穩(wěn)定的分割結(jié)果且模型指標(biāo)下降程度較低的原因。

        4 結(jié)束語

        為對城市場景圖像進(jìn)行語義分割,本文提出一種雙模態(tài)深度神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)通過RGB-T、像素級數(shù)據(jù)融合模塊以及注意力機(jī)制,完成雙模態(tài)圖像的特征級和像素級融合。實驗結(jié)果表明,在加入獨立融合分支網(wǎng)絡(luò)后,模型性能得到一定提升,在公開數(shù)據(jù)集上,與已有網(wǎng)絡(luò)MFNet、PSTNet 等相比,本文所提網(wǎng)絡(luò)能取得最優(yōu)的分割效果。此外,本文還研究了輸入模態(tài)圖像降質(zhì)和失效情況下模型的性能表現(xiàn),結(jié)果表明,無論是單個模態(tài)圖像降質(zhì)還是雙模態(tài)圖像均降質(zhì)甚至單個模態(tài)圖像完全失效,本文模型受影響程度均較低,表明其魯棒性較高。

        本文所提網(wǎng)絡(luò)仍然存在若干問題需要解決:目前整個模型參數(shù)量達(dá)到億的數(shù)量級,推理速度無法滿足實時處理的需求,今后嘗試?yán)脜?shù)剪枝的方法加快網(wǎng)絡(luò)的運行速度;模型在白天和夜晚2 種情景下的分割效果存在一定差距,本文認(rèn)為這和雙模態(tài)圖像很難在像素上一一對應(yīng)有關(guān),可以通過調(diào)整深層特征圖映射的感受野大小來嘗試解決該問題;雖然本文網(wǎng)絡(luò)中融合了細(xì)粒度的特征信息和粗粒度的抽象信息,但是各個類別的上下文信息也同樣值得探究,利用這些信息在物體邊界上獲取更好的分割效果也是下一步的研究方向。

        猜你喜歡
        編碼器紅外像素
        趙運哲作品
        藝術(shù)家(2023年8期)2023-11-02 02:05:28
        像素前線之“幻影”2000
        網(wǎng)紅外賣
        閃亮的中國紅外『芯』
        金橋(2021年4期)2021-05-21 08:19:20
        “像素”仙人掌
        TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應(yīng)用
        電子制作(2019年7期)2019-04-25 13:17:14
        基于FPGA的同步機(jī)軸角編碼器
        基于PRBS檢測的8B/IOB編碼器設(shè)計
        基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
        高像素不是全部
        CHIP新電腦(2016年3期)2016-03-10 14:22:03
        日本精品少妇一区二区三区| 国产高清一级毛片在线看| 极品人妻少妇一区二区| 视频区一区二在线观看| 国产精品成人观看视频国产奇米| 日本高清h色视频在线观看| 欧美多毛肥胖老妇做爰| 国产精品反差婊在线观看| 久久亚洲综合亚洲综合| 无套无码孕妇啪啪| 在线欧美中文字幕农村电影| 天天av天天爽无码中文| 男人深夜影院无码观看| 成人自拍偷拍视频在线观看| 午夜精品久久久久久久久| 手机看片福利一区二区三区| 狠狠色综合播放一区二区| 丰满人妻一区二区三区精品高清| 国产黄色av一区二区三区| 天天天天躁天天爱天天碰2018| 国产最新地址| 国产在线白浆一区二区三区在线| 亚洲精品在线一区二区| 蜜桃av精品一区二区三区| 久久精品无码一区二区三区免费| 精品人人妻人人澡人人爽牛牛| 无码电影在线观看一区二区三区| 国产一区二区三区高清视频| 在线不卡精品免费视频| av素人中文字幕在线观看| 欧美xxxxx高潮喷水麻豆| 国产国语亲子伦亲子| 欧美成免费a级毛片| 免费a级毛片出奶水| 日韩AV无码免费二三区| 2021最新久久久视精品爱| 最新中文字幕乱码在线| 天堂丝袜美腿在线观看| 国产成人精品亚洲日本在线观看| 亚洲aⅴ在线无码播放毛片一线天 中国国语毛片免费观看视频 | 国产特级毛片aaaaaa高潮流水|