亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Transformer 的道路場(chǎng)景分割算法研究

        2022-12-11 09:43:10魏鵬磊雷菊陽(yáng)
        關(guān)鍵詞:語(yǔ)義信息模型

        魏鵬磊,雷菊陽(yáng)

        (上海工程技術(shù)大學(xué) 機(jī)械與汽車工程學(xué)院,上海 201620)

        0 引言

        常見(jiàn)的基于深度卷積神經(jīng)網(wǎng)絡(luò)的模型,如FCN[1]、Deeplab v3[2]、SegNet[3]等在傳統(tǒng)語(yǔ)義分割任務(wù)上有著很好的效果,但是對(duì)于城市道路場(chǎng)景的分割仍然難以達(dá)到理想的狀態(tài)。隨著Transformer在NLP 領(lǐng)域表現(xiàn)優(yōu)異性能之后,越來(lái)越多的人嘗試將其應(yīng)用在CV 領(lǐng)域,并取得了可觀進(jìn)步。繼ViT[4]之后,出現(xiàn)了很多Transformer 運(yùn)用在CV 各個(gè)任務(wù)上的工作,而Swin Transformer[5]是第一個(gè)備受青睞的可以在下游任務(wù)中使用的純Transformer 結(jié)構(gòu)的方式,但卻有著如下缺點(diǎn):參數(shù)量過(guò)大、顯存占用高、訓(xùn)練時(shí)間長(zhǎng)。究其原因,下游任務(wù),如語(yǔ)義分割是高密度預(yù)測(cè)任務(wù),對(duì)于分割精度要求很高,從而使得訓(xùn)練參數(shù)量巨大,增加了訓(xùn)練成本。故本文在SwinT的基礎(chǔ)上改進(jìn)了網(wǎng)絡(luò)結(jié)構(gòu),可以明顯加快訓(xùn)練速度,也可以很好地定位分割邊界。其次,針對(duì)特征信息學(xué)習(xí)不充分問(wèn)題,傳統(tǒng)做法為通過(guò)設(shè)置不同參數(shù)的卷積層或池化層,先提取到不同尺度的特征圖,再將這些特征圖送入網(wǎng)絡(luò)做融合。但是由于圖像金字塔的多尺度輸入,在計(jì)算時(shí)需要保存大量梯度,故對(duì)硬件的要求很高。而本次研究是將網(wǎng)絡(luò)進(jìn)行多尺度訓(xùn)練,在測(cè)試階段進(jìn)行多尺度融合,這樣可減少參數(shù)和內(nèi)存占用,且由于引入多尺度信息,可以更好地定位分割邊界,提高了網(wǎng)絡(luò)性能。

        1 相關(guān)工作

        1.1 數(shù)據(jù)集

        本文使用Pascal VOC 2012 擴(kuò)增數(shù)據(jù)集做基礎(chǔ)研究,Cityscapes 數(shù)據(jù)集做進(jìn)一步驗(yàn)證。

        Pascal VOC 挑戰(zhàn)賽是一個(gè)世界級(jí)的計(jì)算機(jī)視覺(jué)挑戰(zhàn)賽。Pascal VOC 挑戰(zhàn)賽整體上可分為如下幾類:圖像分類、目標(biāo)檢測(cè)、目標(biāo)分割、行為識(shí)別等。在Pascal VOC 數(shù)據(jù)集中主要包含20 個(gè)目標(biāo)類別和1 個(gè)背景類別。

        對(duì)于圖像語(yǔ)義分割,Pascal VOC 2012 中共有訓(xùn)練集圖像1 464 張、驗(yàn)證集圖像1 449 張、測(cè)試集圖像1 456張,但是對(duì)于語(yǔ)義分割,特別是基于Transformer 骨干網(wǎng)絡(luò)而言,擁有大量的數(shù)據(jù)是很有必要的,所以本文使用了Pascal VOC 的擴(kuò)增數(shù)據(jù)集,共有訓(xùn)練集圖像10 582張。

        另外,在語(yǔ)義分割中對(duì)應(yīng)的標(biāo)注圖像(.png)用PIL的Image.open()函數(shù)讀取時(shí),默認(rèn)是P 模式(調(diào)色板模式),即一個(gè)單通道的圖像。在背景處的像素值為0,目標(biāo)邊緣處用的像素值為255,目標(biāo)區(qū)域根據(jù)目標(biāo)類別的類別索引信息進(jìn)行填充,如圖1所示,人對(duì)應(yīng)的目標(biāo)索引是15,所以目標(biāo)區(qū)域的像素值用15 填充。具體調(diào)色板信息見(jiàn)表1。

        圖1 P 模式下的標(biāo)簽圖Fig.1 Label map in P mode

        表1 不同類別的索引值Tab.1 Index values for different categories

        Cityscapes 數(shù)據(jù)集于2016 年發(fā)布,在自動(dòng)駕駛領(lǐng)域是權(quán)威且熱門的語(yǔ)義分割數(shù)據(jù)集之一,該數(shù)據(jù)集含有國(guó)外50 個(gè)道路場(chǎng)景的高分辨率圖像,其中精細(xì)標(biāo)注圖像共有5 000張,粗略標(biāo)記圖像共19 998張,為保證能夠最大限度地獲取充足的數(shù)據(jù)信息。本文使用含粗略標(biāo)注和精細(xì)標(biāo)注數(shù)據(jù)集24 998張,共分為建筑、行人、天空等19 個(gè)類別。

        1.2 數(shù)據(jù)預(yù)處理

        基于Transformer 網(wǎng)絡(luò)架構(gòu)相對(duì)于深度卷積神經(jīng)網(wǎng)絡(luò)更容易出現(xiàn)過(guò)擬合現(xiàn)象,除需對(duì)網(wǎng)絡(luò)中的模型結(jié)構(gòu)進(jìn)行優(yōu)化外,擁有大量的數(shù)據(jù)也能夠減少過(guò)擬合的發(fā)生,故考慮對(duì)圖像進(jìn)行預(yù)處理。本文的數(shù)據(jù)擴(kuò)增操作是在OpenCV 上完成的,包括對(duì)圖像進(jìn)行-10°~10°的旋轉(zhuǎn)、隨機(jī)裁剪crop_size的0.5~2倍、隨機(jī)水平翻轉(zhuǎn)以及模糊圖像等操作。

        2 方法

        本文算法是由2 個(gè)路徑組成的,分別是編碼器提取路徑與解碼器提取路徑。其中,編碼器塊是在Swin Transformer 的基礎(chǔ)上改進(jìn)后得到的,不僅加快了訓(xùn)練速度,而且也緩解了過(guò)擬合。解碼器塊中的Prediction Head 則是基于ASPP+模塊,考慮通過(guò)利用跳躍連接以及捷徑分支優(yōu)化模塊結(jié)構(gòu),使其可以更好地解決目標(biāo)多尺度的問(wèn)題。具體來(lái)說(shuō),是以改進(jìn)后的Swin Transformer 模型SwinLab 為骨干網(wǎng)絡(luò),再對(duì)ASPP 模塊進(jìn)行優(yōu)化,并構(gòu)建模塊ASPP+,使ASPP+可以多尺度理解上下文信息的能力。整體模型通過(guò)3 個(gè)階段構(gòu)建不同大小的特征圖,且又在SwinT 的基礎(chǔ)上剔除掉Patch Partition 和Linear Embeding 模塊,并添加1 個(gè)和后2 個(gè)階段同樣的Patch Merging 層進(jìn)行下采樣。網(wǎng)絡(luò)總體模型結(jié)構(gòu)如圖2 所示。

        圖2 網(wǎng)絡(luò)總體模型結(jié)構(gòu)Fig.2 Overall model structure of the network

        編碼塊是有2 個(gè)結(jié)構(gòu),一個(gè)使用了W-MSA 結(jié)構(gòu),另一個(gè)使用SW-MSA 結(jié)構(gòu)。一般情況下,這2 個(gè)結(jié)構(gòu)是成對(duì)使用的,先使用W-MSA 結(jié)構(gòu),而后使用SW-MSA 結(jié)構(gòu),具體編碼器模型如圖3、圖4 所示。

        圖3 編碼器結(jié)構(gòu)圖Fig.3 Encoder structure diagram

        圖4 MLP 結(jié)構(gòu)圖Fig.4 MLP structure diagram

        解碼塊包括ASPP+模塊和Prediction Head 模塊。ASPP+在ASPP 的基礎(chǔ)上摒棄了膨脹系數(shù)為36的空洞卷積層,并采用自適應(yīng)平均池化層,即共有4個(gè)并行分支,分別為1 個(gè)1×1 卷積層、3 個(gè)3×3 空洞卷積層,以及1 個(gè)自適應(yīng)全局平均池化層,該層目的是可以增加1 個(gè)全局上下文信息。其中,使用concat方法對(duì)4 個(gè)并行分支進(jìn)行拼接之前,先利用自注意力機(jī)制對(duì)不同分支獲得的信息進(jìn)行注意力處理,這樣有利于不同特征信息的融合,而虛線部分的捷徑分支則使用1×1 卷積核進(jìn)行維度處理。對(duì)于Prediction Head 模塊來(lái)說(shuō),得到ASPP+模塊的輸出后,添加一個(gè)跳躍連接殘差模塊[6],其后續(xù)接一個(gè)Layer Norm層,再通過(guò)一個(gè)1×1 卷積層來(lái)融合信息。Prediction Head 通過(guò)雙線性插值的方法還原輸入圖像的尺寸大?。?],網(wǎng)絡(luò)模型細(xì)節(jié)如圖5 所示。

        圖5 解碼器結(jié)構(gòu)圖Fig.5 Decoder structure diagram

        3 實(shí)驗(yàn)結(jié)果分析

        在Pascal VOC2012 數(shù)據(jù)集和Cityscapes 數(shù)據(jù)集上的分割效果如圖6、圖7 所示。圖6、圖7中,從(a)到(d)分別是原圖、標(biāo)簽、DeepLabv3 預(yù)測(cè)圖以及SwinLab 預(yù)測(cè)圖。

        圖6 Pascal VOC2012 數(shù)據(jù)集Fig.6 Pascal VOC2012 dataset

        圖7 Cityscapes 數(shù)據(jù)集Fig.7 Cityscapes dataset

        4 結(jié)束語(yǔ)

        針對(duì)道路場(chǎng)景識(shí)別任務(wù),本文提出了一種基于Transformer 的SwinLab 模型架構(gòu)。該網(wǎng)絡(luò)架構(gòu)增強(qiáng)了網(wǎng)絡(luò)在多尺度下多類別分割時(shí)的魯棒性,同時(shí)使用不同的采樣比例與感受野提取特征,使其可以在多個(gè)尺度上捕獲上下文信息。實(shí)驗(yàn)結(jié)果表明,基于Transformer 構(gòu)建的SwinLab 模型網(wǎng)絡(luò)相比于傳統(tǒng)基于深度卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)義分割模型,效果,及性能均獲提升,雖不及SOTA,但在Pascal VOC2012 數(shù)據(jù)集上mIoU可達(dá)80.1,在Cityscapes 數(shù)據(jù)集上也有不錯(cuò)的效果。除此之外,本文重點(diǎn)關(guān)注的訓(xùn)練速度也得到了顯著改善,對(duì)于后續(xù)的研究有著實(shí)際參考意義。另外,本文使用的顯卡為單張英偉達(dá)最新3090顯卡,再加上網(wǎng)絡(luò)性能指標(biāo)與實(shí)驗(yàn)環(huán)境有較大的相關(guān)性,故理論上本文所構(gòu)建網(wǎng)絡(luò)的性能仍然有較大可提升的空間。

        猜你喜歡
        語(yǔ)義信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語(yǔ)言與語(yǔ)義
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        展會(huì)信息
        語(yǔ)義分析與漢俄副名組合
        亚洲色图视频在线播放| 少妇性l交大片| 欧韩视频一区二区无码| 日本岛国大片不卡人妻| 亚洲av综合色一区二区| 中文字幕一精品亚洲无线一区| 国产手机在线αⅴ片无码观看| 久久久久久免费播放一级毛片| 女人天堂国产精品资源麻豆| 中国女人内谢69xxxxxa片 | 制服丝袜中文字幕在线| 欧洲熟妇乱xxxxx大屁股7| 国产丰满乱子伦无码专| 熟女免费视频一区二区| 日本另类αv欧美另类aⅴ| 亚洲暴爽av天天爽日日碰| 久久久久久人妻一区精品| 日本精品一区二区三区在线观看 | 久久久www免费人成精品| 亚洲一区二区在线| 久久少妇呻吟视频久久久| 嗯啊好爽高潮了在线观看| 无码av免费一区二区三区试看 | 人妻少妇精品视频一区二区三区| 国产一区二区长腿丝袜高跟鞋| 一本色道久久88精品综合| 亚洲一区二区在线| 青青草视频在线观看视频免费| 无套内射在线无码播放| 亚洲精品成人区在线观看| 在线视频青青草猎艳自拍69| 看国产亚洲美女黄色一级片 | 日本不卡一区二区三区在线观看| 亚洲国产av无码精品| 伊人色综合九久久天天蜜桃| 亚洲熟伦在线视频| 虎白m粉嫩小在线播放| 久久精品国产色蜜蜜麻豆| 97人妻视频妓女网| 日本少妇又色又紧又爽又刺激| 久久亚洲av成人无码电影a片|