葉劍鋒,徐 軻,熊峻峰,王化明
(南京航空航天大學(xué)機(jī)電工程學(xué)院,南京 210008)
語義分割是計(jì)算機(jī)視覺的基礎(chǔ)任務(wù)之一,其目的是將輸入圖像劃分為不同語義可解釋的類別,即像素級別的多類別分類任務(wù)[1]。目前,語義分割廣泛應(yīng)用于自動(dòng)駕駛、虛擬現(xiàn)實(shí)、城市交通規(guī)劃等領(lǐng)域。
傳統(tǒng)的圖像分割算法主要包括基于閾值的分割算法[2]、基于邊緣的分割算法[3]、基于區(qū)域的分割算法[4]等,這些算法通常采用圖像特征分類器來完成圖像分割,針對分割目標(biāo)設(shè)計(jì)多個(gè)特征,分別對每個(gè)特征設(shè)計(jì)一個(gè)結(jié)構(gòu)復(fù)雜的特征提取器,最后構(gòu)建一個(gè)分類器對所獲取的特征進(jìn)行識(shí)別和分類。
近年來,卷積神經(jīng)網(wǎng)絡(luò)[5-7]在圖像分類任務(wù)上取得了顯著成果。相比傳統(tǒng)圖像處理算法,基于深度學(xué)習(xí)的圖像處理算法采用通用的學(xué)習(xí)過程,從數(shù)據(jù)中主動(dòng)學(xué)習(xí)得到特征,并不需要手工設(shè)計(jì)特征[1]。
深度學(xué)習(xí)方法成功應(yīng)用在圖像分類、目標(biāo)檢測、自然語言處理等領(lǐng)域,其被改進(jìn)、遷移到語義分割領(lǐng)域,圖像的語義分割技術(shù)也逐漸取得突破。例如LONG 等[8]提出的全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)在圖像分類網(wǎng)絡(luò)視覺幾何組(Visual Geometry Group,VGG)網(wǎng)絡(luò)的基礎(chǔ)上去除全連接層,加入多級上采樣還原分辨率,實(shí)現(xiàn)端到端的語義分割,何凱明等[9-10]在此基礎(chǔ)上進(jìn)一步加以改進(jìn)。CHEN 等[11]在網(wǎng)絡(luò)模型中引入自然語言處理中的注意力機(jī)制以實(shí)現(xiàn)多尺寸特征圖像的加權(quán)融合,提高算法的尺寸不變性。為了增大感受野、降低特征維度、減少計(jì)算量,現(xiàn)有算法對輸入圖像做多次下采樣,但在此過程中損失函數(shù)對特征的約束力越來越低,造成低層特征的離散度低,丟失大量空間細(xì)節(jié)信息。為提升網(wǎng)絡(luò)模型低層特征的離散度[12]和語義分割算法的性能,YANG 等[13]提出一種區(qū)域級別的基于紋理基元塊識(shí)別與合并的圖像語義分割算法,該算法采用紋理基元等特征,考慮到相鄰像素點(diǎn)間的相互關(guān)系,保留物體間的棱角和邊緣信息,分割出輪廓清晰的對象,但其仍然存在對目標(biāo)形狀、邊緣細(xì)節(jié)分割欠缺等問題。
本文提出一種基于輔助損失、邊緣檢測輔助任務(wù)和注意力機(jī)制[14]的語義分割算法。通過圖像分類中的輔助損失并為其重新設(shè)計(jì)網(wǎng)絡(luò)模型,使網(wǎng)絡(luò)低層特征編碼更多語義信息。利用機(jī)器學(xué)習(xí)領(lǐng)域中的多任務(wù)學(xué)習(xí),選擇邊緣檢測作為輔助任務(wù),基于自然語言處理中的注意力機(jī)制為其設(shè)計(jì)輔助任務(wù)分支,使網(wǎng)絡(luò)模型更關(guān)注物體的形狀和邊緣信息。
語義分割是計(jì)算機(jī)視覺應(yīng)用(如自動(dòng)駕駛、場景理解等)的關(guān)鍵技術(shù)。近年來,卷積神經(jīng)網(wǎng)絡(luò)迅猛發(fā)展,像素級語義分割也取得顯著進(jìn)展。語義分割如圖1 所示。
圖1 語義分割Fig.1 Semantic segmentation
語義分割的研究主要集中在以下兩方面:
1)編碼器-解碼器結(jié)構(gòu),將神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)為編碼器-解碼器結(jié)構(gòu),通過在編碼階段保留更多的圖像信息,同時(shí)在解碼階段恢復(fù)圖像損失的信息來生成更好的語義分割結(jié)果。例如,SegNet[15]利用在編碼階段保存的池化索引來恢復(fù)圖像池化時(shí)丟失的空間信息;U-Net[16]設(shè)計(jì)跳躍連接結(jié)構(gòu),通過直接在解碼階段引入低層特征圖來恢復(fù)圖像所丟失的信息。
2)上下文信息,使神經(jīng)網(wǎng)絡(luò)聚合更多的圖像上下文信息,連接不同采樣率的特征圖像,解決尺度多樣性問題,得到更精準(zhǔn)的語義分割結(jié)果。例如,DeepLab[17]通過空洞空間金字塔池化結(jié)構(gòu)在多尺寸圖像上捕捉上下文信息;ParseNet[18]通過添加全局池化分支,在解碼階段引入全局上下文信息。
本文結(jié)合以上兩種方法:一方面采用FCN 作為基礎(chǔ)模型,且可以更換為其他任意具有編碼器-解碼器結(jié)構(gòu)的網(wǎng)絡(luò)模型;另一方面采用注意力機(jī)制聚合更多上下文信息,采用跳躍連接結(jié)構(gòu)連接不同采樣率上的特征圖像。
網(wǎng)絡(luò)深度是神經(jīng)網(wǎng)絡(luò)的主要特征之一,但神經(jīng)網(wǎng)絡(luò)過深會(huì)存在梯度消失、收斂困難等問題,使得神經(jīng)網(wǎng)絡(luò)訓(xùn)練失敗或達(dá)不到理想的效果[7]。因此研究人員設(shè)計(jì)了多種訓(xùn)練方法和網(wǎng)絡(luò)結(jié)構(gòu)來解決這個(gè)難題,如Dropout[19]、批歸一化[20]、殘差結(jié)構(gòu)[7]等。輔助損失(又稱中間監(jiān)督)通過直接在網(wǎng)絡(luò)中間加入輔助損失分支,降低梯度消失、網(wǎng)絡(luò)難以收斂的概率,使深度網(wǎng)絡(luò)更加容易訓(xùn)練。
本文將輔助損失引入語義分割網(wǎng)絡(luò)中的主要目的并不是解決收斂困難等問題,而是使低層特征編碼更多語義信息,提升低層特征的離散度。
多任務(wù)學(xué)習(xí)是指模型同時(shí)學(xué)習(xí)多個(gè)具有相關(guān)表征的任務(wù),提高學(xué)習(xí)效率和預(yù)測準(zhǔn)確率、改善泛化性能。多任務(wù)學(xué)習(xí)普遍應(yīng)用在機(jī)器學(xué)習(xí)、自然語言處理、計(jì)算機(jī)視覺等領(lǐng)域[21-24]。MultiNet[21]設(shè)計(jì)了一種能夠同時(shí)進(jìn)行圖像分割、目標(biāo)檢測、語義分割等視覺任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu),十字繡網(wǎng)絡(luò)[22]針對性研究多任務(wù)網(wǎng)絡(luò)中神經(jīng)元共享的方法,提出通過端對端的學(xué)習(xí)來自動(dòng)決定共享層的十字繡網(wǎng)絡(luò)結(jié)構(gòu)。多任務(wù)學(xué)習(xí)過程如圖2 所示。
圖2 多任務(wù)學(xué)習(xí)過程Fig.2 Multi-task learning process
多任務(wù)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)專注于計(jì)算機(jī)視覺任務(wù)的并行學(xué)習(xí),需要在多個(gè)任務(wù)結(jié)果之間權(quán)衡,不能保證單個(gè)任務(wù)取得最優(yōu)結(jié)果。本文提出的輔助任務(wù)是在多任務(wù)學(xué)習(xí)中區(qū)分主任務(wù)與輔助任務(wù),只專注于主任務(wù)的訓(xùn)練效果,使用輔助任務(wù)的訓(xùn)練信號(hào)中所擁有的特定領(lǐng)域信息來提升主任務(wù)的泛化效果,使主任務(wù)取得最優(yōu)結(jié)果。
注意力機(jī)制在自然語言處理領(lǐng)域中廣泛應(yīng)用[23-24]。近年來,如何將注意力機(jī)制引入到計(jì)算機(jī)視覺中也成為研究熱點(diǎn)。HU 等[25]提出目標(biāo)關(guān)系模組來建模一系列目標(biāo)間的關(guān)系從而提升目標(biāo)檢測效果。CHEN 等[11]提出多尺寸注意力機(jī)制來自適應(yīng)融合多尺寸圖像,提升語義分割效果。
本文將自注意力機(jī)制和殘差模塊相結(jié)合,設(shè)計(jì)針對邊緣檢測任務(wù)的輔助任務(wù)分支。自注意力機(jī)制可以根據(jù)通道間的依賴關(guān)系自適應(yīng)增強(qiáng)相關(guān)語義的通道圖,提升殘差模塊相關(guān)語義的表達(dá)能力。
深度神經(jīng)網(wǎng)絡(luò)中加入輔助損失的目的是降低梯度消失、網(wǎng)絡(luò)難以收斂的概率,便于深度網(wǎng)絡(luò)訓(xùn)練。最近研究[4,26-28]發(fā)現(xiàn),在精心設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)及采用其他訓(xùn)練方法的情況下,超過100 層的深度神經(jīng)網(wǎng)絡(luò)不采用輔助損失也不會(huì)出現(xiàn)無法收斂的問題,甚至在部分淺層的圖像分類網(wǎng)絡(luò)上使用輔助損失會(huì)降低分類準(zhǔn)確率。
在語義分割網(wǎng)絡(luò)中引入輔助損失的主要目的是提高低層特征的質(zhì)量。為了在輔助損失分支中輸出語義信息,低層特征需要編碼更多語義信息,提高低層特征的離散度,有利于其后的特征融合。因此對于淺層網(wǎng)絡(luò),加入輔助損失后,雖然其分類準(zhǔn)確率變化不大甚至降低,但仍然可以提高其分割的準(zhǔn)確度,即平均交并比。
輔助損失分支結(jié)構(gòu)如圖3 所示,圖像分類只有一維輸出如圖3(a)所示,而語義分割輸出是二維圖像,因此輔助損失分支的結(jié)構(gòu)設(shè)計(jì)也不一樣,針對語義分割的輔助損失分支結(jié)構(gòu)如圖3(b)所示。最上方為通過基礎(chǔ)模型中間某層所得到的特征圖,經(jīng)過多層卷積處理降維后,再通過雙線性插值進(jìn)行拉伸,得到與原圖像尺寸一致的特征圖,最后計(jì)算特征圖與目標(biāo)圖像的二維交叉熵?fù)p失。算法的總損失函數(shù)為基礎(chǔ)模型損失和所有輔助損失的加權(quán)和。訓(xùn)練完成后,將移除所有輔助損失分支,僅使用基礎(chǔ)模型進(jìn)行推斷,避免輔助損失分支帶來額外的內(nèi)存及時(shí)間消耗。
圖3 輔助損失分支結(jié)構(gòu)Fig.3 Branch structure of auxiliary loss
2.2.1 輔助任務(wù)
雖然同樣是多個(gè)任務(wù)并行訓(xùn)練,相比多任務(wù)學(xué)習(xí),本文算法專注于提升主任務(wù)的訓(xùn)練效果,其余任務(wù)均為輔助任務(wù)。對于輔助任務(wù),其本身的訓(xùn)練效果并不重要,重要的是提升主任務(wù)的訓(xùn)練效果。
輔助任務(wù)能提升模型分割效果的原因主要有以下三方面:1)輔助任務(wù)能為模型提供歸納偏置,提高模型的泛化能力;2)輔助任務(wù)提供額外的數(shù)據(jù)信息,可以視作一種數(shù)據(jù)增廣算法;3)輔助任務(wù)所提供的信息也有可能成為噪聲,HOLMSTROM 等[29]的研究表明偶爾在訓(xùn)練過程中加入噪聲,能夠增強(qiáng)網(wǎng)絡(luò)模型的泛化能力。因此,輔助任務(wù)的選擇應(yīng)滿足以下要求:1)主任務(wù)的概念層次應(yīng)高于輔助任務(wù),且主任務(wù)的目標(biāo)域應(yīng)與輔助任務(wù)的目標(biāo)域存在交集;2)主任務(wù)和輔助任務(wù)的訓(xùn)練圖像應(yīng)一致或輔助任務(wù)的標(biāo)注圖像應(yīng)便于從主任務(wù)的標(biāo)注圖像中獲得。
本文研究的主任務(wù)為語義分割,根據(jù)上述原則,選擇的輔助任務(wù)為邊緣檢測。邊緣檢測是傳統(tǒng)圖像處理中的基本問題之一,目的是提取圖像中對象與背景間的交界線,使低層共享網(wǎng)絡(luò)更關(guān)注于物體的形狀和邊緣信息,獲取更多關(guān)于物體類內(nèi)差異的特征[30]。而邊緣檢測所需的標(biāo)注圖可以從語義分割的標(biāo)注圖中獲取,語義分割和邊緣檢測標(biāo)注如圖4 所示。
圖4 語義分割標(biāo)注和邊緣檢測標(biāo)注Fig.4 Label of semantic segmentation and edge detection
2.2.2 注意力殘差模塊
本文結(jié)合自注意力機(jī)制與殘差模塊設(shè)計(jì)注意力殘差模塊(Attention Residual Module,ARM)結(jié)構(gòu),將注意力殘差模塊堆疊得到輔助任務(wù)分支,注意力殘差模塊構(gòu)建如圖5 所示。原始?xì)埐钅K如圖5(a)所示,模塊輸入和輸出如式(1)、式(2)所示:
其中:xl和xl+1分別為第l 層輸入和輸出;F為殘差函數(shù);h為恒等映射函數(shù);f為整流線性激活函數(shù)。雖然殘差模塊內(nèi)恒等映射函數(shù)可以保證信息流無損流動(dòng),但由于激活函數(shù)的存在,整個(gè)網(wǎng)絡(luò)的信息流并不能無損流動(dòng)。因此為保證信息流無損地在各層間流動(dòng),將f變?yōu)楹愕扔成浜瘮?shù),得到改進(jìn)后的殘差模塊,即恒等殘差模塊[31],如圖5(b)所示。
圖5 殘差模塊構(gòu)建Fig.5 Construction of residual module
殘差模塊構(gòu)建如式(3)、式(4)所示:
根據(jù)反向傳播鏈?zhǔn)椒▌t有:
從式(5)可以看出,損失梯度可以無損地傳遞到任意殘差模塊,甚至任意殘差模塊的損失梯度都可以無損地傳遞其余任意殘差模塊,因此減小了梯度消失的概率。
但是特征圖的每個(gè)通道可以被視為特定于某種語義特征的響應(yīng)圖,并且不同的語義特征彼此相關(guān)聯(lián)。顯然殘差模塊中xl與yl語義特征并不一致,不能直接相加。因此在恒等殘差模塊xl與yl的融合中引入自注意力機(jī)制,用于顯式建模xl與yl各語義特征之間的相互依賴關(guān)系。利用通道之間的相互依賴性,增強(qiáng)相互依賴的特征并改進(jìn)特定語義的特征表示,如式(6)、式(7)所示:
輸入特征圖為X?RC×H×W,經(jīng)過兩輪批歸一化、激活函數(shù)和卷積后可得到新特征圖Y?RC×H×W,然后將X和Y分別重排為X′?RC×N和Y′?RC×N,對X′和Y′的轉(zhuǎn)置作矩陣乘法,再經(jīng)過歸一化指數(shù)函數(shù)后得到通道注意力圖A?RC×C,X的第i個(gè)通道對Y的第j個(gè)通道的影響因子如式(8)所示:
對A和Y′作矩陣乘法,再重排E?RC×H×W為增強(qiáng)后的特征圖。將E與X作元素加操作得到最終輸出特征圖O?RC×H×W。注意力殘差模塊結(jié)構(gòu)如圖6所示。
圖6 注意力殘差模塊結(jié)構(gòu)Fig.6 Structure of attention residual module
與輔助損失分支一樣,訓(xùn)練完成后將移除所有輔助任務(wù)分支,僅使用基礎(chǔ)模型進(jìn)行推斷,避免輔助任務(wù)分支帶來額外內(nèi)存及時(shí)間消耗。
FCN 在深度圖像分類神經(jīng)網(wǎng)絡(luò)VGG 的基礎(chǔ)上去除全連接層,大幅降低網(wǎng)絡(luò)的參數(shù)量,提高計(jì)算速度。由于FCN 只剩卷積層和激活函數(shù),因此可以看作一個(gè)大型卷積核,能接受任意尺寸圖像作為輸入圖像。最后,加入多級上采樣還原分辨率,實(shí)現(xiàn)端到端的語義分割。網(wǎng)絡(luò)模型整體結(jié)構(gòu)如圖7所示。
圖7 網(wǎng)絡(luò)模型整體結(jié)構(gòu)Fig.7 Overall structure of network model
由于FCN 具有輕量化、高精度、結(jié)構(gòu)簡單且能接受任意尺寸圖像作為輸入圖像的特點(diǎn),便于實(shí)現(xiàn)復(fù)雜算法并快速驗(yàn)證的同時(shí)依舊保持高精度,故本文采用FCN 作為基礎(chǔ)模型。
輔助任務(wù)分支中所有注意力殘差模塊后都加入雙線性上采樣層還原分辨率。網(wǎng)絡(luò)模型損失函數(shù)如式(9)所示:
總損失能量為主任務(wù)、輔助任務(wù)分支和輔助損失分支的損失能量加權(quán)和,主任務(wù)、輔助任務(wù)分支和輔助損失分支的損失函數(shù)均為交叉熵?fù)p失函數(shù),并取α=0.1、β=1。
為驗(yàn)證所提出算法的有效性,本文在PASCAL VOC2012 大型數(shù)據(jù)集上進(jìn)行測試,采用像素準(zhǔn)確率和平均交并比來衡量分割真值(Groud Truth,GT)與實(shí)際分割結(jié)果的差異。PASCAL VOC2012 擁有1 464 張訓(xùn)練集圖像,14 449 張驗(yàn)證集圖像和1 456 張測試集圖像。本文實(shí)驗(yàn)環(huán)境采用操作系統(tǒng)Ubuntu 16.04 LTS,算法框架Pytorch,CPU 為Intel i7-4710MQ,GPU 為NVIDIA GTX950m,顯存2 GB,內(nèi)存8 GB,CUDA 版本10.0。
首先在淺層網(wǎng)絡(luò)模型ResNet50 上進(jìn)行實(shí)驗(yàn)以驗(yàn)證2.1 節(jié)中的理論。在CIFAR-10 驗(yàn)證集上測試分類準(zhǔn)確率,在VOC2012 驗(yàn)證集上測試平均交并比。ResNet18 加入輔助損失前后的性能對比如表1 所示。加入輔助損失后,雖然其分類準(zhǔn)確率變化不大,但其平均交并比提升0.78 個(gè)百分點(diǎn)。淺層網(wǎng)絡(luò)模型加入輔助損失后,分割的準(zhǔn)確度即平均交并比確實(shí)得到提升。低層特征需要編碼更多的語義信息來提升其質(zhì)量,最終提高分割的準(zhǔn)確度。
表1 ResNet18 加入輔助損失前后的性能對比Table 1 Performance comparison of ResNet18 before and after adding auxiliary loss %
在FCN 中加入輔助損失分支來提升其低層特征的質(zhì)量。FCN 不同層加入輔助損失的驗(yàn)證集性能對比如表2 所示,F(xiàn)CN 加入輔助損失分支后取得66.2%的平均交并比,相比于基準(zhǔn)模型提升了0.7 個(gè)百分點(diǎn),驗(yàn)證了輔助損失算法的有效性。從表2 可以看出,隨著輔助損失在網(wǎng)絡(luò)模型中位置變深,網(wǎng)絡(luò)模型性能反而降低,這可能是隨著輔助損失的層數(shù)在網(wǎng)絡(luò)模型中位置越來越深,其對低層特征的約束力越來越弱,因此提升效果越來越差。
表2 FCN 不同層加入輔助損失的驗(yàn)證集性能對比Table 2 Performance comparison of validation sets with auxiliary losses between different FCN layers %
輔助任務(wù)進(jìn)一步加強(qiáng)網(wǎng)絡(luò)低層特征的離散度,本文采用圖像分類與語義分割多任務(wù)作為對比。多任務(wù)和輔助任務(wù)驗(yàn)證集性能對比如表3 所示,加入輔助任務(wù)后網(wǎng)絡(luò)模型的平均交并比從65.5%提升到70.7%,而多任務(wù)產(chǎn)生了負(fù)面的影響,使網(wǎng)絡(luò)性能降低了5.7 個(gè)百分點(diǎn),驗(yàn)證了輔助任務(wù)算法的有效性。
表3 多任務(wù)和輔助任務(wù)驗(yàn)證集性能對比Table 3 Performance comparison of multi-task and secondary task validation set %
邊緣檢測輔助網(wǎng)絡(luò)的分割結(jié)果如圖8 所示。邊緣檢測輔助任務(wù)分支正常學(xué)習(xí)到語義邊界特征。
圖8 邊緣檢測結(jié)果對比Fig.8 Results comparison of edge detection
為測試本文算法性能,在VOC2012 測試集上對加入輔助任務(wù)分支和輔助損失分支后的完整算法進(jìn)行實(shí)驗(yàn),同時(shí)與基于相同基礎(chǔ)模型FCN 的主流語義分割算法進(jìn)行對比。在VOC2012 測試集上不同算法性能對比如表4 所示。從表4 可以看出,F(xiàn)CN-A 為本文算法模型,基礎(chǔ)模型為FCN。將輔助任務(wù)分支與輔助損失分支應(yīng)用到SegNet上,即SegNet-A。最終FCN-A 的平均交并比為71.5%。相比基礎(chǔ)模型,F(xiàn)CN-A 模型提高了6 個(gè)百分點(diǎn),推斷時(shí)間僅增加30 ms,驗(yàn)證了本文算法的有效性。同時(shí),SegNet-A 的平均交并比為72.2%,比之前ParseNet 高了2.4 個(gè)百分點(diǎn),推斷時(shí)間僅增加5 ms,驗(yàn)證了本文算法的可擴(kuò)展性。
表4 在VOC2012 測試集上不同算法性能對比Table 4 Performance comparison of different algorithms on VOC2012 test set
網(wǎng)絡(luò)模型的預(yù)測結(jié)果對比如圖9 所示。從圖9可以看出,加入邊緣檢測輔助任務(wù)分支的網(wǎng)絡(luò)模型對于物體的形狀、語義邊界的分割效果更好。說明邊緣檢測輔助任務(wù)分支使網(wǎng)絡(luò)模型更關(guān)注物體的形狀和邊緣信息,獲取更多關(guān)于物體類內(nèi)差異特征,提升網(wǎng)絡(luò)模型低層特征的離散度,優(yōu)化了基礎(chǔ)模型分割結(jié)果的語義邊緣。但是從圖9 第4 行的分割結(jié)果中可以看出,本文模型對物體與背景紋理、顏色近似度高的情況分割結(jié)果并不理想。這可能是因?yàn)榫W(wǎng)絡(luò)模型特征的類間差異度較低,需要學(xué)習(xí)更多關(guān)于紋理、顏色的特征,后續(xù)可以嘗試加入最大化類間差異度的損失函數(shù)或結(jié)構(gòu)等。
圖9 不同網(wǎng)絡(luò)模型的預(yù)測結(jié)果對比Fig.9 Prediction results comparison between different network models
本文提出一種基于輔助損失、邊緣檢測輔助任務(wù)和注意力機(jī)制的語義分割算法。重新設(shè)計(jì)網(wǎng)絡(luò)模型的輔助損失分支,基于自然語言處理中的注意力機(jī)制設(shè)計(jì)輔助任務(wù)分支,將基礎(chǔ)模型、重新設(shè)計(jì)網(wǎng)絡(luò)模型的輔助損失分支和輔助任務(wù)分支集成構(gòu)造為語義分割模型。實(shí)驗(yàn)結(jié)果表明,本文算法在VOC2012測試集上的平均交并比達(dá)到了71.5%,將基礎(chǔ)模型更換為SegNet 后,平均交并比達(dá)到72.2%,驗(yàn)證了該算法的有效性和可擴(kuò)展性。下一步將利用輔助任務(wù)機(jī)制的內(nèi)在數(shù)學(xué)機(jī)理,并結(jié)合新的特征提取網(wǎng)絡(luò)研究成果進(jìn)行注意力機(jī)制和輔助任務(wù)的泛化性研究。