薛程, 葉少珍, 2
(1. 福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院, 福建 福州 350108; 2. 福州大學(xué)智能制造仿真研究院, 福建 福州 350108)
圖像理解是圖像分割中重要處理環(huán)節(jié), 將有助于促進(jìn)自動(dòng)駕駛、 機(jī)器人和增強(qiáng)現(xiàn)實(shí)等技術(shù)的實(shí)際應(yīng)用. 在深度學(xué)習(xí)技術(shù)應(yīng)用之前, 圖像解析、 場(chǎng)景解析和全圖像理解等已經(jīng)得到一定的發(fā)展, 隨著深度學(xué)習(xí)在語(yǔ)義分割和實(shí)例分割的應(yīng)用, 文獻(xiàn)[1]將其命名為全景分割(panoptic segmentation, PS), 將圖像內(nèi)容分為Stuff不可數(shù)語(yǔ)義類(例如草地、 天空、 道路)和Things可數(shù)實(shí)例類(例如人、 交通工具), 任務(wù)的目的是為圖像中每一個(gè)像素分配語(yǔ)義分類標(biāo)簽和實(shí)例ID. 在Things實(shí)例類中, 實(shí)例ID用于區(qū)分每一個(gè)目標(biāo), 因此其對(duì)于Stuff語(yǔ)義類來(lái)說(shuō)是非必需的, 但是分類標(biāo)簽對(duì)于Stuff語(yǔ)義類和Things實(shí)例類是必需的. 所以, 對(duì)于同一個(gè)實(shí)例的像素?fù)碛邢嗤膶?shí)例ID. 目前, 主流研究方法為: 選取一個(gè)主干網(wǎng)絡(luò)進(jìn)行特征提取, 然后將特征圖分別輸入到語(yǔ)義分割分支和實(shí)例分割分支中, 實(shí)現(xiàn)共享特征, 最后經(jīng)過(guò)一個(gè)啟發(fā)式策略將兩者的輸出進(jìn)行合并. 但其仍存在兩大問(wèn)題, 一是語(yǔ)義分割結(jié)果和實(shí)例分割結(jié)果的重疊沖突, 二是實(shí)例分割中出現(xiàn)的重疊沖突. 全景分割任務(wù)包含了傳統(tǒng)的兩大任務(wù): 語(yǔ)義分割和實(shí)例分割. 其中語(yǔ)義分割是全圖像每一個(gè)像素的分類, 包括了Stuff語(yǔ)義類和Things實(shí)例類, 無(wú)法分割出具體的實(shí)例. 實(shí)例分割, 關(guān)注于Things實(shí)例類的檢測(cè)和分割, 并沒(méi)有對(duì)Stuff語(yǔ)義類進(jìn)行檢測(cè)和分割. 本研究在原有全景分割網(wǎng)絡(luò)的基礎(chǔ)上通過(guò)改動(dòng)卷積結(jié)構(gòu)以及增添新的卷積模塊分別提高了AP評(píng)價(jià)指標(biāo)和mIoU評(píng)價(jià)指標(biāo).
在常用的Cityscapes數(shù)據(jù)集上, 人工對(duì)一張圖片進(jìn)行像素級(jí)的標(biāo)簽注釋需要較長(zhǎng)的時(shí)間, 如何在全景分割標(biāo)注數(shù)據(jù)不夠的情況下完成全景分割任務(wù), 文獻(xiàn)[2]提出使用弱監(jiān)督的方法, 利用弱邊框和圖像級(jí)別的分類標(biāo)簽來(lái)減少標(biāo)注數(shù)據(jù)少引起的問(wèn)題. 針對(duì)實(shí)現(xiàn)全景分割落地, 埃因霍芬理工大學(xué)團(tuán)隊(duì)嘗試了端到端的方法[3], 提出了JSISNet, 將語(yǔ)義分支和實(shí)例分支的損失函數(shù)合并, 從而達(dá)到聯(lián)合訓(xùn)練, 實(shí)現(xiàn)端到端的方法. TASCNet采用從共享的骨干網(wǎng)提取特征圖, 在實(shí)例分支使用基于候選區(qū)域的方法Mask R-CNN[4]完成Things類的分割并生成Things類的二進(jìn)制掩碼, 語(yǔ)義分支使用一系列的卷積和上采樣操作完成Stuff類的分割, 以及生成Things類的二進(jìn)制掩碼, 通過(guò)與實(shí)例分支的Things二進(jìn)制掩碼和語(yǔ)義分支的Things二進(jìn)制掩碼的互補(bǔ), 最終將實(shí)例分支的輸出、 二進(jìn)制掩碼的輸出及語(yǔ)義分支的輸出進(jìn)行融合, 輸出最終的全景分割結(jié)果, 實(shí)現(xiàn)了Things和Stuff類的一致性. 文獻(xiàn)[5]根據(jù)語(yǔ)義分割和實(shí)例分割存在上下文信息聯(lián)系, 提出了AUNet, 利用前景上下文信息來(lái)提高背景Stuff分割的效果. 由于之前的一些全景分割的工作使用單獨(dú)和不同的網(wǎng)絡(luò)進(jìn)行實(shí)例和語(yǔ)義分割, 而沒(méi)有進(jìn)行任何共享計(jì)算, PanopticFPN[6]致力于為全景分割任務(wù)提供一個(gè)良好的基線, 認(rèn)為全景分割旨在架構(gòu)級(jí)別上統(tǒng)一這些方法, 應(yīng)該為語(yǔ)義分割和實(shí)例分割設(shè)計(jì)一個(gè)單一完整的網(wǎng)絡(luò). 通過(guò)使用共享的特征金字塔網(wǎng)絡(luò)獲取特征圖, 為實(shí)例分支Mask R-CNN賦予語(yǔ)義分割分支FCN[7]來(lái)完成分割. UPSNet[8]遵循以往的做法, 使用ResNet[9]的FPN[10]作為共享骨干網(wǎng)來(lái)提取特征圖, 實(shí)例分支基本使用Mask R-CNN, 使用可變形網(wǎng)絡(luò)的子網(wǎng)絡(luò)輸出語(yǔ)義分支的結(jié)果, 根據(jù)PQ的計(jì)算方式, 創(chuàng)新地引入一個(gè)未知類, 當(dāng)對(duì)某一個(gè)像素預(yù)測(cè)沖突時(shí), 將其置為未知類, 既解決了語(yǔ)義分割結(jié)果和實(shí)例分割結(jié)果的沖突, 也提高了PQ評(píng)價(jià), 在全景頭中, 通過(guò)使用實(shí)例分割結(jié)果修正語(yǔ)義分割結(jié)果的方式來(lái)融合兩個(gè)分支結(jié)果進(jìn)行全景預(yù)測(cè). UPSNet算法比之前的算法在PQ評(píng)價(jià)指標(biāo)和推理速度上都有進(jìn)一步的提高, 使用的語(yǔ)義分支更加輕量, 但是UPSNet算法對(duì)細(xì)長(zhǎng)物體的分割效果較差(例如電線桿), 未知類的引入雖然解決了沖突, 但是對(duì)于沖突像素點(diǎn)的分類預(yù)測(cè)有一定的失誤.
綜上所述, 對(duì)于解決全景分割任務(wù), 主要在于建立一個(gè)統(tǒng)一完整的網(wǎng)絡(luò)架構(gòu), 直接實(shí)現(xiàn)對(duì)每一個(gè)像素點(diǎn)的分類標(biāo)簽和實(shí)例類的實(shí)例ID的預(yù)測(cè), 在現(xiàn)有大多數(shù)框架中, 采用方法主要是提取一個(gè)共享特征, 分別對(duì)語(yǔ)義分割和實(shí)例分割進(jìn)行預(yù)測(cè), 最后將兩者的預(yù)測(cè)結(jié)果進(jìn)行融合, 雖然這類方法不同于PS中提出的實(shí)現(xiàn)一種統(tǒng)一完整的網(wǎng)絡(luò)框架, 但是在一定程度上能夠解決全景分割任務(wù).
從UPSNet結(jié)構(gòu)改進(jìn)出發(fā), 針對(duì)實(shí)例分支定位和語(yǔ)義分支分割存在的兩個(gè)問(wèn)題, 首先提出在特征金字塔殘差網(wǎng)絡(luò)中添加一條自底向上的定位信息增強(qiáng)路徑, 其次在語(yǔ)義分支中添加一個(gè)并行的四個(gè)克羅內(nèi)克卷積, 實(shí)現(xiàn)對(duì)語(yǔ)義和實(shí)例分支效果的提升.
圖1 本研究改進(jìn)算法框架模型Fig.1 The algorithm framework model of the paper
圖2 自底向上和橫向連接的結(jié)合Fig.2 Combination of bottom-up and lateral connections
本研究提出了如圖2所示的自底向上的操作. 在圖像分割以及目標(biāo)檢測(cè)領(lǐng)域使用多尺度特征表示往往有更好的效果, 傳統(tǒng)特征金字塔網(wǎng)絡(luò)是一種通用的多尺度信息特征提取器, 因?yàn)楦邔由窠?jīng)元對(duì)整個(gè)物體有強(qiáng)烈的反應(yīng), 而其他神經(jīng)元更容易被局部紋理和模式激活, 所以需要添加一條自頂向下的路徑來(lái)傳播語(yǔ)義上強(qiáng)大的特征. 通過(guò)在所有尺度上構(gòu)建高層語(yǔ)義特征圖, 使用一種通用的用于圖像分類的模型, 例如ResNet, 在分類模型中, 通過(guò)自頂向下和橫向連接, 將特征層次中的兩個(gè)相鄰層依次組合, 建立特征金字塔. 對(duì)語(yǔ)義強(qiáng)但分辨率低的高層次特征自頂向下進(jìn)行上采樣, 并與高分辨率低層特征相結(jié)合, 生成高分辨率和語(yǔ)義強(qiáng)的特征表示. 但是語(yǔ)義強(qiáng)的高層特征缺少更多的低層的物理特征, 而信息在神經(jīng)網(wǎng)絡(luò)中傳播的方式是重要的, 低層物理特征能夠促進(jìn)實(shí)例物體定位到更準(zhǔn)確的位置. 在此方面, 用于實(shí)例分割的PANet[11]在自頂向下后的特征圖后面添加一條自底向上的路徑增強(qiáng)模塊, 其模仿了傳統(tǒng)特征金字塔的橫向連接, 通過(guò)和自底向上的特征進(jìn)行結(jié)合, 輸出最終特征圖, 這樣在較低層次上用精確的定位信號(hào)增強(qiáng)整個(gè)特征層次, 縮短了低層和高層的信息路徑.
圖3 自底向上和自頂向下的結(jié)合Fig.3 A combination of bottom-up and top-down
鑒于低層定位信息對(duì)于實(shí)例分支中實(shí)例定位的重要性, 結(jié)合傳統(tǒng)特征金字塔網(wǎng)絡(luò), 使用ResNet分類模型, 在ResNet的卷積過(guò)程中, 額外添加一條自底向上的路徑, 對(duì)每一層先進(jìn)行下采樣, 再與原來(lái)的特征圖橫向連接進(jìn)行相加結(jié)合, 一層層將低層信息傳播到最高層, 產(chǎn)生了{(lán)PL2,PL3,PL4,PL5}特征圖; 然后, 再與傳統(tǒng)特征金字塔的自頂向下的{PR2,PR3,PR4,PR5}特征圖結(jié)合, 結(jié)合方法如圖3所示; 最后再通過(guò)一個(gè)3×3卷積輸出最后的{P2,P3,P4,P5}多尺度特征圖, 從而實(shí)現(xiàn)將低層定位信息傳播到高層語(yǔ)義信息強(qiáng)的特征圖中, 彌補(bǔ)了高層特征表示缺乏低層定位信息的缺點(diǎn), 使共享主干網(wǎng)的特征輸出更適合之后的實(shí)例分支.
本研究提出了如圖2所示的自底向上的操作. 而在圖像分割領(lǐng)域中, 感受野對(duì)于圖像分割精度的好壞是一個(gè)重要的因素, 而通常情況下是使用標(biāo)準(zhǔn)卷積再加上池化操作來(lái)增大感受野, 但是減小了特征圖尺寸. 由于圖像分割是逐像素預(yù)測(cè), 所以在進(jìn)行預(yù)測(cè)時(shí), 需要在尺寸較小的特征圖上采樣至原始大小尺寸, 這個(gè)過(guò)程經(jīng)歷了將圖片尺寸縮小再放大, 會(huì)導(dǎo)致丟失信息. 擴(kuò)張卷積實(shí)現(xiàn)了在增大感受野的同時(shí), 不會(huì)縮小圖像尺寸, 并且設(shè)置不同的擴(kuò)張率的擴(kuò)張卷積一起使用, 可以捕獲多尺度上下文信息, 但會(huì)受到棋盤(pán)問(wèn)題的影響, 導(dǎo)致丟失了局部信息. 因此在設(shè)置不同擴(kuò)張卷積時(shí), 可以滿足兩個(gè)特性, 一是疊加擴(kuò)張卷積的擴(kuò)張率不能有大于1的公約數(shù), 二是將擴(kuò)張率設(shè)計(jì)成鋸齒狀結(jié)構(gòu).
由于擴(kuò)張卷積會(huì)導(dǎo)致局部信息的丟失, 所以引入了克羅內(nèi)克卷積[12], 使得在卷積的過(guò)程中能夠捕獲局部信息, 并且不會(huì)增加參數(shù), 網(wǎng)絡(luò)不會(huì)更加復(fù)雜, 克羅內(nèi)克卷積通過(guò)兩個(gè)因子來(lái)調(diào)節(jié)大小, 分別是內(nèi)部膨脹因子和內(nèi)部共享因子. 內(nèi)部膨脹因子控制克羅內(nèi)克卷積擴(kuò)張率, 而內(nèi)部共享因子控制用于捕獲局部信息子區(qū)域的大小. 也就是說(shuō), 克羅內(nèi)克卷積不僅繼承了擴(kuò)張卷積的優(yōu)點(diǎn), 而且還克服了擴(kuò)張卷積會(huì)丟失局部信息的缺點(diǎn). 通過(guò)一個(gè)有效特征比(valid feature ratio, VFR)來(lái)對(duì)比克羅內(nèi)克卷積和擴(kuò)張卷積, 從而驗(yàn)證克羅內(nèi)克卷積可以捕獲局部信息, 發(fā)現(xiàn)克羅內(nèi)克卷積的有效特征比較高. VFR用來(lái)計(jì)算所涉及的特征向量數(shù)與卷積塊中所有特征向量數(shù)之比.
克羅內(nèi)克卷積的數(shù)學(xué)理論基礎(chǔ)是克羅內(nèi)克積, 使用一個(gè)內(nèi)部膨脹因子大小r1×r1的方陣與原始核進(jìn)行克羅內(nèi)克積, 使得原始核大小可以擴(kuò)展到原來(lái)的r1倍.為了避免額外帶來(lái)參數(shù), 可以將r1×r1的方陣設(shè)計(jì)為一個(gè)全1矩陣和零矩陣的結(jié)合, 而全1矩陣的大小可以設(shè)置為內(nèi)部共享因子的大小為r2的方陣.
克羅內(nèi)克積公式如下:
(1)
其中,A是一個(gè)m×n的矩陣;B是一個(gè)r×s的矩陣.則克羅內(nèi)克卷積公式可以表述為:
(2)
這里,cout∈[1,coutput]∩Z,cin∈[1,cinput]∩Z;K′是經(jīng)過(guò)克羅內(nèi)克積后的克羅內(nèi)克卷積核;K是原始卷積核.令每一個(gè)通道上的特征矩陣定義為M, 克羅內(nèi)克卷積核K′映射到M中的中心坐標(biāo)是(p,q), 則可以定義特征矩陣M中參與計(jì)算的區(qū)域矩陣為S.以上可以推出參與計(jì)算的坐標(biāo)為: (p+ir1+u,q+jr1+v), 其中i,j∈[-k,k]∩Z,u,v∈[0,r2-1]∩Z, 那么在每一個(gè)通道上的克羅內(nèi)克卷積操作可以表示為:
(3)
由上述公式可知, 當(dāng)r1≥1,r2=1時(shí), 克羅內(nèi)克卷積退化為擴(kuò)張卷積, 當(dāng)r1=r2=1時(shí), 克羅內(nèi)克卷積退化為標(biāo)準(zhǔn)卷積.
本研究使用四個(gè)克羅內(nèi)克卷積, 將多尺度特征分別輸入到克羅內(nèi)克卷積網(wǎng)絡(luò)中, 得到的輸出與可變形卷積網(wǎng)絡(luò)的輸出進(jìn)行融合, 接著上采樣拼接, 輸入到1×1卷積中進(jìn)行語(yǔ)義類別預(yù)測(cè).
Cityscapes城市街道場(chǎng)景數(shù)據(jù)集, 主要提供無(wú)人駕駛環(huán)境下的圖像分割數(shù)據(jù), 用于評(píng)估算法在城區(qū)場(chǎng)景語(yǔ)義理解方面的性能: 像素級(jí)、 實(shí)例級(jí)和全景語(yǔ)義標(biāo)注. 該數(shù)據(jù)集中所有圖片來(lái)自于50個(gè)不同城市春、 夏、 秋的街道場(chǎng)景, 每一張圖片的分辨率都是1 024 px×2 048 px, 并且還包含了5 000個(gè)精細(xì)標(biāo)注的圖片和20 000個(gè)粗糙標(biāo)注的圖片, 圖像中物的類別來(lái)自于30種語(yǔ)義類, 其中19個(gè)常用類用于語(yǔ)義分割的基準(zhǔn)評(píng)估. 這些圖像分為8大類: 平面、 人、 交通工具、 建筑、 小物體、 自然、 天空、 空類. 5 000個(gè)精細(xì)標(biāo)注的圖片分為了三個(gè)文件, 分別是包含2 975張圖片的訓(xùn)練集文件、 包含1 525張圖片的測(cè)試集文件和包含500張圖片的驗(yàn)證集文件. 部分示例圖像如圖4所示:
(a) 示例1 (b) 示例2 (c) 示例3圖4 Cityscapes數(shù)據(jù)集示例Fig.4 Cityscapes dataset example
實(shí)驗(yàn)使用ResNet-50作為共享主干網(wǎng)低層信息增強(qiáng)特征金字塔網(wǎng)絡(luò)的圖像分類模型, 學(xué)習(xí)率為0.005, 動(dòng)量為0.9, 優(yōu)化器為SGD, 歸一化方法使用組歸一化, 訓(xùn)練輪數(shù)為48 000, GPU使用NVIDIA GeForce GTX 1080Ti.
為了對(duì)全景分割方法性能進(jìn)行客觀評(píng)價(jià), 采用PQ、 AP和mIoU作為本研究提出的全景分割方法效果的衡量指標(biāo). 其中, PQ是由RQ和SQ的乘積而來(lái); RQ是在檢測(cè)中應(yīng)用廣泛的F1 score, 用來(lái)計(jì)算全景分割中每一個(gè)實(shí)例物體識(shí)別的準(zhǔn)確性; SQ表示匹配后的預(yù)測(cè)分割和標(biāo)注分割的mIoU, 當(dāng)預(yù)測(cè)分割和標(biāo)注分割的IoU嚴(yán)格大于0.5, 則表示預(yù)測(cè)的分割和標(biāo)注的分割匹配. PQ的計(jì)算式如下所示:
(4)
AP指標(biāo)是實(shí)例分割常用的評(píng)價(jià)指標(biāo), 指的是實(shí)例的平均精度, 是PR曲線和坐標(biāo)所圍成的面積:
(5)
mIoU指標(biāo)是語(yǔ)義分割廣泛使用的評(píng)價(jià)指標(biāo), 指的是每一個(gè)類的預(yù)測(cè)分割和標(biāo)注分割的交并比再取平均. mIoU 表示分割結(jié)果與原始圖像真值的重合程度.
(6)
從表1的對(duì)比結(jié)果可以看出, 在評(píng)估實(shí)例分支的AP指標(biāo)和語(yǔ)義分支的mIoU指標(biāo)相對(duì)于UPSNet有了更進(jìn)一步的提升, 但是反而降低了PQ指標(biāo), 說(shuō)明UPSNet的全景頭融合方法還存在一定的缺陷, 需要更好地解決兩個(gè)分支在融合時(shí)產(chǎn)生的沖突問(wèn)題.
表1 在Cityscapes 驗(yàn)證集上的對(duì)比結(jié)果
從圖5的UPSNet方法的全景分割結(jié)果圖片中看出, 在遠(yuǎn)處的語(yǔ)義類和實(shí)例類顏色相近的實(shí)例類像素點(diǎn)會(huì)被分配為語(yǔ)義類, 從而有的實(shí)例會(huì)直接消失, 并且在細(xì)節(jié)的刻畫(huà)上, 會(huì)導(dǎo)致很多的凹凸不平, 使得分割出來(lái)的物體不夠有線條性. 在第一行圖片中, 本研究方法的草地分割更加準(zhǔn)確并且更加平滑; 第二行圖片中, UPSNet方法中右邊墻面沒(méi)有分割出來(lái), 而本研究方法分割出了一部分; 第三行圖片中, 在UPSNet方法中中間拿著包的人的手臂出現(xiàn)了斷續(xù), 本研究方法完好地分割出來(lái); 第四行圖片中, 本研究方法對(duì)于UPSNet方法在分割道路時(shí)更接近于標(biāo)注圖片.
(a) 原圖 (b) GroundTruth (c) UPSNet方法 (d) 本研究方法圖5 本研究方法與UPSNet在Cityscapes上的全景分割效果對(duì)比Fig.5 Comparison of panoramic segmentation effect between UPSNet and our method on Cityscapes
為了提高語(yǔ)義分支和實(shí)例分支的分割能力, 設(shè)計(jì)了一個(gè)新型的基于多尺度定位信息增強(qiáng)的全景分割模型, 其能夠有效增強(qiáng)分割能力主要源于兩方面.
1) 多尺度定位信息增強(qiáng)特征. 根據(jù)傳統(tǒng)特征金字塔網(wǎng)絡(luò)的高層特征缺乏低層物理特征的缺點(diǎn), 在傳統(tǒng)特征金字塔網(wǎng)絡(luò)的另一邊添加一條自底向上的路徑, 增強(qiáng)了高層特征的定位信息.
2) 克羅內(nèi)克卷積組. 在語(yǔ)義分支中添加四個(gè)克羅內(nèi)克卷積分別對(duì)應(yīng)四個(gè)多尺度特征, 增大了此時(shí)的多尺度特征的感受野, 并且防止了特征的局部信息丟失.
針對(duì)UPSNet的不足進(jìn)行了改進(jìn), 在Cityscapes公開(kāi)數(shù)據(jù)集上進(jìn)行了多組多種方法的對(duì)比實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果表明了本研究方法相對(duì)于UPSNet在語(yǔ)義分支和實(shí)例分支中的效果更好. 此外, 未來(lái)的工作將進(jìn)一步研究全景頭中語(yǔ)義分支結(jié)果和實(shí)例分支結(jié)果的融合方法以及語(yǔ)義分支和實(shí)例分支之間的相關(guān)性, 探索出更好的融合方法以提高整體的分割能力.
福州大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年3期