秦曉飛,何玉帥,孫 越,嚴浩通,林 軒
(1.上海理工大學 光電信息與計算機工程學院,上海 200093;2.上海理工大學 機械工程學院,上海 200093)
圖像語義分割就是機器自動從圖像中分割對象區(qū)域、識別其中的內容,對該圖像像素按照類別標簽進行標注。隨著計算機網絡的發(fā)展,越來越多的應用場景需要高精度、高效率的圖像語義分割技術作為核心,尤其在自動駕駛、無人機應用及穿戴式設備應用中圖像語義分割技術起著重要的作用。圖像語義分割屬于圖像場景解析,是在像素層面上對場景進行解析。
近年來,深度學習取得了重大突破,能夠提高圖像語義分割精度。具有代表性的深度學習網絡有 AlexNet[1]、GoogleNet[2]、VGGNet[3]等,這些網絡在近年的ImageNet圖像分類大賽中已成為主流。Long等[4]提出了基于全卷積網絡(FCN)的語義分割算法,該網絡使用VGG-16作為基準網絡,在當前圖像分類的標準CNN網絡中對輸出層添加了上采樣,恢復輸入圖像的空間分辨率。此法可接受任意大小的輸入圖像,FCN方法是在網絡的輸入端輸入原始圖像,經過具有5次卷積和池化操作的編碼器后,將提取到的語義信息經過3個全連接層輸出,得到最終的預測圖。但得到的結果不夠精細和敏感,沒有充分考慮像素與像素間的關系,缺乏空間一致性,導致邊緣信息缺失。
針對該問題,本文提出了一種基于多路徑網絡的權值調整圖像語義分割算法。該算法優(yōu)點是改善了邊緣信息的缺失情況,模型收斂快,泛化能力強。通過跳躍連接的方式,將輸入端信息傳遞至輸出端,以反向傳播的形式弱化損失函數,更新網絡參數。同時,將多路徑網絡輸出的特征映射作為權值調整模塊輸入,精確保證圖像語義信息邊緣的完整性,提高網絡結構的最終預測質量。
該算法以多路徑網絡作為基準網絡,以調整模型作為輔助設計的深度卷積神經網絡。多路徑網絡思想被視為ResNet思想和Inception網絡思想的結合,在類Inception網絡框架基礎上填充殘差塊,在信息傳遞過程中,將梯度消失或者梯度爆炸問題解決,不僅提高分割精度,還可以幫助網絡優(yōu)化,加快訓練的收斂速度。調整模型捕捉多路徑網絡輸出特征的全局上下文信息,選擇性突出類別依賴項的特征圖,讓網絡進行語義上下文學習,預測場景中的物體類別。算法結構如圖1所示,即:1)給定一幅輸入圖像;2)通過多路徑網絡提取特征語義信息;3)應用調整模塊對特征圖權重調整;4)調整后特征圖與調整前特征圖卷積操作;5)將上一步中的輸出進行上池化卷積操作,得到最終預測圖。
圖1 本文的算法結構圖Fig. 1 Algorithm structure
在神經網絡中,為了更好減輕網絡模型學習困難、提升圖像語義分割精確度,本文引用了多路徑塊網絡模型:在類Inception網絡框架思想上,按全卷積網絡的深度植入5個基本結構單元。圖2為多路徑網絡模型的基本結構,其中:表示多路徑網絡模型中的第一階段殘差單元;表示多路徑網絡模型中的第二階段殘差單元。網絡結構可以讓數據信息從輸入到輸出多路徑流動,不僅防止了梯度彌散和梯度爆炸問題產生、有效加快網絡收斂速度,而且在更新網絡權重時,語義信息可以得到有效傳遞,大幅提升網絡性能。
圖2 多路徑網絡模型的基本結構Fig. 2 Basic structure of dense residual network model
為了更好解析多路徑網絡,本文運用遞歸算式推理。假設多路徑塊輸入為,其輸出為y2,則
式中f1、f2表示標準的殘差塊模型。經實驗證明,多路徑網絡模型優(yōu)化殘差映射相對優(yōu)化原始映射而言,效率更高。
解析與利用全局上下文信息對圖像語義分割是至關重要的。通過模型捕捉來自深度殘差網絡模型的特征,本文利用其語義上下文信息設置一組縮放因子,有選擇性地突出類別相關項的特征圖。假設調整模型將輸入特征圖視為H×W×C的立方體,其中:C為特征圖維度;H為特征圖高度;W為特征圖寬度。像素本身為XN},其中N=H×W表示像素總和。特征映射學習每個像素包含的電報密碼本為對應的平滑因子為K為電報密碼詞的個數。本文應用疊加算法對每個維度的對應像素累加,調整模型可表示為
式中:sk為電報密碼本的平滑因子;可表示為
其中dk為電報密碼本。
這種調整算法充分利用全局上下文信息,輸出具有豐富信息的特征圖。將深度殘差網絡模型輸出和調整模型輸出結合,上池化至原圖大小得到最終的預測。
實驗采用的操作系統(tǒng)是Windows10 64位,GTX 1080 Ti顯卡,32 GB內存臺式工作服務器,運行環(huán)境為Pytorch平臺。
本文評價圖像語義分割算法的指標是具有權威性的平均交并比(mean intersection over union,MIoU)指標,計算兩個集合的交集和并集之比。在語義分割問題中,這兩個集合為真實值(ground truth)和預測值(predicted segmentation)。這個比例可變形為正真數(intersection)比真正、假負、假正(并集)之和,逐類計算IoU再平均,其表示如下:
式中:pii為真實值為i、被預測值為i的數量;pji為真實值為j、被預測值為i的數量;pij為實值為i、被預測為j的數量。
深度學習需要大量數據訓練本文提出的網絡模型,如果數據過少,導致過擬合現象,雖在該數據樣本上有較好效果,但在實際應用上泛化能力特別差。基于此,本文采用了2016年ImageNet場景分析挑戰(zhàn)賽上使用的數據集。與其他數據集不同,ADE20K數據集包含150個類別和1 038個圖像標簽。它被分成包含20 000張圖像的訓練集,包含2 000張圖像的驗證集,包含3 000張圖像的測試集。ADE20K數據集可以解析場景中對象,因此這是一個更具有挑戰(zhàn)性的數據集。
訓練時,本文設置初始學習率為0.01,動量系數為0.9,重量衰減為0.000 1。對于數據增強,本文采用隨機翻轉縮放算法,經驗證集迭代100 000次的結果作為最終的訓練模型。為驗證本算法的有效性,在ADE20K數據集上對本文算法與FCN、ParseNet、SegNet等語義分割算法做性能指標評估,實驗數據如表1所示。從表1數據可看出,與近年來優(yōu)秀的語義分割算法進行對比,本文提出算法比其中最優(yōu)算法的MIoU提高了2.4%。
圖3和圖4是ADE20K數據集中的室外和室內2種典型的原始圖像及其分割結果。圖中只采用了FCN與本文算法做比較,是因為FCN在語義分割領域中具有重要的地位,目前較為流行的語義分割框架幾乎全部建立在FCN的基礎上。對比兩種算法的分割結果可以看出,本文所提算法較FCN算法對物體邊緣分割的效果有明顯提升,場景解析、分割的類邊緣信息豐富,驗證了本文算法的有效性。
針對圖像語義分割技術,本文提出了一種基于多路徑網絡的權值調整圖像語義分割算法。對特征語義信息的提取,本文采用了多路徑網絡模型,不僅有效加快了網絡收斂速度,而且在更新網絡權重時信息可以得到有效的傳遞。為了提高場景中類別邊緣的分割效果,本文引入了調整模塊對得到的特征映射重新調整權值。實驗發(fā)現,圖像語義分割對細微物體的分割能力仍需要加強,這也是下一步的研究方向。
表1 圖像語義分割算法對比數據Tab. 1 Comparison of semantic image segmentation algorithm data
圖3 室外實驗對比Fig. 3 Outdoor experiment comparison
圖4 室內實驗對比Fig. 4 Indoor experiment comparison