宋小娜 芮挺 王新晴
摘 要:語義分割是實現(xiàn)道路語義環(huán)境解釋的重要方法,深度學習語義分割由于卷積、池化及反卷積的作用使分割邊界模糊、不連續(xù)以及小目標漏分錯分,影響了分割效果,降低了分割精度。針對上述問題,提出了一種結合語義邊界信息的新的語義分割方法,首先在語義分割深度模型中構建了一個語義邊界檢測子網(wǎng),利用網(wǎng)絡中的特征共享層將語義邊界檢測子網(wǎng)絡學習到的語義邊界信息傳遞給語義分割網(wǎng)絡;然后結合語義邊界檢測任務和語義分割任務定義了新的模型代價函數(shù),同時完成語義邊界檢測和語義分割兩個任務,提升語義分割網(wǎng)絡對物體邊界的描述能力,提高語義分割質量。最后在Cityscapes數(shù)據(jù)集上進行一系列實驗證明,結合語義邊界信息的語義分割方法在準確率上比已有的語義分割網(wǎng)絡SegNet提升了2.9%,比ENet提升了1.3%。所提方法可以改善語義分割中出現(xiàn)的分割不連續(xù)、物體邊界不清晰、小目標錯分漏分、分割精度不高等問題。
關鍵詞:語義分割;全卷積神經(jīng)網(wǎng)絡;道路環(huán)境感知;邊緣檢測;無人駕駛車輛
中圖分類號:TP391.4
文獻標志碼:A
Semantic segmentation method of road environment? combined semantic boundary information
SONG Xiaona1,2, RUI Ting1*, WANG Xinqing1
1.College of Field Engineering, Army Engineering University of Peoples Liberation Army, Nanjing Jiangsu 210018, China;
2.College of Mechanical Engineering, North China University of Water Resources and Electric Power, Zhengzhou Henan 450045, China
Abstract:
Semantic segmentation is an important method to interpret the road semantic environment. The convolution, pooling and deconvolution in semantic segmentation of deep learning result in blur and discontinuous segmentation boundary, missing and wrong segmentation of small objects. These influence the outcome of segmentation and reduce the accuracy of segmentation. To deal with the problems above, a new semantic segmentation method combined semantic boundary information was proposed. Firstly, a subnet of semantic boundary detection was built in the deep model of semantic segmentation, and the feature sharing layers in the network were used to transfer the semantic boundary information learned in the semantic boundary detection subnet to the semantic segmentation network. Then, a new cost function of the model was defined according to the tasks of semantic boundary detection and semantic segmentation. The model was able to accomplish two tasks simultaneously and improve the descriptive ability of object boundary and the quality of semantic segmentation. Finally, the method was verified on the Cityscapes dataset. The experimental results demonstrate that the accuracy of the method proposed is improved by 2.9 % compared to SegNet and is improved by 1.3% compared to ENet. It can overcome the problems in semantic segmentation such as discontinous segmentation, blur boundary of object, missing and wrong segmentation of small objects and low accuracy of segmentation.
Key words:
semantic segmentation; Fully Convolutional Network (FCN); road environment perception; boundary detection; unmanned vehicle
0 引言
道路環(huán)境感知問題一直以來是智能車輛的關鍵技術,其中基于計算機視覺的環(huán)境感知方法已成為主要研究熱點。它通過車輛前方的攝像頭獲取道路環(huán)境信息,利用相關算法對道路場景進行語義分割,獲取車輛周邊環(huán)境情況,為智能車輛的安全行駛提供保障。
目前,現(xiàn)有的道路環(huán)境語義分割方法[1-10]大多基于深度學習網(wǎng)絡框架,全卷積神經(jīng)網(wǎng)絡的引入,更是有效提升了語義分割任務的精度和速度。但是卷積層中大的感受野和池化層的存在使得道路環(huán)境中大量物體邊界細節(jié)缺失,造成語義分割結果邊界模糊、分割精度不高。針對此類問題,許多研究人員采取對語義分割結果進行后處理,如采用條件隨機場(Conditional Random Field, CRF)等方法來改善粗糙的語義分割結果。然而這種方法大多數(shù)是基于顏色等低維特征進行修正,不能學習場景中不同物體之間的語義關系,因此很難獲得很好的語義分割結果。
本文提出一種結合語義邊界信息的道路環(huán)境語義分割方法,通過在語義分割網(wǎng)絡中引入語義邊界檢測子網(wǎng)絡來學習語義邊界信息,在同一深度網(wǎng)絡框架下,完成語義邊界檢測和語義分割兩個任務,并定義了新的模型代價函數(shù),有效提升語義分割邊界精度。本文的主要工作如下:
1)在語義分割網(wǎng)絡中構建了語義邊界檢測子網(wǎng)絡,通過融合語義分割模型中不同卷積層的特征,學習從低層到物體層次的多尺度邊緣信息,為語義分割提供豐富準確的物體邊界信息。
2)在同一深度神經(jīng)網(wǎng)絡框架下,完成物體語義邊界檢測和語義分割兩個任務,通過定義新的模型代價函數(shù),使網(wǎng)絡更好地學習語義邊界信息,改善語義分割過程中出現(xiàn)的邊界不連續(xù)或模糊現(xiàn)象。同時,學習的語義邊界信息還有效地改善了語義分割中小目標的漏分或錯分現(xiàn)象,提升了語義分割的精度。
3)在道路語義分割公有數(shù)據(jù)集Cityscapes[11]上驗證了方法的有效性。
1 相關工作
語義分割是為圖像中每個像素分配一個預先定義的表示其語義目標類別的標簽。深度學習在各種視覺任務上取得了巨大的成功,尤其是卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)被廣泛用于圖像分類或物體檢測。在此基礎上,一些學者將原用于分類的網(wǎng)絡轉化為適合分割的形式,提出一種更為直接的以像素直接分類為基礎的語義分割方法。其基本思想是:以大量帶有像素級標注的圖像為樣本,訓練神經(jīng)網(wǎng)絡等分類器,對圖像中每個像素分類,輸入是原圖像,輸出是源圖像對應的語義分割圖,形成一種端到端的方法。
2015年,Long等[12]提出了全卷積神經(jīng)網(wǎng)絡(Fully Convolutional Network, FCN)方法,設計了一種針對任意大小的輸入圖像,訓練端到端的全卷積網(wǎng)絡的框架,實現(xiàn)逐像素分類,奠定了使用深度網(wǎng)絡解決圖像語義分割問題的基礎框架。為了避免網(wǎng)絡提取特征時丟失空間位置信息,F(xiàn)CN通過雙線性插值上采樣和組合中間層輸出的特征圖,將粗糙分割結果轉換為密集分割結果,并且成功將原本用于分類的網(wǎng)絡轉換為生成圖像分割的網(wǎng)絡,實現(xiàn)了像素級預測。但是FCN得到的結果還不夠精細,目標物體的細節(jié)結構可能會丟失或邊界模糊。在此基礎上,Badrinarayanan等[13]提出了SegNet用于圖像分割的一種深度卷積編碼器解碼器架構,比FCN效率更高并且占用更少的內存,但劃分精度不高。Chen等[14]在FCN 框架的末端增加全連接條件隨機場,提出了 DeepLab-v1模型,首先使用雙線性插值法對 FCN的輸出結果上采樣得到粗糙分割結果,以該結果圖中每個像素為一個節(jié)點構造 CRF 模型并求解,對分割結果求精。該CRF模型以顏色此類低維特征作為像素之間關聯(lián)函數(shù),存在一定弊端,容易形成物體分割空間上的不連續(xù)。之后,Chen等[15]又提出了DeepLab-v2,主要使用了帶孔卷積,并且提出了在空間維度上實現(xiàn)金字塔型的空洞池化(Atrous Spatial Pyramid Pooling, ASPP)。卷積核之間引入了“孔洞”,可以增大空間分辨率同時不改變感受受野和參數(shù)數(shù)量的效果,ASPP使用多種孔洞率的卷積核對相同特征圖同時處理,由于不同的孔洞率對應著不同的感受野大小,可以提取不同尺度的目標特征,網(wǎng)絡最后通過CRF精細化邊緣信息,更好地分割物體邊界;但帶孔卷積需要大量高分辨率特征圖,因此其計算成本高昂,且占用大量內存,同時容易丟失重要的細節(jié)信息。
縱觀上述語義分割方法,大都是通過對深度構架中卷積和池化層修改、低層特征和高級語義特征融合等方法來改善語義分割過程中存在的物體邊界粗糙或模糊問題。事實上,語義邊界信息是語義分割任務中有效區(qū)分一個物體與另一個物體的非常重要的信息。在網(wǎng)絡訓練中有效學習物體語義邊界信息或利用物體語義邊界信息指導語義分割同樣可以提升語義分割的精度。Marmanis等[16]將邊緣檢測融入語義分割,圖像首先進入邊緣檢測模塊,然后再進入后續(xù)語義分割模塊,通過這種方法學習圖像中邊緣信息,可以提升圖像的語義分割中邊界精度。Huang等[17]構建一個物體邊界檢測FCN來獲取物體精確的定位信息和物體形狀細節(jié)信息,通過物體邊界檢測FCN與原有的語義分割FCN的信息融合,獲取語義分割中的邊界細節(jié)。Bertasius等[18]設計了邊界神經(jīng)場(Boundary Neural Field, BNF)這個能量模型,通過引入一個全局能量函數(shù),將粗糙的語義分割結果與語義邊界信息結合來改善語義分割結果。
本文所設計的結合語義邊界信息的語義分割網(wǎng)絡,在語義分割網(wǎng)絡中通過整合網(wǎng)絡結構中各階段卷積層提取的信息,構建了語義邊界檢測子網(wǎng)絡。通過定義了新的模型代價函數(shù),在同一框架下完成了語義邊界檢測和語義分割兩個任務,并利用語義邊界檢測任務中所學習到的語義邊界信息,來有效提升語義分割效果。在文獻[16]中,邊緣檢測網(wǎng)絡與語義分割網(wǎng)絡是并行存在的,網(wǎng)絡結構存在冗余。本文所設計的網(wǎng)絡不同于文獻[16],語義邊界檢測子網(wǎng)絡與語義分割網(wǎng)絡存在特征共享層,通過共享層將語義邊界檢測子網(wǎng)絡學習到的語義邊界信息傳遞給語義分割網(wǎng)絡,其結構更為簡潔,執(zhí)行效率更高。在文獻[17]中,輸入圖像先后進入邊緣檢測模塊與語義分割模塊,若邊緣檢測模塊學習的邊緣信息不完整,直接影響了語義分割模塊的分割效果。而文獻[18]中能量函數(shù)的構建方法復雜,網(wǎng)絡訓練周期長。
2 本文主要方法
針對語義分割中存在的邊界模糊或不連續(xù)、小目標漏分誤分、分割精度不高等問題,本文提出了一種結合物體語義邊界信息的語義分割方法。在原語義分割網(wǎng)絡框架中構建了語義邊界檢測子網(wǎng)絡來學習物體邊界信息,并通過共享特征層將語義邊界檢測子網(wǎng)絡學習到的語義邊界信息傳遞給語義分割網(wǎng)絡,有效提升了語義分割網(wǎng)絡的分割精度。本方法在同一深度神經(jīng)網(wǎng)絡框架下同時完成語義邊界檢測和語義分割兩個任務,通過定義新的模型代價函數(shù),來完成網(wǎng)絡訓練,整個訓練過程是端對端的,具體方法如圖1所示。
2.1 結合語義邊界信息的語義分割模型
本文所設計的結合語義邊界信息的語義分割模型如圖2所示。
圖2中實線框部分構成了語義分割網(wǎng)絡,而虛線框部分構成了語義邊界檢測子網(wǎng)絡,由此可知,整個網(wǎng)絡模型存在共有部分,將其稱為網(wǎng)絡特征共享層。通過特征共享層將語義邊界子網(wǎng)絡學習的信息傳送給語義分割網(wǎng)絡,提升網(wǎng)絡的語義邊界學習能力。整個網(wǎng)絡架構是基于VGG19改進的,VGG19網(wǎng)絡包含有16個卷積層和3個全連接層,
該網(wǎng)絡在圖像分類、目標檢測等領域取得巨大成功。它的卷積層分為5個階段,每個階段后面緊跟一個池化層。隨著感受野的增加,每個卷積層所學習到的有用信息逐漸變得粗糙,這種多層次的結構可以學習更加豐富的特征信息。
如圖2所示虛線框內為語義邊界檢測子網(wǎng)絡,它與現(xiàn)有的基于深度學習的邊緣檢測方法[19-20]類似,由編碼和解碼兩部分構成。其中編碼部分充分利用語義分割網(wǎng)絡中編碼部分信息,通過對每個階段的卷積層的結果融合來獲取不同尺度的物體邊界信息。解碼部分則通過反卷積將不同尺度的物體邊界放大后融合,得到最終的語義邊界檢測預測結果。在語義邊界檢測子網(wǎng)絡中,VGG19每個階段的卷積層取出后緊跟1×1的卷積層,然后將該階段的所有輸出相加以獲得融合特征后再次進入一個1×1的卷積層,然后通過一個反卷積層來對輸出特征圖上采樣,以獲得與輸入圖像大小相同的輸出。每個階段的上采樣層后緊跟一個交叉熵損失層。所有的上采樣層輸出結果級聯(lián)并通過1×1的卷積融合,最后再進入交叉熵損失層來獲得最終的語義邊界檢測結果。在該網(wǎng)絡結構下,由于卷積層的感受野大小不同,因此可以學習到從低層到物體層次的多尺度信息。這種網(wǎng)絡結構,有助于捕獲物體邊界的細微細節(jié),為精準的語義分割提供有用信息。
如圖2實線框所示的語義分割網(wǎng)絡框架,其結構仍然是基于編碼解碼形式的語義分割框架。由于本文的網(wǎng)絡結構是對無人駕駛車輛的道路環(huán)境進行語義分割,為了提高實時性,減少了FCN、SegNet等傳統(tǒng)的語義分割網(wǎng)絡中特征圖的個數(shù),同時采用不對稱的結構。編碼部分與語義邊界檢測子網(wǎng)絡共享,各階段的特征圖的個數(shù)分別為16,32,64,128,256。由于解碼部分只是為了上采樣編碼的結果輸出語義分割結果,與SegNet網(wǎng)絡(對稱結構,編碼和解碼層數(shù)相等)不同,只設計了5個反卷積層,其特征圖的個數(shù)分別為64,64,32,16,20。在上采樣過程中,沒有使用最大反池化方式,而是采用了步幅為2的反卷積層(也稱為轉置卷積),這樣不需要與編碼層共享最大池化時的位置索引信息,從而降低內存和計算成本,這種做法并沒有降低準確度。
2.2 結合語義邊界檢測的語義分割模型訓練方法
為了訓練引入語義邊界檢測子網(wǎng)絡的語義分割模型,本文首先將該模型的兩個任務定義如下:
給定圖像X,指定輸入圖像X中每個像素點X(i, j)的語義目標類別的標簽,將該結果記為語義分割結果Yseg,同時檢測出輸入圖像X中的每個物體的語義邊界,將該結果記為語義邊界Yedge。
通過圖2可以看到,本文所構建的網(wǎng)絡是通過網(wǎng)絡中特征共享層將語義邊界檢測子網(wǎng)絡學習到的物體邊界信息傳遞給語義分割網(wǎng)絡,因此語義邊界檢測任務的目的是為了促使語義分割網(wǎng)絡模型學習語義邊界信息。
為了完成多任務的需求,本文定義了新的目標代價函數(shù),通過調配語義邊界檢測子網(wǎng)絡與語義分割網(wǎng)絡的目標代價函數(shù)的比重,以其獲得更好的語義分割效果,其目標代價函數(shù)為
min(Lseg+λLedge)(1)
而Lseg和Ledge分別為語義分割網(wǎng)絡和語義邊界檢測子網(wǎng)絡的目標代價函數(shù),λ為控制語義分割和語義邊界檢測網(wǎng)絡的目標函數(shù)的比例系數(shù)。語義分割網(wǎng)絡的目標代價函數(shù)采用常用的交叉熵損失函數(shù),其表達式如下:
Lseg=-1n∑Yseg lg Y^seg(2)
其中:Y^seg為語義分割網(wǎng)絡的輸出,Yseg為語義分割標簽,n為圖像的總像素點數(shù)量。
而語義邊界檢測子網(wǎng)絡和語義分割原理是相同的,是一個對像素點進行是否為邊界的二分類問題,因此目標代價函數(shù)同樣采用交叉熵,其表達式如下:
Ledge=-1n∑Yedge lg Y^edge(3)
其中:Y^edge為語義邊界檢測子網(wǎng)絡的輸出,為Yedge語義邊界檢測標簽,n為圖像的總像素點數(shù)量。
3 實驗及分析
3.1 實驗方法
在道路環(huán)境語義分割數(shù)據(jù)庫Cityscapes上對本文提出的方法進行一系列實驗。Cityscapes是最近在無人駕駛環(huán)境的語義分割領域中廣泛使用的一個數(shù)據(jù)庫。它包含了50個城市不同場景、不同背景、不同季節(jié)的街景,提供5000張精細標注的圖像、20000張粗略標注的圖像、35類標注物體。在實驗過程中,只使用了5000張精細標注圖像,將其劃分為訓練集
2975張、驗證集500張和測試集1525張,選擇了常用的19類物體進行分類。為了實驗方便,將原有圖像的分辨率由2048×1024改為512×256。
整個實驗是基于tensorflow框架的,在模型的訓練過程中,使用Adam優(yōu)化算法來獲得最快的收斂速度。初始學習率設置為10-3,然后每迭代1000次,降低為原有的1/10。將樣本塊的大小設置為5,momentum設置為0.9,權重衰減系數(shù)設置為5×10-4,最大迭代次數(shù)設置為105。
在網(wǎng)絡訓練時,運用遷移學習的方法,將在圖像分類數(shù)據(jù)集上訓練的性能良好的VGG19模型學習到的特征遷移到結合邊界信息的語義分割模型中去,獲得了較快的收斂速度和較好的分割效果。整個網(wǎng)絡結構中,特征共享層的初始參數(shù)使用已訓練的VGG19對應各層參數(shù),其他參數(shù)則為隨機初始化的參數(shù)。
由于模型要在同一個深度神經(jīng)網(wǎng)絡中同時進行語義邊界檢測和語義分割兩個任務,通過實驗,本方法首先驗證了同時進行兩種任務的可行性,通過兩個任務的收斂過程,如圖3所示,兩個任務都能很好地收斂,說明語義邊界檢測可以共用語義分割模型的編碼層,并不會對語義分割造成干擾,兩個任務可以同時訓練。接下來,在現(xiàn)有的數(shù)據(jù)集上,調整兩個任務的目標函數(shù)的比例系數(shù)λ,通過全局目標函數(shù)的收斂速度和最終的語義分割效果,確定最佳比例系數(shù)λ=50。在后續(xù)的實驗結果部分,將看到語義邊界檢測子網(wǎng)絡的加入可以有效改善物體邊界不清晰問題、提升語義分割精度。
3.2 語義邊界檢測子網(wǎng)絡的結果及分析
在實驗中,并不需要額外對物體的邊界進行標注,而是利用已有的語義分割標簽,對其進行語義邊界檢測后,生成語義邊界標注。本文所設計的語義邊界檢測子網(wǎng)絡融合了模型中不同卷積層的特征,學習到從低層到物體層次的多尺度邊緣信息,為語義分割提供豐富準確的物體邊界信息。圖4為語義邊界檢測子網(wǎng)絡的輸出結果,生成的物體邊界清晰準確。由于本文所設計的語義邊界檢測子網(wǎng)絡融合了不同尺度的卷積核,因此可以獲得更豐富的特征,有效提升了語義邊界準確率。
3.3 語義分割結果及分析
在訓練數(shù)據(jù)集上,利用全局目標函數(shù)對模型進行訓練,并在驗證集和測試集上進行測試。語義分割評價方法采用通常使用的交并比方法:
IOU=TPTP+FP+FN(4)
其中:TP、FP和FN分別代表真正、假正和假負的像素點的個數(shù)。在Cityscapes數(shù)據(jù)集對無人駕駛道路環(huán)境更為重要的19類目標分別計算出各類的交并比數(shù)值。
為了驗證加入語義邊界檢測子網(wǎng)絡對語義分割精度的提升,本研究分別構建了兩個網(wǎng)絡Seg_edge和Seg_noedge,分別對應加入語義邊界檢測子網(wǎng)絡和不加語義邊界檢測子網(wǎng)絡的語義分割模型。兩個模型的參數(shù)設置完全相同,訓練方法完全一樣。通過圖5的語義分割結果可見,Seg_edge網(wǎng)絡檢出的道路、汽車、人行道等類別的邊界更為精準,分割精度更高。例1中,由于光照不均勻,Seg_noedge網(wǎng)絡檢出的道路區(qū)域邊界不清晰,而Seg_edge能準確找到道路的邊界,有效區(qū)分道路和人行道區(qū)域。例2中Seg_noedge所分割的人行道區(qū)域不連續(xù)、汽車區(qū)域不連續(xù)、存在部分區(qū)域錯分現(xiàn)象,而Seg_edge分割的人行道區(qū)域連續(xù),邊界清晰準確,在該圖中的兩輛汽車也能被精準地分割。例3中Seg_edge則成功區(qū)分了汽車和卡車,將原本錯誤分割在一起的汽車和卡車區(qū)分開來,有效改善分類中可能出現(xiàn)的錯分現(xiàn)象。例4中Seg_edge檢測小目標的能力有所提升,比如對圖中的行人分割得比較準確。這些例子充分說明了語義邊界檢測子網(wǎng)絡的引入,有效改善了物體邊界不清晰、分割不連續(xù)、小目標漏分錯分、分割精度不高等問題,有效地提升了語義分割的精度。
同時,將本文的方法Seg_edge與現(xiàn)有的語義分割方法SegNet[13]、ENet[9](最近新提出的應用于道路環(huán)境語義分割方法)進行比對,表1為各種方法在Cityscapes數(shù)據(jù)集上19類的準確率。
其中平均準確率為表中19類目標準確率的平均值,而Cityscapes數(shù)據(jù)集同時將19類目標分為7大類,分別為平地、自然、物體、天空、建筑物、人和車輛,平均類準確率是基于此分類準則給出的。
由表1可知,本文提出的方法在所有類都獲得高的準確率,在道路、天空、車輛等常見類別中,準確率都超過了90%,相比其他方法,在行人、人行道、自行車、卡車、公交車等類別準確率都得到了提高。本文提出的方法在平均準確率上相比已有的語義分割網(wǎng)絡SegNet提升了2.9%,相比ENet提升了1.3%。圖6給出了以上各種方法的語義分割結果,證明了本文提出的方法在Cityscapes數(shù)據(jù)集上所有類上都取得很好的分割結果。SegNet和ENet方法在道路、人行道、車輛等類別可能出現(xiàn)分割不均勻、不連續(xù)、邊界不準確等現(xiàn)象,本文的方法有力改善此類問題,道路和人行道的邊界清晰準確。而針對小目標(行人、交通標志、路燈和信號燈)可能存在的漏檢或不準確問題,本文的方法也有所改善。這充分說明了語義邊界檢測子網(wǎng)絡能促使網(wǎng)絡結構學習物體邊界信息,本文提出的方法在復雜道路場景下能獲取準確的物體邊界,提升語義分割精度。但是,針對分類中樣本較少的類別如火車、樹木等,分割精度有待提高,主要原因是缺乏有效的訓練樣本。
4 結語
本文針對深度學習語義分割中由于卷積、池化及反卷積的作用所帶來的分割邊界模糊或不連續(xù)、小目標漏分錯分等現(xiàn)象提出了結合物體邊界信息的語義分割方法,并在道路環(huán)境數(shù)據(jù)集Cityscapes上驗證了方法的有效性。在同一深度神經(jīng)網(wǎng)絡框架下,完成了語義邊界檢測和語義分割兩個任務,利用網(wǎng)絡特征共享層,將語義邊界檢測子網(wǎng)絡學習到的物體邊界信息傳遞到語義分割網(wǎng)絡,有效改善了語義分割中出現(xiàn)的邊界模糊、分割不連續(xù)、小目標漏分錯分、分割精度不高等問題,提高了語義分割的準確率。
參考文獻
[1]ALVAREZ J M, GEVERS T, LeCUN Y, et al. Road scene segmentation from a single image [C]// ECCV ‘12: Proceedings of the 12th European Conference on Computer Vision, LNCS 7578. Berlin: Springer, 2012: 376-389.
[2]BRUST C, SICKERT S,SIMON M, et al. Convolutional patch networks with spatial prior for road detection and urban scene understanding [C]// VISAPP 2015:10th International Conference on Computer Vision Theory and Applications. Berlin : SciTePress.2015:510-517.
BRUST C, SICKERT S,SIMON M, et al. Convolutional patch networks with spatial prior for road detection and urban scene understanding [EB/OL]. [2019-01-21]. https://arxiv.org/pdf/1502.06344.pdf.
[3]HARIHARAN B, ARBELEZ P, GIRSHICK R, et al. Simultaneous detection and segmentation [C]// Proceedings of the 13th European Conference on Computer Vision, LNCS 8695. Berlin: Springer, 2014: 297-312.
[4]高凱珺,孫韶媛,姚廣順.基于深度學習的無人車夜視圖像語義分割[J].應用光學,2017,38(3):421-428.(GAO K J, SUN S Y, YAO G S. Semantic segmentation of night vision images for unmanned? vehicles based on deep learning [J]. Journal of Applied Optics, 2017, 38(3): 421-428.)
[5]吳宗勝,傅衛(wèi)平,韓改寧.基于深度卷積神經(jīng)網(wǎng)絡的道路場景理解[J].計算機工程與應用,2017,53(22):8-15.(WU Z S, FU W P, HAN G N. Road scene understanding based on deep convolutional neural network [J]. Computer Engineering and Applications, 2017, 53(22):8-15.)
[6]張軍陽,王慧麗,郭陽,等.深度學習相關研究綜述[J].計算機應用研究,2018,35(7):1921-1928.(ZHANG J Y, WANG H L, GUO Y, et al. Review of deep learning [J]. Application Research of Computers, 2018,35(7): 1921-1928.)
[7]YE L, LIU Z, WANG Y. Learning semantic segmentation with diverse supervision [C]// Proceedings of the 2018 IEEE Winter Conference on Applications of Computer Vision. Washington, DC: IEEE Computer Society, 2018: 1461-1469.
[8]CHEN Y, ROHRBACH M, YAN Z, et al. Graph-based global reasoning networks [EB/OL]. [2018-12-10]. https://arxiv.org/pdf/1811.12814v1.pdf.
[9]PASZKE ADAM, CHAURASIA A, KIM S, et al. ENet: a deep neural network architecture for real-time semantic segmentation [EB/OL]. [2018-12-10]. https://arxiv.org/pdf/1606.02147.pdf.
[10]ROMERA E, LVAREZ J M, BERGASA L M, et al. ERFNet: efficient residual factorized convnet for real-time semantic segmentation [J]. IEEE Transactions on Intelligent Transportation Systems, 2018, 19(1): 263-272.
[11]CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding [C]// Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 3213-3223.
[12]LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 3431-3440 .
[13]BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.
[14]CHEN L, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs [EB/OL]. [2018-05-10]. https://arxiv.org/pdf/1412.7062.pdf.
[15]CHEN L, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848.
[16]MARMANIS D, SCHINDLER K, WEGNER J D, et al. Classification with an edge: improving semantic image segmentation with boundary detection [J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 135: 158-172.
[17]HUANG Q, XIA C, ZHENG W, et al. Object boundary guided semantic segmentation [C]// Proceedings of the 13th Asian Conference on Computer Vision, LNCS 10111. Berlin: Springer, 2016: 197-212.
[18]BERTASIUS GEDAS, SHI J, TORRESANI L. Semantic segmentation with boundary neural fields [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 3602-3610.
[19]LIU Y, CHENG M, HU X, et al. Richer convolutional features for edge detection [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 5872-5881.
[20]YANG J, PRICE B, COHEN S, et al. Object contour detection with a fully convolutional encoder-decoder network [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 193-202.
This work is partially supported by the National Key Research and Development Program of China (2016YFC0802904), the National Natural Science Foundation of China (61472444, 61671470), the Natural Science Foundation of Jiangsu Province (BK20161470).
SONG Xiaona, born in 1982, Ph. D. candidate, lecturer. Her research interests include image processing, pattern recognition, deep learning.
RUI Ting, born in 1972, Ph. D., professor. His research interests include artificial intelligence, pattern recognition.
WANG Xinqing, born in 1963, Ph. D., professor. His research interests include signal processing, intelligence algorithms, unmanned intelligent vehicles.