亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度卷積神經(jīng)網(wǎng)絡的紅外場景理解算法

2017-03-22 10:18:10湯心溢高思莉

紅外技術 2017年8期

關鍵詞：紅外語義框架

王晨，湯心溢，高思莉

王晨1,2,3，湯心溢1,3，高思莉1,3

（1. 中國科學院上海技術物理研究所，上海 200083；2. 中國科學院大學，北京 100049；3. 中國科學院紅外探測與成像技術重點實驗室，上海 200083）

采用深度學習的方法實現(xiàn)紅外圖像場景語義理解。首先，建立含有4類別前景目標和1個類別背景的用于語義分割研究的紅外圖像數(shù)據(jù)集。其次，以深度卷積神經(jīng)網(wǎng)絡為基礎，結合條件隨機場后處理優(yōu)化模型，搭建端到端的紅外語義分割算法框架并進行訓練。最后，在可見光和紅外測試集上對算法框架的輸出結果進行評估分析。實驗結果表明，采用深度學習的方法對紅外圖像進行語義分割能實現(xiàn)圖像的像素級分類，并獲得較高的預測精度。從而可以獲得紅外圖像中景物的形狀、種類、位置分布等信息，實現(xiàn)紅外場景的語義理解。

紅外圖像；紅外場景；語義分割；卷積神經(jīng)網(wǎng)絡

0 引言

圖像語義分割能實現(xiàn)對輸入圖像每個像素進行分類，是對圖像中的場景進行理解，廣泛應用于機器人視覺、汽車輔助駕駛等領域，是現(xiàn)在國內外的研究熱點。隨著深度學習算法的不斷發(fā)展，在諸多圖像檢測和識別方面取得比傳統(tǒng)算法更高的精確度。采用深度卷積神經(jīng)網(wǎng)絡，可以實現(xiàn)端到端的語義信息預測，得到圖像像素級的類別標簽，并取得了更高的預測精度。Jonathan Long在CVPR 2015會議上提出了全卷積神經(jīng)網(wǎng)絡（FCN）[1]，首次實現(xiàn)了端到端的語義分割卷積神經(jīng)網(wǎng)絡框架，達到了當時最高的預測精度。S. Zheng等人在ICCV2015會議上，提出CRFasRNN[2]，將后處理conditional random field（CRF）算法表征成可訓練的循環(huán)卷積網(wǎng)絡結構，加入深度語義分割框架，在一個端到端的網(wǎng)絡實現(xiàn)了對語義分割結果的邊緣進一步優(yōu)化，提高了在PASCAL VOC數(shù)據(jù)集上的預測精度。ICLR2015會議上，Liang-Chieh Chen等人將FCN結構進一步改進，Deeplab[3]框架大幅度減小了框架參數(shù)，提高了訓練和預測速度，并采用全連接CRF方法對預測圖進行后處理優(yōu)化，進一步提高了語義分割的精度。Hyeonwoo Noh采用了卷積與反卷積對稱的網(wǎng)絡結構[4]，并加入基于bounding box的前處理目標預估計方法，再一次刷新了預測精度。PASCALVOC作為目標檢測和語義分割算法研究權威的競賽平臺，隨著新的算法的提出，預測精度一直在刷新。

國際上對語義分割方法的研究主要是針對可見光圖像的。然而，在實際應用中，由于可見光圖像的采集受到光照、天氣等條件影響，具有一定的局限性。紅外圖像作為熱圖像，能在光照條件較差的環(huán)境下彌補可見光成像效果差的不足，同時，紅外探測系統(tǒng)在軍事、航天等特定領域也具有廣泛應用。因此，對紅外圖像進行場景理解具有重要意義。目前，公開發(fā)布的用于場景理解、語義分割算法研究的數(shù)據(jù)集主要是可見光圖像，還沒有相關的紅外數(shù)據(jù)集。筆者參考PASCAL VOC和Cityscapes數(shù)據(jù)集的設計，建立了用于紅外圖像場景理解研究的數(shù)據(jù)集，并對紅外圖像的深度卷積神經(jīng)網(wǎng)絡語義分割算法進行研究。在紅外數(shù)據(jù)集上采用深度卷積神經(jīng)網(wǎng)絡上實現(xiàn)了紅外圖像的語義分割，實現(xiàn)了對場景中景物像素級的分類，并采用交叉驗證法對模型進行評估。證明了基于深度卷積神經(jīng)網(wǎng)絡的語義分割算法框架在紅外圖像場景理解上的可行性和有效性。

1 紅外數(shù)據(jù)集建立

紅外數(shù)據(jù)集采用“初航”紅外探測器，在室外場景下采集街道場景圖像，并對包含的4類別景物，采用4種固定灰度值進行人工標注。4類別景物包括：人、汽車、建筑、樹木，類別號1～4表示（對每個類別細分的種類不作區(qū)分），1個背景，類別號0。如圖1所示，為紅外圖像和對應的人工標簽圖。

1.1 紅外圖像預處理算法

原始數(shù)據(jù)為14bit，為了顯示和制作標簽圖，采用預處理算法壓縮成8bit圖像。紅外圖像是景物的熱輻射圖像，圖像的動態(tài)范圍較大、噪聲較大，圖像中存在過亮和過暗的區(qū)域。采用基于整幅圖像的增強算法，會受到這些區(qū)域的影響，造成圖像的整體灰度偏暗或偏亮，造成細節(jié)的模糊。為了更好的顯示紅外圖像，突出目標細節(jié)、抑制噪聲，采用基于局部直方圖增強的壓縮算法能很好地滿足需求。預處理算法由圖像壓縮和增強算法組成。

步驟1：對14bit紅外數(shù)據(jù)進行直方圖統(tǒng)計，采用閾值為20，寬度為10的滑動窗口對統(tǒng)計直方圖進行截斷，去除掉連續(xù)10個灰度值，所含像素個數(shù)均小于20的灰度范圍，得到像素分布集中的灰度范圍[min,max]。

步驟2：對紅外圖像進行線性映射到[0,255]。映射方程：

步驟3：采用限制對比度自適應直方圖均衡增強算法（CLAHE）[5]對映射后的圖像進行增強處理。得到8bit紅外增強圖像。

圖2為采用基于全局直方圖統(tǒng)計的圖像壓縮算法和本文算法的處理結果。相比之下，本文算法能更好地平衡圖像整體的灰度，抑制過亮和過暗區(qū)域對全局顯示的影響，更好地增強了低對比度區(qū)域的景物細節(jié)，限制了噪聲的放大，得到細節(jié)清晰、視覺效果較好的紅外灰度圖像。

1.2 紅外數(shù)據(jù)集參數(shù)

數(shù)量：1000張

尺寸：640×512

內容和格式：14bit原始數(shù)據(jù)“.mat”；8bit紅外圖像“.jpg”；彩色標簽圖“.png”；類別號標簽圖“.png”。

圖1 紅外數(shù)據(jù)集樣本

Fig.1 Sample of infrared image datasets

圖2 壓縮效果對比

Fig.2 Comparison of compression results

2 深度卷積神經(jīng)網(wǎng)絡語義分割框架

2.1 語義分割框架原理

語義分割算法框架主要由深度卷積神經(jīng)網(wǎng)絡和條件隨機場模型兩部分構成。分別實現(xiàn)分割預測和分割結果的優(yōu)化處理。語義分割框架是通過對傳統(tǒng)卷積神經(jīng)網(wǎng)絡框架的修改獲得的。傳統(tǒng)卷積神經(jīng)網(wǎng)絡由卷積層、池化層后接全連接層，送入Softmax分類器進行分類。全連接層使得輸出丟失了空間信息。將全連接層看作用覆蓋原有輸入?yún)^(qū)域的卷積核進行卷積?？梢缘玫礁鼮榫o致的包含空間信息的輸出圖。卷積與池化操作使得得到的特征圖尺寸縮小，為了得到與輸入圖像尺寸相同的預測圖，框架引入反卷積層，采用雙線性插值的方法對特征圖進行上采樣操作，可以得到與分類器類別數(shù)量個數(shù)相同的預測得分圖，通過取最大操作，得到每個像素的類別評分最高的預測圖。從而實現(xiàn)圖像的語義分割。如圖3所示，是采用卷積神經(jīng)網(wǎng)絡實現(xiàn)圖像語義分割的基本流程。

2.2 初始化模型VGG-16簡介

VGG-16[6]網(wǎng)絡在ImageNet ILSVRC-2014競賽中在定位和分類分別取得第一、二名的成績。網(wǎng)絡結構包含16個可訓練參數(shù)層，如表1所示。此網(wǎng)絡參數(shù)模型是在Imagenet數(shù)據(jù)集上進行訓練得到的，經(jīng)驗證，作為語義分割框架的初始化模型，比AlexNet和GoogleNet取得更高的預測精度。

2.3 框架結構改進

對VGG網(wǎng)絡結構進行了改進，在全卷積神經(jīng)網(wǎng)絡的框架的基礎上，改變網(wǎng)絡的步長大小，采用Hole算法改變連接方式，保證感受野的不變，不需要FCN的大尺度擴充，正常擴充下能得到更為緊致的預測圖[3]。將該模型訓練成一個更有效率和有效的緊致特征提取器，實現(xiàn)圖像語義分割系統(tǒng)?？蚣苤饕隽巳缦赂淖儯?/p>

2.3.1 Hole算法實現(xiàn)的緊致滑動窗特征提取器

同F(xiàn)CN框架一樣將VGG-16網(wǎng)絡的全卷連接層用卷積層替換，為了解決大步長32造成的預測評分圖過于稀疏的問題，通過更改倒數(shù)兩個池化層的步長，將步長減小到8。采用Hole算法，算法原理如圖4，在保證感受野不變的同時跳過后兩個池化層后的下采樣，在其后面卷積層的濾波器像素與像素之間補0，來增加其長度。

圖3 語義分割算法流程

表1 VGG-16框架

圖4 hole算法示意圖

2.3.2 框架計算加速

轉換為卷積層的第一個全連接層，含有尺寸為7×7的濾波器4096個，減小其濾波器尺寸到4×4（或3×3），減小了網(wǎng)絡的感受野尺寸。使得第一層全連接層的計算時間減小2～3倍。將全連接層的通道數(shù)減半到1024，在保證框架計算結果的情況下，進一步降低了計算時間和內存用量。

2.4 全連接條件隨機場模型

由于語義分割框架采用對稀疏預測圖進行上采樣操作得到預測圖，景物的邊緣分割比較粗糙，預測精度較低。通常，CRF來平滑粗糙的分割預測結果圖。

模型的能量函數(shù)[7]：

表示像素的標簽。一元的勢能(x)＝－lg(x)，(x)是由DCNN計算得到的標簽概率。對于圖像中一對像素，他們的成對勢能是：

如果x1x，(x,x)＝1，其余條件，等于0。模型的因子圖是全連接的，因為圖像中任意兩個像素組成像素對。每一個m是一個高斯核，由像素和決定其參數(shù)，參數(shù)m決定權重。核函數(shù)：

第一個核表示像素的位置和灰度信息，第二個核只表示像素的位置信息。超參數(shù)，和決定了高斯核的尺度。接著采用一個可分解的平均場近似方法，可以將CRF模型中信息的傳輸表示為在特征空間進行高斯核卷積操作。能大幅度降低運算復雜度、提升運算速度。

3 實驗和評估

3.1 數(shù)據(jù)集

為了彌補自建數(shù)據(jù)集樣本數(shù)量的不足，采用Cityscapes[8]數(shù)據(jù)集先進行預訓練，再用紅外數(shù)據(jù)集進行再訓練。Cityscapes數(shù)據(jù)集主要用于城市街道場景境的語義理解，數(shù)據(jù)集內包含可見光彩色圖像和標簽圖，其中訓練集2975張，測試集500張，圖像大小2048×1024。含有景物類別30種，包括道路，行人、小汽車、摩托車、植物、建筑、天空等。我們提取其中包含的8種景物的2973張圖，將8種景物為4個大類別，人：人、騎行者；汽車：小汽車、公交車、卡車；建筑：房屋、墻；樹木：植物。與我們建立的紅外數(shù)據(jù)集相匹配。為了加快訓練速度，將數(shù)據(jù)集的圖像轉換為灰度圖像，并將原始圖像和標簽圖尺寸縮小到1024×512。紅外數(shù)據(jù)集包含1000個樣本，隨機抽取800個作為訓練集，其余200個作為測試集。

3.2 訓練

我們先用VGG-16模型在Cityscapes數(shù)據(jù)集進行訓練，訓練參數(shù)為：分類輸出大小5（4類別和背景），mini-batch為5，初始化學習率0.001，每2000次循環(huán)，學習率乘以0.1，向量值0.9，權值衰減0.0005。訓練8000次循環(huán)，得到模型1。然后，將模型1作為初始化模型，在紅外數(shù)據(jù)集進行再訓練。每4000次學習率乘以0.1，其他參數(shù)保持不變，訓練8000次、16000次得到模型2，3。紅外圖像訓練速度：0.33ms/frame。本實驗在Ubuntu14.04系統(tǒng)上采用Caffe框架實現(xiàn)，采用CUDA進行處理，GPU型號：NVDIA GM200，內存12G。

3.3 評估

頻率加權IU：

交叉驗證法：由于紅外數(shù)據(jù)集圖像較少，采用5折交叉驗證的方法在紅外數(shù)據(jù)集上進行訓練和驗證，增加算法的隨機性和客觀性。將全部紅外圖像隨機分成5份，輪流將其中4份作為訓練集，1份作為驗證集。5次計算結果的均值作為對算法精度的估計，見表2、表3。

3.4 結果分析

圖5展示了深度卷積語義分割網(wǎng)絡對紅外圖像的處理結果。從可視化結果上看，采用該算法框架得到比較理想的預測結果，分割結果與人工標注標簽圖比較相近，可以實現(xiàn)不同類別景物的分割和分類。在可見光和紅外數(shù)據(jù)集訓練8000次循環(huán)的模型1、2，mean IU分別達到0.670和0.531，見表2。當訓練循環(huán)次數(shù)達到16000次，mean IU顯著提高，達到0.719，見表2。加入CRF優(yōu)化模型，預測精度結果變化不大，部分反而有所下降。但是從可視化結果看，采用CRF模型進行后處理，對目標的邊緣精確度有顯著提升，更接近標簽圖，但同時造成了部分邊緣區(qū)域分割的錯誤。目前，在可見光數(shù)據(jù)集Cityscapes上，最好的模型SegModel，達到的mean IU為0.777，僅作為參照。

表2 預測精度對比

表3 紅外數(shù)據(jù)集各類別IU結果

圖5 語義分割結果

Fig.5 Semantic segmentation results

存在的問題：不同類別的景物分割精度存在差異，較大的物體，如汽車、建筑、樹木，獲得的分割精度較高，“人”所占空間比例較小，訓練不夠充分，預測精度較低。IU只有0.556，見表3。因此拉低了平均IU。對于像“人”這樣的物體，占的像素較少，形態(tài)變化大，預測精度低，如何提高此類景物的預測精度，有待進一步研究和解決。CRF優(yōu)化模型在可見光彩色圖像的語義分割實驗中，對預測精度提升明顯。由于紅外圖像是灰度圖像，沒有顏色信息，邊緣模糊，紋理缺失，采用CRF模型進行后處理優(yōu)化邊緣，有一定局限性，后處理算法有待進一步改進。

4 結論

為了實現(xiàn)紅外圖像場景的理解，本文將廣泛用于可見光圖像分析的深度學習語義分割算法框架應用于紅外圖像。通過自建紅外數(shù)據(jù)集、在Caffe深度學習框架上構建基于深度卷積神經(jīng)網(wǎng)絡結合條件隨機場模型構建算法框架，在紅外數(shù)據(jù)集上對算法進行驗證和評估。證明了深度學習算法在紅外圖像語義分割上的可行性和有效性。對于輸入的紅外圖像，可以獲得圖像中每個像素的類別標簽。進而，可以得到圖像場景中景物的類別、位置分布、形狀、占有的比例等信息，實現(xiàn)圖像場景的高級語義理解。通過實驗結果的觀測和分析，對于較大的物體，如樹木、建筑等，語義分割效果較好。一些特征比較復雜，所占像素較少的景物，如“人”，分割精度比較低。從模型架構和訓練參數(shù)調整兩方面進行優(yōu)化和改進，提高此類景物的語義分割精度，并實現(xiàn)整體平均預測準確度的提高，是我們下一步要解決的問題。

[1] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//, 2015: 1337-1342.

[2] Zheng S, Jayasumana S, Romeraparedes B, et al. Conditional random fields as recurrent neural networks[C]//, 2015:1529-1537.

[3] Chen L C, Papandreou G, Kokkinos I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[J]., 2014(4):357-361.

[4] Noh H, Hong S, Han B. Learning deconvolution network for semantic segmentation[C]//, 2015: 1520-1528.

[5] Pizer S M, Amburn E P, Austin J D, et al. Adaptive Histogram equalization and its variations[J].,,, 1987, 39(3): 355-368.

[6] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[2014] [DB/OL]. arXiv preprint arXiv: 1409.1556.

[7] Kr?henbühl P, Koltun V. Efficient Inference in fully connected CRFs with Gaussian edge potentials[C]//, 2012:109-117.

[8] Cordts M, Omran M, Ramos S, et al. The cityscapes dataset for semantic urban scene understanding[C]//, 2016: 3213-3223.

Infrared Scene Understanding Algorithm Based on Deep Convolutional Neural Network

WANG Chen1,2,3，TANG Xinyi1,3，GAO Sili1,3

(1.,200083,;2.,100049,;3.,,200083,)

We adopt a deep learning method to implement a semantic infrared image scene understanding. First, we build an infrared image dataset for the semantic segmentation research, consisting of four foreground object classes and one background class. Second, we build an end-to-end infrared semantic segmentation framework based on a deep convolutional neural network connected to a conditional random field refined model. Then, we train the model. Finally, we evaluate and analyze the outputs of the algorithm framework from both the visible and infrared datasets. Qualitatively, it is feasible to adopt a deep learning method to classify infrared images on a pixel level, and the predicted accuracy is satisfactory. We can obtain the features, classes, and positions of the objects in an infrared image to understand the infrared scene semantically.

infrared images，infrared scene，semantic segmentation，convolutional neural network

TP391.41

1001-8891(2017)08-0728-06

2016-10-06；

2016-10-31.

王晨（1989-），博士研究生，主要研究方向是圖像處理與目標識別。E-mail：ilkame@sina.com。

國家“十二五”國防預研項目，上海物證重點實驗室基金（2011xcwzk04），中國科學院青年創(chuàng)新促進會資助（2014216）。