亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于條件隨機(jī)場和U型網(wǎng)絡(luò)的遙感圖像道路提取

2020-07-13 11:31:36趙學(xué)軍包壯壯吳華興董玉浩李智偉

探測與控制學(xué)報(bào) 2020年3期

趙學(xué)軍,包壯壯,吳華興,董玉浩,李智偉

(1.空軍工程大學(xué)基礎(chǔ)部，陜西西安 710051；2.空軍工程大學(xué)管理工程與無人機(jī)工程學(xué)院，陜西西安 710051)

0 引言

隨著對地觀測技術(shù)的發(fā)展，人類獲取遙感數(shù)據(jù)的途徑和方式也越來越多，遙感數(shù)據(jù)表現(xiàn)出多源、多尺度、結(jié)構(gòu)復(fù)雜、格式多樣、體量大等特點(diǎn)[1-3]?；谶b感數(shù)據(jù)提取道路信息具有高效率、低成本的優(yōu)勢，而如何從海量的遙感數(shù)據(jù)中及時(shí)提取有效信息，是世界各國普遍研究的熱點(diǎn)。目前，對于遙感圖像的道路提取方法主要有基于像元、面向?qū)ο蠛蜕疃葘W(xué)習(xí)[4-6]。

深度學(xué)習(xí)由Hiton[7]等人于2006年提出，由于現(xiàn)代計(jì)算機(jī)計(jì)算力的大幅發(fā)展，自2012年AlexNet[8]出現(xiàn)以來，在計(jì)算機(jī)視覺領(lǐng)域占據(jù)了主導(dǎo)地位?；谏疃葘W(xué)習(xí)的方法通過卷積網(wǎng)絡(luò)自動(dòng)提取和學(xué)習(xí)道路的特征從而獲得語義信息以分割道路，具有較高的精確度和魯棒性。Long[9]等人提出的全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks，F(xiàn)CN)將端到端的卷積神經(jīng)網(wǎng)絡(luò)運(yùn)用于像素級的圖像分割中，使用反卷積層進(jìn)行上采樣，運(yùn)用跳躍架構(gòu)融合深層的粗糙的語義信息和淺層的精細(xì)的表面信息。此后基于FCN又出現(xiàn)了許多的改進(jìn)網(wǎng)絡(luò)，主要分為兩種優(yōu)化設(shè)計(jì)：以U-net[10]，Refine-Net[11]，F(xiàn)C-DenseNets[12]等為代表的U型網(wǎng)絡(luò)(充分利用深淺層的語義信息)和以PSPNet[13]，DeepLap系列[14]等的膨脹卷積方法(增強(qiáng)單個(gè)卷積的效率)。上述方法在遙感圖像數(shù)據(jù)集上提取道路時(shí)對物體細(xì)節(jié)分割效果不佳[14]，對雙向車道、立交橋等處不能完好分辨。本文針對此問題提出了基于條件隨機(jī)場和U型網(wǎng)絡(luò)的遙感圖像道路提取方法。

1 U型網(wǎng)絡(luò)和條件隨機(jī)場

1.1 特征提取

卷積神經(jīng)網(wǎng)絡(luò)經(jīng)過卷積與下采樣層，逐層提取特征，最終通過若干個(gè)全連接層完整分類識別。這種網(wǎng)絡(luò)結(jié)構(gòu)完全拋棄圖像的空間結(jié)構(gòu)特征，不能知道目標(biāo)的位置、大小、形態(tài)等信息，即丟失了圖像語義。下面介紹本文中運(yùn)用于圖像語義分割的三種深度學(xué)習(xí)方法。

1.1.1反卷積

反卷積(conv transpose)，等價(jià)于狹義的上采樣，是卷積的逆過程。用于將經(jīng)過下采樣信息提取后，分辨率降低、尺寸變小的特征圖像擴(kuò)大為和原圖等大的分割圖，如圖1所示。

圖1 反卷積Fig.1 Conv transpose

1.1.2跳躍連接

Long等人在文獻(xiàn)[9]中指出若將全卷積后的結(jié)果直接上采樣得到的將是非常粗糙的信息，所以將某些中間卷積結(jié)果直接與上采樣的信息融合，建立低層與高層信息之間的“捷徑”，使用跳躍連接將淺的、具有空間特征的數(shù)據(jù)賦予經(jīng)過多層信息蒸餾后的圖像，通過向網(wǎng)絡(luò)高層提供低層特征來輔助重構(gòu)圖像。在網(wǎng)絡(luò)結(jié)構(gòu)上，形成了跳躍式的連接(skip connect)，如圖2所示。

圖2 跳躍連接Fig.2 Skip connect

1.1.3空洞卷積

Chen等人[14]提出空洞卷積(atrous convolution)，發(fā)現(xiàn)當(dāng)卷積核為3×3，采樣率r=12時(shí)，模型與CRF結(jié)合后效果最優(yōu)。假設(shè)卷積核大小用k表示，空洞卷積的感受野可如下表示：

F=[(r-1)(k+1)+k]2

(1)

由式(1)得：感受野從3×3擴(kuò)大為47×47，其中填充的就是所謂的“空洞”，如圖3所示，這些空洞不參與卷積運(yùn)算，但可以提高卷積層的感受野。所以空洞卷積沒有增加計(jì)算量，且簡單直接地控制了卷積神經(jīng)網(wǎng)絡(luò)的空間分辨率，從而實(shí)現(xiàn)了更多的特征提取。

圖3 不同感受野對比Fig.3 Comparision of different accept field

1.2 網(wǎng)絡(luò)結(jié)構(gòu)

U-Net是從FCN發(fā)展而來，同樣省略了全連接層，使用跳躍連接融合信息，因其優(yōu)美的網(wǎng)絡(luò)結(jié)構(gòu)和在小樣本數(shù)據(jù)集上的優(yōu)異表現(xiàn)而廣受好評[15]。原始U-Net 包含18個(gè)3×3的卷積層，1個(gè)1×1的卷積層，4個(gè)2×2的下采樣層，4個(gè)2×2的上采樣層，使用 ReLU 作為激活函數(shù)，如圖4所示。

池化操作會(huì)損失圖像中的高頻成分，產(chǎn)生鈍化模糊的圖像塊，并丟失位置信息。為了恢復(fù)原始圖像結(jié)構(gòu)特征，U-Net使用了 4 次跳躍連接方式(圖4中灰色箭頭)來連接低層與高層的特征信息。使用較淺層的空間信息來解決像素定位問題，經(jīng)過多次卷積后的較深特征用來解決像素分類問題。

圖4 原始U型網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Original structure of U-net

高分辨率遙感圖像語義分割需要處理非常豐富的細(xì)節(jié)特征，我們改造了原始 U-Net，實(shí)現(xiàn)了更精確的像素級標(biāo)注效果。

1.3 后端優(yōu)化

條件隨機(jī)場(conditional random field，CRF)模型作為一種判別式模型，被廣泛用于圖像分類和標(biāo)記任務(wù)[16]。CRF是給定一組輸入隨機(jī)變量條件下另一組輸出隨機(jī)變量的條件概率分布模型，由CRF可以在給定觀測場的條件下，對標(biāo)記場的后驗(yàn)概率直接建模。若輸入由一系列隨機(jī)變量X={x1，x2，…，xN}組成，表示給定的遙感圖像，Xi為像素i的向量; 隨機(jī)場Y由一系列隨機(jī)變量Y={y1，y2，…，yN}組成，表示對應(yīng)的觀測值，Yi為像素i的標(biāo)簽，其取值范圍為L={l1，l2，…，lN}。那么，crf(Y|X)可以通過Gibbs分布給出概率函數(shù)：

(2)

式(2)中，c為像素組成的概率無向圖G上的最大團(tuán)。Z是規(guī)范化因子：

(3)

式(3)中，函數(shù)Ψc(Yc)稱為勢函數(shù)，通常定義為指數(shù)函數(shù)：

Ψc(Yc)=exp{-E(Yc)}

(4)

因此，分類問題的目標(biāo)在于找到一個(gè)標(biāo)簽y*，使得后驗(yàn)概率P(Y|X) 最大，Gibbs 能量E(Yc) 最小。本文在全圖的條件下定義Gibbs能量函數(shù)為：

(5)

式(5)中，Ψu(xi)為一元能量分量，本例中即前段深度卷積網(wǎng)絡(luò)的分割圖像。

Ψp(xi,xj)為成對能量分量，依賴于圖像的平滑參數(shù)，描述像素點(diǎn)之間的關(guān)系，鼓勵(lì)類似標(biāo)簽分配給具有類似屬性的像素，反之相差較大的像素分配不同的標(biāo)簽，而這個(gè)“距離”由顏色值和實(shí)際相對距離定義。

針對二維圖像的特點(diǎn)，每個(gè)像素都具有類別標(biāo)簽(xi)，還有對應(yīng)的觀測值(yi)，這樣以每個(gè)像素點(diǎn)作為節(jié)點(diǎn)，像素與像素間的關(guān)系作為邊，即構(gòu)成了一個(gè)條件隨機(jī)場。

神經(jīng)網(wǎng)絡(luò)的工作就是為復(fù)雜的、高度折疊的信息流形找到簡潔的表示。在語義分割領(lǐng)域，F(xiàn)CN等使用反卷積和跳躍連接實(shí)現(xiàn)了一種端到端的網(wǎng)絡(luò)結(jié)構(gòu)，以保證輸出圖像應(yīng)與輸入圖像有相同的尺度大小，賦予圖像中每個(gè)像素一個(gè)種類標(biāo)簽。DeepLap系列則使用空洞卷積，在不增加參數(shù)量的前提下，提高對圖像空間特征的提取。

2 遙感圖像道路提取方法

針對本文任務(wù)前景與背景差異巨大的特點(diǎn)，選用在Kaggle圖像分類及語義分割競賽中廣泛運(yùn)用的U-net網(wǎng)絡(luò)作為前端信息提取，在后端選用條件隨機(jī)場對圖像進(jìn)行精細(xì)化調(diào)整。

2.1 優(yōu)化網(wǎng)絡(luò)

在原始U-Net中，卷積層深度從64逐層增加至1 024，本文網(wǎng)絡(luò)把過濾器的深度統(tǒng)一設(shè)置為64。這是因?yàn)閷?shí)驗(yàn)采用的數(shù)據(jù)集僅包含道路信息，其特征組合數(shù)遠(yuǎn)少于CIFAR-10、Pascal VOC 等數(shù)據(jù)集中樣本的特征組合數(shù)，如果參照原始 U-Net中的過濾器深度，網(wǎng)絡(luò)不易收斂，分割準(zhǔn)確率較低。

出于以下三個(gè)方面的原因：1) Massachusetts roads datasets中類別數(shù)和待識別特征數(shù)較少，正樣本平均比例不足5%，如圖5所示；2) 池化操作中丟失的信息可以通過“反卷積”和“跳躍連接”重新獲取，另外在遙感圖像中，不需要去理解和識別高層次 3D 物體的概念，在較高網(wǎng)絡(luò)層中增加過濾器的數(shù)量，并不影響模型的實(shí)際預(yù)測性能；3) 原始網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置對硬件設(shè)備較高，不便于向邊緣設(shè)備移植，我們設(shè)計(jì)統(tǒng)一的過濾器數(shù)量為64實(shí)質(zhì)上是一種降低時(shí)間和空間復(fù)雜度的考慮。

圖5 原始彩色圖像與其掩膜Fig.5 Original RBG image and its mask

2.2 損失函數(shù)的選擇

考慮語義圖像分割的任務(wù)的特性，給定圖像的每個(gè)像素i都必須歸入一個(gè)對象類c∈C。而傳統(tǒng)基于深度網(wǎng)絡(luò)的分割方法大多依賴于邏輯回歸或者是優(yōu)化cross_entropy loss，針對本文前景背景差異化大的特點(diǎn)，引入Lovasz-softmax[17]。

CE loss如下：

(6)

(7)

式(6)中的loss產(chǎn)生邏輯損失并引起平滑優(yōu)化。這樣，驗(yàn)證集上的交叉熵?fù)p失的度量通常不能很好地指示分割質(zhì)量。一種更好的性能指標(biāo)是Jaccard指數(shù)，通常用于評估分割任務(wù)，也稱為IoU。給定ground truth標(biāo)簽向量y*和預(yù)測標(biāo)簽向量y～，那么類別c的Jaccard指數(shù)定義如下：

(8)

它給出了ground truth掩膜和被評估掩膜之間的并集的交的比率為[0,1]，在此約定0/0=1。相應(yīng)的在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化中采用的損失函數(shù)為：

ΔJC(y*,y～)=1-JC(y*,y～)

(9)

對于多標(biāo)簽數(shù)據(jù)集，Jaccard指數(shù)通常是通過跨類別平均，從而得出平均IoU。

在上述基礎(chǔ)上，可以針對Jaccard指數(shù)，優(yōu)化經(jīng)過區(qū)別訓(xùn)練的細(xì)分系統(tǒng)的性能。通過Jaccard指數(shù)測量得到的預(yù)測分割掩膜，以及基于子模塊集函數(shù)的Lovasz擴(kuò)展的Jaccard損失的分段線性替代方案，性能得到了較大的改善。

為了在連續(xù)優(yōu)化框架中優(yōu)化Jaccard指數(shù)，考慮到這種離散損失的平滑擴(kuò)展。擴(kuò)展基于集合函數(shù)的子模分析，其中集合函數(shù)從一組錯(cuò)誤預(yù)測映射到一組實(shí)數(shù)，見式(7)。

對于預(yù)測輸出y～和ground truth真值y*，我們將類別c的一組錯(cuò)誤預(yù)測像素定義為：

MC(y*,y～)={y*=c,y～≠c}∪
{y*≠c,y～=c}

(10)

對于固定的背景真值y*，Jaccard損失在式(5)中根據(jù)一組錯(cuò)誤預(yù)測可以重寫為：

ΔJC:MC∈{0,1}P

(11)

Jaccard loss滿足子模函數(shù)的性質(zhì)，所以可以對其進(jìn)行Lovasz extension將原子模函數(shù)的輸出值作為基進(jìn)行插值。計(jì)算這些差值的基就是在ground truth中取一部分作為預(yù)測結(jié)果，以此來提高訓(xùn)練效果。

3 實(shí)驗(yàn)結(jié)果分析及性能對比

本實(shí)驗(yàn)在Ubuntu 18.04系統(tǒng)下，采用基于Tensorflow v1.13的Keras v2.2.4作為計(jì)算架構(gòu)，計(jì)算機(jī)硬件配置為NVIDIA GTX 1080TI(11G)，32 GB RAM。數(shù)據(jù)集為美國馬塞諸薩州部分地區(qū)高分辨率遙感圖像[18]，包括像素均為1 500×1 500的原始三通道衛(wèi)星圖片和單通道掩膜圖像，每像素點(diǎn)表示實(shí)際地面1 m2范圍，掩膜圖片由OpenStreetMap提供的數(shù)據(jù)生成，驗(yàn)證集和測試集的目標(biāo)圖片都進(jìn)行過手工標(biāo)記以提高準(zhǔn)確率。

訓(xùn)練集1 108張圖片，驗(yàn)證集14張圖片，測試集49張圖片。在訓(xùn)練過程中，為提取更多特征信息，將每張圖片分割為3×3的小圖片，像素為500×500。

訓(xùn)練超參數(shù)如下：resize圖片大小為256×256，設(shè)置batch大小為16，優(yōu)化器使用AdamOptimizer，初始學(xué)習(xí)率設(shè)置為10-4。

3.1 評價(jià)指標(biāo)

在語義分割及信息檢索、自然語言處理等任務(wù)中，主要用到準(zhǔn)確率(precision，P)、召回率(re-call，R)、F-Score和交并比(intersection-over-union，IoU)四種評價(jià)指標(biāo)。

表1 真值表

由表1得，precision和recall分別如下：

(12)

precision和recall在有些時(shí)候是矛盾的，所以將兩者加權(quán)平均，引入F-Score：

(13)

特別的，當(dāng)a=1時(shí)，為F1-Score。

交并比是輸出的候選框與原標(biāo)記框的交疊率，如圖6所示。

(14)

圖6 交并比(白色為人工標(biāo)定框，黑色為模型預(yù)測框)Fig.6 IoU(white is manual, black is model predicted)

3.2 實(shí)驗(yàn)結(jié)果對比及分析

將本文方法與文獻(xiàn)[19]中的結(jié)果對比，在3.1節(jié)四種評價(jià)指標(biāo)下分別比較Unet、RSRCNN[20]、ELU-SegNet-R[21]、DCED[19]和本文方法的結(jié)果及運(yùn)行時(shí)間結(jié)果對比見表2。

表2 不同方法的結(jié)果對比

實(shí)驗(yàn)證明，在本文方法模型參數(shù)量只有1 MB，相較其他模型減少數(shù)十倍的基礎(chǔ)下，準(zhǔn)確率并沒有大幅下降，且在速度上存在優(yōu)勢，可運(yùn)用于無人機(jī)、移動(dòng)機(jī)器人、智能手機(jī)等小型化終端設(shè)備。

表3中，是我們開展消融實(shí)驗(yàn)的結(jié)果，可以看到空洞卷積、Lovasz loss以及CRF的介入均是在增加一定運(yùn)算量的基礎(chǔ)上提高了預(yù)測精度，但最后的運(yùn)行速度也要比原始的U-net網(wǎng)絡(luò)快一個(gè)數(shù)量級。

表3 消融實(shí)驗(yàn)

可視化對比結(jié)果如圖7所示。在圖7(a)、(d)中(Unet網(wǎng)絡(luò)濾波器數(shù)目為64個(gè))，由于加入空洞卷積而出現(xiàn)不同程度的白塊，且提取精度下降，所以引入Lovasz-Softmax損失函數(shù)進(jìn)行微調(diào)以提高網(wǎng)絡(luò)分割準(zhǔn)確率。對于增大感受野而導(dǎo)致的背景對分割目標(biāo)的侵蝕而產(chǎn)生的白塊，在網(wǎng)絡(luò)輸出后端增加CRF層，進(jìn)一步聯(lián)系上下文語義信息。相較于對照方法，本文方法分辨率高，較好地保存了道路的結(jié)構(gòu)信息，在出現(xiàn)樹木、房屋陰影遮擋處依然能準(zhǔn)確提取道路。在立交橋的道路交叉口及并行多車道處表現(xiàn)出更精確的分割效果。在圖7(b)中，原始遙感圖像中的道路末端的停車場，其他方法均未正確識別或是直接忽略，但本文方法均有效分割。

對于不同場景的提取效果，本文方法也優(yōu)于其他方法，并且能體現(xiàn)道路的粗細(xì)程度，可以為后續(xù)工作提供更多的有效信息。而通過本文引入的空洞卷積和針對道路特點(diǎn)改變過濾器個(gè)數(shù)，模型參數(shù)只有約1 MB，相較于其他方法是巨大優(yōu)勢，使得模型可以被運(yùn)用于移動(dòng)平臺(tái)等邊緣設(shè)備。

圖7 可視化對比Fig.7 Visual comparison

4 結(jié)論

本文提出了基于條件隨機(jī)場和U型網(wǎng)絡(luò)的遙感圖像道路提取方法。該方法首先針對遙感圖像中道路局部細(xì)節(jié)特征豐富、語義特征簡單的特性，調(diào)整了濾波器個(gè)數(shù)，并使用空洞卷積增大感受野，提高了網(wǎng)絡(luò)特征提取能力。其次，針對道路目標(biāo)在遙感圖像中占比小，易被背景侵蝕的特性，選擇Lovasz-Softmax損失函數(shù)，并在后端引入條件隨機(jī)場，進(jìn)一步利用了全局上下文信息的聯(lián)系，優(yōu)化了分割結(jié)果。實(shí)驗(yàn)結(jié)果表明，本方法在召回率、精度和F1-score達(dá)到82.8%，80.9%，81.8%的同時(shí)，交并比及運(yùn)行速度為85%和10FPS，基本滿足視頻分割的要求，可運(yùn)用于邊緣設(shè)備。