遙感影像要素提取的可變結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)方法

2019-06-10 01:14:44王華斌王光輝

測繪學(xué)報 2019年5期

王華斌,韓旻,王光輝,李玉

1. 遼寧工程技術(shù)大學(xué)測繪與地理科學(xué)學(xué)院, 遼寧阜新123000; 2. 自然資源部國土衛(wèi)星遙感應(yīng)用中心, 北京 100048

近年來，以卷積神經(jīng)網(wǎng)絡(luò)模型為典型代表的深度學(xué)習(xí)技術(shù)帶動了遙感影像要素提取研究的迅速發(fā)展[1-2]。相較于傳統(tǒng)的人工定義指數(shù)和淺層機器學(xué)習(xí)方法[3-6]，卷積神經(jīng)網(wǎng)絡(luò)模型通過對海量圖像的深層特征建模實現(xiàn)了圖像信息的有效提取[7]，在非樣本數(shù)據(jù)集上的泛化能力顯著增強。因此，基于卷積神經(jīng)網(wǎng)絡(luò)的遙感影像要素提取成為研究熱點。

基于卷積神經(jīng)網(wǎng)絡(luò)模型的遙感影像要素提取方法通常利用包含卷積操作的神經(jīng)網(wǎng)絡(luò)模型描述影像與要素的類屬關(guān)系，進而利用隨機梯度下降算法求解模型中的未知參數(shù)[8]。按照要素提取的粒度，利用卷積神經(jīng)網(wǎng)絡(luò)模型的要素提取研究主要分為3個層次[9]：圖像層的場景分類、像素層的影像分割和目標(biāo)層的實例分割。

文獻[10]提出的LeNet，將卷積操作引入神經(jīng)網(wǎng)絡(luò)模型，也是現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)模型的原型。該模型利用2次重復(fù)的卷積、下采樣和3次全連接對圖像的深層特征進行建模，在文本數(shù)字圖像識別領(lǐng)域得到了有效應(yīng)用。但由于卷積操作的計算代價過于高昂且缺乏明確的理論基礎(chǔ)，該算法在提出后并未引起學(xué)界的關(guān)注。文獻[1]提出的AlexNet以絕對優(yōu)勢榮獲2012年ImageNet競賽的冠軍，加之低價的圖形處理單元(GPU)提供了充足的計算資源，引起研究人員對于卷積神經(jīng)網(wǎng)絡(luò)模型的廣泛關(guān)注。文獻[11]利用AlexNet提取多尺度遙感影像的深層卷積特征，并對其進行特征編碼以獲取全局表征，結(jié)合支持向量機(support vector machine，SVM)分類影像所屬的場景類別，是卷積神經(jīng)網(wǎng)絡(luò)模型在遙感領(lǐng)域的探索。文獻[12]提出了一種結(jié)合顯著性檢測與稀疏自編碼器的顯著要素稀疏特征非監(jiān)督提取算法，結(jié)合SVM準(zhǔn)確地區(qū)分出了遙感影像的場景類別。然而，以場景分類為目標(biāo)的要素提取結(jié)果受影像邊界的制約，無法顧及影像中非主要類別的要素。

文獻[13]提出的FCN(fully convolutional networks)是一種支持逐像素分類的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，將分割粒度由圖像層細(xì)化到像素層。在該網(wǎng)絡(luò)結(jié)構(gòu)中，原本用于分類的卷積神經(jīng)網(wǎng)絡(luò)中的全連接層被替換為卷積層和轉(zhuǎn)置卷積層，并加入了多個跨越連接。由于網(wǎng)絡(luò)中間層全部為(轉(zhuǎn)置)卷積層，訓(xùn)練所需的數(shù)據(jù)量較大，訓(xùn)練時間長，分割邊緣不夠清晰。針對這一問題，文獻[14]引入數(shù)據(jù)增強技術(shù)并提出了U-Net。該網(wǎng)絡(luò)先通過多個卷積、池化層提取高度抽象的深層特征，再通過轉(zhuǎn)置卷積和卷積操作還原背景信息，同時利用帶有裁切的跨越連接細(xì)化分割邊緣。數(shù)據(jù)增強技術(shù)顯著減少了模型訓(xùn)練時所需的樣本數(shù)量，然而裁切和卷積操作降低了輸出標(biāo)記圖像的空間分辨率，模型訓(xùn)練緩慢的問題依然存在。文獻[15]將端到端的影像分割網(wǎng)絡(luò)抽象分解為編碼器、解碼器和像素分類層，并且引入了利用最大池化指數(shù)的上采樣層和批標(biāo)準(zhǔn)化層[16]定義SegNet。該網(wǎng)絡(luò)結(jié)構(gòu)通過邊緣補零的卷積操作統(tǒng)一了輸出標(biāo)記圖像與輸入圖像的空間分辨率，通過批標(biāo)準(zhǔn)化層縮短了訓(xùn)練所需的時間。但是該網(wǎng)絡(luò)利用Softmax層作為像素多類別分類器，其類別間的競爭影響了分類結(jié)果，平均像素分類精度仍然有待提高。

文獻[17]提出的R-CNN率先將候選區(qū)生成過程、卷積神經(jīng)網(wǎng)絡(luò)與支持向量機(SVM)結(jié)合用于目標(biāo)檢測問題。在該研究中，卷積神經(jīng)網(wǎng)絡(luò)模型主要負(fù)責(zé)候選區(qū)的特征提取，與其他過程耦合較為松散。其續(xù)作Fast R-CNN通過多任務(wù)損失(multi-task loss)建立了分類與包圍盒修正網(wǎng)絡(luò)[18]。在此基礎(chǔ)上，F(xiàn)aster R-CNN將候選區(qū)生成過程替換為候選區(qū)生成網(wǎng)絡(luò)[19]。至此，卷積神經(jīng)網(wǎng)絡(luò)模型完整地覆蓋了目標(biāo)檢測任務(wù)的各個階段。受Faster R-CNN啟發(fā)，文獻[20]提出的Mask R-CNN在原有架構(gòu)的基礎(chǔ)上增添了目標(biāo)掩膜預(yù)測分支，從而將目標(biāo)的檢測、分類、分割納入到統(tǒng)一的卷積神經(jīng)網(wǎng)絡(luò)模型中。該網(wǎng)絡(luò)由多個部分構(gòu)成，第1部分是殘差連接網(wǎng)絡(luò)(ResNet50或101)與特征金字塔網(wǎng)絡(luò)(feature pyramid network)組成的特征提取網(wǎng)絡(luò)，第2部分是候選區(qū)生成網(wǎng)絡(luò)(region proposal network)，第3部分是感興趣區(qū)分類、位置修正及分割網(wǎng)絡(luò)。特征網(wǎng)絡(luò)首先提取圖像多個尺度的特征，并由候選區(qū)生成網(wǎng)絡(luò)直接在卷積特征層直接生成感興趣區(qū)域，最后由分類及分割網(wǎng)絡(luò)對感興趣區(qū)域中的目標(biāo)進行分類和分割。相關(guān)試驗表明該模型能夠十分準(zhǔn)確地標(biāo)注并分割出圖像中的地物。然而，目標(biāo)層的要素提取適用于獨立特殊地物[21](如房屋、機場等)的提取，而對成片的大面積要素(如耕地)的提取支持較弱。

在卷積神經(jīng)網(wǎng)絡(luò)模型中，網(wǎng)絡(luò)的結(jié)構(gòu)定義是關(guān)鍵。上述幾種方法雖然提取粒度不同，但普遍采用固定結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造要素提取模型，網(wǎng)絡(luò)的表達能力受到固定結(jié)構(gòu)的制約。另一方面，固定結(jié)構(gòu)網(wǎng)絡(luò)的設(shè)計完全由專家依據(jù)專業(yè)知識手動定義，自動化水平低。針對以上問題，本文以像素層為要素提取粒度，將卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)納入要素提取問題的數(shù)學(xué)模型中，提出了基于可變結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)的遙感影像要素提取方法。本文方法將卷積神經(jīng)網(wǎng)絡(luò)中的關(guān)鍵結(jié)構(gòu)作為變量，將形式化模型的要素提取指標(biāo)作為目標(biāo)函數(shù)。目標(biāo)函數(shù)的最優(yōu)解對應(yīng)為關(guān)鍵結(jié)構(gòu)最優(yōu)的卷積神經(jīng)網(wǎng)絡(luò)模型。由于該目標(biāo)函數(shù)對于網(wǎng)絡(luò)中關(guān)鍵結(jié)構(gòu)的導(dǎo)函數(shù)不可求取，采用遺傳算法搜索最佳關(guān)鍵結(jié)構(gòu)。對于遺傳算法列舉出的每個網(wǎng)絡(luò)模型，基于傳統(tǒng)交叉熵目標(biāo)函數(shù)和梯度下降算法求解其中的未知參數(shù)，并以網(wǎng)絡(luò)的要素提取性能作為相對應(yīng)個體的適應(yīng)性度量。最后，通過試驗證明了本文方法的有效性。

1 方法描述

1.1 模型變量

1.1.1 數(shù)據(jù)變量

約定影像張量X=[xn,h,w,c]N×H×W×C，其中xn,h,w,c為灰度值，其下標(biāo)代表4個維度，n為影像索引，h為像素高度位置索引，w為像素寬度位置索引，c為像素光譜通道索引，Y=[yn,h,w,0]N×H×W×1是像素類屬目標(biāo)要素的布爾標(biāo)記。則對于某一類別的要素(如道路)，已知數(shù)據(jù)集可表示為

D={(X,Y)|x∈UInt16,y∈Boolean}

(1)

式中，UInt16={0,1,…,216-1}；Boolean={0,1}。

1.1.2 網(wǎng)絡(luò)結(jié)構(gòu)變量

考慮要素提取粒度為像素層，必須對卷積神經(jīng)網(wǎng)絡(luò)模型的架構(gòu)進行約束。本文選定編碼器解碼器網(wǎng)絡(luò)作為基本架構(gòu)。典型的編碼器、解碼器網(wǎng)絡(luò)包括U-Net和SegNet。SegNet可以描述為帶有跨越連接的編碼器和解碼器操作序列，其中編、解碼器中的不可變部分是網(wǎng)絡(luò)骨架，可變部分為關(guān)鍵結(jié)構(gòu)，符合本文方法的應(yīng)用要求。同時，為了便于拓展，本文設(shè)計了類SegNet作為可變結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)架構(gòu)。一個簡單的具備兩個編碼單元和解碼單元的類SegNet如圖1所示。

圖1 具有兩個編碼單元和解碼單元的類SegNetFig.1 A SegNet with 2-units encoder and 2-units decoder

約定F代表類SegNet引入的全部操作序列，fij是其中的一個操作，下標(biāo)i為操作的順序索引，下標(biāo)j為操作的種類索引，θij為fij引入的變量，ξij為fij引入的常量?？梢詫⒃摼W(wǎng)絡(luò)模型表達為

(2)

1.2 目標(biāo)函數(shù)構(gòu)建

基于上述模型變量，形式化地定義要素分類指標(biāo)平均Jaccard指數(shù)為目標(biāo)函數(shù)

Jaccard(D,F′)=

(3)

式中

(4)

式中，σ為概率閾值，一般按照經(jīng)驗設(shè)定為0.5。本文方法按照目標(biāo)函數(shù)最大化準(zhǔn)則求取最優(yōu)F′，從而獲得關(guān)鍵結(jié)構(gòu)設(shè)計最優(yōu)的卷積神經(jīng)網(wǎng)絡(luò)模型。

1.3 基于遺傳算法的組合優(yōu)化

由于F′代表類SegNet中可變部分全部操作的一組序列，在已知數(shù)據(jù)D的條件下最大化目標(biāo)函數(shù)問題可以轉(zhuǎn)化為對F′的組合優(yōu)化問題。遺傳算法(genetic algorithm,GA)[22]是一種模仿生物種群進化過程的隨機優(yōu)化算法。對數(shù)據(jù)規(guī)模較大的組合優(yōu)化問題，GA在求解非線性的函數(shù)優(yōu)化問題等方面有良好的適用性[23]。因此，本文基于GA框架求解對F′的組合優(yōu)化問題。利用GA求解編碼單元和解碼單元組合優(yōu)化問題的關(guān)鍵步驟在于可行解的編碼、種群初始化設(shè)定、個體適應(yīng)度的定義和遺傳算子的設(shè)計。

1.3.1 可行解的編碼

本文利用一個個體P代表一組可行解，由結(jié)構(gòu)染色體CA和超參數(shù)染色體CP組成

P=(CA,CP)

(5)

結(jié)構(gòu)染色體由一組結(jié)構(gòu)基因AUu組成，超參數(shù)染色體由一組超參數(shù)基因PUu組成，下標(biāo)u為基因位置索引,U為基因長度，取偶數(shù)

(6)

結(jié)構(gòu)基因是一組二進制數(shù)，可通過映射字典對應(yīng)編碼單元或解碼單元中的操作類型，超參數(shù)基因是設(shè)置操作的超參數(shù)，例如卷積核數(shù)量、卷積核大小和激活函數(shù)名稱等。為了對可行解的編碼過程進行更加清晰的闡述，舉例如下。

表1列出基因-結(jié)構(gòu)單元的映射字典。根據(jù)表1給出數(shù)據(jù)，當(dāng)取U=6，類SegNet編碼過程可得如圖2所示網(wǎng)絡(luò)結(jié)構(gòu)。

表1 基因-結(jié)構(gòu)單元映射字典

圖2 類SegNet的個體編碼過程Fig.2 The code of individual and corresponding SegNet

在圖2右側(cè)所示的類SegNet中，第1個編碼單元的定義是先卷積層后激活層，其中卷積操作的卷積核數(shù)為32，卷積核大小為(3,3)，激活操作的激活函數(shù)為elu(文獻[24])，對應(yīng)到結(jié)構(gòu)染色體中第1個結(jié)構(gòu)基因為00，超參數(shù)染色體中第1個超參數(shù)基因為((32,(3,3)),(elu))，其余單元可依次類推，最終形成左側(cè)的個體。

1.3.2 種群初始化設(shè)定

設(shè)Gv表示第v世代所有個體的集合

(7)

(8)

(9)

式中

(10)

1.3.3 個體適應(yīng)度定義

考慮到GA中的個體數(shù)量較多，為降低估計個體適應(yīng)度所需的計算量，本文采用數(shù)據(jù)抽樣和不充分訓(xùn)練的策略計算個體適應(yīng)度。

數(shù)據(jù)抽樣策略假定已知數(shù)據(jù)集D是均勻的，對其抽樣N′張影像和標(biāo)注，形成抽樣數(shù)據(jù)集D′?D，

(11)

log(1-Z(I))]

(12)

在經(jīng)驗損失函數(shù)最小化準(zhǔn)則下，利用自適應(yīng)低階矩的隨機一階梯度下降算法[25]。在固定數(shù)據(jù)遍歷次數(shù)和附加提前停止的條件下，求解模型中未知參數(shù)的數(shù)值解。由此，可實現(xiàn)以較小的計算成本初步估計網(wǎng)絡(luò)的表達能力。

1.3.4 遺傳算子的設(shè)計

(1) 隨機聯(lián)賽選擇算子。對當(dāng)前世代G，隨機選取K個個體作為參加聯(lián)賽的個體集合GSt，以t表示聯(lián)賽次數(shù)索引

GSt={Pk}?Gk=1,…,K

(13)

將每次聯(lián)賽中適應(yīng)度最優(yōu)的個體保留，組成撫育下一種群的候選GP

GP={Pt|max(GSt),t=1,…,T}

(14)

(2) 單點交叉算子。將選擇出個體按奇偶順序兩兩配對，分別作為父代和母代

Pa,Pb∈GP

(15)

式中，a=1,3,…,T-1;b=2,4,…,T。以一定概率αco交換父母代染色體中的部分基因，即

(16)

(17)

(3) 基本位變異算子。染色體交叉后種群中的每個個體以一定概率αmt發(fā)生基本位的變異。假設(shè)Pmt為概率判定要發(fā)生基本位變異的個體

Pmt∈GE

(18)

對其結(jié)構(gòu)染色體CA(mt)中每個基因按一定概率αfp重新初始化。假設(shè)AUγ(mt)為概率判定要發(fā)生變異的結(jié)構(gòu)基因

(19)

則重新初始化后結(jié)構(gòu)基因

(20)

由于AUγ(mt)發(fā)生變化，超參數(shù)染色體CP(mt)相同位置的超參數(shù)基因PUγ(mt)也必須相應(yīng)改變。將AUγ(mt′)代入式(9)，將PUγ(mt)重新初始化為PUγ(mt′)。由此得到CA(mt′)和CP(mt′)，合并后表示變異后個體Pmt′

Pmt′=(CA(mt′),CP(mt′))

(21)

1.3.5 方法流程

綜合以上概念，本文方法分解為3個部分，第1部分為架構(gòu)定義，第2部分為結(jié)構(gòu)優(yōu)化，第3部分為固定結(jié)構(gòu)CNN的要素提取。流程如圖3所示，描述如下：

步驟1：定義參數(shù)。包括網(wǎng)絡(luò)層范圍參數(shù)、基因結(jié)構(gòu)字典設(shè)計、單元數(shù)量和遺傳參數(shù)等。

步驟2：初始化種群。設(shè)定隨機初始化種群個體的染色體。

步驟3：估計每個個體的適應(yīng)度。將種群中每一個個體映射為類SegNet卷積神經(jīng)網(wǎng)絡(luò)，采用數(shù)據(jù)抽樣和不充分訓(xùn)練的策略求解模型未知參數(shù)，計算目標(biāo)函數(shù)值作為個體適應(yīng)度。

步驟4：進化終止條件判定。判斷最佳個體適應(yīng)度是否達到預(yù)期值或達到限制的最大進化世代數(shù)。若滿足停止條件則轉(zhuǎn)向步驟9，否則進入步驟5。

步驟5：選擇運算。將隨機聯(lián)賽選擇算子作用于種群。

步驟6：交叉運算。將單點交叉算子作用于種群。

步驟7：變異運算。將基本位變異算子作用于種群，由此得到下一代種群。

步驟8：返回步驟3。

步驟9：報告最優(yōu)個體。最優(yōu)個體映射的類SegNet卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)即為求解得到的決策函數(shù)族，在取消數(shù)據(jù)抽樣和不充分訓(xùn)練策略的條件下求解模型未知參數(shù)。

步驟10：利用求取的模型對遙感影像中的要素進行提取。本文這里采用方法在獨立測試集上的指標(biāo)進行效果評估。

圖3 本文方法流程Fig.3 The flowchart of the proposed method

2 試驗和分析

2.1 試驗設(shè)定

為了驗證本文方法的有效性，研究基于DSTL競賽數(shù)據(jù)集中的遙感影像和10種要素標(biāo)記，利用本地交叉驗證[26]的策略評估本文方法的可靠性。

DSTL數(shù)據(jù)集是以World-View3衛(wèi)星所拍攝的遙感影像為基礎(chǔ)制成的要素標(biāo)記數(shù)據(jù)集，提供了57個區(qū)域的遙感影像，其中25個區(qū)域包含居民地、瀝青道路、林木與河流等10種要素標(biāo)記。每個區(qū)域提供空間分辨率為31 cm的融合后RGB遙感影像、空間分辨率為31 cm的全色遙感影像、空間分辨率為1.24 m的多光譜8波段遙感影像及空間分辨率為7.5 m的短波8波段遙感影像。

數(shù)據(jù)準(zhǔn)備過程如下：①將25張影像及其對應(yīng)的地物要素類別圖劃分為17張模型訓(xùn)練集與8張獨立測試集；②在模型訓(xùn)練集中，對每種地物要素生成與8波段多光譜影像長寬相同的目標(biāo)要素標(biāo)記二值圖像；③將模型訓(xùn)練集中8波段多光譜影像與目標(biāo)要素標(biāo)記二值圖像裁切成大小相同的圖塊，影像圖塊與其對應(yīng)的二值標(biāo)記圖塊稱為一組；④對所有的組抽樣32%作為抽樣集，其余作為余樣。表2為各組數(shù)據(jù)集中的組數(shù)量。

表2 數(shù)據(jù)準(zhǔn)備分組

試驗使用表3所示的基因-結(jié)構(gòu)單元映射表，不充分訓(xùn)練的具體設(shè)定是固定數(shù)據(jù)遍歷次數(shù)為70，批張量大小設(shè)定為2。為了避免計算時間過長，在試驗中設(shè)定最大進化數(shù)V為200代。卷積核數(shù)量候選集filters_ud為{3,…,16}，卷積核窗口大小kernel_size為{1,2,3}，卷積核數(shù)量隨深度變化系數(shù)filters_scale為{2,3,4,5}，激活函數(shù)候選集{'elu','selu','relu','tanh','softplus','softsign','sigmoid','hard_sigmoid'}，批標(biāo)準(zhǔn)化動量集{0.8,0.81,…,0.99},失活率集{0.5,0.51，…,0.99}，種群規(guī)模O為20，聯(lián)賽規(guī)模K為3，染色體交叉概率αco為0.5，基因變異概率αmt為0.02。卷積神經(jīng)網(wǎng)絡(luò)模型中權(quán)重求解的收斂條件為損失小于0.001或超過2000次數(shù)據(jù)遍歷。

表3 基因-結(jié)構(gòu)單元映射字典

試驗的硬件環(huán)境為Intel(R) Core(TM) i7-7700 HQ 2.80 GHz，NVIDIA Quadro M1200和Intel(R) Xeon(R) E5-2630U3 2.40 GHz，4塊NVIDIA Tesla M40，軟件環(huán)境為Python 3.5.2，主要依賴庫為Tensorflow1.4.0，Keras2.0.8。

2.2 試驗結(jié)果

2.2.1 遺傳過程

利用可變結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)模型對10種要素提取過程建模并進行試驗，圖4反映了結(jié)構(gòu)優(yōu)化過程中種群適應(yīng)度與進化世代數(shù)之間的關(guān)系。其中，種群適應(yīng)度分布由小提琴寬度表示，種群適應(yīng)度上下限由小提琴上下頂點表示。對進化過程中種群適應(yīng)度絕對值的觀察顯示，長度為6的類SegNet架構(gòu)對不同要素的提取表現(xiàn)不同，體現(xiàn)為耕地要素提取網(wǎng)絡(luò)的絕對提取效果最高，非瀝青公路要素提取網(wǎng)絡(luò)次之，之后依次是河流、瀝青公路、林木、湖泊、建筑物，小型車輛、大型車輛。

圖4 10種要素網(wǎng)絡(luò)模型結(jié)構(gòu)優(yōu)化遺傳過程小提琴圖Fig.4 The violin figures of evolution of CNN architectures for ten features

從種群進化過程前后個體適應(yīng)度的相對變化來看，多數(shù)要素提取網(wǎng)絡(luò)的表達能力在進化過程后都得到了一定程度的優(yōu)化(表4)。分析表4數(shù)據(jù)可以看出，個體適應(yīng)度優(yōu)化的幅度與要素種類相關(guān)，例如提取河流、瀝青公路、非瀝青公路的指標(biāo)優(yōu)化幅度在0.15至0.35之間，而提取建筑物、混雜附屬物、林木、耕地、湖泊的指標(biāo)優(yōu)化幅度均在0.10以內(nèi)，大型車輛、小型車輛的提取指標(biāo)在優(yōu)化前后并未有所提升。由此得出結(jié)論：在長度為6的類SegNet架構(gòu)約束下，網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化過程對不同要素的適用性不同，對非瀝青公路、瀝青公路、河流的要素提取網(wǎng)絡(luò)的結(jié)構(gòu)優(yōu)化較為有效，而對建筑物、混雜附屬物、林木、耕地的網(wǎng)絡(luò)優(yōu)化效果有限。對于大型車輛和小型車輛而言，提取模型的絕對指標(biāo)幾乎為0，并且優(yōu)化結(jié)構(gòu)也不能獲得任何提升，因此可以判斷網(wǎng)絡(luò)結(jié)構(gòu)并非提取該類特殊要素的制約條件。

2.2.2 最終網(wǎng)絡(luò)

取結(jié)構(gòu)優(yōu)化過程中末代網(wǎng)絡(luò)的最優(yōu)個體，并映射為所對應(yīng)的最終網(wǎng)絡(luò)，表5為10種要素的可變結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)的最終結(jié)構(gòu)。B、C、A分別表示批標(biāo)準(zhǔn)化層、卷積層、激活層，后面附加的是該層所需的超參數(shù)。(C-卷積核數(shù)量，卷積窗口大小，B-動量系數(shù)，A-激活函數(shù))。

表4 結(jié)構(gòu)優(yōu)化前后適應(yīng)度變化

Tab.4 The fitness changes caused by architectureoptimization

要素初代最優(yōu)個體末代最優(yōu)個體優(yōu)化幅度建筑物0.5750.6380.063混雜附屬物0.0570.1320.075瀝青公路0.4210.6530.232非瀝青公路0.5220.8800.358林木0.5750.6510.077耕地0.8250.9250.099河流0.6580.8050.147湖泊0.6010.6480.048大型車輛0.0000.0020.002小型車輛0.0010.0070.006

表5 10種要素提取網(wǎng)絡(luò)模型結(jié)構(gòu)

圖5(a)為對多種要素提取網(wǎng)絡(luò)模型中激活操作的函數(shù)統(tǒng)計頻數(shù)。分析發(fā)現(xiàn)relu函數(shù)的出現(xiàn)頻數(shù)顯著高于其他函數(shù)，tanh次之，最少出現(xiàn)的是softsign。說明激活函數(shù)的選擇上relu函數(shù)非線性激活的處理效率高于其他函數(shù)，通用性強于其他函數(shù)。

建筑物、瀝青公路、非瀝青公路、林木、河流等要素的提取網(wǎng)絡(luò)中，卷積核數(shù)量服從隨深度遞增的設(shè)定，圖5(b)的折線圖呈現(xiàn)倒U形；而耕地、湖泊、混雜附屬物、小型車輛、大型車輛要素提取網(wǎng)絡(luò)中，卷積核數(shù)量并未服從隨深度遞增的設(shè)定。說明卷積核數(shù)量的設(shè)定受要素種類影響，并非完全服從隨深度遞增的規(guī)律。對卷積核窗口大小的統(tǒng)計顯示寬度為3的卷積窗口頻數(shù)較高，為22次；寬度為5的窗口出現(xiàn)了18次；寬度為4的出現(xiàn)了10次。說明寬度為3的卷積窗口較寬度為4的卷積窗口通用性更強。圖5(c)中批標(biāo)準(zhǔn)化操作中動量系數(shù)按要素種類不同呈現(xiàn)3種分布：混雜附屬物和瀝青公路的要素提取網(wǎng)絡(luò)中，動量系數(shù)呈現(xiàn)W形，非瀝青公路、耕地、河流、湖泊的要素提取網(wǎng)絡(luò)中，動量系數(shù)呈現(xiàn)M形，其他要素提取網(wǎng)絡(luò)中，動量系數(shù)在編碼器階段變化幅度不大，而在解碼階段劇烈變化，呈現(xiàn)倒扣的勺狀。Dropout處理出現(xiàn)在混雜附屬物、河流、大型車輛、小型車輛4種要素提取網(wǎng)絡(luò)中。說明模型優(yōu)化過程對多光譜特征較為復(fù)雜的要素會利用Dropout的模型平均作用來嘗試提高其提取效果。

圖5 參數(shù)分析統(tǒng)計Fig.5 The statistics of parameters analysis

2.2.3 提取效果

圖6為獨立測試集上一張影像按本文方法提取要素的效果。其中要素真值與預(yù)測值的真正(true positive)部分以綠色標(biāo)記，假負(fù)(false negative)部分以紅色標(biāo)記，假正(false positive)部分以黃色標(biāo)記，真負(fù)(true negative)部分以白色標(biāo)記。

通過視覺觀察，對于測試影像中的林木、非瀝青公路、耕地、建筑物、瀝青公路、湖泊要素，模型提取出了大部分目標(biāo)區(qū)域，說明模型具備一定的分類泛化能力。由于河流要素未出現(xiàn)在示例圖像中，模型的預(yù)測結(jié)果均為假正，說明對負(fù)樣本的處理是模型實用化的關(guān)鍵。另一方面，模型對于混雜附屬物、大型車輛、小型車輛要素的提取效果并不理想。究其原因是混雜附屬物包含了多種建筑物附屬結(jié)構(gòu)，其像元光譜十分復(fù)雜導(dǎo)致模型難以區(qū)分。另外，多光譜影像的分辨率為1.24 m，這3類要素在影像上的圖斑尺寸過小，客觀上也增加了提取的難度。

將本文AVCNN方法與Logistic、SVM、SegNet模型進行對比，評價指標(biāo)選取模型在獨立測試集合(8張影像)上的Jaccard指數(shù)。必須說明的是，方法對要素負(fù)樣本的正確提取將使得Jaccard指數(shù)無意義，在統(tǒng)計時被忽略，但對要素負(fù)樣本的錯誤提取仍會被統(tǒng)計。這種統(tǒng)計方式會極大地降低無法對負(fù)樣本做完全正確預(yù)測的模型的評分，本文將其稱為Jaccard指數(shù)的負(fù)樣本抑制統(tǒng)計效應(yīng)。圖7為評價指標(biāo)分布箱形圖，表6為各提取方法在測試集合上的平均指標(biāo)。

圖7反映出AVCNN對多數(shù)要素的提取效果優(yōu)于其他3種方法。在獨立測試集中，僅有1張影像包含河流要素，Logistic模型通過負(fù)樣本上的正確預(yù)測規(guī)避了平均Jaccard指數(shù)在統(tǒng)計上的負(fù)樣本抑制效應(yīng)，而本文方法雖然在正樣本上的表現(xiàn)與Logistic模型相當(dāng)(圖7(d)中河流要素的孤立點)，但在負(fù)樣本上產(chǎn)生了少量的錯誤預(yù)測，導(dǎo)致在統(tǒng)計的平均Jaccard指數(shù)上顯著低于Logistic模型(表6)。

圖7 4種方法在獨立測試集Jaccard指數(shù)箱形圖Fig.7 The box plots of Jaccard indexes of four methods on test set

表6 不同方法提取目標(biāo)要素的Jaccard指數(shù)

Tab.6 The Jaccard index of different methods for target features

要素名稱提取方法LogisticSVM[27]SegNet[15]AVCNN建筑物0.050.000.120.22混雜附屬物0.000.000.000.04瀝青公路0.030.010.000.19非瀝青公路0.020.000.010.49林木0.200.000.050.52耕地0.100.120.100.26河流0.180.060.000.02湖泊0.010.000.020.09大型車輛0.000.000.000.00小型車輛0.000.000.000.00

2.3 分析

圖8為遺傳過程中多個網(wǎng)絡(luò)模型對非瀝青道路要素提取的對比?？梢钥闯?，第50、100、150代以及最終輸出網(wǎng)絡(luò)經(jīng)充分訓(xùn)練在測試集的提取結(jié)果中，假負(fù)部分(紅色部分)逐漸減少，真正部分(綠色部分)逐漸增多，提取效果逐漸提升，說明利用不充分訓(xùn)練估計模型表達力的策略是有效的。

將本文方法得出各要素最終提取網(wǎng)絡(luò)結(jié)構(gòu)在要素間交叉地執(zhí)行訓(xùn)練和提取，得到圖9所示的適配性矩陣(縱坐標(biāo)代表網(wǎng)絡(luò)權(quán)重訓(xùn)練所基于的要素索引，橫坐標(biāo)代表最終提取網(wǎng)絡(luò)結(jié)構(gòu)所基于的要素索引，坐標(biāo)值為模型在獨立測試集上的平均Jaccard指數(shù))。由圖中可以看出，遺傳算法得到的網(wǎng)絡(luò)結(jié)構(gòu)與要素間的適配性與要素類型有關(guān)：對非瀝青公路、林木兩種要素，遺傳算法得到的網(wǎng)絡(luò)結(jié)構(gòu)對其要素本身的提取是最優(yōu)的，其中非瀝青公路要素的網(wǎng)絡(luò)與其他網(wǎng)絡(luò)差異較為明顯；對于建筑物、混雜附屬結(jié)構(gòu)、瀝青公路，耕地、河流、湖泊、小型車輛等7種要素，遺傳算法得到的網(wǎng)絡(luò)結(jié)構(gòu)對其要素本身的提取效果并非最優(yōu)，但也具備相當(dāng)?shù)奶崛∧芰Γf明本文方法表現(xiàn)出相當(dāng)大的隨機性，但能夠作為求解具有一定容量的網(wǎng)絡(luò)結(jié)構(gòu)的方法；對于大型車輛，所有要素提取網(wǎng)絡(luò)都未獲得有效的提取效果，說明本文方法的適用性受限于數(shù)據(jù)條件和要素特點。綜上，遺傳算法對一種要素求解得到的網(wǎng)絡(luò)結(jié)構(gòu)對其他要素也具有一定的適應(yīng)性，當(dāng)目標(biāo)地物發(fā)生變化時，重新利用遺傳算法得到的新的網(wǎng)絡(luò)可以獲得具備一定容量的模型結(jié)構(gòu)，但仍受要素特點與數(shù)據(jù)條件的限制。

圖6 目標(biāo)要素提取結(jié)果Fig.6 The extraction results of target surface features

圖8 遺傳過程中類SegNet的性能改善Fig.8 The performance improvement of AVCNN in evolution

圖9 各要素與解網(wǎng)絡(luò)間的適配性矩陣Fig.9 The adaptive array of AVCNN of different features

以非瀝青道路為例，調(diào)整輸入模型的影像塊大小并對網(wǎng)絡(luò)結(jié)構(gòu)進行相應(yīng)重構(gòu)，得到影像塊大小對最終網(wǎng)絡(luò)結(jié)構(gòu)提取效果的影響(圖10)。從圖中可以看出，輸入影像塊大小會影響網(wǎng)絡(luò)模型的預(yù)測效果。具體表現(xiàn)為隨著影像塊大小的增加，模型在獨立測試集要素提取指標(biāo)呈現(xiàn)先增后減的趨勢。

圖10 影像塊大小對模型性能影響 Fig.10 The performance of models with different input size

遙感影像的要素提取中，一般認(rèn)為像素的類別具有唯一性。然而，在DSTL數(shù)據(jù)集中，部分要素的矢量數(shù)據(jù)在空間上存在重疊，例如林木與耕地，林木與非瀝青公路等。這一部分重疊要素從影像中像元的光譜特征上難以分辨，但在邏輯上存在合理性?；赟oftmax分類器的SegNet雖然架構(gòu)簡單，訓(xùn)練方便，但其所分像素具備類別上的排他性。因此本文認(rèn)為針對每種要素建立像元的二值分類模型更加符合人類的主觀認(rèn)知和數(shù)據(jù)集特性。

圖11 本文方法各步驟的平均時間消耗/hFig.11 The average time consuming of our method/h

AVCNN的核心步驟是利用進化算法對卷積神經(jīng)網(wǎng)絡(luò)模型進行結(jié)構(gòu)及參數(shù)的調(diào)優(yōu)。進化算法的收斂效率低，卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時間長，都使得本次研究中AVCNN的時間成本異常高昂，在使用4塊24 GB顯存GPU的條件下，各步驟的平均時間消耗如圖11所示。事實上，現(xiàn)有關(guān)于網(wǎng)絡(luò)結(jié)構(gòu)自動化搜索的其他研究[28-31]都依賴于強大的硬件支撐。本文方法繼承了進化算法的可并行特性、卷積神經(jīng)網(wǎng)絡(luò)模型的可分布式特性。因此可以結(jié)合分布式計算技術(shù)縮短方法的執(zhí)行時間，提高方法的實用性。

3 結(jié) 論

針對現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)模型多為人工固定定義，在提取遙感影像中的目標(biāo)要素時表達能力受到固定結(jié)構(gòu)制約且自動化水平低的問題，提出了基于可變結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)要素提取方法。本文面向遙感影像要素提取場景定義類SegNet架構(gòu)，將其中的關(guān)鍵結(jié)構(gòu)作為變量，將模型的要素提取精度作為目標(biāo)函數(shù)，設(shè)計了適用于該優(yōu)化問題的遺傳算法以求解網(wǎng)絡(luò)結(jié)構(gòu)，最后依據(jù)求解后得到的網(wǎng)絡(luò)結(jié)構(gòu)提取遙感影像中的目標(biāo)要素。得出以下結(jié)論：①以“定義架構(gòu)而非定義結(jié)構(gòu)，求解結(jié)構(gòu)而非固定結(jié)構(gòu)”為核心思想的可變結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)模型設(shè)計思想是可行的；②本文設(shè)計的GA能夠作為求解具備一定容量的可變卷積神經(jīng)網(wǎng)絡(luò)中關(guān)鍵結(jié)構(gòu)的一種實用方法；③相比傳統(tǒng)固定結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)，可變結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)具備更加靈活的模型容量和更強的模型表達能力。在僅使用多光譜數(shù)據(jù)的條件下，基于可變結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)模型提取DSTL數(shù)據(jù)集中各要素的Jaccard指數(shù)均優(yōu)于基于Logistic、SVM和SegNet模型的方法。更重要的是，可變結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)將結(jié)構(gòu)定義提升到了架構(gòu)定義，減少了網(wǎng)絡(luò)設(shè)計過程對專家知識的依賴，是深度學(xué)習(xí)自動化方面的重要探索。然而，必須注意的是模型自優(yōu)化算法普遍需要高密度的計算資源，需要與分布式計算集群配合才能滿足一般的業(yè)務(wù)的時間需求。另外，本文方法仍然受限于卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)架構(gòu)和網(wǎng)絡(luò)深度，要素分類的絕對精度仍然有限。如何將整體架構(gòu)和網(wǎng)絡(luò)深度也納入網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化選擇的過程中是下一步研究的方向。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放