王華斌,韓 旻,王光輝,李 玉
1. 遼寧工程技術(shù)大學(xué)測繪與地理科學(xué)學(xué)院, 遼寧 阜新123000; 2. 自然資源部國土衛(wèi)星遙感應(yīng)用中心, 北京 100048
近年來,以卷積神經(jīng)網(wǎng)絡(luò)模型為典型代表的深度學(xué)習(xí)技術(shù)帶動了遙感影像要素提取研究的迅速發(fā)展[1-2]。相較于傳統(tǒng)的人工定義指數(shù)和淺層機器學(xué)習(xí)方法[3-6],卷積神經(jīng)網(wǎng)絡(luò)模型通過對海量圖像的深層特征建模實現(xiàn)了圖像信息的有效提取[7],在非樣本數(shù)據(jù)集上的泛化能力顯著增強。因此,基于卷積神經(jīng)網(wǎng)絡(luò)的遙感影像要素提取成為研究熱點。
基于卷積神經(jīng)網(wǎng)絡(luò)模型的遙感影像要素提取方法通常利用包含卷積操作的神經(jīng)網(wǎng)絡(luò)模型描述影像與要素的類屬關(guān)系,進而利用隨機梯度下降算法求解模型中的未知參數(shù)[8]。按照要素提取的粒度,利用卷積神經(jīng)網(wǎng)絡(luò)模型的要素提取研究主要分為3個層次[9]:圖像層的場景分類、像素層的影像分割和目標(biāo)層的實例分割。
文獻[10]提出的LeNet,將卷積操作引入神經(jīng)網(wǎng)絡(luò)模型,也是現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)模型的原型。該模型利用2次重復(fù)的卷積、下采樣和3次全連接對圖像的深層特征進行建模,在文本數(shù)字圖像識別領(lǐng)域得到了有效應(yīng)用。但由于卷積操作的計算代價過于高昂且缺乏明確的理論基礎(chǔ),該算法在提出后并未引起學(xué)界的關(guān)注。文獻[1]提出的AlexNet以絕對優(yōu)勢榮獲2012年ImageNet競賽的冠軍,加之低價的圖形處理單元(GPU)提供了充足的計算資源,引起研究人員對于卷積神經(jīng)網(wǎng)絡(luò)模型的廣泛關(guān)注。文獻[11]利用AlexNet提取多尺度遙感影像的深層卷積特征,并對其進行特征編碼以獲取全局表征,結(jié)合支持向量機(support vector machine,SVM)分類影像所屬的場景類別,是卷積神經(jīng)網(wǎng)絡(luò)模型在遙感領(lǐng)域的探索。文獻[12]提出了一種結(jié)合顯著性檢測與稀疏自編碼器的顯著要素稀疏特征非監(jiān)督提取算法,結(jié)合SVM準(zhǔn)確地區(qū)分出了遙感影像的場景類別。然而,以場景分類為目標(biāo)的要素提取結(jié)果受影像邊界的制約,無法顧及影像中非主要類別的要素。
文獻[13]提出的FCN(fully convolutional networks)是一種支持逐像素分類的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將分割粒度由圖像層細(xì)化到像素層。在該網(wǎng)絡(luò)結(jié)構(gòu)中,原本用于分類的卷積神經(jīng)網(wǎng)絡(luò)中的全連接層被替換為卷積層和轉(zhuǎn)置卷積層,并加入了多個跨越連接。由于網(wǎng)絡(luò)中間層全部為(轉(zhuǎn)置)卷積層,訓(xùn)練所需的數(shù)據(jù)量較大,訓(xùn)練時間長,分割邊緣不夠清晰。針對這一問題,文獻[14]引入數(shù)據(jù)增強技術(shù)并提出了U-Net。該網(wǎng)絡(luò)先通過多個卷積、池化層提取高度抽象的深層特征,再通過轉(zhuǎn)置卷積和卷積操作還原背景信息,同時利用帶有裁切的跨越連接細(xì)化分割邊緣。數(shù)據(jù)增強技術(shù)顯著減少了模型訓(xùn)練時所需的樣本數(shù)量,然而裁切和卷積操作降低了輸出標(biāo)記圖像的空間分辨率,模型訓(xùn)練緩慢的問題依然存在。文獻[15]將端到端的影像分割網(wǎng)絡(luò)抽象分解為編碼器、解碼器和像素分類層,并且引入了利用最大池化指數(shù)的上采樣層和批標(biāo)準(zhǔn)化層[16]定義SegNet。該網(wǎng)絡(luò)結(jié)構(gòu)通過邊緣補零的卷積操作統(tǒng)一了輸出標(biāo)記圖像與輸入圖像的空間分辨率,通過批標(biāo)準(zhǔn)化層縮短了訓(xùn)練所需的時間。但是該網(wǎng)絡(luò)利用Softmax層作為像素多類別分類器,其類別間的競爭影響了分類結(jié)果,平均像素分類精度仍然有待提高。
文獻[17]提出的R-CNN率先將候選區(qū)生成過程、卷積神經(jīng)網(wǎng)絡(luò)與支持向量機(SVM)結(jié)合用于目標(biāo)檢測問題。在該研究中,卷積神經(jīng)網(wǎng)絡(luò)模型主要負(fù)責(zé)候選區(qū)的特征提取,與其他過程耦合較為松散。其續(xù)作Fast R-CNN通過多任務(wù)損失(multi-task loss)建立了分類與包圍盒修正網(wǎng)絡(luò)[18]。在此基礎(chǔ)上,F(xiàn)aster R-CNN將候選區(qū)生成過程替換為候選區(qū)生成網(wǎng)絡(luò)[19]。至此,卷積神經(jīng)網(wǎng)絡(luò)模型完整地覆蓋了目標(biāo)檢測任務(wù)的各個階段。受Faster R-CNN啟發(fā),文獻[20]提出的Mask R-CNN在原有架構(gòu)的基礎(chǔ)上增添了目標(biāo)掩膜預(yù)測分支,從而將目標(biāo)的檢測、分類、分割納入到統(tǒng)一的卷積神經(jīng)網(wǎng)絡(luò)模型中。該網(wǎng)絡(luò)由多個部分構(gòu)成,第1部分是殘差連接網(wǎng)絡(luò)(ResNet50或101)與特征金字塔網(wǎng)絡(luò)(feature pyramid network)組成的特征提取網(wǎng)絡(luò),第2部分是候選區(qū)生成網(wǎng)絡(luò)(region proposal network),第3部分是感興趣區(qū)分類、位置修正及分割網(wǎng)絡(luò)。特征網(wǎng)絡(luò)首先提取圖像多個尺度的特征,并由候選區(qū)生成網(wǎng)絡(luò)直接在卷積特征層直接生成感興趣區(qū)域,最后由分類及分割網(wǎng)絡(luò)對感興趣區(qū)域中的目標(biāo)進行分類和分割。相關(guān)試驗表明該模型能夠十分準(zhǔn)確地標(biāo)注并分割出圖像中的地物。然而,目標(biāo)層的要素提取適用于獨立特殊地物[21](如房屋、機場等)的提取,而對成片的大面積要素(如耕地)的提取支持較弱。
在卷積神經(jīng)網(wǎng)絡(luò)模型中,網(wǎng)絡(luò)的結(jié)構(gòu)定義是關(guān)鍵。上述幾種方法雖然提取粒度不同,但普遍采用固定結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造要素提取模型,網(wǎng)絡(luò)的表達能力受到固定結(jié)構(gòu)的制約。另一方面,固定結(jié)構(gòu)網(wǎng)絡(luò)的設(shè)計完全由專家依據(jù)專業(yè)知識手動定義,自動化水平低。針對以上問題,本文以像素層為要素提取粒度,將卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)納入要素提取問題的數(shù)學(xué)模型中,提出了基于可變結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)的遙感影像要素提取方法。本文方法將卷積神經(jīng)網(wǎng)絡(luò)中的關(guān)鍵結(jié)構(gòu)作為變量,將形式化模型的要素提取指標(biāo)作為目標(biāo)函數(shù)。目標(biāo)函數(shù)的最優(yōu)解對應(yīng)為關(guān)鍵結(jié)構(gòu)最優(yōu)的卷積神經(jīng)網(wǎng)絡(luò)模型。由于該目標(biāo)函數(shù)對于網(wǎng)絡(luò)中關(guān)鍵結(jié)構(gòu)的導(dǎo)函數(shù)不可求取,采用遺傳算法搜索最佳關(guān)鍵結(jié)構(gòu)。對于遺傳算法列舉出的每個網(wǎng)絡(luò)模型,基于傳統(tǒng)交叉熵目標(biāo)函數(shù)和梯度下降算法求解其中的未知參數(shù),并以網(wǎng)絡(luò)的要素提取性能作為相對應(yīng)個體的適應(yīng)性度量。最后,通過試驗證明了本文方法的有效性。
1.1.1 數(shù)據(jù)變量
約定影像張量X=[xn,h,w,c]N×H×W×C,其中xn,h,w,c為灰度值,其下標(biāo)代表4個維度,n為影像索引,h為像素高度位置索引,w為像素寬度位置索引,c為像素光譜通道索引,Y=[yn,h,w,0]N×H×W×1是像素類屬目標(biāo)要素的布爾標(biāo)記。則對于某一類別的要素(如道路),已知數(shù)據(jù)集可表示為
D={(X,Y)|x∈UInt16,y∈Boolean}
(1)
式中,UInt16={0,1,…,216-1};Boolean={0,1}。
1.1.2 網(wǎng)絡(luò)結(jié)構(gòu)變量
考慮要素提取粒度為像素層,必須對卷積神經(jīng)網(wǎng)絡(luò)模型的架構(gòu)進行約束。本文選定編碼器解碼器網(wǎng)絡(luò)作為基本架構(gòu)。典型的編碼器、解碼器網(wǎng)絡(luò)包括U-Net和SegNet。SegNet可以描述為帶有跨越連接的編碼器和解碼器操作序列,其中編、解碼器中的不可變部分是網(wǎng)絡(luò)骨架,可變部分為關(guān)鍵結(jié)構(gòu),符合本文方法的應(yīng)用要求。同時,為了便于拓展,本文設(shè)計了類SegNet作為可變結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)架構(gòu)。一個簡單的具備兩個編碼單元和解碼單元的類SegNet如圖1所示。
圖1 具有兩個編碼單元和解碼單元的類SegNetFig.1 A SegNet with 2-units encoder and 2-units decoder
約定F代表類SegNet引入的全部操作序列,fij是其中的一個操作,下標(biāo)i為操作的順序索引,下標(biāo)j為操作的種類索引,θij為fij引入的變量,ξij為fij引入的常量??梢詫⒃摼W(wǎng)絡(luò)模型表達為
(2)
基于上述模型變量,形式化地定義要素分類指標(biāo)平均Jaccard指數(shù)為目標(biāo)函數(shù)
Jaccard(D,F′)=
(3)
式中
(4)
式中,σ為概率閾值,一般按照經(jīng)驗設(shè)定為0.5。本文方法按照目標(biāo)函數(shù)最大化準(zhǔn)則求取最優(yōu)F′,從而獲得關(guān)鍵結(jié)構(gòu)設(shè)計最優(yōu)的卷積神經(jīng)網(wǎng)絡(luò)模型。
由于F′代表類SegNet中可變部分全部操作的一組序列,在已知數(shù)據(jù)D的條件下最大化目標(biāo)函數(shù)問題可以轉(zhuǎn)化為對F′的組合優(yōu)化問題。遺傳算法(genetic algorithm,GA)[22]是一種模仿生物種群進化過程的隨機優(yōu)化算法。對數(shù)據(jù)規(guī)模較大的組合優(yōu)化問題,GA在求解非線性的函數(shù)優(yōu)化問題等方面有良好的適用性[23]。因此,本文基于GA框架求解對F′的組合優(yōu)化問題。利用GA求解編碼單元和解碼單元組合優(yōu)化問題的關(guān)鍵步驟在于可行解的編碼、種群初始化設(shè)定、個體適應(yīng)度的定義和遺傳算子的設(shè)計。
1.3.1 可行解的編碼
本文利用一個個體P代表一組可行解,由結(jié)構(gòu)染色體CA和超參數(shù)染色體CP組成
P=(CA,CP)
(5)
結(jié)構(gòu)染色體由一組結(jié)構(gòu)基因AUu組成,超參數(shù)染色體由一組超參數(shù)基因PUu組成,下標(biāo)u為基因位置索引,U為基因長度,取偶數(shù)
(6)
結(jié)構(gòu)基因是一組二進制數(shù),可通過映射字典對應(yīng)編碼單元或解碼單元中的操作類型,超參數(shù)基因是設(shè)置操作的超參數(shù),例如卷積核數(shù)量、卷積核大小和激活函數(shù)名稱等。為了對可行解的編碼過程進行更加清晰的闡述,舉例如下。
表1列出基因-結(jié)構(gòu)單元的映射字典。根據(jù)表1給出數(shù)據(jù),當(dāng)取U=6,類SegNet編碼過程可得如圖2所示網(wǎng)絡(luò)結(jié)構(gòu)。
表1 基因-結(jié)構(gòu)單元映射字典
圖2 類SegNet的個體編碼過程Fig.2 The code of individual and corresponding SegNet
在圖2右側(cè)所示的類SegNet中,第1個編碼單元的定義是先卷積層后激活層,其中卷積操作的卷積核數(shù)為32,卷積核大小為(3,3),激活操作的激活函數(shù)為elu(文獻[24]),對應(yīng)到結(jié)構(gòu)染色體中第1個結(jié)構(gòu)基因為00,超參數(shù)染色體中第1個超參數(shù)基因為((32,(3,3)),(elu)),其余單元可依次類推,最終形成左側(cè)的個體。
1.3.2 種群初始化設(shè)定
設(shè)Gv表示第v世代所有個體的集合
(7)
(8)
(9)
式中
(10)
1.3.3 個體適應(yīng)度定義
考慮到GA中的個體數(shù)量較多,為降低估計個體適應(yīng)度所需的計算量,本文采用數(shù)據(jù)抽樣和不充分訓(xùn)練的策略計算個體適應(yīng)度。
數(shù)據(jù)抽樣策略假定已知數(shù)據(jù)集D是均勻的,對其抽樣N′張影像和標(biāo)注,形成抽樣數(shù)據(jù)集D′?D,
(11)
log(1-Z(I))]
(12)
在經(jīng)驗損失函數(shù)最小化準(zhǔn)則下,利用自適應(yīng)低階矩的隨機一階梯度下降算法[25]。在固定數(shù)據(jù)遍歷次數(shù)和附加提前停止的條件下,求解模型中未知參數(shù)的數(shù)值解。由此,可實現(xiàn)以較小的計算成本初步估計網(wǎng)絡(luò)的表達能力。
1.3.4 遺傳算子的設(shè)計
(1) 隨機聯(lián)賽選擇算子。對當(dāng)前世代G,隨機選取K個個體作為參加聯(lián)賽的個體集合GSt,以t表示聯(lián)賽次數(shù)索引
GSt={Pk}?Gk=1,…,K
(13)
將每次聯(lián)賽中適應(yīng)度最優(yōu)的個體保留,組成撫育下一種群的候選GP
GP={Pt|max(GSt),t=1,…,T}
(14)
(2) 單點交叉算子。將選擇出個體按奇偶順序兩兩配對,分別作為父代和母代
Pa,Pb∈GP
(15)
式中,a=1,3,…,T-1;b=2,4,…,T。以一定概率αco交換父母代染色體中的部分基因,即
(16)
(17)
(3) 基本位變異算子。染色體交叉后種群中的每個個體以一定概率αmt發(fā)生基本位的變異。假設(shè)Pmt為概率判定要發(fā)生基本位變異的個體
Pmt∈GE
(18)
對其結(jié)構(gòu)染色體CA(mt)中每個基因按一定概率αfp重新初始化。假設(shè)AUγ(mt)為概率判定要發(fā)生變異的結(jié)構(gòu)基因
(19)
則重新初始化后結(jié)構(gòu)基因
(20)
由于AUγ(mt)發(fā)生變化,超參數(shù)染色體CP(mt)相同位置的超參數(shù)基因PUγ(mt)也必須相應(yīng)改變。將AUγ(mt′)代入式(9),將PUγ(mt)重新初始化為PUγ(mt′)。由此得到CA(mt′)和CP(mt′),合并后表示變異后個體Pmt′
Pmt′=(CA(mt′),CP(mt′))
(21)
1.3.5 方法流程
綜合以上概念,本文方法分解為3個部分,第1部分為架構(gòu)定義,第2部分為結(jié)構(gòu)優(yōu)化,第3部分為固定結(jié)構(gòu)CNN的要素提取。流程如圖3所示,描述如下:
步驟1:定義參數(shù)。包括網(wǎng)絡(luò)層范圍參數(shù)、基因結(jié)構(gòu)字典設(shè)計、單元數(shù)量和遺傳參數(shù)等。
步驟2:初始化種群。設(shè)定隨機初始化種群個體的染色體。
步驟3:估計每個個體的適應(yīng)度。將種群中每一個個體映射為類SegNet卷積神經(jīng)網(wǎng)絡(luò),采用數(shù)據(jù)抽樣和不充分訓(xùn)練的策略求解模型未知參數(shù),計算目標(biāo)函數(shù)值作為個體適應(yīng)度。
步驟4:進化終止條件判定。判斷最佳個體適應(yīng)度是否達到預(yù)期值或達到限制的最大進化世代數(shù)。若滿足停止條件則轉(zhuǎn)向步驟9,否則進入步驟5。
步驟5:選擇運算。將隨機聯(lián)賽選擇算子作用于種群。
步驟6:交叉運算。將單點交叉算子作用于種群。
步驟7:變異運算。將基本位變異算子作用于種群,由此得到下一代種群。
步驟8:返回步驟3。
步驟9:報告最優(yōu)個體。最優(yōu)個體映射的類SegNet卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)即為求解得到的決策函數(shù)族,在取消數(shù)據(jù)抽樣和不充分訓(xùn)練策略的條件下求解模型未知參數(shù)。
步驟10:利用求取的模型對遙感影像中的要素進行提取。本文這里采用方法在獨立測試集上的指標(biāo)進行效果評估。
圖3 本文方法流程Fig.3 The flowchart of the proposed method
為了驗證本文方法的有效性,研究基于DSTL競賽數(shù)據(jù)集中的遙感影像和10種要素標(biāo)記,利用本地交叉驗證[26]的策略評估本文方法的可靠性。
DSTL數(shù)據(jù)集是以World-View3衛(wèi)星所拍攝的遙感影像為基礎(chǔ)制成的要素標(biāo)記數(shù)據(jù)集,提供了57個區(qū)域的遙感影像,其中25個區(qū)域包含居民地、瀝青道路、林木與河流等10種要素標(biāo)記。每個區(qū)域提供空間分辨率為31 cm的融合后RGB遙感影像、空間分辨率為31 cm的全色遙感影像、空間分辨率為1.24 m的多光譜8波段遙感影像及空間分辨率為7.5 m的短波8波段遙感影像。
數(shù)據(jù)準(zhǔn)備過程如下:①將25張影像及其對應(yīng)的地物要素類別圖劃分為17張模型訓(xùn)練集與8張獨立測試集;②在模型訓(xùn)練集中,對每種地物要素生成與8波段多光譜影像長寬相同的目標(biāo)要素標(biāo)記二值圖像;③將模型訓(xùn)練集中8波段多光譜影像與目標(biāo)要素標(biāo)記二值圖像裁切成大小相同的圖塊,影像圖塊與其對應(yīng)的二值標(biāo)記圖塊稱為一組;④對所有的組抽樣32%作為抽樣集,其余作為余樣。表2為各組數(shù)據(jù)集中的組數(shù)量。
表2 數(shù)據(jù)準(zhǔn)備分組
試驗使用表3所示的基因-結(jié)構(gòu)單元映射表,不充分訓(xùn)練的具體設(shè)定是固定數(shù)據(jù)遍歷次數(shù)為70,批張量大小設(shè)定為2。為了避免計算時間過長,在試驗中設(shè)定最大進化數(shù)V為200代。卷積核數(shù)量候選集filters_ud為{3,…,16},卷積核窗口大小kernel_size為{1,2,3},卷積核數(shù)量隨深度變化系數(shù)filters_scale為{2,3,4,5},激活函數(shù)候選集{'elu','selu','relu','tanh','softplus','softsign','sigmoid','hard_sigmoid'},批標(biāo)準(zhǔn)化動量集{0.8,0.81,…,0.99},失活率集{0.5,0.51,…,0.99},種群規(guī)模O為20,聯(lián)賽規(guī)模K為3,染色體交叉概率αco為0.5,基因變異概率αmt為0.02。卷積神經(jīng)網(wǎng)絡(luò)模型中權(quán)重求解的收斂條件為損失小于0.001或超過2000次數(shù)據(jù)遍歷。
表3 基因-結(jié)構(gòu)單元映射字典
試驗的硬件環(huán)境為Intel(R) Core(TM) i7-7700 HQ 2.80 GHz,NVIDIA Quadro M1200和Intel(R) Xeon(R) E5-2630U3 2.40 GHz,4塊NVIDIA Tesla M40,軟件環(huán)境為Python 3.5.2,主要依賴庫為Tensorflow1.4.0,Keras2.0.8。
2.2.1 遺傳過程
利用可變結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)模型對10種要素提取過程建模并進行試驗,圖4反映了結(jié)構(gòu)優(yōu)化過程中種群適應(yīng)度與進化世代數(shù)之間的關(guān)系。其中,種群適應(yīng)度分布由小提琴寬度表示,種群適應(yīng)度上下限由小提琴上下頂點表示。對進化過程中種群適應(yīng)度絕對值的觀察顯示,長度為6的類SegNet架構(gòu)對不同要素的提取表現(xiàn)不同,體現(xiàn)為耕地要素提取網(wǎng)絡(luò)的絕對提取效果最高,非瀝青公路要素提取網(wǎng)絡(luò)次之,之后依次是河流、瀝青公路、林木、湖泊、建筑物,小型車輛、大型車輛。
圖4 10種要素網(wǎng)絡(luò)模型結(jié)構(gòu)優(yōu)化遺傳過程小提琴圖Fig.4 The violin figures of evolution of CNN architectures for ten features
從種群進化過程前后個體適應(yīng)度的相對變化來看,多數(shù)要素提取網(wǎng)絡(luò)的表達能力在進化過程后都得到了一定程度的優(yōu)化(表4)。分析表4數(shù)據(jù)可以看出,個體適應(yīng)度優(yōu)化的幅度與要素種類相關(guān),例如提取河流、瀝青公路、非瀝青公路的指標(biāo)優(yōu)化幅度在0.15至0.35之間,而提取建筑物、混雜附屬物、林木、耕地、湖泊的指標(biāo)優(yōu)化幅度均在0.10以內(nèi),大型車輛、小型車輛的提取指標(biāo)在優(yōu)化前后并未有所提升。由此得出結(jié)論:在長度為6的類SegNet架構(gòu)約束下,網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化過程對不同要素的適用性不同,對非瀝青公路、瀝青公路、河流的要素提取網(wǎng)絡(luò)的結(jié)構(gòu)優(yōu)化較為有效,而對建筑物、混雜附屬物、林木、耕地的網(wǎng)絡(luò)優(yōu)化效果有限。對于大型車輛和小型車輛而言,提取模型的絕對指標(biāo)幾乎為0,并且優(yōu)化結(jié)構(gòu)也不能獲得任何提升,因此可以判斷網(wǎng)絡(luò)結(jié)構(gòu)并非提取該類特殊要素的制約條件。
2.2.2 最終網(wǎng)絡(luò)
取結(jié)構(gòu)優(yōu)化過程中末代網(wǎng)絡(luò)的最優(yōu)個體,并映射為所對應(yīng)的最終網(wǎng)絡(luò),表5為10種要素的可變結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)的最終結(jié)構(gòu)。B、C、A分別表示批標(biāo)準(zhǔn)化層、卷積層、激活層,后面附加的是該層所需的超參數(shù)。(C-卷積核數(shù)量,卷積窗口大小,B-動量系數(shù),A-激活函數(shù))。
表4 結(jié)構(gòu)優(yōu)化前后適應(yīng)度變化
Tab.4 The fitness changes caused by architectureoptimization
要素初代最優(yōu)個體末代最優(yōu)個體優(yōu)化幅度建筑物0.5750.6380.063混雜附屬物0.0570.1320.075瀝青公路0.4210.6530.232非瀝青公路0.5220.8800.358林木0.5750.6510.077耕地0.8250.9250.099河流0.6580.8050.147湖泊0.6010.6480.048大型車輛0.0000.0020.002小型車輛0.0010.0070.006
表5 10種要素提取網(wǎng)絡(luò)模型結(jié)構(gòu)
圖5(a)為對多種要素提取網(wǎng)絡(luò)模型中激活操作的函數(shù)統(tǒng)計頻數(shù)。分析發(fā)現(xiàn)relu函數(shù)的出現(xiàn)頻數(shù)顯著高于其他函數(shù),tanh次之,最少出現(xiàn)的是softsign。說明激活函數(shù)的選擇上relu函數(shù)非線性激活的處理效率高于其他函數(shù),通用性強于其他函數(shù)。
建筑物、瀝青公路、非瀝青公路、林木、河流等要素的提取網(wǎng)絡(luò)中,卷積核數(shù)量服從隨深度遞增的設(shè)定,圖5(b)的折線圖呈現(xiàn)倒U形;而耕地、湖泊、混雜附屬物、小型車輛、大型車輛要素提取網(wǎng)絡(luò)中,卷積核數(shù)量并未服從隨深度遞增的設(shè)定。說明卷積核數(shù)量的設(shè)定受要素種類影響,并非完全服從隨深度遞增的規(guī)律。對卷積核窗口大小的統(tǒng)計顯示寬度為3的卷積窗口頻數(shù)較高,為22次;寬度為5的窗口出現(xiàn)了18次;寬度為4的出現(xiàn)了10次。說明寬度為3的卷積窗口較寬度為4的卷積窗口通用性更強。圖5(c)中批標(biāo)準(zhǔn)化操作中動量系數(shù)按要素種類不同呈現(xiàn)3種分布:混雜附屬物和瀝青公路的要素提取網(wǎng)絡(luò)中,動量系數(shù)呈現(xiàn)W形,非瀝青公路、耕地、河流、湖泊的要素提取網(wǎng)絡(luò)中,動量系數(shù)呈現(xiàn)M形,其他要素提取網(wǎng)絡(luò)中,動量系數(shù)在編碼器階段變化幅度不大,而在解碼階段劇烈變化,呈現(xiàn)倒扣的勺狀。Dropout處理出現(xiàn)在混雜附屬物、河流、大型車輛、小型車輛4種要素提取網(wǎng)絡(luò)中。說明模型優(yōu)化過程對多光譜特征較為復(fù)雜的要素會利用Dropout的模型平均作用來嘗試提高其提取效果。
圖5 參數(shù)分析統(tǒng)計Fig.5 The statistics of parameters analysis
2.2.3 提取效果
圖6為獨立測試集上一張影像按本文方法提取要素的效果。其中要素真值與預(yù)測值的真正(true positive)部分以綠色標(biāo)記,假負(fù)(false negative)部分以紅色標(biāo)記,假正(false positive)部分以黃色標(biāo)記,真負(fù)(true negative)部分以白色標(biāo)記。
通過視覺觀察,對于測試影像中的林木、非瀝青公路、耕地、建筑物、瀝青公路、湖泊要素,模型提取出了大部分目標(biāo)區(qū)域,說明模型具備一定的分類泛化能力。由于河流要素未出現(xiàn)在示例圖像中,模型的預(yù)測結(jié)果均為假正,說明對負(fù)樣本的處理是模型實用化的關(guān)鍵。另一方面,模型對于混雜附屬物、大型車輛、小型車輛要素的提取效果并不理想。究其原因是混雜附屬物包含了多種建筑物附屬結(jié)構(gòu),其像元光譜十分復(fù)雜導(dǎo)致模型難以區(qū)分。另外,多光譜影像的分辨率為1.24 m,這3類要素在影像上的圖斑尺寸過小,客觀上也增加了提取的難度。
將本文AVCNN方法與Logistic、SVM、SegNet模型進行對比,評價指標(biāo)選取模型在獨立測試集合(8張影像)上的Jaccard指數(shù)。必須說明的是,方法對要素負(fù)樣本的正確提取將使得Jaccard指數(shù)無意義,在統(tǒng)計時被忽略,但對要素負(fù)樣本的錯誤提取仍會被統(tǒng)計。這種統(tǒng)計方式會極大地降低無法對負(fù)樣本做完全正確預(yù)測的模型的評分,本文將其稱為Jaccard指數(shù)的負(fù)樣本抑制統(tǒng)計效應(yīng)。圖7為評價指標(biāo)分布箱形圖,表6為各提取方法在測試集合上的平均指標(biāo)。
圖7反映出AVCNN對多數(shù)要素的提取效果優(yōu)于其他3種方法。在獨立測試集中,僅有1張影像包含河流要素,Logistic模型通過負(fù)樣本上的正確預(yù)測規(guī)避了平均Jaccard指數(shù)在統(tǒng)計上的負(fù)樣本抑制效應(yīng),而本文方法雖然在正樣本上的表現(xiàn)與Logistic模型相當(dāng)(圖7(d)中河流要素的孤立點),但在負(fù)樣本上產(chǎn)生了少量的錯誤預(yù)測,導(dǎo)致在統(tǒng)計的平均Jaccard指數(shù)上顯著低于Logistic模型(表6)。
圖7 4種方法在獨立測試集Jaccard指數(shù)箱形圖Fig.7 The box plots of Jaccard indexes of four methods on test set
表6 不同方法提取目標(biāo)要素的Jaccard指數(shù)
Tab.6 The Jaccard index of different methods for target features
要素名稱提取方法LogisticSVM[27]SegNet[15]AVCNN建筑物0.050.000.120.22混雜附屬物0.000.000.000.04瀝青公路0.030.010.000.19非瀝青公路0.020.000.010.49林木0.200.000.050.52耕地0.100.120.100.26河流0.180.060.000.02湖泊0.010.000.020.09大型車輛0.000.000.000.00小型車輛0.000.000.000.00
圖8為遺傳過程中多個網(wǎng)絡(luò)模型對非瀝青道路要素提取的對比??梢钥闯?,第50、100、150代以及最終輸出網(wǎng)絡(luò)經(jīng)充分訓(xùn)練在測試集的提取結(jié)果中,假負(fù)部分(紅色部分)逐漸減少,真正部分(綠色部分)逐漸增多,提取效果逐漸提升,說明利用不充分訓(xùn)練估計模型表達力的策略是有效的。
將本文方法得出各要素最終提取網(wǎng)絡(luò)結(jié)構(gòu)在要素間交叉地執(zhí)行訓(xùn)練和提取,得到圖9所示的適配性矩陣(縱坐標(biāo)代表網(wǎng)絡(luò)權(quán)重訓(xùn)練所基于的要素索引,橫坐標(biāo)代表最終提取網(wǎng)絡(luò)結(jié)構(gòu)所基于的要素索引,坐標(biāo)值為模型在獨立測試集上的平均Jaccard指數(shù))。由圖中可以看出,遺傳算法得到的網(wǎng)絡(luò)結(jié)構(gòu)與要素間的適配性與要素類型有關(guān):對非瀝青公路、林木兩種要素,遺傳算法得到的網(wǎng)絡(luò)結(jié)構(gòu)對其要素本身的提取是最優(yōu)的,其中非瀝青公路要素的網(wǎng)絡(luò)與其他網(wǎng)絡(luò)差異較為明顯;對于建筑物、混雜附屬結(jié)構(gòu)、瀝青公路,耕地、河流、湖泊、小型車輛等7種要素,遺傳算法得到的網(wǎng)絡(luò)結(jié)構(gòu)對其要素本身的提取效果并非最優(yōu),但也具備相當(dāng)?shù)奶崛∧芰Γf明本文方法表現(xiàn)出相當(dāng)大的隨機性,但能夠作為求解具有一定容量的網(wǎng)絡(luò)結(jié)構(gòu)的方法;對于大型車輛,所有要素提取網(wǎng)絡(luò)都未獲得有效的提取效果,說明本文方法的適用性受限于數(shù)據(jù)條件和要素特點。綜上,遺傳算法對一種要素求解得到的網(wǎng)絡(luò)結(jié)構(gòu)對其他要素也具有一定的適應(yīng)性,當(dāng)目標(biāo)地物發(fā)生變化時,重新利用遺傳算法得到的新的網(wǎng)絡(luò)可以獲得具備一定容量的模型結(jié)構(gòu),但仍受要素特點與數(shù)據(jù)條件的限制。
圖6 目標(biāo)要素提取結(jié)果Fig.6 The extraction results of target surface features
圖8 遺傳過程中類SegNet的性能改善Fig.8 The performance improvement of AVCNN in evolution
圖9 各要素與解網(wǎng)絡(luò)間的適配性矩陣Fig.9 The adaptive array of AVCNN of different features
以非瀝青道路為例,調(diào)整輸入模型的影像塊大小并對網(wǎng)絡(luò)結(jié)構(gòu)進行相應(yīng)重構(gòu),得到影像塊大小對最終網(wǎng)絡(luò)結(jié)構(gòu)提取效果的影響(圖10)。從圖中可以看出,輸入影像塊大小會影響網(wǎng)絡(luò)模型的預(yù)測效果。具體表現(xiàn)為隨著影像塊大小的增加,模型在獨立測試集要素提取指標(biāo)呈現(xiàn)先增后減的趨勢。
圖10 影像塊大小對模型性能影響 Fig.10 The performance of models with different input size
遙感影像的要素提取中,一般認(rèn)為像素的類別具有唯一性。然而,在DSTL數(shù)據(jù)集中,部分要素的矢量數(shù)據(jù)在空間上存在重疊,例如林木與耕地,林木與非瀝青公路等。這一部分重疊要素從影像中像元的光譜特征上難以分辨,但在邏輯上存在合理性?;赟oftmax分類器的SegNet雖然架構(gòu)簡單,訓(xùn)練方便,但其所分像素具備類別上的排他性。因此本文認(rèn)為針對每種要素建立像元的二值分類模型更加符合人類的主觀認(rèn)知和數(shù)據(jù)集特性。
圖11 本文方法各步驟的平均時間消耗/hFig.11 The average time consuming of our method/h
AVCNN的核心步驟是利用進化算法對卷積神經(jīng)網(wǎng)絡(luò)模型進行結(jié)構(gòu)及參數(shù)的調(diào)優(yōu)。進化算法的收斂效率低,卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時間長,都使得本次研究中AVCNN的時間成本異常高昂,在使用4塊24 GB顯存GPU的條件下,各步驟的平均時間消耗如圖11所示。事實上,現(xiàn)有關(guān)于網(wǎng)絡(luò)結(jié)構(gòu)自動化搜索的其他研究[28-31]都依賴于強大的硬件支撐。本文方法繼承了進化算法的可并行特性、卷積神經(jīng)網(wǎng)絡(luò)模型的可分布式特性。因此可以結(jié)合分布式計算技術(shù)縮短方法的執(zhí)行時間,提高方法的實用性。
針對現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)模型多為人工固定定義,在提取遙感影像中的目標(biāo)要素時表達能力受到固定結(jié)構(gòu)制約且自動化水平低的問題,提出了基于可變結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)要素提取方法。本文面向遙感影像要素提取場景定義類SegNet架構(gòu),將其中的關(guān)鍵結(jié)構(gòu)作為變量,將模型的要素提取精度作為目標(biāo)函數(shù),設(shè)計了適用于該優(yōu)化問題的遺傳算法以求解網(wǎng)絡(luò)結(jié)構(gòu),最后依據(jù)求解后得到的網(wǎng)絡(luò)結(jié)構(gòu)提取遙感影像中的目標(biāo)要素。得出以下結(jié)論:①以“定義架構(gòu)而非定義結(jié)構(gòu),求解結(jié)構(gòu)而非固定結(jié)構(gòu)”為核心思想的可變結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)模型設(shè)計思想是可行的;②本文設(shè)計的GA能夠作為求解具備一定容量的可變卷積神經(jīng)網(wǎng)絡(luò)中關(guān)鍵結(jié)構(gòu)的一種實用方法;③相比傳統(tǒng)固定結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò),可變結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)具備更加靈活的模型容量和更強的模型表達能力。在僅使用多光譜數(shù)據(jù)的條件下,基于可變結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)模型提取DSTL數(shù)據(jù)集中各要素的Jaccard指數(shù)均優(yōu)于基于Logistic、SVM和SegNet模型的方法。更重要的是,可變結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)將結(jié)構(gòu)定義提升到了架構(gòu)定義,減少了網(wǎng)絡(luò)設(shè)計過程對專家知識的依賴,是深度學(xué)習(xí)自動化方面的重要探索。然而,必須注意的是模型自優(yōu)化算法普遍需要高密度的計算資源,需要與分布式計算集群配合才能滿足一般的業(yè)務(wù)的時間需求。另外,本文方法仍然受限于卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)架構(gòu)和網(wǎng)絡(luò)深度,要素分類的絕對精度仍然有限。如何將整體架構(gòu)和網(wǎng)絡(luò)深度也納入網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化選擇的過程中是下一步研究的方向。