李大威
(中北大學電氣與控制工程學院,太原030051)
人工智能技術的飛速進步很大程度上是由于深度學習和神經網絡領域的突破,而且得益于大型數(shù)據(jù)庫的建立和更快的GPU硬件。基于深度學習思想的遙感圖像計算機自動分類識別的研究層出不窮,取得了眾多的研究成果[1-4]。深度學習通過多層訓練機制挖掘潛在于數(shù)據(jù)中的非線性特征,從海量訓練數(shù)據(jù)中自動學習全局特征,促進了特征提取模型從手工特征向學習特征的質變,典型的深度學習模型包括自編碼器[5]、深度置信網絡[6]、深度置信網絡[7]、堆棧自編碼[8]、深度卷積神經網絡(Deep Convolutional Neural Networks,DCNN)[9-10]和生成對抗網絡[11]等。
DCNN是特殊的深層神經網絡模型[12],Le等在卡內基梅隆大學機器人研究所所做的演講中特別強調了卷積神經網絡的重要性和應用,主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形,ILSVRC競賽采用的數(shù)據(jù)集為標準數(shù)據(jù),同一圖像屬于單一場景,且各圖像尺寸一致。遙感圖像識別領域的分類網絡也層出不窮[13]。但對于地物分布復雜的遙感圖像,傳統(tǒng)的CNN網絡結構除了結構參數(shù)的優(yōu)化調整,還面臨兩個亟待解決的問題:一是地面參考圖像的標記以及訓練樣本的選??;二是二維輸入數(shù)據(jù)的制備,尤其是后者。一般的處理方法可以包括等尺寸分塊和多尺度分割,但等尺寸分塊無法適應地物的復雜分布情況,塊內像元包含的地物種類勢必包含多種,如同混合像元,因此該塊所對應的確定類別標簽不能反映地面實況,無法準確評估網絡性能。同時,典型的多尺度分割,如四叉樹分割,能夠在一定程度上表達地物分布差異,但由此方法得到的輸入數(shù)據(jù)需要后續(xù)網絡結構設置,不能自適應調節(jié),加大了網絡復雜程度。而對于前者所針對的學習方法都是有監(jiān)督的,也就是說只有監(jiān)督學習方法才需要標記訓練樣本,這在大數(shù)據(jù)時代面臨著諸多困難,某些情況下甚至是不可實現(xiàn)的。挑戰(zhàn)在于,如何讓機器從未經處理的、無標簽無類別的數(shù)據(jù)中進行學習,比方說視頻和文字,即無監(jiān)督學習。在應用部署中也應充分利用遷移學習模型來加速實現(xiàn)模型構造[14-15]。
本文根據(jù)遙感圖像復雜地物分布特點,以遙感圖像原始譜段信息為基礎,提出基于上下文的像元擴展方法實現(xiàn)CNN二維圖像輸入的制備方法,研究光譜特征輸入的卷積神經網絡分類方法,同時以人工解譯結果作為地面參考評估計算機自動分類結果?;谏鲜鰯?shù)據(jù)制備的研究,以深度學習技術為工具研究CNN結構集成的遙感分類算法,通過高分遙感衛(wèi)星數(shù)據(jù)驗證方法的有效性。
卷積神經網絡是目前研究最火熱且成果頗豐的深度學習算法,其基本結構包括兩層,其一為特征提取層,每個神經元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,它與其他特征間的位置關系也隨之確定下來。其二是特征映射層,網絡的每個計算層由多個特征映射組成,每個特征映射是一個平面,平面上所有神經元的權值相等。特征映射結構采用影響函數(shù)核小的Sigmoid函數(shù)作為卷積網絡的激活函數(shù),使得特征映射具有位移不變性。此外,由于一個映射面上的神經元共享權值,減少了網絡自由參數(shù)的個數(shù)。卷積神經網絡中的每個卷積層都緊跟著一個用來求局部平均與二次提取的計算層,這種特有的兩次特征提取結構減小了特征分辨率。典型的數(shù)字識別卷積神經網絡是LeNet-5,網絡結構明確表達了卷積神經網絡的核心特點:卷積、池化和非線性。卷積神經網絡的訓練過程同堆棧自編碼等其他深度學習算法相似,同樣可以概括為前向傳播與后向傳播兩個階段,包括4個步驟。
步驟1自樣本集中隨機抽取第p個樣本(X,Yp),將X輸入網絡。
步驟2計算上述輸入相應的實際輸出Op。信息從輸入層經過逐級變換,傳送到輸出層。數(shù)學表達為
式中:Fi(·),i={1,2,…,n}表示網絡模型激活函數(shù),即不同層之間的非線性映射關系;Wi(·),i={1,2,…,n}表示網絡模型的權重矩陣;bi(·),i={1,2,…,n}表示網絡模型的偏置。
步驟3計算實際輸出Op與樣本參考輸出Yp的差值。
步驟4按極小化誤差的方法調整權重矩陣和偏置。
總之,DCNN的核心屬于端對端的學習過程,即輸入原始數(shù)據(jù),輸出為語義標簽,與其他傳統(tǒng)方法相比,這是最大的區(qū)別。Nogueira等[16]總結了卷積神經網絡的5個挑戰(zhàn),即復雜的調優(yōu)過程,黑箱的操作本質,高昂的計算成本,過擬合傾向以及模型開發(fā)的經驗依賴性。
本文采用的算法總體流程如圖1所示。
圖1 元胞卷積集成算法流程
本文設計的元胞卷積結構可以根據(jù)需求添加或刪除不符合的元胞,實現(xiàn)自適應集成操作。依據(jù)CNN的一般結構,并考慮應用,采用2層的卷積+池化的元胞結構,多個元胞集成多層的神經網絡結構如圖3所示,分別為輸入層、C-S元胞層、全連接層與輸出層。C為卷積層,S表示池化層,每個卷積特征圖像數(shù)量為3,卷積核大小為奇數(shù),如3×3,5×5或7×7,具體尺寸根據(jù)實際情況確定,本文選取5×5,卷積層激活函數(shù)設定為Relu。S為均值池化層,對應卷積層輸出的2×2
斑塊像元的平均值作為該池化層激活函數(shù)的輸入,其特征圖像數(shù)量分別與對應的卷積層一致。元胞層與輸出層之間采用全連接,輸出為類別標簽,維度與輸入圖像像元總數(shù)和類別數(shù)目相關。綜合考慮數(shù)據(jù)規(guī)模和計算成本,本文中元胞層的元胞數(shù)量K取5,L取3。
圖2 單特征輸入的元胞卷積網絡結構
CNN的數(shù)據(jù)輸入格式為二維圖像,能夠更有效地挖掘地物空間信息。假定x為待處理的像元,將其作為中心像元,考慮5×5鄰域,為了突出核心像元,并區(qū)別其與鄰域內各像元的空間關系,各自對應的權重存在差異,文中采用的鄰域權重如表1所示。
表1 各鄰域位置像元權重
擴展后斑塊各像元的灰度值
式中:V為斑塊內所有像元的灰度均值;P5×5為原輸入圖像斑塊;W5×5為權重核。卷積核尺寸為5×5,池化核大小為2,本文將原圖像的各像元擴展為22×22的斑塊作為二維卷積神經網絡的輸入圖像實現(xiàn)遙感圖像地物分類。
為驗證方法的效用和泛化能力,本文通過兩種不同傳感器的圖像進行實驗,成像系統(tǒng)分別為國產高分二號衛(wèi)星GF載荷和激光掃描測距LIDAR系統(tǒng)載荷。遙感圖像原始數(shù)據(jù)包括多光譜,如藍(B)、綠(G)、紅(R)和近紅外(NIR)以及全色圖像(PAN),分辨率分別為3.2 m和0.8 m。截取的實驗區(qū)域圖像首先經過圖像融合成0.8 m分辨率的多光譜圖像,幅面尺寸為1 024×1 024,地面目標包括玉米種植區(qū)與其他兩類。
首先分別以兩數(shù)據(jù)集可見光紅波段為實驗基礎數(shù)據(jù)仿真確定訓練過程中樣本數(shù)量,高分數(shù)據(jù)不同樣本和不同隱含層數(shù)統(tǒng)計總體精度和Kappa系數(shù)的分布情況如圖3所示。
圖3 GF數(shù)據(jù)訓練樣本自測性能
本文從訓練集自預測分類總體精度與運算成本兩方面綜合分析。由圖3曲線可見,隨著樣本的增加,算法性能得到一定提高,本文確定訓練樣本像元數(shù)量為30 000,進而執(zhí)行后續(xù)集成分類實驗。
根據(jù)試驗確定的樣本數(shù)量,分別以各特征為輸入獲得相應卷積神經網絡分類結果,基于投票規(guī)則實現(xiàn)決策級融合實驗仿真,獲得最終分類精度,如表2所示。在有限特征范圍內,隨著參與決策的特征數(shù)量增加,不僅總體精度得到了顯著提升,由單特征B時的0.665增加到了4特征時的0.892,而且表征預測與真值間一致性程度的Kappa系數(shù)也由0.547提升為0.855,增幅明顯,充分說明不同光譜波段的互補作用對提升分類性能具有重要的作用,與4層的BP神經網絡相比也有了10%以上的提升。
表2 不同數(shù)量的特征組平均分類精度比較
高分衛(wèi)星實驗數(shù)據(jù)的假彩色圖像如圖4(a)所示,場景為北方農村區(qū)域,項目背景為統(tǒng)計該地區(qū)玉米種植面積,因此參考真值包括兩類,即玉米種植區(qū)與其他,參考標準如圖4(b)所示,黑色區(qū)域為玉米種植區(qū),白色區(qū)域為其他類型。各特征組合的分類結果如圖4(c)~(f),可見隨著特征數(shù)量的增加,可視化結果表現(xiàn)越優(yōu)秀,具體指標如表2所示,如B波段的結果僅0.664 6,最后提升到4波段的0.891 8。Kappa一致性系數(shù)也有同樣的提升。為了更清晰地表現(xiàn)各類別的性能,表3和表4分別列出了本文算法和BP神經網絡分類結果的混淆矩陣。
表3 本文算法四光譜特征聯(lián)合分類的混淆矩陣
表4 BP神經網絡四光譜特征聯(lián)合分類的混淆矩陣
圖4 GF數(shù)據(jù)實驗結果可視化對比(黑色為玉米種植區(qū),白色為其他)
面向農業(yè)遙感領域農作物種植面積的估計任務,本文提出了一種基于像素擴展的多特征元胞卷積神經網絡塊Boosting集成的算法,以提取高分遙感衛(wèi)星圖像中的玉米種植區(qū)域。首先將一個像素擴展到一個適當尺寸的圖像塊塊作為輸入數(shù)據(jù)集,圖像塊包含了該核心像素信息及其鄰域信息,保證能夠挖掘出豐富的地表覆蓋信息,然后構建了相對簡單的元胞卷積網絡塊,搭建元胞層以提取深層次的圖像特征,提高分類器的性能。實驗結果表明,該方法達到了較高的精度。本文方法克服了常規(guī)卷積神網絡算法要求輸入數(shù)據(jù)具有規(guī)則的矩形尺寸特性,因此對源圖像中包含的眾多不規(guī)則的作物圖斑失效的弊端。文中僅對實現(xiàn)了元胞層的全連接構建方式,該方式對小型元胞效果較好,但隨著元胞基本單元結構復雜度的增加,計算量呈指數(shù)增長,因此下一步的工作擬開展探究更優(yōu)的連接方式,如跳連接方式等。