李大威
(中北大學(xué)電氣與控制工程學(xué)院,太原030051)
人工智能技術(shù)的飛速進(jìn)步很大程度上是由于深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)領(lǐng)域的突破,而且得益于大型數(shù)據(jù)庫(kù)的建立和更快的GPU硬件。基于深度學(xué)習(xí)思想的遙感圖像計(jì)算機(jī)自動(dòng)分類識(shí)別的研究層出不窮,取得了眾多的研究成果[1-4]。深度學(xué)習(xí)通過(guò)多層訓(xùn)練機(jī)制挖掘潛在于數(shù)據(jù)中的非線性特征,從海量訓(xùn)練數(shù)據(jù)中自動(dòng)學(xué)習(xí)全局特征,促進(jìn)了特征提取模型從手工特征向?qū)W習(xí)特征的質(zhì)變,典型的深度學(xué)習(xí)模型包括自編碼器[5]、深度置信網(wǎng)絡(luò)[6]、深度置信網(wǎng)絡(luò)[7]、堆棧自編碼[8]、深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Networks,DCNN)[9-10]和生成對(duì)抗網(wǎng)絡(luò)[11]等。
DCNN是特殊的深層神經(jīng)網(wǎng)絡(luò)模型[12],Le等在卡內(nèi)基梅隆大學(xué)機(jī)器人研究所所做的演講中特別強(qiáng)調(diào)了卷積神經(jīng)網(wǎng)絡(luò)的重要性和應(yīng)用,主要用來(lái)識(shí)別位移、縮放及其他形式扭曲不變性的二維圖形,ILSVRC競(jìng)賽采用的數(shù)據(jù)集為標(biāo)準(zhǔn)數(shù)據(jù),同一圖像屬于單一場(chǎng)景,且各圖像尺寸一致。遙感圖像識(shí)別領(lǐng)域的分類網(wǎng)絡(luò)也層出不窮[13]。但對(duì)于地物分布復(fù)雜的遙感圖像,傳統(tǒng)的CNN網(wǎng)絡(luò)結(jié)構(gòu)除了結(jié)構(gòu)參數(shù)的優(yōu)化調(diào)整,還面臨兩個(gè)亟待解決的問(wèn)題:一是地面參考圖像的標(biāo)記以及訓(xùn)練樣本的選取;二是二維輸入數(shù)據(jù)的制備,尤其是后者。一般的處理方法可以包括等尺寸分塊和多尺度分割,但等尺寸分塊無(wú)法適應(yīng)地物的復(fù)雜分布情況,塊內(nèi)像元包含的地物種類勢(shì)必包含多種,如同混合像元,因此該塊所對(duì)應(yīng)的確定類別標(biāo)簽不能反映地面實(shí)況,無(wú)法準(zhǔn)確評(píng)估網(wǎng)絡(luò)性能。同時(shí),典型的多尺度分割,如四叉樹分割,能夠在一定程度上表達(dá)地物分布差異,但由此方法得到的輸入數(shù)據(jù)需要后續(xù)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置,不能自適應(yīng)調(diào)節(jié),加大了網(wǎng)絡(luò)復(fù)雜程度。而對(duì)于前者所針對(duì)的學(xué)習(xí)方法都是有監(jiān)督的,也就是說(shuō)只有監(jiān)督學(xué)習(xí)方法才需要標(biāo)記訓(xùn)練樣本,這在大數(shù)據(jù)時(shí)代面臨著諸多困難,某些情況下甚至是不可實(shí)現(xiàn)的。挑戰(zhàn)在于,如何讓機(jī)器從未經(jīng)處理的、無(wú)標(biāo)簽無(wú)類別的數(shù)據(jù)中進(jìn)行學(xué)習(xí),比方說(shuō)視頻和文字,即無(wú)監(jiān)督學(xué)習(xí)。在應(yīng)用部署中也應(yīng)充分利用遷移學(xué)習(xí)模型來(lái)加速實(shí)現(xiàn)模型構(gòu)造[14-15]。
本文根據(jù)遙感圖像復(fù)雜地物分布特點(diǎn),以遙感圖像原始譜段信息為基礎(chǔ),提出基于上下文的像元擴(kuò)展方法實(shí)現(xiàn)CNN二維圖像輸入的制備方法,研究光譜特征輸入的卷積神經(jīng)網(wǎng)絡(luò)分類方法,同時(shí)以人工解譯結(jié)果作為地面參考評(píng)估計(jì)算機(jī)自動(dòng)分類結(jié)果?;谏鲜鰯?shù)據(jù)制備的研究,以深度學(xué)習(xí)技術(shù)為工具研究CNN結(jié)構(gòu)集成的遙感分類算法,通過(guò)高分遙感衛(wèi)星數(shù)據(jù)驗(yàn)證方法的有效性。
卷積神經(jīng)網(wǎng)絡(luò)是目前研究最火熱且成果頗豐的深度學(xué)習(xí)算法,其基本結(jié)構(gòu)包括兩層,其一為特征提取層,每個(gè)神經(jīng)元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,它與其他特征間的位置關(guān)系也隨之確定下來(lái)。其二是特征映射層,網(wǎng)絡(luò)的每個(gè)計(jì)算層由多個(gè)特征映射組成,每個(gè)特征映射是一個(gè)平面,平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)采用影響函數(shù)核小的Sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性。此外,由于一個(gè)映射面上的神經(jīng)元共享權(quán)值,減少了網(wǎng)絡(luò)自由參數(shù)的個(gè)數(shù)。卷積神經(jīng)網(wǎng)絡(luò)中的每個(gè)卷積層都緊跟著一個(gè)用來(lái)求局部平均與二次提取的計(jì)算層,這種特有的兩次特征提取結(jié)構(gòu)減小了特征分辨率。典型的數(shù)字識(shí)別卷積神經(jīng)網(wǎng)絡(luò)是LeNet-5,網(wǎng)絡(luò)結(jié)構(gòu)明確表達(dá)了卷積神經(jīng)網(wǎng)絡(luò)的核心特點(diǎn):卷積、池化和非線性。卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程同堆棧自編碼等其他深度學(xué)習(xí)算法相似,同樣可以概括為前向傳播與后向傳播兩個(gè)階段,包括4個(gè)步驟。
步驟1自樣本集中隨機(jī)抽取第p個(gè)樣本(X,Yp),將X輸入網(wǎng)絡(luò)。
步驟2計(jì)算上述輸入相應(yīng)的實(shí)際輸出Op。信息從輸入層經(jīng)過(guò)逐級(jí)變換,傳送到輸出層。數(shù)學(xué)表達(dá)為
式中:Fi(·),i={1,2,…,n}表示網(wǎng)絡(luò)模型激活函數(shù),即不同層之間的非線性映射關(guān)系;Wi(·),i={1,2,…,n}表示網(wǎng)絡(luò)模型的權(quán)重矩陣;bi(·),i={1,2,…,n}表示網(wǎng)絡(luò)模型的偏置。
步驟3計(jì)算實(shí)際輸出Op與樣本參考輸出Yp的差值。
步驟4按極小化誤差的方法調(diào)整權(quán)重矩陣和偏置。
總之,DCNN的核心屬于端對(duì)端的學(xué)習(xí)過(guò)程,即輸入原始數(shù)據(jù),輸出為語(yǔ)義標(biāo)簽,與其他傳統(tǒng)方法相比,這是最大的區(qū)別。Nogueira等[16]總結(jié)了卷積神經(jīng)網(wǎng)絡(luò)的5個(gè)挑戰(zhàn),即復(fù)雜的調(diào)優(yōu)過(guò)程,黑箱的操作本質(zhì),高昂的計(jì)算成本,過(guò)擬合傾向以及模型開發(fā)的經(jīng)驗(yàn)依賴性。
本文采用的算法總體流程如圖1所示。
圖1 元胞卷積集成算法流程
本文設(shè)計(jì)的元胞卷積結(jié)構(gòu)可以根據(jù)需求添加或刪除不符合的元胞,實(shí)現(xiàn)自適應(yīng)集成操作。依據(jù)CNN的一般結(jié)構(gòu),并考慮應(yīng)用,采用2層的卷積+池化的元胞結(jié)構(gòu),多個(gè)元胞集成多層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,分別為輸入層、C-S元胞層、全連接層與輸出層。C為卷積層,S表示池化層,每個(gè)卷積特征圖像數(shù)量為3,卷積核大小為奇數(shù),如3×3,5×5或7×7,具體尺寸根據(jù)實(shí)際情況確定,本文選取5×5,卷積層激活函數(shù)設(shè)定為Relu。S為均值池化層,對(duì)應(yīng)卷積層輸出的2×2
斑塊像元的平均值作為該池化層激活函數(shù)的輸入,其特征圖像數(shù)量分別與對(duì)應(yīng)的卷積層一致。元胞層與輸出層之間采用全連接,輸出為類別標(biāo)簽,維度與輸入圖像像元總數(shù)和類別數(shù)目相關(guān)。綜合考慮數(shù)據(jù)規(guī)模和計(jì)算成本,本文中元胞層的元胞數(shù)量K取5,L取3。
圖2 單特征輸入的元胞卷積網(wǎng)絡(luò)結(jié)構(gòu)
CNN的數(shù)據(jù)輸入格式為二維圖像,能夠更有效地挖掘地物空間信息。假定x為待處理的像元,將其作為中心像元,考慮5×5鄰域,為了突出核心像元,并區(qū)別其與鄰域內(nèi)各像元的空間關(guān)系,各自對(duì)應(yīng)的權(quán)重存在差異,文中采用的鄰域權(quán)重如表1所示。
表1 各鄰域位置像元權(quán)重
擴(kuò)展后斑塊各像元的灰度值
式中:V為斑塊內(nèi)所有像元的灰度均值;P5×5為原輸入圖像斑塊;W5×5為權(quán)重核。卷積核尺寸為5×5,池化核大小為2,本文將原圖像的各像元擴(kuò)展為22×22的斑塊作為二維卷積神經(jīng)網(wǎng)絡(luò)的輸入圖像實(shí)現(xiàn)遙感圖像地物分類。
為驗(yàn)證方法的效用和泛化能力,本文通過(guò)兩種不同傳感器的圖像進(jìn)行實(shí)驗(yàn),成像系統(tǒng)分別為國(guó)產(chǎn)高分二號(hào)衛(wèi)星GF載荷和激光掃描測(cè)距LIDAR系統(tǒng)載荷。遙感圖像原始數(shù)據(jù)包括多光譜,如藍(lán)(B)、綠(G)、紅(R)和近紅外(NIR)以及全色圖像(PAN),分辨率分別為3.2 m和0.8 m。截取的實(shí)驗(yàn)區(qū)域圖像首先經(jīng)過(guò)圖像融合成0.8 m分辨率的多光譜圖像,幅面尺寸為1 024×1 024,地面目標(biāo)包括玉米種植區(qū)與其他兩類。
首先分別以兩數(shù)據(jù)集可見光紅波段為實(shí)驗(yàn)基礎(chǔ)數(shù)據(jù)仿真確定訓(xùn)練過(guò)程中樣本數(shù)量,高分?jǐn)?shù)據(jù)不同樣本和不同隱含層數(shù)統(tǒng)計(jì)總體精度和Kappa系數(shù)的分布情況如圖3所示。
圖3 GF數(shù)據(jù)訓(xùn)練樣本自測(cè)性能
本文從訓(xùn)練集自預(yù)測(cè)分類總體精度與運(yùn)算成本兩方面綜合分析。由圖3曲線可見,隨著樣本的增加,算法性能得到一定提高,本文確定訓(xùn)練樣本像元數(shù)量為30 000,進(jìn)而執(zhí)行后續(xù)集成分類實(shí)驗(yàn)。
根據(jù)試驗(yàn)確定的樣本數(shù)量,分別以各特征為輸入獲得相應(yīng)卷積神經(jīng)網(wǎng)絡(luò)分類結(jié)果,基于投票規(guī)則實(shí)現(xiàn)決策級(jí)融合實(shí)驗(yàn)仿真,獲得最終分類精度,如表2所示。在有限特征范圍內(nèi),隨著參與決策的特征數(shù)量增加,不僅總體精度得到了顯著提升,由單特征B時(shí)的0.665增加到了4特征時(shí)的0.892,而且表征預(yù)測(cè)與真值間一致性程度的Kappa系數(shù)也由0.547提升為0.855,增幅明顯,充分說(shuō)明不同光譜波段的互補(bǔ)作用對(duì)提升分類性能具有重要的作用,與4層的BP神經(jīng)網(wǎng)絡(luò)相比也有了10%以上的提升。
表2 不同數(shù)量的特征組平均分類精度比較
高分衛(wèi)星實(shí)驗(yàn)數(shù)據(jù)的假彩色圖像如圖4(a)所示,場(chǎng)景為北方農(nóng)村區(qū)域,項(xiàng)目背景為統(tǒng)計(jì)該地區(qū)玉米種植面積,因此參考真值包括兩類,即玉米種植區(qū)與其他,參考標(biāo)準(zhǔn)如圖4(b)所示,黑色區(qū)域?yàn)橛衩追N植區(qū),白色區(qū)域?yàn)槠渌愋汀8魈卣鹘M合的分類結(jié)果如圖4(c)~(f),可見隨著特征數(shù)量的增加,可視化結(jié)果表現(xiàn)越優(yōu)秀,具體指標(biāo)如表2所示,如B波段的結(jié)果僅0.664 6,最后提升到4波段的0.891 8。Kappa一致性系數(shù)也有同樣的提升。為了更清晰地表現(xiàn)各類別的性能,表3和表4分別列出了本文算法和BP神經(jīng)網(wǎng)絡(luò)分類結(jié)果的混淆矩陣。
表3 本文算法四光譜特征聯(lián)合分類的混淆矩陣
表4 BP神經(jīng)網(wǎng)絡(luò)四光譜特征聯(lián)合分類的混淆矩陣
圖4 GF數(shù)據(jù)實(shí)驗(yàn)結(jié)果可視化對(duì)比(黑色為玉米種植區(qū),白色為其他)
面向農(nóng)業(yè)遙感領(lǐng)域農(nóng)作物種植面積的估計(jì)任務(wù),本文提出了一種基于像素?cái)U(kuò)展的多特征元胞卷積神經(jīng)網(wǎng)絡(luò)塊Boosting集成的算法,以提取高分遙感衛(wèi)星圖像中的玉米種植區(qū)域。首先將一個(gè)像素?cái)U(kuò)展到一個(gè)適當(dāng)尺寸的圖像塊塊作為輸入數(shù)據(jù)集,圖像塊包含了該核心像素信息及其鄰域信息,保證能夠挖掘出豐富的地表覆蓋信息,然后構(gòu)建了相對(duì)簡(jiǎn)單的元胞卷積網(wǎng)絡(luò)塊,搭建元胞層以提取深層次的圖像特征,提高分類器的性能。實(shí)驗(yàn)結(jié)果表明,該方法達(dá)到了較高的精度。本文方法克服了常規(guī)卷積神網(wǎng)絡(luò)算法要求輸入數(shù)據(jù)具有規(guī)則的矩形尺寸特性,因此對(duì)源圖像中包含的眾多不規(guī)則的作物圖斑失效的弊端。文中僅對(duì)實(shí)現(xiàn)了元胞層的全連接構(gòu)建方式,該方式對(duì)小型元胞效果較好,但隨著元胞基本單元結(jié)構(gòu)復(fù)雜度的增加,計(jì)算量呈指數(shù)增長(zhǎng),因此下一步的工作擬開展探究更優(yōu)的連接方式,如跳連接方式等。