謝幸雨,賀 輝,2,邢?;?/p>
(1.北京師范大學(xué)珠海校區(qū)自然科學(xué)高等研究院,珠海519087;2.北京師范大學(xué)智能工程與教育應(yīng)用研究中心,珠海519087;3.海南師范大學(xué)信息科學(xué)技術(shù)學(xué)院,海口571158)
隨著高光譜成像技術(shù)逐漸成熟,高光譜遙感數(shù)據(jù)可以提供越來越多的譜域和空域信息,對于描述地物有著重要的意義,在目標精細分類和有效辨識方面已表現(xiàn)出很好的潛力,廣泛應(yīng)用于農(nóng)業(yè)、礦物業(yè)和地理觀測等領(lǐng)域。
針對高光譜遙感數(shù)據(jù)高維度、高冗余的特點,研究人員對數(shù)據(jù)的預(yù)處理進行了研究[1]。其中,主成分分析法[2]是常用的子空間算法,其有助于降維,但由于高光譜數(shù)據(jù)具有非線性的特點[3],提取到的低維度特征代表性會受到影響。Alborzi 等[4]提出了HYSIME 方法,利用高光譜信號子空間識別技術(shù)進行子空間選擇,取得了較好的降維結(jié)果。Chen 等[5]引入基于無監(jiān)督深度學(xué)習(xí)的自動編碼器來進行降維的處理,獲得了比主成分分析法等傳統(tǒng)特征提取算法更好的精度。近年來,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)已經(jīng)成為處理計算機視覺任務(wù)的有效方法[6]。Xia 等[7]利用SSGF(Semisupervised graph fusion)方法將光譜、空間和高程這3 種特征投影到一個較低的子空間中,得到新的融合特征,提高了分類的準確性。趙斐等[8]提出多特征圖金字塔融合深度網(wǎng)絡(luò),提取圖像的多層次特征,引入多層次和多尺度特征融合策略,提高了中小型目標分類的準確性。張猛等[9]提出基于特征融合的卷積網(wǎng)絡(luò)結(jié)構(gòu),提高了特征的利用率。在改進卷積神經(jīng)網(wǎng)絡(luò)方面,Xu 等[10]提出包含兩個分支結(jié)構(gòu)的網(wǎng)絡(luò)來融合Lidar 和HSI 信息進行分類。Huang 等[11]以“Densenet”為靈感,提出了一個級聯(lián)網(wǎng)絡(luò),用于結(jié)合來自不同層的特征與快捷路徑。Mou 等[12]基于卷積和反卷積的概念,提出了一種全新的網(wǎng)絡(luò)結(jié)構(gòu),用于高光譜的無監(jiān)督光譜空間特征學(xué)習(xí)。針對CNN 網(wǎng)絡(luò)影像分類幾何失真、特征表示不足以及忽視相鄰空間聯(lián)系的問題,Zhang 等[13]提出了全新的OCNN(Object-based CNN)網(wǎng)絡(luò),通過特征融合、目標輪廓保持掩模策略和物體變形系數(shù)補充,與常見的算法比具有更快的計算效率和更優(yōu)的分類效果。由于三維CNN(Three-dimensional CNN,3D-CNN)能夠同時對數(shù)據(jù)的光譜維度及空間維度進行處理,李冠東等[14]提出基于雙卷積池化結(jié)構(gòu)的3D-CNN 高光譜遙感影像分類方法。實驗結(jié)果表明,簡單的線性結(jié)構(gòu)處理數(shù)據(jù)提到的特征代表性不足,采用特征融合層可以提取到更好的特征,但隨著特征融合層數(shù)的逐漸增加,會導(dǎo)致特征細節(jié)部分的丟失,進而影響到分類精度。針對上述研究,本文提出一個改進的三維卷積神經(jīng)網(wǎng)絡(luò)(Intensive-3D-CNN),其貢獻有3 個方面:(1)通過3D-CNN 有效提取高光譜遙感影像的空譜聯(lián)合特征;(2)引入特征融合層來實現(xiàn)特征的復(fù)用,以提升提取特征的代表性;(3)結(jié)合淺層特征細節(jié)保存網(wǎng)絡(luò),提高類別邊緣的準確性,減少由于特征復(fù)用造成連接處相鄰像素空間干擾而導(dǎo)致的大面積錯分現(xiàn)象。
Intensive-3D-CNN 網(wǎng)絡(luò)通過引入特征融合層和淺層特征細節(jié)保存網(wǎng)絡(luò)提來提升基礎(chǔ)3D-CNN 網(wǎng)絡(luò)性能,如圖1 所示,其結(jié)構(gòu)分為4 個部分:(1)淺層特征提取網(wǎng)絡(luò);(2)卷積特征融合網(wǎng)絡(luò);(3)淺層特征細節(jié)保存網(wǎng)絡(luò);(4)影像分類網(wǎng)絡(luò)。
高光譜遙感數(shù)據(jù)具有高維數(shù)、高冗余及高噪聲的特點。直接將遙感影像數(shù)據(jù)輸入后續(xù)網(wǎng)絡(luò)會導(dǎo)致運算量大、效果不明顯的問題。因此,本文先通過淺層特征提取網(wǎng)絡(luò)對輸入數(shù)據(jù)作過濾處理,獲得更合適的淺層特征。淺層特征提取網(wǎng)絡(luò)包括三維卷積層和最大池化層兩個部分,如圖2 所示。輸入數(shù)據(jù)通過三維卷積層進行卷積處理,再通過激活函數(shù)Relu 去除冗余,強化特征,最后通過最大池化層輸出結(jié)果,結(jié)果作為后續(xù)網(wǎng)絡(luò)的輸入。
不同層級的特征比對研究表明,淺層特征具備更高的分辨率,可以保留更多的空間、細節(jié)信息。通過淺層特征能更好地兼顧到數(shù)據(jù)在空間之間的關(guān)聯(lián)性,更好地從整體去描述數(shù)據(jù),淺層特征提取網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。但是由于其只經(jīng)過極少的卷積處理,所以語義性更低,而且常常伴有大量的噪聲。隨著多次卷積,深層特征變動性越來越大,噪聲逐漸減少,語義性越來越強,越來越注重影像之間的區(qū)分度描述。不可避免的是,其分辨率更低,對細節(jié)的感知能力更低,無法注意到數(shù)據(jù)的關(guān)聯(lián)性。
考慮到淺層特征與深層特征的特點,本文使用卷積特征融合網(wǎng)絡(luò)對淺層特征和深層特征進行融合處理,目的是通過特征復(fù)用獲得全新的特征,提高特征的利用率,增強網(wǎng)絡(luò)的特征表達能力[15]。卷積特征融合網(wǎng)絡(luò)使用特征融合單元+過渡單元的結(jié)構(gòu),如圖3 所示。特征融合單元負責(zé)提取特征并實現(xiàn)單元內(nèi)的特征融合,過渡單元負責(zé)降低特征圖的大小,并控制特征圖數(shù)量。
圖1 Intensive-3D-CNN 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of intensive-3D-CNN
圖2 淺層特征提取網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of shallow feature extraction
圖3 卷積特征融合網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of convolution feature fusion
特征融合單元的具體實現(xiàn)細節(jié)如圖4 所示,單元內(nèi)有數(shù)個三維卷積層Conv3D,每個三維卷積層輸出的特征圖大小相同,每個卷積層的連接方式與密集網(wǎng)絡(luò)連接方式相同,通過Concat 的形式使每層的特征圖在通道維度上實現(xiàn)連接。圖中N 為卷積核大小,K 為卷積核個數(shù)。
若輸入到特征融合單元的特征為H,其輸出表示為
式中:hi表示第i 個卷積層的輸出;[·]表示各個卷積層的特征圖在通道維度上線性連接在一起。
過渡單元的具體實現(xiàn)細節(jié)如圖5 所示,包含1 個三維卷積層和1 個平均池化層。普通卷積神經(jīng)網(wǎng)絡(luò)通過池化層來降低特征圖的大小,但Concat 的連接方式要求特征圖大小必須一樣,受到Densenet[10]中Transition 層的啟發(fā),本文過渡單元采用大小為1×1×1 的三維卷積核進行卷積操作來降低特征圖的大小。另一方面,通過過渡單元中卷積層的卷積核個數(shù)來控制輸出特征圖數(shù)量,解決由于密集連接而導(dǎo)致的特征冗余度過高的問題,并通過平均池化層進一步降低網(wǎng)絡(luò)的訓(xùn)練難度。
文獻[15]提出了一種像素編碼網(wǎng)絡(luò)用于保存淺層特征的高頻細節(jié),最終實現(xiàn)影像超分辨率重建。受其啟發(fā),本文提出使用淺層特征細節(jié)保存網(wǎng)絡(luò)來保存淺層特征的局部細節(jié),減少由于特征復(fù)用而導(dǎo)致的連接處相鄰像素空間干擾。淺層特征細節(jié)保存網(wǎng)絡(luò)的具體實現(xiàn)如圖6 所示。圖6 網(wǎng)絡(luò)由若干個三維卷積層和平均池化層構(gòu)成,每個卷積層的卷積核大小均為1×1×1,因此可以保存淺層特征原有的結(jié)構(gòu)信息,而且可以根據(jù)需要調(diào)整淺層特征的大小。卷積層的通道數(shù)為K,可以通過調(diào)整K 的值使淺層特征卷積層特征輸出的形狀對應(yīng)一個過渡單元的形狀,得以通過Concat 的形式實現(xiàn)淺層特征細節(jié)保存網(wǎng)絡(luò)與特征融合網(wǎng)絡(luò)的聯(lián)接?;诟吖庾V圖像類別較為集中的特點,使用平均池化能夠使分類的邊緣更平滑。
圖4 特征融合單元結(jié)構(gòu)Fig.4 Structure of feature fusion unit
圖5 過渡單元結(jié)構(gòu)Fig.5 Structure of transition unit
圖6 淺層特征細節(jié)保存網(wǎng)絡(luò)Fig.6 Structure of shallow feature detail preservation
圖7 圖像分類網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Structure of image classification
影像分類網(wǎng)絡(luò)結(jié)構(gòu)如圖7 所示,將最后一個特征融合單元和最后一個淺層特征細節(jié)保存網(wǎng)絡(luò)卷積層的輸出特征通過Concat 的形式融合,然后將其輸入到一個卷積核大小為3×3×3 的三維卷積層,由于需要的是像素級類別標簽結(jié)果,影像分類網(wǎng)絡(luò)任務(wù)的本質(zhì)是語義分割,所以提取到具有融合網(wǎng)絡(luò)信息以及保存網(wǎng)絡(luò)信息的聯(lián)合特征,再將四維的特征轉(zhuǎn)化為二維特征,輸入到兩個全連接層FC1 和FC2,而非全卷積網(wǎng)絡(luò)。最后使用Softmax 損失函數(shù)來訓(xùn)練遙感影像地物分類網(wǎng)絡(luò)。得到輸出類別后,再進行上采樣獲得可視化的輸出結(jié)果。
數(shù)據(jù)集樣本如圖8 所示,采用了印第安納州農(nóng)場(Indian Pines)和帕維亞大學(xué)(Pavia University)兩個具有挑戰(zhàn)性的高光譜遙感影像數(shù)據(jù)集來測試和檢驗本文提出的Intensive-3D-CNN網(wǎng)絡(luò)。
2.1.1 Indian Pines 數(shù)據(jù)集
Indian Pines 數(shù)據(jù)集是最早使用于高光譜遙感影像分類的數(shù)據(jù)集,是美國于1992 年使用AVIRIS 光譜儀對印第安納州一片農(nóng)場進行拍攝制作而成。影像大小為145 像素×145 像素,光譜波段數(shù)為220,空間分辨率為20 m,屬于典型的早期高光譜數(shù)據(jù),分類難度較大。該場景包含了16 個地物類別,包括玉米、草場、干草堆和房屋等。訓(xùn)練集使用3 200 張圖片,測試集使用2 426 張圖片。
2.1.2 Pavia University 數(shù)據(jù)集
Pavia University 數(shù)據(jù)集是通過飛機搭載ROSIS 傳感器,在意大利北部帕維亞大學(xué)上空拍攝制作而成的。影像大小為610 像素×340 像素,光譜波段數(shù)為103,空間分辨率為1.3 m。該場景包含了9 個地物場景,包括林地、建筑物和馬路等。訓(xùn)練集使用1 800 張圖片,測試集使用10 097 張圖片。
為實現(xiàn)搭建一個輕量級神經(jīng)網(wǎng)絡(luò)的目標,本文使用了盡可能少的網(wǎng)絡(luò)層數(shù)去實現(xiàn)較好的遙感影像地物分類,網(wǎng)絡(luò)中卷積層的具體參數(shù)如表1 所示。除此之外,還有兩個全連接層FC1和FC2,通道數(shù)分別為200,84。
為了驗證卷積特征融合網(wǎng)絡(luò)的效果,參考文獻[14]提出的3D-CNN 網(wǎng)絡(luò),設(shè)置了一個基礎(chǔ)3D-CNN 網(wǎng)絡(luò)進行對比實驗,但為了避免由于參數(shù)不同而影響對比,其卷積層數(shù)深度、卷積核大小和數(shù)量均與前者一致。同時為驗證淺層細節(jié)保存網(wǎng)絡(luò)在本文提出的算法中的作用,設(shè)置了一個僅含本文提出的特征融合網(wǎng)絡(luò)結(jié)構(gòu)的對比實驗。
圖8 實驗數(shù)據(jù)集樣本Fig.8 Sample of experimental data set
表1 網(wǎng)絡(luò)卷積層的具體參數(shù)Table 1 Specific parameters of network convolution layer
實驗平臺為云虛擬系統(tǒng),配有4 個vCPU,15 GB 內(nèi)存,300 GB 虛擬固態(tài)硬盤,NVIDA Tesla P100顯卡。Indian Pines 和Pavia University 數(shù)據(jù)集實驗結(jié)果分別如圖9、10 所示。從目視判讀來看,與普通3D-CNN 網(wǎng)絡(luò)的結(jié)果相比,基于Intensive-3D-CNN 的影像分類算法分類結(jié)果中大面積錯分的現(xiàn)象大幅度減少。而且,在不關(guān)心網(wǎng)絡(luò)的訓(xùn)練時間和網(wǎng)絡(luò)深度的情況下,采用Intensive-3D-CNN 結(jié)構(gòu)可以通過增加特征融合單元的卷積層深度來提高準確率[16],但是如果采用普通的卷積結(jié)構(gòu),隨著網(wǎng)絡(luò)深度的增加會出現(xiàn)梯度彌散和梯度爆炸的情況,影響網(wǎng)絡(luò)的訓(xùn)練[17],所以卷積特征融合網(wǎng)絡(luò)也更具成長性。此外,使用淺層特征細節(jié)保存網(wǎng)絡(luò)可以使影像類別邊界的分類更加準確,而且相對集中的錯分區(qū)域面積有所減少。
圖9 Indian Pines 數(shù)據(jù)集實驗結(jié)果Fig.9 Experimental results of Indian Pines data set
圖10 Pavia University 數(shù)據(jù)集實驗結(jié)果Fig.10 Experimental results of Pavia University data set
此外,模型訓(xùn)練所需時間、模型分類結(jié)果準確度統(tǒng)計結(jié)果如表2 所示,數(shù)據(jù)由10 次重復(fù)實驗求平均值得出。由表中數(shù)據(jù)可知,基于Intensive-3D-CNN 的影像分類算法在增加少量時間代價的情況下,大幅提高了影像分類的準確度,同時可以發(fā)現(xiàn)增加淺層保存網(wǎng)絡(luò)可以進一步提高分類結(jié)果精準度。相比基礎(chǔ)3D-CNN 網(wǎng)絡(luò)結(jié)果,本文高光譜影像總體分類準確率提高了約2%。
表2 客觀指標比較Table 2 Objective index comparison
本文為充分發(fā)揮高光譜影像有效空間信息和光譜信息的價值,提出了一種特征融合網(wǎng)絡(luò)結(jié)構(gòu),且為了減少由于特征復(fù)用造成的誤差,結(jié)合淺層特征細節(jié)保存網(wǎng)絡(luò),提出了Intensive-3D-CNN 網(wǎng)絡(luò)。結(jié)果表明本文提出的網(wǎng)絡(luò)結(jié)構(gòu)提高了分類結(jié)果的準確度,且在類別邊界劃分上有更好的表現(xiàn)。今后的研究可以借鑒Densenet 的最新研究成果,構(gòu)建更好的特征融合網(wǎng)絡(luò);其次,可以研究如何選用更好的淺層特征細節(jié)來提升影像分類結(jié)果的精準度。