萬(wàn)亞玲,鐘錫武,劉 慧,錢育蓉
1.新疆大學(xué) 軟件學(xué)院,烏魯木齊 830046
2.新疆大學(xué) 信息工程學(xué)院,烏魯木齊 830046
近年來(lái),隨著我國(guó)“高分五號(hào)”衛(wèi)星的成功發(fā)射,研究者們對(duì)高光譜遙感技術(shù)的關(guān)注達(dá)到了新的高度。高光譜遙感圖像(Hyperspectral Imagery,HSI)是通過高光譜成像儀獲取的圖像,它的空間信息和光譜信息十分豐富。與普通圖像相比,高光譜遙感圖像還具備更多的波段數(shù)以及極高的分辨率。因此,對(duì)于地物鑒別而言,對(duì)它的光譜特征和空間特征進(jìn)行分析,就可以得到詳細(xì)的地物特征。目前,高光譜遙感對(duì)地觀測(cè)技術(shù)的應(yīng)用十分普遍,例如精準(zhǔn)農(nóng)業(yè)[1]、海洋水文檢測(cè)[2]、大氣環(huán)境監(jiān)測(cè)[3]等領(lǐng)域,高光譜遙感及應(yīng)用也必將在我國(guó)經(jīng)濟(jì)、農(nóng)業(yè)、環(huán)境監(jiān)測(cè)等各個(gè)方面發(fā)揮越來(lái)越重要的作用。高光譜遙感圖像的應(yīng)用實(shí)質(zhì)就是高光譜遙感圖像分類。如何對(duì)高光譜圖像中的每個(gè)像元進(jìn)行快速準(zhǔn)確的判別是這個(gè)問題的核心。
目前,對(duì)于高光譜遙感圖像分類任務(wù),一種是采用傳統(tǒng)的方法,例如利用光譜特征的分類方法和數(shù)據(jù)的統(tǒng)計(jì)特征的分類方法,包括常用的K近鄰算法[4]以及支持向量機(jī)(Support Vector Machine,SVM)[5]。但是,傳統(tǒng)的方法一方面是沒有考慮到高光譜圖像豐富的空間信息,導(dǎo)致特征提取不夠完整;另一方面是大多數(shù)方法基于手工特征,需要人工判別和標(biāo)注,會(huì)花費(fèi)較多的人力和時(shí)間。傳統(tǒng)的淺層學(xué)習(xí)方法的局限性在于:它主要是提取分類器所需要的特征,而且提取的特征是面向領(lǐng)域知識(shí)的,這些都會(huì)造成分類精度不佳。
近些年,一些深度學(xué)習(xí)模型也被應(yīng)用在高光譜遙感圖像分類中,如深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)[6]和棧式自編碼器(Stacked Autoencoder,SAE)[7]網(wǎng)絡(luò),但是這兩個(gè)網(wǎng)絡(luò)的局限性在于:均要求輸入為一維向量,由于光譜信息本身為一維,需要對(duì)空間信息拉伸成一維向量,這樣就會(huì)造成空間信息的丟失。而卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[8]通過局部連接有效提取特征,通過共享權(quán)值顯著地減小參數(shù)量,而且它在圖像分類[9]、圖像超分辨率重建[10]、目標(biāo)檢測(cè)[11]、醫(yī)學(xué)圖像處理[12-13]等領(lǐng)域獲得廣泛應(yīng)用,為卷積神經(jīng)網(wǎng)絡(luò)在高光譜遙感圖像分類任務(wù)中的應(yīng)用奠定了基礎(chǔ)。
高光譜遙感圖像利用成像光譜儀獲取連續(xù)的、多波段狹窄的遙感圖像。與普通的遙感圖像相比,第一,它能達(dá)到納米級(jí)別的分辨率,第二,它是一個(gè)能夠充分反映地物目標(biāo)的光譜特征的數(shù)據(jù)立方體,且包含豐富的空間信息和光譜信息。高光譜遙感圖像分類的過程主要由數(shù)據(jù)輸入、數(shù)據(jù)預(yù)處理、特征提取和特征選擇、分類模型、精度評(píng)價(jià)、分類結(jié)果這幾大步驟組成。高光譜遙感圖像的分類過程如圖1所示。
圖1 高光譜圖像分類框架
(1)數(shù)據(jù)預(yù)處理主要包括圖像格式轉(zhuǎn)換、幾何校正、降噪、降維等處理,目的是盡可能地消除噪聲對(duì)高光譜圖像的影響,為后續(xù)的分類模型提供數(shù)據(jù)。
(2)特征提取和特征選擇是尋找最優(yōu)解的過程,其本質(zhì)就是降維,一般使用PCA(Principal Component Analysis)降維[14]的方法,它運(yùn)用線性變換來(lái)提取特征,但是高光譜數(shù)據(jù)本質(zhì)上是非線性的,因此PCA 等線性變換方法會(huì)丟失大量有用的信息。
(3)分類模型。選擇適合于高光譜遙感圖像的分類模型是實(shí)現(xiàn)精準(zhǔn)分類的關(guān)鍵。相比于傳統(tǒng)的方法,基于卷積神經(jīng)網(wǎng)絡(luò)的分類方法[8,15]一方面能夠自動(dòng)提取淺層和深層次的特征,通過淺層提取紋理和邊緣信息,通過深層提取高級(jí)語(yǔ)義信息,并進(jìn)行有區(qū)分度的特征學(xué)習(xí),而傳統(tǒng)的方法只能提取有限的淺層信息。對(duì)于高光譜遙感圖像這種高維的數(shù)據(jù),能夠有效地?cái)M合高光譜遙感圖像的分類標(biāo)簽與高光譜圖像數(shù)據(jù)特征之間的非線性關(guān)系,減少了繁重的人工標(biāo)注,同時(shí)節(jié)約了計(jì)算時(shí)間,更好地提高分類精度。另一方面,卷積神經(jīng)網(wǎng)絡(luò)將特征提取和特征分類集成到一個(gè)框架中,可以實(shí)現(xiàn)端到端的訓(xùn)練。
高光譜遙感圖像具有“圖譜合一”的特點(diǎn),同時(shí)包含大量的數(shù)據(jù)信息,具有巨大的信息潛力,但是如何從大量的信息中高效準(zhǔn)確地完成分類任務(wù),做到省時(shí)省力,一直是人們的研究熱點(diǎn),因此在解決這個(gè)問題時(shí)還有以下困難需要克服:
(1)缺乏大型、公開、已標(biāo)記的數(shù)據(jù)集。高光譜遙感圖像的獲取、處理、標(biāo)記比較困難,它無(wú)法像普通RGB圖像那么容易獲取,而利用深度學(xué)習(xí)訓(xùn)練模型時(shí)需要大量的樣本,如果數(shù)據(jù)量不足,會(huì)對(duì)模型和算法的研究帶來(lái)一定的局限性。如何在少量的訓(xùn)練樣本下充分挖掘未標(biāo)記數(shù)據(jù)和已標(biāo)記數(shù)據(jù)之間的聯(lián)系,提高分類模型的普適性和分類精度,也是亟待解決的問題。
(2)小樣本和高維度的問題。高光譜圖像的光譜分辨率高,光譜數(shù)量多,而現(xiàn)實(shí)中高光譜數(shù)據(jù)的標(biāo)簽采集比較困難,且進(jìn)行人工標(biāo)注成本高,在高光譜數(shù)據(jù)標(biāo)注時(shí),具有高標(biāo)注代價(jià)的特點(diǎn)。小樣本和高維度的問題,增大了高光譜圖像的分類難度,容易造成“維度災(zāi)難”的現(xiàn)象。深度學(xué)習(xí)的很多模型方法都依賴于大量的標(biāo)記樣本進(jìn)行有效訓(xùn)練,而小樣本和高維特性往往制約著深度學(xué)習(xí)模型在高光譜圖像分類上的應(yīng)用。
(3)高維特性使數(shù)據(jù)的存儲(chǔ)和處理變得困難。高光譜遙感圖像的高維度特性使得在對(duì)其進(jìn)行處理時(shí),增加了計(jì)算的復(fù)雜度,如何有效地對(duì)高光譜進(jìn)行降維、圖像預(yù)處理、特征提取和特征選擇,才能夠降低數(shù)據(jù)存儲(chǔ)和分類模型的開銷,提高分類精度,也是值得思考的問題之一。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)廣泛應(yīng)用于圖像處理和模式識(shí)別等方面。與DBN和SAE相比,CNN是高光譜圖像分類使用最多的深度學(xué)習(xí)模型。卷積神經(jīng)網(wǎng)絡(luò)卷積層的工作原理是利用卷積核進(jìn)行特征的提取,這種提取是自主完成的;而池化層的工作原理是對(duì)來(lái)自卷積層的數(shù)據(jù)進(jìn)行下采樣處理,這種方式的好處是使感受野變得更大,數(shù)據(jù)量被不斷壓縮,參數(shù)量明顯降低;全連接層也是卷積神經(jīng)網(wǎng)絡(luò)很重要的部分,它的主要作用是將數(shù)據(jù)以一維的形式輸出。CNN 的基本結(jié)構(gòu)如圖2 所示。隨著數(shù)據(jù)的維度和數(shù)量不斷地增加,比如高光譜遙感這類數(shù)據(jù),早期的卷積神經(jīng)網(wǎng)絡(luò)的“卷積-池化-全連接”結(jié)構(gòu)已經(jīng)不能滿足現(xiàn)在的需求,于是研究者又提出了基于卷積神經(jīng)網(wǎng)絡(luò)改進(jìn)的網(wǎng)絡(luò)模型,例如GoogleNet[16]、VGGNet[17]、ResNet[18]、DenseNet[19]等。
圖2 CNN基本結(jié)構(gòu)
目前卷積神經(jīng)網(wǎng)絡(luò)有三種不同形式的卷積核,包括1D-CNN、2D-CNN、3D-CNN,它們具有相同的元素計(jì)算過程,都采用反向傳播算法對(duì)網(wǎng)絡(luò)的參數(shù)進(jìn)行修改,并訓(xùn)練網(wǎng)絡(luò)。對(duì)于高光譜遙感圖像分類而言,它們的本質(zhì)區(qū)別就是分別代表了不同形式的特征?;贑NN的分類方法主要是基于光譜特征、基于空間特征、基于空譜特征聯(lián)合的方法,以下分別介紹這三種方法。
高光譜包含大量光譜信息,因此光譜信息在高光譜分類任務(wù)中尤為重要。光譜信息為一維向量,通常使用一維卷積神經(jīng)網(wǎng)絡(luò)(1D-CNN)對(duì)其進(jìn)行分類。Hu 等人[20]采用一個(gè)包含權(quán)重的五層一維CNN網(wǎng)絡(luò)直接在高光譜圖像的光譜域進(jìn)行分類。1D-CNN 的缺點(diǎn)是只能提取到光譜向量,不能提取到豐富的空間上下文信息。但是1D-CNN 是研究者們使用卷積神經(jīng)網(wǎng)絡(luò)在高光譜圖像分類上的踴躍嘗試,為后續(xù)研究高光譜圖像分類打開了新的思路。
基于光譜特征的分類方法主要是利用1D-CNN 提取光譜特征,但它并非主流方法,其局限性在于:1DCNN只能提取到光譜向量,沒有考慮空間信息,而高光譜圖像中存在“同譜異物”和“異物同譜”現(xiàn)象,僅僅利用光譜信息分類難以得到較好的分類效果。
空間信息也是在高光譜遙感圖像分類時(shí)需要考慮的一個(gè)方面,利用1D-CNN 可以提取光譜信息,但是無(wú)法提取空間信息,于是研究者們開始思考利用在普通圖像領(lǐng)域使用的二維卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行高光譜遙感圖像的分類。2D-CNN與1D-CNN最本質(zhì)的區(qū)別在于2DCNN 的卷積和池化都是二維的操作。利用2D-CNN 可以提取高光譜遙感圖像目標(biāo)像素周圍的局部空間信息。二維卷積操作的時(shí)候,采用的公式如下:
基于空間特征的分類方法,利用2D-CNN作為分類模型對(duì)高光譜遙感圖像進(jìn)行分類。首先對(duì)原始的圖像進(jìn)行PCA 降維處理[21],然后以目標(biāo)像素為中心點(diǎn),對(duì)這個(gè)目標(biāo)像素的領(lǐng)域范圍進(jìn)行信息提取,最后利用卷積、池化等進(jìn)一步提取更深層次的特征,完成分類任務(wù)。很多研究者采用2D-CNN 作為分類模型對(duì)高光譜遙感圖像進(jìn)行分類。Liu等人[22]提出了一個(gè)半監(jiān)督的2D-CNN用于高光譜圖像分類,它能夠自動(dòng)從復(fù)雜的高光譜圖像數(shù)據(jù)結(jié)構(gòu)中學(xué)習(xí)特征,半監(jiān)督的方式能夠很好地解決標(biāo)記的樣本量有限的情況。Xu等人[23]提出一種有效的基于深度學(xué)習(xí)的方法RPNet(Random Patches Network)用于高光譜圖像分類,首先通過PCA 降維對(duì)高光譜圖像進(jìn)行預(yù)處理,然后直接將從圖像中得到的隨機(jī)塊視為卷積核而無(wú)需任何訓(xùn)練,通過結(jié)合淺層和深層卷積特征,使其具多尺度、耗時(shí)少的優(yōu)點(diǎn)。
基于空間特征的分類方法,在使用2D-CNN作為分類模型進(jìn)行分類時(shí)具有一定的局限性[24]。它的局限性在于:在處理之前,必須對(duì)原始圖像進(jìn)行降維處理,試圖將高光譜圖像轉(zhuǎn)變?yōu)轭愃朴赗GB 的圖像。一方面,如果不進(jìn)行降維處理,就會(huì)導(dǎo)致參數(shù)量非常大,再加上樣本數(shù)量少,容易出現(xiàn)過擬合現(xiàn)象。另一方面,高光譜圖像通常含有上百個(gè)波段,在降維過程中,可能會(huì)破壞光譜的結(jié)構(gòu),造成光譜信息的丟失,浪費(fèi)高光譜圖像的一些特定屬性。
基于空譜特征聯(lián)合的分類方法,主要是結(jié)合高光譜圖像豐富的光譜信息和不可或缺的空間信息完成分類任務(wù),一般有兩種方法,如圖3所示。
2.3.1 1D+2D-CNN的空譜分類方法
圖3 基于空譜特征的CNN分類方法
這種分類方法引入兩種CNN,先對(duì)輸入的高光譜數(shù)據(jù)進(jìn)行PCA 降維或者其他方式的壓縮降維,提取待分類像素點(diǎn)的領(lǐng)域信息,然后利用2D-CNN對(duì)提取出來(lái)的信息進(jìn)行進(jìn)一步的加工,提取更深層次的空間信息,利用1D-CNN或傳統(tǒng)方法提取譜信息,結(jié)合提取的空間信息和譜信息從而完成分類任務(wù)。Yang 等人[25]提出了一種雙通道卷積神經(jīng)網(wǎng)絡(luò)(Two-CNN),該方法采用光譜通道學(xué)習(xí)譜域特征,用空間通道學(xué)習(xí)空間域特征,然后將學(xué)習(xí)到的特征串聯(lián)起來(lái),輸入全連接層,完成分類任務(wù)。胡麗等人[26]利用空洞卷積的一維卷積神經(jīng)網(wǎng)絡(luò)(1D-CNN)和二維卷積神經(jīng)網(wǎng)絡(luò)(2D-CNN)提取高光譜圖像的光譜和空間特征,采用加權(quán)融合方法對(duì)特征進(jìn)行融合。
2.3.2 基于3D-CNN的空譜分類方法
3D-CNN使用三維卷積在三個(gè)維度上同時(shí)工作,直接提取高光譜圖像的光譜信息和空間信息。相比于2D-CNN 需要對(duì)原始圖像進(jìn)行壓縮降維,3D-CNN 直接從原始的高光譜遙感圖像中提取空間信息和光譜信息,三維卷積核具有提取三維信息的能力,其中兩個(gè)維度為空間維,剩下的一維為光譜維,而高光譜遙感圖像正好是一個(gè)三維立方體,因此可以直接提取信息,這些優(yōu)點(diǎn)都使3D-CNN 更加適合作為高光譜圖像分類的模型。3D-CNN進(jìn)行三維卷積操作的公式如下所示:
其中,在三維卷積核中,Rl表示光譜維數(shù),Hl表示高度,Wl表示寬度。此外,表示在(h,w,r)位置上第l層中第i個(gè)卷積核輸出的數(shù)據(jù)。Li等人[27]提出了基于三維卷積神經(jīng)網(wǎng)絡(luò)框架(3D-CNN),利用其特性可以進(jìn)行HSI 的高準(zhǔn)確性分類。Chen 等人[8]提出了一種基于3D-CNN的有限元模型,并結(jié)合了正則化以提取高光譜圖像的有效光譜空間特征。He等人[28]提出了一種用于HSI 分類的多尺度3D 深層卷積神經(jīng)網(wǎng)絡(luò)(Multi-scale 3D Deep CNN,M3D-DCNN),它可以以端到端的方式從HSI 數(shù)據(jù)中共同學(xué)習(xí)空間特征和光譜特征,用1DCNN提取光譜信息。
目前,利用3D-CNN對(duì)高光譜的空譜特征進(jìn)行分類的方法主要有以下四種:
(1)改進(jìn)的3D-CNN模型。一般利用DenseNet或者ResNet 作為骨干網(wǎng)絡(luò),利用三維卷積核進(jìn)行提取,它們的網(wǎng)絡(luò)更深,提取的特征更加豐富,而且可以有效地緩解梯度消失的問題。Zhong等人[29]設(shè)計(jì)了一個(gè)端到端的光譜-空間殘差網(wǎng)絡(luò)(Spectral-Spatial Residual Network,SSRN),它選擇7×7×200 的三維立方體作為輸入數(shù)據(jù),不需要特征工程來(lái)進(jìn)行高光譜圖像分類。在該網(wǎng)絡(luò)中,通過構(gòu)建光譜殘差塊和空間殘差塊提取光譜特征和空間特征,使得識(shí)別準(zhǔn)確率更進(jìn)一步提升?;蛘呤褂妹芗B接或者殘差連接的改進(jìn)網(wǎng)絡(luò)。Wang 等人[30]提出一個(gè)端到端、快速且密集的光譜-空間卷積(Fast Dense Spectral-Spatial Convolution,F(xiàn)DSSC)框架,它選擇9×9×L(其中L為數(shù)據(jù)集的光譜數(shù))的三維像素?cái)?shù)據(jù)作為輸入。該框架通過構(gòu)建密集譜塊和密集空間塊自動(dòng)提取HSI 中豐富的空間特征和光譜特征。密集連接加深了網(wǎng)絡(luò),減少了梯度消失的問題。
(2)加入注意力機(jī)制的3D-CNN模型。采用現(xiàn)在主流的注意力模塊,例如SENet(Squeeze-and-Excitation Network)[31]、CBAM(Convolutional Block Attention Module)[32]等注意力機(jī)制或者改進(jìn)的注意力機(jī)制,來(lái)構(gòu)建構(gòu)建網(wǎng)絡(luò),關(guān)注更加有用的空間光譜信息。Lu等人[33]提出了一種新的基于三維通道和空間注意力的多尺度空間譜殘差網(wǎng)絡(luò)(3D Channel and Spatial Attention Based Multi-scale Spatial Spectral Residual Network,CSMS-SSRN)。該框架使用三層并行殘差網(wǎng)絡(luò)結(jié)構(gòu),通過使用不同的三維卷積核從它們各自的殘差塊中連續(xù)學(xué)習(xí)頻譜和空間特征,然后將提取的深度多尺度特征進(jìn)行疊加,輸入到三維注意模塊中,從通道和空間域兩方面增強(qiáng)圖像特征的表現(xiàn)力,從而提高分類的準(zhǔn)確性。Li 等人[34]提出了一種用于HSI 分類的雙分支雙注意機(jī)制網(wǎng)絡(luò)(Double-Branch Dual-Attention Mechanism Network,DBDA),使用兩個(gè)分支來(lái)分別提取光譜和空間特征,以減少這兩種特征之間的干擾,并分別應(yīng)用兩種類型的注意機(jī)制,確保更有區(qū)別地利用光譜和空間特征,最后融合提取的特征進(jìn)行分類。
(3)基于遷移學(xué)習(xí)的3D-CNN模型。為了解決高光譜圖像的樣本量較少的缺點(diǎn),采用遷移學(xué)習(xí)的方法,在含有標(biāo)注良好的樣本的源高光譜數(shù)據(jù)集中預(yù)訓(xùn)練一個(gè)模型,然后將其轉(zhuǎn)移到樣本量較少的目標(biāo)高光譜數(shù)據(jù)集中,然后進(jìn)行微調(diào),完成分類任務(wù)。Zhang等人[35]提出了一個(gè)端到端的三維輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò),用于基于有限樣本的HSI分類。為了進(jìn)一步緩解小樣本問題,還提出了兩種轉(zhuǎn)移學(xué)習(xí)策略:一是跨傳感器策略,在包含大量標(biāo)記樣本的源HSI數(shù)據(jù)集上預(yù)處理三維模型,然后將其轉(zhuǎn)移到目標(biāo)HSI 數(shù)據(jù)集上;二是跨模態(tài)策略,在包含大量樣本的二維RGB 圖像數(shù)據(jù)集上預(yù)處理三維模型,然后將其轉(zhuǎn)移到目標(biāo)HSI 數(shù)據(jù)集上。Jiang 等人[36]提出了一個(gè)三維可分離的ResNet(3-DSRNet)來(lái)進(jìn)行跨傳感器轉(zhuǎn)移學(xué)習(xí)。使用所提出的3-DSRNet在具有足夠的訓(xùn)練樣本的源HSI 數(shù)據(jù)集上對(duì)目標(biāo)HSI 數(shù)據(jù)集進(jìn)行分類模型預(yù)處理。然后,將預(yù)處理后的模型轉(zhuǎn)移到目標(biāo)HSI數(shù)據(jù)集進(jìn)行微調(diào),完成分類任務(wù)。
(4)基于2D-CNN和3D-CNN混合的模型。單一的網(wǎng)絡(luò)模型往往提取到的特征有限,將二維和三維卷積相結(jié)合,提取空譜信息,可以有效彌補(bǔ)特征提取不全面的缺陷。Roy 等人[37]提出的混合頻譜卷積神經(jīng)網(wǎng)絡(luò)(HybridSN)是一個(gè)光譜空間3D-CNN,然后是空間2D-CNN。3D-CNN有助于從高光譜圖像中聯(lián)合表示空間-光譜特征。在3D-CNN 之上的2D-CNN 進(jìn)一步學(xué)習(xí)了更多抽象級(jí)別的空間表示,與單獨(dú)的3D-CNN 相比,混合CNN的使用降低了模型的復(fù)雜性。Feng等人[38]從網(wǎng)絡(luò)優(yōu)化的角度設(shè)計(jì)了一個(gè)11層的Residual-HybridSN網(wǎng)絡(luò)。通過3D-2D-CNN、殘差學(xué)習(xí)和深度可分離卷積的有機(jī)結(jié)合,該網(wǎng)絡(luò)可以用很少的訓(xùn)練數(shù)據(jù)更好地學(xué)習(xí)深度分層空間-光譜特征,有效地解決“小樣本問題”。Fang 等人[39]提出了一個(gè)端到端的ASU-3D/2D 密集網(wǎng)絡(luò),多個(gè)中間分類器的設(shè)計(jì)使得使用自適應(yīng)頻譜分解來(lái)促進(jìn)分類成為可能。與傳統(tǒng)的三維卷積相比,它集成了3D/2D 密集網(wǎng)絡(luò),能夠更好地處理空譜特征,同時(shí)包含更少的參數(shù),并且利用有限的訓(xùn)練樣本進(jìn)一步提高了網(wǎng)絡(luò)性能。
但是這些基于3D-CNN 的模型都有一定的局限性。它們的局限在于:參數(shù)量較大,訓(xùn)練時(shí)間過長(zhǎng),網(wǎng)絡(luò)模型較為復(fù)雜。
綜上所述,基于深度學(xué)習(xí)的分類方法的概述、優(yōu)缺點(diǎn)和應(yīng)用場(chǎng)景具體情況如表1所示。
基于CNN的方法是高光譜圖像分類中最常用的方法,也是目前研究最為廣泛的方法。相比于傳統(tǒng)的方法以及早期的深度學(xué)習(xí)方法SAE 和DBN,CNN 具有強(qiáng)大的特征提取能力,利用1D-CNN 提取光譜特征,用于作物分類和土地覆蓋,但是它只考慮到光譜信息,對(duì)空間信息沒有考慮,因此分類精度不理想。2D-CNN在普通圖像上的表現(xiàn)優(yōu)異,利用2D-CNN提取以目標(biāo)像素為中心的領(lǐng)域空間信息,但需要對(duì)高光譜數(shù)據(jù)進(jìn)行壓縮降維,因此會(huì)損失一部分有用信息,并且會(huì)有大量的參數(shù),容易出現(xiàn)過擬合現(xiàn)象。利用3D-CNN 能夠直接對(duì)高光譜圖像進(jìn)行處理,同時(shí)提取空間信息和光譜信息。利用改進(jìn)3D-CNN 網(wǎng)絡(luò)和加入注意力機(jī)制、遷移學(xué)習(xí)、2DCNN 和3D-CNN 混合的網(wǎng)絡(luò),都取得了不錯(cuò)的效果,但是基于3D-CNN 網(wǎng)絡(luò)的局限性在于參數(shù)量巨大。在今后需要對(duì)3D-CNN的網(wǎng)絡(luò)進(jìn)行剪枝,或者對(duì)模型進(jìn)行輕量化的改進(jìn)。
除了CNN 網(wǎng)絡(luò),最近還有一些深度學(xué)習(xí)模型活躍在高光譜圖像分類領(lǐng)域,例如圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Net,GCN)[40-41]用于高光譜圖像分類,因?yàn)樗梢詫?duì)任意結(jié)構(gòu)的非歐幾里德數(shù)據(jù)進(jìn)行卷積,并且適用于由圖形拓?fù)浔硎镜牟灰?guī)則圖像區(qū)域。傳統(tǒng)的GCN 只能利用高光譜圖像的光譜特征,不能合并具有重要意義的空間信息,如果參數(shù)量過大,傳統(tǒng)的GCN的復(fù)雜度是無(wú)法接受的。因此,Wan等人[42]提出的GCN與常用的固定圖形GCN 模型不同,它能夠隨著圖形卷積過程而動(dòng)態(tài)更新,設(shè)計(jì)不同鄰域尺度的多輸入圖,以廣泛利用多尺度下多樣化的光譜空間相關(guān)性,逐漸產(chǎn)生有區(qū)別的嵌入特征以及細(xì)化的圖形。Hong等人[43]提出由CNN 和GCN 共同提取高光譜圖像的不同類型的特征,然后將特征融合,實(shí)現(xiàn)分類。Mou等人[44]提出了一種基于圖的端到端的半監(jiān)督網(wǎng)絡(luò)(Nonlocal GCN),首先計(jì)算非局部圖,然后給定這種圖形表示,使用兩個(gè)圖卷積層來(lái)提取特征,網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)通過在所有標(biāo)記的實(shí)例上使用交叉熵誤差來(lái)完成,它具有精細(xì)的邊界和高質(zhì)量的分類圖。
表1 基于深度學(xué)習(xí)的高光譜圖像分類方法總結(jié)
GCN能夠適當(dāng)?shù)乇硎靖呔S空間中高光譜圖像底層的數(shù)據(jù)結(jié)構(gòu),能夠應(yīng)用于像高光譜圖像這樣的非線性的數(shù)據(jù)表示和分析,但是它會(huì)不可避免地引入一些問題,例如計(jì)算鄰接矩陣的高存儲(chǔ)性,計(jì)算成本高,容易產(chǎn)生梯度爆炸和梯度消失等問題。
由于深度學(xué)習(xí)模型,例如CNN、GCN等在遙感圖像處理上的優(yōu)異表現(xiàn)[45-46],可以將許多方法落地于生產(chǎn)應(yīng)用。CNN 在農(nóng)業(yè)研究領(lǐng)域,大多是對(duì)靜態(tài)圖像進(jìn)行分類,而高光譜圖像可以獲取到農(nóng)作物的圖像和光譜信息,從而反映出農(nóng)作物的生長(zhǎng)情況和品質(zhì)特性。通過高光譜圖像所反映出的本質(zhì)屬性,利用CNN 進(jìn)行模型構(gòu)建,可以快速有效地對(duì)農(nóng)作物的病蟲害進(jìn)行分類,從而進(jìn)行無(wú)損檢測(cè)等任務(wù)。
高光譜遙感圖像分類中常用的公開數(shù)據(jù)集有Pavia University 數(shù)據(jù)集、Indian Pines 數(shù)據(jù)集、Salians 數(shù)據(jù)集、Kennedy Space Center 數(shù)據(jù)集、Botswana 數(shù)據(jù)集等,如表2所示,其中波段數(shù)指的是可用于訓(xùn)練的波段數(shù)量。常用高光譜數(shù)據(jù)集下載地址為:http://www.ehu.eus/ccwintco/index.php?title=Hyperspectral_Remote_Sensing_Scenes。
對(duì)于高光譜遙感圖像而言,僅僅從視覺的角度來(lái)評(píng)判分類模型的好壞往往是不合適的,因此有必要引入一些評(píng)價(jià)指標(biāo)對(duì)分類模型的優(yōu)劣進(jìn)行評(píng)判。若要將這些評(píng)價(jià)指標(biāo)進(jìn)行定量的對(duì)比,正確的樣本是必不可少的,因此下面所列的評(píng)價(jià)指標(biāo)往往是針對(duì)有監(jiān)督的算法的。常用的評(píng)價(jià)指標(biāo)主要有三個(gè):總體分類精度(Overall Accuracy,OA)、平均分類精度(Average Accuracy,AA)、Kappa 系數(shù)。這些評(píng)價(jià)指標(biāo)對(duì)于高光譜圖像分類算法能力的判斷起到關(guān)鍵性的作用,它們的值越大,表示分類的能力就越強(qiáng)。
(1)總體分類精度:表示將正確分類的像元數(shù)目比上被標(biāo)記的總體像元數(shù)目得到的值,一般以小數(shù)表示。具體情況見式(3):
其中,n是高光譜圖像地物目標(biāo)的類別數(shù)目,Ni是第i個(gè)類像元的數(shù)目,hii為第i類被正確分類的像元數(shù)目。從總體分類精度可以簡(jiǎn)單直觀地看出分類效果,但是它沒有考慮到每一類的分類情況,如果樣本數(shù)量分布不均勻,這個(gè)指標(biāo)就不再可靠。
(2)平均分類精度:是指先求出每一種類別被正確分類的像元數(shù)目占該類別像元總數(shù)目的比值,然后把得到的總體類別的比值進(jìn)行求和,得到的求和數(shù)值除以總體類別數(shù)目就得到平均分類精度,如式(4)所示:
其中,N代表總的訓(xùn)練樣本中進(jìn)行測(cè)試的樣本像元數(shù)目,n代表類別的個(gè)數(shù),hii為第i類被正確分類的像元數(shù)目。從公式中可以看出,如果某一類的分類精度過低,平均分類精度就會(huì)被拉低。相比于總體分類精度,平均精度相對(duì)來(lái)說比較客觀。
(3)Kappa 系數(shù):表示一種以分類混淆矩陣判定分類精度的指標(biāo),在高光譜圖像分類方面運(yùn)用比較廣泛,具體情況如下:
其中,M表示混淆矩陣,mij表示第i類的像元被錯(cuò)分到第j類中的數(shù)目,i和j的值一樣,就代表被正確分類的樣本數(shù)量,i和j不一樣,就代表被分類錯(cuò)誤的樣本數(shù)量。從混淆矩陣可以看出,如果想讓分類的效果更好,那么對(duì)角線上得到的數(shù)目就更大。Kappa系數(shù)的計(jì)算方式如式(6)所示,N為總訓(xùn)練樣本中進(jìn)行測(cè)試的像元數(shù)目,“+”是指可以在行或者列上進(jìn)行求和。相比于總體分類精度和平均分類精度,它利用了混淆矩陣,因此所反映的數(shù)據(jù)更加全面。
表2 高光譜圖像分類常用的數(shù)據(jù)集
本文選用了高光譜數(shù)據(jù)集中的Pavia University 數(shù)據(jù)集、Indian Pines 數(shù)據(jù)集和Salians 數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,實(shí)驗(yàn)使用Pytorch深度學(xué)習(xí)框架,硬件配置為Intel Core i7-10700 CPU,內(nèi)存為16 GB,顯卡為NVIDIA GeForce RTX 2060。分別比較了1D-CNN[20]、2D-CNN[22]、3D-CNN[27]、SSRN[29]、FDSSC[30],其中 1D-CNN、2D-CNN、3D-CNN分別是使用一維、二維、三維卷積的分類模型,而SSRN 是基于殘差網(wǎng)絡(luò)改進(jìn)的3D-CNN 模型,F(xiàn)DSSC是基于密集連接網(wǎng)絡(luò)改進(jìn)的3D-CNN模型。
在實(shí)驗(yàn)中,1D-CNN、2D-CNN、3D-CNN使用了以上三個(gè)數(shù)據(jù)集的30%的樣本作為訓(xùn)練樣本,選擇70%的樣本作為測(cè)試樣本,SSRN和FDSSC使用了10%的樣本作為訓(xùn)練樣本,選擇90%的樣本作為測(cè)試樣本,SSRN使用200個(gè)epoch,F(xiàn)DSSC使用80個(gè)epoch。表3、表4、表5分別為三個(gè)數(shù)據(jù)集的分類結(jié)果,其中包含評(píng)價(jià)指標(biāo)OA、AA和Kappa。圖4、圖5、圖6為分類后的可視化效果圖。
表3 Pavia University數(shù)據(jù)集的分類結(jié)果
表4 Indian Pines數(shù)據(jù)集的分類結(jié)果
表5 Salians數(shù)據(jù)集的分類結(jié)果
對(duì) Pavia University 數(shù)據(jù)集、Indian Pines 數(shù)據(jù)集、Salians數(shù)據(jù)集的分類結(jié)果進(jìn)行如下分析:
(1)從表4 和圖 5 中可以看出,Indian Pines 數(shù)據(jù)集的樣本分布不均衡,該數(shù)據(jù)集最多的一類Soybean-mintill為2 455 個(gè)樣本數(shù)量,而最少的Oats 類為20 個(gè),從地物分布圖中也能明顯地看出這一點(diǎn)。并且這個(gè)數(shù)據(jù)集有著非常低的空間(20 m/pixel),這會(huì)導(dǎo)致數(shù)據(jù)集上的每個(gè)像素實(shí)際上為地物的混合物。該數(shù)據(jù)集專注于農(nóng)作物的分類,從相鄰的像素中獲取到的信息并不能真正提高模型的分類辨別能力,因此分類難度稍大。
圖4 Pavia University數(shù)據(jù)集分類圖
圖5 Indian Pines數(shù)據(jù)集分類圖
圖6 Salians數(shù)據(jù)集分類圖
(2)從圖5 中Indian Pines 數(shù)據(jù)集的可視化效果圖中可以看到標(biāo)紅框的類,2D-CNN對(duì)于邊緣信息處理不是很好,因?yàn)?D-CNN 未提取光譜信息,而3D-CNN 和SSRN和FDSSC,也就是三維卷積處理的效果還是不錯(cuò)的,因?yàn)樗瑫r(shí)提取光譜信息和空間信息,在相同的30%訓(xùn)練樣本的條件下,3D-CNN 的 OA 比 2D-CNN 高1.8個(gè)百分點(diǎn)。從實(shí)驗(yàn)結(jié)果可以分析出,對(duì)于2D-CNN,由于高光譜圖像的高維度特性,一般需要降維操作,但是如果進(jìn)行降維操作,可能會(huì)破環(huán)光譜信息,而光譜信息又是區(qū)分不同地物的重要信息。如果不進(jìn)行降維,再加上高光譜遙感圖像一般都具有數(shù)百個(gè)波段,那么二維結(jié)構(gòu)的模型就會(huì)產(chǎn)生巨大的參數(shù)量,會(huì)影響最后的分類結(jié)果。從表3、表4、表5中也可以看出,三個(gè)數(shù)據(jù)集中基于空譜特征的方法3D-CNN、SSRN 和FDSSC 相比于僅使用光譜信息或者僅使用空間信息的分類效果都好,這說明考慮光譜特征和空間特征能夠充分發(fā)揮高光譜圖像的本質(zhì)優(yōu)勢(shì)。
(3)通過Salians數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表5和圖6來(lái)看,SSRN 和FDSSC 僅僅使用10%的訓(xùn)練樣本比3D-CNN使用30%的訓(xùn)練樣本的OA分別高4.83個(gè)百分點(diǎn)和5.36個(gè)百分點(diǎn),比2D-CNN分別高7.45個(gè)百分點(diǎn)和7.98個(gè)百分點(diǎn),而僅僅使用80個(gè)epoch的FFDSC方法的OA僅僅比使用 200 個(gè) epoch 的 SSRN 方法高 0.53 個(gè)百分點(diǎn)。由于1D-CNN 只提取光譜信息,OA 只有85.31%。Pavia University 數(shù)據(jù)集和 Indian Pines 數(shù)據(jù)集的 SSRN 和FDSSN的效果也是好于使用30%的訓(xùn)練樣本的2D-CNN和3D-CNN。從實(shí)驗(yàn)結(jié)果可以分析出,三維卷積比二維卷積更加適合高光譜遙感圖像分類,三維卷積充分考慮了圖像的光譜特征和空間特征,得到了較好的分類效果。但是現(xiàn)有的基于三維卷積的方法仍然有缺陷,例如三維的卷積需要更多的參數(shù),而且它的計(jì)算是密集型的。
隨著遙感技術(shù)的不斷更新發(fā)展,高光譜遙感圖像應(yīng)用也變得更加廣泛,高光譜遙感圖像分類一直是計(jì)算機(jī)領(lǐng)域和遙感領(lǐng)域的研究重點(diǎn),這項(xiàng)工作具有良好的應(yīng)用前景和較為扎實(shí)的理論基礎(chǔ)。高光譜遙感圖像分類這項(xiàng)基礎(chǔ)性的重要工作如果完成得較好,將會(huì)對(duì)后續(xù)的高光譜遙感圖像處理打下堅(jiān)實(shí)基礎(chǔ),將會(huì)完成很多有意義的實(shí)際工作。本文對(duì)近幾年卷積神經(jīng)網(wǎng)絡(luò)在高光譜遙感圖像分類中的應(yīng)用進(jìn)行了總結(jié)和歸納:
(1)傳統(tǒng)的高光譜圖像分類方法,一方面只利用光譜信息進(jìn)行分類,沒有充分考慮高光譜遙感圖像中所包含的豐富的空間信息,另外需要專家知識(shí)作基礎(chǔ),只能提取特定種類的淺層特征,丟失了空間信息的多樣性;另一方面,模型的泛化能力不佳,普適性不強(qiáng),因此分類效果不甚理想。
(2)卷積神經(jīng)網(wǎng)絡(luò)作為一種深度學(xué)習(xí)模型,能夠處理原始數(shù)據(jù)和特定類標(biāo)簽之間的復(fù)雜關(guān)系,輸入網(wǎng)絡(luò)的數(shù)據(jù)在模型中進(jìn)行訓(xùn)練,可以獲取更深層次的光譜空間特征。比起早期使用的SAE網(wǎng)絡(luò)和DBN網(wǎng)絡(luò)要求輸入為一維向量的限制,卷積神經(jīng)網(wǎng)絡(luò)能夠處理二維甚至三維的數(shù)據(jù),使得卷積神經(jīng)網(wǎng)絡(luò)成為完成高光譜圖像分類任務(wù)常用的網(wǎng)絡(luò)。從目前的方法來(lái)看,基于三維卷積神經(jīng)網(wǎng)絡(luò)的方法發(fā)展迅速,它充分考慮空間信息和光譜信息,使得高光譜圖像的優(yōu)勢(shì)能夠更好地發(fā)揮,另外結(jié)合注意力機(jī)制、遷移學(xué)習(xí)、混合網(wǎng)絡(luò)等策略,很好地彌補(bǔ)了高光譜數(shù)據(jù)自身的高維特性、訓(xùn)練樣本稀缺、數(shù)據(jù)非線性等缺點(diǎn),更好地提升了分類效果。
雖然卷積神經(jīng)網(wǎng)絡(luò)在高光譜遙感分類領(lǐng)域已經(jīng)取得了不錯(cuò)的效果,分類精度也在不斷提高,但是仍然還有以下幾個(gè)努力的方向:
(1)提高分類模型的訓(xùn)練效率和泛化能力
目前常用的基于CNN 的高光譜圖像的分類方法,都是基于特定、公開的數(shù)據(jù)集,雖然很多已經(jīng)達(dá)到了98%、99%的分類精度,但是這些方法往往參數(shù)量大,訓(xùn)練時(shí)間長(zhǎng),需要的訓(xùn)練樣本較多,而且算法復(fù)雜度高,超參數(shù)調(diào)整不方便。這些缺陷受限于算法的理論研究和高光譜圖像本身的高維特性。因此,這些方法的泛化能力和模型的魯棒性應(yīng)該如何提升也是未來(lái)需要考慮的方向。
(2)解決標(biāo)記樣本少的問題
高光譜數(shù)據(jù)由于標(biāo)記的樣本較為缺乏,這也限制了深度學(xué)習(xí)方法在高光譜數(shù)據(jù)分類上的應(yīng)用。為了解決樣本量少的問題,一方面,人們不僅可以使用現(xiàn)在常用的遷移學(xué)習(xí)、數(shù)據(jù)增強(qiáng)等方法,也可以用生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[47]來(lái)豐富高光譜數(shù)據(jù)。利用生成對(duì)抗網(wǎng)絡(luò)對(duì)高光譜圖像中的某一個(gè)類別進(jìn)行學(xué)習(xí),從而生成和該類別的特征相符合的新的數(shù)據(jù)樣本,達(dá)到增加該類別的數(shù)據(jù)量,擴(kuò)充數(shù)據(jù)的目的。另一方面,可以采用無(wú)監(jiān)督的分類方法[48],使用端到端的編碼器-解碼器的方式進(jìn)行構(gòu)建網(wǎng)絡(luò),無(wú)監(jiān)督的方法能夠很好地從源頭上解決深度學(xué)習(xí)的模型依賴大量學(xué)習(xí)樣本的問題,因此無(wú)監(jiān)督的分類模型也是后續(xù)可以考慮的方向之一。
(3)提高高光譜遙感圖像的應(yīng)用競(jìng)爭(zhēng)力
深度學(xué)習(xí)的模型層出不窮,但是人們要做的不僅僅是對(duì)高光譜遙感圖像進(jìn)行單純的數(shù)據(jù)分析及分類任務(wù),而是要回歸于它的本質(zhì)特性和優(yōu)勢(shì),重點(diǎn)對(duì)高光譜遙感圖像的實(shí)際意義進(jìn)行詳細(xì)剖析,比如分類的結(jié)果是否有具體的學(xué)習(xí)意義,分類中所采用的深度學(xué)習(xí)模型在今后是否能夠得到實(shí)際應(yīng)用等?,F(xiàn)有的基于深度學(xué)習(xí)的高光譜圖像分類算法,往往是一些通用的分類方法,對(duì)于特定領(lǐng)域的方法研究不夠,不利于高光譜圖像分類算法真正落地應(yīng)用于工業(yè)界和產(chǎn)業(yè)界。例如巖石識(shí)別、棉花產(chǎn)量估計(jì)、精細(xì)農(nóng)業(yè)、農(nóng)作物害蟲檢測(cè)、海洋遙感等,應(yīng)該研究針對(duì)性的深度學(xué)習(xí)分類算法,這些方法應(yīng)當(dāng)以實(shí)際的應(yīng)用為導(dǎo)向,這樣將使得高光譜遙感圖像的應(yīng)用競(jìng)爭(zhēng)力得到極大的提升。
(4)提高高光譜數(shù)據(jù)的處理能力
高光譜成像儀越來(lái)越先進(jìn),獲取到的圖像維度和分辨率都在顯著提高,同時(shí)獲取到的高光譜遙感數(shù)據(jù)呈爆炸式增長(zhǎng),遙感大數(shù)據(jù)的時(shí)代已經(jīng)來(lái)臨。一方面,如何將神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等一些技術(shù)和高光譜遙感技術(shù)相結(jié)合,借助大數(shù)據(jù)、云計(jì)算平臺(tái),基于用戶生產(chǎn)中的具體要求和應(yīng)用,提高高光譜數(shù)據(jù)的處理能力,構(gòu)建具有對(duì)遙感數(shù)據(jù)實(shí)時(shí)處理的智能系統(tǒng)。另一方面,高光譜儀器價(jià)格昂貴且高光譜數(shù)據(jù)處理往往需要專業(yè)人士,因此人們不僅需要從硬件方面考慮采用小型且輕量化的儀器,還需要做到降低高光譜數(shù)據(jù)處理的門檻,使信息處理能達(dá)到真正的智能化和自動(dòng)化,讓高光譜遙感真正地服務(wù)于大眾。