張 裕,楊海濤,袁春慧
(航天工程大學(xué) a.研究生管理大隊(duì); b.航天遙感室, 北京 101416)
航天遙感技術(shù)是一種通過衛(wèi)星對地觀測獲取遙感圖像信息數(shù)據(jù)的技術(shù),這些圖像數(shù)據(jù)在各領(lǐng)域都發(fā)揮著不可或缺的作用。遙感圖像分類主要是根據(jù)地面物體電磁波輻射在遙感圖像上的特征,判斷識別地面物體的屬性,進(jìn)而為目標(biāo)檢測與識別等其他應(yīng)用提供輔助信息,也可以作為最終結(jié)果提供基礎(chǔ)地理信息用于地圖繪測、搶險(xiǎn)救災(zāi)、軍事偵察等領(lǐng)域。遙感圖像分類是遙感技術(shù)應(yīng)用的一個重要環(huán)節(jié)。
在過去的幾十年里,各方面學(xué)者對遙感圖像的分類有著諸多研究,提出了許多分類方法,按是否需要選取標(biāo)記樣本可將分類方法分為監(jiān)督分類和非監(jiān)督分類。根據(jù)最小分類單元可將分類方法分為基于像元的分類、基于對象的分類,以及基于混合像元分解的分類。此外,不同類型的遙感圖像(多光譜遙感圖像、高光譜遙感圖像、合成孔徑雷達(dá)圖像)分類方法也不盡相同。本文主要從特征空間的角度對各分類方法進(jìn)行歸類介紹。由于目標(biāo)分類通常是在特征空間中進(jìn)行的,因此特征的表達(dá)與學(xué)習(xí)是實(shí)現(xiàn)目標(biāo)分類的關(guān)鍵。根據(jù)表達(dá)和學(xué)習(xí)特征的方式,可將現(xiàn)有的遙感圖像分類方法大致分為三類:基于人工特征描述的分類方法、基于機(jī)器學(xué)習(xí)的分類方法和基于深度學(xué)習(xí)的分類方法。需要注意的是,這三類方法并沒有嚴(yán)格的區(qū)分界線,相互之間互有重疊和借鑒。
早期的圖像分類主要是基于人工提取的圖像特征進(jìn)行分類。這些方法主要是依靠有大量專業(yè)領(lǐng)域知識和實(shí)踐經(jīng)驗(yàn)的專家來設(shè)計(jì)各種圖像特征,例如顏色、形狀、紋理、光譜信息等等,這些特征包含了大量可用于目標(biāo)分類的有用信息。幾個最具代表性的人工描述特征包括顏色直方圖、紋理特征、方向梯度直方圖和尺度不變特征變換。
1) 顏色直方圖
顏色直方圖(Color histograms)[1]能簡單描述一幅圖像中顏色的分布,即不同顏色在整個圖像中所占的比例,是圖像檢索和圖像分類中常用的視覺特征[2]。顏色直方圖易于計(jì)算,且具有很好的平移和旋轉(zhuǎn)不變性。其缺點(diǎn)在于無法描述圖像中顏色的分布及每種色彩所處的空間位置,即不能傳達(dá)空間信息。此外,顏色直方圖對光照變化和量化誤差也很敏感。
2) 紋理特征
紋理特征(Texture features)也是一種全局特征,它描述了圖像或圖像區(qū)域所對應(yīng)目標(biāo)的表面性質(zhì)。其中灰度共生矩陣(GLCM),Gabor特征和局部二值模式(Local binary patterns LBP)等被廣泛應(yīng)用于遙感圖像分類[2]。紋理特征對于識別具有明顯紋理特征的目標(biāo)圖像非常有用。其主要缺點(diǎn)在于當(dāng)圖像的分辨率、目標(biāo)光照情況發(fā)生變化時,目標(biāo)圖像紋理可能會產(chǎn)生較大偏差,影響分類效果。
3) 方向梯度直方圖
方向梯度直方圖(Histogram of Oriented Gradient,HOG)是一種圖像局部紋理特征。它通過計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的方向梯度直方圖構(gòu)成圖像特征,由于HOG是在圖像的局部區(qū)域操作,因此它對圖像幾何形變和光照變化能保持較好的不變性,它已經(jīng)在許多圖像分類任務(wù)中取得了巨大的成功[3]。其缺點(diǎn)在于計(jì)算過程冗長,對噪點(diǎn)特別敏感。
4) 尺度不變特征變換
尺度不變特征變換(Scale-invariant feature transform,SIFT)[4],是一種局部特征描述子,它通過確定關(guān)鍵點(diǎn)周圍的梯度信息描述子區(qū)域。SIFT特征檢測的主要步驟是:a尺度空間極值檢測,通過微分函數(shù)識別圖中興趣點(diǎn);b關(guān)鍵點(diǎn)定位,在候選位置上確定模型和尺度;c方向確定,根據(jù)圖像的局部梯度,為每個關(guān)鍵點(diǎn)分配一個或多個方向;d關(guān)鍵點(diǎn)描述,在關(guān)鍵點(diǎn)的鄰域內(nèi)測量圖像的局部梯度,進(jìn)而生成相應(yīng)特征描述。提取的特征將用于目標(biāo)分類與識別。SIFT所提取的圖像特征是局部特征,具有尺度和旋轉(zhuǎn)不變性,對亮度變化、視角變化、仿射變化及噪聲也有一定程度的穩(wěn)定性。當(dāng)特征點(diǎn)不多時,算法處理速度也相對較快,適于在海量特征數(shù)據(jù)中進(jìn)行快速、準(zhǔn)確的匹配。但SIFT是一種只利用到灰度性質(zhì)的算法,無法識別圖像的色彩信息。當(dāng)目標(biāo)圖像形狀相似時,分類錯誤率較高。
基于人工特征描述的分類方法具有直觀、易于理解的優(yōu)點(diǎn)。顏色直方圖和紋理特征描述了整個目標(biāo)圖像在特定方面的統(tǒng)計(jì)學(xué)特性,因而可以直接輸入分類器用于目標(biāo)分類。而HOG特征和SIFT描述子通常用來作為構(gòu)建全局圖像特征的構(gòu)建塊,例如視覺詞袋(Bag-of-Visual-Words,BoVW)模型[5]和基于HOG特征塊的模型[6]。以上方法在一定程度上解決了遙感圖像分類問題。隨著遙感技術(shù)的迅速發(fā)展,遙感圖像分辨率越來越高,圖像中大量細(xì)節(jié)的出現(xiàn)使得單一特征難以全面表達(dá)目標(biāo)對象,多特征融合的方法開始用于遙感圖像分類。多特征融合的方法對改善分類效果有所幫助,但如何有效組合特征以使分類效果最優(yōu)仍未解決。此外,基于人工特征描述的分類方法特征的設(shè)計(jì)依賴于相關(guān)專業(yè)知識和經(jīng)驗(yàn),在面對復(fù)雜圖像時,這些特征的描述能力十分有限。
近年來,建立在概率統(tǒng)計(jì)基礎(chǔ)上的機(jī)器學(xué)習(xí)為遙感圖像分類提供了許多可行方法。典型的機(jī)器學(xué)習(xí)方法包括支持向量機(jī)、決策樹、主成分分析法、k均值聚類和稀疏表示等。
1) 支持向量機(jī)
支持向量機(jī)(Support Vector Machine,SVM)是一種監(jiān)督學(xué)習(xí)方法,它通過引入核函數(shù)的概念在高維特征空間解算最優(yōu)化問題,進(jìn)而尋找最優(yōu)分類超平面,解決復(fù)雜數(shù)據(jù)分類問題。近年來在遙感圖像識別分類問題中有著較多的應(yīng)用。文獻(xiàn)[7]研究了SVM在建筑物分類中的應(yīng)用,分類精度達(dá)到了90%。文獻(xiàn)[8]用Canny邊緣檢測算子,去除短線和曲線,用Hough變換檢測長直線,最后利用SVM實(shí)現(xiàn)了機(jī)場跑道的識別。此外還有許多基于SVM的改進(jìn)方法,文獻(xiàn)[9]構(gòu)造一個半監(jiān)督SVM分類器的集合來解決遙感圖像分類問題。文獻(xiàn)[10]利用最小二乘支持向量機(jī)對目標(biāo)區(qū)地質(zhì)巖性進(jìn)行分類。在實(shí)際應(yīng)用中,SVM具有穩(wěn)定、易用等特點(diǎn),但其在解決多類目標(biāo)分類問題中表現(xiàn)較差,如何正確選擇核函數(shù)也沒有相關(guān)的理論依據(jù)。
2) 決策樹
決策樹(Decision Tree)是一種歸納推理的分類方法,通過對圖像光譜、顏色、空間等信息定義規(guī)則,從中心節(jié)點(diǎn)出發(fā),對圖像各類信息值進(jìn)行比較,得出新的分支,通過更新規(guī)則得到新的決策樹,直到滿足分類要求,最終的節(jié)點(diǎn)即為分類結(jié)果。近年來有基于決策樹算法改進(jìn)的隨機(jī)森林模型[11]以及CART決策樹[12]陸續(xù)用于遙感圖像分類。決策樹算法易于理解,可操作性高,能夠處理多輸出問題。其缺點(diǎn)在于泛化能力太差,在處理高維數(shù)據(jù)時表現(xiàn)不佳。
3) 主成分分析法
主成分分析法(Principal Components Analysis,PCA)通過一個線性變化把目標(biāo)數(shù)據(jù)變換轉(zhuǎn)成另一組不相關(guān)的變量,并將新的變量按照方差依次遞減的順序排列。主成分分析法通過保留低階主成分,忽略高階主成分做到減少數(shù)據(jù)的維數(shù),保存了數(shù)據(jù)中對方差貢獻(xiàn)最大的特征。該算法是一種無監(jiān)督訓(xùn)練的簡單模型,能夠?qū)W習(xí)到用于多類圖像分類任務(wù)的不變特征進(jìn)而進(jìn)行目標(biāo)分類[13-14]。其缺點(diǎn)在于PCA是線性運(yùn)算,無法獲得更多的抽象表示,因而其特征的描述能力是有限的。
4)k均值聚類
k均值聚類(K-means)是一種矢量化方法,旨在將一組數(shù)據(jù)項(xiàng)劃分為k個集群,并將相似的對象歸到同一個集群中。該算法運(yùn)算步驟如下:a隨機(jī)生成k個初始點(diǎn)作為質(zhì)心;b將數(shù)據(jù)集中的數(shù)據(jù)按照距離質(zhì)心的遠(yuǎn)近分到各個群集中;c將各個集群中的數(shù)據(jù)求平均值,作為新的質(zhì)心,重復(fù)上一步,直到所有的集群不再改變時終止。由于其簡單性,K-means被廣泛用于無監(jiān)督的遙感圖像分類。典型的例子是基于BoVW的方法[15-16],其中視覺字典(碼本)是通過在一組本地特征上執(zhí)行k均值聚類運(yùn)算得到的。K-means算法易于理解,復(fù)雜度低,能夠在短時間內(nèi)處理海量的數(shù)據(jù),聚類效果尚可。缺點(diǎn)在于對噪聲和離群點(diǎn)敏感,在算法運(yùn)行前需要先確認(rèn)K值,但目前并沒有明確理論指導(dǎo)確定K值,而且其分類結(jié)果不一定是全局最優(yōu)值。
5) 稀疏表示
稀疏表示(Sparse representation)[17]是一種無監(jiān)督學(xué)習(xí)方法,其目的是在給定的超完備字典中用盡可能少的原子表示圖像信號,從而獲得圖像更為簡潔的特征表示,方便對圖像進(jìn)行分類處理。最近,許多學(xué)者將稀疏編碼方法用于遙感圖像的目標(biāo)分類。文獻(xiàn)[18]介紹了一種基于稀疏表示的改進(jìn)分類方法并討論了使用稀疏矢量重建圖像進(jìn)行分類;文獻(xiàn)[19]采用稀疏表達(dá)來進(jìn)行特征描述,結(jié)合支持向量機(jī)對目標(biāo)進(jìn)行檢測。在實(shí)際應(yīng)用中,稀疏表示具有計(jì)算速度快、自適應(yīng)性強(qiáng)以及能高性能表示結(jié)果等優(yōu)點(diǎn)。其主要難點(diǎn)在于如何構(gòu)建完備字典。
在實(shí)際應(yīng)用中,上述基于機(jī)器學(xué)習(xí)的分類方法在遙感圖像分類任務(wù)中取得了良好的效果,尤其是與基于人工特征描述的分類方法相比。但隨著遙感技術(shù)的進(jìn)步,遙感圖像信息呈現(xiàn)海量增長的趨勢,目標(biāo)樣本的數(shù)量和多樣性也急劇增加,上述機(jī)器學(xué)習(xí)的分類方法屬于淺層學(xué)習(xí)網(wǎng)絡(luò),很難建立復(fù)雜的函數(shù)表示,不能適應(yīng)復(fù)雜樣本的遙感圖像分類。
深度學(xué)習(xí)(deep learning)作為機(jī)器學(xué)習(xí)算法中的一個新興技術(shù),其動機(jī)在于建立模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它能通過海量的訓(xùn)練數(shù)據(jù)和具有很多隱藏層的深度模型學(xué)習(xí)更有用的特征,最終提升分類的準(zhǔn)確性。近年來深度學(xué)習(xí)在圖像分類應(yīng)用中取得了令人矚目的成績,越來越多的學(xué)者開始將深度學(xué)習(xí)應(yīng)用于遙感圖像處理中。幾種常用的深度學(xué)習(xí)方法包括自動編碼器、卷積神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)和針對小訓(xùn)練樣本的遷移學(xué)習(xí)。
1) 自動編碼器
自動編碼器(AutoEncoder,AE)[20]是一種無監(jiān)督的學(xué)習(xí)算法,主要用于數(shù)據(jù)的降維或者特征的提取。這種算法的思想是將神經(jīng)網(wǎng)絡(luò)的隱藏層看成是編碼器和解碼器。編碼器將圖像數(shù)據(jù)映射到特征空間,解碼器將數(shù)據(jù)映射回?cái)?shù)據(jù)空間,從而對輸入數(shù)據(jù)進(jìn)行重構(gòu)。自動編碼器非常適合處理高維數(shù)據(jù),在樣本數(shù)較多的情況下,分類效果明顯高于SVM等傳統(tǒng)分類方法。近年來已成功應(yīng)用于圖像分類[21],特別是基于自動編碼器改進(jìn)的去噪自編碼器 (DAE)[22]和棧式自編碼器SAE,在遙感圖像分類任務(wù)中取得了良好的分類效果。自動編碼器的缺點(diǎn)在于模型的泛化能力較差,即當(dāng)測試樣本和訓(xùn)練樣本不符合同一分布時,分類效果欠佳。
2) 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[23]是模仿人類視覺大腦皮層機(jī)理建立的網(wǎng)絡(luò)。一個典型的CNN由輸入層、卷積層(Convolutional Layer)、池化層(Pooling Layer)和全連接層(Full Connected Layer)、輸出層構(gòu)成,CNN的下層通常學(xué)習(xí)基本特征,隨著網(wǎng)絡(luò)深度的增加,特征變得更加復(fù)雜并且被分層構(gòu)建。全連接層在CNN網(wǎng)絡(luò)的末端,從前層的分層輸出中學(xué)習(xí)復(fù)雜的非線性函數(shù)提取抽象特征,最終通過一個分類器進(jìn)行分類。近年來,CNN在圖像分類處理領(lǐng)域取得了巨大的成功。比較成熟的CNN模型包括AlexNet、VGG、GoogleNet、ResNet等。CNN在遙感圖像分類中也有著廣泛的應(yīng)用[24-25]。CNN的主要缺點(diǎn)在于需要大數(shù)據(jù)量的訓(xùn)練集來學(xué)習(xí)確定各層網(wǎng)絡(luò)參數(shù)。同時,隨著網(wǎng)絡(luò)層數(shù)的增加,容易出現(xiàn)局部最優(yōu)及過擬合。
3) 深度信念網(wǎng)絡(luò)
深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)由Hinton等人提出[26]。它由多個受限玻爾茲曼機(jī)(Restricted Boltzman Machine,RBM一種可以用來對各種數(shù)據(jù)進(jìn)行建模的概率生成模型,基本功能與AE類似)和反向傳播(BP)網(wǎng)絡(luò)組成。DBN通過訓(xùn)練其神經(jīng)元間的權(quán)重,可以讓整個神經(jīng)網(wǎng)絡(luò)按照最大概率生成訓(xùn)練數(shù)據(jù)。其訓(xùn)練過程是采用非監(jiān)督方式自下而上通過每層的RBM學(xué)習(xí)無標(biāo)簽樣本提取圖像特征,在DBN的最后一層連接一個分類器,接收 RBM 的輸出特征向量作為它的輸入特征向量,有監(jiān)督地訓(xùn)練分類器,最后用反向傳播算法微調(diào)整個DBN,以達(dá)到一個較好的分類水平。DBN通過對各RBM層進(jìn)行單獨(dú)訓(xùn)練完成整個網(wǎng)絡(luò)的訓(xùn)練,提升了網(wǎng)絡(luò)的訓(xùn)練速度,使系統(tǒng)對復(fù)雜數(shù)據(jù)分類問題的處理能力有較大提升,并且克服了直接對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時容易出現(xiàn)局部最優(yōu)等問題。DBN在多項(xiàng)遙感圖像分類實(shí)驗(yàn)中分類精度達(dá)到80%以上[27-28]。DBN的缺點(diǎn)在于模型不能明確不同類別之間的最優(yōu)分類面,所以在分類任務(wù)中,分類精度可能沒有判別模型高,此外DNB還要求輸入數(shù)據(jù)具有平移不變性,并且不適當(dāng)?shù)膮?shù)選擇會導(dǎo)致學(xué)習(xí)收斂于局部最優(yōu)解。
4) 遷移學(xué)習(xí)
遷移學(xué)習(xí)是指將一個分類問題上訓(xùn)練好的模型經(jīng)過調(diào)整和優(yōu)化使其能適用于另一個分類問題。深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練需要大量的訓(xùn)練樣本,目前常見的幾個遙感圖像數(shù)據(jù)集包括Indian pines、kennedy Space Center、 Pavia City Center 、Salinas等。隨著網(wǎng)絡(luò)的加深加寬,這些數(shù)據(jù)集的分類精度趨于飽和,逐漸不能滿足訓(xùn)練要求。遷移學(xué)習(xí)旨在解決訓(xùn)練數(shù)據(jù)不足的問題,近年來,有學(xué)者利用遷移學(xué)習(xí)解決遙感圖像數(shù)據(jù)集不足的問題[29]。但當(dāng)傳感器類型發(fā)生變化或者成像區(qū)域不同時,分類效果極差[30]。
深度學(xué)習(xí)的出現(xiàn),顯著地提升了遙感圖像分類的效果。一方面,與需要大量專業(yè)知識和經(jīng)驗(yàn)的人工特征描述的分類方法相比,深度學(xué)能通過深層架構(gòu)自動學(xué)習(xí)數(shù)據(jù)特征,這是深度學(xué)習(xí)方法的關(guān)鍵優(yōu)勢;另一方面,與常用的淺層機(jī)器學(xué)習(xí)模型相比,由多個處理層組成的深度學(xué)習(xí)模型可以學(xué)習(xí)到更強(qiáng)大的具有多個抽象層次的數(shù)據(jù)特征,這些抽象的深層特征更適用于語義級別的目標(biāo)分類。隨著計(jì)算機(jī)計(jì)算能力的進(jìn)步,深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)往更深、更寬方向發(fā)展,但如何選擇合適的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)以達(dá)到最優(yōu)的分類效果仍是亟待解決的問題,對各隱藏層提取的抽象特征的物理含義也缺乏明確的解釋,同時,缺乏有效的訓(xùn)練數(shù)據(jù)集也是制約分類精度提升的瓶頸。
基于人工特征描述的分類方法在早期為遙感圖像的分類提供了解決方案,隨后建立在概率統(tǒng)計(jì)基礎(chǔ)上的機(jī)器學(xué)習(xí)進(jìn)一步提高了分類精度。深度學(xué)習(xí)出現(xiàn),使人們不再需要完全依賴人類專家去設(shè)計(jì)特征,并且使分類精度有了質(zhì)的飛躍,但深度網(wǎng)絡(luò)建??梢暬щy和數(shù)據(jù)集的缺乏制約了分類精度的進(jìn)一步提高。未來將更加快速準(zhǔn)確地確定深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)。在實(shí)際應(yīng)用中,深度學(xué)習(xí)系統(tǒng)的深度和寬度對分類效果有明顯的影響,更深更寬的網(wǎng)絡(luò)可以挖掘出數(shù)據(jù)中更為抽象的特征表示,提高分類效能,但過大的網(wǎng)絡(luò)模型又會增大訓(xùn)練消耗,降低訓(xùn)練效率,還可能會降低網(wǎng)絡(luò)的泛化性,出現(xiàn)過擬合的現(xiàn)象。如何在保證分類效果的同時有效地縮減網(wǎng)絡(luò)的復(fù)雜度,也是當(dāng)前研究的熱點(diǎn)之一。隨著科技的進(jìn)步,各類型數(shù)據(jù)呈現(xiàn)海量增長的趨勢,也可以考慮將多類型傳感器、智能終端、社交網(wǎng)站等多源異構(gòu)數(shù)據(jù)融合進(jìn)行遙感圖像分類處理。多源異構(gòu)數(shù)據(jù)能夠能從不同的方面提供目標(biāo)圖像特征和信息。不同特征和信息的融合,既保留了參與融合的多特征的有效鑒別信息,又在一定程度上避免了單一數(shù)據(jù)的不確定性,令分類結(jié)果更加可靠,使遙感圖像目標(biāo)分類的結(jié)果更加全面準(zhǔn)確。