路燕,任月,崔賓閣
山東科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,山東 青島 266590
高光譜傳感器以數(shù)十至數(shù)百個(gè)連續(xù)且細(xì)分的光譜波段對(duì)目標(biāo)區(qū)域同時(shí)成像,形成了包含數(shù)十至數(shù)百個(gè)波段的高光譜圖像(HSI Hyperspectral Image)(張良培和李家藝,2016)。由于包含豐富的光譜和空間信息,高光譜圖像被廣泛應(yīng)用于各種任務(wù),如復(fù)雜環(huán)境下的地物精細(xì)分類(lèi)(Thenkabail和Lyon,2011;崔賓閣 等,2019)、目標(biāo)檢測(cè)(Nasrabadi,2014;Zhu 等,2019) 和植被面積估計(jì)(Lees,2020)等。高維度的光譜數(shù)據(jù)在為圖像處理提供更多光譜信息的同時(shí),也帶來(lái)了維數(shù)災(zāi)難、信息冗余、計(jì)算復(fù)雜度高和存儲(chǔ)成本巨大等問(wèn)題(Fauvel 等,2013)。因此,維度約減已成為高光譜圖像處理的一個(gè)重要環(huán)節(jié)(Zhao和Du,2016)。
高光譜圖像降維方法通??梢苑譃閮深?lèi):特征提取和波段選擇(Cui 等,2020)。特征提取是根據(jù)某種準(zhǔn)則將高維數(shù)據(jù)映射到一個(gè)特定的低維特征空間中,并提取新的特征值來(lái)表示原始高維數(shù)據(jù)(Sun 等,2014;Dópido 等,2012)。典型的特征提取方法包括主成分分析PCA (Principal Component Analysis)(Chang 等,1999)、獨(dú)立成分分析ICA(Independent Component Algorithm)(Wang和Chang,2006)、線性判別分析LDA (Linear Discriminant Analysis)(Bandos 等, 2009; Zhai等,2019)和局部線性嵌入LLE(Locally Linear Embedding)(Li 等,2012)等。經(jīng)過(guò)上述的空間變換,原始高光譜圖像波段的物理含義發(fā)生了變化,并且丟失了一些關(guān)鍵信息(Yang 等,2012)。與特征提取方法不同,波段選擇是從高光譜圖像中選擇出信息量較大、相關(guān)性較弱、類(lèi)別可分性較好的波段組合,因而基本保留了地物的固有物理屬性(Wang等,2018)。常用的波段選擇方法有基于排名、基于搜索、基于聚類(lèi)、基于稀疏性、基于嵌入學(xué)習(xí)和基于混合方案等(Sun和Du,2019)。
基于聚類(lèi)的波段選擇方法是高光譜圖像降維的重要方法(Sun 和Du,2019)。該方法首先通過(guò)聚類(lèi)將原始波段分組,然后從每組中選擇一個(gè)代表性波段。最早的高光譜圖像波段聚類(lèi)方法是基于Ward 鏈接的分層聚類(lèi)(Martínez?Usómartinez?Uso 等,2007)。之后,基于聚類(lèi)的各種高光譜圖像波段選擇方法陸續(xù)被提出,如Rodriguez 和Laio(2014)提出基于密度峰值的快速聚類(lèi)算法FDPC(Fast Density?Peak?based Clustering),該算法通過(guò)計(jì)算每個(gè)樣本的局部密度和組內(nèi)距離來(lái)識(shí)別聚類(lèi)中心;Jia 等(2016)對(duì)FDPC 算法進(jìn)行了改進(jìn),提出了增強(qiáng)的快速聚類(lèi)算法E?FDPC(Enhanced?FDPC),該算法通過(guò)加權(quán)歸一化的局部密度和組內(nèi)距離來(lái)計(jì)算每個(gè)波段的排名得分;Yuan 等(2016)提出了一種基于上下文分析和雙聚類(lèi)的高光譜圖像波段選擇方法;Wang 等(2018)提出了一種用于高光譜波段選擇的最佳聚類(lèi)框架,該框架通過(guò)動(dòng)態(tài)編程將高光譜波段劃分為多個(gè)組,并在每個(gè)組中選擇一個(gè)代表性波段;趙亮等(2019)提出了一種基于平均相關(guān)性和最佳指數(shù)等指標(biāo)的高光譜圖像子空間波段選擇方法;Wang 等(2019)提出了一種用于波段子空間劃分的自適應(yīng)分區(qū)框架,通過(guò)最大化組間距離與組內(nèi)距離之比將光譜空間中有序的高光譜數(shù)據(jù)劃分為多個(gè)子空間,可以有效避免選擇具有高相關(guān)性的波段子集。
上述基于聚類(lèi)的高光譜圖像波段選擇方法主要考慮了波段的信息量和相關(guān)性,忽視了波段的噪聲問(wèn)題。然而受瑞利散射、水和二氧化碳吸收等大氣噪聲及傳感器自身噪聲的影響,真實(shí)的高光譜圖像通常在某些波段有嚴(yán)重的噪聲。這些噪聲會(huì)對(duì)波段信息量估計(jì)和波段間相似度計(jì)算產(chǎn)生不利影響,甚至導(dǎo)致選擇的波段子集中包含多個(gè)噪聲波段的情況?,F(xiàn)有的波段選擇方法為避免這種情況,通常會(huì)將特定傳感器中的水吸收波段等受噪聲影響嚴(yán)重的波段去除,但在高光譜圖像的成像過(guò)程中產(chǎn)生噪聲波段的因素眾多,去除特定水吸收波段后的數(shù)據(jù)集中仍然存在其它的噪聲波段(劉雪松等,2012),因此在波段選擇過(guò)程中考慮噪聲問(wèn)題是非常有必要的(Wang 等,2019)。本文提出一種噪聲魯棒的高光譜圖像子空間劃分與波段搜索方法,即基于皮爾遜相關(guān)系數(shù)、信息熵和 噪 聲 水 平PIENL (Pearson correlation coefficient,Information Entropy and Noise Level)的波段選擇方法。PIENL方法首先采用抗噪聲干擾能力較強(qiáng)的皮爾遜相關(guān)系數(shù)計(jì)算波段間相似度,然后基于波段相似度自適應(yīng)地將高光譜圖像劃分成有序的子空間,最后綜合考慮波段的信息熵和噪聲水平,在各個(gè)子空間中挑選出信息量大且噪聲水平低的代表性波段。
本文方法首先依據(jù)波段間皮爾遜相關(guān)系數(shù)對(duì)高光譜圖像進(jìn)行自適應(yīng)子空間劃分,得到相關(guān)性較弱的多個(gè)波段子空間;然后使用結(jié)合波段信息熵和噪聲水平兩個(gè)指標(biāo)的信息量度量準(zhǔn)則在各個(gè)子空間中進(jìn)行搜索,選擇最具代表性的波段子集。
2.1.1 劃分依據(jù)
高光譜遙感數(shù)據(jù)具有光譜劃分精細(xì)的特點(diǎn),同一地物在相鄰波段的光譜反射率相近(趙亮等,2019)。為了將相似波段劃分到同一子空間,需要衡量各個(gè)波段之間的光譜差異(Wang 等,2019)。目前波段間光譜差異的度量方法主要有距離度量(Wang 等,2019) 和相關(guān)性度量(趙春暉 等,2017;趙亮等,2019)。圖1 展示了歐氏距離和皮爾遜相關(guān)系數(shù)在Indian Pines 數(shù)據(jù)集與Salinas 數(shù)據(jù)集上的可視化矩陣。
圖1(a)和圖1(c)分別展示了歐氏距離在Indian Pines 數(shù)據(jù)集與Salinas 數(shù)據(jù)集上的可視化矩陣。根據(jù)右側(cè)圖例,越靠近深藍(lán)色區(qū)域歐氏距離越小,代表波段間的光譜差異越??;越靠近深紅色區(qū)域歐氏距離越大,代表波段間的光譜差異越大;可以看出,噪聲波段與其他正常波段間的歐氏距離較大,但噪聲波段間的歐氏距離較小,例如Indian Pines 數(shù)據(jù)集中103—112 波段和148—165 波段,Salinas數(shù)據(jù)集中108—112波段和154—167波段。
皮爾遜相關(guān)系數(shù)可視化矩陣如圖1(b)與圖1(d)所示。皮爾遜相關(guān)系數(shù)的絕對(duì)值越大,代表波段之間的相關(guān)性越強(qiáng)。根據(jù)右側(cè)圖例,深藍(lán)色區(qū)域代表波段間呈現(xiàn)負(fù)相關(guān),暗紅色區(qū)域代表波段間呈現(xiàn)正強(qiáng)相關(guān),黃色區(qū)域代表波段間相關(guān)性較弱,青色及淺藍(lán)色區(qū)域代表波段間基本不相關(guān);可以看出,相關(guān)性較強(qiáng)的區(qū)域主要集中在主對(duì)角線附近,說(shuō)明相鄰波段間的相關(guān)性更強(qiáng)(趙亮等,2019),但噪聲波段間基本不相關(guān)或弱相關(guān),例如Indian Pines 數(shù)據(jù)集中103—112 波段和148—165 波段,Salinas 數(shù)據(jù)集中108—112 波段和154—167波段。
圖1 歐氏距離與皮爾遜相關(guān)系數(shù)的可視化矩陣Fig.1 Visual matrix of Euclidean distance and Pearson correlation coefficient
依據(jù)歐氏距離度量波段間差異時(shí),噪聲波段與非噪聲波段間的距離較大,但噪聲波段之間的距離較小(例如Indian Pines 數(shù)據(jù)集中103—112 波段和148—165 波段)。因此,在采用歐氏距離劃分子空間時(shí),可能出現(xiàn)同一子空間中所有波段都是噪聲波段的情況,致使下一階段所選的最具代表性波段子集中必然存在噪聲波段。圖2 展示了在未去除噪聲波段的Indian Pines 數(shù)據(jù)集上分別采用歐氏距離與皮爾遜相關(guān)系數(shù)的子空間劃分情況,其中噪聲波段區(qū)域使用黑白紋理標(biāo)注??梢钥闯?,采用歐氏距離的分區(qū)方法將噪聲波段148—165、218—220 單獨(dú)分成同一子空間。與歐氏距離不同,皮爾遜相關(guān)系數(shù)基于波段間的協(xié)方差和波段標(biāo)準(zhǔn)差計(jì)算兩個(gè)波段的相似度(Algina 和Olejnik,2003),噪聲波段間皮爾遜相關(guān)系數(shù)較小(例如Salinas 數(shù)據(jù)集中108—112 波段和154—167 波段),甚至接近于0 (例如Indian Pines 數(shù)據(jù)集中103—112 波段和148—165 波段),因此基于皮爾遜相關(guān)系數(shù)的子空間劃分方法有助于避免將噪聲波段單獨(dú)分成同一子空間。據(jù)此本文選用皮爾遜相關(guān)系數(shù)作為高光譜圖像子空間的劃分依據(jù)。
圖2 在Indian Pines數(shù)據(jù)集上的分區(qū)情況Fig.2 Partition on the Indian Pines dataset
假設(shè)高光譜數(shù)據(jù)集X=[x1,x2,…,xL],其中L代表高光譜圖像的波段數(shù)。波段間皮爾遜相關(guān)系數(shù)的計(jì)算如式(1)所示:
式中,cov(xi,xj)是第i個(gè)波段xi與第j個(gè)波段xj的協(xié)方差,σxi和σxj分別是xi與xj的標(biāo)準(zhǔn)差。ci,j表示第i個(gè)波段xi與第j個(gè)波段xj的皮爾遜相關(guān)系數(shù)。ci,j的絕對(duì)值越大,代表xi和xj之間的相關(guān)性越強(qiáng)(Zhang 等,2018)。所有波段的皮爾遜相關(guān)系數(shù)矩陣A可以表示如下
2.1.2 基于皮爾遜相關(guān)系數(shù)的自適應(yīng)子空間劃分
式中,Bk代表劃分后的第k個(gè)子空間,|Bk|為第k個(gè)子空間的波段數(shù)。參照Wang 等(2019)提出的子空間劃分方法,定義子空間劃分的優(yōu)化問(wèn)題如下:
然而,當(dāng)高光譜圖像中存在噪聲波段時(shí),式(5)傾向于將連續(xù)噪聲波段單獨(dú)劃分成一組。這是因?yàn)樵肼暡ǘ谓M與其他波段組光譜相關(guān)性較弱,如果選擇分割點(diǎn)tk使得所有噪聲波段分為一組,則式(5)中的分子項(xiàng)會(huì)取得最小值,而分母項(xiàng)數(shù)值近似等于非噪聲波段組相關(guān)性的大小,因此這種劃分方法容易導(dǎo)致代表性波段子集中出現(xiàn)噪聲波段。
為解決式(5)傾向于將連續(xù)噪聲波段單獨(dú)劃分成一組的問(wèn)題,本文提出使用乘積運(yùn)算取代式(5)分子式中分母項(xiàng)的求和運(yùn)算。這是因?yàn)樵肼暡ǘ谓M內(nèi)部相關(guān)性較小,相比求和運(yùn)算,乘積運(yùn)算會(huì)大幅降低分母項(xiàng)數(shù)值的大小,從而避免在噪聲波段組劃分為一個(gè)子空間、非噪聲波段組劃分為一個(gè)子空間的情況下分子式取得最小值。改寫(xiě)后的優(yōu)化問(wèn)題目標(biāo)函數(shù)可表達(dá)如下:
結(jié)合式(3)與式(4),式(6)可以寫(xiě)成:
在式(7)中,第2 個(gè)分子式計(jì)算子空間Bk與Bk+1波段數(shù)量分別減1后的乘積,目標(biāo)函數(shù)的優(yōu)化過(guò)程將使得這兩個(gè)子空間中的波段數(shù)量差別較大。這是因?yàn)楫?dāng)總波段數(shù)量一定時(shí),兩個(gè)子空間波段數(shù)相差越大,第2 個(gè)分子式的值越小。假設(shè)總共有10 個(gè)波段,當(dāng)Bk= 2、Bk+1= 8 時(shí),第2 個(gè)分子式的值為1.75;當(dāng)Bk= 5、Bk+1= 5 時(shí),第2 個(gè)分子式的值為4,顯然最小化優(yōu)化問(wèn)題的目標(biāo)函數(shù)將傾向于選擇前一種劃分策略。為了解決這一問(wèn)題,依據(jù)Geoffrion(1974)和Guignard(2003)關(guān)于最小化問(wèn)題的松弛定義,對(duì)式(7)中的優(yōu)化問(wèn)題進(jìn)行了松弛處理,如式(8)所示:
通過(guò)對(duì)優(yōu)化問(wèn)題(7)的松弛處理,可以有效緩解各子空間波段數(shù)目不均衡的問(wèn)題。據(jù)此,本文通過(guò)求解式(8)的最優(yōu)化問(wèn)題,得到第k個(gè)子空間與第k+ 1個(gè)子空間之間的最佳分割點(diǎn)。
波段搜索準(zhǔn)則旨在從子空間中選出高光譜圖像信息量大、類(lèi)別可分性較好的波段組合。波段方差、信息熵和噪聲水平等是常用的波段評(píng)價(jià)依據(jù)(谷延鋒和張曄,2003;蔣金豹 等,2016;Zhang 等,2016;Wang 等,2019)。當(dāng)高光譜圖像中包含噪聲時(shí),噪聲波段會(huì)對(duì)圖像質(zhì)量產(chǎn)生較大影響,增加圖像分類(lèi)任務(wù)的不確定性。
為了選擇子空間中信息量大、且噪聲水平低的波段作為該子空間的代表性波段,本文提出的波段搜索準(zhǔn)則將通過(guò)組合信息熵和噪聲水平兩個(gè)指標(biāo)來(lái)評(píng)估各個(gè)波段的信息量。選擇子空間Bk中代表性波段yk的優(yōu)化任務(wù)可以定義如下:
式中,E(xi)和N(xi)分別代表波段xi的信息熵和噪聲水平,λN(xi)為懲罰項(xiàng),λ為懲罰系數(shù),可以通過(guò)實(shí)驗(yàn)選取使波段選擇結(jié)果最優(yōu)的λ值。波段的噪聲水平計(jì)算采用Coakley 和Bretherton(1982)給出的方法。依據(jù)式(9)計(jì)算劃分到子空間Bk中所有波段的信息量,將具有最高信息量的波段選為該子空間的代表性波段。子空間劃分與波段搜索方法(PIENL)的實(shí)現(xiàn)過(guò)程為
輸入:高光譜數(shù)據(jù)集X=[x1,x2,…,xL],代表性波段數(shù)K。
本文使用3個(gè)公開(kāi)常用的高光譜數(shù)據(jù)集來(lái)驗(yàn)證所提出方法的有效性。
(1)Indian Pines 數(shù)據(jù)集:通過(guò)AVIRIS 傳感器采集,由145像素×145像素和220個(gè)波段組成,波長(zhǎng)范圍在0.4—2.5 μm 之間,空間分辨率為20 m,包含16 種地物類(lèi)型;其中,信噪比較低的波段有1—3、103—112、148—165 和217—220 等35 個(gè)波段(Zhang 等,2018)。去掉水和二氧化碳吸收嚴(yán)重噪聲波段(104—108、150—163和220)后的修正數(shù)據(jù)集共200個(gè)波段,Indian Pines數(shù)據(jù)集假彩色圖像及其真值圖如圖3所示。
圖3 Indian Pines數(shù)據(jù)集Fig.3 Indian Pines dataset
(2)Washington DC 數(shù)據(jù)集:通過(guò)HYDICE 傳感器拍攝,由280×307 像素和191 個(gè)波段組成,波長(zhǎng)范圍在0.4—2.4 μm 之間,空間分辨率為1.5 m,包含6 種地物類(lèi)型。由于航拍數(shù)據(jù)噪聲水平較低,本文人為地對(duì)波段61—80和141—150等30個(gè)波段添加10%的高斯噪聲以檢驗(yàn)不同波段選擇算法的抗噪能力,將人為添加噪聲后的圖像作為未去除噪聲波段的數(shù)據(jù)集;Washington DC 數(shù)據(jù)集假彩色圖像及其真值圖如圖4所示。
圖4 Washington DC數(shù)據(jù)集Fig.4 Washington DC dataset
(3)Salinas 數(shù)據(jù)集:通過(guò)AVIRIS 傳感器采集,由512像素×217像素和224個(gè)波段組成,空間分辨率為3.7m,包含16 種地物類(lèi)型。受大氣影響較大和信噪比較低的波段有108—112、154—167和224 等20 個(gè)波段,去除噪聲嚴(yán)重波段后的修正數(shù)據(jù)集共204個(gè)波段;Salinas數(shù)據(jù)集假彩色圖像及其真值圖如圖5所示。
圖5 Salinas數(shù)據(jù)集Fig.5 Salinas dataset
本文通過(guò)波段平均相關(guān)性與分類(lèi)精度兩種指標(biāo)來(lái)驗(yàn)證所提出方法的有效性,并分析各種波段選擇方法的噪聲魯棒性。
(1)分類(lèi)精度:總體精度(OA)、平均精度(AA)和Kappa 系數(shù)用于量化分類(lèi)效果。在實(shí)驗(yàn)中使用SVM 分類(lèi)器對(duì)高光譜圖像進(jìn)行分類(lèi),并采用徑向基函數(shù)作為核函數(shù)。通過(guò)交叉驗(yàn)證方法估計(jì)最優(yōu)方差參數(shù)和懲罰因子。每次實(shí)驗(yàn)隨機(jī)選擇10%的樣本進(jìn)行訓(xùn)練,其余樣本用于測(cè)試。分類(lèi)精度采用10次獨(dú)立運(yùn)行實(shí)驗(yàn)精度的平均值和標(biāo)準(zhǔn)差。
(2)波段相關(guān)性:本文使用波段平均相關(guān)系數(shù)(ACC)評(píng)估所選的代表性波段的相關(guān)性,ACC的絕對(duì)值越大,波段平均相關(guān)性越強(qiáng),冗余度越高。
(3)噪聲魯棒性:以Indian Pines和Salinas數(shù)據(jù)集為例,對(duì)不同方法所選擇的代表性波段進(jìn)行分析和比較,評(píng)價(jià)各種波段選擇方法對(duì)噪聲的魯棒性。
在計(jì)算波段噪聲水平時(shí),需要事先將每個(gè)波段圖像劃分為M×M像素大小的小塊(Coakley 和Bretherton,1982)。Wang 等(2019)詳細(xì)分析了塊大小對(duì)不同數(shù)據(jù)集的影響。參考Wang等(2019)論文中的實(shí)驗(yàn)結(jié)果數(shù)據(jù),本文在Indian Pines 數(shù)據(jù)集上取M= 3,在Washington DC數(shù)據(jù)集上取M= 5,在Salinas數(shù)據(jù)集上取M= 10。
在式(9)的目標(biāo)函數(shù)中,參數(shù)λ的最優(yōu)值通過(guò)實(shí)驗(yàn)確定。圖6給出了在3個(gè)數(shù)據(jù)集上選取10個(gè)代表性波段時(shí),隨著λ值逐步增加,分類(lèi)精度的變化情況。本文在Indian Pines 和Washington DC 數(shù)據(jù)集上取λ= 100,在Salinas數(shù)據(jù)集上取λ= 125。
圖6 在3個(gè)數(shù)據(jù)集上選取10個(gè)代表性波段的分類(lèi)精度隨λ值的變化曲線Fig.6 Classification accuracy of 10 representative bands selected from three datasets varies with the value of λ
實(shí)驗(yàn)環(huán)境為Intel Core i7?6700四核處理器,主頻3.40 GHz,有效內(nèi)存32 GB,開(kāi)發(fā)環(huán)境為Matlab R2017b。本文將PIENL方法與Chang等(1999)提出的最大方差主成分分析方法MVPCA(Maximum?Variance PCA),Chang 和Wang (2006)提出的基于線性約束最小方差的波段相關(guān)最小化方法LCMVBCM (Linearly Constrained Minimum Variance based Band Correlation Minimization), Martínez?Usómartinez?Uso 等(2007)提出的沃德發(fā)散聯(lián)動(dòng)策略(WaluDI),Rodriguez 和Laio(2014)提出的基于快速密度峰的聚類(lèi)算法(FDPC)和Wang 等(2019) 提出的自適應(yīng)子空間噪聲最小化方法(ASPS_MN)等波段選擇方法進(jìn)行了對(duì)比實(shí)驗(yàn)。其中,ASPS_MN 方法在波段搜索階段同樣考慮了噪聲的影響,該方法將Coakley 和Bretherton(1982)提出的噪聲水平計(jì)算方法作為波段搜索準(zhǔn)則。為了充分驗(yàn)證本文提出方法的優(yōu)越性,在去除噪聲嚴(yán)重波段的修正數(shù)據(jù)集與未去除噪聲波段的數(shù)據(jù)集上均進(jìn)行了對(duì)比實(shí)驗(yàn)。
3.4.1 基于皮爾遜相關(guān)系數(shù)的自適應(yīng)子空間劃分有效性驗(yàn)證
(1)子空間劃分的目標(biāo)函數(shù)有效性驗(yàn)證。以Indian Pines 高光譜圖像的148—197 波段(共50 個(gè)連續(xù)波段,其中148—165 為噪聲波段,166—197為非噪聲波段)為實(shí)驗(yàn)數(shù)據(jù)集,驗(yàn)證式(8)中目標(biāo)函數(shù)的有效性,實(shí)驗(yàn)結(jié)果如圖7 所示。由圖7 可以看出,在所有可能劃分情況下,式(5)中的目標(biāo)函數(shù)在將連續(xù)噪聲波段148—165 劃分為一個(gè)子空間、非噪聲波段166—197 劃分為另一個(gè)子空間時(shí)取得最小值;式(6)和(7)中的目標(biāo)函數(shù)在分割點(diǎn)為194時(shí)取得最小值,避免了將連續(xù)噪聲波段148—165 劃分為一個(gè)子空間的情況,然而兩個(gè)子空間中的波段數(shù)量分別為47 和3,相差極大;式(8)中的目標(biāo)函數(shù)在分割點(diǎn)為179 時(shí)取得最小值,既避免了相鄰子空間Bk與Bk+1中波段數(shù)量不均衡的問(wèn)題,也避免了將連續(xù)噪聲波段單獨(dú)劃分為一個(gè)子空間的情況。因此,選用式(8)作為自適應(yīng)子空間劃分優(yōu)化問(wèn)題的目標(biāo)函數(shù)是有效的。
圖7 不同目標(biāo)函數(shù)對(duì)最佳分割點(diǎn)選擇的影響(紅圈代表最佳分割點(diǎn))Fig.7 Adjacent subspace partition points of different objective functions(the red circle represents the best partition point)
(2)與其他子空間劃分方法的對(duì)比實(shí)驗(yàn)。為了驗(yàn)證本文提出的基于皮爾遜相關(guān)系數(shù)的子空間劃分方法的有效性,本文將PIENL 方法與其他子空間劃分方法及波段均分方法進(jìn)行了對(duì)比。其中,增強(qiáng)的快速聚類(lèi)算法E?FDPC(Jia 等,2016)和波段均分方法(根據(jù)所選代表性波段的數(shù)量將高光譜數(shù)據(jù)集平均劃分) 為非自適應(yīng)劃分方法,ASPS_MN 和PIENL 為自適應(yīng)子空間劃分方法。表1展示了在3個(gè)數(shù)據(jù)集上選取20個(gè)代表性波段時(shí)的分類(lèi)精度。為了消除子空間波段搜索方法差異的影響,對(duì)比方法在波段搜索過(guò)程中均使用本文提出的子空間波段搜索方法,在表1中使用*標(biāo)注。從表2 中可以看出,PIENL 方法在去除噪聲嚴(yán)重波段的修正數(shù)據(jù)集上總體精度比ASPS_MN 方法提高了大約1%,比E?FDPC 方法及波段均分方法提高了大約1%—2%,Kappa 系數(shù)在3 個(gè)修正數(shù)據(jù)集上提高了1%—5%左右。PIENL 方法在未去除噪聲波段數(shù)據(jù)集上總體精度比ASPS_MN 方法提高了大約1%—3%,比E?FDPC 方法及波段均分方法提高了大約1%—2%,Kappa 系數(shù)提高了大約1%—5%。在幾種對(duì)比方法中,PIENL的分類(lèi)精度最高,證實(shí)了本文提出的基于皮爾遜相關(guān)系數(shù)的子空間劃分方法的有效性。
表1 在3個(gè)數(shù)據(jù)集上分別選取20個(gè)代表性波段用于驗(yàn)證子空間劃分方法的有效性Table 1 Select 20 bands to verify the effectiveness of the subspace partition method on three hyperspectral datasets/%
3.4.2 提出的波段信息量度量方法有效性驗(yàn)證
為了驗(yàn)證本文提出的波段信息量度量方法的有效性,本文在3個(gè)未去除噪聲波段的數(shù)據(jù)集上采用相同的子空間劃分方法驗(yàn)證不同度量方法選取代表性波段的類(lèi)別可分性。圖8 展示了在3 個(gè)未去除噪聲波段數(shù)據(jù)集上,使用不同度量方法選取不同數(shù)量代表性波段時(shí)的OA 曲線。從圖8 中可以看出,采用本文提出的信息量度量方法選取的代表性波段的OA 明顯高于使用方差、信息熵和噪聲水平作為波段搜索準(zhǔn)則的方法,這也證實(shí)了采用本文在波段搜索階段改進(jìn)的信息熵與噪聲水平相結(jié)合的信息量度量方法可以選出子空間中信息量大且噪聲水平低的代表性波段,具有較好的類(lèi)別可分性。
圖8 在3個(gè)數(shù)據(jù)集上使用不同信息量度量方法選取波段的OA曲線Fig.8 OA for using different information measurement methods to select bands on three datasets
3.4.3 修正數(shù)據(jù)集上的結(jié)果與分析
(1)類(lèi)別可分性。圖9展示了幾種波段選擇方法在3個(gè)去除噪聲嚴(yán)重波段的修正數(shù)據(jù)集上選取不同數(shù)量代表性波段的OA 變化曲線。從總體變化趨勢(shì)上看,大部分方法的分類(lèi)精度隨所選代表性波段數(shù)量的增加而增加。當(dāng)所選波段達(dá)到30 個(gè)以上時(shí),各種方法的精度基本趨于穩(wěn)定。圖9中水平虛線為使用全波段分類(lèi)的結(jié)果。PIENL 方法在3 個(gè)修正數(shù)據(jù)集上選擇20—30 個(gè)代表性波段時(shí),精度達(dá)到或超過(guò)使用全波段分類(lèi)的結(jié)果。從圖9(a)可以看出,當(dāng)PIENL 方法在Indian Pines 數(shù)據(jù)集上選擇代表性波段的數(shù)量超過(guò)15個(gè)時(shí),其分類(lèi)精度明顯高于其他方法。各種波段選擇方法在Washington DC 和Salinas 數(shù)據(jù)集上的分類(lèi)精度變化曲線分別由圖9(b)和圖9(c)給出。與Indian Pines 數(shù)據(jù)集相比,PIENL 方法在Washington DC 和Salinas 數(shù)據(jù)集上的優(yōu)勢(shì)并不明顯,這是由于Indian Pines 數(shù)據(jù)集是由星載傳感器拍攝,受大氣噪聲影響較為嚴(yán)重,波段的噪聲水平較高,而Washington DC 和Salinas 數(shù)據(jù)集是由機(jī)載傳感器拍攝,空間分辨率較高,波段的噪聲水平較低。
圖9 在去除噪聲嚴(yán)重波段的修正數(shù)據(jù)集上選取不同數(shù)量波段的OA曲線Fig.9 OA for selecting different numbers of bands on the dataset with high?noise bands removed
表2給出了在3個(gè)修正數(shù)據(jù)集上分別選取10個(gè)代表性波段的總體精度(OA)、平均精度(AA)和Kappa系數(shù)。當(dāng)選取10個(gè)代表性波段時(shí),PIENL方法與ASPS_MN 方法在去除噪聲嚴(yán)重波段的Indian Pines 數(shù)據(jù)集上明顯優(yōu)于其它方法,可以說(shuō)明在去除噪聲嚴(yán)重波段后的數(shù)據(jù)集上考慮噪聲影響也是十分必要的。從表2中可以看出,本文提出的PIENL 方法在各個(gè)數(shù)據(jù)集上都取得了較好的結(jié)果。PIENL 方法在的Indian Pines 數(shù)據(jù)集上總體精度相比其它方法提高了3%—13%,分類(lèi)精度已經(jīng)非常接近使用所有波段分類(lèi)的結(jié)果,在Washington DC 數(shù)據(jù)集上總體精度相比其它方法提高了1.5%—6.0%,在Salinas 數(shù)據(jù)集上總體精度相比其它方法提高了1%—6%。
表2 在3種修正數(shù)據(jù)集上選取10個(gè)代表性波段的分類(lèi)精度Table 2 Classification accuracy of 10 representative bands selected on three datasets with high-noise bands removed/%
PIENL方法在去除噪聲嚴(yán)重波段后的修正數(shù)據(jù)集上效果仍然優(yōu)異的原因如下:一是提出的基于皮爾遜相關(guān)系數(shù)的子空間劃分方法能夠降低代表性波段間的相關(guān)性,從而減少所選波段之間的冗余信息;二是修正數(shù)據(jù)集中仍包含部分信噪比較低的波段,噪聲增加了高光譜圖像分類(lèi)任務(wù)的不確定性,在波段搜索過(guò)程中提出改進(jìn)的波段信息量度量方法能夠同時(shí)兼顧信息熵和噪聲水平,選出子空間中信息量大且噪聲水平低的波段。在3個(gè)數(shù)據(jù)集上選取10 個(gè)代表性波段的分類(lèi)圖由圖10、圖11和圖12給出。
圖10 不同方法的Indian Pines圖像分類(lèi)結(jié)果Fig.10 Indian Pines image classification results obtained by different methods
圖11 不同方法的Washington DC圖像分類(lèi)結(jié)果Fig.11 Washington DC image classification results obtained by different methods
圖12 不同方法的Salinas圖像分類(lèi)結(jié)果Fig.12 Salinas image classification results obtained by different methods
(2)相關(guān)性分析。表4 展示了在3 個(gè)數(shù)據(jù)集上分別選取10 個(gè)代表性波段的平均相關(guān)系數(shù)。對(duì)于高光譜數(shù)據(jù),代表性波段的平均相關(guān)性越小,波段子集冗余度越低。平均相關(guān)系數(shù)ACC 的取值范圍為[?1,1]:|ACC|<0.2 為極弱相關(guān)或不相關(guān);0.2≤|ACC|<0.4 為弱相關(guān);0.4≤|ACC|<0.6 為中等程度相關(guān);0.6≤|ACC|<0.8 為強(qiáng)相關(guān);0.8≤|ACC|≤1 為極強(qiáng)相關(guān)(Acito 等,2011)。在Indian Pines 數(shù)據(jù)集上,PIENL 及ASPS_MN 方法選取波段子集的ACC 相比其它方法是較低的,其值都小于0.4,即它們選擇的代表性波段之間為弱相關(guān),而其他方法選擇的代表性波段之間為中等程度相關(guān)甚至強(qiáng)相關(guān)。在Washington DC 和Salinas 數(shù)據(jù)集上,PIENL方法較其他方法的ACC 是最低的。在Salinas 數(shù)據(jù)集上,PIENL 方法所選波段子集的ACC 只有0.2 左右,說(shuō)明代表性波段的冗余度非常低。
表4 3個(gè)數(shù)據(jù)集上選取10個(gè)代表性波段的平均相關(guān)系數(shù)Table 4 Average correlation coefficient of 10 representative bands selected on three datasets
3.4.4 未去除噪聲波段數(shù)據(jù)集上的結(jié)果與分析
(1)類(lèi)別可分性。圖13 展示了幾種波段選擇方法在3 個(gè)未去除噪聲波段的高光譜數(shù)據(jù)集上的OA 變化曲線。從總體變化趨勢(shì)上看,大部分方法的分類(lèi)精度隨所選代表性波段數(shù)量的增加而增加。圖13 中水平虛線代表使用全波段分類(lèi)的結(jié)果,與圖9中水平虛線相比,使用未去除噪聲波段的全波段進(jìn)行分類(lèi)時(shí),分類(lèi)精度明顯降低。從圖13 中可以看出,當(dāng)僅選擇10 個(gè)代表性波段時(shí),PIENL 方法的精度便達(dá)到或高于使用全波段進(jìn)行分類(lèi)的精度。ASPS_MN 等波段選擇方法受噪聲影響較大,而PIENL 方法在3個(gè)未去除噪聲波段的數(shù)據(jù)集上均有良好表現(xiàn),證實(shí)了PIENL 方法對(duì)噪聲具有較強(qiáng)的魯棒性。
圖13 在未去除噪聲波段的數(shù)據(jù)集上選取不同數(shù)量波段的OA曲線Fig.13 OA for selecting different numbers of bands on datasets containing noise bands
表5 給出了在3 個(gè)未去除噪聲波段的數(shù)據(jù)集上分別選取10 個(gè)代表性波段的總體精度(OA)、平均精度(AA)和Kappa 系數(shù),從中可以看出,本文提出的PIENL 方法在各個(gè)數(shù)據(jù)集上都取得了較好的結(jié)果。在未去除噪聲波段的Indian Pines 和Washington DC 數(shù)據(jù)集上選取10 個(gè)波段的分類(lèi)結(jié)果高于使用所有波段及其它方法的分類(lèi)精度。從表5 中可以看出,PIENL 方法在3 個(gè)未去除噪聲波段的數(shù)據(jù)集上的分類(lèi)精度高于其它所有方法,在未去除噪聲波段的Indian Pines 數(shù)據(jù)集上相比其它方法總體精度提高了6%—11%,在Washington DC數(shù)據(jù)集上總體精度提高了2%—8%,在Salinas 數(shù)據(jù)集上總體精度提高了3%—7%,證實(shí)了PIENL方法在未去除噪聲波段的數(shù)據(jù)集上表現(xiàn)更加優(yōu)異。
表5 在未去除噪聲波段的數(shù)據(jù)集上選取10個(gè)代表性波段的分類(lèi)精度Table 5 Classification accuracy of 10 representative bands selected on datasets containing noise bands/%
(2)噪聲魯棒性分析。表6 和表7 展示了不同波段選擇方法在未去除噪聲波段的Indian Pines 和Salinas 數(shù)據(jù)集上所選的10 個(gè)代表性波段的序號(hào),并對(duì)其中的噪聲波段進(jìn)行了顏色加深標(biāo)記。在未經(jīng)噪聲波段去除的Indian Pines 數(shù)據(jù)集上,LCMVBCM 和WaluDI 方法所選的10 個(gè)代表性波段中包含3 個(gè)噪聲波段,F(xiàn)DPC 和ASPS_MN 方法包含了2個(gè)噪聲波段。在未去除噪聲波段的Salinas數(shù)據(jù)集上,LCMVBCM 和ASPS_MN 方法選擇了2 個(gè)噪聲波段,F(xiàn)DPC 和WaluDI 方法選擇了1 個(gè)噪聲波段。MVPCA 和PIENL 方法在兩個(gè)數(shù)據(jù)集上都沒(méi)有選擇噪聲波段作為代表性波段。然而從表6 和表7中可以看出,MVPCA 方法選擇的大多數(shù)代表性波段序號(hào)都是相鄰的,波段子集的信息冗余度非常高,多樣性無(wú)法保證,因而相比其他方法,該方法的分類(lèi)精度是最低的。PIENL方法能有效避開(kāi)噪聲波段,且其選擇的代表性波段之間相關(guān)性較弱,因而分類(lèi)精度是所有方法中最高的,這表明PIENL方法具有噪聲魯棒性。
表6 不同方法在Indian Pines數(shù)據(jù)集上選取的10個(gè)波段時(shí)噪聲波段包含情況Table 6 Noise bands in 10 bands selected by different methods on the Indian Pines dataset
表7 不同方法在Salinas數(shù)據(jù)集上選取的10個(gè)波段時(shí)噪聲波段包含情況Table 7 Noise bands in 10 bands selected by different methods on the Salinas dataset
3.4.5 計(jì)算時(shí)間分析
表8 展示了在Indian Pines 數(shù)據(jù)集上使用不同波段選擇方法分別選取10、20、30、40、50 和60 個(gè)代表性波段(k)的計(jì)算時(shí)間??梢钥闯?,PIENL 方法的計(jì)算時(shí)間僅次于MVPCA 方法,優(yōu)于ASPS_MN等其他波段選擇方法。但MVPCA方法所選的代表性波段分類(lèi)精度較低(圖9、表3、圖13和表5),而PIENL 方法所選的代表性波段在各種波段選擇方法中分類(lèi)精度最高。
表8 在Indian Pines數(shù)據(jù)集上使用不同波段選擇方法的計(jì)算時(shí)間Table 8 Computing times of different band selection methods used on the Indian Pines dataset
3.4.6 消融實(shí)驗(yàn)
PIENL方法在Wang等(2019)提出的ASPS_MN方法的基礎(chǔ)上做了兩點(diǎn)改進(jìn):一是提出基于皮爾遜相關(guān)系數(shù)的自適應(yīng)子空間劃分方法;二是提出基于信息熵與噪聲水平的波段搜索準(zhǔn)則。表9 在3 個(gè)數(shù)據(jù)集上分別展示了本文提出的自適應(yīng)子空間劃分方法及波段搜索準(zhǔn)則的有效性。從表9中的可以看出,ASPS_MN 方法在去除噪聲嚴(yán)重波段的修正Indian Pines 數(shù)據(jù)集上,采用本文提出的子空間劃分方法的總體精度提高了2%左右,在未去除噪聲的波段Indian Pines數(shù)據(jù)集上提高了3%左右,這是由于本文提出的子空間劃分方法能夠避免將連續(xù)的噪聲波段單獨(dú)劃分成一個(gè)子空間,在Salinas和Washington DC 數(shù)據(jù)集上也取得了不同程度的提升,證實(shí)了本文提出的子空間劃分方法的有效性和必要性。ASPS_MN 方法在未去除噪聲波段的3 個(gè)數(shù)據(jù)集上使用本文提出的波段搜索準(zhǔn)則,其總體精度提高了2%左右,證實(shí)了本文提出的使用信息熵與噪聲水平相結(jié)合的波段搜索準(zhǔn)則優(yōu)于單獨(dú)使用噪聲水平的波段搜索準(zhǔn)則。將基于皮爾遜相關(guān)系數(shù)的子空間劃分方法及波段搜索準(zhǔn)則相結(jié)合時(shí),PIENL方法在未去除噪聲波段的Indian Pines數(shù)據(jù)集上總體精度提高了6%以上。在Salinas和Washington DC數(shù)據(jù)集上的實(shí)驗(yàn)也可以得到類(lèi)似結(jié)論。
本文針對(duì)高光譜圖像波段選擇結(jié)果受噪聲影響較大的問(wèn)題,提出了一種噪聲魯棒的高光譜圖像自適應(yīng)子空間劃分與波段搜索方法PIENL,該方法在子空間劃分和波段搜索過(guò)程中都考慮了噪聲對(duì)波段選擇的影響。在子空間劃分階段,使用皮爾遜相關(guān)系數(shù)度量含有噪聲的高光譜圖像波段間的相關(guān)性;在波段搜索階段,提出了引入噪聲水平作為懲罰項(xiàng),即挑選出信息量大且噪聲水平低的波段作為代表性波段。在Indian Pines、Washington DC 和Salinas 這3 個(gè)高光譜公共數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:
(1)采用歐氏距離劃分子空間時(shí)可能出現(xiàn)同一子空間中所有波段都是噪聲波段的情況,導(dǎo)致下一階段所選的最具代表性波段子集中必然存在噪聲波段;而基于皮爾遜相關(guān)系數(shù)的子空間劃分方法則有助于避免將噪聲波段單獨(dú)分成同一子空間,因此,皮爾遜相關(guān)系數(shù)更適合于度量含有噪聲的高光譜圖像波段之間的光譜差異;
(2)綜合考慮信息熵和噪聲水平兩個(gè)指標(biāo)度量波段信息量,有助于選出高光譜圖像中信息量大且噪聲水平低的代表性波段;
(3)PIENL方法選擇的代表性波段具有更好的類(lèi)別可分性。相比ASPS_MN 等先進(jìn)的波段選擇方法,PIENL 方法在3 個(gè)修正數(shù)據(jù)集上的總體精度分別提高了3%—13%、1.5%—6.0%和1%—6%;在3 個(gè)未去除噪聲波段的數(shù)據(jù)集上總體精度分別提高了6%—11%、2%—8% 和3%—7%。這也表明PIENL方法在未去除噪聲波段的數(shù)據(jù)集上表現(xiàn)更加優(yōu)異。
下一步工作主要考慮PIENL 方法在子空間劃分過(guò)程中自適應(yīng)確定子空間的數(shù)量,避免代表性波段數(shù)量選擇不當(dāng)造成高光譜圖像重要光譜特征缺失或波段信息冗余等問(wèn)題。