譚靖,王東,陳時雨(1.北京航天泰坦科技股份有限公司,北京 100067; .武漢大學(xué)遙感信息工程學(xué)院,湖北武漢 430079)
幾種BP網(wǎng)絡(luò)訓(xùn)練方法的高光譜影像分類對比分析
譚靖1?,王東2,陳時雨2
(1.北京航天泰坦科技股份有限公司,北京 100067; 2.武漢大學(xué)遙感信息工程學(xué)院,湖北武漢 430079)
摘 要:以Indian Pine數(shù)據(jù)集為研究對象,利用等角特征映射對其進(jìn)行特征提取,然后選取BP網(wǎng)絡(luò)傳統(tǒng)的梯度下降訓(xùn)練方法和正切擬牛頓法、Polak-Ribiere共軛梯度法、Levenberg-Marquart法3種數(shù)值優(yōu)化的訓(xùn)練方法對其進(jìn)行分類。對分類結(jié)果進(jìn)行對比分析,結(jié)果表明:基于數(shù)值分析的訓(xùn)練方法訓(xùn)練網(wǎng)絡(luò)的耗時均比梯度下降法長,但收斂效果更好;總體分類精度均比梯度下降法至少提高6%;各類別制圖精度都較高,且較為穩(wěn)定,而梯度下降法只對易分的類別精度高;3
種數(shù)值分析訓(xùn)練方法中,正切擬牛頓法和Polak-Ribiere共軛梯度法的收斂效率和分類精度比Levenberg-Marquart法高。
關(guān)鍵詞:BP網(wǎng)絡(luò);訓(xùn)練;數(shù)值優(yōu)化;高光譜影像;分類
高光譜影像分類是遙感技術(shù)發(fā)展的重要環(huán)節(jié),對遙感數(shù)據(jù)庫建設(shè)、信息提取、農(nóng)業(yè)動態(tài)監(jiān)測、環(huán)境保護(hù)等各方面均有重要意義[1]。人工神經(jīng)網(wǎng)絡(luò)是高光譜影像分類的一個重要方法,其中BP網(wǎng)絡(luò)是應(yīng)用最為廣泛的[2]。
很多學(xué)者對傳統(tǒng)的BP網(wǎng)絡(luò)訓(xùn)練,即基于一階梯度網(wǎng)絡(luò)訓(xùn)練的遙感分類,進(jìn)行了研究。Mahmon等通過比較BP網(wǎng)絡(luò)分類和最大似然法分類、ISODATA聚類,發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)的分類效果更好[3]。Liu等鑒于梯度下降法訓(xùn)練網(wǎng)絡(luò)時易局部收斂,對隱層網(wǎng)絡(luò)進(jìn)行分組設(shè)置,從而改進(jìn)BP網(wǎng)絡(luò)[4]。Philip等對BP網(wǎng)絡(luò)的訓(xùn)練參數(shù)進(jìn)行研究,選取合適的參數(shù),從而改善BP網(wǎng)絡(luò)分類的效果[5]。駱劍承等對BP網(wǎng)絡(luò)的改進(jìn)包括輸入向量預(yù)處理、網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)調(diào)整、學(xué)習(xí)速率調(diào)整、輔助遺傳算法等[6]。Riedmiller等在進(jìn)行網(wǎng)絡(luò)訓(xùn)練時,利用RP方法,即通過梯度的正負(fù)值改變梯度搜索方向[7],該方法較梯度下降法有很大提升。此外,都業(yè)軍等利用LM算法的BP網(wǎng)絡(luò)訓(xùn)練方法進(jìn)行遙感分類研究,指出LM算法是在中等規(guī)模網(wǎng)絡(luò)中,訓(xùn)練速度最快的算法[8]。丁碩等利用二維數(shù)值矢量為實(shí)驗對象,從算法效率上分析了數(shù)值優(yōu)化的網(wǎng)絡(luò)訓(xùn)練方法的勢[9]。綜合以上分析可知,梯度下降法在網(wǎng)絡(luò)訓(xùn)練過程中,收斂較慢、易陷入局部收斂,大部分學(xué)者主要從改正網(wǎng)絡(luò)參數(shù)方面對其進(jìn)行改進(jìn);而利用基于數(shù)值優(yōu)化的BP網(wǎng)絡(luò)訓(xùn)練方法進(jìn)行遙感分類的研究較少。
基于以上分析,本文主要對比分析梯度下降法和數(shù)值優(yōu)化的訓(xùn)練方法在高光譜影像分類中的效果。選取Indian Pine高光譜數(shù)據(jù)集為研究對象,利用等角特征映射對其進(jìn)行特征提取實(shí)現(xiàn)數(shù)據(jù)降維,然后利用傳統(tǒng)的梯度下降法和具有代表性的3種數(shù)值優(yōu)化網(wǎng)絡(luò)訓(xùn)練方法:正切擬牛頓法、Polak-Ribiere共軛梯度法、Levenberg-Marquart法,對上述數(shù)據(jù)集進(jìn)行分類及精度評價,并對比分析各種訓(xùn)練方法的分類效果。
BP網(wǎng)絡(luò)是多層前向神經(jīng)網(wǎng)絡(luò),各層節(jié)點(diǎn)通過S型函數(shù)傳遞,BP網(wǎng)絡(luò)各層節(jié)點(diǎn)間的權(quán)值和閾值調(diào)整采用誤差反向傳播學(xué)習(xí)算法。利用BP網(wǎng)絡(luò)進(jìn)行高光譜影像分類,是將影像特征作為輸入,經(jīng)網(wǎng)絡(luò)傳遞得到對應(yīng)的實(shí)際輸出,最終分類類別作為期望輸出,BP網(wǎng)絡(luò)的訓(xùn)練即通過調(diào)整權(quán)值,使期望輸出和實(shí)際輸出差值(ε)最小,從而得到最佳網(wǎng)絡(luò),利用這個網(wǎng)絡(luò)進(jìn)行測試,即可得到最終的分類結(jié)果。
BP網(wǎng)絡(luò)的訓(xùn)練實(shí)質(zhì)是一個非線性目標(biāo)函數(shù)的優(yōu)化問題,其訓(xùn)練方法有傳統(tǒng)的梯度下降法和基于數(shù)值分析的訓(xùn)練方法。梯度下降法每次迭代都按照一階梯度的負(fù)方向進(jìn)行,即按ε的一階負(fù)導(dǎo)數(shù)進(jìn)行誤差修正;利用該方法雖然誤差減小最快,但收斂速度不一定最快。而基于數(shù)值優(yōu)化的訓(xùn)練方法利用了目標(biāo)函數(shù)的二階導(dǎo)數(shù)信息,首先確定誤差改正的方向,再確定誤差改正量的大小,從而進(jìn)行迭代;利用該方法,迭代步長是沿梯度方向改變的,從而可以使收斂速度加快。
2.1梯度下降法(GD)
梯度下降法[10]每次迭代的權(quán)值和閾值修正公式為:其中,X(k)為網(wǎng)絡(luò)的權(quán)值向量或閾值向量;α為學(xué)習(xí)速率;dg(k)為第k次迭代時輸出誤差對各權(quán)值或閾值的梯度向量。
2.2數(shù)值優(yōu)化訓(xùn)練方法
數(shù)值優(yōu)化的網(wǎng)絡(luò)尋優(yōu)分為兩步:首先確定當(dāng)前迭代的最佳搜索方向,而后在此方向上尋求最優(yōu)迭代步長,可以統(tǒng)一描述為:
其中,S(X(k))為由X各分量組成的向量空間的搜索方向;η(k)為在S(X(k))的方向上,使f (X(k+1))達(dá)到極小的步長。
(1)正切擬牛頓法(OSS)
OSS法[11]的第一次迭代的搜索方向為負(fù)梯度方向,即:以后各次迭代的搜索方向為:
其中:
OSS方法是相對于BFGS擬牛頓法提出的一種擬牛頓法,減小了存儲量和計算量。
(2)Polak-Ribiere共軛梯度法(CGP)
共軛梯度法[12]第一步也是沿負(fù)梯度方向進(jìn)行搜索,而后各次搜索方向按當(dāng)前搜索方向的共軛方向進(jìn)行,如式(5)所示,共軛梯度法可以迅速達(dá)到最優(yōu)值。
S(X(k))= -?f (X(k))+β(k)S(X(k-1))(5)
其中,β(k)形式不同,可構(gòu)成不同的共軛梯度法,研究表明,CGP效果更好,CGP中β(k)=,其中g(shù)k=?f (X(k))。
共軛梯度法比大多數(shù)常規(guī)的梯度下降法收斂都要快,而且存儲量和計算量很小。
(3)Levenberg-Marquart法(LM) k
LM法[11]實(shí)際是梯度下降法和擬牛頓法的結(jié)合,其搜索方向為:
其中J表示雅可比矩陣。LM訓(xùn)練初,令λ取很大一個值,此時相當(dāng)于步長很小的梯度下降法;隨著最優(yōu)點(diǎn)的接近,λ減小到0,則S(X(k))從負(fù)梯度方向轉(zhuǎn)向牛頓法的方向。
LM法所需的存儲量比OSS法和CGP都要大,但LM對于中小網(wǎng)絡(luò)的訓(xùn)練效果很好。
3.1數(shù)據(jù)介紹及處理
選擇Indian Pine數(shù)據(jù)集(IP)為實(shí)驗數(shù)據(jù),該數(shù)據(jù)截取于AVIRIS在美國印第安納州獲取的影像,是最常用的高光譜基準(zhǔn)測試數(shù)據(jù)集之一[13]??臻g分辨率為30 m,影像大小為145×145像素,共21 025個高光譜數(shù)據(jù)點(diǎn)。該影像包含由400 nm~2 500 nm共計220個有效波段,去掉水氣吸收帶與噪聲較大的波段,保留有158個波段。該數(shù)據(jù)集主要覆蓋農(nóng)業(yè)用地,被標(biāo)記地面實(shí)況數(shù)據(jù)共計10 171個數(shù)據(jù)點(diǎn),被分為12個類別,表1列出了該數(shù)據(jù)各類別詳細(xì)信息,圖1中左圖為IP數(shù)據(jù)集經(jīng)假彩色合成影像,右圖為實(shí)際地物類別空間分布情況。
IP數(shù)據(jù)集實(shí)際類別信息 表1
圖1 IP數(shù)據(jù)集假彩色合成影像(左)和地面實(shí)況數(shù)據(jù)空間分布(右)
IP數(shù)據(jù)集是高光譜數(shù)據(jù),利用高光譜數(shù)據(jù)直接進(jìn)行分類,將出現(xiàn)Hughes現(xiàn)象,本文利用等角特征映射法(ISO法)對IP數(shù)據(jù)集進(jìn)行特征提取。ISO法是流行學(xué)習(xí)中最早提出的算法,通過計算數(shù)據(jù)在流形上的測地線距離,從而能提取數(shù)據(jù)分布的非線性特征[14]。圖2為利用ISO法提取IP數(shù)據(jù)集的前10個特征波段的結(jié)果,將利用這10個特征波段(簡記為IPisov)進(jìn)行分類研究。
3.2分類實(shí)驗及結(jié)果分析
(1)網(wǎng)絡(luò)設(shè)計
首先構(gòu)建一個3層前向神經(jīng)網(wǎng)絡(luò),其中輸入層為IPisov的10個特征波段,即輸入節(jié)點(diǎn)數(shù)為10;輸出層為實(shí)際類別數(shù),即輸出節(jié)點(diǎn)為12;隱層節(jié)點(diǎn)數(shù)經(jīng)大量實(shí)驗發(fā)現(xiàn),設(shè)置為21個效果最佳。利用BP網(wǎng)絡(luò)訓(xùn)練方法對IPisov進(jìn)行分類研究時,經(jīng)大量實(shí)驗驗證,主要訓(xùn)練參數(shù)的初始值設(shè)定為:學(xué)習(xí)速率0.2,訓(xùn)練最大次數(shù)2 000,最小梯度1e-20,訓(xùn)練精度0.005,輸入層至隱層、隱層至輸出層的傳輸函數(shù)均為雙曲正切S型函數(shù)。
利用如上設(shè)計的網(wǎng)絡(luò)對IPisov進(jìn)行分類,選擇IP數(shù)據(jù)集5%的樣本進(jìn)行訓(xùn)練,剩下95%的樣本進(jìn)行測試;由于IP數(shù)據(jù)集各像元真實(shí)類別均已知,因此可以選擇20組訓(xùn)練樣本和對應(yīng)的測試樣本進(jìn)行交叉驗證,最終結(jié)果取20次實(shí)驗的統(tǒng)計結(jié)果,結(jié)論可靠性高。分別利用GD法、OSS法、CGP法、LM法進(jìn)行網(wǎng)絡(luò)訓(xùn)練和仿真,得到最終的分類結(jié)果,從分類效率、總體精度和各類別精度3個方面對各訓(xùn)練方法的分類結(jié)果進(jìn)行分析。
(2)各訓(xùn)練方法分類效率分析
利用GD法、OSS法、CGP法、LM法進(jìn)行網(wǎng)絡(luò)訓(xùn)練對IPisov分類消耗的時間分別為13 s、31 s、33 s、 23 min 26 s,因此:GD法訓(xùn)練時間很短;LM法因存儲量大,訓(xùn)練非常耗時;OSS法和CGP法耗時基本一致,且耗時較短。
利用GD法、OSS法、CGP法、LM法進(jìn)行網(wǎng)絡(luò)訓(xùn)練對IPisov分類的誤差曲線如圖3所示,可以知道:GD法收斂較慢,且陷入局部收斂;LM法收斂很快;OSS法和CGP法收斂速度較LM稍慢,但收斂效果也很好,其中CGP法略好于OSS法。
圖3 4種訓(xùn)練方法進(jìn)行網(wǎng)絡(luò)訓(xùn)練的誤差曲線
綜上分析,GD法訓(xùn)練簡單,但收斂效果不好;LM法收斂效果最好,但耗時嚴(yán)重;OSS法和CGP法收斂效果較好,耗時也短;因此選擇OSS法和CGP法進(jìn)行網(wǎng)絡(luò)訓(xùn)練較為理想。
(3)各訓(xùn)練方法總體分類精度分析
利用GD法、OSS法、CGP法、LM法進(jìn)行網(wǎng)絡(luò)訓(xùn)練,對IPisov進(jìn)行20次分類實(shí)驗,各訓(xùn)練方法分類的總體精度統(tǒng)計如表2所示,可以知道:3種數(shù)值分析訓(xùn)練方法的分類kappa系數(shù)均達(dá)到0.6,而GD法的kap-pa系數(shù)小于0.6;OSS法和CGP法的總體分類精度最高,達(dá)到70%,且20次實(shí)驗的標(biāo)準(zhǔn)差僅約為1.1%; LM的總體分類精度次之,為66.93%;而GD法的總體分類精度僅為61.11%。
4種訓(xùn)練方法進(jìn)行分類的總體精度統(tǒng)計 表2
(4)各訓(xùn)練方法各類別分類精度分析
利用GD法、OSS法、CGP法、LM法進(jìn)行網(wǎng)絡(luò)訓(xùn)練,對IPisov進(jìn)行20次分類實(shí)驗,各訓(xùn)練方法分類的各類別制圖精度如圖4所示,可以知道:OSS法和CGP法在各類別精度都較高,LM法在類3的精度較低;而GD在類6、類8、類10、類11的精度比其他方法高,但在其他類的精度則比其他方法低很多。4種方法在類3、類12的精度都很低,其中GD法在類3和類12的精度小于5%;LM法類3精度比GD法高,但仍低于10%;而OSS法和CGP法在類3和類12精度都有較大提升。
圖4 4種訓(xùn)練方法進(jìn)行分類的各類別精度
玉米地各類別混淆矩陣 表3
為了進(jìn)一步說明各訓(xùn)練方法的分類效果,對其中較難區(qū)分的類別進(jìn)行混淆矩陣分析。其中,表3為玉米地類(類1無耕作玉米地、類2耕作中玉米地、類3玉米地)的混淆矩陣,可以知道:類1相對類2、類3更容易區(qū)分,而類3很難區(qū)分;其中OSS法、CGP法、LM法效果均比GD法好,其中OSS法和CGP法比LM法效果更好。
表4為大豆地(類7無耕作大豆地、類8耕作中大豆地、類9大豆地)的混淆矩陣,可以知道:GD法對類7和類9分類效果較差,而OSS法、CGP法和LM法的分類精度較GD法有約50%的提升;GD法對類8分類效果比OSS法、CGP法、LM法稍好些,但差距不大。
大豆地各類別混淆矩陣 表4
綜上分析,GD法分類的各類精度不穩(wěn)定,對于易分的類別效果很好,而對于較難分的類別效果很差;而數(shù)值分析訓(xùn)練方法分類在各類別的精度都有較大提升,而且較為穩(wěn)定。
利用BP網(wǎng)絡(luò)3種數(shù)值分析的訓(xùn)練方法(OSS、CGP、LM)和傳統(tǒng)的梯度下降法(GD)對IPisov進(jìn)行分類,并將分類結(jié)果進(jìn)行對比分析,得出以下結(jié)論:
(1)基于數(shù)值分析的BP網(wǎng)絡(luò)訓(xùn)練方法訓(xùn)練網(wǎng)絡(luò),耗時均比GD法長,但收斂效果都比GD法好很多。其中,LM法收斂效果最好但耗時很長,OSS法和CGP法收斂效果較好且耗時較短。
(2)基于數(shù)值分析的BP網(wǎng)絡(luò)訓(xùn)練方法的總體分類效果均比GD法好。其中,OSS法和CGP法的總體分類精度達(dá)到70%,且標(biāo)準(zhǔn)差僅為1.1%;LM法總體分類精度稍低一些,但與GD法相比,有將近6%的提升。
(3)基于數(shù)值分析的BP網(wǎng)絡(luò)訓(xùn)練方法分類的各類別精度較高,且較為穩(wěn)定,其中OSS法和CGP法效果比LM法好;GD法對于易分類別效果好,而對于較難分的類別效果很差。
(4)綜合以上分析,基于數(shù)值分析的BP網(wǎng)絡(luò)訓(xùn)練方法的分類效果與傳統(tǒng)梯度下降法相比,有很大提升;其中OSS法和CGP法分類效果最好。
本文對BP網(wǎng)絡(luò)的3種數(shù)值分析訓(xùn)練方法和梯度下降法用于高光譜影像分類進(jìn)行了對比分析,但是僅針對特定的數(shù)據(jù)進(jìn)行了研究,在今后的工作中,將進(jìn)一步深入研究這些方法用于其他數(shù)據(jù)的分類效果;此外,針對各算法用于分類時存在的缺陷,進(jìn)行改進(jìn)。
參考文獻(xiàn)
[1] Lunetta R S,Johnson D M,Lyon J G,et al.Impacts of imagery temporal frequency on land - cover change detection monitoring[J].REMOTE SENSING OF ENVIRONMENT, 2004,89(4):444~454.
[2] 賈坤,李強(qiáng)子,田亦陳等.遙感影像分類方法研究進(jìn)展[J].光譜學(xué)與光譜分析,2011,31(10):2618~2623.
[3] Mahmon N A,Ya'acob N.A review on classification of satellite image using Artificial Neural Network(ANN)[C].Control and System Graduate Research Colloquium(ICSGRC), 2014 IEEE 5th,Shah Alam,Malaysia,2014.
[4] Liu Z K,Xiao J Y.Classification of remotely-sensed image data using artificial neural networks,International Journal of Remote Sensing,12:11,2433~2438.
[5] Heermann P D,Khazenie N.Classification of multispectral remote sensing data using a back-propagation neural network [J].IEEE Transactions on Geoscience and Remote Sensing,1992,30(1):81~88.
[6] 駱劍承,周成虎,楊艷.人工神經(jīng)網(wǎng)絡(luò)遙感影像分類模型及其與知識集成方法研究[J].遙感學(xué)報,2001,5(2): 122~130.
[7] Riedmiller M,Braun H.A direct adaptive method for faster backpropagation learning:The RPROP algorithm[C].IEEE International Conference on Neural Networks,San Francisco, California,USA,1993.
[8] 都業(yè)軍,周肅,斯琴其其格等.人工神經(jīng)網(wǎng)絡(luò)在遙感影像分類中的應(yīng)用與對比研究[J].測繪科學(xué),2010,35:120 ~121.
[9] 丁碩,常曉恒,巫慶輝.?dāng)?shù)值優(yōu)化改進(jìn)的BP網(wǎng)絡(luò)的模式分類對比[J].計算機(jī)系統(tǒng)應(yīng)用,2014(5):139~144.
[10] Watrous R L.Learning algorithms for connectionist networks:Applied gradient methods of nonlinear optimization [J].Technical Reports (CIS),1988,597.
[11] Saini L M,Soni M K.Artificial neural network based peak load forecasting using Levenberg-Marquardt and quasi-Newton methods[J].IEEE proceedings generation transmission and distribution,2002,149(5):578~584.
[12] Moller M F.A scaled conjugate gradient algorithm for fast supervised learning[J].Neural Networks,1993,6(4):525 ~533.
[13] Chakrabarty A,Choudhury O,Sarkar P,et al.Hyperspectral image classification incorporating bacterial foraging - optimized spectral weighting [ J].Artificial Intelligence Research,2012,1(1):63~83.
[14] 談超,關(guān)佶紅,周水庚.基于等角映射的多樣本增量流形學(xué)習(xí)算法[J].模式識別與人工智能,2014(2):127~133.
Comparative Analysis of Several Training Methods of BP Network on Hyperspectral Image Classification
Tan Jing1,Wang Dong2,Chen Shiyu2
(1.LTD1 Beijing Aerospace TITAN Technology Co.,Ltd,Beijing 100067,China; 2.School of Remote Sensing and Information Engineering,Wuhan University ,Wuhan 430079,China)
Abstract:This paper study on hyperspectral image classification using BP network trained by numerical analysis methods such as OSS,CGP,LM and traditional gradient descent methods,which based on Indian Pine dataset taking feature extraction using isogonism characteristic mapping methods.Comparing the classification results,it shows:the classification result using numerical analysis methods is better than GD methods.Firstly,the training time using numerical analysis methods is longer than GD,but the convergence effect is better.And then,the total accuracy improves 6% at least against GD.In the end,the mapping accuracy of each category is better and more stable than GD,which is only sensitive on easily classified category.At last,Comparing the three numerical analysis methods,the OSS method and CGP method is better than LM method.
Key words:BP Network;training;numerical analysis;hyperspectral image;classification
文章編號:1672-8262(2015)06-73-05中圖分類號:TP751.1
文獻(xiàn)標(biāo)識碼:A
收稿日期:?2015—08—27
作者簡介:譚靖(1970—),男,博士,高級工程師,主要從事空間技術(shù)研究與應(yīng)用。王東(1981—),博士研究生,主要研究方向為遙感圖像處理、定量遙感。
基金項目:北京市科技新星計劃(Z131101000413086);國家國際合作專項國家耕地資源動態(tài)監(jiān)管核心技術(shù)引進(jìn)與合作研究項目。