周曉雪,李楠,潘耀忠,孫莉昕
1.遙感科學(xué)國家重點(diǎn)實(shí)驗(yàn)室北京師范大學(xué)地理科學(xué)學(xué)部,北京 100875;
2.青海師范大學(xué)地理科學(xué)學(xué)院,西寧 810016;
3.北京師范大學(xué)地理科學(xué)學(xué)部遙感科學(xué)與工程研究院,北京 100875
葉面積指數(shù)LAI(Leaf Area Index)是表征植被冠層結(jié)構(gòu)的基本參數(shù)之一,定義為單位地表面積上植物葉片單面總面積(Chen 和Black,1992),是反映植被群體長勢狀況的重要指標(biāo)。目前,LAI廣泛應(yīng)用于作物長勢監(jiān)測、能量交換與平衡、精準(zhǔn)農(nóng)業(yè)以及全球氣候變化研究等多方面(邢著榮等,2010;Latifi和Galos,2010;何友鑄等,2015)。
葉面積指數(shù)觀測主要分為地面測量和遙感監(jiān)測兩種方式,傳統(tǒng)的地面測量在室內(nèi)通過比葉重法或面積量算法來獲取樣本點(diǎn)的LAI,這種方法精度較高,但費(fèi)時(shí)費(fèi)力,僅適用于小范圍區(qū)域,不能滿足大范圍作物長勢監(jiān)測、病蟲災(zāi)害監(jiān)測、全球氣候變化預(yù)測等的需求(劉曉臣等,2008)。遙感監(jiān)測技術(shù)具有大面積實(shí)時(shí)觀測、成本低等特點(diǎn),目前已經(jīng)廣泛應(yīng)用于LAI 的反演研究。遙感反演LAI的主流方法有兩種:物理模型法和統(tǒng)計(jì)模型法(方秀琴和張萬昌,2003)。物理模型法主要是基于植被的輻射傳輸模型,具有很強(qiáng)的物理基礎(chǔ),不受植被類型影響,有較好的適用性,但是模型輸入?yún)?shù)較多且獲取困難,遙感反演結(jié)果不確定,存在所謂的遙感病態(tài)反演問題(梁順林等,2016)。統(tǒng)計(jì)模型法通過建立地表反射率數(shù)據(jù)或植被指數(shù)與LAI實(shí)際觀測值的經(jīng)驗(yàn)關(guān)系模型LAI=f(x)來反演LAI,這種方法雖然對植被的類型、生長環(huán)境、土壤背景都具有依賴性,但是該方法相對簡單,具有良好的操作性,易于推廣使用。如Durbha 等(2007)將統(tǒng)計(jì)模型方法中的支持向量回歸方法SVR(Support Vector Regression)與PROSAIL 模型結(jié)合反演LAI,采用站點(diǎn)實(shí)測LAI 數(shù)據(jù)驗(yàn)證,LAI 預(yù)測值與實(shí)測值的RMSE 達(dá)到0.64。Tuia 等(2011)使用支持向量回歸方法反演遙感影像中的3種生物物理參數(shù):生物葉片葉綠素含量、葉面積指數(shù)和植被覆蓋度,結(jié)果表明使用非參數(shù)方法反演生物物理參數(shù)時(shí),SVR 方法是一個(gè)較好的選擇方案。郭琳等(2010)用環(huán)境星CCD 數(shù)據(jù),建立了歸一化植被指數(shù)NDVI (Normalized Difference Vegetation Index)與LAI 的指數(shù)模型、對數(shù)模型、支持向量回歸(SVR)模型,用于估算甘蔗的LAI 值,結(jié)果發(fā)現(xiàn)支持向量回歸模型反演精度最高。宰松梅等(2011)以甜椒葉片長度和最大寬度建立了估算甜椒葉面積的支持向量模型、線性回歸模型、人工神經(jīng)網(wǎng)絡(luò)模型,結(jié)果表明支持向量機(jī)模型能較真實(shí)地估算甜椒葉面積的實(shí)際大小,估算精度達(dá)到了0.996。梁棟等(2013)在冬小麥不同的生育期,分別利用支持向量機(jī)回歸方法,建立了植被指數(shù)NDVI、RVI(Ratio Vegetation Index)和4 個(gè)波段(藍(lán)、綠、紅和近紅外)與LAI 的關(guān)系模型,結(jié)果表明支持向量機(jī)回歸預(yù)測模型具有更好的擬合效果,且對冬小麥的多個(gè)生育期均具有較好的適用性。
上述研究表明支持向量機(jī)回歸算法應(yīng)用到LAI的反演中具有可行性,與其他反演算法相比具有較好的反演精度。但是其中大多數(shù)研究較少考慮到SVR 參數(shù)的優(yōu)化問題,有研究表明,SVR 中的懲罰系數(shù)C、核函數(shù)寬度g、不敏感損失函數(shù)ε等3個(gè)參數(shù)的取值對回歸精度具有顯著的影響,如果不根據(jù)數(shù)據(jù)特點(diǎn)設(shè)定特定參數(shù),將顯著影響模型精度(閆國華和朱永生,2009;成鵬和汪西莉,2011)。但現(xiàn)有SVR 反演LAI 參數(shù)的研究僅優(yōu)化C、g兩個(gè)參數(shù),并未分析不同參數(shù)對模型精度的敏感性。
人工智能優(yōu)化算法是目前流行的參數(shù)優(yōu)化算法,如蟻群算法(Dorigo 和Gambardella,1997)、遺傳算法(Holland,1975)、粒子群算法(Kennedy和Eberhart,1995)、模擬退火算法(Steinbrunn等,1997)、人工蜂群算法(Karaboga,2005)等。在Karaboga 等的研究中(Karaboga 和Basturk,2007;Karaboga 和Akay,2009;Karaboga 等,2014),通過大量的實(shí)驗(yàn)證明了人工蜂群算法ABC(Artificial Bee Colony)相比其他智能優(yōu)化算法具有更好的優(yōu)化能力,不易陷入局部最優(yōu)。目前已有學(xué)者將人工蜂群算法用于優(yōu)化支持向量機(jī)參數(shù)。如于明和艾月喬(2012)提出一種基于人工蜂群算法的SVM 參數(shù)優(yōu)化方法,用于計(jì)算機(jī)筆跡鑒別,并與遺傳算法、蟻群算法、標(biāo)準(zhǔn)粒子群算法優(yōu)化的SVM對比,結(jié)果證明了ABC算法優(yōu)化的SVM具有更高的分類正確率。王琳等(2014)基于短期交通流量數(shù)據(jù),采用人工蜂群算法、粒子群算法優(yōu)化SVR 預(yù)測模型參數(shù),實(shí)驗(yàn)結(jié)果表明,與粒子群優(yōu)化算法相比,人工蜂群算法優(yōu)化的SVR 預(yù)測方法能夠更有效地克服局部最優(yōu)解,預(yù)測精度較高,運(yùn)行時(shí)間短,具有較強(qiáng)的學(xué)習(xí)能力和推廣能力。李楠等(2018)提出了一種基于人工蜂群算法改進(jìn)SVM 參數(shù)的遙感分類方法,并比較了人工蜂群算法、遺傳算法和粒子群算法優(yōu)化的SVM 分類精度和效率,結(jié)果顯示人工蜂群算法優(yōu)化的SVM 具有更高的分類精度。綜上,本文選擇ABC算法對SVR 關(guān)鍵參數(shù)進(jìn)行優(yōu)化,進(jìn)一步支撐SVR方法在LAI領(lǐng)域中更好的應(yīng)用。
基于上述問題,本文利用人工蜂群算法優(yōu)化支持向量機(jī)回歸3 個(gè)關(guān)鍵參數(shù)(懲罰系數(shù)C、核函數(shù)寬度g、不敏感損失函數(shù)ε),構(gòu)建人工蜂群算法優(yōu)化的SVR 回歸模型,以獲得更精確的LAI 反演結(jié)果。為了驗(yàn)證模型效果,構(gòu)建了3 種LAI 反演模型并對反演精度進(jìn)行了綜合分析:未優(yōu)化參數(shù)的SVR 模型、ABC 算法分別優(yōu)化SVR 單個(gè)參數(shù)的模型(ABC-SVR-C、ABC-SVR-g、ABC-SVR-ε)、ABC 算法優(yōu)化SVR 的3 個(gè)參數(shù)(C、g、ε)的模型(ABC-SVR)。此外分析了SVR 的3 個(gè)關(guān)鍵參數(shù)對LAI 反演模型精度的敏感性,并對ABC 算法優(yōu)化SVR模型的精度進(jìn)行顯著性檢驗(yàn)。
本研究基于美國農(nóng)業(yè)部2002年在愛荷華州開展的土壤水分實(shí)驗(yàn)SMEX02(Soil Moisture Experiment 2002),研究區(qū)如圖1所示,該區(qū)域內(nèi)95%的植被為農(nóng)作物,主要農(nóng)作物包括大豆和玉米。
圖1 實(shí)驗(yàn)區(qū)及LAI地面實(shí)測點(diǎn)分布Fig.1 Study area and the spatial distribution of ground-based LAI measurement site
SMEX02實(shí)驗(yàn)過程中進(jìn)行了地表植被參數(shù)樣本數(shù)據(jù)的采集,其中在WC(Walnut Creek Watershed region)實(shí)驗(yàn)區(qū)建立94個(gè)地面實(shí)測點(diǎn),采集了包括葉面積指數(shù)等的作物生長數(shù)據(jù)和土壤數(shù)據(jù),樣本采集時(shí)間為2002-06-15 到2002-07-09,其中LAI數(shù)據(jù)是使用LAI-2000 進(jìn)行5 次測量的平均值。野外LAI測量點(diǎn)位分布如圖1所示。
由于每個(gè)點(diǎn)位上的LAI測量數(shù)據(jù)不連續(xù)(每天只進(jìn)行部分點(diǎn)位的LAI測量),因此,本實(shí)驗(yàn)選取了LAI 地面測量數(shù)據(jù)較多的2002-07-02 和2002-07-08 兩個(gè)日期內(nèi)的LAI數(shù)據(jù)進(jìn)行實(shí)驗(yàn),這兩日的LAI地面觀測總樣本量分別為31個(gè)和25個(gè),56個(gè)LAI實(shí)際測量值和對應(yīng)作物類別如圖2所示。由于樣本數(shù)量限制,本研究將這兩天數(shù)據(jù)合為一個(gè)共56個(gè)LAI實(shí)測數(shù)據(jù)的樣本集,并根據(jù)隨機(jī)抽樣方法,劃分訓(xùn)練集(70%)和測試集(30%)以構(gòu)建和驗(yàn)證反演模型。
圖2 LAI實(shí)際測量值及作物類別Fig.2 LAI measurement values and the category of crop
本研究根據(jù)LAI實(shí)測數(shù)據(jù),選取兩景接近其日期的Landsat 7 ETM+數(shù)據(jù)作為反演模型的遙感數(shù)據(jù),進(jìn)行葉面積指數(shù)(LAI)的反演,該過程需要準(zhǔn)確獲取每個(gè)影像像元的地表反射率值,因此,本文采用ENVI5.1 中FLAASH(Fast Line-of-sight Atmospheric Analysis of Spectral Hypercubes)大氣校正模型進(jìn)行ETM+數(shù)據(jù)的大氣校正。
兩景數(shù)據(jù)分別為2002-07-01(Path 26、Row 30)和2002-07-08(Path 27、Row 30),圖3為研究區(qū)域地表反射率影像。由于ETM+影像第6 波段分辨率為60 m,與其他波段分辨率(30 m)不相符,故剔除該波段。此外,一些研究指出植被指數(shù)與LAI 具有很強(qiáng)的相關(guān)性(武旭霞和謝巧云,2014;劉洋等,2013),因此本研究引入了NDVI、RVI、EVI 3 種植被指數(shù)參與建立LAI 反演模型,最終使用的所有遙感影像信息如表1。
表1 遙感影像數(shù)據(jù)信息Table 1 Information of remote sensing image
圖3 研究區(qū)域假彩色影像(4、3、2波段合成)Fig.3 False color image of study area(4,3,2 band synthesis)
支持向量機(jī)SVM(Support Vector Machine)是Vpanik等所在的AT&T Bell實(shí)驗(yàn)室研究小組在1995年提出的一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法(Cherkassky,1997),SVM主要解決分類和回歸分析兩類問題(王定成等,2003;臧淑英等,2012)。由于實(shí)際應(yīng)用中,數(shù)據(jù)大部分都是非線性情況,因此SVM 算法中引入核函數(shù)將數(shù)據(jù)映射到高維線性空間,分類則是指在該高維空間里構(gòu)建一個(gè)超平面,使得所有訓(xùn)練樣本到該平面距離最大,兩側(cè)距離超平面最近的樣本點(diǎn)稱為支持向量,由支持向量可以計(jì)算超平面兩側(cè)的超平面α1、α2,這兩個(gè)平面之間的距離越大,表示分類結(jié)果越可靠?;貧w分析是指在該高維空間里構(gòu)建超平面,使得所有訓(xùn)練樣本到該平面的距離最小,超平面兩側(cè)距離最遠(yuǎn)的樣本點(diǎn)為支持向量,同樣可以計(jì)算得到兩個(gè)超平面α1、α2,使得回歸偏差最小。
SVM 應(yīng)用于回歸問題被稱為支持向量回歸SVR(Support Vector Regression),適用于樣本數(shù)量有限、非線性的樣本,能較大程度解決過學(xué)習(xí)和局部極值等不足,廣泛應(yīng)用于模式識別、圖像處理、金融時(shí)序預(yù)測、故障檢測等領(lǐng)域。支持向量回歸分為線性回歸和非線性回歸(Kwok,1998),以下對非線性回歸進(jìn)行解釋。
對于給定的樣本訓(xùn)練集:D={(x1,y1),(x2,y2),(x3,y3),…,(xn,yn)},n為訓(xùn)練樣本個(gè)數(shù),x為樣本訓(xùn)練集中自變量,y為樣本訓(xùn)練集的因變量,在本實(shí)驗(yàn)中為實(shí)測LAI值,支持向量機(jī)非線性回歸通過一個(gè)非線性映射函數(shù)?(x),將數(shù)據(jù)x映射到一個(gè)高維線性空間,再進(jìn)行回歸,回歸函數(shù)如下
式中,f(x)為回歸超平面,ω和b是回歸超平面的系數(shù)。
引入Vapnik 提出的ε-不敏感損失函數(shù)(Cherkassky,1997)
ε為不敏感系數(shù),用于控制擬合精度,式(2)可表達(dá)為,如果x的預(yù)測值f(x)與實(shí)際值y之差小于ε,則認(rèn)為預(yù)測值f(x)是無損失的,反之,則認(rèn)為f(x)預(yù)測值有損失。
引入懲罰系數(shù)C和松弛變量因子ξi、ξ*i,最后的優(yōu)化目標(biāo)為
式中,ξi、ξ*i為第i個(gè)樣本的松弛系數(shù)。
利用拉格朗日乘子,將上述函數(shù)轉(zhuǎn)化為其對偶問題
式中,αi,α*i為拉格朗日系數(shù)向量,K(xi,xj)為核函數(shù)。
通過對對偶問題的求解,得到支持向量機(jī)的最終函數(shù)形式
式中,K(x,xi)為核函數(shù),在本實(shí)驗(yàn)中采用徑向基核函數(shù)RBF(Radial Basis Function),函數(shù)形式如下
式中,g為徑向基核函數(shù)寬度參數(shù)。
綜上,影響SVR 模型回歸性能的參數(shù)包括懲罰系數(shù)C、核函數(shù)寬度參數(shù)g、不敏感損失函數(shù)參數(shù)ε等。懲罰系數(shù)C反映算法對超出ε管道的樣本數(shù)據(jù)的懲罰程度,C越大模型越復(fù)雜,對數(shù)據(jù)的擬合程度越高;RBF 的寬度參數(shù)g,控制函數(shù)徑向作用范圍;不敏感損失函數(shù)參數(shù)ε通過控制回歸誤差管道的大小,影響支持向量的數(shù)目,ε過大,支持向量數(shù)就少,可能導(dǎo)致模型過于簡單,學(xué)習(xí)精度不夠;ε過小,回歸精度較高,但可能導(dǎo)致模型過于復(fù)雜,得不到很好的推廣能力。合理的參數(shù)組合才能得高精度的回歸結(jié)果,因此,本文以人工蜂群算法對優(yōu)化SVR 關(guān)鍵參數(shù)(C,g,ε),建立高精度的SVR反演模型。
人工蜂群算法ABC(Artificial Bee Colony)是由Karaboga 于2005年提出的一種模擬蜂群采蜜行為的啟發(fā)式算法(Karaboga 等,2014),該方法模擬蜂群內(nèi)部不同的分工和合作來完成整個(gè)采蜜過程,目標(biāo)是尋找到最優(yōu)蜜源(問題的最優(yōu)解)。
人工蜂群組成主要包括4個(gè)部分:
(1)蜜源:一個(gè)蜜源與問題的一組解一一對應(yīng),蜜源的花粉數(shù)量表示解的適應(yīng)值,適應(yīng)度越好,在實(shí)際問題中對應(yīng)解則越佳。
(2)引領(lǐng)蜂:一個(gè)引領(lǐng)蜂儲存一個(gè)蜜源的有關(guān)信息并以一定概率進(jìn)行分享,其數(shù)量與蜜源數(shù)量相等,為蜂群規(guī)模的一半。
(3)跟隨蜂:跟隨蜂等在蜂巢里面通過與引領(lǐng)蜂分享相關(guān)信息找到蜜源進(jìn)行采蜜。
(4)偵查蜂:在原有的蜜源被遺棄之后搜索蜂巢附近的新蜜源。
人工蜂群算法實(shí)現(xiàn)流程圖如圖4所示。
圖4 人工蜂群算法流程圖Fig.4 The flow chart of artificial bee colony algorithm
初始化階段:設(shè)置求解問題解空間d維、蜂群規(guī)模NP、引領(lǐng)蜂數(shù)目NP/2、蜜源是否被遺棄控制參數(shù)limit、算法迭代次數(shù)Max Cycle。且ABC 算法隨機(jī)產(chǎn)生NP/2 個(gè)初始解xi,i=1,2,…,NP/2,每個(gè)xi為一個(gè)d維向量,并構(gòu)造適應(yīng)度函數(shù),判斷每個(gè)蜜源的好壞程度。
引領(lǐng)蜂階段:引領(lǐng)蜂在蜜源鄰域進(jìn)行搜索,搜索規(guī)則如式(9)所示:
式中,i,k∈(1,2,…,NP/2),j∈(1,2,…,d),k≠i,k為隨機(jī)選取的相鄰蜜源,要保證兩蜜源不是同一蜜源,rij為[-1,1]的隨機(jī)數(shù),用于控制鄰域范圍。
跟隨蜂階段:跟隨蜂根據(jù)式(10)選擇跟隨的引領(lǐng)蜂
式中,fiti表示第i解的適應(yīng)度,即第i個(gè)蜜源的花蜜數(shù)量,pi第i個(gè)蜜源被選擇的概率。由上式可得,當(dāng)一個(gè)蜜源的適應(yīng)度越大則被選擇的概率越高,跟隨蜂選擇引領(lǐng)蜂后,同樣按式(9)在蜜源鄰域內(nèi)進(jìn)行搜索,尋找更優(yōu)蜜源,即最優(yōu)適應(yīng)度對應(yīng)的蜜源。
偵查蜂階段:在蜂群算法里面,以參數(shù)limit保存每個(gè)解未被更新的次數(shù),當(dāng)引領(lǐng)蜂和跟隨蜂完成搜索之后,某蜜源未被更新次數(shù)達(dá)到limit,放棄該蜜源,對應(yīng)的引領(lǐng)蜂變?yōu)閭刹榉?,假設(shè)被放棄的蜜源為xi,則偵查蜂按照式(11)產(chǎn)生一個(gè)新解代替舊解:
式中,j=(1,2,…,d),xij為解xi的第j個(gè)元素值。
支持向量回歸算法中,對于不同的問題需要根據(jù)實(shí)際情況選擇合適的參數(shù)進(jìn)行建模才能達(dá)到良好的訓(xùn)練效果,如果參數(shù)選擇不合適,則SVR 會出現(xiàn)“欠學(xué)習(xí)”或者“過擬合”情況。結(jié)合3.1 節(jié),本文使用ABC 算法對SVR 的關(guān)鍵參數(shù)(C,g,ε)進(jìn)行優(yōu)化,在優(yōu)化單個(gè)參數(shù)時(shí),ABC 算法中每個(gè)蜜源相當(dāng)于一個(gè)一維解,優(yōu)化3個(gè)參數(shù)時(shí)每個(gè)蜜源相當(dāng)于一個(gè)三維解,算法目標(biāo)是尋找到一組使SVR模型精度最高的參數(shù)。
與3.2節(jié)對應(yīng),本文采用ABC 算法優(yōu)化SVR 參數(shù)的具體步驟如下:
步驟1,隨機(jī)劃分樣本集為訓(xùn)練集和測試集(70%/30%);
步驟2,初始化蜂群,設(shè)置蜂群規(guī)模NP(蜜源數(shù)目等于引領(lǐng)蜂數(shù)目等于NP/2),蜜源未被更新最大次數(shù)limit,以及最大迭代次數(shù)Max Cycle,參數(shù)(C,g,ε)的取值范圍;蜜源適應(yīng)度函數(shù)設(shè)置為SVR 算法對訓(xùn)練集采用k-折交叉驗(yàn)證(本文k=10)后的平均均方誤差(PMSE)的倒數(shù)。k折交叉驗(yàn)證方法將訓(xùn)練樣本分割成k個(gè)子樣本,一個(gè)單獨(dú)子樣本作驗(yàn)證,其他k-1個(gè)樣本作訓(xùn)練。交叉驗(yàn)證重復(fù)k次,每個(gè)子樣本驗(yàn)證一次,平均k次的驗(yàn)證結(jié)果作為最終的結(jié)果。本文中k-折交叉驗(yàn)證PMSE小,蜜源對應(yīng)適應(yīng)度高,反之則適應(yīng)度低。
步驟3,ABC 算法模擬蜂群進(jìn)行采蜜,完成引領(lǐng)蜂的鄰域搜索,跟隨蜂選擇引領(lǐng)蜂進(jìn)行鄰域搜索,計(jì)算每組SVR 參數(shù)對應(yīng)的平均均方誤差,根據(jù)平均均方誤差大小更新最佳參數(shù)解位置。比較每個(gè)參數(shù)解的未被更新次數(shù)trial與limit的大小,判斷該參數(shù)解是否丟棄,并計(jì)算丟棄后新參數(shù)解的位置和適應(yīng)度,記錄每次迭代最佳參數(shù)組合。
步驟4,重復(fù)第3 步,直到迭代次數(shù)等于最大迭代次數(shù)Max Cycle,記錄最優(yōu)蜜源位置即最佳參數(shù)組合解(C,g,ε),跳出循環(huán)。
在本研究中,為了探究人工蜂群算法對SVR參數(shù)優(yōu)化的效果,建立3 類模型:第1 類為未進(jìn)行參數(shù)優(yōu)化的SVR 模型,第2 類為ABC 算法優(yōu)化單一參數(shù)的SVR 模型,即對C,g,ε中一個(gè)參數(shù)進(jìn)行優(yōu)化,第3 類為利用ABC 算法對SVR3 個(gè)關(guān)鍵參數(shù)優(yōu)化的SVR 模型,即對C,g,ε3個(gè)參數(shù)同時(shí)進(jìn)行優(yōu)化。3 類模型共建立5 個(gè)模型,5 個(gè)模型采用相同的訓(xùn)練集和測試集,根據(jù)參數(shù)敏感性分析結(jié)果(5.2節(jié)),各參數(shù)的尋優(yōu)范圍設(shè)置見表2。
表2 實(shí)驗(yàn)參數(shù)設(shè)置Table 2 Parameter setting of experiment
根據(jù)表2中的實(shí)驗(yàn)參數(shù)設(shè)置,使用人工蜂群算法優(yōu)化SVR 單個(gè)參數(shù),優(yōu)化后各參數(shù)取值如表3,沒有進(jìn)行優(yōu)化的參數(shù)取默認(rèn)值(C=1,g=1/k,ε=0.1)(Chang 和Lin,2011),ABC 算法迭代結(jié)果分別如圖6(a)(b)(c)所示。優(yōu)化參數(shù)C、g算法迭代次數(shù)均小于20 次時(shí),SVR 算法對訓(xùn)練樣本集采用10折交叉驗(yàn)證后的平均均方誤差(PMSE)已經(jīng)趨于一個(gè)較小的穩(wěn)定值,優(yōu)化參數(shù)ε算法迭代次數(shù)在介于30—40 次PMSE 也同樣穩(wěn)定在一個(gè)比較小的值。以優(yōu)化后的參數(shù)分別建立研究區(qū)域LAI反演的第1 類和第2 類模型,驗(yàn)證結(jié)果如圖5、7所示。
表3 參數(shù)優(yōu)化結(jié)果Table 3 The result of optimizing parameters
圖5 未優(yōu)化參數(shù)的SVR模型驗(yàn)證結(jié)果Fig.5 Validation results of SVR model without optimized parameters
圖6 ABC算法優(yōu)化SVR參數(shù)迭代結(jié)果Fig.6 The iteration result of optimizing parameters of SVR by ABC algorithm
第1 類未優(yōu)化參數(shù)的SVR 模型驗(yàn)證結(jié)果如圖5(a)(b)所示,第2 類優(yōu)化SVR 參數(shù)懲罰系數(shù)C的LAI 反演模型ABC-SVR-C驗(yàn)證結(jié)果如圖7(a)(b)所示。SVR 模型驗(yàn)證結(jié)果表明,訓(xùn)練集和測試集的回歸直線斜率(黑色)分別為0.594 和0.630,決定系數(shù)分別為0.719 和0.727,RMSE 為0.161 和0.137。將ABC-SVR-C模型驗(yàn)證結(jié)果圖7(a)(b)與圖5(a)(b)中未優(yōu)化參數(shù)的SVR 模型反演結(jié)果對比分析可得,訓(xùn)練集和測試集的回歸直線斜率分別提高了0.087 和0.038,RMSE 下降到0.149 和0.135,特別顯著的是訓(xùn)練集驗(yàn)證結(jié)果中決定系數(shù)由0.719提高到0.745。
圖7 優(yōu)化單個(gè)參數(shù)的SVR模型驗(yàn)證結(jié)果Fig.7 Validation results of SVR model with optimized single parameters
優(yōu)化SVR 核函數(shù)寬度參數(shù)g的ABC-SVR-g模型驗(yàn)證結(jié)果如圖7(c)(d)所示,與未優(yōu)化參數(shù)的SVR 模型驗(yàn)證結(jié)果圖5(a)(b)對比分析,結(jié)果表明,優(yōu)化了核函數(shù)寬度參數(shù)g的LAI 反演模型,其訓(xùn)練集和測試集的回歸直線斜率分別提高了0.102 和0.029,決定系數(shù)也有較大的提高,達(dá)到了0.765和0.735,RMSE下降到0.144和0.132。
優(yōu)化SVR 損失函數(shù)參數(shù)ε的ABC-SVR-ε模型驗(yàn)證結(jié)果如圖7(e)(f)所示,與未優(yōu)化參數(shù)的SVR 模型驗(yàn)證結(jié)果圖5(a)(b)進(jìn)行對比分析可得,ABC-SVR-ε模型預(yù)測值與實(shí)測值更為接近,回歸直線更接近于1,訓(xùn)練集回歸斜率由0.594 提
高到0.646,決定系數(shù)和RMSE 沒有顯著變化。但是在測試集驗(yàn)證結(jié)果,回歸斜率0.630 提高到0.728,決定系數(shù)由0.727提高到了0.757,RMSE下降到0.126。
最后,選擇更能反映模型性能和回歸擬合能力的測試集,對比分析第2類模型(ABC-SVR-C、ABC-SVR-g、ABC-SVR-ε)的精度,即對比分析圖7(b)(d)(f)。實(shí)驗(yàn)結(jié)果表明,在這3 個(gè)模型中ABC-SVR-ε模型精度最佳,其測試集回歸直線斜率最高(k=0.728),回歸直線偏移最?。╞=0.629),決定系數(shù)最高(r2=0.757),均方根誤差最?。≧MSE=0.126)。
由4.1節(jié)可知,優(yōu)化SVR算法懲罰系數(shù)C、核函數(shù)寬度參數(shù)g、不敏感損失函數(shù)ε等3個(gè)參數(shù)之一,均可以提高LAI 反演模型精度,因此,根據(jù)表2中的參數(shù)設(shè)置,利用ABC 算法同時(shí)優(yōu)化這3 個(gè)參數(shù),各參數(shù)優(yōu)化后的取值如表3,ABC 算法迭代結(jié)果如圖7(d),迭代次數(shù)為40—50 次時(shí)趨于穩(wěn)定。以表3中3 個(gè)參數(shù)(C,g,ε)優(yōu)化后的取值建立ABC-SVR 模型,并對該模型進(jìn)行驗(yàn)證,結(jié)果如圖8。
第3類優(yōu)化SVR3個(gè)參數(shù)的模型驗(yàn)證結(jié)果(圖8)與第1 類未優(yōu)化參數(shù)的SVR 模型驗(yàn)證結(jié)果(圖5)對比分析可知,訓(xùn)練集回歸直線斜率達(dá)到0.713,相比SVR 模型(0.594)提高了0.119,而決定系數(shù)為0.733,比SVR 模型0.719 提高了0.014,RMSE由0.161 下降到0.151。從測試集的驗(yàn)證結(jié)果上看,ABC-SVR 模型反演精度提高的更為顯著,回歸直線斜率達(dá)到0.797,更接近于1,相比SVR 模型(0.630)提高了0.167,而決定系數(shù)更是有了明顯的提高,達(dá)到了0.775,RMSE相比SVR模型(0.137),也降低到了0.122。
圖8 優(yōu)化3個(gè)參數(shù)的SVR模型驗(yàn)證結(jié)果Fig.8 Validation results of SVR model with optimized three parameters
同樣以測試集驗(yàn)證結(jié)果(圖8(b)、圖6(b)(d)(f))對比ABC-SVR 模型與ABC-SVR-C、ABC-SVR-g、ABC-SVR-ε模型精度,結(jié)果表明,在這4個(gè)LAI反演模型中ABC-SVR模型的精度最好,其測試集回歸直線斜率最高(k=0.797),回歸直線偏移最?。╞=0.425),決定系數(shù)最高(r2=0.775),均方根誤差最?。≧MSE=0.122)。
根據(jù)4.1節(jié)結(jié)果分析可得ABC 算法優(yōu)化SVR 單個(gè)關(guān)鍵參數(shù)建立的第2類模型ABC-SVR-C、ABCSVR-g、ABC-SVR-ε均比第1 類未優(yōu)化參數(shù)的SVR 模型精度高,且相較于優(yōu)化C,g兩個(gè)參數(shù)的模型,優(yōu)化ε參數(shù)的模型精度最佳,回歸直線斜率達(dá)到0.728、決定系數(shù)達(dá)到0.757,是第2 類模型中精度最高的模型,這證明參數(shù)ε是SVR中一個(gè)比較重要的參數(shù),而大部分優(yōu)化SVR 參數(shù)的研究中只優(yōu)化了參數(shù)C、g,沒有對參數(shù)ε進(jìn)行太多研究,本研究證明了參數(shù)ε對SVR回歸性能具有較大的影響。因此,與SVR的有關(guān)研究中對參數(shù)ε的優(yōu)化是非常有必要的。
第4.2 節(jié)結(jié)果分析可得優(yōu)化SVR 的3 個(gè)參數(shù)的第3 類模型(ABC-SVR 模型)相比第1 類的SVR模型(k=0.630,r2=0.727)和第2 類的3 個(gè)模型ABC-SVR-C(k=0.668,r2=0.729),ABC-SVR-g(k=0.659,r2=0.735),ABC-SVR-ε(k=0.728、r2=0.757),ABC-SVR 模型精度最高,模型預(yù)測值與LAI 地面實(shí)測值具有很高的相關(guān)性,是LAI 反演的優(yōu)選模型。這說明同時(shí)優(yōu)化3個(gè)參數(shù)能更顯著地提高SVR模型的精度。ABC-SVR 模型精度最高,回歸直線斜率達(dá)到0.797、決定系數(shù)達(dá)到0.775。
對第4 節(jié)結(jié)果進(jìn)行綜合分析可得,參數(shù)C、g、ε的取值均對模型預(yù)測精度有一定的影響,本節(jié)旨在選定各參數(shù)的尋優(yōu)范圍以及分析各參數(shù)對模型精度的影響?;诘? 節(jié)的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),參考楊玫等(2009)、王云飛和鄭曉娟(2010)對SVR 參數(shù)敏感性分析方法,分別探討SVR 模型精度(r2和RMSE)對每個(gè)參數(shù)的敏感性,當(dāng)分析某個(gè)參數(shù)的敏感性時(shí),其余兩個(gè)參數(shù)均取默認(rèn)值(表3)。
圖9(a)(b)為懲罰系數(shù)C對r2的影響,其中圖9(b)局部放大圖9(a),范圍0—100;圖9(c)(d)為懲罰系數(shù)C對RMSE 的影響,其中圖9(d)局部放大圖9(c),范圍0—100。綜合圖9(a)(b)(c)(d)對懲罰系數(shù)C進(jìn)行敏感性分析可知,懲罰系數(shù)C對模型預(yù)測精度較大的影響。圖9(a)顯示C值在(0,800)的范圍內(nèi)決定系數(shù)r2波動較大,C值大于800 以后維持在最低0.64—0.65,此時(shí)模型預(yù)測值與實(shí)際值相關(guān)程度較低。圖9(b)局部分析可得,C值在(0,100)內(nèi)是決定系數(shù)波動最大的區(qū)間,但決定系數(shù)的最大值,即模型預(yù)測值與實(shí)際值的相關(guān)程度最高出現(xiàn)在這個(gè)區(qū)間,C值在(100—800)區(qū)間,決定系數(shù)呈現(xiàn)下降趨勢。由圖9(c)分析RMSE 變化可知,C值在(0,200)內(nèi),RMSE 逐漸趨于一個(gè)低穩(wěn)定值,此時(shí)模型誤差較低,大于200 時(shí)RMSE 也逐漸增大,模型誤差逐漸增大;從局部變化圖9(d)可知,但C值在70 左右時(shí),RMSE 趨于一個(gè)很穩(wěn)定的低值,此時(shí)模型誤差較低。因此綜合分析兩個(gè)模型精度指標(biāo)的變化,在實(shí)驗(yàn)的過程中建議設(shè)置參數(shù)C的尋優(yōu)范圍為(0,100)。
圖9 SVR關(guān)鍵參數(shù)對模型精度的影響Fig.9 The influence of SVR key parameters on model accuracy
圖9(e)(f)為核函寬度參數(shù)g對r2的影響,其中圖9(f)局部放大圖9(e),范圍0—10;圖9(g)(h)為核函寬度參數(shù)g對RMSE 的影響,其中圖9(h)局部放大圖9(g),范圍0—10。由圖9(e)(f)(g)(h)對核函寬度參數(shù)g進(jìn)行敏感性分析可知,該參數(shù)取值對模型精度的影響很大。由圖9(e)(f)可知,決定系數(shù)在(0,10)區(qū)間出現(xiàn)決定系數(shù)最大值(約0.75),在(10,140)區(qū)間內(nèi)決定系數(shù)整體上持續(xù)下降,大于140 以后決定系數(shù)接近0.1,此時(shí)預(yù)測值和實(shí)際值之間幾乎沒有相關(guān)性,SVR基本喪失預(yù)測能力,出現(xiàn)明顯的過學(xué)習(xí)現(xiàn)象,此時(shí)模型沒有推廣能力,可見參數(shù)g的選擇對SVR模型的預(yù)測能力有很大的影響。由圖9(g)(h)中可知,當(dāng)參數(shù)g在(0,10)區(qū)間內(nèi)RMSE 出現(xiàn)最低值,即模型的最小預(yù)測誤差,在(10,140)區(qū)間內(nèi)RMSE持續(xù)上升,模型預(yù)測誤差逐漸增大,大于140以后穩(wěn)定在0.245左右,此時(shí)模型誤差較大。因此,經(jīng)過實(shí)驗(yàn)可以基本確定核函數(shù)寬度參數(shù)g的理想尋優(yōu)范圍應(yīng)該設(shè)置為(0,10)。
圖9(i)(j)為參數(shù)ε對r2的影響,其中圖9(j)局部放大圖9(i),范圍0—0.05;圖9(k)(l)為參數(shù)ε對RMSE的影響,其中圖9(l)局部放大圖9(k),范圍0—0.05。從圖9(i)(j)(k)(l)從總體上分析可得,隨著參數(shù)ε增大,表示模型預(yù)測精度的兩個(gè)指標(biāo)值變化均比較大,說明該參數(shù)的取值對模型的預(yù)測精度具有很大影響,局部微小的變化會引起模型精度的波動,因此對該參數(shù)的優(yōu)化顯得尤為重要。由圖9(i)(j)分析可得,在(0,0.5)區(qū)間內(nèi),決定系數(shù)波動很大。由圖9(k)(l)分析可知,隨著參數(shù)ε的增大,RMSE 也逐步增大,模型誤差逐步增大,模型最低預(yù)測誤差出現(xiàn)在(0,0.05)區(qū)間內(nèi),因此,綜合兩個(gè)精度指標(biāo)的敏感性可以合理設(shè)置參數(shù)ε的取值范圍在(0,0.05)區(qū)間內(nèi)。
結(jié)合前述實(shí)驗(yàn)結(jié)果和分析,可以看出3個(gè)參數(shù)對SVR 模型的精度(r2,RMSE)影響都比較大。相對于參數(shù)C(0,1000)和參數(shù)g(0,200)在較大的區(qū)間內(nèi)變化時(shí)模型精度在整體上呈現(xiàn)單調(diào)的趨勢,參數(shù)ε局部微小的變化會引起模型精度的不確定性,因此,優(yōu)化參數(shù)ε更能降低模型不確定性。
從4.2 節(jié)分析得知,ABC-SVR 模型是整個(gè)實(shí)驗(yàn)過程中的最佳模型(k=0.797,r2=0.775,RMSE=0.122),相比未優(yōu)化參數(shù)的SVR 模型精度(k=0.630,r2=0.727,RMSE=0.137)精度有了一定的改善,但是為了避免單次實(shí)驗(yàn)的偶然性,以及研究ABC 算法優(yōu)化SVR 參數(shù)模型精度提升的顯著性,本小節(jié)將56 個(gè)樣本分別重新隨機(jī)劃分為20 組不同的訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)的組合(70%訓(xùn)練集,30%測試集),基于這20個(gè)不同的訓(xùn)練集分別使用優(yōu)化3 個(gè)參數(shù)的ABC-SVR 模型和未優(yōu)化參數(shù)的SVR 建立共40 個(gè)模型,并使用相應(yīng)測試集進(jìn)行驗(yàn)證,所有模型精度如圖10所示。
圖10 20次重復(fù)實(shí)驗(yàn)的回歸模型精度Fig.10 The accuracy of regression model of 20 repeat experiments
由圖10 可以分析得出,在20 次重復(fù)實(shí)驗(yàn)中ABC-SVR 模型預(yù)測值與實(shí)測值回歸直線斜率95%都高于SVR模型,RMSE誤差均小于SVR模型,決定系數(shù)均高于SVR 模型,說明ABC 算法能改善SVR模型的精度。
為了進(jìn)一步驗(yàn)證ABC-SVR 模型的精度的是否顯著提升,本文基于上述20 次重復(fù)實(shí)驗(yàn)的結(jié)果,利用spss 軟件計(jì)算了ABC-SVR 模型與SVR 模型之間精度差異的顯著性(回歸直線斜率k、RMSE、r2),結(jié)果如表4。在95%的置信區(qū)間下,分析回歸直線斜率差異顯著性可得,ABC-SVR 模型的回歸直斜率(0.756±0.114)比SVR 模型(0.651±0.130)提升了0.089,該差異具有統(tǒng)計(jì)學(xué)意義,t(19)=0.813,P<0.001。同理分析決定系數(shù)和RMSE 可得,ABC-SVR 模型的決定系數(shù)(0.734±0.071)比SVR 模型(0.711±0.071)提升了0.023,t(19)=3.599,P<0.005;ABC-SVR 模型的RMSE(0.146±0.026)比SVR 模型(0.156±0.029)下降了0.013,t(19)=-4.417,P<0.001;最終分析結(jié)果說明兩個(gè)精度指標(biāo)的差異均具有統(tǒng)計(jì)學(xué)意義,兩者之間差異顯著,ABC算法顯著改善了SVR模型的精度。
表4 精度差異的顯著性檢驗(yàn)Table 4 Significance test for the difference of accuracy
本文基于美國土壤水分實(shí)驗(yàn)SMEX02 的LAI 野外實(shí)測數(shù)據(jù)和Landsat 7 ETM+影像,采用人工蜂群算法(ABC)優(yōu)化SVR參數(shù)(C,g,ε),建立3類模型:未優(yōu)化參數(shù)的SVR 模型,優(yōu)化單個(gè)參數(shù)的ABC-SVR-C、ABC-SVR-g、ABC-SVR-ε模型以及優(yōu)化3 個(gè)參數(shù)的模型ABC-SVR,對3 類模型進(jìn)行驗(yàn)證,并分析SVR 的3個(gè)關(guān)鍵參數(shù)對LAI反演模型精度的影響,驗(yàn)證ABC-SVR 模型精度改善的顯著性。得出結(jié)論如下,(1)ABC 算法優(yōu)化SVR 參數(shù)能明顯提高LAI 反演模型的精度,且同時(shí)優(yōu)化SVR3個(gè)參數(shù)能更顯著地提高LAI反演模型的精度;(2)相比參數(shù)C和g,參數(shù)ε局部微小的變化會增加模型精度的不確定性,因此在應(yīng)用中優(yōu)化參數(shù)ε是十分必要的;(3)ABC-SVR 模型與SVR 模型的精度差異均具有統(tǒng)計(jì)學(xué)意義,說明ABC 算法顯著改善了SVR模型的精度。
但研究實(shí)驗(yàn)還存在幾點(diǎn)不足,首先,反演時(shí)需要樣本量較大的訓(xùn)練集(夏天等,2013;楊敏等,2015),由于本研究區(qū)域LAI 實(shí)測數(shù)據(jù)數(shù)量限制,因此本研究將間隔一周的兩組數(shù)據(jù)合并構(gòu)建訓(xùn)練集和測試集,因此由于樣本的獲取時(shí)間不一致,這可能給模型帶來誤差;其次,本研究輸入9 類特征變量(Landsat 7 ETM+6 個(gè)波段、NDVI、RVI、EVI)進(jìn)行實(shí)驗(yàn),沒有考慮數(shù)據(jù)冗余是否會限制模型的精度(Forsati 等,2012;Ghamisi 等,2015);最后,本文中ABC 算法迭代次數(shù)統(tǒng)一設(shè)置為100 次,所有迭代結(jié)果(圖6)顯示100 次迭代后最優(yōu)適應(yīng)度(MSE)都能趨于穩(wěn)定,在后續(xù)研究中可以考慮是否可以設(shè)置合適的迭代次數(shù)以提高算法效率。對于上述不足,后續(xù)研究中一方面可以選擇適合的研究區(qū)域及相應(yīng)的LAI地面實(shí)測數(shù)據(jù)保證輸入數(shù)據(jù)的準(zhǔn)確性,另一方面可以對輸入的多個(gè)特征變量進(jìn)行特征選擇,去除冗余信息,并根據(jù)不同情況設(shè)置不同的ABC 算法迭代次數(shù),以建立更高效、更精確的LAI反演模型。