楊金玲,朱繼文,梁 欣,張玉娟
(黑龍江工程學(xué)院 測(cè)繪工程學(xué)院,黑龍江 哈爾濱150050)
1980年,伍德第一次提出了偏最小二乘算法[1],它是一種新型的多元統(tǒng)計(jì)分析算法。經(jīng)過三十幾年的發(fā)展,偏最小二乘的基礎(chǔ)理論、算法都有了很快的發(fā)展。同傳統(tǒng)的多元統(tǒng)計(jì)分析方法相比較,偏最小二乘算法可以對(duì)多因變量和相應(yīng)的多自變量進(jìn)行回歸建模,可以認(rèn)為偏最小二乘算法將主成分分析、多元線性回歸分析和典型相關(guān)分析的優(yōu)點(diǎn)集于一身,從而提高了利用多元回歸方法解決問題的能力[2];所以,密西根大學(xué)的弗耐爾教授把偏最小二乘算法稱為第二代回歸分析方法。近年來,國內(nèi)外有 Nguyen等[3](2006)、王惠文等[4](2006)、李明 澤[5](2010)、孫 華 等[6](2012)、Ramoelo 等[7](2013)、劉瓊閣[8](2014)多位學(xué)者分別利用該方法進(jìn)行回歸建模。
本文根據(jù)小興安嶺林區(qū)的具體情況,采用偏最小二乘算法建立遙感估測(cè)模型,探討線性偏最小二乘模型和非線性偏最小二乘模型森林生物量估測(cè)方法,并對(duì)該兩模型進(jìn)行對(duì)比分析。
本研究區(qū)域?yàn)樾∨d安嶺林區(qū),首先在該區(qū)域內(nèi)選取了一定量的樣地用于建立森林生物量遙感估測(cè)模型,然后按下述步驟進(jìn)行遙感估測(cè)模型建模:
第一步:將生物量視為因變量,并且將小于2倍標(biāo)準(zhǔn)差作為樣地刪除的標(biāo)準(zhǔn),有些樣地的信息不完整,會(huì)對(duì)遙感估測(cè)模型產(chǎn)生一定的影響,也將其刪除。
第二步:通過統(tǒng)計(jì),發(fā)現(xiàn)一共有171個(gè)自變量,首先采用Bootstrap篩選法對(duì)自變量進(jìn)行篩選。
1)設(shè)置第一個(gè)檢驗(yàn)水平:α=0.3,取β=100次,nB=284×75%=213為Bootstrap樣本的個(gè)數(shù)。對(duì)171個(gè)自變量通過前面提到的Bootstrap變量篩選法進(jìn)行篩選,其中沒有通過顯著性檢驗(yàn)的自變量共有89個(gè)。
2)設(shè)置第二個(gè)檢驗(yàn)水平:α=0.3,取β=100次,Bootstrap樣本個(gè)數(shù)為nB=284×75%=213個(gè)?;贐ootstrap變量篩選法,通過對(duì)171-89=82個(gè)自變量進(jìn)行篩選,其中沒有通過顯著性檢驗(yàn)的自變量有44個(gè)。
3)設(shè)置第三個(gè)檢驗(yàn)水平:α=0.3,取β=100次,Bootstrap樣本個(gè)數(shù)為nB=284×75%=213個(gè)。基于Bootstrap變量篩選法,通過對(duì)82-44=38個(gè)自變量進(jìn)行篩選,其中沒有通過顯著性檢驗(yàn)的自變量有22個(gè)。
4)設(shè)置第四個(gè)檢驗(yàn)水平:α=0.3,取β=100次,Bootstrap樣本個(gè)數(shù)為nB=284×75%=213個(gè)?;贐ootstrap變量篩選法,通過對(duì)38-22=16個(gè)自變量進(jìn)行篩選,其中沒有通過顯著性檢驗(yàn)的自變量有5個(gè)。
5)再次利用Bootstrap篩選法對(duì)16-5=11個(gè)自變量進(jìn)行篩選,最終所有自變量都通過了顯著性檢驗(yàn)。
第三步:為了便于建模和精度檢驗(yàn),先將研究區(qū)的樣地按3∶1的比例隨機(jī)分成兩個(gè)部分,樣地?cái)?shù)量多的用來建模,樣地?cái)?shù)量少的用來檢驗(yàn)精度。
第四步:若在給定一定的精度和可靠性的前提下,則會(huì)要求用于構(gòu)建統(tǒng)計(jì)模型的樣本最低需要達(dá)到一定的數(shù)量。所以,在建立森林生物量遙感估測(cè)模型之前,應(yīng)首先統(tǒng)計(jì)用于構(gòu)建統(tǒng)計(jì)模型的樣本最低數(shù)量:
式中:置信系數(shù)用參數(shù)t表示,模型的相對(duì)誤差用參數(shù)E表示,遙感估測(cè)模型的決定系數(shù)用參數(shù)R表示,參數(shù)Cy表示模型總體的變動(dòng)系數(shù)。
對(duì)于小興安嶺林區(qū),本研究建立的線性偏最小二乘遙感估測(cè)模型如式(2)所示。
其中,BIOM為利用線性偏最小二乘模型估測(cè)的森林生物量,郁閉度為該區(qū)域的森林郁閉度,坡度為該區(qū)域的坡度值,BAND2、BAND3、BAND5、BAND6為遙感波段信息,DVI、PVI為地形信息,LAI1為紋理信息。
對(duì)于小興安嶺林區(qū),本研究建立的非線性偏最小二乘遙感估測(cè)模型如式(3)所示。
表1 ξj,l-1 的值
表2 hj的值
表3 β的值
本研究通過編寫MATLAB程序來計(jì)算變量投影重要性指標(biāo)值,進(jìn)一步測(cè)定各個(gè)自變量對(duì)生物量解釋作用的強(qiáng)弱,從而判斷出哪些自變量對(duì)森林生物量有重要的影響。
偏最小二乘精度分析、解釋能力分析程序部分源代碼:
……
%輔助分析
%(1)精度分析
disp(‘成分t’)
t;
disp(‘第i個(gè)樣本點(diǎn)對(duì)所有成分的累計(jì)解釋能力’)
lambda=var(t);
lambdai=ones(rx,1)*lambda;
rctri=(t.*t)./(rx*lambdai);%第i個(gè)樣本點(diǎn)對(duì)第h主成分的貢獻(xiàn)率
rctr=cumsum(rctri,2);%第i個(gè)樣本點(diǎn)對(duì)所有成分的累計(jì)解釋能力
xlswrite(‘rctr’,rctr);
%成分與原自變量的相關(guān)系數(shù)
disp(‘成分t與原自變量的相關(guān)系數(shù)’)
cc1=[x,t];
rcc1=corrcoef(cc1)
rxt=rcc1(1:cx,(cx+1):(cx+sj))
%成分與原因變量的相關(guān)系數(shù)
disp(‘成分t與因變量的相關(guān)系數(shù)’)
cc2=[y,t];
rcc2=corrcoef(cc2)
ryt=rcc2(1,2:sj+1)%適用于y一維的情況
%成分t的解釋能力
disp(‘成分t的解釋能力’)
rxt2=rxt.^2
……
%成分t的累積解釋能力
disp(‘成分t的累積解釋能力’)
cxyt=cumsum(rxyt,2);
xlswrite(‘cxyt’,cxyt);
%自變量在解釋因變量的作用
w2=w.^2;
w2=w2′;
rdt=rxyt(end,:);
rd=cxyt(end,:);
rdm=rd(:,end);
p=cx;%變量個(gè)數(shù)
vip=sqrt((p/rdm)*(rdt*w2));xlswrite(‘vip’,vip);
……
%模型擬合效果分析
result=(1:k)′;
disp(‘測(cè)定系數(shù)’)
squareofr
result=[result,squareofr′];
%disp(‘調(diào)整復(fù)測(cè)定系數(shù)’)
%squarebarr
disp(‘交叉有效性中的預(yù)測(cè)誤差平方和’)
經(jīng)分析,在線性偏最小二乘模型和非線性偏最小二乘模型中,各自變量對(duì)森林生物量的影響如圖1和圖2所示。
圖1 線性模型VIPj值
圖2 非線性模型VIPj值
從圖1的線性模型解釋能力可以看出,變量郁閉度的VIPj值最大,可以達(dá)到1.53,剩下的變量中坡度_LY8VIPj值為1.24、BAND3的VIPj值為1.14、DVI的 VIPj值為1.03、PVI值為1.07,它們的VIPj值都超過了1.0;而由圖2的非線性模型的解釋能力可知,郁閉度的VIPj值為1.22、坡度_LY8的 VIPj值為1.18、BAND3的 VIPj值為1.22、DVI的 VIPj值為1.06、PVI的 VIPj值為1.09、II的VIPj值為1.08,這些變量的VIPj值都比1.0大,由此可知,無論是線性模型還是非線性模型,其包含的坡度—地形信息、BAND3—原始波段數(shù)據(jù)及DVI等植被指數(shù),這些變量對(duì)小興安嶺林區(qū)的森林生物量影響比較大。而在兩種模型中,其它一些變量如Z01VAR4—紋理信息的VIPj值最小,分別為0.29和0.64,說明這些變量對(duì)小興安嶺林區(qū)的森林生物量的影響程度不大。
在最后剩下的105個(gè)建模樣本基礎(chǔ)上,選取33個(gè)檢驗(yàn)樣本進(jìn)行線性偏最小二乘建模,其擬合精度和驗(yàn)證精度如圖3所示。
圖3 線性模型擬合和驗(yàn)證精度
同樣,在最后剩下的105個(gè)建模樣本中,利用其中的33個(gè)檢驗(yàn)樣本建立非線性偏最小二乘模型,取Mj=2,其擬合精度和驗(yàn)證精度如圖4所示。
圖4 非線性模型擬合和驗(yàn)證精度
從表4中兩種模型的各參量值可知,在抽取相同的樣本時(shí),分別采用非線性和線性偏最小二乘模型進(jìn)行擬合,前者擬合的精度要高于后者,并且前者的驗(yàn)證樣本預(yù)測(cè)精度相對(duì)于后者來說,高出了大約2.5個(gè)百分點(diǎn)。并且非線性偏最小二乘模型的擬合均方差要明顯小于線性偏最小二乘模型的擬合均方差。由此表明,在小興安嶺林區(qū),與線性偏最小二乘模型相比,采用非線性偏最小二乘模型進(jìn)行森林生物量遙感估測(cè)的精度高。
表4 兩種模型成果
基于遙感影像利用線性偏最小二乘模型和非線性偏最小二乘兩種模型進(jìn)行森林生物量的遙感估測(cè),與常規(guī)模型相比,采用偏最小二乘遙感估測(cè)模型提高了對(duì)森林生物量的估測(cè)精度,特別是采用非線性偏最小二乘模型效果更好一些,但是,由于變量的不確定性,最終會(huì)導(dǎo)致非線性偏最小二乘模型的算法及程序更加復(fù)雜,給求解帶來一定難度。
本文僅利用線性和非線性偏最小二乘算法對(duì)小興安嶺林區(qū)森林生物量遙感估測(cè)進(jìn)行了研究,偏最小二乘算法在其它林區(qū)的應(yīng)用將是下一步的研究重點(diǎn)。
[1] WOLD H.Model Construction and Evaluation When Theoretical Knowledge Is Scarce:Theory and Application of Partial Least Squares[J].Evaluation of Econometric Models,1980:47-74.
[2] 張亞利,劉星.偏最小二乘回歸在系統(tǒng)形變分析中的應(yīng)用[J].測(cè)繪工程,2014,23(8):1-5.
[3] NGUYEN H,LEE B.Assessment of Rice leaf growth and nitrogen status by hyerspectral Canopy reflectance and partial least square regression[J].European Journal of Agronomy,2006,24:349-356.
[4] 王惠文,吳載斌,孟潔.偏最小二乘回歸的線性與非線性方法[M].北京:國防工業(yè)出版社,2006.
[5] 李明澤.東北林區(qū)森林生物量遙感估算及分析[D].哈爾濱:東北林業(yè)大學(xué),2010.
[6] 孫華,鞠洪波,張懷清,等.偏最小二乘回歸在Hyperion影像葉面積指數(shù)反演中的應(yīng)用[J].中國農(nóng)學(xué)通報(bào),2012,28(7):44-52
[7] RAMOELO A,SKIDMORE A K,CHO M A,et al.Non-linear partial least square regression increases the estimation accuracy of grass nitrogen and phosphorus using in situ hyperspectral and environmental data[J].ISPRS Journal of Photogrammetry and Remote Sensing,2013,82:27-40.
[8] 劉瓊閣,彭道黎,涂云燕,等.基于偏最小二乘的森林生物量遙感估測(cè)[J].東北林業(yè)大學(xué)學(xué)報(bào),2014,42(7):44-47.