劉瓊閣,彭道黎,涂云燕
(北京林業(yè)大學(xué) 林學(xué)院,北京100083)
基于偏最小二乘回歸的森林蓄積量遙感估測(cè)
劉瓊閣,彭道黎,涂云燕
(北京林業(yè)大學(xué) 林學(xué)院,北京100083)
森林蓄積量受遙感因子與地形因子的影響,但這些因子間存在多重相關(guān)性,會(huì)影響模型穩(wěn)定性與精度。針對(duì)森林蓄積量遙感估測(cè)自變量間存在多重共線性問題,采用異于傳統(tǒng)最小二乘的偏最小二乘方法建立密云縣森林蓄積量遙感估測(cè)模型。先對(duì)可能影響蓄積量的因子進(jìn)行分析,選取既存在相關(guān)性又對(duì)模型顯著性有影響的因子為森林蓄積量估測(cè)的自變量。用預(yù)留的樣本對(duì)模型進(jìn)行檢驗(yàn),預(yù)測(cè)值與實(shí)測(cè)值相比精度達(dá)到90.1%。將通過檢驗(yàn)的模型對(duì)整個(gè)密云縣進(jìn)行反演,得到密云縣估測(cè)森林蓄積量為2 447 695.203 m3。
森林蓄積量;遙感因子;地形因子;多重相關(guān)性;偏最小二乘
森林是地球上最大的陸地生態(tài)系統(tǒng),是地球上的基因庫(kù)、碳貯庫(kù)、蓄水庫(kù)和能源庫(kù),在全球生態(tài)系統(tǒng)平衡中發(fā)揮著重要作用,是人類和多種物種賴以生存和發(fā)展的基礎(chǔ),其數(shù)量與質(zhì)量是決定森林經(jīng)濟(jì)效益與生態(tài)系統(tǒng)服務(wù)功能的關(guān)鍵。森林蓄積量是衡量一個(gè)國(guó)家森林健康與否的重要標(biāo)志,也是政府掌握國(guó)家森林資源狀況和制定計(jì)劃采伐、森林經(jīng)營(yíng)管理措施的重要依據(jù)。傳統(tǒng)的蓄積量的測(cè)定主要是通過全國(guó)森林資源一、二類清查獲得數(shù)據(jù),存在工作量大,耗時(shí),需要經(jīng)費(fèi)多等問題,且調(diào)查間隔期長(zhǎng),一類5 a,二類10 a[1]。因而,尋求一種技術(shù)上適用,經(jīng)濟(jì)上可行的森林資源監(jiān)測(cè)方法,將是一項(xiàng)非常重要的工作。近十年來航天遙感(RS)、地理信息系統(tǒng)(GIS)與計(jì)算機(jī)的發(fā)展以及與數(shù)學(xué)模型的結(jié)合應(yīng)用,為森林蓄積量的估測(cè)帶來了新的發(fā)展方向,為森林資源的快速監(jiān)測(cè),實(shí)現(xiàn)實(shí)時(shí)的森林資源狀況分析、評(píng)價(jià)帶來了新的方法。
目前,通過遙感圖像估測(cè)森林蓄積量已成為森林資源調(diào)查研究的熱點(diǎn)之一。主要用于建模的方法有多元線性回歸模型與描述非線性關(guān)系的KNN法與人工神經(jīng)網(wǎng)絡(luò)模型[2-4]。在實(shí)際建模過程中,選用線性回歸時(shí),遙感波段及比值波段間可能存在一定程度的多重相關(guān)性,這種相關(guān)性將使模型穩(wěn)定性變差。且待定參數(shù)的估計(jì)方差會(huì)隨著各自變量間相關(guān)程度的增加而增加,最終導(dǎo)致參數(shù)估計(jì)精度降低[5-6]。對(duì)非線性而言,KNN方法靠臨近樣點(diǎn)觀測(cè)數(shù)據(jù)來估算森林生物量,樣點(diǎn)的分布會(huì)直接影響估測(cè)的結(jié)果,且計(jì)算量很大。后來人工神經(jīng)網(wǎng)絡(luò)被引用到了森林蓄積量的估測(cè)中,可以避免假設(shè)模型不正確造成不利影響,但其黑箱操作,無法表達(dá)和分析被預(yù)測(cè)系統(tǒng)的輸入和輸出間關(guān)系,因而也難于對(duì)求得數(shù)據(jù)做統(tǒng)計(jì)檢驗(yàn)[7],且神經(jīng)網(wǎng)絡(luò)的方法還停留在樣本建模上,對(duì)整個(gè)遙感圖像的估測(cè)實(shí)現(xiàn)還有待研究。針對(duì)自變量間共線性問題,有學(xué)者提出嶺估計(jì)、偏最小二乘[8]。但是嶺估計(jì)中的嶺參數(shù)選取受主觀影響大。在對(duì)研究區(qū)及數(shù)據(jù)規(guī)律不了解的情況下不宜采用。因此本研究針對(duì)研究區(qū)的具體情況,提取樣地點(diǎn)的遙感和地學(xué)因子,分析其與森林蓄積量的相關(guān)關(guān)系后,采用偏最小二乘法(PLS)建立遙感估測(cè)模型,探討基于遙感和地學(xué)信息的森林蓄積量遙感估測(cè)方法。
密 云 縣 (東 經(jīng) 116°39′33″~ 117°30′25″, 北緯 40°13′7″~ 40°47′57″)位于北京市東北部,總面積2 229.45 km2,處在燕山山脈和華北平原的交接點(diǎn),從東南至西北依次與平谷、順義、懷柔三區(qū)接壤,北部和東部分別與河北省的灤平、承德、興隆三縣。是從華北平原通往東北、內(nèi)蒙古的主要通道,是北京建設(shè)中國(guó)特色世界城市的綠色屏障。有華北第一大水庫(kù)之稱的密云水庫(kù)就位于密云縣的中部,它是首都重要飲用水源地和生態(tài)涵養(yǎng)發(fā)展區(qū)。密云縣屬暖溫帶半濕潤(rùn)半干旱大陸性季風(fēng)氣候區(qū),四季分明,年平均氣溫10 ℃,年平均降雨量約660 mm,降雨主要集中在6 ~ 9月。其植被屬于針闊混交林森林植被帶,現(xiàn)存植被主要為人工林以及一些次生植被類型。全縣林木生態(tài)覆蓋率達(dá)76.23%,主要森林類型有:側(cè)柏林Platycladus orientalis、楊樹Populusspp.、油松林Pinustabulaeformis、 櫟 林Quercusspp.、 刺 槐Robinia pseudoacacia、樺木Betulaspp.、核桃楸Juglans mandshurica、五角楓Acer mono等[9]。
獲得2006年7月12日北京市TM遙感影像,該數(shù)據(jù)為多光譜數(shù)據(jù),分辨率30 m。用2004年已校正的北京遙感影像作為參考影像對(duì)2006年遙感圖像進(jìn)行幾何校正。選取控制點(diǎn)數(shù)為18個(gè),誤差控制在0.5個(gè)像元內(nèi),重采樣方法用最近鄰點(diǎn)法。并利用密云縣行政區(qū)界進(jìn)行不規(guī)則剪切得到密云縣2006年TM影像。
影像上直接讀到的實(shí)際是像元灰度值(DN),為了提高分類的精度,有必要對(duì)不同時(shí)相的影像進(jìn)行歸一化性質(zhì)的輻射校正[10]。任何嘗試將傳感器記錄的亮度值轉(zhuǎn)換成地面反射的校正模型都必須考慮傳感校正參數(shù)(地面站已進(jìn)行過輻射粗校正)及在從太陽到地球再到傳感器的復(fù)雜路徑上影響太陽輻射的眾多因子,剔除與地物反射無關(guān)的干擾。校正方法可分為兩種:相對(duì)輻射校正和絕對(duì)輻射校正。相對(duì)輻射校正的方法有三種:(1)以紅外波段最低值來校正可見光波段;(2)回歸法;(3)相對(duì)散射模型法。絕對(duì)輻射校正是將圖像的DN值轉(zhuǎn)換為真實(shí)地表反射率,需要獲取影像過境時(shí)的地表測(cè)量數(shù)據(jù),并考慮地形起伏等因素來校正大氣和傳感器的影響,目前大多數(shù)遙感圖像都無法滿足上述條件。本研究利用頭文件里的信息與USGS網(wǎng)站的文獻(xiàn)[11]中給出的標(biāo)準(zhǔn)的行星反射率計(jì)算公式(1)與公式(2)和相關(guān)的參數(shù)取值表將影像灰度值轉(zhuǎn)換為了地表反射率,即完成了絕對(duì)輻射校正。
式(1)和式(2)中DN為圖像的像元灰度值,無量綱。Gain是增益,Bias是偏置,其單位與輻射亮度一樣W·m-2sr-1um-1。d為日地距離參數(shù),ESUN太陽光譜輻射量,θ為太陽天頂角=90-太陽高度角。其中增益、偏置、太陽高度角在頭文件中,太陽光譜輻射量來自USGS網(wǎng)站。
在ERDAS 的Model Maker 中將圖像按公式(1)與(2)對(duì)圖像進(jìn)行代數(shù)運(yùn)算完成圖像的絕對(duì)輻射校正。在GIS中提取各波段反射率值,并結(jié)合一類調(diào)查資料及相關(guān)檔案材料,ARCGIS、ERDAS、SPSS等軟件,對(duì)數(shù)據(jù)進(jìn)行處理。
試驗(yàn)中選取一類調(diào)查測(cè)樹點(diǎn)90個(gè),樣地均勻分布。用基于聚類的分層抽樣抽取60個(gè)樣地作為建模數(shù)據(jù),剩余30個(gè)樣地作為檢驗(yàn)樣本。查閱相關(guān)文獻(xiàn)后,在前人研究與經(jīng)驗(yàn)知識(shí)基礎(chǔ)上[12-15],選取可能影響蓄積量的RS信息與蓄積量進(jìn)行相關(guān)性和自變量間共線性分析。分析信息如下:
表1 各因子相關(guān)信息?Table 1 Correlation information of factors
從相關(guān)信息表知所選自變量與蓄積量都存在一定相關(guān)性,其中TM4、TM5波段及坡向與蓄積量相關(guān)性較低,但線性回歸模型不僅要考慮與因變量的相關(guān)性,還要考慮模型顯著性與方差殘差。在SPSS里將以上自變量強(qiáng)制選入模型中,根據(jù)R2不斷調(diào)整自變量組合,最后確定自變量組合為坡度、海拔、郁閉度、TM1、TM2、TM3、TM4、TM5、TM7、NDVI、比值、TM(4+5-2)/(4+5+2)、濕度、綠度。從方差擴(kuò)大因子知遙感各波段間存在嚴(yán)重多重相關(guān)性。
偏最小二乘回歸方法把主成分分析與典型相關(guān)分析有機(jī)結(jié)合起來,能克服傳統(tǒng)自變量間多重共線性的問題,同時(shí)提取出的信息能很好的解釋因變量。其基本思路如下[16-19]:
設(shè)已知單因變量y和自變量[x1,x2,…,xp],樣本個(gè)數(shù)n,在X與y相關(guān)矩陣中提取第一主成分t1,利用y和X對(duì)t1進(jìn)行回歸,t1要求攜帶X矩陣中的大量變異信息,并與y的相關(guān)性最大。這就要求有個(gè)能夠度量x信息,又能最好地解釋Y的準(zhǔn)則。此時(shí)采用交叉有效性原則,度量因子:
3.1.1 數(shù)據(jù)標(biāo)準(zhǔn)化處理
自變量數(shù)據(jù)是不同性質(zhì)指標(biāo),直接加總不能反映不同作用力的綜合作用,且數(shù)據(jù)處理復(fù)雜,需對(duì)其進(jìn)行如下標(biāo)準(zhǔn)化以消除不同量綱的影響。
式(4)與式(5)中,F(xiàn)0,E0分別為Y,X的標(biāo)準(zhǔn)化矩陣,E(y),E(xi)分別為Y,X的均值,Sy,Sxi分別為Y,X的均方差,n為樣本容量。
3.1.2 主成分提取
從Zx中提取第一主成分,t1=Zx×W1,W1為Zx第一主成分對(duì)應(yīng)的特征向量。同時(shí),從Zy中提取第一主成分產(chǎn)u1-Zy×C1,C1為Zy第一主成分的特征向量。根據(jù)偏最小二乘思想,要求t1、u1能很好代表X、Y變異信息,并且要t1對(duì)u1最大解釋能力,實(shí)際就是求t1與u1協(xié)方差最大。得到:
式(6)中:r(xi,y)表示xi與y的相關(guān)系數(shù)。從t1的達(dá)式可看出,t1不僅與X有關(guān),而且與y有關(guān)。求得第一主成分t1后,分別求Zx與Zy對(duì)t1的回歸方程,再利用兩回歸方程的殘差矩陣設(shè)為A、B,進(jìn)行第二主成分的提取。
同時(shí)根據(jù)度量因子公式計(jì)算Qh2為0.237 9大于0.097 5,因此根據(jù)第二主成分提取的方法繼續(xù)第三主成分提取,并計(jì)算Qh2為-0.093 2小于0.097 5,因此終止主成分的提取。得到的3個(gè)主成分與Zy回歸方程為:
還原為原始變量偏最小二乘方程為:
Y=54.718 8+5.619 9× 郁 閉 度 +0.030 6 × 坡度 +0.000 7× 海 拔 -38.190 1×TM1-4.951 1×TM2+19.355 6×TM3+0.7837×TM4-2.048 ×TM5+5.552 9×TM7-0.569 5×NDVI-0.125× 比 值 +0.016 8TM(4+5-2)/(4+5+2)-0.751 3×亮度+13.358 5×綠度。
為了對(duì)該模型的適用性進(jìn)行有效的驗(yàn)證。本次研究將預(yù)留的30個(gè)檢驗(yàn)樣本代入預(yù)測(cè)模型進(jìn)行配對(duì)樣本T檢驗(yàn),以便對(duì)實(shí)測(cè)蓄積量數(shù)據(jù)和模型預(yù)測(cè)值之間是否存在顯著性差異作出評(píng)價(jià),從而對(duì)反演模型的適用性進(jìn)行檢驗(yàn),結(jié)果見表2。
表2 配對(duì)樣本統(tǒng)計(jì)量及相關(guān)系數(shù)Table 2 Statistics and correlations paired samples
從配對(duì)統(tǒng)計(jì)量中看出,樣本配對(duì)相關(guān)系數(shù)0.766,P=0.000<0.05,因此認(rèn)為兩配對(duì)相關(guān)性顯著。
對(duì)所建立的模型進(jìn)行精度驗(yàn)證:
精度=1-(實(shí)測(cè)值-估測(cè)值)/實(shí)測(cè)值。
通過對(duì)30個(gè)樣地模型的預(yù)測(cè)值與實(shí)測(cè)值的精度分析比較,得到30個(gè)樣地蓄積量實(shí)測(cè)值為90.942 m3,模型預(yù)測(cè)值為81.95 m3,精度為90.1%。所建立的模型在適用性與精度上都滿足要求,因此,所建立的模型可行。將通過樣本配對(duì)檢驗(yàn)與精度檢驗(yàn)的模型反演到整個(gè)區(qū)域,在ERDAS的Model Maker里對(duì)自變量圖層進(jìn)行偏最小二乘模型運(yùn)算,圖層中的每一個(gè)像元值就變成了森林蓄積量值。根據(jù)像元統(tǒng)計(jì)信息得到研究區(qū)森林蓄積量估測(cè)值為2 447 695.203 m3,與密云縣2006年一類清查的實(shí)測(cè)數(shù)據(jù),220 萬m3相比,精度達(dá)到為89.2%。在Arcmap里根據(jù)蓄積量估測(cè)圖層生成蓄積量等級(jí)分布圖如下:
本研究以北京市密云縣為對(duì)象,將研究區(qū)遙感圖像、DEM模型結(jié)合樣地調(diào)查數(shù)據(jù),建立密云縣森林蓄積量遙感估測(cè)模型,實(shí)現(xiàn)該區(qū)域森林蓄積量估測(cè)。主要結(jié)論如下:
圖1 密云縣森林蓄積量等級(jí)分布Fig.1 Grade distribution of forest stock volume of Miyun County
(1)通過對(duì)遙感因子、地形因子與蓄積量進(jìn)行相關(guān)性分析,選取了相關(guān)性好同時(shí)對(duì)模型顯著性好的14個(gè)因子作為自變量建立森林蓄積量估測(cè)的偏最小二乘模型,用預(yù)留樣本對(duì)其進(jìn)行樣本配對(duì)與精度檢驗(yàn),得到實(shí)測(cè)值與預(yù)測(cè)值存在顯著相關(guān)性,精度達(dá)到90.1%。利用偏最小二乘既能解決自變量多重相關(guān)性問題,還能提取出對(duì)因變量解釋高的信息,是一種集主成分分析與典型相關(guān)分析于一體的建模方法;
(2)將通過檢驗(yàn)的模型反演到整個(gè)研究區(qū),得到森林蓄積量估測(cè)值為2 447 695.203 m3,精度達(dá)到為89.2%。
結(jié)合TM影像和森林資源一類調(diào)查數(shù)據(jù),利用偏最小二乘回歸估測(cè)區(qū)域尺度上的森林蓄積量能獲得較好的預(yù)測(cè)結(jié)果,也進(jìn)一步驗(yàn)證了結(jié)合森林資源調(diào)查樣地資料,開展全國(guó)范圍的蓄積量估算,快速準(zhǔn)確的進(jìn)行森林生物量的動(dòng)態(tài)監(jiān)測(cè)和定量評(píng)價(jià)是一種行之有效的方法。
[1] 黃 平,楊燕瓊,侯長(zhǎng)謀.基于RS、GIS的杉木林分蓄積量判讀模型研究[J].中南林業(yè)調(diào)查規(guī)劃,2003,22(1):25-27.
[2] Tomppo E, Nilsson M, Rosengren M,et al.Sin ultaneous use of Landsat-TM and IRS-1CWiFS data in estimating large area tree stem volume and aboveground biomass[J]. Remote Sensing of Environment, 2002,82(1):156-171.
[3] 王臣立,牛 錚,郭治興.基于植被指數(shù)和神經(jīng)網(wǎng)絡(luò)的熱帶人工林地上蓄積量遙感估測(cè)[J].生態(tài)環(huán)境學(xué)報(bào),2009,18 (5):1830-1834.
[4] 萬紹平.毛竹密度效應(yīng)新模型的研究[J].經(jīng)濟(jì)林研究,1999,17(4):1-4.
[5] 李崇貴,趙憲文,李春干.森林蓄積量遙感估測(cè)理論與實(shí)現(xiàn)[M].北京:科學(xué)出版社,2006.
[6] 王松桂,陳 敏,陳立萍.線性統(tǒng)計(jì)模型線性回歸與方差分析[M].北京:高等教育出版社,1999.
[7] 程武學(xué),楊存建,周介銘,等.森林蓄積量遙感定量估測(cè)研究綜述[J].安徽農(nóng)業(yè)科學(xué), 2009,37(16):7746-7750.
[8] 高惠璇.處理多元線性回歸中自變量共線性的幾種方法[J].數(shù)理統(tǒng)計(jì)與管理,2000,20(5):49-55.
[9] 涂云燕,彭道黎.基于神經(jīng)網(wǎng)絡(luò)的森林蓄積量估測(cè)[J].中南林業(yè)科技大學(xué)學(xué)報(bào).2012,32(3):49-52.
[10] 韋玉春,黃家柱. Landsat5圖像的增益、偏置取值及其對(duì)行星反射率計(jì)算分析[J].地球信息科學(xué),2006,(1):110-113.
[11] Chander G, B L Markham. Revised Landsat-5 TM Radiometric Calibration Procedures and Post-Calibration Dynamic Ranges.Ieee Transactions on Geoscience and Remote Sensing, 2003,41(11): 2674-2677.
[12] 陳 楚,關(guān)澤群,張鵬林,等.利用RS和GIS的森林蓄積量偏最小二乘估測(cè)研究[J].湖北林業(yè)科技,2004,(4):25-28.
[13] 劉海清.森林蓄積量遙感估測(cè)的應(yīng)用研宂[D].西安:西安科技大學(xué),2009.
[14] 涂云燕,彭道黎.基于RS的森林蓄積量主成分回歸估測(cè)[J].東北林業(yè)大學(xué)學(xué)報(bào),2012,(10):75-77.
[15] 鄧白羅.厚樸生長(zhǎng)與立地因子關(guān)系的調(diào)查研究[J].經(jīng)濟(jì)林研究, 1994,12(1),41-46.
[16] 張正健,劉志紅,郭艷芬,等.偏最小二乘在遙感監(jiān)測(cè)西藏草地生物量上的應(yīng)用[J].草地學(xué)報(bào)2009,17(6):735-739.
[17] 吳開亞,王玲杰.生態(tài)足跡及其影響因子的偏最小二乘回歸模型與應(yīng)用[J].資源科學(xué),2006,28(6):182-188
[18] 杜曉明,蔡體久,琚存勇.采用偏最小二乘回歸方法估測(cè)森林郁閉度[J].應(yīng)用生態(tài)學(xué)報(bào),2008,19(2):273-277.
[19] 洪奕豐,林 輝,等.基于偏最小二乘的平南縣森林蓄積量估測(cè)模型研究[J].中南林業(yè)科技大學(xué),2011,31(7):80-85.
Estimation of forest stock volume based on partial least squares regression
LIU Qiong-ge , PENG Dao-li , TU Yun-yan
(College of Forestry, Beijing Forestry University, Beijing 100083, China)
Forest stock volume is affected by remote sensing factors and topographical factors, but there is a multiple correlation between the factors that can affect the stability of the model and the accuracy of prediction. Aiming at the problem of multiple correlation between the estimation independent variables, the partial least squares regression was adopted and the remote sensing estimation of forest volume model for Miyun county of Beijing which differs from the traditional least squares method was established. The factors that may affect the stock volume were found out and the factors related with stock volume and signif i cantly inf l uenced to model were selected as independent variables of forest stock volume estimation model. The model was examined by the sample reserved, and the predicted values were compared with the measured values, the accuracy of the set aside sample was 90.1%. By using the tested model to predict forest stock volume, the estimated value of forest stock volume for Miyun county was 244 769 5.203 m3.
forest stock volume; remote sensing factors; topographical factors; multiple correlations; partial least squares
S757.2+19
A
1673-923X(2014)02-0081-04
2013-05-02
中國(guó)森林植被調(diào)查(2013FY111600-1);“十二五”農(nóng)村領(lǐng)域國(guó)家科技計(jì)劃課題“數(shù)字化森林資源監(jiān)測(cè)關(guān)鍵技術(shù)研究-森林結(jié)構(gòu)參數(shù)反演技術(shù)研究”(2012AA102001-5);國(guó)家級(jí)林業(yè)推廣項(xiàng)目(201145)
劉瓊閣(1987-),女,河南鄭州人,碩士研究生,主要從事森林資源監(jiān)測(cè)與評(píng)價(jià)研究;E-mail:qionggeliu@126.com
彭道黎(1963-),男,湖南常德人,教授,博士生導(dǎo)師,主要從事森林資源監(jiān)測(cè)與評(píng)價(jià)研究;E-mail:dlpeng@bjfu.edu.cn
[本文編校:文鳳鳴]