郭欣雨 馮仲科 曹忠 范永祥
(精準林業(yè)北京市重點實驗室(北京林業(yè)大學),北京,100083)
責任編輯:王廣建。
在林業(yè)資源調查中,樹高是最重要的林木因子和衡量林分生長的重要指標[1]。樹高測量模型在林木生長模型構建、立地質量評估等方面具有重要的作用[2],快速、精準、簡便的樹高模型擬合方法對林業(yè)工作具有重要意義。
隨著計算機科技的發(fā)展,通常使用SPSS、SAS、MATLAB等軟件對樹高模型進行擬合,擬合精度得到大幅度提高[3]。近年來,陳麗聰等[4]、劉平等[5]采用SPSS軟件中最小二乘法,對不同起源樹種以及多種樹高模型進行了曲線擬合,并做出了對比;王霓虹等[6]采用MATLAB軟件擬合落葉松的樹高生長模型求解參數;王慶豐等[7]使用SAS擬合林分的差分模型。但是在運用上述軟件時,需要進行初始化,算法操作較為復雜。
為了滿足現(xiàn)代林業(yè)技術發(fā)展的需求,更加快速、簡便、精確地擬合樹高模型,嘗試利用1stOpt軟件中所使用的麥特夸(LM)+通用全局優(yōu)化算法(UGO)對樹高模型進行曲線擬合并估算其參數。將其結果與現(xiàn)代林業(yè)調查中最為常用的SPSS軟件的普通最小二乘法擬合結果進行對比與評價。
對于樹高模型,諸多學者在比較與選擇上做了大量研究。Huang S等[8]系統(tǒng)比較了33個曲線模型與非曲線模型;王明亮等[9]則通過失擬檢驗的理論和方法對非線性樹高曲線模型的適度進行了檢驗,表明3參數模型描述樹高曲線表現(xiàn)良好;范金阜[10]運用樹高拋物線模型(H=a0d2+a1d+a2,其中:H為樹高,d為胸徑,a0、a1、a2為參數)對落葉松樹高建模取得良好的擬合效果。因此,本試驗在樹高模型的選擇上,采用了經典的測量樹高的拋物線模型。在進行模型評價和比較時,曾偉生等[11]、Kozak[12]提出應當將檢驗樣本與建模樣本合并進行建模,避免建模時的樣本總量損失,因此,本研究不再預留樣本數據進行適用性檢驗。
研究地選擇內蒙古喀喇沁旗旺業(yè)甸實驗林場,該林場位于赤峰市喀喇沁旗西南部,地理坐標為東經118°09'~118°30',北緯41°21'~41°39'。林場屬溫帶季風氣候區(qū),氣溫變化劇烈,全年日照時間2 700~2 900 h。主要地貌為中山和低山山地,地形起伏不平,山脈相連,溝谷縱橫,海拔800~1 890 m。土壤類型多樣,有棕壤、褐土、草甸土和山地黑土,以典型棕壤為主。林場有林地面積為23 118 hm2,林場活立木總蓄積量1 255 756 m3。森林植被主要有油松(Pinus tabulaeformis)、落葉松(Larix gmelinii)、山楊(Populus)、白樺(Betula platyphylla)、蒙古櫟(Quercus mongolica)等。
在旺業(yè)甸實驗林場標準樣地,利用電子經緯儀測得181株落葉松立木實測數據。剔除有明顯誤差的數據后,將全部樣木數據作為建模樣本,按照胸徑、樹高、材積進行統(tǒng)計,樣木數據基本情況統(tǒng)計如表1所示。
表1 樣木數據基本情況統(tǒng)計
LM-UGO算法具有強大的容錯、尋優(yōu)功能。該算法最大特點是克服了使用迭代法必須給出合適初始值的難題,終端用戶無需給出其參數初始值,而是由1stOpt自身隨機給出,通過其獨特的全局優(yōu)化算法,最終得出最優(yōu)解。普通最小二乘法優(yōu)化的最終目標是從某個初始點開始,確定一個搜索方向并在該方向上做一維搜索,當找到可接受點之后,再通過一定的策略調整搜索方向,并繼續(xù)在新的方向上進行一維搜索,依此類推,直到目標函數已經收斂到了極小值點。
信賴域算法是不通過調整搜索方向→進行一維搜索的步驟,也能求得極小值點。信賴域和一維搜索同為最優(yōu)化算法的基礎算法,信賴域算法是沒有一維搜索過程的。信賴域算法的數學模型為:
當信賴域模型中的范數‖S‖≤hk取2范數時,得到LM-UGO算法的數學模型:
1stOpt是七維高科有限公司開發(fā)的數學優(yōu)化分析綜合工具軟件包。其計算平臺具有操作簡便、運行穩(wěn)定、功能強大,操作界面簡潔易懂的特點[13]。它所使用的通用全局優(yōu)化算(LM-UGO),具有強大的容錯、尋優(yōu)功能,在非線性擬合,參數估算等優(yōu)化領域獨樹一幟。該算法之最大特點是克服了當今世界上在優(yōu)化計算領域中使用迭代法必須給出合適初始值的難題,終端用戶無需給出其參數初始值,而是由1stOpt自身隨機給出,通過其獨特的全局優(yōu)化算法,最終得出最優(yōu)解。
SPSS軟件作為集數據處理、圖表編輯、統(tǒng)計分析以及數據接口于一體的大型通用專業(yè)統(tǒng)計分析軟件,具備強大的頻數分布分析、相關分析、回歸分析等功能[14]。而普通最小二乘法是線性回歸模型最重要的參數估計方法之一[15]。因此,利用SPSS軟件的普通最小二乘法對樹高模型H=a0d2+a1d+a2進行擬合。
綜合考慮各種因素,現(xiàn)將確定系數(R2)、估計值的標準誤差(SEE)、總相對誤差(TRE)、平均系統(tǒng)誤差(MSE)、平均預估誤差(MPE)、平均百分標準誤差(MPSE)、參數穩(wěn)定性指標和殘差隨機性等指標作為基本評價指標。
決定系數(R2)即擬合指數,表示在因變量的總平方和中,由自變量引起的平方和所占的比例。當R2越接近1時,表示相關的方程式參考價值越高;相反,越接近0時,表示參考價值越低。
標準誤差(SEE)是由于在測量過程中待測物體的真值難以獲取,在實際的計算中,一般用標準誤差估算值代替實際誤差。
相對誤差(TRE)是指測量所造成的絕對誤差與被測量真值之比。一般來說,相對誤差更能反映測量的可信程度。
平均相對誤差(MSE)是相對誤差的平均值,通常用平均相對誤差絕對值表示。
平均預估誤差(MPE)是反映平均樹高估計值的精度指標。
平均百分標準誤差(MPSE),是反映單株樹高估計值的精度指標。
具體公式如下:
式中:hi為樣木的實測值,^hi為樣木的估算值,n為樣本單元數,p為參數個數,ta為置信水平a時的t值,CV為變動系數。
R2和SEE是回歸模型最常用的指標,反映了模型的擬合優(yōu)度;TRE和MSE是反映擬合效果的重要指標,二者都應該控制在(-3%,3%)或(-5%,5%)的范圍內,指標值越趨于0,效果越好;MPE是反映平均樹高估計值的精度指標;MPSE是反映單株樹高估計值的精度指標;CV是描述參數穩(wěn)定性的重要指標,它的值應小于50%[16]。
另外,殘差的隨機性用以描述殘差分布是隨機的,各個徑階的殘差應當正負相抵。若以0殘差作為基準線,上下對稱分布,則殘差分布為隨機。
由兩個不同擬合方法獲得的模型是否合格,還需要進行適用性檢驗,設y為實測樹高,x為模型估算樹高,使用直線方程y=bx+a進行線性回歸,a值越是接近1,b值越是接近0,則方程擬合程度越好。
為檢驗所選樹高模型是否適應,必須對y與x之間線性關系的顯著性進行F檢驗。通過a、b可以以求得一個F值,通過樣本數及方程的自由度可以查表得到允許F值,若實得F值大于允許值,則從數量上說明了其合理性。F值越高,說明其線性關系的顯著性越高,計算得出F值后,通過其自由度a(n1,n2)及位置水平查得Fa(n1,n2)。若F>Fa(n1,n2),則滿足要求。即:
在1stOpt中軟件中,利用麥特夸(Levenberg-Marquarat-LM)+通用全局優(yōu)化算法(Universal Global Optimization-UGO)對樹高模型H=a0d2+a1d+a2進行曲線擬合。
編寫程序代碼如下:
Title"基于1stopt的樹高模型擬合";
(數據部分省略)
算法設置為Levenberg-Marquardt法(LM)+通用全局優(yōu)化算法(UGO),其余參數選擇默認值。
圖1 1stOpt樹高模型擬合結果點線圖
打開SPSS軟件,將樹高及胸徑數據導入,將拋物線公式輸入并將算法設置為普通最小二乘法,選擇默認收斂條件進行擬合,從而得到樹高與胸徑關系的點線圖(見圖2)。
圖2 SPSS軟件普通最小二乘法樹高模型擬合結果點線圖
分別使用1stOpt中LM-UGO算法與SPSS軟件中最小二乘法對樹高模型進行擬合,擬合結果見表2。
表2 兩種方法對樹高模型的擬合結果
將胸徑分別帶入LM-UGO及SPSS所建模型,得到樹高估計值(^h),結合樹高實測值(H),運用公式(1)~(7)進行計算,得到各項評價指標(見表3)。由表3可知,LM-UGO算法與SPSS的最小二乘法對樹高模型的擬合均取得了較好的結果。其確定系數(R2)均超過0.90,說明胸徑因子已經解釋了樹高因子變動的90%以上,且LM-UGO擬合結果優(yōu)于SPSS最小二乘法所得結果。估計值的標準差(SEE)分別為1.208 4和1.223 7;平均系統(tǒng)誤差(MSE)、總相對誤差(TRE)分別為都在(-3%,3%)的范圍內,在這兩項體現(xiàn)擬合效果的重要指標中,LMUGO較SPSS最小二乘法所得擬合值更趨近于0,即LM-UGO擬合效果更優(yōu);平均預估誤差(MPE)中置信水平a取0.05(t0.05=1.960)時,MPE在3%以內,平均百分標準誤差(MPSE)約為8%,LM-UGO同樣優(yōu)于SPSS最小二乘法;變動參數(CV)值,CVLM-UGO<CVSPSS最小二乘法<50%。從基本評價指標來看,LMUGO算法明顯優(yōu)于SPSS最小二乘法擬合結果。
表3 樹高模型擬合參數估計值及統(tǒng)計指標
分別基于1stOpt軟件和SPSS最小二乘法的得到殘差柱狀圖和殘差散點圖(見圖3、圖4)。兩圖均顯示出在零殘差線上下基本對稱,即殘差隨機項均合格。
圖3 基于1stOpt軟件的殘差柱狀圖
圖4 基于SPSS軟件的殘差散點圖
綜合以上8項評價指標可以得出,LM-UGO所獲取的擬合模型在各個精度上均優(yōu)于SPSS軟件最小二乘法。
通過實測樹高與模型所得樹高線性回歸得到a、b值。通過實驗數據獲取到模型自由度為(1,179),置 信 水 平a=0.05,查 表 得t0.05=1.960,F(xiàn)0.05(1,179)=2.924。檢驗結果如表4所示。
表4 兩種方法計算結果的檢驗
通過表4可以看出,F(xiàn)檢驗結果,F(xiàn)LM-UGO>FSPSS最小二乘法>F0.05(1,179),故LM-UGO法所得樹高與實測樹高線性顯著性更高。并且LM-UGO所得a、b值較于最小二乘法更分別接近于1和0,說明LMUGO法擬合程度更好。
1stOpt軟件獨特的通用全局優(yōu)化算法,如今已經被廣泛應用于非線性回歸、非線性復雜模型參數估算求解,并在農業(yè)工程、壞境科學、社會經濟等領域得到驗證。LM-UGO所具有的不依賴初始值的特性對樹高模型進行擬合,與常用的SPSS軟件中的最小二乘法相比較,不僅大大降低了終端用戶的操作難度,還有效提高了求解的成功率。使用LMUGO法擬合所得的樹高模型,在林分材積表、出材量預測、經濟評價和林分蓄積量計算等方面起到進一步的推動作用。
[1]陳立莉.樹種樹高曲線模型的研究[D].哈爾濱:東北林業(yè)大學,2013.
[2]王璞,馬履一,段劼,等.華北落葉松林平均木-優(yōu)勢木樹高模型的研究[J].安徽農業(yè)科學,2013,41(21):8963-8964.
[3]杜婧,馮仲科,樊瀟飛,等.基于1stOpt軟件的二元立木材積方程的研究[J].中南林業(yè)科技大學學報,2014,34(4):64-67.
[4]陳麗聰,鄧華鋒,黃國勝,等.不同起源馬尾松與杉木林分樹高曲線的擬合及對比[J].西北農林科技大學學報:自然科學版,2014,42(1):57-64.
[5]劉平,馬履一,賈黎明,等.油松人工林單木樹高生長模型研究[J].林業(yè)資源管理,2008(5):50-56.
[6]王霓虹,王志芳.孟家崗落葉松人工林標準樹高模型的研究[J].森林工程,2014,30(2):10-12.
[7]王慶豐,倪成才,駱國民.用SAS的mixed過程擬合林分的線性差分生長模型[J].科技致富向導,2013(35):108-109.
[8]Huang S,Titus S.IComparison of nonlinear height-diameter function for major AIbera tree species[J].Can J For Res,1992,22(9):1297-1304.
[9]王明亮,李希菲.非線性樹高曲線模型的研究[J].林業(yè)科學研究,2000,13(1):75-79.
[10]范金阜.關于樹高方程的選配[J].林業(yè)資源管理,1981(1):18-21.
[11]曾偉生.全國立木生物量方程建模方法研究[D].北京:中國林業(yè)科學研究院,2011.
[12]Kozak A,Kozak R.Does cross validation provide additional information in the evaluation of regression models[J].Can J for Res,2003,33(6):976-987.
[13]Cheng Xianyun,Chai Fuxin,Gao Jing,et al.1stOpt and Global Optimization Platform:Comparison and Case Study[C]//Proceedings of 2011 4th IEEE International Conference on Computer Science and Information Technology.Beijing:IEEE,2011.
[14]琚松苗.SPSS在林業(yè)生產和科學研究中的應用實例解析[J].安徽林業(yè)科技,2011,38(1):28-30.
[15]劉明.普通最小二乘法的幾何分析[J].統(tǒng)計與決策,2012(4):90-92.
[16]曾偉生,張會儒,唐守正.立木生物量建模方法[M].北京:中國林業(yè)出版社,2011.