劉福香
(哈爾濱商業(yè)大學 經(jīng)濟學院,哈爾濱 150028)
有限混合模型(Finite mixture models,FMM)是利用有限個已知分布的混合去擬合數(shù)據(jù)分布的參數(shù)方法。主要用于表現(xiàn)數(shù)據(jù)的分布及變異程度,特別擅長擬合數(shù)據(jù)是多峰、有偏和結尾等數(shù)據(jù)類型。FMM也可以用于頻數(shù)數(shù)據(jù)或分組數(shù)據(jù)的分布結構探索,即也可以用于分類研究,并估計每一類別的比例。本文通過介紹FMM的原理及實際應用,并與現(xiàn)在通用的研究方法比較,為研究者提供借鑒。
有限混合模型(FMM)又稱為有限混合分布模型,它是有限個已知分布的混合?,F(xiàn)在主要應用于經(jīng)濟、漁業(yè)、生物、醫(yī)藥等領域[1-3]。FMM可以估計每個已知分布函數(shù)的參數(shù),還能估計出每個組成部分的比例[4]。FMM模型可以擬合不同分布函數(shù)的混合,例如Γ分布、正態(tài)分布、β分布、logistic分布、正態(tài)分布、Weibull分布[5]。參數(shù)估計方法有矩估計[6]、極大似然估計、Bayes估計[7]等。
假設有k個分布函數(shù)混合(j=1,2,…,k),x是目標隨機變量,例如本文中的樹的胸徑。fj(x)是對應第j個組成分布的概率密度函數(shù),f(x,p)就是對應的有限混合模型,有限混合函數(shù)表示為:
其中 p=(p1,p2,…,pk-1)是 k-1 個組成部分的比例向量。每個獨立成分必須滿足下面的限制條件:0<pj<1和其中,f(x,p)可以是同一分布函數(shù),也可以是不同分布函數(shù)的混合。
在本文中,以3個參數(shù)的Weibull函數(shù)的混合為例,fj(x):
其中aj,bj和cj分別是對應第j個組成成分的位置參數(shù)、尺度參數(shù)和形狀參數(shù)。
第j個組成成分的累計概率密度函數(shù)為:
因此,有限混合對應的累計概率密度函數(shù)為:
在本文中,模型的參數(shù)估計采用極大似然估計,因為極大似然估計具有均方誤差較小及相合性等比較好的統(tǒng)計特性。
FMM對應的似然密度函數(shù)為:
對似然函數(shù)取對數(shù),如下:
然后對式(6)的對數(shù)似然函數(shù)求偏導,找到使得函數(shù)取得最大值的對應參數(shù)值,即偏導數(shù)為0,最后可以利用迭代法求出參數(shù)的值。
FMM模型是基于數(shù)據(jù)分類的比較有效的方法,但是對于數(shù)據(jù)中具體分成多少個成分,目前是研究界的問題之一,本文也涉及這一問題的討論。本文在以天然的混交林中已知樹種組成的前提下,利用FMM模型擬合實際林分的直徑分布,與普通的方法比較。探討FMM模型應用優(yōu)勢及劣勢。
本文以兩個三參數(shù)的參數(shù)Weibull分布函數(shù)進行混合,來擬合天然混交林分中各個樹種的徑階分布,分別與全林分用一個Weibull分布函數(shù)的擬合,與每個樹種分別用一個Weibull分布函數(shù)的擬合,并于FMM模型相比較。利用統(tǒng)計軟件SAS9.3中的FMM Procedure過程進行數(shù)據(jù)整理和處理。
本文數(shù)據(jù)用的是大興安嶺地區(qū),位于西林吉林業(yè)局、圖強林業(yè)局和阿木爾林業(yè)局的天然混交林的四塊樣地的直徑分布數(shù)據(jù),分別記為1號樣地、2號樣地、3號樣地和4號樣地。其中1號樣地是落葉松-白樺兩個樹種的混交林,3號樣地和4號樣地是落葉松-白樺-蒙古櫟3個樹種的混交林。分別對這四塊樣地進行徑階整理分組,以2為徑階矩,再對每個徑階的株數(shù)進行匯總,并對樹種進行分類。表1是對數(shù)據(jù)的描述性匯總。4直徑分布柱態(tài)圖如圖1所示。
表1 描述性統(tǒng)計
圖1 4直徑分布柱狀圖
對應的分布函數(shù)如下:
其中i表示第i徑階,其中共s個徑階,xi是第i個徑階對應的中值。p1對應第一個樹種的比例,即p1=N1/N,也就是這一樹種占整個樹種的比例,N1,N2林分中兩樹種對應的株樹,p2同上。
因此,式(7)可以被改寫為:
擬合林分直徑采用以下三種方法并進行比較:
方法1:FMM模型方法,即三參數(shù)Weibull分布的混合;
方法2:用一個三參數(shù)Weibull分布函數(shù)模擬整個樣地的直徑分布形態(tài),不分樹種。
方法3:分樹種進行分別擬合,然后再加總,得到整個樣地的擬合情況。
最后比較三種方法擬合優(yōu)劣。
模型評價指標包括AIC信息準則 (AIC)、偏差(Bias)、均方 根 誤差 (RMSE)和似然 比 χ2檢 驗 (likelihood-ratio χ2test),如下:
其中l(wèi)ogL是對應模型的對數(shù)似然函數(shù),m是有效的參數(shù)數(shù)量,AIC越小越好。
其中s是徑級的數(shù),Di是第i個徑級的直徑的和,?是模型估計的第i個徑級的直徑的和。第i個徑級的直徑的和其中Ni是第i個徑級的株數(shù),di是第i個徑級中值。
其中Oi是第i個徑級觀察株數(shù)是第i個徑級有模型預測的株數(shù)。 χ2檢驗的自由度是(N-m-1),m被估計參數(shù)的數(shù)量。
本文中,模型的殘差是:
這個殘差的優(yōu)勢是可以給較大徑階的樹木有較大的權重,因為在實際的林業(yè)經(jīng)營中較大徑階的樹木有較大的經(jīng)濟效益。給它賦予較大的權重,有利于林業(yè)經(jīng)營管理。
對整塊樣地的擬合看出方法1(FMM)明顯優(yōu)于方法2和方法3,方法1的平均偏差、均方根誤差和似然比卡方值都明顯優(yōu)于方法2和方法3(見表2)。而且方法1考慮了每個樹種的組成比例。樣地1和樣地2直徑分布屬于反J型分布,樣地3和樣地4屬于雙峰分布,方法1都體現(xiàn)了很好的擬合效果,方法2對于擬合樣地1和樣地2也體現(xiàn)了較好的形式,只有方法3效果不佳,說明不考慮樹種分別擬合是不符合實際的。在預測方面方法2和方法3都高估了實際株樹。特別是在18cm徑級和26cm徑階有小幅的波動,方法2和方法3都沒有表現(xiàn)出來。對于三個樹種的混合(樣地3和樣地4),模型1(FMM)也表現(xiàn)了比較好的擬合效果。
對于樹種比例的預測,只有方法1(FMM)和方法3能對比例進行預測,方法2是對整塊樣地直徑分布進行擬合,所以表3比較了方法1(FMM)和方法3對樹種比例的預測結果。樣地1和樣地2,方法1(FMM)也優(yōu)于方法3,樣地3和樣地4,方法1(FMM)與方法3各有優(yōu)劣(見表3)。由于樣地3和樣地4是三個樹種的混合,其中蒙古櫟在林分中的比例較少,也影響了比例的估計,如果對于樣本數(shù)量增加會提高估計的效果。3種方法對4塊樣的擬合結果見圖2,其株數(shù)預測殘差圖見圖3。
表2 三種方法的Bias、RMSE和χ2檢驗結果
表3 方法1和方法3對樹種比例的估計
圖3 3種方法對4塊樣地的株數(shù)預測殘差圖
本文研究了三參數(shù)Weibull分布函數(shù)的FMM模型的應用,擬合了混交林直徑的分布,擬合結果表明三參數(shù)Weibull分布函數(shù)的FMM模型能夠靈活地表現(xiàn)數(shù)據(jù)的特征,并能對每個組成部分的比例進行估計,并與傳統(tǒng)的方法進行比較,得到了理想的結果。核密度估計方法也可以用于描述數(shù)據(jù)的分布形態(tài),但是它對未知分布的描述也不是最準確的,相比FMM模型有一定的優(yōu)勢,在以后的研究中可以進行比較。FMM模型也可以用于聚類分析,并且能夠估計每一類的比例,且考慮數(shù)據(jù)中未被考慮到的異質性。