摘要:" 基于國家森林資源清查體系,我國積累了大量的森林資源清查數(shù)據(jù),為國家的戰(zhàn)略規(guī)劃和政策制定提供重要依據(jù)。本文首先對基于分類和聚類的數(shù)據(jù)方法進(jìn)行了研究,并對國家森林資源清查數(shù)據(jù)的特征和數(shù)據(jù)挖掘的方向展開分析,選取了華東監(jiān)測區(qū)的樣地和樣木數(shù)據(jù),篩選了區(qū)域、立地因子、測樹因子、生長量等參數(shù),進(jìn)行了聚類和分類的數(shù)據(jù)挖掘,提出了關(guān)于模型組的合理歸并與增減以及避免主觀因素造成的誤分類等方面的優(yōu)化方法,而數(shù)據(jù)挖掘的應(yīng)用也可以提升智能機器人的感知、決策和交互能力。
關(guān)鍵詞:" 數(shù)據(jù)挖掘;" 分類算法;" 聚類算法;" 數(shù)據(jù)優(yōu)化
中圖分類號:" "T 10" " " " " " " "文獻(xiàn)標(biāo)識碼:" "A" " " " " " " " 文章編號:1001 - 9499(2024)06 - 0061 - 04
基于源自德國的森林資源連續(xù)清查的抽樣框架體系,我國國家森林資源連續(xù)清查每五年一次,截至2018年已經(jīng)完成了9次;自2021年起,國家林草局聯(lián)合自然資源部開展了國家林草綜合監(jiān)測工作,期間積累了數(shù)百萬條樣地數(shù)據(jù)和數(shù)億條樣木數(shù)據(jù),為森林資源監(jiān)測工作提供了有力的支持[ 1 , 2 ]。通過清查數(shù)據(jù),可以了解森林的分布、類型、面積、質(zhì)量等信息,進(jìn)而制定合理的保護、管理和利用政策,以實現(xiàn)國家可持續(xù)發(fā)展和生態(tài)安全的目標(biāo)[ 3 , 4 ]。然而由于時間跨度較大、調(diào)查設(shè)備更替、外業(yè)調(diào)查情況復(fù)雜等諸多因素,這些數(shù)據(jù)對森林資源動態(tài)監(jiān)測,特別是遙感反演生物量、蓄積量等指標(biāo)來說,可用性存在一定的不足,因此國家森林資源清查數(shù)據(jù)的優(yōu)化需要投入更多的研究[ 5 , 6 ]。
信息爆炸時代,海量信息同時也伴隨著海量的特征信息,數(shù)據(jù)挖掘可以從大量數(shù)據(jù)中揭示出先前未知并且具有潛在價值的信息[ 7 ],主要通過分析每個數(shù)據(jù),以及從大量數(shù)據(jù)間尋找其中的規(guī)律。數(shù)據(jù)挖掘的興起主要依賴于數(shù)學(xué)、統(tǒng)計學(xué)、人工智能、機器學(xué)習(xí)等學(xué)科的高速發(fā)展[ 8 ],而基于數(shù)據(jù)挖掘方法在智能機器人中的應(yīng)用場景也非常廣闊。本文嘗試采用數(shù)據(jù)挖掘的算法對國家森林資源清查體系下的數(shù)據(jù),進(jìn)行優(yōu)化,使其在蓄積量、生物量、碳匯量、生長量等更多研究方向上具有更多的使用價值。
1 基于分類和聚類的數(shù)據(jù)挖掘方法
數(shù)據(jù)挖掘方法從機器學(xué)習(xí)的角度來看可以分為有監(jiān)督和無監(jiān)督兩類。有監(jiān)督的數(shù)據(jù)挖掘是利用數(shù)據(jù)的特定屬性構(gòu)建一個預(yù)測性模型,如分類、估值和預(yù)測。無監(jiān)督的數(shù)據(jù)挖掘則是在所有的屬性中尋找某種關(guān)系,構(gòu)建描述性模型,如關(guān)聯(lián)規(guī)則和聚類[ 9 - 12 ]。根據(jù)數(shù)據(jù)特性和研究目的,本次研究主要是依靠有監(jiān)督的分類算法和無監(jiān)督的聚類算法,因此主要對這兩類算法進(jìn)行研究分析。
1. 1 基于分類的數(shù)據(jù)挖掘方法
分類方法主要是在已知確定類別的情況下,尋找數(shù)據(jù)內(nèi)部的關(guān)系,分成相應(yīng)的類別。通過分類算法來識別物體、人臉、語音等,從而實現(xiàn)自主導(dǎo)航、人機交互等功能。此外,分類算法還可以用于機器人的視覺感知、目標(biāo)跟蹤、姿態(tài)估計等方面。常用的分類方法有支持向量機(SVM)算法、決策樹算法、隨機森林算法、K近鄰(KNN)算法等。
SVM算法主要可以用于解決小樣本下的數(shù)據(jù)挖掘問題,并且提高泛化性能,通過映射也可以對高維、非線性的問題求解,主要面向二分類問題,處理多分類的問題可能需要重分類,或者多次二分類,相對麻煩。
決策樹算法基本思想首先是從單一根節(jié)點開始,對實例的單項特征值進(jìn)行測試,然后根據(jù)測試結(jié)果將實例分配到其子節(jié)點,再遞歸地對實例進(jìn)行測試并分配,直到到達(dá)葉節(jié)點,最后實例就被完全分到葉節(jié)點的類中。
隨機森林算法是在決策樹算法的基礎(chǔ)上,對樣本進(jìn)行了重采樣,并且也隨機選取了特征,形成多棵樹,數(shù)據(jù)的最終分類則通過投票的方式?jīng)Q定。顯然隨機森林算法的穩(wěn)定性和抗過擬合化的能力都得到了大幅度的提高,但是相應(yīng)的時間復(fù)雜度和計算成本也相應(yīng)提高了,對數(shù)據(jù)的依賴性相對較強。
KNN算法是一種主要依靠測量特征值之間的距離來進(jìn)行分類的方法,其精度相對較高,可以用于非線性分類,對數(shù)據(jù)的依賴性相對較弱,不過計算量相對較大,并且對樣本分類不均衡的問題,容易帶來誤判,因此可解釋性也相對較差。
1. 2 基于聚類的數(shù)據(jù)挖掘方法
聚類方法主要是用于類別不確定的情況下,利用數(shù)據(jù)在距離、密度、連通性等層面的相似度將數(shù)據(jù)聚合成不同的類別。其中較為常見的數(shù)據(jù)挖掘算法有基于距離的K均值(K-means)算法、基于密度聚類(DBSCAN)算法、基于Kohonen網(wǎng)絡(luò)的聚類算法等。
K-means算法首先選取部分?jǐn)?shù)據(jù)組,隨機初始化產(chǎn)生中心點,通過計算每個數(shù)據(jù)點到中心點的距離,劃分類別,對得到的每一類中心點設(shè)為新的中心點,經(jīng)過多次的迭代,得到最終的聚類結(jié)果。在優(yōu)化過程中,可以采用多次隨機產(chǎn)生初始化中心點,選取迭代最優(yōu)的結(jié)果。
DBSCAN算法的關(guān)鍵是確定半徑和臨界值,再從任意數(shù)據(jù)點開始,判斷以這個點為中心,確定半徑的圓內(nèi)包含點的數(shù)量是否超過臨界值,如果沒超過臨界值則該點被標(biāo)記為噪聲點,反之則會被標(biāo)記為中心點,然后重復(fù),直到所有的點都被遍歷,需要注意的是當(dāng)一個噪聲點位于另外一個中心點的圓內(nèi)時,則這個點應(yīng)被標(biāo)記為邊緣點,反之則仍為噪聲點。該算法的特點是不需要知道類別的數(shù)量,但如何尋找更優(yōu)的半徑和臨界值,往往需要借助經(jīng)驗或多次的嘗試。
基于Kohonen網(wǎng)絡(luò)的聚類算法是一種基于自組織特征映射網(wǎng)絡(luò)的人工神經(jīng)網(wǎng)絡(luò)算法,網(wǎng)絡(luò)包含一個輸入層和一個輸出層,不包括隱層,輸入層中的每個輸入節(jié)點呈二維結(jié)構(gòu)分布,并都與輸出節(jié)點完全相通,且節(jié)點之間具有側(cè)向連接連。算法的過程是首先確定聚類的初始類中心,然后計算歐式距離,當(dāng)某個樣本輸入網(wǎng)絡(luò)時,與樣本距離最近的一個輸出節(jié)點“獲勝”,該節(jié)點即是對相應(yīng)信號刺激反應(yīng)最敏感的節(jié)點。調(diào)整獲勝節(jié)點及其鄰接節(jié)點的網(wǎng)絡(luò)權(quán)值,將使“獲勝”節(jié)點更接近相應(yīng)樣本。通過調(diào)整權(quán)值則會使該節(jié)點再次接近這類樣本。當(dāng)不同結(jié)構(gòu)的樣本輸入網(wǎng)絡(luò)后,將有其他輸出節(jié)點分別“獲勝”和進(jìn)行權(quán)值調(diào)整。這樣經(jīng)過樣本輸入和不斷的權(quán)值調(diào)整,使得最后的結(jié)果呈現(xiàn)出若干輸出節(jié)點分別對應(yīng)著若干樣本群,且每個樣本群內(nèi)部輸入變量結(jié)構(gòu)特征相似,不同樣本群間結(jié)構(gòu)特征差異明顯。
2 國家森林資源清查數(shù)據(jù)的分析
國家森林資源清查的基礎(chǔ)數(shù)據(jù)主要包括樣地、樣木和跨角林地等數(shù)據(jù),成果數(shù)據(jù)還包括了生長量、生物量和碳儲量等數(shù)據(jù),范圍涉及到全國各個省份(實際上從森林資源清查體系上來說是各個副總體),百余個樹種組,并且從基礎(chǔ)數(shù)據(jù)到成果數(shù)據(jù)的過程中也是經(jīng)歷過邏輯檢查、數(shù)據(jù)清洗和多輪的模型推演,以2021年度為例,基礎(chǔ)的樣地數(shù)據(jù)就達(dá)到了45.7萬條,涉及到的數(shù)據(jù)記錄達(dá)到600億組,各類蓄積量、生物量、碳儲量、生長量等模型也多達(dá)1297組。因此我們在對這些數(shù)據(jù)進(jìn)一步挖掘的時候需要充分考慮其數(shù)據(jù)的特征,并且對數(shù)據(jù)挖掘的方向進(jìn)行預(yù)先的設(shè)計。
2. 1 國家森林資源清查數(shù)據(jù)的特征
從基礎(chǔ)數(shù)據(jù)來看,從類型上分,主要可以分為樣地和樣木數(shù)據(jù)兩類。樣地數(shù)據(jù)的屬性因子有90項,其主要因子包含坐標(biāo)因子4項、地形地貌因子6項、土壤因子10項、覆蓋類型因子6項、立木因子7項等。樣木數(shù)據(jù)的屬性因子有22項,其主要因子有樹種、胸徑、蓄積量等。從關(guān)聯(lián)關(guān)系的角度來看,是由樣地號這個字段進(jìn)行關(guān)聯(lián),樣地表的多個屬性是由樣木表計算得到的,具體計算過程因為不涉及到本次數(shù)據(jù)優(yōu)化,故不加以贅述。
從成果數(shù)據(jù)來看,從類型上分,主要可以分為生長量和儲量兩種,其中儲量包含了蓄積量、生物量和碳儲量,三者之間具有密不可分的聯(lián)系,而生長量和儲量之間則主要通過多期數(shù)據(jù)進(jìn)行模型推演計算得到。
由此可以看出國家森林資源清查數(shù)據(jù)的核心是樣木和樣地數(shù)據(jù),屬性因子聚焦于地理信息(包含坐標(biāo)、地形地貌)和立木信息(包含覆蓋情況和測樹因子)兩類。
2. 2 森林資源清查數(shù)據(jù)挖掘的主要方向
本次數(shù)據(jù)挖掘的主要目的是為了森林資源動態(tài)監(jiān)測和遙感反演,因此數(shù)據(jù)挖掘的主要任務(wù)是在于尋找不同環(huán)境下樹木的生長情況和立木情況之間的關(guān)系。
具體來說,森林資源動態(tài)監(jiān)測主要研究的是一片區(qū)域(省市縣鄉(xiāng)村各級都有可能)森林資源的變化情況,基于國家層面的森林資源連續(xù)清查抽樣框架不足以滿足精度要求。因此可以從兩個方面對國家森林資源清查數(shù)據(jù)進(jìn)行優(yōu)化,一是從生長量模型的角度,將不同地域相同樹種的樣地、樣木數(shù)據(jù)進(jìn)行歸并,擴充樣本數(shù)量,尋找內(nèi)在聯(lián)系;二是從遙感反演的角度,將不同地域相同樹種的胸徑和立地條件之間建立關(guān)系,尋找新的分組模式,便于下一步遙感反演模型的建立。
3 國家森林資源清查數(shù)據(jù)的數(shù)據(jù)挖掘
因為國家森林資源連續(xù)清查始于20世紀(jì)70年代,過早的數(shù)據(jù)由于調(diào)查設(shè)備相對簡陋,保存手段較為落后,并且生態(tài)環(huán)境的變化又比較明顯,因此研究選取的是近四次國家森林資源連續(xù)清查數(shù)據(jù)。我國幅員遼闊,為避免出現(xiàn)地域跨越過大,在數(shù)據(jù)挖掘過程中造成的數(shù)據(jù)量過大,并且噪聲性數(shù)據(jù)過多,影響數(shù)據(jù)挖掘的效果,我們把研究區(qū)域縮小到華東區(qū)域。
3. 1 基于樣地生長量的數(shù)據(jù)挖掘
數(shù)據(jù)挖掘的過程為:
(1)選取生長量、副總體、地貌、土壤厚度、平均胸徑、優(yōu)勢樹種作為分析字段,對優(yōu)勢樹種組進(jìn)行歸并;
(2)以副總體為初始聚類數(shù),對數(shù)據(jù)按照不同優(yōu)勢樹種組聚類,以凝聚和分離的輪廓測量作為聚類質(zhì)量的衡量標(biāo)準(zhǔn),得到新的類分組;
(3)以新的類分組為目標(biāo)字段,做分類算法,得到新分類的準(zhǔn)確度;
(4)對新分類的結(jié)果進(jìn)行分析,確定優(yōu)化方法。
在聚類算法的選擇上,因為不同樹種組的聚類半徑和臨界值差異會相對較大,因此會對優(yōu)化帶來較大的困難,所以排除DBSCAN算法,選擇K-means算法、基于Kohonen網(wǎng)絡(luò)的聚類算法。
在分類算法的選擇上,由于是多分類問題,所以排除SVM算法,經(jīng)過嘗試,計算成本不是非常大的情況下,隨機森林算法與決策樹算法相比,更具有優(yōu)勢,因此最終的選擇是KNN算法和隨機森林算法。
聚類算法的評價標(biāo)準(zhǔn)為凝聚和分離的輪廓測量即輪廓系數(shù)S:
S=(B-A)/max(A,B)(1)
式中,A是記錄與其聚類中心的距離;B是記錄與其非所屬最近聚類中心的距離;S的取值區(qū)間為[-1,1],且越趨近于1,效果越好,而原始數(shù)據(jù)的輪廓系數(shù)的區(qū)間為[0.2,0.25]。
聚類算法的評價指標(biāo)為模型的決定系數(shù),即R2,數(shù)據(jù)挖掘的結(jié)果見表1。
3. 2 基于樣木的胸徑和立地條件的數(shù)據(jù)挖掘
數(shù)據(jù)挖掘的過程為:
(1)選取副總體、地貌、土壤厚度、胸徑、樹種作為分析字段,將樹種進(jìn)行歸并至樹種組;
(2)以副總體為初始聚類數(shù),對數(shù)據(jù)按照不同樹種組進(jìn)行聚類,得到新的類分組;
(3)以新的類分組為目標(biāo)字段,做分類算法,得到新分類的準(zhǔn)確度;
(4)對新分類的結(jié)果進(jìn)行分析,確定優(yōu)化方法。
聚類和分類算法的選擇以及評價標(biāo)準(zhǔn)同上。原始數(shù)據(jù)的輪廓系數(shù)的區(qū)間為[0.22,0.26],數(shù)據(jù)挖掘的結(jié)果見表2。
4 數(shù)據(jù)挖掘結(jié)果分析與結(jié)論
本文研究結(jié)果可以看出,國家森林資源清查數(shù)據(jù)經(jīng)過數(shù)據(jù)挖掘的優(yōu)化可以體現(xiàn)在幾個方面:
(1)可以歸并模型組,擴大研究區(qū)域內(nèi)具有相同特征的樣地數(shù)量,方便后續(xù)的遙感反演,如研究楊樹類的生長情況時,用新的聚類方式,提升了輪廓系數(shù),減少了類別,并且后續(xù)可以依照新的分類模型,去篩選數(shù)據(jù),提高之后反演的精度;
(2)可以適當(dāng)增加模型組,在進(jìn)一步研究蓄積量、生物量、碳儲量等指標(biāo)時,因地制宜的構(gòu)建模型組,能夠提高預(yù)測精度,做出更好的測算;
(3)可以避免一些經(jīng)驗主義的錯誤,如“南方山區(qū)的松類長勢都差不多”,減少因主觀因素造成錯誤的分類,影響后續(xù)的反演結(jié)果。
森林資源清查數(shù)據(jù)對滿足國家重大需求具有重要意義,可以為戰(zhàn)略規(guī)劃、生態(tài)環(huán)境保護、木材和非木材林產(chǎn)品供應(yīng)、災(zāi)害防控和經(jīng)濟發(fā)展等方面提供重要支持?;跀?shù)據(jù)挖掘的國家森林資源清查數(shù)據(jù)優(yōu)化方法涉及面非常廣泛,可以研究的方向也有很多,本文僅以華東區(qū)域為例,選取了部分清查數(shù)據(jù),進(jìn)行探索,做出了一些優(yōu)化,為后續(xù)更深層次的研究鋪墊。
參考文獻(xiàn)
[1] 曾偉生," 曹迎春," 陳新云," 等." 河北省主要樹種單木和林分生長率模型研建[J]. 林業(yè)資源管理, 2020(1): 30 - 37.
[2] 曾偉生," 陳新云," 楊學(xué)云." 內(nèi)蒙古主要樹種組立木胸徑生長率模型研建[J]. 林業(yè)資源管理, 2018(2): 38 - 42, 110.
[3] M. Gerdes, D. Galar, D. Scholz. Genetic algorithms and decision trees for condition monitoring and prognosis of A320 aircraft air conditioning[J]. 2017, 59: 424 - 433.
[4] 曾偉生," 夏 銳." 全國森林資源調(diào)查年度出數(shù)統(tǒng)計方法探討[J].林業(yè)資源管理,2021(2): 29 - 35.
[5] Navarro C R M, Gonzalez F E, Garcia G J, et al. Impact of plot size and model selection on forest biomass estimation using airborne LiDAR: A case study of pine plantations in southern Spain[J]. Journal of Forest Science, 2017, 63: 88 - 97.
[6] Sullivan M J, Lewis S L, Hubau W, et al. Field methods for" "sampling tree height for tropical forest biomass estimation[J]. Methods in Ecology and Evolution, 2018, 9: 1179 - 1189.
[7] Wang Y, Ni W, Sun G, et al. Slope-adaptive waveform metrics of large footprint lidar for estimation of forest aboveground biomass[J]. Remote Sensing of Environment, 2019, 224: 386 - 400.
[8] Poudel K P, Temesgen H, Gray A N. Evaluation of sampling
strategies to estimate crown biomass[J]. Forest Ecosystems, 2015, 2(1): 1.
[9] Gilbert B, Lowell K. Forest attributes and spatial autocorrelation and interpolation: effects of alternative sampling schemata in the boreal forest[J]. Landscape amp; Urban Planning, 1997, 37: 235 - 244.
[10] 鄒杰." 基于數(shù)據(jù)挖掘的數(shù)據(jù)清洗及其評估模型的研究[D].北京: 北京郵電大學(xué), 2017.
[11] 朱文軒." 基于數(shù)據(jù)挖掘的我國林業(yè)統(tǒng)計數(shù)據(jù)質(zhì)量評估方法與實證研究[D]. 北京: 北京林業(yè)大學(xué), 2021.
[12] 劉海," 徐旭平," 周蔚," 等." 林業(yè)樣地的數(shù)據(jù)清洗方法研究及其應(yīng)用[J].安徽工程大學(xué)學(xué)報, 2020, 35(3): 62 - 66.