梁燕紅,梁志清,黃琦,蘇炳歡,陳其應(yīng)
(1.玉林師范學(xué)院商學(xué)院,廣西 玉林 537000; 2.玉林師范學(xué)院復(fù)雜系統(tǒng)優(yōu)化與大數(shù)據(jù)處理廣西高校重點(diǎn)實(shí)驗(yàn)室,廣西 玉林 537000; 3.廣西山口紅樹(shù)林生態(tài)自然保護(hù)區(qū)管理處,廣西 北海 536000)
廣州小斑螟Oligochroacantonella是紅樹(shù)植物白骨壤Avicenniamarina最主要的害蟲(chóng),其種群密度在每年5—6月有明顯峰值。白骨壤經(jīng)廣州小斑螟危害后,葉片枯萎,枝干死亡,積蓄量大幅減少,影響下一年繁殖[1]。2004年5月,廣西山口國(guó)家紅樹(shù)林生態(tài)自然保護(hù)區(qū)遭受了嚴(yán)重的廣州小斑螟危害[2],超過(guò)40 hm2的白骨壤被該蟲(chóng)啃食,1周后受害面積迅速蔓延至106 hm2,樹(shù)木嚴(yán)重枯萎[3]。白骨壤蟲(chóng)害的大規(guī)模暴發(fā)引起了專家和學(xué)者的關(guān)注。2004年范航清 等[4]選取了防城港市北侖河口灣、欽州市欽州港區(qū)、北海市大冠沙區(qū)域、合浦縣山口鎮(zhèn)永安村、湛江市德耀村5個(gè)調(diào)查地點(diǎn)監(jiān)測(cè)、探討蟲(chóng)害暴發(fā)可能與氣候、生態(tài)環(huán)境衰退等因素有關(guān)。劉文愛(ài) 等[5]通過(guò)室內(nèi)飼養(yǎng)試驗(yàn)和野外觀察,發(fā)現(xiàn)廣州小斑螟發(fā)生與灘位、方位、海水的水溫等環(huán)境因素相關(guān)。范航清 等[6]對(duì)廣西紅樹(shù)林蟲(chóng)害發(fā)生的成因進(jìn)行分析評(píng)估,認(rèn)為紅樹(shù)林自身的生物學(xué)原因、異常氣候、人為活動(dòng)、大面積引種外來(lái)樹(shù)種是紅樹(shù)林蟲(chóng)害發(fā)生的主要影響因素。
氣候是紅樹(shù)林蟲(chóng)害的重要影響因素之一。目前,國(guó)內(nèi)外對(duì)紅樹(shù)林蟲(chóng)害的發(fā)生與氣候因素的關(guān)系未見(jiàn)有深入的研究報(bào)道。數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際數(shù)據(jù)中,提取有用知識(shí)的過(guò)程[7],其在農(nóng)業(yè)、林業(yè)蟲(chóng)害預(yù)測(cè)與分析方面已取得一些研究成果[8-12],但尚未在紅樹(shù)林蟲(chóng)害氣候因素分析中有應(yīng)用研究。決策樹(shù)分類法是數(shù)據(jù)挖掘的方法之一,用其可對(duì)已知樣本分類,并預(yù)測(cè)未知樣本的類別。本文針對(duì)廣西山口國(guó)家紅樹(shù)林生態(tài)自然保護(hù)區(qū),運(yùn)用數(shù)據(jù)挖掘中決策樹(shù)的C 4.5算法分析2004—2015年廣州小斑螟發(fā)生面積、保護(hù)區(qū)氣溫、降水量,以期發(fā)現(xiàn)蟲(chóng)害發(fā)生與氣候因素之間隱含的聯(lián)系,并用結(jié)果進(jìn)行預(yù)測(cè),檢驗(yàn)?zāi)P偷男Ч?/p>
1.1 材料 2004—2015年1月平均氣溫、1月降水量、4月平均氣溫、4月降水量等數(shù)據(jù)從相關(guān)氣象站收集,歷年來(lái)廣西山口國(guó)家紅樹(shù)林生態(tài)自然保護(hù)區(qū)廣州小斑螟發(fā)生面積由該保護(hù)區(qū)管理處提供(表1)。
表1 2004—2015年廣州小斑螟發(fā)生面積、保護(hù)區(qū)氣溫及降水
1.2 方法
1.2.1 采用C 4.5算法建立決策樹(shù)模型 C 4.5算法以信息增益率(GainRatio)作為分裂度量指標(biāo),采用自頂向下的方法,計(jì)算各個(gè)描述性屬性的GainRatio值,選擇GainRatio值最大的屬性作為分裂屬性,依次生成根節(jié)點(diǎn)、各層子女結(jié)點(diǎn)及葉子結(jié)點(diǎn),形成初始決策樹(shù),剪枝后生成最佳決策樹(shù)。
算法的主要公式有[13]:
(1)類別信息熵:Info(D)=
(2)條件信息熵:InfoA(D)=
(3)信息增益:Gain(A)=Info(D)-InfoA(D)
(4)屬性A的分裂信息:SplitInfo(A)=
(5)屬性A的信息增益率:GainRatio(A)=Gain(A)/SplitInfo(A)
式中:D為數(shù)據(jù)樣本的集合,C為離散型的分類屬性,C1,C2…Ck表示k個(gè)類別,屬性A有n個(gè)不同取值{a1,a2,…an},D1,D2,…,Dn為D的子集。︱D︱?yàn)镈的樣本數(shù),︱Di︱?yàn)锳=ai的樣本數(shù),P(Cj)為類別Cj的概率,P(ai)為屬性A=ai的概率,P(Cj/ai)為條件概率。
將廣西山口國(guó)家紅樹(shù)林生態(tài)自然保護(hù)區(qū)2004—2015年的廣州小斑螟發(fā)生面積、保護(hù)區(qū)氣溫、降水量作為樣本構(gòu)建模型。上述算法在WEKA平臺(tái)上完成。
1.2.2 預(yù)測(cè)2016、2017年發(fā)生情況并檢驗(yàn) 根據(jù)WEKA平臺(tái)的挖掘結(jié)果,依據(jù)2016、2017年的氣候數(shù)據(jù),預(yù)測(cè)廣州小斑螟發(fā)生面積的等級(jí),并與實(shí)際發(fā)生情況對(duì)比。
1.3 數(shù)據(jù)處理 劃分廣州小斑螟發(fā)生面積(單位:hm2)的區(qū)間,并進(jìn)行分級(jí)。A級(jí):[0,10);B級(jí):[10,20); C級(jí):[20,45); D級(jí):[45,+∞)。通過(guò)WEKA平臺(tái)中Filter篩選器下的Discretize工具對(duì)表1中2004—2015年的氣溫、降水量進(jìn)行等頻離散化處理,將各屬性分成4個(gè)區(qū)間(表2)。
表2 2004—2015年保護(hù)區(qū)氣溫、降水量所屬區(qū)間及廣州小斑螟發(fā)生面積等級(jí)
2.1 建立決策樹(shù)模型 在WEKA平臺(tái)的classify選項(xiàng)卡下選擇決策樹(shù)分類器Trees 中的J48,即用C4.5算法完成挖掘,建立決策樹(shù)模型,反映出1月、4月的氣溫、降水量與廣州小斑螟發(fā)生面積等級(jí)的對(duì)應(yīng)關(guān)系(圖1)。
注:avtyi,1月平均氣溫;avryi,1月降水量;avtsi,4月平均氣溫;avrsi,4月降水量;area,發(fā)生面積等級(jí);A-D,害蟲(chóng)發(fā)生面積等級(jí)。
圖11月、4月氣溫、降水量與廣州小斑螟發(fā)生面積等級(jí)的對(duì)應(yīng)關(guān)系
根據(jù)圖1可提取以下規(guī)則:
(1) IF(avryi>49.4) THEN area=D
(2) IF(avryi≤49.4 AND avtyi>14.2) THEN area=C
(3) IF(avryi≤49.4 AND avtyi≤14.2 AND avtsi≤23.1) THEN area=B
(4) IF(avryi≤49.4 AND avtyi≤14.2 AND avtsi>23.1) THEN area=A
依據(jù)圖1和以上IF-THEN規(guī)則可得出如下結(jié)論:
1)保護(hù)區(qū)廣州小斑螟發(fā)生量與氣溫、降水量有密切關(guān)系。圖1中距離根節(jié)點(diǎn)越近的屬性對(duì)蟲(chóng)情影響越大,即:1月份降水量對(duì)廣州小斑螟發(fā)生量影響最大,其次是1月份平均氣溫、4月份平均氣溫,影響最小的是4月份降水量。
2)若1月降水量較大,則廣州小斑螟大面積發(fā)生的概率較高;若1月高溫少雨,則廣州小斑螟發(fā)生面積減少為C級(jí)的可能性較大;若1月低溫少雨,且4月平均氣溫較低,則廣州小斑螟發(fā)生面積進(jìn)一步減少為B級(jí)的可能性較大;若1月低溫少雨,且4月平均氣溫較高,則廣州小斑螟小面積發(fā)生或不發(fā)生的概率較高。
2.2 預(yù)測(cè)及檢驗(yàn)結(jié)果 2016年該保護(hù)區(qū)1月降水量較大,為49.6 mm(>49.4 mm),預(yù)測(cè)廣州小斑螟發(fā)生面積為D級(jí)。監(jiān)測(cè)資料顯示,實(shí)際發(fā)生面積為66 hm2,與預(yù)測(cè)結(jié)果基本一致。2017年該地區(qū)1月降水量較少,為38.3mm(≤49.4 mm),平均氣溫14.1℃(≤14.2 ℃),預(yù)測(cè)2017年廣州小斑螟不會(huì)大面積或較大面積發(fā)生,發(fā)生面積可能為B級(jí)或A級(jí)。據(jù)保護(hù)區(qū)實(shí)際監(jiān)測(cè),2017年沒(méi)有發(fā)生廣州小斑螟危害,與預(yù)測(cè)結(jié)果基本吻合。
數(shù)據(jù)挖掘技術(shù)中有多種算法可用于蟲(chóng)害發(fā)生因素分析。如Apriori算法,通過(guò)計(jì)算支持度和置信度,與預(yù)先設(shè)置的閾值比較,提取強(qiáng)關(guān)聯(lián)規(guī)則,發(fā)現(xiàn)影響蟲(chóng)害發(fā)生面積的主要因素。缺點(diǎn)是閾值的設(shè)置具有主觀性,不合理的閾值直接影響挖掘結(jié)果的正確率,且不能用圖形表示挖掘結(jié)果。本文用C 4.5算法分析廣州小斑螟發(fā)生面積與氣候因素的關(guān)系,結(jié)果用決策樹(shù)表示,直觀地顯示出4個(gè)因子對(duì)廣州小斑螟發(fā)生面積的影響力,并可提取IF-THEN規(guī)則,易于理解。將模型用于分析歷史資料,根據(jù)氣候數(shù)據(jù)區(qū)分廣州小斑螟發(fā)生面積的等級(jí),WEKA平臺(tái)顯示挖掘結(jié)果的分類正確率為75%,預(yù)測(cè)結(jié)果與實(shí)際較相符,適用于本例,為紅樹(shù)林蟲(chóng)害的預(yù)測(cè)提供了新的手段。
使用C 4.5算法分析廣州小斑螟發(fā)生與氣候因素的關(guān)系,簡(jiǎn)單易行,但仍存在一些問(wèn)題需進(jìn)一步探討,如建模時(shí)主要考慮氣溫、降水量?jī)蓚€(gè)基本的氣候因素,實(shí)際上廣州小斑螟的發(fā)生與多個(gè)氣候因子有關(guān),應(yīng)考慮將日照時(shí)間、濕度、積溫等因素也納入到模型中,增強(qiáng)模型的健壯性,使挖掘結(jié)果更具代表性。此外,隨著監(jiān)測(cè)數(shù)據(jù)的增加,需要繼續(xù)擴(kuò)充訓(xùn)練樣本和預(yù)測(cè)樣本,不斷修正模型,提高模型預(yù)測(cè)的準(zhǔn)確度。