黃 超,廖玉芳,蔣元華,彭嘉棟
(湖南省氣候中心,湖南 長沙 410008)
油茶是我國特有的木本食用油料樹種,具有重要的經(jīng)濟效益[1]。湖南是全國第一油茶大省,其經(jīng)濟效益對湖南農(nóng)業(yè)經(jīng)濟發(fā)展具有重要現(xiàn)實意義。油茶同所有露天生產(chǎn)的農(nóng)作物相似,氣象因素與其生長密切相關(guān)[2-4]。開展基于氣象因子與油茶含油率的相關(guān)研究對進(jìn)一步提高油茶品質(zhì)有很大的實用價值。
隨著油茶種植技術(shù)發(fā)展,油茶種植的關(guān)注點已經(jīng)開始從高產(chǎn)過渡到高品質(zhì)。油茶品質(zhì)主要由含油率、油茶籽脂肪酸組成以及加工技術(shù)等方面決定[5-8]。目前關(guān)于油茶含油率的研究多集中在品種選優(yōu)以及培育技術(shù)方面,氣象因子對油茶含油率影響的研究相對較少,而油茶生長期的氣象條件與其含油率密切相關(guān)。余優(yōu)森等[9]認(rèn)為油茶含油率與果實膨大期和油脂轉(zhuǎn)化積累期的氣溫、降水和日照時數(shù)相關(guān)。黎章矩等[10]研究表明,8~9月積溫與茶籽出油率呈顯著負(fù)相關(guān)。此外,油茶籽存儲時的溫濕條件以及采后處理也對其脂肪含量有一定的影響[11-12]。盡管前人的研究取得了一定的進(jìn)展,但氣象因子對油茶含油率的影響還不十分明確,需要進(jìn)一步探索。
一般而言,在挑選重要影響因子時相關(guān)分析和逐步回歸分析是常用統(tǒng)計方法,但在使用過程中會存在一定缺點,例如逐步回歸分析在挑選因子過程中很難選取到最優(yōu)的因子組合[13]。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,新技術(shù)在一定程度上能夠避免這些缺陷[14];決策樹算法便是其中一種,該方法屬于非線性統(tǒng)計方法,它能從大量數(shù)據(jù)中識別有用的規(guī)律,能夠自動挑選關(guān)鍵因子,客觀反映自變量與因變量間的相關(guān)關(guān)系;相比于其他數(shù)據(jù)挖掘算法,決策樹最大的優(yōu)勢在于其屬于白箱模型,計算過程可見,結(jié)果易解釋[15-17]。
本研究以湖南省為例,采用決策樹算法中的分類與回歸樹算法(CART)對影響油茶種子含油率的關(guān)鍵氣象因子進(jìn)行分析,研究氣象因子與油茶品質(zhì)間的相關(guān)關(guān)系,為高品質(zhì)油茶培育作參考。
氣象數(shù)據(jù)來自湖南省97個地面氣象觀測站2009~2017年的觀測資料。
油茶種子含油率資料來自湖南省林業(yè)研究科學(xué)院2009~2017年湖南省23個縣市的41塊油茶樣地,共計121個樣本數(shù)據(jù)。油茶品種多為普通油茶、湘林1號、湘林110號、湘林210號等。樣本數(shù)據(jù)主要包含鮮果出鮮籽率、鮮籽個數(shù)、鮮果出干籽率、干籽含油率等要素。油茶種子含油率計算公式為:種子含油率(%)=鮮果出干籽率×干籽含油率×100%。
氣象因子集主要包含氣溫、降水、日照等類別共42個氣象因子(表1)。
表1 氣象因子集
根據(jù)油茶生長特點以及之前的研究成果,將可能影響油茶種子含油率的時間段劃分為果實第一次膨大期、果實膨大高峰期、油脂轉(zhuǎn)化和積累高峰期、果實成熟期、采后處理期、當(dāng)年6個。在建模時,首先將所有數(shù)據(jù)合并為一個數(shù)據(jù)集,然后對關(guān)鍵期不做區(qū)分,將果實第一次膨大期、果實膨大高峰期、油脂轉(zhuǎn)化和積累高峰期、果實成熟期及其關(guān)鍵期分別合并為一個數(shù)據(jù)集,最后將采后處理期、當(dāng)年單獨作為兩個數(shù)據(jù)集,一共構(gòu)成7個數(shù)據(jù)集(表2)。
以縣級區(qū)域為單位,基于樣地數(shù)據(jù)求各地區(qū)含油率的平均值,得到圖1。從圖1中可以看出,湘東地區(qū)的油茶含油率普遍高于湘西地帶,且高含油率的油茶主要分布在湘東北和湘東南區(qū)域。
圖2是2009~2017年油茶樣地種子含油率的箱式圖以及平均值折線圖。從圖2中可以看出,湖南油茶種子含油率平均值在6%左右,含油率較高的年份為2014、2015年,這兩年湖南省氣溫和降水均接近歷年平均值,影響油茶的氣象災(zāi)害較少,適宜油茶生長;而2011年和2013年湖南油茶含油率整體偏低,可能是由當(dāng)年油茶油脂轉(zhuǎn)化和積累高峰期(7至9月份)大范圍嚴(yán)重干旱造成的。
將氣象因子作為自變量,種子含油率作為因變量,采用CART算法進(jìn)行建模。為防止模型過擬合,以總樣本量的5%作為決策樹葉節(jié)點分裂終止條件,同時采用后剪枝策略并限定決策樹最大深度為5,當(dāng)決策樹停止分裂時,將所有葉節(jié)點作為入選的氣象因子,最終得到?jīng)Q策樹(圖3)。
表2 湖南油茶物候期時間段及名稱
“+”表示該地區(qū)連續(xù)數(shù)據(jù)的平均值,“圈”表示該地區(qū)僅1年的數(shù)據(jù)。
圖2 湖南省2009~2017年油茶樣地種子含油率箱式圖和平均值折線
決策樹模型形式直觀,符合人們邏輯判斷的思維方式。從圖3可以發(fā)現(xiàn),根節(jié)點為油脂轉(zhuǎn)化和積累高峰期20 ℃以上活動積溫,也就是說,該屬性對于油茶種子含油率的影響最為關(guān)鍵。在模型中,每從根節(jié)點(油脂轉(zhuǎn)化和積累高峰期20 ℃以上活動積溫) 到一個葉節(jié)點都可以抽象為一條If…then 形式的決策規(guī)則,眾多規(guī)則形成決策規(guī)則集(表3)。
決策樹模型的整體平均相對誤差為18.2%,平均絕對偏差為0.905%,逐步回歸模型的平均相對誤差為22.1%,平均絕對偏差為1.127%,決策樹的模擬性能更好。圖4是模型的含油率擬合曲線,由于模型以分類樣本平均值作為結(jié)果輸出,因此模型對種子含油率趨勢模擬效果較好,但對偏離平均值距離較大的樣本模擬效果一般。
圖3 基于所有氣象指標(biāo)建模的油茶種子含油率擬合模型
從氣象因子與種子含油率的相關(guān)分析可以看出(表4),決策樹模型挑選的因子均與種子含油率有較高相關(guān)性。油脂轉(zhuǎn)化和積累高峰期20 ℃以上活動積溫在決策樹模型中是最重要因子,其與含油率呈顯著正相關(guān),這是因為活動積溫與脂肪酶活性相關(guān),能促進(jìn)油脂合成。果實膨大高峰期果實生長需要大量的水分,在決策樹模型中1 mm以上降水日數(shù)和降水量是重要的決策因子,與含油率具有顯著正相關(guān)。油茶整個生長期需要雨量充沛均勻,氣溫適宜,在模型中對應(yīng)因子為當(dāng)年平均最低氣溫和當(dāng)年25 mm以上降水日數(shù)。
表3 CART算法對影響湖南油菜種子含油率的氣象因子診斷規(guī)則集
圖4 基于所有氣象指標(biāo)的模型對油菜種子含油率的擬合曲線
表4 入選模型的氣象因子與種子含油率間相關(guān)系數(shù)
注:*表示通過置信度0.05水平的顯著性檢驗。下同。
將果實第一次膨大期、果實膨大高峰期、油脂轉(zhuǎn)化和積累高峰期、果實成熟期的關(guān)鍵時間段和其對應(yīng)時間段的數(shù)據(jù)分別合并成一個數(shù)據(jù)集進(jìn)行建模,得到各個物候期時間段的擬合模型。從各個時間段模型的平均相對誤差和平均絕對誤差(圖5)來看,各時間段的模型對種子含油率模擬的平均絕對偏差在0.905%~1.241%,均小于種子含油率數(shù)據(jù)的標(biāo)準(zhǔn)差(1.8);平均相對誤差在22.9%~25.4%,比逐步回歸模型的平均絕對偏差(1.127%~1.337%)和平均相對誤差(25.3%~35.1%)效果更好。其中基于當(dāng)年數(shù)據(jù)建立的模型誤差最小,其次為果實膨大高峰期、果實第一次膨大期、油脂轉(zhuǎn)化和累積高峰期、果實成熟期、采后處理期。由此也可以看出,油茶結(jié)果當(dāng)年時段的氣象因子對油茶種子含油率均有影響,從油茶物候期來看,果實膨大高峰期的氣象條件對油茶種子含油率的擬合效果最好。
圖5 各時間段模型的平均相對誤差和平均絕對偏差
決策樹挑選因子所在位置決定了該因子的重要程度,從各個時間段模型挑選的氣象因子(表5)可以看出,果實第一次膨大期最重要的氣象因子是15 ℃以上活動積溫,果實膨大高峰期、油脂轉(zhuǎn)化和積累高峰期、果實成熟期、采后處理期最重要的氣象因子分別為極端最高氣溫、20 ℃以上活動積溫、最長連續(xù)無降水日數(shù)和降水日數(shù),而油茶結(jié)果年全年時間段最重要的氣象因子是極端最高氣溫。
表5 各時間段模型挑選的氣象因子
本研究使用CART決策樹方法對油茶種子含油率與各個時間段的氣象因子進(jìn)行診斷分析,得出以下結(jié)果:
(1)基于所有時間段的氣象因子建立的決策樹模型擬合平均相對誤差為18.2%,模型將油脂轉(zhuǎn)化和積累高峰期20 ℃以上活動積溫作為最重要的決策因子。
(2)對不同時間段氣象因子分別建模,平均相對誤差在22.9%~25.4%?;诋?dāng)年數(shù)據(jù)建立的模型誤差最小,其次為果實膨大高峰期、果實第一次膨大期、油脂轉(zhuǎn)化和累積高峰期、果實成熟期、采后處理期。因此,油茶結(jié)果當(dāng)年的氣象因子對油茶種子含油率均有影響,果實膨大高峰期的氣象條件能更好地反映油茶的種子含油率。
(3)對各個時間段分別建模得出,果實第一次膨大期最重要的氣象因子是15 ℃以上活動積溫,果實膨大高峰期、油脂轉(zhuǎn)化和積累高峰期、果實成熟期、采后處理期最重要的氣象因子分別為極端最高氣溫、20 ℃以上活動積溫、最長連續(xù)無降水日數(shù)和降水日數(shù),而油茶結(jié)果年全年時間段最重要的氣象因子是極端最高氣溫。