李偉,匡昌武,胡欣欣
(1.海南省氣象探測中心,???570203;2.海南省南海氣象防災減災重點實驗室,???570203)
水是一切生命賴以生存的重要自然資源之一,對土壤-植物-大氣連續(xù)系統(tǒng)起到紐帶作用。土壤水分是地球表層不同圈層互相影響的關(guān)鍵因素,為地表物質(zhì)循環(huán)和能量轉(zhuǎn)換提供載體和驅(qū)動力。土壤水分含量會影響到植物或土壤中微生物的生長,是陸地生態(tài)系統(tǒng)的重要控制因子,還與生活環(huán)境和經(jīng)濟發(fā)展相關(guān)[1-3]。土壤水分含量和變化受土壤特性、地形、氣象因子等環(huán)境因素的影響[4]。目前,監(jiān)測土壤水分數(shù)據(jù)主要依靠地面專用儀器和衛(wèi)星遙感反演2 種方法。地面專用儀器監(jiān)測法主要采用時域反射型儀器(TDR)、電阻儀器、中子水分儀等儀器設備來檢測土壤中水分含量。該方法具有精度高、性能穩(wěn)定、環(huán)境影響較小的優(yōu)點,但是費用較高,難以滿足觀測數(shù)據(jù)高時空分辨率的要求。衛(wèi)星遙感反演法有基于土壤熱慣量、基于溫度和植被、基于微波遙感等檢測方法,具有監(jiān)測范圍廣、強動態(tài)、高時效等優(yōu)點,但該方法僅能監(jiān)測到地表范圍內(nèi),同時,遙感反演方法前期需要大量準確、可靠的地面觀測數(shù)據(jù)建立模型。然而,國內(nèi)現(xiàn)有土壤水分實測數(shù)據(jù)的時間序列較短,大多以農(nóng)業(yè)旬報為主,存在一定的數(shù)據(jù)缺測率[5,6]。因此,提升土壤水分數(shù)據(jù)的完整性和延長時序是當前重點研究工作。土壤水分預測方法主要分為數(shù)值模型預測和機器學習法兩類。數(shù)值模型預測可分為基于物理機制的模型和基于土壤水分平衡方程的模型等2 類方法,該方法輸入量多、模型結(jié)構(gòu)復雜、計算量冗余,預測的結(jié)果差異性大[7]。以氣象、土壤要素為輸入量的機器學習方法具有操作簡單、自適應性學習和擬合能力強的特點,目前廣泛應用于土壤水分數(shù)據(jù)監(jiān)測和預報研究中。由于受到多種自然環(huán)境因素的影響,土壤水分數(shù)據(jù)變化規(guī)律復雜,受到干旱、暴雨、寒冷等天氣過程的影響呈季節(jié)性變化趨勢,也會受到土壤微生物等環(huán)境影響呈隨機變化趨勢。基于神經(jīng)網(wǎng)絡的土壤水分預測方法,具有較高的準確率,能實現(xiàn)精準把握土壤墑情,科學灌溉農(nóng)作物,對最終實現(xiàn)農(nóng)業(yè)高產(chǎn)具有重要意義[8,9]。
1.1.1 RF 特征選擇 隨機森林(Random forest)是利用多棵樹對樣本進行訓練并預測的一種分類器[10]。隨機森林是一種靈活且易于使用的機器學習算法,即使沒有超參數(shù)調(diào)優(yōu),也可以在大多數(shù)情況下得到很好的結(jié)果,既可用于分類,也能用于回歸任務。本研究在隨機森林算法的基礎上,利用RF 特征選擇中的平均不純度減少方法(Mean decrease impurity)對影響土壤水分的各種因素進行關(guān)聯(lián)性分析[11]。
RF 算法生成決策樹步驟如下[12]:
1)對所有影響因素進行遍歷并計算均方誤差,統(tǒng)計可能出現(xiàn)的分類情況。選擇均方誤差最小的分割點s和最優(yōu)切分變量j。均方差和目標函數(shù)可以表示為:
式中,c1、c2表示2 樣本集合R1、R2的平均輸出值,yi為第i個樣本的輸出值。
2)用選定的(j,s)劃分樣本集合,并求得相應的輸出值。根據(jù)分割點s分割形成的樣本集合R1和R2為:
樣本集合Rm的輸出值cm的計算公式為:
式中,Nm為樣本集合Rm的總樣本數(shù)。
3)重復步驟1 和步驟2,將輸入空間劃分為m個區(qū)域,R1,R2,…,Rm,直至樣本集合滿足終止條件。
4)生成決策樹:
式中,I(x)為指示函數(shù)。
1.1.2 長短期記憶神經(jīng)網(wǎng)絡 循環(huán)神經(jīng)網(wǎng)絡(Recurrent neutral network,RNN)能挖掘并分析數(shù)據(jù)中的時序信息[13]。RNN 的神經(jīng)單元僅由權(quán)重矩陣w、偏置b和激活函數(shù)組成,且每個時間片都共享相同的參數(shù),圖1 為循環(huán)神經(jīng)網(wǎng)絡結(jié)構(gòu)。隨著循環(huán)神經(jīng)網(wǎng)絡訓練時長和網(wǎng)絡層數(shù)的增多,很容易出現(xiàn)長期依賴、梯度消失和梯度爆炸等問題,從而無法有效地處理較長序列數(shù)據(jù)信息。
圖1 循環(huán)神經(jīng)網(wǎng)絡結(jié)構(gòu)
長短期記憶神經(jīng)網(wǎng)絡(Long short-term memory network,LSTM)是具有長期記憶能力的一種時間遞歸神經(jīng)網(wǎng)絡,引入門機制用于控制信息的流通與丟失,有效解決長期依賴、梯度消失和爆炸問題[14]。LSTM 廣泛應用在機器翻譯、語音識別等領域[15]。LSTM 核心思想是記憶塊,主要包含1 個記憶單元和3 個門(遺忘門、輸入門、輸出門),圖2 為LSTM 模型結(jié)構(gòu)。
1.1.3 雙向LSTM 神經(jīng)網(wǎng)絡 雙向長短期記憶神經(jīng)網(wǎng)絡(Bidirectional long short-term memory network,BiLSTM)是傳統(tǒng)LSTM 的擴展,其思想是將同一個輸入序列分別接入向前和先后的2 個LSTM中,然后將2 個網(wǎng)絡的隱含層連在一起,共同接入到輸出層進行預測,BiLSTM 神經(jīng)網(wǎng)絡結(jié)構(gòu)見圖3[16]。在訓練過程中,通過對輸出神經(jīng)元的正向和反向傳播來更新LSTM 網(wǎng)絡的權(quán)值。前一時刻狀態(tài)的輸入和隱含層輸出分別用xt-1和ht-1表示,當前狀態(tài)的輸入和隱含層的輸出分別用xt和ht表示,后一時刻狀態(tài)的輸入和隱含層的輸出分別用xt-1和ht-1表示(圖3)。
圖3 BiLSTM 神經(jīng)網(wǎng)絡結(jié)構(gòu)
1.2.1 隨機森林選擇特征 為避免輸入過多變量導致數(shù)據(jù)冗余,本研究通過隨機森林方法對樣本數(shù)據(jù)進行特征的重要性度量,挑選出在土壤水分預測過程中關(guān)聯(lián)性較強的影響因素,具體步驟如下[17]:
1)隨機森林算法在每次建立決策樹時,對訓練集采取隨機且有放回地抽取操作,這類數(shù)據(jù)稱為袋外數(shù)據(jù)(OOB),利用袋外數(shù)據(jù)計算模型的預測錯誤率,稱為袋外數(shù)據(jù)誤差,記為errOOB1;
2)隨機對袋外數(shù)據(jù)所有樣本特征X加入噪聲干擾,再次計算袋外數(shù)據(jù)誤差,記為errOOB2;
3)假設隨機森林中有N棵樹,則計算影響因素X的重要性度量公式為:
4)計算每個影響因素X的重要性W,按照降序進行排序,確定前m個影響因素為神經(jīng)網(wǎng)絡輸入數(shù)據(jù)集的特征。
圖4 表示使用隨機森林在土壤水分預測過程中進行特征變量重要性度量的結(jié)果。由圖4 可知,在土壤水分預測度量特征重要性的過程中,氣溫、地面溫度、10 cm 地溫、相對濕度、降水量、日照時數(shù)、蒸發(fā)量7 種氣象因子與土壤水分的關(guān)聯(lián)性在所有特征中相對更重要,所以輸入變量由上述7 種氣象因子組成,輸入樣本數(shù)據(jù)集由輸入變量的特征集組成。
圖4 隨機森林選擇特征結(jié)果
1.2.2 模型構(gòu)建流程 基于隨機森林的雙向長短期記憶神經(jīng)網(wǎng)絡(RF-BiLSTM)土壤水分預測模型結(jié)構(gòu)如圖5 所示[18-20]。首先,對樣本數(shù)據(jù)進行歸一化和補充缺失數(shù)據(jù)等預處理工作;其次,使用RF 算法對土壤水分和土壤水分氣象影響因素進行關(guān)聯(lián)度分析,選出與土壤水分關(guān)聯(lián)度較高的特征,從而提升模型的訓練速度和準確性;再次,搭建雙向LSTM 神經(jīng)網(wǎng)絡,在特征數(shù)據(jù)集上訓練預測模型;最后,再根據(jù)設置的評估指標選取最佳預測模型,得到更精確的土壤水分預測值。
圖5 RF-BiLSTM 土壤水分預測模型結(jié)構(gòu)
本研究選取三亞國家氣候觀象臺近6 年(2016—2021 年)小時觀測數(shù)據(jù)作為樣本數(shù)據(jù)集,氣象站觀測變量包括氣溫、地面溫度、5 cm 地溫、10 cm 地溫、15 cm 地溫、20 cm 地溫、蒸發(fā)量、降水量、日照時數(shù)、相對濕度等15 種指標,土壤水分站觀測變量為10 cm 深度的土壤體積含水量數(shù)據(jù)。數(shù)據(jù)來源于全國綜合氣象信息共享平臺(CIMISS),部分觀測數(shù)據(jù)如表1 所示。
表1 部分觀測數(shù)據(jù)
數(shù)據(jù)集中存在369 條缺測數(shù)據(jù),占比0.70%,通過計算前后均值對缺測數(shù)據(jù)進行填充處理。每種氣象數(shù)據(jù)都有著對映的數(shù)量級和數(shù)量級單位,采用大量的無序化數(shù)量規(guī)則數(shù)據(jù)進行模型訓練有可能會出現(xiàn)梯度爆炸,預測結(jié)果也會有很大的偏差,為解決上述問題,訓練模型前首先對樣本數(shù)據(jù)進行歸一化處理[21,22]:
式中,Xmax表示對映影響因素數(shù)據(jù)的最大值,Xmin為對映影響因素數(shù)據(jù)的最小值。
采用均方根誤差RMSE、平均絕對誤差MAE、決定系數(shù)(R2)作為評價指標[23,24]。
1)均方根誤差(RMSE):
2)平均絕對誤差(MAE):
3)決定系數(shù)(R2)
式中,yi為土壤體積含水量觀測值(%)為模型預測值(%)為平均值(%),n為觀測次數(shù)。均方根誤差(RMSE)能衡量觀測值與預測值間的偏差,其值越小,表明模型的準確度更高;平均絕對誤差(MAE)反映誤差的真實情況;決定系數(shù)(R2)衡量數(shù)值間的離散程度[25,26]。
為驗證基于RF-BiLSTM 神經(jīng)網(wǎng)絡的土壤水分預測模型的優(yōu)越性,本研究采用三亞國家氣候觀象臺2016—2020 年的氣象和土壤水分觀測數(shù)據(jù)作為訓練集,為防止連續(xù)時間序列對訓練模型造成影響,每一輪訓練,從訓練集中隨機抽取600組,每組128個數(shù)據(jù)集[27],每個數(shù)據(jù)集包括前120 h 的氣象觀測數(shù)據(jù)和土壤體積含水量數(shù)據(jù),預測對象則為后6、12、24、48 h 的土壤體積含水量數(shù)據(jù)。測試集為2021 年整年的氣象和土壤水分觀測數(shù)據(jù),并分別在RF-BiLSTM 模型、LSTM 模型、BP 模型對比試驗。
圖6 顯示在訓練和測試過程中,RF-BiLSTM 模型經(jīng)過50 次迭代的損失函數(shù)變化曲線圖[28,29]。由圖6 可知,在訓練集和測試集上,當?shù)螖?shù)達到25次時,損失函數(shù)基本收斂;迭代次數(shù)達到40 次后,損失值已降至0.01 以下,并基本無變化,說明RFBiLSTM 模型在訓練集和測試集上均具有較好的效果和超強的泛化能力。
圖6 RF-BiLSTM 模型損失函數(shù)曲線
為驗證RF-BiLSTM 模型的預測精度,分別使用RF-BiLSTM 模型、LSTM 模型、BP 模型在測試集上預測每個時次6、12、24、48 h 后的土壤體積含水量值,利用MAE、RMSE、R23 種評估參數(shù)對比3 種模型的預測效果,評估結(jié)果如表2 所示。隨著預測步長的增加,3 種模型的預測性能均不同程度下降。在4 個預測步長下,RF-BiLSTM 模型的R2值均比LSTM 模型、BP 模型的R2大,RF-BiLSTM 模型的預測精度更高,4 種步長的預測值與觀測值之間具有最小的誤差。
表2 Bi-LSTM、LSTM、BP 模型預測效果
在4 種步長下,3 種模型的預測值均能夠反映該地土壤水分的變化趨勢,RF-BiLSTM 模型的預測曲線最貼近真實值(圖7)。圖8、圖9 和圖10 分別為6、12、24、48 h 下RF-BiLSTM 模型、LSTM 模型、BP 模型預測值與觀測值的比較結(jié)果,在較短的預測步長下,RF-BiLSTM 模型預測值與真實值誤差極??;隨著預測步長的增加,3 種模型的預測值均不同程度地偏離真實值,表明預測誤差逐漸變大,但是RF-BiLSTM 模型的R2值仍保持在0.9 以上,表現(xiàn)出較高的相關(guān)性,預測效果最好。
圖8 RF-BiLSTM 模型預測值與觀測值對比
圖9 LSTM 模型預測值與觀測值對比
圖10 BP 模型預測值與觀測值對比
范嘉智等[30]利用長短期記憶神經(jīng)網(wǎng)絡同樣對6、12、24、48 h 后的土壤體積含水量進行預測,RMSE分別為1.171%、1.430%、1.930%、2.371%,其準確率遠低于本研究結(jié)果。韋琦等[31]基于非線性回歸與BP 神經(jīng)網(wǎng)絡模型對土壤水分蒸發(fā)量進行預測,平均絕對誤差可達到1.453%,遠高于本研究的0.462%。侍永樂等[32]基于優(yōu)化的自適應遺傳神經(jīng)網(wǎng)絡算法對24 h 后的土壤濕度進行預測,一步預測RMSE為3.679%,高于本研究的1.430%。
在土壤水分多時次動態(tài)預測的應用中,RFBiLSTM 模型處理長時間序列數(shù)據(jù)具有強大的擬合能力,比常用的BP 模型和LSTM 模型預測準確度更高,性能更加優(yōu)越。
神經(jīng)網(wǎng)絡模型可以通過反復學習,實現(xiàn)輸入和輸出之間的映射。因此,輸入變量必須精簡,訓練數(shù)據(jù)要充足,否則預測效果不佳。本研究通過RF特征選擇中的平均不純度減少方法[33]對土壤水分的所有影響因素進行關(guān)聯(lián)性分析,選擇高度相關(guān)的8種氣象因子作為輸入變量,從而大大提高模型訓練的速度,降低模型的冗余程度;采用2016—2021 年的氣象和土壤水分觀測數(shù)據(jù),保證訓練模型的數(shù)據(jù)充足,再通過BiLSTM 神經(jīng)網(wǎng)絡的學習過程對各項輸入進行權(quán)重設置,最終形成高效的RF-BiLSTM模型。
本研究提出的RF-BiLSTM 模型為土壤墑情預報預測提供了技術(shù)指導,為實現(xiàn)農(nóng)業(yè)灌溉智慧化提供數(shù)據(jù)支撐,為多變量時間序列的預測和建模提供了指導方向。