韓倩倩, 楊可明, 李艷茹, 高 偉, 張建紅
中國礦業(yè)大學(北京)地球科學與測繪工程學院, 北京 100083
現(xiàn)今人類對金屬礦的開采利用、 冶煉加工等活動導致鉛(Pb)、 汞(Hg)、 鎘(Cd)等重金屬進入土壤, 使得土壤中有害元素的含量超過可允許值。 作物吸收了過量重金屬元素, 則會表現(xiàn)出較普遍的葉片失綠、 出現(xiàn)棕色斑塊、 葉緣變色以及根顏色變深等癥狀, 更會嚴重影響作物的產(chǎn)量和品質(zhì), 而且能通過食物鏈危害人體健康甚至生命。 如Pb及其化合物通過呼吸道、 消化道進入人體后將對神經(jīng)、 造血、 消化、 腎臟、 心血管和內(nèi)分泌等多個系統(tǒng)造成傷害, 若在人體內(nèi)累積過高則會引起鉛中毒[1]。 因此如何有效監(jiān)測作物中重金屬的含量備受人們關(guān)注。 傳統(tǒng)的生化方法主要是通過采集作物樣本來檢測其中重金屬元素含量或濃度及一些生化特征參數(shù)等, 但這種方法費時費力、 工作量大等且無法滿足無損、 快速、 便捷等污染監(jiān)測需求。 高光譜遙感具有高達納類級的波譜分辨率且光譜連續(xù)、 波段范圍從可見光到紅外、 理化特性與參量反演能力強等特點, 已成為現(xiàn)今環(huán)境、 農(nóng)作物等重金屬污染監(jiān)測的重要手段[2]。
近年來, 奇異值分解(singular value decomposition, SVD)和自適應(yīng)模糊神經(jīng)網(wǎng)絡(luò)推理系統(tǒng)(adaptive network-based fuzzy inference system, ANFIS)已被應(yīng)用于一些具體研究, 如利用SVD分析臭氧與氣象要素的關(guān)系[3]、 壓制微地震記錄中的噪聲[4]、 解決旋度算子相關(guān)核的問題[5]等, 利用ANFIS預測發(fā)電機功率輸出[6]、 構(gòu)建紅黏土蠕變模型[7]、 預測交通污染物濃度[8]等; 在遙感監(jiān)測與應(yīng)用等方面, 如將SVD理論應(yīng)用于遙感衛(wèi)星影像去噪[9]等, 利用ANFIS結(jié)構(gòu)對多光譜遙感影像進行陸地覆蓋分類[10]等, 而在高光譜遙感監(jiān)測重金屬污染方面鮮有報道。 目前針對農(nóng)作物重金屬污染的高光譜遙感監(jiān)測提出了許多方法, 如利用小波分析對水稻的光譜反射率數(shù)據(jù)進行處理, 選取具有異常光譜特征的奇異點, 利用奇異點對應(yīng)波段的光譜反射率構(gòu)建反向傳播神經(jīng)網(wǎng)絡(luò)模型, 實現(xiàn)對水稻冠層重金屬含量的反演[11]; 利用諧波分析技術(shù)將玉米葉片光譜特征信息轉(zhuǎn)化為以振幅和相位的能量譜特征信息, 提取低次諧波振幅和初始相位, 分析振幅和相位與玉米的健康狀況以及重金屬污染之間的關(guān)系[12]; 采用支持向量機分類建立土壤重金屬反演模型, 定性分析土壤重金屬污染程度[13]等, 其中, 小波變換依賴于小波基的選擇, 選擇的小波基不同, 則實驗的結(jié)果也不盡相同; 諧波分析依賴于諧波分解的最佳次數(shù), 選取的分解次數(shù)不同, 則分析的結(jié)果也有所差異; 支持向量機是借助二次規(guī)劃來求解支持向量, 而求解二次規(guī)劃將涉及m階矩陣的計算(m為樣本的個數(shù)), 當m數(shù)目很大時該矩陣的存儲和計算將耗費大量的機器內(nèi)存和運算時間。 針對上述方法存在的一些局限性, 本文將以不同濃度Pb(NO3)2溶液脅迫下Pb污染的盆栽玉米及其植株葉片光譜作為研究對象, 結(jié)合SVD原理和ANFIS結(jié)構(gòu), 構(gòu)建一種玉米葉片中Pb含量預測的SVD-ANFIS模型, 利用SVD對受Pb污染的玉米葉片光譜進行分解并獲得奇異值, 再將獲取的奇異值作為ANFIS結(jié)構(gòu)的輸入?yún)?shù)來實現(xiàn)玉米葉片中Pb含量的預測, 同時基于不同年份的Pb污染玉米葉片光譜數(shù)據(jù)檢驗該模型的預測能力與魯棒性, 并通過與多參數(shù)的反向傳播(back propagation, BP) 神經(jīng)網(wǎng)絡(luò)方法預測結(jié)果的比對驗證該模型的預測精度及其優(yōu)越性。
奇異值分解(SVD)是矩陣分解技術(shù)的一種, 經(jīng)常用來簡化數(shù)據(jù), 提高模型的精度[14]。 SVD分解能適應(yīng)于任意矩陣, 它將原始矩陣分解為三個矩陣的乘積, 即假設(shè)原矩陣為Am×n(m (1) 式(1)中,Um×m為單位正交矩陣, 其列向量為單位向量且互相正交, 是矩陣A對應(yīng)的特征向量;Vn×n為單位正交矩陣, 其行向量為單位正交向量且互相正交, 也是與特征值對應(yīng)的特征向量;Σm×n為對角矩陣,Σm×n=diag(σ1,σ2,σ3,…,σm),其元素σi為按降序排列矩陣A的奇異值, 它的對角元素即為Am×n的奇異值。 在相關(guān)研究中, 存在一個普遍事實: 矩陣Σm×n中的奇異值即為原始數(shù)據(jù)集Am×n中的全部重要特征, 其他特征大多為多余的或是噪聲。 就光譜信號的SVD處理而言, 設(shè)光譜數(shù)據(jù)矩陣為矩陣A, 則矩陣A中存在m×m的正交矩陣U=[u1,u2,…,um],和n×n的正交矩陣V=[v1,v2,…,vn], 則 UTAV=diag(σ1,σ2,σ3,…,σm)=Σ (2) 式(2)中,σi為各脅迫梯度下的玉米光譜數(shù)據(jù)A的奇異值;ui為相應(yīng)于奇異值σi的左奇向量;vi為相應(yīng)于奇異值σi的右奇異向量, 且滿足 (AAT)ui=λiui (3) (4) AV=UΣVTV (5) AV=UΣ (6) Avi=σiui (7) 根據(jù)式(5), 式(6)和式(7)得奇異值σi為 σi=Avi/ui (8) 自適應(yīng)模糊神經(jīng)網(wǎng)絡(luò)推理系統(tǒng)(ANFIS)是一種基于已有數(shù)據(jù)的建模方法, 其原理是使用輸入輸出數(shù)據(jù)集構(gòu)建一個模糊推理系統(tǒng), 使隸屬函數(shù)適應(yīng)于輸入輸出函數(shù)。 ANFIS與神經(jīng)網(wǎng)絡(luò)系統(tǒng)相比具有可表達語言變量和具有學習功能的優(yōu)點[15]。 ANFIS結(jié)構(gòu)包括5層: 模糊化層、 規(guī)則推理層、 歸一化層、 去模糊化層和求和神經(jīng)元層。 其中, 模糊化層和去模糊化層為自適應(yīng)節(jié)點, 其余層為固定節(jié)點。 ANFIS結(jié)構(gòu)圖如圖1所示, 圖中每一層節(jié)點具有相同的函數(shù),x和y為輸入變量,M,N和Σ為固定節(jié)點。 圖1 ANFIS結(jié)構(gòu)圖 第1層為輸入變量的隸屬函數(shù)層, 即模糊化層, 負責輸入信號的模糊化。 每個節(jié)點i為自適應(yīng)節(jié)點, 節(jié)點i具有輸出函數(shù) (9) (10) (11) 式(11)中,ai,bi,ci為隸屬度函數(shù)參數(shù)。 第2層為規(guī)則推理層, 該層的固定節(jié)點M是將輸入信號相乘, 將乘積作為輸出 (12) 式(12)中,wi為權(quán)重。 第3層為歸一化層, 其節(jié)點如圖1中的N表示, 第i個節(jié)點計算第i條規(guī)則的wi與全部規(guī)則w值之和的比值 (13) 第4層為去模糊化層, 它的每個節(jié)點i為自適應(yīng)節(jié)點, 其輸出為 (14) 式(14)中,pi,qi,ri為設(shè)置的參數(shù)。 第5層為求和神經(jīng)元層, 它的節(jié)點是一個固定節(jié)點, 計算所有輸入信號的總輸出為 (15) 如上所述, ANFIS訓練是通過實時調(diào)整推理系統(tǒng)的線性和非線性參數(shù)來優(yōu)化代表輸入空間的實際數(shù)學關(guān)系式。 該算法在初始模糊模型系統(tǒng)的基礎(chǔ)上, 結(jié)合梯度下降反向傳播算法與最小二乘算法, 通過迭代的自適應(yīng)學習過程來調(diào)整神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的參數(shù)。 在每個節(jié)點上, 系統(tǒng)實際輸出值與學習值的計算誤差在減小, 當獲得預定義的節(jié)點號或誤差率時, 訓練停止。 模糊推理系統(tǒng)的混合學習過程有兩種傳遞方式, 在向前傳遞的過程中, 函數(shù)信號直接傳遞至第4層, 結(jié)果參數(shù)通過最小二乘估計確定; 在向后傳遞的過程中, 誤差率向后傳遞, 并且最初的參數(shù)通過梯度下降法進行更新。 選擇合理的評價指標可以有效反映模型預測能力的強弱, 通常選擇均方根誤差(RMSE)和決定系數(shù)(R2)來評估模型的預測效果。 其中RMSE是反映一組數(shù)據(jù)測量值與真實值之間的差異, RMSE值越小說明模型的預測效果越好, 其計算方法見式(16);R2是反映模型擬合優(yōu)度的重要統(tǒng)計量, 取值在0到1之間且無單位, 其數(shù)值大小反映了回歸貢獻的相對程度,R2越接近1, 模型的擬合效果越好, 精度越高, 計算方法見式(17)。 (16) (17) (1)玉米植株培養(yǎng)。 選用有底漏的花盆對“密糯8號”玉米種子進行培育。 將鉛離子(Pb2+)含量為0, 50, 200和400 μg·g-1的Pb(NO3)2溶液(分別標記為ck(0), Pb(50), Pb(200)和Pb(400)), 加入到玉米盆栽中對其進行生長脅迫, 每個梯度平行培育3組, 共12組, 2017年5月對玉米種子進行催芽處理, 玉米出苗后在同等條件下向花盆的土壤中澆灌等量的NH4NO3, KNO3和KH2PO4營養(yǎng)液。 玉米培育期間定期進行通風和澆水以保持適宜的培育溫度和濕度。 (2)光譜數(shù)據(jù)采集。 2017年7月17日對玉米葉片反射光譜進行測量。 在50 W鹵素燈光源照射條件下, 使用光譜范圍為350~2 500 nm的SVC HR-1024I型地物光譜儀測量玉米葉片的反射光譜, 測量時探頭視場角設(shè)置為4°并垂直于玉米葉片表面5 cm, 并用平面板對光譜進行標準化。 對每盆玉米的老(Old, O)、 中(Middle, M)、 新(New, N)三種葉片分別進行光譜測試, 每盆獲得3組數(shù)據(jù)。 各脅迫梯度下的玉米葉片光譜如圖2所示。 圖2 不同濃度Pb2+脅迫下玉米葉片光譜 (3) Pb2+含量測定。 收集光譜數(shù)據(jù)采集后的玉米葉片并進行干燥、 沖洗、 微波消解等預處理, 使用WFX-120原子吸收分光光度計對玉米葉片中的Pb2+含量進行測定, 測定依據(jù)為《硅酸巖石化學分析方法》(GB/T 14506.30—2010)第30部分, 對各梯度玉米葉片中的老(O)、 中(M)、 新(N)3種葉片分別測量3次后取平均值作為該梯度葉片中Pb2+的含量。 對玉米葉片光譜進行SVD處理后獲得原始數(shù)據(jù)的奇異值, 因奇異值從大到小衰減的較快, 在很多情況下, 前10%甚至1%的奇異值之和就占全部奇異值之和的99%以上了, 所以僅需要保留一部分奇異值。 保留奇異值方法為保留矩陣中90%的能量信息, 能量信息的計算, 就是根據(jù)所得到的奇異值, 求其平方和, 直到該平方和累加到總值的90%為止, 便可得到想要保留的奇異值。 通過重構(gòu)處理得到一維光譜信號, 圖3即為經(jīng)過SVD處理后不同Pb2+脅迫梯度下三種葉片對應(yīng)的奇異值光譜曲線圖。 表1為SVD處理前后玉米葉片光譜數(shù)據(jù)差異性分析結(jié)果, 表中皮爾遜相關(guān)系數(shù)的絕對值大部分都在0.6~0.8之間屬于強相關(guān)關(guān)系, 且Sig值均小于顯著水平(0.01)也體現(xiàn)出相關(guān)性。 對比圖2玉米葉片的原始光譜圖并結(jié)合表1可知, 經(jīng)過處理后的光譜在減少冗余度的同時, 基本保留了原始曲線的所有特征, 也達到了對后續(xù)ANFIS分析過程中減少網(wǎng)絡(luò)參數(shù)從而簡化神經(jīng)網(wǎng)絡(luò)的目的。 圖3 SVD處理后不同Pb2+脅迫下的奇異值光譜圖 表1 SVD處理前后玉米葉片光譜數(shù)據(jù)差異性分析 ANFIS存在輸入選擇和輸入空間劃分的問題, 其預測過程可以看作是從輸入空間到輸出空間的一個映射過程, 輸入變量數(shù)目會直接影響模型的預測精度, 選擇經(jīng)SVD處理后各脅迫梯度下的O, M和N葉片對應(yīng)的奇異值來尋求最佳輸入組合。 設(shè)計的三種組合分別為: O(單輸入)、 O-M(雙輸入)(因N葉對重金屬的富集能力較弱, 所以雙輸入選擇O、 M葉片)、 O-M-N(三輸入), 三種輸入組合的誤差如圖4所示, 從圖中看出單輸入和雙輸入誤差相近且較小, 三輸入誤差最大, 推測可能是輸入變量增多使得系統(tǒng)中相應(yīng)的控制規(guī)則變多, 從而導致模型預測的精度下降。 圖4 三種組合輸入類型的誤差圖 在ANFIS模型中, 隸屬函數(shù)的類型也會影響模型精度, 因此在模糊訓練時, 對隸屬度函數(shù)的類型進行了不同的選擇和嘗試, 包括三角函數(shù)(Trimf)、 高斯函數(shù)(Gaussmf)、 高斯2型函數(shù)(Gauss2mf)、 鐘型函數(shù)(Gbellmf)。 隸屬度函數(shù)類型的誤差比較如表2顯示, 鐘型函數(shù)的訓練誤差和校驗誤差均最小, 效果最佳, 對模型的預測更準確。 表2 隸屬度函數(shù)類型的誤差比較 根據(jù)圖4和表2, 選擇各脅迫梯度下O和M葉片對應(yīng)的SVD處理光譜數(shù)據(jù)作為輸入量, 輸出量選擇O、 M葉片中Pb2+含量的平均值, 隸屬函數(shù)選擇鐘型函數(shù), 設(shè)定好函數(shù)的參數(shù)后對初始ANFIS進行訓練。 將前75%的光譜數(shù)據(jù)作為訓練集, 余下的25%光譜數(shù)據(jù)作為測試集, 經(jīng)過150次訓練后得到了很好的預測效果, SVD-ANFIS模型的預測值與實際測定值的比較如表3所示, 由表可知, 各脅迫梯度下玉米葉片中Pb2+含量的預測值與實測值相差均較小, 模型具有很好的預測效果。 表3 玉米葉片中Pb2+含量的SVD-ANFIS模型預測值與實測值比較 為驗證模型的優(yōu)越性, 利用BP神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進行處理并與SVD-ANFIS模型對比分析, 兩種模型預測值與真實值的對比如圖5所示, 從圖中可看出, 相比于BP模型, SVD-ANFIS模型對玉米葉片中Pb2+含量的預測值更接近真實值, 預測效果更好。 為更精確的分析兩種建模方法的性能, 選取R2和RMSE對BP模型和SVD-ANFIS模型進行對比分析和精度評價, 分析結(jié)果見表4, 可見BP模型和SVD-ANFIS模型的R2分別為0.977 6和1.988 7, RMSE分別為2.455 9和0.601 3, 可以看出SVD-ANFIS模型的誤差較小, 擬合效果較好, 具有一定的優(yōu)越性。 圖5 玉米葉片中Pb2+含量的BP和SVD-ANFIS模型 預測值與實測值對比圖 表4 BP模型與SVD-ANFIS模型的預測精度對比 為檢驗模型的魯棒性, 選取2014年同等條件下的玉米光譜數(shù)據(jù)作為驗證組對模型進行驗證, 同樣選取R2和RMSE作為模型的預測精度評價指標。 驗證結(jié)果如表5所示, 從表5看出, 驗證組R2和RMSE分別為0.986 4和0.887 4, 可看出模型具有很好的魯棒性, 可以有效預測玉米葉片中Pb2+的含量。 表5 不同時期同類型玉米光譜數(shù)據(jù)對SVD-ANFIS模型驗證 (1)玉米葉片光譜經(jīng)過SVD分解后, 基本保留了原矩陣的所有特征, 可以壓縮光譜數(shù)據(jù), 從而減少了ANFIS中的參數(shù)量以及數(shù)據(jù)的冗余度, 降低了網(wǎng)絡(luò)模型的復雜度, 提高了網(wǎng)絡(luò)的預測精度和預測效果。 (2)所選用的ANFIS結(jié)合了模糊理論和神經(jīng)網(wǎng)絡(luò)算法的優(yōu)點, 通過實時調(diào)整隸屬函數(shù)和模糊推理規(guī)則, 可預測玉米葉片中重金屬鉛的含量; 在模糊訓練的過程中選擇鐘型函數(shù)作為隸屬函數(shù), 對模型的預測效果最佳, 誤差最小。 (3)通過與BP神經(jīng)網(wǎng)絡(luò)常規(guī)方法預測的優(yōu)越性進行對比, 得出SVD-ANFIS模型的均方根誤差較小, 精確度更高。 利用SVD-ANFIS模型對玉米葉片中受Pb2+污染后的重金屬含量變化進行了預測, 得到了較好的預測效果, 為其他作物受重金屬脅迫的光譜研究提供了范例, 但仍有一定的局限性, 還需要大范圍的污染監(jiān)測來進一步驗證模型的普適性, 從而應(yīng)用于實際生產(chǎn), 促進農(nóng)業(yè)的快速發(fā)展。1.2 自適應(yīng)模糊神經(jīng)網(wǎng)絡(luò)推理系統(tǒng)
1.3 評價指標
2 實驗部分
3 結(jié)果與討論
3.1 SVD分解結(jié)果與分析
3.2 ANFIS建立與分析
3.3 模型優(yōu)越性驗證
3.4 模型魯棒性驗證
4 結(jié) 論