劉 寧, 邢子正, 喬 浪, 李民贊, 孫 紅*, Qin Zhang
1. 中國農(nóng)業(yè)大學現(xiàn)代精細農(nóng)業(yè)系統(tǒng)集成研究教育部重點實驗室, 北京 100083 2. Center for Precision & Automated Agricultural System, Washington State University, Pullman WA 99350, USA
葉綠素含量是評價馬鈴薯作物光合作用能力與營養(yǎng)水平的重要指標之一[1-2]。 在可見光-近紅外區(qū)域, 分析含氫基團(O—H, N—H, C—H)振動合頻和各級倍頻的特性, 是開展作物葉綠素、 氮素、 水分等參數(shù)光譜學檢測的理論基礎, 取得了重要進展[3]。
作物葉綠素光譜學檢測中, 常通過篩選特征波長來達到解析光譜變量、 剔除冗余信息、 壓縮計算量、 提高診斷模型精度與魯棒性等目的[4]。 因為相關分析篩選變量存在高度自相關導致的多重共線性問題, 在主成分分析的基礎上, 連續(xù)投影算法(successive projection algorithm, SPA)、 無信息變量消除法(uninformative variables elimination, UVE)、 間隔最小二乘波長選擇方法(interval partial least square, iPLS)、 變量投影重要程度系數(shù)法(variable importance in the projection, VIP)等算法被用于篩選特征波長并建立診斷模型[5-6]。
上述一次性建模篩選特征波長的方法, 數(shù)據(jù)處理易受樣本個數(shù)的影響[7]。 針對此問題Li等提出基于模型集群思想的蒙特卡洛無信息變量消除(Monte Carlo uninformative variables elimination, MC-UVE)[8]、 隨機蛙跳(random frog, RF)[9]、 競爭自適應重加權采樣(competitive adaptive reweighted sampling, CARS)[10]等變量篩選算法。 有報道應用CARS算法設置迭代次數(shù)為50, 選取10個波長建立南瓜葉綠素檢測模型, 精度為0.846。 鄭濤等[11]采用MC-UVE算法迭代次數(shù)為500, 選出12個馬鈴薯葉綠素特征波長。 程萌等[12]基于RF算法篩選小麥葉綠素特征波長, 迭代次數(shù)為10 000, 選出8個最優(yōu)波長。
此類研究中尚有如下問題需要深入討論, 一方面應用不同算法選取變量是否存在差異, 建立的模型是否最優(yōu)且穩(wěn)?。?另一方面, MC-UVE, RF和CARS等算法中初始參數(shù)迭代次數(shù)普遍采用固定值, 修改迭代次數(shù)與其他約束是否對變量篩選結果有影響, 需要開展比較和分析。
因而, 在馬鈴薯作物葉綠素光譜學檢測中, 分別應用MC-UVE, RF和CARS算法, 討論迭代次數(shù)(number of iteration,N)參數(shù)和特征變量個數(shù)(latent variable, LV)對特征波長篩選結果的影響。 通過建立PLS模型, 闡明特征波長分布與葉綠素含量的解析能力, 以模型驗證集精度為評價標準, 明確參數(shù)最優(yōu)組合, 以期為馬鈴薯葉綠素光譜降維與高魯棒性診斷建模奠定基礎, 也為同類研究提供參考。
2018年在北京市昌平區(qū)小湯山國家精準農(nóng)業(yè)示范基地開展實驗, 馬鈴薯品種為“大西洋”。 30 m×40 m范圍內(nèi)設80個采樣區(qū), 在發(fā)棵期(M1)、 塊莖形成期(M2)、 塊莖膨大期(M3)和淀粉積累期(M4)4個生長期跟蹤采集馬鈴薯冠層光譜并進行理化測試。
采用ASD FieldSpec HandHeld2 便攜式地物光譜儀測定325~1 075 nm內(nèi)751個波長處作物冠層光譜反射率, 采樣間隔1 nm, 每點重復采集3次取平均值。 同步隨機采集葉片經(jīng)浸提后, 利用紫外分光光度計測定葉綠素含量, 測定方法參考相關文獻。 每個生長期采集80組數(shù)據(jù), 其中M1因植被覆蓋度較低導致無效數(shù)據(jù), 保留74組有效數(shù)據(jù)后, 全生長期共獲取314組數(shù)據(jù)。 數(shù)據(jù)采集預處理總體流程如圖1所示。 其中, 采用標準正態(tài)變量(standard normal variate, SNV)方法, 對原始光譜曲線進行預處理來消除環(huán)境噪聲的干擾。 光譜與處理、 特征波長篩選以及PLSR建模均在matlab2014.a環(huán)境中完成。
圖1 數(shù)據(jù)處理總體流程圖
基于模型集群分析的思想, 比較MC-UVE, RF和CARS 3種變量篩選算法, 在matlab2014.a libpls軟件中實現(xiàn)。
(1)MC-UVE算法
MC-UVE算法基于偏最小二乘回歸(partial least squares regression, PLSR)提出, 從訓練集中取出一定數(shù)目(M個)樣本構建PLS子集, 重復M次計算PLS回歸系數(shù)矩陣, 引入變量穩(wěn)定指數(shù)為篩選標準, 計算得到每個變量穩(wěn)定指數(shù)值, 并從高到低排序篩選變量[6]。 其中, 保留的LV數(shù)量決定著模型的預測能力和模型的穩(wěn)定性。
(2)RF算法
RF算法類似于可逆跳轉馬爾可夫鏈蒙特卡洛。 與PLSR相結合, 通過PLSR結果模擬一條服從穩(wěn)態(tài)分布的馬爾可夫鏈來計算每個變量被選擇的概率, 從而進行重要變量的篩選[7]。
(3)CARS算法
CARS算法基于自適應重加權采樣和指數(shù)衰減函數(shù), 選取在PLSR模型中回歸系數(shù)絕對值大的變量, 得到一系列波長變量子集; 然后對每個波長子集采用交叉驗證建模, 從中挑選出模型均方根誤差最小的子集[8]。 因此CARS算法篩選得到的特征變量個數(shù)一定。
為了檢測作物葉綠素含量, 本研究以馬鈴薯作物為例, 對CARS算法的迭代次數(shù)(N)參數(shù)、 RF和MC-UVE算法的迭代次數(shù)(N)參數(shù)和特征變量數(shù)(LV)參數(shù)對葉綠素特征波長篩選結果的影響進行討論。 迭代次數(shù)設置6個梯度, 分別為N=50, 100, 500, 1 000, 5 000和10 000; 特征變量數(shù)設置4個梯度, 分別為LV=15, 20, 25和30, 分析迭代次數(shù)(N)和特征變量數(shù)(LV)兩個參數(shù)的最優(yōu)組合情況。
SNV校正后的各生長期的馬鈴薯冠層反射光譜曲線如圖2所示, 總體而言, 在可見光波段, 由于色素體對藍、 紅光的強吸收存在400~500與611~710 nm低反射率區(qū), 并在400和680 nm附近出現(xiàn)吸收谷; 520~610 nm體現(xiàn)為色素體的強反射, 550 nm附近為綠色反射峰。 受到葉肉內(nèi)海綿組織結構內(nèi)的空腔反射率增強影響, 近紅外711~760 nm快速攀升后進入761~1 000 nm高反射平臺區(qū), 其中970 nm附近出現(xiàn)水分的微弱吸收谷。 由M1至M4推進, 在400~500和740~880 nm反射率降低; 在530~640和910~960 nm反射率升高, 且M4和M1分別呈現(xiàn)與其他生長期較大的差別。 綜上說明作物光譜響應是對植物生長過程中色素體、 水分分子、 結構等的綜合表現(xiàn), 針對葉綠素指標, 挖掘全譜中特征波長十分必要。
圖2 SNV處理后生長期冠層平均反射光譜曲線
分析光譜反射率與葉綠素含量的相關性, 結果如圖3所示。 在387~509, 519~633和744~844 nm波段, 二者相關系數(shù)絕對值(|r|)均高于0.6, 在678 nm達正相關峰值0.411; 在702 nm存在負相關峰值-0.715。 845~917 nm正相關系數(shù)逐漸降低, 917 nm之后呈負相關。 此結果與葉綠素吸收可見光藍、 紅光, 反射綠光的物理現(xiàn)象一致, 但相關性曲線顯示相鄰波長之間的相關系數(shù)接近。 若選取相關系數(shù)較高者為特征波長, 會存在波長冗余與多重共線性問題。 因此, 利用SPXY算法劃分樣本集結果如表1所示, 后續(xù)建模開展特征波長變量篩選方法討論, 用建模集篩選特征波長、 建立回歸模型, 以驗證集的結果評價特征波長篩選結果。
圖3 光譜反射率與葉綠素含量相關性曲線
表1 建模集與驗證集劃分統(tǒng)計
2.3.1 MC-UVE算法
由于MC-UVE算法對于同一批光譜數(shù)據(jù), 設置同樣的迭代次數(shù), 運行多次計算變量的穩(wěn)定指數(shù)不一致, 因此分別討論迭代次數(shù)(N)和特征波長數(shù)量(LV)的影響。
圖4 MC-UVE算法在迭代次數(shù)為500時的運行結果
圖5 MC-UVE在LV梯度下最佳迭代次數(shù)時特征波長位置
表2 基于MC-UVE的葉綠素含量檢測PLSR模型驗證集結果(RMSEV: mg·L-1)
2.3.2 RF算法
RF算法與MC-UVE算法類似, 首先討論迭代次數(shù)N的影響, 分別設置N為50, 100, 500, 1 000, 5 000和10 000次6個梯度, 運行5次取平均值。 以N=10 000為例的運行結果如圖6所示, 縱坐標為每個波長的被選擇概率(selection probability), 被選擇概率越高說明波長越重要。 其次討論波長個數(shù)LV的影響, 按照選擇概率從大到小設置LV分別為15, 20, 25和30建立馬鈴薯葉綠素檢測PLS模型, 共得到24種模型。
圖6 RF算法在迭代次數(shù)為10 000時的運行結果
圖7 RF在四種LV梯度下最佳迭代次數(shù)時特征波長位置
表3 基于RF在不同輸入?yún)?shù)下的葉綠素含量檢測PLSR 模型驗證集結果(RMSEV: mg·L-1)
圖8 CARS在迭代次數(shù)N為100時運行結果
由圖7對比相關性分析結果可知, 在LV從15增至30過程中分布愈加廣泛, 反映的信息愈加全面。 在LV=15時, 在綠光區(qū)域沒有篩選到特征波長, 而在LV=20, 25和30時, 篩選到的特征波長在藍、 綠、 紅區(qū)域均有分布。 LV=30時, 970 nm附近反映水分弱吸收的波長被選中, 說明該方法篩選波長對含氫基團具有較好的選擇性。
2.3.3 CARS算法
CARS算法與RF和MC-UVE不同, 對于同一批數(shù)據(jù), 在相同的迭代次數(shù)(N)下變量篩選結果唯一, 所以僅考慮設置N為50, 100, 500, 1 000, 5 000和10 000次6個梯度。N=100時的運行結果如圖8所示, 圖8(a)為篩選過程中變量數(shù)隨著迭代次數(shù)N的變化曲線, 篩選的波長數(shù)(LV)隨運行次數(shù)的增加而減少; 圖8(b)為RMSECV隨著迭代次數(shù)的變化曲線, 在前30次時RMSECV保持不變, 30次后下降, 在迭代61次時RMSECV的值最小為3.928, 之后逐步攀升; 圖8(c)為各光譜波長的回歸系數(shù)的變化趨勢, 其中“**”列表示RMSECV最小時所對應的迭代運行次數(shù)。 運行后得到的波長變量集采用交叉驗證, 根據(jù)RMSECV的值來確定最優(yōu)波長變量子集為21個特征波長。
圖9 CARS算法不同迭代篩選到的特征波長位置
表4 基于CARS算法不同迭代次數(shù)的葉綠素含量檢測PLSR模型驗證集結果(RMSEV: mg·L-1)
Table 4 PLSR validation results on the chlorophyll content detection with iteration of CARS(RMSEV: mg·L-1)
迭代次數(shù)(N)最佳迭代次數(shù)特征波長個數(shù)(LV)R2vRMSEV5021670.6454.40810061210.6894.183500249390.6364.4601 000502380.6494.3795 0002960220.6804.29410 0005918220.6724.301
圖10 MC-UVE, RF和CARS最優(yōu)特征波長位置
對比分析MC-UVE, RF和CARS篩選的最優(yōu)特征波長, 位置如圖10所示, 從特征波長分布角度, 在可見光范圍(400~710 nm), RF算法篩選波長分布均勻; MC-UVE算法對550 nm附近綠光區(qū)域不敏感, 而在450 nm附近藍光區(qū)域“波長聚集”現(xiàn)象顯著; CARS算法對該區(qū)域篩選變量較少。 在近紅外區(qū)域(711~1 100 nm), RF算法得到的特征波長分布仍然較為均勻; MC-UVE在800~1 000 nm只篩選到一個特征波長; CARS篩選到的特征波長均聚集在900~1 000 nm內(nèi)。 綜上說明RF算法在可見光和近紅外區(qū)篩選得到的特征波長對葉綠素光譜吸收和反射等特征具有較為全面的代表性。
從相關性的角度考慮, RF算法篩選得到的特征波長在葉綠素高相關范圍(387~509, 519~633, 744~844和845~917 nm)和相關性峰值(702 nm)均有分布。 而MC-UVE算法篩選變量只在387~509和744~844 nm兩個范圍, CARS算法篩選變量則只有391, 392, 393, 394和896 nm五個波長落入高相關性范圍內(nèi), 且前四個為相鄰波長而存在波長信息冗余。 上述結果在PLSR模型中也得到了驗證, RF-PLSR模型的精度最優(yōu), MC-UVE-PLSR模型次之, CARS-PLSR模型最差。
表5 MC-UVE-PLSR, RF-PLSR和CARS-PLSR驗證集結果
綜上表明, 當合理選擇N和LV參數(shù)時, RF算法對馬鈴薯葉綠素特征波長篩選能力優(yōu)于MC-UVE和CARS兩種算法, 同時也避免了高相關性區(qū)間篩選相鄰波長存在的高度自相關導致的多重共線性問題。 所建立的RF-PLSR模型可為馬鈴薯葉綠素含量診斷提供支持, 而研究討論的變量篩選方法與參數(shù)分析過程, 可為其他同類光譜學檢測提供參考。
為了高精度地檢測馬鈴薯作物葉綠素含量, 利用基于模型集群思想的CARS, RF和MC-UVE三種算法篩選葉綠素特征波長, 建立葉綠素含量檢測PLS模型。 以PLS模型驗證集結果為評價指標, 討論三種算法的迭代次數(shù)(N)和特征變量個數(shù)(LV)參數(shù)對模型結果的影響, 確定三種算法的最佳輸入?yún)?shù)組合, 對比分析MC-UVE, RF和CARS篩選的最優(yōu)特征波長, 結論如下:
對葉綠素含量和光譜數(shù)據(jù)做相關性分析, 發(fā)現(xiàn)在387~509, 519~633和744~844 nm三個波段內(nèi), 葉綠素含量與光譜反射率的相關系數(shù)較高, 其相關系數(shù)絕對值均高于0.6; 在678和702 nm處存在相關性極值, 相關系數(shù)分別為0.411和-0.715。