陳積山, 張 強(qiáng), 劉杰淋, 邸桂俐, 朱瑞芬, 孔曉蕾
(黑龍江省農(nóng)業(yè)科學(xué)院草業(yè)研究所, 黑龍江 哈爾濱 150086)
羊草(Leymuschinensis)是我國(guó)重要的優(yōu)良牧草之一,有著很高的經(jīng)濟(jì)價(jià)值和生態(tài)價(jià)值,被譽(yù)之“國(guó)草”。然而實(shí)際羊草的收獲和儲(chǔ)藏過程中極易受到生產(chǎn)地的水、土、氣等的影響而發(fā)生營(yíng)養(yǎng)成分損失或變質(zhì),目前我國(guó)羊草質(zhì)量的低質(zhì)化和劣質(zhì)化現(xiàn)象普遍存在[1]。傳統(tǒng)的感官評(píng)價(jià)和理化分析等檢測(cè)方法耗時(shí)長(zhǎng),不能滿足規(guī)模化羊草生產(chǎn)過程中的及時(shí)監(jiān)測(cè)與測(cè)試要求,特別是羊草水分含量的快速定量預(yù)測(cè)存在困難。
隨著新一代計(jì)算機(jī)的誕生和人們對(duì)偏最小二乘法(Partial least-squares regression,PLS)方法的深入研究,應(yīng)用特定的化學(xué)計(jì)量方法篩選和選擇,在預(yù)測(cè)待測(cè)樣本或物質(zhì)成分上具有特征波長(zhǎng)或波長(zhǎng)區(qū)間,有可能建立較好的光譜定量模型[2]。近紅外光譜由于具有波長(zhǎng)點(diǎn)數(shù)多、吸收度低、譜帶歸屬難等特點(diǎn),一般采用全譜分析方法從光譜中提取更多信息,然而事實(shí)上,近紅外光譜中的某些波長(zhǎng)所蘊(yùn)含的信息,并不完全或幾乎沒有對(duì)模型的建立和校正都有貢獻(xiàn),恰恰相反,大量的無用波長(zhǎng)攜帶的無用信息或噪聲信號(hào)增加了模型的建立和分析運(yùn)算時(shí)間,更有甚者常常會(huì)導(dǎo)致所建模型質(zhì)量下降或不科學(xué)[3-4]。研究表明,特征波長(zhǎng)優(yōu)選可以具有簡(jiǎn)化模型,降低模型維數(shù)等特點(diǎn),其優(yōu)點(diǎn)在于剔除不相關(guān)或非線性變量因素的干擾,從而獲得穩(wěn)健性好、預(yù)測(cè)能力強(qiáng)的校正模型[5]。因此,近紅外光譜建模過程中,在不損失必要信息的前提下,科學(xué)合理的縮小或選擇光譜范圍,可以減少無益信息對(duì)建模的負(fù)面影響,從而提高光譜建模的質(zhì)量[2]。
目前,波長(zhǎng)優(yōu)選方法在近紅外光譜研究中備受關(guān)注[5]。通常有4種常用的選擇方法,這些光譜特征區(qū)間的選擇方法主要包括間隔偏二乘法(Interval partial least-squares regression,iPLS)、向后區(qū)間偏最小二乘法(Backward interval PLS,BiPLS)、聯(lián)合區(qū)間偏最小二乘法(Synergy interval PLS,SiPLS)、和連續(xù)投影算法(Successive projections algorithm,SPA)。本文在此基礎(chǔ)上,深入探討和分析 4種波長(zhǎng)優(yōu)選方法與PLS結(jié)合的模型預(yù)測(cè)能力,選擇最適于預(yù)測(cè)羊草水分含量的敏感波長(zhǎng)變量并建立高精度模型,以期為在田間管理、刈割儲(chǔ)藏、家畜飼喂過程中對(duì)羊草水分參數(shù)的準(zhǔn)確預(yù)測(cè)。
試驗(yàn)于2014-2017年在黑龍江及內(nèi)蒙東部草地選擇單一羊草群落,6月初羊草基本處于抽穗期,其營(yíng)養(yǎng)狀況能代表其品質(zhì)特點(diǎn)。每個(gè)樣地以50畝不少于5個(gè)采樣點(diǎn)為原則,收集地上5cm以上的羊草為待測(cè)樣品,在實(shí)驗(yàn)室將其烘干過1mm篩后,裝入自封袋常溫避光保存,以備后期測(cè)定理化和光譜參數(shù)。羊草品質(zhì)成分測(cè)試數(shù)據(jù)來自黑龍江農(nóng)業(yè)部谷物及制品質(zhì)量監(jiān)督檢測(cè)測(cè)試中心。
首先將采集的羊草光譜進(jìn)行預(yù)處理,再進(jìn)行X-Y距離結(jié)合的樣本劃分法(Sample set partitioning based on joint x-y distance,SPXY)的樣本校正集和驗(yàn)證集的劃分[6]。通過PLS iToolbox工具箱,分別針對(duì)水分進(jìn)行羊草光譜的特征波長(zhǎng)篩選,篩選的方法[7]包括iPLS,BiPLS,SiPLS和SPA。將整個(gè)實(shí)驗(yàn)過程產(chǎn)生構(gòu)建的預(yù)測(cè)模型,根據(jù)模型的評(píng)價(jià)參數(shù)分別進(jìn)行擇優(yōu)比較,最后確定最佳預(yù)測(cè)模型,并通過泰勒?qǐng)D(Taylor)呈現(xiàn)。
泰勒?qǐng)D[8]是一種能可視化展示模型模擬值與觀測(cè)值相似度的二維平面圖形,泰勒?qǐng)D的主要目的是考察模型模擬值與實(shí)測(cè)值的相似度,同時(shí)評(píng)價(jià)其總體離散程度。特別適用于評(píng)價(jià)模型的模擬值與實(shí)際值的符合程度。主要選用相關(guān)系數(shù)(Correlation coefficient,R)、中心點(diǎn)之間均方根差(Centered root-mean-square difference,cRMS)和標(biāo)準(zhǔn)差(Standard deviation,SD)等指標(biāo)量化評(píng)價(jià)模型模擬值與實(shí)測(cè)值之間的差異。
近紅外光譜臺(tái)式分析儀采用瑞典波通(Perten)公司二極管陣列近紅外漫反射光譜儀(DA7200),樣品池的光程為 13 mm,材質(zhì)為石英試樣杯。化學(xué)儀器:烘箱,瑞典福斯·特卡托2300全自動(dòng)凱氏定氮儀(Foss公司),索式粗纖維測(cè)定儀Fibertec1020(Foss公司);IR35全自動(dòng)快速水分測(cè)定儀,3次重復(fù),均以干物質(zhì)為基礎(chǔ)。
本試驗(yàn)采用MATLAB7.0 軟件工具箱(iToolbox)建立羊草水分(Water)的關(guān)系模型。PLS iToolbox工具箱支持iPLS,BiPLS,SiPLS和SPA[10-12]。同時(shí),借助SPSS17.0進(jìn)行所有數(shù)據(jù)的整理和分析。
iPLS法首先對(duì)全光譜均分成20個(gè)區(qū)間,在每個(gè)區(qū)間上進(jìn)行PLS回歸,以交叉驗(yàn)證的方法比較不同的PLS主成分?jǐn)?shù)對(duì)應(yīng)的校正均方根誤差RMSECV值,選擇最小RMSECV值對(duì)應(yīng)區(qū)間進(jìn)行建模。結(jié)果表明,羊草樣品水分含量的主成分?jǐn)?shù)在5時(shí)對(duì)應(yīng)的RMSECV最小,此時(shí)iPLS建立羊草樣品水分含量的模型結(jié)果如圖1。圖中曲線代表任意一份羊草樣品的近紅外光譜,柱形圖內(nèi)的斜體數(shù)字代表相應(yīng)區(qū)間的最佳主成分?jǐn)?shù),虛線代表選擇5個(gè)主成分?jǐn)?shù)時(shí)全光譜建立PLS模型預(yù)測(cè)羊草水分含量的RMSECV值。如圖1所示,3個(gè)區(qū)間的RMSECV值都比全光譜建立PLS模型的RMSECV小,其中iPLS選取1個(gè)最佳波長(zhǎng)區(qū)間的RMSECV值最小,這表明該區(qū)間的近紅外光譜所包含的相對(duì)有益信息較多,該光譜區(qū)間在全光譜范圍的位置如圖1,對(duì)應(yīng)波長(zhǎng)范圍1 250~1 305 nm。因此,利用區(qū)間波長(zhǎng)1 250~1 305 nm的所有羊草樣品進(jìn)行分析建模(圖2),該區(qū)間建立的最佳PLS模型的結(jié)果見圖3(a,b)。
圖1 不同區(qū)間iPLS模型對(duì)應(yīng)的RMSECVFig.1 RMSECV corresponding to different interval iPLS modeling
圖2 iPLS方法下光譜特征選擇結(jié)果Fig.2 Selection of spectrum characteristic intervals by iPLS
通過對(duì)比發(fā)現(xiàn),采用最佳1個(gè)區(qū)間(圖3a)與全光譜(圖3b)建立PLS模型結(jié)果不同。通過采用間隔偏二乘(iPLS)方法選取不同波長(zhǎng)區(qū)間,建立的模型與全光譜建立的模型結(jié)果表明,相關(guān)系數(shù)R由0.9154提高到0.9411,RMSECV由0.5551降低到0.4725,但偏差效果明顯比全光譜建模好,同時(shí)經(jīng)過iPLS特征光譜區(qū)間選擇后模型的預(yù)測(cè)精度高,由于iPLS采用變量數(shù)(波長(zhǎng)點(diǎn)數(shù)55個(gè))比全光譜少(波長(zhǎng)點(diǎn)數(shù)141個(gè)),不僅降低了模型運(yùn)算時(shí)間,而且也優(yōu)于全光譜時(shí)的預(yù)測(cè)精度。
圖3 模型性能比較Fig.3 Comparison of model performance
BiPLS(Backward interval PLS,向后區(qū)間偏最小二乘法)將全光譜950~1 650 nm分為10個(gè)區(qū)間,通過BiPLS方法對(duì)校正集的光譜數(shù)據(jù)進(jìn)行區(qū)間選擇,并進(jìn)行交叉驗(yàn)證分析建模,整個(gè)運(yùn)算過程與結(jié)果如表1所示。通過表1可知,隨著剔除區(qū)間的減少,模型的RMSECV值在開始時(shí)表現(xiàn)減小,隨著剔除區(qū)間數(shù)目的增加,RMSECV表現(xiàn)逐漸增大,這些變化表明,前者剔除的區(qū)間為噪聲區(qū)間,后者剔除的區(qū)間包含有用信息,因此在RMSECV最小時(shí),即為最佳的波長(zhǎng)區(qū)間。結(jié)果表明,當(dāng)剔除區(qū)間數(shù)目為4個(gè)時(shí),其RMSECV達(dá)到最小為0.4170,此時(shí)對(duì)應(yīng)6主成分因子,選擇了85個(gè)波長(zhǎng)變量數(shù),剩余的區(qū)間為6個(gè)。
通過交叉驗(yàn)證分析剩余的6個(gè)區(qū)間的序號(hào)分別是第1,2,7,10,9,6區(qū)間(圖4),對(duì)應(yīng)的波長(zhǎng)分別為950~1 020 nm,1 025~1 090 nm,1 305~1 370 nm,1 375~1 440 nm,1 515~1 580 nm和1 585~1 650 nm,建立的PLS最佳模型如圖5所示,此時(shí)模型校正集的相關(guān)系數(shù)R為0.9537,交互驗(yàn)證均方根誤差RMSECV為0.4170,偏差值為0.0052,同時(shí)BiPLS建立的羊草樣品水分含量近紅外PLS預(yù)測(cè)模型,其波長(zhǎng)變量數(shù)從141個(gè)減少到85個(gè),明顯提高了模型運(yùn)算速度。
表1 不同區(qū)間選擇的BiPLS建模結(jié)果Table 1 BiPLS modeling results of different interval
圖4 BiPLS方法下光譜特征選擇結(jié)果Fig.4 Selection of spectrum characteristic intervals by BiPLS
圖5 BiPLS方法建模結(jié)果Fig.5 BiPLS modeling results
SiPLS(Synergy interval PLS,聯(lián)合區(qū)間偏最小二乘法)對(duì)全光譜(950~1 650 nm)進(jìn)行區(qū)間分割,將全光譜區(qū)間分成子區(qū)間10個(gè),對(duì)產(chǎn)生的10個(gè)區(qū)間分別通過聯(lián)合區(qū)間偏最小二乘法(SiPLS)進(jìn)行PLS建模研究,通過預(yù)算最終確定最佳的區(qū)間組合。本研究中對(duì)羊草樣品水分含量的光譜波長(zhǎng)分別采用聯(lián)合任意2個(gè)、3個(gè)和4個(gè)區(qū)間進(jìn)行PLS建模,發(fā)現(xiàn)通過聯(lián)合4個(gè)光譜區(qū)間時(shí),其建模結(jié)果的交互驗(yàn)證均方根誤差RMSECV最小為0.3823,其主成分?jǐn)?shù)為5,選擇區(qū)間為4,5,6,10(表2)。
表2 聯(lián)合4個(gè)區(qū)間的BiPLS建模結(jié)果Table 2 BiPLS modeling results of 4 interval combination
以RMSECV值最小為依據(jù),確定SiPLS選取4個(gè)最佳聯(lián)合區(qū)間,其對(duì)應(yīng)區(qū)間位置在全光譜上分別為第4,5,6,10個(gè)區(qū)間,其波長(zhǎng)范圍分別為1 165~1 230 nm,1 235~1 300 nm,1 305~1 370 nm和1 600~1 650 nm(圖6)。采用4個(gè)區(qū)間聯(lián)合建立PLS模型結(jié)果見圖7所示,在第4,5,6,10個(gè)區(qū)間組合時(shí),RMSECV值達(dá)到最小,此時(shí)對(duì)應(yīng)模型最佳最優(yōu)。以這4個(gè)區(qū)間在主成分子數(shù)為5時(shí),建立PLS模型的相關(guān)系數(shù)R,RMSEC,Bias分別為0.9613,0.3823,0.0148。
圖6 SiPLS方法的光譜特征選擇結(jié)果Fig.6 Selection of spectrum characteristic intervals by SiPLS
圖7 SiPLS方法的建模結(jié)果Fig.7 SiPLS modeling results
SPA(Successive projections algorithm,連續(xù)投影算法)對(duì)羊草樣品水分含量進(jìn)行SPA波段篩選(圖8),由圖8可知,經(jīng)SPA篩選,確定最佳的光譜變量總數(shù)時(shí)交叉驗(yàn)證均方根誤差RMSECV值最小為0.3321,羊草樣品水分含量從141個(gè)波長(zhǎng)點(diǎn)中篩選得9個(gè)特征波長(zhǎng)點(diǎn)分別是35,55,76,89,93,98,121,135,141,其波長(zhǎng)點(diǎn)位置分布在1 120 nm,1 220 nm,1 325 nm,1 390 nm,1 410 nm,1 435 nm,1 550 nm,1 620 nm,1 650 nm。從所選光譜變量的波長(zhǎng)點(diǎn)可知,特征波長(zhǎng)大部分都分布在近紅外光譜波段(1 120~1 650 nm),說明對(duì)羊草樣品進(jìn)行水分含量檢測(cè)時(shí)近紅外光譜起到了比較大的作用。在SPA篩選結(jié)果基礎(chǔ)上,建立羊草樣品水分含量指標(biāo)的SPA-PLS模型,模型計(jì)算結(jié)果如圖9所示,經(jīng)SPA波段優(yōu)選,羊草樣品水分含量指標(biāo)的模型預(yù)測(cè)相關(guān)系數(shù)R為0.9525,預(yù)測(cè)標(biāo)準(zhǔn)偏差RMSEP達(dá)到0.3324。
圖8 SPA篩選的相應(yīng)波長(zhǎng)點(diǎn)Fig.8 The corresponding wavelength points by SPA selection
圖9 SPA模型的驗(yàn)證結(jié)果Fig.9 SPA modeling results
通過iPLS,BiPLS,SiPLS,SPA-PLS四種特征波長(zhǎng)選擇方法[13-17],分別建立羊草水分含量模型的預(yù)測(cè)性能如表3所示,與全光譜建立模型的預(yù)測(cè)精度相比,特征光譜區(qū)間選擇或波長(zhǎng)選擇后模型的預(yù)測(cè)精度均存在明顯不同。從波長(zhǎng)變量數(shù)來看,四種特征波長(zhǎng)選擇方法采用變量數(shù)均少于全光譜PLS模型選擇的波長(zhǎng)變數(shù),其中SPA-PLS選擇的波長(zhǎng)變數(shù)最少為9個(gè),占全光譜變量數(shù)的6.3%;其次是SiPLS選擇的波長(zhǎng)變數(shù)為49個(gè),占全光譜變量數(shù)的34.8%;iPLS和BiPLS選擇的波長(zhǎng)變數(shù)分別為55和85個(gè)。從模型的三個(gè)評(píng)價(jià)參數(shù)(R,RMSEP,RPD)來看,iPLS建立的羊草水分含量預(yù)測(cè)模型最差,其預(yù)測(cè)結(jié)果與實(shí)測(cè)結(jié)果的相關(guān)系數(shù)R達(dá)到0.9411,預(yù)測(cè)均方根誤差RMSEP為0.4725,相對(duì)分析誤差RPD為2.419。SiPLS建立的羊草水分含量預(yù)測(cè)模型參數(shù)最優(yōu),其預(yù)測(cè)結(jié)果與實(shí)測(cè)結(jié)果的相關(guān)系數(shù)R達(dá)到0.9613,預(yù)測(cè)均方根誤差RMSEP為0.3823,相對(duì)分析誤差RPD為2.648。
同理,通過泰勒?qǐng)D10也表明,SiPLS方法最適合特征波長(zhǎng)的篩選來預(yù)測(cè)羊草水分含量。圖中綠色弧度實(shí)線為羊草水分預(yù)測(cè)值中心點(diǎn)與觀測(cè)值中心點(diǎn)之間的均方根誤差cRMS;黑色弧度實(shí)線為經(jīng)標(biāo)準(zhǔn)化的實(shí)測(cè)標(biāo)準(zhǔn)差SD;黑色0.5虛線表示模型預(yù)測(cè)SD是實(shí)測(cè)值SD的一半,黑色虛直線表示模型預(yù)測(cè)SD是實(shí)測(cè)值SD的1.5倍。SiPLS方法模擬值與實(shí)測(cè)值(綠色方塊)的相似度最高,相對(duì)分析誤差RPD最小(表3)。
表3 不同選擇方法及所建模型性能比較Table 3 Characteristic wavalength selection method and comparison of model perfomance
圖10 不同模型的泰勒?qǐng)DFig.10 Different models in chart of Taylor
與全光譜PLS方法相比,BiPLS,SiPLS,SPA-PLS均能適合羊草水分含量特征波長(zhǎng)的確定。從最終選擇的特征光譜區(qū)間和特征波長(zhǎng)來看,SiPLS選擇的特征區(qū)間證明已包含在最優(yōu)的區(qū)間中,其中SiPLS方法最適合用于羊草水分含量特征波長(zhǎng)的篩選,其次為BiPLS方法,最差的方法為iPLS。該研究結(jié)果可為預(yù)測(cè)羊草及其相關(guān)禾本科牧草水分含量切實(shí)有效,預(yù)測(cè)精度在96.13 %以上。