馬 強 李水芳 付紅軍 王 瓊 文瑞芝
(中南林業(yè)科技大學理學院1,長沙 410004)(中南林業(yè)科技大學食品科學和工程學院2,長沙 410004)
油桐(Verniciafordii)為大戟科油桐屬植物,是我國具有代表性的經(jīng)濟林樹種和特有的工業(yè)油料樹種。油桐在我國秦嶺、淮河以南的16個省(市、區(qū))都有分布或栽培[1]。油桐籽含油率測定在其品質分析、良種選育等方面有廣泛應用。目前測定油桐籽含油率的方法是有機溶劑萃取的索氏抽提法[2-3],該法耗時、需消耗化學試劑、測定成本較高。
近紅外光譜(near infrared spectroscopy, NIR)技術具有簡便、快速、易于操作、綠色環(huán)保等優(yōu)點。研究表明該技術能快速測定油菜、玉米、大豆、棉籽、花生等草本油料植物種子含油率[4-8]。有關木本油料植物種子含油率的測定,原姣姣等[9]和奚如春等[10]都對油茶籽含油率的NIR檢測進行了研究。前期,李水芳等[11]對單一年份油桐籽含油率的NIR檢測進行了研究。本研究以不同年份和不同含油率范圍樣本為實驗對象,研究年份和含油率差異對油桐籽含油率NIR檢測模型的影響及如何減少這種影響,為在實際中建立準確可靠的油桐籽含油率NIR檢測模型提供參考,也為其他油料植物種子含油率NIR檢測模型的建立提供借鑒。
95個和107個油桐籽樣本分別于2014年11月24日和2015年11月23日采集于湖南省永順縣青坪鎮(zhèn)中南林業(yè)科技大學油桐實驗基地——國家油桐種質資源保存庫。2014年為貧產(chǎn)年,掛果率低,但單果體積大,桐籽含油率普遍較高;2015年為豐產(chǎn)年,掛果率高,但單果體積小,桐籽含油率普遍較2014年低。油桐果去皮留籽,桐籽去殼留仁,稍加錘碎,在70 ℃恒溫箱中烘干,裝入布袋中錘碎,過20目篩后置于干燥器內備用。
在約20 ℃室溫下,將樣品裝入儀器配備的樣品杯中,用Antaris Ⅱ型傅里葉變換近紅外光譜儀(配有積分球漫反射采集系統(tǒng),InGaAs檢測器及TQ軟件)采集和保存光譜。采集條件為:光譜范圍10 000~4 000 cm-1,掃描次數(shù)64次,分辨率8 cm-1,4倍增益,數(shù)據(jù)采集格式為Log(1/R),以內置背景為參考,背景頻率為每次掃描前采集。每個樣本平行3次掃描,取平均光譜。
采集完光譜的樣本,以石油醚(分析純,30~60 ℃)為溶劑,索氏抽提法提取油脂。稱取約10 g樣本(精確到0.01 g,記為m0),放入烘過后的濾紙筒中,用脫脂棉線捆扎好,稱取其質量(精確到0.01 g,記為m1),然后放于裝有石油醚的索氏抽提裝置中浸泡過夜,第2天抽提10 h左右,直到將2滴抽提液滴到玻璃片上,待溶劑揮發(fā)后,玻璃片上無油脂殘留為止,隨后,將抽提完油脂的濾紙包取出,放到70 ℃烘箱中烘干,稱重(精確到0.01 g,記為m2)。樣本含油率(ω)按式(1)計算:
(1)
每個樣本平行2次測定(2次測定的相對誤差不大于2.0%,否則重測),取平均值。
對原始光譜進行預處理能消除無關信息及噪聲、增加樣本光譜之間的差異,提高模型的穩(wěn)健性和預測能力,實現(xiàn)模型的優(yōu)化。分別采用一階導數(shù)(1stder)、二階導數(shù)(2ndder)、多元散射校正(MSC)、標準正態(tài)化(SNV)、均值中心化(MC)、Savitzky-Golay平滑(S-G)及其組合等方法對原始光譜進行預處理。
偏最小二乘(partial least squares,PLS)算法對光譜陣和數(shù)值陣同時進行分解,并考慮二者的相互關系,加強對應計算關系,從而保證獲得最佳的校正模型,是光譜多元校正分析中應用最為廣泛的校正方法[12]。本研究以PLS算法構建模型。
以校正模型內部10折交叉驗證的相關系數(shù)(Rcv)、均方根誤差(RMSECV)、相對標準偏差(RSDcv)、校正集的相關系數(shù)(Rc)、均方根誤差(RMSEC)、相對標準偏差(RSDc)及驗證集外部驗證的相關系數(shù)(Rp)、均方根誤差(RMSEP)、相對標準偏差(RSDp)為指標評價模型。相關系數(shù)越接近1,均方根誤差和相對標準偏差越小,表明模型的校正精度和預測精度越好。而小的均方根誤差和相對標準偏差比大的相關系數(shù)更重要。
油桐籽NIR由1 557個數(shù)據(jù)點構成,波長點數(shù)遠多于樣本個數(shù),光譜共線性嚴重,有效的變量篩選不僅可以簡化模型,更主要的是可以剔除不相關或共線性變量,從而提高模型的預測能力和穩(wěn)健性。采用競爭性自適應重加權(CARS)算法進行變量篩選和光譜數(shù)據(jù)的壓縮、去噪和特征提取。CARS法[13]是一種有效篩選變量的迭代方法,在每一次迭代中,模仿達爾文進化理論中“適者生存”的原則,相繼采用2種策略進行變量消除:首先利用預定義的指數(shù)衰減函數(shù)強制去掉一部分競爭力相對較弱(指PLS模型回歸系數(shù)的絕對值相對較小)的變量;然后通過自適應重加權采樣技術繼續(xù)對剩余變量進行帶有一定隨機性的篩選,按概率繼續(xù)去掉一部分不重要的變量。迭代完成后,利用交叉檢驗選出模型RMSECV最低的變量子集。
由于2014年樣本含油率普遍較高,而2015年相對較低,致使2014年的95個樣本含油率范圍小于2015年107個樣本的含油率范圍。若用2014年的校正集建模預測2015年的驗證集樣本或混合年份的驗證集樣本,則驗證集含油率數(shù)據(jù)會落在校正集含油率范圍之外,模型不適于對驗證集的預測。因此,從2015年的107個樣本中取含油率范圍與2014年接近的79個樣本組成另外一個2015年的樣本集。為了對不同年份、不同含油率樣本進行研究,我們將樣本劃分為5個集:樣本集1由2014年的95個樣本組成;樣本集2由2015年的79個樣本組成;樣本集3由2015年的107個樣本組成;樣本集4由2014年的95個樣本和2015年的79個樣本組成;樣本集5由2014年的95個樣本和2015年的107個樣本組成。對每個樣本集,取2/3作校證集,1/3作驗證集。各樣本集劃分出的校正集和驗證集的含油率化學測定值的統(tǒng)計結果如表1所示。
表1 油桐籽含油率化學測定值統(tǒng)計結果
由表1可知,對每個樣本集,驗證集含油率范圍都在校正集含油率范圍內,因此,校正集所建模型適于對其驗證集進行預測;對樣本集1、2和4,各自驗證集的含油率范圍都在其他2個樣本集校正集的含油率范圍內,因此,用各自校正集所建模型都適于對其他2個樣本集的驗證集進行預測。
圖1為2014年95個樣本和2015年107個樣本的平均光譜??梢钥闯龆哂邢嗤恢玫奈辗濉?/p>
圖1 油桐籽樣本的的近紅外光譜圖
分別用樣本集1、2和4的校正集建立含油率NIR檢測模型,并分別對3個樣本集的驗證集進行預測,以比較單一年份和混合年份樣本所建模型的預測能力。各模型對驗證集的預測結果見表2。從表2可知:①對單一年份樣本,其校正集建立的模型對自身驗證集的預測結果最好,對混合年份驗證集的預測結果次之,而對另一單一年份驗證集的預測結果最差;②對混合年份樣本,其校正集建立的混合年份模型無論是對單一年份還是混合年份的驗證集,預測結果都較好;③混合年份模型對單一年份驗證集的預測結果與單一年份模型對自身驗證集的預測結果接近,甚至略好。因此,建立油桐籽含油率NIR檢測模型時,為了使模型有更好的適應性,應收集不同年份的樣本建立混合年份的檢測模型。這一結果,與Garcia-Alvarez等[14]對不同年份蜂蜜樣本中的果糖和葡萄糖含量進行NIR建模分析時的結果類似。
表2 模型對驗證集的預測結果
為了比較不同含油率范圍樣本所建模型的預測性能,我們分別使用2015年的兩個樣本集2和3及混合年份的兩個樣本集4和5進行分析,用校正集建立模型,并對各自的驗證集進行預測。各樣本集校正集10折交互檢驗、校正模型內部檢驗及驗證集外部預測的結果見表3。
表3 不同含油率范圍模型的預測結果
樣本集2和3同為2015年樣本,集3的含油率范圍34.6%~63.4%,標準偏差6.04,而集2的含油率范圍47.6%~61.4%,標準偏差3.56,集3的含油率范圍和標準偏差都明顯高于集2。雖然集3校正模型的3個相關系數(shù)(Rcv、Rc、Rp)都比集2校正模型對應的3個相關系數(shù)更接近1,但均方根誤差(RMSECV、RMSEC、RMSEP)和相對標準偏差(RSDcv、RSDc、RSDp)卻比集2對應的均方根誤差和相對標準偏差明顯要大,因此,集2校正模型預測精度比集3更高。比較集2和3各自的3個相關系數(shù)Rcv、Rc和Rp,集3的3個相關系數(shù)彼此更接近,因此,集3的模型更穩(wěn)定。同樣,樣本集4和5也存在相似的情況。因此,樣本含油率范圍對所建模型的預測性能有影響:含油率范圍大,盡管真實值與預測值的相關系數(shù)有所提高,但均方根誤差和相對標準偏差都有所升高,所以模型的預測精度下降,而穩(wěn)定性更好。
用CARS法篩選變量時,每次運行CARS算法的最優(yōu)采樣次數(shù)會不相同,選擇的變量數(shù)也有所不同,模型交互檢驗的RMSECV也略有不同。對混合年份樣本集5,嘗試運行10次CARS算法,選擇RMSECV最小的一次,此時,篩選出的變量為30個。它們對應的波數(shù)范圍為:4 089~4 100、4 320、4 902~4 922、5 650~5 658、5 708~5 712、5 751~5 766、5 843~5 851、7 023~7 031、7 046~7 054 cm-1。波數(shù)粗略解析為[12,15]:4 089~4 100、4 320 cm-1在亞甲基C—H鍵的組合頻區(qū)(4 082~4 367 cm-1);4 902~4 922 cm-1在甲基和亞甲基C—H鍵的第一組合頻區(qū)(4 160~5 000 cm-1);5 650~5 658、5 708~5 712、5 751~5 766、5 843~5 851 cm-1在甲基和亞甲基C—H鍵的一級倍頻區(qū)(5 550~6 020 cm-1);7 023~7 031、7 046~7 054 cm-1在甲基和亞甲基C—H鍵伸縮振動的一級倍頻加變形振動的組合頻區(qū)(6 900~7 090 cm-1)。
用篩選出的30個變量建立混合年份樣本集5的含油率PLS定量校正模型,然后對其驗證集進行預測,結果見圖2。由圖2可知,由66個混合年份樣本組成的驗證集的RP為0.929,RMSEP為1.765,RSDP為3.31%,與表3中使用全部1 557個變量建模的預測結果相比,建模用變量數(shù)大大減少,模型得到了簡化,而預測精度略有提升。
圖2 驗證集化學測定值與近紅外預測值的相關關系圖
單一年份油桐籽樣本的NIR含油率檢測模型對本年份樣本的預測精度好,而對其他單一年份樣本的預測精度明顯下降,而混合年份油桐籽樣本的含油率NIR檢測模型對各年份樣本都能實現(xiàn)較準確預測;相同年份不同含油率范圍的油桐籽樣本所建NIR檢測模型的預測結果存在差異,含油率范圍大,模型的預測精度略有下降,但模型更穩(wěn)定。所以建立油桐籽含油率NIR檢測模型時,應收集不同年份的含油率范圍廣泛的樣本,所建模型既具有較好的預測精度,又具有更好的適應性和穩(wěn)定性。對混合年份樣本,使用偏最小二乘(PLS)法建模,并結合競爭性自適應重加權(CARS)法篩選變量,不僅模型得到了簡化,而且預測精度比使用全部1 557個變量建模略有提高。CARS結合PLS法建立的模型,實現(xiàn)了近紅外光譜技術對油桐籽含油率的較準確預測:驗證集的Rp為0.929,RMSEP為1.765,RSDp為3.31%。