潘威+馬文廣+鄭昀曄
摘要:為探索近紅外光譜技術(shù)(near infrared spectroscopy,簡稱NIRS)在無損檢測煙草種子蛋白含量方面的應(yīng)用,研究120份煙草種子的近紅外光譜,利用光譜影響值法(Leverage)對異常光譜進(jìn)行處理后,在4 000~9 000 cm-1 波數(shù),利用主成分回歸法(簡稱PCR)建立煙草種子蛋白質(zhì)含量的定標(biāo)模型,并采用外部獨(dú)立驗(yàn)證的方式對模型進(jìn)行檢驗(yàn)。結(jié)果表明,標(biāo)準(zhǔn)正態(tài)變量轉(zhuǎn)換法(簡稱SNV)處理結(jié)合De-trending算法下,建立的煙草種子蛋白含量定標(biāo)模型的確定系數(shù)高達(dá)99.86%,校正標(biāo)準(zhǔn)差、預(yù)測標(biāo)準(zhǔn)差分別為0.71、0.68,校正集、驗(yàn)證集的預(yù)測值與化學(xué)測定值間均達(dá)極顯著正相關(guān),說明該近紅外光譜定量分析模型效果較好,可用于煙草種子粗蛋白的測定。
關(guān)鍵詞:近紅外;煙草種子;主成分分析法;模型
中圖分類號:S572.01 文獻(xiàn)標(biāo)志碼: A
文章編號:1002-1302(2016)11-0376-04
近紅外光譜(near infrared spectroscopy,簡稱NIRS)分析技術(shù)[1-3],是20世紀(jì)80年代后期迅速發(fā)展起來的一項(xiàng)物理測試技術(shù),在種子內(nèi)含物、種子活力及貯藏年份分析方面得到廣泛應(yīng)用,如小麥蛋白、硬度、水分、氨基酸[4-8],水稻種子淀粉、蛋白[9-11],大豆蛋白[12],油菜、棉籽種子含油量、氨基酸[13-16]等,具有無損、快速、成本低等優(yōu)點(diǎn)。目前,關(guān)于煙草種子品種性狀如蛋白、脂肪、含水量等的測定都是基于化學(xué)法測定,費(fèi)時、繁瑣。本研究旨在利用Spectrum Two FT-IR型近紅外光譜儀和配套分析軟件建立煙草種子蛋白質(zhì)含量的定標(biāo)模型,并對其進(jìn)行驗(yàn)證,為煙草種子內(nèi)部品質(zhì)檢測提供一種快速、簡易的方法。
1 材料與方法
1.1 供試材料
收集MS云煙87、MS K326父本煙株花粉,晾干,4 ℃保存?zhèn)溆?。分別在MS云煙87母本、MS K326母本煙株最佳授粉時期,選同一片區(qū)含蕾期煙株授粉,授粉時,用棉簽蘸取花粉均勻涂抹于母本柱頭上,對同一天授粉花朵進(jìn)行掛牌標(biāo)記,分別采集授粉后7、14、21、23、25、27、29、31、33、35 d所得蒴果,每個成熟階段收集3份。
選擇相同花序的云煙97、紅花大金元花朵(含蕾期),掛牌標(biāo)記,分別在盛開期過后7、14、21、23、25、27、29、31、33、35 d 對蒴果進(jìn)行采收,每個成熟階段收集3份。
4個品種煙株共獲得120份煙草種子。所有種子采收及處理工作均在玉溪中煙種子公司西雙版納冬繁基地進(jìn)行。
1.2 紅外光譜測試儀器及建模軟件
近紅外光譜掃描采用珀金埃爾默儀器生產(chǎn)的Spectrum Two FT-IR光譜儀,建模軟件為系統(tǒng)配套的Spectrum Quant+。
1.3 測定方法
1.3.1 樣品化學(xué)特征值常規(guī)測定 蛋白質(zhì)含量分析采用凱氏定氮法測試[17],每份樣品測定3次,取其平均值,允許的相對誤差不得大于3%。
1.3.2 紅外光譜特征數(shù)據(jù)采集 開機(jī)預(yù)熱至少30 min,待單束光圖形或能量值穩(wěn)定后,開始光譜采集。設(shè)定試驗(yàn)參數(shù)如下:掃描波段為4 000~10 000 cm-1,分辨率為16,累積量為32。使用儀器內(nèi)置參比,將上述120份處理好的樣品依次放置在光譜儀樣品盤上,對樣品進(jìn)行掃描。為降低裝樣不均勻產(chǎn)生的誤差,每個樣品掃描5次,取平均值,每次掃描前要進(jìn)行背景消除。收集各個樣品的光譜特征數(shù)據(jù)。
1.3.3 光譜數(shù)據(jù)的預(yù)處理 近紅外光譜易受樣品均勻度、基線漂移和偏移、光散射、儀器噪音等非目標(biāo)因素的干擾[18]。因此,在構(gòu)建校正模型前,須對原始光譜進(jìn)行預(yù)處理,提高信噪比,進(jìn)而優(yōu)化模型的預(yù)測性能。分別采用標(biāo)準(zhǔn)化處理法如標(biāo)準(zhǔn)正態(tài)變量轉(zhuǎn)換法(簡稱SNV)、乘積分散校正法(簡稱MSC)與基線校正方法如一階導(dǎo)數(shù)和二階導(dǎo)數(shù)等相結(jié)合的方法對所采集的光譜數(shù)據(jù)進(jìn)行預(yù)處理。最后,根據(jù)定標(biāo)模型的預(yù)測效果選出最佳數(shù)據(jù)預(yù)處理方法。
在建模軟件“Influence”圖形中,觀察校正集中各樣本對模型的影響?!癓everage”較大可能由于樣本中某些特征峰過強(qiáng)或過弱,或者存在某些異常峰;軟件中“Distance”是Cook's距離,用類衡量從校正集中移除該樣本時回歸模型的改變程度。如果2個閾值都超出,說明該樣本的光譜有問題,應(yīng)剔除。在建模軟件“Validation Leverage Ratio”圖形中,將驗(yàn)證集中權(quán)重過大的樣本,即與校正集樣本權(quán)重的比值明顯大于1的樣本從驗(yàn)證集中移除。通過最小二乘法對原光譜進(jìn)行線性擬合,從而扣除原光譜中的線性漂移(De-trending算法)。
1.3.4 定標(biāo)模型的建立 分別采用線性相關(guān)的主成分分析法(簡稱PCR)、偏最小二乘法(簡稱PLS)對經(jīng)過不同預(yù)處理的光譜數(shù)據(jù)進(jìn)行回歸分析,從120份樣品中挑選校正集和驗(yàn)證集樣品,比例為3 ∶1,進(jìn)行外部獨(dú)立驗(yàn)證。模型建立后以確定系數(shù)R2、校正標(biāo)準(zhǔn)差(簡稱SEE)、驗(yàn)證標(biāo)準(zhǔn)差(簡稱SEP)來評價優(yōu)劣。確定系數(shù)越接近1,校正標(biāo)準(zhǔn)差和驗(yàn)證標(biāo)準(zhǔn)差越小,則說明回歸模型的定量分析結(jié)果越準(zhǔn)確。
2 結(jié)果與分析
2.1 煙草種子的近紅外光譜
在4 000~10 000 cm-1波譜區(qū)內(nèi),煙草種子近紅外漫反射光譜曲線各波段表現(xiàn)出獨(dú)特吸收特征(圖1),這為煙草種子蛋白質(zhì)含量的定量分析提供了豐富的信息基礎(chǔ)。從圖1中還可以看出,在4 000~9 000 cm-1范圍內(nèi),煙草種子大量含氫基團(tuán)的合頻區(qū)、1倍頻區(qū)、部分高倍頻區(qū)均形成強(qiáng)烈的吸收,模型的建立選擇此波段范圍;而9 000~10 000 cm-1范圍相對來說無明顯吸收。
2.2 不同預(yù)處理方法的結(jié)果比較
根據(jù)Cooks距離和影響值法、殘差法綜合分析后,剔除1個對模型影響過大或具有異常吸收峰的驗(yàn)證集紅外光譜,為保證驗(yàn)證集在校正集中均勻分散,再將2個樣品設(shè)置為驗(yàn)證樣品,即實(shí)際建模的校正集為88份樣品,驗(yàn)證集為31份。以主成分分析法建立回歸模型,改變波段范圍、光譜歸一化方法、基線校正方法,研究模型的R2、SEE、SEP變化(表1)??紤]到平滑處理雖然可以提高光譜的信噪比,但是會造成吸收峰增寬,降低譜圖特征性,影響峰強(qiáng)度,所以所有光譜未進(jìn)行平滑處理。
由表1可以看出,以主成分分析法建立的煙草種子回歸模型確定系數(shù)都較高,在91.75%~99.86%之間,說明模型線性相關(guān)性較高;而SNV與MSC 2種歸一化方法比較,SNV處理模型的確定系數(shù)明顯更高;但是導(dǎo)數(shù)處理進(jìn)行基線校正反而使模型效果下降。另外,在確定最優(yōu)前處理方法后,根據(jù)留一法交互驗(yàn)證(圖2),主因子數(shù)為20個時,模型的SEE、SEP最低。
總的來說,在4 000~9 000 cm-1波譜范圍內(nèi),通過SNV即標(biāo)準(zhǔn)正態(tài)變量轉(zhuǎn)換法,將每個樣本的光譜數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)正態(tài)化,使各波數(shù)變量處的吸光度均值為0,方差為1,通過最小二乘法對原光譜進(jìn)行線性擬合,從而扣除原光譜中的線性漂移(De-trending算法),控制主因子數(shù)為20個時,回歸模型最成功,確定系數(shù)R2達(dá)到99.83%,校正標(biāo)準(zhǔn)差為0.71,預(yù)測標(biāo)準(zhǔn)差為0.68。
2.3 不同回歸方法結(jié)果的比較
根據(jù)表1結(jié)果,選擇幾種確定系數(shù)高,校正偏差小的預(yù)處理方法,采用PLS建立回歸模型,并與主成分回歸法比較。
表2結(jié)果表明,同樣處理方法下,偏最小二乘法回歸模型的確定系數(shù)為90.66%~92.08%,比主成分回歸法低很多,而校正標(biāo)準(zhǔn)差在0.97~1.04之間,預(yù)測標(biāo)準(zhǔn)差在 1.14~4.00間,明顯比主成分回歸法高很多,說明主成分回歸模型更加適用于煙草種子蛋白含量的定量分析。
2.4 近紅外定標(biāo)模型外部驗(yàn)證
建立的模型是否適用,主要通過外部驗(yàn)證來評價,以檢驗(yàn)樣品近紅外光譜法預(yù)測值與化學(xué)值的相關(guān)性及預(yù)測效果。由表3可以看出,31個外部驗(yàn)證樣品化學(xué)法和最優(yōu)模型預(yù)測的蛋白含量絕對誤差的絕對值在0.01%~1.79%之間,相對誤差的絕對值在0.09%~11.77%之間,它們的平均絕對誤差均在標(biāo)準(zhǔn)方法允許的范圍內(nèi),說明這個定標(biāo)方程的預(yù)測效果較好,且準(zhǔn)確度和精度較高,可以在實(shí)際中應(yīng)用。
以煙草種子蛋白質(zhì)含量的化學(xué)值為橫坐標(biāo)、模型回歸值為縱坐標(biāo),得校正集、驗(yàn)證集的散點(diǎn)圖(圖3、圖4)。在圖3、圖4中,校正集和驗(yàn)證集的試驗(yàn)點(diǎn)均勻分布在直線兩側(cè),且偏離不大,表明119份煙草種子蛋白質(zhì)含量的近紅外定標(biāo)模型預(yù)測值與化學(xué)方法測定值呈線性相關(guān),且校正集相關(guān)系數(shù)r=0.97,回歸方程為y=0.97x+0.39,驗(yàn)證集相關(guān)系數(shù)r=0.95,回歸方程為y=0.96 x+0.58,相關(guān)性均達(dá)到極顯著水平,表明近紅外定標(biāo)模型測定的結(jié)果準(zhǔn)確可靠。
3 討論與結(jié)論
研究采用主成分回歸法建立了煙草種子蛋白含量的近紅外光譜定標(biāo)模型,4 000~9 000 cm-1波譜范圍內(nèi),SNV結(jié)合De-trending算法下,模型的確定系數(shù)R2可達(dá)到99.83%,而校正標(biāo)準(zhǔn)差、預(yù)測標(biāo)準(zhǔn)差分別為0.71、0.68,可用于煙草種子蛋白含量的無損檢測。
本研究標(biāo)準(zhǔn)樣品數(shù)目為119個(剔除1個異常值),校正集88個,驗(yàn)證集31個,包含4個主栽品種10個成熟階段種子,蛋白含量范圍在6%~18%,具有較好的代表性。定標(biāo)模型建立時,樣品數(shù)量的多少和化學(xué)值范圍直接影響分析的準(zhǔn)確性和普適性[19-20]。因此,有關(guān)研究結(jié)果只是初步的,為提高定標(biāo)精度、擴(kuò)大模型的預(yù)測范圍,應(yīng)在以后的應(yīng)用研究中不斷豐富校正集。
參考文獻(xiàn):
[1]賈 婉,毛培勝. 近紅外光譜技術(shù)在種子質(zhì)量檢測方面的研究進(jìn)展[J]. 種子,2013,32(11):46-51.
[2]孫 群,王 慶,薛衛(wèi)青,等. 無損檢測技術(shù)在種子質(zhì)量檢驗(yàn)上的應(yīng)用研究進(jìn)展[J]. 中國農(nóng)業(yè)大學(xué)學(xué)報(bào),2012,17(3):1-6.
[3]朱麗偉,馬文廣,胡 晉,等. 近紅外光譜技術(shù)檢測種子質(zhì)量的應(yīng)用研究進(jìn)展[J]. 光譜學(xué)與光譜分析,2015,35(2):346-349.
[4]鄭詠梅,張 軍,李榮福,等. 小麥近紅外特征波長提取及蛋白質(zhì)含量測定[J]. 激光與紅外,2003,33(2):125-127.
[5]任紅波. 近紅外儀快速測定小麥蛋白及硬度[J]. 黑龍江農(nóng)業(yè)科學(xué),2003(3):17-18.
[6]吳靜珠,吳勝男,劉翠玲,等. 近紅外和高光譜技術(shù)用于小麥籽粒蛋白含量預(yù)測探索[J]. 傳感器與微系統(tǒng),2013,32(2):60-62.
[7]張玉榮,付 玲,周顯青. 基于BP神經(jīng)網(wǎng)絡(luò)小麥含水量的近紅外檢測方法[J]. 河南工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2013,34(1):17-20.
[8]李軍濤,楊文軍,陳義強(qiáng),等. 近紅外反射光譜技術(shù)快速測定小麥中必需氨基酸含量的研究[J]. 中國畜牧雜志,2014,50(9):50-55.
[9]黃道強(qiáng),周少川,李 宏,等. 近紅外分析技術(shù)輔助水稻直鏈淀粉含量育種方法研究[J]. 中國稻米,2004(1):17-18.
[10]肖 昕,謝新華,陳 奕,等. 應(yīng)用近紅外透射光譜法測定水稻種子直鏈淀粉含量的初步研究[J]. 中國農(nóng)業(yè)科學(xué),2004,37(11):1709-1712.
[11]謝新華,肖 昕,劉彥卓,等. 小批量稻谷種子蛋白質(zhì)含量的近紅外透射光譜分析[J]. 湖北農(nóng)業(yè)科學(xué),2004(2):16-18.
[12]王秀榮,廖 紅,嚴(yán)小龍. 應(yīng)用近紅外光譜分析法測定大豆種子蛋白質(zhì)和脂肪含量的研究[J]. 大豆科學(xué),2005,24(3):199-201.
[13]陳文杰,譚小力,王竹云,等. 用傅立葉變換近紅外光譜儀測定油菜種子品質(zhì)指標(biāo)的研究[J]. 陜西農(nóng)業(yè)科學(xué),2002(8):6-9.
[14]黃莊榮,沙 莎,榮正勤,等. 基于近紅外技術(shù)快速無損分析整粒棉籽中的脂肪酸含量[J]. 分析化學(xué),2013,41(6):922-926.
[15]商連光,李軍會,王玉美,等. 棉籽油分含量近紅外無損檢測分析模型與應(yīng)用[J]. 光譜學(xué)與光譜分析,2015,35(3):609-612.
[16]黃莊榮,陳進(jìn)紅,劉海英,等. 棉籽17種氨基酸含量的NIRS定標(biāo)模型構(gòu)建與測定方法研究[J]. 光譜學(xué)與光譜分析,2011,31(10):2692-2696.
[17]禹山林,朱雨杰,閔 平,等. 傅立葉近紅外漫反射非破壞性測定花生種子蛋白質(zhì)及含油量[J]. 花生學(xué)報(bào),2003,32(增刊):138-143.
[18]李君霞,閔順耕,張洪亮,等. 水稻糙米粗蛋白近紅外光譜定量分析模型的優(yōu)化研究[J]. 光譜學(xué)與光譜分析,2006,26(5):833-837.
[19]禹山林,朱雨杰,閔 平,等. 傅立葉近紅外漫反射非破壞性測定花生種子主要脂肪酸含量[J]. 花生學(xué)報(bào),2010,39(1):11-14,48.
[20]魏良明. 普通玉米籽粒品質(zhì)性狀的遺傳及其近紅外測定方法的研究[D]. 北京:中國農(nóng)業(yè)大學(xué),2003.