李 贊,高紅秀,金 萍,石 瑛*
(1.江蘇農(nóng)林職業(yè)技術(shù)學(xué)院,江蘇 鎮(zhèn)江 212400;2.東北農(nóng)業(yè)大學(xué)農(nóng)學(xué)院,黑龍江 哈爾濱 150030)
馬鈴薯在全世界范圍內(nèi)一直是重要的糧食作物之一。隨著人們生活水平的不斷提升,對(duì)馬鈴薯的品質(zhì)要求也逐漸提高,蛋白質(zhì)含量是研究馬鈴薯品質(zhì)中重要的指標(biāo)之一。傳統(tǒng)測(cè)試馬鈴薯塊莖蛋白質(zhì)含量的方法一般采用凱式定氮法,其作為一種國(guó)際通用的測(cè)試方法,技術(shù)比較成熟且標(biāo)準(zhǔn)化,但應(yīng)用過(guò)程中存在一些明顯不足。該方法需要對(duì)檢測(cè)樣品進(jìn)行前處理,操作過(guò)程消耗時(shí)間長(zhǎng)(至少需要2 h 才能完成),工作量較大,費(fèi)工費(fèi)時(shí),且所使用試劑具有強(qiáng)烈的腐蝕性,對(duì)環(huán)境污染大。因此,需要找到一種快速和準(zhǔn)確檢測(cè)馬鈴薯蛋白質(zhì)含量的有效方法,為馬鈴薯蛋白質(zhì)含量的評(píng)價(jià)提供依據(jù)。
采用近紅外方法測(cè)定蛋白質(zhì)含量可以大幅度減少操作過(guò)程中消耗的各類(lèi)材料,去掉了很多繁瑣且有危險(xiǎn)的工作程序,降低了有害氣體的污染和對(duì)操作人員的傷害,大幅提升測(cè)試分析的工作效率,并顯著降低測(cè)試成本。近紅外光譜分析技術(shù)實(shí)際上是一個(gè)二級(jí)分析方法,在對(duì)未知樣品進(jìn)行分析之前,必須選擇一組具有代表性的樣品作為一個(gè)定標(biāo)集,對(duì)應(yīng)其中的每個(gè)樣品測(cè)量光譜及對(duì)應(yīng)的組分或性質(zhì),并采用多元校正的方法將已測(cè)量的光譜與對(duì)應(yīng)的性質(zhì)或組成數(shù)據(jù)關(guān)聯(lián),建立該組分的定標(biāo)模型,然后進(jìn)行未知樣品光譜數(shù)據(jù)的采集,并將其與校正模型相互對(duì)應(yīng),計(jì)算出此未知樣品的組分。因此,近紅外光譜分析技術(shù)的廣泛應(yīng)用,最重要的是建立定標(biāo)模型,定標(biāo)模型的合理性直接影響檢測(cè)結(jié)果的準(zhǔn)確度和穩(wěn)定性。
近紅外光譜分析技術(shù)在測(cè)定農(nóng)副產(chǎn)品(如飼料、谷物、肉、蛋、奶、水果和蔬菜)的品質(zhì)(包括蛋白質(zhì)、脂肪、纖維、灰分、氨基酸等)方面得到廣泛使用[1-7],已成為糧食品質(zhì)分析的重要手段。近年來(lái),已有不少作物利用近紅外技術(shù)測(cè)定蛋白質(zhì)含量。研究者利用近紅外光譜技術(shù)分別對(duì)小麥[8]、水稻[9]、大豆[10]、玉米[11]和食用向日葵子仁[12]中的蛋白質(zhì)含量進(jìn)行了定標(biāo)模型的建立,并取得了良好的效果。由此可見(jiàn),利用近紅外技術(shù)對(duì)谷物品質(zhì)建立定標(biāo)模型的方法已經(jīng)相當(dāng)成熟,并已有相關(guān)報(bào)道近紅外技術(shù)應(yīng)用于馬鈴薯研究中[13,14],但利用近紅外技術(shù)在馬鈴薯蛋白質(zhì)含量分析測(cè)試方法或建立相關(guān)模型方面的報(bào)道還很少。本研究以不同年份、不同區(qū)域的馬鈴薯塊莖為試驗(yàn)材料,進(jìn)行馬鈴薯塊莖蛋白質(zhì)含量近紅外光譜定標(biāo)模型的建立,并對(duì)其準(zhǔn)確性進(jìn)行驗(yàn)證,以期提供一種準(zhǔn)確、快速、無(wú)需預(yù)處理測(cè)定馬鈴薯塊莖中蛋白質(zhì)含量的分析方法,為以后的相關(guān)研究與應(yīng)用提供理論指導(dǎo)。
供試材料為東北農(nóng)業(yè)大學(xué)馬鈴薯育種基地的無(wú)性系種質(zhì)材料,馬鈴薯品種審定區(qū)域試驗(yàn)、生產(chǎn)試驗(yàn)的品種(系),來(lái)自于克山、訥河等地的馬鈴薯品種(系)。樣品數(shù)目為986 份,按不同年份、地域、生長(zhǎng)季節(jié)等條件收集有代表性的馬鈴薯樣品,將新鮮樣品切碎,放在105℃的恒溫箱內(nèi)殺青30 min,然后將溫度調(diào)到70.5℃,繼續(xù)烘干14~16 h,使樣本材料至恒重,將樣品粉碎至30~40 目,裝于小塑料袋中密封保存。
1.2.1 樣品掃描
采用福斯公司生產(chǎn)的近紅外分析儀Infraxact對(duì)樣品進(jìn)行光譜掃描,掃描前,先將光譜儀開(kāi)機(jī)預(yù)熱1 h。波長(zhǎng)范圍570~1 850 nm,每份樣品重復(fù)3 次。然后使用WinISI III 軟件對(duì)光譜進(jìn)行平均,生成平均光譜文件。
1.2.2 蛋白質(zhì)含量化學(xué)值測(cè)定
馬鈴薯蛋白質(zhì)含量化學(xué)測(cè)定方法為凱氏定氮法(GB 5009.5—2016)[15],使用瑞典福斯公司的2300 型全自動(dòng)凱氏定氮儀進(jìn)行測(cè)定。每個(gè)樣品采用雙平行分析,測(cè)定結(jié)果取平均值。
1.2.3 剔除超常和過(guò)剩樣品,確定定標(biāo)樣品集
采用主成分分析技術(shù)(聚類(lèi)分析技術(shù))將光譜數(shù)據(jù)進(jìn)行壓縮,并分解為主成分和得分矩陣數(shù)據(jù)。然后利用得分矩陣數(shù)據(jù),比較各樣品光譜間的差異,以及某樣品與主組群樣品組間的差異,以此確定相似樣品及超常樣品,從而可確定參與定標(biāo)的最好樣品。首先,利用光譜文件創(chuàng)建得分文件,計(jì)算出數(shù)據(jù)的平均值和每一個(gè)樣品到平均值的距離。邊界是數(shù)據(jù)集的3 倍標(biāo)準(zhǔn)偏差。然后從剔除超常樣品后的光譜文件中選擇代表性樣品,即剔除過(guò)剩樣品。過(guò)剩樣品剔除限是0.6,0.6 的定義為以某一個(gè)樣品為中心,在半徑為0.6以內(nèi)的樣品將被認(rèn)為是與此樣品相似,其光譜的性質(zhì)則不能增加定標(biāo)集樣品的變異范圍,即作為過(guò)剩樣品,不可參加定標(biāo)樣品集。
1.2.4 定標(biāo)模型的建立
首先將測(cè)定的樣品化學(xué)值輸入到定標(biāo)集的光譜文件中,使每個(gè)樣品的近紅外光譜與化學(xué)值一一對(duì)應(yīng),然后用軟件中的改進(jìn)最小二乘法(Modified partial least squares,MPLS)回歸技術(shù)法建立馬鈴薯蛋白質(zhì)含量的近紅外分析模型,預(yù)處理方法None(無(wú)散射處理)和SNV+Detrend(標(biāo)準(zhǔn)正?;?散射處理),導(dǎo)數(shù)處理參數(shù)選擇分別為0.0.1.1、1.4.4.1。觀察統(tǒng)計(jì)數(shù)據(jù)列交叉驗(yàn)證相關(guān)系數(shù)(1 minus the variance ratio,1-VR)和交叉驗(yàn)證誤差(Standard error of cross-validation,SECV),找出1-VR 值最大,而SECV 值最小的即為最佳定標(biāo)模型,這兩組數(shù)據(jù)基本能反應(yīng)定標(biāo)模型對(duì)其他未知樣品的預(yù)測(cè)性能。
1.2.5 定標(biāo)模型的驗(yàn)證
在定標(biāo)方程建立后,以一組沒(méi)有參與定標(biāo)的樣品集作為驗(yàn)證集,對(duì)該方程的預(yù)測(cè)性能進(jìn)行驗(yàn)證。驗(yàn)證樣品集樣品應(yīng)具有代表性,其成分應(yīng)覆蓋在一定范圍,并且其傳統(tǒng)實(shí)驗(yàn)室參考數(shù)據(jù)須準(zhǔn)確可靠,才能保證驗(yàn)證結(jié)果的合理性[16]。定標(biāo)驗(yàn)證工作是通過(guò)WinISI 軟件的Monitor Program 程序進(jìn)行的,其驗(yàn)證結(jié)果表征為實(shí)驗(yàn)室數(shù)據(jù)和近紅外預(yù)測(cè)數(shù)據(jù)相互比較所計(jì)算出的一系列統(tǒng)計(jì)結(jié)果。
在收集樣品光譜后,首先觀察每一樣品的吸收?qǐng)D譜,對(duì)于異常圖譜要重新進(jìn)行掃描或作剔除處理。樣品的近紅外光譜圖如圖1 所示,馬鈴薯近紅外光譜圖有明顯的吸收峰。
圖1 馬鈴薯測(cè)試樣品近紅外光譜圖Figure 1 Near infrared spectrogram of potato samples
采用主成分分析PCA 法,根據(jù)馬氏距離或相關(guān)性去除超常樣品和過(guò)剩樣品,超常樣品剔除限是3.0,過(guò)剩樣品剔除限是0.6,最終確定定標(biāo)樣品集為411 份。樣品蛋白質(zhì)含量分布見(jiàn)圖2,樣品化學(xué)含量的梯度分布較均勻,基本覆蓋了馬鈴薯的化學(xué)指標(biāo)含量范圍,有較好的代表性,滿足建標(biāo)的需要。本試驗(yàn)隨機(jī)選取100 份樣品組成驗(yàn)證集,其余311 份樣品自動(dòng)生成定標(biāo)集,其中最小值為6.77,最大值為23.21。定標(biāo)樣品集及驗(yàn)證集蛋白質(zhì)含量的分布見(jiàn)表1。
表1 蛋白定標(biāo)集及驗(yàn)證集化學(xué)分析數(shù)據(jù)Table 1 Chemical analysis of protein content calibration and validation sets
圖2 馬鈴薯測(cè)試樣品蛋白質(zhì)含量柱形圖Figure 2 Histogram of protein contents of potato test samples
將測(cè)定的樣品化學(xué)值輸入到定標(biāo)集的光譜文件中,用MPLS 法建立蛋白質(zhì)含量的近紅外分析模型,預(yù)處理方法分別為無(wú)散射處理(None)和去散射處理(SNV + Detrend),導(dǎo)數(shù)處理參數(shù)選擇分別為0.0.1.1、1.4.4.1。觀察統(tǒng)計(jì)數(shù)據(jù)列1-VR 和SECV,找出1-VR 值最大的,而SECV 值最小的即為最佳定標(biāo)模型。最終采用一階導(dǎo)數(shù)的數(shù)學(xué)處理(1, 4, 4, 1)、去散射處理(SNV + Detrend)組合的預(yù)處理方法為最優(yōu)定標(biāo)模型。馬鈴薯蛋白質(zhì)定標(biāo)方程參數(shù)如表2 所示,其定標(biāo)標(biāo)準(zhǔn)偏差(SEC)、交叉檢驗(yàn)標(biāo)準(zhǔn)誤差(SECV)和交叉驗(yàn)證相關(guān)系數(shù)(1-VR)分別為0.566、0.632 和0.912,說(shuō)明所建的定標(biāo)模型可用于馬鈴薯塊莖蛋白質(zhì)含量的快速檢測(cè),該模型可代替常規(guī)測(cè)試方法使用。
表2 馬鈴薯蛋白質(zhì)組分定標(biāo)模型參數(shù)Table 2 Parameters of calibration model for potato protein contents
定標(biāo)模型建立后用100 份沒(méi)有參與定標(biāo)的樣品來(lái)評(píng)估定標(biāo)方程的預(yù)測(cè)性能。得到預(yù)測(cè)結(jié)果與常規(guī)方法測(cè)定結(jié)果及其偏差見(jiàn)表3 以及馬鈴薯蛋白質(zhì)預(yù)測(cè)值與化學(xué)值相關(guān)圖(圖3)。
在表3中,85號(hào)樣品、89號(hào)樣品和98號(hào)樣品的化學(xué)值和預(yù)測(cè)值之間的差值偏大,視為異常樣品,作剔除處理,剔除異常樣品后對(duì)剩下的97個(gè)樣品的化學(xué)值和預(yù)測(cè)值進(jìn)行相關(guān)性分析,結(jié)果如圖3所示。
表3 化學(xué)法測(cè)定值和近紅外預(yù)測(cè)值的比較Table 3 Comparisons of values measured by chemical analysis and near infrared predicted
圖3 近紅外預(yù)測(cè)值與實(shí)驗(yàn)室分析值相關(guān)分析Figure 3 Correlation analysis between near infrared predicted value and chemical analysis value
與常規(guī)化學(xué)分析測(cè)量結(jié)果之間的相關(guān)系數(shù)(R)為0.931,斜率為0.986,其斜率和相關(guān)系數(shù)均接近于1,結(jié)果表明近紅外預(yù)測(cè)馬鈴薯蛋白質(zhì)含量與傳統(tǒng)方法結(jié)果無(wú)顯著差異,所建的模型用于馬鈴薯蛋白質(zhì)含量檢測(cè)是準(zhǔn)確可靠的。
試驗(yàn)建立了一個(gè)馬鈴薯塊莖蛋白質(zhì)含量的近紅外定標(biāo)模型,并對(duì)構(gòu)建的定標(biāo)方程的預(yù)測(cè)性能進(jìn)行了評(píng)估。試驗(yàn)結(jié)果表明,馬鈴薯塊莖蛋白質(zhì)含量定標(biāo)模型的SECV 值為0.632,而1-VR 值為0.912,蛋白質(zhì)含量的驗(yàn)證參數(shù)SEP 值為0.558,R值為0.931(圖3),說(shuō)明所建模型與凱氏定氮法測(cè)定的蛋白質(zhì)含量無(wú)顯著差異,結(jié)果可靠、理想,檢測(cè)精度高、重復(fù)性好,可以用于今后馬鈴薯蛋白質(zhì)含量的快速測(cè)定。
應(yīng)用近紅外技術(shù)不僅可以大大縮短品質(zhì)育種工作中的材料篩選時(shí)間,而且可以節(jié)省大量的人力、物力和財(cái)力,并且減少了很多工序,提高了工作效率,降低了有害氣體的污染和對(duì)實(shí)驗(yàn)操作人員的傷害。但是,近紅外光譜技術(shù)是通過(guò)樣品近紅外光譜與化學(xué)值之間的定標(biāo)模型來(lái)預(yù)測(cè)未知樣品的組分含量,實(shí)際上是一個(gè)二級(jí)分析方法[16]。影響定標(biāo)準(zhǔn)確度的因素很多,如參與定標(biāo)的樣品數(shù)量不足,不具代表性;定標(biāo)樣品差異性不顯著造成定標(biāo)不具代表性;樣品近紅外掃描數(shù)據(jù)差;定標(biāo)所使用的實(shí)驗(yàn)室數(shù)據(jù)分析不精確;非線性因素對(duì)定標(biāo)的影響等[17]。特別是在定標(biāo)集的樣品選擇上并不是樣品數(shù)量越多越好,應(yīng)選擇具有代表性的,蘆永軍等[18]研究表明,采用相似樣品剔除算法從178 個(gè)玉米粉樣品中成功提取了94 個(gè)優(yōu)選樣品,通過(guò)對(duì)178 個(gè)樣品和94 個(gè)優(yōu)選樣品分別進(jìn)行定標(biāo)試驗(yàn)發(fā)現(xiàn)優(yōu)選樣品保持了由原始樣品集參與定標(biāo)所達(dá)到的定標(biāo)精度,給出了滿意的定標(biāo)結(jié)果。樣本比例分配也應(yīng)適當(dāng),韓春亮等[19]研究表
明以70%的比例樣本作為定標(biāo)模型的建立,其余30%比例樣本作為該模型的驗(yàn)證樣本,可以獲得更好的預(yù)測(cè)效果。
定標(biāo)模型并不是一勞永逸的,由于自然樣品其成分隨著種植季節(jié)、施肥量、降雨量和種植條件的變化而發(fā)生相應(yīng)變化,因此,定標(biāo)方程應(yīng)定期補(bǔ)充新樣品的掃描光譜和化學(xué)分析數(shù)據(jù)進(jìn)行逐步調(diào)整或升級(jí),目的是使定標(biāo)方程不斷適用待測(cè)樣品的變化。如果樣品的驗(yàn)證效果符合要求,則不需要進(jìn)行定標(biāo)調(diào)整,如果驗(yàn)證效果不符合要求,則從實(shí)驗(yàn)室成分分析的準(zhǔn)確性以及定標(biāo)模型的適用性等方面尋找問(wèn)題根源,并進(jìn)行相應(yīng)的再次驗(yàn)證,直到符合定標(biāo)要求,該模型才可以使用[16]。在定標(biāo)的過(guò)程中如遇到超常樣品,應(yīng)對(duì)超常樣品進(jìn)行化學(xué)分析,然后將樣品添加到原定標(biāo)樣品系對(duì)模型進(jìn)行升級(jí),對(duì)模型進(jìn)行升級(jí)將使模型的預(yù)測(cè)性能更穩(wěn)定。
目前,天然樣品近紅外定標(biāo)最常使用的定標(biāo)技術(shù)為改進(jìn)最小二乘法回歸(MPLS),很多廣泛應(yīng)用的商品化軟件中都采用此種建模方式。但當(dāng)選擇的校正集樣本中出現(xiàn)奇異點(diǎn)(即超常樣品),或個(gè)別樣品的性質(zhì)范圍已經(jīng)超出校正集樣本的范圍時(shí),則會(huì)出現(xiàn)較大偏差的可能。隨著技術(shù)的不斷革新,人工神經(jīng)網(wǎng)絡(luò)(ANN)技術(shù)解決了定標(biāo)面臨的吸收非線性問(wèn)題,適用于處理大樣品數(shù)據(jù)庫(kù),至少需要1 000 份樣品,因此其模型適用范圍廣,可以減少或降低定標(biāo)模型的調(diào)整工作,在很多領(lǐng)域的應(yīng)用中已取得了良好效果。如全球通用谷物定標(biāo)開(kāi)發(fā),即使樣品地域或收購(gòu)季節(jié)和品種變化時(shí)仍然獲得較好結(jié)果。但是在光譜模型的構(gòu)建過(guò)程中,必須投入相對(duì)較多的材料和時(shí)間成本,才能得到更加準(zhǔn)確的校正模型。所以,如何實(shí)現(xiàn)技術(shù)優(yōu)化和更有效的模型共享,仍是將近紅外光譜技術(shù)研究及廣泛應(yīng)用的重要課題。