張東方,張 君,范曉飛,談 卓,陳雪平,申書興
(1. 河北農(nóng)業(yè)大學(xué) 省部共建華北作物改良與調(diào)控國家重點實驗室/河北省蔬菜種質(zhì)創(chuàng)新與利用重點實驗室,河北 保定 071000 ;2.河北農(nóng)業(yè)大學(xué) 機電工程學(xué)院, 河北 保定 071000;3. 河北農(nóng)業(yè)大學(xué) 園藝學(xué)院, 河北 保定 071000)
關(guān) 鍵 字:茄子果皮;花青素;光譜;數(shù)據(jù)降維
茄子(S.melongenaL.)屬于茄科茄屬[1],茄子果色是茄子果實的重要商品性狀,表型豐富,可用于育種選擇,純度鑒定等[2-3],茄子果皮含有豐富的花青素[4-5],花青素具有較強的清除人體內(nèi)自由基的功效,可用于制作保健品和化妝品[6-7],花青素含量和葉綠素含量直接決定茄子的果色[8]。傳統(tǒng)測得茄子果皮花青素含量的方法有分光光度計法[9]、高效液相色譜法[10]等,這些方法的測量需要破壞茄子表皮,需要大量人工和試劑,無法即時、大量的測量,因此需要一種準確、快速、無損的新型測定方法[11]。
鑒于光譜分析技術(shù)在農(nóng)產(chǎn)品樣本測定上無破壞性、實時快速、成本低的優(yōu)勢,已有國內(nèi)外學(xué)者對植物各項生理指標與光譜反射率的關(guān)聯(lián)性的研究。Mark 通過葉綠素理化試驗得到蘋果葉綠素含量與光譜數(shù)據(jù)建立葉綠素的回歸模型,闡明了光譜掃描蘋果后,光譜數(shù)據(jù)的處理方法[12]。Julio 等通過高光譜掃描葡萄表皮預(yù)測花青苷含量,先對葡萄進行高光譜掃描,然后對葡萄果皮進行測量,得到花青苷含量,進行果皮花青苷分類,通過花青苷等級分類,對葡萄進行顏色分類,表明光譜可以對果實顏色進行分類[13]。田明璐等通過使用高光譜掃描蘋果葉片花青素含量確定蘋果葉片花葉病病害等級,為使用光譜對植物進行病害檢測提供了理論依據(jù)[14]。劉秀英等使用光譜掃描牡丹葉片,建立牡丹葉片相對花青素含量回歸模型,揭示了光譜數(shù)據(jù)與相對花青素含量之間的關(guān)系[15]。王偉東通過高光譜建立小麥花青素相對含量的不同時期預(yù)測模型,其在小麥開花期的模型擬合度達到0.9128,表明不同時期的作物光譜模型并不相同[16]。劉旭使用高光譜掃描葡萄果皮建立葡萄果皮花色苷含量多元回歸模型,結(jié)果表明使用光譜掃描技術(shù),可以對植物花青素含量進行無損檢測[17]。但是由于茄子果皮花青素獲取困難,理化試驗操作難度較高,所以關(guān)于茄子花青素與光譜數(shù)據(jù)的預(yù)測模型尚未見報道。本研究嘗試利用光譜儀對茄子果皮進行掃描,并將所得光譜數(shù)據(jù)與通過理化分析所測的茄子表皮花青素含量進行統(tǒng)計學(xué)關(guān)聯(lián)分析,從而建立花青素的光譜預(yù)測模型。旨在解決傳統(tǒng)測量茄子果皮花青素費時費工、成本高昂的問題,探求利用光譜分析技術(shù)估測茄子表皮花青素含量的可行性。
試驗材料為河北農(nóng)業(yè)大學(xué)蔬菜育種試驗基地的茄子果實,進行花青素含量測定及光譜數(shù)據(jù)測量。將試材于2019 年7 月1 日播種于穴盤,并進行常規(guī)的育苗操作,待到幼苗長至4 ~6 片真葉左右,于8 月6 日定植于河北農(nóng)業(yè)大學(xué)蔬菜育種試驗基地,之后按常規(guī)方法進行田間管理。所使用的試驗材料樣本如圖1 所示。為了獲得不同果色的茄子樣本,花后5 d 對果實進行套袋處理,以不套袋材料為對照,取套袋11 d 的材料削皮處理。為保障試驗的準確性,使用醫(yī)用級手術(shù)刀進行手工削皮;為保證果皮厚度一致,茄子皮厚度為0.15 0±0.01 mm,削下的果皮不能帶果肉;為防止花青素降解,取下果皮后,立即放置于液氮中臨時保存,整果取完果皮后,使用錫箔紙包住果皮,將錫箔紙放入-80°冰箱保存,之后使用pH 示差法進行花青素含量測定。
圖1 茄子樣品果色Fig. 1 Color of eggplant samples
1.2.1 花青素含量測定 采集光譜信息后的樣本,逐一進行削皮,將果皮均勻混勻后,取0.1 g 樣本浸泡在緩沖液(0.05% HCl 甲醇溶液)中進行低溫浸提12 h,離心,取上清液,分別加入0.4 mol/L KCl溶液(使用HCl 調(diào)節(jié)pH=1.0)和0.4 mol/L 檸檬酸(使用NaH2PO4調(diào)節(jié)pH=4.5),利用分光光度計測出樣品在510、700 nm 波長下的吸光度A。
花青素的總含量(mg/100 g)計算公式:TA=A×Mw× 6 × 100 ×V/s。TA為花青素的總含量,V是最終混合液的體積(mL),A=[A510nm(pH1.0)-A700nm(pH1.0)]-[A510nm(pH4.5)-A700nm(pH4.5)]。s 表示最終混合液摩爾吸收率為26 900,Mw為最終混合液標準分子量449.2。每個樣品重復(fù)測定3 次。
1.2.2 光譜數(shù)據(jù)采集與分析 使用便攜式地物光譜儀(PSR-1100),其光譜范圍為320 ~1 100nm,覆蓋紫外—可見—近紅外,PSR-1100 測量系統(tǒng)由光譜儀和光纖組成,是被動式測量反射率的光譜儀,包含512 線陣探測器,由固定全息光柵作為色散元件,配有25°光纖探頭。為了避免外界的干擾,本設(shè)備安裝在密封空間內(nèi),且在左右兩端與光譜儀呈60°的方向裝鹵素燈(35 W 230 V),如圖2 所示。
圖2 用于茄子果皮花青素含量測定的光譜掃描系統(tǒng)Fig. 2 Spectral scanning system for determination of anthocyanins in eggplant peel
使用地物光譜儀對茄子樣本表皮隨機位置掃描4 次,取掃描結(jié)果的平均值作為該樣本的光譜數(shù)據(jù),包含320 ~1 100 nm 共計781 個波段信息,并對光譜數(shù)據(jù)進行預(yù)處理以及降維分析。本文利用卷積平滑濾波法(Savitzky-Golay, SG)和標準正態(tài)化(SNV)對原始數(shù)據(jù)進行預(yù)處理,卷積平滑濾波法可以在確保信號形狀和寬度不變的情況下濾除噪聲[19],SNV 可以消除表面散射和光程變化對近紅外光譜產(chǎn)生的誤差[20],同時利用主成分分析方法、連續(xù)投影算法對光譜數(shù)據(jù)進行降維處理,以提高模型的準確性和運行速度。
(1)光譜數(shù)據(jù)的預(yù)處理
采用SG 平滑濾波器法對光譜數(shù)據(jù)進行預(yù)處理。SG 平滑法是一種基于多項式和的移動窗口,在時域內(nèi)利用偏最小二乘法實現(xiàn)最佳擬合的方法[21]。SG平滑既能提高信號的信噪比,又可較好的保持光譜中的有用信息。SNV 標準正態(tài)化方法主要用來消除固體顆粒的大小、表面散射以及光程變化對近紅外漫反射光譜的影響,其按如下公式進行計算:
采集原始光譜數(shù)據(jù)后,利用SG 平滑濾波對原始光譜數(shù)據(jù)進行了預(yù)處理,該方法保證了原始光譜信號的形狀同時濾除了噪聲,使得光譜曲線更為光滑。使用SNV 標準正態(tài)化預(yù)處理光譜圖像,該方法消除了表面散射的影響,該方法可以對樣本間具有較大差異的光譜進行校正。對原始光譜通過SG 平滑濾波、SNV 標準正態(tài)變化進行預(yù)處理,這2 種方法的疊加既可以濾除噪聲又可以對光譜進行校正且消除散射的影響。
(2)降維分析
利用主成分分析和連續(xù)投影算法進行降維分析。利用這兩種降維分析方法可以用最少的變量代替數(shù)量眾多的原始變量。連續(xù)投影算法(SPA)是一種使矢量空間共線性最小化的前向變量選擇算法。其原理就是依據(jù)波長的長度進行變量篩選[22],即將波段信息通過數(shù)學(xué)變換在其他波長信息上進行投影,篩選出投影最大的波段信息作為特征波段選取下來。
對于預(yù)處理完的光譜數(shù)據(jù)進行降維處理,使用主成分分析和連續(xù)投影算法處理光譜數(shù)據(jù),提取其中特征波段,可以使用少量的光譜數(shù)據(jù)代替預(yù)處理后的781 個變量,從而達到數(shù)據(jù)降維的目的。
(3)預(yù)測模型的建立
采取多元線性回歸建立茄子花青素的預(yù)測模型。多元線性回歸主要研究一個因變量與多個自變量之間的相關(guān)關(guān)系[23],以茄子的花青素含量作為自變量,由于樣本量的限制,選取經(jīng)過降維分析的變量作為自變量,即代表綜合標量的主成分PCi或者特征波段變量Xi。最終的預(yù)測模型由R2和RMSE 對其進行評判。
使用PH 示差法測得茄子果皮花青素含量數(shù)據(jù)如表1 所示,套袋處理后的茄子表面顏色變淺,花青素含量較低。
表1 茄子表皮花青素含量Table 1 Contents of anthocyanins in eggplant epidermis
本試驗采用SG 卷積平滑、SNV 標準正態(tài)化、SG 卷積平滑加SNV 標準正態(tài)化3 種預(yù)處理方式,數(shù)據(jù)分析在Unscrambler X 和SPSS 中完成,原始光譜數(shù)據(jù)以及各種預(yù)處理后的光譜圖像如圖3 所示。
由圖3a 可以看出原始光譜數(shù)據(jù),對于套袋茄子其果皮顏色較淺,在紫、藍、綠波段反射率較強,不套袋茄子顏色越深,其反射率越?。辉诮t外波段出現(xiàn)明顯的波峰,在970 nm 左右波段,出現(xiàn)波谷,可能是因為970 nm 附近是O-H 倍頻吸收帶,果皮上含有水分,故導(dǎo)致在此波段出現(xiàn)波峰,圖3b 是通過SG 平滑濾波處理后的圖像,由于原始數(shù)據(jù)噪聲較少,故使用SG 平滑濾波后,圖像差異很小;SNV 歸一化處理可以將樣本間較大的差異進行校正,使得套袋茄子和不套袋茄子在反射率上差異變小,消除光譜中的散射現(xiàn)象,由于原始數(shù)據(jù)攜帶噪聲較少,所以使用SNV 歸一化處理后的數(shù)據(jù)噪聲也較小,故圖3d 中使用SG 平滑濾波后,與圖3c差異很小。
圖3 (a)原始光譜數(shù)據(jù);(b)使用SG 平滑濾波對原始光譜數(shù)據(jù)預(yù)處理得到的圖像;(c)使用SNV 標準正態(tài)化預(yù)處理光譜圖像;(d)原始光譜經(jīng)SG 平滑濾波后又經(jīng)SNV 標準正態(tài)變化的光譜預(yù)處理圖像Fig. 3 (a )Original spectral data; (b) Image preprocessed by SG smoothing filter;(c)Image preprocessed by SNV normalization; (d) Image preprocessed by SG smoothing filter and SNV normalization
2.3.1 主成分分析 利用主成分分析法,將781 個變量用占有原始變量不足1%的綜合變量代替,降低了模型的復(fù)雜度,提高了模型的適用性和魯棒性。利用SG 平滑濾波預(yù)處理后的數(shù)據(jù)提取得到4 個主成分,利用SNV 標準正態(tài)化預(yù)處理后的數(shù)據(jù)提取得到5 個主成分,利用SG 平滑濾波結(jié)合SNV 標準正態(tài)化預(yù)處理后的數(shù)據(jù)提取得到了5 個主成分,利用主成分分析將因變量的個數(shù)均降到不足原始變量1%的維度,但可代表原始變量99%以上的信息。其中3 種方法所提取主成分的累計貢獻率如表2 所示:
表2 不同方法提取主成分累計貢獻率Table 2 Cumulative contribution rate of main components extracted by different methods
2.3.2 連續(xù)投影算法 基于SG 平滑濾波預(yù)處理后的數(shù)據(jù)選取了320、370、538、677、706、824、949、1 094 nm 8 個特征波段,基于SNV 預(yù)處理后光譜數(shù)據(jù)選取了321、461、478、756、797、849、937、1 100 nm 8 個特征波段,基于SG 平滑濾波與標準正態(tài)變量變化后的預(yù)處理數(shù)據(jù)利用連續(xù)投影算法選取了321、467、678、756、803、841、916、1 045 nm 8 個特征波段。
圖4 (a)SG 平滑預(yù)處理后提取的特征波長;(b)SNV 預(yù)處理后提取的特征波長;(c) SG+SNV 預(yù)處理后提取的特征波長Fig.4 (a) Feature wavelength extracted after SG smoothing pretreatment; (b) Feature wavelength extracted after SNV pretreatment; (c) Feature wavelength extracted after SG +SNV pretreatment
本研究利用多元線性回歸建模方法建立了茄子花青素的預(yù)測模型,分別建立了基于SG 平滑預(yù)處理、SNV 標準正態(tài)變化預(yù)處理以及同時采用2 種預(yù)處理后與主成分分析、連續(xù)投影算法結(jié)合的預(yù)測模型,共計6 種。表3 中列出基于主成分、特征波段建立模型的參數(shù),采用可決系數(shù)(R2)、標準誤差(RMES),對比分析與評價所建預(yù)測模型的優(yōu)劣,對于所建立預(yù)測模型做出選擇。
表3 花青素與光譜數(shù)據(jù)不同預(yù)處理建模Table 3 Modeling of different pretreatment of anthocyanins and spectral data
最終選取基于SG 平滑濾波與SNV 標準正態(tài)變化預(yù)處理方法結(jié)合特征波段建立的模型,此模型的R2=0.999,RMSE=0.001,該模型的方程為:
Y=2 0.1 6 8+7.0 4 9×X321+3 5.1 0 9×X467+6.3 8 4×X678-4 8.5 2 2×X756+2 4 2.7 4 8×X803-269.924×X841+104.524×X916-6.771×X1045
基于SG 平滑濾波結(jié)合SNV 預(yù)處理后建立的模型擬合圖如圖5 所示。
圖5 花青素估測值與實際值線性關(guān)系Fig. 5 Linear relationship between estimated and actual values of anthocyanins
本研究使用光譜技術(shù)對茄子花青素含量進行預(yù)測,通過理化試驗建立花青素與光譜數(shù)據(jù)的數(shù)學(xué)模型,為今后實現(xiàn)無損測量茄子果皮花青素提供參考,采用光譜掃描茄子果皮和適當?shù)闹鞒煞趾Y選與建模技術(shù),可以較為準確地測定茄子果皮花青素含量,可以為茄子果皮花青素含量實時監(jiān)測提供依據(jù)和技術(shù)支持。
本研究利用主成分分析方法和連續(xù)投影算法對原始數(shù)據(jù)進行降維處理,以4 個主成分代替了原始781 個變量,僅以原始變量0.5%的比例代替了原始變量,極大的降低了模型的復(fù)雜度。最終發(fā)現(xiàn)基于8 個特征波段的預(yù)測模型具有最優(yōu)效果,經(jīng)過主成分分析的模型不具有最好的效果,是由于經(jīng)過主成分分析提取的主成分會損失信息,8 個特征波段僅為原始變量的1%。連續(xù)投影算法提取的6 個特征波長可以消除原始光譜矩陣中冗余信息,提取的變量能夠代替原始變量的大量信息,且該方法結(jié)合自變量提取得到的特征波長具有代表性,模型的預(yù)測性能優(yōu)。先利用SG 平滑預(yù)處理方法后SNV 正態(tài)標準變化預(yù)處理結(jié)合連續(xù)投影算法模型擬合程度最高,R2可達到0.999,而RMSE 低至0.001,確定了用光譜法測定花青素含量的最佳估測模型。
由于本試驗茄子樣本數(shù)量較少,導(dǎo)致沒有進行模型的檢驗;光譜數(shù)據(jù)較多,茄子樣本較少,本模型存在一定程度的過擬合,同時本試驗只使用了一種茄子突變體材料且只在一個地區(qū)進行試驗,因此,在不同品種和不同地區(qū)是否適用還需要進一步的驗證。
基于光譜技術(shù)分析茄子果實花青素含量,采用光譜儀掃描茄子果實,通過實際花青素含量與掃描所得的茄子果皮光譜反射值進行模型建立,結(jié)果驗證通過光譜技術(shù)獲取茄子果皮花青素具有可行性,未來使用光譜檢測方法可以大大的減少測量茄子果皮花青素所需要的時間和人力,為測量茄子果皮花青素提供極大地幫助。