黃俊仕 ,王冬欣,熊愛(ài)華,劉 鵬,3,李 紅,艾施榮,吳瑞梅,文建萍*
(1.江西農(nóng)業(yè)大學(xué)工學(xué)院,江西南昌 330045;2.婺源縣鄣公山茶葉實(shí)業(yè)有限公司,江西婺源 333200;3.江西機(jī)電職業(yè)技術(shù)學(xué)院,江西南昌 330013)
【研究意義】茶葉最早生產(chǎn)于我國(guó),由于其良好的滋味口感和有益的藥用價(jià)值,深受消費(fèi)者喜愛(ài),已經(jīng)成為世界三大飲料之一。隨著茶文化的推廣以及“一帶一路”等貿(mào)易政策的提出,我國(guó)茶葉生產(chǎn)和消費(fèi)總量不斷增長(zhǎng),2018年國(guó)內(nèi)茶葉消費(fèi)總量達(dá)到200萬(wàn)噸,消費(fèi)總額達(dá)到2 400億元。近年來(lái),茶葉行業(yè)不斷增加與茶葉內(nèi)部有益成分相關(guān)的質(zhì)量控制措施,以提高其市場(chǎng)價(jià)值[1]。茶多酚(tea polyphenols,TP)、氨基酸(amino acid,AA)等茶葉內(nèi)部成分直接影響著茶葉滋味品質(zhì)。茶多酚含量決定了茶葉滋味的醇厚,兒茶素是茶葉中最豐富的多酚類物質(zhì),在綠茶中含量很高,有一種獨(dú)特的澀味,適合大多消費(fèi)者的口味[2]。氨基酸含量影響著茶葉鮮爽味,可以起到緩解澀味,增加甜味的作用[3?4]。澀味與鮮爽味的協(xié)調(diào)是茶葉滋味的關(guān)鍵,即茶葉中茶多酚與氨基酸含量比例(酚氨比)是決定茶葉滋味品質(zhì)的重要指標(biāo)。王海利等[3]研究表明酚氨比相對(duì)于氨基酸和茶多酚含量單一指標(biāo),能更好地反應(yīng)茶葉滋味,且酚氨比與茶滋味鮮度、醇度和滋味化學(xué)總分均存在極顯著負(fù)相關(guān)性。對(duì)于茶葉品質(zhì)內(nèi)部成分的檢測(cè),常采用液態(tài)色譜?串聯(lián)質(zhì)譜法[5],分光光度法[6],高光譜成像技術(shù)[7]等理化方法進(jìn)行分析,而這些方法存在成本高,耗時(shí)耗力,前處理復(fù)雜等缺陷,難以適應(yīng)現(xiàn)場(chǎng)快速檢測(cè)需要。近紅外光譜(near infrared spectroscopy,NIR)是一種介于可見(jiàn)光和中紅外之間的電磁輻射,主要反映有機(jī)物中C?H,N?H,O?H等含氫基團(tuán)振動(dòng)的合頻、倍頻吸收光譜信息,由于該技術(shù)具有成本低、效率高、響應(yīng)速度快、綠色無(wú)損等優(yōu)勢(shì),被廣泛應(yīng)用于茶葉品質(zhì)檢測(cè)[8?10]。近紅外光譜數(shù)據(jù)量大,不僅包含分析物相關(guān)的有用信息,也存在大量的冗余信息。當(dāng)所有光譜波長(zhǎng)信息均被用于模型建立時(shí),將導(dǎo)致模型計(jì)算量大以及過(guò)擬合等問(wèn)題降低模型預(yù)測(cè)性能,研究者們將這種現(xiàn)象稱之為“維度災(zāi)難”。
【前人研究進(jìn)展】針對(duì)這一問(wèn)題,許多研究者利用變量選擇方法提取有效光譜特征波長(zhǎng),用于預(yù)測(cè)模型的建立,不僅可以提高模型的預(yù)測(cè)性能,還能提供更佳的解釋性模型。Chen等[11]利用主成分分析方法提取近紅外光譜低維特征,并結(jié)合反向傳播自適應(yīng)提升算法建立8種茶葉滋味相關(guān)的內(nèi)部成分預(yù)測(cè)模型,模型預(yù)測(cè)集相關(guān)系數(shù)大于0.7。Yang等[12]采用聯(lián)合區(qū)間最小二乘(synergy interval partial least square,Si?PLS)方法優(yōu)選近紅外光譜變量區(qū)間,建立水泥原料主要成分(CaO、SiO2、Al2O3和Fe2O3)檢測(cè)模型,預(yù)測(cè)集相關(guān)系數(shù)達(dá)到0.729 4~0.930 4,平均預(yù)測(cè)誤差為0.03%~0.13%。然而,即使選擇小區(qū)間變量,一些共線性的相關(guān)變量依舊存在,且在實(shí)際建模中變量數(shù)仍然很多。因此,Dong等[13]采用自適應(yīng)權(quán)重加權(quán)算法對(duì)Si?PLS優(yōu)選的近紅外光譜區(qū)間變量再次進(jìn)行特征選擇,利用極限學(xué)習(xí)機(jī)結(jié)合自適應(yīng)提升算法建立工夫紅茶發(fā)酵過(guò)程中茶黃素與茶紅霉素比值快速檢測(cè)模型,模型預(yù)測(cè)集決定系數(shù)為0.893,預(yù)測(cè)均方根誤差為0.004 4。【本研究切入點(diǎn)】面對(duì)光譜數(shù)據(jù)中的大量特征變量,需考慮變量選擇過(guò)程計(jì)算速度和精度,混合特征篩選方法越來(lái)越多的被研究者所關(guān)注。【擬解決的關(guān)鍵問(wèn)題】本文采用變量組成集群分析?迭代保留信息變量混合特征提取方法對(duì)茶葉浸出物近紅外光譜波長(zhǎng)變量進(jìn)行優(yōu)選,利用篩選出的特征波長(zhǎng)建立隨機(jī)森林(randomforest,RF)茶葉滋味品質(zhì)指標(biāo)酚氨比預(yù)測(cè)模型,并與線性偏最小二乘(partial least squares,PLS)模型進(jìn)行比較。
選取來(lái)自不同省份的93個(gè)不同等級(jí)市售茶葉樣本,所收集的樣本均經(jīng)過(guò)正常的處理和儲(chǔ)存,以確保在處理過(guò)程中不會(huì)出現(xiàn)明顯的變質(zhì)。首先,每個(gè)樣本稱取3 g干茶加入150 mL沸騰蒸餾水中,蓋上杯蓋浸泡5 min。用濾紙過(guò)濾后,待冷卻至25 ℃左右進(jìn)行后續(xù)測(cè)定分析。
每個(gè)樣品取10 mL上層浸出液,滴入25 mL的容量瓶中,用蒸餾水稀釋刻度線。采用福林酚試劑比色法,依據(jù)GB/T 8313-2008《茶葉中茶多酚和兒茶素類含量的檢測(cè)方法》國(guó)家標(biāo)準(zhǔn)進(jìn)行茶多酚測(cè)定;采用茚三酮分光光度法,依據(jù)GB/T 8314-2013《茶游離氨基酸總量的測(cè)定》國(guó)家標(biāo)準(zhǔn)進(jìn)行氨基酸測(cè)定。酚氨比由茶多酚總量除以氨基酸總量得來(lái)。圖1所示為茶葉樣本酚氨比統(tǒng)計(jì)圖,所有樣本酚氨比呈正態(tài)分布。
圖1 茶葉樣本酚氨比統(tǒng)計(jì)Fig.1 Statistical diagram of ratio of TP to AA for tea samples
Antaris II型近紅外光譜儀(美國(guó)Thermo Fisher公司)用于檢測(cè)茶葉浸出液,并利用InGaAs檢測(cè)器光譜數(shù)據(jù)采集。光譜掃描范圍為10 000~4 000 cm?1,分辨率為3.856 cm?1,掃描次數(shù)為32,每個(gè)樣本具有1 557個(gè)光譜數(shù)據(jù)。吸光度數(shù)據(jù)以log(1/R)的形式存儲(chǔ),R表示透射率。每個(gè)樣本被測(cè)定3次,以3個(gè)光譜的平均值作為該樣本最終光譜數(shù)據(jù)。由于茶葉浸出液中可能存在氣泡等因素,導(dǎo)致光散射[14],原始光譜中除分析物自身信息外,還包含一些噪音信息。標(biāo)準(zhǔn)正態(tài)變量變換(standard normalvariate transformation,SNV)能夠有效消除散射引起的噪音,提高光譜信噪比。因此,在預(yù)測(cè)模型建立之前選擇SNV方法對(duì)茶湯近紅外光譜進(jìn)行預(yù)處理,圖2所示為經(jīng)預(yù)處理后所有樣本光譜圖。
1.4.1 變量組成集群分析 變量組成集群分析(vari-able combination population analysis,VCPA)[15]是一種基于達(dá)爾文“適者生存”進(jìn)化論的變量選擇方法。該方法主要運(yùn)用指數(shù)衰減函數(shù)(exponentially decreasing function,EDF),二進(jìn)制矩陣采樣法(binary matrix sampling,BMS)和模型集群分析(model population analysis,MPA)從變量空間中選取最優(yōu)變量子集。首先,采用EDF確定每次迭代剩余變量數(shù),BMS根據(jù)剩余變量數(shù)從變量空間進(jìn)行采用組成若干變量子集。然后,利用各變量子集分別建立偏最小二乘子模型,采用MPA方法從前10%的最優(yōu)子模型中保留出現(xiàn)頻數(shù)最多的變量。在保留的變量空間上再次重復(fù)以上操作,迭代N次,最終篩選出最優(yōu)的變量子集[16]。
圖2 SNV預(yù)處理后的茶湯光譜Fig.2 NIR spectra of tea infusion by SNV preprocessing
1.4.2 迭代保留信息變量 迭代保留信息變量(iteratively retains informative variables,IRIV)[17]把變量分為4類:降低模型性能明顯的干擾信息變量,降低模型性能不明顯的無(wú)信息變量,提高模型性能不明顯的弱信息變量和提高模型性能明顯的強(qiáng)信息變量。IRIV可以有效地提出干擾信息變量和無(wú)信息變量,并保留弱信息變量和強(qiáng)信息變量[18]。IRIV采用BMS從變量空間進(jìn)行隨機(jī)采用,對(duì)于每個(gè)變量,IRIV觀察其在所有變量組合中的包含與排除是交叉驗(yàn)證均方根誤差(root mean square error of crossvalidation,RM-SECV)的差異,而其他變量的狀態(tài)(包含或排除)保持不變。每個(gè)變量的重要性是根據(jù)RMSECV的差異來(lái)評(píng)估的。如果當(dāng)RMSECV被排除在變量組合之外時(shí),RMSECV會(huì)增加,這表明該變量是有用的和信息豐富的。不斷重復(fù)排除策略,直到變量子集中不包含干擾信息變量和無(wú)關(guān)信息變量。
1.4.3 混合特征提取方法 VCPA采用EDF方法快速剔除變量,最終篩選出的變量數(shù)通常較少,一些信息變量可能會(huì)被剔除;而IRIV方法充分考慮到每個(gè)變量的重要性,因此需要大量的計(jì)算時(shí)間,當(dāng)面對(duì)大量的變量時(shí),會(huì)耗費(fèi)大量的時(shí)間,導(dǎo)致計(jì)算效率低下。VCPA?IRIV混合方法能夠充分發(fā)揮兩種方法各自優(yōu)勢(shì)、彌補(bǔ)不足。首先采用VCPA進(jìn)行快速縮小變量空間,設(shè)置最終剩余變量數(shù)為N;然后再通過(guò)IRIV評(píng)估剩余變量空間中每個(gè)變量的重要性,以優(yōu)選出最佳變量子集。
采用線性PLS和非線性隨機(jī)森林[19]建立茶葉滋味品質(zhì)成分檢測(cè)模型,采用相關(guān)系數(shù)(R)評(píng)價(jià)模型預(yù)測(cè)值與實(shí)驗(yàn)值之間的相關(guān)程度,其值范圍為0~1,且越接近1越好;以訓(xùn)練集均方根誤差(root mean square error of calibration,RMSEC)評(píng)價(jià)模型訓(xùn)練誤差,預(yù)測(cè)集均方根誤差(root mean square error of predic-tion,RMSEP)評(píng)價(jià)模型預(yù)測(cè)誤差,其值越小越好;以預(yù)測(cè)集相對(duì)分析誤差(relative percent deviation,RPD)評(píng)價(jià)模型性能可靠程度。如果RPD大于3.0,說(shuō)明模型性能可靠,預(yù)測(cè)精度好,可用于實(shí)際檢測(cè);RPD在2.5~3.0,說(shuō)明模型可靠性有待提高,只能用于實(shí)際估測(cè);RPD在2.0~2.5,模型可以近似定量預(yù)測(cè);RPD值小于2.0,方法預(yù)測(cè)不可靠。
采用Kennard?Stone(KS)方法將93個(gè)樣本劃分為訓(xùn)練集和測(cè)試集,60個(gè)樣本作為訓(xùn)練集用于訓(xùn)練模型,其余33個(gè)樣本為預(yù)測(cè)集預(yù)測(cè)模型性能。利用VCPA?IRIV在訓(xùn)練樣本集上進(jìn)行特征提取,VCPA?IRIV方法超參數(shù)EDF剩余變量數(shù)設(shè)置為100,迭代次數(shù)為50,最優(yōu)子模型的比例為10%,BMS運(yùn)行次數(shù)為1 000,并采用5折交叉驗(yàn)證進(jìn)行變量重要性評(píng)價(jià)。通過(guò)VCPA?IRIV方法最終優(yōu)選出18個(gè)光譜特征,圖3所示為特征變量選擇結(jié)果,圖中“★”所標(biāo)記光譜特征為算法優(yōu)選的變量子集。從光譜圖(圖1)可知光譜在5 155 cm?1和6 900~7 140 cm?1處分別存在與H2O的O?H第一泛音和H2O中O?H基團(tuán)的拉伸變形結(jié)合有關(guān)的強(qiáng)吸收帶。如果用這些強(qiáng)吸收光譜變量來(lái)建立校正模型,會(huì)影響模型的性能。然而,VCPA?IRIV方法所選的特征變量很好地避開(kāi)了與H2O強(qiáng)相關(guān)的光譜特征信息,表明該方法所提取特征的有效性。
表1所示為采用VCPA?IRIV算法選擇的18個(gè)光譜特征及其對(duì)應(yīng)的鍵,其中9 889.177,9 862.179 cm?1為茶多酚與氨基酸上N?H的二級(jí)倍頻吸收峰,8 759.096,8 782.237,8 882.518,8 535.394 cm?1為茶多酚與氨基酸C?H的二級(jí)倍頻吸收峰,5 904.965,5 951.248,6 032.244,6 124.81,6 225.09,6 255.946,6 263.66 cm?1為C?H和S?H的一級(jí)倍頻吸收峰[20],表明VCPA?IRIV方法提取的光譜特征信息可用于茶葉滋味品質(zhì)指標(biāo)酚氨比的有效預(yù)測(cè)。
圖3 利用VCPA?IRIV選擇特征變量結(jié)果Fig.3 The result of features selected by VCPA?IRIValgorithm
表1 采用VCPA-IRIV算法選擇光譜特征及其對(duì)應(yīng)的鍵Tab.1 Selected spectra intervals by VCPA-IRIV algorithm and their corresponding bonds
采用VCPA?IRIV方法提取的特征變量,建立隨機(jī)森林綠茶滋味品質(zhì)指標(biāo)酚氨比預(yù)測(cè)模型。設(shè)置RF算法的超參數(shù)回歸數(shù)棵數(shù)(ntree)為1 000,節(jié)點(diǎn)分裂候選變量數(shù)(mtry)為所有變量數(shù)的1/3,即為6。圖4所示為訓(xùn)練集和測(cè)試集中各樣本的實(shí)驗(yàn)值與RF模型預(yù)測(cè)值對(duì)比圖。由圖4可知,RF模型訓(xùn)練集的Rc和RMSEC為別為0.949,0.231;測(cè)試集的Rp和RMSEP分別為0.943和0.232,表明模型具有較好的泛化性能。測(cè)試集的RPD為3.019,說(shuō)明模型性能可靠,預(yù)測(cè)精度好,可用于實(shí)際檢測(cè)。
圖4 訓(xùn)練集(a)和測(cè)試集(b)中樣本實(shí)驗(yàn)值與預(yù)測(cè)值對(duì)比圖Fig.4 Comparison of experimental and predicted values of samples in calibration set(a)and prediction set(b)
為了進(jìn)一步表現(xiàn)VCPA?IRIV方法提取光譜特征的有效性,采用競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法[21](com-petitive adaptive reweighted sampling,CARS)和連續(xù)投影算法[22](successive projections algorithm,SPA)進(jìn)行光譜特征選擇比較。表2所示為基于VCPA?IRIV、CARS和SPA提取的特征所建立的PLS與RF預(yù)測(cè)模型性能比較結(jié)果。結(jié)果表明,CARS和SPA提取的光譜變量中均集中H2O的強(qiáng)吸收帶(5 155 cm?1和6 900~7 140 cm?1)附近,以這些變量作為輸入所建預(yù)測(cè)模型的預(yù)測(cè)效果均較差。VCPA?IRIV提取的光譜變量所建的預(yù)測(cè)模型中,線性PLS預(yù)測(cè)模型主成分為10時(shí),模型性能最佳,訓(xùn)練集的Rc和RMSEC為別為0.920,0.256;測(cè)試集的Rp和RMSEP分別為0.907和0.307;測(cè)試集的RPD為2.281;表明非線性的RF模型在魯棒性和泛化性能上均優(yōu)于線性的PLS模型。
表2 VCPA-IRIV、CARS和SPA提取的特征所建不同預(yù)測(cè)模型性能比較Tab.2 Comparison of results based on different models based on VCPA-IRIV,CARS and SPA
本研究利用近紅外光譜技術(shù)結(jié)合化學(xué)計(jì)量學(xué)方法實(shí)現(xiàn)綠茶滋味品質(zhì)指標(biāo)酚氨比值的快速檢測(cè)方法。綠茶浸出物近紅外光譜信息中,H2O的強(qiáng)干擾信息及其他冗余信息的引入將嚴(yán)重影響綠茶滋味品質(zhì)指標(biāo)酚氨比的檢測(cè)模型性能。利用VCPA?IRIV、CARS和SPA 3種不同特征提取方法對(duì)近紅外光譜變量進(jìn)行優(yōu)選,CARS和SPA提取的光譜變量中均集中H20的強(qiáng)吸收帶附近,而VCPA?IRIV方法提取的18個(gè)特征光譜變量大多與茶多酚和氨基酸相關(guān),很好地避開(kāi)了H20的強(qiáng)吸收帶。
此外,近紅外光譜根據(jù)當(dāng)樣品被輻射時(shí)復(fù)雜有機(jī)物中不同的化學(xué)鍵吸收或發(fā)射不同波長(zhǎng)光的原理對(duì)分析物進(jìn)行檢測(cè),由于有機(jī)物的分子有各種各樣的振動(dòng)和化學(xué)鍵,它們的光譜響應(yīng)通常并非簡(jiǎn)單的線性耦合在一起,分析物濃度和光譜數(shù)據(jù)常常呈現(xiàn)非線性關(guān)系[23]。利用非線性RF所建綠茶滋味品質(zhì)指標(biāo)酚氨比值快速檢測(cè)模型性能明顯優(yōu)于線性PLS模型。VCPA?IRIV優(yōu)選的18個(gè)特征變量作為輸入建立的非線性RF模型性能最佳,訓(xùn)練集Rc和RMSEC為別為0.949,0.231;測(cè)試集的Rp、RMSEP和RPD分別為0.943、0.232和3.019。研究表明VCPA?IRIV方法能夠有效的提出有效光譜變量,消除冗余光譜信息;為利用近紅外光譜技術(shù)對(duì)綠茶滋味品質(zhì)指標(biāo)酚氨比值快速檢測(cè)方法提供了新的研究思路,且有助于光譜技術(shù)在農(nóng)產(chǎn)品品質(zhì)與安全上的推廣運(yùn)用。