耿瑩蕊,沈歡超,2,何倪文鴻苗飛,,陳王 勇輝,,劉吳雪繼松忠*,張立立,李永生,
(1.浙江大學(xué) 藥學(xué)院,浙江 杭州 310058;2.浙江大學(xué) 智能創(chuàng)新藥物研究院,浙江 杭州 310018;3.浙江中煙工業(yè)有限責(zé)任公司技術(shù)中心,浙江 杭州 310008)
在過去幾十年,近紅外光譜(NIRS)技術(shù)因具有快速高效、無損、低成本的優(yōu)勢,已成功應(yīng)用于各個領(lǐng)域[1-2]。煙草作為一種復(fù)雜的天然產(chǎn)物,利用其近紅外光譜信息結(jié)合化學(xué)計量學(xué)方法可實現(xiàn)煙葉定量分析、品質(zhì)分類、質(zhì)量控制等,具有重要的應(yīng)用價值[3-5]。
建立一個穩(wěn)健準(zhǔn)確且能在實際生產(chǎn)中應(yīng)用的校正模型是NIRS技術(shù)的關(guān)鍵,目前常用的模型校正方法有偏最小二乘回歸(PLSR)[6]、最小二乘支持向量機(LS-SVM)[7]、人工神經(jīng)網(wǎng)絡(luò)(ANN)[8]等,通過這些方法建立校正模型,可實現(xiàn)未知樣品目標(biāo)成分的定量分析。但檢測條件、儀器狀態(tài)以及煙葉培育環(huán)境的變化均會造成光譜特性與質(zhì)量屬性的差異[9-10],這些新變化可導(dǎo)致原有模型預(yù)測能力下降。
為維持原始模型在新樣本中的良好預(yù)測性能,目前已開發(fā)了較多的模型轉(zhuǎn)移算法[11-12]。傳統(tǒng)的模型轉(zhuǎn)移方法側(cè)重于對數(shù)據(jù)的調(diào)整和修正,如分段直接標(biāo)準(zhǔn)化(PDS)[13]、斜率/截距修正算法[14]等,此類方法對不同儀器間的模型轉(zhuǎn)移效果顯著,但其標(biāo)準(zhǔn)樣品的選擇和獲取在實際應(yīng)用中存在一定難度,因此有標(biāo)樣的模型轉(zhuǎn)移算法應(yīng)用存在局限性。模型轉(zhuǎn)移的第二種途徑是模型更新[15],即添加新樣本進(jìn)行校正,優(yōu)化現(xiàn)有的模型[16],該方法往往需要挑選具有代表性的樣本,考慮新樣本權(quán)重以優(yōu)化模型[17-18]。此外,還有一些算法可通過消除外部影響因素達(dá)到模型更新的目的,但這類方法涉及大量參數(shù)的調(diào)整和優(yōu)化[19-21],對日常使用而言復(fù)雜耗時。
為解決上述方法的不足,有學(xué)者提出一種無參數(shù)校正增強框架(PFCE)算法[22],其通過對回歸系數(shù)進(jìn)行相關(guān)性約束,從而增強原始模型對新樣本的預(yù)測能力[23]。該方法不僅減少了對標(biāo)準(zhǔn)樣品的需求,還省去模型更新需要多參數(shù)優(yōu)化的步驟,大大提高了模型的更新效率。本文旨在通過PFCE 模型更新策略消除采收時間對煙葉總糖含量預(yù)測結(jié)果的影響,以期維持主模型在不同年份煙葉樣本中定量分析的性能。
本研究使用的煙葉樣本分別采收于2016 年、2017 年、2018 年以及2020 年,均由浙江中煙工業(yè)有限責(zé)任公司提供。煙葉樣本在相同測試條件下采用Antaris II FT-NIR(Thermo Fisher Scientific)分析儀進(jìn)行光譜測量,光譜的采集范圍為10 000 ~3 800 cm-1,分辨率為8 cm-1,每個光譜包含1 609個變量。本研究選擇煙葉中總糖含量建立定量分析模型,樣品的參考值由浙江中煙技術(shù)中心依照煙草標(biāo)準(zhǔn)YC/T159—2002測定[24]。
采用2016年煙葉樣本建立總糖含量預(yù)測的PLSR主模型,以2017年、2018年和2020年樣品的光譜用于校正和更新主模型。主模型樣本使用基于x-y距離樣本集劃分(SPXY)算法劃分為校正集(70%)和測試集(30%),用于更新主模型的樣本劃分為模型更新集(30%)和測試集(70%)。在研究中,采用半監(jiān)督無參數(shù)校正增強(SS-PFCE)方法對主模型進(jìn)行更新,另外比較了2017、2018 及2020 年樣本重新建模的效果。對于所有定量模型,使用校正相關(guān)系數(shù)(Rc)、預(yù)測相關(guān)系數(shù)(Rp)、校正均方根誤差(RMSEC)、預(yù)測均方根誤差(RMSEP)和殘差預(yù)測偏差(RPD)對其性能進(jìn)行評價[25]。
所有算法和畫圖操作均使用MATLAB R2018 b軟件完成。
1.3.1 偏最小二乘回歸(PLSR) PLSR是一種經(jīng)典的定量建模方法,它將m個樣本在n個變量處的光譜X與m個樣本的相關(guān)參考值Y投影到新空間中構(gòu)建線性回歸模型。在本文中,采用留一交叉驗證方法確定PLS模型中的最佳潛在變量(Latent variables,LV)數(shù)[26]。
1.3.2 半監(jiān)督無參數(shù)校正增強(SS-PFCE) 用于光譜校正增強的無參數(shù)框架(PFCE)是Zhang 等[22]最新提出的模型維護(hù)方法,其根據(jù)模型傳遞中標(biāo)準(zhǔn)品的有無分為非監(jiān)督PFCE(NS-PFCE)、半監(jiān)督PFCE(SS-PFCE)和全監(jiān)督PFCE(FS-PFCE)。其中SS-PFCE 方法僅需新樣品的部分光譜和屬性參考值對模型進(jìn)行校正更新,無需額外挑選標(biāo)準(zhǔn)品,SS-PFCE的目標(biāo)函數(shù)采用公式(1)進(jìn)行計算。
公式(1)中,Xnew代表新批次樣本中被選為更新集的光譜,ynew表示參考值,b0,new和bnew分別表示更新模型的截距和回歸系數(shù);公式(2)中,bm代表主模型的回歸系數(shù),為約束新舊模型回歸系數(shù)的閾值,保證更新模型獲得適當(dāng)?shù)幕貧w系數(shù)和截距,已有研究均將閾值設(shè)定為0.98[22]。
使用SS-PFCE方法實現(xiàn)不同年份煙葉模型的更新可概括為以下3個步驟:
(1)選擇某一年份樣本的光譜,構(gòu)建PLSR主模型,從中獲得主模型回歸系數(shù)bm。
(2)使用新年份樣本的部分光譜和參考值對主模型進(jìn)行維護(hù)和校正,從主模型回歸系數(shù)bm中得到新模型的bnew。
(3)用新樣本測試集的光譜驗證更新后的模型,以RMSEP和Rp對模型更新效果進(jìn)行評估。
不同年份煙葉樣本的近紅外平均光譜如圖1所示。不同年份煙葉樣本具有相似的吸收峰趨勢,但吸收強度存在差異,說明煙葉的光譜信息很大程度上受采收年份的影響。
表1 數(shù)據(jù)表明,不同年份煙葉中總糖含量差異較大,除2020 年外,2017 年和2018 年煙葉樣本的總糖含量均超出2016 年總糖含量的覆蓋范圍。結(jié)合圖1 可知,不同采收年份造成樣本的化學(xué)信息和光譜特征產(chǎn)生差異,這些差異可能嚴(yán)重影響主模型預(yù)測新樣本的準(zhǔn)確性,因此需進(jìn)行模型維護(hù)以提高主模型的穩(wěn)健性。
表1 不同年份煙葉樣本匯總Table 1 Summary of tobacco samples in different years
圖1 不同年份煙葉樣本的近紅外平均光譜圖Fig.1 The average raw NIR spectra of tobacco samples in different years
采用SPXY 方法將2016 年193 個煙葉樣本按照7∶3 的比例劃分為校正集和測試集,劃分結(jié)果及總糖含量匯總于表2。通過內(nèi)部交叉驗證,以最小的交叉驗證均方根誤差(RMSECV)為指標(biāo),確定最優(yōu)潛在變量數(shù)(LV),建立2016年煙葉的PLSR 主模型。模型預(yù)測性能如表3所示,可以看出,主模型Rp值接近1,說明模型預(yù)測結(jié)果與參考值相關(guān)性很高,RMSEP值較小,RPD大于15,證明主模型性能較優(yōu),可實現(xiàn)相同年份間煙葉總糖含量的準(zhǔn)確預(yù)測。
表2 主模型樣本的劃分結(jié)果Table 2 Statistics of reference quality measurements for tobacco samples
表3 主模型總糖含量的預(yù)測性能Table 3 Total sugar content prediction performance obtained by original PLSR model
將2017 年、2018 年以及2020 年的煙葉樣本按照“1.2”所述進(jìn)行樣本劃分,更新集參與SSPFCE 方法對主模型回歸系數(shù)的校正,劃分結(jié)果匯總于表4。使用“2.2”中2016 年樣本建立的主模型分別對2017、2018及2020年的樣本進(jìn)行總糖含量預(yù)測,圖2展示了2016年主模型更新前對不同年份煙葉總糖的預(yù)測結(jié)果。
表4 用于模型更新的樣本劃分結(jié)果Table 4 A summary of total sugar content range for model updating and testing sets for different years of tobacco
圖2 采用2016年主模型預(yù)測2017年(A)、2018年(B)及2020年(C)煙葉樣本的總糖含量Fig.2 Total sugar contents of tobacco made on samples in 2017(A),2018(B)and 2020(C)years predicted with the master model for 2016 year
以2016 年樣本建立的主模型Rp 值為0.997 8,RMSEP 值為0.310 8,而使用該模型直接預(yù)測其他年份樣品時,Rp 值下降,RMSEP 值升高,預(yù)測能力均下降(見表5)。結(jié)合表2 和表4 的數(shù)據(jù),盡管2020年樣本的總糖含量未超出2016年主模型的定量范圍,但模型的預(yù)測效果下降,說明即使預(yù)測集樣本含量在模型定量范圍內(nèi),由于樣本批次差異,其預(yù)測準(zhǔn)確度難以保證,因此需對主模型進(jìn)行模型更新以適用新批次樣本的定量分析。
表5 采用SS-PFCE方法模型更新后對不同年份的預(yù)測效果Table 5 Prediction effects of SS-PFCE method on model updating in different years
表5 結(jié)果顯示,使用SS-PFCE 方法更新后,主模型對3 個年份的預(yù)測結(jié)果均明顯提高,2017 年、2018 年和2020 年的Rp 值分別升高了0.13%、1.32%和4.29%,RMSEP 值分別下降了15.26%、58.69%和36.53%,證明SS-PFCE方法對主模型進(jìn)行更新后,可提高新批次樣本的預(yù)測準(zhǔn)確性。
為進(jìn)一步驗證SS-PFCE 方法對主模型的更新效果,使用表4 中2017、2018 和2020 年的更新集分別重新建立定量校正模型,模型預(yù)測性能與SS-PFCE更新結(jié)果的對比如表6所示。數(shù)據(jù)表明,相比于重新建模,采用SS-PFCE方法對主模型進(jìn)行更新后,3個年份測試集的Rp值分別升高3.53%、0.25%、3.01%,RMSEP值分別下降70.24%、28.69%和30.32%,表明模型預(yù)測性能有大幅提升。
表6 模型預(yù)測性能對比Table 6 Total sugar content predictions for different years based on two different model updating approaches
圖3 更直觀地對比了兩種方式對不同年份煙葉中總糖含量的預(yù)測結(jié)果,其中綠色“△”代表重新建模效果,紅色“○”代表采用SS-PFCE 方法對主模型進(jìn)行更新后的預(yù)測效果,可明顯看出紅色“○”更加緊密地分布于擬合直線上。相比之下,SS-PFCE 方法進(jìn)行模型更新不僅可得到更好的模型預(yù)測性能,同時大大減少了重新建模所需的時間和計算成本,在實際應(yīng)用中具有較大的價值和意義。
圖3 重新建模和SS-PFCE對2017年(A)、2018年(B)及2020年(C)煙葉樣本總糖含量的預(yù)測結(jié)果比較Fig.3 Comparison of prediction results for total sugar content of tobacco samples in 2017(A),2018(B)and 2020(C)years by the rebuild model and SS-PFCE
針對定量模型應(yīng)用于新場景導(dǎo)致模型性能下降的問題,本研究采用半監(jiān)督無參數(shù)校正增強(SSPFCE)的模型更新策略對3個不同年份的煙葉樣本進(jìn)行模型更新。結(jié)果表明SS-PFCE 方法可以顯著地改善主模型對新樣本的預(yù)測結(jié)果,通過對回歸系數(shù)的約束優(yōu)化,可直接使用新樣本的光譜數(shù)據(jù)進(jìn)行預(yù)測。與重新建模方法相比,SS-PFCE 方法可在更新過程中以更少的時間和成本達(dá)到較高的預(yù)測精度。此外,PFCE是一種基于歷史數(shù)據(jù)量化的模型維護(hù)方法,不涉及模型中其他復(fù)雜參數(shù)的優(yōu)化,也無需挑選具有代表性的標(biāo)準(zhǔn)樣品,這種更新策略在消除外部影響時具有高效低成本的優(yōu)勢,對未來實際應(yīng)用中多種變化場景的模型共享和模型更新均具有重要意義。