亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

近紅外光譜結(jié)合無參數(shù)校正增強實現(xiàn)不同年份煙葉總糖含量模型更新

2022-07-22 08:11:10耿瑩蕊沈歡超何倪文鴻苗飛陳王勇輝劉吳雪繼松忠張立立李永生

分析測試學(xué)報 2022年7期

關(guān)鍵詞：方法模型

耿瑩蕊，沈歡超，2，何倪文鴻苗飛，，陳王勇輝，，劉吳雪繼松忠*，張立立，李永生，

（1.浙江大學(xué) 藥學(xué)院，浙江杭州 310058；2.浙江大學(xué) 智能創(chuàng)新藥物研究院，浙江杭州 310018；3.浙江中煙工業(yè)有限責任公司技術(shù)中心，浙江杭州 310008）

在過去幾十年，近紅外光譜（NIRS）技術(shù)因具有快速高效、無損、低成本的優(yōu)勢，已成功應(yīng)用于各個領(lǐng)域［1-2］。煙草作為一種復(fù)雜的天然產(chǎn)物，利用其近紅外光譜信息結(jié)合化學(xué)計量學(xué)方法可實現(xiàn)煙葉定量分析、品質(zhì)分類、質(zhì)量控制等，具有重要的應(yīng)用價值［3-5］。

建立一個穩(wěn)健準確且能在實際生產(chǎn)中應(yīng)用的校正模型是NIRS技術(shù)的關(guān)鍵，目前常用的模型校正方法有偏最小二乘回歸（PLSR）［6］、最小二乘支持向量機（LS-SVM）［7］、人工神經(jīng)網(wǎng)絡(luò)（ANN）［8］等，通過這些方法建立校正模型，可實現(xiàn)未知樣品目標成分的定量分析。但檢測條件、儀器狀態(tài)以及煙葉培育環(huán)境的變化均會造成光譜特性與質(zhì)量屬性的差異［9-10］，這些新變化可導(dǎo)致原有模型預(yù)測能力下降。

為維持原始模型在新樣本中的良好預(yù)測性能，目前已開發(fā)了較多的模型轉(zhuǎn)移算法［11-12］。傳統(tǒng)的模型轉(zhuǎn)移方法側(cè)重于對數(shù)據(jù)的調(diào)整和修正，如分段直接標準化（PDS）［13］、斜率/截距修正算法［14］等，此類方法對不同儀器間的模型轉(zhuǎn)移效果顯著，但其標準樣品的選擇和獲取在實際應(yīng)用中存在一定難度，因此有標樣的模型轉(zhuǎn)移算法應(yīng)用存在局限性。模型轉(zhuǎn)移的第二種途徑是模型更新［15］，即添加新樣本進行校正，優(yōu)化現(xiàn)有的模型［16］，該方法往往需要挑選具有代表性的樣本，考慮新樣本權(quán)重以優(yōu)化模型［17-18］。此外，還有一些算法可通過消除外部影響因素達到模型更新的目的，但這類方法涉及大量參數(shù)的調(diào)整和優(yōu)化［19-21］，對日常使用而言復(fù)雜耗時。

為解決上述方法的不足，有學(xué)者提出一種無參數(shù)校正增強框架（PFCE）算法［22］，其通過對回歸系數(shù)進行相關(guān)性約束，從而增強原始模型對新樣本的預(yù)測能力［23］。該方法不僅減少了對標準樣品的需求，還省去模型更新需要多參數(shù)優(yōu)化的步驟，大大提高了模型的更新效率。本文旨在通過PFCE 模型更新策略消除采收時間對煙葉總糖含量預(yù)測結(jié)果的影響，以期維持主模型在不同年份煙葉樣本中定量分析的性能。

1 實驗部分

1.1 數(shù)據(jù)采集及參考值的測定

本研究使用的煙葉樣本分別采收于2016 年、2017 年、2018 年以及2020 年，均由浙江中煙工業(yè)有限責任公司提供。煙葉樣本在相同測試條件下采用Antaris II FT-NIR（Thermo Fisher Scientific）分析儀進行光譜測量，光譜的采集范圍為10 000 ～3 800 cm-1，分辨率為8 cm-1，每個光譜包含1 609個變量。本研究選擇煙葉中總糖含量建立定量分析模型，樣品的參考值由浙江中煙技術(shù)中心依照煙草標準YC/T159—2002測定［24］。

1.2 實驗設(shè)計及軟件

采用2016年煙葉樣本建立總糖含量預(yù)測的PLSR主模型，以2017年、2018年和2020年樣品的光譜用于校正和更新主模型。主模型樣本使用基于x-y距離樣本集劃分（SPXY）算法劃分為校正集（70%）和測試集（30%），用于更新主模型的樣本劃分為模型更新集（30%）和測試集（70%）。在研究中，采用半監(jiān)督無參數(shù)校正增強（SS-PFCE）方法對主模型進行更新，另外比較了2017、2018 及2020 年樣本重新建模的效果。對于所有定量模型，使用校正相關(guān)系數(shù)（Rc）、預(yù)測相關(guān)系數(shù)（Rp）、校正均方根誤差（RMSEC）、預(yù)測均方根誤差（RMSEP）和殘差預(yù)測偏差（RPD）對其性能進行評價［25］。

所有算法和畫圖操作均使用MATLAB R2018 b軟件完成。

1.3 理論與算法

1.3.1 偏最小二乘回歸（PLSR） PLSR是一種經(jīng)典的定量建模方法，它將m個樣本在n個變量處的光譜X與m個樣本的相關(guān)參考值Y投影到新空間中構(gòu)建線性回歸模型。在本文中，采用留一交叉驗證方法確定PLS模型中的最佳潛在變量（Latent variables，LV）數(shù)［26］。

1.3.2 半監(jiān)督無參數(shù)校正增強（SS-PFCE）用于光譜校正增強的無參數(shù)框架（PFCE）是Zhang 等［22］最新提出的模型維護方法，其根據(jù)模型傳遞中標準品的有無分為非監(jiān)督PFCE（NS-PFCE）、半監(jiān)督PFCE（SS-PFCE）和全監(jiān)督PFCE（FS-PFCE）。其中SS-PFCE 方法僅需新樣品的部分光譜和屬性參考值對模型進行校正更新，無需額外挑選標準品，SS-PFCE的目標函數(shù)采用公式（1）進行計算。

公式（1）中，Xnew代表新批次樣本中被選為更新集的光譜，ynew表示參考值，b0，new和bnew分別表示更新模型的截距和回歸系數(shù)；公式（2）中，bm代表主模型的回歸系數(shù)，為約束新舊模型回歸系數(shù)的閾值，保證更新模型獲得適當?shù)幕貧w系數(shù)和截距，已有研究均將閾值設(shè)定為0.98［22］。

使用SS-PFCE方法實現(xiàn)不同年份煙葉模型的更新可概括為以下3個步驟：

（1）選擇某一年份樣本的光譜，構(gòu)建PLSR主模型，從中獲得主模型回歸系數(shù)bm。

（2）使用新年份樣本的部分光譜和參考值對主模型進行維護和校正，從主模型回歸系數(shù)bm中得到新模型的bnew。

（3）用新樣本測試集的光譜驗證更新后的模型，以RMSEP和Rp對模型更新效果進行評估。

2 結(jié)果與討論

2.1 不同年份煙葉樣本的近紅外平均光譜

不同年份煙葉樣本的近紅外平均光譜如圖1所示。不同年份煙葉樣本具有相似的吸收峰趨勢，但吸收強度存在差異，說明煙葉的光譜信息很大程度上受采收年份的影響。

表1 數(shù)據(jù)表明，不同年份煙葉中總糖含量差異較大，除2020 年外，2017 年和2018 年煙葉樣本的總糖含量均超出2016 年總糖含量的覆蓋范圍。結(jié)合圖1 可知，不同采收年份造成樣本的化學(xué)信息和光譜特征產(chǎn)生差異，這些差異可能嚴重影響主模型預(yù)測新樣本的準確性，因此需進行模型維護以提高主模型的穩(wěn)健性。

表1 不同年份煙葉樣本匯總Table 1 Summary of tobacco samples in different years

圖1 不同年份煙葉樣本的近紅外平均光譜圖Fig.1 The average raw NIR spectra of tobacco samples in different years

2.2 煙葉樣本主模型的建立

采用SPXY 方法將2016 年193 個煙葉樣本按照7∶3 的比例劃分為校正集和測試集，劃分結(jié)果及總糖含量匯總于表2。通過內(nèi)部交叉驗證，以最小的交叉驗證均方根誤差（RMSECV）為指標，確定最優(yōu)潛在變量數(shù)（LV），建立2016年煙葉的PLSR 主模型。模型預(yù)測性能如表3所示，可以看出，主模型Rp值接近1，說明模型預(yù)測結(jié)果與參考值相關(guān)性很高，RMSEP值較小，RPD大于15，證明主模型性能較優(yōu)，可實現(xiàn)相同年份間煙葉總糖含量的準確預(yù)測。

表2 主模型樣本的劃分結(jié)果Table 2 Statistics of reference quality measurements for tobacco samples

表3 主模型總糖含量的預(yù)測性能Table 3 Total sugar content prediction performance obtained by original PLSR model

2.3 SS-PFCE模型更新

將2017 年、2018 年以及2020 年的煙葉樣本按照“1.2”所述進行樣本劃分，更新集參與SSPFCE 方法對主模型回歸系數(shù)的校正，劃分結(jié)果匯總于表4。使用“2.2”中2016 年樣本建立的主模型分別對2017、2018及2020年的樣本進行總糖含量預(yù)測，圖2展示了2016年主模型更新前對不同年份煙葉總糖的預(yù)測結(jié)果。

表4 用于模型更新的樣本劃分結(jié)果Table 4 A summary of total sugar content range for model updating and testing sets for different years of tobacco

圖2 采用2016年主模型預(yù)測2017年（A）、2018年（B）及2020年（C）煙葉樣本的總糖含量Fig.2 Total sugar contents of tobacco made on samples in 2017（A），2018（B）and 2020（C）years predicted with the master model for 2016 year

以2016 年樣本建立的主模型Rp 值為0.997 8，RMSEP 值為0.310 8，而使用該模型直接預(yù)測其他年份樣品時，Rp 值下降，RMSEP 值升高，預(yù)測能力均下降（見表5）。結(jié)合表2 和表4 的數(shù)據(jù)，盡管2020年樣本的總糖含量未超出2016年主模型的定量范圍，但模型的預(yù)測效果下降，說明即使預(yù)測集樣本含量在模型定量范圍內(nèi)，由于樣本批次差異，其預(yù)測準確度難以保證，因此需對主模型進行模型更新以適用新批次樣本的定量分析。

表5 采用SS-PFCE方法模型更新后對不同年份的預(yù)測效果Table 5 Prediction effects of SS-PFCE method on model updating in different years

表5 結(jié)果顯示，使用SS-PFCE 方法更新后，主模型對3 個年份的預(yù)測結(jié)果均明顯提高，2017 年、2018 年和2020 年的Rp 值分別升高了0.13%、1.32%和4.29%，RMSEP 值分別下降了15.26%、58.69%和36.53%，證明SS-PFCE方法對主模型進行更新后，可提高新批次樣本的預(yù)測準確性。

2.4 與重新建模方法的比較

為進一步驗證SS-PFCE 方法對主模型的更新效果，使用表4 中2017、2018 和2020 年的更新集分別重新建立定量校正模型，模型預(yù)測性能與SS-PFCE更新結(jié)果的對比如表6所示。數(shù)據(jù)表明，相比于重新建模，采用SS-PFCE方法對主模型進行更新后，3個年份測試集的Rp值分別升高3.53%、0.25%、3.01%，RMSEP值分別下降70.24%、28.69%和30.32%，表明模型預(yù)測性能有大幅提升。

表6 模型預(yù)測性能對比Table 6 Total sugar content predictions for different years based on two different model updating approaches

圖3 更直觀地對比了兩種方式對不同年份煙葉中總糖含量的預(yù)測結(jié)果，其中綠色“△”代表重新建模效果，紅色“○”代表采用SS-PFCE 方法對主模型進行更新后的預(yù)測效果，可明顯看出紅色“○”更加緊密地分布于擬合直線上。相比之下，SS-PFCE 方法進行模型更新不僅可得到更好的模型預(yù)測性能，同時大大減少了重新建模所需的時間和計算成本，在實際應(yīng)用中具有較大的價值和意義。

圖3 重新建模和SS-PFCE對2017年（A）、2018年（B）及2020年（C）煙葉樣本總糖含量的預(yù)測結(jié)果比較Fig.3 Comparison of prediction results for total sugar content of tobacco samples in 2017（A），2018（B）and 2020（C）years by the rebuild model and SS-PFCE

3 結(jié) 論

針對定量模型應(yīng)用于新場景導(dǎo)致模型性能下降的問題，本研究采用半監(jiān)督無參數(shù)校正增強（SSPFCE）的模型更新策略對3個不同年份的煙葉樣本進行模型更新。結(jié)果表明SS-PFCE 方法可以顯著地改善主模型對新樣本的預(yù)測結(jié)果，通過對回歸系數(shù)的約束優(yōu)化，可直接使用新樣本的光譜數(shù)據(jù)進行預(yù)測。與重新建模方法相比，SS-PFCE 方法可在更新過程中以更少的時間和成本達到較高的預(yù)測精度。此外，PFCE是一種基于歷史數(shù)據(jù)量化的模型維護方法，不涉及模型中其他復(fù)雜參數(shù)的優(yōu)化，也無需挑選具有代表性的標準樣品，這種更新策略在消除外部影響時具有高效低成本的優(yōu)勢，對未來實際應(yīng)用中多種變化場景的模型共享和模型更新均具有重要意義。