亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

多種光譜變量篩選算法在紅參提取近紅外建模中的應用

2021-08-17 02:51:10鄭恩讓

光譜學與光譜分析 2021年8期

關(guān)鍵詞：模型

陳蓓，鄭恩讓*，郭拓

1. 陜西科技大學電氣與控制工程學院，陜西西安 710021 2. 陜西科技大學電子信息與人工智能學院，陜西西安 710021

引言

紅參屬于傳統(tǒng)的名貴中藥材，國內(nèi)外廣泛應用于中醫(yī)臨床和中藥制劑，具有補氣、安神、強心、抗癌等功效[1]。在紅參提取過程中，由于原料來源、年份、工藝、提取過程質(zhì)量的控制等差異，會影響中藥材的利用率、藥物雜質(zhì)的浸出量和中成藥藥效成分的含量，引起紅參提取物成分含量的批間差異，對后續(xù)產(chǎn)品的質(zhì)量產(chǎn)生重要的影響[2]。按照《中國藥典》2020年版有關(guān)規(guī)定[3]，用高效液相色譜(HPLC)法測定紅參中人參皂苷含量來評估紅參的質(zhì)量，該方法具有很高的準確度，但需要化學試劑和一系列的樣品預處理[4]，過程相對復雜、污染環(huán)境且耗時較長，無法滿足紅參提取生產(chǎn)過程現(xiàn)場監(jiān)控的需求。

近年來，近紅外光譜技術(shù)由于環(huán)保和快速性等優(yōu)點，已經(jīng)成功地應用于食品[5]、制藥[6]、化工[7]等領(lǐng)域。劉喚等[8]對近紅外光譜技術(shù)在紅參質(zhì)量控制方面的研究進行了詳細的綜述，肖雪等[9]利用近紅外光譜測定了紅參提取過程中的人參皂苷的成分含量，對1提和2提過程分別建模，含量較低的Rc模型精度有待完善。以上研究證明了近紅外光譜技術(shù)在紅參提取過程中對人參皂苷含量監(jiān)測的可行性，但建模都依賴于儀器本身自帶的光譜分析軟件，精度無法滿足實際需要。呂曉菡等[10]在用近紅外檢測辣椒素的含量中，采用SPA，UVE和CARS三種方法提取特征波長再PLS建模，并于全光譜進行了對比分析。但多種智能的光譜篩選算法結(jié)合近紅外光譜技術(shù)，應用于中藥提取過程建模鮮有研究。

本文在紅參乙醇回流提取過程中，在線采集提取液的近紅外光譜，結(jié)合高效液相測定的人參皂苷含量參照值，以提取液中高含量的Rg1和含量低的Rc為對象，剔除異常樣本，進行光譜預處理，利用競爭適應性重加權(quán)采樣法、無信息變量消除法、隨機蛙跳算法和連續(xù)投影算法優(yōu)選波長變量，再建立PLS模型，實現(xiàn)紅參提取生產(chǎn)過程中質(zhì)控成分的在線監(jiān)控，選出最優(yōu)的波長篩選算法，并對比驗證了該算法的穩(wěn)健性，為實現(xiàn)快速簡便的紅參提取液質(zhì)量監(jiān)測提供技術(shù)參數(shù)。

1 實驗部分

1.1 儀器和材料

SupNIR4510型近紅外光譜儀(聚光科技(杭州)有限公司)，Ultimate3000型高效液相色譜儀(美國Thermo公司)，Mill-Q純水系統(tǒng)(美國Milllipore公司)，XS-105型電子天平(Mettler-Toledo公司)，Matlab2018(美國MathWorks公司)，紅參藥材樣品(神威藥業(yè)有限公司)，人參皂苷Rg1和Rc對照品(成都曼斯特生物科技有限公司)，乙腈(色譜純，美國Fisher公司)。

1.2 數(shù)據(jù)采集

藥材經(jīng)過選擇，清洗，精制等初步處理，通過與一定濃度的乙醇水溶液加熱回流提取。采用NIRS在線儀器對紅參提取過程進行監(jiān)控。采集了提取過程中的三批樣本，所有樣本均為前兩次提取過程的提取液，總共128個。光譜儀的掃描范圍為1 000～2 499 nm，每四分鐘采樣一次，分辨率為1 nm，采用透射方式，每個樣品掃描三次，將平均值作為最終原始光譜數(shù)據(jù)，并將導出數(shù)據(jù)存儲在EXCEL表格中。

在近紅外光譜儀監(jiān)控的同時，對所采集的紅參提取液進行HPLC分析。以提取液中人參皂苷含量高的Rg1、和含量低的Rc為參考對象，使用比色法在207 nm的檢測波長為下進行測量，并讀出待測樣品的含量，將其作為近紅外光譜分析的對照值。

1.3 建模方法和評價

近紅外光譜分析技術(shù)是一種間接的分析手段，采集光譜數(shù)據(jù)的同時，必須通過國家標準的方法檢測出成分含量作為參考值，剔除異常點和對光譜進行預處理，然后應用光譜篩選算法優(yōu)選波長變量，再應用偏最小二乘(partial least squares，PLS)建立定量模型并評價可行性，最后再用所建模型對未知的樣品進行定量分析，紅參提取液的人參皂苷成分建模的步驟如圖1所示。

1.3.1 光譜波長變量篩選

近紅外光譜包含有關(guān)樣品性質(zhì)的豐富信息，每個光譜都包含了許多波長點，但其存在譜帶寬、不同組分的峰信息重疊且彼此干擾，因此直接用近紅外光譜建模是困難的，必須先進行特征波長優(yōu)選，然后才能將其用于定量建模。本文中采用的特征波長篩選算法有競爭適應性重加權(quán)采樣法、無信息變量消除法、連續(xù)投影算法、隨機蛙跳算法。

競爭適應性重加權(quán)采樣法(competitive adaptive reweighted sampling, CARS)是由梁逸曾教授的課題組在2009年提出的[11]。當CARS使用MC采樣時，在每次迭代中都會再次隨機選擇校正集樣品，使用指數(shù)衰減函數(shù)強制選擇波長，然后使用自適應性重加權(quán)方法優(yōu)化波長變量，挑選交互驗證均方根誤差最小的變量子集。無信息變量消除法[12](uninformative variable elimination，UVE)基本原理是在原始近紅外光譜之后添加人工白噪聲信號，再根據(jù)噪聲信號的穩(wěn)定性給定一個閾值，然后刪除波長變量中比此閾值小的變量，并保留其余的波長變量。連續(xù)投影算法[13](successive projection algorithm，SPA)屬于前向選擇變量算法，首先選擇一個波長變量作為初始值，計算該變量在其余變量上的投影，將最大投影向量對應的波長作為新的待選變量，依次迭代，直到內(nèi)部交互驗證均方根誤差達到最小，能最大限度地消除光譜變量之間的共線性。隨機蛙跳算法(random frog, RF)是一種后啟發(fā)式群體優(yōu)化算法，是Eusuff等[14]為解決組合優(yōu)化問題而提出的。該算法也是以優(yōu)化校正模型的預測精度為目標，把各波長在循環(huán)計算中被選擇的概率作為基準，通過循環(huán)迭代，選擇概率最高的前十個特征波長建立預測模型。

圖1 紅參提取近紅外光譜技術(shù)建模過程流程圖Fig.1 Flow chart of NIRS modeling process ofred ginseng extraction

1.3.2 模型評價

采用下列評價參數(shù)[15]：

(1)交叉驗證均方根誤差和預測均方根誤差

(2)決定系數(shù)R2

(3)預測相對分析誤差(residual predictive deviation, RPD)

式中，n為校正集或者驗證集的樣本數(shù)量，ypi為模型預測值，yi為樣本真實值。通常，好的定量分析模型應具有較低的RMSECV和RMSEP，較高的R2和RPD值。

2 結(jié)果與討論

2.1 數(shù)據(jù)預處理

將在線采集到的128個紅參提取液樣本光譜，用matlab軟件畫出原始光譜如圖2所示。兩次提取液人參皂苷含量差距較大，但從光譜數(shù)據(jù)中并不能直接區(qū)分。

圖2 128份紅參樣品的近紅外原始光譜圖Fig.2 NIR spectra of 128 red ginseng samples

異常樣本的存在會在一定程度上影響模型的適應性和準確性，采用蒙特卡洛采樣法剔除4個奇異數(shù)據(jù)，剩余124個樣本用作建模。并根據(jù)KS(Kennard-Stone)法，按照3∶1對數(shù)據(jù)集分類，分得校正集93個樣本，驗證集31個樣本，樣本的具體劃分結(jié)果及數(shù)據(jù)統(tǒng)計如表1所示，校正集和驗證集的濃度范圍、平均值和標準差也非常接近，滿足了對建模樣本進行劃分的要求。

表1 樣本劃分統(tǒng)計表Table 1 Statistical table of sample division

對于紅參提取液的原始光譜，選擇不同的波段并利用標準正態(tài)變換(SNV)、多元散射校正(MSC)、求導、卷積、差分等10種方法對光譜進行預處理，并建立PLS模型驗證。對比最終選擇1 000～2 099 nm波段作為建模的全光譜，1 100個波長，標準正態(tài)變換(SNV)預處理方法用來建模。

2.2 篩選特征波長

將SNV預處理后的紅參提取液的近紅外全光譜數(shù)據(jù)，再利用CARS，UVE，SPA和RF四種方法進行波長篩選，從圖3中可以看出來，四種分析方法，篩選出的波長數(shù)目和分布各不相同。

四種方法篩選出的特征波長數(shù)目分別為： 57，430，8和10，波長數(shù)目大幅度下降，從全光譜的1 100個，分別下降為全光譜的5.2%，39.1%，0.7%和0.9%。

2.3 建模分析對比

2.3.1 不同光譜篩選算法建模效果對比

利用前面提到的四種特征波長篩選算法提取的特征波長，分別建立PLS模型，建模效果對比如表2所示。

圖3 人參皂苷Rg1含量檢測波長優(yōu)選分布對比圖Fig.3 Comparison of optimal detection wavelength distribution of ginsenoside Rg1 content

表2 不同的特征波長篩選算法PLS模型對紅參皂苷含量建模及性能評價結(jié)果Table 2 Different characteristic wavelength variable selection and performanceevaluation results of red ginsenoside content based on PLS model

從表2對比可以看出，全光譜經(jīng)UVE，CARS和SPA三種算法篩選后，建模波長數(shù)目大大降低，簡化了模型，但精度有所下降；利用RF算法篩選后，不僅剔除了冗余波長和干擾變量，建模效率和精度還得到了提高。

為了進一步驗證和對比建模的效果，以紅參提取液中含量較高的人參皂苷Rg1為例，將驗證集數(shù)據(jù)輸入不同光譜篩選方法下的PLS模型，得到散點圖如圖4所示。

散點圖上點落在對角線上表示建模預測所得的預測值和真實值相同，樣本點值越接近于對角線說明預測結(jié)果越準確。從圖4可以看出，左下為第二次提取液，右上為第一次提取液，兩次紅參提取液的濃度差距明顯。加入波長篩選四種方法，建模精度都有所提升，特別是圖4(b) RF-PLS模型的樣本點更接近于對角線，預測能力比其他幾種方法的精度高，并且對于兩次提取液Rg1含量預測RF-PLS建模精度都很高，可以進一步證明RF波長篩選算法是一種有效的近紅外光譜定量分析建模方法。

圖4 不同建模方法人參皂苷Rg1含量預測集散點圖Fig.4 Distribution diagrams of ginsenoside Rg1 content predicted by different modeling methods

2.3.2 不同波長篩選算法的穩(wěn)健性分析

為了對比不同的波長篩選算法的穩(wěn)健性，在原始光譜、全光譜、 SNV預處理后的全光譜三種光譜數(shù)據(jù)上采用波長篩選算法進行對比建模，以RF和CARS兩種波長篩選算法為例，在紅參提取液近紅外建模性能結(jié)果如表3和表4所示。

將表3和表4中數(shù)據(jù)對比可以看出，對三種光譜數(shù)據(jù)采用兩種波長篩選算法建模后，光譜范圍和光譜預處理方法，對CARS算法的建模性能影響較大，RPD數(shù)值變化范圍達2.2以上，對RF波長篩選算法變化較小，RF波長篩選后PLS建模，整體性能都較好，模型評價參數(shù)針對不同的光譜處理跳躍性不大，說明RF算法具有很好的穩(wěn)健性。

表3 RF算法對不同光譜PLS建模性能評價結(jié)果Table 3 PLS modeling and performance evaluation of different spectra based on RF algorithm

表4 CARS算法對不同光譜PLS建模性能評價結(jié)果Table 4 PLS modeling and performance evaluation of different spectra based on CARS algorithm