陳 蓓,鄭恩讓*,郭 拓
1. 陜西科技大學電氣與控制工程學院,陜西 西安 710021 2. 陜西科技大學電子信息與人工智能學院,陜西 西安 710021
紅參屬于傳統(tǒng)的名貴中藥材,國內(nèi)外廣泛應用于中醫(yī)臨床和中藥制劑,具有補氣、 安神、 強心、 抗癌等功效[1]。在紅參提取過程中,由于原料來源、 年份、 工藝、 提取過程質(zhì)量的控制等差異,會影響中藥材的利用率、 藥物雜質(zhì)的浸出量和中成藥藥效成分的含量,引起紅參提取物成分含量的批間差異,對后續(xù)產(chǎn)品的質(zhì)量產(chǎn)生重要的影響[2]。按照《中國藥典》2020年版有關(guān)規(guī)定[3],用高效液相色譜(HPLC)法測定紅參中人參皂苷含量來評估紅參的質(zhì)量,該方法具有很高的準確度,但需要化學試劑和一系列的樣品預處理[4],過程相對復雜、 污染環(huán)境且耗時較長,無法滿足紅參提取生產(chǎn)過程現(xiàn)場監(jiān)控的需求。
近年來,近紅外光譜技術(shù)由于環(huán)保和快速性等優(yōu)點,已經(jīng)成功地應用于食品[5]、 制藥[6]、 化工[7]等領(lǐng)域。劉喚等[8]對近紅外光譜技術(shù)在紅參質(zhì)量控制方面的研究進行了詳細的綜述,肖雪等[9]利用近紅外光譜測定了紅參提取過程中的人參皂苷的成分含量,對1提和2提過程分別建模,含量較低的Rc模型精度有待完善。以上研究證明了近紅外光譜技術(shù)在紅參提取過程中對人參皂苷含量監(jiān)測的可行性,但建模都依賴于儀器本身自帶的光譜分析軟件,精度無法滿足實際需要。呂曉菡等[10]在用近紅外檢測辣椒素的含量中,采用SPA,UVE和CARS三種方法提取特征波長再PLS建模,并于全光譜進行了對比分析。但多種智能的光譜篩選算法結(jié)合近紅外光譜技術(shù),應用于中藥提取過程建模鮮有研究。
本文在紅參乙醇回流提取過程中,在線采集提取液的近紅外光譜,結(jié)合高效液相測定的人參皂苷含量參照值,以提取液中高含量的Rg1和含量低的Rc為對象,剔除異常樣本,進行光譜預處理,利用競爭適應性重加權(quán)采樣法、 無信息變量消除法、 隨機蛙跳算法和連續(xù)投影算法優(yōu)選波長變量,再建立PLS模型,實現(xiàn)紅參提取生產(chǎn)過程中質(zhì)控成分的在線監(jiān)控,選出最優(yōu)的波長篩選算法,并對比驗證了該算法的穩(wěn)健性,為實現(xiàn)快速簡便的紅參提取液質(zhì)量監(jiān)測提供技術(shù)參數(shù)。
SupNIR4510型近紅外光譜儀(聚光科技(杭州)有限公司),Ultimate3000型高效液相色譜儀(美國Thermo公司),Mill-Q純水系統(tǒng)(美國Milllipore公司),XS-105型電子天平(Mettler-Toledo公司),Matlab2018(美國MathWorks公司),紅參藥材樣品(神威藥業(yè)有限公司),人參皂苷Rg1和Rc對照品(成都曼斯特生物科技有限公司),乙腈(色譜純,美國Fisher公司)。
藥材經(jīng)過選擇,清洗,精制等初步處理,通過與一定濃度的乙醇水溶液加熱回流提取。采用NIRS在線儀器對紅參提取過程進行監(jiān)控。采集了提取過程中的三批樣本,所有樣本均為前兩次提取過程的提取液,總共128個。光譜儀的掃描范圍為1 000~2 499 nm,每四分鐘采樣一次,分辨率為1 nm,采用透射方式,每個樣品掃描三次,將平均值作為最終原始光譜數(shù)據(jù),并將導出數(shù)據(jù)存儲在EXCEL表格中。
在近紅外光譜儀監(jiān)控的同時,對所采集的紅參提取液進行HPLC分析。以提取液中人參皂苷含量高的Rg1、 和含量低的Rc為參考對象,使用比色法在207 nm的檢測波長為下進行測量,并讀出待測樣品的含量,將其作為近紅外光譜分析的對照值。
近紅外光譜分析技術(shù)是一種間接的分析手段,采集光譜數(shù)據(jù)的同時,必須通過國家標準的方法檢測出成分含量作為參考值,剔除異常點和對光譜進行預處理,然后應用光譜篩選算法優(yōu)選波長變量,再應用偏最小二乘(partial least squares,PLS)建立定量模型并評價可行性,最后再用所建模型對未知的樣品進行定量分析,紅參提取液的人參皂苷成分建模的步驟如圖1所示。
1.3.1 光譜波長變量篩選
近紅外光譜包含有關(guān)樣品性質(zhì)的豐富信息,每個光譜都包含了許多波長點,但其存在譜帶寬、 不同組分的峰信息重疊且彼此干擾,因此直接用近紅外光譜建模是困難的,必須先進行特征波長優(yōu)選,然后才能將其用于定量建模。本文中采用的特征波長篩選算法有競爭適應性重加權(quán)采樣法、 無信息變量消除法、 連續(xù)投影算法、 隨機蛙跳算法。
競爭適應性重加權(quán)采樣法(competitive adaptive reweighted sampling, CARS)是由梁逸曾教授的課題組在2009年提出的[11]。當CARS使用MC采樣時,在每次迭代中都會再次隨機選擇校正集樣品,使用指數(shù)衰減函數(shù)強制選擇波長,然后使用自適應性重加權(quán)方法優(yōu)化波長變量,挑選交互驗證均方根誤差最小的變量子集。無信息變量消除法[12](uninformative variable elimination,UVE)基本原理是在原始近紅外光譜之后添加人工白噪聲信號,再根據(jù)噪聲信號的穩(wěn)定性給定一個閾值,然后刪除波長變量中比此閾值小的變量,并保留其余的波長變量。連續(xù)投影算法[13](successive projection algorithm,SPA)屬于前向選擇變量算法,首先選擇一個波長變量作為初始值,計算該變量在其余變量上的投影,將最大投影向量對應的波長作為新的待選變量,依次迭代,直到內(nèi)部交互驗證均方根誤差達到最小,能最大限度地消除光譜變量之間的共線性。隨機蛙跳算法(random frog, RF)是一種后啟發(fā)式群體優(yōu)化算法,是Eusuff等[14]為解決組合優(yōu)化問題而提出的。該算法也是以優(yōu)化校正模型的預測精度為目標,把各波長在循環(huán)計算中被選擇的概率作為基準,通過循環(huán)迭代,選擇概率最高的前十個特征波長建立預測模型。
圖1 紅參提取近紅外光譜技術(shù)建模過程流程圖Fig.1 Flow chart of NIRS modeling process ofred ginseng extraction
1.3.2 模型評價
采用下列評價參數(shù)[15]:
(1)交叉驗證均方根誤差和預測均方根誤差
(2)決定系數(shù)R2
(3)預測相對分析誤差(residual predictive deviation, RPD)
式中,n為校正集或者驗證集的樣本數(shù)量,ypi為模型預測值,yi為樣本真實值。通常,好的定量分析模型應具有較低的RMSECV和RMSEP,較高的R2和RPD值。
將在線采集到的128個紅參提取液樣本光譜,用matlab軟件畫出原始光譜如圖2所示。兩次提取液人參皂苷含量差距較大,但從光譜數(shù)據(jù)中并不能直接區(qū)分。
圖2 128份紅參樣品的近紅外原始光譜圖Fig.2 NIR spectra of 128 red ginseng samples
異常樣本的存在會在一定程度上影響模型的適應性和準確性,采用蒙特卡洛采樣法剔除4個奇異數(shù)據(jù),剩余124個樣本用作建模。并根據(jù)KS(Kennard-Stone)法,按照3∶1對數(shù)據(jù)集分類,分得校正集93個樣本,驗證集31個樣本,樣本的具體劃分結(jié)果及數(shù)據(jù)統(tǒng)計如表1所示,校正集和驗證集的濃度范圍、 平均值和標準差也非常接近,滿足了對建模樣本進行劃分的要求。
表1 樣本劃分統(tǒng)計表Table 1 Statistical table of sample division
對于紅參提取液的原始光譜,選擇不同的波段并利用標準正態(tài)變換(SNV)、 多元散射校正(MSC)、 求導、 卷積、 差分等10種方法對光譜進行預處理,并建立PLS模型驗證。對比最終選擇1 000~2 099 nm波段作為建模的全光譜,1 100個波長,標準正態(tài)變換(SNV)預處理方法用來建模。
將SNV預處理后的紅參提取液的近紅外全光譜數(shù)據(jù),再利用CARS,UVE,SPA和RF四種方法進行波長篩選,從圖3中可以看出來,四種分析方法,篩選出的波長數(shù)目和分布各不相同。
四種方法篩選出的特征波長數(shù)目分別為: 57,430,8和10,波長數(shù)目大幅度下降,從全光譜的1 100個,分別下降為全光譜的5.2%,39.1%,0.7%和0.9%。
2.3.1 不同光譜篩選算法建模效果對比
利用前面提到的四種特征波長篩選算法提取的特征波長,分別建立PLS模型,建模效果對比如表2所示。
圖3 人參皂苷Rg1含量檢測波長優(yōu)選分布對比圖Fig.3 Comparison of optimal detection wavelength distribution of ginsenoside Rg1 content
表2 不同的特征波長篩選算法PLS模型對紅參皂苷含量建模及性能評價結(jié)果Table 2 Different characteristic wavelength variable selection and performanceevaluation results of red ginsenoside content based on PLS model
從表2對比可以看出,全光譜經(jīng)UVE,CARS和SPA三種算法篩選后,建模波長數(shù)目大大降低,簡化了模型,但精度有所下降; 利用RF算法篩選后,不僅剔除了冗余波長和干擾變量,建模效率和精度還得到了提高。
為了進一步驗證和對比建模的效果,以紅參提取液中含量較高的人參皂苷Rg1為例,將驗證集數(shù)據(jù)輸入不同光譜篩選方法下的PLS模型,得到散點圖如圖4所示。
散點圖上點落在對角線上表示建模預測所得的預測值和真實值相同,樣本點值越接近于對角線說明預測結(jié)果越準確。從圖4可以看出,左下為第二次提取液,右上為第一次提取液,兩次紅參提取液的濃度差距明顯。加入波長篩選四種方法,建模精度都有所提升,特別是圖4(b) RF-PLS模型的樣本點更接近于對角線,預測能力比其他幾種方法的精度高,并且對于兩次提取液Rg1含量預測RF-PLS建模精度都很高,可以進一步證明RF波長篩選算法是一種有效的近紅外光譜定量分析建模方法。
圖4 不同建模方法人參皂苷Rg1含量預測集散點圖Fig.4 Distribution diagrams of ginsenoside Rg1 content predicted by different modeling methods
2.3.2 不同波長篩選算法的穩(wěn)健性分析
為了對比不同的波長篩選算法的穩(wěn)健性,在原始光譜、 全光譜、 SNV預處理后的全光譜三種光譜數(shù)據(jù)上采用波長篩選算法進行對比建模,以RF和CARS兩種波長篩選算法為例,在紅參提取液近紅外建模性能結(jié)果如表3和表4所示。
將表3和表4中數(shù)據(jù)對比可以看出,對三種光譜數(shù)據(jù)采用兩種波長篩選算法建模后,光譜范圍和光譜預處理方法,對CARS算法的建模性能影響較大,RPD數(shù)值變化范圍達2.2以上,對RF波長篩選算法變化較小,RF波長篩選后PLS建模,整體性能都較好,模型評價參數(shù)針對不同的光譜處理跳躍性不大,說明RF算法具有很好的穩(wěn)健性。
表3 RF算法對不同光譜PLS建模性能評價結(jié)果Table 3 PLS modeling and performance evaluation of different spectra based on RF algorithm
表4 CARS算法對不同光譜PLS建模性能評價結(jié)果Table 4 PLS modeling and performance evaluation of different spectra based on CARS algorithm