安思宇,張 磊,尚獻(xiàn)召,岳洪水,柳文媛,鞠愛春*
1. 天津天士力之驕藥業(yè)有公司,天津市中藥注射劑安全性評(píng)價(jià)企業(yè)重點(diǎn)實(shí)驗(yàn)室,天津 300402 2. 中國(guó)藥科大學(xué)藥物質(zhì)量與安全預(yù)警教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210009
近紅外光譜技術(shù)(near infrared spectroscopy, NIR)具有分析速度快、分析效率高、分析成本低、可偶聯(lián)光纖進(jìn)行遠(yuǎn)距離操作、操作技術(shù)要求低等優(yōu)勢(shì),已經(jīng)成為過程分析技術(shù)的重要組成部分。通過建立中藥生產(chǎn)過程關(guān)鍵質(zhì)量指標(biāo)的NIR定量分析模型,可以實(shí)現(xiàn)活性成分的快速無損測(cè)定,控制中藥產(chǎn)品生產(chǎn)過程質(zhì)量穩(wěn)定性。注射用益氣復(fù)脈(凍干)是基于傳統(tǒng)中藥古方生脈散發(fā)展起來的一種新型凍干粉針制劑,由紅參、麥冬、五味子3種藥材組成,具有益氣復(fù)脈,養(yǎng)陰生津的功效??傇碥蘸渴亲⑸溆靡鏆鈴?fù)脈(凍干)紅參提取過程的質(zhì)量指標(biāo),因此需要建立該指標(biāo)的監(jiān)測(cè)方法控制注射用益氣復(fù)脈(凍干)生產(chǎn)過程質(zhì)量。
NIR存在吸收強(qiáng)度弱且譜區(qū)信息重疊嚴(yán)重等瓶頸問題[1-2],進(jìn)行光譜預(yù)處理雖然可以消除一些影響因素帶來的干擾信息,但是有效的波長(zhǎng)仍然掩蓋在整條光譜中,因此選擇適當(dāng)?shù)淖兞亢Y選方法是提升模型精度的重要手段。目前主要的變量篩選方法有: 連續(xù)投影方法(successive projections algorithm,SPA)[3]、間隔偏最小二乘法(interval partial least squares,IPLS)[4]、移動(dòng)窗口偏最小二乘法(moving window partial least squares,MWPLS)[5]、無信息變量消除法(uninformative variable elimination,UVE)[6]和遺傳算法(genetic algorithm,GA)[7]以及OPUS、TQ Analyst等光譜分析軟件自帶的變量篩選方法,它們都是一次性變量篩選方法且沒有考慮到變量之間的交互作用。
模型集群分析(model population analysis, MPA)的思想打破了傳統(tǒng)的一次性建模思路[8],隨機(jī)蛙跳法(random frog,RF)[9-10]、競(jìng)爭(zhēng)自適應(yīng)重加權(quán)(competitive adaptive reweighted sampling,CARS)[11-12]、變量組合集群分析法(variable combination population analysis,VCPA)[13-14]以及迭代保留信息變量(iteratively retaining informative variables,IRIV)[15-16]等都是在MPA思想下衍生出的變量篩選方法。其中RF[9-10]、CARS[11-12]已經(jīng)廣泛用于近紅外光譜信息變量篩選中以提高模型性能,而對(duì)于VCPA與IRIV的應(yīng)用研究較少, 目前未有在中藥生產(chǎn)過程質(zhì)量檢測(cè)的應(yīng)用實(shí)例。本研究采用VCPA迭代IRIV[17]變量篩選算法建立紅參總皂苷偏最小二乘(partial least squares,PLS)定量分析模型,對(duì)預(yù)測(cè)集總皂苷含量進(jìn)行預(yù)測(cè),并與其他變量篩選條件下建立的模型性能進(jìn)行比較。
MATRIX-F型傅里葉變換近紅外光譜儀(德國(guó)Bruker),配有OPUS數(shù)據(jù)處理軟件(版本7.5); SHIMADZU UV-2600紫外-可見分光光度計(jì)(日本Shimadzu); MS204TS型電子分析天平(瑞士Mettler Toledo); MATLAB數(shù)學(xué)軟件(美國(guó)MathWorks); 紅參提取過程終產(chǎn)物(天津天士力之驕藥業(yè)有限公司提供,共55批,批號(hào)A1—A55); 人參皂苷Re對(duì)照品(中國(guó)藥品生物制品檢定研究院)。
1.2.1 供試品溶液的制備
精密稱定0.1 g紅參提取終產(chǎn)物,用10 mL 0.5 mol·L-1氫氧化鈉溶液溶解,上預(yù)先處理好的AB-8樹脂柱,分別用0.5 mol·L-1的氫氧化鈉的20%甲醇溶液與20%甲醇溶液洗脫雜質(zhì),最終用甲醇洗脫待測(cè)物,過濾膜,取續(xù)濾液作為供試品溶液。
1.2.2 對(duì)照品溶液制備
精密稱取人參皂苷Re對(duì)照品,加甲醇制成每1 mL含2 mg的溶液,搖勻,即得。
1.2.3 測(cè)定條件
精密量取對(duì)照品溶液20,40,60,80和100 μL,及供試品溶液40 μL,分別置于10 mL具塞試管中。置水浴中揮盡溶劑后取出,放冷,精密加新配制含5%香草醛的冰醋酸溶液和高氯酸混和液(2∶8) 1 mL,搖勻。置60 ℃水浴中加熱15 min,取出,立即置冰浴中冷卻2 min。精密加冰醋酸5 mL,搖勻,在室溫下放置5 min。以相應(yīng)試劑為空白,在550 nm處測(cè)定吸收度,計(jì)算,即得。
稱取2.5 g紅參提取終產(chǎn)物,使用純化水定容至25 mL,混勻,使提取物充分溶解。將所得溶液轉(zhuǎn)移至離心管,使用德國(guó)Bruker公司MATRIX-F型近紅外光譜儀采集近紅外光譜。以內(nèi)部空氣作為參比,光譜采集模式為透射,采集方式為在線探頭采集。NIR采集參數(shù)為: 光程為2 mm,分辨率為2 cm-1,光譜掃描范圍4 000~12 000 cm-1,掃描32次。收集樣本的原始光譜如圖1。
采用1.2項(xiàng)中的紫外可見分光光度法測(cè)定樣本中的總皂苷值,利用聯(lián)合x-y距離的樣本集劃分(sample set partitioning based on joint x-y distance, SPXY)方法將55批紅參樣本分為40個(gè)校正樣本與15批外部檢驗(yàn)樣本。
圖1 紅參提取物原始近紅外光譜Fig.1 Original near infrared (NIR) spectra of red ginseng
表1 紅參提取物校正集和驗(yàn)證集的劃分結(jié)果Table 1 Statistical characteristics of total saponins value
常見的光譜預(yù)處理方法有均值中心化、多元散射校正、卷積平滑法和小波變換等。本研究的預(yù)處理方法均為多元散射校正(multiplicative scatter correction,MSC),用來修正各樣品近紅外光譜間的相對(duì)基線平移和偏移現(xiàn)象。
為了比較不同變量篩選方法對(duì)紅參提取物總皂苷近紅外定量模型的影響,將經(jīng)過MSC預(yù)處理的紅參總皂苷光譜數(shù)據(jù)分別利用VCPA-IRIV,VCPA,CARS,RF以及OPUS軟件自帶的變量篩選方法進(jìn)行變量篩選。
其中VCPA-IRIV運(yùn)用二進(jìn)制矩陣采樣法(BMS)從紅參提取物近紅外光譜變量中采樣1 000次,得到1 000組不同的變量組合,運(yùn)用PLS方法分別對(duì)這1 000組變量組合進(jìn)行光譜建模,計(jì)算交叉驗(yàn)證均方根誤差(cross validation root mean square error, RMSECV)最小的前15%的變量組合中各光譜變量出現(xiàn)的次數(shù),以及RMSECV最大的前5%的變量組合中光譜變量出現(xiàn)的次數(shù),兩者相減即為相應(yīng)光譜變量的貢獻(xiàn)值。運(yùn)用指數(shù)遞減(EDF)函數(shù)迭代運(yùn)行40次,刪除貢獻(xiàn)小的變量,最終剩下100個(gè)變量。迭代結(jié)束后每個(gè)變量被選擇的頻率如圖2。接著聯(lián)用IRIV方法,BMS采樣200次,逐個(gè)波長(zhǎng)變量計(jì)算包含和不包含該變量時(shí)的RMSECV 平均值,得到兩者之差DMEAN(difference of mean values)和非參數(shù)檢驗(yàn)方法曼-惠特尼U檢驗(yàn)的P值,按表2所示變量篩選規(guī)則去除無信息與干擾信息變量,保留強(qiáng)信息與弱信息波長(zhǎng)變量,經(jīng)多次迭代循環(huán)直至無信息和干擾信息變量全部消除,最終篩選出18個(gè)變量。接下來為了體現(xiàn)VCPA與IRIV聯(lián)用的優(yōu)越性,單獨(dú)使用VCPA方法進(jìn)行變量篩選。
CARS模仿進(jìn)化論中的“適者生存”法則,采用蒙特卡洛采樣法抽取80%的樣本為校正集,建立PLS回歸模型,計(jì)算每個(gè)變量回歸系數(shù),回歸系數(shù)絕對(duì)值越大則貢獻(xiàn)值越大,利用EDF函數(shù)去除貢獻(xiàn)值小的波長(zhǎng)點(diǎn),此過程迭代500次,得到500組不同的變量子集,最后建立每個(gè)子集的PLS回歸模型,其中RMSECV最小的變量子集即為最優(yōu)子集。
RF是一種類似可逆跳轉(zhuǎn)的馬爾科夫鏈蒙特卡洛算法,通過在模型空間模擬一條正態(tài)分布的馬爾可夫鏈來計(jì)算每個(gè)變量被選擇的概率,進(jìn)而實(shí)現(xiàn)變量選擇,迭代1 000次后,被選擇概率前10的波數(shù)變量為最后的特征變量。以上4種變量篩選算法均在MATLAB軟件中使用。
光譜采集用的MATRIX-F型傅里葉變換近紅外光譜儀,附帶數(shù)據(jù)處理分析軟件OPUS,該軟件自帶的變量篩選方法操作簡(jiǎn)便、應(yīng)用廣泛,考察該軟件所建PLS模型的性能,可以論證MPA下衍生的變量篩選方法是否有推廣應(yīng)用的價(jià)值。
表2 變量篩選規(guī)則Table 2 Variable classification rules
圖2 VCPA-IRIV變量篩選過程中變量被選擇的次數(shù)Fig.2 The frequency of variables selected by VCPA-IRIV
用不同方法篩選出的變量建立PLS定量分析模型,并對(duì)建模結(jié)果進(jìn)行統(tǒng)計(jì),結(jié)果如表3所示。
表3 不同變量篩選方法的模型結(jié)果Table 3 Comparison on modeling results by differentvariables screening methods
結(jié)果表明OPUS軟件自帶變量篩選方法以及CARS、RF雖然減少了冗余信息,但是其建模效果并不理想,Rc分別為0.601 3,0.565 3與0.644 0,與全波長(zhǎng)光譜建模效果相當(dāng),并沒有成功篩選出有效變量。這是因?yàn)镺PUS軟件采用一次性采樣方法建模,且只能篩選成段的變量,CARS利用蒙特卡洛采樣法在樣本空間進(jìn)行重復(fù)取樣,RF利用蒙特卡洛采樣法在變量空間進(jìn)行重復(fù)取樣,卻都沒有考慮到變量之間的組合效應(yīng),不適用于提取紅參提取物中的有效變量。
VCPA-PLS模型的Rc為0.951 2,是所有方法中最高的,但是其RSEP(%)為9.95%,預(yù)測(cè)效果沒有VCPA-IRIV-PLS好,且其RMSEC與RMSEP之間差值最大,過擬合現(xiàn)象最嚴(yán)重。這表明雖然VCPA方法可以通過BMS采樣得到1 000組不同的變量組合,很好地考慮了變量組合效應(yīng),但是當(dāng)變量數(shù)遠(yuǎn)大于樣本數(shù)時(shí),VCPA無法實(shí)現(xiàn)所有變量的組合,容易受到無關(guān)信息與干擾信息的影響,導(dǎo)致模型的過度擬合,而IRIV可以更好地去除無關(guān)信息與干擾信息,兩者聯(lián)用時(shí)可以很好地彌補(bǔ)自身的缺點(diǎn),提高模型預(yù)測(cè)效果。因此VCPA-IRIV更適用于紅參提取物總皂苷的模型建立,可以用來檢測(cè)本公司注射用益氣復(fù)脈(凍干)生產(chǎn)過程,紅參提取過程終產(chǎn)物的總皂苷值。
VCPA-IRIV在考慮變量組合效應(yīng)的同時(shí),很好地排除無關(guān)信息與干擾信息變量,不僅解決了紅參提取物中的變量篩選問題,也為變量之間存在相關(guān)關(guān)系的近紅外定量分析模型的擬合帶來思路,該方法的推廣有利于近紅外光譜技術(shù)在中藥制劑生產(chǎn)過程的質(zhì)量控制中的應(yīng)用。將該方法應(yīng)用于其他分析對(duì)象時(shí),可通過調(diào)整相關(guān)控制系數(shù),以達(dá)到最佳的模型擬合效果,除了IRIV,還可以在VCPA的基礎(chǔ)上疊加使用其他變量選擇方法,以提升相關(guān)質(zhì)量指標(biāo)分析模型的預(yù)測(cè)性能。