楊 銘, 陳佳蕾, 余敏英, 史秀峰, 顧希鈞, 鈕慧玨, 徐 嘉
(1.上海中醫(yī)藥大學附屬龍華醫(yī)院藥劑科上海 200032;2.復旦大學附屬腫瘤醫(yī)院藥劑科上海 200032)
美國FDA在2004年提出把過程分析技術(Process Analytical Technology,PAT)作為一個創(chuàng)新藥品開發(fā)、生產(chǎn)和質量保證的重要手段[1]。據(jù)此,國內(nèi)中醫(yī)藥學者[2-3]認為PAT技術能夠實現(xiàn)中藥生產(chǎn)的全過程質量控制,是提高中藥產(chǎn)品質量,推進中藥產(chǎn)業(yè)現(xiàn)代化發(fā)展的必由之路。而PAT技術的關鍵性問題是需要研發(fā)中藥材和中成藥產(chǎn)品快速分析技術,建立中藥生產(chǎn)過程在線分析方法學,實現(xiàn)中藥制藥過程質量監(jiān)測和優(yōu)化控制。
光譜分析具有操作簡單,成本低和樣本處理量大的特點,可實現(xiàn)藥品質量的快速分析,仍然是目前主要的藥品快速分析方法。近年來,眾多學者[4-5]應用了近紅外光譜分析結合化學計量學,實現(xiàn)了部分中藥制劑生產(chǎn)的過程分析的在線檢測。近紅外光譜技術是目前藥品快速分析的普遍方法,其實,對于那些具有紫外吸收的中藥,紫外(UV)光譜法同樣也可以實現(xiàn)藥品的快速分析[6-7]。
由于光譜信息量大,重疊嚴重,本試驗為提高模型校正的速度與建模效率,提出使用連續(xù)投影算法(Successive Projections Algorithm,SPA)對紫外光譜進行特征波長的優(yōu)選。SPA算法是一種新興的光譜變量篩選方法,SPA能在光譜矩陣中尋找含有最低限度的冗余信息的變量組,使得變量之間的共線性達到最小,最大限度地降低模型的復雜度,并以其簡單、快速的特點在紅外光譜篩選中得到了一定的應用[8]。
秦皮具有清熱燥濕,收澀,明目的功能。作為本院制劑秦冰滴眼液的主要原料藥材,其質量將直接關系到制劑的質量。本試驗采用連續(xù)投影算法結合偏最小二乘法(partial least squares,PLS)建立秦皮提取液中秦皮甲素的快速分析模型,從而為秦皮提取的過程分析提供有效的快速檢測手段。
日本島津 LC-10Avp高效液相色譜儀,SPD-10Avp紫外檢測器,CTO-10Avp柱溫箱,Class-vp色譜工作站,Kromasil LAAI-KR006 C-18色譜柱(250 mm ×4.6 mm,5μm),日本島津 UV-2450紫外分光光度計,Sartorius BS110S精密電子天平,SB2200超聲儀(上海必能信超聲儀器公司),TGL-16G臺式高速離心機(上海醫(yī)用分析器械廠)。
秦皮甲素對照品購自中國藥品生物制品檢定所(批號0740-200104),甲醇為色譜純,水為純凈水,其他試劑均為分析純。使用的軟件為基于MATLAB的 Robust Calibration Toolbox(http://www.chemometria.us.edu.pl)。
本實驗所選用的12批秦皮均通過上海市食品藥品檢驗所吳趙云教授鑒定,其來源見表1。
3.1.1 HPLC 供試品溶液制備
精密稱定秦皮藥材粗粉4.0 g,置于具塞錐形瓶中,移取100 mL水,搖勻。超聲提取,并于30 min取樣,以后每隔10 min取一次樣,總提取時間80 min。樣液過濾,高速離心(5 000 r/min)10 min,取上清液經(jīng)微孔濾膜(0.45 μm)過濾,作為供試品溶液。12批藥材共得72個供試品溶液。
3.1.2 紫外(UV)光譜供試品溶液制備
表1 秦皮來源及批號Tab.1 Source of Fraxini Cortex
精密量取3.1.1項下所得各溶液0.1 mL于10 mL量瓶中,加水定容,搖勻即得。
3.1.3 對照品溶液制備
精密稱定秦皮甲素對照品10 mg置于10 mL量瓶中,加甲醇定容,作為對照品母液。再精密量取秦皮甲素母液3 mL,至10 mL量瓶,用甲醇定容,搖勻,即得濃度為300μg/mL的秦皮甲素對照品溶液。
HPLC法測定秦皮提取液中秦皮甲素的色譜條件參見文獻[9-10],并對該法進行了相應的方法學考察,結果方法精密度,重現(xiàn)性與穩(wěn)定性(54 h內(nèi))RSD均小于3.0%(n=6),平均回收率為103.41%,RSD=1.46%(n=6)。以保留時間定性,峰面積定量,外標法計算。結果72個秦皮提取液樣本秦皮甲素的質量濃度均值為3.095μg/mL,質量濃度范圍1.260 ~5.517μg/mL。
取3.1.2項下供試品溶液,以水為空白,在200~400 nm間,采樣間隔為0.5 nm,測定各供試品溶液的吸收度,得到樣本數(shù)×波長點數(shù)數(shù)據(jù)矩陣,即該矩陣大小為72×401。
異常值對模型的擬合精度和預測精度都會產(chǎn)生相當大的影響,對于異常值的剔除,主要有基于統(tǒng)計的檢測,基于距離的檢測及基于偏離的檢測[11],本試驗采用基于距離測度的SCADA算法(Spss Clementine Anomaly Detection Algorithm,SCADA),該算法先根據(jù)相似性運用二階聚類算法將樣本進行歸類,再依次計算各樣本的類內(nèi)距離及類間距離來確定異常指數(shù),算法原理可參考文獻[12],SCADA算法默認將異常指數(shù)大于2的樣本確認為異常值。由于光譜變量間存在高度相關,因此本試驗先對樣本光譜數(shù)據(jù)進行主成分壓縮后再進行SCADA檢測。結果前2個主成分的累計方差貢獻率大于90%,基本保留了樣本信息,SCADA算法對主成分的投影空間進行分析發(fā)現(xiàn)1個異常樣本(第54號),見圖1。
圖1 異常值檢測結果Fig.1 Result of anomaly detection
光譜分析的定量建模需要大量的樣本,選擇有代表性的校正集樣品不但可以減少建模的工作量,而且直接影響所建模型的適用性和準確性。目前,比較常用的樣本劃分方法主要有隨機法(RS),Kennard-Stone算法(KS)及雙向算法(Duplex)等。本試驗采用SPXY算法[13]對樣本進行劃分。SPXY算法是在KS算法基礎上發(fā)展而來,通過計算各個樣本自變量和因變量之間的歐氏距離,選擇出樣品集中最具有代表性的樣品作為校正集。SPXY算法優(yōu)點在于能夠有效地覆蓋多維向量空間,從而改善所建模型的預測能力。本試驗應用SPXY算法對剔除了異常樣本后的71個樣本,按照5∶1的比例劃分校正集和預測集樣本,劃分結果見表2。
表2 樣本劃分結果Tab.2 Result of selecting a representative subset by SPXY
SPA算法是一種前向循環(huán)選擇方法,它從一個波長開始,每次循環(huán)計算它在未選入的波長上的投影,將投影向量最大的波長引入到波長組合,直到循環(huán)需要選出的波長數(shù)的次數(shù)。每一個新選入的波長都與前一個線性關系最小。SPA算法的具體步驟如下[8]。
①初始化n=1(第一次迭代),在光譜矩陣中任選一列向量xj,記為xk(0);
②集合 S 定義為:S={j,1≤j≤K,j?{k(0),…,k(n-1)}},即還沒有被選擇進波長鏈的列向量,分別計算xj對S中向量的投影向量Pxj
③記錄最大投影的序號:k(n)=arg(max‖pxj‖,j∈s);
④將最大投影作為下輪的投影向量:xj=Pxj,j∈s;
⑤n=n+1,如果小于總迭代次數(shù),回到②繼續(xù)投影;
本試驗采用留一交互驗證法所得的預測均方根誤差(RMSE)來評價SPA中每一步所得到的波長組合,最小的RMSE對應的波長組合及波長數(shù)即是篩選結果。
SPA篩選結果見圖2,共篩選到65個特征波長點,占總波長數(shù)的16.21%,留一法預測均方根誤差RMSE=0.011 37。
圖2 SPA特征波長篩選結果Fig.2 Selected wavelength by SPA
交互驗證是確定模型參數(shù)的有效方法,本文采用蒙特卡羅交互驗證法[13](Monte Carlo Cross-Validation,MCCV)確定PLS潛變量數(shù)。蒙特卡羅交互驗證的基本思想以較多樣本作為驗證集為前提,隨機地將樣本分割為兩部分,Sc(i)(校正集)和Sv(i)(驗證集),每次都隨機選出一定數(shù)量(n)的樣本作為驗證集,通過N次運算后,得到驗證集樣本的RMSECV來確定模型最佳潛變量數(shù)。其中yv分別為驗證集樣本的實測值與通過模型得到的預測值,k為模型的潛變量數(shù),n為驗證集樣本數(shù),N為迭代次數(shù)。因此只需確定n與N,所得到的最小的RMSECVmccv所對應的k,即是模型最佳的潛變量數(shù)。
本試驗取6n=12,N=500,對k值1~30,進行MCCV運算。結果見圖3,可見當k=9時,RMSECVmccv達到最小,所以模型確定的潛變量數(shù)為9。
圖3 PLS潛變量數(shù)的選擇
Fig.3 Number of factors selection by MCCV
以校正集樣本(59個)UV光譜的65個特征波長為自變量,相應HPLC分析值為因變量,潛變量數(shù)為9個,進行 PLS建模,以模型擬合均方根誤差(RMSEC)與模型擬合相關系數(shù)(RC)作為評估模型的擬合能力,以預測集樣本(12個)的模型預測值與實測值的均方根誤差(RMSEP)及相關系數(shù)(RP)作為評估模型的預測性能。
其中,m與n分別為校正集樣本數(shù)與預測集樣本數(shù),y與y^分別為實測值與模型預測值或擬合值。與不做SPA波長篩選的全譜模型作比較,結果見表3??梢奡PA-PLS法所建的模型的擬合性能與預測能力均略高于全譜PLS模型。SPA-PLS法對12個預測集樣本的預報結果見表4,SPA-PLS預報的平均準確度達99.38%,RSD為2.47%,并對該方法進行了相應的精密度、重現(xiàn)性及穩(wěn)定性(每12 h測定一次,共8次)考查,結果秦皮甲素、秦皮乙素及秦皮素的精密度、重現(xiàn)性的RSD(n=7)均小于3.0%,并在84 h內(nèi)穩(wěn)定,RSD<3.0%(n=8)??梢娊?jīng)SPA-PLS法建立的模型可以滿足快速定量分析秦皮提取液中秦皮甲素量的要求。
表3 模型比較Tab.3 Comparison of different models
表4 SPA-PLS預報結果Tab.4 Result of prediction by SPA-PLS
本實驗運用SPA算法對UV光譜數(shù)據(jù)進行壓縮,提取出特征波長,再運用PLS法建模,建立了秦皮提取液中秦皮甲素的快速定量分析模型。實驗結果表明,SPA算法可以有效消除UV光譜數(shù)據(jù)的冗余信息,從而降低模型的復雜度,SPA-PLS模型的擬合能力及預測性能均略高于全譜PLS模型。據(jù)此,SPA-PLS結合UV光譜可以實現(xiàn)對UV有吸收的中藥的快速分析,具有一定的應用推廣價值。
5.1 提取時間的選擇 曾對超聲提取的時間做過考察,考察總時間達120 min,并每間隔10 min取樣一次進行分析,結果秦皮甲素色譜峰的單位質量峰面積在80 min后趨于恒定,由此確定提取時間為80 min。
5.2 關于SPA算法 SPA算法是一種新興的變量篩選方法,該算法雖然可以比較高效地篩選到特征波長,但是也具有一定的局限性。當波長點數(shù)遠大于樣本數(shù)時,由SPA算法得到的特征波長數(shù)不可能大于樣本數(shù),即SPA算法得到的特征波長數(shù)的上限就是樣本數(shù)。如果SPA算法得到的特征波長等于樣本數(shù)(上限),那么建議再采用其他的變量篩選技術(如遺傳算法、模擬退火算法等)進行驗證,以防漏選。
5.3 關于PLS潛變量數(shù)的選擇 PLS潛變量數(shù)的選擇通常有兩種方法,一種是應用交互驗證法進行篩選,一種是根據(jù)潛變量的貢獻率進行篩選。交互驗證法通常有留一法與n-折交叉驗證。在樣本量足夠大的情況下,留一法的驗證次數(shù)雖然很大,但是每次的驗證樣本數(shù)卻只有一個。n-折交叉驗證(通常n=10,即10折)雖然可以有1/n的驗證樣本數(shù),但是驗證的次數(shù)只有n。MCCV法通過指定驗證集樣本數(shù)及迭代次數(shù),可以達到較大的驗證樣本數(shù)及較大的驗證次數(shù),從理論上說MCCV法是一種比較高效的交互驗證方法。本試驗曾按照貢獻率法得到的潛變量數(shù)為5個(前5個累計貢獻率達99%以上),其 RMSEC及 RMSEP分別為 0.3033與0.2420,可見其擬合能力及預測性能均低于本試驗采用的MCCV法篩選的結果。
[1]U.S.Department of Health and Human Services Food and Drμg Administration.Guidance for Industry PAT.[EB/OL].2004.http://www.fda.gov/cvm/guidance/published.html.
[2]湯繼亮.我國中藥自動化工程項目在規(guī)劃、設計和實施中的有關問題[J].中國醫(yī)藥工業(yè)雜志,2008,39(4):308-312.
[3]湯繼亮,丁紅星.談我國醫(yī)藥工業(yè)自動化與信息化之路[J].醫(yī)藥工程設計,2007,28(1):1-44.
[4]楊輝華,王 勇,吳云鳴,等.丹參多酚酸鹽柱層析過程的近紅外光譜在線檢測及質量控制[J].中成藥,2008,30(3):409-412.
[5]王 靜,莫必琪,李 斌,等.近紅外光譜法預測紅參醇提過程中總皂苷的變化研究[J].中草藥,2007,38(9):1323-1326.
[6]趙明波,姜 勇,張洪全,等.大孔吸附樹脂純化貫葉金絲桃總黃酮的在線檢測研究[J].中國中藥雜志,2008,33(7):769-772.
[7]胡秀麗,游景艷,張寒琦,等.動態(tài)超聲萃取分光光度法在線測定紅花中的總紅花黃色素[J].高等學?;瘜W學報,2008,29(4):690-693.
[8]陳 斌,孟祥龍,王 豪.連續(xù)投影算法在近紅外光譜校正模型優(yōu)化中的應用[J].分析測試學報,2007,26(1):66-69.
[9]楊 銘,余敏英,史秀峰,等.BP神經(jīng)網(wǎng)絡結合遺傳算法多目標優(yōu)化秦皮提取工藝的研究[J].中國中藥雜志,2008,33(22):2622-2626.
[10]楊 銘,周寅敏,陳佳蕾,等.遺傳算法在秦皮提取液混批勾兌中的應用[J].中國中藥雜志,2009,34(20):2594-2598.
[11]Han Jiawei,Kamber M,范 明,等譯.數(shù)據(jù)挖掘:概念與技術[M].北京:機械工業(yè)出版,2005:254-259.
[12]SPSSInc.Anomaly Detection Algorithm.Clementine 11.0 Algorithms Guide[M].USA:Integral Solutions Limited,2006:15-20.
[13]展曉日,朱向榮,史新元,等.SPXY樣本劃分法及蒙特卡羅交叉驗證結合近紅外光譜用于橘葉中橙皮苷的含量測定[J].光譜學與光譜分析,2009,29(4):964-968.