, , , ,
(1.南京林業(yè)大學(xué)輕工與食品學(xué)院,江蘇南京 210037;2.第二軍醫(yī)大學(xué)藥學(xué)院,上海 200433)
藥品現(xiàn)場(chǎng)抽檢是藥品監(jiān)督管理工作中的必要技術(shù)支撐,但傳統(tǒng)的檢測(cè)方法存在著費(fèi)時(shí)、步驟繁瑣、破壞樣品以及難以實(shí)現(xiàn)在線檢測(cè)等缺點(diǎn),因此如何實(shí)現(xiàn)藥品現(xiàn)場(chǎng)高效、快速以及低成本的檢測(cè)已經(jīng)成為近年來(lái)的研究熱點(diǎn)[1 - 2]。拉曼光譜分析技術(shù)是基于拉曼散射效應(yīng)發(fā)展起來(lái)的一種快速檢測(cè)方法,主要研究分子的振動(dòng)與轉(zhuǎn)動(dòng)信息,與常規(guī)化學(xué)分析方法相比,拉曼光譜分析技術(shù)具有檢測(cè)時(shí)間短、操作簡(jiǎn)單、無(wú)損等特點(diǎn)[3],因此該技術(shù)在材料、化工、生物、食品等領(lǐng)域的定性定量分析中得到了廣泛的應(yīng)用[4 - 7]。近年來(lái),隨著化學(xué)計(jì)量學(xué)方法和光譜儀器的不斷完善和發(fā)展,拉曼光譜分析技術(shù)在藥品的定性定量分析領(lǐng)域中也取得了諸多成果[8 - 10]。但以往研究中,較少有關(guān)于在藥品拉曼光譜定性判別方面進(jìn)行綜合比較分析的研究。常用的判別分析方法有很多種,如Fisher判別法[11]、線性學(xué)習(xí)機(jī)(LinearLearningMachine,LLM)、簇類(lèi)獨(dú)立軟模式(SoftIndependentModelingofClassAnalogy,SIMCA)[12]、人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)[13]、K-最鄰近法(K-NearestNeighborMethod,KNN)[14]、貝葉斯(Byes)判別法等,因此選擇能適用于多種藥品拉曼光譜快速、準(zhǔn)確分析的判別算法對(duì)于用藥安全,以及推廣該技術(shù)在藥品檢測(cè)領(lǐng)域的應(yīng)用具有重要的意義。
本研究采用拉曼光譜和4種模式識(shí)別算法(SIMCA、KNN、Fisher、LLM)相結(jié)合對(duì)藥品進(jìn)行快速判別分析。首先采集了甲硝唑、消旋山莨菪堿、卡托普利、阿昔洛韋4種片劑共452個(gè)藥品的拉曼光譜,在對(duì)原始光譜進(jìn)行預(yù)處理和主成分分析(PCA)的基礎(chǔ)上,利用4種算法按照活性藥物成分(ActivePharmaceuticalIngredients,API)建立分類(lèi)模型,用于藥品API的識(shí)別;然后按照上述相同的步驟,分別采用4種算法建立可同時(shí)識(shí)別藥品API及其生產(chǎn)廠家的分類(lèi)模型。
R10激光拉曼光譜儀(上海儀電分析儀器有限公司)。激勵(lì)波長(zhǎng):785nm;光譜分辨率:8cm-1;波數(shù)范圍:200~2600cm-1;激光最大輸出功率:300mW;積分時(shí)間:3000ms。
實(shí)驗(yàn)所用的片劑甲硝唑、消旋山莨菪堿、卡托普利、阿昔洛韋樣品共452個(gè)均由上海市食品藥品檢驗(yàn)所提供,樣品具體信息見(jiàn)表1。由表1可知,若只考慮API分類(lèi),樣品集可分為4類(lèi);若同時(shí)考慮API和生產(chǎn)廠家,則可分為9類(lèi)。
表1 藥片樣品分布
用刀片將待測(cè)藥片切平整以去除包衣,置于稱(chēng)量紙上,將光譜儀的探頭套上套筒,然后在片劑磨平的一面選取一個(gè)點(diǎn)進(jìn)行光譜采集,采集時(shí)激光功率為最大功率的70%,每個(gè)點(diǎn)重復(fù)測(cè)量3次,然后取平均光譜作為該樣品的原始光譜。
本研究數(shù)據(jù)分析采用NIRSA系統(tǒng)以及Matlab2010b軟件平臺(tái)。NIRSA系統(tǒng)是本實(shí)驗(yàn)室自主開(kāi)發(fā)的,專(zhuān)門(mén)用于光譜數(shù)據(jù)處理的化學(xué)計(jì)量學(xué)軟件,本研究中主要用于光譜數(shù)據(jù)的預(yù)處理以及判別模型的建立。Matlab2010b平臺(tái)則主要用于樣本集的劃分及判別效果評(píng)價(jià)。所建模型的性能通過(guò)校正集正確率、預(yù)測(cè)集正確率和建模所需的主成分?jǐn)?shù)來(lái)綜合評(píng)價(jià)。
本實(shí)驗(yàn)中,452個(gè)樣品分別按照以下兩種方式進(jìn)行校正集和預(yù)測(cè)集的劃分:(1)按藥片API劃分。由表1可知,樣品共有4類(lèi),其中甲硝唑120個(gè)、消旋山莨菪堿124個(gè)、卡托普利144個(gè)、阿昔洛韋64個(gè),將每類(lèi)樣品按照3∶1的比例隨機(jī)劃分成校正集1(共340個(gè))和預(yù)測(cè)集1(共112個(gè))。(2)按藥片API及其生產(chǎn)廠家劃分。將上述(1)的校正集和預(yù)測(cè)集中每類(lèi)樣品再按照生產(chǎn)廠家進(jìn)行劃分,則甲硝唑、消旋山莨菪堿和阿昔洛韋又各分為2類(lèi),卡托普利可分為3類(lèi),因此兩個(gè)集合都包含9類(lèi)藥品,分別命名為校正集2和預(yù)測(cè)集2。
由于所有樣品的光譜在1 800~2 600 cm-1內(nèi)沒(méi)有拉曼峰出現(xiàn),且拉曼強(qiáng)度基本保持在0左右,表明該波段不包含反應(yīng)樣品性質(zhì)的有效信息,因此截取200~1 800 cm-1范圍的光譜用于分析。圖1為波段截取后校正集1中的4種藥品光譜。從圖中可以看出,由于API不同,4種藥品波峰出現(xiàn)的位置和峰的強(qiáng)度都有較大差別,如在1 180 cm-1,甲硝唑具有很強(qiáng)的拉曼譜峰,而其他3種藥品基本沒(méi)有吸收。圖2為校正集2中3個(gè)廠家生產(chǎn)的卡托普利光譜,可以看出不同廠家生產(chǎn)的同一類(lèi)藥品的光譜相似度較高,主要差異為峰的強(qiáng)度差異,而拉曼峰所在的位置基本一致。
由于樣品的狀態(tài)、儀器的響應(yīng)、雜散光等因素的影響,所測(cè)光譜中除了待測(cè)樣品的信息外還包含了其他的背景干擾信息。因此在建立模型時(shí),對(duì)光譜進(jìn)行預(yù)處理以消除無(wú)關(guān)信息和噪聲是很有必要的[15]。分別采用9點(diǎn)一階微分、7點(diǎn)Savitzky-Golay(SG)卷積平滑、標(biāo)準(zhǔn)正態(tài)變量變換(Standard Normal Variate Transformation,SNV)、多元散射校正(Multiplicative Scatter Correction,MSC)等預(yù)處理方法,以及它們的組合對(duì)光譜進(jìn)行預(yù)處理,通過(guò)多次比較發(fā)現(xiàn),光譜經(jīng)MSC預(yù)處理之后的建模效果最好。
2.3.1按API分類(lèi)按照API進(jìn)行分類(lèi),校正集1和預(yù)測(cè)集1樣品可分為9類(lèi)。對(duì)340個(gè)校正集樣品分別采用4種方法進(jìn)行建模,預(yù)測(cè)集中112個(gè)樣品用于檢驗(yàn)?zāi)P蛯?duì)未知藥品的識(shí)別能力。模型的各項(xiàng)指標(biāo)如表2所示,其中SIMCA模型中的顯著水平為0.01,KNN模型中的所選取的近鄰樣本的個(gè)數(shù)k=5。由表2可知,這4種方法僅需要提取較少的主成分就能使模型的預(yù)測(cè)正確率達(dá)到100%,這是因?yàn)?種藥品不同API導(dǎo)致其光譜之間差異較大,所以?xún)H需從原始光譜中提取少量信息就能完全將它們區(qū)分開(kāi)。因此對(duì)于僅考慮API進(jìn)行分類(lèi)的情況,這4種模式識(shí)別算法均可滿足要求,達(dá)到很高的預(yù)測(cè)精度。
圖1 4種藥品的拉曼光譜Fig.1 The Raman spectra of 4 tablets
圖2 3個(gè)廠家的卡托普利的拉曼光譜Fig.2 The Raman spectra of captopril from 3 manufacturers
表2 4個(gè)API分類(lèi)模型預(yù)測(cè)結(jié)果
2.3.2按API和廠家分類(lèi)同時(shí)考慮API和廠家,以便建立能識(shí)別API及其生產(chǎn)廠家的分類(lèi)模型。以校正集2中的9類(lèi)340個(gè)樣品為研究對(duì)象,分別采用4種方法進(jìn)行建模,并對(duì)預(yù)測(cè)集2中的9類(lèi)112個(gè)樣品進(jìn)行識(shí)別。模型的各項(xiàng)指標(biāo)如表3所示,其中SIMCA模型中的顯著水平為0.01,KNN模型中的k=13。
表3 考慮廠家的4個(gè)API分類(lèi)模型預(yù)測(cè)結(jié)果
比較表3和表2可知,兼顧藥品API與生產(chǎn)廠家識(shí)別的模型所需的主成分?jǐn)?shù)明顯增大,4個(gè)模型的最優(yōu)主成分?jǐn)?shù)分別為10、10、11和9,這是因?yàn)椴煌瑥S家生產(chǎn)的同種API藥品的差異主要體現(xiàn)在輔料上,為了能同時(shí)識(shí)別藥物類(lèi)型和生產(chǎn)廠家,因此需要采用更多的主成分從原始光譜中提取足夠的變異信息以利區(qū)分。不過(guò)因輔料的干擾,建模集和預(yù)測(cè)集識(shí)別正確率均有不同幅度的下降,其中SIMCA和KNN模型的預(yù)測(cè)正確率均保持在95%以上,即112個(gè)預(yù)測(cè)集樣品中出現(xiàn)了5個(gè)錯(cuò)判樣品,且錯(cuò)判僅出現(xiàn)在兩個(gè)廠家生產(chǎn)的甲硝唑中;雖然Fisher模型的預(yù)測(cè)集正確率也達(dá)到91.96%,但是其錯(cuò)判的樣品不僅分布在兩類(lèi)甲硝唑片中,在其它類(lèi)別的樣品中也存在;而LLM的預(yù)測(cè)集判別正確率僅為79.46%,顯然達(dá)不到實(shí)際應(yīng)用要求。
從藥品拉曼光譜模式空間角度分析,如果只以不同藥品API來(lái)劃分,因拉曼峰差異明顯,模式空間類(lèi)域分布相對(duì)簡(jiǎn)單,僅用線性的Fisher和LLM分類(lèi)器即能準(zhǔn)確判別。但是當(dāng)還需要識(shí)別同一API藥品的生產(chǎn)廠家時(shí),類(lèi)域分布趨于復(fù)雜,這兩類(lèi)線性判別函數(shù)已經(jīng)無(wú)法準(zhǔn)確劃分藥品的模式空間,而KNN算法則可適用于線性不可分體系。盡管SIMCA算法的核心是基于線性變換的PCA,但其對(duì)每一類(lèi)樣品的光譜構(gòu)造主成分回歸模型用于分類(lèi),具有更確定的特征判別能力[16]。因此表3中,KNN和SIMCA模型預(yù)測(cè)正確率明顯高于Fisher和LLM所建模型。Fish算法通過(guò)類(lèi)間與類(lèi)內(nèi)方差比值最大尋求最佳投影方向,但因僅提取一個(gè)投影向量作為類(lèi)間劃分特征,判別能力欠佳。而LLM算法則按誤差糾正反饋(Error-correction Feedback)法進(jìn)行訓(xùn)練從而調(diào)整判別函數(shù)權(quán)重系數(shù),形成的判別面簡(jiǎn)單且受數(shù)據(jù)分布限制,在樣本空間線性不可分時(shí),LLM算法建立的分類(lèi)器也難以很好地工作[16 - 17]。
針對(duì)以上同時(shí)考慮API和生產(chǎn)廠家分類(lèi)時(shí)4種模型均會(huì)出現(xiàn)甲硝唑錯(cuò)判的情況,本研究通過(guò)比較各類(lèi)樣品光譜之間的相關(guān)系數(shù)進(jìn)行了進(jìn)一步探討。表4中列出了9類(lèi)樣品平均光譜之間的相關(guān)系數(shù)。由表4中9類(lèi)樣品平均光譜之間的相關(guān)系數(shù)可以看出,1號(hào)和9號(hào)樣品即兩類(lèi)甲硝唑之間的相關(guān)系數(shù)最大,達(dá)到0.9990,表明這兩種甲硝唑之間的譜圖相似性很高,這可能是由于這兩個(gè)廠家生產(chǎn)的甲硝唑不僅API含量相同,而且輔料的種類(lèi)以及含量差別也很小,所以?xún)烧咧g在光譜上的也體現(xiàn)很小差異,從而導(dǎo)致了誤判。
表4 9種藥品平均光譜相關(guān)系數(shù)
通過(guò)4種模式識(shí)別算法結(jié)合藥品的拉曼光譜對(duì)藥物按照API和廠家進(jìn)行快速分類(lèi)識(shí)別進(jìn)行了探討。結(jié)果表明:(1)按照藥品API分類(lèi)時(shí),SIMCA、KNN、Fisher和LLM模型僅需提取較少的主成分就能全部正確預(yù)測(cè)。 若同時(shí)識(shí)別藥物API類(lèi)型和生產(chǎn)廠家,則需要從原始光譜中提取更多的主成分以表征藥品之間的差異,且4種方法所建模型預(yù)測(cè)正確率均不同幅度下降,其中Fisher和LLM模型的預(yù)測(cè)精度均不能滿足實(shí)際應(yīng)用要求。(2)從模式空間角度分析,僅以藥品API定義的類(lèi)域分布相對(duì)簡(jiǎn)單,因此4種方法均具有良好的分類(lèi)效果;但當(dāng)不同廠家生產(chǎn)的同種API藥品定義為不同的類(lèi)時(shí),模式類(lèi)域空間分布則趨于復(fù)雜,此時(shí)由Fisher和LLM法生成的線性判別函數(shù)識(shí)別效果較差。SIMCA模型充分利用了各類(lèi)光譜的特征信息,KNN法則具有較好非線性劃分能力,更能適用于藥品的拉曼光譜快速判別分析,這對(duì)于藥品的監(jiān)督管理工作具有重要的現(xiàn)實(shí)意義。(3) SIMCA和KNN模型對(duì)于不同廠家生產(chǎn)的甲硝唑出現(xiàn)誤判是因?yàn)槎吖庾V差異性很小。對(duì)于如何識(shí)別出不同廠家生產(chǎn)的同種API藥品拉曼光譜之間的這種微小差異還有待對(duì)算法的進(jìn)一步改進(jìn)和研究。