張秉華,王小亮
陜西省食品藥品檢驗研究院,西安 710065
長春西汀是長春花堿的半合成衍生物,于20世紀(jì)70年代由匈牙利Gedeon Richter公司研制,具有增加腦血流量、促進頭部葡萄糖和氧的攝取利用、減輕腦缺氧損傷、清除動脈粥樣硬化斑塊等藥理作用,以其顯著的治療效果和極低的毒副作用在臨床上廣泛應(yīng)用,成為治療心腦血管疾病的一線用藥,在我國的使用量逐年增加[1-4]。
目前,對長春西汀的檢驗和質(zhì)量控制方法主要包括用高效液相色譜法測定長春西汀注射液、長春西汀片中長春西汀的含量以及用氣相色譜-質(zhì)譜法測定長春西汀注射液中的長春西汀含量等,而對長春西汀近紅外建模和快速檢驗方法的研究還未見相關(guān)報道[5-8]。
本文將近紅外光譜快速檢測方法和BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)智能算法相結(jié)合,進行了長春西汀注射液的NIR-BP聯(lián)合定量建模方法研究,實現(xiàn)了對長春西汀注射液含量的定量快速檢驗。
Matrix-F近紅外光譜儀(德國Bruker公司),配有1.5 m長固體光纖探頭測樣附件,銦鎵砷(InGaAs)檢測器,OPUS5.5光譜分析軟件(德國Bruker公司);MathWorks公司的MATLAB R2010商用數(shù)學(xué)軟件;高效液相色譜儀(美國Waters公司),配有DAD檢測器;BP211D電子分析天平(德國賽多利斯公司)。
2020年國家評價性抽檢長春西汀注射液樣品,包含8個廠家的78批樣品。
按照國家新藥轉(zhuǎn)正標(biāo)準(zhǔn)56冊“WS1-(X-177)2004Z”用高效液相色譜法測定長春西汀注射液的含量。所有樣本的含量分布和頻數(shù)見圖1,其中大部分樣品的含量分布在4.88~6.04 mg·mL-1范圍內(nèi)。
注:A.含量分布;B.含量頻數(shù)。
定量模型建模時建模集、校正集和預(yù)測集的劃分見表1,建模集、校正集和預(yù)測集的樣本數(shù)量分別為56、10、12,為避免連續(xù)樣本建??赡芤氲南到y(tǒng)誤差,建模時采用隨機取樣方法。樣本前2個主成分分布見圖2,由圖2可知,建模集、校正集和預(yù)測集分布均勻,隨機取樣結(jié)果合理有效。
表1 定量模型建模樣本劃分
圖2 樣本的前兩個主成分得分分布
近紅外光譜測定方法:用液體附件間接測量法,以固體光纖探頭配合液體附件直接測量采集樣品NIR圖譜。光譜掃描范圍為12 000~4 000 cm-1,分辨率8 cm-1,掃描次數(shù)64次,每批樣品測定3次,取其平均值。最終獲得的樣本光譜見圖3。
圖3 經(jīng)平均后的近紅外建模光譜
建模集用于定量模型的建立,校正集參與優(yōu)化模型,提高模型的泛化能力,而預(yù)測集用于對模型的預(yù)測精度檢驗。定量模型的精度通常用相關(guān)系數(shù)R、交叉驗證均方根誤差RMSECV、預(yù)測均方根誤差REMSEP等指標(biāo)來衡量[9-10]。R用于考察樣本預(yù)測值與真實值之間的相關(guān)程度,R約接近1,說明預(yù)測值和真實值之間的相關(guān)程度越高;RMSECV用于評價所建立模型的預(yù)測能力,通過交叉驗證來實現(xiàn);RMSEP用于評價所建立模型對外部獨立樣本的預(yù)測能力,RMSEP越小,說明模型對外部獨立樣本的預(yù)測能力越高。R、REMSECV和RMSEP的具體表示如下:
受測試樣品狀態(tài)、測試設(shè)備誤差、高頻隨機誤差、光散射及雜光等外部因素的影響,近紅外光譜中除了待測樣品的真實響應(yīng)信息外,還包含其他干擾背景信息。通過預(yù)處理可以有效地改進光譜質(zhì)量,提高后續(xù)建模的準(zhǔn)確性。常用的光譜數(shù)據(jù)預(yù)處理方法包括均值中心化MC、Min Max歸一化、一階求導(dǎo)、標(biāo)準(zhǔn)正態(tài)變換SNV、SG平滑、多元散射校正MSC等[11-12],經(jīng)過不同預(yù)處理方法處理后的樣本光譜見圖4。
注:A.均值中心化MC;B.MinMax歸一化;C.一階求導(dǎo);D.標(biāo)準(zhǔn)正態(tài)變換SNV;E.SG平滑;F.多元散射校正MSC。
BP(Back-Propagation)神經(jīng)網(wǎng)絡(luò)是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的前饋多層網(wǎng)絡(luò),網(wǎng)絡(luò)包含輸入層、隱含層和輸出層,每層網(wǎng)絡(luò)均由多個并行計算的神經(jīng)元組成,網(wǎng)絡(luò)層與層之間通過神經(jīng)元連接,而同一層網(wǎng)絡(luò)的神經(jīng)元相互獨立[13-14]。典型多輸入單輸出BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖見圖5,xj表示輸入層第j個節(jié)點的輸入,wij表示隱含層第i個節(jié)點到輸入層第j個節(jié)點的權(quán)值,θi表示隱含層第i個節(jié)點的閾值,Φ表示隱含層的激勵函數(shù),wki表示輸出層第k個節(jié)點到隱含層第i個節(jié)點的權(quán)值,ak表示輸出層第k個節(jié)點的閾值,ψ表示輸出層的激勵函數(shù),yk表示輸出層第k個節(jié)點的輸出。
BP神經(jīng)網(wǎng)絡(luò)具有極強的非線性映射能力,在函數(shù)逼近、模式識別、分類和數(shù)據(jù)壓縮等領(lǐng)域都有廣泛的應(yīng)用[15-19]。理論上,只要隱含層神經(jīng)元的數(shù)量足夠多,BP神經(jīng)網(wǎng)絡(luò)能夠以任意精度對任意非線性映射進行逼近,契合了近紅外光譜定量模型對預(yù)測精度的需求。
圖5 典型多輸入單輸出BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
由于不同的預(yù)處理方法對光譜信息的改善側(cè)重點不同,如導(dǎo)數(shù)預(yù)處理側(cè)重于消除原始光譜的基線漂移及背景因素干擾,而標(biāo)準(zhǔn)正態(tài)變換主要用來消除樣品固體顆粒的大小、光程變化及表面散射對樣品漫反射光譜的影響[20-21]。因此,無法直接對上述6種預(yù)處理方法進行優(yōu)劣判定,但可結(jié)合后續(xù)建模過程,從主成分分析信息解釋程度和定量建模精度兩方面出發(fā)選擇最優(yōu)的光譜預(yù)處理方法。
不同預(yù)處理方法對應(yīng)的主成分累計貢獻率見圖6,除一階求導(dǎo)預(yù)處理方法外,其余5種預(yù)處理方法在前30階主成分的累計貢獻率均超過了99%,說明其他5種預(yù)處理方法均能很好地保留樣本的有效光譜信息,可作為建模備選預(yù)處理方法。
圖6 不同預(yù)處理方法對應(yīng)的主成分累計貢獻率
建立6種預(yù)處理方法的BP神經(jīng)網(wǎng)絡(luò)定量預(yù)測模型,對模型的預(yù)測精度進行對比,見表2。用原始光譜、均值中心化MC、MinMax歸一化、一階求導(dǎo)和SG平滑預(yù)處理光譜進行建模時,所有樣本預(yù)測值與真實值的相關(guān)系數(shù)R均未超過0.900。標(biāo)準(zhǔn)正態(tài)變換SNV預(yù)處理方法所建立模型的交叉驗證均方根誤差最小,但對預(yù)測集的預(yù)測誤差較大,導(dǎo)致其整體相關(guān)系數(shù)R并非最優(yōu)。多元散射校正MSC預(yù)處理方法對應(yīng)的模型預(yù)測值與真實值的相關(guān)系數(shù)R為0.972,為6種預(yù)處理方法中的最優(yōu)值,因此,后續(xù)建模中采用多元散射校正MSC方法對光譜進行預(yù)處理。
通過對建模光譜段的篩選,不僅可以有效降低模型的復(fù)雜程度,還可以剔除大量不相關(guān)的冗余信息,建立預(yù)測能力更強、穩(wěn)健性更好的預(yù)測模型[22-23]。通過對樣本光譜的分析可知,光譜在8 000~12 000 cm-1譜段內(nèi)的吸光度很小,很容易受到噪聲信號的干擾,因此建模時首先剔除該譜段的光譜數(shù)據(jù)。而在4 000 cm-1附近容易受到邊緣效應(yīng)的影響,因此對4 000~4 500 cm-1譜段也不予考慮。從剩余的4 500~8 000 cm-1譜段中選取不同的譜段區(qū)間進行建模預(yù)測,結(jié)果見表3,選取建模譜段為6 000~8 000 cm-1時,可獲得最準(zhǔn)確的模型預(yù)測結(jié)果。
表2 不同預(yù)處理方法的主成分累計貢獻率和模型預(yù)測精度
表3 不同建模譜段對應(yīng)的模型預(yù)測精度
BP神經(jīng)網(wǎng)絡(luò)的設(shè)計一般從網(wǎng)絡(luò)的層數(shù)、每層中神經(jīng)元的數(shù)量、激勵函數(shù)、初始值以及學(xué)習(xí)速率等方面考慮[24-25]。對于一般應(yīng)用,1~2層隱含層即可滿足精度要求,層數(shù)太多會增加網(wǎng)絡(luò)復(fù)雜性,影響網(wǎng)絡(luò)收斂速度,本研究中采用1層隱含層。隱含層的神經(jīng)元數(shù)量太少,網(wǎng)絡(luò)的學(xué)習(xí)能力有限,容錯性差;神經(jīng)元太多,會增加網(wǎng)絡(luò)訓(xùn)練時間,降低網(wǎng)絡(luò)的泛化能力。不同隱含層神經(jīng)元數(shù)量對應(yīng)的模型預(yù)測精度見表4,當(dāng)神經(jīng)元取值為20個時,所建立的模型具有最佳預(yù)測精度。
表4 不同隱含層神經(jīng)元數(shù)量對應(yīng)的模型預(yù)測精度
BP神經(jīng)網(wǎng)絡(luò)中常用的激勵函數(shù)包括雙曲正切函數(shù)tansig、對數(shù)S型函數(shù)logsig和線性函數(shù)purelin等,隱含層和輸出層分別取不同激勵函數(shù)時對應(yīng)的模型預(yù)測精度見表5,當(dāng)隱含層激勵函數(shù)為purelin,輸出層預(yù)測函數(shù)為tansig時,所建立的BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測精度最佳。
表5 不同激勵函數(shù)對應(yīng)的模型預(yù)測精度
學(xué)習(xí)速度主要用來控制網(wǎng)絡(luò)訓(xùn)練過程中的權(quán)值變化幅度大小,學(xué)習(xí)速度過低會減慢網(wǎng)絡(luò)學(xué)習(xí)速度,導(dǎo)致網(wǎng)絡(luò)很難收斂;學(xué)習(xí)速度過高會使權(quán)值和誤差函數(shù)產(chǎn)生分歧,導(dǎo)致網(wǎng)絡(luò)性能指標(biāo)振蕩,無法達到合適的值。學(xué)習(xí)速率一般取值在0.01~0.10之間,本文中取為0.05。
根據(jù)光譜預(yù)處理、建模譜段和神經(jīng)網(wǎng)絡(luò)參數(shù)的優(yōu)化結(jié)果,最終確定的NIR-BP聯(lián)合定量模型建模參數(shù)選取見表6。
表6 NIR-BP聯(lián)合定量模型建模參數(shù)
最終所建立的NIR-BP聯(lián)合定量模型對建模集和校正集的含量預(yù)測結(jié)果及誤差見圖7,模型預(yù)測值和真實值很好吻合,最大絕對誤差為0.40 mg·mL-1,建模集和校正集的預(yù)測均方根誤差RMSE和RMSECV分別為0.11、0.16 mg·mL-1。
注:A.含量預(yù)測;B.預(yù)測誤差。
建模集及校正集樣本含量預(yù)測值與真實值的相關(guān)系數(shù)分別為0.994 7、0.997 7,說明預(yù)測值和真實值顯著相關(guān)。見圖8。
注:A.建模集;B.校正集。
3.5.1準(zhǔn)確性 用12組預(yù)測集樣本進行定量模型的準(zhǔn)確性驗證,結(jié)果見表7。預(yù)測值與真實值的最大絕對偏差為0.27 mg·mL-1,平均絕對偏差為0.10 mg·mL-1,最大相對偏差為4.54%,平均相對偏差為1.64%,未超過近紅外快速檢驗誤差限度(5%)。同時,將定量模型預(yù)測值與標(biāo)準(zhǔn)方法檢驗真實值進行配對t檢驗,在95%的置信區(qū)間內(nèi),P值為0.914 8,小于顯著性水平0.05對應(yīng)的臨界值2.18,說明模型預(yù)測結(jié)果與標(biāo)準(zhǔn)檢驗方法檢測結(jié)果無顯著性差異。
表7 NIR-BP定量模型預(yù)測準(zhǔn)確性驗證
圖9給出了預(yù)測集樣本含量預(yù)測值及與真實值的相關(guān)性,預(yù)測值和真實值的相關(guān)系數(shù)為0.997 8,預(yù)測均方根誤差REMSEP為0.14 mg·mL-1,所建立的定量模型在預(yù)測集上取得了很高的預(yù)測精度。
注:A.含量預(yù)測值;B.與真實值相關(guān)性。
3.5.2專屬性 用歐氏距離來衡量所建立定量模型的專屬性,假定樣本呈隨機分布,理論上99%的樣品應(yīng)分布在μ+3σ范圍內(nèi)。建模集和校正集共計66組樣本光譜數(shù)據(jù)與平均光譜之間的歐氏距離平均值μ=0.167 1,標(biāo)準(zhǔn)偏差σ=0.095 8,以此確定的專屬性判定閾值為0.454 6。所建立的NIR-BP聯(lián)合定量模型專屬性驗證結(jié)果見表8,樣本1~12為預(yù)測集樣本,其最大歐氏距離為0.417 2,全部檢驗通過。樣本13~16為煙酸注射液樣本,其歐氏距離均遠大于閾值,全部檢驗不通過。專屬性驗證樣本的歐氏距離分布情況見圖10,驗證結(jié)果表明所建立的定量模型對長春西汀注射液具有很好的專屬性。
表8 NIR-BP定量模型專屬性驗證
圖10 專屬性驗證樣本歐氏距離分布
本文將近紅外光譜快速檢驗方法和BP神經(jīng)網(wǎng)絡(luò)智能算法相結(jié)合,通過對光譜預(yù)處理方法、建模光譜段和神經(jīng)網(wǎng)絡(luò)參數(shù)的優(yōu)化,最終建立了長春西汀注射液的NIR-BP聯(lián)合定量模型。
模型的準(zhǔn)確性和專屬性驗證結(jié)果顯示,所建立的定量模型在95%的置信區(qū)間內(nèi),P值為0.914 8,與標(biāo)準(zhǔn)檢驗方法檢測結(jié)果無顯著性差異。長春西汀注射液樣本的歐氏距離均小于閾值,煙酸注射液樣本的歐氏距離均遠大于閾值,表現(xiàn)出良好的專屬性。所建立的定量模型均有準(zhǔn)確、快速、便捷的特點,提供了近紅外光譜建模的新方法,同時對藥品的在線檢驗具有較高的參考價值。