馬力文,郭 拓*,馬晉芳,,史慶龍,肖環(huán)賢
(1.陜西科技大學(xué) 電子信息與人工智能學(xué)院,陜西 西安 710021;2.中山大學(xué) 南沙研究院,廣東 廣州 511458;3.江西保利制藥有限公司,江西 贛州 341900)
現(xiàn)代中藥工業(yè)生產(chǎn)過程十分復(fù)雜,基于指標成分的含量檢測方法是中藥質(zhì)量控制的有效手段。因此,如何建立科學(xué)、高效的中藥質(zhì)量評價方法是中藥現(xiàn)代化長期以來需要解決的難題。近紅外(Near infrared,NIR)光譜分析技術(shù)作為一種快速、高效的檢測手段,在中藥生產(chǎn)過程中得到了廣泛應(yīng)用[1]。通過結(jié)合數(shù)學(xué)算法,對其近紅外光譜數(shù)據(jù)與指標成分含量建立相關(guān)定量模型,以實現(xiàn)藥物的定量分析。偏最小二乘法(PLS)作為目前近紅外光譜分析中應(yīng)用最廣泛的線性建模方法[2],通常用于擬合藥物光譜與指標成分含量之間的線性關(guān)系。而在實際應(yīng)用過程中,由于受儀器的非線性響應(yīng)和固體樣品顆粒大小的不均勻性等非線性行為的影響,PLS法難以發(fā)揮其作用[3-4]。局部加權(quán)偏最小二乘法(LWPLS)是對PLS法的有效改進,對每個測試集樣本計算其在訓(xùn)練集樣本上的權(quán)重,并通過加權(quán)的樣本,對每一測試集樣本建立局部的偏最小二乘模型,用多個局部線性模型來逼近非線性過程,該方法能在一定程度上放大光譜與性質(zhì)之間的相關(guān)信息,從而使得預(yù)測結(jié)果更為準確[5],故可以很好地解決藥物光譜與指標成分含量之間為非線性關(guān)系的問題。
因此,本研究提出了基于局部加權(quán)偏最小二乘法,并結(jié)合相關(guān)系數(shù)法[6]進行波長優(yōu)選,建立了對安胎丸進行指標成分定量的模型,同時與PLS算法建立的校正模型精度進行比較,旨在為定量模型的建立提供新算法。
LWPLS的基本思想是當預(yù)測某個樣本的理化性質(zhì)指標時,首先計算該樣本與訓(xùn)練集之間的相似性,并將此相似度值作為該樣本的權(quán)重,此時判別樣本是否相近的依據(jù)通常為馬氏距離或歐氏距離[7]。本文選用歐氏距離作為度量工具,即以樣本間的歐氏距離作為權(quán)重,記為δ。其建模預(yù)測流程如圖1所示。
圖1 LWPLS建模預(yù)測Fig.1 LWPLS modeling and prediction
假定光譜矩陣和性質(zhì)矩陣分別為X(n×p)和Y(n×q),其中n為樣本數(shù)目,p為波長點數(shù),q為性質(zhì)數(shù)目。對于待測樣本xm,首先根據(jù)下式計算它與其他校正集樣本之間的距離:
(1)
(2)
圖2 LWPLS算法思想Fig.2 Algorithm idea of LWPLS
LWPLS算法思想如圖2所示,主要包括以下幾個步驟:
第一步:計算潛在成分數(shù)(ncomp),設(shè)置其初值為a=1,采用留一交叉法,將樣本分為n組訓(xùn)練集和驗證集。在每一組中,用訓(xùn)練集樣本建立的模型去預(yù)測驗證集樣本,當預(yù)測誤差平方和最小時所對應(yīng)的組號即為ncomp。
第二步:根據(jù)式(1)和(2)計算權(quán)重矩陣,并采用K-近鄰(KNN)算法,在訓(xùn)練集中選取與待測樣本xm之間歐氏距離最小的10個樣本點,將這10個樣本點所表示的集合記為X′,其對應(yīng)的性質(zhì)矩陣記為Y′。
第三步:對訓(xùn)練集矩陣以及待測樣本進行預(yù)處理,計算Xa、Ya、Xma
國內(nèi)設(shè)計咨詢企業(yè)屬于工程行業(yè)中技術(shù)性和專業(yè)性集中的企業(yè),在企業(yè)的管理過程中,通常更加關(guān)注企業(yè)本身的技術(shù)層面。在財務(wù)管理中,僅注重成本核算,將財務(wù)人員視為“賬房先生”,缺乏有效的成本控制意識。粗放式的管理模式,使得企業(yè)忽視成本管理,不深入探究項目成本管理模式,不進行項目成本效益橫向?qū)Ρ确治?,不開展工程產(chǎn)業(yè)鏈收益率分析,無法為企業(yè)提供準確數(shù)據(jù)支撐。
(3)
(4)
式中,1n為1的列向量,p=1,2,……,P;q=1,2,……,Q。
第四步:建立局部加權(quán)模型
(5)
(6)
待測樣本點的得分:
(7)
若a=ncomp,則跳至下一步;否則a=a+1,返回第四步。
(8)
其中T為X的得分矩陣。
相關(guān)系數(shù)法是將校正集光譜矩陣中每個波長對應(yīng)的吸光度向量xj與性質(zhì)矩陣中的待測組分性質(zhì)向量yi進行相關(guān)性計算,相關(guān)系數(shù)越大的波長,其信息量也越多。因此,可結(jié)合經(jīng)驗知識給定一個初始閾值,選取相關(guān)系數(shù)大于該閾值的波長參與建模。然后根據(jù)模型的精度調(diào)整閾值,從而確定最優(yōu)的波段。相關(guān)系數(shù)r用下式計算[10-11]。
(9)
本研究參考文獻的光譜采集方法[12],采用SupNIR1500近紅外光譜儀,應(yīng)用漫反射模式,設(shè)置波長掃描范圍為1 000~1 800 nm,分辨率為2 nm,對3年生產(chǎn)的共21批安胎丸進行NIR光譜數(shù)據(jù)的采集;采用高效液相色譜法(HPLC)梯度洗脫,對21批安胎丸中的指標含量進行測定。將測得的安胎丸樣本數(shù)據(jù)按3∶1∶1的比例分成訓(xùn)練集、驗證集和測試集。首先隨機挑選17個樣本作為驗證集,剩下的數(shù)據(jù)集采用X-Y共生矩陣法(Sample set partitioning based on Joint X-Y Distance,SPXY)算法分成訓(xùn)練集和驗證集。具體結(jié)果見下表,原始數(shù)據(jù)見原文獻。
表1 安胎丸樣本集的分類結(jié)果Table 1 Classification results of Antai pill sample set
由于建模過程中,近紅外光譜的校正集樣本中可能混雜異常光譜,會直接影響到定量模型的精確度,進而影響指標成分的預(yù)測結(jié)果。因此,本研究首先采用馬氏距離法[13]對異常樣本進行剔除,此處兩種指標成分的馬氏距離的閾值分別設(shè)為1.112 6、1.266 0,然后建立模型。
近紅外光譜的采集過程中,由于樣品本身的狀態(tài)、表面顆粒的不均勻程度以及儀器操作等因素的影響,導(dǎo)致出現(xiàn)光譜信息重疊及背景干擾的現(xiàn)象[14]。因此,建立模型之前需要對光譜數(shù)據(jù)進行預(yù)處理。在諸多的光譜預(yù)處理方法中,標準正態(tài)變量變換(SNV)可有效地消除因固體樣品表面顆粒大小不均勻、樣品表面光散射以及光程變化等引起的光譜噪聲[15]。因此,本研究在LWPLS建模之前首先采用SNV對近紅外光譜進行預(yù)處理,預(yù)處理前后的結(jié)果如圖3所示。
在近紅外光譜技術(shù)的應(yīng)用中,通常出現(xiàn)以下現(xiàn)象:由于波長之間有一定的相關(guān)信息,導(dǎo)致光譜信息中存在冗余信息,使得計算量較大[16];由于人工誤操作或者儀器自身的噪聲,使得光譜某些波段會夾雜噪聲,直接導(dǎo)致模型不穩(wěn)定;或某些波段有可能受外界因素的影響導(dǎo)致吸光度異常,存在局部異常點。因此,NIR校正模型建立之前進行波長選擇不僅可以使計算量減少,更能使參加建模的變量中有效信息增多,進而提高校正模型的預(yù)測精度[17],增強穩(wěn)健性。本文采用相關(guān)系數(shù)法進行波長選擇,并對比了PLS與LWPLS算法的建模效果。
采用KNN算法選取10個近鄰樣本,利用LWPLS結(jié)合相關(guān)系數(shù)法對安胎丸的訓(xùn)練集進行阿魏酸和洋川芎內(nèi)酯A定量模型的建立。
模型的優(yōu)劣主要以模型參數(shù),如潛在成分數(shù)(ncomp)和權(quán)重函數(shù)的形狀參數(shù)(h)、預(yù)測誤差均方根(RMSEP)、相對預(yù)測誤差(RE)及模型相關(guān)系數(shù)(R2)等作為評價指標,對定量模型的精度進行評估。
本研究利用SPXY算法對安胎丸樣本進行訓(xùn)練集、驗證集、測試集的劃分,SNV對近紅外光譜進行預(yù)處理,相關(guān)系數(shù)法進行波長選擇,并分別結(jié)合LWPLS與PLS對安胎丸進行定量模型的建立。其中h是LWPLS中一個重要的參數(shù),Lesnoff等[5]認為主成分數(shù)的h一般在0~1之間。因此,本研究將權(quán)重函數(shù)的h范圍設(shè)定為0.1~0.9,在不同形狀參數(shù)下比較模型的RMSEP。
由圖可知,對于指標成分阿魏酸,當h=0.2時,模型效果較好(RMSEP<0.05);對于指標成分洋川芎內(nèi)酯A,當h=0.1時,模型效果較好(RMSEP<0.08)。因此,本研究中阿魏酸的LWPLS模型的h設(shè)為0.2,洋川芎內(nèi)酯A的LWPLS模型的h設(shè)為0.1。
將阿魏酸和洋川芎內(nèi)酯A兩種指標成分的LWPLS模型驗證結(jié)果與線性模型 PLS的驗證結(jié)果進行對比。結(jié)果顯示,兩種指標的LWPLS模型的預(yù)測值與真值更接近1∶1,聚集性也優(yōu)于PLS的結(jié)果,且LWPLS的結(jié)果未出現(xiàn)遠離對角線的異常點。阿魏酸采用PLS和LWPLS建立定量模型的預(yù)測結(jié)果與真值的線性相關(guān)系數(shù)分別為0.886 2、0.985 8(見圖5);洋川芎內(nèi)酯A采用PLS和采用LWPLS建立定量模型的線性相關(guān)系數(shù)分別為0.941 4、0.982 3。
兩種指標成分的預(yù)測結(jié)果與原結(jié)果的線性相關(guān)系數(shù)均大于0.88,其中LWPLS方法建立定量模型的預(yù)測結(jié)果的線性相關(guān)系數(shù)高于PLS方法,且LWPLS方法的線性相關(guān)系數(shù)更接近1,說明其預(yù)測結(jié)果更接近真值。
以下將模型參數(shù)中選擇的波長數(shù)目、ncomp、h、RMSEP、RE與R2進行比較,結(jié)果見表2。由表2可以得出,采用LWPLS方法建立的模型,其R2分別由0.785 5、0.886 4上升至0.971 9、0.964 9,RMSEP分別由0.126 6、0.114 8降至0.043 8、0.077 1,RE也分別從12.66%、14.01%降低至9.18%、7.81%。數(shù)據(jù)表明:LWPLS方法使得模型的準確性和穩(wěn)定性優(yōu)于PLS方法,且模型的指標參數(shù)得到顯著提高。
表2 安胎丸中指標成分定量模型參數(shù)的比較Table 2 Comparison of quantitative model parameter values of index components in Antai pills
本文研究的LWPLS算法,是針對每一測試集樣本建立局部的PLS模型,將多個局部線性模型組合,其整體上為一個非線性模型。該算法成功應(yīng)用于安胎丸指標成分的建模,并解決了線性建模方法PLS對非線性關(guān)系無法準確擬合的問題,提高了模型的性能與預(yù)測精度。該方法有望以較小的計算代價完成非線性模型的建立,并應(yīng)用于實際生產(chǎn)過程的在線質(zhì)量監(jiān)測。