申永祥, 楊輝華 , 覃 鋒, 宋昊鯤, 羅國(guó)安
(1.桂林電子科技大學(xué)計(jì)算機(jī)與控制學(xué)院,廣西桂林 541004;2.清華大學(xué)分析中心,北京 100084;3.永州職業(yè)技術(shù)學(xué)院,湖南永州 425006)
血府逐瘀湯[1,2]由桃仁、紅花、當(dāng)歸、川芎、生地、赤芍、牛膝、柴胡等藥材組成,具有活血化瘀、行氣止痛的功效,用于瘀血內(nèi)阻、頭痛或胸痛、內(nèi)熱瞀悶、失眠多夢(mèng)、心悸怔忡、急躁善怒等疾病。由于藥材成分的復(fù)雜性及批次間的差異等因素的影響,其產(chǎn)品的質(zhì)量必定會(huì)存在差異,從而無(wú)法確保產(chǎn)品質(zhì)量的穩(wěn)定性和均一性。要解決這一問(wèn)題,則必須實(shí)現(xiàn)對(duì)藥物體系中化學(xué)成分的直接控制。
過(guò)程分析技術(shù)(PAT)是實(shí)現(xiàn)工業(yè)生產(chǎn)過(guò)程在線、實(shí)時(shí)分析并實(shí)現(xiàn)反饋控制,從而保證生產(chǎn)過(guò)程可控、最優(yōu)的重要技術(shù)[3]。近紅外光譜在線分析是一種最近廣泛應(yīng)用的過(guò)程分析技術(shù)。它是利用物質(zhì)對(duì)近紅外線有特征吸收的原理,并結(jié)合標(biāo)準(zhǔn)或認(rèn)可方法測(cè)得的組成或性質(zhì)數(shù)據(jù)建立分析模型,從而實(shí)現(xiàn)間接測(cè)量其組成或性質(zhì)的一種分析方法。
降維是一種有效消除近紅外光譜數(shù)據(jù)噪聲并提取有用信息的方法[4,5],PCA、PLS、ANN、SVR 已廣泛應(yīng)用于近紅外光譜處理中。等距映射(Isomap)[6]是 Tenenbaum 等人于 2000年在 Science上提出的一種新的非線性降維方法。文獻(xiàn)[7]結(jié)合Isomap與PLS,提出了Isomap-PLS算法,建立的校正模型在準(zhǔn)確性方面優(yōu)于PLS。為了進(jìn)一步提高校正模型的準(zhǔn)確性,本文在Isomap-PLS算法的基礎(chǔ)上提出了一種新的算法 kernel Isomap-PLS,即先用 kernel Isomap[8]對(duì)近紅外光譜進(jìn)行非線性降維,再用PLS建立校正模型(kernel Isomap-PLS算法)。實(shí)驗(yàn)結(jié)果表明:kernel Isomap-PLS算法的建模效果優(yōu)于 Isomap-PLS 與 PLS。
Isomap算法建立在多維尺度變換(MDS)的基礎(chǔ)上,力求保持?jǐn)?shù)據(jù)點(diǎn)的內(nèi)在幾何性質(zhì),即保持2點(diǎn)間的測(cè)地距離。算法描述如下[7]:
輸入:樣本x1,x2,…,xq,xi∈RP,q為樣本本真維數(shù),k為鄰域參數(shù)。
第一步:構(gòu)建k-鄰域圖G。計(jì)算每個(gè)樣本點(diǎn)的近鄰點(diǎn),并在樣本集上定義一個(gè)賦權(quán)無(wú)向圖G。若xi與xj互為近鄰點(diǎn),則邊的權(quán)值賦為
第二步:計(jì)算圖G中兩點(diǎn)間的最短路徑。用迪杰斯特拉(Dijkstra)算法或弗洛伊德(Floyd)算法求得最短路徑距離矩陣,記為DG。
第三步:計(jì)算q維嵌入。用MDS求低維嵌入流形。
① 代價(jià)函數(shù)為Dy=dy(i,j)。
kernel Isomap 算法描述如下[7]:
算法1:kernel Isomap算法
輸入:樣本x1,x2,…,xq,xi∈RP,q為樣本本真維數(shù),k為鄰域參數(shù)。
第一步:構(gòu)建k-鄰域圖G(同Isomap算法第一步)。
第二步:計(jì)算最短路徑(同 Isomap算法第二步)。
其中H=I-(1/n)eeT,e=[1,…,1]T∈Rn
第四步:計(jì)算矩陣
的最大特征值c*。構(gòu)建Mercer核矩陣:
第五步:計(jì)算ˉK的最大d個(gè)特征值和對(duì)應(yīng)的特征向量,其中特征值矩陣Λ∈Rd×d,特征向量V∈Rn×d。
第六步:相應(yīng)的在d維空間的n個(gè)點(diǎn)以M=VΛ1/2得出。
因?yàn)榫仃嚒是Mercer核矩陣,所以它的(i,j)元素可以被下式取代。
其中φ(g)是到特征空間的非線性映射。利用核技巧,可以計(jì)算出測(cè)試數(shù)據(jù)xk在低維空間的投影。
其中,[g]i是向量的第i個(gè)元素,vi是ˉK的第i個(gè)特征向量。投影一個(gè)新的變量算法總結(jié)如下:
算法2:投影一個(gè)測(cè)試樣本
輸入:Mercer核矩陣ˉK和它的特征向量V,加法常數(shù)c,測(cè)試樣本xk。
輸出:xk在d維空間的投影mk。
第一步:計(jì)算xk與原始輸入空間的任一xj樣本點(diǎn)的最短路徑dG(k,j)。
第二步:計(jì)算測(cè)試數(shù)據(jù)xk的核:
其中,ˉdG(k,j)=dG(k,j)+c,j=1,…,n。
第三步:用(5)式計(jì)算出相應(yīng)的投影mk。
第二步:用上面kernel Isomap算法2求出測(cè)試樣本xk的低維嵌入rk。
第三步:進(jìn)行PLS分解。M=TS+E,Y=UQ+F
其中,T和U分別為M和Y的得分矩陣;S和Q分別為M和Y的載荷矩陣;E和F分別為M和Y的PLS擬和殘差矩陣。
第四步:將T和U作線性回歸:U=TB,B=(T′T)-1T′Y。
第五步:計(jì)算預(yù)測(cè)值。由S和測(cè)試集的低維嵌入求出測(cè)試集的得分Tscore,然后根據(jù)Tscore和回歸系數(shù)B,可以計(jì)算出測(cè)試集的預(yù)測(cè)值:Y=TscoreBQ。
從吉林敖東延邊藥業(yè)服份有限公司的血府逐瘀口服液的提取生產(chǎn)過(guò)程中,利用北京英賢儀器有限公司的INCE9500MT近紅外光譜儀在線采集其近紅外光譜,采用透射方式測(cè)量,光程2 mm,光譜范圍1 000~2 200 cm,波長(zhǎng)間隔4.8 cm。測(cè)光譜的同時(shí)抓取樣本共163個(gè),所得提取液光譜如圖1所示。
采用HPLC檢測(cè)提取液中羥基紅花素-A和甘草酸銨的含量。儀器使用SH MADZU-LC-2-10A 高效液相色譜儀。在樣品中,測(cè)得羥基紅花素-A的最大含量為0.195 mg/mL,最小含量為0.015 mg/mL,甘草酸銨的最大含量為0.192 mg/mL,最小含量為0.066 mg/mL。
圖1 INCE9500MT近紅外光譜儀在線采集血府逐瘀口服液提取液163個(gè)樣本光譜圖
對(duì)所得光譜數(shù)據(jù),分別用kernel Isomap-PLS與PLS建立回歸模型,模型采用留一法交叉驗(yàn)證均方根誤差(RMSECV)或測(cè)試集均方根誤差與決定系數(shù)(R2)來(lái)評(píng)價(jià):若RMSECV或RMSEP越小,R2越大,則模型越優(yōu)。kernel Isomap算法采用Choi開(kāi)發(fā)的程序包[8],在MatlabTM 7.1上自編程實(shí)現(xiàn)了參數(shù)優(yōu)化與其它相關(guān)程序。
4.1 ernel Isomap算法與Isomap一樣有兩個(gè)可調(diào)整的參數(shù):鄰域參數(shù)k和樣本本真維數(shù)d、k和d均取整數(shù),對(duì)k和d采用網(wǎng)絡(luò)搜索法進(jìn)行優(yōu)化。在數(shù)據(jù)集中,對(duì)樣本集中所有樣本均選取d從3到80,k從3到70,用kernel Isomap方法進(jìn)行降維。降維后的數(shù)據(jù)再用PLS建立回歸模型,模型評(píng)價(jià)采用留一法交叉驗(yàn)證均方根誤差(RMSECV)與決定系數(shù)(R2),RMSECV越小,R2越大,模型越優(yōu)。當(dāng)d=60,k=52時(shí),羥基紅花素-A具有最小的RMSECV值與最大的R2值,RMSECV=0.038 9,R2=0.935 2;當(dāng)d=32,k=43時(shí),甘草酸銨的RMSECV值最小,為0.034 4。R2值最大,為0.957 1。
4.2 kernel Isomap-PLS算法和PLS算法在校正集上建模效果與測(cè)試集上預(yù)測(cè)結(jié)果的比較
在樣本集中,隨機(jī)抽取15個(gè)樣本作為測(cè)試集,其余樣本作為校正集。分別用kernel Isomap-PLS、Isomap-PLS與PLS在校正集上采用留一法交叉驗(yàn)證建立回歸模型。在校正集中采用留一法交叉驗(yàn)證均方根誤差(RMSECV)與決定系數(shù)(R2)來(lái)評(píng)價(jià)模型,RMSECV越小,R2越大,模型越優(yōu);在測(cè)試集中采用測(cè)試集均方根誤差與決定系數(shù)(R2)來(lái)評(píng)價(jià)模型,RMSEP越小,R2越大,預(yù)測(cè)結(jié)果越準(zhǔn)確。模型結(jié)果如表1所示。從表中可以看出,kernel Isomap-PLS建立的校正模型及預(yù)測(cè)結(jié)果均優(yōu)于PLS與Isomap-PLS。
表1 kernel Isomap-PLS與Isomap-PLS、PLS在校正集上建模效果和測(cè)試集上預(yù)測(cè)結(jié)果的比較
kernel Isomap能夠?qū)IR光譜進(jìn)行流形降維,剔除噪聲,提取有用信息,與PLS結(jié)合后可實(shí)現(xiàn)NIR光譜的非線性建模。實(shí)驗(yàn)結(jié)果表明kernel Isomap-PLS算法比單獨(dú)的PLS算法與Isomap-PLS算法建模與預(yù)測(cè)效果更好。該方法可實(shí)現(xiàn)血府逐瘀口服液提取過(guò)程的在線檢測(cè)和質(zhì)量控制。
[1]丁志山,高承賢,程?hào)|慶,等.血府逐瘀湯對(duì)牛內(nèi)皮細(xì)胞增殖和遷移的影響[J].中成藥,2003,25(5):423-424.
[2]王 雁,瑞 龍.不同提取方法對(duì)血府逐瘀湯中芍藥苷含量的影響[J].中成藥,1998,20(3):11-12.
[3]陸婉珍,褚小立.近紅外光譜(NIR)和過(guò)程分析技術(shù)(PAT)[J].現(xiàn)代科學(xué)儀器,2007,4:13-17.
[4]楊輝華,覃 鋒,王 勇,等.NIR光譜的LLE-PLS非線性建模方法及應(yīng)用[J].光譜學(xué)與光譜分析,2007,10(10):1955-1958.
[5]覃 鋒,楊輝華,呂琳昂,等.NIR光譜結(jié)合LLE-PLS建模用于安神補(bǔ)腦液提取過(guò)程分析的研究[J].中成藥,2008,30(10):1465-1468.
[6]Tenenbaum J B,Silva V D,Langford J C.A global geometric framework for nonlinear dimensionality reduction[J].Science,2000,290(22):2319-2323.
[7]覃 鋒.Isomap用于中藥生產(chǎn)過(guò)程近紅外光譜在線檢測(cè)研究[D],桂林電子科技大學(xué),2008.
[8]Choi H,Choi S.Kernel Isomap [J].Electron Lett,2004,40(25):1612-1613.