亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于局部加權(quán)偏最小二乘的近紅外光譜分析方法研究

2020-11-06 09:51:14馬力文馬晉芳史慶龍肖環(huán)賢

分析測試學(xué)報 2020年10期

關(guān)鍵詞：模型

馬力文，郭拓*，馬晉芳，，史慶龍，肖環(huán)賢

(1.陜西科技大學(xué) 電子信息與人工智能學(xué)院,陜西西安 710021；2.中山大學(xué) 南沙研究院，廣東廣州 511458；3.江西保利制藥有限公司，江西贛州 341900)

現(xiàn)代中藥工業(yè)生產(chǎn)過程十分復(fù)雜，基于指標成分的含量檢測方法是中藥質(zhì)量控制的有效手段。因此，如何建立科學(xué)、高效的中藥質(zhì)量評價方法是中藥現(xiàn)代化長期以來需要解決的難題。近紅外(Near infrared，NIR)光譜分析技術(shù)作為一種快速、高效的檢測手段，在中藥生產(chǎn)過程中得到了廣泛應(yīng)用[1]。通過結(jié)合數(shù)學(xué)算法，對其近紅外光譜數(shù)據(jù)與指標成分含量建立相關(guān)定量模型，以實現(xiàn)藥物的定量分析。偏最小二乘法(PLS)作為目前近紅外光譜分析中應(yīng)用最廣泛的線性建模方法[2]，通常用于擬合藥物光譜與指標成分含量之間的線性關(guān)系。而在實際應(yīng)用過程中，由于受儀器的非線性響應(yīng)和固體樣品顆粒大小的不均勻性等非線性行為的影響，PLS法難以發(fā)揮其作用[3-4]。局部加權(quán)偏最小二乘法(LWPLS)是對PLS法的有效改進，對每個測試集樣本計算其在訓(xùn)練集樣本上的權(quán)重，并通過加權(quán)的樣本，對每一測試集樣本建立局部的偏最小二乘模型，用多個局部線性模型來逼近非線性過程，該方法能在一定程度上放大光譜與性質(zhì)之間的相關(guān)信息，從而使得預(yù)測結(jié)果更為準確[5]，故可以很好地解決藥物光譜與指標成分含量之間為非線性關(guān)系的問題。

因此，本研究提出了基于局部加權(quán)偏最小二乘法，并結(jié)合相關(guān)系數(shù)法[6]進行波長優(yōu)選，建立了對安胎丸進行指標成分定量的模型，同時與PLS算法建立的校正模型精度進行比較，旨在為定量模型的建立提供新算法。

1 原理與方法

1.1 局部加權(quán)偏最小二乘(LWPLS)算法

LWPLS的基本思想是當預(yù)測某個樣本的理化性質(zhì)指標時，首先計算該樣本與訓(xùn)練集之間的相似性，并將此相似度值作為該樣本的權(quán)重，此時判別樣本是否相近的依據(jù)通常為馬氏距離或歐氏距離[7]。本文選用歐氏距離作為度量工具，即以樣本間的歐氏距離作為權(quán)重，記為δ。其建模預(yù)測流程如圖1所示。

圖1 LWPLS建模預(yù)測Fig.1 LWPLS modeling and prediction

假定光譜矩陣和性質(zhì)矩陣分別為X(n×p)和Y(n×q)，其中n為樣本數(shù)目，p為波長點數(shù)，q為性質(zhì)數(shù)目。對于待測樣本xm，首先根據(jù)下式計算它與其他校正集樣本之間的距離：

(1)

(2)

圖2 LWPLS算法思想Fig.2 Algorithm idea of LWPLS

LWPLS算法思想如圖2所示，主要包括以下幾個步驟：

第一步：計算潛在成分數(shù)(ncomp)，設(shè)置其初值為a=1，采用留一交叉法，將樣本分為n組訓(xùn)練集和驗證集。在每一組中，用訓(xùn)練集樣本建立的模型去預(yù)測驗證集樣本，當預(yù)測誤差平方和最小時所對應(yīng)的組號即為ncomp。

第二步：根據(jù)式(1)和(2)計算權(quán)重矩陣，并采用K-近鄰(KNN)算法，在訓(xùn)練集中選取與待測樣本xm之間歐氏距離最小的10個樣本點，將這10個樣本點所表示的集合記為X′，其對應(yīng)的性質(zhì)矩陣記為Y′。

第三步：對訓(xùn)練集矩陣以及待測樣本進行預(yù)處理，計算Xa、Ya、Xma

國內(nèi)設(shè)計咨詢企業(yè)屬于工程行業(yè)中技術(shù)性和專業(yè)性集中的企業(yè)，在企業(yè)的管理過程中，通常更加關(guān)注企業(yè)本身的技術(shù)層面。在財務(wù)管理中，僅注重成本核算，將財務(wù)人員視為“賬房先生”，缺乏有效的成本控制意識。粗放式的管理模式，使得企業(yè)忽視成本管理，不深入探究項目成本管理模式，不進行項目成本效益橫向?qū)Ρ确治?，不開展工程產(chǎn)業(yè)鏈收益率分析，無法為企業(yè)提供準確數(shù)據(jù)支撐。

(3)

(4)

式中，1n為1的列向量，p=1,2,……,P;q=1,2,……,Q。

第四步：建立局部加權(quán)模型

(5)

(6)

待測樣本點的得分：

(7)

若a=ncomp，則跳至下一步；否則a=a+1，返回第四步。

(8)

其中T為X的得分矩陣。

1.2 相關(guān)系數(shù)法

相關(guān)系數(shù)法是將校正集光譜矩陣中每個波長對應(yīng)的吸光度向量xj與性質(zhì)矩陣中的待測組分性質(zhì)向量yi進行相關(guān)性計算，相關(guān)系數(shù)越大的波長，其信息量也越多。因此，可結(jié)合經(jīng)驗知識給定一個初始閾值，選取相關(guān)系數(shù)大于該閾值的波長參與建模。然后根據(jù)模型的精度調(diào)整閾值，從而確定最優(yōu)的波段。相關(guān)系數(shù)r用下式計算[10-11]。

(9)

2 實驗部分

2.1 數(shù)據(jù)集

本研究參考文獻的光譜采集方法[12]，采用SupNIR1500近紅外光譜儀，應(yīng)用漫反射模式，設(shè)置波長掃描范圍為1 000～1 800 nm，分辨率為2 nm，對3年生產(chǎn)的共21批安胎丸進行NIR光譜數(shù)據(jù)的采集；采用高效液相色譜法(HPLC)梯度洗脫，對21批安胎丸中的指標含量進行測定。將測得的安胎丸樣本數(shù)據(jù)按3∶1∶1的比例分成訓(xùn)練集、驗證集和測試集。首先隨機挑選17個樣本作為驗證集，剩下的數(shù)據(jù)集采用X-Y共生矩陣法(Sample set partitioning based on Joint X-Y Distance，SPXY)算法分成訓(xùn)練集和驗證集。具體結(jié)果見下表，原始數(shù)據(jù)見原文獻。

表1 安胎丸樣本集的分類結(jié)果Table 1 Classification results of Antai pill sample set

2.2 數(shù)據(jù)預(yù)處理

由于建模過程中，近紅外光譜的校正集樣本中可能混雜異常光譜，會直接影響到定量模型的精確度，進而影響指標成分的預(yù)測結(jié)果。因此，本研究首先采用馬氏距離法[13]對異常樣本進行剔除，此處兩種指標成分的馬氏距離的閾值分別設(shè)為1.112 6、1.266 0，然后建立模型。

近紅外光譜的采集過程中，由于樣品本身的狀態(tài)、表面顆粒的不均勻程度以及儀器操作等因素的影響，導(dǎo)致出現(xiàn)光譜信息重疊及背景干擾的現(xiàn)象[14]。因此，建立模型之前需要對光譜數(shù)據(jù)進行預(yù)處理。在諸多的光譜預(yù)處理方法中，標準正態(tài)變量變換(SNV)可有效地消除因固體樣品表面顆粒大小不均勻、樣品表面光散射以及光程變化等引起的光譜噪聲[15]。因此，本研究在LWPLS建模之前首先采用SNV對近紅外光譜進行預(yù)處理，預(yù)處理前后的結(jié)果如圖3所示。

2.3 特征波長的選擇

在近紅外光譜技術(shù)的應(yīng)用中，通常出現(xiàn)以下現(xiàn)象：由于波長之間有一定的相關(guān)信息，導(dǎo)致光譜信息中存在冗余信息，使得計算量較大[16]；由于人工誤操作或者儀器自身的噪聲，使得光譜某些波段會夾雜噪聲，直接導(dǎo)致模型不穩(wěn)定；或某些波段有可能受外界因素的影響導(dǎo)致吸光度異常，存在局部異常點。因此，NIR校正模型建立之前進行波長選擇不僅可以使計算量減少，更能使參加建模的變量中有效信息增多，進而提高校正模型的預(yù)測精度[17]，增強穩(wěn)健性。本文采用相關(guān)系數(shù)法進行波長選擇，并對比了PLS與LWPLS算法的建模效果。

2.4 模型的建立與評價

采用KNN算法選取10個近鄰樣本，利用LWPLS結(jié)合相關(guān)系數(shù)法對安胎丸的訓(xùn)練集進行阿魏酸和洋川芎內(nèi)酯A定量模型的建立。

模型的優(yōu)劣主要以模型參數(shù)，如潛在成分數(shù)(ncomp)和權(quán)重函數(shù)的形狀參數(shù)(h)、預(yù)測誤差均方根(RMSEP)、相對預(yù)測誤差(RE)及模型相關(guān)系數(shù)(R2)等作為評價指標，對定量模型的精度進行評估。

3 結(jié)果與分析

3.1 LWPLS建模參數(shù)優(yōu)選

本研究利用SPXY算法對安胎丸樣本進行訓(xùn)練集、驗證集、測試集的劃分，SNV對近紅外光譜進行預(yù)處理，相關(guān)系數(shù)法進行波長選擇，并分別結(jié)合LWPLS與PLS對安胎丸進行定量模型的建立。其中h是LWPLS中一個重要的參數(shù)，Lesnoff等[5]認為主成分數(shù)的h一般在0～1之間。因此，本研究將權(quán)重函數(shù)的h范圍設(shè)定為0.1～0.9，在不同形狀參數(shù)下比較模型的RMSEP。

由圖可知，對于指標成分阿魏酸，當h=0.2時，模型效果較好(RMSEP<0.05)；對于指標成分洋川芎內(nèi)酯A，當h=0.1時，模型效果較好(RMSEP<0.08)。因此，本研究中阿魏酸的LWPLS模型的h設(shè)為0.2，洋川芎內(nèi)酯A的LWPLS模型的h設(shè)為0.1。

3.2 兩種定量建模方法對模型預(yù)測性能影響的對比分析

將阿魏酸和洋川芎內(nèi)酯A兩種指標成分的LWPLS模型驗證結(jié)果與線性模型 PLS的驗證結(jié)果進行對比。結(jié)果顯示，兩種指標的LWPLS模型的預(yù)測值與真值更接近1∶1，聚集性也優(yōu)于PLS的結(jié)果，且LWPLS的結(jié)果未出現(xiàn)遠離對角線的異常點。阿魏酸采用PLS和LWPLS建立定量模型的預(yù)測結(jié)果與真值的線性相關(guān)系數(shù)分別為0.886 2、0.985 8(見圖5)；洋川芎內(nèi)酯A采用PLS和采用LWPLS建立定量模型的線性相關(guān)系數(shù)分別為0.941 4、0.982 3。

兩種指標成分的預(yù)測結(jié)果與原結(jié)果的線性相關(guān)系數(shù)均大于0.88，其中LWPLS方法建立定量模型的預(yù)測結(jié)果的線性相關(guān)系數(shù)高于PLS方法，且LWPLS方法的線性相關(guān)系數(shù)更接近1，說明其預(yù)測結(jié)果更接近真值。

以下將模型參數(shù)中選擇的波長數(shù)目、ncomp、h、RMSEP、RE與R2進行比較，結(jié)果見表2。由表2可以得出，采用LWPLS方法建立的模型，其R2分別由0.785 5、0.886 4上升至0.971 9、0.964 9，RMSEP分別由0.126 6、0.114 8降至0.043 8、0.077 1，RE也分別從12.66%、14.01%降低至9.18%、7.81%。數(shù)據(jù)表明：LWPLS方法使得模型的準確性和穩(wěn)定性優(yōu)于PLS方法，且模型的指標參數(shù)得到顯著提高。

表2 安胎丸中指標成分定量模型參數(shù)的比較Table 2 Comparison of quantitative model parameter values of index components in Antai pills

4 結(jié) 論

本文研究的LWPLS算法，是針對每一測試集樣本建立局部的PLS模型，將多個局部線性模型組合，其整體上為一個非線性模型。該算法成功應(yīng)用于安胎丸指標成分的建模，并解決了線性建模方法PLS對非線性關(guān)系無法準確擬合的問題，提高了模型的性能與預(yù)測精度。該方法有望以較小的計算代價完成非線性模型的建立，并應(yīng)用于實際生產(chǎn)過程的在線質(zhì)量監(jiān)測。