張紅光,盧建剛
浙江大學工業(yè)控制技術國家重點實驗室,浙江 杭州 310027
凈信號的局部建模算法及其在近紅外光譜分析中的應用
張紅光,盧建剛*
浙江大學工業(yè)控制技術國家重點實驗室,浙江 杭州 310027
提出了一種基于凈信號分析的局部建模算法,以克服光譜定量分析中樣本間差異性過大和樣本待測性質與光譜之間存在非線性等問題。首先利用凈信號分析方法得到校正樣本和待測樣本的凈信號,然后用待測樣本凈信號和校正樣本凈信號之間的歐式距離作為樣本相似性判據(jù),選取一定數(shù)量的與待測樣本最相似的校正樣本組成局部校正子集,建立局部PLS回歸模型。針對一組豬肉近紅外光譜數(shù)據(jù)集的實驗結果表明,該方法的預測精度顯著優(yōu)于全局建模方法和基于光譜歐式距離的局部建模方法。
光譜定量分析; 局部校正方法; 凈信號; 偏最小二乘; 近紅外光譜
近紅外光譜分析技術發(fā)展很快,已經(jīng)被廣泛應用于食品、農(nóng)業(yè)、醫(yī)藥、石化等領域[1-5],這主要是因為其具有快速、無損、無需或只需少量樣本預處理等優(yōu)點。然而,近紅外光譜往往存在背景漂移,噪聲干擾嚴重,譜帶重疊以及信號弱等問題[6],無法直接從光譜獲取有用信息,必須依賴多元數(shù)據(jù)分析。從而,多元數(shù)據(jù)分析一直是近紅外光譜分析中的研究熱點。目前,常用的多元數(shù)據(jù)分析方法有多元線性回歸(MLR)[7]、主成分回歸(PCR)[8]、偏最小二乘(PLS)[9]、人工神經(jīng)網(wǎng)絡(ANN)和支持向量機(SVR)[10]。其中,PLS是應用最廣泛的一種方法。作為一種線性方法,PLS通過建立光譜響應與待測性質之間的線性模型進行定量分析。但近紅外光譜響應與物性之間往往會存在非線性,此時,PLS模型的精度就不是很理想。此外,因校正樣本數(shù)目過多和校正樣本性質值分布較廣而引起樣本間差異顯著,也會使PLS模型的精度下降。為了克服以上問題,一些非線性方法,包括ANN、SVM和高斯過程回歸(GPR)[11[12-14]。
局部建模方法的關鍵在于選取合適的相似判據(jù),根據(jù)相似判據(jù)選取與待測樣本相似的校正樣本組成局部校正子集,建立局部回歸模型。通常采用樣本光譜間的歐式距離作為相似判據(jù)[12],樣本光譜間歐式距離越小,樣本相似度越高。然而,由于近紅外光譜往往包含噪聲,背景等與性質無關的信息,在很多情況下樣本光譜間的歐式距離并不能真實體現(xiàn)樣本間的相似度,這時如果采用光譜歐式距離作為樣本相似判據(jù),需要選取更多的校正樣本來包含待測樣本所在的性質變化區(qū)間,非線性問題無法得到很好的解決,而進一步影響基于局部校正子集建立的局部回歸模型的預測精度。
為了消除近紅外光譜中噪聲背景等無關信息對樣本相似性判斷的影響,提出一種基于凈信號分析[15]的局部建模算法,對樣本近紅外光譜進行凈信號分析,得到不含噪聲背景等無關信息的凈信號,利用樣本凈信號間的歐氏距離作為樣本相似性判據(jù),選取局部校正子集并建立局部回歸模型。最后通過一組公開的近紅外光譜數(shù)據(jù)集驗證了本方法的有效性。
1.1 凈信號分析
Lorber將凈信號定義為樣本光譜的一部分,正交于樣本光譜中其他的干擾信息[15]。目前有多種方法用于凈信號的計算,本文將采用Lorber所提出的方法[16],其計算過程如下:
1)首先對校正樣本集R進行主成分分析,并利用前P個主成分進行光譜重構,得到重構光譜集RP。
2)基于RP計算出與待測成分k子空間正交的其他信息組成的子空間RP, -k,計算方式為
RP, -k=RP-αykdk
(1)
3)yk是待測組分的估計值,計算方式為
(2)
其中上標“+”表示Moore-Penrose偽逆,y是校正樣本集的濃度矩陣。
4)式(1)中的α是標量,可通過式(3)計算
(3)
5)式(1)和式(3)中的dk表示的是待測組分的光譜信息,可由重構光譜集RP的平均光譜代替,通過式(1),式(2)和式(3),可以得到正交于RP, -k的映射矩陣
H=I-(RP, -k)+RP, -k
(4)
6)樣本光譜的凈信號NAS (net analyte signal)可由式(5)得到
NAS=Hr
(5)
如上所述,凈信號分析方法通過獲得包含所有干擾信號的子空間,然后從樣本光譜中去除無用信息,得到表征樣本待測組分的有效信息。由于樣本的凈信號已經(jīng)消除了噪聲背景等干擾因素,基于樣本凈信號間的歐式距離能更好地表征樣本間的相似度。
1.2 基于凈信號的局部回歸模型
基于凈信號的局部PLS回歸模型建立流程如圖1所示。首先對校正樣本集進行凈信號分析,得到校正樣本集的凈信號和凈信號映射矩陣H。利用樣本凈信號間的歐式距離作為樣本相似性判據(jù),選取一定數(shù)目與待測樣本最為相似的校正樣本組成局部校正子集,建立局部回歸模型,得到待測樣本的預測值。
為了便于簡明地比較各模型結果,將經(jīng)典的全局PLS (Global PLS)記為G-PLS,將常用的基于光譜歐式距離的局部PLS(euclidean-distance local PLS) 記為EL-PLS,將工作新提出的基于樣本凈信號間的歐式距離的局部PLS (NAS euclidean-distance local PLS) 記為NAS-EL-PLS。
Fig.1 Procedure of local PLS model based on net analyte signal
1.3 局部PLS模型參數(shù)優(yōu)化
在局部PLS模型的建立過程中,需要確定的參數(shù)包括校正子集數(shù)目Nlocal和局部模型的潛變量個數(shù)A。采用留一法交叉驗證方式進行參數(shù)優(yōu)化,評價指標為交叉驗證均方根誤差(RMSECV)。N-PLS模型參數(shù)優(yōu)化具體步驟如下: 根據(jù)G-PLS模型確定最大潛變量個數(shù)Amax,然后每次取出一個校正樣本,用剩下的校正樣本根據(jù)式(1)—式(5)求出剩下的校正樣本的凈信號和留出樣本的凈信號,然后計算出留出樣本與剩余校正樣本凈信號間的歐氏距離作為樣本相似性判據(jù)。局部模型的潛變量個數(shù)A從1到Amax,對應每個潛變量個數(shù)A,定義一個校正子集數(shù)目的取值表: [A+1,A+2,A+5,A+10, …,Nlocal, …,N-1],N是校正樣本個數(shù)。進行留一法交叉驗證,考察潛變量個數(shù)和校正子集數(shù)目對RMSECV的影響。留一法交叉驗證過程中,依次留出一個校正樣本,根據(jù)留出的校正樣本與剩下的校正樣本間相似性判據(jù)的大小,選取校正子集。最終確定使RMSECV最小的潛變量個數(shù)A和校正子集數(shù)目Nlocal。
EL-PLS模型參數(shù)優(yōu)化與NAS-loc-PLS模型類似,只是采用光譜間的歐氏距離作為光譜相似性判據(jù),在此不再贅述。
2.1 樣本數(shù)據(jù)集
實驗所用數(shù)據(jù)為一組由一臺Tecator近紅外光譜儀測得的豬肉近紅外光譜數(shù)據(jù)集。每條光譜包含100個波長點,范圍為850~1 050 nm。該數(shù)據(jù)集由225個樣本組成,并且該樣本集被獲取時,已經(jīng)分成了一個包含172個樣本的校正樣本集和一個包含43個樣本的測試樣本集[17]。前期研究工作表明[17-18],該數(shù)據(jù)集尤其是脂肪含量與光譜響應之間存在明顯的非線性。這主要由于豬肉樣本成分復雜性以及樣本的脂肪含量變化范圍較大(0.9~49.1 wt%)。這里選取豬肉樣本的脂肪含量作為研究對象。所有程序均采用Matlab 7.1 編寫,在Windows 7環(huán)境下運行。
2.2 性能評價指標
通過G-PLS,EL-PLS以及NAS-loc-PLS模型預測性能的對比,驗證本方法的有效性。這里,模型預測性能由交叉驗證均方根誤差(RMSECV)和預測均方根誤差(RMSEP)評價。
3.1 模型參數(shù)的選取
如前文所述,NAS-loc-PLS模型需要確定的參數(shù)為校正子集數(shù)目Nlocal和局部模型的潛變量個數(shù)A。由于G-PLS的最優(yōu)潛變量數(shù)為13,所以NAS-EL-PLS和EL-PLS的所能用的最大潛變量數(shù)Amax=13?;诮徊骝炞C的方式,得到NAS-EL-PLS模型參數(shù)NL和A與RMSECV之間的關系,如圖2所示。
從圖2中可以得知當A=7,NL=23時,NAS-EL-PLS的RMSECV最小,達到最優(yōu)性能。類似的可以得到EL-PLS的最優(yōu)模型參數(shù)為:A=10,NL=41。
3.2 模型預測性能的對比
使用RMSECV作為評價指標來比較各個模型的性能。同時為了比較各模型的對未知樣本的預測能力,使用各模型對測試集里的未知樣本進行預測,得到各個模型的RMSEP。表1中給出了各個模型性能的對比。
Fig.2 Influence of model parameters on RMSECV of NAS-EL-PLS model
Table 1 Comparison of performance among three models
如表1所示,兩種局部模型的主因子數(shù)和所需校正樣本數(shù)均顯著小于全局模型,同時RMSECV也顯著小于全局模型。比較三種模型對未知樣本的預測性能,NAS-EL-PLS模型顯著優(yōu)于G-PLS和EL-PLS模型。EL-PLS模型對未知樣本的預測能力最差。所以無論從模型的復雜度,以及模型的預測性能,NAS-EL-PLS模型均顯著優(yōu)于G-PLS和EL-PLS模型。NAS-EL-PLS模型只需選用很少的校正樣本就能夠獲得比全局模型更好的預測性能。EL-PLS模型的預測能力很差,表明了基于樣品光譜間歐式距離作為樣本相似判據(jù),有時并不能真實體現(xiàn)樣本的相似性,因此基于光譜歐式距離的局部模型的預測性能很可能比全局模型還差。而樣本凈信號由于已經(jīng)去除了噪聲背景等無關因素的干擾,樣本凈信號間的歐氏距離能夠更好的表征樣本間的相似性。
為了進一步比較各模型的預測性能,圖3給出了各模型對測試集預測時預測值與真實值的對比圖??芍珿-PLS和EL-PLS模型的預測有較大的偏差,而NAS-EL-PLS模型預測性能最好,且顯著優(yōu)于其他模型。
Fig.3 Comparison of models
提出了一種基于凈信號的局部建模算法,利用凈信號分析方法得到樣本的凈信號。通過凈信號分析方法能夠消除樣本光譜里噪聲背景等無關信息,因而以樣本凈信號間的歐式距離能夠更好體現(xiàn)樣本間的相似性。將該方法應用于一組公開的近紅外光譜數(shù)據(jù)集,實驗結果表明該方法顯著優(yōu)于全局偏最小二乘算法和基于光譜歐式距離的局部偏最小二乘算法。
[1] Guy F, Prache S, Thomas A, et al. Food Chemistry, 2011, 127: 1280.
[2] ZHANG Hong-guang, YANG Qin-min, LU Jian-gang, et al(張紅光,楊秦敏,盧建剛,等). Spectroscopy and Spectral Analysis(光譜學與光譜分析), 2014, 34(4): 972.
[3] Roggo Y, Chalus P, Maurer L, et al. Journal of Pharmaceutical and Biomedical Analysis, 2007, 44: 683.
[4] Balabin R M, Safieva R Z. Analytica Chimica Acta, 2011, 689: 190.
[5] Zhang H G, Yang Q M, Lu J G. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2014, 120: 625.
[6] Shao X G, Du G R, Jing M, et al. Chemometrics and Intelligent Laboratory Systems, 2012, 114: 44.
[7] Ben-Gera I, Norris K H. Journal of Food Science, 1968, 33: 64.
[8] HOU Zhen-yu, CAI Wen-sheng, SHAO Xue-guang(侯振雨,蔡文生,邵學廣). Chinese Journal of Analytical Chemistry(分析化學), 2006, 34(5): 617.
[9] Chen D, Hu B, Shao X G, et al. Analytical and Bioanalytical Chemistry, 2005, 381: 795.
[10] BAO Xin, DAI Lian-kui(包 鑫,戴連奎). Chinese Journal of Analytical Chemistry(分析化學), 2008, 1: 75.
[11] Chen T, Morris J, Martin E. Chemometrics and Intelligent Laboratory Systems, 2007, 87: 59.
[12] Xie Y L, Kalivas J H. Analytica Chimica Acta, 1997, 348: 29.
[13] Center V, Massart D L. Analical Chemistry, 1998, 70: 4206.
[14] SHI Xue, CAI Wen-sheng, SHAO Xue-guang(石 雪,蔡文生,邵學廣). Chinese Journal of Analytical Chemistry(分析化學), 2008, 8: 1093.
[15] Lorber A. Analytical Chemistry, 1986, 58: 1167.
[16] Lorber A, Faber K, Kowalski B R. Analytica Chimica Acta, 1997, 69: 1620.
[17] Borggaard C, Thodberg H H. Anal. Chem., 1992, 64: 545.
[18] Thodberg H H. IEEE Transactions on Neural Networks, 1996, 7: 56.
*Corresponding author
Local Regression Algorithm Based on Net Analyte Signal and Its Application in Near Infrared Spectral Analysis
ZHANG Hong-guang, LU Jian-gang*
State Key Laboratory of Industrial Control Technology, Zhejiang University, Hangzhou 310027, China
To overcome the problems of significant difference among samples and nonlinearity between the property and spectra of samples in spectral quantitative analysis, a local regression algorithm is proposed in this paper. In this algorithm, net signal analysis method(NAS) was firstly used to obtain the net analyte signal of the calibration samples and unknown samples,then the Euclidean distance between net analyte signal of the sample and net analyte signal of calibration samples was calculated and utilized as similarity index. According to the defined similarity index, the local calibration sets were individually selected for each unknown sample. Finally, a local PLS regression model was built on each local calibration sets for each unknown sample. The proposed method was applied to a set of near infrared spectra of meat samples. The results demonstrate that the prediction precision and model complexity of the proposed method are superior to global PLS regression method and conventional local regression algorithm based on spectral Euclidean distance.
Spectral quantitative analysis; Local regression; Net analyte signal; Partial least square; Near infrared spectra
Jul. 29, 2014; accepted Nov. 15, 2014)
2014-07-29,
2014-11-15
國家(973計劃)項目(2012CB720500),國家自然科學基金項目(61590925)資助
張紅光,1987年生,浙江大學控制系博士研究生 e-mail: hgzhang@iipc.zju.edu.cn *通訊聯(lián)系人 e-mail: jglu@iipc.zju.edu.cn
O657.3
A
10.3964/j.issn.1000-0593(2016)02-0384-04