路皓翔,吳鵬飛,楊輝華,3*,劉振丙
(1.桂林電子科技大學(xué) 電子工程與自動(dòng)化學(xué)院,廣西 桂林 541004;2.桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004;3.北京郵電大學(xué) 自動(dòng)化學(xué)院,北京 100876)
自20世紀(jì)90年代起,近紅外光譜分析技術(shù)在石油化工、食品藥品監(jiān)督以及農(nóng)業(yè)等領(lǐng)域有了廣泛應(yīng)用[1-4]。然而在實(shí)際應(yīng)用中,由于儀器老化、基線漂移和吸光度波動(dòng)等原因,會(huì)造成以一臺(tái)儀器測(cè)得的樣品光譜數(shù)據(jù)建立的定量分析模型不能直接應(yīng)用于其他光譜儀上測(cè)得的樣品光譜數(shù)據(jù)的分析。為了提高定量分析模型的通用性,近紅外光譜的模型傳遞技術(shù)應(yīng)運(yùn)而生。
近紅外光譜的模型傳遞又稱(chēng)近紅外光譜儀器的標(biāo)準(zhǔn)化[5],主要是用數(shù)學(xué)運(yùn)算的相關(guān)知識(shí)求解出兩臺(tái)或兩臺(tái)以上的光譜儀測(cè)得的光譜數(shù)據(jù)之間的轉(zhuǎn)換矩陣,進(jìn)而實(shí)現(xiàn)不同儀器上測(cè)得的光譜數(shù)據(jù)的標(biāo)準(zhǔn)化,提高近紅外光譜定量分析模型在不同儀器上的通用性。當(dāng)前模型傳遞中轉(zhuǎn)換矩陣的求解主要有標(biāo)樣法和無(wú)標(biāo)樣法兩種[6-7]。其中,標(biāo)樣法需要在主、從儀器之間測(cè)得的光譜矩陣上選擇一定數(shù)量的標(biāo)樣集,并通過(guò)標(biāo)樣集建立主、從儀器之間模型傳遞的數(shù)學(xué)模型,主要包括直接校正算法[8]、分段直接校正算法[9]、Shenk's[10]及一元線性回歸直接校正法[11]等。無(wú)標(biāo)樣法則不需要標(biāo)樣集,主要包括有限脈沖響應(yīng)算法[12]等。最小角回歸(Least angle regression,LAR)算法是由Efron等[13]于2004年提出的一種既可以用于特征變量篩選又可以用于線性回歸的機(jī)器學(xué)習(xí)算法,然而在近紅外光譜分析領(lǐng)域該方法應(yīng)用相對(duì)較少[14]。
針對(duì)近紅外光譜分析技術(shù)中的模型傳遞問(wèn)題,本文提出了一種最小角回歸結(jié)合一元線性回歸直接校正(Least angle regression combined simple linear regression direct standardization,LAR-SLRDS)的模型傳遞方法。為了驗(yàn)證LAR-SLRDS算法的性能,采用LAR實(shí)現(xiàn)藥品樣品和汽油樣品近紅外光譜數(shù)據(jù)全譜區(qū)特征波長(zhǎng)的篩選,然后結(jié)合SLRDS實(shí)現(xiàn)從儀器測(cè)得光譜數(shù)據(jù)的校正,并與未經(jīng)過(guò)篩選的一元線性回歸直接校正法(Simple linear regression direct standardization,SLRDS)、直接校正法(Direct standardization,DS)、分段直接校正法(Piecewise direct standardization,PDS)進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果表明,LAR-SLRDS可以很好地解決不同光譜儀器之間的差異,提高PLS定量分析模型的通用性和準(zhǔn)確性。
LAR算法通過(guò)引入一階懲罰函數(shù)將無(wú)效變量的系數(shù)置為0,從而實(shí)現(xiàn)變量的篩選。其線性回歸模型如下:
(1)
在式(1)中,(xi1,xi2,…,xip)代表第i個(gè)樣本的自變量,yi代表第i個(gè)樣本的響應(yīng)變量,βj表示第j個(gè)自變量系數(shù),t代表約束值,通常設(shè)置t≥0。
一元線性回歸的表達(dá)式是y=a0+ax,式中x和y分別代表自變量和因變量,a0和a為回歸系數(shù)。假設(shè)近紅外光譜樣本中不同波長(zhǎng)的吸光度不相關(guān),采用SLRDS對(duì)從儀器上測(cè)得的近紅外光譜分析校正[13]。設(shè)主、從儀器上測(cè)得的第i個(gè)樣品在第j個(gè)波長(zhǎng)點(diǎn)上的吸光度Xm(i,j)和Xs(i,j)滿(mǎn)足如下一元線性回歸方程:
Xm(i,j)=a0(j)+a(j)Xs(i,j) (i∈1…n,j∈1…p)
(2)
式(2)中,第j(j∈1…p)個(gè)波長(zhǎng)點(diǎn)對(duì)應(yīng)的回歸系數(shù)分別為a0(j)和a(j)。把式(2)寫(xiě)成矩陣形式如下:
(3)
其中,1n×1表示n×1的列向量且元素全為1。由式(3)可得:
(4)
(5)
第j(j∈1…p)個(gè)波長(zhǎng)點(diǎn)對(duì)應(yīng)的回歸系數(shù)a0(j)和a(j)可以通過(guò)公式(4)求出。從儀器上測(cè)得的未知樣品光譜Xunknown(n′×p)通過(guò)公式(5)轉(zhuǎn)換為與主儀器上測(cè)得的光譜一致的光譜Xstd,其中n′為未知樣品數(shù)。最后由主儀器建立的校正模型計(jì)算結(jié)果。
從內(nèi)部網(wǎng)絡(luò)中的打印機(jī)和多功能一體機(jī)上收集工作日志,然后生成對(duì)管理員和管理層有用的報(bào)告。能保存所有用戶(hù)的打印、復(fù)印、掃描、傳真記錄,并可以隨時(shí)搜索,可以追蹤及監(jiān)視用戶(hù)用量,可以生成各種報(bào)表(列表,圖形)制作及分析。包括以下:服務(wù)類(lèi)型、色彩模式、紙張尺寸、單/雙面選擇、什么時(shí)間、輸出設(shè)備型號(hào)等信息。
由于樣品的光譜特征波長(zhǎng)數(shù)量較多,而這些波長(zhǎng)中部分與預(yù)測(cè)結(jié)果的相關(guān)性較低,反而會(huì)影響預(yù)測(cè)結(jié)果和模型傳遞的準(zhǔn)確性和可靠性[15-16]。本文采用LAR以最小化池化信息準(zhǔn)則(Akaike information criterion,AIC)作為回歸系數(shù),將相關(guān)性較低的系數(shù)置為0,相關(guān)性較高的系數(shù)置為非0,從而實(shí)現(xiàn)樣品近紅外光譜特征波長(zhǎng)的篩選。然后利用SLRDS對(duì)篩選出的波長(zhǎng)進(jìn)行校正,從而提高模型的通用性。LAR-SLRDS算法的具體步驟如下:
(1)預(yù)處理:利用墨西哥帽小波變換對(duì)主、從儀器上測(cè)得的樣品近紅外光譜數(shù)據(jù)進(jìn)行預(yù)處理;
(2)波長(zhǎng)篩選:將小波變換預(yù)處理后的光譜數(shù)據(jù)作為L(zhǎng)AR算法的輸入,根據(jù)AIC最小的原則實(shí)現(xiàn)全譜區(qū)波長(zhǎng)點(diǎn)的篩選,并利用篩選出來(lái)的特征波長(zhǎng)點(diǎn)建立對(duì)應(yīng)的偏最小二乘回歸(Partial least squares regression,PLS)分析模型;
(3)轉(zhuǎn)換矩陣計(jì)算:利用K-S算法從主、從儀器測(cè)得的樣品光譜數(shù)據(jù)中篩選出最具代表性的光譜數(shù)據(jù)樣本,結(jié)合步驟(2)中篩選出的波長(zhǎng)點(diǎn),利用SLRDS算法實(shí)現(xiàn)轉(zhuǎn)換矩陣的求解;
(4)驗(yàn)證:在從儀器上測(cè)得驗(yàn)證集樣品的光譜數(shù)據(jù),并結(jié)合步驟(2)中篩選出的波長(zhǎng)點(diǎn)信息,利用求解出的轉(zhuǎn)換矩陣對(duì)驗(yàn)證集的光譜數(shù)據(jù)進(jìn)行校正,將校正后的樣品光譜數(shù)據(jù)送入到主儀器上建立的PLS回歸分析模型,利用預(yù)測(cè)標(biāo)準(zhǔn)偏差(Standard error of prediction,SEP)對(duì)模型的性能進(jìn)行評(píng)估。
為了驗(yàn)證LAR-SLRDS算法的有效性,在汽油和藥品兩個(gè)近紅外光譜數(shù)據(jù)集上進(jìn)行相關(guān)實(shí)驗(yàn)并與DS、PDS和SLRDS進(jìn)行對(duì)比。數(shù)據(jù)集1采用石油化工科學(xué)研究院提供的汽油樣品的近紅外光譜數(shù)據(jù)集,該數(shù)據(jù)集包含兩臺(tái)NIR-3000型近紅外光譜儀(分別記作m1和s1)上測(cè)得的88個(gè)汽油樣本的近紅外光譜,其波長(zhǎng)范圍為700~1 100 nm,波長(zhǎng)間隔為0.2 nm,每個(gè)樣本共有2 002個(gè)特征波長(zhǎng)點(diǎn),此外還測(cè)定了C7、C8、C9和C10 4種成分的含量值。數(shù)據(jù)集2采用國(guó)際漫反射會(huì)議提供的藥品樣品的近紅外光譜數(shù)據(jù)集(http://www.eigenvector.com/data/tablets/index.html),該數(shù)據(jù)集包含兩臺(tái)Foss NIR-Systems近紅外光譜儀(分別記為m2和s2)上測(cè)得的655粒藥片樣本的近紅外光譜,其采樣的波長(zhǎng)為600~1 898 nm,采樣的間隔為2 nm,每個(gè)樣本共650個(gè)特征波長(zhǎng)點(diǎn),并分別測(cè)定了藥片樣本活性、重量和硬度3種成分的參考值。
由于實(shí)驗(yàn)用到的藥品樣本和汽油樣本的近紅外光譜數(shù)據(jù)存在基線漂移、漫反射和隨機(jī)噪聲等,首先采用標(biāo)準(zhǔn)正態(tài)變量變化消除樣本漫反射以及光程變換造成的樣本近紅外光譜數(shù)據(jù)之間的差異,然后采用數(shù)據(jù)平滑化消除樣本近紅外光譜數(shù)據(jù)存在的隨機(jī)噪聲,最后采用墨西哥帽小波變換(尺度值scale設(shè)為3,母小波波長(zhǎng)設(shè)為32*scale)消除樣本近紅外光譜數(shù)據(jù)存在的基線漂移。預(yù)處理后藥品樣本和汽油樣本主、從儀器的光譜圖如圖1所示。
由于LAR-SLRDS算法本質(zhì)上是有標(biāo)樣法,因此在實(shí)現(xiàn)模型傳遞的過(guò)程中需要選擇合適數(shù)量的標(biāo)樣集,本文采用K-S算法實(shí)現(xiàn)藥品樣本和汽油樣本兩個(gè)近紅外光譜數(shù)據(jù)集標(biāo)樣集的選取,其中設(shè)置標(biāo)樣集的上限為25,下限為3。
本次實(shí)驗(yàn)采用偏最小二乘法(PLS)建立定量回歸分析模型,其主成分?jǐn)?shù)由交互驗(yàn)證法確定。采用光譜平均差異(ARMS)、光譜校正率(Prcorrected)及預(yù)測(cè)均方根誤差(RMSEP)作為L(zhǎng)AR-SLRDS算法的評(píng)價(jià)指標(biāo)。其中,ARMS的值越大,表明不同儀器間測(cè)得的光譜數(shù)據(jù)差異越大;Prcorrected可顯示不同儀器間光譜差異的扣除率,其值越大表明算法的模型傳遞效果越好。RMSEP作為PLS回歸模型的評(píng)價(jià)準(zhǔn)則,其值越小說(shuō)明算法的傳遞性能越好。其中,ARMS和Prcorrected計(jì)算公式如下:
(6)
(7)
首先將藥品樣本和汽油樣本的成分含量參考值按照升序排列;然后采用隔三選一的方式在汽油樣本數(shù)據(jù)集中挑選預(yù)測(cè)集60個(gè),校正集28個(gè);在藥品樣本數(shù)據(jù)集中挑選預(yù)測(cè)集460個(gè),校正集155個(gè);最后利用PLS分別在兩臺(tái)主儀器上建立定量模型。
圖2 汽油C7成分RMSECV隨變量數(shù)變換情況Fig.2 RMSECV of gasoline C7 component with variable number conversion
由于樣品近紅外光譜數(shù)據(jù)維度較高,特征波長(zhǎng)數(shù)量較多,而這些變量中存在很多與PLS回歸模型預(yù)測(cè)結(jié)果相關(guān)性較低甚至無(wú)關(guān)的變量,如果過(guò)多引入這些變量,會(huì)降低模型傳遞的效果和PLS模型預(yù)測(cè)結(jié)果的準(zhǔn)確性,因此需要對(duì)樣品光譜數(shù)據(jù)中的有效變量進(jìn)行篩選,對(duì)無(wú)關(guān)變量進(jìn)行剔除。以汽油樣本C7成分含量為例,采用LAR算法對(duì)其變量進(jìn)行篩選,然后利用PLS建立回歸分析模型。本次實(shí)驗(yàn)采用交叉驗(yàn)證均方根誤差(Root mean square error of cross validation,RMSECV)作為PLS回歸模型的評(píng)價(jià)指標(biāo),通常RMSECV值越小,PLS回歸模型的效果越好。汽油C7成分的RMSECV隨變量數(shù)變換的情況如圖2所示,從圖中可以看出特征波長(zhǎng)數(shù)的選取對(duì)PLS模型的預(yù)測(cè)會(huì)產(chǎn)生影響。隨著樣品波長(zhǎng)數(shù)目的增加,汽油樣品C7成分的RMSECV值逐漸變小,當(dāng)樣品波長(zhǎng)數(shù)為45時(shí),C7成分的RMSECV取得最小值,表明PLS模型的預(yù)測(cè)效果最好。當(dāng)樣品波長(zhǎng)數(shù)大于45時(shí),隨著樣本波長(zhǎng)數(shù)的增加,C7成分的RMSECV值逐漸處于擺動(dòng)狀態(tài),但均高于樣品波長(zhǎng)數(shù)為45時(shí)的RMSECV值,表明當(dāng)波長(zhǎng)數(shù)超過(guò)一定數(shù)量時(shí)反而會(huì)降低PLS模型的預(yù)測(cè)效果。
為了驗(yàn)證模型傳遞的效果,利用LAR-SLRDS算法對(duì)汽油和藥品的近紅外光譜數(shù)據(jù)集進(jìn)行模型傳遞實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3所示,其中圖3A(左)給出了汽油樣本C7成分選擇標(biāo)樣集時(shí),測(cè)試集在主、從儀器上的平均光譜,圖3B(左)給出了藥品樣本重量成分選擇標(biāo)樣集時(shí),測(cè)試集在主、從儀器上的平均光譜。從圖中可以看出汽油、藥品兩個(gè)數(shù)據(jù)集在主、從儀器上測(cè)得光譜數(shù)據(jù)的平均光譜均存在明顯的差異。圖3(右)給出了LAR-SLRDS算法校正后汽油樣本和藥品樣本測(cè)試集在主、從儀器上的平均光譜。從圖中可以看出經(jīng)LAR-SLRDS算法校正后,兩個(gè)數(shù)據(jù)集在主、從儀器上的平均光譜之間幾乎不存在差異。
LAR-SLRDS算法校正前后兩個(gè)數(shù)據(jù)集的光譜平均差異(ARMS)和光譜校正率(Pr)的計(jì)算值如表1所示。以藥品中重量性質(zhì)為例進(jìn)行相關(guān)說(shuō)明,從表1中可以看出,從儀器的標(biāo)樣集大小設(shè)為4,光譜傳遞前主、從儀器上測(cè)得的近紅外光譜的光譜差異為0.109 1,經(jīng)LAR-SLRDS算法傳遞后主、從儀器上測(cè)得的近紅外光譜的差異僅為0.031 8,校正率達(dá)到91.59%。與圖3B的結(jié)果一致。由此可以得出,LAR-SLRDS算法能夠消除主、從儀器上光譜之間的差異性,很好地實(shí)現(xiàn)模型傳遞。
表1 LAR-SLRDS算法傳遞前后儀器間的光譜差異(ARMS)Table 1 ARMS before and after calibration transfer by LAR-SLRDS
本文將DS、PDS和SLRDS與LAR-SLRDS算法模型傳遞進(jìn)行對(duì)比。前3種算法校正過(guò)程中標(biāo)樣集大小的選取以及PDS算法窗口的選擇與LAR-SLRDS算法相同,均遵從SEP最小原則,僅缺少波長(zhǎng)篩選環(huán)節(jié)。表2給出了DS、PDS、SLRDS和LAR-SLRDS傳遞后測(cè)試集主、從儀器上光譜差異的計(jì)算值。從表2中可以看出,與DS、PDS、SLRDS傳遞后的光譜差異相比,汽油和藥品兩個(gè)數(shù)據(jù)集經(jīng)LAR-SLRDS算法傳遞后主、從儀器上的光譜差異均明顯降低。以藥品數(shù)據(jù)集的重量性質(zhì)為例說(shuō)明,經(jīng)DS、PDS和SLRDS算法傳遞后,主、從儀器上的光譜差異分別降為0.074 7、0.039 5和0.049 5,然而經(jīng)LAR-SLRDS算法傳遞后,主、從儀器上的光譜差異降為0.031 8,證明LAR-SLRDS模型傳遞的效果最好。
表2 經(jīng)DS、PDS、SLRDS和LAR-SLRDS傳遞后主、從儀器間的光譜差異(ARMS)Table 2 ARMS between master and slave devices after calibration transfer by DS,PDS,SLRDS and LAR-SLRDS
表3給出了DS、PDS、SLRDS和LAR-SLRDS算法模型傳遞以后從儀器測(cè)試集預(yù)測(cè)標(biāo)準(zhǔn)差(SEP)的變化情況。以汽油數(shù)據(jù)集中C7成分含量為例進(jìn)行相關(guān)分析,從表3中可以看出,未經(jīng)過(guò)校正的從儀器上C7成分的SEP為2.783 2,經(jīng)過(guò)DS、PDS、SLRDS和LAR-SLRDS算法模型傳遞后,其預(yù)測(cè)標(biāo)準(zhǔn)偏差均明顯降低,其中本文提出的LAR-SLRDS算法的模型傳遞效果最好,從儀器上測(cè)得的汽油樣本光譜數(shù)據(jù)經(jīng)LAR-SLRDS算法模型傳遞并進(jìn)行PLS回歸后,預(yù)測(cè)標(biāo)準(zhǔn)差僅為0.410 6。
表3 DS、PDS、SLRDS和LAR-SLRDS傳遞前后的預(yù)測(cè)標(biāo)準(zhǔn)差(SEP)Table 3 SEP before and after calibration transfer by DS,PDS,SLRDS and LAR-SLRDS
近年來(lái),近紅外光譜技術(shù)研究融入人們生活的方方面面,然而模型傳遞問(wèn)題尚未得到很好地解決。本文提出了一種新的模型傳遞方法——最小角回歸結(jié)合一元線性回歸直接校正法(LAR-SLRDS),利用LAR算法進(jìn)行樣品光譜信息中有效特征波長(zhǎng)點(diǎn)的篩選,同時(shí)剔除無(wú)關(guān)或非線性變量,使得樣品的光譜矩陣維度降低,結(jié)合SLRDS算法所求參數(shù)少、傳遞效果好等優(yōu)勢(shì),提高了近紅外光譜定量分析模型在不同儀器之間的通用性。最后,采用汽油和藥品樣本兩個(gè)光譜數(shù)據(jù)集評(píng)估LAR-SLRDS算法的性能,并與DS、PDS和SLRDS算法的模型傳遞效果進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果表明,LAR-SLRDS算法可以消除儀器間的光譜差異,實(shí)現(xiàn)模型傳遞,提高定量分析模型的準(zhǔn)確性以及穩(wěn)定性,較DS、PDS和SLRDS算法具有所求參數(shù)少、模型傳遞效果好等優(yōu)點(diǎn),能夠?qū)崿F(xiàn)藥品和汽油樣本的近紅外光譜模型傳遞。