崔耀耀,孔德明,孔令富,王書濤,史慧超
1. 燕山大學(xué)信息科學(xué)與工程學(xué)院,河北 秦皇島 066004 2. 燕山大學(xué)電氣工程學(xué)院,河北 秦皇島 066004 3. Department of Telecommunications and Information Processing, Ghent University, B-9000 Ghent, Belgium 4. 北京化工大學(xué)信息科學(xué)與技術(shù)學(xué)院,北京 100029
石油產(chǎn)品作為最重要的能源及化工原料在現(xiàn)代社會(huì)中發(fā)揮著舉足輕重的作用[1]。 石油產(chǎn)品在開采、使用、運(yùn)輸及儲(chǔ)存等過程中不可避免會(huì)發(fā)生泄漏,從而導(dǎo)致嚴(yán)重的生態(tài)環(huán)境污染[2],對(duì)人類健康以及社會(huì)經(jīng)濟(jì)造成不可估量的影響[3]。 因此,研究有效的油類識(shí)別方法對(duì)于相關(guān)部門進(jìn)行應(yīng)急處理以及保護(hù)生態(tài)環(huán)境具有重要的實(shí)用價(jià)值。
目前,三維熒光光譜法是鑒別復(fù)雜污染背景環(huán)境中油類最有效的方法之一[4-5]。 通常使用平行因子分析(PARAFAC)[6]、交替三線性分解(ATLD)[7]等二階校正方法解析三維熒光光譜數(shù)據(jù)(EEM),從而獲得具有化學(xué)意義的得分矩陣(代表被解析樣本中所含化學(xué)成分的相對(duì)含量)以及載荷矩陣(代表被解析樣本中所含化學(xué)成分本身的光譜特性)。 然后使用判別分析(DA)、支持向量機(jī)(SVM)等[8]模式識(shí)別方法對(duì)二階校正方法獲得的濃度得分矩陣進(jìn)行分類。 從而實(shí)現(xiàn)對(duì)未知樣本識(shí)別的目的。
然而,上述方法在建立分類模型的過程中,只是應(yīng)用得分矩陣從樣本所含化學(xué)成分的相對(duì)含量上對(duì)其進(jìn)行識(shí)別,并沒有利用具有定性信息的載荷矩陣從樣本的化學(xué)成分本身對(duì)其進(jìn)行定性。 基于此,本文采集了四種油類在不同背景環(huán)境下配制的80個(gè)油類樣本的三維熒光光譜數(shù)據(jù)。 然后利用PARAFAC對(duì)三維熒光光譜數(shù)據(jù)進(jìn)行了重構(gòu),以消除儀器誤差、噪聲等所帶來的干擾。 最后通過偏最小二乘判別分析(PLS-DA)建立樣本的分類模型,從而建立了一種識(shí)別未知油類的新方法。
取汽油(Q)、柴油(C)、航空煤油(H)和潤(rùn)滑油(R)四種油類,按照表1中的濃度配制實(shí)驗(yàn)樣本。 具體步驟如下: (1)用純凈水溶解適量的十二烷基硫酸鈉(SDS)得到濃度為0.1 mol·L-1的SDS溶劑,置于棕色玻璃瓶中避光保存; (2)利用精密電子秤分別稱取上述油類各0.1 g,用SDS溶劑分別定容于四個(gè)10 mL的容量瓶中,得到濃度為10 mg·mL-1的一級(jí)儲(chǔ)備溶液; (3)用移液器吸取適量的一級(jí)儲(chǔ)備液,經(jīng)SDS溶劑稀釋后,配制表1中的20個(gè)實(shí)驗(yàn)樣本; (4)分別利用自來水、河水以及海水配制另外3種濃度為0.1 mol·L-1的SDS溶劑,并利用該溶劑重復(fù)步驟(2)和步驟(3),最終得到不同溶劑背景下的80個(gè)油類實(shí)驗(yàn)樣本。
表1 油類樣本濃度Table 1 Oil samples concentration
使用英國Edinburgh Instruments公司生產(chǎn)的FS920穩(wěn)態(tài)熒光光譜儀采集實(shí)驗(yàn)樣本的熒光光譜。 設(shè)置激發(fā)和發(fā)射端的狹縫寬度為0.44 mm; 設(shè)置激發(fā)波長(zhǎng)范圍為260∶10∶500 nm,發(fā)射波長(zhǎng)范圍為280∶5∶520 nm。
實(shí)驗(yàn)樣本所獲得的原始熒光光譜如圖1所示(汽油樣本)。 原始熒光光譜中通常含有Rayleigh和Raman散射光譜,這些散射光譜不包含樣本中熒光團(tuán)的任何信息。 而且所有樣本中的散射光譜所處區(qū)域及其光譜形狀一致,這會(huì)對(duì)后期正確分類實(shí)驗(yàn)樣本帶來極大干擾。 因此,必須將散射光譜去除,去除散射后的光譜如圖2所示。 對(duì)去除散射后的熒光光譜數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,結(jié)果如圖3所示。
1.3.1 三維熒光光譜重構(gòu)
本文利用平行因子分析(PARAFAC)對(duì)三維熒光光譜數(shù)據(jù)進(jìn)行重構(gòu),以消除儀器誤差、噪聲等所帶來的干擾。 PARAFAC可以將三維數(shù)據(jù)(I×J×K)分解為一個(gè)得分矩陣A(I×N)和兩個(gè)載荷矩陣B(J×N),C(K×N)以及一個(gè)殘差矩陣E(I×J×K)
(1)
圖1 汽油樣本的原始熒光光譜圖Fig.1 Original fluorescence spectrumof a gasoline sample
圖2 去除散射后的汽油熒光光譜圖Fig.2 Fluorescence spectrum of gasolineremoval scattering
圖3 標(biāo)準(zhǔn)化后汽油樣本的熒光光譜圖Fig.3 Fluorescence spectrum of normalizedgasoline samples
式(1)中,i=1, 2, 3, …,I,I為樣本數(shù)量;j=1, 2, 3, …,J,J為發(fā)射波長(zhǎng)數(shù)量;k=1, 2, 3, …,K,K為激發(fā)波長(zhǎng)數(shù)量;n=1, 2, 3, …,N,N為PARAFAC建模時(shí)的組件數(shù)量;xijk表示第i個(gè)樣本在激發(fā)波長(zhǎng)為k、發(fā)射波長(zhǎng)為j時(shí)的熒光強(qiáng)度值;ain是得分矩陣A(I×N)中的元素;bjn是發(fā)射矩陣B(J×N)中的元素;ckn是激發(fā)矩陣C(K×N)中的元素;eijk是三維殘差矩陣E(I×J×K)中的元素。
其中,每一個(gè)n值都對(duì)應(yīng)一個(gè)PARAFAC組件。 這些組件在有效模型中具有直接的化學(xué)成分解釋,eijk表示模型未考慮的可變性殘差,主要代表了熒光光譜中不可解釋的成分(如儀器誤差、噪聲等)。 在光譜重構(gòu)過程中,若去除殘差項(xiàng)eijk,則可以得到直接反映樣本化學(xué)成分的穩(wěn)健性三維熒光光譜。 光譜重構(gòu)公式如式(2)
(2)
1.3.2 偏最小二乘判別分析
偏最小二乘判別分析(PLS-DA)是一種基于PLS2的分類方法[9]。 它將PLS的回歸結(jié)果轉(zhuǎn)換為一組可用于預(yù)測(cè)因變量的中間線性潛在變量(組件)。 因變量即是給定的類標(biāo)簽,它用于指示給定樣本是否屬于給定類。 利用上述原理構(gòu)建的模型可用于預(yù)測(cè)新樣本所屬的類[10]。
1.3.3 評(píng)價(jià)指標(biāo)
使用的評(píng)價(jià)指標(biāo)包括: 正確分類率(CC%)、準(zhǔn)確度(AC%)、靈敏度(SENS%)、特異性(SPEC%)和F分?jǐn)?shù)[11]。CC%表示正確分類為正數(shù)的樣本數(shù);AC代表考慮到真假陰性的正確分類的樣本總數(shù);SENS衡量正確識(shí)別的陽性比例;SPEC衡量正確識(shí)別的陰性比例;F分?jǐn)?shù)衡量模型的性能[12]。 計(jì)算公式如式(3)—式(7)所示
(3)
(4)
(5)
(6)
(7)
其中,TP代表真陽性,TN代表真陰性,F(xiàn)P代表假陽性,F(xiàn)N代表假陰性;N是測(cè)試集中的樣本數(shù);ε1和ε2表示第1類和第2類測(cè)試集中的錯(cuò)誤分類的樣本數(shù)量。
在光譜測(cè)量過程中,由于受到環(huán)境因素以及人為誤差的影響,導(dǎo)致所獲得的光譜數(shù)據(jù)中可能存在不能真實(shí)反映油類熒光團(tuán)信息的異常光譜。 這些可能存在的異常光譜會(huì)使重構(gòu)的光譜出現(xiàn)位置的偏移甚至形狀的改變。 因此,在三維熒光光譜重構(gòu)之前首先需要檢測(cè)可能存在的異常光譜并將其刪除。
通過實(shí)驗(yàn)樣本的Leverage值識(shí)別異常光譜,Leverage值越大則其為異常光譜的可能性就越大。 20個(gè)汽油樣本的Leverage值如圖4所示。 圖中19個(gè)樣本的Leverage值基本一致,而第13個(gè)樣本的Leverage值遠(yuǎn)大于其他樣本,因此可將其判斷為光譜存在異常的樣品。 用同樣的方法檢測(cè)出柴油中的第1和第3個(gè)樣本、航空煤油中的第1個(gè)樣本以及潤(rùn)滑油中的第1和第17個(gè)樣本為光譜存在異常的樣本。
圖4 異常樣品的識(shí)別Fig.4 Identification of abnormal samples
然后,利用激發(fā)和發(fā)射光譜的殘差來確定平行因子建模時(shí)所需的組件數(shù)量。 汽油樣本組件殘差圖如圖5所示。 其中,組件數(shù)為2時(shí)的激發(fā)和發(fā)射光譜的殘差最大,隨著組件數(shù)量增加,激發(fā)和發(fā)射光譜殘差顯著降低,當(dāng)組件數(shù)為5,6和7時(shí),殘差基本一致,變化不再明顯。 為加快建模速度,本文選用5組件對(duì)三維熒光光譜進(jìn)行重構(gòu)。 汽油樣本三維熒光光譜、重構(gòu)三維熒光光譜及殘差分布如圖6所示。
圖5 組分殘差圖Fig.5 Residual figure of components
首先,利用Kennard-Stone采樣選擇算法將剩余的74個(gè)樣本劃分為校正樣本(n=60)和預(yù)測(cè)樣本(n=14),然后利用PLS-DA對(duì)校正樣本進(jìn)行建模。 在建立PLS-DA校準(zhǔn)模型之前,利用交叉驗(yàn)證選擇潛在變量(LVs)的數(shù)量,交叉驗(yàn)證將校正樣本數(shù)據(jù)劃分為訓(xùn)練組和測(cè)試組,并根據(jù)訓(xùn)練組和測(cè)試組的解釋方差及錯(cuò)誤分類率選取LVs的數(shù)量,如圖7所示。 由圖可知,當(dāng)選取LVs=10時(shí),解釋方差[圖7(a)]為100%,錯(cuò)誤分類率[圖7(b)]為0。 其中,數(shù)據(jù)97.1%的變化可由前3個(gè)LVs解釋[圖7(a)],觀察油類樣本的前3個(gè)LVs得分圖(圖8),圖8(a)為未經(jīng)重構(gòu)的三維熒光光譜前3個(gè)LVs的得分,圖中的航空煤油和汽油相互重疊,難以區(qū)分兩種油類。 而經(jīng)過重構(gòu)的三維熒光光譜前3個(gè)LVs的得分[圖8(b)]則將航空煤油和汽油完全分離,并且與圖8(a)中四種油類LVs得分相比,經(jīng)過重構(gòu)的三維熒光光譜得分可以更加密集的將同種油類聚集在一起。 表明經(jīng)過重構(gòu)的三維熒光光譜能夠更加準(zhǔn)確的反映同種油類間的特征。
圖6 汽油樣本的三維熒光光譜、重構(gòu)后的三維熒光光譜以及殘差分布圖Fig.6 3D fluorescence spectrum, reconstruction 3D fluorescence spectrum and residual distribution of gasoline samples
圖7 潛在變量的選擇Fig.7 Selection of LVs
圖8 油類樣本的前3個(gè)LVs得分圖Fig.8 The first 3 LVs scores of oil samples
利用訓(xùn)練好的校正模型對(duì)預(yù)測(cè)樣本進(jìn)行預(yù)測(cè),得到最終結(jié)果如圖9所示。 圖9(a)是油類樣本未經(jīng)重構(gòu)的三維熒光光譜的PLS-DA建模及分類結(jié)果。 其中,四種油類都出現(xiàn)分類錯(cuò)誤的情況,分類效果較差。 圖9(b)是油類樣本重構(gòu)三維熒光光譜的PLS-DA建模及分類結(jié)果,四種油類建模及分類均完全正確,分類效果理想。 表2列出了模型的具體評(píng)價(jià)結(jié)果,從表中可以看出,重構(gòu)三維熒光光譜獲得各項(xiàng)評(píng)價(jià)指標(biāo)值均優(yōu)于未重構(gòu)的三維熒光光譜。 該結(jié)果表明油類樣本的三維熒光光譜經(jīng)重構(gòu)后再用于分類,可以獲得更好的分類性能。
圖9 PLS-DA建模及分類結(jié)果Fig.9 PLS-DA modeling and classification results
表2 三維熒光光譜的PLS-DA建模及分類評(píng)價(jià)結(jié)果Table 2 PLS-DA modeling and classification evaluation results of 3D fluorescence spectra
對(duì)未知油類進(jìn)行有效識(shí)別是解決油類污染問題的前提。 本文采集了四種油類在不同背景環(huán)境下配制的80個(gè)油類樣本的三維熒光光譜數(shù)據(jù),然后利用PARAFAC對(duì)三維光譜數(shù)據(jù)進(jìn)行了重構(gòu),并通過PLS-DA建立了油類樣本的分類模型。 該模型能夠?qū)λ姆N不同的油類進(jìn)行準(zhǔn)確分類,識(shí)別準(zhǔn)確率均為100%。 本文為油類污染識(shí)別提供了一種實(shí)用的新方法。