孔德明, 宋樂樂, 崔耀耀, 張春祥, 王書濤
1. 燕山大學電氣工程學院, 河北 秦皇島 066004 2. 燕山大學信息科學與工程學院, 河北 秦皇島 066004 3. Department of Telecommunications and Information Processing, Ghent University, B-9000 Ghent, Belgium
近幾十年來, 石油產(chǎn)品作為重要的能源及化工原料在現(xiàn)代社會中發(fā)揮著不可替代的作用。 而隨著對能源需求的持續(xù)增長, 石油產(chǎn)品在開采、 使用、 運輸及儲存過程中不可避免地會存在發(fā)生泄露的可能性。 石油類污染物嚴重影響附近水域的生態(tài)環(huán)境, 造成附近水域范圍內(nèi)植物、 魚類和浮游生物等生物的大量死亡, 間接影響人類的生命健康, 而越來越多受到人們的關注[1]。 針對石油類污染物的有效檢測和識別是處理溢油污染問題的前提基礎[2]。 因此, 研究一種快速、 高效的石油類污染物成分識別和分類的檢測手段, 對于有關部門及時展開應急處理和后續(xù)生態(tài)環(huán)境的治理恢復工作具有重要的現(xiàn)實意義。
目前, 針對石油類污染物進行檢測的方法主要有紅外光譜法、 氣相色譜法[3]、 紫外分光光度法[4]、 熒光光譜法[5]等。 其中, 三維熒光光譜法(excitation-emission matrix, EEM)具有分析速度快、 靈敏度高、 非破壞性, 以及能夠表征更多熒光光譜信息等優(yōu)點, 成為一種用于石油類污染物檢測的重要手段[6]。 程朋飛等[7]利用三維熒光光譜法結(jié)合自加權交替三線性分解算法對多種石油類污染物進行了分析, 實現(xiàn)了對石油類污染物的成分識別和濃度預測。 楊麗麗等[8]利用三維熒光光譜法結(jié)合二階校正算法對石油類污染物進行了檢測, 實現(xiàn)了對石油類污染物的定性定量檢測。 但上述方法存在對噪聲容忍能力較弱和收斂速度慢等不足, 限制了在實際復雜環(huán)境下的應用。 借助近年來發(fā)展的模式識別方法, 在利用平行因子分析(parallel factor analysis, PARAFAC)算法提取石油類物質(zhì)的熒光特征光譜的基礎上, 構建穩(wěn)健的分類模型, 解決了石油類物質(zhì)難以準確識別和分類的問題, 具有廣闊的應用前景。
分別采集含有海水的四組單一油液的三維熒光光譜數(shù)據(jù), 利用Delaunay三角形內(nèi)插值法對實驗樣本的三維熒光光譜數(shù)據(jù)進行去散射處理, 并利用PARAFAC算法分解去散射后的三維熒光光譜數(shù)據(jù), 獲得油品的熒光特征光譜, 再通過模式識別方法對所提取的熒光特征光譜構建分類模型, 從而建立針對石油類污染物的成分表征和油品種類分類的方法。
實驗樣本的三維熒光光譜數(shù)據(jù)由購自英國Edinburgh Instruments公司的FLS920型熒光光譜儀測得。 激發(fā)波長的范圍設定為260~500 nm, 發(fā)射波長的范圍設定為280~520 nm, 激發(fā)和發(fā)射步長均為5 nm; 激發(fā)和發(fā)射端狹縫寬度設定為0.44 nm。
選取市場購置的柴油(C)、 航空煤油(H)、 汽油(Q)和潤滑油(R)作為污染物質(zhì), 采用取自渤海秦皇島海域的海水作為溶劑來配制實驗樣本。 實驗樣本的配制步驟如下: (1)取適量海水和十二烷基硫酸鈉(SDS)配制0.1 mol·mL-1的樣本溶劑, 其目的是為了使油類更充分的溶于海水中; (2)利用精密電子秤稱取航空煤油、 汽油、 柴油和潤滑油各0.1 g, 用樣本溶劑溶解并分別定容于10 mL的容量瓶中, 得到10 mg·mL-1的一級儲備溶液并避光保存; (3)分別取10 mL的一級儲備溶液, 用樣本溶劑稀釋并定容于10 mL的容量瓶中, 配制成1 mg·mL-1的標準溶液; (4)分別取不同體積的標準溶液, 通過稀釋配制成不同濃度的實驗樣本。
1.2.1 平行因子分析算法(PARAFAC)
平行因子分析算法(PARAFAC)是一種基于交替最小二乘原理實現(xiàn)多維數(shù)據(jù)矩陣分解的算法[9]。 實驗樣本測得的熒光光譜數(shù)據(jù)組成一個I×J×K型的三維響應數(shù)陣X, 其中K為樣本個數(shù),I和J分別為激發(fā)波長和發(fā)射波長掃描個數(shù)。 該算法對三維響應數(shù)陣X進行分解的過程可由三線性成分模型表示
(1)
式中,i=1, 2, …,I;j=1, 2, …,J;k=1, 2, …,K;xijk為三維響應數(shù)陣X中的元素;ain為相對激發(fā)矩陣AI×N中的元素;bjn為相對發(fā)射矩陣BJ×N中的元素;ckn為相對濃度矩陣CK×N中的元素;eijk為三維殘差矩陣EI×J×K中的元素;N為矩陣AI×N,BJ×N和CK×N的列數(shù), 代表所有響應的組分數(shù), 包括目標分析物、 未知和未校正的干擾物以及變化的背景等。
1.2.2 偏最小二乘判別分析算法(PLS-DA)
偏最小二乘判別分析(partial least square discriminant analysis, PLS-DA)是一種基于偏最小二乘原理的數(shù)據(jù)分類算法[10]。 在實驗數(shù)據(jù)集合中, 每個樣品有m個預測變量X1,X2, …,Xm和一個分類變量Y; 需將Y轉(zhuǎn)換為q個潛在變量, 即
(2)
由矩陣Xn×m,Yn×q分別代表預測變量和分類變量矩陣。 利用PLSDA算法對變量矩陣Xn×m和Yn×q進行分解, 得到正交得分矩陣和載荷矩陣, 其實現(xiàn)分解過程的計算公式為
(3)
式中,Tn×a和Un×q為隱變量得分矩陣;Pa×m和Qa×q為載荷矩陣;En×m和Fn×q為殘差矩陣;a為特征提取的數(shù)目。
經(jīng)光譜儀掃描后得到的熒光光譜會存在Raman散射和Rayleigh散射, 如圖1(a)和(b)所示(以汽油樣本為例)。 散射的存在會導致利用PARAFAC算法建立的三線性成分模型帶有偏差, 嚴重影響油品的熒光特征分析。 從(a)和(b)可以看出, 散射的熒光峰過高, 掩蓋了汽油本身的熒光峰, 所以在分析前需要去除散射的干擾。 通過Delaunay三角形內(nèi)插值法可以有效地消除散射的干擾。 由圖1(c)和(d)可知: 經(jīng)三維熒光光譜數(shù)據(jù)預處理后, 油品的散射得到了有效去除, 本身的熒光特征峰得到凸顯。
采用PARAFAC算法分析預處理后得到的80×49×25三維數(shù)據(jù)矩陣X。 利用核一致診斷法和殘差分析法確定分析時應選取的組分數(shù), 結(jié)果如圖2(a)和(b)所示。 當組分數(shù)超過7時, 核一致值顯著降低, 殘差平方和基本趨于穩(wěn)定, 故選取組分數(shù)為7。 運用7因子PARAFAC模型對X進行分析, 得到的結(jié)果如圖2(c), (d)和(e)所示。 由圖2(c)和(d)可知: 因子1的激發(fā)/發(fā)射熒光峰位置為280/325 nm; 因子2的激發(fā)/發(fā)射熒光峰位置為290/305 nm; 因子3的激發(fā)/發(fā)射熒光峰位置為310/330 nm; 因子4的激發(fā)/發(fā)射熒光峰位置為300/305 nm; 因子5的激發(fā)/發(fā)射熒光峰位置為340/395 nm; 因子6的激發(fā)/發(fā)射熒光峰位置為350/435 nm; 因子7的激發(fā)/發(fā)射熒光峰位置為270/305 nm。 由圖2(e)可知: 在三維得分圖中, 幾種樣品之間出現(xiàn)不同程度的重疊, 這說明了僅用PARAFAC算法難以將不同石油類油品明顯區(qū)分開。
為了建立穩(wěn)健的分類模型, 先利用Kennard-Stone算法將實驗樣本劃分為訓練集和測試集。 其中訓練集包含60個實驗樣本, 測試集包含20個實驗樣本。 為了提高樣本利用率, 得到可靠穩(wěn)定的模型, 在建模前, 采用留一法進行交叉驗證, 并按照使四類油品的校正誤差最小的標準選取潛在變量數(shù)。 靈敏度、 特異性和準確率這三個參數(shù)能夠評估所建立的分類模型的分類效果, KNN, PCA-LDA和PLS-DA分類模型對訓練集的識別準確率都可達到100%, 驗證了三種模型的穩(wěn)健性。
圖1 汽油的熒光光譜
圖2 PARAFAC算法的分析結(jié)果
利用經(jīng)驗證的分類模型來預測測試集中的20個獨立樣本。 分類模型常用混淆矩陣來表示分類結(jié)果, 由測試集獲得的混淆矩陣如表1所示。 其中黑體數(shù)字代表正確預測每類油品的樣本個數(shù)。 根據(jù)表1中混淆矩陣得出分類模型的靈敏度、 特異性和準確率如表2所示。 由表1和表2可以看出: 這三種分類方法的靈敏度、 特異性以及準確率都比較高, 說明采用模式識別方法可以很好的對不同種類油品樣本進行分類研究。 對于KNN和PCA-LDA模型, 識別準確率分別為85%和90%, 相比而言, 采用PLS-DA模型取得了更好的分類結(jié)果, 測試集識別準確率達到了94%。
表1 測試集獲得的混淆矩陣
表2 測試集得到的靈敏度、 特異性和準確率
利用三維熒光光譜技術結(jié)合平行因子分析算法和模式識別方法對多種石油類污染物進行了組成成分的熒光特性表征和油品種類的分類。 研究結(jié)果表明, 在利用Delaunay三角形內(nèi)插值法去除實驗樣本中散射的基礎上, 利用PARAFAC算法分解得到的三線性組分模型所構建的PLS-DA分類模型較KNN和PCA-LDA分類模型具有最佳的分類效果, 識別準確率最高, 達到94%。 本研究提供了一種三維熒光光譜技術與平行因子分析算法和模式識別方法相結(jié)合的油品檢測方法, 可為石油類污染物的快速檢測提供一種新的思路和重要參考。