丁怡曼,薛曉康,范 賓,董學(xué)勝,舒耀皋,蔣 鑫
(上?;ぱ芯吭河邢薰?上海化學(xué)品公共安全工程技術(shù)中心,上海 200062)
汽油是目前最常用的發(fā)動機燃料,與人們的日常生活密切相關(guān)[1]。而某些商家為了賺取更多利潤,出現(xiàn)以低牌號汽油冒充高牌號汽油的不良行為,因而會傷害發(fā)動機,損害消費者的利益。因此,對市售汽油牌號及實際辛烷值進行檢測十分必要。
標準汽油牌號的識別方法包括測定汽油的研究法辛烷值(RON)或馬達法辛烷值(MON)[2],該方法準確度高,測試結(jié)果可靠,但需配備專用的汽油辛烷值試驗機及標準燃料,費時且昂貴[3-4]。因此,科技人員在不斷尋求能快速、準確識別汽油牌號和辛烷值的方法。張其可等[5]提出了基于近紅外光譜的汽油牌號識別算法,具有較好的分類效果;姜黎等[6]基于近紅外光譜波段選擇,并結(jié)合主成分分析-馬氏距離法(PCA-MD)對90號、93號、97號等不同牌號的汽油進行了分類。
研究發(fā)現(xiàn),采用拉曼光譜能在短時間內(nèi)獲得汽油分子內(nèi)部豐富的骨架振動信息[7];且對于不同牌號的汽油,拉曼光譜呈現(xiàn)出明顯的區(qū)分性;同時,相比于近紅外光譜儀,拉曼光譜儀的成本較低。因此,拉曼光譜法開始被用于汽油牌號的識別,如Li Sheng等[8]采用拉曼光譜儀,并結(jié)合局部加權(quán)-偏最小二乘支持向量機(LSSVM)成功對90號、93號和97號汽油進行了分類。
在已有研究的基礎(chǔ)上,本研究采用小型便攜式拉曼光譜儀,并結(jié)合主成分分析和最小二乘化學(xué)計量算法,建立汽油牌號模型和汽油RON預(yù)測模型,旨在提供一種汽油牌號和實際辛烷值的快速現(xiàn)場識別方法,以協(xié)助對汽油質(zhì)量的現(xiàn)場檢測工作。
試驗收集了113個成品汽油樣品,由江蘇省產(chǎn)品質(zhì)量監(jiān)督檢驗研究院、杭州市質(zhì)量技術(shù)監(jiān)督檢測院提供,其中92號汽油樣品67個,95號汽油樣品46個,每個樣品都有對應(yīng)的RON數(shù)據(jù)。
拉曼光譜儀為美國必達泰克公司生產(chǎn)的BWS415-785S型i-Raman便攜式拉曼光譜儀,主要由激發(fā)波長為785 nm的激光器、收集拉曼信號的光纖探頭以及光譜儀組成,并配有拉曼光譜采集軟件BWSpec,光譜測量范圍為175~3 150 cm-1。
首先將拉曼光譜儀的光纖探頭插入至樣品池,然后將裝有一定量汽油樣品的比色皿放入樣品池中,開啟光纖探頭的光源開關(guān),打開BWSpec分析軟件,將積分時間設(shè)置為4 000 ms,時間乘數(shù)設(shè)置為1,平均采集次數(shù)設(shè)置為3。調(diào)整激光強度為0,進行暗電流掃描,以消除背景干擾,并調(diào)整激光強度為90%。對113個汽油樣品逐個進行光譜掃描,采集其拉曼光譜。
建模用算法的編寫和操作均在MATLAB2016a軟件上進行,程序在Window10系統(tǒng)環(huán)境下運行。
1.3.1 主成分分析法(PCA)主成分分析是將原變量進行變換,在只損失極少量信息的前提下,將多個指標轉(zhuǎn)化為少數(shù)幾個綜合指標(主成分),以降低數(shù)據(jù)維度[9]。其基本思路是將樣品的光譜矩陣X進行主成分分解,然后以主成分來解釋原始變量,依據(jù)的是方差最大原則。本試驗采用奇異值分解法對光譜矩陣X進行主成分分解,基本過程如式(1)和式(2)所示
X=U·S·Vt
(1)
T=U·S
(2)
式中:U為列正交矩陣,蘊含了樣品的類別信息;Vt為行正交矩陣(t代表矩陣的轉(zhuǎn)置運算);S為奇異值矩陣,反映每個主成分的特征值;T為矩陣X的得分矩陣,代表新變量,通過選擇T的數(shù)量,可以實現(xiàn)對原始光譜數(shù)據(jù)的信息壓縮,便于提取樣品的類別信息。
1.3.2 偏最小二乘法判別分析法(PLS-DA)PLS-DA是基于偏最小二乘回歸法(PLS)進行樣本的分類識別[10],是一種有監(jiān)督的模式識別方法[11],可用于汽油牌號的分類識別。具體思路為:以所有汽油樣品的光譜數(shù)據(jù)組成自變量矩陣X,矩陣的行對應(yīng)每個樣品,列對應(yīng)特征變量(即拉曼譜峰強度),見式(3);以樣品類別信息構(gòu)成因變量矩陣Y,其中行對應(yīng)每個樣品,列對應(yīng)樣品的牌號;Y是一個以0和1為元素的矩陣,若樣本屬于同一類,則該樣本在Y中對應(yīng)列的元素為1,見式(4)。然后,將X、Y的每一列分別進行PLS回歸分析建模,并計算得到各樣品對應(yīng)的回歸預(yù)測值yp。PLS-DA模型的識別規(guī)則為:若樣品對應(yīng)列的預(yù)測值yp>0.5,則可判定該汽油樣品屬于同類,否則不屬于同類。
(3)
(4)
1.3.3 偏最小二乘法(PLS)偏最小二乘法也是通過原始變量的線性組合,產(chǎn)生新變量(PLS因子),然后將PLS因子進行多元線性回歸。與主成分分析不同的是,偏最小二乘法在計算主成分時,除考慮計算的主成分方差最大外,還要求主成分與因變量矩陣Y相關(guān)程度最大[12]。PLS算法的基本過程如下:
①按照式(5)和式(6)對X、Y矩陣進行分解。
X=TP+E
(5)
Y=MQ+F
(6)
式中:M為矩陣Y的得分矩陣;P和Q分別為矩陣X和Y的主成分矩陣;E和F分別為PLS算法對矩陣X、Y引入的誤差。
②將T、M進行線性回歸,按照式(7)和式(8)計算系數(shù)矩陣B,即:
由M=TB
(7)
可得B=TtM(TtT)-1
(8)
③根據(jù)①中所得的主成分矩陣P和未知樣品的光譜矩陣X,求出未知樣品的得分矩陣T,然后,根據(jù)式(7)可求出因變量Y對應(yīng)的得分矩陣M,最后,由式(9)可得到未知樣品的預(yù)測值yp。
yp=TBQ
(9)
拉曼光譜儀在采集光譜信號的過程中可能存在激光強度不穩(wěn)定和噪聲干擾,造成熒光信號較強而樣品光譜信號較弱的問題,使拉曼譜峰產(chǎn)生熒光干擾、噪聲干擾和基線漂移、光譜重疊等現(xiàn)象,從而對光譜特征的提取產(chǎn)生不利的影響[13-14]。
因此,需要用BWSpec分析軟件校正基線,具體過程為:首先,根據(jù)原始光譜自動擬合對應(yīng)的背景曲線;然后,調(diào)節(jié)lambda因子,使自動擬合的背景區(qū)域最大化的位于基線漂移的區(qū)域;最后,對原始光譜進行背景扣除,使漂移的基線回正。汽油樣品基線校正后的拉曼光譜如圖1所示。
圖1 汽油樣品基線校正后的拉曼光譜
2.2.1 主成分分析法將汽油樣品基線校正后的光譜數(shù)據(jù)進行主成分分析,得到蘊含汽油牌號類別的得分矩陣T,選取T的前3個主成分PC1,PC2,PC3,得到汽油樣品的PCA分類散點圖,分別計算每個汽油樣品到其他樣品的歐氏距離,以每個樣品距離最近的樣品種類的作為汽油牌號分類的判據(jù),計算所有樣品分類正確率。結(jié)果表明:在113個樣品中,此模型計算分類正確的樣品數(shù)目為84個,分類正確率為74.34%。
為提高汽油牌號識別模型的分類正確率,對基線校正后的光譜數(shù)據(jù)分別進行一階求導(dǎo)或二階求導(dǎo)處理,并設(shè)置不同求導(dǎo)點數(shù)p,計算汽油樣品牌號的分類正確率,結(jié)果如表1所示。從表1可以看到,經(jīng)求導(dǎo)處理后,樣品牌號的分類正確率明顯提高,其中經(jīng)二階求導(dǎo)(p=11)處理后,分類正確率可達92.92%。此時,汽油樣品的PCA分布散點如圖2所示。由圖2可以看到,92號、95號汽油可基本實現(xiàn)區(qū)分。
表1 不同求導(dǎo)點數(shù)p下的汽油牌號PCA分類正確率
圖2 求導(dǎo)處理后汽油樣品的PCA分類分布
2.2.2 偏最小二乘判別分析法采用基線校正后的光譜數(shù)據(jù)進行偏最小二乘判別分析,建模前首先將113個92號汽油和95號汽油樣本集隨機劃分為校正集(86個樣本)和預(yù)測集(27個樣本)。
(1)潛變量數(shù)的選擇
試驗通過五折交互檢驗法來確定潛變量的數(shù)目[15],即將校正集隨機分為5組,其中一組用于模型預(yù)測,也稱交互檢驗集,其他組用于模型建立,計算不同潛變量下交互檢驗集的平均正判率,結(jié)果如圖3所示。由圖3可知,當潛變量數(shù)為7時,平均正判率達到最大值。圖4為交互檢驗過程中校正集均方根誤差和交互檢驗集均方根誤差的變化情況。從圖4可以看到,隨著潛變量數(shù)的增加,校正集的均方根誤差始終小于交互檢驗集,符合數(shù)據(jù)建模規(guī)律。因此選取建模的最佳潛變量數(shù)為7。
圖3 交互檢驗集正判率變化
圖4 校正集和交互檢驗集的均方根誤差隨潛變量數(shù)的變化
(2)PLS-DA模型判別結(jié)果
選定最佳潛變量數(shù)后,以校正集汽油樣品建立汽油牌號PLS-DA模型,然后再以此模型分別對校正集、預(yù)測集的汽油牌號進行預(yù)測,結(jié)果如表2所示。從表2可以看到,所建的汽油牌號PLS-DA模型對校正集和預(yù)測集汽油牌號的正判率分別為97.67%和96.30%,分類錯誤個數(shù)分別為2和1。
表2 PLS-DA模型判別結(jié)果
為了更加直觀地反映汽油牌號PLS-DA模型的預(yù)測效果,分別對校正集、預(yù)測集的汽油牌號分類結(jié)果作圖,結(jié)果如圖5所示。由圖5(a)可知,校正集中除編號為64、81的兩個95號汽油樣品識別錯誤外,其他牌號汽油樣品均正確識別;由圖5(b)可知,預(yù)測集中僅編號為6的92號汽油樣品識別錯誤,因而具有較好的預(yù)測效果。總體來看,相比于主成分分析建模92.92%的正確率,采用PLS-DA建立的汽油牌號模型對于92號、95號汽油的分類識別具有更好的效果,其正判率均在95%以上。
圖5 校正集和預(yù)測集的PLS-DA分類
在基線校正后的汽油樣品光譜數(shù)據(jù)矩陣X、樣品RON數(shù)據(jù)矩陣Y的基礎(chǔ)上,采用偏最小二乘法(PLS)建立汽油RON定量預(yù)測模型。建模前,將113個汽油樣品隨機劃分為校正集(70個樣本)、交互檢驗集(23個樣本)、預(yù)測集(20個樣本)。
2.3.1 PLS因子數(shù)的確定PLS因子數(shù)以交互檢驗集的預(yù)測殘差平方和(PRESS)來確定,如圖6所示。由圖6可知:當PLS因子數(shù)小于8時,隨著PLS因子數(shù)增加,交互檢驗集的PRESS快速減??;當PLS因子數(shù)為8時,交互檢驗集的PRESS最??;當PLS因子數(shù)超過8后,PRESS逐漸增加,出現(xiàn)過擬合的現(xiàn)象。因此,選取最佳PLS因子數(shù)為8,建立汽油RON預(yù)測模型。
圖6 不同PLS因子數(shù)對應(yīng)的交互檢驗集PRESS
2.3.2 模型預(yù)測以建立的PLS汽油辛烷值模型對校正集、預(yù)測集進行預(yù)測,并分別計算其相關(guān)系數(shù)及均方根誤差,結(jié)果如表3所示。由表3可知:校正集實際辛烷值與預(yù)測辛烷值的相關(guān)系數(shù)為0.944 8,均方根誤差為0.512 6;預(yù)測集實際辛烷值與預(yù)測辛烷值的相關(guān)系數(shù)為0.892 7,均方根誤差為0.609 6,它們的相關(guān)系數(shù)均接近于1,說明模型預(yù)測辛烷值與實際辛烷值相比偏差較小。
表3 PLS辛烷值模型預(yù)測結(jié)果
圖7為校正集和預(yù)測集汽油樣品RON實際值與預(yù)測值的相關(guān)圖。由圖7可以看到,汽油樣品靠近于對角線兩側(cè),說明汽油樣品RON實際值與模型預(yù)測值具有很好的相關(guān)性。這表明,建立的PLS汽油辛烷值預(yù)測模型能夠?qū)ζ蜆悠返腞ON進行精確預(yù)測。
圖7 校正集和預(yù)測集汽油樣品RON實際值與預(yù)測值的相關(guān)性
基于汽油樣品的拉曼光譜數(shù)據(jù),結(jié)合相應(yīng)的化學(xué)計量學(xué)算法,建立了汽油牌號識別模型及汽油RON預(yù)測模型。對基線校正后的光譜數(shù)據(jù)進行主成分分析建模后,汽油牌號的分類正確率僅為74.34%;對其進行求導(dǎo)處理后,樣品分類的正確率明顯提升,最高可達92.92%。
采用PLS-DA有監(jiān)督的模式識別方法建立的汽油牌號模型,樣品分類的正判率均在95%以上,對于區(qū)分92號、95號汽油的分類效果好。
采用偏最小二乘法建立汽油RON預(yù)測模型,其預(yù)測集相關(guān)系數(shù)為0.892 7,均方根誤差為0.609 6,說明此模型預(yù)測值與汽油RON實際值具有較好的相關(guān)性,且偏差較小,此模型對汽油的RON具有較好的預(yù)測效果。