丁怡曼,薛曉康,范 賓,董學(xué)勝,舒耀皋,蔣 鑫
(上海化工研究院有限公司 上?;瘜W(xué)品公共安全工程技術(shù)中心,上海 200062)
汽油是目前最常用的發(fā)動(dòng)機(jī)燃料,與人們的日常生活密切相關(guān)[1]。而某些商家為了賺取更多利潤(rùn),出現(xiàn)以低牌號(hào)汽油冒充高牌號(hào)汽油的不良行為,因而會(huì)傷害發(fā)動(dòng)機(jī),損害消費(fèi)者的利益。因此,對(duì)市售汽油牌號(hào)及實(shí)際辛烷值進(jìn)行檢測(cè)十分必要。
標(biāo)準(zhǔn)汽油牌號(hào)的識(shí)別方法包括測(cè)定汽油的研究法辛烷值(RON)或馬達(dá)法辛烷值(MON)[2],該方法準(zhǔn)確度高,測(cè)試結(jié)果可靠,但需配備專(zhuān)用的汽油辛烷值試驗(yàn)機(jī)及標(biāo)準(zhǔn)燃料,費(fèi)時(shí)且昂貴[3-4]。因此,科技人員在不斷尋求能快速、準(zhǔn)確識(shí)別汽油牌號(hào)和辛烷值的方法。張其可等[5]提出了基于近紅外光譜的汽油牌號(hào)識(shí)別算法,具有較好的分類(lèi)效果;姜黎等[6]基于近紅外光譜波段選擇,并結(jié)合主成分分析-馬氏距離法(PCA-MD)對(duì)90號(hào)、93號(hào)、97號(hào)等不同牌號(hào)的汽油進(jìn)行了分類(lèi)。
研究發(fā)現(xiàn),采用拉曼光譜能在短時(shí)間內(nèi)獲得汽油分子內(nèi)部豐富的骨架振動(dòng)信息[7];且對(duì)于不同牌號(hào)的汽油,拉曼光譜呈現(xiàn)出明顯的區(qū)分性;同時(shí),相比于近紅外光譜儀,拉曼光譜儀的成本較低。因此,拉曼光譜法開(kāi)始被用于汽油牌號(hào)的識(shí)別,如Li Sheng等[8]采用拉曼光譜儀,并結(jié)合局部加權(quán)-偏最小二乘支持向量機(jī)(LSSVM)成功對(duì)90號(hào)、93號(hào)和97號(hào)汽油進(jìn)行了分類(lèi)。
在已有研究的基礎(chǔ)上,本研究采用小型便攜式拉曼光譜儀,并結(jié)合主成分分析和最小二乘化學(xué)計(jì)量算法,建立汽油牌號(hào)模型和汽油RON預(yù)測(cè)模型,旨在提供一種汽油牌號(hào)和實(shí)際辛烷值的快速現(xiàn)場(chǎng)識(shí)別方法,以協(xié)助對(duì)汽油質(zhì)量的現(xiàn)場(chǎng)檢測(cè)工作。
試驗(yàn)收集了113個(gè)成品汽油樣品,由江蘇省產(chǎn)品質(zhì)量監(jiān)督檢驗(yàn)研究院、杭州市質(zhì)量技術(shù)監(jiān)督檢測(cè)院提供,其中92號(hào)汽油樣品67個(gè),95號(hào)汽油樣品46個(gè),每個(gè)樣品都有對(duì)應(yīng)的RON數(shù)據(jù)。
拉曼光譜儀為美國(guó)必達(dá)泰克公司生產(chǎn)的BWS415-785S型i-Raman便攜式拉曼光譜儀,主要由激發(fā)波長(zhǎng)為785 nm的激光器、收集拉曼信號(hào)的光纖探頭以及光譜儀組成,并配有拉曼光譜采集軟件BWSpec,光譜測(cè)量范圍為175~3 150 cm-1。
首先將拉曼光譜儀的光纖探頭插入至樣品池,然后將裝有一定量汽油樣品的比色皿放入樣品池中,開(kāi)啟光纖探頭的光源開(kāi)關(guān),打開(kāi)BWSpec分析軟件,將積分時(shí)間設(shè)置為4 000 ms,時(shí)間乘數(shù)設(shè)置為1,平均采集次數(shù)設(shè)置為3。調(diào)整激光強(qiáng)度為0,進(jìn)行暗電流掃描,以消除背景干擾,并調(diào)整激光強(qiáng)度為90%。對(duì)113個(gè)汽油樣品逐個(gè)進(jìn)行光譜掃描,采集其拉曼光譜。
建模用算法的編寫(xiě)和操作均在MATLAB2016a軟件上進(jìn)行,程序在Window10系統(tǒng)環(huán)境下運(yùn)行。
1.3.1 主成分分析法(PCA)主成分分析是將原變量進(jìn)行變換,在只損失極少量信息的前提下,將多個(gè)指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)(主成分),以降低數(shù)據(jù)維度[9]。其基本思路是將樣品的光譜矩陣X進(jìn)行主成分分解,然后以主成分來(lái)解釋原始變量,依據(jù)的是方差最大原則。本試驗(yàn)采用奇異值分解法對(duì)光譜矩陣X進(jìn)行主成分分解,基本過(guò)程如式(1)和式(2)所示
X=U·S·Vt
(1)
T=U·S
(2)
式中:U為列正交矩陣,蘊(yùn)含了樣品的類(lèi)別信息;Vt為行正交矩陣(t代表矩陣的轉(zhuǎn)置運(yùn)算);S為奇異值矩陣,反映每個(gè)主成分的特征值;T為矩陣X的得分矩陣,代表新變量,通過(guò)選擇T的數(shù)量,可以實(shí)現(xiàn)對(duì)原始光譜數(shù)據(jù)的信息壓縮,便于提取樣品的類(lèi)別信息。
1.3.2 偏最小二乘法判別分析法(PLS-DA)PLS-DA是基于偏最小二乘回歸法(PLS)進(jìn)行樣本的分類(lèi)識(shí)別[10],是一種有監(jiān)督的模式識(shí)別方法[11],可用于汽油牌號(hào)的分類(lèi)識(shí)別。具體思路為:以所有汽油樣品的光譜數(shù)據(jù)組成自變量矩陣X,矩陣的行對(duì)應(yīng)每個(gè)樣品,列對(duì)應(yīng)特征變量(即拉曼譜峰強(qiáng)度),見(jiàn)式(3);以樣品類(lèi)別信息構(gòu)成因變量矩陣Y,其中行對(duì)應(yīng)每個(gè)樣品,列對(duì)應(yīng)樣品的牌號(hào);Y是一個(gè)以0和1為元素的矩陣,若樣本屬于同一類(lèi),則該樣本在Y中對(duì)應(yīng)列的元素為1,見(jiàn)式(4)。然后,將X、Y的每一列分別進(jìn)行PLS回歸分析建模,并計(jì)算得到各樣品對(duì)應(yīng)的回歸預(yù)測(cè)值yp。PLS-DA模型的識(shí)別規(guī)則為:若樣品對(duì)應(yīng)列的預(yù)測(cè)值yp>0.5,則可判定該汽油樣品屬于同類(lèi),否則不屬于同類(lèi)。
(3)
(4)
1.3.3 偏最小二乘法(PLS)偏最小二乘法也是通過(guò)原始變量的線性組合,產(chǎn)生新變量(PLS因子),然后將PLS因子進(jìn)行多元線性回歸。與主成分分析不同的是,偏最小二乘法在計(jì)算主成分時(shí),除考慮計(jì)算的主成分方差最大外,還要求主成分與因變量矩陣Y相關(guān)程度最大[12]。PLS算法的基本過(guò)程如下:
①按照式(5)和式(6)對(duì)X、Y矩陣進(jìn)行分解。
X=TP+E
(5)
Y=MQ+F
(6)
式中:M為矩陣Y的得分矩陣;P和Q分別為矩陣X和Y的主成分矩陣;E和F分別為PLS算法對(duì)矩陣X、Y引入的誤差。
②將T、M進(jìn)行線性回歸,按照式(7)和式(8)計(jì)算系數(shù)矩陣B,即:
由M=TB
(7)
可得B=TtM(TtT)-1
(8)
③根據(jù)①中所得的主成分矩陣P和未知樣品的光譜矩陣X,求出未知樣品的得分矩陣T,然后,根據(jù)式(7)可求出因變量Y對(duì)應(yīng)的得分矩陣M,最后,由式(9)可得到未知樣品的預(yù)測(cè)值yp。
yp=TBQ
(9)
拉曼光譜儀在采集光譜信號(hào)的過(guò)程中可能存在激光強(qiáng)度不穩(wěn)定和噪聲干擾,造成熒光信號(hào)較強(qiáng)而樣品光譜信號(hào)較弱的問(wèn)題,使拉曼譜峰產(chǎn)生熒光干擾、噪聲干擾和基線漂移、光譜重疊等現(xiàn)象,從而對(duì)光譜特征的提取產(chǎn)生不利的影響[13-14]。
因此,需要用BWSpec分析軟件校正基線,具體過(guò)程為:首先,根據(jù)原始光譜自動(dòng)擬合對(duì)應(yīng)的背景曲線;然后,調(diào)節(jié)lambda因子,使自動(dòng)擬合的背景區(qū)域最大化的位于基線漂移的區(qū)域;最后,對(duì)原始光譜進(jìn)行背景扣除,使漂移的基線回正。汽油樣品基線校正后的拉曼光譜如圖1所示。
圖1 汽油樣品基線校正后的拉曼光譜
2.2.1 主成分分析法將汽油樣品基線校正后的光譜數(shù)據(jù)進(jìn)行主成分分析,得到蘊(yùn)含汽油牌號(hào)類(lèi)別的得分矩陣T,選取T的前3個(gè)主成分PC1,PC2,PC3,得到汽油樣品的PCA分類(lèi)散點(diǎn)圖,分別計(jì)算每個(gè)汽油樣品到其他樣品的歐氏距離,以每個(gè)樣品距離最近的樣品種類(lèi)的作為汽油牌號(hào)分類(lèi)的判據(jù),計(jì)算所有樣品分類(lèi)正確率。結(jié)果表明:在113個(gè)樣品中,此模型計(jì)算分類(lèi)正確的樣品數(shù)目為84個(gè),分類(lèi)正確率為74.34%。
為提高汽油牌號(hào)識(shí)別模型的分類(lèi)正確率,對(duì)基線校正后的光譜數(shù)據(jù)分別進(jìn)行一階求導(dǎo)或二階求導(dǎo)處理,并設(shè)置不同求導(dǎo)點(diǎn)數(shù)p,計(jì)算汽油樣品牌號(hào)的分類(lèi)正確率,結(jié)果如表1所示。從表1可以看到,經(jīng)求導(dǎo)處理后,樣品牌號(hào)的分類(lèi)正確率明顯提高,其中經(jīng)二階求導(dǎo)(p=11)處理后,分類(lèi)正確率可達(dá)92.92%。此時(shí),汽油樣品的PCA分布散點(diǎn)如圖2所示。由圖2可以看到,92號(hào)、95號(hào)汽油可基本實(shí)現(xiàn)區(qū)分。
表1 不同求導(dǎo)點(diǎn)數(shù)p下的汽油牌號(hào)PCA分類(lèi)正確率
圖2 求導(dǎo)處理后汽油樣品的PCA分類(lèi)分布
2.2.2 偏最小二乘判別分析法采用基線校正后的光譜數(shù)據(jù)進(jìn)行偏最小二乘判別分析,建模前首先將113個(gè)92號(hào)汽油和95號(hào)汽油樣本集隨機(jī)劃分為校正集(86個(gè)樣本)和預(yù)測(cè)集(27個(gè)樣本)。
(1)潛變量數(shù)的選擇
試驗(yàn)通過(guò)五折交互檢驗(yàn)法來(lái)確定潛變量的數(shù)目[15],即將校正集隨機(jī)分為5組,其中一組用于模型預(yù)測(cè),也稱(chēng)交互檢驗(yàn)集,其他組用于模型建立,計(jì)算不同潛變量下交互檢驗(yàn)集的平均正判率,結(jié)果如圖3所示。由圖3可知,當(dāng)潛變量數(shù)為7時(shí),平均正判率達(dá)到最大值。圖4為交互檢驗(yàn)過(guò)程中校正集均方根誤差和交互檢驗(yàn)集均方根誤差的變化情況。從圖4可以看到,隨著潛變量數(shù)的增加,校正集的均方根誤差始終小于交互檢驗(yàn)集,符合數(shù)據(jù)建模規(guī)律。因此選取建模的最佳潛變量數(shù)為7。
圖3 交互檢驗(yàn)集正判率變化
圖4 校正集和交互檢驗(yàn)集的均方根誤差隨潛變量數(shù)的變化
(2)PLS-DA模型判別結(jié)果
選定最佳潛變量數(shù)后,以校正集汽油樣品建立汽油牌號(hào)PLS-DA模型,然后再以此模型分別對(duì)校正集、預(yù)測(cè)集的汽油牌號(hào)進(jìn)行預(yù)測(cè),結(jié)果如表2所示。從表2可以看到,所建的汽油牌號(hào)PLS-DA模型對(duì)校正集和預(yù)測(cè)集汽油牌號(hào)的正判率分別為97.67%和96.30%,分類(lèi)錯(cuò)誤個(gè)數(shù)分別為2和1。
表2 PLS-DA模型判別結(jié)果
為了更加直觀地反映汽油牌號(hào)PLS-DA模型的預(yù)測(cè)效果,分別對(duì)校正集、預(yù)測(cè)集的汽油牌號(hào)分類(lèi)結(jié)果作圖,結(jié)果如圖5所示。由圖5(a)可知,校正集中除編號(hào)為64、81的兩個(gè)95號(hào)汽油樣品識(shí)別錯(cuò)誤外,其他牌號(hào)汽油樣品均正確識(shí)別;由圖5(b)可知,預(yù)測(cè)集中僅編號(hào)為6的92號(hào)汽油樣品識(shí)別錯(cuò)誤,因而具有較好的預(yù)測(cè)效果??傮w來(lái)看,相比于主成分分析建模92.92%的正確率,采用PLS-DA建立的汽油牌號(hào)模型對(duì)于92號(hào)、95號(hào)汽油的分類(lèi)識(shí)別具有更好的效果,其正判率均在95%以上。
圖5 校正集和預(yù)測(cè)集的PLS-DA分類(lèi)
在基線校正后的汽油樣品光譜數(shù)據(jù)矩陣X、樣品RON數(shù)據(jù)矩陣Y的基礎(chǔ)上,采用偏最小二乘法(PLS)建立汽油RON定量預(yù)測(cè)模型。建模前,將113個(gè)汽油樣品隨機(jī)劃分為校正集(70個(gè)樣本)、交互檢驗(yàn)集(23個(gè)樣本)、預(yù)測(cè)集(20個(gè)樣本)。
2.3.1 PLS因子數(shù)的確定PLS因子數(shù)以交互檢驗(yàn)集的預(yù)測(cè)殘差平方和(PRESS)來(lái)確定,如圖6所示。由圖6可知:當(dāng)PLS因子數(shù)小于8時(shí),隨著PLS因子數(shù)增加,交互檢驗(yàn)集的PRESS快速減??;當(dāng)PLS因子數(shù)為8時(shí),交互檢驗(yàn)集的PRESS最?。划?dāng)PLS因子數(shù)超過(guò)8后,PRESS逐漸增加,出現(xiàn)過(guò)擬合的現(xiàn)象。因此,選取最佳PLS因子數(shù)為8,建立汽油RON預(yù)測(cè)模型。
圖6 不同PLS因子數(shù)對(duì)應(yīng)的交互檢驗(yàn)集PRESS
2.3.2 模型預(yù)測(cè)以建立的PLS汽油辛烷值模型對(duì)校正集、預(yù)測(cè)集進(jìn)行預(yù)測(cè),并分別計(jì)算其相關(guān)系數(shù)及均方根誤差,結(jié)果如表3所示。由表3可知:校正集實(shí)際辛烷值與預(yù)測(cè)辛烷值的相關(guān)系數(shù)為0.944 8,均方根誤差為0.512 6;預(yù)測(cè)集實(shí)際辛烷值與預(yù)測(cè)辛烷值的相關(guān)系數(shù)為0.892 7,均方根誤差為0.609 6,它們的相關(guān)系數(shù)均接近于1,說(shuō)明模型預(yù)測(cè)辛烷值與實(shí)際辛烷值相比偏差較小。
表3 PLS辛烷值模型預(yù)測(cè)結(jié)果
圖7為校正集和預(yù)測(cè)集汽油樣品RON實(shí)際值與預(yù)測(cè)值的相關(guān)圖。由圖7可以看到,汽油樣品靠近于對(duì)角線兩側(cè),說(shuō)明汽油樣品RON實(shí)際值與模型預(yù)測(cè)值具有很好的相關(guān)性。這表明,建立的PLS汽油辛烷值預(yù)測(cè)模型能夠?qū)ζ蜆悠返腞ON進(jìn)行精確預(yù)測(cè)。
圖7 校正集和預(yù)測(cè)集汽油樣品RON實(shí)際值與預(yù)測(cè)值的相關(guān)性
基于汽油樣品的拉曼光譜數(shù)據(jù),結(jié)合相應(yīng)的化學(xué)計(jì)量學(xué)算法,建立了汽油牌號(hào)識(shí)別模型及汽油RON預(yù)測(cè)模型。對(duì)基線校正后的光譜數(shù)據(jù)進(jìn)行主成分分析建模后,汽油牌號(hào)的分類(lèi)正確率僅為74.34%;對(duì)其進(jìn)行求導(dǎo)處理后,樣品分類(lèi)的正確率明顯提升,最高可達(dá)92.92%。
采用PLS-DA有監(jiān)督的模式識(shí)別方法建立的汽油牌號(hào)模型,樣品分類(lèi)的正判率均在95%以上,對(duì)于區(qū)分92號(hào)、95號(hào)汽油的分類(lèi)效果好。
采用偏最小二乘法建立汽油RON預(yù)測(cè)模型,其預(yù)測(cè)集相關(guān)系數(shù)為0.892 7,均方根誤差為0.609 6,說(shuō)明此模型預(yù)測(cè)值與汽油RON實(shí)際值具有較好的相關(guān)性,且偏差較小,此模型對(duì)汽油的RON具有較好的預(yù)測(cè)效果。