摘 要 為實(shí)現(xiàn)柴油純度的快速檢測(cè),采用RS法、KS法和SPXY法對(duì)利用紅外光譜技術(shù)所采集的柴油樣本數(shù)據(jù)進(jìn)行樣本集劃分,之后利用蒙特卡洛交叉驗(yàn)證法(MCCV)剔除異常樣本,并采用無信息變量消除法(UVE)、競爭性自適應(yīng)重加權(quán)采樣法(CARS)、遺傳算法(GA)和自舉柔性收縮算法(BOSS)對(duì)全光譜變量進(jìn)行優(yōu)選,根據(jù)所選變量建立偏最小二乘(PLS)模型。結(jié)果表明:SPXY法劃分樣本后所建立的模型效果最好,其預(yù)測(cè)均方根誤差RMSEP為0.041 2,預(yù)測(cè)相關(guān)系數(shù)RP為0.992 1;經(jīng)MCCV法剔除異常樣本后,模型的RMSEP降低了4.85%,RP提高了0.50%;經(jīng)UVE法選擇的變量所建立的PLS模型性能最好,其RMSEP可達(dá)0.023 9,RP可達(dá)0.997 7,與全譜模型相比,RMSEP降低了39.03%,RP提高了0.06%,變量減少率可達(dá)67.27%。
關(guān)鍵詞 柴油純度檢測(cè) 紅外光譜技術(shù) 變量選擇 偏最小二乘模型
中圖分類號(hào) TH83 " 文獻(xiàn)標(biāo)志碼 A " 文章編號(hào) 1000-3932(2024)04-0592-08
柴油是一種高能石油燃料,與汽油相比,它具有更高的熱值[1]。柴油的純度即柴油體積分?jǐn)?shù)決定了它的燃燒性能與使用價(jià)值。低純度柴油不僅會(huì)使發(fā)動(dòng)機(jī)性能惡化,還會(huì)增加汽車尾氣廢氣的排放,導(dǎo)致空氣污染加劇?,F(xiàn)有的柴油純度檢測(cè)方法包括看柴油顏色、用手捻摸柴油等,這些方法主觀性強(qiáng)、效果差;另外,蒸餾測(cè)試、化學(xué)標(biāo)記測(cè)試等實(shí)驗(yàn)室分析法[2]費(fèi)用高且繁瑣。為此,急需找到一種檢測(cè)柴油純度的新方法。
紅外光譜技術(shù)以其快速、無損無污染等優(yōu)勢(shì),在石化[3]、農(nóng)業(yè)[4]、制藥[5]及食品[6]等領(lǐng)域得到迅速發(fā)展。WIKBERG E等利用紅外光譜法對(duì)化石柴油混合物中的生物柴油(FAME)和可再生柴油(HVO)的含量進(jìn)行了定量分析,得到FAME和HVO含量的預(yù)測(cè)均方根誤差(Root Mean Square Error of Prediction,RMSEP)分別為0.18%V/V和2.66%V/V,預(yù)測(cè)精度較高[7]。歐陽愛國等采用紅外光譜法分析了甲醇柴油中的甲醇含量,利用LS-SVM建立了預(yù)測(cè)模型,得到預(yù)測(cè)相關(guān)系數(shù)RP為0.998 9,RMSEP為0.062 4,實(shí)現(xiàn)了甲醇含量的測(cè)定[8]。胡振等利用蝙蝠算法優(yōu)化的紅外光譜校正模型檢測(cè)了柴油的運(yùn)動(dòng)黏度,其模型評(píng)價(jià)指標(biāo)優(yōu)異,能用于實(shí)際檢測(cè)[9]。上述研究利用紅外光譜法對(duì)柴油混合物中其他物質(zhì)含量或柴油性質(zhì)進(jìn)行了分析測(cè)定,取得了較好的結(jié)果,并證明了紅外光譜技術(shù)在檢測(cè)柴油純度領(lǐng)域的可行性。
筆者利用紅外光譜技術(shù),通過隨機(jī)法(Randomly Divided Sample,RS)、KS法(Kennard Stone)和SPXY法(Sample Set Partitioning Based on Joint X-Y Distances Method)[10]劃分樣本集,比較劃分后的偏最小二乘(Partial Least Squares,PLS)建模效果,選取最佳劃分方法,利用蒙特卡洛交叉驗(yàn)證法(Monte Carlo Cross Validation,MCCV)識(shí)別并刪除異常樣本[11],之后采用無信息變量消除法(Uninformative Variable Elimination,UVE)[12]、競爭性自適應(yīng)重加權(quán)采樣法(Competitive Adaptive Reweighted Sampling,CARS)[13,14]、遺傳算法(Genetic Algorithm,GA)[15,16]和自舉柔性收縮算法(Bootstrapping Soft Shrinkage,BOSS)[17]優(yōu)選特征變量,建立PLS模型,采用最優(yōu)模型實(shí)現(xiàn)柴油純度的快速檢測(cè),為柴油純度的分析檢測(cè)提供一種快速、綠色的新方法。
1 實(shí)驗(yàn)方法
1.1 材料與樣本制備
實(shí)驗(yàn)用成品柴油、煤油、機(jī)油均采購于當(dāng)?shù)氐恼?guī)加油站,實(shí)驗(yàn)及樣本的制備均在常溫條件下的實(shí)驗(yàn)室中進(jìn)行。首先,配制體積分?jǐn)?shù)為0%的柴油樣本,在容量瓶中加入100 mL的煤油與機(jī)油,兩者等量配比,攪拌均勻,待溶液充分混合后,樣本配制完成;然后配制體積分?jǐn)?shù)為2%的柴油樣本,在容量瓶中加入98 mL的煤油與機(jī)油,兩者等量配比,再加入2 mL的柴油,攪拌均勻,待溶液充分混合后,樣本配制完成。按照上述方法與比例,以2%為遞進(jìn)尺度,配制柴油體積分?jǐn)?shù)為
0%~100%共計(jì)51個(gè)柴油樣本。
1.2 儀器與光譜采集
實(shí)驗(yàn)采用IRTracer-100傅里葉變換紅外光譜儀對(duì)51個(gè)柴油樣本實(shí)現(xiàn)透射光譜測(cè)量,每個(gè)樣本測(cè)量3次,取其平均值作為光譜原始數(shù)據(jù),其中測(cè)量光程為0.1 mm,光譜分辨率最高為0.25 cm-1,波長用波數(shù)表征,紅外波數(shù)范圍為400~4 000 cm-1,數(shù)據(jù)采樣間隔約為0.482 2 cm-1,采樣點(diǎn)數(shù)為
7 467,共得到51個(gè)不同體積分?jǐn)?shù)的柴油光譜數(shù)據(jù)樣本。
樣本光譜數(shù)據(jù)的變量選擇、建模分析及其他處理均由MATLAB R2020a軟件實(shí)現(xiàn)。
1.3 樣本集劃分
為進(jìn)一步提高模型的精準(zhǔn)度和穩(wěn)定性,分別利用RS法、KS法、SPXY法將51個(gè)柴油樣本劃分為34個(gè)校正集樣本與17個(gè)預(yù)測(cè)集樣本,然后建立PLS預(yù)測(cè)模型,根據(jù)模型效果來選取最優(yōu)的樣本集劃分方法。
1.4 異常樣本剔除
目前,常用的異常樣本識(shí)別與剔除方法包括MCCV法、主成分馬氏距離法等[12],筆者采用MCCV法來識(shí)別并剔除柴油樣本中的奇異樣本,并通過PLS模型效果來驗(yàn)證該方法的有效性。
1.5 模型的建立與評(píng)價(jià)
利用PLS建立柴油純度定量模型,采用RMSEP、RP作為模型評(píng)價(jià)指標(biāo),以此來評(píng)判模型的預(yù)測(cè)精度與穩(wěn)定性。通常,RMSEP越小,RP越接近于1,則所建模型性能越好,實(shí)際預(yù)測(cè)越準(zhǔn)確。RMSEP及RP的計(jì)算式如下:
2 實(shí)驗(yàn)結(jié)果與分析
2.1 光譜分析
圖1為51個(gè)柴油純度樣本的原始紅外光譜圖??梢钥闯觯谌ㄩL范圍內(nèi),柴油純度樣本的紅外光譜曲線變化趨勢(shì)一致,其光譜特性具有相同的規(guī)律。由于每個(gè)樣本所含柴油的體積分?jǐn)?shù)不同,因此不同樣本的透射率略有差異。樣本光譜在450、723、1 375、1 440~1 470、2 830~2 990 cm-1附近具有較為明顯的吸收峰,這些光譜區(qū)域可能存在較多的有用信息,其中450 cm-1左右的吸收峰具有較多毛刺,723、1 375、1 440~1 470 cm-1為3個(gè)毛刺較少的吸收峰,2 830~2 990 cm-1附近的吸收峰比較平滑且相對(duì)較寬。另外,在760~1 280、
2 600~2 790 cm-1附近有較多的弱吸收峰,這部分也存在許多有用的特征信息。
2.2 樣本集劃分
分別采用RS法、KS法和SPXY法對(duì)柴油樣本進(jìn)行劃分,選取34個(gè)樣本為校正集,剩余的17個(gè)樣本為預(yù)測(cè)集,然后建立PLS定量模型。PLS模型的運(yùn)行結(jié)果及評(píng)價(jià)指標(biāo)見表1,其中,由于RS法的結(jié)果具有隨機(jī)性,因此對(duì)RS法劃分及其PLS建模的程序重復(fù)運(yùn)行7次,取其模型評(píng)價(jià)指標(biāo)的平均值作為最后的結(jié)果。從表1可以看出,經(jīng)SPXY法劃分后,模型的預(yù)測(cè)效果最好,其RMSEP可達(dá)0.041 2,RP可達(dá)0.992 1。
表2為利用SPXY法劃分后的不同樣本集的柴油體積分?jǐn)?shù)統(tǒng)計(jì)結(jié)果??梢钥闯觯?種樣本集之間的最小及最大值相差不大,校正集的體積分?jǐn)?shù)范圍與總樣本集相等且涵蓋了預(yù)測(cè)集的范圍,這說明校正集樣本具有較好的代表性;校正集與預(yù)測(cè)集所對(duì)應(yīng)的平均值和標(biāo)準(zhǔn)差有較小的差距,說明樣本劃分合理且均勻。
2.3 剔除異常樣本
采用MCCV法剔除異常樣本。其中,蒙特卡洛隨機(jī)采樣比例設(shè)為0.8,采樣次數(shù)設(shè)為1 000次。通過運(yùn)行蒙特卡洛算法程序,得到了每個(gè)樣本預(yù)測(cè)殘差的平均值和標(biāo)準(zhǔn)差,具體分布情況如圖2所示(圖中星號(hào)旁的數(shù)字代表樣本編號(hào))。可以看出,絕大多數(shù)樣本點(diǎn)均集中在左下角,且其平均值與標(biāo)準(zhǔn)差較小,為正常的主體樣本點(diǎn);樣本點(diǎn)1在最右側(cè),其平均值遠(yuǎn)大于其他樣本點(diǎn),因此需將其視為異常樣本并剔除;雖然樣本點(diǎn)4、10、26、40、51分布也相對(duì)分散,但其平均值、標(biāo)準(zhǔn)差與主體樣本點(diǎn)的差距相對(duì)較小,因此對(duì)這些樣本點(diǎn)予以保留。剔除異常樣本后建立PLS預(yù)測(cè)模型,模型的RMSEP為0.039 2,Rp為0.997 1,與未剔除異常樣本的模型相比,RMSEP降低了4.85%,Rp提高了0.50%,模型的性能得到了一定提升。
2.4 變量選擇
2.4.1 UVE法
設(shè)定隨機(jī)噪聲矩陣的變量數(shù)等于波長變量數(shù),即7 467個(gè);波長變量穩(wěn)定性的閾值上下限為隨機(jī)噪聲變量穩(wěn)定性最大值的99%;最佳因子數(shù)設(shè)為10。圖3為UVE法的變量選擇結(jié)果,圖中豎直紅色虛線的左側(cè)即藍(lán)色實(shí)線部分為7 467個(gè)光譜變量穩(wěn)定性分布情況,右側(cè)綠色實(shí)線部分為人為產(chǎn)生的隨機(jī)噪聲變量的穩(wěn)定性分布曲線,兩條水平紅色虛線代表變量選擇的閾值上下限,穩(wěn)定性值在兩線之外的變量為有用信息變量,應(yīng)被保留,而在兩線之間的變量為干擾或無用信息變量,應(yīng)去除。最終經(jīng)UVE法優(yōu)選后,共得到2 444個(gè)特征變量,以校正集第1個(gè)樣本為例,其具體分布情況如圖4所示,圖中藍(lán)線為校正集第1個(gè)樣本譜曲線,紅色圓點(diǎn)表示選中的變量。由圖4可以看出,UVE法選擇的變量主要分布在635~1 960、2 580~2 795、2 995~3 045、3 300~3 790 cm-1范圍內(nèi),且在整個(gè)光譜數(shù)據(jù)范圍內(nèi)分布均勻,大多數(shù)都在強(qiáng)吸收峰和較弱吸收峰附近。
2.4.2 CARS法
提取的最大因子數(shù)為10個(gè),蒙特卡洛采樣次數(shù)設(shè)為50次,交叉驗(yàn)證次數(shù)為10折。圖5a、b分別是被選取的變量數(shù)的變化情況和交叉驗(yàn)證均方根誤差(RMSECV)的變化趨勢(shì),可以看出,隨著采樣運(yùn)行次數(shù)的逐漸增加,變量數(shù)呈下降趨勢(shì),且在4次采樣之前下降較快,之后下降緩慢;RMSECV呈先下降后上升的趨勢(shì),表明在變量選擇過程中首先消除了干擾或無關(guān)變量,隨后一些有用信息變量也被逐漸剔除。圖5c為變量篩選過程中各變量回歸系數(shù)路徑的變化情況,其中紅色*線對(duì)應(yīng)的采樣次數(shù)為25次,此時(shí),RMSECV值為0.006 4,達(dá)到了最小,所對(duì)應(yīng)的變量子集即為最優(yōu)子集。在25次采樣時(shí),圖5a中所選擇的變量為133個(gè),具體分布情況如圖6所示。可以看出,CARS法選取的變量主要分布在400~1 000 cm-1范圍內(nèi),且僅包含了第1個(gè)強(qiáng)吸收峰和少部分弱吸收峰,選擇的變量在整個(gè)光譜數(shù)據(jù)范圍內(nèi)分布不均勻。
2.4.3 " GA算法
初始種群大小為30,變異概率與交叉概率分別為0.001和0.5,遺傳迭代次數(shù)為100。圖7顯示了各波長變量被選中的頻率,頻率在紅色水平線之上的變量為最終選取的有用信息變量,頻率低于紅色水平線的變量則為無用或干擾變量,將被剔除。經(jīng)GA選擇后,共得到158個(gè)特征波長變量,其具體分布情況如圖8所示,GA選擇的變量主要分布在730~1 445、1 700~1 935、2 630~2 760、3 225~3 795 cm-1范圍內(nèi),分布范圍廣泛且較均勻,包含了3個(gè)強(qiáng)吸收峰和大部分弱吸收峰,同時(shí)也包含了較多的光譜波谷、波峰和光譜過渡位置等重要信息。
2.4.4 BOSS法
采樣次數(shù)設(shè)為1 000次,最大因子數(shù)和交叉驗(yàn)證次數(shù)均設(shè)置為10。圖9、10分別是變量數(shù)與RMSECV隨迭代次數(shù)的變化情況。由圖9可以看出,選擇的變量數(shù)隨著迭代次數(shù)的增加而平滑地減少,在第29次迭代后變?yōu)?;由圖10可以看出,RMSECV隨迭代次數(shù)的增加先逐漸降低,然后再逐步上升,在第12次迭代時(shí)達(dá)到最小值0.008 1,此時(shí)得到了最佳變量子集,對(duì)應(yīng)于圖9中第12次迭代選擇的最佳變量數(shù)為681個(gè)。圖11顯示了BOSS法在第12次迭代時(shí)選擇的681個(gè)變量的權(quán)重分布情況,可以看出,在453 cm-1附近獲得了權(quán)重最大即信息量最多的變量,在410~1 000 cm-1范圍內(nèi)得到了較多的高權(quán)重且信息量豐富的波長變量。BOSS法選擇的特征變量具體分布情況如圖12所示,可以看出,主要分布在400~1 790 cm-1范圍內(nèi),包含了3個(gè)強(qiáng)吸收峰及較多的光譜波谷、波峰、光譜過渡位置等重要信息。
2.5 模型的建立及分析
對(duì)于全波長變量及經(jīng)UVE、CARS、GA和BOSS法選取的特征變量,利用PLS分別建立柴油純度預(yù)測(cè)模型,并分析比較不同變量選擇方法對(duì)模型的影響,具體結(jié)果列于表3??梢钥闯?,4種變量選擇方法均極大地減少了建模變量數(shù),且消除了大量無用干擾信息,其中經(jīng)CARS、GA選擇后變量個(gè)數(shù)分別為133個(gè)、158個(gè),變量減少量分別為98.22%、97.88%,變量數(shù)大幅降低,模型得到了極大簡化,但CARS的建模效果不太理想,其RMSEP僅為0.038 9,Rp為0.992 9,與全譜建模的效果相差不大。經(jīng)變量選擇后建立的PLS模型相比全譜而言,其RMSEP均得到了不同程度的降低,表明經(jīng)變量選擇后模型的精度與預(yù)測(cè)能力在一定程度上得到了提高。綜合考慮,4種變量選擇方法中,UVE法的模型效果最好,其RMSEP可達(dá)0.023 9,是所有方法中最低的,Rp可達(dá)0.997 7,與全譜模型相比,RMSEP降低了39.03%,Rp提高了0.06%,變量數(shù)由7 467個(gè)降為2 444個(gè),不僅消除了大多數(shù)干擾及冗余變量,還提升了建模效率和模型性能。因此,筆者利用UVE-PLS法實(shí)現(xiàn)柴油純度的快速檢測(cè),UVE-PLS預(yù)測(cè)集的散點(diǎn)圖如圖13所示。
3 結(jié)束語
在3種樣本集劃分方法中,SPXY法劃分后所建PLS模型性能最好,其RMSEP為0.041 2,Rp為0.992 1,樣本劃分均勻且合理;經(jīng)MCCV法剔除異常樣本后,模型的RMSEP可達(dá)0.039 2,Rp可達(dá)0.997 1,與未剔除異常樣本的模型相比,其RMSEP降低了4.85%,Rp提高了0.50%。
4種變量選擇方法均能有效地減少建模變量數(shù),不同程度地提高建模效率和模型預(yù)測(cè)精度,其中,經(jīng)UVE法選擇的2 444個(gè)變量所建立的PLS模型性能最好,其RMSEP可達(dá)0.023 9,是所有方法中最低的,Rp可達(dá)0.997 7,與全譜模型相比,RMSEP降低了39.03%,Rp提高了0.06%,變量減少率可達(dá)67.27%,不僅消除了大多數(shù)干擾和冗余變量,還提升了建模效率和模型性能。
綜上所述,紅外光譜技術(shù)結(jié)合變量選擇算法即SPXY-MCCV-UVE-PLS法可用于柴油純度的快速檢測(cè),為柴油純度的檢測(cè)提供了一種新思路。
參 考 文 獻(xiàn)
[1] " VEMPATAPU B P,TRIPATHI D,KUMAR J,et al.Determination of kerosene as an adulterant in diesel through chromatography and high-resolution mass spectrometry[J].SN Applied Sciences,2019,1:1-12.
[2] " GUPTA A K,SHARMA R K.A new method for estimation of automobile fuel adulteration[J].Air Pollution,2010:357-370.DOI:10.5772/10054.
[3] " 許育鵬,劉天波,王碩,等.在線近紅外光譜分析技術(shù)在S Zorb裝置上的應(yīng)用[J].石油煉制與化工,2022,53(10):93-99.
[4] " 苗雪雪,苗瑩,龔浩如,等.特征波長優(yōu)選結(jié)合近紅外技術(shù)檢測(cè)大米中的含水量[J].食品科技,2019,44(10):335-341.
[5] " 馮華東.近紅外光譜分析技術(shù)用于酒石酸美托洛爾片廠家快速鑒別的研究[D].濟(jì)南:山東大學(xué),2014.
[6] " 馬雪亭,羅華平,高峰,等.近紅外光譜技術(shù)在蘋果檢測(cè)方面的研究與應(yīng)用[J].食品安全質(zhì)量檢測(cè)學(xué)報(bào),2022,13(13):4219-4227.
[7] " WIKBERG E,HEIKKIL?魧 S,SIRVI?魻 K,et al.Calibration Method for the Determination of the FAME and HVO Contents in Fossil Diesel Blends Using NIR Spectroscopy[J].Fuels,2021,2(2):179-193.
[8] " 歐陽愛國,黃志鴻,劉燕德.近紅外光譜法對(duì)甲醇柴油中甲醇含量測(cè)定[J].光譜學(xué)與光譜分析,2017,37(4):1118-1122.
[9] " 胡振,陳素彬,張曉琪,等.蝙蝠算法優(yōu)化近紅外光譜校正模型測(cè)定柴油黏度[J].當(dāng)代化工,2019,48(3):647-651.
[10] " GALVAO R K H,ARAUJO M C U,JOS?魪 G E,et al.A method for calibration and validation subset partitioning[J].Talanta:The International Journal of Pure and Applied Analytical Chemistry,2005,67(4):736-740.
[11] " 石魯珍,陳杰,張樹艷,等.基于蒙特卡洛法紅棗光譜水分模型研究[J].江蘇農(nóng)業(yè)科學(xué),2018,46(14):205-208.
[12] " CENTNER V,MASSART D L,DE NOORD O E,et al.Elimination of uninformative variables for multivariate calibration[J].Analytical Chemistry,1996,68(21):3851-3858.
[13] " LI H D,LIANG Y Z,XU Q S.Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration[J].Analytica Chimica Acta,2009,648(1):77-84.
[14] " 莫欣欣,孫通,劉津,等.近紅外光譜結(jié)合變量選擇方法定性檢測(cè)食用油中高效氟吡甲禾靈殘留[J].分析試驗(yàn)室,2018,37(2):125-130.
[15] " HOLLAND J H.Adaptation in natural and artificial systems[M].Ann Arbor,Michigan,US:University of Michigan Press,1975.
[16] " 褚小立,袁洪福,王艷斌,等.遺傳算法用于偏最小二乘方法建模中的變量篩選[J].分析化學(xué),2001,29(4):437-442.
[17] " DENG B C,YUN Y H,CAO D S,et al.A bootstrapping soft shrinkage approach for variable selection in chemical modeling[J].Analytica Chimica Acta,2016,908:63-74.
(收稿日期:2023-06-08,修回日期:2024-06-07)
Diesel Purity Detection Based on Infrared Spectroscopy
Technology and Variable Selection Algorithm
ZHOU Wei, LI An-ji, LV Wen-min,YU Tie-cheng, ZHAO Li-juan, ZHAO Mei-qi, YIN Ran
(School of Physics and Electronic Engineering, Northeast Petroleum University)
Abstract " For purpose of quickly detecting the purity of diesel oil, having the RS method, KS method and the SPXY method adopted to classify the sample set of diesel oil sample data collected by infrared spectroscopy technology was implemented, including having Monte Carlo cross validation(MCCV) used to eliminate abnormal samples, the partial least squares(PLS) models established based on the optimal selection of the full spectrum variables by using the uninformative variable elimination(UVE), the competitive adaptive reweighted sampling (CARS), genetic algorithm(GA) and the bootstrapping soft shrinkage(BOSS).The results show that, the model established by SPXY method has the best performance, and its root mean square error for prediction (RMSEP) is 0.041 2 and related coefficient for prediction (Rp) is 0.992 1. After removing abnormal samples by the MCCV method, the RMSEP of the model can be decreased by 4.85% and the Rp increased by 0.50%.The PLS model established by the UVE method has the best performance with an RMSEP of 0.023 9 and an Rp of 0.997 7. Compared with the full spectrum model indicates that, the RMSEP decreases by 39.03% and the Rp increases by 0.06% and the variables reduction rate can reach 67.27%.
Key words " purity detection of diesel oil, infrared spectroscopy, variables selection, PLS