李盛冬 倪明輝 許 斐 韋 祎 李 燕*
(1.國(guó)能南京煤炭質(zhì)量監(jiān)督檢驗(yàn)有限公司,南京 210031;2.南京理工大學(xué) 化學(xué)與化工學(xué)院,南京 210094)
煤炭在未來(lái)相當(dāng)長(zhǎng)一段時(shí)間內(nèi)仍將是我國(guó)使用量最大的燃料能源,煤炭的清潔高效利用是中國(guó)低碳經(jīng)濟(jì)的關(guān)鍵,快速煤質(zhì)分析技術(shù)則是保障煤炭資源有效利用的必要前提。傳統(tǒng)的煤質(zhì)分析主要靠離線(xiàn)實(shí)驗(yàn)室化驗(yàn)分析,過(guò)程耗時(shí)較長(zhǎng),滯后性嚴(yán)重,不利于對(duì)鍋爐燃燒提供實(shí)時(shí)指導(dǎo)。而已有的快速檢測(cè)技術(shù)存在種種問(wèn)題而不實(shí)用,如:X射線(xiàn)熒光光譜法不能檢測(cè)原子序數(shù)小于11的輕元素,γ射線(xiàn)中子活化法存在中子輻射危害,嚴(yán)重影響操作人員的健康,且維護(hù)成本高等問(wèn)題。激光誘導(dǎo)擊穿光譜(Laser-Induced Breakdown Spectroscopy,LIBS)技術(shù)具有無(wú)需制樣、對(duì)樣品損傷小、多元素同時(shí)分析、檢測(cè)速度快等優(yōu)點(diǎn)[1-2],在煤中元素含量和工業(yè)指標(biāo)分析中受到了廣泛關(guān)注[3]。
偏最小二乘回歸(Partial Least Square Regression,PLSR)是LIBS定量分析中應(yīng)用較為廣泛的一種建模方法,在LIBS光譜煤元素含量分析和工業(yè)指標(biāo)分析中得到了廣泛重視[4-5]。該算法相比于其他多元線(xiàn)性回歸方法,很好地解決了由于樣本點(diǎn)數(shù)過(guò)少導(dǎo)致的回歸難題或變量之間存在多重相關(guān)性的問(wèn)題。因此,本文選擇PLSR用于煤的LIBS光譜定量分析,綜合考慮了以下兩點(diǎn)因素:1)基體效應(yīng)、隨機(jī)噪聲、光譜干擾和自吸收的影響,可以在光譜矩陣分解提取中得到消除;2)PLSR適合于樣本數(shù)量較少的情況[6]。
由于受到實(shí)驗(yàn)儀器性能波動(dòng)和環(huán)境因素的影響,實(shí)際測(cè)得的光譜數(shù)據(jù)通常會(huì)有較大的波動(dòng),甚至出現(xiàn)一些異常值,影響光譜數(shù)據(jù)的穩(wěn)定性。此外,LIBS系統(tǒng)實(shí)驗(yàn)參數(shù)的不穩(wěn)定性,樣品表面形態(tài)的不規(guī)則,采樣時(shí)間延遲等因素的存在,不可避免地導(dǎo)致LIBS光譜中產(chǎn)生連續(xù)背景噪聲,從而引起基線(xiàn)漂移,嚴(yán)重影響光譜定量分析的精度。因此,本文研究了基于馬氏距離(Mahalanobis Distance,MD)的異常值剔除算法和基于稀疏矩陣技術(shù)的基線(xiàn)估計(jì)與降噪算法(Baseline Estimation And Denoising using Sparsity,BEADS)在改善光譜信號(hào)質(zhì)量中的作用,該方法在一定程度上提高了PLSR模型的預(yù)測(cè)性能。
激光誘導(dǎo)擊穿光譜的工作原理是使用高能量的激光光源聚焦后打在煤餅表面,形成高溫、高密度的等離子體,等離子體以光的形式向外輻射能量,通過(guò)光譜儀即可采集到包含多種元素特征譜線(xiàn)的光譜信號(hào)。理論上來(lái)說(shuō),元素的特征譜線(xiàn)強(qiáng)度與其含量成正比,而煤的熱值、灰分、揮發(fā)分等工業(yè)指標(biāo)與特定元素的含量也具有相關(guān)性,因此利用數(shù)學(xué)分析模型進(jìn)行光譜數(shù)據(jù)的分析處理,即可實(shí)現(xiàn)煤質(zhì)工業(yè)指標(biāo)的快速檢測(cè)。
圖1所示為L(zhǎng)IBS測(cè)量裝置示意圖,該系統(tǒng)主要由高能脈沖激光器、多通道光纖光譜儀、光學(xué)組件、樣品承載平臺(tái)和計(jì)算機(jī)等組成。其中,激光器的脈寬6 ns,工作波長(zhǎng)為1 064 nm,激光能量0~100 mJ可調(diào),激光工作頻率為1~10 Hz,激光聚焦斑點(diǎn)直徑為50~800 μm;多通道光纖光譜儀的最小積分時(shí)間為1.05 ms,延遲時(shí)間可調(diào)。樣品置于自動(dòng)控制的樣品步進(jìn)位移平臺(tái)上,通過(guò)計(jì)算機(jī)設(shè)置好運(yùn)動(dòng)軌跡,可使激光每次打在樣品表面的不同位置處,一定程度上消除背景噪聲的影響。等離子體光信號(hào)通過(guò)側(cè)向45 °布置的光纖探頭收光,再傳輸?shù)蕉嗤ǖ拦庾V儀,光譜數(shù)據(jù)通過(guò)USB傳輸至計(jì)算機(jī)。
圖1 LIBS煤質(zhì)分析測(cè)量裝置示意圖Figure 1 Schematic diagram of the LIBS coal analysis instrument.
綜合考慮信噪比、光譜強(qiáng)度等對(duì)實(shí)驗(yàn)參數(shù)進(jìn)行了優(yōu)化,優(yōu)化的實(shí)驗(yàn)參數(shù)為:激光能量100 mJ,延遲時(shí)間1 μs,激光工作頻率3.3 Hz,聚焦斑點(diǎn)直徑500 μm。對(duì)于每個(gè)樣品,共采集324個(gè)點(diǎn)的光譜數(shù)據(jù),并將其平均后光譜作為該樣品的原始光譜數(shù)據(jù)。
共測(cè)試20個(gè)煤樣,分別將煤樣研磨為200 μm粒徑的煤粉,將約3 g粒徑為200 μm的煤粉放入直徑為30 mm的模具中,利用電動(dòng)液壓壓片機(jī)在277 MPa下壓制成煤餅,使樣品表面平整。所用煤樣的灰分含量如表1所示。將20個(gè)煤樣分為訓(xùn)練集和測(cè)試集兩組,選取#15、#16、#17、#18、#19、#20這六個(gè)樣品作為測(cè)試集,其余14個(gè)樣品為訓(xùn)練集。
表1 20種煤樣品的灰分含量Table 1 Ash content of 20 coal samples
采用以下指標(biāo)評(píng)估PLSR模型性能:1)擬合度(R2);2)均方根誤差(RMSE);3)預(yù)測(cè)均方根誤差(RMSEP),這是從整理上評(píng)價(jià)模型的性能;4)平均絕對(duì)誤差(MAE);5)平均相對(duì)誤差(MRE),這是從單次測(cè)量上評(píng)價(jià)模型預(yù)測(cè)的精度。計(jì)算公式見(jiàn)式(1)~(5):
(1)
(2)
(3)
(4)
(5)
在LIBS分析中,通過(guò)多次測(cè)量數(shù)據(jù)的平均處理時(shí)較為常用和簡(jiǎn)便的手段和方式,但均值處理只能削弱異常值的干擾,且次數(shù)過(guò)多會(huì)增加測(cè)量的成本和時(shí)間,通過(guò)異常值剔除可以有效提高數(shù)據(jù)的穩(wěn)定性。馬氏距離(MD)基于多元正態(tài)分布理論,考慮了多種因素的相互作用,不受量綱、單位的影響,是進(jìn)行異常值剔除的一種有效方法[7-8]。
馬氏距離計(jì)算公式如式(6)所示:
(6)
式中,d為各次激發(fā)光譜Y與樣品平均光譜μ的馬氏距離;Y為單次激發(fā)的光譜數(shù)據(jù)矩陣;μ為參考光譜平均值,本實(shí)驗(yàn)以自身多次激發(fā)的光譜為參考;Σ為參考光譜的協(xié)方差矩陣。
通常光譜去噪算法也可用于實(shí)現(xiàn)光譜的基線(xiàn)校正,如小波變換法、多項(xiàng)式擬合法、中值濾波法等,但這些基線(xiàn)校正算法原理都較為復(fù)雜,計(jì)算量大,且受到參數(shù)影響較大。本文采用NING等[9]提出的一種基于稀疏矩陣技術(shù)的基線(xiàn)估計(jì)與降噪算法(BEADS)進(jìn)行基線(xiàn)校正處理。該算法計(jì)算效率高,適用于范圍較廣的光譜數(shù)據(jù)。
BEADS算法將信號(hào)Y同時(shí)分解為三種貢獻(xiàn)[10]:
Y=[y1,y1,…,yn]=c+b+e
其中c、b、e參考了BEADS計(jì)算得到的稀疏光譜圖、基線(xiàn)向量和噪聲向量,它們依賴(lài)于一組工作參數(shù)p。工作參數(shù)是指截止頻率(fc,由基線(xiàn)和其他貢獻(xiàn)之間的邊界構(gòu)成)、不對(duì)稱(chēng)(r,懲罰負(fù)值)和正則化參數(shù)(λ0,λ1和λ2,控制向量c的稀疏性)。另一個(gè)參數(shù)是振幅(A),它乘以正則化參數(shù);因此,正則化參數(shù)實(shí)際上是A×λi,這使得λi參數(shù)之間的比率與它們的大小無(wú)關(guān)。BEADS計(jì)算系統(tǒng)提供結(jié)果的質(zhì)量在很大程度上取決于工作參數(shù)的正確選擇,特別是截止頻率,它對(duì)返回基線(xiàn)有重大影響。
煤的灰分是一項(xiàng)在煤質(zhì)特性分析和研究中起到重要作用的指標(biāo),其含量越高,有效碳的含量就越低[11]。煤的灰分構(gòu)成較為復(fù)雜,主要由礦物質(zhì)構(gòu)成,通常以氧化物的形式表示,如Al2O3、SiO2、Na2O、K2O、CaO、MgO、Fe2O3,因此在對(duì)灰分進(jìn)行定量分析時(shí)選擇與灰分相關(guān)的礦物元素的特征譜線(xiàn)作為灰分含量定標(biāo)模型的輸入變量。最終選定Si、Al、Fe、Na、Mg、K、Ca、Ti、Li這9種元素的譜線(xiàn)強(qiáng)度對(duì)煤中灰分進(jìn)行回歸分析。通過(guò)與美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)的原子光譜數(shù)據(jù)庫(kù)(ASD)進(jìn)行譜線(xiàn)波長(zhǎng)的比對(duì),對(duì)以上元素的特征譜線(xiàn)進(jìn)行選擇,如表2所示。
表2 煤中元素特征譜線(xiàn)Table 2 Characteristic spectral lines of coal elements
首先使用馬氏距離剔除異常數(shù)據(jù)。分別計(jì)算各樣品的單次激發(fā)光譜與樣品平均光譜之間的馬氏距離,通過(guò)馬氏距離的大小判斷與總體情況差異較大的數(shù)據(jù),同時(shí)考慮避免過(guò)度剔除造成信號(hào)失真,設(shè)置閾值將后100個(gè)數(shù)據(jù)予以剔除,保留70%的數(shù)據(jù)。分別計(jì)算特征譜線(xiàn)的絕對(duì)強(qiáng)度值在多次測(cè)量中的相對(duì)標(biāo)準(zhǔn)偏差(RSD)和平均絕對(duì)強(qiáng)度的變化情況。
圖2所示為Fe(259.939 6 nm)譜線(xiàn)在異常值剔除前后的相對(duì)標(biāo)準(zhǔn)偏差RSD??梢?jiàn),在利用馬氏距離法進(jìn)行異常值剔除后,譜線(xiàn)的RSD大大降低。
圖2 異常數(shù)據(jù)剔除前后Fe(259.939 6 nm)譜線(xiàn)強(qiáng)度RSD比較Figure 2 RSD comparison of Fe(259.939 6 nm) spectral line intensity before and after removing abnormal data.
將馬氏距離應(yīng)用于其他譜線(xiàn)的異常數(shù)據(jù)剔除,結(jié)果如圖3所示。
圖3 #3煤樣數(shù)據(jù)剔除前后各譜線(xiàn)強(qiáng)度RSD比較Figure 3 RSD comparison of spectral line intensity before and after data elimination of #3 coal sample.
從圖2可以看出,F(xiàn)e的特征譜線(xiàn)強(qiáng)度RSD的均值從22.63%降低至11.48%。圖3也顯示出,經(jīng)過(guò)馬氏距離剔除異常數(shù)據(jù)后,#3煤樣的23條元素譜線(xiàn)強(qiáng)度RSD都大幅度下降,平均降低幅度為6.29%,這說(shuō)明經(jīng)過(guò)馬氏距離剔除異常數(shù)據(jù)后,元素特征譜線(xiàn)強(qiáng)度的穩(wěn)定性有了很大的提高。
之后使用BEADS算法對(duì)煤樣光譜圖進(jìn)行基線(xiàn)修正和降噪處理,結(jié)果如圖4所示。可見(jiàn),經(jīng)基線(xiàn)修正后,明顯改善了多通道光譜儀中不同通道光譜信號(hào)的基線(xiàn)漂移情況。
圖4 #1煤樣光譜基線(xiàn)校正前后對(duì)比Figure 4 Comparison of #1 coal spectra before and after spectral baseline correction.
分別將20個(gè)煤樣的光譜數(shù)據(jù)直接作均值處理和上述的預(yù)處理,之后選擇上述的23條特征譜線(xiàn)的強(qiáng)度作為自變量矩陣,相應(yīng)的灰分含量作為因變量矩陣。
主成分個(gè)數(shù)的選取對(duì)于偏最小二乘回歸模型的效果有著關(guān)鍵影響,如果選擇的主成分個(gè)數(shù)過(guò)少,就不能充分利用樣品信息,導(dǎo)致擬合效果較差;若是選擇的個(gè)數(shù)過(guò)多,則會(huì)將一些噪聲信息加入到模型中,造成過(guò)擬合問(wèn)題,使得模型的預(yù)測(cè)性能大大降低。本文采用留一交叉驗(yàn)證法(Leave One Out Cross Validation,LOO-CV)來(lái)檢驗(yàn)?zāi)P蛢?nèi)部穩(wěn)健性和擬合效果,利用交叉驗(yàn)證均方根誤差(Root Mean Square Error of Cross Validation,RMSECV)確立最優(yōu)主成分個(gè)數(shù),RMSECV越小,表明PLSR模型對(duì)訓(xùn)練集數(shù)據(jù)的擬合效果越好,計(jì)算公式見(jiàn)式(7):
圖5為原始數(shù)據(jù)和預(yù)處理后數(shù)據(jù)得到的RMSECV結(jié)果,從圖中可知最佳主成分個(gè)數(shù)分別為7和8。
圖5 交叉驗(yàn)證均方根誤差與主成分個(gè)數(shù)關(guān)系Figure 5 Relationship between RMSECV and the number of principal components.
根據(jù)最佳主成分個(gè)數(shù)建立偏最小二乘模型。圖6和圖7分別是對(duì)原始數(shù)據(jù)和作預(yù)處理后數(shù)據(jù)的偏最小二乘回歸預(yù)測(cè)結(jié)果,從中可以看出,通過(guò)馬氏距離剔除和基線(xiàn)校正,訓(xùn)練集的擬合度(R2)從0.974 0提高到0.984 1,均方根誤差(RMSE)從0.961 3降低到了0.752 7,這表明基于數(shù)據(jù)預(yù)處理可以一定程度地提高偏最小二乘擬合結(jié)果的準(zhǔn)確性。分別用其模型預(yù)測(cè)測(cè)試集的煤樣灰分值,預(yù)測(cè)均方根誤差(RMSEP)從2.273 1降到2.001 7,模型的預(yù)測(cè)性能得到了一定的提升;同時(shí)平均絕對(duì)誤差(MAE)和平均相對(duì)誤差分別從1.974 7和0.109 4降低到1.557 2和0.075 7,表明單次測(cè)量精度也有所提高。
圖6 基于原始數(shù)據(jù)的PLSR灰分預(yù)測(cè)模型Figure 6 Ash prediction results from PLSR based on raw data.
圖7 基于預(yù)處理后數(shù)據(jù)的PLSR灰分預(yù)測(cè)模型Figure 7 Ash prediction results from PLSR based on pre-processed data.
灰分含量是影響煤炭質(zhì)量的關(guān)鍵工業(yè)指標(biāo),灰分的準(zhǔn)確檢測(cè)對(duì)煤炭的清潔高效利用具有重要意義。采用LIBS技術(shù)結(jié)合PLSR回歸模型,應(yīng)用于煤中灰分的快速準(zhǔn)確檢測(cè)是一種快速實(shí)時(shí)的檢測(cè)手段。然而,對(duì)于多幅光譜數(shù)據(jù),常用的均值處理方法不能完全降低譜線(xiàn)強(qiáng)度的波動(dòng)性,本文通過(guò)使用馬氏距離進(jìn)行異常數(shù)據(jù)剔除后,再結(jié)合基于稀疏矩陣技術(shù)的基線(xiàn)估計(jì)與降噪算法進(jìn)行譜圖降噪處理,可以有效去除光譜中的噪聲和異常值,提高譜線(xiàn)強(qiáng)度的穩(wěn)定性。經(jīng)過(guò)處理后,定標(biāo)樣品的擬合度(R2)從0.974 0提高到0.984 1,均方根誤差(RMSE)從0.961 3降低到了0.752 7,預(yù)測(cè)均方根誤差(RMSEP)從2.273 1降到2.001 7,模型的總體性能得到了一定的提升;同時(shí)平均絕對(duì)誤差(MAE)和平均相對(duì)誤差亦都降低,表明單次測(cè)量精度也有所提高。作為一種有效的數(shù)據(jù)預(yù)處理方法,此算法可用于復(fù)雜光譜數(shù)據(jù)的異常值剔除和光譜降噪,有利于提高定量分析模型的預(yù)測(cè)精度。
中國(guó)無(wú)機(jī)分析化學(xué)2022年4期