李慶波,畢智棋,崔厚欣,郎嘉曄,申中凱
1. 北京航空航天大學(xué)儀器科學(xué)與光電工程學(xué)院,精密光機(jī)電一體化技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100191 2. 河北先河環(huán)??萍脊煞萦邢薰荆颖?石家莊 050035
水資源是人類(lèi)生存發(fā)展最重要的戰(zhàn)略資源,保護(hù)地表水資源安全對(duì)社會(huì)可持續(xù)性發(fā)展具有重大意義。為保護(hù)水資源安全,需要采用有效方法對(duì)水質(zhì)進(jìn)行評(píng)價(jià)。總有機(jī)碳是反映水中含碳有機(jī)污染物的指標(biāo),可以作為評(píng)價(jià)地表水質(zhì)的重要依據(jù)。國(guó)內(nèi)外對(duì)總有機(jī)碳檢測(cè)進(jìn)行了很多方法的嘗試,現(xiàn)行的國(guó)家標(biāo)準(zhǔn)為2009年制定的燃燒氧化-非分散紅外吸收法,將試樣通過(guò)高溫燃燒管高溫催化氧化獲得總碳轉(zhuǎn)化的二氧化碳,經(jīng)低溫反應(yīng)管酸化測(cè)得無(wú)機(jī)碳轉(zhuǎn)化的二氧化碳,經(jīng)非分散紅外檢測(cè)器檢測(cè),總碳與無(wú)機(jī)碳差值即為總有機(jī)碳。在2017年,Ma等采用臭氧氧化化學(xué)發(fā)光信號(hào)進(jìn)行在線海水總有機(jī)碳含量檢測(cè)[1],取得了較好的測(cè)量結(jié)果。2018年Shin-Ichi Ohira等研制出以水洗脫液為基礎(chǔ)的高效液相色譜的總有機(jī)碳檢測(cè)器[2],將分離的分析物在線氧化為二氧化碳,收集到超純水中,然后通過(guò)電導(dǎo)率檢測(cè)總有機(jī)碳含量。2020年,Luo等采用比色傳感器,在高通量過(guò)程中與水樣反應(yīng)產(chǎn)生特征模式,采用機(jī)器學(xué)習(xí)建立傳感器與總有機(jī)碳含量的模型[3]。上述方法均需要進(jìn)行復(fù)雜的前處理,近年來(lái),紫外可見(jiàn)光譜法因具有無(wú)需化學(xué)前處理、 可在線原位檢測(cè)、 快速響應(yīng)等優(yōu)點(diǎn)在水質(zhì)檢測(cè)中被廣泛應(yīng)用[4-6]。本工作采用浸入式的紫外-可見(jiàn)光譜儀器采集水樣光譜, 采用基于自適應(yīng)增強(qiáng)學(xué)習(xí)的區(qū)間偏最小二乘回歸方法建立光譜與總有機(jī)碳含量的定量分析模型,實(shí)現(xiàn)地表水總有機(jī)碳的定量分析。采用凈信號(hào)分析降低地表水中因其他物質(zhì)對(duì)總有機(jī)碳檢測(cè)產(chǎn)生的干擾,提高總有機(jī)碳檢測(cè)方法在不同地表水環(huán)境的魯棒性。
根據(jù)國(guó)標(biāo)法采用分析純鄰苯二甲酸氫鉀配置總有機(jī)碳標(biāo)準(zhǔn)溶液共43個(gè)樣品,濃度范圍為25.0~150.0 mg·L-1。選取25個(gè)樣本作為建模訓(xùn)練集,10個(gè)樣本作為測(cè)試樣品集,8個(gè)樣本作為第二時(shí)間段的反測(cè)樣本集。
實(shí)測(cè)樣本為現(xiàn)場(chǎng)采集藁城污水廠排污口污水及河北先河公司園區(qū)的生活污水,進(jìn)行等梯度稀釋共得到50組水樣,總有機(jī)碳濃度范圍為7.2~272.0 mg·L-1,選取33個(gè)樣品進(jìn)行建模,17個(gè)樣品作為測(cè)試集驗(yàn)證,實(shí)際水樣總有機(jī)碳含量采用國(guó)標(biāo)法經(jīng)實(shí)驗(yàn)室化驗(yàn)得到。
采用河北先河環(huán)保科技股份有限公司研發(fā)的浸入式在線水質(zhì)分析儀。該設(shè)備光源為氙燈,光程長(zhǎng)為2 mm,采集光譜范圍為188~722 nm,共256個(gè)波段,每個(gè)水樣光譜連續(xù)掃描10次,每次間隔15 s,取平均光譜作為該樣品的對(duì)應(yīng)光譜。
使用預(yù)測(cè)均方根誤差(RMSEP)和平均絕對(duì)值百分比誤差(MAPE)作為模型預(yù)測(cè)測(cè)試集樣品濃度的精度評(píng)價(jià)指標(biāo),其計(jì)算方法如式(1)和式(2)
(1)
(2)
針對(duì)總有機(jī)碳定量分析問(wèn)題,采用基于自適應(yīng)增強(qiáng)學(xué)習(xí)[7-8]的區(qū)間偏最小二乘回歸法[9](Adaboost interval partial least squares regression, Ada-iPLSR)。將總有機(jī)碳吸收光譜波段分為若干子區(qū)間,初始化訓(xùn)練樣本權(quán)重,依次在各子區(qū)間建立偏最小二乘回歸模型,根據(jù)子區(qū)間模型預(yù)測(cè)誤差率計(jì)算該子區(qū)間預(yù)測(cè)結(jié)果的權(quán)重系數(shù),并更新下一子區(qū)間訓(xùn)練樣本權(quán)重,最后將各子區(qū)間模型預(yù)測(cè)結(jié)果線性加權(quán)組合得到總有機(jī)碳的檢測(cè)結(jié)果。具體算法過(guò)程如下:
En=max|yi-Gn(xi)|,i=1, 2,…,m
(3)
式(3)中,xi為訓(xùn)練集第i個(gè)樣本子區(qū)間波長(zhǎng)吸光度值,yi為訓(xùn)練集第i個(gè)樣本水質(zhì)參數(shù)真值,Gn(x)為第n個(gè)子區(qū)間的定量模型函數(shù)。然后計(jì)算每個(gè)訓(xùn)練集水樣樣本參數(shù)的相對(duì)誤差
eni=|yi-Gn(xi)|/En
(4)
得到第n個(gè)子區(qū)間偏最小二乘回歸模型的預(yù)測(cè)誤差率
(5)
由此得到該子區(qū)間預(yù)測(cè)模型的權(quán)重系數(shù)
an=en/(1-en)
(6)
樣本權(quán)重更新公式為
(7)
其中Zn為規(guī)范化因子
(8)
最后將各子預(yù)測(cè)模型結(jié)果加權(quán)得到自適應(yīng)增強(qiáng)學(xué)習(xí)后的預(yù)測(cè)結(jié)果
(9)
針對(duì)實(shí)際地表水基質(zhì)對(duì)總有機(jī)碳光譜檢測(cè)造成交叉干擾問(wèn)題,采用凈信號(hào)分析方法[9]提取總有機(jī)碳凈信號(hào)光譜信息。具體計(jì)算過(guò)程如下:
首先將樣品原始光譜X向濃度矩陣y進(jìn)行正交投影得到X-k, 即得到除被分析參數(shù)以外其他成分的張成空間,得
(10)
y*=XX+y
(11)
最后對(duì)未知樣品進(jìn)行變換
(12)
圖1為第一時(shí)間段實(shí)驗(yàn)室配制總有機(jī)碳標(biāo)準(zhǔn)溶液光譜,總有機(jī)碳含量范圍為25.0~150.0 mg·L-1, 共35個(gè)不同濃度的標(biāo)準(zhǔn)總有機(jī)碳溶液。從圖中可以看出,標(biāo)準(zhǔn)溶液光譜在230~260和260~300 nm有兩個(gè)吸收峰,為減少與其他水質(zhì)參數(shù)吸收峰重疊,選擇在230~260 nm波段進(jìn)行光譜與總有機(jī)碳的定量建模。圖2為另一時(shí)間段采集剩余的8個(gè)標(biāo)準(zhǔn)樣品光譜,總有機(jī)碳含量范圍為37.0~145.0 mg·L-1。圖3為實(shí)際地表水進(jìn)行梯度稀釋后的共50個(gè)水樣樣本光譜。
圖1 第一時(shí)間段總有機(jī)碳標(biāo)準(zhǔn)溶液光譜Fig.1 Spectra of total organic carbon standardsolution in the first period
圖2 第二時(shí)間段總有機(jī)碳標(biāo)準(zhǔn)溶液光譜Fig.2 Spectra of total organic carbon standardsolution in the second period
圖3 實(shí)際地表水水樣光譜Fig.3 Spectra of actual surface water samples
2.2.1 總有機(jī)碳標(biāo)準(zhǔn)溶液分組驗(yàn)證及反測(cè)驗(yàn)證結(jié)果
首先采用SPXY算法[11]選出25個(gè)濃度總有機(jī)碳溶液作為訓(xùn)練集,10個(gè)濃度總有機(jī)碳溶液作為測(cè)試集。另配制8個(gè)濃度總有機(jī)碳樣品,作為第二時(shí)間段反測(cè)樣品,用來(lái)檢驗(yàn)儀器狀態(tài)變化時(shí)模型預(yù)測(cè)準(zhǔn)確性及魯棒性。
由表1結(jié)果可知,由于儀器狀態(tài)的變化,在第二時(shí)間段進(jìn)行的反測(cè)驗(yàn)證實(shí)驗(yàn)中同一模型總有機(jī)碳預(yù)測(cè)的均方根誤差要大于分組驗(yàn)證實(shí)驗(yàn)。采用Ada-iPLSR算法回歸模型在分組驗(yàn)證和反測(cè)驗(yàn)證中均方根誤差為1.304和1.533 mg·L-1,均為最小結(jié)果,具有最好的定量分析精度,且具有很好的魯棒性,和偏最小二乘回歸方法和極限學(xué)習(xí)機(jī)方法比較,反測(cè)實(shí)驗(yàn)定量精度分別提高了27.33%和3.72%。
2.2.2 實(shí)際水樣總有機(jī)碳預(yù)測(cè)結(jié)果
實(shí)際水樣驗(yàn)證實(shí)驗(yàn),分別于河北石家莊藁城污水處理廠排污口和河北先河公司園區(qū)采集生活污水,通過(guò)蒸餾水對(duì)污水進(jìn)行稀釋共得到50個(gè)水樣樣本,經(jīng)實(shí)驗(yàn)室國(guó)標(biāo)法化驗(yàn)得到總有機(jī)碳實(shí)際濃度。采用SPXY算法選擇33個(gè)樣本作為訓(xùn)練集,17個(gè)樣本作為測(cè)試集,建模方法采用偏最小二乘回歸法(PLSR)、 自適應(yīng)增強(qiáng)學(xué)習(xí)區(qū)間偏最小二乘回歸法(Ada-iPLSR)、 凈信號(hào)分析偏最小二乘回歸法(Nas-PLSR)以及凈信號(hào)分析自適應(yīng)增強(qiáng)學(xué)習(xí)區(qū)間偏最小二乘回歸法(Nas-Ada-iPLSR)進(jìn)行對(duì)比,評(píng)價(jià)指標(biāo)采用預(yù)測(cè)均方根誤差和相對(duì)誤差絕對(duì)值的平均值,結(jié)果如表2和表3所示。
表1 總有機(jī)碳標(biāo)準(zhǔn)溶液濃度預(yù)測(cè)結(jié)果Table 1 The prediction results of total organic carbonconcentration in standard solution
表2 實(shí)際地表水總有機(jī)碳濃度預(yù)測(cè)結(jié)果Table 2 The prediction results of total organiccarbon concentration in surface water
表3 實(shí)際地表水測(cè)試集樣本預(yù)測(cè)結(jié)果Table 3 The prediction results of actual surfacewater samples in test set
Nas-Ada-iPLSR模型在四種建模方法中均方根誤差和相對(duì)誤差絕對(duì)值的平均值均為最小,分別為3.26 mg·L-1和3.46%。Nas-Ada-iPLSR模型與偏最小二乘回歸法、 自適應(yīng)增強(qiáng)學(xué)習(xí)區(qū)間偏最小二乘回歸法、 凈信號(hào)分析偏最小二乘回歸法相比,均方根誤差分別提高了43.56%,12.58%,34.97%,具有了較好的預(yù)測(cè)精度和適應(yīng)性,能夠?qū)?shí)際地表水樣中的總有機(jī)碳含量進(jìn)行準(zhǔn)確預(yù)測(cè)。
總有機(jī)碳是依據(jù)碳含量評(píng)價(jià)水質(zhì)有機(jī)物污染的關(guān)鍵指標(biāo),采用紫外-可見(jiàn)光譜技術(shù)能夠?qū)Φ乇硭锌傆袡C(jī)碳進(jìn)行在線快速準(zhǔn)確檢測(cè)。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的定量分析方法相比,本文提出的基于自適應(yīng)增強(qiáng)學(xué)習(xí)的區(qū)間偏最小二乘回歸方法獲得更好的水質(zhì)總有機(jī)碳預(yù)測(cè)結(jié)果,分組驗(yàn)證和反測(cè)驗(yàn)證的預(yù)測(cè)均方根誤差分別為1.304和1.533 mg·L-1。經(jīng)凈信號(hào)預(yù)處理后的光譜降低了地表水基質(zhì)對(duì)總有機(jī)碳檢測(cè)的影響,提升了預(yù)測(cè)精度。分組驗(yàn)證中均方根誤差為3.36 mg·L-1,平均絕對(duì)值百分比誤差為3.46%,具有較好的預(yù)測(cè)精度,驗(yàn)證了模型的有效性和魯棒性,為地表水總有機(jī)碳檢測(cè)提供了方法支撐。