李慶波,何林倩,崔厚欣,郝龍騰,孫冬生
1. 北京航空航天大學儀器科學與光電工程學院,精密光機電一體化技術(shù)教育部重點實驗室,北京 100191 2. 河北先河環(huán)保科技股份有限公司,河北 石家莊 050035
地表水是人們生活和生產(chǎn)用水的主要來源,隨著我國經(jīng)濟發(fā)展和城鎮(zhèn)化的加劇,地表水的污染嚴重威脅社會用水安全,因此加強地表水的監(jiān)測迫在眉睫[1]。 “十三五”期間,國家出臺了“河長制”、“水十條”、以及《水污染防治法》等一系列政策,推進水污染防治工作的發(fā)展。
亞硝酸鹽氮是氮循環(huán)的中間產(chǎn)物,對人和牲畜具有較大的毒性。 當其進入血液時,會將正常的攜帶氧氣的血紅蛋白氧化為不具備攜帶氧氣能力的高鐵血紅蛋白,進而導致組織缺氧。 在pH<6.5時,它會與仲氨反應形成具有強致癌性的亞硝胺。
紫外-可見光譜法具有檢測速度快、維護成本低、無二次污染等優(yōu)點,近年來被廣泛用于水質(zhì)監(jiān)測等各個領域。 測定亞硝酸鹽的方法主要有: 離子色譜法、氣相分子吸收光譜法、流動分析法、紫外可見分光光度法等[2-3]。 離子色譜法、氣相分子吸收光譜法和流動分析法適用于實驗室檢測,不適合于地表水的現(xiàn)場連續(xù)檢測。 國內(nèi)關于紫外可見光譜法檢測亞硝酸鹽氮的文獻中,多需要在酸性介質(zhì)中通過添加化學試劑生成顯色染料再利用紫外分光光度計預測濃度[4]。 其中國標水質(zhì)亞硝酸鹽氮的測定分光光度法[5]采用的試劑鹽酸萘乙二胺具有致癌性,不受操作者歡迎。 這種方法需要化學前處理的操作,不僅檢測步驟繁瑣,耗時耗力,還會對環(huán)境進一步造成污染。 此外,這種方法也無法實現(xiàn)地表水水質(zhì)的無人值守自動實時檢測。 無化學預處理的基于紫外可見吸收光譜法的亞硝酸鹽氮濃度預測鮮有文獻提及。
采用偏最小二乘回歸法(partial least squares regression, PLSR),選擇190~500 nm譜段建立模型,對不同濃度的亞硝酸鹽氮溶液進行分析。 該方法無需添加任何化學試劑,操作簡便,可為日后地表水無人值守自動實時檢測提供參考。
采用美國海洋光學公司的USB2000+型號的微型光譜儀,波長范圍為190~700 nm,波長分辨率為1 nm。 將實驗室配制的1 000 mg·L-1的亞硝酸鈉母液(以N計)稀釋,配成0.2,0.4,0.6,0.8,1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0和10.0 mg·L-1系列標液,分別在第一天,第二天,第五天用1cm比色皿用紫外可見光譜計多次進行光譜掃描,掃描范圍190~700 nm,記為D1組,D2組,D3組,一共42個樣本。
采用偏最小二乘回歸法(PLSR)建立模型[6],其原理是對濃度矩陣Y和對應的光譜矩陣X同時進行主成分分解
X=TP+E
(1)
Y=UQ+F
(2)
式(1)和式(2)中T和U是X和Y矩陣的得分矩陣,P和Q分別表示X和Y矩陣的載荷矩陣,E和F分別是誤差矩陣。
經(jīng)過主成分分解后對得到的各列正交的特征矩陣T和U矩陣進行回歸:
U=TB依據(jù)式(3)計算權(quán)重矩陣B
B=(TTT)-1TTU
(3)
在實際的算法實現(xiàn)過程中,PLSR方法將矩陣的分解和回歸運算合并,即同時分解X和Y矩陣,并將Y中包含的信息傳遞至X的分解中,使得X主成分直接與Y關聯(lián)。 將構(gòu)建完成的模型用于未知樣本預測時,首先獲取該樣本(記為X′)的得分矩陣T,而后基于式(3)計算預測結(jié)果,見式(4)
Y=TBQ
(4)
水樣的紫外可見吸收特征光譜在210 nm附近具有很強的吸收,吸收帶主要分布在190~500 nm,而在500 nm之后的吸光度接近于零。 為了更清晰的分析水樣的紫外可見光譜,除去接近于零的波段,即保留190~500 nm的紫外可見波段進行建模(見圖1)。
基于PLSR模型建立樣本指標與光譜吸收率的關系,采用均方根誤差(root-mean-square error, RMSE)來衡量建模的精度,計算公式如式(5)[7]
(5)
(6)
圖1 亞硝酸鹽氮溶液樣本的紫外可見吸收光譜
2.2.1 單日的樣本交互驗證預測分析
由于實驗樣本個數(shù)較少,采用留一交互驗證法對數(shù)據(jù)進行建模預測。 即對單日的14個樣本,每次用13個樣本進行建模,預測剩下的一個樣本。 重復試驗14次,直到所有的樣本都被預測一次為止。 分別取前兩天的各14個樣本,用14次試驗的MAPE作為評價指標。
D1組的實驗樣本通過留一法交互驗證得到最佳的主成分個數(shù)為6,每一個樣本的相對誤差范圍在-1.67%~5.00%之間,RMSE結(jié)果為0.055 mg·L-1,平均絕對相對誤差(MAPE)為1.19%; 除了在0.2 mg·L-1處相對誤差為5.00%,其余濃度預測結(jié)果均低于5%。 D2組樣本集通過留一法交互驗證得到最佳的主成分個數(shù)為4,每一個樣本的相對誤差范圍在-5.00%~6.00%之間,RMSE結(jié)果為0.075 mg·L-1,平均絕對相對誤差為1.85%; 除了在1.0 mg·L-1處相對誤差為6.00%高于5%,其余濃度預測結(jié)果均低于5%。 此結(jié)果說明PLSR模型具有優(yōu)良的預測精度。
2.2.2 不同日之間互相預測分析
由于實驗設備每次開機會產(chǎn)生不同的隨機誤差,可能會對建模預測產(chǎn)生影響。 為了驗證PLSR模型在不同條件下的適應性,取前兩天的實驗數(shù)據(jù)進行互相預測分析。 即用一天的14個樣本建模,預測另一天的14個樣本的濃度。
實驗結(jié)果表明,除了低濃度樣本的預測結(jié)果的相對誤差在20%左右,模型在其他濃度范圍內(nèi)都有很高的預測精度,兩天互相預測的相對誤差平均值分別為3.36%和4.51%,低于5%,RMSE結(jié)果分別為0.108和0.083 mg·L-1,證明PLSR模型的適應性強,魯棒性好。
2.2.1節(jié)和2.2.2節(jié)的實驗表明PLSR模型的魯棒性好,預測精度高。 現(xiàn)將D3組的14個樣本作為測試集,測試所建立的PLSR模型的預測精度。 將D1組和D2組的28個樣本用于建模,利用留一法交互驗證調(diào)整模型參數(shù),再用最佳模型預測D3組的14個樣本。
為模型設置不同個數(shù)的主成分,通過留一法交互驗證,計算選用不同的主成分個數(shù)的情況下得到的訓練集建模精度。 如圖2所示,隨著主成分個數(shù)N的增加,MAPE呈下降趨勢,在主成分個數(shù)N=7時,訓練集的平均相對誤差最小,為2.02%,最優(yōu)參數(shù)下的PLSR模型在3D上預測結(jié)果如圖3所示,測試集樣本的真實濃度和預測集濃度具有很強的相關性,見圖3(a)測試集平均相對誤差為2.19%,RMSE為0.044 mg·L-1, 見圖3(b)。 測試集的平均絕對相對誤差為2.19%, RMSE為0.044 mg·L-1。
圖2 PLSR模型選用的主成分個數(shù)與建模精度的關系
Fig.2RelationshipbetweenmodelingaccuracyandthenumberofprincipalcomponentsselectedinPLSRmodel
表1 PLSR模型對D3組14個樣本的預測結(jié)果
圖3 建立的PLSR模型在測試集D3上的預測結(jié)果分析
Fig.3TheanalysisofthepredictionresultonD3datasetachievedbythecalibratedPLSRmodel
(a): The linear relationship of test set date;
(b): The relative error of test set date
由表1可知,除了測試集在0.2和1.0 mg·L-1的絕對相對誤差相對較差,其他濃度范圍都有低于5%的不錯的預測誤差,平均絕對相對誤差為2.19%。
將傳統(tǒng)的線性建模方法偏最小二乘回歸法應用于亞硝酸鹽氮溶液的濃度檢測,通過對數(shù)據(jù)進行偏最小二乘回歸,從數(shù)百維復雜的光譜數(shù)據(jù)提取出主要信息,并壓縮維度,降低整個模型的復雜度并用留一交互驗證法選出最優(yōu)模型。 通過同一天交互驗證,不同天互相預測驗證了PLSR非常適合亞硝酸鹽氮檢測,魯棒性強,預測精度高。 最終確定的模型在0.2~10.0 mg·L-1濃度范圍的平均絕對相對誤差為2.19%,除了在低濃度0.2和1.0 mg·L-1的平均相對誤差為10%和7%,其余濃度范圍都具有低于5%的較好的預測精度,PLSR可以用于亞硝酸鹽氮的快速無損檢測。