趙友全,李 霞,劉 瀟,董鵬飛,王伶俐,王先全
1. 天津大學精密儀器與光電子工程學院,天津 300072 2. 重慶理工大學電子信息與自動化學院,重慶 400054
基于PCA的水質(zhì)紫外吸收光譜分析模型研究
趙友全1,李 霞1,劉 瀟1,董鵬飛1,王伶俐1,王先全2
1. 天津大學精密儀器與光電子工程學院,天津 300072 2. 重慶理工大學電子信息與自動化學院,重慶 400054
利用紫外光譜分析水中有機污染物已成為水質(zhì)實時在線監(jiān)測的重要方法之一,水樣組分復雜且不穩(wěn)定是影響其測量結果的主要因素。利用主成分分析法(PCA)結合歐氏距離分析水樣紫外吸收光譜,對水樣分類,效果良好。分別用主成分分析結合偏最小二乘法回歸(PCA-PLSR)和直接利用多波長吸光度結合偏最小二乘法回歸(MWA-PLSR)建立分析模型,并對比分析了不同濃度的COD標準液的實驗數(shù)據(jù)。結果表明,采用第一、二主成分作為回歸參數(shù)的PLSR模型的測量誤差在5%以內(nèi),偏差最小。利用本文方法可同時實現(xiàn)水樣分類和水質(zhì)參數(shù)的精確定量。
紫外吸收光譜;水質(zhì)分析;PCA;PLSR;水樣分類
近年來,環(huán)境污染特別是水質(zhì)污染已成為社會關注的焦點,我國近一半的湖泊和河流被污染,形勢嚴峻,提升水環(huán)境的監(jiān)控預警技術成為一種迫切需要。作為一種純物理的光學方法,紫外水質(zhì)檢測方法得到了越來越廣泛的關注,該方法不需化學試劑,無二次污染,操作簡單[1],可以進行實時在線的連續(xù)監(jiān)測,能及時反應水質(zhì)參數(shù)的動態(tài)變化[2]。目前紫外法水質(zhì)建模大多是采用單波長或雙波長方法[3-6],經(jīng)與國家標準化學法比對后用于檢測監(jiān)測水中污染指數(shù)。該方法較適用于成分比較單一或者污染源固定不變的水體檢測。當水質(zhì)污染成分變得復雜時,某一個或者兩個波長上吸光度的變化與否,已經(jīng)不能代表水中所有污染物含量的變化,也就不能很好的反應水質(zhì)的連續(xù)的動態(tài)變化,這會導致檢測結果與實際污染物指標不一致。
應用紫外全光譜法[7],一次檢測即可得到全紫外波段的吸光度曲線,可以比較全面的反映水體污染。用全光譜而不是少數(shù)幾個波長建模,就能夠更多地將組分變化的影響考慮進來,水質(zhì)成分雖然復雜且多樣,但利用主成分分析法結合歐氏距離將水樣分成有限的種類[8-10],對同一類水體的紫外吸收光譜進行主成分分析,獲取主成分,結合偏最小二乘法建立模型[11],即可準確得到水中的污染指數(shù),為水質(zhì)的檢測監(jiān)測提供種適應性更好方法。
主成分分析法(PCA)分析水樣紫外吸收光譜的基本思想是: 將原來具有一定相關度的n個波長的吸光度參數(shù),重新組合成一組較少個數(shù)的互不相關的吸收向量Fm(m=1, 2, 3,…)即主成分。就是將紫外吸收光譜中的眾多的吸光度變量,減少成為吸光度的線性組合變量[12]。所得的主成分可表示為
(1)
(2)
Fm的方差越大,G(m)越大,越能代表原光譜信息。理論上來說,同種水樣的吸收光譜經(jīng)過主成分分析得到的主成分只有一個,第一主成分的貢獻率為100%。但是由于水樣組分變化和污染源不同,吸光度分布與濃度的正比例關系發(fā)生改變,主成分個數(shù)增加。
樣品在每個主成分上的得分值可以反應出主成分與水樣間、水樣與水樣間的相互關聯(lián)程度,得分值越大代表此水樣在此主成分上的含量越高。同一水樣在不同主成分上的得分為
(3)
每一個主成分都是所有波長吸光度的線性組合,任意一個主成分得分都與濃度成正比例關系。故可以用主成分得分值的線性組合建立模型,定量分析水樣中的水質(zhì)參數(shù)。
對于不同水樣進行主成分分析時,其主成分的得分與水樣成分和濃度有關,對于成分相同,濃度相近的水樣,其主成分得分差距較小。反之,可以認為主成分得分相近的水樣可以為同一類,從而解決不同水樣的分類問題。
2.1 實際水樣的鑒別和分類
紫外法測水質(zhì)一般是利用模型估測水樣中的水質(zhì)參數(shù)含量,模型的選擇與水質(zhì)種類有很大的關系,不同種類的水樣應用不同的估測模型。污染源不同、水樣組分發(fā)生變化,都應歸為不同類水體。選取三種水樣,兩個來自人工湖泊,一個來自近湖的河流。在不同位置共取20個水樣,測得所有水樣在200~400 nm的吸收光譜,對所得光譜進行主成分分析,得到結果如圖1、圖2所示。
圖1 實際水樣的主成分貢獻率圖
由圖1可以看出,20份實際水樣主要有兩大主成分,第一主成分的貢獻率為62.56%,第二主成分的貢獻率為34.77%,此兩個主成分的累積貢獻率已大于95%。對水樣進行得分分析,結果如圖2所示,可以明顯看出三種水樣被分為3組,1—5號是河流水樣,得分之間有一定的差距,是因為所取水樣是由河流不同長度的界面處取得。6—10號和11—20號分別為兩個湖泊水樣。所有主成分得分值較小,說明水樣成分及濃度都較為接近,這從側面反映出兩個湖泊和河流的所處的地理位置較近。直接利用歐氏距離對其進行系統(tǒng)聚類,如圖3所示,可以看出,水樣可按圖中虛線所示分為3類,和主成分分析分類相同。此外,水樣6—10號與11—20號的距離較小,合為一個大類,和實際水樣分別取自湖泊和河流的分類相同。本方法很容易精準對水樣進行分類,從而實現(xiàn)對水質(zhì)參數(shù)的準確分析。
圖2 不同水樣在第一、二主成分上的得分
圖3 利用歐氏距離的紫外吸收光譜的聚類分析
2.2 水質(zhì)參數(shù)的實驗測定與分析
由國標GB11914—89可知, 以重鉻酸鉀為氧化劑,1 g鄰苯二甲酸氫鉀耗氧1.176 g。利用分析純的鄰苯二甲酸氫鉀,配制濃度為1 000 mg·L-1的儲備液,將此儲備液稀釋成如表1所示的16種濃度的鄰苯二甲酸氫鉀溶液,其吸收光譜如圖4所示。
由吸收光譜圖4可以看出,鄰苯二甲酸氫鉀在200~300 nm波段有顯著吸收,當波長大于310 nm時,幾乎無吸收。當濃度較小(小于等于50 mg·L-1)時,其有3個吸收峰,分別在210,235和280 nm左右;當濃度大于50 mg·L-1時,有兩個吸收峰,第一個吸收峰波長會隨濃度的增加而增大,其范圍為235~252 nm,另一個吸收峰在280 nm左右。250~280 nm波段的吸光度隨濃度的增加顯著增加,提取16組不同濃度的COD的溶液吸收光譜250~300 nm波段的吸光度進行主成分分析,得到的主成分貢獻率如圖5所示。
表1 不同COD濃度的鄰苯二甲酸氫鉀溶液溶液
圖4 不同濃度的鄰苯二甲酸氫鉀溶液的紫外吸收光譜圖
圖5 主成分貢獻率圖
由圖5可以看出第一主成分的貢獻率已達到99.02%,而第二主成分的貢獻率為0.93%,其余主成分的貢獻率已經(jīng)很低,可忽略不計。圖6是16個樣品在第一、二主成分的得分,得分呈現(xiàn)出一種隨著濃度的增大在第一主成分上的得分逐漸增大、在第二主成分上的得分先增大后減小的現(xiàn)象。第二主成分的得分變化遠小于第一主成分的得分變化,這是因為第一主成分的貢獻率遠大于第二主成分的貢獻率,第一主成分已經(jīng)可以代表原水樣的絕大部分信息。由圖7(a)可以看出,第一主成分上的波長得分變化值與鄰苯二甲酸氫鉀溶液的吸收光譜類似,在圖7(b)和(c)中波長得分變化值主要在250~258 nm波段內(nèi),其余波長段得分變化值基本為0,說明在第二主成分中的次波段內(nèi),各波長上的得分不隨濃度的變化而變化,溶液在此波段內(nèi)吸光能力幾乎為0。可以認為在第一主成分上258~350 nm波段上溶液表達了所有的吸光能力,吸光度與濃度符合朗伯比爾定律。在其他波段得分不隨濃度變化時,而250~280 nm波段的得分值有了不同程度的變化,說明次波段內(nèi)出現(xiàn)了隨著濃度的增大吸光度已經(jīng)不能同比例增加的現(xiàn)象。主成分分析將此波段的吸光度分為兩部分的和,并且變化比例不同,分成此兩部分有利于水質(zhì)參數(shù)含量的測定。
圖6 16種鄰苯二甲酸氫鉀溶液在第一、二主成分上的得分圖
Fig. 6 Scores of 16 kinds of potassium hydrogen phthalate solution on the first and the second principal component
圖7 主成分得分在每個波長處的變化
(a): 當COD濃度由10 mg·L-1增長到400 mg·L-1時,第一主成分得分在每個波長上的變化;(b): 當COD濃度由10 mg·L-1增長到220 mg·L-1時,第二主成分得分在每個波長上的變化;(c): 當COD濃度由220 mg·L-1增長到400 mg·L-1時,第二主成分得分在每個波長上的變化
Fig.7 Changes in the score at each wavelength
on principal component
(a): When the COD concentration increase from the 10 to 400 mg·L-1, changes at each wavelength on the first principal component; (b): When the COD concentration increase from the 10 to 220 mg·L-1, changes at each wavelength on the second principal component; (c): When the COD concentration increase from the 220 to 400 mg·L-1, changes difference occur at each wavelength on the second principal component
2.3 水質(zhì)參數(shù)的估測模型及可靠性分析
在測量水質(zhì)參數(shù)含量的過程中,當水質(zhì)參數(shù)的濃度較大時,吸光度與濃度的關系不再符合朗伯比爾定律,濃度較小時容易受外界干擾和儀器噪聲的影響而導致測量誤差偏大。為便于實驗設計和比較,解決水質(zhì)參數(shù)濃度較小時測量誤差容易偏大、濃度較大時吸光度易與濃度不成比例的問題,以濃度為20,200,300和380 mg·L-1為驗證集,以剩余的12組不同濃度的樣品為訓練集,每個樣品的吸收光譜平行測量三次并取其平均值,以PCA-PLSR和MWA-PLSR方法建立模型,以相關系數(shù)為評價指標。本文中共采用兩種多波長、三種主成分和光譜面積等六種方式建立PLRS模型,結果如表2所示。
表2 六種模型的回歸結果
表3 六種方式的測量值與理論值的對比結果
Table 3 The comparative results between the theoretical value and the measured value from 6 kinds of ways
理論值/(mg·L-1)模型方式測量值/(mg·L-1)測量誤差/%380方式1378.18470.4777方式2385.99971.5789方式3383.31130.8714方式4376.81670.8377方式5374.43591.4642方式6387.28931.9182300方式1311.14893.7163方式2312.59134.1971方式3296.01421.3286方式4299.48980.1701方式5290.83703.0543方式6294.12401.9587200方式1194.77752.6113方式2218.14069.0703方式3203.69891.8494方式4208.08954.0448方式5214.07707.0385方式6200.90220.451120方式114.888025.56方式218.15939.2035方式324.301521.5075方式419.01614.9195方式514.599427.003方式627.518237.5910
由表2可以看出,六種不同建模方式的相關系數(shù)相差不大,方式1—5的相關系數(shù)均超過0.99,只有第六種方式的相關系數(shù)稍微偏小,但是在可接受范圍內(nèi)。為檢測六種模型對水質(zhì)污染含量的估測值的可靠性,利用以COD濃度為20,200,300和380 mg·L-1的吸收光譜對建立的六種模型進行測試,得到的結果如表3所示。
由表3可以看出,以第一、二主成分為回歸參數(shù)的建模方式(方式4)的測量結果誤差最小,均在5%以內(nèi)。以259,270和288 nm三個波長吸光度為回歸參數(shù)的建模方式(方式1)在濃度較高時,測量較為準確,測量誤差在4%以內(nèi),濃度較小時誤差太大,達到了25%。以254,259,265,270和288 nm五個波長吸光度為回歸參數(shù)的建模方式(方式2)的測量結果偏差基本較大,不宜采用。以第一主成分建模(方式3)、以第一、二、三主成分建模(方式5)和以光譜面積建模(方式6)都出現(xiàn)濃度較小時測量偏差較大的現(xiàn)象。結果表明,以第一、二主成分為回歸參數(shù)的估測模型比其他幾種模型測量效果好,可為COD含量的預測提供有效依據(jù)。
采用主成分分析結合歐氏距離和偏最小二乘法對水樣分類和COD含量的預測進行了定性和定量的分析。通過實驗驗證了主成分得分結合歐氏距離的方法對實際水樣可以進行有效分類,減少了因水樣差異造成的選用模型差異而產(chǎn)生的測量誤差。同時,分別用不同主成分組合和不同波長組合建立了六種多元回歸模型。結果發(fā)現(xiàn),以第一、二主成分為回歸參數(shù)的估測模型比其他幾種模型測量效果好,此模型將隨濃度的增大而不符合朗伯比爾定律的波長吸光度分為兩部分,解決了COD濃度小時誤差偏大和濃度較大吸光度易與濃度不成比例的問題,為COD含量的準確預測提供可靠方法。
[1] Hou D, Liu S, Zhang J, et al. Journal of Spectroscopy, 2014, 2014.
[2] ZHAO You-quan, LI Yu-chun, GUO Yi, et al(趙友全, 李玉春, 郭 翼, 等). Spectroscopy and Spectral Analysis(光譜學與光譜分析), 2012, 32(5): 1301.
[3] ZHOU Na, LUO Bin, LIAO Ji, et al(周 娜, 羅 彬, 廖 激, 等). Sichuan Environment(四川環(huán)境),2006, 25(1): 84.
[4] Fang J, Dai L. Intelligent Control and Automation, 2004. WCICA 2004. Fifth World Congress on. IEEE, 2004, 5: 3810.
[5] Chong S S, Aziz A R, Harun S W. Sensors, 2013, 13(7): 8640.
[6] GU Jian, ZHAO You-quan,GUO Yi, et al(顧 建, 趙友全, 郭 翼, 等). Journal of Safety and Environment(安全與環(huán)境學報), 2012, 6: 22.
[7] MU Xiu-sheng(穆秀圣). University of Electronic Science and Technology of China(電子科技大學), 2009.
[8] DAI Lei-lei(代雷雷). Zhejiang University(浙江大學), 2014.
[9] HU Yang-jun, ZHU Chun, CHEN Guo-qing, et al(胡揚俊, 朱 純, 陳國慶, 等). Spectroscopy and Spectral Analysis(光譜學與光譜分析), 2014, 34(8): 2143.
[10] Lourenco N D, Chaves C L, Novais J M, et al. Chemosphere, 2006, 65(5): 786.
[11] Chen B, Wu H, Li S F Y. Talanta, 2014, 120: 325.
[12] Platikanov S, Rodriguez-Mozaz S, Huerta B, et al. Journal of Environmental Management, 2014, 140: 33.
(Received Sep. 15, 2015; accepted Jan. 5, 2016)
Research on Water Quality Analysis Model with PCA Method and UV Absorption Spectra
ZHAO You-quan1,LI Xia1,LIU Xiao1,DONG Peng-fei1,WANG Ling-li1, WANG Xian-quan2
1. College of Precision Instrument and Opto-Electronics Engineering, Tianjin University, Tianjin 300072,China 2. Electronic Information and Automation, Chongqing University of Technology, Chongqing 400054,China
Using the UV absorption spectrum to detect Organic pollutants content in water has become one of the most important methods for real-time online monitoring in the field of water quality inspection, however, the water complex and unstable components often bring much uncertain offset to the standard test. In this paper, water samples were classified firstly by analyzing UV absorption spectrum ranging from 200 nm to 400 μm including the organic substances, through the way of combining principal component analysis (PCA) with Euclidean distance. In this paper, we compared the Principal component analysis combined with partial least squares regression (PCA-PLSR) and the direct multi-wavelength absorption models combined with partial least squares regression (MWA-PLSR), not only for the real water sample but also for the analysis of different concentrations of COD standard solution. The result indicates that the measurement errors of the PCA is less than 5%, it is the smallest by using the first and second principal components as regression parameters for PLSR. Using the methods above can simultaneously achieve to classify of water samples and to measure the concentration of water quality parameters more accurately.
UV absorption spectrum;Water quality analysis;PCA;PLSR;Sample classification
2015-09-15,
2016-01-05
國家自然科學基金項目(51275551),國家重大科學儀器專項(2011YQ15004008)資助
趙友全,1970年生,天津大學精密儀器與光電子工程學院副教授 e-mail: zhaoyouquan@tju.edu.cn
O657.3
A
10.3964/j.issn.1000-0593(2016)11-3592-05