許云峰,馬春子,霍守亮,席北斗,錢光人*
1.上海大學環(huán)境與化學工程學院,上海 200444
2.中國環(huán)境科學研究院,北京 100012
富營養(yǎng)化已經(jīng)成為全世界關注的熱點問題[1-4],人們進行了大量室內(nèi)模擬試驗探討富營養(yǎng)化的發(fā)生機制。其中,銅綠微囊藻等藍藻細菌是引起湖泊夏季水華的主要藻類[5],會導致水處理費用增加[6-7]、水的娛樂價值降低并產(chǎn)生惡臭及微囊藻毒素[8]等,針對銅綠微囊藻的研究成為室內(nèi)研究水體富營養(yǎng)化的主要關注點,且得到了大量試驗模擬數(shù)據(jù)。然而,這些試驗模擬數(shù)據(jù)所反映的規(guī)律是非常有限的,同時又耗費了大量的人力物力。因此為更好地掌握由室內(nèi)模擬試驗得到的湖泊富營養(yǎng)化發(fā)生機制,并節(jié)省人力和資源,需尋求一種從數(shù)據(jù)中總結規(guī)律,據(jù)以指導試驗及實際湖泊富營養(yǎng)化治理的方法。
數(shù)據(jù)挖掘是從一個新的角度將數(shù)據(jù)庫技術、機器學習、模式識別和統(tǒng)計學等領域結合起來[9],從大量不完全的、有噪聲的、隨機的數(shù)據(jù)中,提取隱含在其中人們事先不知道的,但又有潛在價值的規(guī)律和知識的過程。目前已經(jīng)廣泛應用于金融[10]、零售[11]、醫(yī)藥[12-14]、通訊[15]、化學工程[9,16]和航空[17]等領域。筆者運用數(shù)據(jù)挖掘方法對收集的銅綠微囊藻試驗模擬數(shù)據(jù)進行定性分析,以探求抑制藻類生長的主要影響因素。
查閱國內(nèi)外研究機構發(fā)表的文獻,收集銅綠微囊藻的試驗模擬數(shù)據(jù),對其進行分類整理與分析。收集的數(shù)據(jù)主要涉及:試驗時間(T,d)、試驗水溫(Tw,℃)、總氮的初始濃度(TN0,mg/L)、總磷的初始濃度(TP0,mg/L)、試驗初始 pH(pH0)、水中鐵的初始濃度(Fe0,mg/L)、藻密度(N,106個/mL)、接種藻密度(N0,106個/mL)、水流速度(v,cm/s)、擾動(R,r/min)、光照強度(E,lx)、光暗比(L,h/h)。
藻類水華是湖泊富營養(yǎng)化發(fā)生的顯著特征,這就增加了藻密度作為湖泊水質(zhì)評價指標的重要性。藻密度是衡量藻濃度的主要常規(guī)性監(jiān)測指標[18]。當藻密度達到106個/mL時有可能爆發(fā)水華現(xiàn)象[19]。因此將藻密度N作為目標變量,以藻密度為1×106個/mL作為湖泊能否發(fā)生富營養(yǎng)化的分界線。
目標變量 N,N<1×106個/mL為 1類樣本(Class 1),N≥1×106個/mL為2類樣本(Class 2)。影響因素 11 個,分別為 N0、Fe0、TN0、TP0、T、Tw、pH0、v、R、E 和 L。樣本數(shù)共1052 個,其中1 類樣本615個,占58.46%,2類樣本437個,占41.54%。
數(shù)據(jù)挖掘技術必須通過多種計算方法加以實現(xiàn),目前主要包括模式識別(主成分分析法、白化變換-線性映照法、最佳映照識別法、模式識別逆映照法)、人工神經(jīng)網(wǎng)絡及支持向量機等。
主要采用數(shù)據(jù)挖掘中的主成分分析法(Principal Component Analysis,PCA)作為非參數(shù)的分類方法[20],對銅綠微囊藻試驗模擬數(shù)據(jù)進行定性分析。傳統(tǒng)的主成分分析法是直接對數(shù)據(jù)樣本進行分析,找出對信息量貢獻較大的主成分,繼而構成二維或三維投影圖剖析數(shù)據(jù)結構,并未對樣本事先分類。而筆者先將數(shù)據(jù)樣本分類,并且將主成分分析法中所有的主成分全部找出,每兩個主成分構成投影平面,對投影平面上投影點分類效果最好的圖進行定性分析[21]。
主成分(PC)的表達式可定義為[22]:
式中,a為變量系數(shù);V為原始變量的值;i和n分別為主成分數(shù)和變量總數(shù)。
在影響銅綠微囊藻目標變量的11個變量中,并不是所有變量都會對目標變量產(chǎn)生重要影響,因此先對11個變量進行逐個篩選,找出影響銅綠微囊藻生長的主要變量。
用主成分分析法(PCA)將1052個樣本點投影到由n個變量構成的n維空間,并映射在兩維特征面上,即可得到特征圖。
影響銅綠微囊藻生長的關鍵特征變量由建立在PCA基礎上的可分性判據(jù)P(即分類率[23])來決定??煞中耘袚?jù)的定義為:
式中,Z1為1類樣本點的數(shù)目;Z2為特征圖上包含所有1類樣本點的矩形框內(nèi)2類樣本點的數(shù)目。
表1列出了變量逐步刪除后得到的相應分類率。從表1可以看出,在所有變量存在的條件下分類率較低,僅為31.22%,變量逐步減少后分類率不斷上升,說明不是所有變量都對銅綠微囊藻的生長產(chǎn)生很大影響。當繼續(xù)刪除變量R后,特征圖的分類率又出現(xiàn)下降,說明R是影響銅綠微囊藻生長的主要因素,不能刪除。
圖1和圖2分別是變量篩選前后的特征圖。比較圖1和圖2可見,雖然逐步刪除了 Fe0、TN0、E、L、v和Tw六個變量,但數(shù)據(jù)規(guī)律依然明顯,說明這六個變量對目標變量的影響較小,可以刪除。篩選后剩余的變量為 N0、T、pH0、R 和 TP0,與表1 得出的結論一致。下面對這五個變量進行詳細分析。
圖2中的橫坐標PC1和縱坐標PC2分別為以上五個變量的線性組合,具體表示為以下方程(非標準化方程):
表1 特征變量篩選表Table 1 The screening list of feature variables
并且特征圖上的每個點都是五個變量的組合,由圖2可知,藻密度較小的樣本(N<1×106個/mL,實心樣本點)和藻密度較大的樣本(N≥1×106個/mL,空心樣本點)明顯分布在圖的不同部位,實心樣本分布在特征圖的中間位置,空心樣本主要分布在其兩邊,數(shù)據(jù)有著較好的規(guī)律性。數(shù)據(jù)分界面在原始變量空間的方程為:
這說明可以通過調(diào)節(jié)五個變量來控制銅綠微囊藻的藻密度。當N0、T、pH0、R和 TP0五個變量滿足式(5)和式(6)時,銅綠微囊藻的藻密度可以控制在1×106個/mL以下,湖泊可能不會發(fā)生水華;不滿足式(5)和式(6)時藻密度會高于1×106個/mL,有可能會發(fā)生水華。這為湖泊的富營養(yǎng)化治理提出了一定的理論依據(jù)。
采用主成分分析的載荷圖(圖3)可以對變量的重要性進行分析。通常變量在圖形中的位置代表了變量影響目標值變化的方向,遠離原點的變量對目標變量的影響最大。根據(jù)主成分的載荷值在圖3的不同位置上標出了五個變量,將該圖與圖2對應,就可以根據(jù)五個變量所處的位置分析變量對目標變量的影響趨勢。
圖2的中間部分是目標變量(藻密度)的優(yōu)類區(qū)域,即目標變量減少的方向,說明圖3中的變量向中間移動會使2類樣本點變?yōu)?類樣本點,使目標變量降低。
由圖3可以看出,根據(jù)各變量的坐標到原點的距離有如下順序:pH0>N0>TP0>R>T,可見對銅綠微囊藻生長影響較大的變量是pH0、N0和TP0。適當減小藻類的初始接種量、水體初始pH或初始TP濃度,都可以使目標變量降低,有效抑制銅綠微囊藻的生長。
圖3 銅綠微囊藻數(shù)據(jù)載荷圖Fig.3 The load diagram of Microcystis aeruginosa
(1)主成分分析法作為非參數(shù)的分類方法可以對變量的重要性進行篩選,并能得到分類效果較好的特征圖。
(2)通過運用主成分分析的載荷圖,得到影響銅綠微囊藻生長的主要因素,且適當減小藻類的初始接種量N0、水體的初始pH或初始TP濃度都可以抑制銅綠微囊藻的生長。
[1]XUE X,LANDIS A E.Eutrophication potential of food consumption patterns[J].Environ Sci Technol,2010,44(16):6450-6456.
[2]GRUNDY R D.Strategies for control of man-made eutrophication[J].Environ Sci Technol,1971,5(12):1184-1190.
[3]LEE G F,RAST W,JONES R A.Water report:eutrophication of water bodies:insights for an age old problem[J].Environ Sci Technol,1978,12(8):900-908.
[4]LEE G F,JONES R A.Detergent phosphate bans and eutrophication[J].Environ Sci Technol,1986,20(4):330-331.
[5]AHN C Y,PARK M H,JOUNG S H,et al.Growth inhibition of cyanobacteria by ultrasonic radiation:laboratory and enclosure studies[J].Environ Sci Technol,2003,37(13):3031-3037.
[6]TEIXEIRA M R,ROSA M J.Comparing dissolved air flotation and conventional sedimentation to remove cyanobacterial cells of Microcystis aeruginosa:Part I.the key operating conditions[J].Separation and Purification Technology,2006,52(1):84-94.
[7]TAKAARA T,SANO D,MASAGO Y,et al.Surface-retained organic matter of Microcystis aeruginosa inhibiting coagulation with polyaluminum chloride in drinking water treatment[J].Water Res,2010,44(13):3781-3786.
[8]SANGOLKAR L N,MASKE S S,CHAKRABARTI T.Methods for determining microcystins(peptide hepatotoxins)and microcystin-producing cyanobacteria[J].Water Res,2006,40(19):3485-3496.
[9]楊善升,陸文聰,陳念貽.數(shù)據(jù)挖掘技術在化工優(yōu)化中的應用[J].江蘇化工,2004,32(4):1-4,8.
[10]HO H S,KRISHNAN R.Predicting repayment of the credit card debt[J].Computers & Operations Research,2012,39(4):765-773.
[11]KARGARI M,SEPEHRI M M.Stores clustering using a data mining approach for distributing automotive spare-parts to reduce transportation costs[J/OL].Expert Systems with Applications,2012,39(5):4740-4748[2011-10-01].http://dx.doi.org/10.1016/j.bbr.2011.03.031.
[12]郭立瑋,潘林梅,朱華旭,等.關于復雜系統(tǒng)理論和方法應用于中醫(yī)藥研究領域的思考與實踐[C]//中華中醫(yī)藥學會中成藥學術研討會.北京:中華中醫(yī)藥學會,2007:9-15.
[13]郭立瑋,董潔,樊文玲,等.數(shù)據(jù)挖掘方法用于中藥水提液膜過程優(yōu)化的研究[J].世界科學技術,2005,7(3):42-47,88.
[14]陳瑞蘭,陸文聰,劉旭,等.支持向量機算法研究頭發(fā)微量元素與高血壓的相關性[J].計算機與應用化學,2003,20(5):567-570.
[15]SENG J L,CHEN T C.An analytic approach to select data mining for business decision[J].Expert Systems with Applications,2010,37(12):8042-8057.
[16]楊善升,陸文聰,顧天鴻,等.基于數(shù)據(jù)挖掘的合成氨過程優(yōu)化和監(jiān)測系統(tǒng)應用研究[J].化工自動化及儀表,2010,37(7):76-78.
[17]GüRBüZ F,ZBAKIR L,YAPICI H.Data mining and preprocessing application on component reports of an airline company in Turkey[J].Expert Systems with Applications,2011,38(6):6618-6626.
[18]RODRIGUES L H R,ARENZON A,RAYA-RODRIGUEZ M T,et al.Algal density assessed by spectrophotometry:a calibration curve for the unicellsular algae Pseudokirchneriella subcapitata[J].Journal of Environmental Chemistry and Ecotoxicology,2011,3(8):225-228.
[19]Wikipedia contributors.Algal bloom[EB/OL].[2011-12-10].http://en.wikipedia.org/wiki/Algal_bloom.
[20]VEGA M,PARDO R,BARRADO E,etal.Assessment of seasonal and polluting effects on the quality of river water by exploratory data analysis[J].Water Res,1998,32(12):3581-3592.
[21]陳念怡,秦沛,陳瑞亮,等,模式識別方法在化學化工中的應用[M].北京:科學出版社,2000.
[22]STATHEROPOULOS M,VASSILIADIS N,PAPPA A.Principal component and canonical correlation analysis for examining air pollution and meteorological data[J].Atmos Environ,1998,32(6):1087-1095.
[23]BAO X H,LU W C,LIU L,et al.Hyper-polyhedron model applied to molecular screening of guanidines as Na/H exchange inhibitors[J].Acta Pharmacologica Sinica,2003,24(5):472-476.?