張穎,高倩倩,高茂庭
(上海海事大學(xué)信息工程學(xué)院,上海201306)
近幾年,經(jīng)濟(jì)的快速發(fā)展使得工農(nóng)業(yè)生產(chǎn)的規(guī)模不斷擴(kuò)張,導(dǎo)致環(huán)境污染日趨嚴(yán)重。大量富含氮、磷、鉛的排放物最終流入大海,海水的富營(yíng)養(yǎng)化程度日益嚴(yán)重,導(dǎo)致赤潮等災(zāi)害頻繁發(fā)生[1],使得海洋生態(tài)環(huán)境日益惡化,給海洋周邊的人類生活帶來(lái)嚴(yán)重危害。大量的研究結(jié)果表明,海水的富營(yíng)養(yǎng)化與海水中藻類的生長(zhǎng)繁殖密切相關(guān),但是問(wèn)題的復(fù)雜性在于:藻類的快速繁殖生長(zhǎng)并不是簡(jiǎn)單地和某些排放物質(zhì)含量的增加呈線性遞增的關(guān)系,導(dǎo)致藻類爆發(fā)性繁殖的條件非常復(fù)雜,研究表明,藻類的生長(zhǎng)與海水的硝酸鹽含量、海水鹽度、溶解氧含量、溫度、海水渾濁度等十幾個(gè)理化因子的變化密切相關(guān)[2]。海水中的葉綠素-a濃度是體現(xiàn)水體中生物量含量的綜合指標(biāo),目前多數(shù)研究人員將葉綠素-a的濃度作為反映海水中藻類繁殖狀態(tài)的重要表征指標(biāo)[3-4]。通過(guò)分析葉綠素-a濃度的變化,可以獲取海水中藻類生物量狀況及其變化趨勢(shì),達(dá)到對(duì)海水富營(yíng)養(yǎng)化的有效監(jiān)測(cè)[5]。
軟測(cè)量是一種以軟件算法為主的測(cè)量手段,與傳統(tǒng)意義上的傳感器不同,軟測(cè)量所測(cè)量的參數(shù)一般不是某個(gè)特定的物理/化學(xué)參量,而是針對(duì)具體的應(yīng)用問(wèn)題,采用較易直接測(cè)得的輔助測(cè)量變量,通過(guò)數(shù)學(xué)模型的計(jì)算,得到難以測(cè)量或者根本無(wú)法測(cè)量的關(guān)鍵變量值。由于影響海水中葉綠素-a 濃度的因素眾多,且相互作用復(fù)雜,直接在線測(cè)量比較困難,離線測(cè)量則需要昂貴的分析儀器,且不能保證測(cè)量的實(shí)時(shí)性。采用軟測(cè)量方法間接推斷其在海水中的含量可以較好地解決這一測(cè)量技術(shù)難題[6]。目前建立軟測(cè)量模型的方法主要有:BP神經(jīng)網(wǎng)絡(luò)算法、模糊神經(jīng)網(wǎng)絡(luò)算法、經(jīng)驗(yàn)預(yù)測(cè)法、多元回歸分析方法等。本文采用支持向量回歸機(jī)算法(SVR)對(duì)海水葉綠素-a濃度進(jìn)行軟測(cè)量,以期達(dá)到具有較好穩(wěn)定性和精確性的軟測(cè)量效果。
支持向量回歸機(jī)算法(SVR)[7-8]是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC 理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理之上的,根據(jù)有限的樣本信息,在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折中,以獲得最好的泛化能力——推廣能力。與其他的研究方法相比,該方法能更好地優(yōu)化各參數(shù),避免局部最優(yōu)解,具有較好的全局收斂性。
由于SVR算法具有過(guò)擬合現(xiàn)象少、對(duì)于特征過(guò)多所造成的維數(shù)災(zāi)難不明顯、易收斂于全局解、核函數(shù)使用靈活等優(yōu)點(diǎn),所以SVR 算法在解決小樣本、非線性、高維模式識(shí)別以及函數(shù)擬合等問(wèn)題中得到廣泛的運(yùn)用[9]。
非線性支持向量機(jī)回歸的主要思想是:通過(guò)適當(dāng)?shù)暮撕瘮?shù)wx+b=0 將低維空間中數(shù)據(jù)x映射到高維特征空間,并在這個(gè)空間進(jìn)行線性回歸。如圖1所示。
根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,SVR 算法在學(xué)習(xí)過(guò)程中主要是折中考慮降低樣本的經(jīng)驗(yàn)風(fēng)險(xiǎn)(訓(xùn)練誤差)和最小化置信范圍(結(jié)構(gòu)復(fù)雜度帶來(lái)的風(fēng)險(xiǎn))。SVR算法學(xué)習(xí)過(guò)程的目的是線性回歸,即對(duì)可用的獨(dú)立同分布數(shù)據(jù)進(jìn)行處理,找到一個(gè)函數(shù)f(x)可近似為y(x)值,即估計(jì)數(shù)據(jù):
若在ε 精度下,函數(shù)f(x)不能估計(jì)所有(xi,yi)數(shù)據(jù),則引入松弛變量ξ ,那么尋找最小w 的凸優(yōu)化問(wèn)題可以最終歸為解下面二次規(guī)劃的問(wèn)題:
式中,常數(shù)C(C>0)作為懲罰因子,用來(lái)平衡經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的比例。
非線性回歸函數(shù)為:
圖1 原始空間向高維特征空間映射
入拉格朗日函數(shù)和對(duì)偶變量,如下所示:
在(3)式約束條件下,其中由(4)式得到w,將(6)式最大化求出參數(shù)的值,最后將w 的值帶入非線性回歸函數(shù)中,可以表示為:
本文對(duì)反映海水藻類繁殖狀態(tài)的海水葉綠素-a濃度軟測(cè)量模型的構(gòu)造采用如圖2所示的形式。
首先,采用灰色關(guān)聯(lián)分析法對(duì)原始數(shù)據(jù)進(jìn)行關(guān)聯(lián)性分析,提取與葉綠素-a濃度關(guān)聯(lián)度較大的環(huán)境因子作為主控輔助變量。然后選定訓(xùn)練集和測(cè)試集,并使用SVR 算法對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,最終用得到的模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè),并分析預(yù)測(cè)結(jié)果的均方差。
圖2 模型構(gòu)造流程圖
根據(jù)SVR 算法的思想,本文使用如圖3 所示的支持向量回歸機(jī)體系結(jié)構(gòu)圖對(duì)葉綠素-a 濃度進(jìn)行軟測(cè)量,其中x1,x2,…,xi表示本文采用灰色關(guān)聯(lián)分析后得到的主控輔助因子,k(x,xi)表示核函數(shù)[10],本文采用的核函數(shù)為徑向基核函數(shù)(RBF),表示為:
式中,xi為核函數(shù)中心,σ 為函數(shù)的寬度參數(shù),控制函數(shù)的徑向作用范圍。
灰色關(guān)聯(lián)分析(Grey Relational Analysis,GRA)方法是分析系統(tǒng)之間相似或相異的關(guān)聯(lián)程度,主要用于分析系統(tǒng)各因素之間相關(guān)特征,從而挖掘出系統(tǒng)的主要影響因素[11]?;疑P(guān)聯(lián)度是兩個(gè)系統(tǒng)或兩個(gè)因素間關(guān)聯(lián)性大小的量度,它描述系統(tǒng)發(fā)展過(guò)程中因素間相對(duì)變化的情況,在一個(gè)系統(tǒng)中的兩種因素,如果在發(fā)展過(guò)程中相對(duì)變化態(tài)勢(shì)一致性較高,則兩者的灰色關(guān)聯(lián)度較大;反之,灰色關(guān)聯(lián)度就較小。本文采用灰色關(guān)聯(lián)分析方法,分別分析各個(gè)輔助影響因子與主因子(葉綠素-a 濃度)之間的關(guān)聯(lián)程度,選擇與主因子關(guān)聯(lián)度較大的幾個(gè)因子作為輸入變量,從而在保留原始數(shù)據(jù)大部分信息的情況下,保證預(yù)測(cè)的有效性。
圖3 支持向量回歸機(jī)的體系結(jié)構(gòu)
本文選取的數(shù)據(jù)是從長(zhǎng)江口南匯嘴近海海域布置的采樣點(diǎn)連續(xù)采集的觀測(cè)數(shù)據(jù),時(shí)間是從2012年3月15日至2012年5月15日,從中選取300組水環(huán)境相關(guān)數(shù)據(jù)作為本次實(shí)驗(yàn)的樣本數(shù)據(jù)。根據(jù)歷年這一海域海洋環(huán)境因子觀測(cè)資料可知,上述時(shí)間段也是這一海域藻類繁殖狀況異常的多發(fā)季節(jié)。每組數(shù)據(jù)分別包括:溫度、溶解氧含量、硝酸鹽含量、透光度、酸堿度、葉綠素-a 濃度、傳導(dǎo)率、鹽度8個(gè)因子,并采用灰色關(guān)聯(lián)分析法分別對(duì)8 種因子進(jìn)行相關(guān)性分析,從而得到葉綠素-a 濃度與其它7 個(gè)影響因子的相關(guān)度。根據(jù)各個(gè)影響因子的相關(guān)度,從300 組數(shù)據(jù)中提取出主控因子,并將其1—200 組數(shù)據(jù)作為訓(xùn)練集,對(duì)SVR 神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到訓(xùn)練模型;將其201—300 組數(shù)據(jù)作為測(cè)試集,并使用訓(xùn)練得到的模型對(duì)其進(jìn)行預(yù)測(cè)。
由于葉綠素-a 濃度是表征水體富營(yíng)養(yǎng)化程度的典型指標(biāo)之一,所以,本文將葉綠素-a 濃度作為主因子(x0),其余7個(gè)因子作為影響因子,包括:溫度TP(x1)、溶解氧DO(x2)、酸堿度PH(x3)、鹽度SA(x4)、傳導(dǎo)率CO(x5)、光強(qiáng)度LI(x6)和硝酸鹽含量NI(x7)。采用灰色關(guān)聯(lián)分析法進(jìn)行數(shù)據(jù)相關(guān)度分析,本文將相關(guān)度大于0.65的影響因子作為主控因子。這樣做的目的是在保留原始數(shù)據(jù)大部分信息的情況下,保證預(yù)測(cè)的有效性。
數(shù)據(jù)相關(guān)度分析步驟如下:
步驟1:由于在實(shí)際問(wèn)題中,不同的影響因子往往具有不同的量綱,而在計(jì)算關(guān)聯(lián)系數(shù)時(shí),要求量綱相同,因此,需要對(duì)各個(gè)影響因子做初始化處理,無(wú)量綱化處理方法表示為:
步驟2:選取主因子序列,表示為:
式中,k 表示數(shù)據(jù)個(gè)數(shù),x0表示葉綠素-a濃度,n=300。由于數(shù)據(jù)是根據(jù)時(shí)間序列來(lái)記錄的,也可以代表時(shí)間序列,本文為了方便說(shuō)明,把k 作為時(shí)刻來(lái)論述。
步驟3:選取影響因子序列,表示為:
式中,m 代表環(huán)境影響因子個(gè)數(shù),由于本文研究的影響因子有x1、x2、x3、x4、x5、x6、x7,所以m=7。
步驟4:計(jì)算關(guān)聯(lián)系數(shù),計(jì)算公式表示為:
式中,ζi(k)為影響因子序列xi對(duì)主因子列x0在k 時(shí)刻的關(guān)聯(lián)系數(shù),ρ 為分辨系數(shù)(ρ ∈[0,1]),本文取ρ=0.5。
步驟5:由公式5 可以得到300 個(gè)相關(guān)系數(shù),由于300個(gè)信息過(guò)于分散,不便于比較分析,為此本文對(duì)關(guān)聯(lián)系數(shù)進(jìn)行平均化處理,計(jì)算公式為:
式中,ri為輔助影響因子序列xi對(duì)主因子序列x0的關(guān)聯(lián)度。根據(jù)上述步驟,可計(jì)算出輔助影響因子(x1ˉ x7)與主因子葉綠素-a(x0)濃度之間的相關(guān)度,結(jié)果如圖4所示。
圖4以柱形圖的形式直觀的顯示了個(gè)影響因子與主因子之間的相關(guān)度,其中1—7 分別代表溫度、溶解氧含量、酸堿度、鹽度、傳導(dǎo)率、光強(qiáng)度和硝酸鹽含量與葉綠素-a濃度的相關(guān)度。
由圖4 的結(jié)果分析可知:溫度、含鹽量與葉綠素-a 濃度的相關(guān)度均在0.2 左右,傳導(dǎo)率與其的相關(guān)度只有0.0898,所以可以忽略這3 個(gè)子因素對(duì)葉綠素-a 濃度的影響。溶解氧含量、酸堿度、光強(qiáng)度和硝酸鹽量與葉綠素-a 濃度相關(guān)程度均大于0.65,因此,本文將溶解氧含量、酸堿度、光強(qiáng)度和硝酸鹽含量作為軟測(cè)量訓(xùn)練模型的輸入因子。
圖4 相關(guān)度柱形圖
根據(jù)灰色關(guān)聯(lián)分析法處理后的結(jié)果,將溶解氧、酸堿度、光強(qiáng)度和硝酸鹽量作為訓(xùn)練模型的輸入因子,選取葉綠素-a 濃度(μg/L)作為模型唯一的輸出因子。
根據(jù)上述樣本數(shù)據(jù)、基于SVR 算法進(jìn)行葉綠素-a濃度軟測(cè)量模型的建模,其結(jié)果如圖5和圖6所示。圖5是利用樣本數(shù)據(jù)進(jìn)行學(xué)習(xí)建模的結(jié)果,圖6是針對(duì)建模結(jié)果進(jìn)行軟測(cè)量測(cè)試驗(yàn)證的結(jié)果。
針對(duì)相同的樣本數(shù)據(jù),應(yīng)用T-S 模糊神經(jīng)網(wǎng)絡(luò)進(jìn)行軟測(cè)量模型建模的結(jié)果如圖7 和圖8 所示,其中,圖7 是利用樣本數(shù)據(jù)進(jìn)行學(xué)習(xí)建模的結(jié)果;圖8是針對(duì)建模結(jié)果進(jìn)行軟測(cè)量測(cè)試驗(yàn)證的結(jié)果。應(yīng)用BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行軟測(cè)量模型建模的結(jié)果如圖9和圖10 所示,其中,圖9 是利用樣本數(shù)據(jù)進(jìn)行學(xué)習(xí)建模的結(jié)果,圖10是針對(duì)建模結(jié)果進(jìn)行軟測(cè)量測(cè)試驗(yàn)證的結(jié)果。
針對(duì)三種算法的測(cè)試結(jié)果進(jìn)行均方誤差比較如表1所示。
圖5 基于SVR方法的樣本訓(xùn)練
圖6 針對(duì)SVR模型的泛化性測(cè)試
圖7 基于T-S模糊神經(jīng)網(wǎng)絡(luò)的樣本訓(xùn)練
圖8 針對(duì)T-S模糊神經(jīng)網(wǎng)絡(luò)的泛化性測(cè)試
圖9 基于BP神經(jīng)網(wǎng)絡(luò)的樣本訓(xùn)練
圖10 針對(duì)BP神經(jīng)網(wǎng)絡(luò)的泛化性測(cè)試
表1 幾種算法的測(cè)試均方誤差比較
從表1 可以看出,SVR 算法的精確度最高,T-S模糊神經(jīng)網(wǎng)絡(luò)雖然也能達(dá)到一定精度,但是其算法較SVR 復(fù)雜,占用系統(tǒng)資源較大。BP 神經(jīng)網(wǎng)絡(luò)則誤差較大,實(shí)際中還存在學(xué)習(xí)收斂穩(wěn)定性欠佳的問(wèn)題。
SVR方法具有較好的樣本學(xué)習(xí)收斂性,模型穩(wěn)定可靠,運(yùn)算量適中,適合于在線辨識(shí)學(xué)習(xí)及模型在線校正。通過(guò)實(shí)驗(yàn)可以發(fā)現(xiàn),針對(duì)這一海域的觀測(cè)數(shù)據(jù),上述方法具有較好的軟測(cè)量建模及測(cè)試驗(yàn)證效果,它表明在這一海域條件下,上述方法是適合于針對(duì)海水藻類繁殖狀態(tài)進(jìn)行軟測(cè)量預(yù)估的。此方法可對(duì)類似狀態(tài)下海水環(huán)境關(guān)鍵理化因子的軟測(cè)量提供借鑒。
大量研究表明,海水富營(yíng)養(yǎng)化過(guò)程中大量繁殖的鞭毛藻等藻類植物的主要表征生物量即是葉綠素-a,因此,海水葉綠素-a 濃度可以有效反映海水藻類的繁殖狀態(tài),葉綠素-a濃度越高說(shuō)明藻類在該水域繁殖越快。本文旨在提供一種用于實(shí)時(shí)獲取海水葉綠素-a濃度的軟測(cè)量方法,它提供了一種間接獲取藻類繁殖狀態(tài)信息的途徑。籍于此還需要后續(xù)開(kāi)展針對(duì)藻類繁殖狀態(tài)評(píng)估方法等研究工作。
SVR 的最終決策函數(shù)是由其獲得的支持向量所確定的,計(jì)算的復(fù)雜性取決于這些支持向量的數(shù)目,而不是樣本空間的維數(shù)。通過(guò)融合灰色關(guān)聯(lián)分析法針對(duì)數(shù)據(jù)樣本進(jìn)行相關(guān)度分析,可以實(shí)現(xiàn)針對(duì)軟測(cè)量模型進(jìn)行降維的目的。本文將數(shù)據(jù)預(yù)處理與軟測(cè)量模型構(gòu)建相結(jié)合,將篩選出的主要輔助變量作為軟測(cè)量模型的輸入變量,將反映海水藻類生物量指標(biāo)的葉綠素-a 濃度作為軟測(cè)量模型輸出變量,實(shí)現(xiàn)了針對(duì)海水藻類繁殖狀態(tài)軟測(cè)量的目的。
[1]王冬云,黃焱歆.海水富營(yíng)養(yǎng)化評(píng)價(jià)的人工神經(jīng)網(wǎng)絡(luò)方法[J].河北建筑科技學(xué)院學(xué)報(bào),2001,18(4):27-29.
[2]張麗旭,張小偉.用于海洋環(huán)境科學(xué)的一種新方法—影響因子分析法[J].海洋科學(xué)進(jìn)展,2004,22(1):33-36.
[3]Lee J H W, Huang Y, Dickman M. et al. Neural network modelling of coastal algal blooms [J]. Ecological Modelling, 2003, 159(2):179-201.
[4]Melesse A M, Krishnaswamy J, Zhang K Q. Modeling Coastal Eutrophication at Florida Bay using Neural Networks[J].Journal of Coastal Research,2008,24(2):190-196.
[5]鄭丙輝,張遠(yuǎn),富國(guó),等.三峽水庫(kù)營(yíng)養(yǎng)狀態(tài)評(píng)價(jià)標(biāo)準(zhǔn)研究[J].環(huán)境科學(xué)學(xué)報(bào),2006,26(6):1022-1030.
[6]李雪,劉長(zhǎng)發(fā),朱學(xué)慧,等.基于BP 人工神經(jīng)網(wǎng)絡(luò)的海水水質(zhì)綜合評(píng)價(jià)[J].海洋通報(bào),2010,29(2):225-230.
[7]Vapnik V, Chapelle O. Bounds on error expectation for support vector machines[J].Neural Computation,2000,12(9):2013-2036.
[8]Abe S,Inoue T. Fuzzy support vector machines for multiclass problems[C]. ESANN’2002 Proceedings- European Symposiumon Artificial Neural Networks,Bruges,Belgium,2002:113-118.
[9]Zaiwen L, WANG X, Lifeng C, et al. Research on Water Bloom Prediction Based on Least Squares Support Vector Machine[A].2009 World Congress on Computer Science and Information Engineering[C].LosAngeles,2009:764-768.
[10]李琳,張曉龍.基于RBF 核的SVM 學(xué)習(xí)算法的優(yōu)化計(jì)算[J].計(jì)算機(jī)工程與應(yīng)用,2006,29:190-192,204.
[11]王紅瑞,閆五玖.環(huán)境質(zhì)量的模糊綜合評(píng)判—灰色關(guān)聯(lián)分析復(fù)合模型及實(shí)例分析[J].北京師范大學(xué)學(xué)報(bào),1997,20(4):39-43.