王旭生,王 昕,孫曉川+
(1.華北理工大學(xué) 理學(xué)院,河北 唐山 063210;2.華北理工大學(xué) 人工智能學(xué)院,河北 唐山 063210)
近年來,我國海洋污染日益嚴(yán)重,海洋災(zāi)害逐年增加,海洋生態(tài)環(huán)境逐漸惡化[1]。海洋水質(zhì)參數(shù)的變化直接影響海水水質(zhì)的好壞,利用海洋監(jiān)測網(wǎng)絡(luò)對海洋環(huán)境進(jìn)行持續(xù)的動(dòng)態(tài)監(jiān)測,精確預(yù)測未來海水水質(zhì)的變化,如何準(zhǔn)確預(yù)測海水水質(zhì)成為國內(nèi)外學(xué)者研究的熱點(diǎn)。
海水水質(zhì)受多種物理、化學(xué)和生物因素影響,且不同影響因素之間有一定的關(guān)聯(lián)性,要想迅速、準(zhǔn)確實(shí)現(xiàn)海水水質(zhì)預(yù)測,必須要先降低不同因素間的關(guān)聯(lián)關(guān)系,提取影響水質(zhì)的主要因子。主成分分析(principal component analysis,PCA)被用來解決這一問題[2,3],對給定的相關(guān)變量實(shí)現(xiàn)基于變換矩陣的降維,從而為回歸提供更友好的輸入,避免了人為選擇的主觀性問題。
在過去的幾十年里,出現(xiàn)了各種各樣的水質(zhì)預(yù)測模型,現(xiàn)代較為流行的方法包括支持向量機(jī)模型、神經(jīng)網(wǎng)絡(luò)模型、模糊法、小波分析法等。文獻(xiàn)[4-6]建立了基于支持向量機(jī)的水質(zhì)預(yù)測模型,文獻(xiàn)[7-10]采用神經(jīng)網(wǎng)絡(luò)進(jìn)行水質(zhì)預(yù)測。但神經(jīng)網(wǎng)絡(luò)存在收斂速度慢、在訓(xùn)練過程中容易過擬合、需要調(diào)整的參數(shù)過多、泛化性能較差等缺點(diǎn),支持向量機(jī)相較于神經(jīng)網(wǎng)絡(luò)參數(shù)較少,但其隨著訓(xùn)練樣本的增加訓(xùn)練時(shí)間也相應(yīng)延長,懲罰因子不可估量,核函數(shù)要受到Mercer條件限制。相關(guān)向量機(jī)基于貝葉斯理論,可以實(shí)現(xiàn)概率輸出,且核函數(shù)不受條件制約,很好克服了支持向量機(jī)的缺陷[11-13]。
根據(jù)以上問題,本文提出一種基于組合核RVM的海水水質(zhì)預(yù)測模型。該模型利用PCA將較多相互關(guān)聯(lián)的變量轉(zhuǎn)化為較少的主成分變量,然后將提取的主成分因子輸入到多核RVM中進(jìn)行訓(xùn)練和預(yù)測,但模型參數(shù)的選擇直接影響模型最終的預(yù)測性能,利用經(jīng)驗(yàn)選取又存在很大的隨機(jī)性和主觀性。螢火蟲算法[14,15](firefly algorithm,F(xiàn)A)在收斂性和全局尋優(yōu)能力上展現(xiàn)出較強(qiáng)的穩(wěn)定性和較高的效率,且需要調(diào)整的參數(shù)少,因此,本文考慮螢火蟲算法對組合核RVM核函數(shù)權(quán)重和參數(shù)進(jìn)行優(yōu)化選擇。
自適應(yīng)多核模式下的PCA-RVM模型由3個(gè)關(guān)鍵的功能模塊構(gòu)成,首先海洋中的傳感器采集到的水質(zhì)數(shù)據(jù)利用PCA進(jìn)行數(shù)據(jù)提取,消除隱藏在變量中的冗余信息;然后提取后的數(shù)據(jù)進(jìn)入到多核RVM模型進(jìn)行非線性逼近,為了避免人為調(diào)整參數(shù)的隨機(jī)性,采用了FA進(jìn)行參數(shù)選擇,利用優(yōu)化后的參數(shù)建立水質(zhì)預(yù)測模型。
傳感器采集到的水質(zhì)數(shù)據(jù)進(jìn)行PCA數(shù)據(jù)降維,主成分是輸入變量的線性變換,按照方差遞減順序排列,方差最大的為第一主成分,其次為第二主成分,以此類推。當(dāng)前k個(gè)主成分的累計(jì)貢獻(xiàn)率超過95%,則認(rèn)為這k個(gè)主成分可以代表原始數(shù)據(jù)所包含的信息量,用于水質(zhì)預(yù)測研究。PCA的具體步驟如下所示:
(1)輸入待降維數(shù)據(jù)矩陣X,降維后數(shù)據(jù)貢獻(xiàn)率目標(biāo)值Crate;
(2)計(jì)算數(shù)據(jù)矩陣X的去中心化矩陣C;
(3)求解C的特征值和特征向量;
(4)按照特征值由大到小的順序排列特征向量;
(5)使用特征值構(gòu)造一個(gè)列向量,并對列向量做降序排列;
(6)計(jì)算特征值之和sum,并初始化降維后矩陣維數(shù)n=1;
(7)計(jì)算貢獻(xiàn)率Crate=前n個(gè)特征值之和/總特征值之和;
(8)如果Crate>95%,則取前n個(gè)特征向量構(gòu)成變換矩陣T;否則令n=n+1,返回步驟(7);
(9)對數(shù)據(jù)矩陣做降維變換newX=X*T;
tm=y(xm,ω)+εm
(1)
式中:ω=(ω0,ω1,…,ωm)為權(quán)重向量,εm是期望為0,方差為σ2的高斯分布,即εm~N(0,σ2)。若定義
(2)
式中:K(x,xm)為核函數(shù),則p(tm|x)=N(tm|y(xm),σ2)。又由于tm相互獨(dú)立,因此目標(biāo)向量t的高斯似然分布可表示為
(3)
式中:t=(t1,t2,…,tm)T,Φ=[φ(x1),φ(x2),…,φ(xm)]T,φ(xm)=[1,K(xm,x1),…,K(xm,xT)]T。
根據(jù)稀疏貝葉斯方法,讓ω服從均值為0的高斯先驗(yàn)分布
(4)
式中:α=(α0,α1,…αN)T為確定權(quán)值ω服從高斯先驗(yàn)分布的超參數(shù)。
根據(jù)貝葉斯規(guī)則,給定先驗(yàn)概率,可得到后驗(yàn)概率
(5)
和權(quán)值ω的后驗(yàn)概率分布為
(6)
若設(shè)A=diag(α0,α1,…αN),則后驗(yàn)協(xié)方差∑和均值μ的表達(dá)式分別為
∑=(σ-2ΦTΦ+A)-1
(7)
μ=σ-2∑ΦTt
(8)
基于最大期望超參數(shù)估計(jì),運(yùn)用多次迭代可得
(αi)new=γi/μ2
(9)
(10)
其中,μi為第i個(gè)后驗(yàn)平均值,定義γi=1-αi∑ii。
當(dāng)輸入一個(gè)新樣本x′,相應(yīng)輸出t′的預(yù)測分布為
(11)
根據(jù)正態(tài)分布的性質(zhì)可知,p(t′|t)服從正態(tài)分布。對于權(quán)值后驗(yàn)概率分布的預(yù)測來說,其限制條件αMP,σ2MP均取最大值,所以可以得到
p(t′|t,αMP,σ2MP)=N(t′|y′,σ′2)
(12)
式中:σ′2=σ2MP+Φ(x′)T∑Φ(x′),y′=μTΦ(x′)(y′為t′的預(yù)測值)。
RVM中的內(nèi)核函數(shù)是影響RVM性能的關(guān)鍵因素。因此,根據(jù)數(shù)據(jù)特點(diǎn)選擇合適的內(nèi)核而不是使用單一固定的內(nèi)核是非常重要的。常用的核函數(shù)包括:線性核
(13)
高斯核
(14)
Sigmoid核
(15)
Laplace核
(16)
在本文中,將以上4個(gè)核函數(shù)集成為RVM的組合內(nèi)核,可以表示為
Kcom(xi,yi)=aKlin(xi,yi)+bKgas(xi,yi)+cKsig(xi,yi)+dKlap(xi,yi)
(17)
式中:a、b、c、d為4個(gè)核函數(shù)的權(quán)重。4個(gè)內(nèi)核中每個(gè)單獨(dú)的內(nèi)核都是組合核的特例,例如:當(dāng)a=b=c=0時(shí),組合核變?yōu)長aplace核。
對于水質(zhì)預(yù)測問題,難以根據(jù)先驗(yàn)知識(shí)對多核RVM預(yù)測器中的核參數(shù)及核權(quán)重設(shè)置合適的值。針對這一問題,本文提出FA算法來優(yōu)化組合RVM中的參數(shù)。該算法通過模擬自然界中螢火蟲的發(fā)光行為,利用發(fā)光強(qiáng)的螢火蟲會(huì)吸引其周圍發(fā)光弱的螢火蟲向其靠近來完成位置更新,通過多次迭代尋找空間中的最佳位置點(diǎn)作為尋優(yōu)結(jié)果,從而完成算法尋優(yōu)。具體步驟為:
(1)進(jìn)行FA算法參數(shù)的初始化,包括螢火蟲數(shù)目n,最大吸引度β0,光強(qiáng)吸收系數(shù)γ,步長因子α,最大迭代次數(shù)或搜索精度ε;
(2)隨機(jī)選取螢火蟲的初始位置,通過計(jì)算目標(biāo)函數(shù)值獲取每個(gè)螢火蟲最大熒光亮度I0;
(3)通過計(jì)算螢火蟲間的相對亮度I和吸引度β決定螢火蟲的移動(dòng)方向;
(4)對移動(dòng)后的螢火蟲進(jìn)行空間位置更新,隨機(jī)移動(dòng)處在最佳位置的螢火蟲;
(5)重新計(jì)算更新后螢火蟲的亮度;
(6)當(dāng)達(dá)到所需搜索精度或最大設(shè)定搜索閾值,則轉(zhuǎn)(7);否則,搜索次數(shù)加1,轉(zhuǎn)向(3),進(jìn)入下一次全局搜索;
(7)輸出所需最優(yōu)參數(shù)。
自適應(yīng)多核RVM預(yù)測模型算法見表1,在算法的開始部分,輸入海洋傳感器數(shù)據(jù)集X,并設(shè)置主成分貢獻(xiàn)率,隨后進(jìn)行PCA數(shù)據(jù)降維,得到提取后的數(shù)據(jù)集NewX,進(jìn)入RVM預(yù)測器進(jìn)行預(yù)測。模型訓(xùn)練階段,初始化FA的參數(shù),進(jìn)行參數(shù)尋優(yōu)得到對應(yīng)參數(shù)集合C_best,建立預(yù)測模型,進(jìn)行水質(zhì)數(shù)據(jù)測試集預(yù)測。
表1 自適應(yīng)多核RVM預(yù)測模型算法
為驗(yàn)證本文所提出模型的性能,本文選取中國某海域水質(zhì)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),并與單一核RVM模型進(jìn)行比較。溶解氧、藍(lán)綠藻、葉綠素a、pH作為水質(zhì)數(shù)據(jù)的重要參數(shù),因此,本文選取這4種水質(zhì)因子作為RVM預(yù)測器的輸出數(shù)據(jù)。
本文所用水質(zhì)數(shù)據(jù)來源于中國某海域連續(xù)20天實(shí)時(shí)監(jiān)測數(shù)據(jù),采樣時(shí)間間隔為半小時(shí),共包含1000個(gè)樣本,每個(gè)樣本包含10個(gè)化學(xué)因子,即鹽度(SAL)、電導(dǎo)率(CON)、溶解氧(DO)、葉綠素a(Chl-a)、濁度(TUR)、藍(lán)綠藻(BGA)、總?cè)芙庑怨腆w(TSS)、溶解氧飽和度(DOS)、水溫(TEM)、pH。在進(jìn)行數(shù)據(jù)集預(yù)處理時(shí),將數(shù)據(jù)集中的異常值所在樣本刪除,對缺失值進(jìn)行拉格朗日插值填補(bǔ)。選取10個(gè)化學(xué)因子作為模型的輸入,DO、Chl-a、BGA、pH分別作為輸出進(jìn)行水質(zhì)預(yù)測。在本實(shí)驗(yàn)中,前800條數(shù)據(jù)作為模型的訓(xùn)練集,后200條作為測試集。模型參數(shù)由FA確定,F(xiàn)A尋優(yōu)的參數(shù)設(shè)置見表2。
表2 優(yōu)化算法參數(shù)設(shè)置
為了評(píng)價(jià)海洋水質(zhì)預(yù)測模型的綜合性能,采用平均絕對誤差MAE作為模型綜合性能的評(píng)價(jià)標(biāo)準(zhǔn)。其計(jì)算公式為
(18)
式中:h(xi)和yi分別為模型的預(yù)測值與真實(shí)值。
除此之外,本文還考慮了統(tǒng)計(jì)學(xué)習(xí)中的箱線圖和散點(diǎn)圖來進(jìn)一步驗(yàn)證模型的有效性。
箱線圖是描述海洋水質(zhì)數(shù)據(jù)集四分位區(qū)間的圖形工具,通過箱子的上下邊表示水質(zhì)數(shù)據(jù)的上下四分位數(shù),箱子中間的橫線表示海洋水質(zhì)因子的中位數(shù),箱子兩端延伸出去的直線為數(shù)據(jù)的最大值和最小值,而箱子外的加號(hào)表示數(shù)據(jù)的離群點(diǎn),以此來反應(yīng)水質(zhì)數(shù)據(jù)的離散程度。
散點(diǎn)圖是對于水質(zhì)參數(shù)真實(shí)值與預(yù)測值作為橫縱軸進(jìn)行繪圖,圖中y=x的直線表示預(yù)測數(shù)據(jù)與實(shí)際數(shù)據(jù)沒有偏差,模型的預(yù)測點(diǎn)越多集中在該直線上,表示模型的擬合效果越好,對于水質(zhì)數(shù)據(jù)預(yù)測的誤差越小。
利用PCA對以上10種海水水質(zhì)影響因素進(jìn)行降維分析,再利用單一核和多核RVM模型將降維后的數(shù)據(jù)對其進(jìn)行非線性逼近。
經(jīng)過PCA降維后的各主成分貢獻(xiàn)率如圖1所示。其中,橫坐標(biāo)表示海水水質(zhì)數(shù)據(jù)降維提取后的主成分,縱坐標(biāo)表示各主成分對于原始數(shù)據(jù)信息量的貢獻(xiàn)率,折線表示主成分的累計(jì)貢獻(xiàn)率。由圖1可知,第1主成分貢獻(xiàn)率達(dá)35%以上,第2、3主成分貢獻(xiàn)率達(dá)20%以上,說明三維主成分已經(jīng)綜合了10項(xiàng)海水水質(zhì)數(shù)據(jù)75%以上的信息量。通過折線可以看出前6個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到了95%以上,符合主成分的提取個(gè)數(shù)原則(Crate>95%),說明PCA對于海洋水質(zhì)輸入數(shù)據(jù)的降維提取是有效的,能夠?yàn)楹罄m(xù)預(yù)測器提供更加可靠的輸入。
圖1 海洋水質(zhì)因子主成分貢獻(xiàn)率
圖2給出了自適應(yīng)多核RVM和4個(gè)單核RVM模型的部分預(yù)測曲線對比,其橫坐標(biāo)表示海洋水質(zhì)數(shù)據(jù)時(shí)間序列,縱坐標(biāo)表示所預(yù)測水質(zhì)因子的數(shù)值,不同的曲線代表不同的核函數(shù)模型,黑色實(shí)線為海洋水質(zhì)數(shù)據(jù)的真實(shí)值。從圖中可以看出,多核RVM模型對于水質(zhì)因子的擬合效果要優(yōu)于其它4個(gè)模型,尤其是對于數(shù)據(jù)集中奇異值的預(yù)測,自適應(yīng)多核RVM展現(xiàn)出了較大的優(yōu)勢。不同預(yù)測曲線偏離真實(shí)數(shù)據(jù)的程度不同也驗(yàn)證了由于核函數(shù)性質(zhì)不同導(dǎo)致海洋水質(zhì)因子預(yù)測結(jié)果不同。
表3給出了單一核與自適應(yīng)多核RVM模型對于水質(zhì)參數(shù)的預(yù)測能力誤差比較。從表3可以看出,在動(dòng)態(tài)復(fù)雜的海洋水質(zhì)影響因子中,多核組合RVM模型的預(yù)測精度最高,平均絕對誤差均低于單核RVM模型。但對于單一核RVM模型,Gas核對于DO和BGA的預(yù)測性能較好,Lap核能較好地預(yù)測Chl-a,而Lin和Gas對于pH的預(yù)測誤差相同,Sigmoid核函數(shù)對于BGA和Chl-a的預(yù)測誤差較大。
圖3給出了海洋水質(zhì)預(yù)測模型實(shí)際值和預(yù)測值的箱線圖。從圖中可以明顯地看出,組合核的四分位范圍和中位數(shù)與實(shí)際數(shù)據(jù)的箱線圖最為接近,最大值、最小值預(yù)測上略有差距。不同核函數(shù)模型在對于DO和pH的預(yù)測中都沒有出現(xiàn)異常值點(diǎn),說明實(shí)驗(yàn)所采用核函數(shù)模型對于這兩種預(yù)測因子的擬合效果相對較好。值得注意的是,在對于BGA和Chl-a的預(yù)測中,Sigmoid核出現(xiàn)了多個(gè)異常值點(diǎn),這與圖2中的Sigmoid預(yù)測曲線與真實(shí)數(shù)據(jù)擬合效果相較于其它核函數(shù)較差相一致。
表3 5種模型的海洋水質(zhì)預(yù)測結(jié)果
圖2 不同評(píng)估模型輸出對比
圖3 5種模型預(yù)測值與真實(shí)值的箱線圖比較
圖4給出了海洋水質(zhì)預(yù)測模型實(shí)際值和預(yù)測值的散點(diǎn)圖。從圖中可以看出,對于4種預(yù)測因子,組合核預(yù)測點(diǎn)比單核的預(yù)測點(diǎn)更多集中在基準(zhǔn)線附近,再次顯示了其強(qiáng)大的非線性逼近能力。5種模型在對于DO的預(yù)測中,預(yù)測點(diǎn)偏離基準(zhǔn)線程度較小。對于其它3種水質(zhì)因子,單一核預(yù)測器都有較為明顯的離群點(diǎn)。
圖4 5種模型預(yù)測值與真實(shí)值的散點(diǎn)圖比較
本文提出了一種基于集成框架的海洋水質(zhì)影響因子預(yù)測模型,該模型將PCA、FA和組合核RVM集成在一起。在數(shù)據(jù)降維階段,利用PCA將高維復(fù)雜的水質(zhì)影響因子提取為幾個(gè)關(guān)鍵的主成分;在預(yù)測階段,利用FA優(yōu)化的組合核RVM進(jìn)行預(yù)測。為了驗(yàn)證組合核RVM,選擇了單獨(dú)核的RVM預(yù)測結(jié)果進(jìn)行比較。通過實(shí)驗(yàn)可以得出如下結(jié)論:①數(shù)據(jù)降維后的數(shù)據(jù)用較少的數(shù)據(jù)量代表了較多的水質(zhì)特征;②組合核在大多數(shù)情況下性能優(yōu)于單一核RVM。在今后的研究工作中,可以探索其它改進(jìn)RVM模型對水質(zhì)的預(yù)測效果。