亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

改進(jìn)RVM預(yù)測海水水質(zhì)

2021-12-23 07:58:14王旭生孫曉川

計(jì)算機(jī)工程與設(shè)計(jì) 2021年12期

王旭生，王昕，孫曉川+

(1.華北理工大學(xué) 理學(xué)院，河北唐山 063210；2.華北理工大學(xué) 人工智能學(xué)院，河北唐山 063210)

0 引言

近年來，我國海洋污染日益嚴(yán)重，海洋災(zāi)害逐年增加，海洋生態(tài)環(huán)境逐漸惡化[1]。海洋水質(zhì)參數(shù)的變化直接影響海水水質(zhì)的好壞，利用海洋監(jiān)測網(wǎng)絡(luò)對海洋環(huán)境進(jìn)行持續(xù)的動(dòng)態(tài)監(jiān)測，精確預(yù)測未來海水水質(zhì)的變化，如何準(zhǔn)確預(yù)測海水水質(zhì)成為國內(nèi)外學(xué)者研究的熱點(diǎn)。

海水水質(zhì)受多種物理、化學(xué)和生物因素影響，且不同影響因素之間有一定的關(guān)聯(lián)性，要想迅速、準(zhǔn)確實(shí)現(xiàn)海水水質(zhì)預(yù)測，必須要先降低不同因素間的關(guān)聯(lián)關(guān)系，提取影響水質(zhì)的主要因子。主成分分析(principal component analysis，PCA)被用來解決這一問題[2,3]，對給定的相關(guān)變量實(shí)現(xiàn)基于變換矩陣的降維，從而為回歸提供更友好的輸入，避免了人為選擇的主觀性問題。

在過去的幾十年里，出現(xiàn)了各種各樣的水質(zhì)預(yù)測模型，現(xiàn)代較為流行的方法包括支持向量機(jī)模型、神經(jīng)網(wǎng)絡(luò)模型、模糊法、小波分析法等。文獻(xiàn)[4-6]建立了基于支持向量機(jī)的水質(zhì)預(yù)測模型，文獻(xiàn)[7-10]采用神經(jīng)網(wǎng)絡(luò)進(jìn)行水質(zhì)預(yù)測。但神經(jīng)網(wǎng)絡(luò)存在收斂速度慢、在訓(xùn)練過程中容易過擬合、需要調(diào)整的參數(shù)過多、泛化性能較差等缺點(diǎn)，支持向量機(jī)相較于神經(jīng)網(wǎng)絡(luò)參數(shù)較少，但其隨著訓(xùn)練樣本的增加訓(xùn)練時(shí)間也相應(yīng)延長，懲罰因子不可估量，核函數(shù)要受到Mercer條件限制。相關(guān)向量機(jī)基于貝葉斯理論，可以實(shí)現(xiàn)概率輸出，且核函數(shù)不受條件制約，很好克服了支持向量機(jī)的缺陷[11-13]。

根據(jù)以上問題，本文提出一種基于組合核RVM的海水水質(zhì)預(yù)測模型。該模型利用PCA將較多相互關(guān)聯(lián)的變量轉(zhuǎn)化為較少的主成分變量，然后將提取的主成分因子輸入到多核RVM中進(jìn)行訓(xùn)練和預(yù)測，但模型參數(shù)的選擇直接影響模型最終的預(yù)測性能，利用經(jīng)驗(yàn)選取又存在很大的隨機(jī)性和主觀性。螢火蟲算法[14,15](firefly algorithm，F(xiàn)A)在收斂性和全局尋優(yōu)能力上展現(xiàn)出較強(qiáng)的穩(wěn)定性和較高的效率，且需要調(diào)整的參數(shù)少，因此，本文考慮螢火蟲算法對組合核RVM核函數(shù)權(quán)重和參數(shù)進(jìn)行優(yōu)化選擇。

1 自適應(yīng)多核PCA-RVM預(yù)測模型

自適應(yīng)多核模式下的PCA-RVM模型由3個(gè)關(guān)鍵的功能模塊構(gòu)成，首先海洋中的傳感器采集到的水質(zhì)數(shù)據(jù)利用PCA進(jìn)行數(shù)據(jù)提取，消除隱藏在變量中的冗余信息；然后提取后的數(shù)據(jù)進(jìn)入到多核RVM模型進(jìn)行非線性逼近，為了避免人為調(diào)整參數(shù)的隨機(jī)性，采用了FA進(jìn)行參數(shù)選擇，利用優(yōu)化后的參數(shù)建立水質(zhì)預(yù)測模型。

1.1 數(shù)據(jù)降維

傳感器采集到的水質(zhì)數(shù)據(jù)進(jìn)行PCA數(shù)據(jù)降維，主成分是輸入變量的線性變換，按照方差遞減順序排列，方差最大的為第一主成分，其次為第二主成分，以此類推。當(dāng)前k個(gè)主成分的累計(jì)貢獻(xiàn)率超過95%，則認(rèn)為這k個(gè)主成分可以代表原始數(shù)據(jù)所包含的信息量，用于水質(zhì)預(yù)測研究。PCA的具體步驟如下所示：

(1)輸入待降維數(shù)據(jù)矩陣X，降維后數(shù)據(jù)貢獻(xiàn)率目標(biāo)值Crate；

(2)計(jì)算數(shù)據(jù)矩陣X的去中心化矩陣C；

(3)求解C的特征值和特征向量；

(4)按照特征值由大到小的順序排列特征向量；

(5)使用特征值構(gòu)造一個(gè)列向量，并對列向量做降序排列；

(6)計(jì)算特征值之和sum，并初始化降維后矩陣維數(shù)n=1；

(7)計(jì)算貢獻(xiàn)率Crate=前n個(gè)特征值之和/總特征值之和；

(8)如果Crate>95%，則取前n個(gè)特征向量構(gòu)成變換矩陣T；否則令n=n+1，返回步驟(7)；

(9)對數(shù)據(jù)矩陣做降維變換newX=X*T；

1.2 相關(guān)向量機(jī)預(yù)測器

tm=y(xm,ω)+εm

(1)

式中：ω=(ω0,ω1,…,ωm)為權(quán)重向量，εm是期望為0，方差為σ2的高斯分布，即εm～N(0,σ2)。若定義

(2)

式中：K(x,xm)為核函數(shù)，則p(tm|x)=N(tm|y(xm),σ2)。又由于tm相互獨(dú)立，因此目標(biāo)向量t的高斯似然分布可表示為

(3)

式中：t=(t1,t2,…,tm)T，Φ=[φ(x1),φ(x2),…,φ(xm)]T，φ(xm)=[1,K(xm,x1),…,K(xm,xT)]T。

根據(jù)稀疏貝葉斯方法，讓ω服從均值為0的高斯先驗(yàn)分布

(4)

式中：α=(α0,α1,…αN)T為確定權(quán)值ω服從高斯先驗(yàn)分布的超參數(shù)。

根據(jù)貝葉斯規(guī)則，給定先驗(yàn)概率，可得到后驗(yàn)概率

(5)

和權(quán)值ω的后驗(yàn)概率分布為

(6)

若設(shè)A=diag(α0,α1,…αN)，則后驗(yàn)協(xié)方差∑和均值μ的表達(dá)式分別為

∑=(σ-2ΦTΦ+A)-1

(7)

μ=σ-2∑ΦTt

(8)

基于最大期望超參數(shù)估計(jì)，運(yùn)用多次迭代可得

(αi)new=γi/μ2

(9)

(10)

其中，μi為第i個(gè)后驗(yàn)平均值，定義γi=1-αi∑ii。

當(dāng)輸入一個(gè)新樣本x′，相應(yīng)輸出t′的預(yù)測分布為

(11)

根據(jù)正態(tài)分布的性質(zhì)可知，p(t′|t)服從正態(tài)分布。對于權(quán)值后驗(yàn)概率分布的預(yù)測來說，其限制條件αMP，σ2MP均取最大值，所以可以得到

p(t′|t,αMP,σ2MP)=N(t′|y′,σ′2)

(12)

式中：σ′2=σ2MP+Φ(x′)T∑Φ(x′)，y′=μTΦ(x′)(y′為t′的預(yù)測值)。

RVM中的內(nèi)核函數(shù)是影響RVM性能的關(guān)鍵因素。因此，根據(jù)數(shù)據(jù)特點(diǎn)選擇合適的內(nèi)核而不是使用單一固定的內(nèi)核是非常重要的。常用的核函數(shù)包括：線性核

(13)

高斯核

(14)

Sigmoid核

(15)

Laplace核

(16)

在本文中，將以上4個(gè)核函數(shù)集成為RVM的組合內(nèi)核，可以表示為

Kcom(xi,yi)=aKlin(xi,yi)+bKgas(xi,yi)+cKsig(xi,yi)+dKlap(xi,yi)

(17)

式中：a、b、c、d為4個(gè)核函數(shù)的權(quán)重。4個(gè)內(nèi)核中每個(gè)單獨(dú)的內(nèi)核都是組合核的特例，例如：當(dāng)a=b=c=0時(shí)，組合核變?yōu)長aplace核。

1.3 參數(shù)優(yōu)化

對于水質(zhì)預(yù)測問題，難以根據(jù)先驗(yàn)知識(shí)對多核RVM預(yù)測器中的核參數(shù)及核權(quán)重設(shè)置合適的值。針對這一問題，本文提出FA算法來優(yōu)化組合RVM中的參數(shù)。該算法通過模擬自然界中螢火蟲的發(fā)光行為，利用發(fā)光強(qiáng)的螢火蟲會(huì)吸引其周圍發(fā)光弱的螢火蟲向其靠近來完成位置更新，通過多次迭代尋找空間中的最佳位置點(diǎn)作為尋優(yōu)結(jié)果，從而完成算法尋優(yōu)。具體步驟為：

(1)進(jìn)行FA算法參數(shù)的初始化，包括螢火蟲數(shù)目n，最大吸引度β0，光強(qiáng)吸收系數(shù)γ，步長因子α，最大迭代次數(shù)或搜索精度ε；

(2)隨機(jī)選取螢火蟲的初始位置，通過計(jì)算目標(biāo)函數(shù)值獲取每個(gè)螢火蟲最大熒光亮度I0；

(3)通過計(jì)算螢火蟲間的相對亮度I和吸引度β決定螢火蟲的移動(dòng)方向；

(4)對移動(dòng)后的螢火蟲進(jìn)行空間位置更新，隨機(jī)移動(dòng)處在最佳位置的螢火蟲；

(5)重新計(jì)算更新后螢火蟲的亮度；

(6)當(dāng)達(dá)到所需搜索精度或最大設(shè)定搜索閾值，則轉(zhuǎn)(7)；否則，搜索次數(shù)加1，轉(zhuǎn)向(3)，進(jìn)入下一次全局搜索；

(7)輸出所需最優(yōu)參數(shù)。

1.4 訓(xùn)練算法

自適應(yīng)多核RVM預(yù)測模型算法見表1，在算法的開始部分，輸入海洋傳感器數(shù)據(jù)集X，并設(shè)置主成分貢獻(xiàn)率，隨后進(jìn)行PCA數(shù)據(jù)降維，得到提取后的數(shù)據(jù)集NewX，進(jìn)入RVM預(yù)測器進(jìn)行預(yù)測。模型訓(xùn)練階段，初始化FA的參數(shù)，進(jìn)行參數(shù)尋優(yōu)得到對應(yīng)參數(shù)集合C_best，建立預(yù)測模型，進(jìn)行水質(zhì)數(shù)據(jù)測試集預(yù)測。

表1 自適應(yīng)多核RVM預(yù)測模型算法

2 實(shí)驗(yàn)分析

為驗(yàn)證本文所提出模型的性能，本文選取中國某海域水質(zhì)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)，并與單一核RVM模型進(jìn)行比較。溶解氧、藍(lán)綠藻、葉綠素a、pH作為水質(zhì)數(shù)據(jù)的重要參數(shù)，因此，本文選取這4種水質(zhì)因子作為RVM預(yù)測器的輸出數(shù)據(jù)。

2.1 數(shù)據(jù)與評(píng)價(jià)指標(biāo)

本文所用水質(zhì)數(shù)據(jù)來源于中國某海域連續(xù)20天實(shí)時(shí)監(jiān)測數(shù)據(jù)，采樣時(shí)間間隔為半小時(shí)，共包含1000個(gè)樣本，每個(gè)樣本包含10個(gè)化學(xué)因子，即鹽度(SAL)、電導(dǎo)率(CON)、溶解氧(DO)、葉綠素a(Chl-a)、濁度(TUR)、藍(lán)綠藻(BGA)、總?cè)芙庑怨腆w(TSS)、溶解氧飽和度(DOS)、水溫(TEM)、pH。在進(jìn)行數(shù)據(jù)集預(yù)處理時(shí)，將數(shù)據(jù)集中的異常值所在樣本刪除，對缺失值進(jìn)行拉格朗日插值填補(bǔ)。選取10個(gè)化學(xué)因子作為模型的輸入，DO、Chl-a、BGA、pH分別作為輸出進(jìn)行水質(zhì)預(yù)測。在本實(shí)驗(yàn)中，前800條數(shù)據(jù)作為模型的訓(xùn)練集，后200條作為測試集。模型參數(shù)由FA確定，F(xiàn)A尋優(yōu)的參數(shù)設(shè)置見表2。

表2 優(yōu)化算法參數(shù)設(shè)置

為了評(píng)價(jià)海洋水質(zhì)預(yù)測模型的綜合性能，采用平均絕對誤差MAE作為模型綜合性能的評(píng)價(jià)標(biāo)準(zhǔn)。其計(jì)算公式為

(18)

式中：h(xi)和yi分別為模型的預(yù)測值與真實(shí)值。

除此之外，本文還考慮了統(tǒng)計(jì)學(xué)習(xí)中的箱線圖和散點(diǎn)圖來進(jìn)一步驗(yàn)證模型的有效性。

箱線圖是描述海洋水質(zhì)數(shù)據(jù)集四分位區(qū)間的圖形工具，通過箱子的上下邊表示水質(zhì)數(shù)據(jù)的上下四分位數(shù)，箱子中間的橫線表示海洋水質(zhì)因子的中位數(shù)，箱子兩端延伸出去的直線為數(shù)據(jù)的最大值和最小值，而箱子外的加號(hào)表示數(shù)據(jù)的離群點(diǎn)，以此來反應(yīng)水質(zhì)數(shù)據(jù)的離散程度。

散點(diǎn)圖是對于水質(zhì)參數(shù)真實(shí)值與預(yù)測值作為橫縱軸進(jìn)行繪圖，圖中y=x的直線表示預(yù)測數(shù)據(jù)與實(shí)際數(shù)據(jù)沒有偏差，模型的預(yù)測點(diǎn)越多集中在該直線上，表示模型的擬合效果越好，對于水質(zhì)數(shù)據(jù)預(yù)測的誤差越小。

2.2 PCA降維

利用PCA對以上10種海水水質(zhì)影響因素進(jìn)行降維分析，再利用單一核和多核RVM模型將降維后的數(shù)據(jù)對其進(jìn)行非線性逼近。

經(jīng)過PCA降維后的各主成分貢獻(xiàn)率如圖1所示。其中，橫坐標(biāo)表示海水水質(zhì)數(shù)據(jù)降維提取后的主成分，縱坐標(biāo)表示各主成分對于原始數(shù)據(jù)信息量的貢獻(xiàn)率，折線表示主成分的累計(jì)貢獻(xiàn)率。由圖1可知，第1主成分貢獻(xiàn)率達(dá)35%以上，第2、3主成分貢獻(xiàn)率達(dá)20%以上，說明三維主成分已經(jīng)綜合了10項(xiàng)海水水質(zhì)數(shù)據(jù)75%以上的信息量。通過折線可以看出前6個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到了95%以上，符合主成分的提取個(gè)數(shù)原則(Crate>95%)，說明PCA對于海洋水質(zhì)輸入數(shù)據(jù)的降維提取是有效的，能夠?yàn)楹罄m(xù)預(yù)測器提供更加可靠的輸入。

圖1 海洋水質(zhì)因子主成分貢獻(xiàn)率

2.3 預(yù)測性能

圖2給出了自適應(yīng)多核RVM和4個(gè)單核RVM模型的部分預(yù)測曲線對比，其橫坐標(biāo)表示海洋水質(zhì)數(shù)據(jù)時(shí)間序列，縱坐標(biāo)表示所預(yù)測水質(zhì)因子的數(shù)值，不同的曲線代表不同的核函數(shù)模型，黑色實(shí)線為海洋水質(zhì)數(shù)據(jù)的真實(shí)值。從圖中可以看出，多核RVM模型對于水質(zhì)因子的擬合效果要優(yōu)于其它4個(gè)模型，尤其是對于數(shù)據(jù)集中奇異值的預(yù)測，自適應(yīng)多核RVM展現(xiàn)出了較大的優(yōu)勢。不同預(yù)測曲線偏離真實(shí)數(shù)據(jù)的程度不同也驗(yàn)證了由于核函數(shù)性質(zhì)不同導(dǎo)致海洋水質(zhì)因子預(yù)測結(jié)果不同。

表3給出了單一核與自適應(yīng)多核RVM模型對于水質(zhì)參數(shù)的預(yù)測能力誤差比較。從表3可以看出，在動(dòng)態(tài)復(fù)雜的海洋水質(zhì)影響因子中，多核組合RVM模型的預(yù)測精度最高，平均絕對誤差均低于單核RVM模型。但對于單一核RVM模型，Gas核對于DO和BGA的預(yù)測性能較好，Lap核能較好地預(yù)測Chl-a，而Lin和Gas對于pH的預(yù)測誤差相同，Sigmoid核函數(shù)對于BGA和Chl-a的預(yù)測誤差較大。

圖3給出了海洋水質(zhì)預(yù)測模型實(shí)際值和預(yù)測值的箱線圖。從圖中可以明顯地看出，組合核的四分位范圍和中位數(shù)與實(shí)際數(shù)據(jù)的箱線圖最為接近，最大值、最小值預(yù)測上略有差距。不同核函數(shù)模型在對于DO和pH的預(yù)測中都沒有出現(xiàn)異常值點(diǎn)，說明實(shí)驗(yàn)所采用核函數(shù)模型對于這兩種預(yù)測因子的擬合效果相對較好。值得注意的是，在對于BGA和Chl-a的預(yù)測中，Sigmoid核出現(xiàn)了多個(gè)異常值點(diǎn)，這與圖2中的Sigmoid預(yù)測曲線與真實(shí)數(shù)據(jù)擬合效果相較于其它核函數(shù)較差相一致。

表3 5種模型的海洋水質(zhì)預(yù)測結(jié)果

圖2 不同評(píng)估模型輸出對比

圖3 5種模型預(yù)測值與真實(shí)值的箱線圖比較

圖4給出了海洋水質(zhì)預(yù)測模型實(shí)際值和預(yù)測值的散點(diǎn)圖。從圖中可以看出，對于4種預(yù)測因子，組合核預(yù)測點(diǎn)比單核的預(yù)測點(diǎn)更多集中在基準(zhǔn)線附近，再次顯示了其強(qiáng)大的非線性逼近能力。5種模型在對于DO的預(yù)測中，預(yù)測點(diǎn)偏離基準(zhǔn)線程度較小。對于其它3種水質(zhì)因子，單一核預(yù)測器都有較為明顯的離群點(diǎn)。

圖4 5種模型預(yù)測值與真實(shí)值的散點(diǎn)圖比較

3 結(jié)束語

本文提出了一種基于集成框架的海洋水質(zhì)影響因子預(yù)測模型，該模型將PCA、FA和組合核RVM集成在一起。在數(shù)據(jù)降維階段，利用PCA將高維復(fù)雜的水質(zhì)影響因子提取為幾個(gè)關(guān)鍵的主成分；在預(yù)測階段，利用FA優(yōu)化的組合核RVM進(jìn)行預(yù)測。為了驗(yàn)證組合核RVM，選擇了單獨(dú)核的RVM預(yù)測結(jié)果進(jìn)行比較。通過實(shí)驗(yàn)可以得出如下結(jié)論：①數(shù)據(jù)降維后的數(shù)據(jù)用較少的數(shù)據(jù)量代表了較多的水質(zhì)特征；②組合核在大多數(shù)情況下性能優(yōu)于單一核RVM。在今后的研究工作中，可以探索其它改進(jìn)RVM模型對水質(zhì)的預(yù)測效果。