夏潤(rùn)清
(江蘇大學(xué)電氣與信息工程學(xué)院 鎮(zhèn)江 212013)
河蟹養(yǎng)殖已成為水產(chǎn)養(yǎng)殖中最具活力和發(fā)展前景的支柱產(chǎn)業(yè)之一,其養(yǎng)殖方式以蟹塘養(yǎng)殖為主,而如何分析評(píng)估蟹塘水質(zhì)對(duì)河蟹生長(zhǎng)的適宜指數(shù),并實(shí)時(shí)調(diào)控水質(zhì),已成為養(yǎng)殖的關(guān)鍵因素。國(guó)內(nèi)對(duì)水質(zhì)分析評(píng)估的方法較多,文獻(xiàn)[1]將模糊數(shù)學(xué)法應(yīng)用于水質(zhì)分析,有效地評(píng)估水質(zhì)局部變化,但沒(méi)有給出水質(zhì)變化趨勢(shì)以及水質(zhì)因子間因果關(guān)系。文獻(xiàn)[2]將灰色聚類方法應(yīng)用于水質(zhì)分析,較準(zhǔn)確地預(yù)測(cè)水質(zhì)整體變化,也沒(méi)有給出水質(zhì)因子間的因果關(guān)系。文獻(xiàn)[3]采用BP 神經(jīng)網(wǎng)絡(luò)[4]進(jìn)行水質(zhì)預(yù)測(cè)分析,但水質(zhì)環(huán)境變化具有不確定性,且是區(qū)域評(píng)估。
本文在收集陽(yáng)澄湖河蟹養(yǎng)殖與配載中心近兩年蟹塘水質(zhì)監(jiān)測(cè)數(shù)據(jù)的基礎(chǔ)上,結(jié)合數(shù)據(jù)融合[5]技術(shù),構(gòu)建了反映水質(zhì)因子與適宜指數(shù)之間關(guān)系的貝葉斯網(wǎng)絡(luò)模型[6],利用貝葉斯網(wǎng)絡(luò)克服水質(zhì)因子變化的不確定性,降低推理過(guò)程的復(fù)雜性,以期提高蟹塘水質(zhì)評(píng)估的準(zhǔn)確性,為健康的蟹塘養(yǎng)殖提供科學(xué)參考。
在陽(yáng)澄湖各蟹塘設(shè)置多個(gè)水質(zhì)傳感器[7],構(gòu)成監(jiān)測(cè)節(jié)點(diǎn)組,所有水質(zhì)數(shù)據(jù)通過(guò)4G網(wǎng)絡(luò),傳送至養(yǎng)殖中心。由于同一塊蟹塘分布的各監(jiān)測(cè)節(jié)點(diǎn)易受水位、光照等環(huán)境因素影響,需要對(duì)各水質(zhì)數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,進(jìn)而提高數(shù)據(jù)精度。水質(zhì)數(shù)據(jù)的采集基于蟹塘養(yǎng)殖水質(zhì)監(jiān)測(cè)系統(tǒng),系統(tǒng)構(gòu)成如圖1 所示。
圖1 陽(yáng)澄湖水質(zhì)遠(yuǎn)程監(jiān)測(cè)系統(tǒng)架構(gòu)框圖
設(shè)Pi,j,i=1,2,…,b,j=1,2,…,s 為第i 類傳感器的第j 位置觀測(cè)值,且各傳感器的量測(cè)方差為σ2i,j,則水質(zhì)參數(shù)的自適應(yīng)加權(quán)數(shù)據(jù)融合為
隨著水產(chǎn)養(yǎng)殖行業(yè)的發(fā)展,養(yǎng)殖手段益發(fā)科學(xué)、健康,相關(guān)養(yǎng)殖水質(zhì)指標(biāo)紛繁多樣,常見(jiàn)的水質(zhì)指標(biāo)如表1 所示。某些水質(zhì)指標(biāo)之間存在互相關(guān)性[8],直接用于貝葉斯網(wǎng)絡(luò),會(huì)導(dǎo)致模型結(jié)構(gòu)過(guò)于復(fù)雜,且模型的預(yù)測(cè)精度也難以保證。為了減少水質(zhì)指標(biāo)之間的相關(guān)性,引入相關(guān)系數(shù)矩陣,對(duì)多個(gè)水質(zhì)指標(biāo)進(jìn)行篩選,以期獲取相關(guān)性較小、代表性較強(qiáng)的水質(zhì)指標(biāo)。
以2016 年陽(yáng)澄湖大閘蟹養(yǎng)殖與配載中心1 號(hào)蟹塘水質(zhì)監(jiān)測(cè)數(shù)據(jù)為樣本數(shù)據(jù)(如圖2 所示)。某些參數(shù)的變化趨勢(shì)相似,存在明顯的相關(guān)。為此,建立其相關(guān)系數(shù)矩陣的color map[9](如圖3 所示),兩個(gè)水質(zhì)指標(biāo)之間的相關(guān)性越高,色彩越深,水質(zhì)指標(biāo)的篩選主要針對(duì)color map 中色彩較深的部分。
由圖3 可知,A3、A6、A10 與眾多水質(zhì)因子有較高相關(guān)性,綜合專家經(jīng)驗(yàn),舍去A3(EC)、A6(Chl-a)與A10(NO2N)兩個(gè)水質(zhì)因子,用剩余水質(zhì)因子構(gòu)建貝葉斯網(wǎng)絡(luò)模型。
表1 水質(zhì)指標(biāo)及離散化標(biāo)準(zhǔn)
圖2 2016年一號(hào)蟹塘水質(zhì)監(jiān)測(cè)信息
圖3 水質(zhì)因子相關(guān)系數(shù)矩陣的color map
貝葉斯網(wǎng)絡(luò)N 可以表示為二元組N=(G,Θ),其中G=(V,E) ,V 是貝葉斯網(wǎng)絡(luò)的變量集,,且,即Xi取有限離散值,E 是變量對(duì)應(yīng)的結(jié)點(diǎn)之間有向邊的集合,若存在有向邊由Xi指向Xj,則Xi被稱為Xj的父結(jié)點(diǎn),反之,Xj為Xi的子結(jié)點(diǎn),Xj的父結(jié)點(diǎn)集用pa(Xj)表示,Xi的子結(jié)點(diǎn)集用de(Xi)表示,而Θ={θ1,θ2,…,θn}表 示 結(jié) 點(diǎn) Xj在 其 父 結(jié) 點(diǎn) 集pa(Xj)不同狀態(tài)下的條件概率表,是基于貝葉斯網(wǎng)絡(luò)做預(yù)測(cè)分析時(shí)的主要依據(jù)。
根據(jù)陽(yáng)澄湖大閘蟹養(yǎng)殖與配載中心2010 年~2017 年各蟹塘的出蟹率,選取9 塊蟹塘,劃分成適宜河蟹養(yǎng)殖水質(zhì)(A類)和一般河蟹養(yǎng)殖水質(zhì)(B類)兩類,A類下轄8塊蟹塘,B類有1塊蟹塘,養(yǎng)殖時(shí)期的蟹塘水質(zhì)指標(biāo)數(shù)據(jù)1000組,總計(jì)9000組數(shù)據(jù),對(duì)所選數(shù)據(jù)基于式(1)作數(shù)據(jù)融合處理,根據(jù)表1 水質(zhì)指標(biāo)零散化標(biāo)準(zhǔn),再進(jìn)行水質(zhì)數(shù)據(jù)零散化處理,二次處理后的數(shù)據(jù)構(gòu)成貝葉斯網(wǎng)絡(luò)模型的訓(xùn)練數(shù)據(jù)集D。
貝葉斯網(wǎng)絡(luò)模型的結(jié)構(gòu)學(xué)習(xí)采用著名的K2算法[10~11],K2 算法依據(jù)評(píng)分函數(shù)獲取最優(yōu)模型結(jié)構(gòu)[12~13]。K2的打分公式:
其中,G 是貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),D 是訓(xùn)練數(shù)據(jù)集,n 是水質(zhì)指標(biāo)與水質(zhì)類別一起構(gòu)成的結(jié)點(diǎn)數(shù)量,n=10,qi是pa(Xi)的配置數(shù),配置數(shù)qi控制K2打分公式計(jì)算的順序與復(fù)雜程度,qi≤9000,ri表示結(jié)點(diǎn)Xi的可能取值數(shù)量,Nijk表示訓(xùn)練數(shù)據(jù)集D中滿足條件:配置數(shù)qi=j,Xi=Xki 的實(shí)例數(shù),并且有
鑒于水質(zhì)指標(biāo)數(shù)量較多,貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)復(fù)雜,本文K2 打分公式可以分解到與每個(gè)結(jié)點(diǎn)對(duì)應(yīng)的局部測(cè)度,簡(jiǎn)化結(jié)構(gòu)學(xué)習(xí)過(guò)程。K2 的局部打分公式為
K2 算法需要水質(zhì)變量之間存在既定的變量序,譬如變量序中結(jié)點(diǎn)Xi排在Xj之前,則Xj不會(huì)作為Xi的父節(jié)點(diǎn)。依據(jù)蟹塘養(yǎng)殖專家知識(shí),對(duì)九個(gè)水質(zhì)變量以及蟹塘水質(zhì)類別這十個(gè)結(jié)點(diǎn)預(yù)先排序,X10為最前序列。同時(shí),限定各結(jié)點(diǎn)最大父節(jié)點(diǎn)數(shù)
K2 算法打分公式的應(yīng)用較為復(fù)雜,以如下例子做詳細(xì)說(shuō)明:pH,TN,TW 是蟹塘養(yǎng)殖中的三個(gè)水質(zhì)結(jié)點(diǎn)變量,三者構(gòu)成簡(jiǎn)單的貝葉斯網(wǎng)絡(luò),假設(shè)根據(jù)已有知識(shí)可以確定貝葉斯網(wǎng)絡(luò)可能為圖4 中A、B兩種結(jié)構(gòu),數(shù)據(jù)集D0見(jiàn)表2。
圖4 實(shí)例貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)
表2 訓(xùn)練數(shù)據(jù)集D0
貝葉斯網(wǎng)絡(luò)在K2算法下的結(jié)構(gòu)學(xué)習(xí)以打分公式為結(jié)構(gòu)篩選依據(jù),步驟如下:
K2算法偽代碼:
k2(X,O,m,D,πi)
輸入: X={X1,X2,…,Xn} %變量結(jié)點(diǎn)O%結(jié)點(diǎn)順序
m%變量父節(jié)點(diǎn)個(gè)數(shù)的上界
D%完整數(shù)據(jù)集
πi%結(jié)點(diǎn)Xi的父節(jié)點(diǎn)集
輸出:貝葉斯網(wǎng)絡(luò)
步驟實(shí)現(xiàn):
for i=1 to n do
πi=?;
Z=?;
Fold=f(i,πi;%k2打分 )
Start=true;
while Strat( t rue) and |πi|<m do
Z ←結(jié)點(diǎn)集Xexcept( Xi)-πi中使
f( i ,πi∪{Z })達(dá)到最大的結(jié)點(diǎn);
Fnew=f( i ,πi∪{Z });
if Fnew>Foldth en Fold=Fnew;
πi=πi∪{ Z };
else Start=false;
end if
end while
return(πi) ;
end for
通過(guò)K2 算法對(duì)訓(xùn)練數(shù)據(jù)集D 的學(xué)習(xí),借助Netica[14~15]編譯,獲得了反映蟹塘水質(zhì)與水質(zhì)指標(biāo)之間關(guān)系的貝葉斯網(wǎng)絡(luò),如圖5所示。
圖5 陽(yáng)澄湖蟹塘水質(zhì)貝葉斯網(wǎng)絡(luò)
易見(jiàn),Tw、TN、TP、NO3-_N、NH4+_N、MDA 是直接決定蟹塘水質(zhì)是否適宜河蟹生長(zhǎng)的水質(zhì)指標(biāo),屬于主導(dǎo)因素,pH、COD、DO 屬于輔助因素,在分析預(yù)測(cè)時(shí)可以賦予較小的權(quán)重。因此,依據(jù)獲得的貝葉斯網(wǎng)絡(luò)模型作水質(zhì)預(yù)測(cè)分析時(shí),圍繞Tw、TN、TP、NO3-_N、NH4+_N、MDA這六個(gè)變量進(jìn)行。
基于貝葉斯網(wǎng)絡(luò)模型的因果推理能力,可以由部分水質(zhì)指標(biāo)預(yù)測(cè)蟹塘水質(zhì)類型(A 類或者B 類),也可以基于已知的水質(zhì)類型與部分水質(zhì)指標(biāo)推測(cè)某些水質(zhì)指標(biāo)的狀態(tài)。對(duì)測(cè)試數(shù)據(jù)集D1中任意的100 條數(shù)據(jù)實(shí)例進(jìn)行模型精度測(cè)試,引入混淆矩陣,并計(jì)算其Kappa 系數(shù)[16]。Kappa 系數(shù)能衡量分類的精度,本次精度測(cè)試實(shí)驗(yàn)的混淆矩陣[17]見(jiàn)表3。
表3 蟹塘水質(zhì)分類預(yù)測(cè)與實(shí)際情況
根據(jù)表3 中的混淆矩陣,計(jì)算得本次精度測(cè)試的Kappa 系數(shù)為0.807,Kappa 系數(shù)0.8~1 屬于完全一致性標(biāo)準(zhǔn)范疇,這說(shuō)明本文使用貝葉斯網(wǎng)絡(luò)對(duì)蟹塘水質(zhì)分類狀況及水質(zhì)指標(biāo)的預(yù)測(cè)分析是可行的。
本文對(duì)蟹塘水質(zhì)與水質(zhì)指標(biāo)之間復(fù)雜的因果關(guān)系進(jìn)行了貝葉斯網(wǎng)絡(luò)建模,遴選了9 項(xiàng)水質(zhì)指標(biāo)以及水質(zhì)分類共計(jì)10 個(gè)結(jié)點(diǎn)構(gòu)成了貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)模型,以期為水質(zhì)預(yù)測(cè)或者水質(zhì)指標(biāo)分析提供科學(xué)依據(jù)。貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)所對(duì)應(yīng)的CPT 表基于訓(xùn)練數(shù)據(jù)集D 學(xué)習(xí)構(gòu)建。訓(xùn)練數(shù)據(jù)集D 中數(shù)據(jù)都經(jīng)過(guò)自適應(yīng)加權(quán)數(shù)據(jù)融合處理,精度高、誤差小。使用K2算法學(xué)習(xí)構(gòu)建貝葉斯網(wǎng)絡(luò)。由貝葉斯網(wǎng)絡(luò)可知,蟹塘水質(zhì)受Tw、TN、TP、NO3-_N、NH4+_N、MDA六項(xiàng)水質(zhì)指標(biāo)直接影響,因果關(guān)系級(jí)別較高,對(duì)該六項(xiàng)水質(zhì)指標(biāo)應(yīng)作重點(diǎn)監(jiān)測(cè)管理。模型精度測(cè)試Kappa系數(shù)0.807,表明本文使用貝葉斯網(wǎng)絡(luò)對(duì)蟹塘水質(zhì)分析預(yù)測(cè)是準(zhǔn)確可行的。