石洪華 ,方國洪 ,孫玉茗 ,鄭 偉 ,胡 龍
(1.國家海洋局第一海洋研究所,青島266061;2.中國科學院海洋研究所,青島266071;3.中國海洋大學 數(shù)學科學學院,青島266100;4.復旦大學 數(shù)學科學學院,上海200433)
在生物與環(huán)境關系的研究中,基于數(shù)學模型的統(tǒng)計和趨勢預測方法已得到了成功應用。這些方法在不同預測中體現(xiàn)出各自的優(yōu)勢,因其給出了具體的函數(shù)關系,意味著將系統(tǒng)演變規(guī)律化、公式化。然而海灣生態(tài)系統(tǒng)的演變具有復雜的動力學機制,因此該類方法限制了預測的準確性。海灣生態(tài)系統(tǒng)變化的驅(qū)動因素非常復雜,目前還難以找到合適的表征海洋生物變化的環(huán)境因子或組合,其相關研究仍在進一步探索之中。
人工神經(jīng)網(wǎng)絡的預測方法建立在對輸入和輸出變量的非線性映射之上,只和訓練樣本及目標有關。該方法不僅克服了具體函數(shù)表達式的局限性,還能通過學習、訓練過程,選擇相對最優(yōu)網(wǎng)絡對目標值進行預測。BP網(wǎng)絡是典型的前向型網(wǎng)絡,在網(wǎng)絡結(jié)構和學習算法上比較成熟,因其強大的并行處理能力和非線性映射技術,在很多領域有很好的應用。很多研究者采用前向型網(wǎng)絡,模擬了浮游植物藻華發(fā)生的時間和量級,預測了其生物量豐度[1-5]。與其他方法相比,神經(jīng)網(wǎng)絡模型在藻類濃度預測方面具有較高的精度,已經(jīng)成為環(huán)境系統(tǒng)模擬的有用工具[3,6]。
本文選擇海洋浮游植物生物量的代表性生物因子葉綠素a(Chl a)作為研究對象,做了三方面工作。首先以膠州灣為例,構建BP人工神經(jīng)網(wǎng)絡模型;利用不同站位不同月份的觀測資料檢驗了該模型可靠性;建立了ANN模型參數(shù)靈敏度分析模型,分析了各模型輸入?yún)?shù)對預測結(jié)果的貢獻。
膠州灣位于黃海西部,山東半島南岸,以團島頭與薛家島腳子石連線為界,是與黃海相通的半封閉海灣,海灣東西寬27.8 km,南北長33.3 km,海灣面積為387 km2(其中水域面積約320 km2),海灣岸線長187 km,口門寬度3.14 km。近年來,隨著青島市經(jīng)濟持續(xù)快速發(fā)展、人口不斷增加,膠州灣海域水質(zhì)不斷惡化,海域生態(tài)系統(tǒng)結(jié)構發(fā)生了較大改變,生態(tài)系統(tǒng)服務功能退化,赤潮等海洋生態(tài)災害頻發(fā)。
2003年1月~12月,國家海洋局第一海洋研究所在膠州灣進行了連續(xù)觀測,觀測要素包含常規(guī)化學指標、生物指標和部分水文指標,共設置9個站位(圖1),調(diào)查頻率為每月一次。本文所用水環(huán)境指標包括溶解氧濃度DO、pH值、化學需氧量濃度COD、DIP濃度、DIN濃度、硅酸鹽濃度、石油類濃度和海水表層溫度,采用表層葉綠素a濃度含量代表浮游植物生物量。
圖1 研究區(qū)和調(diào)查站位Fig.1 Study area and sampling stations
本文采用多輸入單輸出的三層網(wǎng)絡結(jié)構。根據(jù)所獲數(shù)據(jù)特點,用8項水環(huán)境參數(shù)預測生物量的變化。
為保證網(wǎng)絡有好的收斂性和映射能力,將數(shù)據(jù)映射到[0,1]區(qū)間內(nèi)。數(shù)據(jù)標準化公式
式中:xmax為最大觀測值;xmin則為最小觀測值;xi為第i個實際觀測值;xi′為其標準化變量。
在BP網(wǎng)絡中,隱層節(jié)點數(shù)不僅對神經(jīng)網(wǎng)絡模型性能影響很大,而且是訓練時出現(xiàn)“過擬合”的直接原因,但是目前理論上還沒有一種科學的和被廣泛接受的確定方法。隱層節(jié)點數(shù)不僅與輸入、輸出層的節(jié)點數(shù)有關,更與問題的復雜程度、轉(zhuǎn)換函數(shù)的型式以及樣本數(shù)據(jù)的特性等因素有關。本文在保證一定精度、確保足夠高的泛化能力前提下,選取隱層神經(jīng)元個數(shù)的基本原則為:(1)取盡可能緊湊的結(jié)構,取盡可能少的隱層節(jié)點數(shù);(2)隱藏層神經(jīng)元個數(shù)必須小于訓練樣本數(shù);(3)訓練樣本數(shù)必須多于網(wǎng)絡模型的連接權數(shù)(一般為2~10倍)。本文擬選取的隱層神經(jīng)元個數(shù)滿足以下公式
式中:Floor(·)為取下整的函數(shù);n為隱含層神經(jīng)元個數(shù);N為訓練樣本數(shù);k1為網(wǎng)絡輸入層節(jié)點數(shù);k2為網(wǎng)絡輸出層節(jié)點數(shù)。
對滿足式(1)的每一個隱層數(shù)分別建立BP神經(jīng)網(wǎng)絡(網(wǎng)絡其他參數(shù)相同),訓練網(wǎng)絡后,針對每一個網(wǎng)絡對檢測集進行模擬得出模擬值,將模擬值與真實值做均方差,最后找出最小的均方差所對應的隱層數(shù)作為本試驗最優(yōu)的隱層數(shù)進行試驗。
將所獲數(shù)據(jù)分為訓練集和檢測集2大類,而每一類集合分別包含輸入子集和輸出子集。其中,檢測集樣本應獨立于訓練集,具有代表性,樣本選擇盡量分散,樣本數(shù)不低于選練集樣本數(shù)的10%。設置誤差限、學習率、傳遞函數(shù)等,根據(jù)上述方法將數(shù)據(jù)標準化、確定隱神經(jīng)元個數(shù)范圍后,對網(wǎng)絡進行訓練,選擇隱層最優(yōu)神經(jīng)元個數(shù)的網(wǎng)絡作為仿真和預測的網(wǎng)絡。
為檢驗BP人工神經(jīng)網(wǎng)絡預測的準確性,將網(wǎng)絡輸出與檢驗樣本中原始數(shù)據(jù)進行比較。定義相對誤差指標如下
以膠州灣2003年1~12月各站點數(shù)據(jù)為樣本,分為訓練集和檢測集兩大類,而每一類集合各自又分為輸入集和輸出集2種。從代表性和分散性的角度,選擇8套數(shù)據(jù)構成檢驗樣本(表1)。
表1 檢測集站位及預測誤差Tab.1 Test set station and prediction error
以周年連續(xù)生態(tài)環(huán)境監(jiān)測資料作為訓練樣本。本文應用的BP網(wǎng)絡均設計為單一輸出型,嘗試通過水質(zhì)參數(shù)預測生物量(葉綠素a)的情形。經(jīng)過反復試驗,綜合考慮網(wǎng)絡的收斂性和誤差等因素,選用包含3個隱層神經(jīng)元的三層網(wǎng)絡(BP)作為預測網(wǎng)絡。
網(wǎng)絡訓練次數(shù)為50 000次,訓練誤差限設為0.01,學習率設為0.02。訓練完后,將檢測集帶入到網(wǎng)絡中模擬,得到網(wǎng)絡模擬值,再將模擬值逆歸一化,最終得到模擬值。
網(wǎng)絡訓練后,選擇檢驗集對模型有效性進行檢驗(表1)。在此基礎上,繪出檢測集各站點觀測值與網(wǎng)絡預測值對比圖(圖2)。結(jié)果表明,檢驗樣本相對誤差最大值出現(xiàn)在6月份的JZ6站,其值為30.04%。網(wǎng)絡的平均相對誤差為0.84%,平均絕對誤差為11.33%,檢驗樣本預測值與觀測值的相關系數(shù)為89.43%。因此,認為該BP人工神經(jīng)網(wǎng)路可以滿足一般預測的精度要求,可用于預測研究。
圖2 膠州灣Chl a預測值與觀測值比較Fig.2 Comparison between the predicted and observed value of Chl a in Jiaozhou Bay
圖3 浮游植物生物量對各水環(huán)境指標變化響應的平均靈敏度系數(shù)Fig.3 Average sensitivity coefficient of the response of phytoplankton biomass to water environment index change
網(wǎng)絡訓練成功后,便可用于預測和仿真。本文為部分揭示所建ANN模型的內(nèi)部機制,特別是研究網(wǎng)絡輸出對輸入的敏感性,設計了靈敏度指標。該指標定義如下
本文采用網(wǎng)絡中訓練集作為靈敏度分析的數(shù)據(jù)來源(這里不用檢測集是因為用人工神經(jīng)網(wǎng)絡模擬訓練集的結(jié)果比模擬檢測集的精度要高),每次試驗中,每組數(shù)據(jù)僅有一維變化10%,其他維值不變,然后輸入網(wǎng)絡仿真,所得值與原來未變化時的值進行比較,最后得到靈敏度變化的矩陣,矩陣的每一列即為每一個因子對葉綠素變化的影響大小。本文所定義的靈敏度可稱為全局靈敏度。由于對所有訓練樣本的輸入都作了分析,這些輸入樣本的分布高度離散,基本代表了不同的初始位置。
對靈敏度矩陣的每一列取平均值,可得到不同環(huán)境因子的平均值靈敏度。計算結(jié)果表明,浮游植物生物量對各環(huán)境要素響應的平均敏感性從大到小為DO>COD>PO4-P>SST>pH>Oil>DIN>SiO3-Si(圖3)。
從以上模型結(jié)果可知,BP網(wǎng)絡預測可靠性較高,都有較高的擬合度。此例主要是說明應用人工神經(jīng)網(wǎng)絡技術來預測海灣浮游植物生物量,不僅對檢驗樣本有較好的擬合,還可以利用網(wǎng)絡優(yōu)化來提高網(wǎng)絡預測性能。更主要的是人工神經(jīng)網(wǎng)絡預測不需要知道預測因子和預測量之間的函數(shù)關系,事實上很多關系不是確定的物理關系,只是一種統(tǒng)計意義上的關系。由于BP網(wǎng)絡有較強的非線性映射能力,避開了預測因子與預測量的簡單確定函數(shù)關系。同時又因為網(wǎng)絡的黑箱效果,沒有把預測因子和預報量的非線性關系限制在固定函數(shù)上,在海灣生態(tài)系統(tǒng)變化機理尚未完全明確的前提下,該方法提供了一種可行的預測途徑。靈敏度分析表明,利用人工神經(jīng)網(wǎng)絡法還可以計算網(wǎng)絡輸出(浮游植物生物量)對輸入(水環(huán)境因子)變化的響應。從而在一定程度上揭示了浮游植物變化的動力學機制。本文僅列出全局意義下浮游植物生物量對環(huán)境因子變化響應的平均靈敏度系數(shù),不同環(huán)境狀況下的靈敏度也可同理得出。
致謝:本研究得到丁德文院士和王宗靈研究員的支持和幫助。
[1]Yabunaka K,Hosomi M,Murakami A.Novel application of a back-propagation artificial neural network model formulated to predict algal bloom[J].Water Science and Technology,1997,36(5):89-97.
[2]Recknagel F.ANNA—artificial neural network model for predicting species abundance and succession of blue-green algae[J].Hydrobiologia,1997,349:47-57.
[3]Maier H R,Dandy G C.Neural Network Based Modelling of Environmental Variables:A Systematic Approach[J].Mathematical and Computer Modelling,2001,33:669-682.
[4]Hou G X,Song L R,Liu J T,et al.Modeling of cyanobacterial blooms in hypereutrophic Lake Dianchi,China[J].Journal of Freshwater Ecology,2004,19(4):623-629.
[5]Recknagel F,Kim B,Takamura N,et al.Unravelling and forecasting algal population dynamics in two lakes different in morphometry and eutrophication by neural and evolutionary computation[J].Ecological Informatics,2006(2):133-151.
[6]丁德文,石洪華,張學雷,等.近岸海域水質(zhì)變化機理及生態(tài)環(huán)境效應[M].北京:海洋出版社,2009.