宮 鵬,王德興,袁紅春,陳冠奇,吳若有
( 上海海洋大學(xué) 信息學(xué)院,上海 201306 )
長(zhǎng)鰭金槍魚(Thunnusalalunga)是一種溫帶大洋性魚類,主要分布于太平洋、大西洋和印度洋。在太平洋遠(yuǎn)洋漁業(yè)中,金槍魚因其高經(jīng)濟(jì)效益及豐富的資源量位居捕撈量首位,其中長(zhǎng)鰭金槍魚占每年漁獲量的1/3,并且近年來(lái)產(chǎn)量還在日益增加。目前,長(zhǎng)鰭金槍魚已經(jīng)成為我國(guó)在南太平洋延繩釣漁業(yè)中的主要目標(biāo)魚種之一[1]。因此,提高長(zhǎng)鰭金槍魚漁場(chǎng)預(yù)報(bào)的準(zhǔn)確率成為漁業(yè)研究的熱點(diǎn)。
根據(jù)長(zhǎng)鰭金槍魚的生活習(xí)性,目前對(duì)其漁場(chǎng)的預(yù)報(bào)主要是結(jié)合海洋環(huán)境因子來(lái)進(jìn)行。楊嘉樑等[2]采用分位數(shù)回歸方法分析各水層以及整個(gè)水體各個(gè)環(huán)境因子與長(zhǎng)鰭金槍魚漁獲率的關(guān)系,得到了長(zhǎng)鰭金槍魚棲息地綜合指數(shù)(IHI)分布較高的海域。魏聯(lián)等[3]采用BP神經(jīng)網(wǎng)絡(luò)方法對(duì)西北太平洋柔魚(Ommastrephesbartramii)漁場(chǎng)進(jìn)行預(yù)報(bào),以海洋環(huán)境因子作為輸入因子,得到了擬合殘差最小的最優(yōu)預(yù)報(bào)模型。陳雪忠等[4]采用一種隨機(jī)森林模型,以海洋環(huán)境因子作為預(yù)測(cè)變量進(jìn)行長(zhǎng)鰭金槍魚的漁場(chǎng)預(yù)報(bào),在高單位捕撈努力量漁獲量漁區(qū)達(dá)到了最佳精度,但是隨機(jī)森林得出的預(yù)測(cè)結(jié)果無(wú)法解釋其具體原因,還需使用其他方法配合來(lái)分析漁場(chǎng)分布的具體情況。范永超等[5]使用一元非線性回歸方法對(duì)南太平洋長(zhǎng)鰭金槍魚中心漁場(chǎng)進(jìn)行預(yù)測(cè),預(yù)報(bào)準(zhǔn)確率接近70%。
海洋環(huán)境因子是進(jìn)行漁場(chǎng)預(yù)報(bào)的重要指標(biāo),但是日益增加的漁業(yè)數(shù)據(jù)規(guī)模,使得大量的環(huán)境信息更為復(fù)雜多變,變量間的關(guān)系難以描述[6]。輕度量化梯度促進(jìn)機(jī)(LightGBM)模型[7]針對(duì)這種復(fù)雜的數(shù)據(jù),提出了兩種解決方法:梯度單邊采樣(GOSS)和獨(dú)立特征合并(EFB),大大降低了處理樣本數(shù)據(jù)的時(shí)間復(fù)雜度。針對(duì)可能影響漁場(chǎng)預(yù)報(bào)準(zhǔn)確率的海洋環(huán)境因子和現(xiàn)有的觀察數(shù)據(jù),筆者選取了3個(gè)環(huán)境因子:海表溫度(SST)、葉綠素a質(zhì)量濃度(Chl-a)和海面高度(SSH)及3個(gè)時(shí)空因子:月份、經(jīng)度和緯度,旨在利用LightGBM模型建立南太平洋長(zhǎng)鰭金槍魚漁場(chǎng)預(yù)報(bào)模型。
本研究海域?yàn)槟咸窖?,?jīng)、緯度范圍為W 135°~E 110°,S 5°~S 40°,漁業(yè)數(shù)據(jù)為中西太平洋漁業(yè)委員會(huì)(WCPFC)(http:∥www.wcpfc.int)提供的2000—2015年的南太平洋延繩釣數(shù)據(jù)。數(shù)據(jù)包括年份、月份、經(jīng)度、緯度和捕獲量,其中時(shí)間分辨率為月,空間分辨率為5°×5°。海表溫度和葉綠素a質(zhì)量濃度數(shù)據(jù)來(lái)源于美國(guó)國(guó)家海洋和大氣管理局(NOAA)環(huán)境數(shù)據(jù)庫(kù)(http:∥www.noaa.gov)。海面高度數(shù)據(jù)來(lái)源于哥白尼海洋環(huán)境監(jiān)測(cè)服務(wù)中心(CMEMS)(http:∥marine.copernicus.eu),該數(shù)據(jù)集中包含的數(shù)據(jù)空間分辨率為1°×1°,對(duì)其進(jìn)行網(wǎng)格化處理,變成與漁業(yè)數(shù)據(jù)統(tǒng)一的5°×5°空間分辨率,便于后續(xù)計(jì)算單位捕撈努力量漁獲量。
單位捕撈努力量漁獲量(CPUE)作為漁業(yè)資源評(píng)估中的重要指標(biāo)[8],在一個(gè)漁區(qū)(5°×5°)內(nèi)的計(jì)算公式如下:
(1)
式中,i為經(jīng)度,j為緯度,CPUE(i,j)表示(i,j)漁區(qū)內(nèi)每1000鉤的漁獲尾數(shù),F(xiàn)fish(i,j)表示(i,j)漁區(qū)內(nèi)長(zhǎng)鰭金槍魚總漁獲尾數(shù),F(xiàn)hook(i,j)表示(i,j)漁區(qū)內(nèi)投放的的延繩釣釣鉤總數(shù)。
三分位數(shù)是統(tǒng)計(jì)學(xué)研究中最常用的方法之一[9],筆者也采用三分位數(shù)對(duì)漁區(qū)進(jìn)行劃分[4]。由于金槍魚的生存習(xí)性導(dǎo)致在不同月份的單位捕撈努力量漁獲量出現(xiàn)顯著的差異,因此以整年的單位捕撈努力量漁獲量進(jìn)行漁區(qū)劃分并不合適,而是以月為單位,以33.3%和66.7%分位點(diǎn)為界將每月單位捕撈努力量漁獲量劃分為高、中、低三類。
已有的研究結(jié)果顯示,海表溫度對(duì)長(zhǎng)鰭金槍魚漁場(chǎng)分布的影響極為重要。樊偉等[10]對(duì)單位捕撈努力量漁獲量分布和海表溫度等數(shù)據(jù)進(jìn)行分析,結(jié)果表明,高單位捕撈努力量漁獲量漁區(qū)主要分布在海表溫度為16~22 ℃以及25~30 ℃之間的區(qū)域。閆敏等[11]通過(guò)對(duì)南太平洋長(zhǎng)鰭金槍魚漁場(chǎng)附近的葉綠素a質(zhì)量濃度進(jìn)行分析,結(jié)果表明,漁場(chǎng)最適葉綠素a質(zhì)量濃度為0.02~0.08 mg/m3。范江濤[12]總結(jié)了各個(gè)月份單位捕撈努力量漁獲量與海面高度的關(guān)系。由于長(zhǎng)鰭金槍魚的生活習(xí)性,漁場(chǎng)單位捕撈努力量漁獲量呈現(xiàn)明顯的季節(jié)性變化。綜合考慮上述因素,本研究選取了3個(gè)環(huán)境因子:海表溫度、葉綠素a質(zhì)量濃度和海面高度及3個(gè)時(shí)空因子:月份、經(jīng)度和緯度作為預(yù)測(cè)變量。
LightGBM屬于自適應(yīng)提升(Boosting)模型[13]的一種,是對(duì)梯度下降樹(shù)(GBDT)的高效實(shí)現(xiàn)。隨著科學(xué)技術(shù)的發(fā)展,漁業(yè)數(shù)據(jù)和海洋環(huán)境數(shù)據(jù)規(guī)模變得更加巨大,傳統(tǒng)的自適應(yīng)提升模型(如XGBoost[14], pGBRT[15]等)在效率上已經(jīng)逐漸不能滿足需求,導(dǎo)致這種情況的最主要原因是傳統(tǒng)算法的實(shí)現(xiàn)需要遍歷所有的樣本數(shù)據(jù),這個(gè)操作使得時(shí)間成本變得非常高。LightGBM針對(duì)數(shù)據(jù)的復(fù)雜性問(wèn)題提出了兩種算法:梯度單邊采樣算法和獨(dú)立特征合并算法。
1.3.1 梯度單邊采樣算法
傳統(tǒng)的自適應(yīng)提升算法使用所有的樣本點(diǎn)來(lái)計(jì)算梯度,但是根據(jù)文獻(xiàn)[7],梯度大的樣本點(diǎn)在信息增益的計(jì)算中往往起著最主要的作用,也就是說(shuō)這類樣本點(diǎn)會(huì)貢獻(xiàn)更多的信息增益,因此為保證信息增益評(píng)估的精度,梯度單邊采樣算法在進(jìn)行下采樣時(shí)保留梯度大的樣本點(diǎn),對(duì)于小梯度樣本點(diǎn)進(jìn)行隨機(jī)采樣。梯度單邊采樣算法步驟如下:
(1)降序排列所有的樣本點(diǎn);
(2)按比例選取靠前的樣本生成一個(gè)大梯度樣本點(diǎn)集合;
(3)對(duì)第(2)步后剩下的樣本按比例進(jìn)行隨機(jī)采樣,生成一個(gè)小梯度樣本點(diǎn)集合;
(4)將兩個(gè)集合合并成一個(gè)樣本集合;
(5)為小梯度樣本引入一個(gè)常量乘數(shù);
(6)使用上述得到的樣本,學(xué)習(xí)一個(gè)新的弱學(xué)習(xí)器;
(7)重復(fù)(1)~(6)步驟直到達(dá)到規(guī)定的迭代次數(shù)或者收斂為止。
這樣梯度單邊采樣算法在不改變數(shù)據(jù)分布的情況下大大提高了模型的學(xué)習(xí)速率。
1.3.2 獨(dú)立特征合并算法
在漁場(chǎng)預(yù)報(bào)中,漁業(yè)數(shù)據(jù)和海洋環(huán)境數(shù)據(jù)往往有著特征量多且特征空間稀疏的特點(diǎn),尤其是在稀疏的特征空間中,存在著大量互斥的特征(例如one-hot),LightGBM使用直方圖(Histogram)算法對(duì)互斥特征進(jìn)行合并,其基本思想是先將連續(xù)的特征值離散化成M個(gè)整數(shù),并構(gòu)建一個(gè)寬度為M的直方圖(圖1),根據(jù)直方圖的離散值遍歷數(shù)據(jù),尋找決策樹(shù)最優(yōu)的分割點(diǎn)。相較于XGBoost模型的排序算法,直方圖算法極大降低了時(shí)間復(fù)雜度,并且由于決策樹(shù)屬于弱模型,這種模糊的分割方法往往能達(dá)到更好的效果。
圖1 直方圖算法Fig.1 Histogram algorithm
漁場(chǎng)預(yù)報(bào)精度是由模型的預(yù)報(bào)結(jié)果和真實(shí)的漁場(chǎng)情況對(duì)比得到的,根據(jù)文獻(xiàn)[16],假設(shè)南太平洋長(zhǎng)鰭金槍魚漁場(chǎng)的實(shí)際漁區(qū)集合為C1,非漁區(qū)集合為C2,漁場(chǎng)預(yù)報(bào)模型預(yù)測(cè)得到的漁區(qū)集合為C1′,非漁區(qū)集合為C2′,則漁場(chǎng)預(yù)報(bào)精準(zhǔn)率(Rp)如下:
(2)
同時(shí)使用召回率(Rr)和F1_Score作為模型評(píng)估的參考標(biāo)準(zhǔn),具體計(jì)算如下:
(3)
(4)
1.5.1 試驗(yàn)環(huán)境
本試驗(yàn)電腦的顯卡為NVIDIA GTX 1060,CPU型號(hào)為Intel Core i7-7700HQ,操作系統(tǒng)為Windows 10,同時(shí)搭建了基于Python 3.6的scikit-learn機(jī)器學(xué)習(xí)庫(kù)。
1.5.2 試驗(yàn)過(guò)程
試驗(yàn)過(guò)程見(jiàn)圖2,試驗(yàn)數(shù)據(jù)為2000—2015年南太平洋環(huán)境數(shù)據(jù)和長(zhǎng)鰭金槍魚的延繩釣數(shù)據(jù),其中2000—2014年的9860條數(shù)據(jù)按照數(shù)量比4∶1劃分為訓(xùn)練集和驗(yàn)證集,2015年的數(shù)據(jù)作為測(cè)試集。
圖2 試驗(yàn)過(guò)程Fig.2 The experimental procedure
對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,將每月單位捕撈努力量漁獲量按照三分位點(diǎn)劃分為0、1、2三類,分別對(duì)應(yīng)高、中、低產(chǎn)區(qū),將處理好的數(shù)據(jù)輸入到LightGBM模型。為加快模型的收斂速度,先設(shè)置一個(gè)較大的學(xué)習(xí)率Plearning=0.1,初始迭代次數(shù)ne=100,由于LightGBM模型使用的是帶深度限制的Leaf-wise葉子生長(zhǎng)策略,為了防止過(guò)擬合,葉子節(jié)點(diǎn)數(shù)nleaves應(yīng)當(dāng)小于2d,其中d為樹(shù)的深度,同時(shí)使用早停策略中斷迭代,設(shè)置early_stopping_rounds=5。在對(duì)參數(shù)進(jìn)行初始設(shè)定后,調(diào)用sklearn中的GridSearchCV。
函數(shù)對(duì)參數(shù)組合進(jìn)行網(wǎng)格搜索,并使用交叉驗(yàn)證的方式來(lái)減少偶然性。在運(yùn)行多個(gè)參數(shù)組合后,得到了最優(yōu)參數(shù),部分參數(shù)組合見(jiàn)表1。
表1 參數(shù)列表Tab.1 The parameter list
在不同參數(shù)組合下,LightGBM模型均取得較好的結(jié)果,其中第3組為網(wǎng)格搜索后所得到的最優(yōu)組合。為驗(yàn)證模型的有效性,筆者使用樸素貝葉斯、XGBoost算法和BP神經(jīng)網(wǎng)絡(luò)在相同的數(shù)據(jù)集和試驗(yàn)環(huán)境下做了同樣的試驗(yàn),并與LightGBM模型作對(duì)比。
LightGBM模型在精準(zhǔn)率、召回率和F1_Score上相較于其他模型均取得了較好的效果(表2),而且因?yàn)槭褂昧酥狈綀D算法,時(shí)間復(fù)雜度僅為O(#M),其中M為特征值離散后的整數(shù)數(shù)量,相較于XGBoost的時(shí)間復(fù)雜度O(#data),獲得了極大的提升,XGBoost在分裂特征時(shí),通過(guò)遍歷所有分割點(diǎn)來(lái)獲得最優(yōu)分割點(diǎn),雖然能夠很精確地找到最優(yōu)分割點(diǎn),但是在空間和時(shí)間的花銷上產(chǎn)生了極大的損耗。
表2 不同模型試驗(yàn)結(jié)果對(duì)比Tab.2 The comparison of results in different model tests
樸素貝葉斯模型以數(shù)學(xué)理論為基礎(chǔ),通過(guò)先驗(yàn)概率,計(jì)算出某一對(duì)象所屬的類別,即后驗(yàn)概率,計(jì)算過(guò)程中不考慮海洋環(huán)境因子和時(shí)空因子之間的相關(guān)性,雖然減少了計(jì)算開(kāi)銷,但是由于每個(gè)輸入
因子都是獨(dú)立的,因此無(wú)法獲得輸入因子的重要性指標(biāo)。LightGBM模型通過(guò)調(diào)用sklearn中的feature_importances_方法對(duì)決策樹(shù)分裂過(guò)程中每個(gè)節(jié)點(diǎn)的分裂增益進(jìn)行統(tǒng)計(jì),得到每個(gè)特征的重要性指標(biāo),能夠?qū)O場(chǎng)的形成原理做出準(zhǔn)確的解釋,為捕撈業(yè)提供理論基礎(chǔ)。BP神經(jīng)網(wǎng)絡(luò)作為一種“黑盒模型”[17],雖然實(shí)現(xiàn)簡(jiǎn)單,但是其權(quán)重具有無(wú)法解釋性,無(wú)法分析環(huán)境因子和時(shí)空因子對(duì)漁場(chǎng)形成的貢獻(xiàn)關(guān)系。
借助sklearn中的feature_importances_方法,得到了海洋環(huán)境因子和時(shí)空因子等輸入因子對(duì)南太平洋長(zhǎng)鰭金槍魚漁場(chǎng)預(yù)報(bào)的重要性(圖3)。由圖3可見(jiàn),海面高度是影響長(zhǎng)鰭金槍魚漁場(chǎng)分布的主要因素,其次依次為葉綠素a質(zhì)量濃度、經(jīng)度、海面溫度、月份和緯度,根據(jù)文獻(xiàn)[18],海面高度與海流密切相關(guān),是一種反映流場(chǎng)的特征指標(biāo),因此海面高度是影響漁場(chǎng)分布的重要環(huán)境因子。目前許多研究表明,海面溫度對(duì)于金槍魚這種大洋性魚類的影響至關(guān)重要[19-20],在XGBoost模型中以同樣的輸入因子計(jì)算特征重要性(圖4),海面溫度處于首位,其變化通常與海流邊界和鋒面相關(guān),海面溫度通過(guò)影響長(zhǎng)鰭金槍魚的生長(zhǎng)、覓食以及洄游對(duì)漁場(chǎng)分布和變動(dòng)有著直接的聯(lián)系。在實(shí)際研究中,海面高度和海面溫度息息相關(guān),兩者共同作用下充分指示了南太平洋長(zhǎng)鰭金槍魚漁場(chǎng)的分布和變動(dòng)。
圖3 LightGBM模型輸入因子重要性Fig.3 The input factor importance in LightGBM model
圖4 XGBoost模型輸入因子重要性Fig.4 The input factor importance in XGBoost Model
本研究結(jié)果表明,海面溫度和海面高度是影響漁場(chǎng)分布的重要因子,文獻(xiàn)[10-11,19-20]也得到了相同的研究結(jié)果,兩者共同作用下對(duì)金槍魚種群分布起到了關(guān)鍵性作用,根據(jù)以往研究,南太平洋長(zhǎng)
鰭金槍魚漁場(chǎng)最適溫度為16~22 ℃以及25~30 ℃[9,21],最適高度受季節(jié)影響,在不同月份呈現(xiàn)波動(dòng),但主要分布在0.8 m左右[11]。除了這兩種關(guān)鍵因子外,葉綠素a質(zhì)量濃度對(duì)漁場(chǎng)分布的影響同樣至關(guān)重要[22],其原理主要是通過(guò)控制浮游生物數(shù)量的變化來(lái)影響金槍魚種群數(shù)量和漁場(chǎng)變動(dòng)[22]。研究表明,單位捕撈努力量漁獲量高產(chǎn)區(qū)多分布在葉綠素a質(zhì)量濃度0.02~0.08 mg/m3的海域中[11]。從漁場(chǎng)的形成機(jī)制來(lái)看,漁場(chǎng)分布主要受海流流場(chǎng)的影響,而海面高度和溫度正是一種反映流場(chǎng)的特征指標(biāo),間接證明了本研究結(jié)果的準(zhǔn)確性。
對(duì)于漁場(chǎng)分類,筆者采用按月對(duì)單位捕撈努力量漁獲量進(jìn)行三分位劃分,但是在實(shí)際的預(yù)測(cè)中,由于各種復(fù)雜因素的影響(政策、大尺度海洋事件、溶解氧[22]、洄游路線[23]等),處于高—中、中—低漁區(qū)邊界的漁場(chǎng)可能會(huì)被誤分類從而導(dǎo)致中產(chǎn)區(qū)預(yù)測(cè)精準(zhǔn)率明顯降低。
本研究基于LightGBM模型提出了一種南太平洋長(zhǎng)鰭金槍魚漁場(chǎng)預(yù)報(bào)方法,并利用2000—2014年漁業(yè)數(shù)據(jù)和時(shí)空數(shù)據(jù)訓(xùn)練得到的模型對(duì)2015年的長(zhǎng)鰭金槍魚漁場(chǎng)分布進(jìn)行預(yù)測(cè)。預(yù)測(cè)結(jié)果見(jiàn)圖5,預(yù)測(cè)的漁場(chǎng)位置與真實(shí)漁場(chǎng)位置存在少量誤差,相較于其他模型,預(yù)報(bào)結(jié)果準(zhǔn)確率與可信度較高。但是由于筆者所選取的環(huán)境因子多為海洋表層因子,無(wú)法從垂直空間上對(duì)金槍魚漁場(chǎng)分布進(jìn)行描述[24],在后續(xù)的工作中,需要獲得更多的時(shí)空因子和環(huán)境因子來(lái)補(bǔ)充漁場(chǎng)環(huán)境信息,進(jìn)一步提高漁場(chǎng)預(yù)報(bào)準(zhǔn)確率。另外,利用LightGBM模型,可以得到不同輸入因子的重要性指標(biāo),在以后的工作中可以依據(jù)重要性指標(biāo),對(duì)環(huán)境因子進(jìn)行預(yù)處理以提高漁場(chǎng)預(yù)報(bào)精度。
圖5 漁場(chǎng)預(yù)測(cè)結(jié)果Fig.5 Fishing ground forecast results
筆者針對(duì)傳統(tǒng)的漁情預(yù)報(bào)方法無(wú)法對(duì)環(huán)境因子重要性進(jìn)行分析的缺陷,提出一種基于LightGBM模型的南太平洋長(zhǎng)鰭金槍魚漁場(chǎng)預(yù)報(bào)方法,并利用2015年的數(shù)據(jù)進(jìn)行預(yù)報(bào)測(cè)試。測(cè)試結(jié)果表明,預(yù)測(cè)的漁場(chǎng)與真實(shí)漁場(chǎng)具體位置較為一致,相較于其他模型,預(yù)報(bào)結(jié)果準(zhǔn)確率與可信度較高。同時(shí)結(jié)合XGBoost模型的預(yù)測(cè)結(jié)果,對(duì)各個(gè)輸入因子間的重要性進(jìn)行了分析,在隨后的試驗(yàn)中,可以根據(jù)重要性指標(biāo)進(jìn)行參數(shù)的優(yōu)化以及輸入因子的替換等,進(jìn)一步提高模型的性能和實(shí)用性。