蔣清華,任新民,姜 軍,歐陽彬,彭 保
(1.友聯(lián)船廠(蛇口)有限公司,廣東 深圳 518067;2.湖南工商大學,湖南 長沙 410205;3.深圳信息職業(yè)技術學院,廣東 深圳 518172)
renxinmin@cmhk.com;jiangqinghua0115@163.com;jiangjun8880@163.com;2248918560@qq.com;pengb@sziit.edu.cn
近幾年,致力于降低船舶修造領域工業(yè)能耗的船舶能源物聯(lián)網(wǎng)技術被廣泛研究,為城市“雙碳”量化管理提供了大量有益的參考資料。為了降低船舶非生產(chǎn)性航行時間和維修費用,提高船舶盈利空間,必須對船舶進行科學的維護和管理,控制和優(yōu)化船舶維修和保養(yǎng)過程中設備的能耗。因此,開展船舶能效優(yōu)化技術研究具有重要意義[1-2]。機器學習等技術的出現(xiàn)與發(fā)展促進了船舶能效優(yōu)化研究相關算法的精進。針對以上情況,本文以友聯(lián)船廠的某貨輪為例進行研究,從降低船舶特涂工序(一種船舶維修保養(yǎng)方式)過程中的電能消耗預測誤差的角度出發(fā),結合實船采集數(shù)據(jù),基于XGBoost機器學習模型,通過粒子群算法(Particle Swarm Optimization,PSO)優(yōu)化模型超參數(shù)提升船舶特涂工序能耗預測模型的預測效果。
隨著世界人口的增長,人們對物品的需求逐漸增加,世界各國之間的貨物貿易增多,貨物運輸需求增大,世界上通過船舶運輸?shù)呢浳锛s占總運輸貨物的80%。運載化學品的船舶由于裝載貨物的特殊性,所以需要定期使用特別的涂層進行維修和保養(yǎng)(即船舶特涂業(yè)務),其中就涉及維修設備的電力消耗。在維修和保養(yǎng)過程中因設備老化、施工安排不當?shù)仍斐傻碾娔芾速M問題極大地增加了企業(yè)的維修成本。近年,船舶修造成為高技術和高能耗特征并重的重點工業(yè)領域,其高能耗問題是船舶企業(yè)所在城市管理的重點和難點。隨著科學技術的進步,船舶綠色化、智能化發(fā)展理念也隨之提出,修造船企業(yè)如何優(yōu)化修造船過程中的能效問題,已經(jīng)成為該行業(yè)發(fā)展過程中亟待解決的重要一環(huán)[2]。依托機器學習算法,通過將記錄并解讀船舶修造過程中的數(shù)據(jù),用于對船舶能耗影響因素的歸納分析,進而建立能耗預測模型,可以對船舶能耗進行詳細的描述和預測[3]。
BESIKCI等[4]和YAN等[5]分別運用人工神經(jīng)網(wǎng)絡和BP神經(jīng)網(wǎng)絡方法對船舶數(shù)據(jù)進行能效預測。BESIKCI等在模型基礎上建立了決策支持系統(tǒng),用來減少油耗,而YAN等則是利用模型實現(xiàn)多要素影響下的船舶能效智能預測。
船舶航行時,環(huán)境因素會對其產(chǎn)生一定的影響,因此在進行能效預測時,有些學者也考慮了環(huán)境因素的影響。LEIFSSON等[6]使用人工神經(jīng)網(wǎng)絡完成模型內部參數(shù)確定工作,并在考慮風浪對船舶油耗影響的同時,加入污低附著物這一被人們廣泛忽略的影響因素,使得所建立的白箱模型具有更高的適用性。YANG等[7]提出船舶在航行過程是否出現(xiàn)失速現(xiàn)象是影響船舶油耗的重要因素,因此YANG等使用航速優(yōu)化模型求解(Kwon)方法測算船舶在實際運輸過程中受到外界環(huán)境如風浪等影響時的航行速度,并建立油耗預測模型。孫雙休等[8]提出了最小二乘支持向量機模型,對船舶集中空調系統(tǒng)能耗進行分析預測。牛曉曉等[9]采用人工魚群算法優(yōu)化支持向量機,對柴油機性能進行回歸分析,取得了高精度的預測效果。WANG等[10]主要采用小波神經(jīng)網(wǎng)絡預測船舶主機轉速與油耗之間的關系。葉睿等[11]基于人工神經(jīng)網(wǎng)絡,使用一艘丹麥籍客滾輪的運營數(shù)據(jù),建立了油耗預測模型。GAO等[12]運用高斯混合模型聚類,結合最大似然算法對數(shù)據(jù)進行分析,分析結果表明油耗量與主機轉速之間的關系并不是一一對應的,其受海況的影響較大。王凱等[13]結合船舶油耗及其影響因素進行實船采集數(shù)據(jù),采用不同機器學習算法對船舶能耗進行預測分析,驗證各算法的特點和優(yōu)勢。YAN等[14]通過大量實驗,擺脫了單一環(huán)境對船舶油耗的限制,使用K-mean聚類方法重點研究長江內河區(qū)域不同位置對船舶油耗產(chǎn)生的影響。
本研究中采用的方法概述如圖1所示。本研究分三個階段進行:第一階段,研究人員采集友聯(lián)船廠2021 年9 月至2022 年4 月共4 艘貨輪特涂作業(yè)各艙室工序能耗數(shù)據(jù),并對數(shù)據(jù)集進行清洗。第二階段:將處理好的能耗數(shù)據(jù)用于訓練、驗證和測試PSO-XGBoost模型。采用K-fold交叉驗證技術及粒子群算法優(yōu)化模型的超參數(shù),并使用15%的測試集確保模型不會出現(xiàn)過擬合或欠擬合。第三階段:通過與其他能耗預測模型進行效果對比實驗,驗證PSO-XGBoost與優(yōu)越性,最終將PSO-XGBoost模型用于船舶特涂能耗預測,解釋預測結果背后的潛在原因,并揭示新的見解。
圖1 研究方法流程圖Fig.1 Research method flow chart
研究人員以友聯(lián)船廠的4 艘進行特涂作業(yè)的貨輪(包括薩法輪、托瑪琳輪、坦桑石輪及丹娜輪)為研究對象,采集自2021 年9 月至2022 年4 月的船舶特涂作業(yè)各艙室工序能耗(E)數(shù)據(jù)如表1所示。
表1 PSO-XGBoost模型分析中使用的船舶特涂信息Tab.1 Ship tank coating information used in PSO-XGBoost model analysis
采用船舶特涂業(yè)務相關變量作為能耗預測的影響因素,包括工序類型(Pr)、施工面積(M)、施工時長(T)、各類特涂設備數(shù)(包括冷風機Nc、除濕機Nd、吸砂機Ns)、設備總數(shù)(Nsum)、風管數(shù)(Nf)、溫度要求(Ta)及濕度要求(H)。上述變量是根據(jù)船舶特涂業(yè)務流程及能耗預測相關領域的研究經(jīng)驗選擇的,這表明這些影響因素對船舶特涂工序能耗預測最重要。收集并整理最終的船舶特涂工序能耗數(shù)據(jù)用作訓練PSOXGBoost模型的目標。
為消除樣本中異常數(shù)據(jù)的影響,需要刪除掉樣本中的異常值?;?σ準則采用嶺回歸算法篩選出樣本數(shù)據(jù)中的異常值,如圖2(a)—圖2(c)所示為數(shù)據(jù)集中的異常值分布情況,最終剔除掉編號為[39,77,94,102,162,329]共六個異常樣本。
圖2 數(shù)據(jù)集中的異常值分布情況Fig.2 The distribution of outliers in a dataset
圖3展示了目標變量船舶特涂能耗與其影響因素變量之間的相關性情況。風管數(shù)Nf、設備總數(shù)Nsum與能耗E之間的相關系數(shù)較大,分別為0.75、0.62。溫度要求Ta和濕度要求H與能耗E之間相關系數(shù)均為0.56。此外,Ta與H之間顯著相關(相關系數(shù)達0.87)。由于M、Nc、Ns、T與E的低相關性,以及Ta與H之間高度相關,因此本文僅使用Pr、Nf、Nd、Nsum、Ta作為構建模型的能耗影響變量。
圖3 各變量之間的熱力相關圖Fig.3 Thermodynamic correlation diagram between variables
極限梯度提升樹(XGBoost)[15]是基于樹的boosting算法的一種變體。從概念上來說,XGBoost是學習特征X和目標Y之間的函數(shù)關系f的一個迭代過程,在該過程中,各個樹按順序根據(jù)前一棵樹的殘差進行訓練。樹的預測數(shù)學形式可表示如下:
由Eberhart and Kennedy(1995)提出的粒子群優(yōu)化算法(PSO)是根據(jù)鳥類傾向于更好的搜索路線的掠食性軌跡而制定的[16]。這是一種基于種群的隨機搜索方法,具有參數(shù)少、過程簡單的優(yōu)點,已被應用于解決許多領域的優(yōu)化問題。在D維超空間的優(yōu)化問題中,m個粒子中的每個粒子都可以根據(jù)計算結果調整其位置和速度。第k步的位置向量可以表示為,速度向量是,第k個粒子的最佳位置為,全局最佳位置為。粒子的運動可以通過公式(3)和公式(4)計算得到:
其中,k表示迭代次數(shù),i為粒子數(shù),d為搜索方向,ω表示權重,表示粒子的局部最佳位置,作為所有粒子的全局最佳位置,和 表示學習因素,并被視為常數(shù),和 表示在[0,1]中均勻分布的隨機量,采用公式(3)和公式(4)求出最佳解。
本次實驗首先使用XGBoost模型進行船舶特涂工序能耗預測任務訓練,同時采用PSO算法對模型的超參數(shù)進行優(yōu)化,其次將優(yōu)化后的模型與線性回歸(LR)、隨機森林(RF)、K近鄰回歸(KNN)等能耗預測模型進行對比,探究PSO-XGBoost模型的預測效果是否優(yōu)于其他模型。
實驗采用Intel酷睿i5-12500H 12核16線程CPU,顯卡使用4 GB NVDIA GTX 3050Ti,編程語言使用Python 3.9。為了避免模型訓練過程中發(fā)生過擬合,本次實驗采用早期停止法。
實驗參數(shù)設置如下:迭代次數(shù)epoch設為5,批量大小batch size設為10,學習率learning rate設為0.0001,早期停止批量大小設為500。
采用回歸任務中常用的評估指標:平均絕對誤差百分比(MAPE)、判定系數(shù)(R2)和正規(guī)化均方根誤差(NRMSE),各個指標的計算方法如公式(5)—公式(7):
將船舶特涂工序能耗數(shù)據(jù)按0.8∶0.2劃分為訓練樣本集合與測試樣本集合,訓練集用來訓練模型,并在測試集上對模型預測效果進行驗證(每種方法均進行5 折交叉驗證)。PSO-XGBoost模型及其他對比模型的預測效果見表2,XGBoost的NRMSE為8.56%,MAPE為13.36%,R2為86.37%。本文提出的模型PSO-XGBoost的NRMSE為7.69%,MAPE為12.21%,R2為91.90%,各項指標明顯優(yōu)于其他模型。
表2 PSO-XGBoost模型及其他對比模型的預測效果Tab.2 Prediction error of PSO-XGBoost model and other comparison models
4.4.2 結果分析
本次實驗結果表明,PSO-XGBoost與XGBoost、LR、KNN和RF等能耗預測機器學習方法相比,表現(xiàn)出了優(yōu)異的性能,并且采用PSO算法進行參數(shù)尋優(yōu),有效提升了模型的預測精度。
此外,為了使PSO-XGBoost模型的預測結果具有可解釋性,研究人員采用基于博弈論的SHAP方法[17]結合隨機森林模型計算特征變量的貢獻度,綜合考慮算法速度和算法準確率,設定決策樹個數(shù)K=500,特征總數(shù)M=5。運行程序得到五個特征的貢獻度,圖4是根據(jù)SHAP值得到的特征分析圖。橫軸有正負值,表示對船舶特涂工序能耗的正負影響,圖4中各點表示各個特征關于每個樣本的SHAP值。SHAP值小于0的點表示對能耗值有負向的影響,SHAP值大于0的點表示對能耗值有正向的影響。排名第一的變量SHAP值大于0的點明顯多于小于0的點,說明變量風管數(shù)(Nf)對船舶特涂工序能耗的影響是正向的,即設備連通向艙室的風管數(shù)越多,其能耗會越高。排名第二的變量是工序類型(Pr),不同工序使用到的設備不同,達到施工要求的標準也不相同,其對能耗的影響有正有負,因此在整個數(shù)據(jù)集中變量風管數(shù)(Nf)的SHAP值正負分布均勻。排名最后的變量溫度要求(Ta)的SHAP值接近于0,這是由于特涂作業(yè)中各個類型的工序對艙室內的溫度要求基本一致,因此溫度要求(Ta)對模型預測能耗的貢獻較小。
圖4 特征分析圖Fig.4 Analysis diagram of features
船舶特涂工序能耗受多種因素影響,為了實現(xiàn)船舶能源的智能化管理,提出了一種能耗預測模型,該模型對特征重要性和多元變量的相關性進行建模,同時使用基于博弈論的SHAP方法分析能耗及其影響因素之間的關系,最終實現(xiàn)了船舶特涂工序能耗預測。主要結論如下。
(1)提出了一種基于PSO-XGBoost船舶特涂工序能耗預測模型。將該模型的預測結果與其他方法進行對比發(fā)現(xiàn),PSOXGBoost的最高性能為NRMSE=7.69%,預測誤差MAPE值僅為12.21%,模型可解釋性R2為91.90%,證明了該模型的可預測性。同時研究表明,利用PSO算法調整模型超參數(shù)可有效提升預測性能。
(2)從挖掘船舶特涂工序能耗的影響因素角度,根據(jù)相關性分析選擇Pr、Nf、Nd、Nsum、Ta作為預測模型的主要輸入變量。同時,采用基于博弈論的SHAP方法計算變量的特征貢獻度,分析了其與能耗的關系。結果表明,風管數(shù)Nf對模型預測的貢獻度最大,溫度要求Ta對模型預測的貢獻度最小。
(3)船舶特涂工序能耗主要來源于設備消耗的電能,因此設備的損耗會影響其使用效率進而影響能耗,但目前的船舶能耗數(shù)據(jù)中沒有涉及設備損耗的信息。此外,船舶特涂工序能耗數(shù)據(jù)是一種時間序列,季節(jié)性等時間特征會影響特涂設備的使用及施工達標要求等情況,從而導致能耗變化。今后可考慮加入設備損耗、時間特征進行建模,從而更好地預測船舶特涂工序能耗。