肖金龍,溫 泉,2
(1.長(zhǎng)江航道規(guī)劃設(shè)計(jì)研究院,武漢 430011;2.國(guó)家內(nèi)河航道整治工程技術(shù)研究中心,武漢 430011)
絞吸挖泥船被廣泛應(yīng)用于維護(hù)航道、港口清淤和圍海造陸等[1-2]。目前,航道通航能力的維護(hù)、泥沙的淤積與航道的現(xiàn)狀分析等航道整治問(wèn)題得到了學(xué)者們的廣泛研究[3-4],絞吸式挖泥船作為航道疏浚的主要載體也被廣泛關(guān)注。但是,絞吸挖泥船在施工時(shí)操作人員主要利用泥漿濃度變化來(lái)判斷絞刀在水下的挖掘狀態(tài),現(xiàn)行挖泥船的泥漿濃度測(cè)量方式主要為γ射線濃度儀,具有放射性,若施工人員長(zhǎng)時(shí)間與之相接觸會(huì)造成身體傷害。疏浚現(xiàn)場(chǎng)環(huán)境復(fù)雜,γ濃度儀有時(shí)會(huì)發(fā)生故障,由于γ濃度儀的特殊性施工人員往往無(wú)法及時(shí)對(duì)其進(jìn)行修復(fù),在這種情況下挖泥船的施工被迫中斷。
隨著技術(shù)的發(fā)展,許多科研人員針對(duì)挖泥船泥漿濃度的有效、安全測(cè)量問(wèn)題進(jìn)行了攻關(guān)。許多研究人員利用層析成像技術(shù)(ET)對(duì)管道的輸送狀態(tài)進(jìn)行了研究[5-6]。Brodowicz等[7]利用電容層析成像技術(shù)(ECT)技術(shù)對(duì)管道內(nèi)的氣力輸送過(guò)程進(jìn)行了實(shí)時(shí)監(jiān)控,并取得了較好效果。Isaksen等[8]利用ECT對(duì)管道中的油/氣/水等三相流進(jìn)行分析研究,并對(duì)其各相面進(jìn)行監(jiān)測(cè)。袁俊朗等[9]利用ECT對(duì)挖泥船的管道泥漿濃度進(jìn)行測(cè)量,電容層析成像方法具有響應(yīng)速度快、無(wú)輻射性、制造較為簡(jiǎn)便、成本低等優(yōu)點(diǎn)。但是疏?,F(xiàn)場(chǎng)環(huán)境復(fù)雜,信號(hào)干擾較大,容易造成基于ECT技術(shù)的泥漿濃度測(cè)量誤差偏大?;贓CT的精度不高問(wèn)題,部分國(guó)內(nèi)外學(xué)者采用電阻層析成像技術(shù)(ERT)對(duì)管道泥漿濃度測(cè)量進(jìn)行了大量研究。浙江大學(xué)余金華等[10]利用電阻層析成像技術(shù)(ERT)對(duì)氣液兩相流孔隙率測(cè)量問(wèn)題進(jìn)行研究并取得較好效果。閉治躍等[11]利用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)對(duì)泥漿濃度進(jìn)行測(cè)量,該方法的優(yōu)點(diǎn)是成本低、反應(yīng)速度較慢、測(cè)量系統(tǒng)復(fù)雜度較高。王斌等[12]基于疏浚機(jī)理利用數(shù)字仿真建模技術(shù)推導(dǎo)出泥漿濃度預(yù)測(cè)模型,實(shí)現(xiàn)泥漿濃度的實(shí)時(shí)預(yù)測(cè)。隨著大數(shù)據(jù)、機(jī)器學(xué)習(xí)的興起,越來(lái)越多的研究人員將數(shù)據(jù)挖掘應(yīng)用到各自的領(lǐng)域并取得了較好的效果[13-15]。
(1)XGBoost (Exterme Gradient Boosting) 模型。
XGBoost與Gradient Boosting Decision Tree (GBDT)的區(qū)別主要表現(xiàn)為:
①目標(biāo)函數(shù):XGBoost的損失函數(shù)中添加了正則化項(xiàng),使模型變得更加復(fù)雜。
②優(yōu)化方法:XGBoost的優(yōu)化過(guò)程中使用了一階、二階導(dǎo)數(shù),而GBDT中只使用了一階導(dǎo)數(shù)信息。
③缺失值處理:XGBoost對(duì)缺失值進(jìn)行了處理,通過(guò)學(xué)習(xí)模型自動(dòng)選擇最優(yōu)的缺失值默認(rèn)切分方向。
④防止過(guò)擬合:XGBoost除了增加了正則項(xiàng)來(lái)防止過(guò)擬合,還支持行列采樣的方式來(lái)防止過(guò)擬合。
(2)XGBoost目標(biāo)函數(shù)優(yōu)化。
①定義目標(biāo)函數(shù)
(1)
其中
(2)
②優(yōu)化目標(biāo)函數(shù)
(3)
則目標(biāo)函數(shù)可表示為
(4)
(5)
式中:yi-yi(t-1)表示殘差,將公式(5)應(yīng)用二階泰勒展開(kāi)式可表示為
(6)
(7)
(8)
根據(jù)公式(1)中對(duì)模型復(fù)雜項(xiàng)的定義,將其應(yīng)用到公式(8)中可得
(9)
對(duì)上式進(jìn)行求導(dǎo)可得
(10)
將式(10)帶入式(9)中可得
(11)
令Gi=Σi∈Ijgi,Hi=Σi∈Ijhi,則式(11)可表示為式(12),XGBoost利用公式(12)來(lái)作為損失函數(shù)的判斷依據(jù)。
(12)
(3)決策樹(shù)的生成。
在決策樹(shù)的生成過(guò)程XGBoost定義了特征選擇和切分選擇的指標(biāo)
(13)
圖1 技術(shù)路線圖Fig.1 Technology roadmap
本研究選取2016年4月“長(zhǎng)獅9號(hào)”絞吸挖泥船在長(zhǎng)江某水域施工共計(jì)20 000組監(jiān)測(cè)數(shù)據(jù)作為研究案例,用于驗(yàn)證本文所提出的方法。研究路線如圖1所示。
在數(shù)據(jù)預(yù)處理階段,首先將所有數(shù)據(jù)隨機(jī)切分成20%的測(cè)試集和80%的訓(xùn)練集。在訓(xùn)練集上將所有泥漿濃度為0的施工時(shí)刻全部剔除,若泥漿濃度值顯示為0,則在工程上可視為挖泥船并未施工或尚未進(jìn)行泥漿抽吸工作,無(wú)法用于泥漿濃度的預(yù)測(cè)學(xué)習(xí)。
由于挖泥船上的監(jiān)測(cè)數(shù)據(jù)種類繁多且相互之間的量綱不同,無(wú)法同時(shí)進(jìn)行學(xué)習(xí)。所以本文采用區(qū)間縮放法對(duì)所有監(jiān)測(cè)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)處理,如公式(14)所示。
(14)
本文利用Support Vector Machines-Recursive Feature Elimination (SVM-RFE)特征選擇方法對(duì)“長(zhǎng)獅9號(hào)”的數(shù)據(jù)進(jìn)行特征提取,在保證特征對(duì)目標(biāo)最大刻畫(huà)的基礎(chǔ)上盡可能少選取特征類別,最終指定選擇9個(gè)特征列。
SVM-RFE是一種由Guyon[17]首次提出使用的基于SVM的集成特征選擇方法,其算法如表1所示。
表1 支持向量機(jī)-遞歸特征消除算法Tab.1 SVM-RFE algorithm
SVM-RFE通過(guò)數(shù)據(jù)分析選取的9個(gè)對(duì)泥漿濃度預(yù)測(cè)貢獻(xiàn)最大的特征向量如圖2所示,F(xiàn)163為2#艙內(nèi)泵排出壓力,F(xiàn)170為1#艙內(nèi)泵排出壓力,F(xiàn)13為水下泵吸入真空度,F(xiàn)11為絞刀深度,F(xiàn)2為流量,F(xiàn)5為橋架角度,F(xiàn)18為臺(tái)車行程,F(xiàn)196為水下泵排除壓力,F(xiàn)88為絞刀功率。
應(yīng)用XGBoost模型學(xué)習(xí)挖泥船歷史施工數(shù)據(jù),進(jìn)而得到泥漿濃度預(yù)測(cè)模型。利用五折網(wǎng)格搜索交叉驗(yàn)證的方法對(duì)模型參數(shù)進(jìn)行了選定,選定后的模型超參數(shù)如表2所示。
圖2 特征重要度Fig.2 Feature importance
表2 算法模型參數(shù)表Fig.2 Algorithm model parameter
其中表2中的參數(shù)eta表示算法的學(xué)習(xí)率,max_depth表示最大樹(shù)深,n_estimators表示決策樹(shù)的數(shù)目。選取三個(gè)指標(biāo)來(lái)評(píng)價(jià)模型的精度對(duì)本文所應(yīng)用的算法模型進(jìn)行評(píng)價(jià),具體評(píng)價(jià)得分如表3所示。
表3 模型評(píng)價(jià)Fig.3 Model evaluation
由表3可得XGBoost的R2(擬合優(yōu)度,R2∈[0,1])得分為0.953 2;MAE(平均絕對(duì)誤差) 0.982;RMSE(均方根誤差) 1.423,預(yù)測(cè)效果較好。選取測(cè)試集中的500組數(shù)據(jù)與XGBoost預(yù)測(cè)值進(jìn)行對(duì)比分析,圖3為真實(shí)濃度值與預(yù)測(cè)濃度值之間的對(duì)比圖,圖4所示為模型的預(yù)測(cè)值與真實(shí)的測(cè)試數(shù)據(jù)之間的差值對(duì)比圖。
由圖4可得,模型預(yù)測(cè)值與真實(shí)值之間的誤差較小,大部分保持在5%以內(nèi),即證明XGBoost的性能較好。
本文提出了一種基于XGBoost集成學(xué)習(xí)的泥漿濃度預(yù)測(cè)方法,首先對(duì)目標(biāo)挖泥船的歷史施工數(shù)據(jù)進(jìn)行預(yù)處理包括剔除異常數(shù)據(jù)和非施工數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理等。其次,對(duì)處理后的數(shù)據(jù)利用特征工程提取特征,再將選取的特征帶入選定的模型中進(jìn)行訓(xùn)練學(xué)習(xí),最后將訓(xùn)練好的模型應(yīng)用到實(shí)際施工過(guò)程中,XGBoost模型在不斷學(xué)習(xí)進(jìn)一步提高精度,當(dāng)γ泥漿濃度計(jì)發(fā)生故障時(shí)馬上代替物理濃度計(jì)使用,提高了挖泥船施工的連續(xù)性,可作為實(shí)際施工的一種補(bǔ)充手段。