李至立?劉興惠?李媛?盧緒迪
摘? 要:文章旨在基于半潛式平臺(tái)系統(tǒng)故障警報(bào)分類(lèi)數(shù)據(jù)集構(gòu)建故障警報(bào)預(yù)測(cè)模型。采用SMOTE過(guò)采樣與隨機(jī)欠采樣相結(jié)合的混合采樣方法對(duì)訓(xùn)練集進(jìn)行采樣,實(shí)驗(yàn)結(jié)果表明,最佳采樣率為過(guò)采樣率0.3、欠采樣率0.6,此時(shí)隨機(jī)森林在采樣后訓(xùn)練集上采用五折交叉驗(yàn)證訓(xùn)練后得到的AUC得分均值最高。同時(shí)說(shuō)明了該混合采樣方法在采用了最佳的采樣率后可以較好地改善訓(xùn)練集類(lèi)別不平衡問(wèn)題,較大地提高模型的泛化能力。
關(guān)鍵詞:半潛式平臺(tái);警報(bào);混合采樣;集成學(xué)習(xí)
中圖分類(lèi)號(hào):TP18;U661? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2022)06-0079-03
Alarm Prediction Model of Semi Submersible Platform Based on Composite Sampling and Stacking Integration
LI Zhili1, LIU Xinghui1, LI Yuan1, LU Xudi2
(1.Shandong Vheng Data Technology Co., Ltd., Yantai? 264003, China; 2.CIMC Offshore Engineering Institute Co., Ltd, Yantai? 264003, China)
Abstract: The purpose of this paper is to build a fault alarm prediction model based on the fault alarm classification data set of semi submersible platform system. The composite sampling method combining SMOTE with random under sampling is used to sample the training set. The experimental results show that the optimal sampling rate is 0.3 for over sampling and 0.6 for under sampling. At this time, the random forest is trained on the training set after sampling using five fold cross validation, and the mean value of AUC scores is highest. At the same time, it shows that the composite sampling method after using the best sampling rate can improve the class imbalance problem of training set and greatly improve boost the generalization ability of the model.
Keywords: semi submersible platform; alarm; composite sampling; Ensemble Learning
0? 引? 言
作為資源開(kāi)發(fā)的重要海洋工程裝備[1,2],半潛式平臺(tái)一般作業(yè)于環(huán)境惡劣多變的深海區(qū),平臺(tái)系統(tǒng)運(yùn)行穩(wěn)定性受到嚴(yán)峻挑戰(zhàn),故障警報(bào)信號(hào)頻發(fā)[3-7]。根據(jù)故障的嚴(yán)重性和緊急程度,警報(bào)信號(hào)分為低、中、高三個(gè)級(jí)別,其中低級(jí)警報(bào)信號(hào)數(shù)量占比98%,中高級(jí)警報(bào)信號(hào)數(shù)量?jī)H占2%。由于不同等級(jí)的警報(bào)信號(hào)數(shù)量差異巨大,收集到的故障警報(bào)分類(lèi)數(shù)據(jù)集存在類(lèi)別極度不均衡的問(wèn)題,使分類(lèi)模型具有很?chē)?yán)重的偏向性,因此難以構(gòu)建泛化能力強(qiáng)的警報(bào)信號(hào)分類(lèi)預(yù)測(cè)模型。機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能算法基于大數(shù)據(jù)可進(jìn)行復(fù)雜的關(guān)聯(lián)映射,構(gòu)建故障警報(bào)信號(hào)與其誘發(fā)因素間的關(guān)聯(lián)模型。本文首先采用混合采樣方法將故障警報(bào)類(lèi)別不平衡訓(xùn)練數(shù)據(jù)集轉(zhuǎn)換為類(lèi)別平衡訓(xùn)練數(shù)據(jù)集,然后基于該類(lèi)別平衡訓(xùn)練數(shù)據(jù)集采用機(jī)器學(xué)習(xí)算法構(gòu)建平臺(tái)系統(tǒng)故障警報(bào)預(yù)測(cè)模型。
1? 類(lèi)別不平衡數(shù)據(jù)集的混合采樣方法研究
目前解決類(lèi)別不平衡問(wèn)題一般采用預(yù)處理方法、算法中心方法、代價(jià)敏感方法和混合方法四種,其中預(yù)處理方法又可以細(xì)分為特征選擇方法、欠采樣方法、過(guò)采樣方法和混合采樣方法[8-10]。單一的過(guò)采樣方法容易產(chǎn)生過(guò)擬合,而僅通過(guò)欠采樣來(lái)使類(lèi)別平衡容易丟失大量信息,造成欠擬合,因此本文采用將過(guò)采樣與欠采樣相結(jié)合的混合采樣方法來(lái)產(chǎn)生類(lèi)別平衡訓(xùn)練數(shù)據(jù)集,設(shè)置合適的采樣率,降低類(lèi)別不平衡比,既能合成少數(shù)類(lèi)新樣本,彌補(bǔ)少數(shù)類(lèi)樣本數(shù)量的不足,又能防止過(guò)度欠采樣,使多數(shù)類(lèi)損失大量有用的信息。
本文將配電盤(pán)綜合負(fù)載功率、綜合負(fù)載電壓、綜合負(fù)載電流、發(fā)電機(jī)功率、風(fēng)速與推進(jìn)器功率等六個(gè)因素作為建模輸入特征,將中高級(jí)故障警報(bào)信號(hào)標(biāo)記為1,低級(jí)信號(hào)標(biāo)記為0,共收集樣本20 771個(gè),其中類(lèi)別1為619個(gè),類(lèi)別0為20 152個(gè)。數(shù)據(jù)集劃分比例為訓(xùn)練集70%,測(cè)試集30%,測(cè)試集數(shù)據(jù)用于評(píng)估模型的泛化能力。采用SMOTE過(guò)采樣與隨機(jī)欠采樣相結(jié)合的混合采樣方法來(lái)減輕訓(xùn)練數(shù)據(jù)集的類(lèi)別不平衡問(wèn)題。
采用單一的過(guò)采樣或欠采樣方法默認(rèn)將類(lèi)別比例轉(zhuǎn)變?yōu)?:1,但往往不是最合適的類(lèi)別比例,分類(lèi)模型性能并不理想。為了獲得最佳的采樣率,本文設(shè)計(jì)了不同的過(guò)采樣率與欠采樣率組合,得到不同的混合采樣訓(xùn)練集,然后分別在不同混合采樣訓(xùn)練集上采用隨機(jī)森林算法通過(guò)五折交叉驗(yàn)證的方式以ROC_AUC作為模型的評(píng)估指標(biāo),通過(guò)比較驗(yàn)證集ROC_AUC均值的大小來(lái)獲得最佳的采樣率。SMOTE過(guò)采樣與隨機(jī)欠采樣分別通過(guò)調(diào)用類(lèi)別不平衡處理庫(kù)imblearn庫(kù)中的SMOTE與RandomUnderSampler包來(lái)實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果如表1所示。E79B5F08-E8C1-4FB6-BEB0-3E7CA3828A31
由表1可看出,隨機(jī)森林算法在由采樣組合2得到的混合采樣訓(xùn)練集上采用五折交叉驗(yàn)證訓(xùn)練后得到的驗(yàn)證集AUC得分均值最高,因此最佳采樣率是過(guò)采樣率0.3,欠采樣率0.6,即首先應(yīng)用SMOTE,將少數(shù)類(lèi)別1的分布提高到多數(shù)類(lèi)別0的30%,然后使用欠采樣將多數(shù)類(lèi)別0的比例降低到少數(shù)類(lèi)別1的60%。采樣前訓(xùn)練數(shù)據(jù)集中類(lèi)別1樣本個(gè)數(shù)為440,類(lèi)別0樣本個(gè)數(shù)為14 099,不平衡比為32.0;混合采樣后訓(xùn)練數(shù)據(jù)集中類(lèi)別1樣本個(gè)數(shù)為4 229,類(lèi)別0樣本個(gè)數(shù)為7 048,不平衡比降為0.7。
2? 基于Stacking集成的RBXS平臺(tái)系統(tǒng)故障警報(bào)預(yù)測(cè)模型
集成學(xué)習(xí)方法是一種通過(guò)構(gòu)建并結(jié)合多個(gè)基學(xué)習(xí)器來(lái)完成學(xué)習(xí)任務(wù)的機(jī)器學(xué)習(xí)方法。集成學(xué)習(xí)根據(jù)基學(xué)習(xí)器集成的方式方法的不同主要分為Boosting、Bagging、Stacking以及均值法、投票法等常規(guī)結(jié)合方法。本文主要涉及Boosting、Bagging、Stacking集成方法。
2.1? 模型設(shè)計(jì)
單一的分類(lèi)器往往并不能獲得理想的擬合效果和泛化能力,因此本文提出了基于Stacking 集成的RBXS(RF-Bagging-XGBoost Stacking)模型。其中Stacking集成的第一層基分類(lèi)器主要采用 RF、Bagging和XGBoost三個(gè)強(qiáng)分類(lèi)模型,每一個(gè)模型都采用五折交叉驗(yàn)證的方法訓(xùn)練并輸出預(yù)測(cè)結(jié)果到第二層元分類(lèi)器。第二層元分類(lèi)器過(guò)于復(fù)雜易造成過(guò)擬合,所以選擇簡(jiǎn)單的邏輯回歸作為元分類(lèi)器,利用第一層得到的預(yù)測(cè)數(shù)據(jù)進(jìn)行訓(xùn)練并得出最終的預(yù)測(cè)結(jié)果。模型基本結(jié)構(gòu)如圖1所示。
2.2? 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
本文首先采用隨機(jī)森林(Random Forest, RF)、引導(dǎo)聚集算法(Bootstrap aggregating, Bagging)、梯度提升決策樹(shù)(Gradient Boosting Decision Tree, GBDT)、自適應(yīng)提升(Adaptive Boost, Adaboost)、XGBoost(Extreme Gradient Boosting)、LightGBM(Light Gradient Boosting Machine)等單分類(lèi)器建模,在混合采樣訓(xùn)練數(shù)據(jù)集上用網(wǎng)格搜索結(jié)合五折交叉驗(yàn)證的方式進(jìn)行調(diào)參。最優(yōu)參數(shù)組合如表2所示。
為了獲得分類(lèi)效果最好的Stacking集成分類(lèi)器,本文設(shè)計(jì)了四種Stacking第一層基分類(lèi)器組合,具體如表3所示,使用邏輯回歸作為第二層分類(lèi)器。采用5折交叉驗(yàn)證訓(xùn)練這些Stacking集成模型,AUC得分取5次訓(xùn)練后驗(yàn)證集得分的均值,對(duì)比采用不同分類(lèi)器組合的Stacking集成模型及各個(gè)單分類(lèi)器的AUC得分。
由表3可知,第一個(gè)基分類(lèi)器組合都屬于Boosting類(lèi)算法,采用Stacking集成后產(chǎn)生了過(guò)擬合,集成模型AUC得分相比單模型XGBoost及LightGBM得分有一定程度下降;第二個(gè)基分類(lèi)器組合都屬于Bagging類(lèi)算法,Stacking集成后相比單一基分類(lèi)器的泛化能力有較大提高;第三個(gè)基分類(lèi)器組合是在第二個(gè)基分類(lèi)器組合基礎(chǔ)上加入泛化能力最好的單一基分類(lèi)器XGBoost后,Stacking模型AUC得分略有提高;若將所有基分類(lèi)器進(jìn)行Stacking集成,泛化能力反而下降。因此本文提出的Stacking集成的第一層基分類(lèi)器采用 RF、Bagging和XGBoost,并選擇邏輯回歸作為元分類(lèi)器。
2.3? 模型評(píng)估
首先在測(cè)試集上使用ROC_AUC評(píng)估指標(biāo)對(duì)采用了最優(yōu)基分類(lèi)器組合的RBXS模型進(jìn)行評(píng)估,然后采用RBXS模型在原始訓(xùn)練數(shù)據(jù)集上訓(xùn)練并使用相同的測(cè)試集進(jìn)行評(píng)估,對(duì)比采樣前后模型在測(cè)試集上的泛化能力,同時(shí)繪制ROC曲線(xiàn)如圖2所示。
由圖2可知,RBXS模型在未混合采樣的原始訓(xùn)練集上訓(xùn)練后,在測(cè)試集上的AUC得分為0.857(藍(lán)色虛線(xiàn)所示);經(jīng)過(guò)混合采樣的訓(xùn)練集上訓(xùn)練后,在相同測(cè)試集上的AUC得分提高至0.903(紅色實(shí)線(xiàn)所示),AUC得分提高了5.4%。由此說(shuō)明SMOTE過(guò)采樣與隨機(jī)欠采樣相結(jié)合的混合采樣方法較好地改善了訓(xùn)練集類(lèi)別不平衡問(wèn)題,增強(qiáng)了模型對(duì)少數(shù)類(lèi)別的分類(lèi)效果,較大地提高了模型的泛化能力。
3? 結(jié)? 論
鑒于收集到的半潛式平臺(tái)系統(tǒng)故障警報(bào)數(shù)據(jù)集類(lèi)別極度不均衡,難以訓(xùn)練出泛化能力強(qiáng)的警報(bào)信號(hào)分類(lèi)預(yù)測(cè)模型,本文首先采用將SMOTE過(guò)采樣與隨機(jī)欠采樣相結(jié)合的混合采樣方法改善訓(xùn)練集的類(lèi)別不均衡問(wèn)題,然后提出了基于Stacking 集成的RBXS平臺(tái)系統(tǒng)故障警報(bào)預(yù)測(cè)模型,在混合采樣訓(xùn)練集訓(xùn)練后經(jīng)測(cè)試集評(píng)估,該模型的AUC得分達(dá)到0.903,較訓(xùn)練集未經(jīng)過(guò)采樣的測(cè)試集AUC得分提高5.4%,表明該模型具有較好的擬合效果和泛化能力,能夠較準(zhǔn)確地分辨出低級(jí)警報(bào)信號(hào)與中高級(jí)警報(bào)信號(hào)。同時(shí)說(shuō)明了混合采樣方法較好地改善了訓(xùn)練集類(lèi)別不平衡問(wèn)題,提升了模型對(duì)少數(shù)類(lèi)別的分類(lèi)質(zhì)量,較大地提高了模型的泛化能力。
參考文獻(xiàn):
[1] 任仲福.海洋石油鉆井平臺(tái)安全風(fēng)險(xiǎn)以及風(fēng)險(xiǎn)管控分析 [J].科技創(chuàng)新與應(yīng)用,2017(27):124+126.
[2] 閆會(huì)賓.海洋平臺(tái)結(jié)構(gòu)與設(shè)備的可靠度與風(fēng)險(xiǎn)評(píng)估 [D].杭州:浙江大學(xué),2016:1-22.
[3] 白旭,湯榮鏗,羅小芳,等.基于故障樹(shù)分析和貝葉斯網(wǎng)絡(luò)方法的半潛式鉆井平臺(tái)系統(tǒng)多狀態(tài)可靠性分析 [J].中國(guó)造船,2020,61(2):220-228.
[4] 羅小芳,孫宇,白旭,等.基于動(dòng)態(tài)故障樹(shù)的半潛式鉆井平臺(tái)鉆井系統(tǒng)失效風(fēng)險(xiǎn)分析 [J].船舶工程,2019,41(3):107-114.
[5] 賈占橋. 船舶機(jī)電設(shè)備診斷方法研究 [J].內(nèi)燃機(jī)與配件,2020(19):131-132.
[6] 李科文,冷阿偉,劉慶江,等.半潛式鉆井平臺(tái)開(kāi)發(fā)方案綜合評(píng)價(jià)研究 [J].航海工程,2018,47(A01):97-100.
[7] 劉子健,李飛.半潛式平臺(tái)適用性影響因素研究 [J].中國(guó)造船,2019(Z1):392-397.
[8] KAUR H,PANNU H S,MALHI A K. A systematic review on imbalanced data challenges in machine learning:Applications and solutions [J].ACM Computing Surveys(CSUR),2019,52(4):1-36.
[9] KRAWCZYK B. Learning from imbalanced data:open challenges and future directions [J]. Progress in Artificial Intelligence,2016,5(4):221-232.
[10] GUO,H X,LI Y J,SHANG J,et al. Learning from class-imbalanced data:Review of methods and applications [J]. Expert Systems with Applications,2017,73:220-239.
作者簡(jiǎn)介:李至立(1988.01—),男,漢族,山東濟(jì)寧人,中級(jí)工程師,碩士,2011年畢業(yè)于哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè),主要研究方向:大規(guī)模數(shù)據(jù)處理、分布式存儲(chǔ)與分析、商務(wù)智能等。
收稿日期:2022-02-17
基金項(xiàng)目:煙臺(tái)市重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2020JMRH010)E79B5F08-E8C1-4FB6-BEB0-3E7CA3828A31