摘 要:海洋平臺壓力容器在運行中承受較大的工作載荷,服役環(huán)境復雜,常出現(xiàn)裂紋、腐蝕等失效問題,常用超聲波測厚無損檢測技術對設備服役狀況進行定期檢測。本文采用機器學習算法構(gòu)建設備壁厚預測模型,基于歷史檢測數(shù)據(jù)實現(xiàn)海上壓力容器減薄情況的預測功能。經(jīng)樣本數(shù)據(jù)的特征工程處理,以容器壁厚作為模型預測目標,設計溫度、工作壓力、容器類型等基礎數(shù)據(jù)作為輸入,對模型進行訓練及測試。結(jié)合模型預測性能的評估及調(diào)參處理,獲取預測評價指標較優(yōu)的XGBoost模型。該模型能夠為設備狀態(tài)的評估及風險策略提供指導作用,對海洋平臺的安全生產(chǎn)具有重要意義。
關鍵詞:壓力容器;壁厚預測;XGBoost模型
中圖分類號:TE 951 文獻標志碼:A
海上壓力容器是海洋石油平臺的重要設備,分為存儲類、換熱類、分離類和反應類。由于海洋環(huán)境的特殊性及運行條件的復雜性,海上平臺壓力容器的損傷及失效風險增加。為提高其穩(wěn)定運行能力,需要定期進行超聲波測厚等無損檢測技術指導維修或更換,確保設備穩(wěn)定運行[1]。隨著計算機及通信技術進步,特種設備檢驗檢測行業(yè)迎來轉(zhuǎn)型升級的關鍵期。人工智能在機器學習、知識圖譜、人機交互等技術上不斷突破,具有廣闊的研究及應用前景[2]。本文基于壓力容器設備檢測的歷史數(shù)據(jù),結(jié)合XGBoost、LightGBM、Random Forest等機器學習算法構(gòu)建預測模型,實現(xiàn)容器壁厚或減薄率的精準預測,提升設備運維的智能化水平。研究結(jié)果對機器學習預測算法的應用及不同類型容器壁厚的準確評估具有指導意義。
1 數(shù)據(jù)處理及準備
1.1 數(shù)據(jù)來源及數(shù)據(jù)文件解析
本研究主要基于同一年份不同類型的壓力容器設備年度檢驗數(shù)據(jù),通過數(shù)據(jù)清洗及處理,引進數(shù)據(jù)統(tǒng)計和分析技術,并結(jié)合機器學習智能算法,完成容器設備壁厚的預測工作。其中,對Excel格式數(shù)據(jù)文件進行解析,獲取用于訓練的數(shù)據(jù),運用Python的工具Pandas讀入Excel格式文件,將處理后的數(shù)據(jù)保存為csv格式并進行數(shù)據(jù)引入。
1.2 數(shù)據(jù)預處理及數(shù)據(jù)特征工程
基于壓力容器的基礎數(shù)據(jù)信息進行預處理,避免因數(shù)據(jù)未處理而導致數(shù)據(jù)信息紊亂、缺失、數(shù)據(jù)的邏輯不符等影響數(shù)據(jù)分析的問題,主要包括數(shù)據(jù)清洗、數(shù)據(jù)歸一化等。采用正則表達式并制定判定規(guī)則,對數(shù)據(jù)進行清洗及特征構(gòu)建,保證數(shù)據(jù)信息的一致性,提高建模的收斂速率和精度。對需要使用的特征進行篩選,利用頻率統(tǒng)計篩選包括信息量過少、數(shù)據(jù)缺失量較大特征及取值單一的特征,當樣本空值特征占比大于30%時,去除該樣本數(shù)據(jù)。
針對模型訓練和測試開展的數(shù)據(jù)特征工程主要包括以下3個方面的內(nèi)容。1)直接特征。“工作溫度”,采用正則方式對溫度的數(shù)值進行提取及標準處理。針對含管程與殼程的換熱類設備進行組合及劃分,提取溫度的個數(shù),針對“常溫”等具有含義的內(nèi)容,將其轉(zhuǎn)換為數(shù)據(jù);“工作壓力”,與工作溫度特征提取流程一致,對“量綱”進行處理,例如統(tǒng)一壓力單位量級;“腐蝕余量”,分析其數(shù)據(jù)模式并取數(shù)字中最小值作為特征;“設計壽命”,運用3sigma原理進行過濾;“公稱容積”、“內(nèi)徑”,直接提取各值;“制造日期”、“投產(chǎn)日期”,統(tǒng)一為年月格式,“投產(chǎn)月數(shù)”為“投產(chǎn)日期”減去“制造日期”,經(jīng)Excel對日期進行特征處理及提取。2)類別型特征。篩選可進行onehot的特征,例如殼體材質(zhì)、容器類型、油田群、系統(tǒng)名稱,對取值進行規(guī)范化處理,即對描述同一內(nèi)容而使用了不同表達的特征值進行處理,并對數(shù)量過少的類型用“其他”代替。3)檢測數(shù)據(jù)處理。針對“厚度”進行數(shù)據(jù)處理,設置代碼通過厚度計算的方式獲得“減薄量”,即名義厚度減去實測厚度。
2 預測模型的建立
2.1 基于機器學習算法構(gòu)建預測模型
結(jié)合機器學習算法模型的應用及要求,其運行機制主要基于檢驗數(shù)據(jù)的格式和數(shù)據(jù)結(jié)構(gòu),對預測模型進行設計、訓練和測試等,以達到設備壁厚預測的目標。綜合考慮數(shù)據(jù)類型、模型效果和運行效率,選擇機器學習中的XGBoost、LightGBM、Random Forest集成模型[3-5]。其中,LightGBM主要基于決策樹學習算法,其分支為測試的輸出,葉節(jié)點為各個類別,按葉子(leaf-wise)生長的策略,即按照最大分裂增益為葉子節(jié)點進行分裂計算,每個樣本通過變量進行樹結(jié)構(gòu)的映射;XGBoost采用極端層次增強方法,基于梯度增強決策樹,以優(yōu)化目標函數(shù)值為主的改進算法,每棵樹(函數(shù))逐次添加,樹與樹之間串行,可在同一級結(jié)點并聯(lián),分離結(jié)點的增益以多線程方式并行;Random Forest為集成學習算法,參數(shù)以強學習器最大迭代次數(shù)、隨機發(fā)生器種子數(shù)、最大特征數(shù)等為主,經(jīng)抽樣集成多顆決策樹優(yōu)化模型,基于多個決策樹模型的融合,提高其擬合能力。
在選擇對應的集成模型架構(gòu)后,針對同一數(shù)據(jù)集樣本進行劃分,隨機選取上述結(jié)構(gòu)化及處理后的數(shù)據(jù)中的80%作為訓練集,20%作為測試集。以容器測厚作為模型預測目標,其他基礎特征作為模型輸入,模型提取特征后分別進行訓練和測試,結(jié)合模型預測精度的評估結(jié)果進行優(yōu)化,達到精度要求后保存最優(yōu)模型,以此實現(xiàn)容器設備壁厚的機器學習回歸預測模型的構(gòu)建。
2.2 模型預測性能評估
本研究主要采用評估模型的預測性能方法,包括均方誤差mse、平均絕對誤差mae、平均相對誤差mre、決策系數(shù)r2、皮爾遜相關系數(shù)pearson。對結(jié)果進行處理后,采用適用于分類任務的評價指標,包括準確率accuracy、精準率precision、召回率recall、精準率與召回率的調(diào)和均值f1、正例排在負例前的概率auc等評估模型整體的預測趨勢,以全方位評估模型效果。經(jīng)過對3種模型的訓練及結(jié)果驗證,計算各個模型的均方根誤差損失,在運行效率滿足的條件下,選擇損失得分較小的模型進行應用。
對各設備測量部位不同測厚電位的減薄量進行匯總統(tǒng)計,以減薄量的均值作為預測特征值。通過分類指標對預測模型進行評估,不同預測模型的評價結(jié)果值見表1。經(jīng)比對,綜合分析XGBoost模型的均方誤差、平均絕對誤差評價指標值相對較小,r2較接近1,表明XGBoost模型的預測性能較優(yōu),選用XGBoost模型進行進一步調(diào)參優(yōu)化。
2.3 XGBoost模型優(yōu)化
為提高模型的準確性,對該機器學習模型進行調(diào)優(yōu),并降低過擬合,使模型預測性能最大化。對learning_rate(學習率)、max_depth(數(shù)的最大深度)、min_child_weights(最小葉子節(jié)點樣本權(quán)重)、num_leaves(決策樹葉子數(shù)量)等進行調(diào)整,提高準確率,其他參數(shù)為默認值。經(jīng)模型調(diào)參后,XGBoost模型的mse最小值為0.7491,此時的模型預測性能達到最優(yōu),即對應的最優(yōu)參數(shù)如下:max_depth=9,min_child_weight=1,n_estimators=200,colsample_bytree=0.7,learning_rate=0.07。
對優(yōu)選的模型參數(shù)進行K折交叉驗證,以進一步對模型參數(shù)進行調(diào)優(yōu),主要將數(shù)據(jù)集分割為K個子集,經(jīng)K-1折作為訓練數(shù)據(jù),對模型進行訓練后,對數(shù)據(jù)的剩余1折做驗證,使各樣本均有一次機會進行驗證。如圖1所示,表現(xiàn)了10折交叉驗證結(jié)果,相關評價指標的查準率(Precision)為70%~80%,查全率(Recall)為50%~60%,F(xiàn)1-Score為70%~75%。整體來說,相關指標較高并且較穩(wěn)定,驗證XGBoost模型能夠用于容器類設備減薄情況的預測。
2.4 結(jié)果與分析
2.4.1 容器厚度及預測差異的影響分析
不同類型容器的厚度差異較大,部分厚度較大的容器其誤差相對較大,圖2展示了不同厚度組別所對應統(tǒng)計的減薄量均值情況。由圖2可知,厚度越大的分組所出現(xiàn)增厚的可能性越大(減薄量為負值表示增厚)。查看減薄量差異較大的樣本數(shù)據(jù)部分,減薄量預測值或真實值過大均會造成誤差偏大的情況。
同時,對厚度差異過大的樣本中存在不合理的數(shù)值進行篩選,并刪除平均測量厚度小于1的樣本數(shù)據(jù),處理后經(jīng)10折交叉驗證,并對比前后結(jié)果,如圖3中XGBoost(去除異常)顯示,mse明顯降低。
此外,當容器厚度大于43時,減薄量數(shù)值變化明顯,通過去除厚度過大的容器,保留99分位數(shù)(43)以內(nèi)的厚度樣本,并對數(shù)據(jù)集進行預測,結(jié)果顯示mse指標略有提升。為了避免出現(xiàn)預測值過大的可能,刪除真實減薄值過大的樣本,以降低偏差,經(jīng)篩選發(fā)現(xiàn)數(shù)據(jù)中僅有1條數(shù)據(jù)減薄量大于5并達10以上,將其刪除后,預測結(jié)果mse有所提升(如圖3所示)。
2.4.2 厚度分段建模及效果分析
由于隨著容器厚度增加,減薄量方差變大,考慮厚度較大的容器樣本可能會對較小厚度樣本的預測產(chǎn)生負面影響,因此選用容器厚度為43以內(nèi)的數(shù)據(jù)樣本進行容器厚度分段建模,即通過選擇50分位數(shù)(12),對厚度小于12和大于等于12的樣本分別建模。分析得知,厚度小于12時,建模進行預測后的mse指標值約為0.336,當厚度大于12時,預測指標mse變大,約為0.685。由此表明,厚度大的樣本對厚度小的樣本的預測可能產(chǎn)生干擾。
2.4.3 特征優(yōu)化
由于厚度分組后對模型的預測結(jié)果影響較大,因此在特征中增加“設計厚度”。將增加“設計厚度”特征后預測模型的評價指標值(mse2)與原結(jié)果(mse1)進行對比,見表2。
經(jīng)對比以上結(jié)果可知,一方面,增加設計厚度特征后各組中的mse結(jié)果大多數(shù)呈下降的趨勢,表明模型預測效果有所提升。另一方面,各項措施趨勢基本與原有試驗結(jié)果一致,驗證預測效果提升并非隨機。因此,增加“設計厚度”特征后,對比分析評價指標,其預測性能獲得了相對全面的提升。
2.4.4 結(jié)果分析
經(jīng)比對,使用該XGBoost模型對容器設備減薄的預測值與真實值進行誤差分析(如圖4所示),根據(jù)預測誤差的分布情況得知,該XGBoost模型預測的誤差符合正態(tài)分布,獲得的模型可用于相關場景的預測并有較好的效果。
3 結(jié)語
本文基于海上壓力容器超聲測厚檢測檢驗數(shù)據(jù)集,選取設備對象的基礎數(shù)據(jù)及檢測數(shù)據(jù)特征進行數(shù)據(jù)處理,使用XGBoost機器學習算法建立容器類設備壁厚預測模型,運用評價指標對模型預測性能進行分析評估,并對模型進行優(yōu)化調(diào)參。結(jié)果表明,本文測得XGBoost算法比另外2種機器學習模型的預測性能更高,模型經(jīng)調(diào)參優(yōu)化后,準確率及查準率均有提升。通過分析容器本身的厚度以及預測減薄量的差異等情況對模型預測效果產(chǎn)生偏差的影響,分別對容器厚度進行分段模型預測,厚度小的模型的預測效果比厚度大的模型好,并且采用對厚度預測特征的數(shù)據(jù)處理及設計厚度特征的增加的方式,方差減小,預測效果全面提升。該模型用于容器類設備壁厚的預測誤差符合正態(tài)分布,具有較好的應用效果。本文模型后續(xù)將嘗試積累更多不同類型容器數(shù)據(jù),并對介質(zhì)進行分類及采集,擴展應用范圍,對XGBoost模型進行進一步更新訓練,并嘗試引入神經(jīng)網(wǎng)絡算法對容器類設備壁厚進行預測及優(yōu)化。
參考文獻
[1]紀玉磊.探究海上壓力容器腐蝕檢測技術[J].中國石油和化工標準與質(zhì)量,2023,43(1):57-59.
[2]李奇,牟善軍,姜巍巍,等.海上石油平臺定量風險評估[J].中國海洋平臺,2007,22(6):38.
[3]周志華.機器學習[M].北京:清華大學出版社,2016.
[4]BREIMAN L.Randomforests[J].Machine learning,2001,45(1):5-32.
[5]CHEN T,HE T,BENESTY M,etal.Xgboost:extreme"gradient boosting[J].R package version 0.4-2,2015,1(4):1-4.