洪忠鋮
摘 要:大型工程機械設備的核心部件故障通常會造成計劃位停機,致使整個生產(chǎn)現(xiàn)場其他配套設施等待發(fā)生故障的核心部件的修復,從而導致很大的經(jīng)濟損失。對核心部件進行壽命預測可以提前安排相關部件的停機計劃和維護,可以很大程度上減少整個設備的非計劃停機時間,極大地減少停機帶來的經(jīng)濟損失。有鑒于此,文中借助梯度提升決策樹對某類工程機械設備的核心損耗部件進行建模,實現(xiàn)了工程機械核心部件的剩余壽命預測,有助于實現(xiàn)預測性維護,從而減低大型機械設備的維護成本。
關鍵詞:機器學習;工程機械;壽命預測;梯度提升決策樹;物聯(lián)網(wǎng);非計劃停機
中圖分類號:TP391.73文獻標識碼:A文章編號:2095-1302(2020)01-0-04
0 引 言
隨著生產(chǎn)技術的快速發(fā)展和人類社會分工的進一步細化,在許多領域出現(xiàn)了復雜的大型工程機械設備及其配套設施[1-2]。這些大型工程設備極大地提升了人類生產(chǎn)活動的效率。圖1所示為由我國中鐵科工集團機械院自主研制的高鐵施工裝備—40 m跨1 000 t運輸與架設成套設備,其已成功架設了100榀千噸級高鐵箱梁,可以極大的提升高速鐵路建設的速度和降低建設成本。然而,隨之而來的是大型機械工程設備由于自身結(jié)構(gòu)復雜、外部因素影響大、配套設施繁多等,容易造成大型機械設備的一些損耗性的核心部件的性能及健康狀態(tài)產(chǎn)生衰退或甚至出現(xiàn)故障和完全報廢[3]。由于大型機械工程設備在生產(chǎn)過程中通常起著關鍵作用,只要核心部件發(fā)生了計劃外的故障或報廢,就很容易給整個設備帶來嚴重后果,給生產(chǎn)活動帶來巨大的經(jīng)濟損失。同時,由于大型機械故障本身的復雜結(jié)構(gòu)和受到的外部影響及配套設施的繁多,其故障表現(xiàn)形式呈現(xiàn)多樣化、故障發(fā)生機理呈現(xiàn)復雜化。特別是核心部件的損耗導致的壽命變化,目前尚無合適的模型來刻畫其演變機理。因此,如何保障大型工程機械設備在實際生產(chǎn)環(huán)境下的安全、穩(wěn)定、可靠、經(jīng)濟的運行成為了當前的熱點研究問題。對于大型工程機械設備而言,科學評估好損耗性的核心部件的壽命,并以此安排好生產(chǎn)和維護計劃,可以極大的減少計劃外停機造成的生產(chǎn)事故和經(jīng)濟損失。因此,通過物聯(lián)網(wǎng)技術來收集大型機械設備的損耗性的核心部件的全生命周期的運行數(shù)據(jù),借助機器學習和大數(shù)據(jù)分析技術,建立科學合理的模型預測出核心部件的壽命,對大型機械設備的運行和維護有著非常重要的意義。
1 相關研究工作
現(xiàn)有的機械部件的壽命預測研究主要分為基于物理模型的預測方法和基于數(shù)據(jù)驅(qū)動的壽命預測方法等?;谖锢砟P偷氖S鄩勖A測方法起步比較早。隨著對機械部件的物理模型的壽命實驗和失效退化機制研究的不斷深入,一些具有較大研究價值的常用核心部件的物理模型及其失效退化機制的研究已經(jīng)較為成熟,并獲得了精度很高的預測結(jié)果。然而,在實際工程應用中,建立起種類眾多的核心部件的物理模型及其失效機制模型難度非常高而且費時費力,因此基于物理模型的只適用于一些使用普遍、對壽命預測精度要求非常高的少量關鍵的核心部件的壽命預測。在基于物理模型的剩余壽命研究方面,針對材料的低周疲勞壽命問題,商體松等人在基于三參數(shù)冪函數(shù)公式對比分析的基礎上,分析了引起材料疲勞損傷的原因,建立了一種能夠直觀反應設備的損傷能量密度跟疲勞壽命之間的關聯(lián)關系的剩余壽命預測模型[4]。范磊等人則針對行星架的剩余壽命預測問題,提出了一種以裂紋長度為指標的剩余壽命預測方法[5]。謝吉偉等人則針對產(chǎn)品的衰退模式的動態(tài)轉(zhuǎn)移現(xiàn)象,在IMM算法的基礎上提出了一種新的剩余壽命預測模型[6]。這些方法都是在分析設備本身的性能衰退等的機理的基礎上建立的剩余壽命預測模型,需要對設備的物理模型、性能衰退機制等非常熟悉。
基于數(shù)據(jù)驅(qū)動的剩余壽命預測方法是借助物聯(lián)網(wǎng)技術大量收集核心部件整個全生命周期內(nèi)的運行工況數(shù)據(jù),以機器學習和大數(shù)據(jù)分析技術來在大量數(shù)據(jù)的基礎上建立核心部件的壽命預測模型,并根據(jù)要預測的核心部件現(xiàn)有的運行工況數(shù)據(jù),預測其剩余壽命?;跀?shù)據(jù)驅(qū)動的方法主要難點在于需要大量的核心部件全生命周期的運行工況數(shù)據(jù)作為訓練集來構(gòu)建模型。隨著物聯(lián)網(wǎng)技術和云計算技術的快速發(fā)展和普及,核心部件的歷史運行工況數(shù)據(jù)的采集與收集已經(jīng)變得越來越容易,使得數(shù)據(jù)驅(qū)動的剩余壽命預測方法越來越成為研究的主流。在基于數(shù)據(jù)驅(qū)動的剩余壽命研究方面,蔡忠義等人在發(fā)現(xiàn)性能退化過程服從Wiener過程,在此基礎上提出了基于貝葉斯估計的融合線上線下產(chǎn)品失效數(shù)據(jù)的壽命預測方法[7]。胡姚剛等人則針對電軸承構(gòu)建溫度特征量的性能退化模型,提出一種基于溫度特征量的風電軸承性能退化建模及其實時剩余壽命預測方法[8]。這些方法都是在對設備運行工況數(shù)據(jù)的分布規(guī)律進行分析的基礎上,利用了機器學習方法來建立剩余壽命預測模型。
大型工程機械的核心部件壽命預測問題本質(zhì)上是一個典型的回歸預測問題,因此可以采用目前主流的回歸預測算法,如線性回歸、隨機森林[9]、樸素貝葉斯[10]、梯度提升決策樹等算法。其中,嶺回歸和邏輯回歸算法運算速度快,但在泛化能力和魯棒性等方面不如隨機深林和梯度提升決策樹等算法。隨機深林對噪聲數(shù)據(jù)不敏感、泛化能力和魯棒性都很強,但參數(shù)設置不當很容易出現(xiàn)過擬合的問題。而梯度提升決策樹算法在模型的魯棒性、泛化能力、運算速度、抗干擾能力以及對枚舉型參量的支持能力等方面都表現(xiàn)優(yōu)異,因此綜合考慮核心部件壽命預測問題的需求,本文采用梯度提升決策樹算法作為構(gòu)建預測模型使用的回歸算法。
2 任務描述
2.1 數(shù)據(jù)格式
為了實現(xiàn)對某工程機械設備的核心部件進行剩余壽命預測,需要采集一批該類設備的歷史全生命周期的運行數(shù)據(jù),包括該部件的工作時長、溫度、轉(zhuǎn)速、電流、電壓等多類工況數(shù)據(jù),其數(shù)據(jù)表的結(jié)構(gòu)見表1所列。
由于大型工程機械設備的損耗性的核心部件的運行數(shù)據(jù)涉及到整個工程機械運行的安全以及商業(yè)機密,因此在本文中使用的設備類型、工況數(shù)據(jù)等的具體值都是經(jīng)過一定脫敏處理后的數(shù)據(jù)。在脫敏過程中已考慮了盡量不影響數(shù)據(jù)之間蘊含的關系。數(shù)據(jù)集共采集了916個核心部件的全生命周期的運行工況數(shù)據(jù)共計約2 600萬條。
2.2 任務描述
基于表1中916個核心部件的約2 600萬條全生命周期的運行工況數(shù)據(jù),通過數(shù)據(jù)分析,建立一個機器學習模型,獲取對于給定的一批損耗性的核心部件的歷史運行過程中的工況數(shù)據(jù),預測每個核心部件的剩余壽命,即通過每個給定的損耗性的核心部件的歷史運行過程的工況數(shù)據(jù)預測表2所列的數(shù)據(jù)。
3 基于梯度提升決策樹的剩余壽命預測模型
3.1 整體框架
本文提出的基于梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)的整體框架如圖2所示。首先,對利用物聯(lián)網(wǎng)技術采集的核心部件的全生命周期的運行數(shù)據(jù)進行初步的預處理,修訂缺失值或異常值等;隨后,根據(jù)要預測的任務,通過設定不同的設備運行時間和剩余壽命的標簽值來將訓練集的數(shù)據(jù)擴充4倍,實現(xiàn)數(shù)據(jù)增強。其次,對核心設備歷史運行過程中的工況數(shù)據(jù)進行統(tǒng)計分析,提取刻畫核心設備歷史運行狀態(tài)和運行過程的特征。然后再進行數(shù)據(jù)集劃分、構(gòu)建GBDT模型和進行模型評估。
3.2 數(shù)據(jù)預處理與數(shù)據(jù)增強
實際生產(chǎn)過程中采集的數(shù)據(jù)通常都有不同程度的數(shù)據(jù)質(zhì)量問題,包括數(shù)據(jù)缺失、數(shù)據(jù)異常等,因此需要先對這些數(shù)據(jù)進行預處理。此外,由于采集大型機械設備的損耗性的核心部件的全生命周期的運行數(shù)據(jù)需要長時間的積累,導致所能收集到的樣本的數(shù)量非常少,因此必須根據(jù)數(shù)據(jù)和問題的特點來使用合理的數(shù)據(jù)增強方式,擴充數(shù)據(jù)集的大小。在數(shù)據(jù)預處理方面,主要是針對該列數(shù)據(jù)的含義,將缺失值填充為0、均值、中值、前一個有效值等??紤]到核心部件的壽命預測是一個回歸問題,因此采用了將訓練集的全生命周期數(shù)據(jù)截取不同比例來產(chǎn)生不同的樣本:比如分別截取前面25%,50%,75%和100%的運行數(shù)據(jù)分別作為不同的樣本。這些樣本的剩余壽命(標簽)都會存在差異,從而形成有效的新樣本。采用截取方式進行數(shù)據(jù)增強的方式如圖3所示。
3.3 特征工程
給定的損耗性的核心設備的運行數(shù)據(jù)是借助物聯(lián)網(wǎng)技術采集的每個時刻的運行工況數(shù)據(jù),無法直接用于刻畫該設備的歷史運行狀況和磨損等的整體情況,因此需要借助統(tǒng)計分析來提取有效的數(shù)值化的統(tǒng)計特征作為機器學習模型的輸入數(shù)據(jù)。通過分析可能對核心部件的剩余壽命產(chǎn)生影響的因素,這里提取了表3所列的特征來構(gòu)建GBDT模型。
表3中,“xxx”為核心部件的運行工況數(shù)據(jù)中的工作時長、累積量參數(shù)、轉(zhuǎn)速、壓力、溫度、流量等,即對這些工況數(shù)據(jù)中的每一種都提取其最大值、最小值、中值、均方差和標準差等統(tǒng)計特征。
3.4 梯度提升決策樹模型
通過上述的數(shù)據(jù)預處理、數(shù)據(jù)增強和特征工程,提取出損耗性的核心部件歷史運行過程中的工況信息的統(tǒng)計特征。將核心部件的某個時刻的數(shù)據(jù)轉(zhuǎn)化為對該部件的整個歷史運行過程進行刻畫的數(shù)值化特征信息,從而只需借助現(xiàn)有的機器學習回歸算法如梯度提升決策樹即可利用標注好的訓練集數(shù)據(jù)進行訓練,構(gòu)建出預測模型??紤]到現(xiàn)有的梯度提升決策樹模型的不同實現(xiàn)之間的易用性、性能等,本文采用微軟開源的LightGBM[11]作為梯度提升決策樹模型的算法實現(xiàn),基于上述特征工程部分提取的特征來構(gòu)建預測模型。
4 實驗評估
4.1 評測方案
為驗證所提出的基于梯度提升決策樹的核心部件的壽命預測模型的性能,本文使用了某公司提供的某類機械設備的損耗性的核心部件的全生命周期的實際運行工況數(shù)據(jù)共計約2 600萬條,涉及核心部件約900個,該數(shù)據(jù)的分布情況見表4所列。
從表4中可以看出,work_time字段表示的是工作時長,應該都是大于或等于0的數(shù)值,但在實際環(huán)境中由于各種原因?qū)е铝藬?shù)據(jù)錯誤或異常,出現(xiàn)了負數(shù),因此必須要進行數(shù)據(jù)預處理。
4.2 評價指標
為了了解所建立的機器學習模型的性能指標,考慮到大型工程機械的損耗性的核心部件的壽命預測問題的特點,采用如下的評價指標作為模型的評價函數(shù):
式中:ri表示第i個樣本的真實剩余壽命;表示第i個樣本的剩余壽命的預測值。
4.3 評測結(jié)果及分析
為檢驗所建立的核心部件的預測模型的效果,對數(shù)據(jù)增強后獲得的4 580個樣本分別按10%,20%和30%的比例劃歸為測試樣本,另外部分的90%,80%和70%作為訓練樣本,分別構(gòu)建隨機森林和GBDT模型進行了對別測試,其評測得分結(jié)果見表5所列。
由表5可見,基于梯度提升決策樹構(gòu)建的機器學習模型在大型機械工程設備的損耗性的核心部件的剩余壽命預測中獲得了較好的效果。
5 結(jié) 語
大型工程機械的損耗性的核心部件的剩余壽命預測是對機械設備進行預測性維護的基礎,可極大的減低大型工程機械設備的計劃外停機時間和次數(shù)、減低維護成本。本文提出了基于梯度提升決策樹的大型機械設備的損耗性的核心部件的預測模型,采用按設備使用時長進行截斷來擴展數(shù)據(jù)的數(shù)據(jù)增強方法和基于統(tǒng)計分析提取特征的特征工程技術,基于梯度提升決策樹來構(gòu)建機器學習模型,實現(xiàn)了對核心設備的剩余壽命預測,取得了較好的效果。
參 考 文 獻
[1]馬建,孫守增,芮海田,等.中國筑路機械學術研究綜述·2018[J].中國公路學報,2018,31(6):1-164.
[2]楊青.我國工程機械行業(yè)發(fā)展的機遇與挑戰(zhàn)[J].科技風,2018(29):220.
[3]徐寧.公路工程機械發(fā)動機的主要零件耗損及維護[J].交通世界,2019(9):112-113.
[4]商體松,趙明,陳養(yǎng)惠.基于三參數(shù)冪函數(shù)的低周疲勞壽命預測方法研究[J].推進技術,2015,36(6):907-911.
[5]范磊,王少萍,張超,等.直升機行星架疲勞裂紋擴展壽命預測[J].北京航空航天大學學報,2016,42(9):1927-1935.
[6]謝吉偉,劉君強,王小磊.應用交互式多模型算法的設備剩余壽命預測[J].空軍工程大學學報(自然科學版),2016,17(2):98-102.
[7]蔡忠義,陳云翔,李韶亮,等.考慮隨機退化和信息融合的剩余壽命預測方法[J].上海交通大學學報,2016,50(11):1778-1783.
[8]胡姚剛,李輝,廖興林,等.風電軸承性能退化建模及其實時剩余壽命預測[J].中國電機工程學報,2016,36(6):1643-1649.
[9] LING Gan,F(xiàn)U Chen. Human action recognition using apj3d and random forests [J]. Journal of software,2013,8(9):188-198.
[10] FLASH Peter A,LACHICHE Nicolas. Naive bayesian classification of structured data. [J]. Mach learn,2004,57(3):233-269.