蔡光偉 李揚 方志 蔣遂平
摘 要:針對機械設(shè)備工況傳感數(shù)據(jù)維度高、數(shù)據(jù)量大的特點,提出了一種基于極限學(xué)習(xí)機的故障診斷方法。首先,將機械設(shè)備傳感器收集到的數(shù)據(jù)進行規(guī)范化處理,并采用過采樣方法解決樣本數(shù)據(jù)類別不平衡的問題;其次,通過預(yù)處理后的訓(xùn)練數(shù)據(jù)構(gòu)建極限學(xué)習(xí)機模型,采用增量式方法確定隱層節(jié)點最佳數(shù)目。在氣壓系統(tǒng)數(shù)據(jù)集上的實驗結(jié)果表明,與其他機器學(xué)習(xí)方法相比,基于極限學(xué)習(xí)機的機械設(shè)備故障診斷方法在訓(xùn)練速率和故障查全率上更具優(yōu)越性。
關(guān)鍵詞:極限學(xué)習(xí)機;過采樣;隱層節(jié)點;故障診斷;神經(jīng)網(wǎng)絡(luò);反向傳播
中圖分類號:TP39文獻標(biāo)識碼:A文章編號:2095-1302(2020)04-00-03
0 引 言
隨著計算機技術(shù)和物聯(lián)網(wǎng)技術(shù)的快速興起與蓬勃發(fā)展,各類傳感器已大量嵌入到機械設(shè)備中,用以實時采集設(shè)備運行過程中的工況數(shù)據(jù)。如何有效利用傳感器采集到的工況數(shù)據(jù)進行故障診斷,實現(xiàn)設(shè)備故障的快速定位與檢測,消除設(shè)備運行的安全隱患,已成為機械維修保障領(lǐng)域的發(fā)展趨勢。
本文提出了一種基于極限學(xué)習(xí)機的故障診斷模型。對機械設(shè)備工況數(shù)據(jù)進行預(yù)處理后,采用增量式方法確定極限學(xué)習(xí)機隱層節(jié)點最佳節(jié)點數(shù)目,構(gòu)建極限學(xué)習(xí)機最終模型。在氣壓系統(tǒng)數(shù)據(jù)集上的實驗結(jié)果表明,本模型具有較大的優(yōu)
越性。
1 極限學(xué)習(xí)機
極限學(xué)習(xí)機(Extreme Learning Machine,ELM)是由新加坡南洋理工大學(xué)的Huang等人提出的一種基于單隱層前向神經(jīng)網(wǎng)絡(luò)(Single-Hidden Layer Feedforward Network,SLFN)構(gòu)建的機器學(xué)習(xí)算法,適用于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)[1]。
極限學(xué)習(xí)機具有如下特點:
(1)只需人工設(shè)置隱含層節(jié)點數(shù)目,訓(xùn)練算法執(zhí)行過程中無需人工調(diào)整參數(shù);
(2)避免了傳統(tǒng)訓(xùn)練算法反復(fù)迭代的過程,可以快速收斂,極大地減少了訓(xùn)練時間;
(3)所得解是唯一最優(yōu)解,保證網(wǎng)絡(luò)的泛化性能[2-4]。
SLFN的學(xué)習(xí)模式可以描述為對于M個不同的樣本
(xi, ti),xi=(xi1, xi2, ..., xiN)∈RN,g (x)為激活函數(shù)。具有個隱含層節(jié)點的SLFN前向傳播過程可以表示為:
(1)
式中:wi=[wi1, wi2, ..., wiN]T為連接第i個隱含節(jié)點和輸入層各節(jié)點的權(quán)值向量;βi=[βi1, βi2, ..., βim]T為連接第i個隱含節(jié)點和輸出層各節(jié)點的權(quán)值向量;bi為第i個隱含層節(jié)點的偏置。
通過反向傳播(Back Propagation,BP)多次迭代的SLFN可以有效擬合M個樣本:,即存在βi,wi,bi使得:
(2)
個等式可以寫成:
Hβ=T? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3)
其中:
(4)
式中,H為神經(jīng)網(wǎng)絡(luò)隱含層的輸出矩陣,H的第i列為神經(jīng)網(wǎng)絡(luò)隱含層的第i個節(jié)點輸出。
ELM與SLFN在結(jié)構(gòu)上大體相似,由輸人層、隱含層和輸出層構(gòu)成。但不同于SLFN利用傳統(tǒng)的BP算法反復(fù)迭代求得各層的權(quán)值向量與偏置,ELM學(xué)習(xí)算法是對輸入層權(quán)值w和偏置b進行隨機賦值,然后利用求Moore-Penrose廣義逆矩陣的方法直接求解出隱層節(jié)點到輸出層節(jié)點的
權(quán)值[2]β。
β=H-1T? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(5)
式中,H-1為H的逆矩陣或者Moore-Penrose廣義逆矩陣。
2 技術(shù)方案
2.1 數(shù)據(jù)規(guī)范化
一個訓(xùn)練數(shù)據(jù)xi有N個屬性,xi=(xi1, xi2, ..., xiN),則N為xi的維數(shù)。收集訓(xùn)練數(shù)據(jù)時,將數(shù)據(jù)的各屬性用數(shù)值表示。如果數(shù)據(jù)xi的屬性xij數(shù)值缺失,則標(biāo)記為“不可用/na”。
由于訓(xùn)練數(shù)據(jù)來源于不同的傳感器,數(shù)據(jù)的各屬性值往往具有量綱不同、數(shù)值范圍差異大等特點??梢酝ㄟ^2次規(guī)范化操作進行數(shù)據(jù)預(yù)處理,分別為屬性值的規(guī)范化和單位向量化。
如果屬性的可用數(shù)據(jù)值的平均值和方差分別為μj和σj,則屬性的每個可用屬性值xij根據(jù)平均值和方差進行規(guī)范化,這樣不同屬性的屬性值就可落入相近范圍:
(6)
在規(guī)范化過程中,如果屬性值xij標(biāo)記為“不可用/na”,則x'ij=0。相當(dāng)于將標(biāo)記為“不可用/na”的缺失值用平均值替代。
由于訓(xùn)練數(shù)據(jù)中可能缺失數(shù)據(jù),導(dǎo)致數(shù)據(jù)之間存在差異,因此還需要進行單位向量化處理,進一步消除訓(xùn)練數(shù)據(jù)之間的差異。對每個訓(xùn)練數(shù)據(jù)x'i=(x'i1, x'i2, ..., x'iN)進行單位向量化,得到x''i=(x''i1, x''i2, ..., x''iN):
(7)
2.2 數(shù)據(jù)分布調(diào)整
由于機械設(shè)備在多數(shù)時間處于正常工作狀態(tài),因此,傳感器采集到的設(shè)備工況數(shù)據(jù)多為正常狀態(tài)數(shù)據(jù),只有很少的故障狀態(tài)數(shù)據(jù)。為了緩解少數(shù)類故障數(shù)據(jù)與多數(shù)類正常數(shù)據(jù)之間的不平衡程度,我們對規(guī)范化后的數(shù)據(jù)進行數(shù)據(jù)分布調(diào)整??紤]到若采用刪除過多正常狀態(tài)數(shù)據(jù)的欠采樣方法會丟失較多信息,所以在數(shù)據(jù)分布調(diào)整中采用過采樣方式。過采樣即通過對少數(shù)類樣本進行多次復(fù)制,并將生成的樣本集合添加到少數(shù)類中,由此得到與多數(shù)類數(shù)量相同的少數(shù)類集合。假設(shè)有K個少數(shù)類樣本Xp1, Xp2, ..., XpK,有L個多數(shù)類樣本Xn1, Xn2, ..., XnL,K< ,? pi=1, 2, ..., L? ? ? ? ? ? ? ? ? ? ? ? ?(8) 2.3 極限學(xué)習(xí)機的實現(xiàn) 極限學(xué)習(xí)機采用三層結(jié)構(gòu),包括輸入層、隱含層、輸出層。輸入層節(jié)點數(shù)目與樣本屬性數(shù)目一致,輸出層節(jié)點數(shù)目與故障分類數(shù)目一致。我們采用增量法來確定隱層節(jié)點數(shù)目。的值從1開始逐漸增加,步長為5,利用測試數(shù)據(jù)獲取隱層節(jié)點數(shù)目為時ELM的性能;隨后在能取得較好性能值的隱層節(jié)點數(shù)目附近以步長1確定最佳節(jié)點數(shù)目。 3 實驗結(jié)果分析 3.1 實驗數(shù)據(jù)集 氣壓系統(tǒng)APS(Air Pressure System)數(shù)據(jù)集來源于瑞典重型Scania卡車工況傳感器采集的數(shù)據(jù)??ㄜ嚨臍鈮合到y(tǒng)產(chǎn)生剎車和齒輪變速等各種功能需要的壓縮空氣,對卡車的安全行駛具有重要意義。在APS數(shù)據(jù)集中,正例數(shù)據(jù)記錄氣壓系統(tǒng)在故障狀態(tài)下的工況信息,反例記錄正常狀態(tài)下的工況信息。所有數(shù)據(jù)均經(jīng)過專家人工檢查[5]。 APS數(shù)據(jù)集屬于類別不平衡的數(shù)據(jù)集。此外,APS數(shù)據(jù)還具有屬性值差異大、屬性缺失率較高等特點。APS數(shù)據(jù)特性見表1所列。 3.2 評價指標(biāo) 混淆矩陣是統(tǒng)計機器學(xué)習(xí)中分類模型預(yù)測結(jié)果的情形分析表,以矩陣形式將數(shù)據(jù)的真實類別與預(yù)測類別進行統(tǒng)計。其中矩陣的行表示真實值,列表示預(yù)測值,內(nèi)部數(shù)據(jù)表示相應(yīng)類別的樣本數(shù)目。二分類任務(wù)的混淆矩陣形式見表2所列。 在故障診斷任務(wù)中,由于故障狀態(tài)數(shù)據(jù)的準(zhǔn)確分類更為重要,所以表示真實故障狀態(tài)數(shù)據(jù)預(yù)測準(zhǔn)確程度的查全率(Recall)是評價模型的重要指標(biāo),計算公式如下: (9) 此外,APS數(shù)據(jù)集定義了不同類的誤分代價,并建議采用各類誤分代價之和Score值作為評價標(biāo)準(zhǔn)。誤分代價之和Score值在重點考慮查全率的同時,兼顧對正常狀態(tài)數(shù)據(jù)預(yù)測準(zhǔn)確度的考量,其值越小說明模型性能越好。代價矩陣見表3所列。 (10) 在設(shè)計ELM后,利用APS數(shù)據(jù)集中的訓(xùn)練集進行訓(xùn)練,然后利用APS數(shù)據(jù)集中的測試集數(shù)據(jù)評價ELM模型的性能。實驗結(jié)果表明,要獲得模型的最佳性能,ELM的最佳隱含層節(jié)點數(shù)目為375。 本次實驗環(huán)境為Ubuntu18.04,Intel CPU 8300,顯卡為GTX 1080 Ti,內(nèi)存為雙通道16 GB,編程語言采用Python 3.7。ELM模型性能與其他算法性能的比較見表4所列。 從表4可以看出,本文提出的ELM故障診斷模型可以提升模型構(gòu)建速度,并且在故障查全率和整體錯分代價上具有很大的優(yōu)越性。 4 結(jié) 語 本文提出了一種基于極限學(xué)習(xí)機的故障診斷模型,在對機械設(shè)備工況傳感數(shù)據(jù)進行規(guī)范化預(yù)處理后,構(gòu)建極限學(xué)習(xí)機模型,采用增量式方法確定極限學(xué)習(xí)機最佳隱層節(jié)點數(shù)目。在公開的APS數(shù)據(jù)集上的實驗結(jié)果表明,本文提出的模型具有良好的泛化能力,訓(xùn)練時間短,相較于其他算法模型,在性能上具有較大的優(yōu)越性。 參考文獻 [1] HUANG G,HUANG G B,SONG S J,et al. Trends in extreme learning machines:a review [J]. Neural networks,2015,61(1):32-48. [2]陸思源,陸志海,王水花,等.極限學(xué)習(xí)機綜述[J].測控技術(shù),2018(10):3-9. [3] HUANG G B,ZHU Q Y,CHEE-KHEONG SIEW. Extreme learning machine:theory and applications [J]. Neurocomputing,2005,70(1):489-501. [4] HUANG G B,ZHOU H,DING X,et al. Extreme learning machine for regression and multiclass classification [J]. IEEE transactions on systems,man and cybernetics,part B(Cybernetics),2012,42(2):513-529. [5] DUA D,GRAFF C. APS Failure at Scania Trucks Data Set[DB/OL].(2017-12-08)[2019-07-08]. http://archive.ics.uci.edu/ml/datasets/APS+Failure+at+Scania+Trucks. [6] GONDEK C,HAFNER D,SAMPSON O R . Prediction of failures in the air pressure system of scania trucks using a random forest and feature engineering [M]. Advances in Intelligent Data Analysis XV. Springer International Publishing,2016. [7] COSTA C F,NASCIMENTO M A. IDA 2016 industrial challenge: using machine learning for predicting failures [M]. Advances in Intelligent Data Analysis XV. Springer International Publishing,2016. [8]車波,喻林.基于譜特征提取的汽車發(fā)動機故障診斷系統(tǒng)[J].物聯(lián)網(wǎng)技術(shù),2015,5(11):36-38. [9]陳立軍,孫凱,侯媛媛,等.基于極限學(xué)習(xí)機的汽輪機故障診斷 [J].化工自動化及儀表,2013(4):435-438. [10]苑金莎,張利偉,王瑜,等.基于極限學(xué)習(xí)機的變壓器故障診斷方法研究[J].電測與儀表,2013(12):21-26. 作者簡介:蔡光偉(1993—),男,河北石家莊人,碩士研究生,研究方向為機器學(xué)習(xí)與智能信息處理。 李 揚(1986—),女,河北保定人,碩士,研究方向為物聯(lián)網(wǎng)智能信息處理技術(shù)。 方 志(1979—),男,湖南岳陽人,博士,研究方向為物聯(lián)網(wǎng)智能信息處理技術(shù)。 蔣遂平(1966—),男,四川遂寧人,博士,研究員,研究方向為物聯(lián)網(wǎng)信息綜合平臺。