單增海 李志遠 張 旭 黃亦翔 李彥明 劉成良 張 軒
1.徐州重型機械有限公司,徐州,2210042.上海交通大學機械系統(tǒng)與振動國家重點實驗室,上海,200240
液壓泵因其響應快速、調(diào)速范圍大、單位質(zhì)量的功率大等特點,已成為工程機械設備液壓系統(tǒng)的主要驅(qū)動元件。作為液壓系統(tǒng)的核心組件,液壓泵可為整個系統(tǒng)提供動力,其健康狀態(tài)對液壓系統(tǒng)的運行狀態(tài)和效率有重要的影響,且設備整體運行的可靠性、穩(wěn)定性與液壓系統(tǒng)緊密相關(guān)[1],因此準確地評估液壓泵的健康狀態(tài)對制定合理的維護計劃、保障正常生產(chǎn)有重大的現(xiàn)實意義。
目前,液壓泵的健康評估方法主要是基于單一的振動信號分析建立的,而壓力、溫度等其他信號則很少直接用于評估液壓泵的健康狀態(tài),通常只是作為一個參考指標。針對單一的振動信號,HANCOCK等[2]使用小波包分解液壓葉片泵的振動信號,基于提取到的特征利用模糊推理系統(tǒng)進行健康狀態(tài)分類;ZHU等[3]使用疊加自動編碼器對振動信號進行訓練和識別,實現(xiàn)了泵的故障診斷;劉志宇等[4]使用卷積神經(jīng)網(wǎng)絡對大量歷史振動數(shù)據(jù)進行訓練,有效提高了預測準確率;王浩任等[5]使用小波包提取柱塞泵原始振動信號的有效特征群,通過拉普拉斯特征映射方法實現(xiàn)了特征向量到健康狀態(tài)的映射。此外,還有學者針對振動信號外的其他信號進行分析,GAO等[6-7]使用小波分解方法對泵的壓力信號進行分析,實現(xiàn)了對柱塞泵的實時健康診斷,并進一步使用小波包分解和小波系數(shù)殘差分析方法實現(xiàn)了泵的故障種類診斷;ZHAO等[8]采用基于間歇性混沌和滑動窗口符號序列統(tǒng)計的方法,利用泵排放壓力實現(xiàn)了對早期故障的診斷。
綜上所述,當前液壓泵的健康評估多依賴于單一的振動信號或壓力信號,而在實際工況中,振動源多且雜,單一振動信號或壓力信號易造成評估系統(tǒng)的不穩(wěn)定,將多種傳感器信號結(jié)合則能更加準確地獲取液壓泵運行狀態(tài)的特征,提高系統(tǒng)分辨能力以及可靠性,從而降低系統(tǒng)成本[9]。相對于單傳感器,多傳感器能夠給出更多有用信息。信息融合是對多種信息進行多級處理,每一級處理均是對上一級信息的再加工與抽象,按照實際融合過程中的體系,信息融合可以分為如下三類:數(shù)據(jù)級融合、特征級融合和決策級融合[10]。不少學者在健康診斷的研究中引入了信息融合,并取得了不錯的效果[11-14]。任鳳娟[15]使用BP神經(jīng)網(wǎng)絡對多路信號進行診斷,并用D-S理論進行結(jié)果融合,從而提高液壓系統(tǒng)的診斷準確度;劉思遠等[16]通過計算得到液壓滑靴在不同磨損程度下振動、出口流量及壓力三種信號的烈度特征因子,并基于這三種烈度特征因子建立多信息決策融合算法,從而實現(xiàn)磨損判斷。LU等[17]利用泵級、液壓動力系統(tǒng)級和液壓執(zhí)行系統(tǒng)級三個層次的信號構(gòu)建了三個基本概率分配函數(shù),并提出了基于新的證據(jù)相似性距離的D-S理論來融合決策,以完成對泵故障的診斷。
深度森林模型是一種基于決策樹的深度模型[18],其中多粒度級聯(lián)森林模型使用了一種新的決策樹集成方法,是傳統(tǒng)森林模型在廣度和深度上的集成,同時具有訓練速度快、參數(shù)數(shù)量少、效率高等優(yōu)點。
本文提出了一種基于多傳感器信息融合和多粒度級聯(lián)森林模型的液壓泵健康評估方法。針對柱塞泵多個傳感器信號,采用了特征級融合和決策級融合相結(jié)合的信息融合方法。首先提取多個原始傳感器信號的時域特征并拼接形成初步特征,其次利用多個集成模型獲取初步特征的類別概率向量,并利用隨機森林模型評價初步特征的重要度并選取重要度高的初步特征,將高重要度特征與前述類別概率向量集成為預測特征,然后將預測特征作為訓練檢測樣本,使用多粒度級聯(lián)森林模型進行液壓泵健康檢測的分類。試驗結(jié)果驗證了基于多傳感器信息融合的多粒度級聯(lián)森林模型相較于基于單一溫度傳感器信號的多粒度級聯(lián)森林模型具有較高的健康狀態(tài)評估準確度,并且在小訓練樣本情況下仍然有99.5%的精確率。
隨著液壓泵使用時間的不斷延長,磨損不斷加劇,液壓泵健康狀態(tài)逐漸惡化,泄漏量以及壓力損失逐漸增大,溫度、流量等信息也會受到不同程度的影響。因此,本文在試驗環(huán)境下采集液壓泵出口壓力、流量、溫度等15路數(shù)據(jù),經(jīng)數(shù)據(jù)清洗后提取常用時域特征作為初步特征。使用分類器和特征篩選方法對初步特征進行處理,拼接形成預測特征,從而實現(xiàn)特征融合[19],最后利用多粒度級聯(lián)森林模型進行健康狀態(tài)評估。具體評估流程如圖1所示。
圖1 液壓泵健康評估流程Fig.1 Hydraulic pump health assessment flowchart
信息融合是對多種信息的多級處理,每一級處理均是對上一級信息的再加工與抽象,信息融合可以分為數(shù)據(jù)級融合、特征級融合和決策級融合三類。
數(shù)據(jù)級融合是最低層次的融合,是將采集的信息不經(jīng)過任何處理便進行拼接融合,要求信號是同一物理量的信號,融合信息量大,但處理耗時、抗干擾性差。特征級融合屬于第二層次的融合,需要對傳感器采集到的原始信號進行特征提取,將提取到的特征進行融合,突破了數(shù)據(jù)級融合單一物理量的限制,實現(xiàn)了信號壓縮,便于傳輸處理。決策級融合是最高層次的融合,需要對每個獨立的傳感器信號進行特征提取、識別和決策,然后將決策結(jié)果進行融合并形成最終結(jié)果,其抗干擾能力強,分類效果更加精確。
上述三種信息融合方式分別將原始信號、數(shù)據(jù)特征、決策結(jié)果進行融合。為了更好地利用信息融合中的數(shù)據(jù)特征和決策結(jié)果,本文將不同分類器獲得的類別概率向量與重要度高的特征進行融合,拼接形成最終特征,將最終特征輸入到級聯(lián)森林模型獲得最終分類結(jié)果。本文的信息融合原理如圖2所示。
圖2 特征融合方法Fig.2 Feature fusion method
在獲取初步特征后,分別訓練隨機森林、多層感知器[20]、支持向量機(SVM)[21]、最近鄰[22]等分類器,得到類別概率向量(V1,V2,…,Vj)。同時對原始輸入特征使用隨機森林模型進行特征篩選,得到特征篩選后或特征降維后的重要特征Fimp。最后將類別概率向量和處理后的重要特征Fimp進行拼接得到最終的融合特征。融合特征的長度Fl與所使用分類器個數(shù)j、分類類別個數(shù)c、特征篩選或降維后選擇的特征個數(shù)Fc有關(guān),即
Fl=jc+Fc
(1)
最終融合特征既包括了多類分類器的決策結(jié)果,同時也保留了原有特征中較為重要的信息。這樣可以避免所選擇的分類器不適用或特征提取不到位的情況發(fā)生,從而可更有針對性地提高特征的可靠性以及預測準確度。
近年來深度學習已被應用于各個領域中,目前深度學習大多基于深度神經(jīng)網(wǎng)絡(DNNs)實現(xiàn)。然而,深度神經(jīng)網(wǎng)絡的結(jié)構(gòu)復雜、參數(shù)數(shù)量過多、訓練困難、超參數(shù)調(diào)整困難、要求訓練數(shù)據(jù)量大、模型難以解釋等問題阻礙著其在多個領域中的進一步應用。多粒度級聯(lián)森林模型是一種非神經(jīng)網(wǎng)絡實現(xiàn)的深度模型,其參數(shù)量較少、訓練難度低,可以用較少的數(shù)據(jù)完成訓練。
隨機森林模型是一種機器學習模型[23],它以決策樹為基分類器構(gòu)建Bagging集成,Bagging集成可通過降低基分類器的方差來減小模型的泛化誤差。將待分類樣本數(shù)據(jù)通過隨機森林分類器進行分類處理,最后通過多數(shù)投票的方式得到最終的結(jié)果。隨機森林模型的結(jié)構(gòu)如圖3所示。
圖3 隨機森林模型結(jié)構(gòu)Fig.3 Structure of random forest model
多粒度級聯(lián)森林模型主要包括多粒度掃描結(jié)構(gòu)和級聯(lián)森林結(jié)構(gòu)兩個部分。
多粒度掃描結(jié)構(gòu)采用多個不同寬度的窗口進行滑動采樣,可獲得多個相互聯(lián)系又具有差異性的子樣本,分別使用普通隨機森林分類器和完全隨機森林分類器對得到的子樣本進行訓練,將輸出的類別概率向量進行拼接得到最終的轉(zhuǎn)換特征,如圖4所示。
圖4 多粒度掃描結(jié)構(gòu)Fig.4 Multi-grained scanning structure
以使用一個寬度為k維的滑動窗口為例介紹整個特征掃描轉(zhuǎn)化過程。當原始輸入特征向量為d維時,將滑動步長設為s(即每取一個子樣本,窗口移動s維),則可以得到的特征子樣本個數(shù)為m=(d-k)/s+1。分別使用普通隨機森林和完全隨機森林兩種分類器對每個特征子樣本進行訓練,每個分類器訓練后可以得到一個c維(即分類類別數(shù)c)類別概率向量,對于所有特征子樣本共得到2m個類別概率向量。將得到的所有類別概率向量進行拼接即可得到2×m×c維轉(zhuǎn)換特征向量。
多粒度級聯(lián)森林模型采用與DNNs類似的層級結(jié)構(gòu)(即級聯(lián)森林結(jié)構(gòu)),將前一層森林分類器的輸出作為下一層森林分類器的輸入,如圖5所示。將經(jīng)過多粒度掃描結(jié)構(gòu)轉(zhuǎn)化得到的轉(zhuǎn)換特征向量輸入到級聯(lián)森林結(jié)構(gòu),再與每一層森林分類器輸出的類別概率向量進行拼接作為下一層的輸入,最終獲得預測結(jié)果。級聯(lián)森林結(jié)構(gòu)的每一層包含若干個普通隨機森林分類器和完全隨機森林分類器,每層兩種不同的森林分類器增加了模型集成的多樣性,多個森林分類器可以充分利用特征的差異來更好地表征特征信息。
圖5 級聯(lián)森林結(jié)構(gòu)Fig.5 Cascade forest structure
為了避免過擬合的發(fā)生,在級聯(lián)森林結(jié)構(gòu)各層的每個森林分類器的訓練過程中均采用k折交叉驗證。
圖6所示為本文液壓泵試驗系統(tǒng),試驗系統(tǒng)按照國家標準GB/T 23253—2009《液壓傳動電控液壓泵性能試驗方法》搭建,試驗裝置由電機、液壓泵、油箱、溢流閥、壓力傳感器等構(gòu)成,試驗液壓泵為川崎K3V系列斜盤式軸向柱塞泵。如表1所示,共使用三種不同健康狀態(tài)下的柱塞泵進行試驗,分別是:完全健康的1號泵,使用2000 h左右、中度磨損狀態(tài)的2號泵,使用3000 h以上、即將處于報廢狀態(tài)的3號泵。圖7所示為3號泵的零部件磨損情況,經(jīng)測量可知,柱塞磨損量為0.06 mm,斜盤支撐座最大磨損為1.24 mm,斜盤支撐座的高壓區(qū)銅鍍層已經(jīng)磨盡,在低速運轉(zhuǎn)時,容積效率低于80%,轉(zhuǎn)速及壓力均有明顯下降[24]。
圖6 液壓泵測試系統(tǒng)Fig.6 Hydraulic pump test system
表1 液壓泵簡記代號Tab.1 Hydraulic pump health status mark
(a)柱塞磨損 (b)斜盤支撐座磨損圖7 液壓泵的磨損狀況Fig.7 Situation of hydraulic pump wear
試驗中,使用PCI-E8025數(shù)據(jù)采集卡采集信號,信號采樣頻率為12.5 kHz,采樣時間為800 s,試驗采集到約1000萬條數(shù)據(jù)。信號通道共使用了15路,分別記為AI 0~AI 14,主要采集的液壓泵信號有泵1、2出口壓力、流量和溫度,泵泄油口溫度和流量,油箱溫度,電機扭矩、轉(zhuǎn)速等,各通道對應的具體采集信號如表2所示。本次試驗采用的噪聲計有兩個通道的輸出,通道AI 10為交流電輸出,1 Vrms(電壓有效值)對應噪聲計的一個范圍檔,每一范圍檔內(nèi)并非線性均分;通道AI 11為直流電輸出,電壓10 mV對應噪聲1 dB。
表2 各通道采集信號Tab.2 Acquisition signal corresponding to each channel
以P1泵為例展示傳感器信號,分別繪制出P1泵各個傳感器信號的圖像,如圖8所示,其中噪聲信號用電壓信號表征,取所有傳感器試驗數(shù)據(jù)均較為穩(wěn)定的160~480 s共400萬數(shù)據(jù)點進行分析。每5000個數(shù)據(jù)點作為一個數(shù)據(jù)樣本,每種健康狀態(tài)共800個樣本,3種健康狀態(tài)共2400樣本。每種健康狀態(tài)隨機采樣獲取560個訓練集樣本和240個測試集樣本,3種健康狀態(tài)共獲取1680個訓練樣本和720個測試樣本。按照上述操作,依次對模擬信號的其他數(shù)據(jù)進行操作。
獲取健康狀態(tài)下的測試樣本后,需計算穩(wěn)定工況下信號的時域特征,包括均值、峰峰值、均方根值等12維特征,具體參數(shù)特征如表3所示,然后將所有時域特征進行拼接集成,形成15×12=180維特征。
表3 特征參數(shù)表Tab.3 Characteristic parameter table
初步特征集為180維,易出現(xiàn)數(shù)據(jù)冗余,影響模型效果,因此,本研究采用決策級融合和特征級融合相結(jié)合的信息融合方法形成新的預測特征,以減少特征冗余,提高模型預測準確度。如圖2所示,新特征主要由兩部分組成,第一部分是多個分類器通過初步特征得到的類別概率向量,第二部分是基于隨機森林模型中特征的重要度所選取的重要特征。
第一部分中,分別使用初步時域特征訓練隨機森林、多層感知器、SVM、最近鄰四個分類器來獲取P1、P2、P3三個類別的分類概率,其中訓練樣本比例和后續(xù)深度森林模型訓練樣本比例保持一致。第二部分中,使用隨機森林模型對初步特征進行重要度評估,選取重要度高的前8個初步特征作為新特征的組成部分。前8個重要特征及其含義如表4所示。
(a)泵1出口壓力 (b)泵2出口壓力 (c)泵泄油口壓力
表4 重要特征介紹Tab.4 Introduction of important features
由表4可知,從時域特征來看,泵泄油口溫度、泵2出口溫度、泵1出口溫度是最重要的特征,均方根值和整流平均值是較為重要的統(tǒng)計特性,這說明柱塞泵泄油口和出口處的溫度能很好地體現(xiàn)出柱塞泵健康狀態(tài)的變化,與以往研究中最常選用的振動、油壓等信號一樣,對泵的健康狀態(tài)診斷都具有重要的意義。
上述8個重要特征和第一部分中3×4=12個類別概率向量拼接形成最終20維的預測特征。
多粒度掃描結(jié)構(gòu)的超參數(shù)主要有森林分類器數(shù)量、森林分類器類型、決策樹數(shù)量、滑動窗口大小以及節(jié)點分裂最小樣本數(shù)等;級聯(lián)森林結(jié)構(gòu)的超參數(shù)主要有森林分類器數(shù)量、森林分類器類型、決策樹數(shù)量和節(jié)點分裂最小樣本數(shù)。
本文中,多粒度掃描結(jié)構(gòu)和級聯(lián)森林結(jié)構(gòu)的森林分類器類型均選為完全隨機森林和普通隨機森林的組合,按照經(jīng)驗選取滑動窗口大小分別為2、4、8,多粒度掃描結(jié)構(gòu)和級聯(lián)森林結(jié)構(gòu)的節(jié)點分裂最小樣本數(shù)均為5。具體參數(shù)設置如表5所示。
表5 多粒度級聯(lián)森林模型的參數(shù)Tab.5 Parameter of multi-grained cascade forest model
本文選用20%的樣本作為測試集,剩余樣本作為訓練集??紤]到分類問題的普遍性,選用分類問題中常用的兩個參數(shù)(精確率和召回率)作為評價指標,其表達式如下:
(2)
其中,NTP為預測為正樣本、標簽為正樣本的樣本數(shù)量;NFP為預測為正樣本、標簽為負樣本的樣本數(shù)量;NFN為預測為負樣本、標簽為正樣本的樣本數(shù)量。在上述選用的測試集(測試集比例為20%)下對多粒度級聯(lián)森林模型進行測試,經(jīng)計算可知,分類的精確率和召回率均為100%。
依次將測試集比例設置為30%、50%、70%、90%、99.5%(即訓練集比例依次為70%、50%、30%、10%、5%),通過對比不同訓練集情況下模型的精確率來評價模型在小訓練樣本情況下的健康評估性能,分類結(jié)果見表6。
表6 不同訓練比例下的分類結(jié)果Tab.6 Classification results under different training set ratios %
由表6可以看出,在小訓練樣本的情況下,基于多傳感器信息融合的多粒度級聯(lián)森林模型預測得到的液壓泵健康狀態(tài)評估的精確率仍較高,即使在訓練集比例僅為5%的情況下,基于特征融合和深度隨機森林模型的液壓泵健康狀況評估結(jié)果仍有高達99.5%的分類精確率。
單獨采用預測向量中的第一部分和第二部分數(shù)據(jù)進行分析,使用多粒度級聯(lián)森林作為分類器,在訓練集比例為10%(即測試集比例為90%)的情況下可以得到表7所示的分類結(jié)果。
表7 部分預測向量分類結(jié)果Tab.7 Classification results of partial prediction vector %
由表6和表7可知,在級聯(lián)森林結(jié)構(gòu)中單獨使用部分預測向量時(即每一層只將各個隨機森林模型輸出的類別概率向量拼接或只將原始特征篩選得到的高重要度特征拼接后輸入下一層)的分類效果相較于將兩者進行融合后的分類效果有明顯降低。
為了進一步探究不同信息融合方式對結(jié)果的影響,結(jié)合采集端口情況挑選出壓力、流量、溫度三類數(shù)據(jù),并將上述原始數(shù)據(jù)進行前文所述流程的處理(即提取時域特征(5.1節(jié))、特征構(gòu)建、模型訓練(5.2節(jié)))。為了更清晰地呈現(xiàn)不同類別的預測結(jié)果,分別計算測試集比例為90%時P1、P2、P3三個類別的精確率和召回率的參數(shù)變化情況。組合方式及分類結(jié)果如表8所示。
由表8可知,對于同一分類器,單一溫度特征不能兼顧精確率和召回率這兩個參數(shù),在增加流量信息后,三類別數(shù)據(jù)的平均預測精確率提高了8%;增加壓力信息后,三類別數(shù)據(jù)的平均預測精確率提高了7%,分類效果均得到了一定的提高。同時,“溫度+流量”組合中所有類別的平均預測精確率和召回率均高于“溫度+壓力”和“壓力+流量”兩組合中的平均預測精確率和召回率,這證明了溫度融合流量這種信息組合的優(yōu)越性。因此,在精確率要求不高(即精確率不超過95%時)的情況下,可以只使用溫度傳感器和流量傳感器的組合,而不必使用壓力、流量、溫度三種傳感器,這樣能夠降低傳感器成本、減少數(shù)據(jù)采集量,傳感器的具體放置位置如表9所示。
此外,預測特征生成中所使用的分類器也會產(chǎn)生特征的冗余,從而影響分類效果,因此在前期選用類別概率向量生成算法時,需要選擇小訓練樣本情況下分類效果仍可以接受的算法,從而提高多粒度級聯(lián)森林模型最終的分類精確度。
表8 數(shù)據(jù)組合方式及分類結(jié)果Tab.8 Data combination and classification results
表9 推薦的傳感器組合Tab.9 Sensor combination recommended
本文針對柱塞泵健康評估的問題,采用了多傳感器信息融合方法,利用多個集成模型與特征篩選的方式組合得到的特征融合器進行信息融合,使用多粒度級聯(lián)森林模型進行液壓泵健康評估。試驗結(jié)果表明,所提特征融合方法在降低特征維度的同時保留了重要特征信息,健康分類精確率較高。通過對不同訓練集比例數(shù)據(jù)進行對比,可以看出該柱塞泵健康評估方法在樣本量較小時也有較高的精確率;與不同信息融合方式的對比也驗證了本文的信息融合方式在柱塞泵健康評估時更加準確有效。