胡繼敏,羅梅杰
基于自監(jiān)督學習框架的發(fā)電柴油機故障診斷
胡繼敏1,羅梅杰2
(1. 海裝駐上海地區(qū)第一軍事代表室,上海,201913;2. 海軍研究院,上海,200030)
針對采集的船舶發(fā)電柴油機有標簽狀態(tài)數(shù)據(jù)集為小樣本而造成的分類精度較低的問題,本文提出了一種新型的自監(jiān)督學習框架用于機電設備的故障診斷,挖掘無標簽數(shù)據(jù)集中的特征信息,以提高模型的分類能力。首先,通過KNN算法,將采集到的無標簽數(shù)據(jù)集劃分為正類樣本和負類樣本,并通過添加噪聲的方法對原始數(shù)據(jù)進行數(shù)據(jù)增強,以此構造自監(jiān)督任務。然后,設計基于卷積神經(jīng)網(wǎng)絡的編碼器,根據(jù)正類、負類的偽標簽,來提取無標簽數(shù)據(jù)中的監(jiān)督信息。最后,基于小樣本的標簽數(shù)據(jù),通過編碼器得到新的特征表征,對分類模型進行參數(shù)微調,提高模型精度。船舶柴油發(fā)電機故障實驗證明,該自監(jiān)督學習框架下的分類模型的準確率、精確率和召回率均高于直接用小樣本標簽數(shù)據(jù)訓練的分類模型。
船舶機電設備 小樣本數(shù)據(jù)集 自監(jiān)督學習 故障診斷
船舶機電設備長時間在惡劣的環(huán)境下工作,運行工況復雜與設備頻繁操作,極易發(fā)生故障。為保障其安全運行,需對機艙機電設備進行故障監(jiān)測與診斷,以保證船舶運行安全運行。目前,根據(jù)數(shù)據(jù)采集系統(tǒng)提供的機電設備狀態(tài)數(shù)據(jù)進行故障診斷主要依靠操作人員的專業(yè)知識進行判斷,主觀性較大,且要求豐富的工作經(jīng)驗。但機艙機電設備結構復雜、種類繁多,僅靠專家經(jīng)驗難以對復雜的狀態(tài)進行判斷。隨著互聯(lián)網(wǎng)和信息技術的快速發(fā)展,基于數(shù)據(jù)驅動的故障診斷技術得到了廣泛研究。基于系統(tǒng)采集的大量設備狀態(tài)數(shù)據(jù),挖掘數(shù)據(jù)中存在的設備狀態(tài)信息與特征,建立基于數(shù)據(jù)驅動的故障診斷模型,可實時進行機電設備的故障診斷。
近年來,基于采集的大規(guī)模工業(yè)數(shù)據(jù),機器學習和深度學習理論在機電設備的故障診斷研究中取得了廣泛的應用。王瑞涵等人[1]引入孤立森林模型實現(xiàn)對船舶柴油機異常狀態(tài)的監(jiān)測。吉哲等人[2]通過采集的艦船機電設備的振動信號實現(xiàn)對常見的故障進行智能診斷。Yu等[3]利用開集故障診斷方法,提升卷積神經(jīng)網(wǎng)絡對訓練集和測試集分布不一致情況下的狀態(tài)分類。然而上述的基于數(shù)據(jù)驅動的故障診斷模型是一種監(jiān)督學習,該模型的良好性能需要足夠多的有標簽數(shù)據(jù)集,在小樣本數(shù)據(jù)情況下,該模型的性能會大大地降低。針對船舶數(shù)據(jù)采集系統(tǒng)采集的數(shù)據(jù),對各狀態(tài)數(shù)據(jù)進行手動標簽需要人工參與和專業(yè)知識,耗時耗力,代價昂貴,難以擴大有標簽數(shù)據(jù)規(guī)模。因此,采集的狀態(tài)信息數(shù)據(jù)中未標記的數(shù)據(jù)量遠遠超過人工標記的數(shù)據(jù)集。目前針對采集的小樣本有標簽數(shù)據(jù)的模型訓練主要基于數(shù)據(jù)增強,基于元學習、基于遷移學習及混合方法[4]。劉云鵬等人[5]為解決非均衡數(shù)據(jù)集對自適應算法的影響,提出一種結合AdaBoost和代價敏感的Adacost算法,提高了非均衡數(shù)據(jù)集下診斷模型的故障識別能力。Chen等人[6]利用混合采樣方法對隨機森林中的子模型提供均衡數(shù)據(jù)集,提高了隨機森林處理不平衡數(shù)據(jù)集的故障診斷的穩(wěn)定性和高效性。許自強等人[7]利用Wasserstein生成對抗網(wǎng)絡產(chǎn)生更多的故障樣本,實現(xiàn)樣本庫的類別均衡化目標,實現(xiàn)對電力變壓器的故障樣本增強。
但是,現(xiàn)有的數(shù)據(jù)增強方法只能緩解而不能根本解決小樣本有標簽數(shù)據(jù)集。通過生成樣本數(shù)量來擴大訓練集,由于先驗知識的不完美,生成的數(shù)據(jù)與真實數(shù)據(jù)之間的差異會導致概念偏移[8]。同時,如果生成模型訓練過好,生成數(shù)據(jù)嚴格遵循了原小樣本數(shù)據(jù)集的分布,缺失了樣本的多樣性。如果能夠利用大量無標簽數(shù)據(jù)中的信息,對模型進行預訓練,進而通過少量有標簽數(shù)據(jù)對模型參數(shù)進行微調,最終實現(xiàn)對數(shù)據(jù)的分類,是一種新思路[9]。因此,本文設計一種新型的自監(jiān)督學習框架用于船舶機電設備的故障診斷,解決由標簽數(shù)據(jù)量過少導致分類模型中大量參數(shù)難以擬合的問題。利用數(shù)據(jù)系統(tǒng)采集的大量無標簽數(shù)據(jù),設置合適的輔助任務,從無標簽數(shù)據(jù)集中構建標簽信息,從而訓練一個能夠提取數(shù)據(jù)中狀態(tài)信息的編碼器,通過該編碼器為最終的分類任務提供信息,最終通過標簽數(shù)據(jù)對分類器參數(shù)進行微調,解決標簽數(shù)據(jù)規(guī)模較少的問題,實現(xiàn)基于小樣本的船舶機電設備故障診斷。本文提出的自監(jiān)督學習框架主要貢獻如下:
1)引入KNN算法,通過無監(jiān)督學習,挖掘無標簽數(shù)據(jù)中的數(shù)據(jù)信息,構建標簽信息,將無標簽數(shù)據(jù)集劃分為正類樣本與負類樣本,為接下來的自監(jiān)督學習提供標簽信息。
2)通過增加添加噪聲的方式對原數(shù)據(jù)樣本進行數(shù)據(jù)增強,設計一個多層卷積神經(jīng)網(wǎng)絡的編碼器,充分挖掘無標簽數(shù)據(jù)的內在信息,實現(xiàn)在正、負類標簽下的無標簽數(shù)據(jù)信息的對齊。
3)將標簽數(shù)據(jù)集輸入至卷積神經(jīng)網(wǎng)絡的編碼中,得到信息重表征,用新的特征向量訓練隨機森林分類器,進行參數(shù)微調,最終實現(xiàn)數(shù)據(jù)分類。
圖1 信號重表征
1)正類、負類樣本構造
2)信息重表征
3)損失函數(shù)設計
編碼器通過構造的正、負類樣本進行訓練。本文通過余弦相似度來表示同類數(shù)據(jù)增強后樣本的相似度,公式為:
同理,根據(jù)余弦相似度可以得到異類樣本的相似性,公式為:
編碼器是通過最大化同類樣本的相似性,最小化異類樣本的相似性進行訓練的。
步驟1,通過無監(jiān)督學習,將無標簽樣本分為正類、負類樣本。采用的無監(jiān)督學習為K最臨近算法(K-Nearest Neighbor,KNN),通過計算不同樣本間的距離,來尋找每個樣本的鄰近樣本。本文中,的取值為2,計算公式為:
圖2 基于自監(jiān)督學習框架的故障診斷
實驗對象為船用R6105AZLD型柴油發(fā)電機組[10]。采樣頻率為4 kHz,柴油機轉速為1 500 r/min,以1 600個點為一個采樣周期。實驗共采集了五種狀態(tài)數(shù)據(jù),包括四種故障工況數(shù)據(jù)和一種正常工況數(shù)據(jù)。實驗數(shù)據(jù)描述如表1所示。實驗采集的振動信號時域波形如圖3所示。
表1 五種振動信號實驗數(shù)據(jù)集
本文編碼器選擇卷積神經(jīng)網(wǎng)絡模型。卷積神經(jīng)網(wǎng)絡為兩層卷積層,兩層池化層,一層全連接層。池化層的操作為最大池化,卷積層中的激活函數(shù)為ReLu,優(yōu)化器為Adam。經(jīng)反復實驗,確定該編碼器的迭代次數(shù)與學習率,最終迭代次數(shù)為200次,學習率為0.01。具體參數(shù)如表2所示:
表2 卷積神經(jīng)網(wǎng)絡結構相關參數(shù)設置
本文所提出的基于自監(jiān)督學習框架的柴油發(fā)電機故障診斷框架中分類器選擇的是隨機森林模型。隨機森林模型通過組合多個決策樹模型,來提高模型的分類精度和泛化能力。在隨機森林模型中,通過Bagging法,在原始數(shù)據(jù)集中有放回的對新樣本進行分類,再用多數(shù)投票或者對輸出求均值的方法統(tǒng)計所有分類器的分類結果,結果最高的類別即為最終標簽。這種隨機性導致隨機森林的偏差會有稍微的增加(相比于單一決策樹),但是由于隨機森林的“平均”特性,會使得它的方差減小,而且方差的減小補償了偏差的增大,因此總體而言是對故障模型更好的處理。
將設計的自監(jiān)督學習框架與其他分類算法進行對比,對比算法為支持向量機(Support vector machine, SVM),決策樹(Decision Tree),BP神經(jīng)網(wǎng)絡(Back Propagation Neural Network,BPNN),隨機森林(Random Forest,RF),卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)以及循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)。除本文提出的自監(jiān)督學習框架外,其他的模型均采有有標簽數(shù)據(jù)集進行模型訓練,數(shù)據(jù)如3.1節(jié)所描述。使用四個常見的評價指標:準確率(Accuracy)、精準率(Precision)、以及召回率(Recall)對各個算法的性能進行分析,公式如下:
式中,True Positive(真正,)表示將正類預測為正類的數(shù)目、True Negative(真負,)表示將負類預測為負類的數(shù)目、False Positive(假正,)表示將負類預測為正類的數(shù)目、False Negative(假負,)表示將正類預測為負類的數(shù)目。
本文中,訓練?測試重復實驗 30 次,最終以平均準確率、平均精確率和平均召回率作為模型的性能指標,以降低隨機性對分類模型的干擾。表10表示各個分類模型的性能。SVM模型然在解決小樣本、非線性的數(shù)據(jù)分類問題中具有優(yōu)勢,但是在本文研究的船舶柴油發(fā)電機故障診斷中,效果較差,分類準確率僅僅為48.27%,這是由于本文采集的柴油機振動信號緯度較高,超高緯度數(shù)據(jù)在對SVM模型訓練時,參數(shù)不能得到最優(yōu)解,因此分類效果最差。DT模型作為弱分類器,在這次的故障診斷任務中效果同樣較差,各性能指標均達不到50%。RF模型的分類效果要好于SVM模型、DT模型和BPNN模型,這是由于RF模型是集成學習模型,通過集成多個決策樹模型來訓練得到一個性能更高的強分類模型,其準確率、精準率和召回率可以分別到達81.78%、82.72%和81.62%。針對振動信號這種高緯數(shù)據(jù),深度學習發(fā)揮了比傳統(tǒng)機器學習模型更加的性能。CNN模型和RNN模型可以達到85%以上的準確率,性能遠遠高于傳統(tǒng)的機器學習模型,其中,CNN模型性能要優(yōu)于RNN模型,其準確率、精準率和召回率可到達87.12%、88.79%和89.01%。但是,由于本文柴油機發(fā)電機的標簽數(shù)據(jù)集樣本過少,通過小樣本數(shù)據(jù)對深度學習模型進行訓練,而深度學習模型需要大量的數(shù)據(jù)進行參數(shù)調優(yōu),因此模型訓練效果較差,不能對柴油發(fā)電機的運行狀態(tài)進行精確識別。本文提出的自監(jiān)督學習框架,通過設計的卷機神將網(wǎng)絡編碼器,對標簽數(shù)據(jù)進行特征提取,再對隨機森林分類器進行訓練。該模型的比單一的隨機森林分類器的性能提高眾多,各性能指標均提高了超過了10%。同時,該自監(jiān)督學習模型對比深度學習模型也有了一定的性能提升,通過采集的無監(jiān)督數(shù)據(jù)進行訓練編碼器,進而對數(shù)據(jù)進行信息重表征,大大減少了有標簽數(shù)據(jù)集數(shù)量的需要,彌補了深度學習模型需要大量數(shù)據(jù)集數(shù)量的弊端,最終的準確率,精準率和召回率可達到93.15%,93.29%和92.68%,各個模型性能指標如表3所示。
表3 不同分類模型的性能指標
為了進一步驗證本文提出的自監(jiān)督學習框架性能,通過改變不同訓練集樣本數(shù)量,來分析各個模型的分類準確率。不同訓練樣本數(shù)量下的各模型準確率如圖4所示。SVM模型和DT模型隨著訓練樣本數(shù)量的增多,其性能并沒有明顯的提升。但是隨著訓練樣本的增多,BPNN、RF、CNN、RNN等模型的性能均有一定程度的提高。其中,BPNN模型性能提升最為明顯,由60.39%提升至78.32%。本文使用的CNN模型和RNN模型在訓練樣本數(shù)量達到250后,其性能也有了明顯的提升,分別可達到93.96%和94.91%。該實驗證明,有標簽數(shù)據(jù)樣本數(shù)量的增多,可以極大程度上提升分類模型的性能。本文提出的自監(jiān)督學習框架,在有標簽訓練樣本數(shù)量增多后,其性能也有了一定程度的提高。當訓練樣本達到300時,其分類準確率可達到96.83%。
圖4 不同訓練樣本數(shù)量下的分類模型準確率
針對船舶柴油發(fā)電機采集的狀態(tài)數(shù)據(jù)大多數(shù)為無標簽數(shù)據(jù),有標簽數(shù)據(jù)僅僅是小樣本數(shù)據(jù)的問題,提出了基于自監(jiān)督學習框架的船舶柴油發(fā)電機故障診斷,將采集到的有標簽數(shù)據(jù)集和無監(jiān)督數(shù)據(jù)集對分類模型進行聯(lián)合訓練。通過設計輔助任務標簽,挖掘無標簽數(shù)據(jù)樣本中的特征表征作為監(jiān)督信息,從而提高模型的特征提取能力。實驗證明,在采集的柴油機發(fā)電機狀態(tài)數(shù)據(jù)大量是無標簽數(shù)據(jù)集的情況下,本文提出的自監(jiān)督學習框架可提升分類模型的性能,模型具有更高的準確率,精確率和召回率,減少了對標簽數(shù)據(jù)依賴。研究具有較強工程應用價值。
[1] 王瑞涵, 陳輝, 管聰, 基于機器學習的船舶機艙設備狀態(tài)監(jiān)測方法[J]. 中國艦船研究, 2021, 16(01): 158-167.
[2] 吉哲, 張松濤, 代春明. 基于機器學習的艦船機電裝備故障診斷[J]. 船電技術, 2022, 42(2): 4.
[3] Yu X, Zhao Z, Zhang X, 等. Deep-learning-based open set fault diagnosis by extreme value theory[J]. IEEE Transactions on Industrial Informatics, 2022, 18(1): 185-196.
[4] 史家輝, 郝小慧, 李雁妮. 一種高效的自監(jiān)督元遷移小樣本學習算法[J]. 西安電子科技大學學報, 2021, 48(6): 9.
[5] 劉云鵬, 和家慧, 許自強, 劉一瑾, 王權, 楊寧, 韓帥, 結合AdaBoost和代價敏感的變壓器故障診斷方法[J]. 華北電力大學學報(自然科學版): 1-9.
[6] Chen H, Jiang B, Lu N. A newly robust fault detection and diagnosis method for high-speed trains[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 20(6): 2198-2208.
[7] 劉云鵬, 許自強, 和家慧, 王權, 高樹國, 趙軍. 基于條件式Wasserstein生成對抗網(wǎng)絡的電力變壓器故障樣本增強技術[J]. 電網(wǎng)技術, 2020(04 vo 44): 1505-1513.
[8] 吳蘭, 王涵, 李斌全, 等. 基于自監(jiān)督任務的多源無監(jiān)督域適應法[J]. 浙江大學學報: 工學版, 2022, 56(4): 10.
[9] Chen T, Kornblith S, norouzi M, 等. A simple framework for contrastive learning of visual representations[M]. ArXiv, 2020[2022-06-01].
[10] 王瑞涵, 陳輝, 管聰. 隨機卷積神經(jīng)網(wǎng)絡的內燃機健康監(jiān)測方法研究[J]. 振動工程學報, 2021, 34(04): 849-860.
Research on the fault diagnosis of the marine diesel generator based on self-supervised learning framework
Hu Jimin1, Luo Meijie2
(1. No. 1 Military Representative Office of the Navy in Shanghai District, Shanghai, 201913,China; 2. Naval research Institute, Shanghai, 200030, China)
U672
A
1003-4862(2022)09-0019-06
2022-06-03
胡繼敏(1985-),男,博士研究生,工程師。研究方向:艦船動力系統(tǒng)保障技術。E-mail: hujimin85111@163.com