吳昊年 陳仁祥 胡小林 張霞 張焱 唐林林
摘要: 針對不同工況下訓練樣本與測試樣本分布差異導致滾動軸承壽命階段無法被有效識別的問題,提出改進均衡分布適配的滾動軸承壽命階段識別方法。采用無重復均勻隨機抽樣對源域類間樣本進行多次均勻隨機抽樣,得到源域多樣本訓練集,以減小源域內部樣本選擇對目標域預測標簽的影響;在再生核希爾伯特空間上利用平衡因子μ動態(tài)調節(jié)邊緣分布和條件分布所占權值,并通過迭代的方式不斷優(yōu)化目標域偽標簽以減小兩域的最大均值差異;利用源域多樣本數(shù)據(jù)集各自的映射矩陣構造多個分類器,經(jīng)過一致性判別得到目標域樣本最終識別結果。在兩組滾動軸承壽命階段數(shù)據(jù)集上進行實驗驗證,證明了所提方法的可行性和有效性。
關鍵詞: 故障診斷; 滾動軸承; 壽命階段識別; 條件概率分布; 邊緣分布
中圖分類號: TH165+.3; TH133.33; TN911.7??? 文獻標志碼: A??? 文章編號: 1004-4523(2021)01-0194-08
DOI:10.16385/j.cnki.issn.1004-4523.2021.01.022
引 言
滾動軸承作為旋轉機械關鍵零部件之一,對其壽命階段識別可以監(jiān)測其性能衰退過程,有效防止重大安全事故的發(fā)生。為準確識別滾動軸承壽命階段,國內外已開展了相關研究。如:Yu等[1]提出多域特征融合和降維學習的滾動軸承退化狀態(tài)識別方法;陳仁祥等[2]提出基于振動敏感時頻特征的航天軸承壽命狀態(tài)識別方法;王冰等[3]提出了基于模糊聚類的退化狀態(tài)識別方法。以上方法對同種工況下滾動軸承壽命階段識別效果明顯。但在不同工況下,可獲得的訓練樣本數(shù)目有限,且訓練數(shù)據(jù)與測試數(shù)據(jù)不滿足獨立同分布條件,降低了傳統(tǒng)機器學習壽命識別模型的泛化能力,甚至使得模型不適用。
近年來,遷移學習以其跨領域、跨任務學習的優(yōu)勢在各領域得到了廣泛應用[4?5]。在機械研究領域,解決壽命階段識別問題時,往往借鑒故障診斷方法。沈飛等[6]將奇異值分解與遷移學習用于不同工況下的電機軸承故障的識別;段禮祥等[7]將遷移成分分析應用于不同工況下的齒輪箱故障診斷;康守強等[8]利用多核半監(jiān)督遷移成分分析方法解決了變工況下滾動軸承故障診斷問題。上述方法關注于最小化域之間的邊緣分布差異以達到較好的適配效果。然而在實際工程中,外在摩擦力、溫度、工況條件等因素的變化,使得采集到的標記數(shù)據(jù)和目標域軸承壽命階段數(shù)據(jù)分布特性差異較大,將兩種概率分布的重要性同等對待,往往導致對滾動軸承壽命階段識別效果不佳。Wang等[9]針對實際應用中邊緣分布適配和條件分布適配并不是同等重要的問題,提出了均衡分布適配方法(Balanced Distribution Adaptation, BDA),通過平衡因子適配兩域分布取得了不錯效果。然而BDA方法構建的單一弱分類器具有局限性,無法較好完成不同工況條件下壽命階段樣本的識別任務。
為解決上述問題,本文提出改進均衡分布適配的滾動軸承壽命階段識別方法。首先,通過無重復均勻隨機抽樣,對源域類間樣本進行多次等量隨機抽樣得到源域多樣本訓練集,分別在目標域上預測其偽標簽,避免了源域樣本的選擇對目標域預測標簽的影響;隨后,將源域多樣本訓練集與目標域測試樣本集共同映射到再生核希爾伯特空間中,利用平衡因子μ動態(tài)調節(jié)邊緣分布和條件分布所占權值,適配軸承不同壽命階段數(shù)據(jù)兩域分布差異;最后,通過多個分類器識別目標域壽命階段數(shù)據(jù),經(jīng)一致性判別獲得最終識別結果。在兩組滾動軸承壽命階段數(shù)據(jù)集上進行驗證,證明了本文方法能有效識別不同壽命階段樣本,提高了識別準確率。
2.2 改進均衡分布適配的滾動軸承壽命階段識別流程
根據(jù)上文論述,為實現(xiàn)改進均衡分布適配的滾動軸承壽命階段識別,其實現(xiàn)流程圖如圖1所示。該算法實現(xiàn)主要包括:
1)樣本特征提取。由于單域特征評估效果不足,本文提取多域特征構建高維特征集。包括16維時域特征和12維頻域特征,8維db3小波3層小波包能量特征,8維db3小波3層小波包相對能量特征,8維db3小波3層小波包能量譜熵以及振動信號幅值譜熵、倒譜熵、自相關譜熵和奇異值譜熵等共56維特征。
2)源域多樣本訓練集與目標域訓練集構建。對于源域標記數(shù)據(jù),采用無重復均勻隨機抽樣從M種壽命階段樣本中抽取n個,得到一個源域單樣本訓練集,訓練集大小為M×n。重復上述過程k次,得到源域多樣本訓練集。其中k個單樣本訓練集,每個待識別階段均為M。對于目標域未標記數(shù)據(jù),從中每次每類抽取等量樣本構建測試集,待識別階段為M種。
3)同一標記空間重構。將源域多樣本訓練集與目標域測試集共同映射至?空間中,k個源域單樣本訓練集各自為待識別目標域數(shù)據(jù)集賦予偽標簽。通過平衡因子μ動態(tài)調節(jié)兩域分布,執(zhí)行兩域類內、類間知識遷移不斷優(yōu)化偽標簽。
4)輸出識別結果。構造多個分類器分別識別重構后目標域壽命階段特征,通過一致性判別方法輸出最終識別結果。由于KNN分類器具有計算簡單,易于實現(xiàn),無需參數(shù)估計和訓練的優(yōu)點。本文選擇KNN分類器用于偽標簽的預測和最終結果的分類。
3 全壽命周期數(shù)據(jù)實驗驗證
3.1 實驗設備及參數(shù)設置
實驗采用PRONOSTIA實驗臺采集的IEEE PHM2012 Data Challenge[11]加速壽命實驗振動信號數(shù)據(jù)進行實驗驗證和分析。此數(shù)據(jù)采樣頻率為25.6 kHz,采樣間隔為10 s,每個樣本采樣時間為0.1 s。PRONOSTIA實驗平臺如圖2所示。
該數(shù)據(jù)集包含多個工況條件下的全壽命周期實驗數(shù)據(jù),選擇3種工況條件下的滾動軸承全壽命周期振動信號數(shù)據(jù),數(shù)據(jù)工況信息如表1所示。
滾動軸承從全新裝配到完全失效的整個壽命周期共經(jīng)歷3種壽命階段:磨合期、有效工作期和衰退期。實驗設置3種工況條件下數(shù)據(jù)樣本集:1)工況A為1650 r/min,4200 N數(shù)據(jù)樣本集;2)工況B為1500 r/min,5000 N數(shù)據(jù)樣本集;3)工況C為1800 r/min,4000 N數(shù)據(jù)樣本集。為了更好地完成壽命階段識別實驗,利用文獻[12]的方法劃分不同工況的3種壽命階段時,截取階段明顯的壽命階段樣本,把不明確樣本進行了少量剔除。具體每個壽命階段樣本數(shù)分布如表2所示。
3.2 改進均衡分布適配方法實驗分析
本實驗主要驗證不同工況下源域少標記且目標域完全沒有標記時,改進均衡分布適配方法對異分布壽命階段數(shù)據(jù)識別效果。訓練樣本采用無重復隨機抽樣從B工況3個壽命階段中各抽取10,20和30個,獲得3個壽命階段共30,60,90個為一個源域樣本集(為使實驗符合實際工程中訓練數(shù)據(jù)獲取困難的情況,抽取的源域單樣本數(shù)量占整個B工況源域樣本數(shù)量的2.4%,4.8%,7.2%),抽取1000次得到1000個源域多樣本數(shù)據(jù)集。
設置A工況與C工況樣本為測試樣本,數(shù)量分別為30,60,90。提取56維特征構建高維特征集,對此軸承數(shù)據(jù)進行不同工況下壽命階段識別結果如表3所示。
從表3中可以看出,本方法在不同工況下滾動軸承壽命識別上表現(xiàn)良好。隨著訓練樣本數(shù)量的增多,識別率也呈緩慢增加的趨勢。不同轉速與負載的工況下平均識別率在90%左右,樣本數(shù)量在60左右已經(jīng)能達到很好的效果。
為驗證改進均衡適配算法較原方法識別精度明顯提高。選擇B工況訓練60個樣本,A工況測試60個樣本,將整個壽命階段樣本作為源域單樣本BDA,無重復均勻隨機抽樣得到改進均衡分布適配方法進行實驗對比。為直觀對比結果將源域多樣本數(shù)據(jù)集得到的診斷結果直接求平均值,稱為源域多樣本平均。對比結果如圖3所示。
由圖3可知,由于目標域沒有標簽,只能通過源域數(shù)據(jù)直接預測其偽標簽,所以源域內部樣本的選擇直接影響識別結果。而單分類器識別能力有限,樣本數(shù)量對源域單樣本識別影響不大。而本文方法反映了識別率與訓練樣本數(shù)目呈正相關的規(guī)律,憑借改進均衡分布適配方法動態(tài)調節(jié)兩域分布重要性的優(yōu)勢,更好地最小化了域間分布差異,提升了識別率,平均達到92.29%;與源域多樣本平均對比可得,隨著不同源域樣本在各自分類器上預測目標域偽標簽,樣本數(shù)量與準確率呈正相關規(guī)律;且多分類器集成后使最終識別精度大大提升。
3.3 改進均衡分布適配的迭代次數(shù)N與μ的選擇
改進均衡分布適配方法涉及兩個主要參數(shù):1)迭代次數(shù)N;2)平衡因子μ。文獻[9]對這兩個參數(shù)的選擇方法已經(jīng)進行了討論。N值的設置不宜過大,選擇適當?shù)闹导瓤梢怨?jié)約運算時間又能保證識別的準確率。經(jīng)過交叉驗證實驗,本文取N=20。平衡因子μ決定了邊緣分布和條件分布哪個應該被優(yōu)先考慮,其取值直接決定識別精度,圖4詳細展示了平衡因子適配效果(以B工況到A工況的遷移為例)。
根據(jù)圖4(a)可知,B工況樣本邊緣概率分布與A工況相差較小,并不是影響適配的主因。故針對本組數(shù)據(jù),條件分布的重要性要高于邊緣分布,應設置μ>0.5,適配結果如圖4(b)所示。結合圖4(d)驗證得知μ值在0.5?0.7之間時,識別率均達到90%以上,在0.6時取得最優(yōu)值,識別準確率達到97.78%。最終分類結果通過t?SNE可視化為圖4(c),其中M,S和D分別代表3種壽命階段,test代表測試樣本。所提識別方法明顯區(qū)分了3種壽命階段樣本。
3.4 與傳統(tǒng)機器學習降維方法對比
為了驗證改進均衡分布適配方法降維后可以很好地保留數(shù)據(jù)樣本本身屬性,將本文方法與傳統(tǒng)降維方法進行對比。結合文獻[13?14],本實驗中SVM均采用高斯核函數(shù),寬度為1;PCA與KPCA均采用徑向基核函數(shù),核參數(shù)γ=15,BDA采用迭代次數(shù)N=20,正則化參數(shù)λ=0.01,平衡因子μ=0.6。
由圖5可以看出,訓練樣本與測試樣本維數(shù)從1增加到11附近時,本文方法與KPCA,PCA結合SVM的3種方法的準確率不斷提高。當維數(shù)超過11后,傳統(tǒng)機器學習方法的識別率不高且伴隨波動,而改進BDA方法的準確率總體保持平穩(wěn)并略有提高,均明顯高于KPCA和PCA兩種方法。
造成這樣的原因是PCA、KPCA作為傳統(tǒng)機器學習的降維方法,它們在降維過程中不需要領域知識,忽略了領域間的差異。通過將兩域中的所有樣本映射到一個子空間來進行全局特征變換,沒有考慮壽命階段類別的內部關聯(lián)性。這種全局特征變換方式,只能在一般超平面上學習兩域異分布數(shù)據(jù)(超平面是松散的),導致其無法類內相關聯(lián),各壽命階段樣本內部不具關聯(lián)性。
3.5 與其他遷移學習算法對比
為驗證不同工況下,均衡分布適配在遷移上的優(yōu)勢,將改進均衡分布適配方法與遷移成分分析方法[10](Transfer Component Analysis,TCA)、聯(lián)合分布適配方法[15](Joint Distribution Adaptation,JDA)、測地線流式核方法[16](Geodesic Flow Kernel,GFK)等遷移學習方法對比。源域仍采用工況B的訓練集,目標域采用工況A和C的測試集,對比結果如表4所示。
由表4可見, TCA通過適配邊緣分布,將全局域特征進行變換,不能很好處理不同壽命階段間數(shù)據(jù)的區(qū)分性。JDA雖然考慮到兩種分布對數(shù)據(jù)樣本的影響,卻沒有根據(jù)具體數(shù)據(jù)衡量兩種分布各自的重要性,泛化能力較差。GFK將原始特征變換到流形空間,最近距離的選擇高度依賴于流形核的構建,對復雜分布適應性較弱。本文方法通過自適應的適配兩域權值,有效地解決了不同工況下滾動軸承壽命階段識別的問題,平均識別精度達到91.85%。特別是在BDA方法中,當μ=0時,BDA方法退化為TCA;當μ=0.5時,BDA退化為JDA。這兩種算法都可以看作是BDA的特殊情況。
4 角接觸球軸承實驗驗證
4.1 角接觸球軸承壽命狀態(tài)識別
為驗證本文構建的模型在不同型號軸承上的效果,現(xiàn)采用自測C36018型角接觸球軸承,節(jié)徑15 mm,包含7個滾動體,接觸角度15°。在相同轉速、不同負載下運行相同圈數(shù),分別以L1,L2和L3表示 ,在運行圈數(shù)和轉速相同的條件下,負載越大,壽命損耗越多,故3種不同負載對應3個不同壽命階段,實際壽命損耗為L1<L2<L3。具體壽命狀態(tài)信息如表5所示。
采用不同工況條件對處于不同壽命階段的滾動軸承進行振動信號采集,采集時運行轉速分別為500,1000和1500 r/min,加載負荷均為1 kg,采樣頻率均為25.6 kHz,采樣長度均為102400,每種壽命階段采樣2次,對每種工況下各壽命階段數(shù)據(jù)以2048為分析點數(shù)。1 kg載荷、500 r/min轉速記為D工況,以1 kg載荷、1000 r/min轉速的采集工況數(shù)據(jù)記為E工況,以1 kg載荷、1500 r/min記為F工況,各工況L1,L2和L3壽命階段樣本各100個。
設置D工況數(shù)據(jù)為源域數(shù)據(jù),F(xiàn)、E工況數(shù)據(jù)為目標域數(shù)據(jù)。從源域每類樣本中分別抽取1,2,3個即訓練樣本3,6,9個(所占比例為整個源域壽命階段樣本數(shù)的1%,2%,3%)。目標域每類樣本中抽取10,20,30和40個,測試樣本數(shù)分別為30,60,90和120個構成測試樣本集。源域多樣本數(shù)為100個。采用本文方法對角接觸球軸承不同工況下滾動軸承壽命識別,設置μ=0.3,N=20,識別結果如表6所示。
從表6可以看出,本文方法在角接觸球軸承不同工況下壽命階段識別上表現(xiàn)良好。很好地適應了目標域數(shù)據(jù)完全無標記的適配問題,針對不同工況下分布差異較大的數(shù)據(jù),平均識別精度最高可達95.67%。
4.2 與其他遷移學習算法對比
改進均衡分布適配方法與TCA,JDA和GFK等遷移學習方法對比。選擇源域3樣本為訓練集(所占比例為整個源域壽命階段樣本數(shù)的1%),目標域60(所占比例為整個目標域壽命階段樣本數(shù)60%)樣本為測試集對比識別結果,得到如表7所示。
本節(jié)實驗利用不同工況下角接觸球軸承的數(shù)據(jù)證明了改進均衡分布適配方法的可行性。無論是在與傳統(tǒng)機器學習還是遷移學習方法的對比中都具有明顯的優(yōu)勢。實驗結果表明改進均衡分布適配方法很好的完成了滾動軸承壽命階段識別的任務,識別準確率達到94%左右。
5 結 論
1)改進均衡分布適配方法,采用無重復均勻隨機抽樣對源域類間樣本進行多次均勻隨機抽樣得到多個訓練樣本,充分發(fā)掘了類間樣本的潛在信息,減少了迭代造成的誤差,更好地為無標記的目標域空間提供了可適配的偽標簽;
2)在再生核希爾伯特空間,調節(jié)平衡因子μ以適配兩域邊緣分布與條件分布所占權值,伴隨定量隨機抽樣提高了數(shù)據(jù)類內緊湊性和類間區(qū)分性,大大提升了滾動軸承壽命階段識別的精確率;
3)改進均衡分布適配方法與其他領域適應性方法對比識別結果。說明源域與目標域的邊緣概率與條件概率在適配過程中各自的重要性不能被同等看待。改進均衡分布適配方法對不同工況下滾動軸承壽命階段的識別效果更佳。
參考文獻:
[1]??????? Yu H, Li H R, Tian Z K, et al. Rolling bearing degradation state identification based on LPP optimized by GA[J]. International Journal of Rotating Machinery, 2016, 2016:9281098.
[2]??????? 陳仁祥, 黃 鑫, 楊黎霞,等. 加噪樣本擴展深度稀疏自編碼神經(jīng)網(wǎng)絡的滾動軸承壽命階段識別[J]. 振動工程學報, 2017, 30(5):874-882.
CHEN Renxiang, Huang Xin, Yang Lixia, et al. Bearing life state recognition using deep sparse auto-encoder neural network with noise adding sample expansion[J].Journal of Vibration Engineering, 2017, 30 (5): 874-882.
[3]??????? 王 冰, 王 微, 胡 雄,等. 基于GG模糊聚類的退化狀態(tài)識別方法[J]. 儀器儀表學報, 2018,39(3): 21-28.
WANG Bing, Wang Wei, Hu Xiong, et al. Degradation condition recognition method based on Gath-Geva fuzzy clustening[J]. Chinese Journal of Scientific Instrument, 2018,39(3): 21-28.
[4]??????? Pan S J, Yang Q. A Survey on transfer learning[J]. IEEE Transactions on Knowledge & Data Engineering, 2010, 22(10):1345-1359.
[5]??????? 莊福振,羅 平,何 清,等.遷移學習研究進展[J].軟件學報,2015, 26(1):26-39.
Zhuang Fuzhen, Luo Ping, He Qing, et al. Research progress of migration learning[J]. Journal of Software, 2015, 26 (1): 26-39.
[6]??????? 沈 飛, 陳 超, 嚴如強. 奇異值分解與遷移學習在電機故障診斷中的應用[J]. 振動工程學報, 2017, 30(1):118-126.
SHEN Fei, CHEN Chao, YAN Ruqiang. Application of singular value decomposition and transfer learning in motor fault diagnosis[J].Journal of Vibration Engineering, 2017, 30 (1): 118-126.
[7]??????? 段禮祥, 謝駿遙,王 凱,等. 基于不同工況下輔助數(shù)據(jù)集的齒輪箱故障診斷[J]. 振動與沖擊, 2017, 36(10):104-108.
DUAN Lixiang, XIE Junyao, WANG Kai, et al. Gearbox fault diagnosis based on auxiliary data sets under different working conditions[J]. Journal of Vibration and Shock, 2017, 36 (10): 104-108.
[8]??????? 康守強, 胡明武, 王玉靜,等. 基于特征遷移學習的變工況下滾動軸承故障診斷方法[J]. 中國電機工程學報, 2019,39(3): 764-772.
KANG Shouqiang, HU Mingwu, WANG Yujing, et al. Fault diagnosis method of rolling bearing under variable conditions based on feature transfer learning [J]. Proceedings of the CSEE, 2019,39(3):764-772.
[9]??????? Wang J, Chen Y, Hao S, et al. Balanced distribution adaptation for transfer learning[C].IEEE International Conference on Data Mining, 2017.
[10]????? Pan S J, Tsang I W, Kwok J T, et al. Domain adaptation via transfer component analysis.[J]. IEEE Transactions on Neural Networks, 2011, 22(2):199-210.
[11]????? Li X, Lu W F, Zhai L, et al. Predictive modeling for life cycle reliability analysis and machine health condition prediction in remanufacturing[M]. London: Springer, 2014.
[12]????? 闕子俊, 金曉航, 孫 毅. 基于UKF的軸承剩余壽命預測方法研究[J]. 儀器儀表學報, 2016, 37(9):2036-2043.
Que Zijun, JIN Xiaohang, SUN Yi. Remaining useful life prediction for bearings with the unscented Kalman filter-based approach[J]. Chinese Journal of Scientific Instrument, 2016, 37 (9): 2036-2043.
[13]????? Guo S, Deng F, Jie C, et al. Sensor multi-fault diagnosis with improved support vector machines[J]. IEEE Transactions on Automation Science & Engineering, 2017, 14(2):1053-1063.
[14]????? Deng X, Tian X, Chen S, et al. Deep learning based nonlinear principal component analysis for industrial process fault detection[C]. International Joint Conference on Neural Networks (IJCNN 2017). IEEE, 2017.
[15]????? Long M, Wang J, Ding G, et al. Transfer feature learning with joint distribution adaptation[C]. IEEE International Conference on Computer Vision, Sydney, NSW, 2013: 2200-2207.
[16]????? Gong B, Shi Y, Sha F, et al. Geodesic flow kernel for unsupervised domain adaptation[C].IEEE Conference on Computer Vision & Pattern Recognition, 2015.
Abstract: In view of the problem that the distribution differences between training samples and test samples under different working conditions cannot effectively identify the life stage of rolling bearings, an improved method for identifying the life stage of rolling bearings based on balanced distribution is proposed. Firstly, non-repetitive uniform random sampling is used to conduct multiple uniform random sampling of inter-class samples in source domain, the training set of multi-sample in source domain is obtained to reduce the influence of sample selection in source domain on target domain prediction label. Furthermore, the weights of edge distribution and conditional distribution are dynamically adjusted in reproducing kernel Hilbert space by using equilibrium factorμ,? the weights of edge distribution and conditional distribution are continuously optimized by iteration. In order to reduce the maximum mean difference between the two domains, pseudo-labels in the target domain are transformed into pseudo-labels. Finally, multiple classifiers are constructed by using the mapping matrices of the source domain data sets, the final recognition results of the target domain samples are obtained by consistency discrimination. Experiments on two sets of data sets of rolling bearing life stages show that the proposed method is feasible and effective.
Key words: fault diagnosis; rolling bearing; life state identification; conditional probability distribution; marginal distribution
作者簡介: 吳昊年(1993-),男,碩士。電話:(023)62539903;E-mail:296018167@qq.com
通訊作者: 陳仁祥(1983-),男,博士,教授,博士生導師。電話:(023)62539903;E-mail:manlou.yue@126.com