許杰雄, 龍玲莉, 豆龍龍, 陳佐, 孔崢
(江蘇方天電力技術(shù)有限公司, 江蘇 南京 210096)
電機(jī)在現(xiàn)代社會(huì)工業(yè)生產(chǎn)的各個(gè)領(lǐng)域均有廣泛應(yīng)用,滾動(dòng)軸承作為電機(jī)中重要的零部件,精密且易損壞。研究表明,滾動(dòng)軸承造成了機(jī)械設(shè)備百分之三十的故障[1],由軸承故障造成的機(jī)械故障有:松動(dòng)、不對中、不平衡、動(dòng)靜摩擦、軸彎曲、旋轉(zhuǎn)失速、共振等。所以,研究軸承的故障并給出診斷方法十分關(guān)鍵。隨著人工智能技術(shù)的發(fā)展,基于機(jī)器學(xué)習(xí)的故障識別方法受到更多的關(guān)注和研究[2-6]。文獻(xiàn)[7]利用峭度準(zhǔn)則選取最大分量進(jìn)行Teager能量算子解調(diào)并通過能量譜識別出滾動(dòng)軸承的工作狀態(tài)和故障類型。文獻(xiàn)[8]提取EEMD分解后的IMF分量能量作為小波神經(jīng)網(wǎng)絡(luò)的輸入特征向量,采用免疫遺傳算法優(yōu)化小波神經(jīng)網(wǎng)絡(luò)的初始權(quán)值向量和閾值向量進(jìn)行故障診斷。文獻(xiàn)[9]使用小波包分解與重構(gòu)獲取振動(dòng)信號再由經(jīng)過自適應(yīng)遺傳算法優(yōu)化的LSSVM模型對滾動(dòng)軸承常見故障進(jìn)行診斷。文獻(xiàn)[10]先找出固有模態(tài)函數(shù)再基于能量熵建立支持向量機(jī),最后利用支持向量機(jī)對滾動(dòng)軸承的工作狀態(tài)和故障類型進(jìn)行識別。文獻(xiàn)[11]依據(jù)滾動(dòng)軸承時(shí)頻維數(shù)確定軸承故障類型,將同數(shù)據(jù)庫中的數(shù)值進(jìn)行對比,實(shí)現(xiàn)滾動(dòng)軸承故障的檢測。以上都是選用單個(gè)分類器的方法,有識別精度較低、標(biāo)記數(shù)據(jù)樣本少等問題,文獻(xiàn)[12]提出一種將協(xié)同訓(xùn)練與集成學(xué)習(xí)相結(jié)合的Co-Forest軸承故障診斷算法,此方法解決了單個(gè)分類器的缺陷,但是依然存在使用無標(biāo)記樣本忽略了無標(biāo)記樣本中隱藏的空間有序性信息,這使得訓(xùn)練的過程中喪失了部分提高分類器性能的可能性。針對以上問題,本研究提出一種結(jié)合模糊聚類和協(xié)同訓(xùn)練的軸承故障識別方法。仿真實(shí)驗(yàn)結(jié)果表明,此方法相較改進(jìn)前的協(xié)同訓(xùn)練提高了識別精度。
傳統(tǒng)半監(jiān)督學(xué)習(xí)算法在使用樣本集時(shí)未關(guān)注過無標(biāo)記數(shù)據(jù)中隱藏的空間有序性信息,這使得訓(xùn)練過程中隱藏的空間有序性信息被遺漏,而這本可以提高分類器的識別精度。Xuesong Yin等[13]提出的模糊方法有效地解決了該問題,本研究提出用模糊C均值算法來過濾離分類中心一定距離的隱藏空間有序性信息的無標(biāo)記數(shù)據(jù)。但這會(huì)產(chǎn)生協(xié)同訓(xùn)練中多分類器結(jié)果不同的問題,本研究采用加權(quán)K最近鄰算法對分類結(jié)果不同的樣本數(shù)據(jù)重新分類,通過更新后的樣本數(shù)據(jù)優(yōu)化分類器的協(xié)同訓(xùn)練過程。綜上所述,提出了一種結(jié)合模糊聚類和協(xié)同訓(xùn)練的軸承故障識別方法。
模糊C均值算法[14]是一種聚類算法。它對數(shù)據(jù)采用模糊劃分,通過用模糊隸屬度來表示每個(gè)數(shù)據(jù)點(diǎn)屬于某個(gè)聚類的程度。模糊C均值算法將使用模糊的方法對樣本分類,樣本的分類由隸屬度來確定,寫作μA(x),x可取集合A中的全部對象,且μA(x)∈[0,1]。當(dāng)μA(x)=1時(shí)x∈A。則有限個(gè)對象x1,x2,…,xn的模糊集合,如式(1)。
A={μA(xi),xi∈{x}}
(1)
由式(1)可知,單個(gè)元素劃分給某個(gè)模糊集不是硬性劃分。聚類損失函數(shù)為式(2)。
(2)
式中,1≤m<∞,N為樣本數(shù)量;C為聚類的簇?cái)?shù);uij為樣本i屬于j分類的隸屬度,如式(3)。
(3)
xi為第i個(gè)樣本;cj為j簇的中心,如式(4)。
(4)
式中,xi與cj都具有d維度。模糊c是一個(gè)不斷迭代計(jì)算隸屬度和簇中心的過程,直到他們達(dá)到最優(yōu)。
對于單個(gè)樣本xi,它對于每個(gè)簇的隸屬度之和是1。迭代的終止條件為式(5)。
(5)
式中,k為迭代步數(shù);ε為誤差閾值。該過程收斂于目標(biāo)Jm的局部最小值或鞍點(diǎn)。給每個(gè)樣本賦予屬于每個(gè)簇的隸屬度函數(shù),通過隸屬度值大小來將樣本歸類。
K最鄰近算法首先找到被分類對象在訓(xùn)練數(shù)據(jù)集中的k個(gè)最近的鄰居,然后根據(jù)這些鄰居的分類屬性來確定無標(biāo)記樣本的類標(biāo)簽[15]。K最鄰近算法原則上對分類屬性賦予一樣的權(quán)重,但當(dāng)數(shù)據(jù)集存在樣本不平衡和樣本噪聲的時(shí)候,預(yù)測準(zhǔn)確率會(huì)降低,故提出了加權(quán)K最鄰近算法。加權(quán)K最鄰近算法為無標(biāo)記樣本到每個(gè)有標(biāo)記樣本之間的距離增加了權(quán)重,將較大的權(quán)重賦予較近的近鄰,算法如下。
使用標(biāo)準(zhǔn)化公式標(biāo)準(zhǔn)化前k個(gè)近鄰到樣本xi的距離得到D(xt,xi),d(xt,xi)是樣本xi與k+1個(gè)近鄰的距離,i=1,2,…,k+1,如式(6)。
(6)
將標(biāo)準(zhǔn)距離轉(zhuǎn)化成xt,xi為相同類別的概率,如式(7)。
(7)
求出xt屬于類ωr的后驗(yàn)概率,如式(8)。
(8)
通過算得的后驗(yàn)概率確定待測樣本的分類。
本研究采用的改進(jìn)協(xié)同訓(xùn)練算法步驟如下。
While未標(biāo)記數(shù)據(jù)集U不為空
Step1:在標(biāo)記數(shù)據(jù)集L和U上進(jìn)行模糊C均值聚類,按照隸屬度由高到低選出前r個(gè)樣本創(chuàng)建樣本集R1。
Step2:若隸屬度高的無標(biāo)記樣本少于r,則用該無標(biāo)記樣本創(chuàng)建樣本集R1。
Step3:在標(biāo)記數(shù)據(jù)集L的x1和x2上訓(xùn)練出兩個(gè)分類器h1和h2,用訓(xùn)練得到的分類器對R1分類。
Step4:如果h1、h2對R1中的樣本分類結(jié)果相同,則將該分類結(jié)果加入到標(biāo)記數(shù)據(jù)集L中。如果h1、h2對R1中的分類結(jié)果不相同,則用加權(quán)K鄰近算法對該樣本重新分類,再加入到標(biāo)記數(shù)據(jù)集L。
算法流程如圖1所示。
圖1 結(jié)合模糊聚類和協(xié)同訓(xùn)練的軸承故障識別流程
為驗(yàn)證算法的有效性,本研究使用凱斯西儲大學(xué)軸承故障實(shí)驗(yàn)數(shù)據(jù)[16]進(jìn)行仿真實(shí)驗(yàn),仿真實(shí)驗(yàn)的硬件配置為XeonGold6130型號的英特爾處理器,2 400 MHz、2 666 MHz雙頻的16 G三星內(nèi)存,240 G的金士頓固態(tài)硬盤,仿真實(shí)驗(yàn)的軟件配置為Windows10操作系統(tǒng)、64位Python 3.6.4運(yùn)行環(huán)境。實(shí)驗(yàn)數(shù)據(jù)的軸承型號為6205-2RSJEMSKF,單點(diǎn)故障直徑為0.177 mm、0.355 mm、0.533 mm,采樣頻率為12 000 Hz,故障類型包括外圈故障、內(nèi)圈故障、滾動(dòng)體故障和正常狀態(tài)四種狀態(tài)。數(shù)據(jù)分類標(biāo)記表如表1所示。
表1 軸承故障分類信息
以上每個(gè)類別各取200個(gè)樣本,一共就有2 000個(gè)帶標(biāo)記的樣本數(shù)據(jù),每次試驗(yàn)分別抽取10%,30%,50%的標(biāo)記數(shù)據(jù)作為已標(biāo)記數(shù)據(jù)集,其余作為未標(biāo)記數(shù)據(jù)集,本研究的對比算法選用貝葉斯協(xié)同訓(xùn)練算法、結(jié)合模糊C均值的貝葉斯協(xié)同訓(xùn)練算法和結(jié)合K最鄰近的貝葉斯協(xié)同訓(xùn)練算法。
文獻(xiàn)[17]提出了改進(jìn)的故障特征向量提取方法。首先提取原始振動(dòng)信號時(shí)域、頻域、時(shí)頻域的統(tǒng)計(jì)特征,通過利用LS選擇較為敏感、更能表征故障狀態(tài)的特征,形成故障特征向量,以此實(shí)現(xiàn)對實(shí)驗(yàn)數(shù)據(jù)振動(dòng)信號的特征提取,之后通過四種算法進(jìn)行軸承故障識別,試驗(yàn)結(jié)果如圖2所示。
圖2中橫坐標(biāo)表示實(shí)驗(yàn)數(shù)據(jù)的樣本編號,縱坐標(biāo)表示實(shí)驗(yàn)數(shù)據(jù)的分類編號,圖集中深色點(diǎn)代表樣本數(shù)據(jù)的原始分類,淺色點(diǎn)代表樣本數(shù)據(jù)的算法分類,原始分類每200個(gè)樣本對應(yīng)一個(gè)分類,在圖中呈現(xiàn)出規(guī)律的階梯狀,算法分類離散于原始分類外的點(diǎn)越少證明算法分類效果越好。結(jié)合圖2的實(shí)驗(yàn)結(jié)果匯總出仿真實(shí)驗(yàn)正確率統(tǒng)計(jì)表,如表2所示。
從表2可以看出,結(jié)合模糊C均值的貝葉斯協(xié)同訓(xùn)練算法與結(jié)合K最鄰近的貝葉斯協(xié)同訓(xùn)練算法分類正確率相近,觀察圖2具體錯(cuò)誤分類樣本可以發(fā)現(xiàn),模糊C均值的貝葉斯協(xié)同訓(xùn)練算法雖然考慮了隱藏空間有序性信息,但是訓(xùn)練器之間訓(xùn)練不一致導(dǎo)致錯(cuò)誤標(biāo)記的樣本數(shù)據(jù),在后續(xù)的迭代訓(xùn)練中,錯(cuò)誤會(huì)累計(jì)擴(kuò)大。K最鄰近的貝葉斯協(xié)同訓(xùn)練算法則考慮了訓(xùn)練器對相同樣本分類不一致的問題,但是忽略了隱藏空間有序性信息,導(dǎo)致分類精度下降,所以兩個(gè)問題綜合考慮后,本研究提出的算法在10%、30%、50%已標(biāo)記樣本分類仿真實(shí)驗(yàn)正確率均優(yōu)于其它三個(gè)算法,在識別對應(yīng)的軸承故障類型中的表現(xiàn)均高于其他對比模型,能夠有效提高軸承故障識別的精度。
表2 仿真實(shí)驗(yàn)正確率統(tǒng)計(jì)表
在本次仿真實(shí)驗(yàn)中,本研究所提算法的訓(xùn)練時(shí)間與對比算法相比并無突出表現(xiàn),并且在50%已標(biāo)記樣本分類仿真實(shí)驗(yàn)中本研究所提算法的訓(xùn)練時(shí)間略高于對比算法,在后續(xù)研究中,需繼續(xù)解決算法訓(xùn)練效率的問題。
本研究提出了一種結(jié)合模糊聚類和協(xié)同訓(xùn)練的軸承故障識別方法,首先利用模糊C均值算法對樣本聚類選擇無標(biāo)記樣本,然后再用加權(quán)K最近鄰算法對多個(gè)分類器分類不一致的無標(biāo)記樣本重新分類進(jìn)行協(xié)同訓(xùn)練,提升了協(xié)同訓(xùn)練的精度和穩(wěn)定性,得到如下結(jié)論。
(1) 模糊聚類方法可以有效提取軸承故障無標(biāo)記樣本中的隱藏的空間有序性信息。
(2) 加權(quán)K最近鄰算法可以平衡協(xié)同訓(xùn)練中多個(gè)分類器分類結(jié)果不一致的問題。
(3) 綜合模型在凱斯西儲大學(xué)軸承故障數(shù)據(jù)上的仿真實(shí)驗(yàn)結(jié)果,本研究提出的結(jié)合模糊聚類和協(xié)同訓(xùn)練的軸承故障識別方法比傳統(tǒng)的多分類器協(xié)同訓(xùn)練方法更加有效。