田威威,陳俊杰,林意
(1. 江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院, 江蘇 無錫 214122;2. 西門子中國研究院, 北京 100000)
在工業(yè)生產(chǎn)中,軸承是旋轉(zhuǎn)機(jī)械的關(guān)鍵部件,由于長期連續(xù)工作在高載荷和高轉(zhuǎn)速下,輕則會影響工廠企業(yè)的正常運(yùn)作,重則會造成重大的經(jīng)濟(jì)損失,甚至出現(xiàn)毀機(jī)事故和人員傷亡。因此在早期有效地診斷軸承是否有故障具有十分重要的意義[1]。
運(yùn)用傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行故障診斷[2-4]需要大量的帶標(biāo)簽樣本以訓(xùn)練分類器。而在實(shí)際生產(chǎn)中,軸承運(yùn)行所產(chǎn)生的實(shí)時振動數(shù)據(jù)本身并無標(biāo)簽。同時,由于軸承種類繁多且工況復(fù)雜(如轉(zhuǎn)速、溫度及其他工作環(huán)境的變化),數(shù)據(jù)的分布差異巨大,因此已有的帶標(biāo)簽樣本并不一定適用于新近產(chǎn)生的數(shù)據(jù),以此訓(xùn)練出的分類器更是難以滿足需求。
為達(dá)到減小數(shù)據(jù)分布差異的目的,考慮使用遷移成分分析(TCA),其在故障診斷領(lǐng)域已有不少應(yīng)用[5-6]。TCA由Pan等[7-8]提出,該算法將最大均值差異(MMD)[9]與主成分分析(PCA)[10-11]相結(jié)合,在領(lǐng)域之間尋找一種共享的特征表示,試圖在減少數(shù)據(jù)分布差異的同時保持原始數(shù)據(jù)的內(nèi)部屬性。經(jīng)過這種處理后的數(shù)據(jù)可以直接利用傳統(tǒng)分類器對數(shù)據(jù)進(jìn)行跨工況的訓(xùn)練和泛化。
在傳統(tǒng)的TCA軸承故障診斷方法中,通過處理反應(yīng)軸承狀態(tài)信息的振動信號可以從中提取出軸承的特征,以便對軸承的狀態(tài)進(jìn)行分析從而判斷軸承是否出現(xiàn)了故障,出現(xiàn)了何種故障。傳統(tǒng)的方法從時域、頻域及時頻域3個方面進(jìn)行特征提取。然而在實(shí)際現(xiàn)場中,信號干擾或者生產(chǎn)環(huán)境等因素會弱化軸承振動信號的規(guī)律性,使得在頻譜上難以準(zhǔn)確看到相應(yīng)分布特征。當(dāng)采用詞包模型時,把每一時間幀下能量在頻率維度上的分布看成一個單詞,則每段信號就表示成了由各個單詞組成的一篇篇文檔,這就可以直接從數(shù)據(jù)的角度去揭示能量分布的這種規(guī)律性。
在此基礎(chǔ)上,筆者提出一種基于遷移成分分析和詞包模型的診斷算法,通過遷移成分分析將源域頻譜數(shù)據(jù)(有標(biāo)簽)和目標(biāo)域頻譜數(shù)據(jù)(無標(biāo)簽)映射到同一分布下,對遷移后的數(shù)據(jù)建立詞包模型,以詞包的形式表示各個樣本,以此為特征訓(xùn)練出相應(yīng)分類器對軸承進(jìn)行診斷。實(shí)驗(yàn)結(jié)果表明,該方法能夠?qū)⒁褬?biāo)記的數(shù)據(jù)用于訓(xùn)練分類器對新近產(chǎn)生的軸承數(shù)據(jù)進(jìn)行分類,以達(dá)到故障診斷的目的。使用該方法,運(yùn)用一種工況下的軸承數(shù)據(jù)作訓(xùn)練對另一工況下的軸承進(jìn)行診斷具有顯著的成效。
TCA是一種遷移學(xué)習(xí)方法,所謂遷移學(xué)習(xí),即把已訓(xùn)練好的模型(源域)遷移到新的模型(目標(biāo)域)來幫助新模型訓(xùn)練。在滾動軸承領(lǐng)域,由于軸承之間具有相似性,所以它們的振動數(shù)據(jù)之間應(yīng)當(dāng)具有可遷移性。
和主成分分析(PCA)方法一樣,遷移成分分析本質(zhì)上是一種降維算法,而TCA在拉近數(shù)據(jù)分布距離上更有優(yōu)勢。
早期的詞包模型(BOW)主要用于解決文本分析問題,如分析文檔集、文檔和單詞三者間的相互關(guān)系。陳俊杰等[12]創(chuàng)造性地將其運(yùn)用于軸承特征提取,并在基于該提取方式的軸承故障診斷中取得了極佳的效果。
其主要思想為對軸承振動信號進(jìn)行短時傅里葉變換后得到頻譜,將每個頻譜片段視為一個單詞,可以表示為1組V維的向量w=(0,…,1,…,0),其中wv=0,wu=1(v≠u)。
每個頻譜可以由N個頻譜片段組成,相當(dāng)于由單詞組成文檔,即w=(w1,…wn,…,wN),其中wn是第n個頻譜片段。
每個頻譜中的單個頻譜片段也可表示為wi=(wi1,wi2,…,wiV),從而可以將頻譜表示為w=(w1,w2,…,wV),成為詞包模型,整個頻譜集合的詞包模型如下:
(1)
詞包模型本質(zhì)上是將特征以文本表示,雖然可以作為軸承的特征,但是由于每1維度之間并不具有相同的映射關(guān)系,所以失去了可遷移性。為了達(dá)到變工況軸承故障診斷的目的,考慮在詞包模型完全建立之前進(jìn)行遷移。此時,特征的表示形式為頻譜能量分布矩陣,能量分布矩陣由多個分布片段組成。該矩陣由振動信號經(jīng)短時傅里葉變換得到,每個分布片段之間完整地保留了相應(yīng)的映射關(guān)系,在這樣的情況下進(jìn)行遷移成分分析可以更好地將該工況的能量分布矩陣遷移到另一工況的數(shù)據(jù)分布下。
源域頻譜能量分布矩陣經(jīng)過遷移后,其數(shù)據(jù)分布已更接近于目標(biāo)域工況下軸承的能量分布矩陣,因而使用在其基礎(chǔ)上訓(xùn)練的分類器對目標(biāo)域工況下的軸承進(jìn)行診斷可以取得良好的效果。
遷移詞包模型建立流程如圖1所示。
圖1 遷移詞包模型建立流程Fig. 1 TCA-BOW model establishment process
對軸承進(jìn)行診斷,首先要根據(jù)軸承的振動信號提取特征。通過對振動信號進(jìn)行短時傅里葉變換獲取其能量分布并建立相應(yīng)的詞包模型是一種有效的特征提取方式。
2.1.1 能量分布
短時傅里葉變換(STFT)[13]是一種線性時頻變換,定義為
(2)
式中:t為時間;f為頻率;x為源信號;γ為窗函數(shù),可視為某段信號在某段時間內(nèi)的局部頻譜。
P(m,n)=|T(m,n)|2。
(3)
圖2為軸承4種不同狀態(tài)下其振動信號的能量分布。
圖2 各狀態(tài)下的能量分布Fig. 2 Energy distribution in each state
功率譜密度(PSD)的分布矩陣MP如式(4)所示,其中Nt,Nf分別是時域和頻域的片段數(shù)目。
(4)
2.1.2 遷移成分分析
對源域信號及目標(biāo)域信號進(jìn)行短時傅里葉變換可以得到兩者的PSD。但此時這些PSD 并不處于同一分布,源域與目標(biāo)域距離過大,據(jù)此建立的詞包模型難以準(zhǔn)確地描述軸承的故障情況。分布情況如圖3所示,其中紅色為源域,藍(lán)色為目標(biāo)域。
在這種情況下使用TCA拉近兩者的距離,使它們趨于同一分布從而提取出準(zhǔn)確的特征。對m段源域信號及n段目標(biāo)域信號(每段信號長度相同)進(jìn)行短時傅里葉變換,得到m+n個Nt*Nf的矩陣,把這些矩陣分為(m+n)*Nt個時間片段,每個時間片段上均為一個1 *Nf的數(shù)組,表示該時間片段能量在頻域上的分布情況。再以這m*Nt個1*Nf的數(shù)組為源域,n*Nt個1*Nf的數(shù)組為目標(biāo)域進(jìn)行TCA,經(jīng)過降維之后可以得到m*Nt個1 *Nf′的數(shù)組(Nf′ 圖3 源域目標(biāo)域 PSD分布對比Fig. 3 Comparison of PSD distribution between source domain and target domain 圖4 遷移后源域目標(biāo)域PSD分布對比Fig. 4 Comparison of PSD distribution between source domain and target domain after TCA 由圖4可知源域數(shù)據(jù)PSD與目標(biāo)域數(shù)據(jù)PSD經(jīng)過遷移后分布近似相同,在這種情況下建立的詞包模型能夠更好地描述源域及目標(biāo)域所指軸承的狀態(tài)特征。 2.1.3 詞包模型建立 得到源域及目標(biāo)域遷移后的特征之后,便可以建立相應(yīng)的詞包模型。 對已知的所有分布情況做k-means聚類,每個分布表示為1 *Nf的數(shù)組,聚成k類,據(jù)此創(chuàng)建一個大小為k的詞匯表,其中每個單詞單獨(dú)地對應(yīng)某1個聚類結(jié)果,如圖5所示。 F=[n(1),…,n(i),…,n(k)], (5) 式中n(i) 是單詞wi在文檔中出現(xiàn)的次數(shù)。 圖5 聚類Fig. 5 Clustering 圖6 詞包Fig. 6 Bag of words 在不同情況下,k的取值也不盡相同,圖7為凱斯西儲大學(xué)數(shù)據(jù)集下某次遷移過程中某個軸承狀態(tài)的診斷錯誤率隨k值的變化。選取其中錯誤率最低的相應(yīng)k值進(jìn)行診斷。 圖7 準(zhǔn)確率隨k值的變化Fig. 7 Accuracy changes with k 以源域數(shù)據(jù)做訓(xùn)練,以目標(biāo)域數(shù)據(jù)做測試,構(gòu)造相應(yīng)的詞包模型并訓(xùn)練若干分類器,包括SVM、KNN等,從中選擇效果較好的分類器作為最終的分類器,不同的數(shù)據(jù)集下不同分類器的表現(xiàn)也不盡相同。 整個算法流程如圖8所示。 圖8 基于TCA和詞包模型的軸承故障診斷流程Fig. 8 The process of bearing diagnosis based on TCA-BOW 在本次實(shí)驗(yàn)中,筆者將該算法應(yīng)用于西門子SQI-MFS實(shí)驗(yàn)平臺數(shù)據(jù)集、美國凱斯西儲大學(xué)公開數(shù)據(jù)集以及機(jī)械故障預(yù)防技術(shù)協(xié)會MFPT(machinery failure prevention technology)數(shù)據(jù)集。 3.1.1 SQI-MFS數(shù)據(jù)集 圖9 西門子SQI-MFS實(shí)驗(yàn)平臺Fig. 9 Siemens SQI-MFS experiment platform SQI-MFS 實(shí)驗(yàn)平臺由電機(jī)、變頻器、軸承和支架組成(圖9所示)。其中軸承型號為MBER-16K,實(shí)驗(yàn)臺可以模擬各類軸承在不同轉(zhuǎn)速和不同負(fù)載下的運(yùn)行狀態(tài)。實(shí)驗(yàn)中采集了36種運(yùn)行狀態(tài)下振動數(shù)據(jù),分別為: 3種負(fù)載情況( 0,1,3 個轉(zhuǎn)子負(fù)載) × 3種轉(zhuǎn)速( 600,1 200,1 800 r /min) × 4種軸承(健康、滾珠、內(nèi)圈、外圈) 。 3.1.2 凱斯西儲大學(xué)數(shù)據(jù)集 美國西儲大學(xué)實(shí)驗(yàn)平臺由1個電機(jī),1個轉(zhuǎn)矩,1個傳感器,1個功率計(jì)以及電子控制設(shè)備組成,其中被測試軸承種類為SKF軸承,實(shí)驗(yàn)中采集了16種狀態(tài)下的信號,包括4種負(fù)載( 0,735,1 470,2 205 W),4種故障狀態(tài) ( 健康、滾珠、內(nèi)圈、外圈)。其中,0 W負(fù)載下電機(jī)轉(zhuǎn)速為1 797 r /min,735 W負(fù)載下電機(jī)轉(zhuǎn)速為1 772 r /min,1 470 W負(fù)載下電機(jī)轉(zhuǎn)速為1 750 r / min,2 205 W負(fù)載下電機(jī)轉(zhuǎn)速為1 730 r /min。 3.1.3 機(jī)械故障預(yù)防技術(shù)協(xié)會MFPT數(shù)據(jù)集 該數(shù)據(jù)集由機(jī)械故障預(yù)防技術(shù)協(xié)會(MFPT)[14]提供。一個帶有NICE 軸承的實(shí)驗(yàn)臺收集了 270 磅負(fù)載下基線條件下的加速度數(shù)據(jù)(健康數(shù)據(jù)),采樣頻率為97 656 Hz,持續(xù) 6 s。共跟蹤了10個外圈和7個內(nèi)圈故障數(shù)據(jù)情況,其中外圈故障包括在 270 磅負(fù)載下,采樣頻率為 97 656 Hz,持續(xù)6 s的3個數(shù)據(jù),以及在 11,23,45,68,91,113和136 kg磅負(fù)載下,采樣頻率為48 828 Hz,持續(xù) 3 s的 7 個數(shù)據(jù);內(nèi)圈故障包括在 0,23,45,68,91,113和136 kg磅負(fù)載下,采樣頻率為48 848 Hz,持續(xù)3 s的7個數(shù)據(jù)。 針對這3個數(shù)據(jù)集以某種工況下數(shù)據(jù)為源域,再以另一種工況下的數(shù)據(jù)為目標(biāo)域進(jìn)行TCA遷移,得到新的數(shù)據(jù)并建立詞包模型以訓(xùn)練出相應(yīng)的分類器后對目標(biāo)域數(shù)據(jù)進(jìn)行分類。具體步驟如下: 步驟1 選取某種工況下4種軸承狀態(tài)(健康、滾珠故障、內(nèi)圈故障、外圈故障)每種振動信號的10個片段,共計(jì)40個信號片段作為源域數(shù)據(jù)。 步驟2 選取另一種工況下的某種軸承狀態(tài)的10個信號片段作為目標(biāo)域數(shù)據(jù)。 步驟3 使用TCA和詞包模型對軸承故障進(jìn)行診斷,得出診斷結(jié)果。 步驟4 重復(fù)步驟2,3,得到以4種軸承狀態(tài)數(shù)據(jù)為源域數(shù)據(jù)的40個診斷結(jié)果。 步驟5 計(jì)算并得到準(zhǔn)確率。 3.2.1 與傳統(tǒng)遷移成分分析對比 在傳統(tǒng)的遷移成分分析中,通常從時域、頻域、時頻域中獲取數(shù)據(jù)的特征。其在時域上提取峰值、平均幅值等13個時域特征。在時域上對頻譜進(jìn)行分析,提取頻域統(tǒng)計(jì)特征并選取重心頻率等5個頻域特征。對數(shù)據(jù)進(jìn)行小波包分解,得到8個時頻域特征[15]。 1)西門子SQI數(shù)據(jù)集。 在西門子SQI數(shù)據(jù)集下將負(fù)載數(shù)量固定不變,進(jìn)行跨頻率的診斷,診斷結(jié)果如表1所示。 表1 SQI下基于各種特征提取方式的遷移成分分析準(zhǔn)確率對比 從表1可以看出在西門子SQI數(shù)據(jù)集下使用詞包模型進(jìn)行特征提取再進(jìn)行TCA,雖然在個別情況下準(zhǔn)確率不算理想,但總體而言,相對于使用時域特征及時頻域特征可以得到更高的準(zhǔn)確率。在實(shí)際實(shí)驗(yàn)中,使用頻域特征進(jìn)行遷移成分分析得到的結(jié)果不太理想,所有的軸承均被診斷為外圈故障。 2)凱斯西儲大學(xué)數(shù)據(jù)集。 在凱斯西儲大學(xué)數(shù)據(jù)集下進(jìn)行跨負(fù)載數(shù)量的軸承故障診斷。由于0負(fù)載滾珠故障數(shù)據(jù)缺失,故涉及0負(fù)載數(shù)據(jù)的忽略滾珠故障狀態(tài),僅對30個源域信號進(jìn)行計(jì)算,診斷結(jié)果如表2所示。 表2 凱斯西儲數(shù)據(jù)集下基于各種特征提取方式的遷移成分分析準(zhǔn)確率對比 從表2可以看出在凱斯西儲數(shù)據(jù)集下使用詞包模型進(jìn)行特征提取再進(jìn)行TCA效果不錯。整體而言比時域特征更高,與小波包分解差距不大。在實(shí)際實(shí)驗(yàn)中,使用頻域特征進(jìn)行遷移成分分析得到的結(jié)果也不太理想,所有的軸承均被診斷為內(nèi)圈故障。 3)MFPT數(shù)據(jù)集。 MFPT數(shù)據(jù)集中僅有3個軸承狀態(tài)(健康、內(nèi)圈故障、外圈故障),因此只對這3種軸承狀態(tài)進(jìn)行研究。在實(shí)驗(yàn)過程中,由于健康數(shù)據(jù)均來自270磅負(fù)載情況下,所以只計(jì)算內(nèi)圈及外圈共20個診斷結(jié)果的準(zhǔn)確率,診斷結(jié)果如表3所示。 表3 MFPT數(shù)據(jù)集下基于各種特征提取方式的遷移成分分析準(zhǔn)確率對比 從表3中可以看出,在MFPT數(shù)據(jù)集下,使用詞包模型進(jìn)行特征提取再進(jìn)行TCA效果極佳。相對于時域特征及小波包分解具有更高的準(zhǔn)確性與穩(wěn)定性。在實(shí)際實(shí)驗(yàn)中,使用頻域特征進(jìn)行遷移成分分析得到的結(jié)果仍然不太理想,所有的軸承均被診斷為外圈故障。 3.2.2 與其他方法對比 在詞包模型的基礎(chǔ)上,分別運(yùn)用TCA、PCA及核主成分分析(KPCA)算法對多組數(shù)據(jù)取平均值,結(jié)果如圖10所示。 圖10 詞包模型TCA、詞包模型PCA、詞包模型KPCA的對比Fig. 10 Comparison of TCA-BOW, PCA-BOW and KPCA-BOW 由圖10可知,使用TCA進(jìn)行診斷時,隨著數(shù)據(jù)組數(shù)的增加,準(zhǔn)確率漸漸趨于穩(wěn)定,始終保持在90%以上,相對地,使用PCA進(jìn)行計(jì)算時準(zhǔn)確率并不穩(wěn)定且效果不佳,而KPCA雖然使用效果比PCA好但與TCA還是有一定的差距。 1)提出一種使用遷移成分分析和詞包模型的變工況軸承故障診斷算法,對不同工況下的軸承振動信號進(jìn)行遷移成分分析并建立相應(yīng)的詞包模型,并以此訓(xùn)練出分類器進(jìn)行診斷。 2)在西門子SQI-MFS數(shù)據(jù)集、凱斯西儲大學(xué)數(shù)據(jù)集、MFPT數(shù)據(jù)集下進(jìn)行實(shí)驗(yàn)后,發(fā)現(xiàn)傳統(tǒng)遷移成分分析使用的時域、頻域及時頻域特征整體而言效果欠佳,尤其是在頻域下直接進(jìn)行TCA效果較差(即使預(yù)先進(jìn)行了歸一標(biāo)準(zhǔn)化),相對而言,同時使用詞包模型特征與TCA效果更佳。 3)實(shí)驗(yàn)證明了本算法在變工況軸承故障診斷方面的有效性,對于復(fù)雜工況下的生產(chǎn),使用這種算法可以以較低的成本完成軸承故障診斷。2.2 分類
3 實(shí)驗(yàn)結(jié)果
3.1 實(shí)驗(yàn)數(shù)據(jù)
3.2 實(shí)驗(yàn)內(nèi)容
4 結(jié)束語