亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

不平衡技術(shù)在軸承故障診斷中的應(yīng)用

2021-06-22 04:21:56王振亞王廷軒楊永燦

機(jī)械與電子 2021年6期

王振亞,劉韜,王廷軒,楊永燦

(昆明理工大學(xué)機(jī)電工程學(xué)院，云南昆明 650500)

0 引言

軸承在各類制造業(yè)中應(yīng)用廣泛[1]。工程環(huán)境中因機(jī)械裝備部件故障失效時(shí)間短、數(shù)據(jù)難以獲取，以及不同工況和應(yīng)用場(chǎng)景差異等原因，往往造成監(jiān)測(cè)數(shù)據(jù)的不平衡問題。訓(xùn)練一個(gè)新的模型又會(huì)依賴大量數(shù)據(jù)和時(shí)間，不利于不同工況下故障診斷的推廣[2]。數(shù)據(jù)不平衡問題會(huì)嚴(yán)重影響設(shè)備的故障診斷率，導(dǎo)致機(jī)械裝備無(wú)法正常工作，嚴(yán)重者甚至損毀設(shè)備，嚴(yán)重影響生產(chǎn)效率，造成很大的經(jīng)濟(jì)損失。

目前，針對(duì)數(shù)據(jù)不平衡問題，國(guó)內(nèi)外學(xué)者提出了不同種類的解決方法[3]?；谏蓪?duì)抗式網(wǎng)絡(luò)、遷移學(xué)習(xí)、對(duì)抗遷移等機(jī)器學(xué)習(xí)的數(shù)據(jù)增強(qiáng)模型層出不窮，但存在訓(xùn)練不穩(wěn)定、干擾因素大、耗費(fèi)時(shí)間、在實(shí)際工程中難以應(yīng)用等問題；EML、SVM、CNN等處理不平衡數(shù)據(jù)的模式識(shí)別方法存在尋找穩(wěn)定性弱、參數(shù)選擇困難、在故障樣本較少情況下難以應(yīng)用的問題；過采樣和欠采樣技術(shù)因計(jì)算速度快、應(yīng)用范圍廣等優(yōu)點(diǎn),仍是實(shí)際工程中應(yīng)用最為廣泛的處理手段[4-5]。隨機(jī)過采樣(random oversampling,RAMO)是通過隨機(jī)選取少數(shù)類樣本進(jìn)行復(fù)制從而達(dá)到數(shù)據(jù)量上的均衡，但是該方法沒有考慮到數(shù)據(jù)的分布，非常容易形成過擬合；隨機(jī)欠采樣(random underdamping,RAMU)是通過隨機(jī)選取多數(shù)類的樣本進(jìn)行刪除進(jìn)而達(dá)到數(shù)據(jù)集的均衡，但是該方式很容易刪除掉含有重要信息的樣本點(diǎn)。Chawla等[6]提出了一種合成少數(shù)類過采樣技術(shù)(synthetic minority oversampling technique,SMOTE),用來(lái)解決隨機(jī)過采樣存在過擬合的問題；Tomek’s Links是對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗的一種關(guān)鍵性技術(shù)，用來(lái)清洗因?yàn)檫^采樣而產(chǎn)生的噪聲數(shù)據(jù)以及數(shù)據(jù)重疊、堆集的情況[7]。提高不平衡數(shù)據(jù)的分類準(zhǔn)確率是當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域研究的熱點(diǎn)之一[8]。

本文在軸承故障模擬實(shí)驗(yàn)中，運(yùn)用了過采樣與欠采樣結(jié)合的數(shù)據(jù)處理技術(shù)。首先，對(duì)少數(shù)類樣本使用高斯混合模型聚類算法進(jìn)行聚類；其次，根據(jù)簇密度分布函數(shù)計(jì)算簇密度；最后，在每個(gè)簇中使用改進(jìn)的 SMOTE 算法進(jìn)行過采樣，同時(shí)使用Tomek’s Links數(shù)據(jù)清洗技術(shù)進(jìn)行類內(nèi)清洗，達(dá)到類內(nèi)平衡；得到類內(nèi)平衡數(shù)據(jù)后再使用GMM-SMOTE算法進(jìn)行過采樣，同時(shí)運(yùn)用Tomek’s Links數(shù)據(jù)清洗技術(shù)進(jìn)行類間的清洗，得到不平衡技術(shù)處理好的新的樣本訓(xùn)練集。運(yùn)用主成分分析法(PCA)對(duì)所選特征進(jìn)行降維處理，并結(jié)合文中提出的技術(shù)路線生成數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,提出的方法對(duì)軸承故障數(shù)據(jù)不平衡條件下的數(shù)據(jù)生成和診斷具有較好的魯棒性，該方法具有較好的工程應(yīng)用前景。

1 理論基礎(chǔ)

1.1 GMM-SMOTE模型

為了提高少數(shù)類樣本的生成質(zhì)量，在下文所述理論的基礎(chǔ)上提出了GMM-SMOTE算法。

1.1.1 SMOTE算法

合成少數(shù)類過采樣技術(shù)SMOTE[6]，是基于隨機(jī)過采樣算法的一種改進(jìn)方案。由于隨機(jī)過采樣采取簡(jiǎn)單復(fù)制樣本的策略來(lái)增加少數(shù)類樣本，這樣容易產(chǎn)生模型過擬合的問題，即使得模型學(xué)習(xí)到的信息過于特別而不夠泛化，而SMOTE算法的基本思想是對(duì)少數(shù)類樣本進(jìn)行分析，并根據(jù)少數(shù)類樣本人工合成新樣本添加到數(shù)據(jù)集中。

SMOTE算法流程如下：

a.對(duì)于少數(shù)類中每1個(gè)樣本x，以歐氏距離為標(biāo)準(zhǔn)計(jì)算它到少數(shù)類樣本集中所有樣本的距離，得到其k近鄰。

b.根據(jù)樣本不平衡比例設(shè)置1個(gè)采樣比例以確定采樣倍率N，對(duì)于每1個(gè)少數(shù)類樣本x，從其k近鄰中隨機(jī)選擇若干個(gè)樣本。

c.對(duì)于x的每1個(gè)隨機(jī)選出的近鄰樣本xj，分別與原樣本按照式(1)構(gòu)建新的樣本。

xnew=x+rand(0,1)(xj-x)

(1)

x為原始不平衡故障數(shù)據(jù)樣本集；xj為x的第j個(gè)鄰近樣本，j=0,…,N；xnew為過采樣后新的樣本集；rand為0到1之間的1個(gè)隨機(jī)數(shù)。將新生成的樣本集與不平衡數(shù)據(jù)集組合,生成平衡后的數(shù)據(jù)集。

1.1.2 高斯混合聚類模型

混合模型是一個(gè)可以用來(lái)表示在總體分布中含K個(gè)子分布的概率模型，換句話說(shuō)，混合模型表示了觀測(cè)數(shù)據(jù)在總體中的概率分布，它是一個(gè)由K個(gè)子分布組成的混合分布。混合模型不要求觀測(cè)數(shù)據(jù)提供關(guān)于子分布的信息，來(lái)計(jì)算觀測(cè)數(shù)據(jù)在總體分布中的概率[9]。

a.高斯分布(多元)。對(duì)于n維樣本空間χ中的隨機(jī)向量x，若x服從高斯分布，其概率密度函數(shù)為

(2)

μ為n維均值向量；Σ為n×n的協(xié)方差矩陣。根據(jù)式(2)能夠清晰直觀地了解到，高斯分布主要取決于2個(gè)因素：一是均值向量，二是協(xié)方差矩陣。

b.高斯混合分布為

(3)

c.高斯混合聚類。高斯混合聚類是首先假設(shè)樣本集具有一些規(guī)律，包括以參數(shù)α作為比例分為k類,且每類內(nèi)符合高斯分布。然后根據(jù)貝葉斯原理利用極大似然法同時(shí)求出決定分類比例的α和決定類內(nèi)高斯分布的μ和Σ。最后將樣本根據(jù)α、μ和Σ再次通過貝葉斯原理求出樣本對(duì)應(yīng)的分布簇。通過找到可以刻畫樣本的原型(α、μ和Σ參數(shù))，迭代得到α、μ和Σ參數(shù)的最優(yōu)解。

1.1.3 GMM-SMOTE

GMM-SMOTE 算法流程如圖1所示，主要包括3個(gè)步驟：高斯混合模型聚類；計(jì)算簇密度分布函數(shù)；根據(jù)簇密度分布函數(shù)確定采樣權(quán)重。

圖1 GMM-SMOTE算法流程

a.對(duì)于不平衡的少數(shù)類數(shù)據(jù)進(jìn)行高斯混合模型聚類，得到簇劃分。

b.根據(jù)式(4)計(jì)算簇的密度分布函數(shù)，得到不同簇所對(duì)應(yīng)采樣權(quán)重。原始少數(shù)類樣本經(jīng)過高斯混合模型聚類之后，得到不同簇，為了解決類內(nèi)不平衡的問題，對(duì)于每個(gè)聚類簇，簇密度分布函數(shù)如式(4)所示,即為簇中所包含樣本點(diǎn)的個(gè)數(shù)與其他所包含樣本點(diǎn)構(gòu)成的超球體體積的比例型函數(shù)[10]。

(4)

NCi為簇中樣本點(diǎn)的個(gè)數(shù)；vol(S(ri))為簇中樣本點(diǎn)構(gòu)成的超球體體積；ri為簇中離質(zhì)心最遠(yuǎn)的樣本點(diǎn)到質(zhì)心的歐氏距離；Ci為第i個(gè)簇。簇密度分布函數(shù)值越大，代表簇中的數(shù)據(jù)分布越密集。

c.根據(jù)步驟b得到的采樣權(quán)重對(duì)不同簇進(jìn)行SMOTE過采樣，解決少數(shù)類樣本簇內(nèi)不平衡問題。

1.2 Tomek’s Links數(shù)據(jù)清洗

Tomek’s Links是對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗的一種關(guān)鍵性技術(shù)，可以用來(lái)清洗因?yàn)檫^采樣而產(chǎn)生的噪聲數(shù)據(jù)以及數(shù)據(jù)重疊、堆集的情況[7]。

樣本A與樣本B為2個(gè)不同的類別，當(dāng)滿足不存在其他樣本C使得d(A,C)

圖2 Tomek’s Link原理示意

2 基于數(shù)據(jù)預(yù)處理-不平衡技術(shù)處理的故障診斷方法

本文著重探索不平衡技術(shù)在軸承故障中應(yīng)用，即用少量數(shù)據(jù)訓(xùn)練出一個(gè)能夠診斷多種故障類型模型研究。主要的技術(shù)路線可以分為數(shù)據(jù)預(yù)處理模塊與不平衡技術(shù)應(yīng)用模塊。

2.1 數(shù)據(jù)處理模塊

本次實(shí)驗(yàn)選擇UT6818的機(jī)械振動(dòng)故障模擬實(shí)驗(yàn)臺(tái)，如圖3所示。利用模擬故障實(shí)驗(yàn)，采集故障類型為正常、外圈故障、內(nèi)圈故障和滾動(dòng)體故障4種信號(hào)(轉(zhuǎn)速為600 r/min，采樣頻率為25.6 kHz)。

圖3 故障模擬實(shí)驗(yàn)臺(tái)

數(shù)據(jù)預(yù)處理模塊對(duì)采集的信號(hào)進(jìn)行特征提取、PCA特征降維，確定最終的不平衡數(shù)據(jù)集。

a.故障模擬實(shí)驗(yàn)臺(tái)數(shù)據(jù)特征提取。為使不同類型的數(shù)據(jù)可以更好地代表各自的故障信息，將故障模擬實(shí)驗(yàn)臺(tái)實(shí)驗(yàn)采集到的1×256 000的每組信號(hào)分為250×1 024的大小用于特征提取，在每1 024個(gè)點(diǎn)中提取時(shí)頻域共11個(gè)特征指標(biāo)，分別為有效值、標(biāo)準(zhǔn)差、裕度、峭度、峭度因子、能量、峰值指標(biāo)、波形因子、脈沖因子、峰值系數(shù)和裕度因子。

經(jīng)過特征提取后將變成大小為250×11的特征數(shù)據(jù)矩陣。

b.PCA特征約減。提取特征兩兩之間交互，通過繪制的特征提取散點(diǎn)圖發(fā)現(xiàn)部分特征混淆，為提高數(shù)據(jù)處理速度，用主成分分析法對(duì)提取的11個(gè)特征進(jìn)行特征約減處理，選擇累計(jì)主元貢獻(xiàn)率為98%的4個(gè)主成分[11]。經(jīng)過PCA約減后保留的4個(gè)主成分貢獻(xiàn)率如表1所示。

表1 主成分貢獻(xiàn)率情況

c.不平衡數(shù)據(jù)集的構(gòu)造。采集信號(hào)經(jīng)過特征提取與PCA特征約減后，各工況的數(shù)據(jù)大小為250×4；選取故障類型為正常、外圈和滾動(dòng)體故障160組，故障類型為內(nèi)圈故障的20組作為少數(shù)樣本，建立初始不平衡數(shù)據(jù)集。4種工況選取剩余的90組作為測(cè)試集。數(shù)據(jù)集的樣本不平衡率為12.5%(不平衡率的計(jì)算為少數(shù)類數(shù)據(jù)20組與正常數(shù)量160組的比值)。不平衡數(shù)據(jù)集的情況如表2所示。

表2 不平衡數(shù)據(jù)集情況

2.2 不平衡技術(shù)應(yīng)用模塊

故障模擬實(shí)驗(yàn)臺(tái)采集的信號(hào)經(jīng)過數(shù)據(jù)預(yù)處理模塊后，將2種少數(shù)類樣本(內(nèi)圈和滾動(dòng)體故障)通過該模塊生成為充足數(shù)量樣本。本模塊為研究重點(diǎn)，不平衡技術(shù)模塊的流程如圖4所示。

圖4 不平衡技術(shù)處理訓(xùn)練集模塊

具體步驟如下：

a.少數(shù)類高斯混合模型聚類進(jìn)行簇劃分，得到每個(gè)樣本所對(duì)應(yīng)的簇。

b.計(jì)算簇密度分布函數(shù)確定每個(gè)簇的采樣權(quán)重，根據(jù)采樣權(quán)重對(duì)每個(gè)簇進(jìn)行GMM-SMOTE過采樣,形成類內(nèi)平衡的數(shù)據(jù)集。

c.根據(jù)初始不平衡率確定少數(shù)類與多數(shù)類的過采樣倍率N，使用GMM-SMOTE進(jìn)行過采樣后，使用Tomek’s Links進(jìn)行數(shù)據(jù)清洗，直至不再清洗掉生成樣本為止，生成最終的訓(xùn)練集。若2種特征邊界清晰，并不存在任何1組Tomek’s Links，則直接按照N生成，不會(huì)進(jìn)行Tomek’s Links數(shù)據(jù)清洗。

d.將步驟c中生成的故障樣本與其他3種正常數(shù)量的樣本組成訓(xùn)練集，并送入SVM模型中訓(xùn)練，剩余的90組作為測(cè)試集進(jìn)行算法驗(yàn)證。

3 實(shí)驗(yàn)結(jié)果分析

采用數(shù)據(jù)預(yù)處理-不平衡技術(shù)的處理后，將平衡后的數(shù)據(jù)送入SVM模型[12]中進(jìn)行故障診斷，并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行規(guī)范合理、全面細(xì)致的檢驗(yàn)。

3.1 評(píng)價(jià)指標(biāo)

a.根據(jù)傳統(tǒng)為二分類問題混淆矩陣，建立軸承故障診斷中的多分類問題混淆矩陣。

分類的混淆矩陣如表3所示。TN、TI、TO、TR為各種工況被正確分類的樣本；FIN為內(nèi)圈故障工況被誤判為正常工況的樣本；FNI為正常工況被誤判為內(nèi)圈故障工況的樣本。此混淆矩陣的信息以此類推。

表3 多分類混淆矩陣

通過查準(zhǔn)率(precision)、G-mean和正確率(accuracy)等指標(biāo)客觀準(zhǔn)確地評(píng)估診斷性能。其中，查準(zhǔn)率表示為正常狀態(tài)的查準(zhǔn)率；G-mean為少數(shù)類分類精度與多數(shù)類分類精度的集合平均值，可以用來(lái)衡量數(shù)據(jù)集的整體性能；正確率則是支持向量機(jī)模型(SVM)的整體分類準(zhǔn)確率。

b.費(fèi)舍爾(Fisher)準(zhǔn)則。費(fèi)舍爾(Fisher)準(zhǔn)則中，判別函數(shù)的系數(shù)是按照類內(nèi)差異最小和類間差異最大同時(shí)兼顧的原則，來(lái)確定判別函數(shù)[13]。使用分散度作為標(biāo)準(zhǔn)偏差的度量，類內(nèi)離散度矩陣Si如式(5)所示,總類內(nèi)離散度矩陣Sw如式(6)所示，類間分散度矩陣SB如式(7)所示，其中mi為各類樣本的均值向量。

(5)

Sw=S1+S2

(6)

SB=(m1-m2)(m1-m2)T

(7)

通過Fisher準(zhǔn)則，計(jì)算算法改進(jìn)前后的類內(nèi)距離以及不同工況下的類間距離，可以有效地說(shuō)明算法改進(jìn)前后生成數(shù)據(jù)的變化。此評(píng)價(jià)標(biāo)準(zhǔn)對(duì)實(shí)驗(yàn)結(jié)果分析非常適用。

3.2 結(jié)果分析

故障模擬實(shí)驗(yàn)臺(tái)數(shù)據(jù)經(jīng)過技術(shù)路線處理后，根據(jù)不平衡率確定過采樣倍數(shù)N，利用初始過采樣倍數(shù)N=4進(jìn)行過采樣，同時(shí)經(jīng)過Tomek’s Links進(jìn)行清洗，算法最終生成的樣本個(gè)數(shù)(內(nèi)圈故障)與Tomek’s Links清洗后保留的情況如圖5所示。可以看出,最終生成的內(nèi)圈故障樣本為162個(gè)。當(dāng)再次過采樣時(shí)則生成648個(gè)樣本，Tomek’s Links不再清除樣本。

圖5 算法樣本生成情況

將算法生成的162個(gè)內(nèi)圈故障樣本與其他3種正常數(shù)量為160組的故障樣本構(gòu)成最終的訓(xùn)練集，送入支持向量機(jī)模型中進(jìn)行訓(xùn)練，并用4種工況剩余的90組作為測(cè)試集進(jìn)行驗(yàn)證，算法分類效果驗(yàn)證如圖6所示。其中，標(biāo)簽0、1、2、3對(duì)應(yīng)軸承的正常工況、外圈故障、內(nèi)圈故障、滾動(dòng)體故障4種故障類型。由圖6可知，SVM的分類準(zhǔn)確率為98.28%，經(jīng)過算法生成的故障樣本訓(xùn)練后在分類器上具有良好的分類效果。

圖6 SVM算法分類效果驗(yàn)證

改進(jìn)后的算法與原始SMOTE算法的各個(gè)指標(biāo)之間的對(duì)比如表4所示。通過表4可以看出，改進(jìn)后的算法在G-mean值上由原來(lái)的89.16%提升到98.12%，提升了8.96%；SVM的分類準(zhǔn)確率由90.01%提升到98.28%，提升了8.27%。評(píng)價(jià)指標(biāo)的明顯提升，充分說(shuō)明了改進(jìn)后的算法生成的故障樣本具有更好的分類效果。

表4 算法改進(jìn)前后指標(biāo)變化

為了驗(yàn)證算法生成數(shù)據(jù)的有效性，得到更多算法改進(jìn)前后類內(nèi)類間的變化關(guān)系。根據(jù)Fisher準(zhǔn)則，分別計(jì)算算法改進(jìn)前后生成數(shù)據(jù)的類內(nèi)間距和改進(jìn)前后的不同類的類外間距，類內(nèi)間距的變化如表5所示，不同類的類外間距如表6所示。

表5 算法改進(jìn)前后類內(nèi)間距(標(biāo)準(zhǔn)歐式距離)對(duì)比

表6 算法改進(jìn)前后類外間距(標(biāo)準(zhǔn)歐氏距離)對(duì)比

通過改進(jìn)前后的類內(nèi)類間的間距,可以看出算法生成的數(shù)據(jù)各個(gè)特征之間類內(nèi)間距下降，類外間距特征之間距離變大。改進(jìn)后算法生成的數(shù)據(jù)具有更好的可分性。

4 結(jié)束語(yǔ)

本文利用模擬實(shí)驗(yàn)臺(tái)數(shù)據(jù)，創(chuàng)建不平衡數(shù)據(jù)集并進(jìn)行提出的技術(shù)路線處理后，得到生成得到故障樣本數(shù)據(jù)，結(jié)合SVM模型進(jìn)行故障診斷，可以得到以下結(jié)論：

a.改進(jìn)的SMOTE算法與Tomek’s Links數(shù)據(jù)清洗技術(shù)結(jié)合后的技術(shù)路線具有良好的數(shù)據(jù)生成效果，比原始SMOTE算法在分類準(zhǔn)確率上提升了8.27%，特征的類內(nèi)類間距也有較好的可分性，可以明顯提高分類器的分類性能。

b.數(shù)據(jù)預(yù)處理-不平衡技術(shù)在設(shè)備數(shù)據(jù)不平衡條件下進(jìn)行故障診斷取得了較好的診斷率，具有一定的實(shí)際工程應(yīng)用性。